Statistica con Libre Office Calc: Come fare?

Scusate l’assenza! Siamo tornati.. e lo facciamo cercando di ampliare sempre di più le nostre conoscenze in ambito economico, dell’impresa, andando a vedere come creare diagrammi statistici e elaborare dati con Libre Office Calc.
Questo è uno strumento molto utile per capire il trend del mercato globale, ma soprattutto gestire in modo grafico e immediato tutti le informazioni riguardanti l’azienda.
Nell’ articolo andrò a introdurre alcuni concetti relativi alla statistica e al calcolo della probabilità, per poi spiegare come questi vengono implementati in Libre Office Calc ( in seguito chiamato più semplicemente L.O.C.), portando qualche esempio tale da rendere più chiari i concetti espressi teoricamente.


Tutti abbiamo, chi più chi meno, sentito parlare di Statistica.
Il perché appare chiaro..

Fare statistica è fondamentale, in ogni ambito, sia economico che politico ma anche per effettuare sondaggi di opinione, permette di fare delle previsioni future facendo riferimento a formule matematiche che cercano di dare maggiore certezza e veridicità alle future previsioni.

Nella comune statistica, abbiamo a disposizione solo un‘informazione parziale: l’obiettivo quindi è quello di ottenere una generalizzazione sulla base delle informazioni. E’ FONDAMENTALE quindi il calcolo della probabilità, che ci permette di misurare, attraverso un valore numerico, quanto è verosimile che quelle evento accada.

1- Calcolo delle probabilità

Andremo ora velocemente a ricordare il significato di alcuni dei suoi concetti, come ad esempio:

  • Esperimento = osservazione di un fenomeno che presenta variabilità nei suoi risultati
  • Spazio campionario = insieme di tutti gli esisti di un esperimento
  • Evento = risultato di un esperimento, sottoinsieme dello spazio campionario

Intorno a questi elementi, girano tutte le formule (“di Bayes”..) per calcolare la probabilità che quell’evento accada: queste formulette sono abbastanza intuitive, preferirei andare avanti nella descrizioni di concetti più complessi.

  • Variabili Aleatorie = quando il risultato di un esperimento è un valore numerico, la variabile associa questo valore al risultato di un esperimento. Possono essere discrete o continue.
  • Modelli di Variabili Aleatorie: le variabili associano a quel valore la probabilità che assuma quel valore p(i) = P (X)
    con l’insieme {p(i)….p(n)} che assume il nome di distribuzione di probabilità.
    Ne sono presenti diverse, tra cui le più importanti sono:
    Distribuzione Binomiale:
    Distribuzione di Poisson

2 – La Statistica

Informatici vi siete già annoiati? La matematica non fa per voi (noi)?
Ecco allora che l’attesa può dirsi conclusa.

Inizieremo ora a parlare di Libre Office, e quindi ad utilizzare il PC, cosa che ha spinto tutti voi lettori a leggere quest’ articolo. Vedremo come la statistica può essere applicata al mondo Libre Office, per poi entrare più nello specifico e vedere come calcolare le differenti proprietà.

Ah una precisazione: il nostro blog ha come altro elemento cardine Linux e il mondo Open Source. Ecco speigato il perchè di Libre Office Calc, che ha le stesse funzionalità e potenzialità di Excel, con l’unico vantaggio di essere scaricabile gratis e senza inserire alcun product key!:D

Allora, definiamo il concetto di statistica.

Può essere considerata la disciplina scientifica che si occupa di:
1. Raccolta dati
2. Descrizione dei dati
3. Interpretazione dei dati

2.1 – Statistica Descrittiva

E’ il ramo su cui non ci concentreremo. Si organizza in fasi quali:

  • Raccolta dati
  • Organizzazione dei dati in tabelle
  • Sintesi dei dati tramite indici per descrizione

FONDAMENTALE per ogni analisi statistica è avere informazione REALE. La tipologia descrittiva permette di sintetizzare e descrivere, una volta raccolti i dati, le loro caratteristiche.

Per capirci meglio, tutto ciò si può applicare, ad esempio per effettuare delle stime in ambito biologico, come nella riproduzione delle piante: per fare crescere la produzione di cibo, gli scienziati sviluppano ibiridi formati da diverse piante. Queste nuove specie devono essere confrontate con quelle esistenti, analizzando i diversi campioni e confrontandoli in basi a svariati parametri come la capacità di riprodursi o di resistere alle malattie.

Gli elementi che contraddistinguono un analisi di questo genere riguardano ovviamente strutture matematiche come le variabili x, che descrivono la grandezza che varia all’interno dell’unità su cui si svolgono le osservazioni, la frequenza assoluta e quella relativa.

Le distribuzioni di frequenze invece, sono la rappresentazione del modo in cui le diverse modalità in cui  si distribuiscono le tipologie di dati nelle unità statistiche che compongono l’oggetto di studio, e mpossono essere rappresentati mediante dei grafi caricati in LOC (Libre Office Calc) come ad esempio:

  • Aereogrammi a torta
  • Diagrammi di pareto
  • Istogrammi

Gli indici sintetici dei dati, d’altro canto, danno le informazioni quantitative sull’ordine di grandezza delle osservazioni (media, mediana, moda) e sulla variabilità delle osservazioni( deviazione della media, deviazione standard del campione e simmetria)

=> INDICI DI PRESTAZIONI E GRAFICI SONO FACILMENTE IMPLEMENTABILI SU LIBRE OFFICE CALC.

Operiamo un iniziale paragone con Excel: mentre in quest’ultimo caso dobbiamo installare il componente aggiuntivo di default e attivarlo, nel caso di LOC sono inserite tutte le operazioni che ci permettono di effettuare una prima analisi statistica descrittiva.

E’ necessario aprire ovviamente il software, inserire i dati raccolti su di una colonna o una riga, cliccare su “Dati” → “Statistiche” e scegliere “Statistiche descrittive”: qui verrà richiesto l’intervallo di dati da analizzare, e le righe/colonne nella quale verranno calcolati tutti gli indici AUTOMATICAMENTE, tra cui Media, Varianza, Moda ecc..

Se prendiamo come esempio questo problema:

Problema
Consideriamo i seguenti rilevamenti delle emissioni giornaliere (in tonnellate) di anidride solforosa di un impianto industriale alcune delle quali sono riportate di seguito:
a) Fare la statistica descrittiva dei dati (media varianza ecc.)
b) Costruire la distribuzione di frequenza e disegnare il relativo istogramma
c) A partire dai dati raggruppati nella tabella si calcolino la media la moda la varianza e la deviazione standard.
d) Calcolare l’ intervallo di fiducia per il livello medio di anidride solforosa con un grado di fiducia pari a 95%.

Ed i relativi dati:

Dati Raccolti
12,5 10,1 14,8 17,3 16.1 18,4 8,0 14,6 15,8 8,6 11,5 10,1 9,8 12,9 12,3 7,1 13,8 13,2 15,5 14,3 13,4 14,3 14,4 14,0 10,8 13,0 17,9 16,3 19,9 12,6 17,2 9,3 15,5 16,4 20,8 10,0 13,9 12,8 11,3 18,0 9,7 10,2 10,9 15,2

Per risolvere il punto A, basta applicare i concetti ed i passaggi prima citati. E’ importante fare bene ogni piccolo passaggio poiché ogni risultato ed operazione è legata alla precedente.

Avremo quindi una situazione di questo tipo:

Schermata del 2015-11-25 10:41:32
Come fare ora per risolvere il punto B?

Vengono qui richiesti gli elementi principali del problema: abbiamo bisogno, ovvero, di calcolarci ii valore della frequenza e disegnare il relativo istogramma.

Vedremo ora passo per passo come fare:

  1. Innanzitutto mi calcolo il numero dei dati, tramite la funzione di Libre “=CONTA.NUMERI(..)” indicando come parametri le celle che contengono quei valori, selezionate tramite lo scorrimento del mouse sui dati.
  2. Mi devo ricavarmi il numero delle classi, cioè degli intervalli di uguale lunghezza che ricoprono tutti i dati dal minimo al massimo senza sovrapposizione.
    La formula per calcolarli è elementare:

                                                             √n

    con n numero degli elementi prima calcolato che volendo, per semplicità, si può approssimare.

    Il tutto è possibile digitando nella cella “=RADQ(..))

  3. Viene richiesta poi l’ampiezza delle classi, data dall’intervallo (valore ricavabile dalla tabella prima definita) diviso il numero delle classi.

Ecco ora che dovremmo determinare in modo dettagliato le classi e i rispetti estremi.
Iniziamo sommando al minimo valore l’ampiezza delle classi: al risultato si aggiunge ancora una volta l’ampiezza fino ad arrivare ad ottenere il numero di classi e il valore dell’massimo dei dati prima raccolti.
Infine mi calcolo la frequenza della classe, ovvero il numero di dati che appartengono a ciascuna classe.

“Perchè tutti questi calcoli preliminari? A cosa mi servono?” Vi chiederete.

Risposta: istogramma.

In questo caso il problema ci chiede di disegnare l’istogramma relativo alla distribuzione delle frequenze. Prenderemo quindi come valori di x l’estremo superiore e di y i valori delle frequenza calcolate in precedenza.

L’istogramma, o diagramma a barre, è utilizzato per rappresentare le distribuzioni di variabili categoriche e di frequenza, sia variabili numeriche discrete o numeriche con pochi valori. Ad ogni classe corrisponde una barra, con l’altezza che simboleggia la frequenza di quella classe.

Disegnarlo è davvero molto elementare. Anzi, a dir la verità, è molto più semplice definire un diagramma a barre con L.O.C che con Excel: mentre con quest’ ultimo bisogna definire la x e la y, inserire le etichette, con Libre Office è necessario solo selezionare la distribuzione dei dati (incluse le etichette, in questo caso Estr.Sup e Frequenza) ed il software automaticamente definirà il grafo :D.

Ed ecco il risultato!

Schermata del 2015-11-27 12:17:54

 

Anche per risolvere il punto C dobbiamo effettuare alcuni calcoli preliminari, per calcolarci poi la media, la moda, la varianza e la deviazione standard. Definiamole più nel dettaglio:

  1. Media: indice sintetico dei dati che ci da informazioni quantitative sull’ordine di grandezza delle osservazioni, localizzando l valore centrale di una distribuzione di frequenza.
    Calcolo:
    1) Mi ricavo il valore centrale della classe, prendendo l’estremo inferiore e l’estremo superiore e dividendolo per due
    2) Moltiplico questi valori per ogni frequenza relativa alla classe presa in considerazione
    3) Sommo questi valoriLa media quindi è ii rapporto tra la sommatoria dei valori centrali delle classi moltiplicati per le loro frequenze, e il numero di classi

    x = ( ∑x(i) * f(i)) / n

    con f(i) la Frequenza

  2. Varianza: fornisce una misura della variabilità dei valori assunti dalla variabile, nello specifico, di quanto essi si discostino quadraticamente rispettivamente dalla media aritmetica o dal valore atteso. Infatti essa è definita come il rapporto tra la sommatoria dei valori medi delle classi al quadrato moltiplicato per la frequenza, e la differenza tra il numero dei dati raccolti e la media prima calcolata. Per capirci:


    (∑ x(i)^2 * f(i)) ) / (n – x^2)

    Calcolo:
    1) Espressione x(i)^2 *f(i)
    2) Tramite l’opzione “SOMMA” (utilizzabile anche per il calcolo precedente) ottengo la somma dei risultati prima ottenuti
    3) Una volta ricavati questi dati inserendo un “ =” nella cella desiderata e selezionando le celle contenenti il risultato        dell’operazione al punto 2, n e la media al quadrato, si ottiene finalmente il valore della varianza.

  3. Moda : è il valore più frequente nella distribuzione dei dati
  4. Deviazione standard: è la radice quadrata della varianza
    Calcolo:
    1) “=RADQ” (cella con all’interno valore varianza)Schermata del 2015-12-06 11:35:51

 

 

Alla consueta analisi statistica offerta da Libre Office, abbiamo aggiunto il calcolo dell’intervallo di fiducia, da non sottovalutare: infatti, quando si stima  un parametro, la semplice individuazione di un singolo valore è spesso non sufficiente. È opportuno allora accompagnare questa stima con un intervallo di valori plausibili per quel parametro, che viene definito intervallo di confidenza (o intervallo di fiducia).

La teoria ci viene in aiuto, garantendoci il livello di confidenza che può essere scelto tra il 90 % 95% o 99%.

Abbiamo scelto un livello di fiduca del 95 per cento (95,0 %) e calcolato poi gli estremi dell’intervallo tramite la differenza tra media e livello di fiducia, estermo inferiore e la somma nel caso dell’estremo superiore.

Ah un’informazione che agevolerà la vostra esecuzione.

Generalizziamo quello che ho citato in precedenza: per effettuare operazioni come la somma e la sottrazione, basta dirigersi verso la barra delle formule di Libre Office (per intenderci, quella nella quale è anteposta una sommatoria), inserire il simbolo “=” e selezionare i due operandi, le due celle sulle quali dobbiamo operare.


Siamo arrivati alla conclusione dell’articolo.

Questa che ho appena descritto, tutti i passi per operare un analisi descrittiva ad una tipologia di problema come quello preso in esempio, è solo una delle possibili implementazioni che in Libre Office Calc o Excel, può avere sfogo la statistica.

Quindi non esistate a commentare, in modo tale da proporvi in futuro ulteriori articoli riguardanti questo tema.

Se volete avere il problema preso come esempio in Libre Office, contattaci e avrete tutto l’occorrente!

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *