La media viene calcolata sommando tutti i valori in un set di dati e quindi dividendo la somma per il numero totale di valori. Rappresenta la tendenza centrale dei dati.
Formula: Media = (Σx) / n
Dove:
- La media è la media
- Σx è la somma di tutti i valori nel set di dati
- n è il numero totale di valori nel set di dati
La mediana è il valore centrale in un set di dati quando i valori sono disposti in ordine crescente.
Se il numero di valori è pari, la mediana è la media dei due valori medi.
Formula (numero dispari di valori): Mediana = valore medio
Formula (numero pari di valori): Mediana = (Valore alla posizione n/2 + Valore alla posizione (n/2 + 1)) / 2
Il minimo è il valore più piccolo in un set di dati.
Formula: Minimo = Valore più piccolo
Il massimo è il valore più grande in un set di dati.
Formula: massimo = valore più grande
L'intervallo è la differenza tra i valori massimo e minimo in un set di dati. Fornisce una misura della diffusione o della variabilità dei dati.
Formula: Intervallo = Massimo - Minimo
L'intervallo medio è la media dei valori massimo e minimo in un set di dati.
Formula: Intervallo medio = (Massimo + Minimo) / 2
Il conteggio rappresenta il numero totale di valori in un set di dati.
La somma è il totale di tutti i valori in un set di dati.
Formula: Somma = Σx
Dove:
- Σx è la somma di tutti i valori nel set di dati
Un percentile rappresenta il valore al di sotto del quale cade una determinata percentuale di dati. Viene spesso utilizzato per identificare punti dati specifici in una distribuzione.
Un quartile divide un set di dati in quattro parti uguali, ciascuna delle quali contiene il 25% dei dati. I quartili vengono spesso utilizzati per valutare la diffusione dei dati.
La somma dei quadrati è la somma dei quadrati delle differenze tra ciascun punto dati e la media. È un componente chiave nel calcolo della varianza e della deviazione standard.
Formula: Somma dei quadrati = Σ(x - Media)²
Dove:
- Σ rappresenta il simbolo di sommatoria
- x è ogni punto dati
- La media è la media (media) del set di dati
La deviazione standard misura la quantità di variazione o dispersione in un set di dati. Indica la distanza dei punti dati dalla media.
Formula: Deviazione standard = √(Σ(x - Media)² / (n - 1))
Dove:
- √ rappresenta la radice quadrata
- Σ rappresenta il simbolo di sommatoria
- x è ogni punto dati
- La media è la media (media) del set di dati
- n è il numero totale di valori nel set di dati
La varianza è una misura della diffusione o dispersione di un set di dati. È la media delle differenze al quadrato tra ciascun punto dati e la media.
Formula (varianza della popolazione): varianza (σ²) = Σ(x - media)² / N
Dove:
- Σ rappresenta il simbolo di sommatoria
- x è ogni punto dati
- La media è la media (media) del set di dati
- N è il numero totale di valori nella popolazione
Nota: quando si lavora con un campione di dati, utilizzare la formula della varianza del campione, che divide per (N - 1) anziché per N. Questa correzione tiene conto della distorsione del campione.
Il punteggio Z misura il numero di deviazioni standard di un punto dati dalla media in una distribuzione normale standard. Viene utilizzato per standardizzare i dati e valutare la loro posizione rispetto alla media.
Formula: punteggio Z = (x - media) / deviazione standard
Dove:
- x è il punto dati
- La media è la media (media) del set di dati
- La deviazione standard è la deviazione standard del set di dati
L'intervallo interquartile è l'intervallo tra il primo quartile (Q1 - 25° percentile) e il terzo quartile (Q3 - 75° percentile) in un set di dati. Fornisce una misura della diffusione del 50% centrale dei dati.
Formula: IQR = Q3 - Q1
Dove:
- Q1 è il primo quartile (25° percentile)
- Q3 è il terzo quartile (75° percentile)
Il coefficiente di variazione è una misura relativa della variabilità ed è espresso in percentuale. Viene utilizzato per confrontare la deviazione standard dei dati con la sua media, rendendolo utile per valutare la variabilità relativa tra set di dati con medie diverse.
Formula: CV = (Deviazione standard/Media) * 100%
L'asimmetria misura l'asimmetria della distribuzione di probabilità di una variabile casuale a valori reali. Indica se i dati sono inclinati a destra o a sinistra.
Un'inclinazione positiva indica che la coda della distribuzione è inclinata a destra (asimmetrica a destra), il che significa che ci sono valori più estremi sul lato destro della distribuzione.
Un'inclinazione negativa indica che la coda della distribuzione è inclinata a sinistra (asimmetria a sinistra), il che significa che ci sono valori più estremi sul lato sinistro della distribuzione.
La Kurtosi misura la "codificazione" della distribuzione di probabilità di una variabile casuale a valori reali. Indica la presenza e il grado di valori anomali nei dati.
Una curtosi positiva (leptocurtica) indica code pesanti e un picco, il che significa che i dati hanno valori più estremi e sono più picchi rispetto a una distribuzione normale.
Una curtosi negativa (platykurtica) indica code leggere e una distribuzione più piatta, il che significa che i dati hanno meno valori estremi e sono più piatti di una distribuzione normale.
La covarianza misura il grado con cui due variabili cambiano insieme. Indica se le variabili hanno una relazione lineare positiva o negativa.
Formula: Cov(X, Y) = Σ((X - Media(X)) * (Y - Media(Y))) / (n - 1)
Dove:
- Σ rappresenta il simbolo di sommatoria
- X e Y sono variabili
- Media(X) e Media(Y) sono rispettivamente le medie di X e Y
- n è il numero totale di osservazioni
Se la covarianza è positiva indica una relazione positiva (X tende ad aumentare all'aumentare di Y).
Se la covarianza è negativa indica una relazione negativa (X tende a diminuire quando Y aumenta).
Il coefficiente di correlazione misura la forza e la direzione della relazione lineare tra due variabili. È una versione normalizzata della covarianza che varia da -1 a 1.
Formula: r = Cov(X, Y) / (Deviazione standard(X) * Deviazione standard(Y))
Dove:
- Cov(X, Y) è la covarianza tra X e Y
- La deviazione standard (X) e la deviazione standard (Y) sono rispettivamente le deviazioni standard di X e Y
Se |r| è vicino a 1, indica una forte relazione lineare, con r positivo che indica una correlazione positiva e r negativo che indica una correlazione negativa. Se |r| è vicino a 0, indica una relazione debole o assente.
Ultimo aggiornamento: 19 gennaio 2024
Emma Smith ha conseguito un master in inglese presso l'Irvine Valley College. Giornalista dal 2002, scrive articoli sulla lingua inglese, lo sport e il diritto. Leggi di più su di me su di lei pagina bio.