Formule statistiche

Significare

La media viene calcolata sommando tutti i valori in un set di dati e quindi dividendo la somma per il numero totale di valori. Rappresenta la tendenza centrale dei dati.

Formula: Media = (Σx) / n

Dove:

La media è la media
Σx è la somma di tutti i valori nel set di dati
n è il numero totale di valori nel set di dati

Mediano

La mediana è il valore centrale in un set di dati quando i valori sono disposti in ordine crescente.

Se il numero di valori è pari, la mediana è la media dei due valori medi.

Formula (numero dispari di valori): Mediana = valore medio

Formula (numero pari di valori): Mediana = (Valore alla posizione n/2 + Valore alla posizione (n/2 + 1)) / 2

Minimo

Il minimo è il valore più piccolo in un set di dati.

Formula: Minimo = Valore più piccolo

Massimo

Il massimo è il valore più grande in un set di dati.

Formula: massimo = valore più grande

Escursione

L'intervallo è la differenza tra i valori massimo e minimo in un set di dati. Fornisce una misura della diffusione o della variabilità dei dati.

Formula: Intervallo = Massimo - Minimo

midrange

L'intervallo medio è la media dei valori massimo e minimo in un set di dati.

Formula: Intervallo medio = (Massimo + Minimo) / 2

Contare

Il conteggio rappresenta il numero totale di valori in un set di dati.

Somma

La somma è il totale di tutti i valori in un set di dati.

Formula: Somma = Σx

Dove:

Σx è la somma di tutti i valori nel set di dati

percentile

Un percentile rappresenta il valore al di sotto del quale cade una determinata percentuale di dati. Viene spesso utilizzato per identificare punti dati specifici in una distribuzione.

Quartile

Un quartile divide un set di dati in quattro parti uguali, ciascuna delle quali contiene il 25% dei dati. I quartili vengono spesso utilizzati per valutare la diffusione dei dati.

Somma dei quadrati

La somma dei quadrati è la somma dei quadrati delle differenze tra ciascun punto dati e la media. È un componente chiave nel calcolo della varianza e della deviazione standard.

Formula: Somma dei quadrati = Σ(x - Media)²

Dove:

Σ rappresenta il simbolo di sommatoria
x è ogni punto dati
La media è la media (media) del set di dati

Deviazione Standard

La deviazione standard misura la quantità di variazione o dispersione in un set di dati. Indica la distanza dei punti dati dalla media.

Formula: Deviazione standard = √(Σ(x - Media)² / (n - 1))

Dove:

√ rappresenta la radice quadrata
Σ rappresenta il simbolo di sommatoria
x è ogni punto dati
La media è la media (media) del set di dati
n è il numero totale di valori nel set di dati

Varianza

La varianza è una misura della diffusione o dispersione di un set di dati. È la media delle differenze al quadrato tra ciascun punto dati e la media.

Formula (varianza della popolazione): varianza (σ²) = Σ(x - media)² / N

Dove:

Σ rappresenta il simbolo di sommatoria
x è ogni punto dati
La media è la media (media) del set di dati
N è il numero totale di valori nella popolazione

Nota: quando si lavora con un campione di dati, utilizzare la formula della varianza del campione, che divide per (N - 1) anziché per N. Questa correzione tiene conto della distorsione del campione.

Z-Score

Il punteggio Z misura il numero di deviazioni standard di un punto dati dalla media in una distribuzione normale standard. Viene utilizzato per standardizzare i dati e valutare la loro posizione rispetto alla media.

Formula: punteggio Z = (x - media) / deviazione standard

Dove:

x è il punto dati
La media è la media (media) del set di dati
La deviazione standard è la deviazione standard del set di dati

Gamma interquartile (IQR)

L'intervallo interquartile è l'intervallo tra il primo quartile (Q1 - 25° percentile) e il terzo quartile (Q3 - 75° percentile) in un set di dati. Fornisce una misura della diffusione del 50% centrale dei dati.

Formula: IQR = Q3 - Q1

Dove:

Q1 è il primo quartile (25° percentile)
Q3 è il terzo quartile (75° percentile)

Coefficiente di variazione (CV)

Il coefficiente di variazione è una misura relativa della variabilità ed è espresso in percentuale. Viene utilizzato per confrontare la deviazione standard dei dati con la sua media, rendendolo utile per valutare la variabilità relativa tra set di dati con medie diverse.

Formula: CV = (Deviazione standard/Media) * 100%

skewness

L'asimmetria misura l'asimmetria della distribuzione di probabilità di una variabile casuale a valori reali. Indica se i dati sono inclinati a destra o a sinistra.

Un'inclinazione positiva indica che la coda della distribuzione è inclinata a destra (asimmetrica a destra), il che significa che ci sono valori più estremi sul lato destro della distribuzione.

Un'inclinazione negativa indica che la coda della distribuzione è inclinata a sinistra (asimmetria a sinistra), il che significa che ci sono valori più estremi sul lato sinistro della distribuzione.

curtosi

La Kurtosi misura la "codificazione" della distribuzione di probabilità di una variabile casuale a valori reali. Indica la presenza e il grado di valori anomali nei dati.

Una curtosi positiva (leptocurtica) indica code pesanti e un picco, il che significa che i dati hanno valori più estremi e sono più picchi rispetto a una distribuzione normale.

Una curtosi negativa (platykurtica) indica code leggere e una distribuzione più piatta, il che significa che i dati hanno meno valori estremi e sono più piatti di una distribuzione normale.

covarianza

La covarianza misura il grado con cui due variabili cambiano insieme. Indica se le variabili hanno una relazione lineare positiva o negativa.

Formula: Cov(X, Y) = Σ((X - Media(X)) * (Y - Media(Y))) / (n - 1)

Dove:

Σ rappresenta il simbolo di sommatoria
X e Y sono variabili
Media(X) e Media(Y) sono rispettivamente le medie di X e Y
n è il numero totale di osservazioni

Se la covarianza è positiva indica una relazione positiva (X tende ad aumentare all'aumentare di Y).

Se la covarianza è negativa indica una relazione negativa (X tende a diminuire quando Y aumenta).

Coefficiente di correlazione (r di Pearson)

Il coefficiente di correlazione misura la forza e la direzione della relazione lineare tra due variabili. È una versione normalizzata della covarianza che varia da -1 a 1.

Formula: r = Cov(X, Y) / (Deviazione standard(X) * Deviazione standard(Y))

Dove:

Cov(X, Y) è la covarianza tra X e Y
La deviazione standard (X) e la deviazione standard (Y) sono rispettivamente le deviazioni standard di X e Y

Se |r| è vicino a 1, indica una forte relazione lineare, con r positivo che indica una correlazione positiva e r negativo che indica una correlazione negativa. Se |r| è vicino a 0, indica una relazione debole o assente.

Ultimo aggiornamento: 19 gennaio 2024

Una richiesta?

Ho messo così tanto impegno scrivendo questo post sul blog per fornirti valore. Sarà molto utile per me, se pensi di condividerlo sui social media o con i tuoi amici/familiari. LA CONDIVISIONE È ♥️

Facebook Tweet Pin LinkedIn Stampa E-mail

Emma Smith

Emma Smith ha conseguito un master in inglese presso l'Irvine Valley College. Giornalista dal 2002, scrive articoli sulla lingua inglese, lo sport e il diritto. Leggi di più su di me su di lei pagina bio.