Keskiarvo (keskiarvo) lasketaan summaamalla kaikki tietojoukon arvot ja jakamalla sitten summa arvojen kokonaismäärällä. Se edustaa tietojen keskeistä suuntausta.
Kaava: Keskiarvo = (Σx) / n
Missä:
- Keskiarvo on keskiarvo
- Σx on tietojoukon kaikkien arvojen summa
- n on tietojoukon arvojen kokonaismäärä
Mediaani on tietojoukon keskiarvo, kun arvot on järjestetty nousevaan järjestykseen.
Jos arvoja on parillinen määrä, mediaani on kahden keskiarvon keskiarvo.
Kaava (Pariton määrä arvoja): Mediaani = Keskiarvo
Kaava (Parillinen arvojen määrä): Mediaani = (Arvo paikassa n/2 + Arvo paikassa (n/2 + 1)) / 2
Minimi on tietojoukon pienin arvo.
Kaava: Minimi = Pienin arvo
Maksimi on tietojoukon suurin arvo.
Kaava: Maksimi = Suurin arvo
Alue on datajoukon enimmäis- ja vähimmäisarvojen välinen ero. Se mittaa tietojen leviämistä tai vaihtelua.
Kaava: Alue = Maksimi - Minimi
Keskialue on tietojoukon enimmäis- ja vähimmäisarvojen keskiarvo.
Kaava: Keskialue = (maksimi + minimi) / 2
Luku edustaa tietojoukon arvojen kokonaismäärää.
Summa on tietojoukon kaikkien arvojen summa.
Kaava: Summa = Σx
Missä:
- Σx on tietojoukon kaikkien arvojen summa
Prosenttipiste edustaa arvoa, jonka alapuolelle tietty prosenttiosuus tiedoista jää. Sitä käytetään usein tunnistamaan tiettyjä tietopisteitä jakaumassa.
Kvartiili jakaa tietojoukon neljään yhtä suureen osaan, joista jokainen sisältää 25 % tiedoista. Kvartiileja käytetään usein arvioitaessa tiedon leviämistä.
Neliöiden summa on kunkin datapisteen ja keskiarvon välisten erojen neliöiden summa. Se on keskeinen komponentti varianssin ja keskihajonnan laskennassa.
Kaava: Neliöiden summa = Σ(x - Keskiarvo)²
Missä:
- Σ edustaa summaussymbolia
- x on jokainen datapiste
- Keskiarvo on tietojoukon keskiarvo (keskiarvo).
Keskihajonta mittaa vaihtelun tai hajonnan määrää tietojoukossa. Se osoittaa, kuinka hajallaan datapisteet ovat keskiarvosta.
Kaava: Keskihajonta = √(Σ(x - Keskiarvo)² / (n - 1))
Missä:
- √ edustaa neliöjuurta
- Σ edustaa summaussymbolia
- x on jokainen datapiste
- Keskiarvo on tietojoukon keskiarvo (keskiarvo).
- n on tietojoukon arvojen kokonaismäärä
Varianssi on tietojoukon leviämisen tai hajaantumisen mitta. Se on kunkin datapisteen ja keskiarvon välisten erojen neliöityjen keskiarvo.
Kaava (populaatiovarianssi): Varianssi (σ²) = Σ(x - Keskiarvo)² / N
Missä:
- Σ edustaa summaussymbolia
- x on jokainen datapiste
- Keskiarvo on tietojoukon keskiarvo (keskiarvo).
- N on arvojen kokonaismäärä populaatiossa
Huomautus: Kun työskentelet datanäytteen kanssa, käytä otosvarianssikaavaa, joka jakaa arvolla (N - 1) N:n sijaan. Tämä korjaus ottaa huomioon otoksen poikkeaman.
Z-pistemäärä mittaa, kuinka monta standardipoikkeamaa datapiste on normaalin normaalijakauman keskiarvosta. Sitä käytetään tietojen standardointiin ja sen aseman arvioimiseen suhteessa keskiarvoon.
Kaava: Z-pisteet = (x - keskiarvo) / keskihajonta
Missä:
- x on datapiste
- Keskiarvo on tietojoukon keskiarvo (keskiarvo).
- Standardipoikkeama on tietojoukon keskihajonta
Interkvartiilialue on tietojoukon ensimmäisen kvartiilin (Q1 - 25. prosenttipiste) ja kolmannen kvartiilin (Q3 - 75. prosenttipiste) välinen alue. Se mittaa tiedon keskimmäisen 50 %:n leviämistä.
Kaava: IQR = Q3 - Q1
Missä:
- Q1 on ensimmäinen kvartiili (25. prosenttipiste)
- Q3 on kolmas kvartiili (75. prosenttipiste)
Variaatiokerroin on suhteellinen vaihtelun mitta, ja se ilmaistaan prosentteina. Sitä käytetään tietojen keskihajonnan vertaamiseen sen keskiarvoon, mikä tekee siitä hyödyllisen arvioitaessa aineistojen välistä suhteellista vaihtelua eri keskiarvoilla.
Kaava: CV = (standardipoikkeama / keskiarvo) * 100 %
Skewness mittaa reaaliarvoisen satunnaismuuttujan todennäköisyysjakauman epäsymmetriaa. Se osoittaa, ovatko tiedot vinossa oikealle vai vasemmalle.
Positiivinen vino osoittaa, että jakauman häntä on vinossa oikealle (oikealle vinossa), mikä tarkoittaa, että jakauman oikealla puolella on enemmän ääriarvoja.
Negatiivinen vino osoittaa, että jakauman häntä on vinossa vasemmalle (vasemmalle vinossa), mikä tarkoittaa, että jakauman vasemmalla puolella on enemmän ääriarvoja.
Kurtosis mittaa reaaliarvoisen satunnaismuuttujan todennäköisyysjakauman "häntäisyyttä". Se osoittaa poikkeamien esiintymisen ja asteen tiedoissa.
Positiivinen kurtosis (leptokurtic) osoittaa raskasta häntää ja huippua, mikä tarkoittaa, että datalla on äärimmäisemmät arvot ja se on huippujakaumaa enemmän.
Negatiivinen kurtoosi (platykurtic) osoittaa vaaleita häntäjä ja tasaisempaa jakaumaa, mikä tarkoittaa, että tiedoilla on vähemmän ääriarvoja ja se on tasaisempaa kuin normaalijakauma.
Kovarianssi mittaa, missä määrin kaksi muuttujaa muuttuvat yhdessä. Se osoittaa, onko muuttujilla positiivinen vai negatiivinen lineaarinen suhde.
Kaava: Cov(X, Y) = Σ((X - Keskiarvo(X)) * (Y - Keskiarvo(Y))) / (n - 1)
Missä:
- Σ edustaa summaussymbolia
- X ja Y ovat muuttujia
- Keskiarvo(X) ja keskiarvo(Y) ovat X:n ja Y:n keskiarvot, vastaavasti
- n on havaintojen kokonaismäärä
Jos kovarianssi on positiivinen, se osoittaa positiivista suhdetta (X pyrkii kasvamaan Y:n kasvaessa).
Jos kovarianssi on negatiivinen, se osoittaa negatiivista suhdetta (X:llä on taipumus pienentyä Y:n kasvaessa).
Korrelaatiokerroin mittaa kahden muuttujan välisen lineaarisen suhteen voimakkuutta ja suuntaa. Se on normalisoitu versio kovarianssista, joka vaihtelee -1:stä 1:een.
Kaava: r = Cov(X, Y) / (Standardipoikkeama(X) * Keskihajonta(Y))
Missä:
- Cov(X, Y) on X:n ja Y:n välinen kovarianssi
- Standardipoikkeama(X) ja keskihajonta(Y) ovat X:n ja Y:n keskihajonnat, vastaavasti.
Jos |r| on lähellä 1, se osoittaa vahvaa lineaarista suhdetta, jossa positiivinen r osoittaa positiivista korrelaatiota ja negatiivinen r osoittaa negatiivista korrelaatiota. Jos |r| on lähellä nollaa, se osoittaa heikkoa tai ei ollenkaan lineaarista suhdetta.
Viimeksi päivitetty: 19. tammikuuta 2024
Emma Smith on suorittanut englannin maisterintutkinnon Irvine Valley Collegesta. Hän on toiminut toimittajana vuodesta 2002 ja kirjoittanut artikkeleita englannin kielestä, urheilusta ja laista. Lue lisää minusta hänestä bio-sivu.