Формули статистики

Середня

Середнє (середнє) обчислюється шляхом підсумовування всіх значень у наборі даних, а потім ділення суми на загальну кількість значень. Він представляє центральну тенденцію даних.

Формула: Середнє = (Σx) / n

де:

  • Середнє – середнє
  • Σx – це сума всіх значень у наборі даних
  • n – загальна кількість значень у наборі даних
Медіана

Медіана – це середнє значення в наборі даних, якщо значення розташовано в порядку зростання.

Якщо кількість значень парна, медіана є середнім з двох середніх значень.

Формула (Непарна кількість значень): Медіана = Середнє значення

Формула (парна кількість значень): Медіана = (Значення на позиції n/2 + Значення на позиції (n/2 + 1)) / 2

мінімальний

Мінімум — це найменше значення в наборі даних.

Формула: мінімум = найменше значення

Максимальний

Максимум — це найбільше значення в наборі даних.

Формула: максимум = найбільше значення

Діапазон

Діапазон — це різниця між максимальним і мінімальним значеннями в наборі даних. Він забезпечує вимірювання розповсюдження або мінливості даних.

Формула: Діапазон = Максимум - Мінімум

Середній діапазон

Середнє значення – це середнє максимальне та мінімальне значення в наборі даних.

Формула: середній діапазон = (максимум + мінімум) / 2

Рахувати

Підрахунок представляє загальну кількість значень у наборі даних.

Сума

Сума – це загальна сума всіх значень у наборі даних.

Формула: сума = Σx

де:

  • Σx – це сума всіх значень у наборі даних
Процентний

Процентиль представляє значення, нижче якого опускається певний відсоток даних. Його часто використовують для ідентифікації конкретних точок даних у розподілі.

Квартиль

Квартиль ділить набір даних на чотири рівні частини, кожна з яких містить 25% даних. Квартилі часто використовуються для оцінки поширення даних.

Сума квадратів

Сума квадратів – це сума квадратів різниць між кожною точкою даних і середнім значенням. Це ключовий компонент у розрахунку дисперсії та стандартного відхилення.

Формула: сума квадратів = Σ(x - середнє)²

де:

  • Σ представляє символ підсумовування
  • x — кожна точка даних
  • Середнє – середнє (середнє) набору даних
Standard Deviation

Стандартне відхилення вимірює ступінь варіації або дисперсії в наборі даних. Це вказує на те, наскільки точки даних відрізняються від середнього.

Формула: стандартне відхилення = √(Σ(x - середнє)² / (n - 1))

де:

  • √ представляє квадратний корінь
  • Σ представляє символ підсумовування
  • x — кожна точка даних
  • Середнє – середнє (середнє) набору даних
  • n – загальна кількість значень у наборі даних
Також читайте:  Рівність проти справедливості: різниця та порівняння
дисперсія

Дисперсія – це міра поширення або дисперсії набору даних. Це середнє значення квадратів різниць між кожною точкою даних і середнім.

Формула (дисперсія сукупності): дисперсія (σ²) = Σ(x - середнє)² / N

де:

  • Σ представляє символ підсумовування
  • x — кожна точка даних
  • Середнє – середнє (середнє) набору даних
  • N – загальна кількість значень у сукупності

Примітка: під час роботи з вибіркою даних використовуйте формулу дисперсії вибірки, яка ділиться на (N - 1) замість N. Ця поправка враховує зміщення вибірки.

Z-оцінка

Z-показник вимірює, скільки стандартних відхилень має точка даних від середнього в стандартному нормальному розподілі. Він використовується для стандартизації даних і оцінки їх положення відносно середнього.

Формула: Z-показник = (x - середнє) / стандартне відхилення

де:

  • x – точка даних
  • Середнє – середнє (середнє) набору даних
  • Стандартне відхилення – це стандартне відхилення набору даних
Міжквартильний діапазон (IQR)

Міжквартильний діапазон – це діапазон між першим квартилем (Q1 – 25-й процентиль) і третім квартилем (Q3 – 75-й процентиль) у наборі даних. Він забезпечує вимірювання поширення середніх 50% даних.

Формула: IQR = Q3 - Q1

де:

  • Q1 – перший квартиль (25-й процентиль)
  • Q3 — третій квартиль (75-й процентиль)
Коефіцієнт варіації (CV)

Коефіцієнт варіації є відносною мірою мінливості і виражається у відсотках. Він використовується для порівняння стандартного відхилення даних із його середнім значенням, що робить його корисним для оцінки відносної мінливості між наборами даних із різними середніми.

Формула: CV = (стандартне відхилення / середнє) * 100%

Асиметрія

Асиметрія вимірює асиметрію розподілу ймовірностей дійсної випадкової величини. Він вказує, чи дані перекошені вправо чи вліво.

Позитивний перекіс вказує на те, що хвіст розподілу зміщений вправо (перекіс вправо), тобто праворуч від розподілу є більш екстремальні значення.

Від’ємний перекіс вказує на те, що хвіст розподілу зміщений вліво (зміщений вліво), що означає, що ліворуч від розподілу є більш екстремальні значення.

Куртоз

Ексцес вимірює «хвостатість» розподілу ймовірностей дійсної випадкової змінної. Він вказує на наявність і ступінь викидів у даних.

Позитивний ексцес (лептокуртик) вказує на важкі хвости та пік, тобто дані мають більш екстремальні значення та є більш піковими, ніж нормальний розподіл.

Також читайте:  Калькулятор іпотечних платежів з податками та страхуванням

Від’ємний ексцес (platykurtic) вказує на легкі хвости та більш плоский розподіл, тобто дані мають менше екстремальних значень і є більш плоскими, ніж нормальний розподіл.

Коваріація

Коваріація вимірює ступінь, до якої дві змінні змінюються разом. Він вказує, чи мають змінні позитивний чи негативний лінійний зв’язок.

Формула: Cov(X, Y) = Σ((X - Mean(X)) * (Y - Mean(Y))) / (n - 1)

де:

  • Σ представляє символ підсумовування
  • X і Y є змінними
  • Mean(X) і Mean(Y) є середніми X і Y відповідно
  • n – загальна кількість спостережень

Якщо коваріація позитивна, це вказує на позитивний зв’язок (X має тенденцію до збільшення, коли Y збільшується).

Якщо коваріація негативна, це вказує на негативний зв’язок (X має тенденцію до зменшення, коли Y зростає).

Коефіцієнт кореляції (r Пірсона)

Коефіцієнт кореляції вимірює силу та напрямок лінійного зв’язку між двома змінними. Це нормалізована версія коваріації в діапазоні від -1 до 1.

Формула: r = Cov(X, Y) / (Стандартне відхилення (X) * Стандартне відхилення (Y))

де:

  • Cov(X, Y) — це коваріація між X і Y
  • Стандартне відхилення (X) і стандартне відхилення (Y) є стандартними відхиленнями X і Y відповідно

Якщо |r| близьке до 1, це вказує на сильну лінійну залежність, причому позитивне r вказує на позитивну кореляцію, а негативне r вказує на негативну кореляцію. Якщо |r| близьке до 0, це вказує на слабку лінійну залежність або її відсутність.

Останнє оновлення: 19 січня 2024 р

крапка 1
Один запит?

Я доклав стільки зусиль для написання цього допису в блозі, щоб надати вам користь. Це буде дуже корисно для мене, якщо ви захочете поділитися цим у соціальних мережах або зі своїми друзями/родиною. ДІЛИТИСЯ ЦЕ ♥️

Хочете зберегти цю статтю на потім? Клацніть сердечко в нижньому правому куті, щоб зберегти у власній коробці статей!