Формулы статистики

среднее

Среднее значение (среднее значение) рассчитывается путем суммирования всех значений в наборе данных и последующего деления суммы на общее количество значений. Он представляет собой центральную тенденцию данных.

Формула: Среднее = (Σx) / n

Где:

  • Среднее значение — это среднее значение
  • Σx — сумма всех значений в наборе данных.
  • n — общее количество значений в наборе данных
медиана

Медиана — это среднее значение в наборе данных, если значения расположены в порядке возрастания.

Если имеется четное количество значений, медиана представляет собой среднее значение двух средних значений.

Формула (нечетное количество значений): Медиана = среднее значение.

Формула (четное количество значений): Медиана = (Значение в позиции n/2 + Значение в позиции (n/2 + 1)) / 2

минимальный

Минимум — это наименьшее значение в наборе данных.

Формула: Минимум = Наименьшее значение

максимальная

Максимум — это наибольшее значение в наборе данных.

Формула: Максимум = Наибольшее значение.

Диапазон

Диапазон — это разница между максимальным и минимальным значениями в наборе данных. Он обеспечивает меру разброса или изменчивости данных.

Формула: Диапазон = Максимум – Минимум

СЧ

Средний диапазон — это среднее значение максимального и минимального значений в наборе данных.

Формула: Средний диапазон = (Максимум + Минимум) / 2

Количество

Счетчик представляет общее количество значений в наборе данных.

Сумма

Сумма — это сумма всех значений в наборе данных.

Формула: Сумма = Σx

Где:

  • Σx — сумма всех значений в наборе данных.
процентиль

Процентиль представляет собой значение, ниже которого падает определенный процент данных. Его часто используют для идентификации конкретных точек данных в распределении.

Квартиль

Квартиль делит набор данных на четыре равные части, каждая из которых содержит 25% данных. Квартили часто используются для оценки распространения данных.

Сумма квадратов

Сумма квадратов представляет собой сумму квадратов разностей между каждой точкой данных и средним значением. Это ключевой компонент при расчете дисперсии и стандартного отклонения.

Формула: Сумма квадратов = Σ(x — среднее)²

Где:

  • Σ представляет собой символ суммирования
  • x - каждая точка данных
  • Среднее значение — это среднее значение набора данных.
Стандартное отклонение

Стандартное отклонение измеряет степень вариации или дисперсии в наборе данных. Он показывает, насколько точки данных отстоят от среднего значения.

Формула: стандартное отклонение = √(Σ(x - Mean)² / (n - 1))

Где:

  • √ представляет квадратный корень
  • Σ представляет собой символ суммирования
  • x - каждая точка данных
  • Среднее значение — это среднее значение набора данных.
  • n — общее количество значений в наборе данных
Читайте также:  Обручи против полос: разница и сравнение
дисперсия

Дисперсия — это мера разброса или дисперсии набора данных. Это среднее значение квадратов разностей между каждой точкой данных и средним значением.

Формула (дисперсия совокупности): Дисперсия (σ²) = Σ(x — среднее)² / N

Где:

  • Σ представляет собой символ суммирования
  • x - каждая точка данных
  • Среднее значение — это среднее значение набора данных.
  • N — общее количество значений в популяции

Примечание. При работе с выборкой данных используйте формулу выборочной дисперсии, которая делится на (N – 1) вместо N. Эта поправка учитывает смещение выборки.

Z-оценка

Z-показатель измеряет, на сколько стандартных отклонений точка данных находится от среднего значения в стандартном нормальном распределении. Он используется для стандартизации данных и оценки их положения относительно среднего значения.

Формула: Z-показатель = (x — среднее) / стандартное отклонение.

Где:

  • x - точка данных
  • Среднее значение — это среднее значение набора данных.
  • Стандартное отклонение — это стандартное отклонение набора данных.
Межквартильный диапазон (IQR)

Межквартильный диапазон — это диапазон между первым квартилем (Q1 — 25-й процентиль) и третьим квартилем (Q3 — 75-й процентиль) в наборе данных. Он обеспечивает измерение разброса средних 50% данных.

Формула: IQR = Q3 – Q1

Где:

  • Q1 — первый квартиль (25-й процентиль).
  • Q3 — третий квартиль (75 процентиль).
Коэффициент вариации (CV)

Коэффициент вариации является относительной мерой изменчивости и выражается в процентах. Он используется для сравнения стандартного отклонения данных со средним значением, что делает его полезным для оценки относительной изменчивости между наборами данных с разными средними значениями.

Формула: CV = (Стандартное отклонение / Среднее значение) * 100%.

перекос

Асимметрия измеряет асимметрию распределения вероятностей действительной случайной величины. Он указывает, смещены ли данные вправо или влево.

Положительный перекос указывает на то, что хвост распределения смещен вправо (скошен вправо), что означает, что на правой стороне распределения находятся более экстремальные значения.

Отрицательный перекос указывает на то, что хвост распределения смещен влево (скошен влево), что означает, что на левой стороне распределения находятся более экстремальные значения.

эксцесс

Куртозис измеряет «хвостость» распределения вероятностей действительной случайной величины. Он указывает на наличие и степень выбросов в данных.

Положительный эксцесс (лептокуртический) указывает на тяжелые хвосты и пик, что означает, что данные имеют более экстремальные значения и более пиковые, чем нормальное распределение.

Читайте также:  Лэнс против Копья: разница и сравнение

Отрицательный эксцесс (платикуртик) указывает на легкие хвосты и более плоское распределение, то есть данные имеют меньше экстремальных значений и являются более плоскими, чем нормальное распределение.

ковариации

Ковариация измеряет степень, в которой две переменные изменяются вместе. Он указывает, имеют ли переменные положительную или отрицательную линейную связь.

Формула: Cov(X, Y) = Σ((X - Среднее(X)) * (Y - Среднее(Y))) / (n - 1)

Где:

  • Σ представляет собой символ суммирования
  • X и Y — переменные
  • Mean(X) и Mean(Y) — средние значения X и Y соответственно.
  • n — общее количество наблюдений

Если ковариация положительна, это указывает на положительную связь (X имеет тенденцию увеличиваться с увеличением Y).

Если ковариация отрицательна, это указывает на отрицательную связь (X имеет тенденцию уменьшаться при увеличении Y).

Коэффициент корреляции (r Пирсона)

Коэффициент корреляции измеряет силу и направление линейной связи между двумя переменными. Это нормализованная версия ковариации, которая находится в диапазоне от -1 до 1.

Формула: r = Cov(X, Y) / (Стандартное отклонение (X) * Стандартное отклонение (Y))

Где:

  • Cov(X, Y) — ковариация между X и Y.
  • Стандартное отклонение (X) и стандартное отклонение (Y) — это стандартные отклонения X и Y соответственно.

Если |г| близко к 1, это указывает на сильную линейную связь: положительное значение r указывает на положительную корреляцию, а отрицательное значение r указывает на отрицательную корреляцию. Если |г| близко к 0, это указывает на слабую или отсутствие линейной зависимости.

Последнее обновление: 19 января 2024 г.

точка 1
Один запрос?

Я приложил столько усилий, чтобы написать этот пост в блоге, чтобы предоставить вам ценность. Это будет очень полезно для меня, если вы подумаете о том, чтобы поделиться им в социальных сетях или со своими друзьями/родными. ДЕЛИТЬСЯ ♥️

Хотите сохранить эту статью на потом? Нажмите на сердечко в правом нижнем углу, чтобы сохранить в свой собственный блок статей!