平均 (平均) は、データセット内のすべての値を合計し、その合計を値の総数で割ることによって計算されます。データの中心的な傾向を表します。
計算式: 平均値 = (Σx) / n
どこ:
- 平均は平均です
- Σx はデータセット内のすべての値の合計です。
- n はデータセット内の値の総数です。
中央値は、値を昇順に並べたときのデータセット内の中央の値です。
値の数が偶数の場合、中央値は中央の 2 つの値の平均です。
計算式 (奇数の値): 中央値 = 中央値
計算式 (偶数の値): 中央値 = (位置 n/2 の値 + 位置 (n/2 + 1) の値) / 2
最小値はデータセット内の最小値です。
式: 最小値 = 最小値
最大値は、データセット内の最大値です。
式: 最大値 = 最大値
範囲は、データセット内の最大値と最小値の差です。これは、データの広がりまたは変動性の尺度を提供します。
式: 範囲 = 最大値 - 最小値
中間範囲は、データセット内の最大値と最小値の平均です。
計算式: ミッドレンジ = (最大値 + 最小値) / 2
カウントは、データセット内の値の合計数を表します。
合計は、データセット内のすべての値の合計です。
計算式: 合計 = Σx
どこ:
- Σx はデータセット内のすべての値の合計です。
パーセンタイルは、データの特定のパーセンテージが下回る値を表します。これは、分布内の特定のデータ ポイントを識別するためによく使用されます。
四分位はデータセットを 25 つの等しい部分に分割し、各部分にはデータの XNUMX% が含まれます。四分位数は、データの広がりを評価するためによく使用されます。
二乗和は、各データ点と平均値との差の二乗和です。これは、分散と標準偏差を計算する際の重要な要素です。
式: 二乗和 = Σ(x - 平均)²
どこ:
- Σは加算記号を表します
- x は各データ点です
- Mean はデータセットの平均 (平均) です。
標準偏差は、データセット内の変動または分散の量を測定します。これは、データ ポイントが平均からどの程度広がっているかを示します。
計算式: 標準偏差 = √(Σ(x - 平均)² / (n - 1))
どこ:
- √は平方根を表します
- Σは加算記号を表します
- x は各データ点です
- Mean はデータセットの平均 (平均) です。
- n はデータセット内の値の総数です。
分散は、データセットの広がりまたは分散の尺度です。これは、各データ ポイントと平均の差の二乗の平均です。
式 (母集団分散): 分散 (σ²) = Σ(x - 平均)² / N
どこ:
- Σは加算記号を表します
- x は各データ点です
- Mean はデータセットの平均 (平均) です。
- N は母集団内の値の総数です。
注: データのサンプルを操作する場合は、N ではなく (N - 1) で割るサンプル分散の式を使用します。この補正により、サンプルのバイアスが考慮されます。
Z スコアは、データ ポイントが標準正規分布の平均からどれだけ標準偏差があるかを測定します。データを標準化し、平均に対する相対的な位置を評価するために使用されます。
式: Z スコア = (x - 平均) / 標準偏差
どこ:
- x はデータポイントです
- Mean はデータセットの平均 (平均) です。
- 標準偏差はデータセットの標準偏差です。
四分位範囲は、データセット内の第 1 四分位 (Q25 - 3 パーセンタイル) と第 75 四分位 (Q50 - XNUMX パーセンタイル) の間の範囲です。これは、データの中間 XNUMX% の広がりの尺度を提供します。
式: IQR = Q3 - Q1
どこ:
- Q1 は最初の四分位 (25 パーセンタイル) です。
- Q3 は第 75 四分位 (XNUMX パーセンタイル) です。
変動係数は変動の相対的な尺度であり、パーセンテージで表されます。これは、データの標準偏差をその平均と比較するために使用され、異なる平均を持つデータセット間の相対的な変動を評価するのに役立ちます。
式: CV = (標準偏差 / 平均) * 100%
歪度は、実数値の確率変数の確率分布の非対称性を測定します。データが右に偏っているか左に偏っているかを示します。
正の傾きは、分布の裾が右に傾いている (右に傾いている) ことを示します。これは、分布の右側により多くの極値があることを意味します。
負のスキューは、分布の裾が左に偏っている (左に歪んでいる) ことを示します。これは、分布の左側により多くの極値があることを意味します。
尖度は、実数値の確率変数の確率分布の「裾の有無」を測定します。データ内の外れ値の存在と程度を示します。
正の尖度 (レプトクリティ) は、重い尾部とピークを示します。これは、データが正規分布よりも極端な値を持ち、ピークが多いことを意味します。
負の尖度 (平坦尖度) は、尾が軽く、分布が平坦であることを示します。これは、データに極値が少なく、正規分布よりも平坦であることを意味します。
共分散は、2 つの変数が同時に変化する度合いを測定します。変数が正または負の線形関係にあるかどうかを示します。
式: Cov(X, Y) = Σ((X - 平均(X)) * (Y - 平均(Y))) / (n - 1)
どこ:
- Σは加算記号を表します
- X と Y は変数です
- Mean(X) と Mean(Y) は、それぞれ X と Y の平均です。
- n は観測値の総数です
共分散が正の場合、正の関係があることを示します (Y が増加すると X も増加する傾向があります)。
共分散が負の場合、負の関係を示します (Y が増加すると X が減少する傾向にあります)。
相関係数は、1 つの変数間の線形関係の強さと方向を測定します。これは、-1 から XNUMX の範囲の共分散の正規化されたバージョンです。
式: r = Cov(X, Y) / (標準偏差(X) * 標準偏差(Y))
どこ:
- Cov(X, Y) は X と Y の間の共分散です。
- 標準偏差(X) と標準偏差(Y) は、それぞれ X と Y の標準偏差です。
|r| の場合が 1 に近い場合、強い線形関係を示します。正の r は正の相関を示し、負の r は負の相関を示します。 |r| の場合が 0 に近い場合、関係が弱いか、線形関係がないことを示します。