標準偏差をシンプルに解説 — ステップバイステップガイド

· 12分で読めます

📑 目次

標準偏差とは?

標準偏差は、データポイントが平均(平均値)からどれだけ散らばっているかを示す統計的指標です。データセットの「一貫性スコア」と考えてください。

数値が平均の周りに密集している場合、標準偏差は低くなります。広く散らばっている場合、標準偏差は高くなります。それだけシンプルです。

2人のバスケットボール選手を比較していると想像してください。選手Aは5試合で20、21、19、20、20点を獲得します。選手Bは5、35、15、30、15点を獲得します。両者とも1試合平均20点ですが、選手Aの方がはるかに一貫性があります。標準偏差はこの違いを数値化します。

クイックヒント: 標準偏差は常に元のデータと同じ単位で表されます。身長をセンチメートルで測定している場合、標準偏差もセンチメートルになります。

標準偏差が重要な理由

標準偏差は、製造業の品質管理から金融のリスク評価まで、データ分析のあらゆる場面で登場します。これほど価値がある理由は次のとおりです:

公式の説明

標準偏差には2つのタイプがあります:母集団と標本です。公式は最初は威圧的に見えますが、散らばりを測定する体系的な方法にすぎません。

母集団標準偏差(σ)

σ = √[Σ(xᵢ − μ)² / N]

母集団全体のデータがある場合に使用します — 研究しているグループのすべてのメンバーです。

標本標準偏差(s)

s = √[Σ(xᵢ − x̄)² / (N−1)]

標本のデータがある場合に使用します — より大きな母集団を代表するサブセットです。

記号の説明

記号 意味
σ (シグマ) 母集団標準偏差 全500人の従業員の給与のSD
s 標本標準偏差 調査した50人の従業員の給与のSD
xᵢ 個々のデータポイント 1人の給与
μ (ミュー) 母集団平均 全500人の給与の平均
x̄ (エックスバー) 標本平均 調査した50人の給与の平均
N データポイントの数 例では500または50
Σ (シグマ) すべての値の合計 すべてを足し合わせる
平方根 計算の最終ステップ

標本でN−1を使う理由は?

標本の公式はNではなくN−1で割ります。これはベッセルの補正と呼ばれ、標本が母集団の変動性を過小評価する傾向があることを補正します。

標本しかない場合、限られた情報で作業しています。N−1で割ることで標準偏差がわずかに増加し、真の母集団標準偏差のより正確な推定値が得られます。

ステップバイステップ計算例

次のテストスコアの標準偏差を計算しましょう: 4, 8, 6, 5, 3, 7, 8, 9

これを完全な母集団(小さなクラスのすべての生徒)として扱うので、母集団の公式を使用します。

ステップ1:平均を計算する

すべての値を足して個数で割ります:

平均(μ) = (4 + 8 + 6 + 5 + 3 + 7 + 8 + 9) ÷ 8
平均(μ) = 50 ÷ 8 = 6.25

ステップ2:平均からの各偏差を求める

各値から平均を引きます。一部の結果は負(平均以下)、一部は正(平均以上)になります。

ステップ3:各偏差を二乗する

二乗することで負の符号が消え、大きな偏差が強調されます。これが標準偏差が外れ値に敏感な理由です。

ステップ4:完全な表を計算する

値(x) x − 平均 (x − 平均)² 説明
4 4 − 6.25 = −2.25 5.0625 平均より2.25点低い
8 8 − 6.25 = 1.75 3.0625 平均より1.75点高い
6 6 − 6.25 = −0.25 0.0625 平均に非常に近い
5 5 − 6.25 = −1.25 1.5625 平均より1.25点低い
3 3 − 6.25 = −3.25 10.5625 平均から最も離れている(低い)
7 7 − 6.25 = 0.75 0.5625 平均よりわずかに高い
8 8 − 6.25 = 1.75 3.0625 平均より1.75点高い
9 9 − 6.25 = 2.75 7.5625 平均から最も離れている(高い)
偏差の二乗の合計: 31.50

ステップ5:分散を計算する

偏差の二乗の合計をN(母集団の場合)またはN−1(標本の場合)で割ります:

母集団分散 = 31.50 ÷ 8 = 3.9375
標本分散 = 31.50 ÷ 7 = 4.50

ステップ6:標準偏差を計算する

分散の平方根を取ります:

母集団SD(σ) = √3.9375 = 1.98
標本SD(s) = √4.50 = 2.12

標準偏差は約2点です。これは、ほとんどのテストスコアが平均(6.25)の2点以内に収まることを意味します。

プロのヒント: 手計算を検証し、大きなデータセットで時間を節約するには、標準偏差計算機を使用してください。

母集団と標本:どちらを使うべきか

母集団標準偏差と標本標準偏差のどちらを選ぶかは、完全なデータがあるか、サブセットだけがあるかによって異なります。

完全比較表

特徴 母集団(σ) 標本(s)
公式の除数 N N − 1
使用するとき すべてのデータがある サブセットがある
記号 σ (小文字のシグマ) s
結果のサイズ わずかに小さい わずかに大きい
目的 母集団を記述する 標本から母集団を推定する
クラスの全30人の生徒 10,000人の生徒から100人の調査
よく使われる場面 品質管理、小グループ 研究、調査、実験

実世界での判断例

母集団SDを使用する場合:

標本SDを使用する場合:

経験則: 迷ったら、標本標準偏差(N−1)を使用してください。変動性を過小評価しない、より安全で保守的な選択です。

結果の解釈

標準偏差を計算することは半分の戦いに過ぎません。その数値が文脈で何を意味するかを理解することが、真の洞察が得られる場所です。

68-95-99.7ルール(経験則)

正規分布データ(ベルカーブ)の場合、標準偏差は予測可能なパターンに従います:

このルールは、データポイントが典型的か異常かを素早く評価するのに役立ちます。値が平均から2標準偏差以上離れている場合、外側の5%に入っており、調査する価値のある外れ値の可能性があります。

実用的な解釈例

コーヒーショップで顧客の待ち時間を測定するとします:

これは次のことを示しています:

「良い」標準偏差とは?

普遍的な答えはありません。文脈が非常に重要です。10の標準偏差は、あるシナリオでは優れていて、別のシナリオでは悲惨かもしれません。

次の例を考えてみてください:

重要なのは、標準偏差を平均や業界のベンチマークと比較することです。ここで変動係数が役立ちます(詳細は後述)。

実世界での応用

標準偏差は単なる学術的なものではありません — 毎日、業界全体で意思決定を推進しています。

金融と投資

金融では、標準偏差は投資リスクを測定します。標準偏差が高いほど、ボラティリティが高く、リターンに関する不確実性が大きくなります。

ポートフォリオマネージャーは次のように使用します:

年間リターン30%で標準偏差25%の株式は、リスク許容度によっては、リターン20%で標準偏差10%の株式よりもリスクが高い可能性があります。

品質管理と製造

製造業者は、一貫した製品品質を確保するために標準偏差を使用します。たとえば、シックスシグマ手法は、仕様を平均の6標準偏差以内に保つことで、100万あたり3.4未満の欠陥率を持つプロセスを目指します。

応用例:

医療と医学

医療専門家は標準偏差を次のように使用します:

たとえば、血圧測定値の標準偏差が高い場合、調査が必要な基礎的な健康問題を示している可能性があります。

教育とテスト

教師と管理者は標準偏差を次のように使用します:

全員が85-95点の間でスコアするテスト(低SD)は簡単すぎる可能性があり、20-100点の範囲のスコア(高SD)は、テストが不明確だったか、生徒が十分に準備されていなかったことを示している可能性があります。

プロのヒント: データを提示する際は