シャピロ・ウィルク検定(正規性検定)とは
シャピロ・ウィルク検定(Shapiro–Wilk test)は、データが正規分布に従うかを判定する正規性検定の代表的な手法です。論文・卒論・品質管理・データ分析の前処理で、t検定やANOVAなどパラメトリック検定を使う前に「データが正規分布しているか」を確認する目的で広く使われます。
このツールは、データを貼り付けるだけでW統計量とp値を自動計算し、正規分布に従うかを判定します。データはブラウザ内だけで処理され、サーバーに送信されません。
検定の見方
仮説
- 帰無仮説 H₀:データは正規分布に従う
- 対立仮説 H₁:データは正規分布に従わない
判定ルール
| 結果 | 判定 | 意味 |
|---|---|---|
| p値 ≥ α | 帰無仮説を棄却しない | 正規分布に従うと判断してよい |
| p値 < α | 帰無仮説を棄却 | 正規分布には従わない |
一般的には α = 0.05 を使います。品質管理など厳格な判定では 0.01、探索的分析では 0.10 を使うこともあります。
W統計量
W統計量は 0〜1 の値を取り、1に近いほど正規分布に近いことを示します。Royston (1992) のAS R94アルゴリズムにより、n=3〜5000 の範囲で精度よく計算されます。
使い方の目安
- データ数 n=3〜5000 で正確に判定できます
- サンプル数が大きいと、わずかな非正規性でも有意になりやすいので、W統計量の値やヒストグラム・Q-Qプロットと合わせて総合判断を推奨
- 外れ値がある場合は、外れ値検出ツールで確認してから検定するのがおすすめ
- Q-Qプロット上で点が直線にどれだけ乗るかも視覚的な手がかりになります
他の正規性検定との違い
| 検定 | 特徴 | 推奨サンプル数 |
|---|---|---|
| シャピロ・ウィルク | 小〜中サンプルで高い検出力。最も広く使われる | 3〜5000 |
| コルモゴロフ・スミルノフ | 任意の分布に使えるが正規性検出力は低め | 大サンプル向き |
| アンダーソン・ダーリング | 分布の裾の違いに敏感 | 中〜大サンプル |
| ジャック・ベラ(Jarque–Bera) | 歪度と尖度に基づく簡易判定 | 大サンプル向き |
正規性が棄却されたら
p値がα未満で正規分布が棄却された場合、以下の対応が考えられます。
- 対数変換・平方根変換などの変数変換で正規分布に近づける
- t検定の代わりにノンパラメトリック検定(マン・ホイットニーU検定、ウィルコクソン符号順位検定など)を使う
- サンプル数が十分大きい場合は、中心極限定理によりt検定・ANOVAは頑健性を持つため、そのまま使える場合もある
- 外れ値が原因なら、外れ値の精査・除外を検討する
出典・参考資料
- Shapiro, S. S.; Wilk, M. B. (1965) "An analysis of variance test for normality (complete samples)". Biometrika 52 (3–4): 591–611
- Royston, P. (1992) "Approximating the Shapiro–Wilk W-test for non-normality". Statistics and Computing 2 (3): 117–119 (AS R94アルゴリズム)
- Royston, P. (1982) "An Extension of Shapiro and Wilk's W Test for Normality to Large Samples". Applied Statistics 31 (2): 115–124
本ツールはRoyston (1992) AS R94アルゴリズムによる近似計算を採用しています。n=3〜5000 の範囲で統計ソフト(R の shapiro.test() 等)と同等の精度で計算可能です。学術論文等に使用する場合は、最終的な数値は必ずR・Python(scipy.stats.shapiro)・SPSS等の検証済みソフトで再確認してください。