外れ値検出とは?
外れ値(アウトライア)は、他のデータから大きく外れた異常な値のことです。データ分析や品質管理では、外れ値を検出して除外・調査することで、正確な分析結果を得られます。
検出方法
四分位範囲法(IQR法)
データを4等分し、第1四分位(Q1)と第3四分位(Q3)の差(IQR = Q3 - Q1)を使います。
外れ値 = Q1 - 1.5×IQR より小さい、または Q3 + 1.5×IQR より大きい値
分布の形に依存しないため、最も汎用的な方法です。
Zスコア法
各データが平均からどれだけ離れているかを標準偏差の倍数で表します。
Zスコア = (値 - 平均) / 標準偏差
|Zスコア| > 2(または3)のデータを外れ値とします。正規分布に近いデータに適しています。
倍率・閾値の選び方
| 設定 | IQR倍率 | Zスコア | 特徴 |
|---|---|---|---|
| 緩め | 1.5 | 2.0 | 広く検出。探索的分析向き |
| 標準 | 1.5 | 2.5 | 一般的な設定 |
| 厳格 | 3.0 | 3.0 | 極端な外れ値のみ検出 |