外れ値検出の概要・基礎知識
外れ値(アウトライア)とは、他の観測値から極端に離れた値のことを指し、データの分布を歪めたり、平均・回帰係数などの統計指標に強い影響を与えたりします。製造業の品質管理、アンケート調査、Webサイトのアクセス分析、健康診断データの解釈など、外れ値の扱い方によって結論が変わる場面は数多く存在します。本ツールはJavaScriptで実装した代表的な2つの検出法(IQR法・Zスコア法)を切り替えながら、データに含まれる異常値を瞬時に可視化できます。すべての処理はブラウザ内で完結します。
計算式と仕組み
| 方法 | 計算式 | 得意分野 |
|---|---|---|
| IQR法(四分位範囲) | Q1 − k×IQR より小、または Q3 + k×IQR より大(標準k=1.5) | 分布形に依存しない汎用検出。歪んだデータにも有効 |
| Zスコア法 | Z = (値 − 平均) / 標準偏差。|Z| ≥ 閾値(標準2.0)を外れ値 | 正規分布に近いデータの逸脱検出 |
| 両方併用 | IQR法かZスコア法のいずれかで検出された値を外れ値 | 取りこぼしを減らした探索的分析 |
IQRはQ3(第3四分位)からQ1(第1四分位)を引いた範囲で、データのばらつきを示す尺度です。Tukeyが提案したk=1.5(フェンス)を超える値を「外れ値」とするのが慣例で、k=3.0は「極端な外れ値(far out)」の閾値です。Zスコアは「平均から標準偏差の何倍離れているか」を表し、正規分布なら|Z|>2は約4.6%、|Z|>3は約0.27%しか出現しない計算になります。
使い方の流れ
- 入力欄に数値データを貼り付けます。1行に1つ、またはカンマ区切りに対応しています。Excelやスプレッドシートの列をそのままコピー&ペーストできます。
- 検出方法を選びます。データ件数が30件未満や分布が歪んでいる場合はIQR法、正規分布に近いと分かっている場合はZスコア法、両方で照合したい場合は「両方」を選択してください。
- IQR倍率(標準1.5、厳格3.0)またはZスコア閾値(標準2.0、厳格3.0)を必要に応じて調整します。
- 「外れ値を検出する」ボタンを押すと、データ数・平均・中央値・標準偏差・IQR範囲が一括表示されます。
- 表で外れ値となった行が色付きでマーキングされます。気になる値は元データに戻って原因(入力ミス/実際の異常値/意味のあるイベント)を確認してください。
こんな場面で使う
- アンケートの自由記入数値の検査:「年収」や「年齢」の自由記入欄に異常値(年齢200歳など)が紛れていないか確認できます。集計前のクレンジングに最適です。
- 製造ラインの品質管理:寸法・重量などの測定値から仕様外品を抽出します。SPC(統計的工程管理)の入り口として使えます。
- センサーデータの異常検知:温度・湿度・電力消費などの時系列データから、機器の故障や測定ミスを示す値を素早く特定できます。
- Web解析の不正トラフィック発見:アクセスログから極端なPV数を出しているIPアドレス・URLを発見し、botや誤ったタグ実装の調査に役立てられます。
- 研究データの前処理:論文・レポート用の統計分析を行う前に、サンプルからインプット時のtypoや実験事故を取り除く工程に使えます。
使う前に知っておきたい注意点
- 外れ値は機械的に削除すべきではありません。原因が「入力ミス」なら修正、「実際の異常」なら別途分析、「重要な発見の兆候」なら積極的に深掘りすべきです。削除前に必ず原因を確認してください。
- IQR法は分布の形に依存しないため広く使えますが、データ件数が10件未満では四分位の計算自体が不安定になります。30件以上のデータで使うと判定が安定します。
- Zスコア法はデータが正規分布に近いことを前提としています。明らかに歪んだ分布(収入データなど)で使うと、片側ばかり外れ値として検出される傾向があります。
- 外れ値の数が全体の10%を超える場合、外れ値というより「2つ以上の集団が混ざっている」可能性があります。ヒストグラムで分布を確認することをおすすめします。
- IQR・Zスコアともに「ロバストな統計(中央値・MAD)」と比べると、外れ値自身が判定基準を歪める「マスキング効果」を起こすことがあります。複数の手法で照合するのが安全です。
用語の補足
- 四分位(Quartile):データを小さい順に並べて4等分した境界値。Q1=25パーセンタイル、Q2=中央値、Q3=75パーセンタイルです。
- IQR(四分位範囲):Q3 − Q1の差。データ中央50%のばらつきを表す指標で、外れ値の影響を受けにくい点が特徴です。
- Tukeyのフェンス:統計学者ジョン・テューキーが提案した外れ値の判定基準。k=1.5を「内側のフェンス」、k=3.0を「外側のフェンス」と呼びます。