外れ値検出ツール

1.5=標準、3.0=極端な外れ値のみ
2.0=標準、3.0=厳格
結果をシェア:

外れ値検出の概要・基礎知識

外れ値(アウトライア)とは、他の観測値から極端に離れた値のことを指し、データの分布を歪めたり、平均・回帰係数などの統計指標に強い影響を与えたりします。製造業の品質管理、アンケート調査、Webサイトのアクセス分析、健康診断データの解釈など、外れ値の扱い方によって結論が変わる場面は数多く存在します。本ツールはJavaScriptで実装した代表的な2つの検出法(IQR法・Zスコア法)を切り替えながら、データに含まれる異常値を瞬時に可視化できます。すべての処理はブラウザ内で完結します。

計算式と仕組み

方法計算式得意分野
IQR法(四分位範囲)Q1 − k×IQR より小、または Q3 + k×IQR より大(標準k=1.5)分布形に依存しない汎用検出。歪んだデータにも有効
Zスコア法Z = (値 − 平均) / 標準偏差。|Z| ≥ 閾値(標準2.0)を外れ値正規分布に近いデータの逸脱検出
両方併用IQR法かZスコア法のいずれかで検出された値を外れ値取りこぼしを減らした探索的分析

IQRはQ3(第3四分位)からQ1(第1四分位)を引いた範囲で、データのばらつきを示す尺度です。Tukeyが提案したk=1.5(フェンス)を超える値を「外れ値」とするのが慣例で、k=3.0は「極端な外れ値(far out)」の閾値です。Zスコアは「平均から標準偏差の何倍離れているか」を表し、正規分布なら|Z|>2は約4.6%、|Z|>3は約0.27%しか出現しない計算になります。

使い方の流れ

  1. 入力欄に数値データを貼り付けます。1行に1つ、またはカンマ区切りに対応しています。Excelやスプレッドシートの列をそのままコピー&ペーストできます。
  2. 検出方法を選びます。データ件数が30件未満や分布が歪んでいる場合はIQR法、正規分布に近いと分かっている場合はZスコア法、両方で照合したい場合は「両方」を選択してください。
  3. IQR倍率(標準1.5、厳格3.0)またはZスコア閾値(標準2.0、厳格3.0)を必要に応じて調整します。
  4. 「外れ値を検出する」ボタンを押すと、データ数・平均・中央値・標準偏差・IQR範囲が一括表示されます。
  5. 表で外れ値となった行が色付きでマーキングされます。気になる値は元データに戻って原因(入力ミス/実際の異常値/意味のあるイベント)を確認してください。

こんな場面で使う

  • アンケートの自由記入数値の検査:「年収」や「年齢」の自由記入欄に異常値(年齢200歳など)が紛れていないか確認できます。集計前のクレンジングに最適です。
  • 製造ラインの品質管理:寸法・重量などの測定値から仕様外品を抽出します。SPC(統計的工程管理)の入り口として使えます。
  • センサーデータの異常検知:温度・湿度・電力消費などの時系列データから、機器の故障や測定ミスを示す値を素早く特定できます。
  • Web解析の不正トラフィック発見:アクセスログから極端なPV数を出しているIPアドレス・URLを発見し、botや誤ったタグ実装の調査に役立てられます。
  • 研究データの前処理:論文・レポート用の統計分析を行う前に、サンプルからインプット時のtypoや実験事故を取り除く工程に使えます。

使う前に知っておきたい注意点

  • 外れ値は機械的に削除すべきではありません。原因が「入力ミス」なら修正、「実際の異常」なら別途分析、「重要な発見の兆候」なら積極的に深掘りすべきです。削除前に必ず原因を確認してください。
  • IQR法は分布の形に依存しないため広く使えますが、データ件数が10件未満では四分位の計算自体が不安定になります。30件以上のデータで使うと判定が安定します。
  • Zスコア法はデータが正規分布に近いことを前提としています。明らかに歪んだ分布(収入データなど)で使うと、片側ばかり外れ値として検出される傾向があります。
  • 外れ値の数が全体の10%を超える場合、外れ値というより「2つ以上の集団が混ざっている」可能性があります。ヒストグラムで分布を確認することをおすすめします。
  • IQR・Zスコアともに「ロバストな統計(中央値・MAD)」と比べると、外れ値自身が判定基準を歪める「マスキング効果」を起こすことがあります。複数の手法で照合するのが安全です。

用語の補足

  • 四分位(Quartile):データを小さい順に並べて4等分した境界値。Q1=25パーセンタイル、Q2=中央値、Q3=75パーセンタイルです。
  • IQR(四分位範囲):Q3 − Q1の差。データ中央50%のばらつきを表す指標で、外れ値の影響を受けにくい点が特徴です。
  • Tukeyのフェンス:統計学者ジョン・テューキーが提案した外れ値の判定基準。k=1.5を「内側のフェンス」、k=3.0を「外側のフェンス」と呼びます。

よくある質問

機械的に削除するのは推奨できません。まず「入力ミス」「測定機器のトラブル」「実際の異常イベント」「貴重な発見の兆候」のどれに該当するかを確認します。入力ミスなら修正・除外、実際の異常なら別系統で分析、発見につながる兆候なら積極的に深掘りするのが基本です。論文や報告書で削除する場合は、必ず削除した件数と理由を記載してください。
迷ったらまずIQR法を使ってください。分布の形に依存しないため、収入データのように右に歪んだ分布でも安定して検出できます。データが正規分布に近い(ヒストグラムが釣鐘型)と分かっているなら、Zスコア法のほうが感度が高くなります。両方で結果を比較したい場合は「両方で判定」を選んで照合できます。
IQR法は最低10件、できれば30件以上を推奨します。10件未満では四分位の計算自体が不安定になり、外れ値の判定が信頼できません。Zスコア法はさらに多く、30件以上を目安にしてください。少数データの場合は、グラフ(箱ひげ図・散布図)を併用して目視確認するのが安全です。
k=1.5は「Tukeyの内側フェンス」と呼ばれ、一般的なデータクレンジング・探索的分析で使われる標準値です。k=3.0は「外側フェンス」で、極端な外れ値だけを検出します。製造業の品質管理など「明らかな異常品だけ抽出したい」場合は3.0、「気になる値をすべて拾いたい」場合は1.5を選んでください。
分布が大きく歪んでいるか、複数の集団(例:男性と女性のデータが混在)が含まれている可能性が高いです。データを層別(カテゴリごと)に分けて再計算するか、対数変換を施してから外れ値検出を行うと、より意味のある結果が得られます。
現状はファイルアップロードに対応していません。Excel・スプレッドシート・CSVから対象列をコピーし、入力欄にそのまま貼り付けてください。改行区切り・カンマ区切りどちらも自動認識します。1行に余計な単位(「100kg」など)が混ざっている場合は、Excelの置換機能で除去してから貼り付けると安定します。
いいえ、すべての処理はブラウザ上で完結します。入力した数値データが外部に送信されることは一切ありません。社内データの前処理にも安心してご利用いただけます。