外れ値

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値の多くのものはヒューマンエラーによって生じる1).たとえば,入力ミスやサンプル調整のミスなどがその大きな原因になる.

1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.48 -55

外れ値は統計解析の結果に大きな影響を与える

下のエクセルファイルにおいて,外れ値は 処理の 9.1 である.この外れ値をデータとして含めて統計解析したため,外れ値を統計解析に含めなかった場合とは,平均および分散(黄色)が異なってくる.F 検定の P 値も異なってくることになる.平均,分散,F 検定,P 値については,のちほど解説していくので,今回は統計量が異なってくることだけに注目してほしい.

1 ヶ月あたり万単位のサブスクリプションを払っている高性能な統計解析ソフトを使っていても,統合開発環境を使ってがんばってバージョンアップに対応させているオープンソースのプログラム言語で解析しても,外れ値が統計解析に含まれてしまえば,正しくない解析と考察をすることになる.

都合の悪い外れ値を削除することはデータ改ざんになる

論文や検査結果に都合の悪いデータを外れ値とする行為はデータ改ざんになる.研究者あるいは技術者なら誰しも,都合の悪いデータをなかったことにしたい,という衝動にかられたことがあると思う.しかし,自分たちの仮説や検査に都合が悪いからといって,その値を外れ値として削除することにするのは社会規範を逸脱した行為になる2)

2) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 日本生物工学会 編 2021 Digital P.48 -55

まとめ

(1) 外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのこと.

(2) 外れ値は統計解析の結果に大きな影響を与える.

(3) 自分にとって都合の悪いデータを外れ値として削除することはデータ改ざんになる.