外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値の多くのものはヒューマンエラーによって生じる1).たとえば,入力ミスやサンプル調整のミスなどがその大きな原因になる.
1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.48 -55
外れ値は統計解析の結果に大きな影響を与える
下のエクセルファイルにおいて,外れ値は 処理の 9.1 である.この外れ値をデータとして含めて統計解析したため,外れ値を統計解析に含めなかった場合とは,平均および分散(黄色)が異なってくる.F 検定の P 値も異なってくることになる.平均,分散,F 検定,P 値については,のちほど解説していくので,今回は統計量が異なってくることだけに注目してほしい.
