解説

多重性の問題 – 同じデータに検定をくりかえしてよいか?

統計的な意味での多重性の問題これまでこの統計解析の開設ブログでは,① 正規分布の検出,② 外れ値の検出,③ 等分散の検定 について解説してきた.これ以降は t 検定 および Tukey - Kramer の多重検定について解説していくことになるであるが,統計的な意味での多重性について解説すべきであると考える.同じデータ(可能ならな n = 5 以上)に異なる検定あるいは同じ検定を繰り返すと第 1 種の過誤が蓄積して増加する. これは t 検定を繰り返すという基本的なミスに代表される.同じデータについて帰無仮説に基ずく検定を繰り返すと,形成された帰無仮説の集団について第 1 種の過誤の確率が高くなる.帰無仮説の集団ごとに第 1 種の過誤の確率 = 1−(1−有意水準)検定を繰り返す回数例 検定を 1 回だけおこなう場合 1-(1- 0.05)1 = 0.05例 検定を 2 回繰り返す場合  ...
解説

分散が等しいかを検定する

Leven 検定および F 検定対照と処理のように,集団 A と 集団 B が同一集団に属するかどうかの検定,つまり,対照 と処理が異なる集団であるかどうかの検定について解説する.対照 と処理が異なる集団であるならば,この処理によって何らかの効果があったと考えるということになる.2 つの集団が同一集団の属するということは,分散と平均値が等しいということである 1) .したがって,第 1 に 2 つの集団の分散が等しいかどうかを検定し,第 2 に 2 つの集団の平均値が等しいかどうかの検定をする必要がある 2) .なお,2 つの集団の平均値が等しいかどうかの検定としては,スチューデントの t 検定を解説する.1), 2) 石井 進 1975 生物統計学入門 培風館 東京 p.161Leven 検定および F 検定は,2 つの集団の分散が等しいかどうかを調べる検定である. これまで多くの生物統...
解説

帰無仮説

差がないと仮定するのが帰無仮説坂巻は帰無仮説を「誤っていることを示したい「正しい」と想定したモデル」とし,対立仮説を「正しいことを示したい「正しい」と想定したモデルと定義している1).石居は 検定を行うには棄却検定法とよぼれる方法が魅入られ,そのための統計学上の仮説がたてられる.その仮説が帰無仮説であり,この帰無仮説と反対の仮説が対立仮説である としている2).帰無仮説は対照と処理では「差がない」として仮説検定が行われる.すべての場合において,差があることを証明することは不可能なので,差がないことを証明する方法がとられている3)1) 坂巻顕太郎・篠崎智大 2023 生物統計学の道標 一般財団法人 厚生労働統計協会 P 772) 石居 進 1975 生物統計学入門 培風館 P 673) 川瀬雅也・松田史生 2021 生命科学・生物工学のための間違いから学ぶ実践統計解析 p 32 - 33 仮...
解説

外れ値の検出

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値はヒューマンエラーで起こることが多いので,統計解析をするうえで,最も大切なことは, 外れ値の検出を使わないですむように分析・観察をすること になる.また,生物は個体差が大きいので分析・観察が正しい方法で行われていても外れ値はデータとして得られてしまう.外れ値の検出をすることはデータ改ざんではないこのブログは「 統計学を道具として使う 」ことを 1 つの目的としている.ヒューマンエラー以外の原因で生じた外れ値については,これらを削除することで,正しい統計解析とそれらの結果による考察をすることが可能になる.外れ値はかならずといってよいほどデータに存在するので,データ補正として外れ値の検出をすることは,データ改ざんに該当しない.市販の統計解析ソフト JMP では,ロバスト推定の外れ値の検出および分位点範囲...
解説

統計解析をする意味

生物統計学はパワフルなツールであるこのブログでは,①なぜ統計解析をする必要があるか? ②統計解析の結果を正しく考察するにはどうすればよいのか? を解説していくことにする.私は大学教員として情報処理・生物統計学の演習を通算 20 年くらい 担当していた.生物統計学との出会いは大学2年生のときの学生実験である.『 統計学を使うと平均値間において統計的に有意な差があるかどうかを示すができるのか・・・ 』と深く感動したことを覚えている.上級国家公務員試験に合格して農林水産省に入省し,特許事務所,2 つの企業の研究所を経て,母校の農学部助手に採用され,講師になって生物統計学を担当することになった.それから大学を定年退職した今日にいたるまで,(1) 生物統計学を科学的な証拠(エビデンス)として利用するにはどうすればよいか? (2) 統計解析した結果を深く考察するためにはどのようなツールを使えばよいか?...
解説

P 値の書き方

P 値の記載方法このブログでは,P 値についての解説はしていない.P 値は 有意性検定(NHST:Null Hypothesis Significance Testing)において閾値となるので,どのような記載をするかは統一しておいたほうがよいと考える.私は 20 年くらいは P = 0.003 (P イタリック・大文字)の記載法をとっていた.この P 値の根拠は,ISO規格に関する統計用語では、「P 値」の「P」は大文字のイタリックで表記されることが推奨されていることによる(1).(1) 清水信博 もう悩まない!論文が書ける統計 2040 オーエムエス出版 P.27ChatGPT - 4o と P valueChatGPT - 4o は,P value に決まったスタイルはないとし,Natureスタイルガイドとして P (イタリックなし大文字)value (1),APAスタイルガイドとし...
解説

有意性検定と統計的仮説検定

統計的仮説検定統計的仮説検定とは,標本のデータを調べ,そして期待されるデータの分布と比べることによってこの期待される分布をもたらすべき仮説を受け入れるか,あるいはその仮説を棄却して,他の仮説を受け入れるかを決定することである(1).有意性検定とは,P 値は正しいと想定したモデル と 観察されたデータの乖離の程度 を 示す指標(2)として解釈 する検定を示す.つまり,統計的仮説検定は P 値によって仮説を受け入れるかどうか までを含んでおり,有意性検定は 仮説の希釈あるいは保留を含んではいない検定である.しかし,多くの検定において,有意性検定と統計的仮説検定を混ぜたものである(3).筆者が経験した 植物生理学,園芸学,植物育種学,植物分子生物学のおいては,P 値を示す検定は ほぼ,統計的仮説検定であった.(1) 坂巻顕太郎 2023 年 第 8 回 検定と P 値 生物統計学の道標 厚生労働...
解説

標準誤差

多くの統計解析に関する書籍あるいはネットでの解説において,標準誤差はあいまいな表現がされている.その原因は,数学的に正確な表現をしているからである.このブログでは生物統計学を基礎としての標準誤差の解説していく.生物統計学として標準誤差の解説① 対象とする集団からデータをとるサンプルを たとえば 10 個選ぶ.② この 10 個のサンプルを分析してそれぞれのデータを得る.③ これら 10 個のデータから平均を算出する.④ ① ~ ③ の操作を たとえば 5 回 繰り返す.⑤ 平均が 5 つ 得られる.この 5 つの平均から標準偏差を算出する.⑥ 得られた 標準偏差 が 標準誤差になる.標準誤差は平均を算出し,その平均が母集団の平均からどれだけばらつくかを表した基本統計量ということになる(1).これに対して標準偏差は,母集団の平均からデータが どれだけ ばらついているか を表す.(1) Rob...
解説

標準偏差

標準偏差はデータのばらつき程度を示す指標となる基本統計量である(1).標準偏差は正規分布していないデータでも使用することができる(2).私自身も『 正規分布していない可能性のあるデータには標準偏差は使えない 』と誤解していた.(1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.49(2) 石居 進 生物統計学入門 1975 培風館 P.23上述の誤解は,データが正規分布しているときには,データの約68%が平均から1標準偏差以内、約95%が2標準偏差以内、約99.7%が3標準偏差以内に収まる (1),(2),(3),(4),(5),(6)ということが,必ず統計解析の書籍には示されていることによると考えている.(1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学1983 共立出...
解説

グラフを用いる意味

表を用いて統計解析の結果を示すと テキストベースになるため,データ全体をすばやく理解することは困難である.わかりづらいという欠点から,表は エビデンス(科学的な証拠)を示す方法としてとても弱い方法ということになる.テキストでデータを示す表と比べて,イラストで示すグラフを使ったほうが,統計解析結果を理解しやすくなる.多重検定の結果をグラフで示す生データとともに Tukey - Kramer 多重検定の結果を示した表を示す.次に,Tukey - Kramer 多重検定の結果をグラフで示す.グラフのほうが対照,処理 A,処理 B の平均,標準誤差および多重検定の結果を可視的にとられることができる.なお,このグラフは生物学の古典的な形式で書いている.ビジネスではグラフの説明は簡略化して示すことが多いが,統計解析の結果については,このグラフにように必要なすべての情報を示しすほうがよい.標準誤差と標準...