解説

箱ひげ図

この解説は Ver.2 です(2025 年 6 月 21 日 更新).初出 2024 年 7 月 29 日箱ひげ図は,①最小値,②最大値,③平均,④四分位範囲,⑤中央値 ⑥外れ値によって,データのばらつきを示している1).1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.10 - 17ChatGPT-4o による箱ひげ図の作成ChatGPT - 4o が示した箱ひげ図作成の Python スクリプトで描かれたものをもとにし,以下の図をパワーポイントで作成した.左は Python で描いた元の箱ひげ図である.四分位範囲とはデータの 50%がはいる範囲のことで,この範囲からはずれ値を算出している.このように箱ひげ図は 直観的に データのばらつき を知るにはとても...
解説

多重性の問題 – 同じデータに検定をくりかえしてよいか?

この解説は Ver. 2(2025年6月21日更新)です.初出:2024年12月15日統計的な意味での多重性の問題同一のデータ群(具体例 実験あるいは観察で得た測定値・観察値の集団 『 対照,群A,群B,群C 』. 『 対照,処理 1,処理 2,処理 3,処理 4 』.『 対照,集団 1,集団 2.集団 3,集団 4,集団 5 』)について,統計処理を2回以上,繰り返すことは,以下に説明する多重性の問題を起こすことになるので,統計学的には正しくない統計解析である.つまり,実験あるいは観察で得た測定値・観察値の集団 『 対照,群A,群B,群C 』,『 対照,処理 1,処理 2,処理 3,処理 4 』あるいは『 対照,集団 1,集団 2.集団 3,集団 4,集団 5 』などについて,正規分布の検出,外れ値の検出,等分散の検定などをしてから,スチューデントのt検定をすることは,統計学的には行って...
解説

2 群の比較の検定

この解説は Ver. 1.1(2025年4月13日更新)です.初出:2025年2月15日スチューデントの t 検定,ウェルチの t 検定,マン・ホイットニの U 検定対照と処理に統計的に有意な差があるかどうかを検定する方法としては,スチューデントの t 検定(二標本 t 検定),ウェルチの t 検定,マン・ホイットニの U 検定がある.スチューデントの t 検定については,同じ検体を使っている場合(はじめに計測をし,その後に処理をし再度,同じ検体を計測するなど)対応のある t 検定(一標本 t 検定)を利用する1).1) 清水信博 2004 年 もう悩まない!論文が書ける統計 オーエムエス社 p.56スチューデントの t 検定(二標本 t 検定),ウェルチの t 検定,マン・ホイットニの U 検定を使用する際に集団あるいは集団間について,正規分布,等分散および帰無仮説を下に示した.この表に...
解説

分散が等しいかを検定する

Leven 検定および F 検定対照と処理のように,集団 A と 集団 B が同一集団に属するかどうかの検定,つまり,対照 と処理が異なる集団であるかどうかの検定について解説する.対照 と処理が異なる集団であるならば,この処理によって何らかの効果があったと考えるということになる.2 つの集団が同一集団の属するということは,分散と平均値が等しいということである 1) .したがって,第 1 に 2 つの集団の分散が等しいかどうかを検定し,第 2 に 2 つの集団の平均値が等しいかどうかの検定をする必要がある 2) .なお,2 つの集団の平均値が等しいかどうかの検定としては,スチューデントの t 検定を解説する.1), 2) 石井 進 1975 生物統計学入門 培風館 東京 p.161Leven 検定および F 検定は,2 つの集団の分散が等しいかどうかを調べる検定である. これまで多くの生物統...
解説

帰無仮説

差がないと仮定するのが帰無仮説坂巻は帰無仮説を「誤っていることを示したい「正しい」と想定したモデル」とし,対立仮説を「正しいことを示したい「正しい」と想定したモデルと定義している1).石居は 検定を行うには棄却検定法とよぼれる方法が魅入られ,そのための統計学上の仮説がたてられる.その仮説が帰無仮説であり,この帰無仮説と反対の仮説が対立仮説である としている2).帰無仮説は対照と処理では「差がない」として仮説検定が行われる.すべての場合において,差があることを証明することは不可能なので,差がないことを証明する方法がとられている3)1) 坂巻顕太郎・篠崎智大 2023 生物統計学の道標 一般財団法人 厚生労働統計協会 P 772) 石居 進 1975 生物統計学入門 培風館 P 673) 川瀬雅也・松田史生 2021 生命科学・生物工学のための間違いから学ぶ実践統計解析 p 32 - 33 仮...
解説

外れ値の検出

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値はヒューマンエラーで起こることが多いので,統計解析をするうえで,最も大切なことは, 外れ値の検出を使わないですむように分析・観察をすること になる.また,生物は個体差が大きいので分析・観察が正しい方法で行われていても外れ値はデータとして得られてしまう.外れ値の検出をすることはデータ改ざんではないこのブログは「 統計学を道具として使う 」ことを 1 つの目的としている.ヒューマンエラー以外の原因で生じた外れ値については,これらを削除することで,正しい統計解析とそれらの結果による考察をすることが可能になる.外れ値はかならずといってよいほどデータに存在するので,データ補正として外れ値の検出をすることは,データ改ざんに該当しない.市販の統計解析ソフト JMP では,ロバスト推定の外れ値の検出および分位点範囲...
解説

統計解析をする意味

この解説は Ver. 1.1(2025年4月13日更新)です.初出:2024年10月28日生物統計学はパワフルなツールであるこのブログでは,①なぜ統計解析をする必要があるか? ②統計解析の結果を正しく考察するにはどうすればよいのか? を解説していくことにする.私は大学教員として情報処理・生物統計学の演習を通算 20 年くらい 担当していた.生物統計学との出会いは大学2年生のときの学生実験である.『 統計学を使うと平均値間において統計的に有意な差があるかどうかを示すができるのか・・・ 』と深く感動したことを覚えている.上級国家公務員試験に合格して農林水産省に入省し,特許事務所,2 つの企業の研究所を経て,母校の農学部助手に採用され,講師になって生物統計学を担当することになった.それから大学を定年退職した今日にいたるまで,(1) 生物統計学を科学的な証拠(エビデンス)として利用するにはどうすれ...
解説

P 値の書き方

P 値の記載方法このブログでは,P 値についての解説はしていない.P 値は 有意性検定(NHST:Null Hypothesis Significance Testing)において閾値となるので,どのような記載をするかは統一しておいたほうがよいと考える.私は 20 年くらいは P = 0.003 (P イタリック・大文字)の記載法をとっていた.この P 値の根拠は,ISO規格に関する統計用語では、「P 値」の「P」は大文字のイタリックで表記されることが推奨されていることによる(1).(1) 清水信博 もう悩まない!論文が書ける統計 2040 オーエムエス出版 P.27ChatGPT - 4o と P valueChatGPT - 4o は,P value に決まったスタイルはないとし,Natureスタイルガイドとして P (イタリックなし大文字)value (1),APAスタイルガイドとし...
解説

有意性検定と統計的仮説検定

統計的仮説検定統計的仮説検定とは,標本のデータを調べ,そして期待されるデータの分布と比べることによってこの期待される分布をもたらすべき仮説を受け入れるか,あるいはその仮説を棄却して,他の仮説を受け入れるかを決定することである(1).有意性検定とは,P 値は正しいと想定したモデル と 観察されたデータの乖離の程度 を 示す指標(2)として解釈 する検定を示す.つまり,統計的仮説検定は P 値によって仮説を受け入れるかどうか までを含んでおり,有意性検定は 仮説の希釈あるいは保留を含んではいない検定である.しかし,多くの検定において,有意性検定と統計的仮説検定を混ぜたものである(3).筆者が経験した 植物生理学,園芸学,植物育種学,植物分子生物学のおいては,P 値を示す検定は ほぼ,統計的仮説検定であった.(1) 坂巻顕太郎 2023 年 第 8 回 検定と P 値 生物統計学の道標 厚生労働...
解説

標準誤差

多くの統計解析に関する書籍あるいはネットでの解説において,標準誤差はあいまいな表現がされている.その原因は,数学的に正確な表現をしているからである.このブログでは生物統計学を基礎としての標準誤差の解説していく.生物統計学として標準誤差の解説① 対象とする集団からデータをとるサンプルを たとえば 10 個選ぶ.② この 10 個のサンプルを分析してそれぞれのデータを得る.③ これら 10 個のデータから平均を算出する.④ ① ~ ③ の操作を たとえば 5 回 繰り返す.⑤ 平均が 5 つ 得られる.この 5 つの平均から標準偏差を算出する.⑥ 得られた 標準偏差 が 標準誤差になる.標準誤差は平均を算出し,その平均が母集団の平均からどれだけばらつくかを表した基本統計量ということになる(1).これに対して標準偏差は,母集団の平均からデータが どれだけ ばらついているか を表す.(1) Rob...