統計解析をする意味
生物統計学はパワフルなツールである
このブログでは,①なぜ統計解析をする必要があるか? ②統計解析の結果を正しく考察するにはどうすればよいのか? を解説していくことにする.私は大学教員として情報処理・生物統計学の演習を通算 20 年くらい 担当していた.生物統計学との出会いは大学2年生のときの学生実験である.『 統計学を使うと平均値間において統計的に有意な差があるかどうかを示すができるのか・・・ 』と深く感動したことを覚えている.
上級国家公務員試験に合格して農林水産省に入省し,特許事務所,2 つの企業の研究所を経て,母校の農学部助手に採用され,講師になって生物統計学を担当することになった.それから大学を定年退職した今日にいたるまで,(1) 生物統計学を科学的な証拠(エビデンス)として利用するにはどうすればよいか? (2) 統計解析した結果を深く考察するためにはどのようなツールを使えばよいか? について研究している.
『 工学の研究者は数学を道具として利用する 』と 教えてくれた先輩がいた.このブログでは『 統計学を道具として利用する 』ことを解説していきたいと思う.具体的にいうと,むつかしい理論を解説するのではなく,①こういう場合はどのような統計解析を使えばよいのか? ②得られた統計解析の結果を科学的に正しく考察し,研究あるいはビジネスに利用するにはどうすればよいのか? の2つの視点から統計解析をする意味を解説をしていきたいと考えている.
1 度きりの事象で対象の特性は理解できない
1回きりの事象(出来事)で対象の特性を理解することはできない.統計解析の対象にしている特性は,そのときの状況(環境要因 時間的要因など)によって異なった特性を示す.たとえば,淘汰・選抜によって,ほぼ均一の表現型にそろえられたモデル植物においてでも,多数の実生を観察すると形質について ばらつき が観察できる.イチゴはランナーと呼称される栄養体を発根させて苗にしている.したがって,同じ親株から得たランナー苗はクローン(遺伝的特性が同じ)になる.しかし,この場合でも栽培をしていると形質の ばらつき が認められる.
以上のように,1度きり(1 個体だけ)の分析・観察では,対象とする特性がどのようなものであるかを明確に理解することはできない.特に生物では,工業製品とはちがって個体差が大きいため,対象とする集団(母集団)の特性を数値化することは困難であった.そのような理由で,生物の特性を数値化する科学的な手法として誕生したのが生物統計学である.ドナルド・フィッシャー(Sir Ronald Aylmer Fisher)は、現代統計学の父とされる英国の統計学者であり、特に小標本(small sample)の統計論において重要な貢献をした1),2),3).このブログでとりあげるのは,小標本統計4)と呼称されるサンプル数(標本数)が 5 ~ 30 程度でなんとか統計解析を可能にしているものである.
1) Ronald A. Fisher. 1925. Statistical Methods for Research Workers.
2) Ronald A. Fisher. 1935. The Design of Experiments.
3) Ronald A. Fisher. 1938. Statistical Tables for Biological, Agricultural and Medical Research.
4) 清水信博 もう悩まない!論文が書ける統計 2004 オーエムエス出版
エクセル,パワーポイント,オープンソースのプログラム言語( Python・R )および ChatGPT – 4 は 統計解析のパワフルなツール
大学教員時代には,市販の統計解析ソフト(JMP および SPSS )および エクセルで統計解析し,統計解析の結果を図としてエクセル・パワーポイントで作成することを教えていた.私の専門は野菜園芸学なので,まず,農業用ハウスで野菜を栽培し,形質のそろったトマトやイチゴを得ることから研究を開始していた.形質のそろった野菜を対照(対象ではなく生物統計学では対照という用語を使う)および処理に分け,キャピラリー電気泳動装置で食味成分を分析したり,リアルタイム PCR システムで遺伝子発現解析をして,野菜の生理特性を解明していた.最近はドローンを使った空撮画像から成長解析あるいはイチゴあるいはトマトの花房識別 AI の構築をする研究に研究対象を移行していた.コンピュータサイエンスは,分子生物学的手法を使った研究と比べて,研究にかかる経費が 1 桁から 2 桁くらい安くつくため,研究資金が激減している大学教員にとっては選択しやすい分野でもある.
上述の分野において研究をしているうちにパワフルなツールであることがわかったのが,エクセル,パワーポイント,オープンソースのプログラム言語( Python)および ChatGPT – 4 である.そこで,このブログでは,これらの実践的な使い方についても解説していくことにする.
まとめ
(1) このブログでは,①なぜ統計解析をする必要があるか? ②統計解析の結果を正しく考察するにはどうすればよいのか? について実践的な解説をしていく.
(2) 1 度きり(1 個体だけ)の分析・観察では,対象とする特性がどのようなものであるかを明確に理解することはできない.
(3) エクセル,パワーポイント,オープンソースのプログラム言語 Python および ChatGPT – 4 は統計解析をするうえでパワフルなツールである.