対象とする集団

生物統計学では対象は生物なので個体差が大きく,たとえば,ある栽培方法が特定の植物にどのような影響を与えるかを調べるときには,対象とする生物集団の形質を均一にする必要がある.具体的には,対照と処理の品種・系統をそろえて遺伝的に均一で,しかもサイズのそろった集団構成することが求められる.

供試数,個体数,サンプル数,データ数および標本数

供試数,個体数,サンプル数およびデータ数という専門用語は生物統計学にとっても,解釈に齟齬を招く用語なので,ここでこれらを改めて定義しておくことにする.

供試数  分析・観察など実験に使用した生物の数のことを供試数という.                                            

個体数  分析・観察などの実験に使用した生物の数のことを個体数という.供試数 = 個体数 と考えてよい.

サンプル数  分析・観察などの実験に使用したサンプルの総数をサンプル数という.メロン 10 個体(園芸学では 10 株と表記)を対照および処理に用い,1 個体第4本葉から第 6 本葉までの 3 枚をサンプルとした場合は,10 個体 × 3 サンプル = 30 サンプル となり,処理のサンプル数は 30 になる.メロン 10 個体を対照および処理に使い,1 個体から第4本葉だけの 1 枚をサンプルとした場合は,10 個体 × 1 サンプル = 10 サンプル となり,処理のサンプル数は 10 になる.このように,サンプル数は サンプルの数がいくつになるかだけ を意味しており,サンプル数が 供試数 あるいは 個体数 を表さない場合のほうが多い.

データ数  サンプルから得た分析・観察のデータの総数をデータ数という.メロンを 10 個体を処理に用い,1 個体から第 4 本葉からおよびグルコース含量およびフルクトース含量を測定した場合の全データ数は,メロン 10 個体 × 第 4 本葉 1 枚 × (グルコース含量データ 1 + フルクトース含量データ 1) = 処理のデータ数 20 となる.

標本数  標本数 = サンプル数 となる.古い書籍や論文では標本数あるいは試料数1)が使われているが,このブログではあえてサンプル数と表記する.

1) 石居 進 生物統計学入門 培風館 1975 年 P.5

供試数と標本数は使わない(このブログでは)

供試数と標本数はまぎらわしいう用語である.また,供試数は古い論文に使われていた用語なので,このブログでは 供試数および標本数は使用しないで,①個体数,②サンプル数,③データ数 を使っていくことにする.

同じ状態の個体から構成される集団を使うこと

植物にある処理をしてデータを取る場合について考える.この場合は,その処理によって対象となる集団のある特性がどのようになるかを知りたいのであるから,処理前の集団は,すくなくとも分析・観察すべき特性がそろっている必要がある.たとえば,ある栽培方法がトマトの収量にどのくらい影響するかを調べるときは,同じ品種・系統で播種後の日数も同じにし,生育状態も同じものを使わなければなならない.当たり前のことではあるが,実際に植物を材料にして研究をする場合でも,発育状態の異なる個体(たとえば,草高,葉数,新鮮重など)を使っている場合を見てしまうことがよくある.これでは 栽培方法による影響を正しく解析すること はできない.生物統計学では対象とする集団を母集団と呼称する2)

2) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 1983 生物統計学 共立出版 P.10

サンプル数はどのくらい必要かの問題

このブログで扱うような統計解析では,サンプルサイズ( 対照あるいは処理においてどれくらいの範囲でサンプルを使ったかを示す 通常は n と表記されることが多い 例 n = 6 )は 5 ~ 30 くらいとされている3).このくらいのサンプルサイズでの統計解析する統計学は小標本統計と呼称される.科学論文を読むと n = 3 ~ 10 くらいで統計解析している場合がようである. n = 3 は統計解析のサンプル数としては,アウトからグレーゾーンといってよい.しかし,動物実験を反対する勢力の声が強い昨今では,マウス 3 匹は科学的なエビデンスと社会的な要求を満たす最低数になっていることも確かである.実験科学なら n = 5 以上にしたいのであるが,そのためには研究費と研究者の体力・気力の維持が大きなハードルになる.このように統計解析するために必要な供試数は社会的要因によっても制限されていることを認識しておいたほうがよい.

3) 石居 進  生物統計学入門  1975  培風館  P.46,47,53

実験科学においては,実験前の個体差に大きな ばらつき がないようにすることができる.一般的には,同じような個体を選抜して形質・サイズの均一な集団をつくる.たとえば,播種後 30 日目のトマトが必要な場合は,同じ品種の種子を50 粒くらい播種して育苗し,播種後 30 日目にこの集団からサイズがそろった個体を 30 選抜する.このように実験科学では,個体間のばらつきを少なくすることが可能なので,サンプル数そのものを少なくしても,統計解析をすることができる.しかしながら,人間のように個体差が大きいものを対象にする場合は,103 を超えるくらいの供試数が必要になる.可能なら 104 くらいのサンプル数がないとほんとうに科学的に意味のある統解析ができないと考えている.つまり,人間のように血縁関係があっても形質が大きく異なるものを対象にする場合は大きなサンプル数で対応するしかないということになる.このため,人間を個体群として対象にする場合は数千の単位でデータをとる必要があることになる.

いわゆるビッグデータについての感想

上述から考えると創薬において,薬の候補になる化合物やタンパク質の構造や特性が AI で解析できても,臨床試験は人間で試験するしかないので,創薬に莫大な資金が必要になることを理解できる.最近,スマートフォンの位置データから災害時や休日の人間の動向を調査するデータ解析がおこなわれてきている.このようないわゆるビッグデータが示すのは傾向であって,災害や休日ならかならず人間はある特定のビックデータが示すように行動するということでない.統計解析をする場合は,対象とする集団が人間のように多様性に富んだ集団であるか,それとも農作物や実験動物のように形質がある程度均一の集団なのかを意識して認識しなければならない.

まとめ

(1) 処理前の集団は,すくなくとも分析・観察すべき特性がそろっている必要がある.

(2) 個体数,サンプル数,データ数については,誤解がないように明記することが求められる.

(3)  統計解析をする場合は,対象とする集団が人間のように多様性に富んだ集団であるか,それとも農作物や実験動物のように多様性があまりない集団なのかを意識して認識する必要がある.