生物統計学のひと

解説

Python で 正規分布を ChatGPT – 4 で描く

ChatGPT - 4 に Python スクリプトおよび 得られた正規分布の図を以下に示した. # Python で 正規分布の図を描く import numpy as np import matplotlib.pyplot as plt # 正規分布のパラメータ mu = 0 # 平均値 sigma = 1 # 標準偏差 # 点の生成 x = np.linspace(mu - 4*sigma, mu + 4*sigma, 100) y = (1 / (np.sqrt(2 * np.pi * sigma**2))) * np.exp(-((x - mu)**2) / (2 * sigma**2)) # 図の作成 plt.figure(figsize=(8, 5)) plt.plot(x, y, label=f'μ={mu}, σ={sigma}') plt.title('正規分布のグラフ...
解説

確率分布

確率分布はいくつかの種類があり,それぞれ異なる特性を持っているので,その特性に適した統計解析やモデリングに使用されている.研究やデータ解析の目的に応じて、適切な確率分布を選択しなければ適切な統計解析はできない. 確率変数および確率分布 確率変数および確率分布について説明する.ダーツの矢を高さ 1 m から落とし,下の平面に定めた1点 および 落としたダールの矢の距離(データとする) を測定する実験 を考えることにする.定めた1点とダーツの矢の距離は,ダーツの矢を離すときの,指の力を緩める程度,実験場の風速,矢がおちる間に通過する空気の状態など に影響されて,連続的な値(データ)を示すことになる.ダーツの矢が落ちた点 と 定めた1点との距離は、理論上、無限に小さな値として計測できるため、得られるデータは連続変数とみなすことができる. ダーツの矢を高さ1mから落とすこの実験では、矢が落ちる場所...
解説

R および Python を使った統計解析

オープンソースのプログラム言語が初心者に困難な理由 統計解析のプログラム言語としてよく用いられているのは R および Python である(1).これらは,オープンソースのプログラム言語なので,ユーザーはソースコードの閲覧、変更、利用、再配布を自由することができる.このようなオープンソースのプログラム言語は無料であるが,これを使い続けるためには,① 専門的な知識の習得,② ユーザーコミュニティによって継続的な開発と改善が続けられているので,絶え間ないアップデートが必要になる.今回は R および Python を使って統計解析のプログラムをすることついて解説する. (1) 川瀬雅也・松田史生 2021 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 日本生物工学会 編 近代科学社 Digital 2021 年 統合開発環境を利用して絶え間ないア...
解説

分散

データが平均から どのくらい ばらついているか の指標 『 分析・観察から得たデータが平均からどのくらい ばらついているか 』を示す指標になるのが分散である1). 分散 = (すべてのデータについて(データ - 平均)2 )÷ データの数 データ - 平均 については マイナスの値になることがあるので 2 乗している1). 1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.47 - 49 ChatGPT - 4 による分散を算出する R スクリプト 分散を算出する R スクリプトを以下に示す. # エクセルファイルのパス file_path <- "C:/Users/あなたのユーザー名/Desktop/data.xlsx" # エクセルファイルからデータを読み込む data <- read_excel(file_pat...
解説

ChatGPT – 4.0 と統計解析

ChatGPT - 4.0 の公開は大学教育にとって大きな影響を与えた.レポートや試験に対する教員の対策のような小さな問題から,学問とはなにか ?という哲学的な大問題にいたるまで,大学教員は大きな衝撃を覚えた.なお,学生さんへの対策として一番良い方法は,学生さんよりも ChatGPT - 4 を使いこなせるようになること である. 市販の統計解析ソフトとオープンソースのプログラム言語による統計解析 これまでの大学教員としての研究生活では SAS 社の JMP を使用してきた.もう 1 つのメジャーな統計解析ソフトとしては IBM 社の SPSS がある.Python および R で統計解析のプログラムをしていると,これらのオープンソースのプログラム言語では,ライブラリ(Python)あるいはパッケージ(R)のバージョンが月単位で更新されることに気がつく.このような更新に対応するためには,P...
解説

箱ひげ図

箱ひげ図は,①最小値,②最大値,③平均,④四分位範囲,⑤中央値 ⑥外れ値によって,データのばらつきを示している1). 1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.10 - 17 ChatGPT-4o による箱ひげ図の作成 ChatGPT - 4o が示した箱ひげ図作成の Python スクリプトで描かれたものをもとにし,以下の図をパワーポイントで作成した.左は Python で描いた元の箱ひげ図である. 四分位範囲とはデータの 50%がはいる範囲のことで,この範囲からはずれ値を算出している.このように箱ひげ図は 直観的に データのばらつき を知るにはとても便利な図である.しかし,箱ひげ図は ① 箱ひげ図で示しれる統計量は 平均 および 外れ値 だけであ...
解説

平均

データは平均で示す.平均とは,データすべてを足してその和をデータ数で除する,という算術平均のことである.1 回限りの事象(認識できる形をとって現れることがら)では対象とする特性は確定できない.実験植物(シロイヌナズナ ミヤコグサ)や実験動物(マウス ラット)など個体間の遺伝的特性をそろえるようにした生物でも n = 5 (供試数 5 あるいは サンプル数 5 )は必要である.繰り返しになるが,このブログで取り扱うには小標本統計であるから, n = 5 ~ 30 くらいの個体数を扱うことになる. CharGPT - 4 による R および Pythonを用いた平均の算出のスクリプト 平均を算出する R スクリプトを以下に示す. 以下のようなデータのエクセルファイルを作成する. # パッケージの読み込み library(openxlsx) # Excel ファイルのパス file_path <...
解説

外れ値

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値の多くのものはヒューマンエラーによって生じる1).たとえば,入力ミスやサンプル調整のミスなどがその大きな原因になる. 1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.48 -55 外れ値は統計解析の結果に大きな影響を与える 下のエクセルファイルにおいて,外れ値は 処理の 9.1 である.この外れ値をデータとして含めて統計解析したため,外れ値を統計解析に含めなかった場合とは,平均および分散(黄色)が異なってくる.F 検定の P 値も異なってくることになる.平均,分散,F 検定,P 値については,のちほど解説していくので,今回は統計量が異なってくることだけに注目してほし...
解説

生物統計学の書籍 3 冊を紹介する

生物統計学の書籍を 4 冊 紹介する.YouTuber 用語でいう企業案件ではない. 生物統計学 Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 1983 生物統計学 共立出版 Biometry (1969) の縮刷版 Introduction to Biostatistics (1972) の全訳である.数式をできるだけ少なくして言葉で説明するというコンセプトで書かれた名著であり,筆者のバイブルでもある.とても古い書籍ではあるが,生物統計学を学ぶうえでの必読の書になっている.amazon で入手できるが,kindle 版はない. 川瀬雅也 松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital 統計解析の誤用を例にしながら,統計解析の基礎から実践まで...
解説

サンプルサイズとサンプル数

サンプルサイズとサンプル数はまったく異なる概念である.これことを認識しないと統計解析の結果を正しく理解することはできない. サンプルサイズ 右の表の Sample Size (サンプルサイズ)は 9 になっている.左の表のIndividual ID (個体番号) は 9 であることから,サンプル数は 9 であることが理解できる.右の表の Sample Size Needed(必要なサンプルサイズ) は 13.89・・・であるから,サンプルサイズは 9 になり,サンプルサイズはすくなくて 14 必要であることが示されている.つまり,サンプル数は統計解析に使用したサンプル数を表し,サンプルサイズは 正確に統計解析するために必要なサンプル数のサイズを示していることになる1). サンプル数                                    統計解析に使ったサンプルの数を示す サ...