平均

データは平均で示す.平均とは,データすべてを足してその和をデータ数で除する,という算術平均のことである.1 回限りの事象(認識できる形をとって現れることがら)では対象とする特性は確定できない.実験植物(シロイヌナズナ ミヤコグサ)や実験動物(マウス ラット)など個体間の遺伝的特性をそろえるようにした生物でも n = 5 (供試数 5 あるいは サンプル数 5 )は必要である.繰り返しになるが,このブログで取り扱うには小標本統計であるから, n = 5 ~ 30 くらいの個体数を扱うことになる.

CharGPT – 4 による R および Pythonを用いた平均の算出のスクリプト

平均を算出する R スクリプトを以下に示す.

以下のようなデータのエクセルファイルを作成する.

# パッケージの読み込み

library(openxlsx)

# Excel ファイルのパス

file_path <- “C:/Users/a56f3/Desktop/data.xlsx”

# Excel ファイルからデータを読み込む

wb <- loadWorkbook(file_path)

# 特定のシートからデータを読み込む(例えば1番目のシート)

data <- readWorkbook(wb, sheet = 1)

# 特定の列の平均値を計算(ここでは ‘value’ 列と仮定)

mean_value <- mean(data$value, na.rm = TRUE)

# 結果をデータフレームに保存

result <- data.frame(Mean = mean_value)

# 新しいシートを追加してデータを書き込む

addWorksheet(wb, “Averages”)

writeData(wb, sheet = “Averages”, result)

# 変更をファイルに保存

saveWorkbook(wb, file = file_path, overwrite = TRUE)

実行すると以下のようなエクセルファイルが作成される.

続いて平均を算出する Python スクリプトを以下に示す.

# Python 平均

import pandas as pd

from openpyxl import load_workbook

# Excel ファイルのパス

file_path = ‘C:/Users/●●●/Desktop/data.xlsx’

# Excel ファイルからデータを読み込む

data = pd.read_excel(file_path, sheet_name=0)  # 0 は最初のシートを指します

# 特定の列の平均値を計算(ここでは ‘value’ 列と仮定)

mean_value = data[‘value’].mean()

# 結果をデータフレームに保存

result = pd.DataFrame({‘Mean’: [mean_value]})

データのとりかたが正しいなら平均は対象の特性をわかりやすく表現できる

平均は統計解析の基本である.データのばらつきを示すには,箱ひげ図が適している.最近は箱ひげ図がよく使われるようになってきているのではあるが,個人的にはデータの特性を短く表すことができる平均のほうがよいと考えている.平均がデータのばらつきを正しく示すようにするためには,① データをとる均一な表現型を示す集団を選抜する,② 外れ値と推察されるデータを統計解析から除外する ことが必要である.

まとめ

(1) データは平均で示す.

(2) 1 回限りの事象(認識できる形をとって現れることがら)では対象とする特性は確定できない.