瓢箪鯰的な男がR初級者から中級者になるのを記すブログ

掴みどころのないオッサンのR勉強録。目標は中級者。 その他雑記なども

PISA2006の分析 -親の属性と子の学力③-

前回はコードブックや質問用紙を読みながら
使えそうな変数を取るところまでやった。
問題は点数が5つもあるというところの処置。
簡単に5つの平均値を出せばいいじゃん、と思われるかもしれないが。。。

平均は実は扱いにくい変数である

意外と知られていないのが、平均値の扱いづらさである。
平均値のマジックとしてよく知られているのが、「平均貯蓄」である。

【2017年家計調査】みんなの平均貯蓄額は?1820万円
当然「俺の家こんなに貯金ないよ」となるわけだ。

実はこの平均貯蓄は、一部の貯蓄が多い世帯が平均を引き上げてしまっているのだ。
(本文中にも言及があるが)実際に貯蓄額の分布を見てみると、
やはり貯蓄額の多い一部の世帯の影響が大きいことが分かる。
さらにこれは、負債は考慮していないので、貯蓄額は最低でもゼロ円だ。
平均値をある集団の特性を表す統計量だが
単純に平均しただけでは、その集団の特性を表さないことがある。
こちらから松坂大輔投手の
2005年の等級データを入手できる(提供元:(株)データスタジアム)。
平均球速を算出すると約138.1km/hとなって、全盛時の松坂投手からは考えられない程遅い。

ヒストグラムを書いてみよう。

setwd("C:/")	#ディレクトリ移動
moto<-read.csv("松坂球速.csv",header=TRUE)	#データの読み込み
hist(moto$kyusoku,main="松坂投手の球速分布",xlab="km/h",breaks = 18)	#球速のヒストグラムを表示。bureaksの値はいくつか実際に書いて決めればよい

f:id:namazu1945:20170604204726p:plain

明らかに2つ山があり、球速が何かしらの要因に左右されていることがわかる。
野球ファンならすぐにわかるだろうが、球種によって球速は変わってくる。
よって球速の平均値を出すには、全部を無暗に足して割るのではなく
球種で分類して、平均を出すという手間が生じてくる。

・・・なかなか本番の分析が進まないのぉ。。。