瓢箪鯰的な男がR初級者から中級者になるのを記すブログ

掴みどころのないオッサンのR勉強録。目標は中級者。 その他雑記なども

PISA2006の分析 -親の属性と子の学力④-

前回からかなり時間が経ってしまったのだが、なんてことはない あまり筆が乗らなかっただけの話である。前回までの復習。PISA2006のデータをダウンロードして、日本のデータまで切り出すところまで。 ##########PISA2006の読み込み############# setwd("C:/I…

PISA2006の分析 -親の属性と子の学力③-

前回は、コードブックや質問用紙を読みながら 使えそうな変数を取るところまでやった。 問題は点数が5つもあるというところの処置。 簡単に5つの平均値を出せばいいじゃん、と思われるかもしれないが。。。 平均は実は扱いにくい変数である 意外と知られて…

時系列分析「DECOMP法」の紹介

ちょっと今日は少し趣向を変えて。。。 たまには「これがデータ分析の花だ!!」見たいのを見せておかないと やはり学習意欲が湧かないというのを、同僚を指導していて分かったんで。。そんなわけで、今日はDECOMP法の紹介。 DECOMP法とは?? 時系列データ…

PISA2006の分析 -親の属性と子の学力②-

前回で、データをPCに読ますところまでできた。 さぁ張り切って○○分析を!!!とやりたいところだが・・・ 分析の前にやることはたくさんある!!!*1 まず用意するのは、 〇質問用紙(調査票) 〇コードブック 〇実際のデータ この3つだ。いくつか本格的に…

PISA2006の分析 -親の属性と子の学力①-

いつもお世話になっているフォロワーさんがこんなことを話していたので、 ちょっと簡単に分析してみましょうか、ってのがお題です。@tsurao 小学校行くまでの生育環境(特に家庭)が非常に影響力大きい気がするんですよね。そして子は親を選べない。— 個人凍…

前回までで、PISA2006のデータを落とすまではやった。 今日は実際にデータをRで読み込むところまで。 #########サンプルコード############# setwd("C:/01 ブログ/01 PISA2006/INT_Stu06_Dec07") #データのあるディレクトリに異動 moto<-readLines("INT_Stu0…

ブログのネタ用データ

さて、ブログのネタになるデータをどうするか思案しているのだが PISA2006のデータが良さそうだ。 まず個人が扱える規模の大きな個別データがある、というのが大きい。 何よりも子供たちに将来の夢なんか聞いていて、データとしてなかなか楽しそうである点が…

データのありか

ソフトも入ったし、データ用のストレージも用意した。 でもこれではデータ分析はできない。何故ならデータがないからだ。 実はRの中にはいくつもの練習用データが用意されており、 それを使って簡単に学習することができる。 こちらのサイトに練習用データの…

なぜRか?

R

非常に簡単である。 フリーソフトだから。 フリーソフトゆえに汎用性が高く、職場でも自宅でも同じ環境を容易に構築できる。 Rは現在、世界中の学者等によりブラッシュアップされ続けており バグなどもすぐに発見される状況にあり、信頼性が高い。 パッケー…

Rいじり始めました

元々データいじりは好きだったのだが、 仕事で本格的にいじらざるを得なくなったので Rの備忘録的にブログを書くことにする。 基本的にRの扱い方をつらつら書くという方針で、 これは腐るほど沢山同じようなブログがあるレッドオーシャンに飛び込んでいくと…