瓢箪鯰的な男がR初級者から中級者になるのを記すブログ

掴みどころのないオッサンのR勉強録。目標は中級者。 その他雑記なども

データのありか

ソフトも入ったし、データ用のストレージも用意した。 でもこれではデータ分析はできない。何故ならデータがないからだ。 実はRの中にはいくつもの練習用データが用意されており、 それを使って簡単に学習することができる。 こちらのサイトに練習用データの一覧がある。 有名なフィッシャーのあやめのデータもある。 実際のデータが欲しい方には、いくつかのサイトを挙げておく。 e-Stat 国内の主要な統計は、ここで概ねカバーできる。 Eurostat ヨーロッパのデータはこちらから OECD 世界中のデータを網羅的に欲しいならこちら Penn World Tables ペンシルベニア大学の人が作っているデータベース PISA(OECD生徒の学習到達度調査) 公的データとしては珍しく個別データを扱える。 世界各国数十万人の学力試験結果をダウンロードできる。 ギガバイト単位のデータを扱う練習をしたいのなら、これ。 これで、大体準備は完了したので あとはのんびり更新していくことにする。
広告を非表示にする

なぜRか?

非常に簡単である。 フリーソフトだから。 フリーソフトゆえに汎用性が高く、職場でも自宅でも同じ環境を容易に構築できる。 Rは現在、世界中の学者等によりブラッシュアップされ続けており バグなどもすぐに発見される状況にあり、信頼性が高い。 パッケージをダウンロードすることで、○○統計学という 専門分野に特化した分野への対応も容易だ。 (あまり使わないが)GUIで操ることもできるし 導入へのハードルは下がり続けている。 正直このレベルのソフトが無料で入手できるなんて 干支が一回りする前には、想像すらできなかった。 ボーナス一回分の値段がするものとばかり思っていた。時代は変わるものだ。 さらに表計算ソフトもオープンオフィスリブレオフィスといった、フリーのものがある。 (両者はもともと一つだったが) ということで、パソコン一台とインターネット回線と、そこそこのストレージがあれば 誰でも追加的な金銭的負担なしにデータ分析ができる時代なのだ。 Rのインストールはこちらのサイトが詳しい。 Rとオープンオフィスリブレオフィスでもよい)を自宅PCのCドライブに入れれば もう準備完了である。
広告を非表示にする

Rいじり始めました

元々データいじりは好きだったのだが、

仕事で本格的にいじらざるを得なくなったので

Rの備忘録的にブログを書くことにする。

基本的にRの扱い方をつらつら書くという方針で、

これは腐るほど沢山同じようなブログがあるレッドオーシャンに飛び込んでいくという

Suicide attack的な感じ満載になるが

個人的な備忘録を垂れ流すだけなので、気にしないことにする。

統計学的な背景は、その都度書籍等を紹介するので、そちらに全て放り投げる。

ワシはコマンドが知りたいだけなのじゃ。

最近流行りの言葉に「データサイエンス」なんてのがあるが

○○検定やら××分析は本当に一瞬で終わってしまうもので

そこまでの泥臭い苦労はなかなか語られることがない。

そこにたどり着くまでの苦労を、なるべく書けたらとは思うが

個人で扱えるデータは基本的に公的統計しかないので、限界は自ずとあろう。

さらに言えば、コードに美しさを求めることもしない。

「動けば良いのじゃ!」

というマキャベリスト的な思想も導入することにする。

ではでは、ぼちぼちと始めるとしますかね。

広告を非表示にする