散布図にラベルをつけて遊んでみる
意味はよく分からないけどグラフを描いてみようのコーナー。
せっかくRについて入門したのだから適当なデータを適当にグラフにしてみるだけして遊んでみます。そのグラフが何を意味するのか等はとりあえず置いておいて。
今回使うデータはこれ。
平成25年度実施の「学校教員統計調査」の中にある公立特別支援学校教員の都道府県別本務教員の平均勤務年数・平均週教科等担任授業時数・平均給料月額(表番号60)から必要なデータをひっぱてきます。
http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001058725&cycode=0
エクセルファイルで表がダウンロードできるのでいらないところをちゃちゃちゃっと消してcsvで出力してRに読み込ませます。
都道府県ごとに平均勤続年数と平均給与月額を散布図で描いてみます。このとき、プロットした点にラベルがつけられると楽しいなぁということで、それ用のmaptoolsパッケージを使ってみます。
liblrary(maptools) plot(勤続年数,平均給与月額, xlab="勤続年数(年)",ylab="平均給与月額(千円)") pointLabel(勤続年数,平均給与月額, labels=都道府県)
pointLabelというのがmaptoolsに入っている関数。
で、出てきたのがこの図。
文字がやや大きいかな...
ということで文字サイズを変えて、ついでだから回帰直線も加えてリトライ。
plot(勤続年数,平均給与月額, xlab="平均勤続年数(年)",ylab="平均給与月額(千円)") pointLabel(勤続年数,平均給与月額, labels=都道府県,cex=0.8) abline(lm(平均給与月額 ~ 勤続年数))
まぁこんなところでしょう。
見て分かる通り、平均勤続年数が長い県ほど、教員の平均給与が高いです。年齢が上がれば年功序列で給与が上がっていくんだから当たり前ですね。ちなみに分散説明率0.65でした。
以下のサイトを参考にさせていただきました。
Rでラベル付き散布図を作成して保存するまで - 503 Service Unavailable
RTIの解説論文
RTI(Response to Intervention)というと、私は海津先生のMIMしか知らなかったのだが、そもそもこれがどういう経緯で出てきたのかが知りたくて読んだ。
RTIが読みの早期指導に焦点を当てている背景に、アメリカでブッシュ政権のときに成立したNo Child Left BehindやらReading Firstなどの政策の影響を受けている事情などが書かれている。
ただ、10年以上前の論文なので今がどうなっているかは知らない。
『Rによるやさしい統計学』の感想及びサンプルデータ
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (68件) を見る
『Rによるやさしい統計学』を一通り読み終えた。Rという言語そのものへの入門と統計学への入門のちょうど間のような本。折衷的ではあるがとてもバランスが良い本だと感じた。
全部で20章からなり、前半の7章は基本編、後半の13章が応用編と位置づけられている。前半では、Rのインストールから始まり、Rを操作しながら記述統計、2変数の記述、母集団と標本、統計的検定、t検定や分散分析などの平均値差の検定が続く。Rには、各種検定を行なう関数があるが、検定で何を行っているかの理解を深めるためにあえて統計量の計算などを一つひとつRのコンソール上で実行していくので、各種検定がデータにどのような処理をしているか手を動かしながら学ぶことができる。
後半では、トピック毎に必要となるR上での操作が紹介されている。因子分析や共分散構造分析、人口データの発生や検定力分析など多様なトピックを扱っているが説明はとても簡素。必要な関数やパッケージなどのハウツーの紹介に近いので、それらの手法の理屈や理論については別途学ぶ必要があるだろうが、とりあえずRで実際に分析を行なうことができるようになるところまで最短距離で目指す感じではある。
この本の、統計学的な解説と実際の手を動かす実務的な部分のバランス感覚というのが私にとってはちょうど良かった。統計学の基本的な教科書を読み、基本的な検定や推定については一通り学んだものの、どこからしっくり来ていないような状態。そんな人こそ、この本をからは得るものが多いと思う。実際にデータを発生させたり、計算したり、グラフなどで視覚的に表現したりとアレコレといじってみることはとても勉強になる。実際のデータとの対応の中で教科書的な知識が具体的に意味を持ってきて、統計についての理解が素人なりにではあるが深まったと思う。
さて、本の中で使用するデータがあるのだが、これをいちいち打ち込むのは面倒だったのでネットで探すと公開されているものが見つかった。以下にリンクを張っておくので、この本を使って勉強するときには活用すると良いでしょう。
・2章から7章で使う指導法データ
・13章で使うプリポストデザイン
・15章で使う重回帰のデータ
・16章でデータを発生させるスクリプト
社会統計演習
・10章で使う、体重と脳の重さのデータ
外れ値が相関関係に及ぼす影響を調べる - Qiita
動く三角形のアニメーション
フリスによる『自閉症の謎を解き明かす 新訂版』(東京書籍)の11章に脳画像研究についての概説がある。
- 作者: ウタフリス,冨田真紀,清水康夫,鈴木玲子
- 出版社/メーカー: 東京書籍
- 発売日: 2009/02/18
- メディア: ハードカバー
- クリック: 26回
- この商品を含むブログ (4件) を見る
その中に紹介されている、Castelliらによる研究では、人間のような動きをする三角形が登場するアニメーションが刺激として使われている。それらのアニメーションを見ている最中の脳の状態を統制群と自閉症群で比べて、心理化(mentalizing)に関連すると言われる脳部位の活性に違いがあったことが報告されている。
フリスのホームページに使われたアニメーションのサンプルが置いてあり見ることができるのだが、三角形が人っぽく動くさまがかわいいと思う(研究結果にはあまり関係のない話ですけど)。
心理検査の標準化とサンプル数
CiNii 論文 - PB023 日本版KABC-IIの尺度構成と標準化(測定・評価・研究法,ポスター発表B)
日本版K-ABC-Ⅱの標準化の際に用いたサンプルについての報告。全体としてのサンプル数は2587名で、年齢を6ヶ月ごとに区切ると、それぞれのサンプル数は平均78.4名であったと報告されている。
適応年齢が広がれば広がるほどサンプル数も必要になり、その分お金も時間もよりかかる訳である。検査内容の流出に厳しかったり、検査キットの値段が高かったりするのももっともな話だなぁと思う。
山田剛史他『Rによるやさしい統計学』
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (68件) を見る
最近この本を読んでいるがとても良い。特に、標本分布などを実際にデータを発生させて確認できる点。理論的に求められる確率分布を「経験的に近似」できるので、他の統計の教科書で言われていることが腑に落ちる感覚。
ただ統計で使われる各種概念についての説明は簡素なので1冊目にこれを持ってくるときついだろう。言われたとおりにコマンドを打ち込んでいるだけだと、結局それが統計的に何をやっているのか分からなくなるかもしれないので、他の定評あるテキストを読んだ後に自分でデータを発生させたりいじってみるのがオススメ。