2014年8月16日土曜日

Wikipediaのデータで人生解析をしてみよう

■概要
Wikipediaの人に関する項目を解析は、人の出生から生き方、死に方まで色々載ってる。
せっかく大量にあるんだし、なんか人の人生に関する解析をしてみよう。
例えば:
・こういう幼少を過ごした人はこうなる
・こういう名前/誕生日の人はこういう人生を過ごしやすい
・時代毎の名前/職業等傾向
とか。

■データ
・Wikipediaのデータベースダンプを取得、
・その中から人に関する項目だけフィルタ(「存命人物」や「*没」などの文字列が含まれるエントリ)
・名字、名前、生年月日、死没日などをパースして取得。
・更にカテゴリ名に「日本の*」が含まれるエントリを日本人に関するエントリとして取得。
日本人は計119024人。

以下、雑多な解析結果。

■死亡した年と、その時の年齢





近代化と共に寿命が伸びている様子が見える
戦争時は(Wikipediaに載ってる人の)平均寿命が低くなっている

■「○子」みたいな名前の出現頻度
「まるこ」みたいな名前は少し昔のイメージがあるけど、実際どうなんだろう?

「○子」は1970年がピーク、古くは1875年ぐらいからある
Wikipediaに載ってる一番若い「○子」は2006年生まれの幸田雛子

■名前の長さの平均
最近名前が短くなってる気がするけど、実際どうだろう?
生年毎の平均的な名前(の読み)の長さを算出してみた。
(読みの長さ=拍の数。例えば「ヒョウ」=2)
名前の長さは単調減少している
→戦時中は少しだけ増えてるのが気になる。
→2000年以降のばらつきはデータが少ないため。

■逮捕されやすい職業
一番逮捕されやすい職業はなんだろう?
職業が抽出できたエントリから、職業毎の「逮捕」という単語が含まれるエントリの割合を算出し、ランキングを作ってみた。
「元幹部」エントリの9割(12人中11人)は逮捕済
→その他、いかにもな職業がランキング上位をしめた。
みんな逮捕されたくなかったらアナキストや元事業家は避けよう。

■誕生日分布
1月1日から12月31日まで、一番多い誕生日はいつだろう?
全データから算出:
1月1日の誕生が多く、年末にかけての誕生日が少ない
これって単に、届け出が適当だから?年末に生まれた子はキリよく1月1日の誕生日として届け出る人が多い、とかありそう。

1960年以降の誕生日:
→最近の誕生日だけにすると、1月1日のピークは消える。
昔の人は誕生日を盛ってた?

→今度は、3月31日の誕生日が異様に少ない。(多分有意に)
早生まれを避けるため?それにしては3月30日が下がってなさすぎる。

→7月7日がその付近と比べ1.7倍近い。
明らかに盛ってる。その他8月8日や12月12日などのゾロ目も多い傾向。

■職業毎の生まれた月
生まれた月でなりやすい職業とかあるのだろうか?
まず、全体での月ごとの生まれた人数:

→1月が若干多い傾向。6月が最小。
(本当は月の日数とかで正規化したほうがいいよね)

スポーツ選手の誕生月分布(職業に「選手」という単語が含まれる人の誕生月傾向):
4月が最多で、そこから単調減少。早生まれの悪影響がモロに出てる。
(多分、全体平均で正規化とかして、月ごとのスポーツ選手に成る確率とかに直した方が分かりやすいんだろうけど酔っぱらってるので生データだけ出します)


政治家の誕生月分布(職業に「政治家」という単語が含まれる人の誕生月傾向):

→全体傾向に従ってる?

番外編:エントリに「逮捕」という単語が含まれている人の誕生月分布:
→2月が異様に多い。(検定してないけど多分有意に。)
この記事では連続殺人犯は11月に多いらしいけど。



2014年6月5日木曜日

How to install Java on Yosemite (OS10.10)

The Oracle Java installer fails on Yosemite(Mac OSX10.10) spewing out a very unhelpful error like this:
"The installer requires OS10.7 or above. you have OS10.10" wtf?
This is what happens when you try version checking with a lexicographic comparison.

The easiest way out of this problem is to remove the version checker from the installer.

(1) Get PackageMaker.app
This helpful tool for creating and editing installers used to be bundled with Xcode.  You can still download it from the Xcode downloads page:

(1.1) Go to the Xcode download page
(1.2) Downlaod Auxiliary Tools for Xcode (There are several Aux. Tools, make sure you choose the one that contains PackageManager)

(1.3) This is the one.


(2) Download your favourite JRE/JDK from the Oracle website

(3) Open the .pkg file with PackageMaker. (Just drag and drop the file onto the app.)

(4) Find this line from Requirements, and delete it.


(5) Press "Build and Run", wait above a minute.

(6) Hurrah!

Warnings:
- Just because you can now install Java, it doesn't mean the horrible "double keying" bug is fixed.

Yosemite(OS10.10)でJavaをインストールする方法

6月19日追記:
Javaのプログラムで二重打鍵されてしまう問題は、
環境設定>キーボード>入力ソースで「U.S.」を追加することで、英語に関しては問題なくなりました。
(これでeclipseは使える)


Yosemite(Mac OSX10.10)ではJavaをインストールしようとすると、以下のようなアラートが出て失敗します:
Oracle「バージョン10.7が必要です。あなたは10.10です。」ぼく「ファッ!?」

どうやら、インストーラがバージョンを単純な辞書順比較してしまっているようです。

そこで、ここのバージョンチェックを無くしてしまえばインストールできます。やってみましょう。

(1) PackageMakerを取得する
Appleが昔配布していた、インストーラーを作るためのツールです。

持ってない人は:
(1.1) XCode関連ツールのダウンロードページに行き(開発者登録が必要です)
(1.2) Auxiliary Tools for Xcodeをダウンロード(Aux.Toolsは何個もありますが、PackageMakerが含まれているやつを探してください)

(1.3) こいつです。


(2) JREなりJDKなり好きなものをOracleのページからダウンロードしてくる
今回はJDK1.8をインストールしてみましょう

(3) PackageMakerで開きます。(普通に.pkgをPackageMaker.appにドラッグアンドドロップする)

(4) Requirementsからこの一行(下図)を探し、削除する。


(5) 「Build and Run」を押す。(ファイル名は適当に。)
Buildが始まります。1分ぐらい待ちましょう。

(6) やったね!

注意点:
・Javaがダウンロードできても、キーが二重で入力される問題が存在するので実用に耐えません。
・上記方法で作ったファイルをアップすると色んな利用規約にひっかかるのでやめましょう

2014年3月1日土曜日

Hueと色色[:iroiro]を連動させたシステムの設置場所を考え直したら急激に良くなった

前回Philips Hueと色色[:iroiro]を連動させたら残念な感じになった、ということを報告したわけですが、たったの2時間で訂正記事です。
設置場所をちゃんと考えたら割と良くなりました。

前回の振り返り
前回やろうとしたのは、
「APIで色や明るさを変えられる室内照明Hue」と「言葉からイメージされる色を決定してくれる色色[:iroiro]」を組み合わせて、
言葉で雰囲気を変えられる部屋を作りました。
しかし、少し残念な結果になったわけです。

前回の反省は:
・全部のHueを並列に並べてた(メイン+サブ照明っていう発想がなかった)
・天井に設置して部屋全体を照らす、という無茶なことを試みてた
・てか他の照明も点いてたので色が分かりにくかった

今回の構成
てなわけで、シーリングライトに一つ、副照明に一つの構成で、再度試みたところ、だいぶイメージ通りになりました。

検索ワード:"魔人ブウ"
おぉ!

検索ワード:"ピッコロ"
ぽい!(写真でのほうが緑が映えます)

検索ワード:"ミカン"
副照明のほうは緑のはずなんだが。

検索ワード:"明治"
タイムスリップしたみたい。

どうでしょう。部屋の雰囲気がイメージ通りに変えられる、ちょっと未来な部屋になったと思いませんか?

楽しいHueライフのためのススメ
・Hue以外の照明は消せ
・Hueを10個ぐらい買う財力がないなら、小さい部屋で遊べ
・個別に違う色を出す場合は、少し離したり、違う形の照明器具を使うと良い?
・緑は諦めろ

以上。

Philips Hueと色々[:iroiro]を連動させて、言葉で雰囲気が変えられる部屋を作ってみた

編集(14/03/01):構成しなおしたらもっとマシになりました

前からやりたかったこの最強のコラボ:

APIで色や明るさを変えられる室内照明灯"Philips Hue"
言葉からカラーパレットを自動生成する"色色[:iroiro]"

を試してみました。

言葉を入力するだけで、部屋の雰囲気を変えられたら素敵じゃないですか。

以前にもこんな風にプロジェクションマッピングをしてみたりしてますが:
Hueならばプロジェクションマッピングよりもさらに簡単にできそうじゃないですか。


で、やってみた
言葉を入力
  ↓
色色[:iroiro]で色を生成
  ↓
その部屋のHueを設定する
というプログラムを作りました。

検索ワード:"海"
あれ・・・?
青の表現が弱すぎる。

検索ワード:"魔人ブウ"
分からなくもない

(その他微妙な例が多数。写真をインポートする気すら起きん。。。)

結論
・Hueは赤以外の色が弱すぎる。赤は部屋が真っ赤っかになるのだが、それ以外の色は「電球を直視すれば確かにそんな色っぽい気もする」というレベルの色しか見えない。
・なので、部屋を青色にする、などは夢のまた夢。
・緑に至っては、直視しても緑色に見えない(どちらかというと黄色い)

・色色の結果をそのまま使うのではなく、ちょっと彩度を高めにして色味を協調して見せたらマシになるかもしれない。

本当に土日は雪が多いの?っていう話

だいぶ前の話ですが、こんな記事が話題になっていました:
東京の大雪は、なぜ土日と祝日に多いのか?」(増田雅昭)
いわく、
(東京都心で90年代以降で)5センチ以上の積雪があったのは12回。そのうち10回が、土曜日・日曜日・祝日に降っています
可能性の一つとして考えられるのは、気温・・・土日・祝日の気温が、平日に比べて、0.2℃ほど低い
長期的に見ると、土日・祝日の気温差は、大きくなる傾向にある

これに関して「本当かよ」という議論が色々と巻き起こりました。

メカニズムの妥当性の検証は骨が折れる(+知識がない)のでやりませんが、今回は「週末と平日の気温差」「週末と平日の降雪の差」に関するデータを収集して、客観的な事実関係だけまとめます。


■主な結果
結果を先に言うと、こんなことが分かりました。

気温に関して:
1. 東京でも、全国的にも、週末のほうが平日よりも寒い

降雪に関して:
2. 東京でも、全国的にも、2000年以降は週末の降雪量は平日よりも多い
3. 地域ごとにみると、「平日週末の気温差」と「平日週末の積雪量の差」には相関がない


■元データ
気象庁HP>過去の気象データ検索から全国全アメダスの測量データをクローリングし、
気温に関する解析は毎日の平均気温が収集されている計測点(479点)を用い、
降雪に関する解析は毎日の降雪量が収集されている計測点(161点)を用いた。


■平日と週末の気温
以下、インフルで頭が朦朧としてるのでデータと短いコメントだけで勘弁してください。

○曜日ごとの平均気温
Fig.1は東京の1月2月における曜日ごとの平均気温を示したグラフです。
各グラフは5年区間の平均です。
*また、祝日は除いています。


Fig.1 東京の年代別1月2月の、曜日ごとの平均気温
根気がないんで細かいデータは省きますが、2005年以降は土日は平日よりも有意に気温が低いです
数字としてはそうなのですが、グラフを見ると区間ごとに傾向が全く違うので、シンプルに「土日が低い、平日が高い」という傾向をここから言うのは厳しいような・・・

○気温差の経年変化
次に、元のブログにあった「平日と土日の気温差は長期的に大きくなる傾向にある」という主張を検証してみましょう。
Fig.2は平日の平均気温と週末の平均気温の差を年次毎にプロットしたものです。
Fig.2 年次ごとの平日と週末の気温差(移動平均は5年平均)
まず、ほとんどの点は0より上にあり、定性的に殆どの年で「平日のほうが暑い」ことが読み取れます。
一方「長期的にこの差が広がっている」かというと、1980年以降2010年ぐらいまでは単調増加傾向が見られますが、それ以降は少し減少気味です。
そのため「長期的に気温差が広がっている」という傾向はここからは見れませんでした。

○気温差の地域特徴
ついでに、他の地域ではどうなのかも見てみましょう。
Fig.3-6は東京以外の地点についても、平日と週末の気温の差を計算してプロットした図です。

Fig.3 平日と週末の気温差
Fig.4 北海道

Fig.5 関東

Fig.6 左下のほう
Fig.7 平日と週末の気温差毎の頻度分布
主な着目点:
・全体的に平日のほうが暑い傾向。
  →このヒートマップは青から赤の色を配色していますが(Fig.3の凡例参照)、殆どの点は緑以上だということが分かります。そのため、殆どの地点では「平日は週末ぐらいか、それ以上に暑い」ということが分かります。
  →Fig.7には、気温差毎の頻度分布を示しています。479観測点のうち467点(97%)で、平日のほうが週末よりも暑いという傾向が見られました。
・赤いエリアに偏りがある。
  →北海道の一部、関東と中部地方、四国から九州にかけての南側が赤くなっています。これらの点に共通点思いつく方いたら、是非コメントしてください。

■平日と週末の降雪
次に、降雪に関しても同じようにデータを貼っていきます。
なお、元のブログでは積雪を見てましたが、より影響するファクターを減らすため降雪だけを扱います。

○曜日ごとの平均降雪量
Fig.8は東京の1月2月における曜日ごとの平均降雪量を示したグラフです。

Fig.8 曜日毎平均降雪量
2000年以降は土曜は他のどの曜日よりも有意に降雪量が多く、
事実としてここ10年ほどは土曜は降雪が多いようです。(一方、日曜は無い)

○曜日毎の降雪確率
Fig.9のグラフは降雪量[mm]ではなく、降雪確率[%](つまり、降雪が少しでもあった日の割合)を示しています。
Fig.9 曜日毎降雪確率
これを見ると、降雪の有無自体は土日が多いという傾向は特にないということが分かります。

○地域差
次に、週末と平日の降雪量の差を地域毎に見てみましょう。
(赤いほど「週末により雪が降る」ことを意味する)
Fig.10 週末と平日の平均降雪量の差


Fig.11 週末と平日の降雪量差の頻度分布

主な着目点:
・やはり全体的に週末の降雪が多い
 →全国的に緑以上の点が多い。
 →Fig.11は週末と平日の降雪量の差の頻度分布だが、主に+側に偏っている。実際、161観測点中147点(91%)で週末のほうが平日よりも降雪が多い傾向。
・赤いところが局所的に偏っているが、なんとなく気温の地域分布と比べて場所が違う。

○平日と週末の気温差と降雪量の差の相関
最後に、各地域における「平日と週末の気温差」と「週末と平日の降雪量の差」をプロットしたものをFig.12に示します。
Fig.12 各観測点における、平日と週末の「気温差」と「降雪量差」の関係。各点が一つの観測点
両データ間の相関はR=0.008で、無相関です。つまり、少なくとも地域傾向としてみると「平日のほうが暑い」という現象と「週末のほうが降雪が多い」という現象には関係があると主張するに足るエビデンスがありません。

■まとめと考察
今回は:
(1) 確かに週末のほうが寒い
(2) 確かに週末のほうが雪がよく降る
(3) でも地域特性として比較すると、両者には相関が見られない
 (→誤解のないように注釈:あくまで地域特性として両者に相関が見られなかったという話であって、前記ブログが主張している「週末が寒いから雪が降りやすい」というクレームを棄却するデータではない。)

ということが分かりました。

予告の通り、考察はしません。インフルがアレなんで。





2014年2月16日日曜日

色色[:iroiro]を使って資料の雰囲気を自由自在に変えてみよう



言葉からカラーパレットを生成できる色色[:iroiro]ですが、パワーポイントの配色設定を出力する機能もあります。

例えば・・・・
こんなダサダサの資料があるとします:
ダサい!でもあなたの会社でもこんな配色よく見ませんか?

「もっとこ〜、秋っぽさ出ないかなあ?」 いつもの上司の無茶ぶりです。

そんな時は、色色[:iroiro]で「」と検索してみましょう。

Export>Powerpoint Color Paletteを選択し、



「here」からxmlファイルをダウンロードします。

そして、このファイルをPower Pointの「Theme Colors」フォルダに置くと、
デザイン>配色から「秋」が配色として選べるようになります。
これを適用すると、さっきのダサかった資料も:
確かに秋だ!
一発で秋っぽくなります。

雰囲気でどんな色調の資料も作れてしまいます。
例えば・・・
「昼」
昼っぽい!多分!


「サバンナ」
なんかライオンキングだ!
 「草原」
草食!
「魔人ブウ」
これで新年度の提案もバッチリ

ダサく無くなったかどうかはよく分かりませんが、
少なくとも「雰囲気で資料の色調が決められる」ようになることで、これまでよりも迅速に、効果的なプレゼンが行えるようになると思うわけです。