ソーシャルビッグデータ演習/演習2:ヒートマップを描こう

提供: 静岡大学 横山研究室
< ソーシャルビッグデータ演習
2016年7月1日 (金) 21:45時点におけるShohei Yokoyama (トーク | 投稿記録)による版 (ページの作成:「==準備== インストールと演習環境の準備の項目が全て終わって...」)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先: 案内検索

準備

インストールと演習環境の準備の項目が全て終わっている事を確認してください。

また、演習を開始する前に、コマンドプロンプトとエクスプローラーで演習用ディレクトリ(C:\sobig\)を開いてください。

演習用プログラムのダウンロード

  • コマンドラインプロンプトで演習用ディレクトリ(c:\sobig\)に移動し、インストールコマンドを入力

  • ダウンロードとインストールが終わった後、node_modules/flickr-tag-crawlerというディレクトリへ移動してください。

  • これで演習を始める準備が整いました。

演習の概要

  • このプログラムは写真共有サイトFlickrから指定したキーワードに基づいて写真を集めてくるクローラです。
  • このプログラムは1つの地域を入力に取ります。
  • また以下の情報は必須ではありませんが指定可能です。
    • タグ: そのタグが付いた写真のみをクロールします。
    • 最大枚数: 条件に合致した写真が最大枚数を超える場合、その枚数でクロールを終了します。
    • 出力ファイル名: デフォルトでランダムな名前が付きますが、ユーザがファイル名を指定する事もできます。
  • 地域はbounding box (bbox)で指定します。bboxは通常は[西,南,東,北]の順で緯度経度をカンマで区切った表現です。以下のサイトを使うと、簡単に得られます。

23404478474_1e291cd244_z.jpg

クローリングの実行

コマンド例1

  • 地域最大枚数出力ファイル名を指定して実行する例

  • 上記のコマンドではディズニーランド内で撮影された写真を最大で10000枚クロールします。可視化した結果は次のようになります。

22104260050_3689909114_z.jpg


コマンド例2

  • さらにタグも指定して実行する例

  • 上記のコマンドではヨーロッパ全域で撮影された写真のうち、wiskeyというタグのついたものを最大10000枚クロールします。可視化した結果は次のようになります。

22110621818_23ba4eef64_z.jpg

  • タグも指定した場合、同じBBOX範囲で別のタグもクロールし、それらを比較すると面白い考察が出来るかもしれません。例えば、Wiskeyの他にWineやBeerの写真もクロールすると、それらの飲み物が良く飲まれている地域が明らかになるかもしれません。

結果の可視化

  • クロールしたデータを地図上に可視化するプログラムを起動しましょう。可視化プログラムはoutput\index.htmlです。コマンドラインからは以下のように起動できます。

23409252183_51a25f73fd_z.jpg

  • 右上の参照ボタンを押して、クロール結果ファイルを読み込みます。
    • クロール結果ファイルはc:\sobig\node_module\bbox2heatmap\output\ディレクトリにあります。
    • ファイル名は、クローラーの終了時にコマンドラインに表示されています。ファイル名は、実行時に指定しなければ、毎回ランダムなファイル名ですので注意してください。

23953477771_6392b82929_z.jpg

  • 上記は、ヨーロッパ内で撮影されたBeerというタグを持つ写真の可視化結果です。スコットランドに写真が多くあるWiskeyの結果と見比べると、イングランドやベルギー、ドイツ南部等に写真が多い事が分かります。スコットランドはNHK朝ドラ「マッサン」でもやっていたようにウィスキーの故郷です。一方でイングランドはビールの国、ベルギーもベルギービールが有名です。またドイツ南部は、あのオクトーバフェストを生み出したミュンヘンがあります。

課題 やってみよう!

このプログラムは単に写真が沢山取られている場所を可視化するためにも使えます。ただ、この演習では複数のタグの結果の撮影場所の違いから、その違いが何故生まれたのか?考察してみましょう。(先ほどのヨーロッパのウィスキーとビールの例を思い出してください。)

仮説を立てましょう

  • 地域を固定して、キーワードを変えると、その地域枚でキーワード毎に地理的な分布が分かります。
  • キーワードを固定して、地域を変えると、地域毎にそのキーワードに関連した写真がどこに遍在しているのかというのが分かります。
  • その二つを組み合わせると、何か面白い分析ができそうですね。
  • 何か、仮説を立てて、検証してみましょう。
    • ヨーロッパにおいて、ビールはベルギーやイングラント、ウィスキーはスコットランド、ワインはフランス・スペイン・イタリアで良く飲まれているから、写真も大いに違いない!

検証しましょう

  • execute.jsを実行して、Flickrから写真を集めましょう。
  • クロールが完了したら可視化プログラムで結果を見てみましょう。

考察しましょう

  • 立てた仮説は正しかったですか?
  • グループ毎に自分のやっている事と可視化結果を示して話し合ってみましょう。

本演習プログラムのGitHubサイト

https://github.com/abarth500/bbox2heatmap/

個人用ツール
名前空間

変種
案内
ツール