ソーシャルビッグデータ演習/演習1:どっちが多い?

提供: 静岡大学 横山研究室
移動先: 案内検索

準備

インストールと演習環境の準備の項目が全て終わっている事を確認してください。

また、演習を開始する前に、コマンドプロンプトとエクスプローラーで演習用ディレクトリ(C:\sobig\)を開いてください。

演習用プログラムのダウンロード

  • コマンドラインプロンプトで演習用ディレクトリ(c:\sobig\)に移動し、インストールコマンドを入力

  • ダウンロードとインストールが終わった後、node_modules/flickr-tag-crawlerというディレクトリへ移動してください。

  • これで演習を始める準備が整いました。

演習の概要

  • このプログラムは写真共有サイトFlickrから指定したキーワードに基づいて写真を集めてくるクローラです。
  • このプログラムは、二つのタグと二つの地域を入力にとります。
    • 例えば、アメリカはクルマ社会、イギリスは鉄道社会と言われていますが、本当でしょうか?本当ならアメリカは車の写真が多く、イギリスは鉄道の写真が多いはずです。
    • その場合の入力はタグは「train」と「car」、そして地域はイギリスと、アメリカにすれば、イギリスとアメリカ双方で、「train」とタグづけられた写真と「car」とタグづけられた写真の数を比較できます。ただし、アメリカはイギリスより大きいので、サイズをそろえた方が公平な比較ができますので、とりあえず典型的な車社会でかつ人口も多いカリフォルニアあたりを指定すると良いと思います。
    • 地域はbounding box (bbox)で指定します。bboxは通常は[西,南,東,北]の順で緯度経度をカンマで区切った表現です。以下のサイトを使うと、簡単に得られます。

23404478474_1e291cd244_z.jpg

クローリングの実行

  • 先ほどの車と鉄道の例を元にクローリングする場合のコマンドは以下のようになります。

  • 「node execute.js」に続いて「タグ1 タグ2 地域A 地域B」を半角スペースを挟んで続けます。最後にEnterで画像収集が開始されます。
  • 画像が集まるまで暫し待ちましょう。
  • クローリングは一定時間後に自動終了します。終了するまで気長に待っていましょう。もし手動で終了させたい場合は「Ctrl+c」を押してください。
  • 終了すると、以下のようなファイルパスが表示されます。このファイルにクローリング結果が格納されています。(その他に簡単な統計情報も表示されます。)

  • そのファイルの中身を見てみましょう。

  • クロールした写真のメタデータが配列として格納されています。
  • 写真自体は集めていません。ただし写真のURLがありますので、そこからどんな写真か見る事は可能です。

結果の可視化

  • クロールしたデータを地図上に可視化するプログラムを起動しましょう。可視化プログラムはoutput\index.htmlです。コマンドラインからは以下のように起動できます。

23406503354_dbaf06ff4f_z.jpg

  • 左上の参照ボタンを押して、クロール結果ファイルを読み込みます。
    • クロール結果ファイルはc:\sobig\node_module\flickr-tag-crawler\output\ディレクトリにあります。
    • ファイル名は、クローラーの終了時にコマンドラインに表示されています。実行毎に異なるファイル名ですので注意してください。

24008623836_1de4af2ef8_z.jpg

  • 入力した2つのタグ毎に色分けしたアイコンで撮影位置が表示されています。また画面下部にはクロールしたFlickr上の写真が表示されています。右上には画面に表示されているそれぞれのタグを持つ写真の枚数が表示されています。また右上の地域名をクリックすると、それぞれの地域の地図を表示します。もちろん地図はマウスで操作する事もできます。

課題 やってみよう!

仮説を立てましょう

  • タグ:「タグ1」「タグ2」
  • 地域:「地域A」「地域B」
  • 仮説:「タグ1」は「地域A」において顕著に多いだろう、一方「タグ2」は地域「地域B」において顕著に多いだろう。
注意:FlickrはアメリカのYahoo!が経営するサービスです。日本のYahoo!は、歴史的な経緯で、米Yahoo!の子会社ではなく、ソフトバンクの子会社であり、米Yahoo!のサービスとは切り離されています。そのためFlickrは日本のYahoo!からは使えず、結果、日本のユーザ数は少ないです。よって、日本の写真はあまり多くないので、地域は日本以外から選ぶと良いでしょう。

検証しましょう

  • execute.jsを実行して、Flickrから写真を集めましょう。
  • クロールが完了したら可視化プログラムで結果を見てみましょう。

考察しましょう

  • 立てた仮説は正しかったですか?
  • グループ毎に自分のやっている事と可視化結果を示して話し合ってみましょう。
個人用ツール
名前空間

変種
案内
ツール