TumblrユーザーでTumblr Gearの開発者の@honishiさんから、Tumblrを題材にした日本の論文があると教えてもらいました。ユーザーにとってソーシャルフィルタリングをする上で有用なコミュニティ(ユーザー郡)を見つけ出し、その代表ユーザーを抽出してリコメンドするために、次のようなステップで解析を行う、という試みをしているようです(と思います、理解が違ったら是非ご指摘を)。
- あるユーザーの投稿50件について、その投稿の伝播経路(リブログ経路)に出てくるユーザーと、誰が誰からリブログしたかというリブログ関係を調べる。
- 平面上に登場したユーザーを並べて、リブログ関係の矢印でつなぐ。同じ経路で複数回リブログされていたら(たとえばユーザーAはユーザーBから5回もリブログしている)その矢印は太くなる(3.1)。
- 矢印の太いユーザー同士が近くになるようにユーザーを配置し直し、近くにいるユーザーたちをコミュニティとしてグループ化する(3.2、ここで図3のような配置になる、実際にはコミュニティ分割の手法で計算的に行う)。
- 各コミュニティ内でリブログ関係を見比べ、コミュニティ内でリブログネットワークのもっとも重要な場所にいる代表ユーザーを特定する(3.3、実際にはHITSアルゴリズムで計算的に行う、kiyoyaさんのスライドが参考になるかも)。
- 各コミュニティの代表ユーザーから、最初に選んだ「あるユーザー」への情報流量をフォード・ファルカーソンのアルゴリズムで算出する(3.4、ここは「対象ユーザがどのコミュニティからの情報を多くリブログしているかを求めることができる」と説明されているが理解できなかった、分かる方の解説を切望)。
先行研究としてソーシャルブックマークを題材とした研究が挙げられていますし、SNSのフォロー関係二着目した研究もありますが、Tumblrのリブログ情報は素材として次のような面白さがあると思います。
- ソーシャルブックマークを素材とした場合、私と興味の近い(Similar)ユーザーを抽出することができる。しかしユーザー間の関係、そこから出てくる私との距離、関係の強さ、論文内の言葉で言えば情報流量は分からない。
- フォローを素材とした場合、私との距離が近い、また複数のパスでつながった、(潜在的な)情報流量の多いユーザーを抽出することができる。しかし私との興味の共通点があるか、それがどんな興味かは分からない。
- Tumblrのリブログ(その他Google+などのリシェア全般)には、ユーザ間の関係(リブログの矢印の始点と終点)と、共通する興味(リブログされた内容)の両方が含まれている。ユーザー間に共通する興味と、一方にその興味に合致するコンテンツを流し込んだ時に、他方に流れるそうかが分かってくる。
つまり、例えばid:naoyaさんの言う「そのエントリを『誰が』ブックマークしたのかが(※僕にとって)一番重要という視点に立つ」ことができるデータなのです。
この論文の内容を端緒に、「ユーザー間の関係」と「その関係の属性(興味対象)」の両面を反映したグラフ化、リコメンデーションの洗練まで研究が進んでいくと面白そうだな、と思いました。参照されている先行研究の「Tumblrにおける情報の伝播経路に着目した記事の特徴付け」も読んでみたいところだけど、これは人工知能学会員じゃないと読めないのかな?
——
私の誤理解のご指摘や補足などいただけるようであれば、@tsukamoto宛て、あるいはGoogle+のメール送信ページや「EFFECTIVE TUMBLRへの質問」ページなどでお送りください。また「これも面白いよ」というものがあれば、前述の連絡先の他「EFFECTIVE TUMBLRへの寄稿」も歓迎です!