2013年9月27日金曜日

ソーシャルメディアを利用したセレンディピティな情報推薦

Gunosyがどんなアルゴリズムで動作しているのか知りたくて
あれこれググってみたら、以下の論文を見つけました。
表題はそのタイトルです。

ソーシャルメディアを利用したセレンディピティな情報推薦
https://kaigi.org/jsai/webprogram/2012/pdf/358.pdf

結構先端の技術を使っているというので、難しい確率分布が出てきたりするのかと
ドキドキしました(理解力の弱い自分がきちんと理解できるのかという意味です)が、
蓋を開けてみればとてもシンプルでした。良かった。


アルゴリズムのポイントは、文書についたソーシャルタグ(ユーザーがつけるタグ)
に対するTF-IDFを使うところですね。

ユーザーのプロファイル情報としては、過去に投稿したTwitterやFacebookの
文書に付与されたURLを使います。
URLであれば、はてブのAPIでソーシャルタグを取ることが可能です。
それを使って、ユーザーの発信したURLに対するソーシャルタグのTF-IDFをとり、
その上位100位までのソーシャルタグを抽出します。
これをユーザープロファイルと扱います。

次に、ユーザーの隠れた好みを抽出するための情報を求めます。
この情報を抽出するにあたっては、タグの共起グラフを利用します。
ソーシャルタグは、基本的には1つのURLに対して複数つけられるので、
1つのページに一緒につけられたタグを手がかりにして共起グラフを作成します。
これを使って、ユーザープロファイルに近く、かつユーザープロファイルに
存在しないしないタグを隠れた好みの情報として扱います。

最後に、Webページに付与されたタグと、先ほど求めた隠れた好みの情報とを比較し、
共起の割合が高いものから順に推薦する、という流れになっています。
Webページの情報については、具体的なことが書かれていないので想像になりますが、
多分はてブのタグをそのまんま使ったのではないかと予想しています。


この手法の長所と短所を勝手に考えてみました。
以下の通りです。

■長所

  • とにかくシンプルで実装しやすい。
  • 仕込みを機械的に行える(運用の面では、結構ここ重要だと思う)
  • ポータルを持っている会社には、自社サイトを中心に紹介するエンジンに作れるので、広告費で儲かりそうだという妄想を抱ける(笑)

■短所
  • ユーザーが発信した情報の中にURLが入っていないとレコメンドできない。
  • いろいろと解釈ができそうなサイトがレコメンドされにくい。
  • リアルタイムな情報をレコメンドできない。(これは協調フィルタそのものの問題かも)

とにかくシンプルなのが良いですね。
有識者が集まってアイデア出しをすれば、いろいろと用途が発掘できそうな予感がします。
(発掘できなくても責任は持てませんが。。。(^^;))


0 件のコメント:

コメントを投稿