テーマ展示

計算科学 C-1 データを生み出す隠れた原理を発見する ―ベイズ機械学習による情報生成過程のモデル化―

概要

インターネットをはじめとして，私たちのまわりには膨大な情報があふれており，その中から不要な情報を捨て，有益な知識を取り出すことは，ますます難しくなってきています．本展示では，ベイズ機械学習技術に基づき，多様な情報がどのような仕組みで生成されたかをモデル化し，隠れた構造を自動的に学習することにより，膨大な情報から重要で特徴的な性質を発見し理解することを可能にする技術をご紹介します．
本テーマ展示では，

話題の時間変化を追跡する　―生成モデルに基づく時系列解析技術―
誰が私と似てる？どの文書がこれに似てる？　―著者の興味と文書内容の関係に着目した潜在変数モデル―
隠れた単語を発見する：源氏物語からblogまで　―無限マルコフモデルによる教師なし形態素解析―
多様なキーワードから価値あるものを抽出する　―内容に関連するタグを抽出するためのトピックモデル―

という4項目について，ご紹介します．

展示紹介ムービー

データを生み出す隠れた原理を発見する
―ベイズ機械学習による情報生成過程のモデル化―

1分38秒

テーマ展示資料（PDF）

ムービーの閲覧に必要なWindows Media Player™はこちらから入手可能です．
資料の閲覧に必要なAdobe® Reader®はこちらから入手可能です．
Windows VistaとInternet Explorerをご利用の環境で，ムービーが再生されない場合はこちらをご覧下さい．
その他，動画コンテンツのご視聴に関する情報はこちらをご覧下さい．

個別展示

話題の時間変化を追跡する－生成モデルに基づく時系列解析技術－

どんな研究？

大量のデータを少数の本質的な要素「トピック」で表現する技術の研究です．この技術はニュース・ブログ・音声など様々な時系列データに対して高度な統計的マイニングを可能にします．

どこが凄い？

我々はデータに隠されたトピックの時間変化を追跡する技術を開発しました．この技術を利用すると，日・週・月単位のニュースの話題の変化を解析したり，会議中に「誰がいつ発言したか」を解析することもできます．

もたらされる変革

この技術は時系列データを扱う新しいマイニング技術です．これまで発見できなかった新たな価値・情報をマイニングするための第一歩になります．

個別展示紹介ムービー

話題の時間変化を追跡する
―生成モデルに基づく時系列解析技術―

5分2秒

個別展示資料（PDF）

ムービーの閲覧に必要なWindows Media Player™はこちらから入手可能です．
資料の閲覧に必要なAdobe® Reader®はこちらから入手可能です．
Windows VistaとInternet Explorerをご利用の環境で，ムービーが再生されない場合はこちらをご覧下さい．
その他，動画コンテンツのご視聴に関する情報はこちらをご覧下さい．

誰が私と似てる？どの文書がこれに似てる？－著者の興味と文書内容の関係に着目した潜在変数モデル－

どんな研究？

文書とその著者という関係データから，著者の興味と文書の内容の確率的な依存関係の抽出するためのモデル，及びそれに基づいた文書生成のプロセスについての研究です．

どこが凄い？

文書生成のプロセスを，著者の興味と文書の内容という異なる潜在変数を用い確率的にモデル化できるため，文書間及び著者間それぞれの類似性を同時に評価できるだけでなく，データに含まれていない文書と著者の関係を確率的に評価できます．

もたらされる変革

世界中から自分と興味の似た人を見つけたり，今まで知らなかった，興味に合ったWebページを見つけたりすることができるようになります．

個別展示紹介ムービー

誰が私と似てる？どの文書がこれに似てる？
―著者の興味と文書内容の関係に着目した潜在変数モデル―

5分44秒

個別展示資料（PDF）

ムービーの閲覧に必要なWindows Media Player™はこちらから入手可能です．
資料の閲覧に必要なAdobe® Reader®はこちらから入手可能です．
Windows VistaとInternet Explorerをご利用の環境で，ムービーが再生されない場合はこちらをご覧下さい．
その他，動画コンテンツのご視聴に関する情報はこちらをご覧下さい．

隠れた単語を発見する：源氏物語からblogまで－無限マルコフモデルによる教師なし形態素解析－

どんな研究？

前もって辞書を準備しなくても，あらゆる言語の文字列から自動的に「単語」を発見し，単語への分割を行うことのできる研究です．従来単語分割が難しかった口語体や話し言葉を含む，あらゆる言語を完全に自動的に解析します．

どこが凄い？

従来は膨大な人手を用いて，学習のための単語分割の正解を準備しておく必要がありました．この研究ではベイズ統計モデルを用いてこれを不要にし，辞書も使わず，完全に未知の言語についてすらも「単語」を自動的に認識することができます．

もたらされる変革

常に新しい言葉や表現が生まれる問題に悩まされていた，従来の言葉の処理を一新する技術です．ブログや会話文，古文だけでなく，DNAや音楽の解析などにも応用することができます．

個別展示紹介ムービー

隠れた単語を発見する：源氏物語からblogまで
―無限マルコフモデルによる教師なし形態素解析―

6分6秒

個別展示資料（PDF）

ムービーの閲覧に必要なWindows Media Player™はこちらから入手可能です．
資料の閲覧に必要なAdobe® Reader®はこちらから入手可能です．
Windows VistaとInternet Explorerをご利用の環境で，ムービーが再生されない場合はこちらをご覧下さい．
その他，動画コンテンツのご視聴に関する情報はこちらをご覧下さい．

多様なキーワードから価値あるものを抽出する－内容に関連するタグを抽出するためのトピックモデル－

どんな研究？

ブログやソーシャルブックマークでは，ユーザが自由にタグ（キーワード）を付けることができるため，内容と関連しないタグなど信頼性の低い情報が含まれます．タグの信頼度を測り，タグが内容と関連しているか自動的に判定します．

どこが凄い？

内容とタグの生成過程をモデル化し，ベイズ機械学習技術を用いることにより，データから自動的にタグの信頼度を測ることを可能にしました．この技術により，Webに溢れているノイズが多い情報を有効活用できるようになります．

もたらされる変革

信頼度の低い情報を取り除くことにより，検索の精度を上げることができます．また，写真共有サイトのノイズの多いデータを利用して画像処理システムを高精度にするなど，他の技術にも応用できます．

個別展示紹介ムービー

多様なキーワードから価値あるものを抽出する
―内容に関連するタグを抽出するためのトピックモデル―

5分15秒

個別展示資料（PDF）

ムービーの閲覧に必要なWindows Media Player™はこちらから入手可能です．
資料の閲覧に必要なAdobe® Reader®はこちらから入手可能です．
Windows VistaとInternet Explorerをご利用の環境で，ムービーが再生されない場合はこちらをご覧下さい．
その他，動画コンテンツのご視聴に関する情報はこちらをご覧下さい．

展示担当者

岩田具治
オーガナイザ
協創情報研究部

石黒勝彦
協創情報研究部

川前徳章
協創情報研究部

持橋大地
協創情報研究部

松林達史
協創情報研究部

テーマ展示

概要

展示紹介ムービー

個別展示

話題の時間変化を追跡する－生成モデルに基づく時系列解析技術－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

誰が私と似てる？どの文書がこれに似てる？－著者の興味と文書内容の関係に着目した潜在変数モデル－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

隠れた単語を発見する：源氏物語からblogまで－無限マルコフモデルによる教師なし形態素解析－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

多様なキーワードから価値あるものを抽出する－内容に関連するタグを抽出するためのトピックモデル－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

展示担当者

テーマ展示

概要

展示紹介ムービー

個別展示

話題の時間変化を追跡する －生成モデルに基づく時系列解析技術 －

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

誰が私と似てる？どの文書がこれに似てる？ － 著者の興味と文書内容の関係に着目した潜在変数モデル －

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

隠れた単語を発見する：源氏物語からblogまで －無限マルコフモデルによる教師なし形態素解析－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

多様なキーワードから価値あるものを抽出する －内容に関連するタグを抽出するためのトピックモデル－

どんな研究？

どこが凄い？

もたらされる変革

関連文献

個別展示紹介ムービー

展示担当者

話題の時間変化を追跡する－生成モデルに基づく時系列解析技術－

誰が私と似てる？どの文書がこれに似てる？－著者の興味と文書内容の関係に着目した潜在変数モデル－

隠れた単語を発見する：源氏物語からblogまで－無限マルコフモデルによる教師なし形態素解析－

多様なキーワードから価値あるものを抽出する－内容に関連するタグを抽出するためのトピックモデル－