プログラム / 講演・テーマ展示一覧 /

テーマ展示

計算科学 C-1 データを生み出す隠れた原理を発見する ―ベイズ機械学習による情報生成過程のモデル化―

概要

インターネットをはじめとして,私たちのまわりには膨大な情報があふれており,その中から不要な情報を捨て,有益な知識を取り出すことは,ますます難しくなってきています.本展示では,ベイズ機械学習技術に基づき,多様な情報がどのような仕組みで生成されたかをモデル化し,隠れた構造を自動的に学習することにより,膨大な情報から重要で特徴的な性質を発見し理解することを可能にする技術をご紹介します.
本テーマ展示では, という4項目について,ご紹介します.

展示紹介ムービー

データを生み出す隠れた原理を発見する
―ベイズ機械学習による情報生成過程のモデル化―
1分38秒
テーマ展示資料(PDF)
再生する

個別展示

話題の時間変化を追跡する -生成モデルに基づく時系列解析技術 -

どんな研究?

大量のデータを少数の本質的な要素「トピック」で表現する技術の研究です.この技術はニュース・ブログ・音声など様々な時系列データに対して高度な統計的マイニングを可能にします.

どこが凄い?

我々はデータに隠されたトピックの時間変化を追跡する技術を開発しました.この技術を利用すると,日・週・月単位のニュースの話題の変化を解析したり,会議中に「誰がいつ発言したか」を解析することもできます.

もたらされる変革

この技術は時系列データを扱う新しいマイニング技術です.これまで発見できなかった新たな価値・情報をマイニングするための第一歩になります.

関連文献

  • 石黒,山田,荒木,中谷, “ノンパラメトリックベイズを用いた会議音声話者識別のための話者クラスタリング法”, 日本音響学会2009年春季研究発表会, 3-5-5, pp. 107 ? 110, 2009.

個別展示紹介ムービー

話題の時間変化を追跡する ―生成モデルに基づく時系列解析技術―
話題の時間変化を追跡する
―生成モデルに基づく時系列解析技術―
5分2秒
個別展示資料(PDF)
再生する

誰が私と似てる?どの文書がこれに似てる? - 著者の興味と文書内容の関係に着目した潜在変数モデル -

どんな研究?

文書とその著者という関係データから,著者の興味と文書の内容の確率的な依存関係の抽出するためのモデル,及びそれに基づいた文書生成のプロセスについての研究です.

どこが凄い?

文書生成のプロセスを,著者の興味と文書の内容という異なる潜在変数を用い確率的にモデル化できるため,文書間及び著者間それぞれの類似性を同時に評価できるだけでなく,データに含まれていない文書と著者の関係を確率的に評価できます.

もたらされる変革

世界中から自分と興味の似た人を見つけたり,今まで知らなかった,興味に合ったWebページを見つけたりすることができるようになります.

関連文献

  • 川前徳章 山田武士: 著者の興味と文書の内容の関係に着目した潜在変数モデル, 電子情報通信学会 人工知能と知識処理研究会(AI), 2009

個別展示紹介ムービー

誰が私と似てる?どの文書がこれに似てる? ―著者の興味と文書内容の関係に着目した潜在変数モデル―
誰が私と似てる?どの文書がこれに似てる?
―著者の興味と文書内容の関係に着目した潜在変数モデル―
5分44秒
個別展示資料(PDF)
再生する

隠れた単語を発見する:源氏物語からblogまで -無限マルコフモデルによる教師なし形態素解析-

どんな研究?

前もって辞書を準備しなくても,あらゆる言語の文字列から自動的に「単語」を発見し,単語への分割を行うことのできる研究です.従来単語分割が難しかった口語体や話し言葉を含む,あらゆる言語を完全に自動的に解析します.

どこが凄い?

従来は膨大な人手を用いて,学習のための単語分割の正解を準備しておく必要がありました.この研究ではベイズ統計モデルを用いてこれを不要にし,辞書も使わず,完全に未知の言語についてすらも「単語」を自動的に認識することができます.

もたらされる変革

常に新しい言葉や表現が生まれる問題に悩まされていた,従来の言葉の処理を一新する技術です.ブログや会話文,古文だけでなく,DNAや音楽の解析などにも応用することができます.

関連文献

  • 持橋大地, 山田武士, 上田修功. “ベイズ階層言語モデルによる教師なし形態素解析”. 情報処理学会 自然言語処理研究会NL-190, March 2009.
  • Daichi Mochihashi, Takeshi Yamada, and Naonori Ueda. “Bayesian Unsupervised Word Segmentation with Nested Pitman-Yor Language Modeling”, ACL-IJCNLP 2009, to appear.

個別展示紹介ムービー

隠れた単語を発見する:源氏物語からblogまで ―無限マルコフモデルによる教師なし形態素解析―
隠れた単語を発見する:源氏物語からblogまで
―無限マルコフモデルによる教師なし形態素解析―
6分6秒
個別展示資料(PDF)
再生する

多様なキーワードから価値あるものを抽出する -内容に関連するタグを抽出するためのトピックモデル-

どんな研究?

ブログやソーシャルブックマークでは,ユーザが自由にタグ(キーワード)を付けることができるため,内容と関連しないタグなど信頼性の低い情報が含まれます.タグの信頼度を測り,タグが内容と関連しているか自動的に判定します.

どこが凄い?

内容とタグの生成過程をモデル化し,ベイズ機械学習技術を用いることにより,データから自動的にタグの信頼度を測ることを可能にしました.この技術により,Webに溢れているノイズが多い情報を有効活用できるようになります.

もたらされる変革

信頼度の低い情報を取り除くことにより,検索の精度を上げることができます.また,写真共有サイトのノイズの多いデータを利用して画像処理システムを高精度にするなど,他の技術にも応用できます.

関連文献

  • 岩田,山田,上田,“内容と関連するタグの教師なし抽出,”信学技報, 人工知能と知識処理研究会,2009.

個別展示紹介ムービー

多様なキーワードから価値あるものを抽出する ―内容に関連するタグを抽出するためのトピックモデル―
多様なキーワードから価値あるものを抽出する
―内容に関連するタグを抽出するためのトピックモデル―
5分15秒
個別展示資料(PDF)
再生する

展示担当者