研究展示

メディアの科学

21

どんな音?物音を言葉で説明しよう

系列変換モデルに基づく音響信号からの説明文生成

どんな研究

これまでは、音声認識システムを用いても、人の話し声以外の音を的確にテキストに変換することはできませんでした。本展示では、任意の音に対して、それがどんな音かを説明するテキスト(擬音語や説明文)を生成する研究を紹介します。本研究により物音などを文字で伝えることが可能になりました。

どこが凄い

音を文字にすることで、一見するだけでどのような音かを把握できます。どの程度の詳しさで音を説明して欲しいかを数値で指定することで目的に沿った文を生成できます。擬音語や説明文が表現するような主観的な音の近さに基づいて、イメージした音に最も近い音を検索することなどにも応用できます。

めざす未来

効果音や異常音などの音の検索がより便利になります。動画中の音を文字で表現することで、公共の場所や騒々しい場所などでの動画視聴も便利になることでしょう。また、AIが人間に近い音の感覚を身につけることで、宅内ロボットなどとの日常のコミュニケーションが円滑になることも期待されます。

関連文献

  • [1] Shota Ikawa, Kunio Kashino, “Generating sound words from audio signals of acoustic events with sequence-to-sequence model,” In Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018), April 2018.
  • [2] Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE 2018), November 2018.

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

柏野 邦夫(Kunio Kashino) メディア情報研究部
Email: