聞きたい音に耳を傾けるAI｜研究展示｜NTTコミュニケーション科学基礎研究所オープンハウス2023

研究展示

メディアの科学

09	聞きたい音に耳を傾けるAI 深層学習に基づく任意の音の選択的聴取

どんな研究	人間は、様々な音がする中でも、聞きたい人の声や聞きたい種類の音に注目して聞くことができる、選択的聴取と呼ばれる能力を持っています。本研究は、このような人間が持つ選択的聴取の機能をコンピュータ上で実現することをめざしています。
どこが凄い	聞きたい人の声のみを抽出する目的話者抽出技術の抽出対象を任意の種類の音に拡張しました。聞きたい音の種類を指定することで、それらの音のみを抽出できます。単一のモデルで日常生活の様々な音を抽出することを可能とし、人間の選択的聴取能力にさらに近づけることに成功しました。
めざす未来	例えばクラクションの音は在宅勤務中には集中を妨げる迷惑な音ですが、道を歩いている際には危険を知らせる重要な情報です。本技術によって、周囲で鳴っている音の中から、状況に応じて聞きたい音・聞きたくない音の選択的聴取を可能とし、快適かつ安全な音環境の創造に貢献します。

関連文献

[1] M. Delcroix, K. Zmolikova, 木下慶介, 荒木章子, 小川厚徳, 中谷智広, “SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ──深層学習に基づく音声の選択的聴取,” NTT技術ジャーナル, Vol. 30, No. 9, pp. 12-15, 2018.

[2] T. Ochiai, M. Delcroix, Y. Koizumi, H. Ito, K. Kinoshita, S. Araki, “Listen to what you want: Neural network-based universal sound selector,” in Proc. Interspeech, pp. 2718 - 2722, 2020.

[3] M. Delcroix, J. B. Vazquez, T. Ochiai, K. Kinoshita, Y. Ohishi, S. Araki, "SoundBeam: Target Sound Extraction Conditioned on Sound-Class Labels and Enrollment Clues for Increased Performance and Continuous Learning," IEEE/ACM Trans. on Audio, Speech, and Language Processing, Vol. 31, pp. 121-136, 2023.

展示説明ムービー

動画の公開は終了いたしました。

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。

連絡先

デルクロアマーク（Marc Delcroix）

メディア情報研究部信号処理研究グループ

他の研究展示はこちら

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16

聞きたい音に耳を傾けるAI

深層学習に基づく任意の音の選択的聴取

アンケートへのご協力、誠に有難うございました。

お問い合わせ

資料ダウンロード