HOME / 講演 / 研究講演
研究講演

音の聴き方を自ら学ぶAI
自己教師あり学習による様々な音の汎用表現学習技術から、大規模言語モデルを活用した音の理解の最前線へ
NTT コミュニケーション科学基礎研究所 メディア情報研究部 事象モデリング研究グループ リサーチスペシャリスト
仁泉大輔

概要

音や画像などメディア情報から有用な特徴量の自動抽出処理を学習により獲得する表現学習は、AIによる優れたデータの理解を可能にしました。本講演では、私たちの身の周りの様々な音をAIに理解させるための音の表現学習技術を紹介します。学習した表現は、人の声や動物の鳴き声といった音の種類の認識や音楽ジャンルの識別など、幅広い音の問題に応用できます。表現学習の中でも、音データの内容を示すラベルを推論する従来の教師あり学習手法の代わりに、「音の穴埋め問題」を解くデータそのものを使った自己教師あり学習手法が注目されており、大規模言語モデルを利用して言語の持つ意味と結びつけた音の理解へと発展しています。

関連文献

[1] D. Niizumi, D. Takeuchi, Y. Ohishi, N. Harada, K. Kashino, "BYOL for Audio: Exploring Pre-Trained General-Purpose Audio Representations," IEEE/ACM Trans. Audio, Speech, Language Process., Vol. 31, pp. 137-151, 2023.

[2] D. Niizumi, D. Takeuchi, Y. Ohishi, N. Harada, K. Kashino, "Masked Modeling Duo: Towards a Universal Audio Pre-Training Framework," IEEE/ACM Trans. Audio, Speech, Language Process., Vol. 32, pp. 2391-2406, 2024.

[3] D. Niizumi, D. Takeuchi, Y. Ohishi, N. Harada, M. Yasuda, S. Tsubaki, K. Imoto, "M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation," in Proc. Interspeech, pp. 57-61, 2024.

講演資料
講演者紹介
仁泉大輔
NTT コミュニケーション科学基礎研究所 メディア情報研究部 事象モデリング研究グループ リサーチスペシャリスト
仁泉大輔

1997年九州工業大学大学院情報工学研究科博士前期課程修了。メーカーにおける電子楽器や民生品のソフトウェア開発経験を経て、2020年よりリサーチスペシャリストとしてNTT コミュニケーション科学基礎研究所に勤務。 深層学習を用いる音響信号を中心とした表現学習に関する基礎研究に従事。日本音響学会、人工知能学会各会員。