HOME / 講演動画 / 研究講演
研究講演

あなたの声を「すぐそば」品質で聴くAI
遠くからでも近接マイク品質で混ざった音を聞き分ける革新的音響処理技術
メディア情報研究部 信号処理研究グループ
中谷 智広

概要

話者から離れたマイクで音声を収録すると、残響や他の話者の音声、背景雑音などが混在するため、音声は聞き取りにくくなり、音声認識などのアプリケーションの性能も劣化します。本講演では、そのような収録音から、話者の近くのマイク(近接マイク)で収録したような高品質な音声を取り出す最新の音声強調技術を紹介します。残響抑圧、音源分離、雑音抑圧を最適かつ高速に実現する「統一モデル」、および、少数マイクで高品質な処理が可能な「スイッチ機構」について話します。深層学習に基づく音声強調(SpeakerBeamなど)との連携についても触れます。

関連文献

[1] T. Nakatani, C. Boeddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, R. Haeb-Umbach, “Jointly optimal denoising,dereverberation, and source separation,” IEEE/ACM Trans. Audio, Speech, and Language Processing, vol. 28, pp. 2267-2282, 2020.
[2] R. Ikeshita and T. Nakatani, “Independent vector extraction for fast joint blind source separation and dereverberation,”IEEE Signal P rocessing Letters, v ol. 28, pp. 972-976, 2021.
[3] R. Ikeshita, N. Kamo, T. Nakatani, “Blind signal dereverberation based on mixture of weighted prediction error models,”IEEE Signal P rocessing Letters, v ol. 28, pp. 399-403, 2021.
[4] T. Nakatani, R. Ikeshita, K. Kinoshita, H. Sawada, N. Kamo, S. Araki, “Switching independent vector analysis and its extension to blind and spatially guided convolutional beamforming algorithms,” IEEE/ACM Trans. Audio, Speech, and Language Processing, 2022.
[5] M. Delcroix, K. Zmolik ova, 木下慶介, 荒木章子, 小川厚徳, 中谷智広, “SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ
──深層学習に基づく音声の選択的聴取,” NTT技術ジャーナル, vol. 30, no. 9, pp. 12-15, 2018.

講演動画
動画の公開は終了いたしました。ご了承くださいますようお願いいたします。
講演資料
Q&A
Q&Aの公開は終了いたしました。ご了承くださいますようお願いいたします。
講演者紹介
中谷 智広
メディア情報研究部 信号処理研究グループ
中谷 智広

NTTコミュニケーション科学基礎研究所 メディア情報研究部 上席特別研究員。1991年 京都大学 情報学研究科 応用システム科学専攻 修士課程修了。博士(情報学)。1991年にNTTに入社以来、音源分離、残響抑圧、雑音抑圧、音声特徴量抽出、ロバスト音声認識など、統計的信号処理を用いた音声処理の研究に従事。電子情報通信学会、日本音響学会の各会員。IEEEフェロー。