信号処理研究グループ
コンテンツ
トップページ
研究トピックス
メンバーリスト
発表文献
組織
NTTコミュニケーション科学基礎研究所
メディア情報研究部
メディア認識研究グループ
Signal Processing Research Group
コミュニケーション環境研究
協創情報研究部
人間情報研究部
守谷特別研究室
リンク
先端技術総合研究所
NTT
研究トピックス
コンピュータの耳を創る
◆高速・高精度な話し言葉音声認識技術


 
音声認識は「コンピュータの耳」に当る技術です。人間にとって最も基本的な情報伝達手段である音声を、コンピュータが自在に聞き取れるようにすることが私たちの目標です。音声認識は入力された音信号から音声区間を特定した後、有効な特徴を抽出し、予め学習・蓄積された、音声の特徴に関する知識(モデル)を用いて、入力音声に最も適合する単語の列を探し当てること(探索)で実現されます。音声は、たとえ同じ発話内容でも、話者や周囲の音環境等の違いにより、異なる音信号として観測されます。また、日常会話に現れるような話し言葉において、音声の振る舞いは、より多様化し、伝達される情報の曖昧性・不完全性も増していきます。人間は無意識に、このような多様性を巧みに吸収し、曖昧性・不完全性を補いながら音声を聞き取っているのです。そんな人間の耳に匹敵する認識能力をコンピュータ上に実現すべく、私たちは研究を進めています。
 


■ 将来どのように使われるのか

音声認識の応用範囲は、音声による家電・住宅機器の操作から会議録や、映像コンテンツ用字幕の自動作成等に至るまで、多岐にわたります。将来、コンピュータが人間並みの耳を持つことで、人間のように話を理解し会話するロボットが生まれるかもしれません。さらに、コンピュータが得意とする高速なデータ処理能力を駆使すれば、膨大な音データを瞬時に解析し、その内容を整理・要約さらには翻訳することも可能になるでしょう。ゆくゆくは人と共生するロボットの耳として、日常のあらゆる音データから知りたい情報を発見するマイニングツールとして、人々の暮らしに欠かせない存在となっていくでしょう。このように様々な用途に音声認識を使えるようにするためには、音声の分析、モデルの学習、認識(探索)アルゴリズム等、個々の要素技術を益々高度化していかなければなりません。
 
■ 音声強調と音声認識の統合技術

音声信号に含まれる雑音や残響は音声の品質を劣化させ、音声認識の精度を著しく低下させます。音声の品質は雑音除去や残響除去などの音声強調技術により向上するものの、処理音声に対して不可避的に含まれる歪や雑音の消し残りによって十分な精度の改善が得られない場合があります。私たちは、消し残りの大きい低信頼性区間が音声認識結果に与える影響を抑制し、認識精度が向上するよう音声モデルのパラメータを補正する手法を考案しました。この技術は様々な音声強調処理を音声認識と適切に統合・動作させることを可能にします。
音声強調技術の不足を補い音声認識の長所を活かす統合技術
 
■ 識別的学習に基づく高精度音声モデリング

音声の音響的特徴を表現する音響モデルや言葉のつながりを表現する言語モデルを大量のデータから構築する方法として、私たちはdMMI(*1)基準による識別的音響モデル学習法と、R2D2(*2)基準による識別的言語モデル学習法を考案しました。これら学習法により、高い識別能力と汎化性を備えたモデルの構築が可能になりました。また、音響モデルと言語モデルを合成した重み付き有限状態トランスデューサ(WFST(*3))と呼ばれる計算モデルを直接学習する枠組としてWFST識別モデルを考案し、音響モデルと言語モデルの個別学習では回復しない誤りの削減も可能にしました。
実装が容易かつ高い精度を保証する識別学習基準dMMIによる学習プロセス
 
■ リアルタイム会話音声認識・理解技術

様々な場面で利用される音声認識は、複数人による自由な会話や幅広い発話内容に対して、高速、省メモリで動作することが求められます。さらに、音声を文字化するだけでなく、発話した話者、話題、雰囲気、認識結果の信頼性等を併せて出力することが必要です。私たちは、WFSTを利用した独自の方法により、世界でも他に類のない1000万語という膨大な語彙をカバーしつつリアルタイムで動作する音声認識を実現しました。また、会話の話題を追跡する言語モデル、認識結果の信頼性や認識誤りの原因を推定する技術等も研究しています.
「いつ誰が何を話したか」を認識する リアルタイム会話分析システム
 
*1 differenced Maximum Mutual Information
*2 Round Robin Duel Discrimination
*3 Weighted Finite-State Transducer
 
【参考文献】
[1] T. Hori, C. Hori, Y. Minami, and A. Nakamura, "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition," IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, pp. 1352―1365, 2007.
[2] M. Delcroix, T. Nakatani, and S. Watanabe, "Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing," IEEE Transactions on Audio, Speech, and Language Processing, vol. 17, no. 2, pp. 324-334, 2009.
[3] E. McDermott, S. Watanabe, and A. Nakamura, "Discriminative training based on an integrated view of MPE and MMI in margin and error space," Proc. ICASSP'10, pp. 4894-4897, 2010.
[4] T. Hori, S. Araki, T. Yoshioka, M. Fujimoto, S. Watanabe, T. Oba, A. Ogawa, K. Otsuka, D. Mikami, K. Kinoshita, T. Nakatani, A. Nakamura, J. Yamato, "Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 2, pp. 499―513, 2012.
[5] T. Oba, T. Hori, A. Nakamura, A. Ito, "Round-Robin Duel Discriminative Language Models," IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 4, pp. 1244-1255, May 2012.
[6] Y. Kubo, S. Watanabe, T. Hori, A. Nakamura, "Structural Classification Methods based on Weighted Finite-State Transducers for Automatic Speech Recognition," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, Issue 8, pp. 2240―2251, 2012.
[7] M. Delcroix, K. Kinoshita, T. Nakatani, S. Araki, A. Ogawa, T. Hori, S. Watanabe, M. Fujimoto, T. Yoshioka, T. Oba, Y. Kubo, M. Souden, S.-J. Hahm, and A. Nakamura, "Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral & temporal modeling of sounds," Computer Speech and Language, Elsevier, vol. 27, no. 3, pp. 851-873, 2013.
[8] Y. Kubo, T. Hori, A. Nakamura, "Large Vocabulary Continuous Speech Recognition Based on WFST Structured Classifiers and Deep Bottleneck Features," Proc. ICASSP, 2013.
[9] M. Delcroix, S. Watanabe, T. Nakatani, and A. Nakamura, "Cluster-based dynamic variance adaptation for interconnecting speech enhancement pre-processor and speech recognizer," Computer Speech and Language, Elsevier, vol. 27, no. 1, pp. 350-368, 2013.
[10] 堀 貴明,荒木 章子,久保 陽太郎,小川 厚徳,大庭 隆伸,中村 篤, "自然な会話を聞き取る音声認識技術", 日経エレクトロニクス, 2013年10月号, pp. 71―81
[11] T. Hori, Y. Kubo, A. Nakamura, "Real-time one-pass decoding with recurrent neural network language model for speech recognition," in Proc. ICASSP, 2014.
japanese   japanese