「いつ・誰が話したのか?」を捉える話者indexing技術
「いつ、誰が話したか?」という情報は、コミュニケーションを理解するうえでとても重要です。私たちは、会議など複数の人が会話している中から「いつ誰が話したか?」を推定する研究をすすめています。また、その推定結果を用いて他の人の声や雑音の影響を低減し、特定の人の音声を明瞭に出力する技術も開発しました。本技術は、録音したデータの中において「いつ音声が話されたのか?」を推定する音声区間検出技術と、「その音声はどの方向から発せられたのか?」を推定する音声到来方向推定技術を用いて実現されています。音声区間検出技術は、会議室ごとに異なり、かつ、時々刻々変化する雑音に対応しながら、いつ音声が話されたのかを推定します。また、音声到来方向推定技術では、少数(3個)のマイクロホンで各発言者の方向を推定します。これは、会議参加人数が予め分からなくても、また複数人の声が重なってしまっても頑健に動作します。本システムは、リアルタイムでの動作が可能です。
<< 参考文献など >>

S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada, and S. Makino, "Speaker Indexing and Speech Enhancement in Real Meetings / Conversations," ICASSP2008, pp.93--96, 2008. [PDF]

荒木, 藤本, 石塚, 澤田, 牧野, "音声区間検出と方向情報を用いた会議音声話者識別システムとその評価," 日本音響学会2008年春季研究発表会, 2008. [PDF]

Notice about IEEE-copyrighted materials

This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the terms and constraints invoked by each author's copyright. In most cases, these works may not be reposted without the explicit permission of the copyright holder.

(c)20xx IEEE. Personal use of this material is permitted. However, permission to reprint/republish this material for advertising or promotional purposes or for creating new collective works for resale or redistribution to servers or lists, or to reuse any copyrighted component of this work in other works must be obtained from the IEEE.