Diarization(ダイアライゼーション)とは？

会議や放送音声において、「いつ、だれが話しているか？」を推定する問題のことを言います。
私達は、主にマイクロホンアレイを使って、どの方向から声がしているかを時々刻々推定することで、diarizationを行なう方法を提案しています。
また、各話者の音声を、それぞれ強調し、聞きやすくする技術についても研究を進めています。

文献リスト(国際会議 First Author)

S. Araki, H. Sawada and S. Makino, "Blind Speech Separation in a Meeting Situation," ICASSP2007, vol. I, pp. 41--45, 2007. [pdf], [demo](Please use IE for the demo.)
S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada, and S. Makino, "Speaker indexing and speech ehnancement in real meetings / conversations," ICASSP2008, pp.93--96, 2008. [pdf]
S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada, and S. Makino, "A DOA based speaker diarization system for real meetings," HSCMA2008, pp.29--32, 2008 (invited).[pdf]

文献リスト(国際会議 Co-author)

D. Kolossa (TU Berlin), S. Araki , M. Delcroix, T. Nakatani, R. Orglmeister (TU Berlin), S. Makino, "Missing Feature Speech Recognition in a Meeting Situation with Maximum SNR Beamforming," ISCAS2008.
T. Hager, S. Araki, K. Ishizuka, M. Fujimoto, T. Nakatani, S. Makino, "Handling speaker position changes in a meeting diarization system by combining DOA clustering and speaker identification," IWAENC2008, 2008.
K. Ishizuka, S. Araki, T. Kawahara, "Statistical Speech Activity Detection based on Spatial Power Distribution for Analyses of Poster Presentations," Interspeech2008, pp.99-102, 2008.
T. Kawahara, H. Setoguchi, K. Takanashi, K. Ishizuka, S. Araki, "Multi-Modal Recording, Analysis and Indexing of Poster Sessions," Interspeech2008, pp. 1622-1625, 2008.
K. Otsuka, S. Araki, K. Ishizuka, M. Fujimoto, M. Heinrich, J. Yamato, "A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization," ICMI2008, pp. 257--264, 2008.

文献リスト(国内会議)

荒木, 澤田, 牧野, ''話者分類とSN比最大化ビームフォーマに基づく会議音声強調,'' 日本音響学会2007年春季研究発表会, pp. 571--572, Mar. 2007. [pdf]
澤田, 荒木, 大塚, 藤本, 石塚, ''多人数多マイクでの発話区間検出～ピンマイクでの事例～,'' 日本音響学会2007年春季研究発表会, pp. 679--680, Mar. 2007.
石塚, 荒木, 藤本, 瀬戸口(京大), 高梨(京大), 河原(京大), "ポスター会話に対する発話区間検出と話者識別の検討," 情報処理学会研究報告, pp. 217--222, Dec. 2007.
荒木, 藤本, 石塚, 澤田, 牧野, "音声区間検出と方向情報を用いた会議音声話者識別システムとその評価," 日本音響学会2008年春季研究発表会, Mar. 2008. [pdf]
荒木, 藤本, 石塚, 中谷, 澤田, 牧野, "音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別," 電子情報通信学会技術研究報告, Vol.EA2008-40, pp 19--24, 2008.
大塚，荒木，石塚，藤本，大和,「多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築　～マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合」，電子情報通信学会マルチメディア・仮想環境基礎研究会 (MVE), 信学技報, vol. 108, no. 328, MVE2008-68, pp. 55-62, 2008.
石黒，山田，荒木，中谷,「ノンパラメトリックベイズを用いた会議音声話者識別のための話者クラスタリング法」，日本音響学会2009年春季研究発表会, pp.107--110, 2009.
小笠原(名大)，石塚，荒木，藤本，中谷，大塚，「SN 比最大化ビームフォーマを用いたオンライン会議音声強調」，日本音響学会2009年春季研究発表会, 2009. [pdf]
石塚，荒木，大塚，中谷，藤本，「音響情報と映像情報から得られる位置情報の統合による話者ダイアライゼーション」，日本音響学会2009年春季研究発表会, 2009.

Notice about IEEE-copyrighted materials

This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the terms and constraints invoked by each author's copyright. In most cases, these works may not be reposted without the explicit permission of the copyright holder.

�20xx IEEE. Personal use of this material is permitted. However, permission to reprint/republish this material for advertising or promotional purposes or for creating new collective works for resale or redistribution to servers or lists, or to reuse any copyrighted component of this work in other works must be obtained from the IEEE.

back to HOME