Academic Papers (Peer-Reviewed)

  1. Kenichi Arai, Atsunori Ogawa, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, Naoyuki Kamo, and Toshio Irino, "Intelligibility prediction of enhanced speech using recognition accuracy of end-to-end ASR system," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), 2022, Accepted.
  2. Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, and Toshio Irino, "Speech intelligibility prediction through direct estimation of word accuracy using Conformer," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), 2022, Accepted.
  3. Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Arai, Atsunori Ogawa, Keisuke Kinoshita, and Tomohiro Nakatani, "Effective data screening technique for crowdsourced speech intelligibility experiments: evaluation with IRM-based speech enhancement," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), 2022, Accepted.
  4. Hiroshi Sato, Yusuke Shinohara, and Atsunori Ogawa, "Multi-modal modeling for device-directed speech detection usinga acoustic and linguistic cues," Acoustical Science and Technology, Acoustical Letter, 2022, Accepted.
  5. Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, and Norihide Kitaoka, "End-to-end spontaneous speech recognition using disfluency labeling," in Proc. Interspeech, pp. 4108-4112, 2022.
  6. Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, and Toshio Irino, "Conformer-based fusion of text, audio, and listener characteristics for predicting speech intelligibility of hearing aid users," in Proc. The 2nd Clarity Workshop on Machine Learning Challenges for Hearing Aids (Clarity-2022), 2022.
  7. Atsunori Ogawa, Naohiro Tawara, Marc Delcroix, and Shoko Araki, "Lattice rescoring based on large ensemble of complementary neural language models," in Proc. ICASSP, pp. 6517-6521, 2022.
  8. Takatomo Kano, Atsunori Ogawa, Marc Delcroix, and Shinji Watanabe, "Integrating multiple ASR systems into NLP backend with attention fusion," in Proc. ICASSP, pp. 6237-6241, 2022.
  9. Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Hiroto Ashikawa, Tetsunori Kobayashi, and Tetsuji Ogawa, "Multi-source domain generalization using domain attributes for recurrent neural network language models," IEICE Transactions on Information and Systems, Vol. E105-D, No. 1, pp. 150-160, Jan. 2022.
  10. Takatomo Kano, Atsunori Ogawa, Marc Delcroix, and Shinji Watanabe, "Attention-based multi-hypothesis fusion for speech summarization," in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 487-494, 2021.
  11. Naohiro Tawara, Atsunori Ogawa, Yuki Kitagishi, Hosana Kamiyama, and Yusuke Ijima, "Robust speech age estimation using local maximum mean discrepancy under mismatched recoding conditions," in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 114-121, 2021.
  12. Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, and Norihide Kitaoka, "End-to-end spontaneous speech recognition using hesitation labeling," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 1077-1081, 2021.
  13. Daiki Mori, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, and Norihide Kitaoka, "Advanced language model fusion method for encoder-decoder model in Japanese speech recognition," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 503-510, 2021.
  14. Ayako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, and Tomohiro Nakatani, "Comparison of remote experiments using crowdsourcing and laboratory experiments on speech intelligibility," in Proc. INTERSPEECH, pp. 181-185, 2021.
  15. Atsunori Ogawa, Naohiro Tawara, Takatomo Kano, and Marc Delcroix, "BLSTM-based confidence estimation for end-to-end speech recognition," in Proc. ICASSP, pp. 6368-6372, 2021.
  16. Naohiro Tawara, Atsunori Ogawa, Yuki Kitagishi, and Hosana Kamiyama, "AgeVoxCeleb: Multi-modal corpus for facial and speech estimation," in Proc. ICASSP, pp. 6963-6967, 2021.
  17. Atsunori Ogawa, Naohiro Tawara, and Marc Delcroix, "Language model data augmentation based on text domain transfer," in Proc. INTERSPEECH, pp. 4926-4930, 2020.
  18. Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, and Toshio Irino, "Predicting intelligibility of enhanced speech using posteriors derived from DNN-based ASR system," in Proc. INTERSPEECH, pp. 1156-1160, 2020.
  19. Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, and Tetsuji Ogawa, "Noise-robust attention learning for end-to-end speech recognition," in Proc. European Signal Processing Conference (EUSIPCO), pp. 311-315, 2020.
  20. Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Marc Delcroix, and Tetsuji Ogawa, "Frame-level phoneme-invariant speaker embedding for text-independent speaker recognition on extremely short utterances," in Proc. ICASSP, pp. 6799-6803, 2020.
  21. Naohiro Tawara, Hosana Kamiyama, Satoshi Kobashikawa, and Atsunori Ogawa, "Improving speaker-attribute estimation by voting based on speaker cluster information," in Proc. ICASSP, pp. 6594-6598, 2020.
  22. Atsunori Ogawa, Marc Delcroix, Shigeki Karita, and Tomohiro Nakatani, "Improved deep duel model for rescoring N-best speech recognition list using backward LSTMLM and ensemble encoders," in Proc. INTERSPEECH, pp. 3900-3904, 2019.
  23. Marc Delcroix, Shinji Watanabe, Tsubasa Ochiai, Keisuke Kinoshita, Shigeki Karita, Atsunori Ogawa, and Tomohiro Nakatani, "End-to-end SpeakerBeam for single channel target speech recognition," in Proc. INTERSPEECH, pp. 451-455, 2019.
  24. Shigeki Karita, Nelson Enrique Yalta Soplin, Shinji Watanabe, Marc Delcroix, Atsunori Ogawa, Tomohiro Nakatani, "Improving Transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration," in Proc. INTERSPEECH, pp. 1408-1412, 2019.
  25. Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, and Tomohiro Nakatani, "Multimodal SpeakerBeam: Single channel target speech extraction with audio-visual speaker clues," in Proc. INTERSPEECH, pp. 2718-2722, 2019.
  26. Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Katsuhiko Yamamoto, and Toshio Irino, "Predicting speech intelligibility of enhanced speech using phone accuracy of DNN-based ASR system," in Proc. INTERSPEECH, pp. 4275-4279, 2019.
  27. Atsunori Ogawa, Tsutomu Hirao, Tomohiro Nakatani, and Masaaki Nagata, "ILP-based compressive speech summarization with content word coverage maximization and its oracle performance analysis," in Proc. ICASSP, pp. 7190-7194, 2019.
  28. Shigeki Karita, Shinji Watanabe, Tomoharu Iwata, Marc Delcroix, Atsunori Ogawa, and Tomohiro Nakatani, "Semi-supervised end-to-end speech recognition using text-to-speech and autoencoders," in Proc. ICASSP, pp. 6166-6170, 2019.
  29. Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Tomohiro Nakatani, "A unified framework for neural speech separation and extraction," in Proc. ICASSP, pp. 6975-6979, 2019.
  30. Michael Hentschel, Marc Delcroix, Atsunori Ogawa, Tomoharu Iwata, and Tomohiro Nakatani, "A unified framework for feature-based domain adaptation of neural network language models," in Proc. ICASSP, pp. 7250-7254, 2019.
  31. Michael Hentschel, Marc Delcroix, Atsunori Ogawa, Tomoharu Iwata, and Tomohiro Nakatani, "Feature based domain adaptation for neural network language models with factorised hidden layers," IEICE Transactions on Information and Systems, Vol. E102-D, No. 3, pp. 598-608, March 2019.
  32. Michael Hentschel, Marc Delcroix, Atsunori Ogawa, Tomoharu Iwata, and Tomohiro Nakatani, "Factorised hidden layer based domain adaptation for recurrent neural network language models," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 1940-1944, 2018.
  33. Michael Hentschel, Marc Delcroix, Atsunori Ogawa, Tomoharu Iwata, and Tomohiro Nakatani, "Feature-based learning hidden unit contributions for domain adaptation of RNN-LMs," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 1692-1696, 2018.
  34. Marc Delcroix, Shinji Watanabe, Atsunori Ogawa, Shigeki Karita, and Tomohiro Nakatani, "Auxiliary feature based adaptation of end-to-end ASR systems," in Proc. INTERSPEECH, pp. 2444-2447, 2018.
  35. Shigeki Karita, Shinji Watanabe, Tomoharu Iwata, Atsunori Ogawa, and Marc Delcroix, "Semi-supervised end-to-end speech recognition," in Proc. INTERSPEECH, pp. 2-6, 2018.
  36. Atsunori Ogawa, Marc Delcroix, Shigeki Karita, and Tomohiro Nakatani, "Rescoring N-best speech recognition list based on one-on-one hypothesis comparison using encoder-classifier model," in Proc. ICASSP, pp. 6099-6103, 2018.
  37. Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Christian Huemmer, and Tomohiro Nakatani, "Context adaptive neural network-based acoustic models for rapid adaptation" , IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 26, No. 5, pp. 895-908, May 2018.
  38. Shigeki Karita, Atsunori Ogawa, Marc Delcroix, and Tomohiro Nakatani, "Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition," in Proc. ICASSP, pp. 5839-5843, 2018.
  39. Marc Delcroix, Katerina Zmolikova, Keisuke Kinoshita, Atsunori Ogawa, Tomohiro Nakatani, "Single channel target speaker extraction and recognition with speaker beam," in Proc. ICASSP, pp. 5554-5558, 2018.
  40. Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, and Tetsunori Kobayashi, "Language model domain adaptation via recurrent neural networks with domain-shared and domain-specific representations," in Proc. ICASSP, pp. 6084-6088, 2018.
  41. Katerina Zmolikova, Marc Delcroix, Keisuke Kinoshita, Takuya Higuchi, Atsunori Ogawa, and Tomohiro Nakatani, "Learning speaker representation for neural network based multichannel speaker extraction," in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 8-15, 2017.
  42. (Poster Book Prizes by Springer) Hiroto Ashikawa, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, and Tetsuji Ogawa, "Exploiting end of sentences and speaker alternations in language modeling for multiparty conversations," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 1263-1267, 2017.
  43. Michael Hentschel, Atsunori Ogawa, Marc Delcroix, Tomohiro Nakatani, and Yuji Matsumo, "Exploiting imbalanced textual and acoustic data for training prosodically-enhanced RNNLMs," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 618-621, 2017.
  44. Atsunori Ogawa, Keisuke Kinoshita, Marc Delcroix, and Tomohiro Nakatani, "Improved example-based speech enhancement by using deep neural network acoustic model for noise robust example search," in Proc. INTERSPEECH, pp. 1963-1967, 2017.
  45. Shigeki Karita, Marc Delcroix, Atsunori Ogawa, and Tomohiro Nakatani, "Forward-backward convolutional LSTM for acoustic modeling," in Proc. INTERSPEECH, pp. 1601-1605, 2017.
  46. Dung T. Tran, Marc Delcroix, Shigeki Karita, Michael Hentschel, Atsunori Ogawa, Tomohiro Nakatani, "Unfolded deep recurrent convolutional neural network with jump ahead connections for acoustic modeling," in Proc. INTERSPEECH, pp. 1596-1600, 2017.
  47. Dung T. Tran, Marc Delcroix, Atsunori Ogawa, and Tomohiro Nakatani, "Uncertainty decoding with adaptive sampling for noise robust DNN-based acoustic modeling," in Proc. INTERSPEECH, pp. 3852-3855, 2017.
  48. Katerina Zmolikova, Marc Delcroix, Keisuke Kinoshita, Takuya Higuchi, Atsunori Ogawa, and Tomohiro Nakatani, "Speaker-aware neural network based beamformer for speaker extraction in speech mixtures," in Proc. INTERSPEECH, pp. 2655-2659, 2017.
  49. Shoko Araki, Nobutaka Ito, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Takuya Higuchi, Takuya Yoshioka, Dung Tran, Shigeki Karita, and Tomohiro Nakatani, "Online meeting recognition in noisy environments with time-frequency mask based MVDR beamforming," in Proc. IEEE Hands-free Speech Communication and Microphone Arrays (HSCMA), pp. 16-20, 2017.
  50. Atsunori Ogawa and Takaaki Hori, "Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks," Speech Communication, Vol. 89, No. 5, pp. 70-83, May 2017.
  51. Keisuke Kinoshita, Marc Delcroix, Atsunori Ogawa, Takuya Higuchi, and Tomohiro Nakatani, "Deep mixture density network for statistical model-based feature enhancement," in Proc. ICASSP, pp. 251-255, 2017.
  52. Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Taichi Asami, Shigeru Katagiri, and Tomohiro Nakatani, "Cumulative moving averaged bottleneck speaker vectors for online speaker adaptation of CNN-based acoustic models," in Proc. ICASSP, pp. 5175-7179, 2017.
  53. Christian Huemmer, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, and Walter Kellermann, "Online environmental adaptation of CNN-based acoustic models using spatial diffuseness features," in Proc. ICASSP, pp. 4875-4879, 2017.
  54. Dung T. Tran, Marc Delcroix, Atsunori Ogawa, Christian Huemmer, and Tomohiro Nakatani, "Feedback connection for deep neural network-based acoustic modeling," in Proc. ICASSP, pp. 5240-5244, 2017.
  55. Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Estimating speech recognition accuracy based on error type classification," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 24, No. 12, pp. 2400-2413, Dec. 2016.
  56. Atsunori Ogawa, Shogo Seki, Keisuke Kinoshita, Marc Delcroix, Takuya Yoshioka, Tomohiro Nakatani, and Kazuya Takeda, "Robust example search using bottleneck features for example-based speech enhancement," in Proc. INTERSPEECH, pp. 3733-3737, 2016.
  57. Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Takuya Yoshioka, Dung Tran, and Tomohiro Nakatani, "Context adaptive neural network for rapid adaptation of deep CNN based acoustic models," in Proc. INTERSPEECH, pp. 1573-1577, 2016.
  58. Dung T. Tran, Marc Delcroix, Atsunori Ogawa, and Tomohiro Nakatani, "Factorized linear input network for acoustic model adaptation in noisy conditions," in Proc. INTERSPEECH, pp. 3813-3817, 2016.
  59. Marc Delcroix, Keisuke Kinoshita, Chengzhu Yu, Atsunori Ogawa, Takuya Yoshioka, and Tomohiro Nakatani, "Context adaptive deep neural networks for fast acoustic model adaptation in noisy conditions," in Proc. ICASSP, pp. 5270-5274, 2016.
  60. Shoko Araki, Masahiro Okada, Takuya Higuchi, Atsunori Ogawa, and Tomohiro Nakatani, "Spatial correlation model based observation vector clustering and MVDR beamforming for meeting recognition," in Proc. ICASSP, pp. 385-389, 2016.
  61. Marc Delcroix, Atsunori Ogawa, Seong-Jun Hahm, Tomohiro Nakatani, and Atsushi Nakamura, "On the robustness of differenced maximum mutual information criterion to transcription errors and its application to unsupervised acoustic model adaptation," Computer Speech and Language, Vol. 36, pp. 24-41, March 2016.
  62. (IEEE ASRU 2015 Best Paper Award Honorable Mention, 雑音環境下音声認識コンペティションCHiME3チャレンジにて世界1位の成績を達成) Takuya Yoshioka, Nobutaka Ito, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Masakiyo Fujimoto, Chengzhu Yu, Wojciech J. Fabian, Miquel Espi, Takuya Higuchi, Shoko Araki, and Tomohiro Nakatani, "The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi-microphone devices," in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 436-443, 2015.
  63. Chengzhu Yu, Atsunori Ogawa, Marc Delcroix, Takuya Yoshioka, Tomohiro Nakatani, and John H.L. Hansen, "Robust i-vector extraction for neural network adaptation in noisy environment," in Proc. INTERSPEECH, pp. 2854-2857, 2015.
  64. Keisuke Kinoshita, Marc Delcroix, Atsunori Ogawa, and Tomohiro Nakatani, "Text-informed speech enhancement with deep neural network," in Proc. INTERSPEECH, pp. 1760-1764, 2015.
  65. Marc Delcroix, Takuya Yoshioka, Atsunori Ogawa, Yotaro Kubo, Masakiyo Fujimoto, Nobutaka Ito, Keisuke Kinoshita, Miquel Espi, Shoko Araki, Takaaki Hori, and Tomohiro Nakatani, "Strategies for distant speech recognition in reverberant environments," European Association for Signal Processing (EURASIP) Journal on Advances in Signal Processing, Vol. 2015, No. 1, July 2015.
  66. Atsunori Ogawa and Takaaki Hori, "ASR error detection and recognition rate estimation using deep bidirectional recurrent neural networks," in Proc. ICASSP, pp. 4370-4374, 2015.
  67. Kazuo Aoyama, Atsunori Ogawa, Takashi Hattori, and Takaaki Hori, "Double-layer neighborhood graph based similarity search for fast query-by-example spoken term detection," in Proc. ICASSP, pp. 5216-5220, 2015.
  68. (招待講演) Marc Delcroix, Takuya Yoshioka, Atsunori Ogawa, Yotaro Kubo, Masakiyo Fujimoto, Nobutaka Ito, Keisuke Kinoshita, Miquel Espi, Shoko Araki, Takaaki Hori, and Tomohiro Nakatani, "Defeating reverberation: Advanced dereverberation and recognition techniques for hands-free speech recognition," in Proc. IEEE Global Conference on Signal and Information Processing (GlobalSIP), pp. 522-526, 2014.
  69. Shoko Yamahata, Yoshikazu Yamaguchi, Atsunori Ogawa, Hirokazu Masataki, Osamu Yoshioka, and Satoshi Takahashi, "Automatic vocabulary adaptation based on semantic and acoustic similarities," IEICE Transactions on Information and Systems, Vol. E97-D, No.6, pp.1488-1496, June 2014.
  70. (残響環境下音声認識コンペティションREVERBチャレンジにて世界1位の成績を達成) Marc Delcroix, Takuya Yoshioka, Atsunori Ogawa, Yotaro Kubo, Masakiyo Fujimoto, Nobutaka Ito, Keisuke Kinoshita, Miquel Espi, Takaaki Hori, Tomohiro Nakatani, and Atsushi Nakamura, "Linear prediction-based dereverberation with advanced speech enhancement and recognition technologies for the REVERB challenge," in Proc. REVERB Challenge, 2014.
  71. Atsunori Ogawa, Keisuke Kinoshita, Takaaki Hori, Tomohiro Nakatani, and Atsushi Nakamura, "Fast segment search for corpus-based speech enhancement based on speech recognition technology," in Proc. ICASSP, pp. 1576-1580, 2014.
  72. Kazuo Aoyama, Atsunori Ogawa, Takashi Hattori, Takaaki Hori, and Atsushi Nakamura, "Zero-resource spoken term detection using hierarchical graph-based similarity search," in Proc. ICASSP, pp. 7143-7147, 2014.
  73. (招待講演) Atsunori Ogawa, Takaaki Hori, Atsushi Nakamura, and Takanobu Oba, "Recognition rate estimation based on error type classification and its applications," in Proc. Workshop Errare 2013.
  74. Takanobu Oba, Atsunori Ogawa, Takaaki Hori, Hirokazu Masataki, and Atsushi Nakamura, "Unsupervised discriminative language modeling using error rate estimator," in Proc. INTERSPEECH, pp.1223-1227, 2013.
  75. Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Atsunori Ogawa, Takaaki Hori, Shinji Watanabe, Masakiyo Fujimoto, Takuya Yoshioka, Takanobu Oba, Yotaro Kubo, Mehrez Souden, Seong-Jun Hahm, and Atsushi Nakamura, "Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds," Computer Speech and Language, Vol. 27, No. 3, pp. 851-873, May 2013.
  76. Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Discriminative recognition rate estimation for n-best list and its application to n-best rescoring," in Proc. ICASSP, pp. 6832-6836, 2013.
  77. Kazuo Aoyama, Atsunori Ogawa, Takashi Hattori, Takaaki Hori, and Atsushi Nakamura, "Graph index based query-by-example search on a large speech data set," in Proc. ICASSP, pp. 8520-8524, 2013.
  78. Marc Delcroix, Atsunori Ogawa, Seong-Jun Hahm, Tomohiro Nakatani, and Atsushi Nakamura, "Unsupervised discriminative adaptation using differenced maximum mutual information based linear regression," in Proc. ICASSP, pp. 7888-7892, 2013.
  79. Seong-Jun Hahm, Atsunori Ogawa, Marc Delcroix, Masakiyo Fujimoto, Takaaki Hori, and Atsushi Nakamura, "Feature space variational Bayesian linear regression and its combination with model space VBLR," in Proc. ICASSP, pp. 7898-7902, 2013.
  80. Tomohiro Nakatani, Mehrez Souden, Shoko Araki, Takuya Yoshioka, Takaaki Hori, and Atsunori Ogawa, "Coupling beamforming with spatial and spectral feature based spectral enhancement and its application to meeting recognition," in Proc. ICASSP, pp. 7249-7253, 2013.
  81. Seong-Jun Hahm, Shinji Watanabe, Atsunori Ogawa, Masakiyo Fujimoto, Takaaki Hori, and Atsushi Nakamura, "Prior-shared feature and model space speaker adaptation by consistently employing MAP estimation," Speech Communication, Vol. 55, No. 3, pp. 415-431, March 2013.
  82. Satoshi Kobashikawa, Atsunori Ogawa, Taichi Asami, Yoshikazu Yamaguchi, Hirokazu Masataki, and Satoshi Takahashi, "Fast unsupervised adaptation based on efficient statistics accumulation using frame independent confidence within monophone states," Computer Speech and Language, Vol. 27, No. 1, pp. 369-379, Jan. 2013.
  83. Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Recognition rate estimation based on word alignment network and discriminative error type classification," in Proc. IEEE Workshop on Spoken Language Technology (SLT), pp. 113-118, 2012.
  84. Atsunori Ogawa and Atsushi Nakamura, "Joint estimation of confidence and error causes in speech recognition," Speech Communication, Vol. 54, No. 9, pp. 1014-1028, Nov. 2012.
  85. Seong-Jun Hahm, Atsunori Ogawa, Masakiyo Fujimoto, Takaaki Hori, and Atsushi Nakamura, "Speaker adaptation using variational Bayesian linear regression in normalized feature space," in Proc. INTERSPEECH, pp. 803-806, 2012.
  86. Shoko Yamahata, Yoshikazu Yamaguchi, Atsunori Ogawa, Hirokazu Masataki, Osamu Yoshioka, and Satoshi Takahashi, "Automatic vocabulary adaptation based on semantic similarity and speech recognition confidence measure," in Proc. INTERSPEECH, pp. 2310-2313, 2012.
  87. Marc Delcroix, Atsunori Ogawa, Tomohiro Nakatani, and Atsushi Nakamura, "Dynamic variance adaptation using differenced maximum mutual information," in Proc. Symposium on Machine Learning in Speech and Language Processing (MLSLP), pp. 9-12, 2012.
  88. Seong-Jun Hahm, Shinji Watanabe, Masakiyo Fujimoto, Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Normalization and adaptation by consistently employing MAP estimation," in Proc. International Workshop on Statistical Machine Learning for Speech Processing (IWSML), 2012.
  89. Takaaki Hori, Keisuke Kinoshita, Shoko Araki, Atsunori Ogawa, Takuya Yoshioka, Masakiyo Fujimoto, Takanobu Oba, Marc Delcroix, Mehrez Souden, Yotaro Kubo, Seong-Jun Hahm, Dan Mikami, Kazuhiro Otsuka, Tomohiro Nakatani, Atsushi Nakamura, and Junji Yamato, "Real-time audio-visual meeting recognition and understanding using distant microphone array," in Proc. ICASSP, Show & Tell, 2012.
  90. Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Error type classification and word accuracy estimation using alignment information in word confusion network," in Proc. ICASSP, pp. 4925-4928, 2012.
  91. Marc Delcroix, Atsunori Ogawa, Shinji Watanabe, Tomohiro Nakatani, and Atsushi Nakamura, "Discriminative feature transforms using difference maximum mutual information," in Proc. ICASSP, pp. 4753-4756, 2012.
  92. Takaaki Hori, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, Shinji Watanabe, Takanobu Oba, Atsunori Ogawa, Kazuhiro Otsuka, Dan Mikami, Keisuke Kinoshita, Tomohiro Nakatani, Atsushi Nakamura, and Junji Yamato, "Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 2, pp. 499-513, Feb. 2012.
  93. (雑音環境下音声認識コンペティションCHiMEチャレンジにて世界1位の成績を達成) Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Atsunori Ogawa, Takaaki Hori, Shinji Watanabe, Masakiyo Fujimoto, Takuya Yoshioka, Takanobu Oba, Yotaro Kubo, Mehrez Souden, Seong-Jun Hahm, Atsushi Nakamura, "Speech recognition in the presence of highly non-stationary noise based on spatial, spectral and temporal speech/noise modeling combined with dynamic variance adaptation," in Proc. CHiME 2011 Workshop on Machine Learning in Multisource Environments, pp. 12-17, 2011.
  94. Atsunori Ogawa, Satoshi Takahashi, and Atsushi Nakamura, "Machine and acoustical condition dependency analyses for fast acoustic likelihood calculation techniques," in Proc. ICASSP, pp. 5156-5159, 2011.
  95. Shoko Araki, Takaaki Hori, Takuya Yoshioka, Masakiyo Fujimoto, Shinji Watanabe, Takanobu Oba, Atsunori Ogawa, Kazuhiro Otsuka, Dan Mikami, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Atsushi Nakamura, and Junji Yamato, "Low-latency meeting recognition and understanding using distant microphones," in Proc. IEEE Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA), pp. 151-152, 2011.
  96. Atsunori Ogawa, Satoshi Takahashi, and Atushi Nakamura, "Efficient combination of likelihood recycling and batch calculation for fast acoustic likelihood calculation," IEICE Transactions on Information and Systems, Vol. E94-D, No. 3, pp. 648-658, March 2011.
  97. Takaaki Hori, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, Shinji Watanabe, Takanobu Oba, Atsunori Ogawa, Kazuhiro Otsuka, Dan Mikami, Keisuke Kinoshita, Tomohiro Nakatani, Atsushi Nakamura, and Junji Yamato, "Real-time meeting recognition and understanding using distant microphones and omni-directional camera," in Proc. IEEE Workshop on Spoken Language Technology (SLT), pp. 424-429, 2010.
  98. Atsunori Ogawa and Atsushi Nakamura, "A novel confidence measure based on marginalization of jointly estimated error cause probabilities," in Proc. INTERSPEECH, pp. 242-245, 2010.
  99. Atsunori Ogawa and Atsushi Nakamura, "Discriminative confidence and error cause estimation for extended speech recognition function," in Proc. ICASSP, pp. 4454-4457, 2010.
  100. Atsunori Ogawa and Atsushi Nakamura, "Simultaneous estimation of confidence and error cause in speech recognition using discriminative model," in Proc. INTERSPEECH, pp. 1199-1202, 2009.
  101. Satoshi Kobashikawa, Atsunori Ogawa, Yoshikazu Yamaguchi, and Satoshi Takahashi, "Rapid unsupervised adaptation using frame independent output probabilities of gender and context independent phoneme models," in Proc. INTERSPEECH, pp.1615-1618, 2009.
  102. Atsunori Ogawa, Satoshi Takahashi, and Atsushi Nakamura, "Efficient combination of likelihood recycling and batch calculation based on conditional fast processing and acoustic back-off," in Proc. ICASSP, pp. 4164-4164, 2009.
  103. Satoshi Kobashikawa, Atsunori Ogawa, Yoshikazu Yamaguchi, and Satoshi Takahashi, "Rapid unsupervised adaptation using context independent phoneme model," in Proc. IEEE International Symposium on Consumer Electronics (ISCE), pp. 209-212, 2009.
  104. Atsunori Ogawa and Satoshi Takahashi, "Weighted distance measures for efficient reduction of Gaussian mixture components in HMM-based acoustic model," in Proc. ICASSP, pp. 4173-4176, 2008.
  105. Atsunori Ogawa and Satoshi Takahashi, "Weighted distance measures for Gaussian mixture component reduction," IEICE Transactions on Information and Systems, Vol. J90-D, No. 10, pp. 2940-2944, Oct. 2007 (in Japanese).
  106. Atsunori Ogawa, Yoshihiro Moro, and Satoshi Takahashi, "Experimental analyses of cepstral coefficient normalization units," IEICE Transactions on Information and Systems, Vol. J90-D, No. 9, pp. 2648-2651, Sept. 2007 (in Japanese).
  107. Atsunori Ogawa, Akihiro Imamura, Minoru Tonogai, Makoto Nakamura, Toshihiro Isobe, and Shohei Sugawara, "Japanese-English bilingual speech recognition of voice command in enroute air traffic control communication," IEICE Transactions on Information and Systems, Vol. J89-D, No. 5, pp. 979-990, 2006 (in Japanese).
  108. Atsunori Ogawa, Yoshikazu Yamaguchi, and Shoichi Matsunaga, "Children's speech recognition using elementary-school-student speech database," Systems and Computers in Japan, Vol. 36, No. 12, pp. 33-42, Nov. 2005.
  109. Satoshi Kobashikawa, Satoshi Takahashi, Yoshikazu Yamaguchi, and Atsunori Ogawa, "Rapid response and robust speech recognition by preliminary model adaptation for additive and convolutional noise," in Proc. INTERSPEECH, pp.965-968, 2005.
  110. Atsunori Ogawa, Yoshikazu Yamaguchi, and Shoichi Matsunaga, "Children's speech recognition using elementary-school-student speech database," IEICE Transactions on Information and Systems, Vol. J87-D2, No. 8, pp. 1572-1580, Aug. 2004 (in Japanese).
  111. Shoichi Matsunaga, Atsunori Ogawa, Yoshikazu Yamaguchi, and Akihiro Imamura, "Speaker adaptation for non-native speakers using bilingual English lexicon and acoustic models," in Proc. INTERSPEECH, pp.3113-3116, 2003.
  112. Shoichi Matsunaga, Atsunori Ogawa, Yoshikazu Yamaguchi, and Akihiro Imamura, "Non-native English speech recognition using bilingual English lexicon and acoustic models," in Proc. IEEE International Conference on Multimedia and Expo. (ICME), Vol. 3, pp. 625-628, 2003.
  113. Shoichi Matsunaga, Atsunori Ogawa, Yoshikazu Yamaguchi, and Akihiro Imamura, "Non-native English speech recognition using bilingual English lexicon and acoustic models," in Proc. ICASSP, Vol. 1, pp. 340-343, 2003.
  114. Atsunori Ogawa, Yoshiaki Noda, and Shoichi Matsunaga, "Novel two-pass search strategy using time-asynchronous shortest-first second-pass beam search," in Proc. INTERSPEECH, pp. IV-290-IV-293, 2000.
  115. Atsunori Ogawa, Kazuya Takeda, and Fumitada Itakura, "A modified language model based on generalized Bernoulli trials," IEICE Transactions on Information and Systems, Vol. J81-D2, No. 12, pp. 2703-2711, Dec. 1998 (in Japanese).
  116. Atsunori Ogawa, Kazuya Takeda, and Fumitada Itakura, "Balancing acoustic and linguistic probabilities," in Proc. ICASSP, Vol. 1, pp. 181-184, 1998.
  117. Kazuya Takeda, Atsunori Ogawa, and Fumitada Itakura, "Estimating entropy of a language from optimal word insertion penalty," in Proc. International Conference on Spoken Language Processing (ICSLP), pp. 456-459, 1998.
  118. Kazuya Takeda, Atsunori Ogawa, and F. Itakura, "Balancing stochastic knowledge on acoustics and linguistics," in Proc. ISCIE International Symposium on Stochastic Systems Theory and Its Applications (SSS), pp. 133-138, 1997.
  119. Atsunori Ogawa, Kazuya Takeda, and Fumitada Itakura, "Language modeling for robust balancing of acoustic and linguistic probabilities," in Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pp. 246-253, 1997.
  120. Atsunori Ogawa, Kazuya Takeda, and Fumitada Itakura, "A language model based on generalized Bernoulli trials," in Proc. International Conference on Speech Processing (ICSP), Vol.2, pp. 765-770, 1997.

Book Chapters

  1. Marc Delcroix, Takuya Yoshioka, Nobutaka Ito, Atsunori Ogawa, Keisuke Kinoshita, Masakiyo Fujimoto, Takuya Higuchi, Shoko Araki, and Tomohiro Nakatani, "Multichannel speech enhancement approaches to DNN-based far-field speech recognition," in Chapter 2, pp. 21-49, of Shinji Watanabe, Marc Delcroix, Florian Metze, and John R. Hershey, Editors, "New era for robust speech recognition," Springer International Publishing AG 2017.

Domestic Conference Papers (Not Peer-Reviewed)

  1. 俵直弘, 小川厚徳, 北岸佑樹, "音声と顔画像を同時に用いたマルチモーダル年齢推定," 日本音響学会研究発表会講演論文集, 3-Q-15, Sept. 2022.
  2. 北岸佑樹, 俵直弘, 小川厚徳, 井島勇祐, 増村亮, "話者年齢の人と機械学習による推定の傾向の分析," 日本音響学会研究発表会講演論文集, 3-10-5, Sept. 2022.
  3. 堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 小川厚徳, 北岡教英, "End-to-End非流暢整形音声認識システムの対話音声による評価," 日本音響学会研究発表会講演論文集, 2-8-5, Sept. 2022.
  4. 山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広, "高齢難聴者の音声了解度客観評価を目指したGESIの開発 -強調音声と模擬難聴音声による評価-," 日本音響学会研究発表会講演論文集, 3-P-27, Sept. 2022.
  5. 山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広, "客観評価指標GESIによる音声了解度予測 -強調処理音声と音圧低減音声を対象として-," 信学技報, Vol. 122, No. 95, EA2022-25, pp. 57-62, July 2022.
  6. 叶高朋, 小川厚徳, マーク・デルクロア, 渡部晋治, "音声要約のためのBERTを用いた認識仮説統合," 日本音響学会研究発表会講演論文集, 3-8-14, pp. 831-832, March 2022.
  7. 北岸佑樹, 中村風雅, 神山歩相名, 俵直弘, 小川厚徳, "異なる粒度の年齢ラベルを用いた話者年齢推定," 日本音響学会研究発表会講演論文集, 1-3Q-2, pp. 1051-1052, March 2022.
  8. 森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英, "タスク外音響情報を付加したEnd-to-End 音声認識モデルの設計," 日本音響学会研究発表会講演論文集, 2-3Q-2, pp. 1141-1144, March 2022.
  9. (日本音響学会第25回学生優秀発表賞受賞) 堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 小川厚徳, 北岡教英, "非流暢ラベルを用いた言い淀み整形End-to-End 音声認識," 日本音響学会研究発表会講演論文集, 1-3-5, pp. 889-892, March 2022.
  10. 山本絢子, 入野俊夫, 荒木章子, 新井賢一, 小川厚徳, 木下慶介, 中谷智広, "MVDRビームフォーマーによる音声強調処理の了解度評価 -防音室実験とクラウドソーシング実験の対比-," 日本音響学会研究発表会講演論文集, 1-1P-8, pp. 323-326, March 2022.
  11. 山本絢子, 入野俊夫, 荒木章子, 新井賢一, 小川厚徳, 木下慶介, 中谷智広, "IRMを用いた音声強調処理の主観了解度の上限評価 -防音室実験とクラウドソーシング実験の対比-," 信学技報, EA2021-74, SIP2021-101, SP2021-59, pp. 64-69, March 2022.
  12. 小川厚徳, 浅見太一, 俵直弘, 荒木章子, "相補的な複数のニューラル言語モデルと文脈情報を用いた繰り返しラティスリスコアリング," 日本音響学会研究発表会講演論文集, 1-3P-4, pp. 995-996, Sept. 2021.
  13. 俵直弘, 小川厚徳, 北岸佑樹, 神山歩相名, 井島勇祐, "環境の違いに頑健な話者年齢推定のためのドメイン適応法の検討," 日本音響学会研究発表会講演論文集, 1-3P-2, pp. 991-992, Sept. 2021.
  14. 佐藤宏, 小川厚徳, "音響情報と言語情報に基づく対話エージェントの誤反応防止技術の検討," 日本音響学会研究発表会講演論文集, 2-3P-1, pp. 1073-1074, Sept. 2021.
  15. 森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英, "Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法," 日本音響学会研究発表会講演論文集, 1-3-1, pp. 843-846, Sept. 2021.
  16. 森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英, "End-to-end音声認識モデルにおける暗黙的言語情報の置換法," 情報処理学会研究報告, Vol. 2021-MUS-131, No. 17, Vol. 2021-SLP-137, No. 17, pp. 1-6, June 2021.
  17. 山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広, "クラウドソーシングを利用した音声了解度実験 ~ウェブページ制作からデータスクリーニング~," 信学技報, Vol. 121, No. 66, SP2021-5, pp. 25-30, June 2021.
  18. 小川厚徳, 俵直弘, 叶高朋, マーク・デルクロア, "BLSTMを用いたend-to-end音声認識に対する信頼度推定," 日本音響学会研究発表会講演論文集, 2-2P-4, pp. 1051-1052, March 2021.
  19. 山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広, "クラウドソーシングと防音室における音声了解度実験の対比," 信学技報, EA2020-73, SIP2020-104, SP2020-38, pp. 79-84, March 2021.
  20. 小川厚徳, 俵直弘, マーク・デルクロア, "教師なしドメイン変換に基づく言語モデル学習データの増強," 日本音響学会研究発表会講演論文集, 1-2-9, pp. 711-712, Sept. 2020.
  21. 俵直弘, 小川厚徳, 北岸佑樹, 神山歩相名, "マルチモーダルデータを用いた話者年齢推定法の検討," 日本音響学会研究発表会講演論文集, 3-T1-6, pp. 905-906, Sept. 2020.
  22. 小川厚徳, 俵直弘, 苅田成樹, マーク・デルクロア, "双方向LSTM単語入れ換えモデルを用いた教師なしテキストスタイル変換に基づく言語モデル学習データの増強," 日本音響学会研究発表会講演論文集, 2-4-7, pp. 899-900, March 2020.
  23. 俵直弘, 小川厚徳, 岩田具治, マーク・デルクロア, 小川哲司, "短発話を対象としたテキスト独立型話者認識のための フレームレベル音素非依存特徴抽出," 日本音響学会研究発表会講演論文集, 3-P-2, pp. 997-998, March 2020.
  24. 樋口陽祐, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司, "Attentionに関する損失を利用したノイズに頑健なEnd-to-End音声認識," 日本音響学会研究発表会講演論文集, 2-9-8, pp. 935-936, March 2020.
  25. 落合翼, マーク・デルクロア, 木下慶介, 小川厚徳, 中谷智広, "音響と映像由来の話者情報を用いたマルチモーダル目的話者抽出の検討," 日本音響学会研究発表会講演論文集, 1-1-24, pp. 225-226, March 2020.
  26. 小川厚徳, マーク・デルクロア, 苅田成樹, 中谷智広, "後向きLSTM言語モデルとアンサンブル符号化器を用いたNベストリスコアリングのための一対仮説比較モデルの改良," 日本音響学会研究発表会講演論文集, 1-P-5, pp. 869-870, Sept. 2019.
  27. 俵直弘, 神山歩相名, 小橋川哲, 小川厚徳, "話者クラスタリングに基づく話者年齢・性別推定精度改善法," 日本音響学会研究発表会講演論文集, 2-3-2, pp. 815-816, Sept. 2019.
  28. 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広, 山本克彦, 入野俊夫, "DNN音声認識システムによる単語了解度予測," 日本音響学会研究発表会講演論文集, 3-P-34, pp. 703-706, Sept. 2019.
  29. 秋田祐哉, 大町基, 岡本拓磨, 落合翼, 小川厚徳, 神田直之, 郡山知樹, 鈴木雅之, 太刀岡勇気, 俵直弘, 増村亮, 渡部晋治, "国際会議ICASSP2019報告," 情報処理学会研究報告, Vol. 2019-SLP-128, No. 8, pp. 1-6, July 2019.
  30. 小川厚徳, 平尾努, 中谷智広, 永田昌明, "整数線形計画法に基づく内容語の最大被覆を満たす圧縮型音声要約とそのオラクル要約精度の分析," 日本音響学会研究発表会講演論文集, 1-P-17, pp. 943-944, March 2019.
  31. 芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則, "ドメイン属性情報を用いた RNN 言語モデルのドメイン汎化," 日本音響学会研究発表会講演論文集, 1-P-13, pp. 927-930, March 2019.
  32. 落合翼, マーク・デルクロア, 木下慶介, 小川厚徳, 中谷智広, "ブラインド音源分離と目的話者抽出を統合した深層学習モデルの検討," 日本音響学会研究発表会講演論文集, 2-Q-27, pp. 383-384, March 2019.
  33. (学生ポスター賞受賞) 芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則, "RNN言語モデルのためのドメイン属性情報を用いたゼロショット学習," 情報処理学会研究報告, Vol. 2018-SLP-125, No. 13, pp. 1-6, Dec. 2018.
  34. 秋田祐哉, 安藤厚志, 岡本拓磨, 小川厚徳, 神田直之, 倉田岳人, 郡山知樹, 篠崎隆宏, 高島遼一, 太刀岡勇気, 藤本雅清, 増村亮, "国際会議ICASSP2018報告," 情報処理学会研究報告, Vol. 2018-SLP-123, No. 2, pp. 1-7, July 2018.
  35. 小川厚徳, マーク・デルクロア, 苅田成樹, 中谷智広, "一対一の仮説比較を行うencoder-classifierモデルを用いたNベスト音声認識仮説のリスコアリング," 日本音響学会研究発表会講演論文集, 1-8-9, pp. 23-24, March 2018.
  36. 苅田成樹, 小川厚徳, マーク・デルクロア, 中谷智広, "単語誤り率の期待値最小化に基づく encoder-decoder音声認識," 日本音響学会研究発表会講演論文集, 1-8-7, pp. 17-20, March 2018.
  37. マーク・デルクロア, Katerina Zmolikova, 木下慶介, 小川厚徳, 森谷崇史, 中谷智広, "オンライン処理によるモノラル混合音声からの目的話者抽出・認識," 日本音響学会研究発表会講演論文集, 1-Q-12, pp. 97-98, March 2018.
  38. 苅田成樹, 小川厚徳, デルクロア・マーク, 中谷智広, "双方向畳み込みLSTMネットワークを用いた音響モデル," 日本音響学会研究発表会講演論文集, 1-5-2, pp. 5-8, March 2017.
  39. 芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司, "複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性," 日本音響学会研究発表会講演論文集, 1-10-9, pp. 23-26, Sept. 2017.
  40. 森岡幹, 俵直弘, 小川哲司, 小川厚徳, 岩田具治, 小林哲則, "ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル," 日本音響学会研究発表会講演論文集, 1-10-10, pp. 27-30, Sept. 2017.
  41. (招待講演) 小川厚徳, 木下慶介, デルクロア・マーク, 中谷智広, "[招待講演] 事例ベース音声強調の紹介とその改良," 信学技報, Vol. 116, No. 477, SP2016-109, pp. 183-188, March 2017.
  42. 芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則, "複数人対話のためのRNN言語モデルにおける発話終端と話者情報の利用法," 信学技報, Vol. 116, No. 477, SP2016-128, pp. 287-290, March 2017.
  43. 浅見太一, 小川厚徳, 小川哲司, 大谷大和, 倉田岳人, 齋藤大輔, 塩田さやか, 篠原雄介, 鈴木雅之, 高道慎之介, 南条浩輝, 橋本佳, 樋口卓哉, 増村亮, 吉野幸一郎, 渡部晋治, "国際会議INTERSPEECH2016報告," 情報処理学会研究報告, Vol. 2017-SLP-115, No.7, pp. 1-7, Feb. 2017.
  44. (日本音響学会第14回学生優秀発表賞受賞) 芦川博人, 森岡幹, 小川厚徳, 岩田具治, 俵直弘, 小川哲司, 小林哲則, "複数人対話のための話者情報を用いたRNN言語モデル," 日本音響学会研究発表会講演論文集, 3-Q-2, pp. 85-88, Sept. 2016.
  45. (招待講演) 荒木章子, 木下慶介, 伊藤信貴, 小川厚徳, マーク・デルクロア, 樋口卓哉, 吉岡拓也, ズン・チャン, 中谷智広, "雑音のある環境での複数人会話音声認識," 日本音響学会研究発表会講演論文集, 3-4-5, pp. 1265-1268, Sept. 2016.
  46. 森岡幹, 岩田具治, 小川厚徳, 俵直弘, 小川哲司, 小林哲則, "少量データに頑健なニューラルネットワーク言語モデル," 日本音響学会研究発表会講演論文集, 3-Q-3, pp. 89-92, Sept. 2016.
  47. 小川厚徳, 関翔悟, 木下慶介, マーク・デルクロア, 吉岡拓也, 中谷智広, 武田一哉, "DNNボトルネック特徴量を用いた頑健な事例探索による事例ベース音声強調の高精度化と高速化," 日本音響学会研究発表会講演論文集, 3-3-10, pp. 633-634, March 2016.
  48. 吉岡拓也, マーク・デルクロア, 小川厚徳, Chengzhu Yu, 伊藤信貴, 木下慶介, 藤本雅清, Wojciech Fabian, ミケル・エスピ, 樋口卓哉, 荒木章子, 中谷智広, "NTT CHiME-3 音声認識システム:全体構成とバックエンド," 日本音響学会研究発表会講演論文集, 2-1-12, pp. 55-56, March 2016.
  49. 木下慶介, マーク・デルクロア, 小川厚徳, 中谷智広, "発話内容を補助情報として用いたDNN型高精度音声強調," 日本音響学会研究発表会講演論文集, 3-3-9, pp. 631-632, March 2016.
  50. マーク・デルクロア, 木下慶介, Chengzhu Yu, 小川厚徳, 吉岡拓也, 中谷智広, "音響コンテキスト適応型 DNN に基づく高速音響モデル適応," 日本音響学会研究発表会講演論文集, 3-P-1, pp. 149-150, March 2016.
  51. 荒木章子, 岡田昌大, 樋口卓哉, 小川厚徳, 中谷智広, "時間周波数マスク推定に基づくMVDRビームフォーミングの複数人会話音声認識への適用," 日本音響学会研究発表会講演論文集, 1-P-20, pp. 703-704, March 2016.
  52. (日本音響学会第12回学生優秀発表賞受賞) 森岡幹, 俵直弘, 小川哲司, 岩田具治, 小川厚徳, 堀貴明, 小林哲則, "複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル," 日本音響学会研究発表会講演論文集, 1-2-7, pp. 17-20, Sept. 2015.
  53. 小川厚徳, 堀貴明, "Bidirectional RNNを用いた音声認識誤り検出と認識率推定," 日本音響学会研究発表会講演論文集, 1-8-9, pp. 27-28, Sept. 2014.
  54. (招待講演) マーク・デルクロア, 木下慶介, 吉岡拓也, 小川厚徳, 久保陽太郎, 藤本雅清, 伊藤信貴, ミケル・エスピ, 堀貴明, 中谷智広, 中村篤, "残響下音声認識のための音声強調・認識技術:REVERBチャレンジにおけるNTT提案システムについて," 情報処理学会研究報告, Vol. 2014-SLP-102, No. 5, pp. 1-4, July 2014.
  55. 小川厚徳, 木下慶介, 堀貴明, 中谷智広, 中村篤, "事例の構造化表現に基づく事例ベース音声強調の高速化," 日本音響学会研究発表会講演論文集, 2-1-1, pp. 663-666, March 2014.
  56. 堀貴明, 久保陽太郎, 小川厚徳, 荒木章子, 中村篤, "会話シーン分析の複数人自由会話音声認識におけるディープラーニングの効果," 日本音響学会研究発表会講演論文集, 1-8-13, pp. 41-42, Sept. 2013.
  57. 大庭隆伸, 小川厚徳, 堀貴明, 政瀧浩和, 中村篤, "誤り率推定器を用いた識別的言語モデルの教師なし学習, " 日本音響学会研究発表会講演論文集, 1-8-14, pp. 43-44, Sept. 2013.
  58. 小川厚徳, 堀貴明, 中村篤, "識別的認識率推定のNベスト仮説への拡張とNベストリスコアリングへの応用," 日本音響学会研究発表会講演論文集, 2-9-4, pp. 43-46, March 2013.
  59. マーク・デルクロア, 小川厚徳, ソンジュン・ハム, 中谷智広, 中村篤, "dMMI識別基準による教師なし動的分散適応," 日本音響学会研究発表会講演論文集, 1-Q-38b, pp. 181-182, March 2013.
  60. 山畠祥子, 山口義和, 小川厚徳, 政瀧浩和, 吉岡理, 高橋敏, "文脈類似度と認識信頼度に基づく音声認識辞書の自動語彙適応," 信学技報, SP2012-85, Dec. 2012.
  61. 小川厚徳, 堀貴明, 中村篤, "単語アライメントネットワークと識別的誤りタイプ分類による認識精度推定," 日本音響学会研究発表会講演論文集, 2-1-5, pp. 67-68, Sept. 2012.
  62. 堀貴明, 小川厚徳, 藤本雅清, 大庭隆伸, 久保陽太郎, ソンジュン・ハム, 荒木章子, メレズ・ソウデン, マーク・デルクロア, 吉岡拓也, 木下慶介, 中谷智広, 中村篤, "会話分析タスクにおける複数人自由会話音声認識の改善," 日本音響学会研究発表会講演論文集, 1-1-19, pp. 55-56, Sept. 2012.
  63. マーク・デルクロア, 小川厚徳, 中谷智広, 中村篤, "dMMI識別基準による教師なし動的分散適応," 日本音響学会研究発表会講演論文集, 3-P-6, pp. 131-132, Sept. 2012.
  64. Seong-Jun Hahm, Atsunori Ogawa, Masakiyo Fujimoto, Takaaki Hori, and Atsushi Nakamura, "Feature space variational Bayesian linear regression," 日本音響学会研究発表会講演論文集, 3-P-11, pp. 143-146, Sept. 2012.
  65. 小川厚徳, 堀貴明, 中村篤, "単語コンフュージョンネットワークから得られるアライメント特徴量を用いた誤りタイプ分類と認識精度推定," 日本音響学会研究発表会講演論文集, 3-P-3, pp. 217-218, March 2012.
  66. マーク・デルクロア, 小川厚徳, 渡部晋治, 中谷智広, 中村篤, "dMMI基準による特徴量変換の識別学習," 日本音響学会研究発表会講演論文集, 1-P-2, pp. 121-122, March 2012.
  67. Seong-Jun Hahm, Shinji Watanabe, Masakiyo Fujimoto, Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Feature and model space adaptation based on prior distribution sharing," 日本音響学会研究発表会講演論文集, 2-7-5, pp. 57-60, March 2012.
  68. 堀貴明, 荒木章子, 小川厚徳, メレズ・ソウデン, マーク・デルクロア, 吉岡拓也, 大庭隆伸, 藤本雅清, 木下慶介, 久保陽太郎, ソンジュン・ハム, 渡部晋治, 中谷智広, 中村篤, "会話分析タスクにおける複数人自由会話の遠隔発話音声認識の評価," 日本音響学会研究発表会講演論文集, 3-P-5, pp. 223-224, March 2012.
  69. マーク・デルクロア, 木下慶介, 中谷智広, 荒木章子, 小川厚徳, 堀貴明, 渡部晋治, 藤本雅清, 吉岡拓也, 大庭隆伸, 久保陽太郎, メレズ・ソウデン, ソンジュン・ハム, 中村篤, "非定常雑音に頑健な統合的音声認識アプローチ -静的・動的モデル適応とシステムコンビネーションに基づく音声強調・認識の統合-," 日本音響学会研究発表会講演論文集, 1-10-9, pp. 25-28, Sept. 2011.
  70. 小橋川哲, 浅見太一, 山口義和, 阪内澄宇, 小川厚徳, 政瀧浩和, 高橋敏, 河原達也, "衆議院会議録作成における音声認識システム -事前音響処理-," 日本音響学会研究発表会講演論文集, 3-5-9, pp. 91-94, March. 2011.
  71. 小川厚徳, 中村篤, "同時推定した誤り原因確率の周辺化に基づく信頼度," 日本音響学会研究発表会講演論文集, 1-Q-19, pp. 157-160, Sept. 2010.
  72. 堀貴明, 荒木章子, 吉岡拓也, 大庭隆伸, 藤本雅清, 渡部晋治, 小川厚徳, 大塚和弘, 三上弾, 木下慶介, 中谷智弘, 中村篤, 大和淳司, "いつ誰が何を話したかを即座に認識するオンライン会話分析システム -(1) コンセプトとデザイン-," 日本音響学会研究発表会講演論文集, 2-9-6, pp. 49-52, Sept. 2010.
  73. 大庭隆伸, 渡部晋治, 藤本雅清, 小川厚徳, 堀貴明, 中村篤, "いつ誰が何を話したかを即座に認識するオンライン会話分析システム -(3) 音声認識・イベント検出・トピック抽出-," 日本音響学会研究発表会講演論文集, 2-9-8, pp. 57-60, Sept. 2010.
  74. 小川厚徳, 中村篤, "信頼度と誤り原因の推定における識別モデルの検討," 日本音響学会研究発表会講演論文集, 1-Q-6, pp. 161-164, March 2010.
  75. 小川厚徳, 中村篤, "最大エントロピーモデルに基づく信頼度と誤認識原因の同時推定," 日本音響学会研究発表会講演論文集, 2-5-17, pp. 89-92, March 2009.
  76. 小橋川哲, 小川厚徳, 山口義和, 高橋敏, "音素環境独立モデルに基づく高速教師なし適応の検討," 日本音響学会研究発表会講演論文集, 1-P-30, pp. 195-196, March 2009.
  77. 堀貴明, 須藤克仁, 大庭隆伸, 渡部晋治, 小川厚徳, 渡辺太郎, エリック・マクダーモット, 塚田元, 中村篤, "「世界メディアブラウザ」-音声認識と統計翻訳に基づく多言語動画コンテンツ検索/閲覧システム," 日本音響学会研究発表会講演論文集, 1-1-17, pp. 41-44, Sept. 2008.
  78. 小川厚徳, 高橋敏, "状態尤度近似とバッチ状態尤度計算の組み合わせによる音響尤度計算の高速化," 日本音響学会研究発表会講演論文集, 2-10-10, pp. 89-90, March 2008.
  79. 小橋川哲, 小川厚徳, 政瀧浩和, 高橋敏, "キーワードに関する十分統計量増強による精度向上の検討," 日本音響学会研究発表会講演論文集, 1-Q-23, pp. 213-214, March 2008.
  80. 小川厚徳, 高橋敏, "分布共有と状態尤度近似の組み合わせによる音響尤度計算の高速化," 日本音響学会研究発表会講演論文集, 2-9-4, pp. 43-44, March 2007.
  81. (日本音響学会第16回ポスター賞受賞) 小川厚徳, 毛呂良寛, 高橋敏, "ケプストラム正規化法とその実行単位に関する検討," 日本音響学会研究発表会講演論文集, 1-P-9, pp. 161-162, March 2006.
  82. 小橋川哲, 山口義和, 小川厚徳, 高橋敏, "HMM合成とCMNに基づく事前雑音適応による音声認識," 日本音響学会研究発表会講演論文集, 3-1-13, pp. 133--134, March 2006.
  83. 小川厚徳, 今村明弘, 外海実, 中村誠, 磯部俊洋, 菅原昌平, "日英シームレス音声認識の航空路管制音声への適用," 日本音響学会研究発表会講演論文集, 3-1-7, pp. 123-124, Sept. 2004.
  84. 小川厚徳, 山口義和, 高橋敏, "混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削減," 日本音響学会研究発表会講演論文集, 2-1-23, pp. 81-82, Sept. 2004.
  85. 小川厚徳, 今村明弘, 外海実, 中村誠, 磯部俊洋, 菅原昌平, "日英シームレス音声認識技術による航空管制音声認識," 情報処理学会研究報告, Vol. 2004-SLP-52, No. 74, pp. 115-122, July 2004.
  86. (日本音響学会第12回ポスター賞受賞) 甘粕哲郎, 山本俊一郎, 小川厚徳, 篠崎翼, 平沢純一, 山口義和, "サイバーアテンダント-自由発話入力に対応したマルチモーダル対話システム-," 日本音響学会研究発表会講演論文集, 3-Q-32, pp. 207-208, March 2004.
  87. 松永昭一, 小川厚徳, "日本人英語音声認識における発話者英語能力別の効果," FIT (Forum on Information Technology) 2003, 第2回情報科学技術フォーラム, F-023, pp. 253-254, Sept. 2003.
  88. 松永昭一, 小川厚徳, 山口義和, 今村明弘, "日本人英語音声認識における話者適応の検討," 電子情報通信学会, 総合大会, D-14-15, p.182, March 2003.
  89. 松永昭一, 小川厚徳, 山口義和, 今村明弘, "日本人及び母国語話者英語文音声における認識手法の比較," 日本音響学会研究発表会講演論文集, 3-Q-22, pp. 197-198, Sept. 2002.
  90. (日本音響学会第9回ポスター賞受賞) 小川厚徳, 山口義和, 松永昭一, "小学生音声データのクラスタリングによる子供音声認識の検討," 日本音響学会研究発表会講演論文集, 3-Q-15, pp. 183-184, Sept. 2002.
  91. 小川厚徳, 山口義和, 松永昭一, "小学生音声データの構築とそれを用いた子供音声認識の一検討," 信学技報, SP2002-36, pp. 1-6, June 2002.
  92. 小川厚徳, 山口義和, 吉岡理, 松永昭一, "小学生音声データベースの構築と評価," 日本音響学会研究発表会講演論文集, 2-5-10, pp. 93-94, March 2002.
  93. 大附克年, 小川厚徳, 堀貴明, 中川聡, 山口義和, 野田喜昭, 松永昭一, "時間非同期ビーム探索に基づく第二パス探索を用いた連続音声認識," 情報処理学会研究報告, Vol.2000, No.54, 2000-SLP-31, p.84, June 2000.
  94. 小川厚徳, 野田喜昭, 松永昭一, "マルチパス探索における第2パス探索法," 情報処理学会研究報告, Vol.2000, No. 15 (1999-SLP-030), pp. 51-56, Feb. 2000.
  95. 小川厚徳, 野田喜昭, 松永昭一, "マルチパス探索における第2パス探索法の検討," 日本音響学会研究発表会講演論文集, 2-1-3, pp. 59-60, Sept.-Oct. 1999.
  96. 野田喜昭, 山口義和, 大附克年, 小川厚徳, 中川聡, 今村明弘, "音声認識エンジンVoiceRexの開発," 日本音響学会研究発表会講演論文集, 2-1-19, pp. 91-92, Sept.-Oct. 1999.
  97. 山口義和, 中川聡, 大附克年, 野田喜昭, 小川厚徳, 松永昭一, "音声認識エンジンVoiceRexによるニュース放送音声認識," 日本音響学会研究発表会講演論文集, 2-1-20, pp. 93-94, Sept.-Oct. 1999.
  98. 小川厚徳, 武田一哉, 板倉文忠, "連続音声認識結果からの言語エントロピーの推定," 信学技報, Vol. 98, No. 106, SP98-31, pp. 61-66, June 1998.
  99. 寺島志郎, 小川厚徳, 武田一哉, 板倉文忠, "単語クラスタリングに基づく言語モデル," 信学技報, Vol. 98, No. 81, EA98-10, pp. 37-42, May 1998.
  100. 小川厚徳, 武田一哉, 板倉文忠, "Word Insertion Penaltyによる言語確率の補正," 日本音響学会研究発表会講演論文集, 1-6-9, pp. 17-18, March 1998.
  101. 小川厚徳, 武田一哉, 板倉文忠, "一般化ベルヌーイ試行に基づく言語モデル," 平成9年度 電気関係学会 東海支部連合大会 講演論文集, 470, p. 235, Sept. 1997.
  102. 小川厚徳, 武田一哉, 板倉文忠, "一般化ベルヌーイ試行に基づく言語モデル," 日本音響学会研究発表会講演論文集, 2-1-1, pp. 49-50, Sept. 1997.
  103. 小川厚徳, 武田一哉, 板倉文忠, "文長を考慮した言語モデルの検討," 情報処理学会研究報告, Vol. 1997, No. 52, 1997-SLP-016, pp. 25-30, May 1997.
  104. 小川厚徳, 武田一哉, 板倉文忠, "文長を考慮した言語モデルの検討," 平成8年度 電気関係学会東海支部連合大会講演論文集, 483, p. 242, Oct. 1996.
  105. 小川厚徳, 武田一哉, 板倉文忠, "文長を考慮した言語モデルの検討," 日本音響学会研究発表会講演論文集, 1-3-20, pp. 39-40, Sept. 1996.

Articles

  1. Atsunori Ogawa, Xiaomeng Wu, Masaaki Nishino, Mathieu Blondel, and Takemi Mochida, "Event Report: NTT Communication Science Laboratories Open House 2019," NTT Technical Review, Vol. 17, No. 11, pp. 52-57, Nov. 2019.
  2. 小川厚徳, 武小萌, 西野正彬, Mathieu Blondel, 持田岳美, "「NTTコミュニケーション科学基礎研究所オープンハウス2019」開催報告," NTT技術ジャーナル, Vol. 31, No. 9, pp. 44-47, Sept. 2019.
  3. Marc Delcroix, Katerina Zmolikova, Keisuke Kinoshita, Shoko Araki, Atsunori Ogawa, and Tomohiro Nakatani, "SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics," NTT Technical Review, Vol. 16, No. 11, pp. 19-24, Nov. 2018.
  4. Marc Delcroix, Katerina Zmolikova, 木下慶介, 荒木章子, 小川厚徳, 中谷智広, "SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ - 深層学習に基づく音声の選択的聴取," NTT技術ジャーナル, Vol. 30, No. 9, pp. 12-15, Sept. 2018.
  5. Yotaro Kubo, Atsunori Ogawa, Takaaki Hori, and Atsushi Nakamura, "Speech Recognition Based on Unified Model of Acoustic and Language Aspects of Speech," NTT Technical Review, Vol. 11, No. 12, pp. 1-6, Dec. 2013.
  6. 堀貴明, 荒木章子, 久保陽太郎, 小川厚徳, 大庭隆伸, 中村篤, "複数人会話音声認識技術の最前線~みんなの会話を聞き取るコンピュータを目指して~," 日経エレクトロニクス, pp. 71-81, Oct. 2013.
  7. 久保陽太郎, 小川厚徳, 堀貴明, 中村篤, "音声と言語の一体型学習に基づく音声認識技術," NTT技術ジャーナル, Vol. 25, No. 9, pp. 22-25, Sept. 2013.
  8. 堂坂浩二, 向井良, 小川厚徳, 廣谷定男, 藤野昭典, "「NTT CS研オープンハウス×未来想論2009」開催報告," NTT技術ジャーナル, Vol. 21, No. 10, pp. 58-60, Oct. 2009.
  9. Hirokazu Masataki, Daisuke Shibata, Yuichi Nakazawa, Satoshi Kobashikawa, Atsunori Ogawa, and Katsutoshi Ohtsuki, "VoiceRex - Spontaneous Speech Recognition Technology for Contact-center Conversations," NTT Technical Review, Vol. 5, No. 1, pp. 22-27, Jan. 2007.
  10. Atsunori Ogawa and Satoshi Takahashi, "Children's Speech Recognition Based on Clustering Techniques," NTT Technical Review, Vol.3, No.12, pp. 75-81, Dec. 2005.
  11. 政瀧浩和, 柴田大輔, 中澤裕一, 小橋川哲, 小川厚徳, 大附克年, "顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」," NTT技術ジャーナル, Vol.18, No.11, pp. 15-18, Nov. 2006.

Patents (Granted Only)

  1. 平尾務, 小川厚徳, 中谷智広, 永田昌明, 日本電信電話株式会社, "要約生成装置、方法、プログラム、及び記憶媒体," 特許第7028198 号 (P7028198), 令和4年2月21日 (2022.2.21).
  2. マーク・デルクロア, 小川厚徳, 中谷智広, ミヒャエル・ヘンチェル, 日本電信電話株式会社, "言語モデルを利用する装置、方法及びプログラム," 特許第6973192号 (P6973192), 令和3年11月8日 (2021.11.8).
  3. 小川厚徳, マーク・デルクロア, 苅田成樹, 中谷智広, 日本電信電話株式会社, "判定装置、判定方法及び判定プログラム," 特許第6911785号 (P6911785), 令和3年7月12日 (2021.7.12).
  4. 小川厚徳, マーク・デルクロア, 苅田成樹, 中谷智広, 日本電信電話株式会社, "学習装置、学習方法及び学習プログラム," 特許第6849621号 (P6849621), 令和3年3月8日 (2021.3.8).
  5. 苅田成樹, 小川厚徳, マーク・デルクロア, 中谷智広, 日本電信電話株式会社, "学習装置、学習方法及び学習プログラム," 特許第6831343号 (P6831343), 令和3年2月1日 (2021.2.1).
  6. 苅田成樹, 小川厚徳, マーク・デルクロア, 中谷智広, 日本電信電話株式会社, "音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム," 特許第6772115号 (P6772115), 令和2年10月2日 (2020.10.2).
  7. 小川厚徳, 木下慶介, マーク・デルクロア, 中谷智広, 日本電信電話株式会社, "信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム," 特許第6734233号 (P6734233), 令和2年7月13日 (2020.7.13).
  8. 岩田具治, 小川厚徳, 小林哲則, 小川哲司, 森岡幹, 日本電信電話株式会社, 学校法人早稲田大学, "予測装置、予測方法および予測プログラム," 特許第6928346号 (P6928346), 令和3年8月11日 (2021.8.11).
  9. マーク・デルクロア, 木下慶介, 小川厚徳, 樋口卓哉, 中谷智広, 日本電信電話株式会社, "マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法," 特許第6764028号 (P6764028), 令和2年9月14日 (2020.9.14).
  10. 木下慶介, 中谷智広, 小川厚徳, マーク・デルクロア, 樋口卓哉, 日本電信電話株式会社, "信号処理装置、信号処理方法及び信号処理プログラム," 特許第6673861号 (P6673861), 令和2年3月9日 (2020.3.9).
  11. マーク・デルクロア, 木下慶介, 小川厚徳, 浅見太一, 中谷智広, 日本電信電話株式会社, "音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム," 特許第6612796号 (P6612796), 令和1年11月8日 (2019.11.8).
  12. デュング・トラン, マーク・デルクロア, 小川厚徳, 中谷智広, 日本電信電話株式会社, "音声データ処理装置、音声データ処理方法および音声データ処理プログラム," 特許第6646337号 (P6646337), 令和2年1月15日 (2020.1.15).
  13. 小川厚徳, 中谷智広, 日本電信電話株式会社, "音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム," 特許第6473112号 (P6473112), 平成31年2月1日 (2019.2.1).
  14. 岩田具治, 小川厚徳, 小林哲則, 小川哲司, 森岡幹, 川崎真未, 日本電信電話株式会社, "単語予測装置、プログラム," 特許第6588874号 (P6588874), 令和1年9月20日 (2019.9.20).
  15. マーク・デルクロア, 木下慶介, 小川厚徳, 吉岡拓也, 中谷智広, 日本電信電話株式会社, "音響モデル学習装置、音響モデル学習方法及びプログラム," 特許第6637078号 (P6637078), 令和1年12月27日 (2019.12.27).
  16. 小川厚徳, 木下慶介, マーク・デルクロア, 吉岡拓也, 中谷智広, 日本電信電話株式会社, "信号処理方法、信号処理装置及び信号処理プログラム," 特許第6499095号 (P6499095), 平成31年3月22日 (2019.3.22).
  17. 小川厚徳, マーク・デルクロア, 吉岡拓也, 中谷智広, 日本電信電話株式会社, "特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム," 特許第6401126号 (P6401126), 平成30年9月14日 (2018.9.14).
  18. 木下慶介, マーク・デルクロア, 小川厚徳, 中谷智広, 日本電信電話株式会社, "音声強調装置、音声強調方法及び音声強調プログラム," 特許第6367773号 (P6367773), 平成30年7月13日 (2018.7.13).
  19. 小川厚徳, 木下慶介, 堀貴明, 中谷智広, 中村篤, 日本電信電話株式会社, "信号処理装置、方法及びプログラム," 特許第6139430号 (P6139430), 平成29年5月12日 (2017.5.12).
  20. 小川厚徳, 木下慶介, 堀貴明, 中谷智広, 中村篤, 日本電信電話株式会社, "信号処理装置、方法及びプログラム," 特許第6139429号 (P6139429), 平成29年5月12日 (2017.5.12).
  21. 小川厚徳, 堀貴明, 中村篤, 日本電信電話株式会社, "学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム," 特許第5980142号 (P5980142), 平成28年8月5日 (2016.8.5).
  22. マーク・デルクロア, 小川厚徳, ソンジュン・ハム, 中谷智広, 中村篤, 日本電信電話株式会社, "音響モデル補正パラメータ推定装置、その方法及びプログラム," 特許第6121187号 (P6121187), 平成29年4月7日 (2017.4.7).
  23. 青山一生, 小川厚徳, 堀貴明, 中村篤, 日本電信電話株式会社, "時系列データ探索方法、装置、及びプログラム," 特許第5851378号 (P5851378), 平成27年12月11日 (2015.12.11).
  24. 小川厚徳, 堀貴明, 中村篤, 日本電信電話株式会社, "識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム," 特許第5740368号 (P5740368), 平成27年5月1日 (2015.5.1).
  25. ソンジュン・ハム, 小川厚徳, 藤本雅清, 堀貴明, 中村篤, 日本電信電話株式会社, "事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム," 特許第5647159号 (P5647159), 平成26年11月14日 (2014.11.14).
  26. マーク・デルクロア, 小川厚徳, 中谷智広, 中村篤, 日本電信電話株式会社, "特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム," 特許第5738216号 (P5738216), 平成27年5月1日 (2015.5.1).
  27. マーク・デルクロア, 小川厚徳, 中谷智広, 中村篤, 日本電信電話株式会社, "分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム," 特許第5694976号 (P5694976), 平成27年2月13日 (2015.2.13).
  28. 小川厚徳, 堀貴明, 中村篤, 日本電信電話株式会社, "識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム," 特許第5679346号 (P5679346), 平成27年1月16日 (2015.1.16).
  29. 小川厚徳, 堀貴明, 中村篤, 日本電信電話株式会社, "音声認識精度推定装置、音声認識精度推定方法、プログラム," 特許第5679345号 (P5679345), 平成27年1月16日 (2015.1.16).
  30. 小橋川哲, 山口義和, 堀貴明, 浅見太一, 小川厚徳, 吉岡理, 政瀧浩和, 高橋敏, 日本電信電話株式会社, "音声認識方法とその装置とプログラム," 特許第5538350号 (P5538350), 平成26年5月9日 (2014.5.9).
  31. 小橋川哲, 小川厚徳, 浅見太一, 山口義和, 政瀧浩和, 高橋敏, 日本電信電話株式会社, "音響モデル作成方法とその装置とプログラム," 特許第5369079号 (P5369079), 平成25年9月20日 (2013.9.20).
  32. 小橋川哲, 小川厚徳, 浅見太一, 山口義和, 政瀧浩和, 高橋敏, 日本電信電話株式会社, "音響モデル作成装置、音響モデル作成方法、及びそのプログラム," 特許第5411837号 (P5411837), 平成25年11月15日 (2013.11.15).
  33. 小川厚徳, 中村篤, 日本電信電話株式会社, "音声認識装置とその方法とプログラム," 特許第5400727号 (P5400727), 平成25年11月1日 (2013.11.1).
  34. 小橋川哲, 高橋敏, 小川厚徳, 政瀧浩和, 日本電信電話株式会社, "音声認識装置、音声認識方法、およびそのプログラム," 特許第5200080号 (P5200080), 平成25年2月15日 (2013.2.15).
  35. 小川厚徳, 中村篤, 日本電信電話株式会社, "音声認識装置とその方法と、プログラム," 特許第4939560号 (P4939560), 平成24年3月2日 (2012.3.2).
  36. 小川厚徳, 高橋敏, 日本電信電話株式会社, "音声認識装置、方法、プログラム及びその記録媒体," 特許第4801108号 (P4801108), 平成23年8月12日 (2011.8.12).
  37. 小川厚徳, 高橋敏, 日本電信電話株式会社, "音声認識装置、方法、プログラム及びその記録媒体," 特許第4801107号 (P4801107), 平成23年8月12日 (2011.8.12).
  38. 小橋川哲, 小川厚徳, 日本電信電話株式会社, "音響モデル生成装置、方法、プログラム及びその記録媒体," 特許第5006768号 (P5006768), 平成24年6月1日 (2012.6.1).
  39. 小川厚徳, 高橋敏, 日本電信電話株式会社, "分布共有化音響モデル作成方法、装置、およびそのプログラム," 特許第4809821号 (P4809821), 平成23年8月26日 (2011.8.26).
  40. 小橋川哲, 小川厚徳, 日本電信電話株式会社, "音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体," 特許第4856526号 (P4856526), 平成23年11月4日 (2011.11.4).
  41. 小川厚徳, 政瀧浩和, 高橋敏, 日本電信電話株式会社, "応対評価装置、その方法、プログラムおよびその記録媒体," 特許第4728868号 (P4728868), 平成23年4月22日 (2011.4.22).
  42. 中澤裕一, 小橋川哲, 小川厚徳, 政瀧浩和, 日本電信電話株式会社, "音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体," 特許第4594885号 (P4594885), 平成22年9月24日 (2010.9.24).
  43. 小橋川哲, 大附克年, 小川厚徳, 政瀧浩和, 日本電信電話株式会社, "音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体," 特許第4571922号 (P4571922), 平成22年8月20日 (2010.8.20).
  44. 小川厚徳, 政瀧浩和, 高橋敏, 日本電信電話株式会社, "音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体," 特許第4571921号 (P4571921), 平成22年8月20日 (2010.8.20).
  45. 小橋川哲, 高橋敏, 小川厚徳, 政瀧浩和, 日本電信電話株式会社, "音声認識装置、音声認識方法、そのプログラムおよびその記録媒体," 特許第4728791号 (P4728791), 平成23年4月22日 (2011.4.22).
  46. 小橋川哲, 高橋敏, 山口義和, 小川厚徳, 日本電信電話株式会社, "音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体," 特許第4464797号 (P4464797), 平成22年2月26日 (2010.2.26).
  47. 小川厚徳, 松永昭一, 今村明弘, 日本電信電話株式会社, "多言語話者適応方法、装置、プログラム," 特許第4163207号 (P4163207), 平成20年8月1日 (2008.8.1).
  48. 小川厚徳, 高橋敏, 日本電信電話株式会社, "音響モデルサイズ自動調整方法、音響モデルサイズ自動調整装置、音響モデルサイズ自動調整プログラム、これを記録した記録媒体," 特許第4313746号 (P4313746), 平成21年5月22日 (2009.5.22).
  49. 小川厚徳, 小橋川哲, 高橋敏, 日本電信電話株式会社, "音響モデル雑音適応化方法およびこの方法を実施する装置," 特許第4510517号 (P4510517), 平成22年5月14日 (2010.5.14).
  50. 小橋川哲, 高橋敏, 山口義和, 小川厚徳, 日本電信電話株式会社, "音声認識方法およびこの方法を実施する装置," 特許第4291728号 (P4291728), 平成21年4月10日 (2009.4.10).
  51. 小川厚徳, 松永昭一, 今村明弘, 日本電信電話株式会社, "多言語音声認識方法、装置、プログラム," 特許第3776391号 (P3776391), 平成18年3月3日 (2006.3.3).
  52. 小川厚徳, 野田喜昭, 松永昭一, 日本電信電話株式会社, "連続音声認識方法," 特許第3559479号 (P3559479), 平成16年5月28日 (2004.5.28).

Awards

社外表彰

  1. 賞の名称: Poster Book Prizes, 受賞題名: "Exploiting end of sentences and speaker alternations in language modeling for multiparty conversations," in Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC), pp. 1263-1267, 2017, 授与団体: Springer
  2. 賞の名称: IEEE ASRU 2015 Best Paper Award Honorable Mention, 受賞題名: "The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi-microphone devices," in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 436-443, 2015, 授与団体: IEEE
  3. 賞の名称: 日本音響学会第16回ポスター賞, 受賞題名: "ケプストラム正規化法とその実行単位に関する検討," 日本音響学会研究発表会講演論文集, 1-P-9, pp. 161-162, March 2006, 授与団体: 日本音響学会
  4. 賞の名称: 日本音響学会第12回ポスター賞, 受賞題名: "サイバーアテンダント-自由発話入力に対応したマルチモーダル対話システム-," 日本音響学会研究発表会講演論文集, 3-Q-32, pp. 207-208, March 2004, 授与団体: 日本音響学会
  5. 賞の名称: 日本音響学会第9回ポスター賞, 受賞題名: "小学生音声データのクラスタリングによる子供音声認識の検討," 日本音響学会研究発表会講演論文集, 3-Q-15, pp. 183-184, Sept. 2002, 授与団体: 日本音響学会
  1. 賞の名称: 日本音響学会第25 回学生優秀発表賞, 受賞題名: "非流暢ラベルを用いた言い淀み整形End-to-End 音声認識," 日本音響学会研究発表会講演論文集, 1-3-5, pp. 889-892, March 2022, 授与団体: 日本音響学会
  2. 賞の名称: 学生ポスター賞, 受賞題名: "RNN言語モデルのためのドメイン属性情報を用いたゼロショット学習," 情報処理学会研究報告, Vol. 2018-SLP-125, No. 13, pp. 1-6, Dec. 2018, 授与団体: 情報処理学会
  3. 賞の名称: 日本音響学会第14回学生優秀発表賞, 受賞題名: "複数人対話のための話者情報を用いたRNN言語モデル," 日本音響学会研究発表会講演論文集, 3-Q-2, pp. 85-88, Sept. 2016, 授与団体: 日本音響学会
  4. 賞の名称: 日本音響学会第12回学生優秀発表賞, 受賞題名: "複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル," 日本音響学会研究発表会講演論文集, 1-2-7, pp. 17-20, Sept. 2015, 授与団体: 日本音響学会

社内(日本電信電話株式会社)表彰

  1. 賞の名称: 先端技術総合研究所所長表彰・研究開発賞, 受賞題名: "聞きたい人の声を選択的に聴取する深層学習技術SpeakerBeamの研究開発", Dec. 2018, 授与団体: 先端技術総合研究所
  2. 賞の名称: コミュニケーション科学基礎研究所所長表彰・研究開発賞, 受賞題名: "状況に応じて入出力関係を制御可能なDNNの考案と音声強調・認識への応用", April 2018, 授与団体: コミュニケーション科学基礎研究所
  3. 賞の名称: 先端技術総合研究所所長表彰・研究開発賞, 受賞題名: "正解文を必要としない音声認識率自動推定技術の考案と実証", Dec. 2016, 授与団体: 先端技術総合研究所
  4. 賞の名称: コミュニケーション科学基礎研究所所長表彰・研究開発賞, 受賞題名: "誤りタイプ分類に基づく音声認識率推定技術の考案と実用性実証", April 2016, 授与団体: コミュニケーション科学基礎研究所
  5. 賞の名称: コミュニケーション科学基礎研究所所長表彰・特別賞, 受賞題名: "公共エリア雑音下音声認識での世界トップ精度達成によるNTT技術ブランド価値向上への貢献", April 2016, 授与団体: コミュニケーション科学基礎研究所
  6. 賞の名称: 先端技術総合研究所所長表彰・研究開発賞, 受賞題名: "深層学習に基づく高度音声認識技術の研究開発", Dec. 2014, 授与団体: 先端技術総合研究所
  7. 賞の名称: コミュニケーション科学基礎研究所所長表彰・奨励賞, 受賞題名: "識別的モデル学習に基づく音声認識の高精度化", April 2011, 授与団体: コミュニケーション科学基礎研究所
  8. 賞の名称: 社長表彰・発明考案表彰, 受賞題名: "高精度話し言葉音声認識技術の研究開発", Oct. 2009, 授与団体: 日本電信電話株式会社
  9. 賞の名称: サイバーコミュニケーション総合研究所所長表彰・研究開発賞, 受賞題名: "議会音声認識技術と議会録作成支援システムの研究開発", Dec. 2008, 授与団体: 先端技術総合研究所

Invited Talks

  1. 小川厚徳, 木下慶介, デルクロア・マーク, 中谷智広, "[招待講演] 事例ベース音声強調の紹介とその改良," 信学技報, Vol. 116, No. 477, SP2016-109, pp. 183-188, March 2017.
  2. 小川厚徳, "機械学習を用いた音声処理," 名古屋大学大学院 情報科学研究科 先端技術公開セミナー, Sept. 2016.
  3. 荒木章子, 木下慶介, 伊藤信貴, 小川厚徳, マーク・デルクロア, 樋口卓哉, 吉岡拓也, ズン・チャン, 中谷智広, "雑音のある環境での複数人会話音声認識," 日本音響学会研究発表会講演論文集, 3-4-5, pp. 1265-1268, Sept. 2016.
  4. Marc Delcroix, Takuya Yoshioka, Atsunori Ogawa, Yotaro Kubo, Masakiyo Fujimoto, Nobutaka Ito, Keisuke Kinoshita, Miquel Espi, Shoko Araki, Takaaki Hori, and Tomohiro Nakatani, "Defeating reverberation: Advanced dereverberation and recognition techniques for hands-free speech recognition," in Proc. IEEE Global Conference on Signal and Information Processing (GlobalSIP), pp. 522-526, 2014.
  5. マーク・デルクロア, 木下慶介, 吉岡拓也, 小川厚徳, 久保陽太郎, 藤本雅清, 伊藤信貴, ミケル・エスピ, 堀貴明, 中谷智広, 中村篤, "残響下音声認識のための音声強調・認識技術:REVERBチャレンジにおけるNTT提案システムについて," 情報処理学会研究報告, Vol. 2014-SLP-102, No. 5, pp. 1-4, July 2014.
  6. Atsunori Ogawa, Takaaki Hori, Atsushi Nakamura, and Takanobu Oba, "Recognition rate estimation based on error type classification and its applications," in Proc. Workshop Errare 2013.

END