
北岡 教英(きたおか のりひで)
| 所属 | 情報・知能工学系 |
|---|---|
| 職名 | 教授 |
| 専門分野 | 音声情報処理 |
| 学位 | 博士(工学)(豊橋技術科学大学) |
| 所属学会 | IEEE, ISCA, APSIPA, 電子情報通信学会、情報処理学会、日本音響学会、人工知能学会、言語処理学会 |
| kitaoka ※アドレスの末尾に「tut.jp」を補完してください |
|
| 研究室web | http://www.slp.cs.tut.ac.jp |
| 研究者情報(researchmap) | 研究者情報 |
研究紹介
ほぼすべての人が、音声対話を用いています。音声対話は人にとって最も自然なコミュニケーション手段といえるでしょう。もしコンピュータで音声を認識し、理解し、合成できたなら、コミュニケーションツールとしてのみでなく、データ蓄積手段としても非常に有効です。私は、音声言語技術について研究しています。
テーマ1:音声認識
概要
講義音声の書き起こしや、スマートフォンの操作など、音声認識は非常に有望な研究領域です。我々は、深層学習モデルを用いた人の声のモデルの改良による音声認識性能の改善を行っています。
主な業績
Takahiro Kinouchi, Atsunori Ogawa, Yukoh Wakabayashi, Kengo Ohta, Norihide Kitaoka, “Domain adaptation using non-parallel target domain corpus for self-supervised learning-based automatic speech recognition,” SPEECH COMMUNICATION, Vol. 174, 103303, (8 pages) Oct., 2025.
Daiki Mori, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka, “Recognition of target domain Japanese speech using language model replacement,” EURASIP Journal on Audio, Speech and Music Processing, Article number: 40 (2024), 14 pages, 2024. (DOI: 10.1186/s13636-024-00360-8)
キーワード
テーマ2:フレンドリーな音声対話インタフェース
概要
はじめて音声対話を使う人にとって、システムは不自然に感じられます。それは人の発話とシステムの発話の「間」が長すぎ、システムはホントに動いてるの?と思わせてしまうからです。こうして、システムの使い心地は低下します。そこで、対話の中でのタイミングや声の高さの変化に注目します。我々の音声対話システムは、相手の発話を考慮して話します。人が話すとき、相手と声の高さを合わせますよね?
一方で、意味的な内容も考えて対話をします。こうして、頑健でかつ自然な応答をする対話システムを構築しています。
主な業績
Kazuya Tsubokura, Yurie Iribe, Norihide Kitaoka, “Analysis of the Relationship between User Response to Dialog Breakdown and Personality Traits,” Advanced Robotics, Vol. 37, Issue 21, pp.1-10 ,Nov., 2023. (DOI: 10.1080/01691864.2023.2279610)
Norihide Kitaoka, Masashi Takeuchi, Ryota Nishimura, Seiichi Nakagawa, "Response timing detection using prosodic and linguistic information for human-friendly spoken dialog systems," Transactions of the Japanese Society for Artificial Intellignece, Vol.20, No.3 SP-E, pp. 220-228, Mar., 2005.
キーワード
テーマ3:マルチモーダルインタフェース
概要
音声で対話するとき、人はしばしば、指差しを使ったり、視線で情報を伝えたりします。そうした人対人のインタラクションを、人と機械との間でも実現しようと考えています。
自動運転車を操作することを考えてみましょう。どこへ行きたいのか、どこで曲がりたいのか。これを伝えるのに、声だけでは不自由です。実際に、自動運転車に声とジェスチャや視線を交えて意思を伝えるインタフェースを構築し、走行しています。
主な業績
Tamon Mikawa, Yasuhisa Fujii, Yukoh Wakabayashi, Kengo Ohta, Ryota Nishimura, Norihide Kitaoka, “Improving Listening Head Generation Performance Using Speech Representations from Self-Supervised Learning,” Proc. APSIPA ASC 2025, Oct., 2025.
キーワード
担当授業科目名(科目コード)
データ構造基礎論
形式言語論
音声言語処理論
