豊橋技術科学大学

検索

Search

北岡 教英(きたおか のりひで)

所属 情報・知能工学系
職名 教授
専門分野 音声情報処理
学位 博士(工学)(豊橋技術科学大学)
所属学会 IEEE, ISCA, APSIPA, 電子情報通信学会、情報処理学会、日本音響学会、人工知能学会、言語処理学会
E-mail kitaoka
※アドレスの末尾に「tut.jp」を補完してください
研究室web http://www.slp.cs.tut.ac.jp
研究者情報(researchmap) 研究者情報

研究紹介

ほぼすべての人が、音声対話を用いています。音声対話は人にとって最も自然なコミュニケーション手段といえるでしょう。もしコンピュータで音声を認識し、理解し、合成できたなら、コミュニケーションツールとしてのみでなく、データ蓄積手段としても非常に有効です。私は、音声言語技術について研究しています。

テーマ1:音声認識

概要

講義音声の書き起こしや、スマートフォンの操作など、音声認識は非常に有望な研究領域です。我々は、HMMやDNNを用いた人の声のモデル(音響モデル)の改良による音声認識性能の改善を行っています。また、統計的言語モデルの改良も行っています。

主な業績

Norihide Kitaoka, Daisuke Enami, Seiichi Nakagawa, "Effect of acoustic and linguistic contexts on human and machine speech recognition," Computer Speech and Language, Vol. 28, pp. 769-787, Feb., 2014.
Arata Itoh, Sunao Hara, Norihide Kitaoka, Kazuya Takeda, "Acoustic model training using pseudo-speaker feature generated by MLLR transofrmaions for robust speech recognition," IEICE Trans. Inf. & Syst., vol. E95-D, No. 10, pp. 2479-2485, Oct., 2012.

キーワード

音声認識,音響モデル,言語モデル

テーマ2:フレンドリーな音声対話インタフェース

概要

はじめて音声対話を使う人にとって、システムは不自然に感じられます。それは人の発話とシステムの発話の「間」が長すぎ、システムはホントに動いてるの?と思わせてしまうからです。こうして、システムの使い心地は低下します。そこで、対話の中でのタイミングや声の高さの変化に注目します。我々の音声対話システムは、相手の発話を考慮して話します。人が話すとき、相手と声の高さを合わせますよね?
一方で、意味的な内容も考えて対話をします。こうして、頑健でかつ自然な応答をする対話システムを構築しています。

主な業績

Norihide Kitaoka, Yuji Kinoshita, Sunao Hara, Chiyomi Miyajima, Kazuya Takeda, "A graph-based spoken dialog strategy utilizing multiple understanding hypotheses," Transactions of the Japanese Society for Artificial Intelligence, Vol.29, No.1, Jan, 2014
原 直, 北岡教英, 武田一哉, "音声対話システムの発話・動作タグN-gramを用いた課題未達成のオンライン検出," 電子情報通信学会論文誌(D),VolJ96-D, No.1, pp. 81-93, Jan., 2013.
Sunao Hara, Norihide Kitaoka, Kazuya Takeda, "Field data collection of a distributed spoken dialog system for music retrieval and its evaluation," Global Engineering, Science, and Technology society International Transaction on Computer Science and Engineering, vol. 64, no. 1, pp. 33-58, May, 2011.
Norihide Kitaoka, Masashi Takeuchi, Ryota Nishimura, Seiichi Nakagawa, "Response timing detection using prosodic and linguistic information for human-friendly spoken dialog systems," Transactions of the Japanese Society for Artificial Intellignece, Vol.20, No.3 SP-E, pp. 220-228, Mar., 2005.

キーワード

音声対話システム

テーマ3:マルチモーダルインタフェース

概要

音声で対話するとき、人はしばしば、指差しを使ったり、視線で情報を伝えたりします。そうした人対人のインタラクションを、人と機械との間でも実現しようと考えています。
自動運転車を操作することを考えてみましょう。どこへ行きたいのか、どこで曲がりたいのか。これを伝えるのに、声だけでは不自由です。実際に、自動運転車に声とジェスチャや視線を交えて意思を伝えるインタフェースを構築し、走行しています。

主な業績

Norihide Kitaoka, Takuma Nakagawa, Ryota Nishimura, Yoshio Ishiguro, Shin’ichi Kojima, Shin Ohsuga, “A multimodal control system for autonomous vehicles using speech, gesture, and gaze recognition,” DSP in Vehicles 2018, 2018.
Takuma Nakagawa, Norihide Kitaoka, "Multimodal control system for autonomous vehicles using speec and gesture recognition," 5th ASA/ASJ Joint Meeting, Nov., 2016.

キーワード

マルチモーダルインタフェース,自動運転車

担当授業科目名(科目コード)

プログラミング演習Ⅱ
データ構造基礎論
形式言語論
音声言語処理論


ページの先頭へ戻る