![豊橋技術科学大学](/seeds/content/img/icon/icon-tut.png)
概要
雑音環境下において、基本周波数と位相歪み特徴量を用いた位相復元手法により背景雑音を除去し,音声のみを強調する音声処理手法です。
従来の位相復元手法と比較し、本手法は客観的評価と主観的評価の両方から高品質な音声強調を実現することが確認されました。
![](https://www.tut.ac.jp/seeds/assets_c/2023/07/wakabayashi0707r3_gaiyo-thumb-1123x622-69216.png)
従来技術
従来手法である位相復元手法(STFTPI)は調波位相が満たすべき時間方向の動きに着目した手法です。
高域でビープ音が追加されたような音声が形成され、やや不自然な強調音声となることが指摘されています。
優位性
本技術「位相歪み平滑化手法」は、調波位相の時間方向に加え、周波数方向の制約も考慮した位相復元のための数理モデルです。
より自然な位相の動きを時間周波数領域においてモデル化し、高品質な音声強調を実現します。
特徴
- 近年スマートフォンやタブレット端末を利用することで、どこでも音声通話や音声認識を行うことができるようになりました。様々な環境での使用が想定されることで、背景雑音を取り除き、聞きたい音声のみを強調する音声強調技術の重要性はより一層高まっています。
- これまでの音声強調技術は、時間周波数領域における音声信号の振幅スペクトルのみを処理する手法が中心であり、位相スペクトルは重要でないと見なされてきました。しかし昨今、位相スペクトルが音声品質や明瞭度に重要な役割を果たすことが明らかになってきています。一方、近年提案された位相復元手法では、不自然な強調音声が生成されることが指摘されていました。
- 本技術は、自然な音声強調を実現し、リスニングテストによる音質主観評価及び、音質客観評価(PESQ)、雑音抑制量(NRR)のいずれにおいても、優れた結果が確認されました。
- 雑音下においても、よりクリアな音声を取り出せる技術として、実用化が期待されます。
![wakabayashi0707r3.jpg](https://www.tut.ac.jp/seeds/images/wakabayashi0707r3.jpg)
実用化イメージ、想定される用途
野外や騒音環境下での使用を想定される音声入力デバイスでの音声処理プログラム等
例;
産業用IoT機器/ロボット
音声入力型カーナビ/スマートスピーカー
実用化に向けた課題
本技術は、基本周波数推定と位相復元の二つのモジュールが必要であるため、計算量削減のためのアプローチとして、一つのモジュールで位相復元可能にする必要があります。
深層学習との併用などが考えられます。
研究者紹介
若林 佑幸 (わかばやし ゆうこう)
豊橋技術科学大学 情報・知能工学 助教
researchmap
研究者からのメッセージ(企業等への提案)
音響信号処理に関する様々な技術開発・研究を推進してきました。昨今の情報化社会において必要不可欠な技術と認識しております。
本技術に御興味をお持ちの企業の技術相談をお受けします。また、共同研究等の御検討の際には御連絡ください。
知的財産等
掲載日:2023年07月11日
最終更新日:2023年07月12日