WO2011080855A1

WO2011080855A1 - 音声信号復元装置および音声信号復元方法

Info

Publication number: WO2011080855A1
Application number: PCT/JP2010/006264
Authority: WO
Inventors: 訓古田; 田崎　裕久
Original assignee: 三菱電機株式会社
Priority date: 2009-12-28
Filing date: 2010-10-22
Publication date: 2011-07-07
Also published as: US8706497B2; JP5535241B2; DE112010005020T5; DE112010005020B4; CN102652336B; JPWO2011080855A1; CN102652336A; US20120209611A1

Abstract

　合成フィルタ１０６が、音声信号符号帳１０５の中から広帯域の音韻信号と音源信号を組み合わせて複数の広帯域音声信号を合成し、歪評価部１０７がサンプリング変換部１０１から出力されるアップサンプリング済狭帯域音声信号との波形歪みが最も小さい広帯域音声信号を選択する。第１の帯域フィルタ１０３がその広帯域音声信号の狭帯域以外の周波数成分を抽出して、帯域合成部１０４がアップサンプリング済狭帯域音声信号に組み合わせる。

Description

音声信号復元装置および音声信号復元方法

　この発明は、周波数帯域が狭帯域に制限されている音声信号から広帯域の音声信号を復元する、および、劣化または欠損した帯域の音声信号を復元する音声信号復元装置およびその方法に関するものである。

　アナログ電話では、電話回線を通じて送られてくる音声信号の周波数帯域が、例えば３００～３４００Ｈｚと狭く帯域制限されている。このため、従来の電話回線の音質はあまり良好とは言えない。また、携帯電話などのデジタル音声通信では、ビットレートの厳しい制限によりアナログ回線と同様に帯域幅が制限されるため、この場合にも音質が良いとは言えない。

　ところで、近年では、音声圧縮技術（音声符号化技術）の進展に伴い、低ビットレートで広帯域（例えば５０～７０００Ｈｚ）の音声信号が無線伝送できるようになっている。しかしながら、送信側端末および受信側端末の双方が、対応する広帯域音声符号化・復号化方法をサポートする必要があるのと、双方の基地局においても広帯域符号化のためのネットワークを完備することが必要なことから、一部の業務通信システムにおいて実用化されているのみであり、公衆電話通信網で実施するには経済的に大きな負担となるばかりでなく、普及するまでに多くの時間を要する。
　そのため、従来のアナログ電話回線通信およびデジタル音声通信の音質の問題は依然解決されていない。

　そこで、上記の問題に対し、受信側で狭帯域信号から擬似的に広帯域信号を生成または復元する方法として、例えば特許文献１，２が開示されている。特許文献１に係る周波数帯域拡張装置では、狭帯域音声信号の自己相関係数を計算して音声の基本周期を抽出し、この基本周期に基づいて広帯域音声信号を得ている。また、特許文献２に係る広帯域音声信号復元装置では、狭帯域音声信号を、合成による分析法に基づく符号化方法により符号化し、その符号化の最終結果として得られた音源信号または音声信号に、ゼロ詰め処理（オーバサンプリング）を行って広帯域音声信号を得ている。

特許第３２４３１７４号（第３頁～５頁、図１）特許第３２３０７９０号（第３頁～４頁、図１）

　従来の音声信号復元装置は以上のように構成されているので、以下に述べる課題があった。

　特許文献１に開示された周波数帯域拡張装置では、狭帯域音声信号の基本周期を抽出する必要がある。音声の基本周期を抽出する手法は各種開示されているものの、正確に音声信号の基本周期を抽出することは困難である。雑音環境下では更に困難である。

　特許文献２に開示された広帯域音声信号復元装置では、音声信号の基本周期を抽出する必要がない利点はある。しかしながら、生成された広帯域音源信号は、狭帯域信号から分析および生成したものであるものの、ゼロ詰め処理（オーバサンプリング）により擬似的に生成していることから折返し歪み成分が混入しているため、広帯域音声信号（とりわけ高域信号）として最適ではなく、音質劣化するという課題がある。

　この発明は、上記のような課題を解決するためになされたもので、高品質に音声信号の復元を行う音声信号復元装置および音声信号復元方法を提供することを目的とする。

　この発明に係る音声信号復元装置は、音韻信号および音源信号を組み合わせて、複数の音声信号を生成する合成フィルタと、合成フィルタが生成する音声信号の周波数帯域の少なくとも一部の周波数帯域の周波数成分を持つ比較対象信号と合成フィルタが生成した複数の音声信号それぞれとの波形歪みを所定の歪み尺度を用いて評価して、当該評価結果に基づいて複数の音声信号のうちのいずれかを選択する歪評価部と、歪評価部が選択した音声信号を用いて復元音声信号を生成する復元音声信号生成部とを備えるものである。

　この発明に係る音声信号復元方法は、音韻信号および音源信号を組み合わせて、複数の音声信号を生成する合成フィルタステップと、合成フィルタステップで生成する音声信号の周波数帯域の少なくとも一部の周波数帯域の周波数成分を持つ比較対象信号と合成フィルタステップで生成した複数の音声信号それぞれとの波形歪みを所定の歪み尺度を用いて評価して、当該評価結果に基づいて複数の音声信号のうちのいずれかを選択する歪評価ステップと、歪評価ステップで選択した音声信号を用いて復元音声信号を生成する復元音声信号生成ステップとを備えるものである。

　この発明によれば、音韻信号および音源信号を組み合わせて複数の音声信号を生成し、比較対象信号との波形歪みを所定の歪み尺度を用いてそれぞれ評価して、当該評価結果に基づいていずれかの音声信号を選択して復元音声信号を生成するようにしたので、例えば帯域制限または雑音抑圧により任意の周波数帯域の周波数成分が欠落した比較対象信号を高品質に復元する音声信号復元装置および音声信号復元方法を提供することができる。

この発明の実施の形態１に係る音声信号復元装置１００の構成を示すブロック図である。この発明の実施の形態１に係る音声信号復元装置１００が生成する音声信号を模式的に示すグラフである。この発明の実施の形態２に係る音声信号復元装置１００の構成を示すブロック図である。この発明の実施の形態３に係る音声信号復元装置２００の構成を示すブロック図である。この発明の実施の形態３に係る音声信号復元装置２００が生成する音声信号を模式的に示すグラフである。この発明の実施の形態５に係る音声信号復元装置２００の歪評価部１０７の歪み評価処理を模式的に示すグラフである。図１に示す復元音声信号生成部１１０の変形例を示すブロック図である。図７に示す復元音声信号生成部１１０が生成する音声信号を模式的に示すグラフである。

　以下、この発明の実施の形態について図面を参照しながら詳細に説明する。
実施の形態１．
　本実施の形態１では、音声通信、音声蓄積または音声認識システムが導入された、カーナビゲーション、携帯電話およびインターフォンなどの音声通信システム、ハンズフリー通話システム、ＴＶ会議システムならびに監視システムなどの音質改善や、音声認識システムの認識率の向上に供されるものであって、電話回線などの伝送路を経由するために周波数帯域が狭帯域に制限されている音声信号から、広帯域の音声信号を生成するための音声信号復元装置を例に説明する。

　図１は本実施の形態１による音声信号復元装置１００の全体構成を示したものである。
図１において、音声信号復元装置１００はサンプリング変換部１０１と、音声信号生成部１０２と、復元音声信号生成部１１０とから構成されている。この音声信号生成部１０２は、音韻信号記憶部１０８および音源信号記憶部１０９を備える音韻・音源信号記憶部１０５と、合成フィルタ１０６と、歪評価部１０７とから構成されている。また、復元音声信号生成部１１０は、第１の帯域フィルタ１０３と、帯域合成部１０４とから構成されている。

　図２は、この実施の形態１の構成で生成される音声信号を模式的に図示したものである。図２（ａ）はサンプリング変換部１０１に入力される狭帯域音声信号（比較対象信号）を表す。図２（ｂ）はサンプリング変換部１０１が出力するアップサンプリング済狭帯域音声信号（サンプリング変換した比較対象信号）を表す。図２（ｃ）は合成フィルタ１０６が生成した複数の広帯域音声信号（音声信号）のうちから歪評価部１０７が選択した、歪みが最小となる広帯域音声信号を表す。図２（ｄ）は第１の帯域フィルタ１０３の出力である、広帯域音声信号から低域成分と高域成分が抽出された信号を表す。図２（ｅ）は音声信号復元装置１００の出力結果である、復元音声信号を表す。また、図２中の各矢印は処理の順序を表し、各グラフの縦軸はパワーを示し、横軸は周波数を示す。

　以下、図１および図２に基づいてこの音声信号復元装置１００の動作原理について説明する。

　まず、不図示のマイクロホンなどを通じて取り込まれた音声および音楽などが、Ａ／Ｄ（アナログ／デジタル）変換された後、所定のサンプリング周波数（例えば、８ｋＨｚ）でサンプリングされると共にフレーム単位（例えば、１０ｍｓ）に分割され、更に帯域制限（例えば、３００～３４００Ｈｚ）された狭帯域音声信号として、本実施の形態１の音声信号復元装置１００へ入力される。なお、本実施の形態１では、最終的に得る広帯域の復元音声信号の周波数帯域を５０～７０００Ｈｚとして説明する。

　サンプリング変換部１０１は、入力された狭帯域音声信号を例えば１６ｋＨｚにアップサンプリングを行い、低域通過フィルタを通して折り返し歪み信号を取り除いた後、アップサンプリング済狭帯域音声信号として出力する。

　音声信号生成部１０２において、合成フィルタ１０６が、音韻信号記憶部１０８に格納している音韻信号と音源信号記憶部１０９に格納している音源信号を用いて複数の広帯域音声信号を生成し、歪評価部１０７がアップサンプリング済狭帯域音声信号との波形歪みを所定の歪み尺度に基づいて計算し、最も歪みが小さくなるような広帯域音声信号を選択して出力する。なお、この音声信号生成部１０２は、例えばＣＥＬＰ（Ｃｏｄｅ－Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ：符号励振線形予測）符号化方式における復号化方法と同様な構成にしてもよく、その場合には、音韻信号記憶部１０８に音韻符号を、音源信号記憶部１０９に音源符号を格納しておく。

　音韻信号記憶部１０８は、音韻信号の他、音韻信号のパワーまたはゲインを併せ持った構成を取り、様々な広帯域音声信号の音韻形状（スペクトルパタン）を表現できるように、大量かつ多種多様の音韻信号をメモリなどの記憶手段に格納しており、後述する歪評価部１０７の指示に応じて音韻信号を合成フィルタ１０６へ出力する。これら音韻信号は、線形予測分析などの公知の手法を用いて、広帯域の音声信号（例えば、５０～７０００Ｈｚの帯域を持つ）から求めることができる。なお、スペクトルパタンについては、スペクトル信号そのもの、または、ＬＳＰ（Ｌｉｎｅ　Ｓｐｅｃｔｒｕｍ　Ｐａｉｒ：線スペクトル対）パラメータおよびケプストラムなどの音響パラメータ形式で表現でき、合成フィルタ１０６のフィルタ係数に適用できるように適宜変換を行っておけばよい。さらに、得られた音韻信号は、メモリ量削減のためにスカラ量子化およびベクトル量子化など公知の手法で圧縮してもよい。

　音源信号記憶部１０９は、音源信号の他、音源信号のパワーまたはゲインを併せ持った構成を取り、音韻信号記憶部１０８と同様に、様々な広帯域音声信号の音源信号形状（パルス列）を表現できるように、大量かつ多種多様の音源信号をメモリなどの記憶手段に格納しており、後述する歪評価部１０７の指示に応じて音源信号を合成フィルタ１０６へ出力する。これら音源信号は、広帯域の音声信号（例えば、５０～７０００Ｈｚの帯域を持つ）と前出の音韻信号とを用い、ＣＥＬＰの手法により学習し求めることができる。また、得られた音源信号は、メモリ量削減のためにスカラ量子化およびベクトル量子化など公知の手法で圧縮しても良いし、マルチパルス化およびＡＣＥＬＰ（Ａｌｇｅｂｒａｉｃ　ＣＥＬＰ：代数符号励振線形予測）方式のように所定のモデルにて音源信号を表現してもよい。また、ＶＳＥＬＰ（Ｖｅｃｔｏｒ　Ｓｕｍ　Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ：ベクトル和励振線形予測）符号化方式のように、過去の音源信号から生成された適応音源符号帳を併せ持つ構造をとることも可能である。

　なお、合成フィルタ１０６は、音韻信号のパワーまたはゲインと、音源信号のパワーまたはゲインをそれぞれ調整した上で合成してもよい。この構成の場合には、１つの音韻信号と１つの音源信号からでも複数の広帯域音声信号を生成できるので、音韻信号記憶部１０８および音源信号記憶部１０９のメモリ量削減が可能となる。

　歪評価部１０７は、合成フィルタ１０６が出力する広帯域音声信号と、サンプリング変換部１０１が出力するアップサンプリング済狭帯域音声信号との波形歪みを評価する。このとき、歪みを評価する周波数帯域（所定の周波数帯域）は、狭帯域音声信号の範囲のみに限定することとし、この例では３００～３４００Ｈｚに限定する。狭帯域音声信号の周波数帯域の範囲で波形歪みの評価を行うには、例えば、広帯域音声信号とアップサンプリング済狭帯域音声信号の両者を、３００～３４００Ｈｚの帯域通過特性を持つＦＩＲ（Ｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ：有限インパルス応答特性）フィルタを用いてフィルタ処理を行ってから、次式に示すような平均波形歪みを用いたり、ユークリッド距離による評価法を用いたりすることができる。

　ここでｓ（ｎ）およびｕ（ｎ）は、それぞれＦＩＲフィルタ処理済の広帯域音声信号、アップサンプリング済狭帯域音声信号、Ｎは音声信号波形のサンプル数（１６０サンプル、１６ｋＨｚサンプリングの場合）である。なお、３００Ｈｚ以下の低域部の復元を行わない場合には、上記のＦＩＲフィルタを用いずに、広帯域音声信号を狭帯域音声信号の周波数（８ｋＨｚ）にダウンサンプリングして、アップサンプリング前の狭帯域音声信号との歪み評価を行ってもよい。なお、歪評価部１０７は、上記ではＦＩＲフィルタを用いてフィルタ処理を行っているが、適切に歪み評価を行うことができるのであれば、例えばＩＩＲ（Ｉｎｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ：無限インパルス応答特性）フィルタを用いても良い。

　歪評価部１０７はまた、時間軸上ではなく周波数軸上での歪評価を行ってもよく、例えば、広帯域音声信号とアップサンプリング済狭帯域音声信号の両者を、ゼロ詰め、窓掛けした後、２５６点のＦＦＴ（Ｆａｓｔ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ：高速フーリエ変換）を用いてスペクトル領域へ変換し、例えば、次式のようにパワースペクトル上での差分の総和を歪みとして評価することも可能である。この場合、時間軸上での評価とは異なり、帯域通過特性を持つフィルタ処理は必要ない。

　ここでＳ（ｆ）およびＵ（ｆ）は、それぞれ広帯域音声信号のパワースペクトル成分、アップサンプリング済狭帯域音声信号のパワースペクトル成分であり、ＦＬおよびＦＨは、それぞれ３００Ｈｚ、３４００Ｈｚに相当するスペクトル成分番号である。

　歪評価部１０７は、逐次、音韻信号記憶部１０８および音源信号記憶部１０９からスペクトルパタンと音源信号の組を出力させる指示を出して合成フィルタ１０６に広帯域音声信号を生成させ、上式（１）または上式（２）により歪みを計算する。そして、歪みが最小となる広帯域音声信号を選択して、第１の帯域フィルタ１０３へ出力する。なお、歪評価部１０７は、ＣＥＬＰ音声符号化方式で通常よく用いられる聴覚重み付け処理を、広帯域音声信号とアップサンプリング済狭帯域音声信号の両者に実施した上で、歪みを計算することも可能である。また、歪評価部１０７は、必ずしも歪みが最小となる広帯域音声信号を選択する必要はなく、歪みが例えば２番目に小さい広帯域音声信号を選択するようにしてもよい。あるいは、歪みの許容範囲を設定してその範囲内の歪みとなった広帯域音声信号を選択するようにして、これ以降の合成フィルタ１０６および歪評価部１０７の処理を行わず、処理回数の削減を図ってもよい。

　第１の帯域フィルタ１０３は、広帯域音声信号から狭帯域音声信号の帯域以外の周波数成分を抽出し、帯域合成部１０４へ出力する。即ち、本実施の形態１では、３００Ｈｚ以下の低域成分と、３４００Ｈｚ以上の高域成分を抽出することとなる。低域成分および高域成分の抽出にはＦＩＲフィルタ、ＩＩＲフィルタなどを用いればよい。音声信号の一般的な特性として、低域部の調波構造は高域部でも同様に出現することが多く、逆に、高域部で調波構造が観察されれば同様に低域部にも出現することが多い。このように、低域―高域間で相互相関が強いことから、第１の帯域フィルタ１０３で抽出された低域成分および高域成分を、狭帯域音声信号との歪みが最小となるように生成された広帯域音声信号から得ることにより、最適な復元音声信号を構成できる。

　帯域合成部１０４は、第１の帯域フィルタ１０３が出力する広帯域音声信号のうちの低域成分および高域成分と、サンプリング変換部１０１が出力するアップサンプリング済狭帯域音声信号とを加算して広帯域音声信号を復元し、復元音声信号として出力する。

　以上より、この実施の形態１によれば、狭帯域に帯域制限された狭帯域音声信号から、狭帯域を包含する広帯域音声信号に変換する音声信号復元装置１００であって、狭帯域音声信号を、広帯域に合うようにサンプリング変換するサンプリング変換部１０１と、音韻・音源信号記憶部１０５が格納している広帯域の周波数成分を持つ音韻信号および音源信号を組み合わせて、広帯域音声信号を複数生成する合成フィルタ１０６と、サンプリング変換部１０１がサンプリング変換したアップサンプリング済狭帯域音声信号と合成フィルタ１０６が生成した複数の広帯域音声信号との波形歪みを所定の歪み尺度を用いてそれぞれ評価して、当該評価結果に基づいて歪みが最も小さくなる広帯域音声信号を選択する歪評価部１０７と、歪評価部１０７が選択した広帯域音声信号から狭帯域以外の周波数成分を抽出する第１の帯域フィルタ１０３と、第１の帯域フィルタ１０３の抽出した周波数成分にサンプリング変換部１０１がサンプリング変換したアップサンプリング済狭帯域音声信号を組み合わせる帯域合成部１０４とを備えるように構成した。このように、音声信号復元に用いる低域成分ならびに高域成分を、狭帯域音声信号の歪みが最小となるように生成された広帯域音声信号から得ているため、高品質な広帯域の音声信号を復元することができる。

　また、この実施の形態１によれば、音声の基本周期を抽出する必要がなく、基本周期の抽出誤りによる品質劣化がないので、音声の基本周期の分析困難な雑音環境下でも、高品質な広帯域の音声信号を復元することができる。

　また、この実施の形態１によれば、音源信号に劣化を及ぼすようなゼロ詰めや全波整流処理などの非線形処理を行わないので、高品質な広帯域の音声信号を復元することができる。

　また、この実施の形態１によれば、音声信号復元に用いる低域成分ならびに高域成分は、狭帯域音声信号の歪みが最小となるように生成された広帯域音声信号から得ており、原理上、狭帯域音声信号と低域成分（または高域成分と狭帯域音声信号）は滑らかに接続可能であり、帯域合成時のパワー補正などの補間処理が必要なく、高品質な広帯域の音声信号を復元できる。

　なお、上記実施の形態１に係る音声信号復元装置１００は、歪評価部１０７における歪み評価結果が非常に小さい場合には、第１の帯域フィルタ１０３と帯域合成部１０４の処理を省略し、歪評価部１０７が出力する広帯域音声信号を、直接、復元音声信号として出力しても良い。

　また、上記実施の形態１では、低域および高域の両方が欠落した狭帯域音声信号に対して、これら低域および高域の両方の周波数成分を復元する構成であったが、これに限定されるものではなく、低域、中域、高域のうち少なくとも１つの周波数帯域が欠落した狭帯域音声信号であっても復元可能であることは言うまでもない。このように、音声信号復元装置１００は、合成フィルタ１０６が生成する広帯域音声信号の周波数帯域の少なくとも一部の周波数帯域を持つ狭帯域音声信号であれば、広帯域音声信号と同じ周波数帯域に復元できる。

実施の形態２．
　上記実施の形態１の変形例として、狭帯域音声信号の分析結果を、広帯域音声信号を生成するための補助情報として用いることも可能である。図３は、本実施の形態２による音声信号復元装置１００の全体構成を示したものであり、図１に示す音声信号復元装置１００に新たに音声分析部１１１を追加した構成である。その他の構成要素に関しては、図１に対応する部分については同一符号を付与し、詳細な説明を省略する。

　音声分析部１１１は、入力された狭帯域音声信号について、線形予測分析などの公知の手法により音響的特徴の分析を行い、狭帯域音声信号の音韻信号と音源信号の抽出を行って、それぞれ音韻信号記憶部１０８と音源信号記憶部１０９へ出力する。このとき、音韻信号としては、例えば補間特性の良いＬＳＰパラメータが望ましいが、他のパラメータでも構わない。また、音源信号に関しては、音声分析部１１１が例えば分析結果である音韻信号をフィルタ係数に持つ逆フィルタを備え、狭帯域音声信号をフィルタ処理して得られた残差信号を音源信号とすることができる。

　音韻・音源信号記憶部１０５では、音声分析部１１１から入力された狭帯域音声信号の音韻信号と音源信号を、音韻信号記憶部１０８と音源信号記憶部１０９の補助情報とする。音韻信号記憶部１０８では、補助情報の用法として、例えば、広帯域音声信号の音韻信号から３００～３４００Ｈｚの部分を除去し、除去した部分に狭帯域音声信号の音韻信号を当てはめることができる。狭帯域音声信号の音韻信号を当てはめることで、狭帯域音声信号に更に近似した広帯域音声信号の音韻信号を得ることが可能である。また、音韻信号記憶部１０８は、狭帯域音声信号の音韻信号と、広帯域音声信号との例えばスペクトル上での歪み評価を行って、歪みが少ない広帯域音声信号の音韻信号のみを合成フィルタ１０６に出力するという予備選択を行うことができる。音韻信号の予備選択を行うことで合成フィルタ１０６と歪評価部１０７の処理回数を削減できる。

　音源信号記憶部１０９では、補助情報の用法として、音韻信号記憶部１０８と同様に例えば狭帯域音声信号の音源信号を広帯域音声信号に加えたり、予備選択の情報として用いたりすることができる。狭帯域音声信号の音源信号を加えることで、狭帯域音声信号に更に近似した広帯域音声信号の音源信号を得ることが可能である。また、音源信号の予備選択を行うことで合成フィルタ１０６と歪評価部１０７の処理回数を削減できる。

　以上より、この実施の形態２によれば、音声信号復元装置１００は、狭帯域に帯域制限された狭帯域音声信号について音響的分析を行って補助情報を生成する音声分析部１１１を備え、合成フィルタ１０６は、音声分析部１１１が生成した補助情報を用いて、音韻・音源信号記憶部１０５が格納している広帯域の周波数成分を持つ複数の音韻信号および複数の音源信号をそれぞれ組み合わせて、広帯域音声信号を複数生成するように構成した。このため、狭帯域音声信号の分析結果を補助情報として用いることで、狭帯域音声信号に更に近似した広帯域音声信号を得ることができ、更に高品質な広帯域の音声信号を復元できる。

　また、この実施の形態２によれば、広帯域音声信号を生成する際、狭帯域音声信号の分析結果を補助情報に用いて音韻信号および音源信号を予備選択できるので、高品質を保ったままで処理量を削減することができる。

　なお、本実施の形態２では、音声分析部１１１の処理が、サンプリング変換部１０１に入力される前に実施されているが、サンプリング変換部１０１の処理後であっても構わない。この場合には、アップサンプリング済狭帯域音声信号の音声分析を行うこととなる。

　また、音声分析部１１１は、入力された狭帯域音声信号について、例えば音声信号と雑音信号の周波数分析を行い、音声信号スペクトルパワーと雑音信号スペクトルパワーの比（信号対雑音比、以下、ＳＮ比と称す）が高い周波数帯域を指定した補助情報を生成するようにしてもよい。この構成の場合、サンプリング変換部１０１は、狭帯域音声信号のうち、この補助情報で指定された周波数帯域（所定の周波数帯域）の周波数成分をサンプリング変換し、歪評価部１０７はアップサンプリング済狭帯域音声信号と複数の広帯域音声信号との歪み評価を、この補助情報で指定された周波数帯域の周波数成分同士で行う。さらに、第１の帯域フィルタ１０３が歪評価部１０７の選択した広帯域音声信号のうち、この補助情報で指定された周波数帯域以外の周波数成分を抽出して、帯域合成部１０４にてこの周波数帯域のアップサンプリング済狭帯域音声信号に合成する。このため、歪評価部１０７が狭帯域音声信号の全周波数帯域ではなく、補助情報で指定された周波数帯域のみで歪み評価することになり、処理量を削減することができる。

実施の形態３．
　上記実施の形態２では、周波数帯域が狭帯域に制限されている音声信号から、広帯域の音声信号を生成するための音声信号復元装置１００を説明したが、本実施の形態２ではこの音声信号復元装置１００を変形して応用することで、雑音抑圧処理や音声圧縮処理などにより劣化または欠損した周波数帯域の音声信号を復元するための、音声信号復元装置２００を構成する。図４は、本実施の形態３による音声信号復元装置２００の全体構成を示したものであり、図１に示す音声信号復元装置１００に新たに雑音抑圧部２０１および第２の帯域フィルタ２０２を追加した構成である。その他の構成要素に関しては、図１に対応する部分については同一符号を付与し、詳細な説明を省略する。

　なお、本実施の形態３では、説明の簡略化のため、入力される雑音混入音声信号の周波数帯域を０～４０００Ｈｚとし、混入している雑音に自動車走行騒音を想定し、０～５００Ｈｚの帯域に雑音が混入しているとする。このとき、音声信号生成部１０２内部の音韻・音源信号記憶部１０５、合成フィルタ１０６および歪評価部１０７と、第１の帯域フィルタ１０３と、第２の帯域フィルタ２０２は、０～４０００Ｈｚの周波数帯域に応じた動作を行ったり、音韻信号および音源信号を保持したりすることとなる。なお、実際のシステムに適用するに当たっては、これらの条件に限られないことはいうまでもない。

　図５は、この実施の形態３の構成で生成される音声信号を模式的に図示したものである。図５（ａ）は雑音抑圧部２０１が出力する雑音抑圧済音声信号（比較対象信号）を表す。図５（ｂ）は合成フィルタ１０６が生成した複数の広帯域音声信号（音声信号）のうちから歪評価部１０７が選択した、雑音抑圧済音声信号との歪みが最小となる広帯域音声信号を表す。図５（ｃ）は第１の帯域フィルタ１０３の出力である、広帯域音声信号から低域成分が抽出された信号を表す。図５（ｄ）は第２の帯域フィルタ２０２が出力する、雑音抑圧済音声信号の高域成分を表す。図５（ｅ）は音声信号復元装置２００の出力結果である、復元音声信号を表す。また、図５中の各矢印は処理の順序を表し、各グラフの縦軸はパワーを示し、横軸は周波数を示す。

　以下、図４および図５に基づいてこの音声信号復元装置２００の動作原理について説明する。
　雑音抑圧部２０１は、雑音が混入した雑音混入音声信号を入力して、雑音抑圧した音声信号を歪評価部１０７および第２の帯域フィルタ２０２へ出力する。また、雑音抑圧部２０１は、後段の歪評価部１０７における歪み評価と第１の帯域フィルタ１０３とが用いるための、０～５００Ｈｚの低域と５００～４０００Ｈｚの高域に分離する低域・広域分割周波数を指定した帯域情報信号を出力する。なお、帯域情報信号は本実施の形態３では５００Ｈｚ固定としているが、例えば、入力される雑音混入音声信号の様態、例えば、音声信号と雑音信号の周波数分析を行い、雑音信号スペクトルパワーが音声信号スペクトルパワーを上回る周波数（スペクトル上でのＳＮ比が０ｄＢを交差する周波数）を帯域情報信号としても良い。また、その周波数は入力される雑音混入音声信号およびその雑音の様態に応じて時々刻々変化するので、例えば、１０ｍｓのフレーム毎に変更しても良い。

　ここで、雑音抑圧部２０１における雑音抑圧処理の手法としては、例えば「Ｓｔｅｖｅｎ　Ｆ．Ｂｏｌｌ，“Ｓｕｐｐｒｅｓｓｉｏｎ　ｏｆ　ａｃｏｕｓｔｉｃ　ｎｏｉｓｅ　ｉｎ　ｓｐｅｅｃｈ　ｕｓｉｎｇ　ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ”，ＩＥＥＥ　Ｔｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．ＡＳＳＰ－２７，Ｎｏ．２，Ａｐｒ．１９７９」に開示されているようなスペクトル減算に基づく手法、および「Ｊ．Ｓ．Ｌｉｍ　ａｎｄ　Ａ．Ｖ．Ｏｐｐｅｎｈｅｉｍ，“Ｅｎｈａｎｃｅｍｅｎｔ　ａｎｄ　Ｂａｎｄｗｉｄｔｈ　Ｃｏｍｐｒｅｓｓｉｏｎ　ｏｆ　Ｎｏｉｓｙ　Ｓｐｅｅｃｈ”，Ｐｒｏｃ．ｏｆ　ｔｈｅ　ＩＥＥＥ，ｖｏｌ．６７，ｐｐ．１５８６－１６０４，Ｄｅｃ．１９７９」に開示されているようなスペクトル成分毎のＳＮ比に基づいて、スペクトル成分毎に減衰量を与えるスペクトル振幅抑圧の手法などの公知の方法の他、スペクトル減算とスペクトル振幅抑圧を組み合わせた手法（例えば、特許第３４５４１９０号）などを用いることが可能である。

　上記実施の形態１と同様に、音声信号生成部１０２において、合成フィルタ１０６が、音韻信号記憶部１０８に格納している音韻信号と音源信号記憶部１０９に格納している音源信号を用いて複数の広帯域音声信号を生成し、歪評価部１０７が雑音抑圧された雑音抑圧済音声信号との波形歪みを所定の歪み尺度に基づいて評価し、任意の条件に合う波形歪みの広帯域音声信号を選択して出力する。

　歪評価部１０７は、波形歪みを評価する際に歪みを評価する周波数帯域（所定の周波数帯域）として、帯域情報信号が指定する周波数より高い範囲に限定することとし、この例では５００～４０００Ｈｚに限定する。この範囲で波形歪みの評価を行うには、例えば、上記実施の形態１で用いたのと同様な手法を採る事ができる。歪評価部１０７は、逐次、音韻信号記憶部１０８および音源信号記憶部１０９からスペクトルパタンと音源信号の組を出力させる指示を出して合成フィルタ１０６に広帯域音声信号を複数生成させ、例えば波形歪みが最小となる広帯域音声信号を選択して、第１の帯域フィルタ１０３へ出力する。

　第１の帯域フィルタ１０３は、歪評価部１０７で生成された広帯域音声信号から、帯域情報信号が示す低域・広域分割周波数以下の低域成分を抽出し、帯域合成部１０４へ出力する。第１の帯域フィルタ１０３による低域成分の抽出には、実施の形態１と同様にＦＩＲフィルタ、ＩＩＲフィルタなどを用いればよい。音声信号の一般的な特性として、低域部の調波構造は高域部でも同様に出現することが多く、逆に、高域部で調波構造が観察されれば同様に低域部にも出現することが多い。このように、低域―高域間で相互相関が強いことから、第１の帯域フィルタ１０３で抽出された低域成分を、雑音抑圧済音声信号との歪みが最小となるように生成された広帯域音声信号から得ることにより、最適な復元音声信号を構成できるものと考える。

　第２の帯域フィルタ２０２は、前述の第１の帯域フィルタ１０３と逆の動作を行う。即ち、雑音抑圧済音声信号から、帯域情報信号が示す低域・広域分割周波数以上の高域成分を抽出し、帯域合成部１０４へ出力する。第２の帯域フィルタ２０２による高域成分の抽出には、第１の帯域フィルタ１０３と同様にＦＩＲフィルタ、ＩＩＲフィルタなどを用いればよい。

　帯域合成部１０４は、第１の帯域フィルタ１０３が出力する、広帯域音声信号の低域成分と、第２の帯域フィルタ２０２が出力する、雑音抑圧済音声信号の高域成分とを加算して音声信号を復元し、復元音声信号として出力する。

　この実施の形態３によれば、雑音混入音声信号を雑音抑圧部２０１にて雑音抑圧処理することにより劣化または欠損した雑音抑圧済音声信号を復元して、復元音声信号を生成する音声信号復元装置２００であって、音韻・音源信号記憶部１０５が格納している音韻信号および音源信号を組み合わせて、広帯域音声信号を複数生成する合成フィルタ１０６と、雑音抑圧済音声信号と合成フィルタ１０６が生成した複数の広帯域音声信号との波形歪みを所定の歪み尺度を用いてそれぞれ評価して、当該評価結果に基づいて歪みが最も小さくなる広帯域音声信号を選択する歪評価部１０７と、歪評価部１０７が選択した広帯域音声信号から劣化または欠損した周波数帯域の周波数成分を抽出する第１の帯域フィルタ１０３と、雑音抑圧済音声信号から劣化または欠損した周波数帯域以外の周波数成分を抽出する第２の帯域フィルタ２０２と、第１の帯域フィルタ１０３の抽出した周波数成分と第２の帯域フィルタ２０２の抽出した周波数成分を組み合わせる帯域合成部１０４とを備えるように構成した。このように、音声信号復元に用いる低域成分を、雑音抑圧された音声信号との歪みが最小となるように生成された音声信号から得ているため、高品質な音声信号を復元することができる。

　また、この実施の形態３によれば、音声の基本周期を抽出する必要がなく、基本周期の抽出誤りによる品質劣化がないので、音声の基本周期の分析困難な雑音環境下でも、高品質な音声信号を復元することができる。

　また、この実施の形態３によれば、音声信号復元に用いる低域成分は、雑音抑圧された音声信号との歪みが最小となるように生成された音声信号から得ているので、原理上、雑音抑圧された音声信号の高域成分と生成された低域成分は滑らかに接続可能であり、帯域合成時のパワー補正などの補間処理が必要なく、高品質な音声信号を復元できる。

　なお、上記実施の形態３に係る音声信号復元装置２００は、歪評価部１０７における歪み評価結果が非常に小さい場合には、第１の帯域フィルタ１０３、第２の帯域フィルタ２０２、帯域合成部１０４の各処理を省略し、歪評価部１０７が出力する広帯域音声信号を、直接、復元音声信号として出力しても良い。

　また、上記実施の形態３では、低域が劣化または欠損した雑音抑圧済信号に対して、低域の周波数成分を復元する構成であったが、これに限定されるものではなく、低域および高域の一方または両方が劣化または欠損した雑音抑圧済音声信号に対してこれらの帯域の周波数成分を復元する構成にしてもよいし、雑音抑圧部２０１の出力する帯域情報信号に応じて、例えば８００～１０００Ｈｚの中間的な帯域の周波数成分を復元する構成にしてもよい。中間的な帯域が劣化または欠損するような状況としては、例えば、自動車が高速で走行した時に発生するウインドノイズ（風切り音）などの局所帯域的な雑音が音声信号に混入した場合が考えられる。このように、実施の形態３でも上記実施の形態１，２と同様に、合成フィルタ１０６が生成する広帯域音声信号の周波数帯域の少なくとも一部の周波数帯域を持つ雑音抑圧済音声信号であれば、その雑音抑圧済音声信号の残りの周波数帯域の周波数成分を復元可能である。

実施の形態４．
　上記実施の形態３の変形例として、上記実施の形態２と同様に、雑音抑圧された音声信号の分析結果を、広帯域音声信号を生成するための補助情報として用いることも可能である。具体的には、上記実施の形態３に係る音声信号復元装置２００に、図３に示すような音声分析部１１１を追加して、この音声分析部１１１が、雑音抑圧部２０１から入力される雑音抑圧済音声信号について音響的特徴の分析を行い、雑音抑圧済音声信号の音韻信号と音源信号の抽出を行って、それぞれ音韻信号記憶部１０８と音源信号記憶部１０９へ出力する。

　この実施の形態４によれば、音声信号復元装置２００は、雑音抑圧済音声信号について音響的分析を行って補助情報を生成する音声分析部１１１を備え、合成フィルタ１０６は、音声分析部１１１が生成した補助情報を用いて、音韻・音源信号記憶部１０５が格納している音韻信号および音源信号を組み合わせて、広帯域音声信号を複数生成するように構成した。このため、雑音抑圧済音声信号の分析結果を補助情報として用いることで、雑音抑圧済音声信号に更に近似した広帯域音声信号を得ることができ、更に高品質な音声信号を復元できる。

　また、この実施の形態４によれば、広帯域音声信号を生成する際、雑音抑圧済音声信号の分析結果を補助情報に用いて音韻信号および音源信号を予備選択できるので、高品質を保ったままで処理量を削減することができる。

実施の形態５．
　上記実施の形態３では、帯域情報信号に基づいて音声信号を低域と高域に２分割し、歪み評価処理では高域部の歪みだけを評価していたが、例えば、一部の低域成分も重み付けを行った上で歪み評価の対象としたり、雑音信号の周波数特性に応じた重み付けを行って歪み評価を行ったりすることも可能である。なお、本実施の形態５に係る音声信号復元装置は、図４に示す音声信号復元装置２００と図面上では同様の構成であるため、以下では図４を援用して説明する。

　図６は、歪評価部１０７の歪み評価に用いる重み付け係数の一例であり、図６（ａ）は一部の低域成分も評価対象とする場合、図６（ｂ）は雑音信号の周波数特性の逆特性を重み係数とする場合である。図６中の各グラフの縦軸は振幅と歪み評価重み値を示し、横軸は周波数を示す。なお、歪評価部１０７での歪み評価への重み係数反映方法としては、例えば、フィルタ係数に重み係数を畳み込んだり、パワースペクトル成分に重み係数を乗じたりする方法が考えられる。また、第１の帯域フィルタ１０３および第２の帯域フィルタ２０２の特性としては、上記実施の形態３で採ったのと同様に低域と高域で分離する特性としてもよいし、図６（ａ）の重み係数の周波数特性を表現するようなフィルタ特性としてもよい。

　図６（ａ）のように低域を評価対象とするのは、低域成分は雑音抑圧されてはいるものの、まったく音声成分が失われている訳ではないからであり、この成分を評価に加えることで生成する広帯域音声信号の品質が向上する。また、図６（ｂ）のように雑音の周波数特性の逆特性で歪み評価を行うことで、比較的ＳＮ比が高い高域に重み付けすることができるので、生成する広帯域音声信号の品質が向上する。

　この実施の形態５によれば、歪評価部１０７は、周波数軸上の重み付けをした歪み尺度を用いて、波形歪みを評価するように構成した。このため、一部の低域成分に重み付けして歪み評価することで、生成する音声信号の品質が向上し、更に高品質な音声信号を復元することができる。

　また、この実施の形態５によれば、雑音の周波数特性の逆特性で重み付けして歪み評価することで、生成する音声信号の品質が向上し、更に高品質な音声信号を復元することができる。

　なお、上記実施の形態５では、雑音抑圧済音声信号の復元に歪み評価の重み付けを実施しているが、上記実施の形態１，２に係る音声信号復元装置１００の、狭帯域音声信号から広帯域音声信号への復元に対しても同様に適用可能である。

　また、上記実施の形態１～５では、狭帯域音声信号の例として電話音声の場合について説明しているが、電話音声に限られるものではなく、ＭＰ３（ＭＰＥＧ　Ａｕｄｉｏ　Ｌａｙｅｒ－３）などの音響信号符号化技術にて高域がカットされた信号の高域生成処理にも適用可能である。また、広帯域音声信号の周波数帯域も５０～７０００Ｈｚに限られることはなく、５０～１６０００Ｈｚなどの更に広い帯域で実施することも可能である。

　また、上記実施の形態１～５に示した復元音声信号生成部１１０では、帯域フィルタで音声信号から特定の周波数帯域を切り出し、帯域合成部で他の音声信号と組み合わせて復元音声信号を生成する構成であったが、これに限定されるものではなく、例えば、復元音声信号生成部１１０に入力される２種類の音声信号を重み付け加算して復元音声信号を生成する構成にしてもよい。この構成の復元音声信号生成部１１０を上記実施の形態１に係る音声信号復元装置１００に適用した場合の一例を図７に示すと共に、図８に、復元音声信号を模式的に図示する。なお、図８中の各矢印は処理の順序を表し、各グラフの縦軸はパワーを示し、横軸は周波数を示す。

　図７に示すように、復元音声信号生成部１１０は新たに２つの重み調整部３０１，３０２を備える。重み調整部３０１は、歪評価部１０７から出力された広帯域音声信号の重み（ゲイン）を例えば０．２に調整し（図８（ａ）に示す破線）、重み調整部３０２は、サンプリング変換部１０１から出力されたアップサンプリング済音声信号の重み（ゲイン）を例えば０．８に調整し（図８（ｂ）に示す破線）、帯域合成部１０４で両音声信号を加算して（図８（ｃ））、復元音声信号を生成する（図８（ｄ））。
　なお、図示は省略するが、図７の構成を音声信号復元装置２００に適用してもよい。

　重み調整部３０１，３０２は、周波数方向に一定の重みを用いる他、例えば高域になるに従って大きくなるような周波数特性を持つ重みを用いるなど、必要に応じた重みを用いればよい。また、重み調整部３０１と第１の帯域フィルタ１０３を両方備える構成にして、重み調整部３０１で重み調整した広帯域音声信号から第１の帯域フィルタ１０３が狭帯域音声信号に等しい周波数帯域を抽出してもよいし、反対に、第１の帯域フィルタ１０３が広帯域音声信号から狭帯域音声信号に等しい周波数帯域を抽出して重み調整部３０１で重み調整してもよい。同様に、重み調整部３０１と第２の帯域フィルタ２０２を両方備える構成にしてもよい。

　以上のように、この発明に係る音声信号復元装置は、音韻信号および音源信号から合成した複数の広帯域音声信号より選択した広帯域音声信号と比較対象信号とから復元音声信号を生成するようにしたので、周波数帯域が狭帯域に制限されたことにより一部の周波数帯域が欠落したり、雑音抑圧または音声圧縮されたことにより一部の周波数帯域が劣化または欠損したりした比較対象信号を復元する場合に適している。なお、音声信号復元装置１００，２００をコンピュータで構成する場合には、サンプリング変換部１０１、音声信号生成部１０２、復元音声信号生成部１１０、音声分析部１１１、雑音抑圧部２０１の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのＣＰＵがメモリに格納されているプログラムを実行するようにしてもよい。

　この発明に係る音声信号復元装置および音声信号復元方法は、音韻信号および音源信号を組み合わせて複数の音声信号を生成し、比較対象信号との波形歪みを所定の歪み尺度を用いてそれぞれ評価して、当該評価結果に基づいていずれかの音声信号を選択して復元音声信号を生成するようにしたので、周波数帯域が狭帯域に制限されている音声信号から広帯域の音声信号を復元する、および、劣化または欠損した帯域の音声信号を復元する音声信号復元装置およびその方法に用いるのに適している。

Claims

　音韻信号および音源信号を組み合わせて、複数の音声信号を生成する合成フィルタと、
　前記合成フィルタが生成する音声信号の周波数帯域の少なくとも一部の周波数帯域の周波数成分を持つ比較対象信号と前記合成フィルタが生成した前記複数の音声信号それぞれとの波形歪みを所定の歪み尺度を用いて評価して、当該評価結果に基づいて前記複数の音声信号のうちのいずれかを選択する歪評価部と、
　前記歪評価部が選択した音声信号を用いて復元音声信号を生成する復元音声信号生成部とを備える音声信号復元装置。
　復元音声信号生成部は、比較対象信号と歪評価部が選択した音声信号とを組み合わせる帯域合成部を有することを特徴とする請求項１記載の音声信号復元装置。
　歪評価部は、比較対象信号と合成フィルタが生成した複数の音声信号それぞれとの、所定の周波数帯域の周波数成分の波形歪みを評価することを特徴とする請求項１記載の音声信号復元装置。
　比較対象信号を所定の周波数帯域に対応するようにサンプリング変換するサンプリング変換部を備え、
　歪評価部は、前記サンプリング変換部がサンプリング変換した前記比較対象信号と合成フィルタが生成した複数の音声信号それぞれとの、前記所定の周波数帯域の周波数成分の波形歪みを評価することを特徴とする請求項３記載の音声信号復元装置。
　音韻信号および音源信号を組み合わせて、複数の音声信号を生成する合成フィルタステップと、
　前記合成フィルタステップで生成する音声信号の周波数帯域の少なくとも一部の周波数帯域の周波数成分を持つ比較対象信号と前記合成フィルタステップで生成した前記複数の音声信号それぞれとの波形歪みを所定の歪み尺度を用いて評価して、当該評価結果に基づいて前記複数の音声信号のうちのいずれかを選択する歪評価ステップと、
　前記歪評価ステップで選択した音声信号を用いて復元音声信号を生成する復元音声信号生成ステップとを備える音声信号復元方法。
　復元音声信号生成ステップは、比較対象信号と歪評価ステップで選択した音声信号とを組み合わせる帯域合成ステップを有することを特徴とする請求項５記載の音声信号復元方法。
　歪評価ステップは、比較対象信号と合成フィルタステップで生成した複数の音声信号それぞれとの、所定の周波数帯域の周波数成分の波形歪みを評価することを特徴とする請求項５記載の音声信号復元方法。
　比較対象信号を所定の周波数帯域に対応するようにサンプリング変換するサンプリング変換ステップを備え、
　歪評価ステップは、前記サンプリング変換ステップでサンプリング変換した前記比較対象信号と合成フィルタステップで生成した複数の音声信号それぞれとの、前記所定の周波数帯域の周波数成分の波形歪みを評価することを特徴とする請求項７記載の音声信号復元方法。