JP3631657B2

JP3631657B2 - 声質変換装置および声質変換方法、並びに、プログラム記録媒体

Info

Publication number: JP3631657B2
Application number: JP2000100801A
Authority: JP
Inventors: 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-04-03
Filing date: 2000-04-03
Publication date: 2005-03-23
Anticipated expiration: 2020-04-03
Also published as: JP2001282300A; WO2001078064A1

Description

【０００１】
【発明の属する技術分野】
この発明は、合成音声または入力音声を特定話者の音質に変換して出力する声質変換装置および声質変換方法、並びに、声質変換処理プログラムを記録したプログラム記録媒体に関する。
【０００２】
【従来の技術】
これまで、より自然で人間の発声に近い合成音声の実現を目指して、テキスト音声合成装置が数多く開発されてきている。この目標の実現がある程度なされた時点で、次に、好きな声優や女優または家族や恋人等の特定話者の声質や韻律で発声するテキスト音声合成装置のニーズが高まってくることが当然予想される。また、声質・韻律変換のために音声合成装置が必要とする音声データは、提供者の発声負担を考慮して、できるだけ少量であることが望まれる。
【０００３】
従来より、声質を変換する方法として、スペクトル包絡からフォルマント周波数を抽出して変換する方法(例えば、桑原,大串、「ホルマント周波数、バンド幅の独立制御と個人性判断」、電子通信学会論文誌、Vol.j69‐A No.4，pp.509‐517(1986))。また、上記スペクトル包絡のピーク点を求め、そのピーク点の周波数を基準として各スペクトル包絡を帯域分割し、これら分割点について求めた周波数差と強度差とを利用してスペクトル包絡を変形させる方法(例えば、特開平９‐２４４６９４号公報)がある。
【０００４】
一方において、不特定話者の音声認識技術分野において、音声スペクトルの周波数軸・強度軸の同時非線形伸縮を行なうことによって、話者正規化に関して著しい効果が見られ、音声認識性能が向上したという報告がある(例えば、中川,神谷,坂井、「音声スペクトルの時間軸・周波数軸・強度軸の同時非線形伸縮に基づく不特定話者の単語音声の認識」、電子通信学会論文誌、Vol.j64‐D No.2，pp.116‐123(1981))。
【０００５】
また、予め変換元話者と変換先話者とが発声した音声における複数母音のスペクトル包絡系列(ｎ次元ベクトル系列)間で周波数領域におけるＤＰ(動的計画法)マッチングを行ない、求められた―つの最適ＤＰパスを利用して上記変換元話者のスペクトル包絡を変換先話者のスペクトル包絡に変換する方法が提案されている(例えば、特開平４‐１４７３００号公報)。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来の声質変換方法には、以下のような問題がある。すなわち、フォルマント周波数を抽出して変換する方法においては、上記フォルマント周波数の抽出精度によって音質が影響されるという問題がある。また、上記ピーク点の周波数を基準としたスペクトル包絡の分割点の周波数差と強度差とに基づいてスペクトル包絡を変形させる方法においては、ピーク点の周波数によって分割されるスペクトルの帯域が影響されるという問題があり、ピッチ周波数が高い場合における低域のピーク点の抽出精度によって音質が影響されるという問題も想定される。
【０００７】
また、上記音声スペクトルの周波数軸・強度軸の同時非線形伸縮によって話者正規化を行なう方法においては、非線形伸縮の際の制約条件を相当上手く設定しないと、個人差のみならず音韻差まで正規化されてしまい、結果として性能を下げてしまうという問題がある。
【０００８】
また、変換元話者と変換先話者とが発声した音声における複数母音のスペクトル包絡系列(ｎ次元ベクトル系列)間でＤＰマッチングを行なう方法においては、調音点や口の開き具合などの発声癖に起因する個人差(ソフト差)の影響で各母音毎の最適ＤＰパスが異なる場合には、似通った最適ＤＰパス群(例えば、後舌母音)のメンバーが多い方に偏って、他の群にはやや不適切なＤＰパスを抽出し、全体として最適ではないＤＰパスが選択されてしまうという問題がある。また、最適ＤＰパスが偏らないように上手く学習用の母音を選択できた場合には、声道形状や声道長等の身体上の差に起因する個人差(ハード差)のみを正規化するＤＰパスであるため、正規化による認識性能の向上が充分でないという問題がある。さらに、変換元話者と変換先話者とが同じ内容(単語または文：例えば「あいうえお、いえあおう」)を発声するという制約を前提にしているため、変換元話者の発声内容が異なっていたり、音声データが不足している場合には、利用することができないという問題もある。
【０００９】
このように、上記従来の声質変換方法においては、声質の変換性能の点において、十分であるとは言えないのである。
【００１０】
そこで、この発明の目的は、変換先話者の発声負担を軽減し、より精度の良い声質変換を行うことができる声質変換装置および声質変換方法、並びに、声質変換処理プログラムを記録したプログラム記録媒体を提供することにある。
【００１１】
【課題を解決するための手段】
上記目的を達成するため、第１の発明は、第１話者の声質での音声を第２話者の声質での音声に変換する声質変換装置であって、上記第１話者が発声した第１音声から第１スペクトル包絡を抽出する一方,第２話者が発声した２音声から第２スペクトル包絡を抽出するスペクトル包絡抽出手段と、上記抽出された第１スペクトル包絡および第２スペクトル包絡を音声単位としての音素のラベルを付与して格納する第１メモリ手段と、同一ラベルに関して,上記第１メモリに格納された上記第１スペクトル包絡と第２スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って,両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求める非線形周波数軸スペクトルマッチング手段と、上記周波数ワーピング関数を音素のラベルを付与して格納する第２メモリ手段と、指定された音素名の第１スペクトル包絡を上記第１メモリから読み出す一方,上記指定された音素名の周波数ワーピング関数を上記第２メモリから読み出して,この読み出された周波数ワーピング関数に基づいて,上記読み出された第１スペクトル包絡を第２話者に関するスペクトル包絡に変換するスペクトル包絡変換手段と、上記第２メモリ手段に格納された周波数ワーピング関数を上記ラベルに基づいて音素・類似音素・有声音区間 / 無声音区間および話者毎にグループ化し , 各グループに属する周波数ワーピング関数の平均値を算出し , 得られた平均周波数ワーピング関数を各グループ名のラベルを付与して上記第２メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル包絡変換手段は , 上記指定された音素名に関する上記第１メモリ手段に格納された第２スペクトル包絡の数に応じて , 上記指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっていることを特徴としている。
【００１２】
上記構成によれば、第１話者の音声から得られた第１スペクトル包絡と第２話者の音声から得られた第２スペクトル包絡との周波数軸の対応付けを表わす周波数ワーピング関数が用いられ、指定された音素名の第１話者による第１スペクトル包絡の周波数軸が非線形伸縮されて第２話者によるスペクトル包絡に変換され、上記指定された音素名の第２話者での音声が得られる。したがって、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【００１３】
さらに、平均周波数ワーピング関数が「音素」 , 「類似音素」 , 「有声音区間 / 無声音区間」および「話者」毎のグループ別に求められている。したがって、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。例えば、後舌母音 / ｏ / の発声データが少ないか全く無い場合には、当該音素 / ｏ / の類似音素である後舌母音 / ａ / の平均周波数ワーピング関数、または、有声音区間の平均周波数ワーピング関数が選択される。こうして、第２話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差が正規化される。
【００１４】
また、上記第１の発明の声質変換装置は、上記第１メモリ手段を,上記第１スペクトル包絡および第２スペクトル包絡の傾きをも音声単位としての音素のラベルを付与して格納するように成し、上記第１話者が発声した第１音声から第１スペクトル包絡の傾きを抽出する一方,第２話者が発声した２音声から第２スペクトル包絡の傾きを抽出して上記第１メモリ手段に格納させるスペクトル傾き抽出手段と、指定された音素名の第１スペクトル包絡の傾きと第２スペクトル包絡の傾きとを上記第１メモリ手段から読み出して,両傾きの差に基づいて,上記スペクトル包絡変換手段によって得られた上記第２話者に関するスペクトル包絡の傾きを補正するスペクトル傾き補正手段を備えることが望ましい。
【００１５】
上記構成によれば、上記指定された音素名での第１,第２スペクトル包絡の傾きの差に基づいて、上記得られた第２話者に関するスペクトル包絡の傾きが補正されて、より第２話者の声質に近い音声が得られる。
【００１６】
また、上記第１の発明の声質変換装置は、上記音声単位は音素であり、上記第１メモリ手段に格納された第１スペクトル包絡の傾きおよび第２スペクトル包絡の傾きを上記ラベルに基づいて音素・類似音素・有声音区間/無声音区間および話者毎にグループ化し,各グループに属するスペクトル包絡の傾きの平均値を算出し,得られた平均スペクトル傾きを各話者名および各グループ名のラベルを付与して上記第１メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル傾き補正手段を,指定された音素名に関する上記第１メモリ手段に格納された第２スペクトル包絡の傾きの数に応じて , 上記指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるように成すことが望ましい。
【００１７】
上記構成によれば、平均スペクトル傾きが「音素」,「類似音素」,「有声音区間/無声音区間」および「話者」毎のグループ別に求められている。したがって、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均スペクトル傾きを選択して上記スペクトル包絡の傾きの代りに用いることができる。こうして、第２話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎のの平均スペクトル傾きを求めることによって、発声癖に起因する個人差が正規化される。
【００１８】
また、上記第１の発明の声質変換装置は、上記抽出された第１スペクトル包絡または第２スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音素名を上記第１メモリ手段に送出する音声認識手段を備えることが望ましい。
【００１９】
上記構成によれば、上記第１,第２話者の発声から抽出された第１,第２スペクトル包絡から、ラベル用の音素名が自動的に得られる。こうして、上記スペクトル包絡あるいはスペクトル包絡の傾きに対するラベル付け処理が容易に行われる。
【００２０】
また、上記第１の発明の声質変換装置は、上記音声認識手段を,得られた音素名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給可能に成し、上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段を,上記音声認識手段によって得られた音素名の時系列を上記指定された音素名とするように成すことが望ましい。
【００２１】
上記構成によれば、上記第１話者の発声による第１スペクトル包絡を第２話者のスペクトル包絡に変換する際の音素名が、上記音声認識手段によって得られた音素名の時系列によって指定される。こうして、キーボード等から声質変換すべき音素名列を入力することなく、上記第１話者の発声音が上記第２話者の音質での音声に直接リアルタイムに変換される。
【００２２】
また、第２の発明は、第１話者の声質での音声を第２話者の声質での音声に変換する声質変換装置であって、上記第１話者が発声した第１音声から第１声道断面積を抽出する一方,第２話者が発声した２音声から第２声道断面積を抽出する声道断面積抽出手段と、上記抽出された第１声道断面積および第２声道断面積を音声単位としての音素のラベルを付与して格納する第１メモリ手段と、同一ラベルに関して,上記第１メモリに格納された上記第１声道断面積と第２声道断面積とに対して動的計画法を用いた非線形な声道軸伸縮マッチングを行って,両声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求める非線形声道軸マッチング手段と、上記声道軸ワーピング関数を音素のラベルを付与して格納する第２メモリ手段と、指定された音素名の第１声道断面積を上記第１メモリから読み出す一方,上記指定された音素名の声道軸ワーピング関数を上記第２メモリから読み出して,この読み出された声道軸ワーピング関数に基づいて,上記読み出された第１声道断面積を第２話者に関する声道断面積に変換する声道断面積変換手段と、上記第２メモリ手段に格納された声道軸ワーピング関数を上記ラベルに基づいて音素・類似音素・有声音区間 / 無声音区間および話者毎にグループ化し , 各グループに属する声道軸ワーピング関数の平均値を算出し , 得られた平均声道軸ワーピング関数を各グループ名のラベルを付与して上記第２メモリ手段に格納させる平均化手段を備えると共に、上記声道断面積変換手段は , 上記指定された音素名に関する上記第１メモリ手段に格納された第２声道断面積の数に応じて , 上記指定された音素が属する何れかのグループの平均声道軸ワーピング関数を上記声道軸ワーピング関数として用いるようになっていることを特徴としている。
【００２３】
上記構成によれば、第１話者の音声から得られた第１声道断面積と第２話者の音声から得られた第２声道断面積との声道軸の対応付けを表わす声道軸ワーピング関数が用いられ、指定された音素名の第１話者による第１声道断面積の声道軸が非線形伸縮されて第２話者による声道断面積に変換され、上記指定された音素名の第２話者での音声が得られる。したがって、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【００２４】
さらに、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均声道軸ワーピング関数を選択して上記声道軸ワーピング関数の代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎の平均声道軸ワーピング関数を求めることによって、発声癖に起因する個人差が正規化される。
【００２５】
また、第３の発明は、第１話者の声質での音声を第２話者の声質での音声に変換する声質変換方法であって、上記第１話者が発声した第１音声から第１スペクトル包絡を抽出する一方,第２話者が発声した２音声から第２スペクトル包絡を抽出するステップと、同一音素名に関して,上記抽出された上記第１スペクトル包絡と第２スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って,両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求めるステップと、指定された音素名の第１スペクトル包絡を,上記指定された音素名の周波数ワーピング関数に基づいて、第２話者に関するスペクトル包絡に変換するステップと、上記周波数ワーピング関数を上記音素名に基づいて音素・類似音素・有声音区間 / 無声音区間および話者毎にグループ化し , 各グループに属する周波数ワーピング関数の平均値を算出し , 得られた平均周波数ワーピング関数に各グループ名のラベルを付与するステップを備えると共に、上記第１スペクトル包絡を第２話者に関するスペクトル包絡に変換するステップでは , 上記指定された音素名に関する上記抽出された第２スペクトル包絡の数に応じて , 上記指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっていることを特徴としている。
【００２６】
上記構成によれば、上記請求項１の場合と同様にして、指定された音素名の第１話者による第１スペクトル包絡の周波数軸が非線形伸縮されて第２話者によるスペクトル包絡に変換され、上記指定された音素名の第２話者による音声が得られる。したがって、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【００２７】
さらに、上記抽出された第２話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差が正規化される。
【００２８】
また、上記第３の発明の声質変換方法は、上記第１話者が発声した第１音声から第１スペクトル包絡の傾きを抽出する一方,上記第２話者が発声した２音声から第２スペクトル包絡の傾きを抽出するステップと、上記指定された音素名の第１スペクトル包絡の傾きと第２スペクトル包絡の傾きとの差に基づいて,上記得られた第２話者に関するスペクトル包絡の傾きを補正するステップを備えることが望ましい。
【００２９】
上記構成によれば、上記請求項２の場合と同様にして上記得られた第２話者に関するスペクトル包絡の傾きが補正され、より第２話者の声質に近い音声が得られる。
【００３０】
また、第４の発明のプログラム記録媒体は、コンピュータを、上記第１の発明におけるスペクトル包絡抽出手段,非線形周波数軸スペクトルマッチング手段,スペクトル包絡変換手段,平均化手段 ,スペクトル傾き抽出手段およびスペクトル傾き補正手段として機能させる声質変換処理プログラムが記録されていることを特徴としている。
【００３１】
上記構成によれば、指定された音素名の第１話者による第１スペクトル包絡の周波数軸が非線形伸縮されて、第２話者に関するスペクトル包絡に変換される。さらに、得られた第２話者に関するスペクトル包絡の傾きが、第１,第２スペクトル包絡の傾きの差に基づいて補正される。こうして、第１話者による第１スペクトル包絡の特定位置の抽出精度に音質が影響されることのない、精度の高い声質変換が行われる。
【００３２】
さらに、上記抽出された第２話者の発声データの量に応じて、音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎のグループのうち適切なグループの平均周波数ワーピング関数が選択されて上記スペクトル包絡の変換の際に用いることができる。したがって、第２話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差を正規化することができる。
【００３３】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。尚、以下の説明においては、上記音声単位を「音素」としているが、この発明はこれに限定されるものではない。
【００３４】
＜第１実施の形態＞
図１は、本実施の形態の声質変換装置におけるブロック図である。波形分析部１は、入力された音声波形からケプストラムと韻律情報とを抽出する。スペクトル包絡抽出部２は、波形分析部１で抽出された低次のケプストラム係数に基づいて、図２(c),(f)に示すようなスペクトル包絡を抽出する。スペクトル傾き抽出部３は、上記スペクトル包絡を最小２乗近似直線で近似した場合における近似直線の傾きである図２(b),(e)に示すようなスペクトル傾きを抽出する。音源特性抽出部４は、波形分析部１で抽出された高次のケプストラム係数に基づいて、図２(a),(d)に示すような音源特性を抽出する。音声認識部５は、スペクトル包絡抽出部２で抽出されたスペクトル包絡と波形分析部１で抽出された韻律情報(パワーやピッチ周波数等)の時系列に基づいて、ＨＭＭ(隠れマルコフモデル)を用いて音声認識を行なう。そして、認識結果の音素(音声単位)系列をその音素区間における韻律情報(音素継続時間長,平均パワー,平均ピッチ周波数等)と共に出力する。尚、上記抽出されたスペクトル包絡,スペクトル傾き,音源特性は、音声認識部５による各話者毎の認識結果である音素ラベルが付与されて特徴メモリ６に格納される。
【００３５】
平均化部７は、上記特徴メモリ６に格納されている話者毎の各音素のスペクトル包絡,スペクトル傾きおよび音源特性に対して、線形変換等によって、音素,類似音素,有声音区間/無声音区間及び音声区間全体(話者)毎に分類して平均値を算出する。そして、得られた平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性を、対応する音素名,類似音素名,有声音区間/無声音区間あるいは音声区間全体(話者)のラベルを付与して特徴メモリ６に格納させる。さらに、後に詳述するようにして周波数ワープ表メモリ９に格納される話者毎の各音素の周波数ワーピング関数に対して、線形変換等によって、上記類似音素,有声音区間/無声音区間および音声区間全体毎に分類して平均値を算出する。そして、得られた平均周波数ワーピング関数を、対応する類似音素名,有声音区間/無声音区間あるいは音声区間全体のラベルを付与して周波数ワープ表メモリ９に格納させる。
【００３６】
ここで、上記周波数ワープ表メモリ９に格納されている上記周波数ワーピング関数の算出は、非線形周波数軸スペクトルマッチング部８によって、次のようにして行われる。すなわち、非線形周波数軸スペクトルマッチング部８は、動的計画法による非線形周波数軸スペクトルマッチングによって、各音素毎に、特徴メモリ６に格納された変換元話者Ｓの平均スペクトル包絡と変換先話者Ｔの平均スペクトル包絡とのマッチングを行なう。そして、最適ＤＰパスに相当する周波数ワーピング関数を求め、音素名を付与して周波数ワープ表メモリ９に格納するのである。
【００３７】
スペクトル包絡変換部１０は、発声指示に対応する音素の変換元話者Ｓのスペクトル包絡を特徴メモリ６から読み出す一方、周波数ワープ表メモリ９から当該音素の周波数ワーピング関数を読み出す。その場合、特徴メモリ６および周波数ワープ表メモリ９に格納されている変換先話者の該当音素のデータが少ないか全く無い場合には、当該音素の類似音素や当該音素と同じ区間(有声音区間または無声音区間)や音声区間全体の平均周波数ワーピング関数を読み出す。そして、上記(平均)周波数ワーピング関数を利用して、変換元話者Ｓのスペクトル包絡を変換先話者Ｔのスペクトル包絡に変換する。以下、この変換して得られた変換先話者Ｔのスペクトル包絡を「変形スペクトル包絡」と言う。
【００３８】
スペクトル傾き変換部１１は、上記特徴メモリ６から、発声指示に対応する音素の変換元話者Ｓの平均スペクトル傾きと変換先話者Ｔの平均スペクトル傾きとを読み出し、両平均スペクトル傾きの差の分だけスペクトル包絡変換部１０からの上記変形スペクトル傾きを補正する変形スペクトル傾き変換を行い、正規化スペクトル包絡を求める。音源特性変換部１２は、発声指示に対応する平均音源特性を特徴メモリ６から読み出し、必要に応じて線形変換等によって変形して変形音源特性を求める。スペクトル合成部１３は、スペクトル傾き変換部１１からの正規化スペクトル包絡と音源特性変換部１２からの変形音源特性とを用いて、基本周波数の高周波数に亘るスペクトル強度を求めることによって、合成スペクトルを求める。波形合成部１４は、上記合成スペクトルのスペクトル強度に基づいて、正弦波重量法によって音声波形を合成する。
【００３９】
図３〜図５は、上記構成を有する声質変換装置による声質変換処理動作のフローチャートである。以下、図３〜図５に従って、上記声質変換装置の動作について詳細に説明する。
【００４０】
ステップＳ1で、話者番号ｓに初期値「１」が設定される。尚、この話者番号ｓや後の音素番号ｘ,変換先話者番号sＴ,変換元話者番号sＳ等は、作業メモリ(図示せず)等に設定される。また、上記話者としては、声質変換を行う際の変換元話者Ｓおよび変換先話者Ｔと成り得る話者が選ばれる。ステップＳ2で、波形分析部１に音声波形が入力される。
【００４１】
ステップＳ3で、上記波形分析部１によって、入力音声波形に対して波形分析が行われてケプストラムと韻律情報とが抽出される。ステップＳ4で、スペクトル包絡抽出部２によって、波形分析部１からの低次のケプストラム係数に基づいて、スペクトル包絡が抽出される。ステップＳ5で、スペクトル傾き抽出部３によって、上記スペクトル包絡を最小２乗近似直線で近似した場合の近似直線の傾きが、スペクトル傾きとして抽出される。ステップＳ6で、音源特性抽出部４によって、波形分析部１からの高次のケプストラム係数に基づいて、音源特性が抽出される。ステップＳ7で、音声認識部５によって、入力音声が認識され、認識結果としての音素番号(音素名)系列と各音素区間の韻律情報(音素継続時間長,平均パワー,平均ピッチ周波数等)とが出力される。ここで、上記音素番号は、予め音素名に対応付けて決定されており、ＲＡＭ(ランダム・アクセス・メモリ)(図示せず)に格納されているものとする。
【００４２】
尚、本実施の形態においては、上記波形分析部１による音声波形分析をケプストラム分析とし、このケプストラム分析結果に基づいてスペクトル包絡,スペクトル傾きおよび音源特性を抽出するようにしている。しかしながら、波形分析部１によるにおける音声波形分析法はこれに限定されるものではなく、ＬＰＣ(線形予測分析)等のスペクトル包絡および音源特性を抽出できる方法であれば何れの音声波形分析法であっても差し支えない。
【００４３】
ステップＳ8で、上記スペクトル包絡抽出部２で抽出された上記スペクトル包絡とスペクトル傾き抽出部３で抽出された上記スペクトル傾きと音源特性抽出部４で抽出された上記音源特性とが、音声認識部５からの話者番号ｓと音素番号ｘの対でなるラベルが付与されて特徴メモリ６によって格納される。ステップＳ9で、当該話者番号ｓの話者による発声である学習音声があるか否か、つまり同一話者による音声入力があるか否かが判別される。その結果、あれば上記ステップＳ2に戻って、次の音声に関する上記スペクトル包絡,ペクトル傾きおよび音源特性の抽出と音声認識とに移行する。一方、なければステップＳ10に進む。
【００４４】
ステップＳ10で、上記音素番号ｘが、初期値「１」に設定される。ステップＳ11で、平均化部７によって、特徴メモリ６から話者番号ｓと音素番号ｘとが付与されたスペクトル包絡,ペクトル傾きおよび音源特性が読み出される。そして、この読み出されたスペクトル包絡,ペクトル傾きおよび音源特性の夫々が、「音素」,「類似音素」,「有声音区間/無声音区間」および「音声区間全体」毎に分類される。ステップＳ12で、音素番号ｘが最大値ｘ_MAX以上であるか否かが判別される。その結果、最大値ｘ_MAX以上であればステップＳ14に進む一方、そうでなければステップＳ13に進む。ステップＳ13で、音素番号ｘがインクリメントされる。そうした後に、上記ステップＳ11に戻って、次の音素のスペクトル包絡,スペクトル傾きおよび音源特性に対する分類に移行する。
【００４５】
ステップＳ14で、上記平均化部７によって、話者番号ｓが付与されたスペクトル包絡,ペクトル傾きおよび音源特性に関する「音素」,「類似音素」,「有声音区間/無声音区間」及び「音声区間全体」毎の平均が、線形変換等によって算出される。そして、得られた平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性が、特徴メモリ６によって対応する音素名,類似音素名,有声音区間/無声音区間および音声区間全体のラベルが付与されて格納される。
【００４６】
ステップＳ15で、上記話者番号ｓが、最大値ｓ_MAX以上であるか否かが判別される。その結果、最大値ｓ_MAX以上であればステップＳ17に進む一方、そうでなければステップＳ16に進む。ステップＳ16で、話者番号ｓがインクリメントされる。そうした後、上記ステップＳ2に進んで、次の話者に関して、スペクトル包絡,スペクトル傾きおよび音源特性の抽出、音素認識、スペクトル包絡,スペクトル傾きおよび音源特性の分類、平均値算出に移行する。そして、上記ステップＳ15において、話者番号ｓが最大値ｓ_MAX以上であると判別されるとステップＳ17に移行する。
【００４７】
このようにして、変換元話者Ｓの大量のデータと変換先話者Ｔの少量のデータとから抽出されたスペクトル包絡,スペクトル傾き及び音源特性が、話者番号ｓと音素番号ｘとのラベルが付与されて蓄積される。また、「音素」,「類似音素」，「有声音区間/無声音区間」および「音声区間全体」毎の平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性が、話者番号ｓと音素名,類似音素名,有声音区間/無声音区間および音声区間全体とのラベルが付与されて蓄積されるのである。
【００４８】
ステップＳ17で、上記変換先話者番号sＴに、外部から指示された変換先話者番号が設定される。また、変換元話者番号sＳに、同様に外部から指示された変換元話者番号が設定される。ステップＳ18で、音素番号ｘに初期値「１」が設定される。ステップＳ19で、非線形周波数軸スペクトルマッチング部８によって、特徴メモリ６から、変換先話者番号sＴに該当する話者番号ｓと当該音素番号ｘとが付与された平均スペクトル包絡が検索される。そして、この検索結果に基づいて、当該変換先話者用の当該音素のデータが特徴メモリ６に保存されているか否かが判別される。その結果、保存されていればステップＳ20に進み、そうでなければステップＳ24に進む。ステップＳ20で、非線形周波数軸スペクトルマッチング部８によって、特徴メモリ６から、変換元話者番号sＳに該当する話者番号ｓと当該音素番号ｘとが付与された平均スペクトル包絡が検索される。そして、この検索結果に基づいて、当該変換元話者用の当該音素のデータが特徴メモリ６に保存されているか否かが判別される。その結果、保存されていればステップＳ21に進み、そうでなければステップＳ24に進む。
【００４９】
ステップＳ21で、上記非線形周波数軸スペクトルマッチング部８によって、動的計画法による非線形周波数軸スペクトルマッチングを用いて、当該音素に関して変換元話者Ｓの平均スペクトル包絡と変換先話者Ｔの平均スペクトル包絡とのマッチングが行われる。そして、最適ＤＰパスに相当する周波数ワーピング関数が求められる。
【００５０】
図６(a)は、上記非線形周波数軸スペクトルマッチング部８によって実行される動的計画法による非線形周波数軸スペクトルマッチングの概念を示す。同じ音素に関する変換元話者Ｓの平均スペクトル包絡Ｓと変換先話者Ｔの平均スペクトル包絡Ｔとに関して、スペクトル包絡を帯域でＬ等分し、両スペクトル包絡Ｓ,Ｔの各チャネルの出力値(スペクトル強度)を表す要素値を要素値Ｔiおよび要素値Ｓj(１≦ｉ,ｊ≦Ｌ)とする。そして、両スペクトル包絡同士が対応するように周波数軸を動的計画法によって非線形に伸縮する。つまり、対応すべき２つのスペクトル包絡Ｓ,Ｔからなる平面上の格子点ｃ＝(ｉ,ｊ)の系列
Ｆ＝ｃ₁,ｃ₂,…,ｃ_K,…,ｃ_L
を考える。そして、格子点ｃ＝(ｉ,ｊ)に関する要素値Ｔiと要素値Ｓjとの距離ｄ(ｉ,ｊ)＝ｄ(ｃ)の系列Ｆに沿った総和Ｄを最小にする系列Ｆminを、上記最適ＤＰパス(周波数ワーピング関数)とするのである。
【００５１】
ステップＳ22で、上記非線形周波数軸スペクトルマッチング部８によって、上記周波数ワーピング関数が、音素番号ｘと共に周波数ワープ表メモリ９に送出される。そして、周波数ワープ表メモリ９によって音素番号ｘのラベルが付与されて格納される。
【００５２】
本実施の形態において用いる周波数ワーピング関数のデータ形式は、図６(b)に示すように、ＤＰパス上の格子点ｃ(ｉ,ｊ)の要素値は「０」より大きな整数であり、ＤＰパス以外の格子点ｃ(ｉ,ｊ)の要素値は「０」であるようなＬ行Ｌ列のマトリクスである。尚、帯域の分割数Ｌの数は多い方がワーピング精度が上がるので望ましい。しかしながら、あまり多くすると周波数ワープ表メモリ９の記憶容量が大きくなり、処理時間も長くなってしまう。
【００５３】
尚、上述の説明においては、非線形周波数軸スペクトルマッチング部８は、同じ音素に関する変換元話者Ｓの平均スペクトル包絡Ｓと変換先話者Ｔの平均スペクトル包絡Ｔとにおける各チャンネルの要素値(スペクトル強度)Ｓi,Ｔjを用いてマッチングを行なっているが、マッチング対象はスペクトル包絡の各チャネルの出力値(スペクトル強度)に限定されるものではない。例えば、平均スペクトル包絡Ｓと平均スペクトル包絡Ｔとに関する隣接チャネル間の出力値の差(スペクトル局所傾き)ΔＳとΔＴとを用いてマッチングを行なっても構わない。
但し、ΔＳj＝Ｓj−Ｓ(j-1)
ΔＴi＝Ｔi−Ｔ(i-1)
ここで、２≦ｉ，ｊ≦Ｌ
【００５４】
ステップＳ23で、音素番号ｘが最大値ｘ_MAX以上であるか否かが判別される。その結果、最大値ｘ_MAX以上であればステップＳ25に進む一方、そうでなければステップＳ24に進む。ステップＳ24で、音素番号ｘがインクリメントされる。そうした後、上記ステップＳ19に戻って、次の音素の変換元話者Ｓと変換先話者Ｔとのスペクトル包絡のマッチング、得られた周波数ワーピング関数の格納の処理に移行する。
【００５５】
ステップＳ25で、上記平均化部７によって、周波数ワープ表メモリ９から各話者毎の周波数ワーピング関数が読み出され、上記ステップＳ11において分類された「類似音素」,「有声音区間/無声音区間」及び「音声区間全体」毎の平均が、線形変換等によって算出される。そして、得られた平均周波数ワーピング関数(図６(c)に示すように周波数ワーピング関数の加算値で代用してもよい)が、対応する類似音素名,有声音区間/無声音区間および音声区間全体のラベルが付与されて、周波数ワープ表メモリ９によって格納される。
【００５６】
以降、発声指示に基づく変換先話者の声質での音声合成処理に移行する。ステップＳ26で、スペクトル包絡変換部１０,スペクトル傾き変換部１１および音源特性変換部１２に対して、発声指示音素に該当する音素番号ｘが入力される。ステップＳ27で、スペクトル包絡変換部１０によって、特徴メモリ６から変換元話者番号sＳに該当する話者番号ｓと当該音素番号ｘとが付与されたスペクトル包絡が読み出される。さらに、周波数ワープ表メモリ９から当該音素番号ｘが付与された平均周波数ワーピング関数(変換元話者番号sＳと変換先話者番号sＴとの間の平均周波数ワーピング関数)が読み出される。そして、変換元話者Ｓのスペクトル包絡Ｓが、平均周波数ワーピング関数(要素値ｃ(ｉ,ｊ))を用いて次式
Ｔi＝ΣＳj＊ｃ(ｉ,ｊ)/Σｃ(ｉ,ｊ)
但し、１≦ｊ≦Ｌ（または、ｉ−α≦ｊ≦ｉ＋α、α：正整数)
に従って変形されて、変換先話者Ｔでの変形スペクトル包絡Ｔ(ｉチャネルの要素値Ｔi)が求められる。その結果、図７(a)に示すように、変換元話者Ｓのスペクトル包絡ＳのピークＳaのチャネル位置(ｊ＝４)が、変形スペクトル包絡Ｔにおいてはチャネル位置(ｉ＝３)にワープされるのである。
【００５７】
ここで、本実施の形態においては、上記周波数ワープ表メモリ９には、各音素毎,各類似音素毎,有声音区間/無声音区間毎及び音声区間全体毎の複数の平均周波数ワーピング関数が格納されている。したがって、以下のように、学習用の変換先話者Ｔの発声データの量に応じて、適切な平均周波数ワーピング関数を選択することができるのである。すなわち、ある音素(例、後舌母音/ｏ/)の発声データが少ないか全く無い場合には、当該音素(/ｏ/)の類似音素(例、後舌母音/ａ/)の平均周波数ワーピング関数、または、有声音区間の平均周波数ワーピング関数を選択する。あるいは、当該音素(/ｏ/)の発声データが十分に多い場合には、当該音素(/ｏ/)の平均周波数ワーピング関数を選択するのである。こうすることによって、変換先話者Ｔの学習用発声データの量が少ない場合でも対処することができ、変換先話者Ｔの発声負担を軽減することができるのである。
【００５８】
また、各音素毎および各類似音素毎に上記周波数ワーピング関数の平均値を求めることによって、調音点や口の開き具合等の発声癖に起因する個人差(ソフト差)が正しく正規化されている。したがって、最適な周波数ワーピング関数が得られるのである。
【００５９】
ステップＳ28で、上記スペクトル傾き変換部１１によって、上記特徴メモリ６から、変換元話者番号sＳに該当する話者番号ｓと当該音素番号ｘとが付与された平均スペクトル傾きと、変換先話者番号sＴに該当する話者番号ｓと当該音素番号ｘとが付与された平均スペクトル傾きとが読み出される。そして、図７(b)に示すように、両平均スペクトル傾きの差の分だけ、上記ステップＳ27において得られた変形スペクトル包絡の傾きが補正されて正規化スペクトル包絡が求められる。尚、この場合にも、学習用の変換先話者Ｔの発声データの量に応じて、適切な平均スペクトル傾きを選択することによって、変換先話者Ｔの学習用発声データの量が少ない場合でも対処することができるのである。
【００６０】
ステップＳ29で、上記音源特性変換部１２によって、特徴メモリ６から変換先話者番号sＴに該当する話者番号ｓと当該音素番号ｘとが付与された平均音源特性が読み出される。そして、必要に応じて線形変換等によって変形されて変形音源特性が求められる。ステップＳ30で、スペクトル合成部１３によって、上述のようにして得られた正規化スペクトル包絡と変形音源特性とを用いて合成スペクトルが求められる。このスペクトル合成法は、正規化スペクトル包絡と変形音源特性とを合成して、基本周波数の高周波数に亘るスペクトル強度を求めることによって行われる。ステップＳ31で、波形合成部１４によって、上記合成スペクトルのスペクトル強度に基づいて、正弦波重量法によって音声波形が合成される。尚、音声波形の合成法は、合成スペクトルを用いた正弦波重量法に限定されるものではなく、上記正規化スペクトル包絡をゼロ位相化して基本周波数毎に重ね合わせる方法や、上記合成スペクトルを逆フーリエ変換する方法等によっても合成波形を得ることができる。
【００６１】
ステップＳ32で、上記ステップＳ26において音素番号ｘが指定された発声指示音素は、最後の発声指示音素であるか否かが判別される。その結果、最後の発声指示音素でなければ上記ステップＳ26に戻って、次の発声指示音素に関する音声波形の合成へ移行する。一方、最後の発声指示音素であれば、声質変換処理動作を終了する。
【００６２】
上述のように、本実施の形態においては、変換先話者Ｔおよび変換元話者Ｓの入力音声を波形分析部１でケプストラム分析し、スペクトル包絡抽出部２でスペクトル包絡を抽出し、スペクトル傾き抽出部３でスペクトル傾きを抽出し、音源特性抽出部４で音源特性を抽出する。そして、平均化部７で、上記スペクトル包絡,スペクトル傾きおよび音源特性の平均値を「音素」,「類似音素」,「有声音区間/無声音区間」,「音声区間全体」毎に求め、音声認識部５による認識結果の音素番号を付与して特徴メモリ６によって格納する。
【００６３】
さらに、上記非線形周波数軸スペクトルマッチング部８で、特徴メモリ６に格納された全音素に関して変換元話者Ｓの平均スペクトル包絡と変換先話者Ｔの平均スペクトル包絡との非線形周波数軸スペクトルマッチングを行い、最適ＤＰパスに相当する周波数ワーピング関数を求める。そして、平均化部７で、上記周波数ワーピング関数の平均値を「類似音素」,「有声音区間/無声音区間」および「音声区間全体」毎に求め、音素番号を付与して周波数ワープ表メモリ９に格納する。
【００６４】
そして、発声指示に従って変換先話者の声質での音声合成を行う場合には、次の手順によって行う。すなわち、先ず、スペクトル包絡変換部１０で、変換元話者Ｓの該当音素のスペクトル包絡を、該当音素の変換元話者Ｓ/変換先話Ｔ間の平均周波数ワーピング関数を用いて、変換先話者Ｔのスペクトル包絡(変形スペクトル包絡)に変換する。次に、スペクトル傾き変換部１１で、変換元話者Ｓの平均スペクトル傾きと変換先話者Ｔの平均スペクトル傾きとの差の分だけ上記変形スペクトル包絡の傾きを補正して正規化スペクトル包絡を求める。次に、音源特性変換部１２で、変換先話者Ｔの平均音源特性を変形して変形音源特性を求める。
【００６５】
そうした後、上記スペクトル合成部１３で上記正規化スペクトル包絡と変形音源特性とから合成スペクトルを求め、波形合成部１４で上記合成スペクトルに基づいて音声波形を合成するのである。
【００６６】
すなわち、本実施の形態においては、変換元話者のスペクトル包絡の周波数軸を非線形伸縮して変換先話者のスペクトル包絡を求め、その傾きを補正して正規化スペクトル包絡を求めるようにしている。したがって、従来のフォルマント周波数に基づく声質変換方法やスペクトル包絡のピーク点間の分割点に基づく声質変換方法のごとくスペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることはないのである。
【００６７】
また、上記スペクトル包絡の変換時に用いる平均周波数ワーピング関数や、上記変形スペクトル包絡の傾き補正時に用いる平均スペクトル傾きや、上記変形音源特性を求める際に用いる平均音源特性は、「音素」,「類似音素」,「有声音区間/無声音区間」および「音声区間全体」毎に求めてある。したがって、特徴メモリ６や周波数ワープ表メモリ９に保存されている変換先話者Ｔの発声データの量に応じて、適切な区分での平均周波数ワーピング関数や平均スペクトル傾きや平均音源特性を用いることによって、変換先話者Ｔの学習用発声データの量が少ない場合でも対処することができる。すなわち、本実施の形態によれば、変換先話者Ｔの発声負担を軽減することができるのである。さらに、音素毎および類似音素毎の平均周波数ワーピング関数や平均スペクトル傾きや平均音源特性を求めることによって、発声癖に起因する個人差を正規化することができる。
【００６８】
尚、上記実施の形態においては、変換先話者の声質での音声合成時には、スペクトル包絡変換部１０,スペクトル傾き変換部１１および音源特性変換部１２に対して発声指示音素を指定するようにしている。しかしながら、この発明における発声指示音素の指定方法はこれに限るものではなく、次のように、変換元話者による発声によって直接指定することも可能である。
【００６９】
すなわち、上記波形分析部１に対して、発声指示音素を変換元話者による発声で入力する。そして、音声認識部５によって、スペクトル包絡抽出部２からのスペクトル包絡と波形分析部１からの韻律情報との時系列に基づいて音声認識を行ない、認識結果の音素系列とその音素区間の韻律情報とを発声指示情報としてスペクトル包絡変換部１０,スペクトル傾き変換部１１および音源特性変換部１２に入力するのである。そうすることによって、スペクトル包絡変換部１０及びスペクトル傾き変換部１１では、入力音素系列に従って該当音素の平均周波数ワーピング関数や平均スペクトル傾きを読み出す。一方、音源特性変換部１２では、入力韻律情報に従って該当音素の音源特性を読み出すのである。こうすることによって、変換元話者による発声がリアルタイムで声質変換される。
【００７０】
また、上記実施の形態においては、予め、変換元話者と変換先話者との同一音素の平均スペクトル包絡を求め、その平均スペクトル包絡を用いて非線形周波数軸スペクトルマッチングを行って平均周波数ワーピング関数を求めている。しかしながら、同一音素の個々のスペクトル包絡を用いて非線形周波数軸スペクトルマッチングを行って周波数ワーピング関数を求め、その周波数ワーピング関数を同一音素内で平均して平均周波数ワーピング関数を求めても差し支えない。
【００７１】
＜第２実施の形態＞
図８は、本実施の形態の声質変換装置におけるブロック図である。図８において、波形分析部２１,音源特性抽出部２３,音源特性変換部３０および波形合成部３２は、第１実施の形態において図１に示す声質変換装置の波形分析部１,音源特性抽出部４,音源特性変換部１２および波形合成部１４と同様な構成を有して同様に動作する。
【００７２】
声道断面積抽出部２２は、波形分析部１で抽出された自己相関分析あるいは共分散分析に基づいて、図９(b),(d)に示すような声門から唇に掛けての声道断面積を抽出する。尚、図９(a),(c)は、音源特性抽出部２３で抽出された音源特性を示す。音声認識部２４は、声道断面積抽出部２２で抽出された声道断面積と波形分析部２１で抽出された韻律情報(パワーやピッチ周波数等)の時系列に基づいて音声認識を行なう。特徴メモリ２５は、上記抽出された声道断面積および音源特性を、音素ラベルを付与して格納する。
【００７３】
平均化部２６は、上記特徴メモリ２５に格納されている話者毎の各音素の声道断面積および音源特性に対して、音素,類似音素,有声音区間/無声音区間および音声区間全体(話者)毎に平均値の算出を行う。そして、得られた平均声道断面積および平均音源特性を、対応する音素名,類似音素名,有声音区間/無声音区間あるいは音声区間全体(話者)のラベルを付与して特徴メモリ２５に格納させる。さらに、後に声道軸ワープ表メモリ２８に格納される話者毎の各音素の声道軸ワーピング関数に対して、上記類似音素,有声音区間/無声音区間および音声区間全体毎に平均値の算出を行う。そして、得られた平均声道軸ワーピング関数を、対応する類似音素名,有声音区間/無声音区間あるいは音声区間全体のラベルを付与して声道軸ワープ表メモリ２８に格納させる。
【００７４】
非線形声道軸マッチング部２７は、上記第１実施の形態における非線形周波数軸スペクトルマッチング部８の場合と同様に、動的計画法による非線形声道軸マッチングによって、各音素毎に、図１０(a)に示すように、特徴メモリ２５に格納された変換元話者Ｓの平均声道断面積と変換先話者Ｔの平均声道断面積とのマッチングを行なう。そして、図１０(b)に示すような声道軸ワーピング関数を求めて、音素名を付与して声道軸ワープ表メモリ２８に格納させるのである。尚、図１０(c)は、平均化部２６によって算出された平均声道軸ワーピング関数である(加算値代用)。
【００７５】
声道断面積変換部２９は、発声指示に対応する音素の変換元話者Ｓの声道断面積を特徴メモリ２５から読み出す一方、声道軸ワープ表メモリ２８から当該音素の声道軸ワーピング関数を読み出す。そして、上記声道軸ワーピング関数を利用して、図１１に示すようにして、変換元話者Ｓの声道断面積を変換先話者Ｔの声道断面積(変形声道断面積)に変換する。そして、スペクトル合成部３１は、声道断面積変換部２９からの変形声道断面積と音源特性変換部３０からの変形音源特性とを用いて、基本周波数の高周波数に亘るスペクトル強度を求めることによって、合成スペクトルを求めるのである。
【００７６】
このように、第２の実施の形態においては、上記第１実施の形態におけるスペクトル包絡の代りにスペクトル包絡との関連性の高い声道断面積を用い、変換元話者の声道断面積の声道軸を非線形伸縮して変換先話者の声道断面積を求めるようにしている。したがって、上記第１実施の形態の場合と同様に、従来のフォルマント周波数に基づく声質変換方法やスペクトル包絡のピーク点間の分割点に基づく声質変換方法のごとくスペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることはないのである。
【００７７】
尚、上記各実施の形態においては、上記音声単位として音素を用いているが、音節であっても適用可能である。
【００７８】
ところで、上記各実施の形態における波形分析部１・２１,スペクトル包絡抽出部２,スペクトル傾き抽出部３,声道断面積抽出部２２,音源特性抽出部４・２３,音声認識部５・２４,平均化部７・２６,非線形周波数軸スペクトルマッチング部８,非線形声道軸マッチング部２７,スペクトル包絡変換部１０,スペクトル傾き変換部１１,声道断面積変換部２９,音源特性変換部１２・３０,スペクトル合成部１３・３１および波形合成部１４・３２による上記声質変換処理機能は、プログラム記録媒体に記録された声質変換処理処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)等でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから声質変換処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記ＲＡＭに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからＲＡＭの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【００７９】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやＣＤ(コンパクトディスク)−ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディスク),ＤＶＤ(ディジタルビデオディスク)等の光ディスクのディスク系、ＩＣ(集積回路)カードや光カード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【００８０】
また、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【００８１】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【００８２】
【発明の効果】
以上より明らかなように、第１の発明の声質変換装置は、スペクトル包絡抽出手段によって第１,第２話者の発声に基づく第１,第２スペクトル包絡を抽出し、非線形周波数軸スペクトルマッチング手段によって、同一音素ラベルに関して動的計画法を用いた非線形な周波数伸縮マッチングを行って、第１,第２スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求め、スペクトル包絡変換手段によって、指定された音素名の第１スペクトル包絡を上記周波数ワーピング関数に基づいて第２話者に関するスペクトル包絡に変換するので、上記指定された音素名の第１話者による第１スペクトル包絡の周波数軸を上記周波数軸の対応付けに従って非線形伸縮して、第２話者による音声を得ることができる。
【００８３】
したがって、この発明によれば、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換を行うことができる。
【００８４】
さらに、平均化手段によって、上記周波数ワーピング関数を音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループ別に平均値を算出して平均周波数ワーピング関数を求め、上記スペクトル包絡変換手段は、指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっているので、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも精度の高い声質変換を行うことができ、変換先話者の発声負担を軽減できる。さらに、上記音素毎及び類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差を正規化できる。
【００８５】
また、上記第１の発明の声質変換装置は、スペクトル傾き抽出手段によって第１,第２話者の発声に基づく第１,第２スペクトル包絡の傾きを抽出し、スペクトル傾き補正手段によって、指定された音素名の第１,第２スペクトル包絡の傾きの差に基づいて、上記スペクトル包絡変換手段によって得られた上記第２話者に関するスペクトル包絡の傾きを補正すれば、上記得られた第２話者に関するスペクトル包絡の傾きを補正して、より第２話者の声質に近い音声を得ることができる。
【００８６】
また、上記第１の発明の声質変換装置は、上記音声単位を音素とし、平均化手段によって、第１スペクトル包絡の傾きおよび第２スペクトル包絡の傾きを音素,類似音素,有声音区間/無声音区間及び話者毎にグループ化し、各グループ別に平均値を算出して平均スペクトル傾きを求め、上記スペクトル傾き補正手段を、指定された音素名に関する上記第１メモリ手段に格納された第２スペクトル包絡の傾きの数に応じて、上記指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるように成せば、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均スペクトル傾きを選択して上記スペクトル包絡の傾きの代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも精度の高い声質変換を行なうことができる。さらに、上記音素毎および類似音素毎の平均スペクトル傾きを求めることによって、発声癖に起因する個人差を正規化できる。
【００８７】
また、上記第１の発明の声質変換装置は、音声認識手段によって、上記抽出された第１スペクトル包絡または第２スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音素名を上記第１メモリ手段に送出するようにすれば、上記ラベル用の音素名を第１,第２スペクトル包絡から自動的に得ることができる。したがって、上記スペクトル包絡あるいはスペクトル包絡の傾きに対するラベル付け処理を容易に行うことができる。
【００８８】
また、上記第１の発明の声質変換装置は、上記音声認識手段によって得られた音素名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給し、上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段では、上記音素名の時系列を上記指定された音素名として用いれば、上記声質変換させる音素名を、変換元である第１話者の発声音によって直接指定することができる。
【００８９】
したがって、キーボード等から声質変換すべき音素名列を入力する必要がなく、上記第１話者の発声音を上記第２話者の音質での音声に直接リアルタイムに変換することができる。
【００９０】
また、第２の発明の声質変換装置は、声道断面積抽出手段によって第１,第２話者の発声に基づく第１,第２声道断面積を抽出し、非線形声道軸マッチング手段によって、同一音素ラベルに関して動的計画法を用いた非線形な声道軸伸縮マッチングを行って、第１,第２声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求め、声道断面積変換手段によって、指定された音素名の第１声道断面積を上記声道軸ワーピング関数に基づいて第２話者に関する声道断面積に変換するので、上記指定された音素名の第１話者による第１声道断面積の声道軸を上記声道軸の対応付けに従って非線形伸縮して、第２話者による声道断面積を得ることができる。そして、この第２話者による声道断面積に基づいて第２話者による音声を得ることができるのである。
【００９１】
したがって、この発明によれば、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換を行うことができる。
【００９２】
さらに、平均化手段によって、上記声道軸ワーピング関数を音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループ別に平均値を算出して平均声道軸ワーピング関数を求め、上記声道断面積変換手段は、指定された音素名に関する上記抽出された第２声道断面積の数に応じて、上記指定された音素が属する何れかのグループの平均声道軸ワーピング関数を上記声道軸ワーピング関数として用いるので、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均声道軸ワーピング関数を選択して上記声道軸ワーピング関数の代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも精度の高い声質変換を行うことができ、変換先話者の発声負担を軽減できる。さらに、上記音素毎及び類似音素毎の平均声道軸ワーピング関数を求めることによって、発声癖に起因する個人差を正規化できる。
【００９３】
また、第３の発明の声質変換方法は、上記第１,第２話者の発声音から第１,第２スペクトル包絡を抽出し、上記抽出された上記第１,第２スペクトル包絡に対して動的計画法を用いた非線形な周波数伸縮マッチングを行って上記周波数ワーピング関数を求め、指定された音素名の第１スペクトル包絡を上記周波数ワーピング関数に基づいて第２話者に関するスペクトル包絡に変換するので、上記請求項１の場合と同様に、指定された音素名の第１話者による第１スペクトル包絡の周波数軸を非線形伸縮することによって、第２話者による声質の音声を得ることができる。
【００９４】
したがって、第１話者による第１スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【００９５】
さらに、上記周波数ワーピング関数を音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループ別に平均値を算出して平均周波数ワーピング関数を求め、上記スペクトル包絡変換の際には、指定された音素名に関する上記抽出された第２スペクトル包絡の数に応じて、上記指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるので、上記第１メモリ手段に保存されている第２話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。したがって、第２話者の発声データの量が少ない場合でも精度の高い声質変換を行うことができ、変換先話者の発声負担を軽減できる。さらに、上記音素毎及び類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差を正規化できる。
【００９６】
また、上記第３の発明の声質変換方法は、上記第１,第２話者の発声音から第１,第２スペクトル包絡の傾きを抽出し、上記指定された音素名の第１,第２スペクトル包絡の傾きの差に基づいて上記得られた第２話者に関するスペクトル包絡の傾きを補正すれば、より第２話者の声質に近い音声を得ることができる。
【００９７】
また、第４の発明のプログラム記録媒体は、コンピュータを、上記第１の発明におけるスペクトル包絡抽出手段,非線形周波数軸スペクトルマッチング手段,スペクトル包絡変換手段,平均化手段 ,スペクトル傾き抽出手段およびスペクトル傾き補正手段として機能させる声質変換処理プログラムを記録しているので、指定された音素名の第１話者による第１スペクトル包絡の周波数軸を非線形伸縮して、第２話者に関するスペクトル包絡を得ることができる。さらに、得られた第２話者に関するスペクトル包絡の傾きを、第１,第２スペクトル包絡の傾きの差に基づいて補正することができる。したがって、第１話者による第１スペクトル包絡の特定位置の抽出精度によって音質が影響されることはなく、精度の高い声質変換を行うことができる。
【００９８】
さらに、上記抽出された第２話者の発声データの量に応じて、音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎のグループのうち適切なグループの平均周波数ワーピング関数を選択して上記スペクトル包絡の変換の際に用いることができる。したがって、第２話者の発声データの量が少ない場合でも対処することができる。さらに、上記音素毎および類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差を正規化することができる。
【図面の簡単な説明】
【図１】この発明の声質変換装置におけるブロック図である。
【図２】スペクトル包絡,スペクトル傾き,音源特性の例を示す図である。
【図３】図１に示す声質変換装置による声質変換処理動作のフローチャートである。
【図４】図３に続く声質変換処理動作のフローチャートである。
【図５】図４に続く声質変換処理動作のフローチャートである。
【図６】動的計画法による非線形周波数軸スペクトルマッチングの概念を示す図である。
【図７】スペクトル包絡正規化の概念図である。
【図８】図１とは異なる声質変換装置におけるブロック図である。
【図９】声道断面積,音源特性の例を示す図である。
【図１０】動的計画法による声道軸マッチングの概念を示す図である。
【図１１】変形声道断面積の概念図である。
【符号の説明】
１,２１…波形分析部、
２…スペクトル包絡抽出部、
３…スペクトル傾き抽出部、
４,２３…音源特性抽出部、
５,２４…音声認識部、
６,２５…特徴メモリ、
７,２６…平均化部、
８…非線形周波数軸スペクトルマッチング部、
９…周波数ワープ表メモリ、
１０…スペクトル包絡変換部、
１１…スペクトル傾き変換部、
１２,３０…音源特性変換部、
１３,３１…スペクトル合成部、
１４,３２…波形合成部、
２２…声道断面積抽出部、
２７…非線形声道軸マッチング部、
２８…声道軸ワープ表メモリ、
２９…声道断面積変換部。

Claims

第１話者の声質での音声を第２話者の声質での音声に変換する声質変換装置であって、
上記第１話者が発声した第１音声から第１スペクトル包絡を抽出する一方、第２話者が発声した２音声から第２スペクトル包絡を抽出するスペクトル包絡抽出手段と、
上記抽出された第１スペクトル包絡および第２スペクトル包絡を、音声単位としての音素のラベルを付与して格納する第１メモリ手段と、
同一ラベルに関して、上記第１メモリに格納された上記第１スペクトル包絡と第２スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って、両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求める非線形周波数軸スペクトルマッチング手段と、
上記周波数ワーピング関数を、音素のラベルを付与して格納する第２メモリ手段と、
指定された音素名の第１スペクトル包絡を上記第１メモリから読み出す一方、上記指定された音素名の周波数ワーピング関数を上記第２メモリから読み出して、この読み出された周波数ワーピング関数に基づいて、上記読み出された第１スペクトル包絡を第２話者に関するスペクトル包絡に変換するスペクトル包絡変換手段と、
上記第２メモリ手段に格納された周波数ワーピング関数を上記ラベルに基づいて音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループに属する周波数ワーピング関数の平均値を算出し、得られた平均周波数ワーピング関数を各グループ名のラベルを付与して上記第２メモリ手段に格納させる平均化手段を備えると共に、
上記スペクトル包絡変換手段は、上記指定された音素名に関する上記第１メモリ手段に格納された第２スペクトル包絡の数に応じて、上記指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっていることを特徴とする声質変換装置。
請求項１に記載の声質変換装置において、
上記非線形周波数軸スペクトルマッチング手段は、上記非線形な周波数伸縮マッチングを行うに際して、上記第１スペクトル包絡と第２スペクトル包絡とに関して、夫々のスペクトル包絡を周波数帯域で複数チャネルに分割した際における隣接チャネル間の出力値の差を用いることを特徴とする声質変換装置。
請求項１あるいは請求項２に記載の声質変換装置において、
上記第１メモリ手段は、上記第１スペクトル包絡および第２スペクトル包絡の傾きをも音声単位としての音素のラベルを付与して格納するようになっており、
上記第１話者が発声した第１音声から第１スペクトル包絡の傾きを抽出する一方、第２話者が発声した２音声から第２スペクトル包絡の傾きを抽出して上記第１メモリ手段に格納させるスペクトル傾き抽出手段と、
指定された音素名の第１スペクトル包絡の傾きと第２スペクトル包絡の傾きとを上記第１メモリ手段から読み出して、両傾きの差に基づいて、上記スペクトル包絡変換手段によって得られた上記第２話者に関するスペクトル包絡の傾きを補正するスペクトル傾き補正手段を備えたことを特徴とする声質変換装置。
請求項３に記載の声質変換装置において、
上記音声単位は音素であり、
上記第１メモリ手段に格納された第１スペクトル包絡の傾きおよび第２スペクトル包絡の傾きを上記ラベルに基づいて音素,類似音素,有声音区間/無声音区間および話者毎にグループ化し、各グループに属するスペクトル包絡の傾きの平均値を算出し、得られた平均スペクトル傾きを各話者名および各グループ名のラベルを付与して上記第１メモリ手段に格納させる平均化手段を備えると共に、
上記スペクトル傾き補正手段は、指定された音素名に関する上記第１メモリ手段に格納された第２スペクトル包絡の傾きの数に応じて、上記指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるようになっていることを特徴とする声質変換装置。
請求項１乃至請求項３の何れか一つに記載の声質変換装置において、
上記抽出された第１スペクトル包絡あるいは第２スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音素名を上記第１メモリ手段に送出する音声認識手段を備えたことを特徴とする声質変換装置。
請求項５に記載の声質変換装置において、
上記音声認識手段は、得られた音素名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給可能になっており、
上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段は、上記音声認識手段によって得られた音素名の時系列を上記指定された音素名とするようになっていることを特徴とする声質変換装置。
請求項１に記載の声質変換装置において、
上記平均化手段は、平均値算出の対象となる周波数ワーピング関数間の線形変換を行なうことによって上記平均周波数ワーピング関数を算出するようになっていることを特徴とする声質変換装置。
請求項７に記載の声質変換装置において、
上記周波数ワーピング関数は、上記第１スペクトル包絡と第２スペクトル包絡とを同一周波数帯域で複数チャネルに分割した際における上記第１ , 第２スペクトルのチャネルから成る平面上におけるＤＰパスに相当する格子点とその他の格子点とに異なる要素値が与えられたマトリクス状のデータ形式を有し、
上記周波数ワーピング関数間の線形変換は、上記平均値算出の対象となる周波数ワーピング関数に相当する複数のマトリクスにおける同一格子点の要素値の和を求め、得られた値を要素値とするマトリクスを上記平均周波数ワーピング関数とすることを特徴とする声質変換装置。
請求項８に記載の声質変換装置において、
上記スペクトル包絡変換手段は、上記第２スペクトル包絡のある周波数帯域における強度に変換する場合には、使用する平均周波数ワーピング関数のマトリクスにおける上記第２スペクトル包絡の該当チャネルに関する行または列の格子点において、各格子点の要素値と当該格子点に対応する上記第１スペクトル包絡のチャネルにおける強度との積和を求め、この積和の値を上記第２スペクトル包絡の当該周波数帯域における強度とすることを特徴とする声質変換装置。
第１話者の声質での音声を第２話者の声質での音声に変換する声質変換装置であって、
上記第１話者が発声した第１音声から第１声道断面積を抽出する一方、第２話者が発声した２音声から第２声道断面積を抽出する声道断面積抽出手段と、
上記抽出された第１声道断面積および第２声道断面積を、音声単位としての音素のラベルを付与して格納する第１メモリ手段と、
同一ラベルに関して、上記第１メモリに格納された上記第１声道断面積と第２声道断面積とに対して動的計画法を用いた非線形な声道軸伸縮マッチングを行って、両声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求める非線形声道軸マッチング手段と、
上記声道軸ワーピング関数を、音素のラベルを付与して格納する第２メモリ手段と、
指定された音素名の第１声道断面積を上記第１メモリから読み出す一方、上記指定された音素名の声道軸ワーピング関数を上記第２メモリから読み出して、この読み出された声道軸ワーピング関数に基づいて、上記読み出された第１声道断面積を第２話者に関する声道断面積に変換する声道断面積変換手段と、
上記第２メモリ手段に格納された声道軸ワーピング関数を上記ラベルに基づいて音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループに属する声道軸ワーピング関数の平均値を算出し、得られた平均声道軸ワーピング関数を各グループ名のラベルを付与して上記第２メモリ手段に格納させる平均化手段を備えると共に、
上記声道断面積変換手段は、上記指定された音素名に関する上記第１メモリ手段に格納された第２声道断面積の数に応じて、上記指定された音素が属する何れかのグループの平均声道軸ワーピング関数を上記声道軸ワーピング関数として用いるようになっていることを特徴とする声質変換装置。
第１話者の声質での音声を第２話者の声質での音声に変換する声質変換方法であって、
上記第１話者が発声した第１音声から第１スペクトル包絡を抽出する一方、第２話者が発声した２音声から第２スペクトル包絡を抽出するステップと、
同一の音素名に関して、上記抽出された上記第１スペクトル包絡と第２スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って、両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求めるステップと、
指定された音素名の第１スペクトル包絡を、上記指定された音素名の周波数ワーピング関数に基づいて、第２話者に関するスペクトル包絡に変換するステップと、
上記周波数ワーピング関数を上記音素名に基づいて音素 , 類似音素 , 有声音区間 / 無声音区間および話者毎にグループ化し、各グループに属する周波数ワーピング関数の平均値を算出し、得られた平均周波数ワーピング関数に各グループ名のラベルを付与するステップを備えると共に、
上記第１スペクトル包絡を第２話者に関するスペクトル包絡に変換するステップでは、上記指定された音素名に関する上記抽出された第２スペクトル包絡の数に応じて、上記指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっていることを特徴とする声質変換方法。
請求項１１に記載の声質変換方法において、
上記第１話者が発声した第１音声から第１スペクトル包絡の傾きを抽出する一方、上記第２話者が発声した２音声から第２スペクトル包絡の傾きを抽出するステップと、
上記指定された音素名の第１スペクトル包絡の傾きと第２スペクトル包絡の傾きとの差に基づいて、上記得られた第２話者に関するスペクトル包絡の傾きを補正するステップを備えたことを特徴とする声質変換方法。
コンピュータを、
請求項１におけるスペクトル包絡抽出手段 , 非線形周波数軸スペクトルマッチング手段 , スペクトル包絡変換手段 , 平均化手段および請求項３におけるスペクトル傾き抽出手段 , スペクトル傾き補正手段
として機能させる声質変換処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。