JPH11501409A

JPH11501409A - 話し言葉の合成

Info

Publication number: JPH11501409A
Application number: JP8526713A
Authority: JP
Inventors: ロウリー、アンドリュー; ブリーン、アンドリュー; ジャクソン、ピーター
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-03-07
Filing date: 1996-03-07
Publication date: 1999-02-02
Also published as: KR19980702608A; CA2213779A1; EP0813733B1; MX9706349A; NZ303239A; WO1996027870A1; DE69631037D1; EP0813733A1; NO974100L; DE69631037T2; US5978764A; CA2213779C; AU699837B2; NO974100D0; AU4948896A

Abstract

(57)【要約】記録された言語波形の部分（例えば、音素に対応するもの）を結合して単語を合成する。一層滑らかな伝達を行うために、波形部分の各音声を含む部分は、所定の基準レベルに調節された振幅をもたせる。使用されるスケーリングファクタは、音声を含む部分間および音声を含む部分と音声を含まない部分との間の遷移領域において次第に変化していく。

Description

【発明の詳細な説明】話し言葉の合成言語合成の一方法は、時間領域内の小さいユニットの言語の連結を含む。したがって合成、すなわち連結する言語にしたがって音素、ジフォーン（二音）(dip hone)、またはトライフォーン（三音）(triphone)のような小さいユニット−すなわち単語よりも小さいユニットのような言語波形表現を選択して、記憶することができる。連結後に、既知の方法を使用して、複合波形を調節して、ピッチおよび信号位相の継続を保証することができる。しかしながら、合成して生成された言語の知覚した品質に影響を与える別のファクタ（因子）はユニットの振幅であり；とくに記憶されたデータから抽出されたユニットの長さは変化する可能性があるので、波形を予め処理する−すなわち記憶する前に振幅を調節しても、この問題を解決できないことが分かっている。本発明によると、 −言語波形表示を含むメモリと；一所望の音声(sound)へ音素表示を入力する動作に応答して、メモリから該所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と； −言語波形の選択したユニットを連結する手段とを含み、所定の基準レベルに対して少なくとも音声を含む部分の振幅を調節する手段によって特徴付けられる言語合成装置が提供される。ここで本発明の１例を添付の図面を参照して例示的に説明する。図１は、本発明にしたがう言語合成の１例のブロック図である。図２は、合成動作を説明するフローチャートである。図３は、タイミング図である。図１の言語合成装置において、メモリ１は、最初に全ての（または少なくとも幅広い選択肢の）可能性のある異なる音声(sound)を含むように選択した一纏まりの文(passage)（約２００文程度）をある話者が読んで録音したものをデジタル化して生成した言語波形セクション（部分）を含む。加えて、各セクションは記憶されたデータであり、最初の録音中に通常の方法で生成された信号内の声門閉鎖点を示す“ピッチマーク”を定めている。合成される言語を表わす入力信号は、音素表示の形式で入力２へ供給される。この入力は、所望の場合には通常の手段（図示されていない）によってテキスト入力から生成することができる。この入力は既知の方法で選択ユニット３によって処理されて、各入力ユニットに対して、そのユニットによって表わされる音声に対応する記憶された波形セクションのメモリ１内のアドレスを決める。このユニットは、上記のように、音素、ジフォーン、トライフォーン、または他のサブワードユニットであってもよいが、一般にユニットの長さは波形メモリ内で対応する波形セクションが得られるかどうかにしたがって変えることができる。このユニットは読取られると、連結され（参照符号４）、連結された波形は望ましいピッチ調節にかけられる（参照符号５）。この連結の前に、各ユニットは個々に振幅調節部６で振幅正規化処理を受ける。ここでその動作をより詳細に記載する。基本的な目的は、別の処理を適用する前に、各ユニットの音声を含む部分（有声部分）を固定ＲＭＳレベルに正規化することである。基準レベルメモリ８は、選択したユニットを表わすラベルによって正規化プロセスで使用される適切なＲＭＳレベルを判断することができる。音声を含まない部分（無声部分）は調節しないが、音声を含む部分と音声を含まない部分との間の遷移を滑らかにして急に途切れるのを避けることができる。この方法は、ユニット選択および連結手順の動作に基いて生成された。選択したユニットは長さと、それらが取上げられるコンテキストを変えることができる。このことは、隣接するユニットの長さ、コンテキスト、および発声の特徴が併合アルゴリズムに影響を与え、したがって接合部にまたがる振幅変動に影響を与えるので前処理を困難にする。この情報は、各ユニットが選択されるので走行時間でのみ分かる。併合後の後処理も同じ程度に困難である。振幅調節部の第１のタスクは、ユニットの音声を含む部分（それがある場合に）を識別することである。これは発声検出器７の助けを借りて、信号内の声門閉鎖点を示すピッチタイミングマークを使用し、連続するマーク間の距離によって信号の基本周波数を判断して達成される。ピッチマークのタイミングを表わす（波形メモリ１からの）データは発声検出器７によって受信され、それは最低予想基本周波数に対応する最大の分離を参照して、この最大値よりも短い距離だけ分離している一連のピッチマークが音声を含む部分を構成すると考えることによって、ユニットの音声を含む部分（有声部）を識別する。音声を含む部分は、その最初（または最後の）ピッチマークが言語ユニットの最初（または最後）の最大値内にあり、それぞれがユニットの最初に始まるかまたはユニットの最後に終了すると考えられる。この識別段階は、図２に示されたフローチャート内の段階10として示されている。次に振幅調節部６は、音声を含む部分、例えば図３のタイミング図に示された部分Ｂの波形のＲＭＳ値、およびＲＭＳによって除算された固定基準値に等しいスケールファクタＳを計算する（段階11）。固定基準値は全ての言語部分に対して同じであるとするか、または言語部分の特定のサブセットに対して２以上の基準値を使用てもよい。例えば、異なる音素を異なる基準値に割当てることができる。音声を含む部分が２つの異なるサブセット間の境界を横切って発生するときは、ＲＭＳによって除算された各固定基準値の加重された和としてスケールファクタＳを計算することができる。適切な加重は、各サブセット内にある音声を含む部分の割合にしたがって計算される。音声を含む部分内の全てのサンプル値はスケールファクタＳによって乗算される（図２の段階12）。音声を含む部分／音声を含まない部分の遷移を滑らかにするために、音声を含む部分の前の音声を含まない言語サンプルの最後の１０ｍｓは、この期間内で１からＳへ線形に変化するファクタＳ₁によって乗算される（段階13）。同様に、音声を含む部分の後に続く音声を含まない言語サンプルの最初の１０ｍｓは、Ｓから１へ線形に変化するファクタＳ₂によって乗算される（段階14）。フローチャート内のテスト15、1 6は、各音声を含む部分がそれぞれユニットの境界で始まるかまたは終了するときに、これらの段階が実行されないことを保証する。図３は、音声を含まない部分によって除算された３つの音声を含む部分Ａ、Ｂ、Ｃを有するユニットのスケーリング手順を示している。部分Ａはユニットの始めにあたるので、ランプインセグメントは含まないが、ランプアウトセグメントを含む。部分Ｂはユニット内で始まって終了するので、ランプインセグメントとランプアウトセグメントとを含む。部分Ｃはユニット内で始まるが、ユニットの最後まで継続するので、ランプインセグメントを含むが、ランプアウトは含まない。このスケーリングプロセスは、２以上の音声を含む部分があるとき、各部分に適用されると理解される。振幅調整装置は専用ハードウエアで実現することができるが、好ましくは図２のフローチャートにしたがって実行する記憶されたプログラム制御プロセッサによって形成される。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９７年２月２８日【補正内容】明細書話し言葉の合成言語合成の一方法は、時間領域内の小さいユニットの言語の連結を含む。したがって合成、すなわち連結する言語にしたがって音素、ジフォーン（二音）(dip hone)、またはトライフォーン（三音）(triphone)のような小さいユニット−すなわち単語よりも小さいユニットのような言語波形表現を選択して、記憶することができる。連結後に、既知の方法を使用して、複合波形を調節して、ピッチおよび信号位相の継続を保証することができる。しかしながら、合成して生成された言語の知覚した品質に影響を与える別のファクタ（因子）はユニットの振幅であり；とくに記憶されたデータから抽出されたユニットの長さは変化する可能性があるので、波形を予め処理する−すなわち記憶する前に振幅を調節しても、この問題を解決できないことが分かっている。欧州特許出願第 0 427 485号明細書では、言語セグメントを連結して入力テキストに対応する合成言語を与える言語合成装置および方法を開示している。使用するセグメントは、いわゆるＶＣＶ（母音−子音−母音）セグメントであり、連結したときに互いに隣接する母音の強さ（パワー）は、その母音の記憶された基準の強さに正規化される。 Shadle他による文献（"Speech synthesis by linear interporation of spect ral parameters between dyad boundaries"）（Journal of tne Acoustics Soci ety of America，vol.66，no.5，1979年11月，New York，US発行）では、言語を合成するときに１対の境界にスペクトルパラメータを挿入することによって生じる劣化(degradation)を記載している。本発明によると、 −言語波形表示を含むメモリと； −所望の音声(sound)へ音素表示を入力する動作に応答して、メモリから該所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と； −言語波形の選択したユニットを連結する手段とを含み、所定の基準レベルに対して少なくとも音声を含む部分の振幅を調節する手段によって特徴付けられる言語合成装置が提供される。ここで本発明の１例を添付の図面を参照して例示的に説明する。図１は、本発明にしたがう言語合成の１例のブロック図である。図２は、合成動作を説明するフローチャートである。図３は、タイミング図である。図１の言語合成装置において、メモリ１は、最初に全ての（または少なくとも幅広い選択肢の）可能性のある異なる音声(sound)を含むように選択した一纏まりの文(passage)（約２００文程度）をある話者が読んで録音したものをデジタル化して生成した言語波形セクション（部分）を含む。加えて、各セクションは記憶されたデータであり、最初の録音中に通常の方法で生成された信号内の声門閉鎖点を示す“ピッチマーク”を定めている。合成される言語を表わす入力信号は、音素表示の形式で入力２へ供給される。この入力は、所望の場合には通常の手段（図示されていない）によってテキスト入力から生成することができる。この入力は既知の方法で選択ユニット３によって処理されて、各入力ユニットに対して、そのユニットによって表わされる音声に対応する記憶された波形セクションのメモリ１内のアドレスを決める。このユニットは、上記のように、音素、ジフォーン、トライフォーン、または他のサブワードユニットであってもよいが、一般にユニットの長さは波形メモリ内で対応する波形セクションが得られるかどうかにしたがって変えることができる。このユニットは読取られると、連結され（参照符号４）、連結された波形は望ましいピッチ調節にかけられる（参照符号５）。この連結の前に、各ユニットは個々に振幅調節部６で振幅正規化処理を受ける。ここでその動作をより詳細に記載する。基本的な目的は、別の処理を適用する前に、各ユニットの音声を含む部分（有声部分）を固定ＲＭＳレベルに正規化することである。基準レベルメモリ８は、選択したユニットを表わすラベルによって正規化プロセスで使用される適切なＲＭＳレベルを判断することができる。音声を含まない部分（無声部分）は調節しないが、音声を含む部分と音声を含まない部分との間の遷移を滑らかにして急に途切れるのを避けることができる。この方法は、ユニット選択および連結手順の動作に基いて生成された。選択したユニットは長さと、それらが取上げられるコンテキストを変えることができる。このことは、隣接するユニットの長さ、コンテキスト、および発声の特徴が併合アルゴリズムに影響を与え、したがって接合部にまたがる振幅変動に影響を与えるので前処理を困難にする。この情報は、各ユニットが選択されるので走行時間でのみ分かる。併合後の後処理も同じ程度に困難である。振幅調節部の第１のタスクは、ユニットの音声を含む部分（それがある場合に）を識別することである。これは発声検出器７の助けを借りて、信号内の声門閉鎖点を示すピッチタイミングマークを使用し、連続するマーク間の距離によって信号の基本周波数を判断して達成される。ピッチマークのタイミングを表わす（波形メモリ１からの）データは発声検出器７によって受信され、それは最低予想基本周波数に対応する最大の分離を参照して、この最大値よりも短い距離だけ分離している一連のピッチマークが音声を含む部分を構成すると考えることによって、ユニットの音声を含む部分（有声部）を識別する。音声を含む部分は、その最初（または最後の）ピッチマークが言語ユニットの最初（または最後）の最大値内にあり、それぞれがユニットの最初に始まるかまたはユニットの最後に終了すると考えられる。この識別段階は、図２に示されたフローチャート内の段階10 として示されている。次に振幅調節部６は、音声を含む部分、例えば図３のタイミング図に示された部分Ｂの波形のＲＭＳ値、およびＲＭＳによって除算された固定基準値に等しいスケールファクタＳを計算する（段階11）。固定基準値は全ての言語部分に対して同じであるとするか、または言語部分の特定のサブセットに対して２以上の基準値を使用てもよい。例えば、異なる音素を異なる基準値に割当てることができる。音声を含む部分が２つの異なるサブセット間の境界を横切って発生するときは、ＲＭＳによって除算された各固定基準値の加重された和としてスケールファクタＳを計算することができる。適切な加重は、各サブセット内にある音声を含む部分の割合にしたがって計算される。音声を含む部分内の全てのサンプル値はスケールファクタＳによって乗算される（図２の段階12）。音声を含む部分／音声を含まない部分の遷移を滑らかにするために、音声を含む部分の前の音声を含まない言語サンプルの最後の１０ｍｓは、この期間内で１からＳへ線形に変化するファクタＳ₁によって乗算される（段階13）。同様に、音声を含む部分の後に続く音声を含まない言語サンプルの最初の１０ｍｓは、Ｓから１へ線形に変化するファクタＳ₂によって乗算される（段階14）。フローチャート内のテスト15、1 6は、各音声を含む部分がそれぞれユニットの境界で始まるかまたは終了するときに、これらの段階が実行されないことを保証する。図３は、音声を含まない部分によって除算された３つの音声を含む部分Ａ、Ｂ、Ｃを有するユニットのスケーリング手順を示している。部分Ａはユニットの始めにあたるので、ランプインセグメントは含まないが、ランプアウトセグメントを含む。部分Ｂはユニット内で始まって終了するので、ランプインセグメントとランプアウトセグメントとを含む。部分Ｃはユニット内で始まるが、ユニットの最後まで継続するので、ランプインセグメントを含むが、ランプアウトは含まない。このスケーリングプロセスは、２以上の音声を含む部分があるとき、各部分に適用されると理解される。振幅調整装置は専用ハードウエアで実現することができるが、好ましくは図２のフローチャートにしたがって実行する記憶されたプログラム制御プロセッサによって形成される。請求の範囲１．一言語波形表示を含むメモリと； −所望の音声へ音素表示を入力する動作に応答して、メモリから該所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と； −選択したユニットの音声を含む部分を識別する手段と； −言語波形の選択したユニットを連結する手段と；を含み、所定の基準レベルに対してユニットの音声を含む部分の振幅を調節し、かつユニットの音声を含まない部分の少なくとも一部分を変更しないままにしておくように構成された手段によって特徴付けられる言語合成装置。２．言語波形の前記ユニットが、音素、ジフォーン、トライフォーン、および他のサブワードユニット間で変化する請求項１記載の言語合成装置。３．前記調節手段が、各スケーリングファクタによって前記または各音声を含む部分をスケールし、スケーリングファクタと１単位ユニットとの間の隣接部分の継続期間内で単調に変化するファクタによって当接する音声を含まない部分の隣接部分をスケーリングするように構成された請求項１記載の言語合成装置。４．複数の基準レベルを使用して、調節手段が各音声を含む部分に対して、その部分によって表わされる音声に依存して基準レベルを選択するように構成されている請求項１または３記載の言語合成装置。５．各音素には基準レベルが割当てられ、かつ２以上の音素からの波形セグメントを含む音声を含む部分には基準レベルとして、その中に含まれる音素に割当てられたレベルの加重された和であるものが割当てられ、セグメントの相対的な継続期間にしたがって加重される請求項４記載の言語合成装置。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ (72)発明者ブリーン、アンドリューイギリス国、アイピー４・２ユーティー、サフォーク、イプスウィッチ、ウエスターフィールド・ロード 50 (72)発明者ジャクソン、ピーターイギリス国、アイピー５・７エスワイ、サフォーク、イプスウィッチ、マートレスハム・ヒース、マナー・ロード 36

Claims

【特許請求の範囲】１．−言語波形表示を含むメモリと； −所望の音声へ音素表示を入力する動作に応答して、メモリから該所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と； −選択したユニットの音声を含む部分を識別する手段と； −言語波形の選択したユニットを連結する手段と；を含み、所定の基準レベルに対してユニットの音声を含む部分の振幅を調節し、かつユニットの音声を含まない部分の少なくとも一部分を変更しないままにしておくように構成された手段によって特徴付けられる言語合成装置。２．前記調節手段が、各スケーリングファクタによって前記または各音声を含む部分をスケールし、スケーリングファクタと１単位ユニットとの間の隣接部分の継続期間内で単調に変化するファクタによって当接する音声を含まない部分の隣接部分をスケーリングするように構成された請求項１記載の言語合成装置。３．複数の基準レベルを使用して、調節手段が各音声を含む部分に対して、その部分によって表わされる音声に依存して基準レベルを選択するように構成されている請求項１または２記載の言語合成装置。４．各音素には基準レベルが割当てられ、かつ２以上の音素からの波形セグメントを含む音声を含む部分には基準レベルとして、その中に含まれる音素に割当てられたレベルの加重された和であるものが割当てられ、セグメントの相対的な継続期間にしたがって加重される請求項３記載の言語合成装置。