JPH11501409A - 話し言葉の合成 - Google Patents

話し言葉の合成

Info

Publication number
JPH11501409A
JPH11501409A JP8526713A JP52671396A JPH11501409A JP H11501409 A JPH11501409 A JP H11501409A JP 8526713 A JP8526713 A JP 8526713A JP 52671396 A JP52671396 A JP 52671396A JP H11501409 A JPH11501409 A JP H11501409A
Authority
JP
Japan
Prior art keywords
language
unit
waveform
speech
reference level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8526713A
Other languages
English (en)
Inventor
ロウリー、アンドリュー
ブリーン、アンドリュー
ジャクソン、ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH11501409A publication Critical patent/JPH11501409A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Absorbent Articles And Supports Therefor (AREA)

Abstract

(57)【要約】 記録された言語波形の部分(例えば、音素に対応するもの)を結合して単語を合成する。一層滑らかな伝達を行うために、波形部分の各音声を含む部分は、所定の基準レベルに調節された振幅をもたせる。使用されるスケーリングファクタは、音声を含む部分間および音声を含む部分と音声を含まない部分との間の遷移領域において次第に変化していく。

Description

【発明の詳細な説明】 話し言葉の合成 言語合成の一方法は、時間領域内の小さいユニットの言語の連結を含む。した がって合成、すなわち連結する言語にしたがって音素、ジフォーン(二音)(dip hone)、またはトライフォーン(三音)(triphone)のような小さいユニット−す なわち単語よりも小さいユニットのような言語波形表現を選択して、記憶するこ とができる。連結後に、既知の方法を使用して、複合波形を調節して、ピッチお よび信号位相の継続を保証することができる。しかしながら、合成して生成され た言語の知覚した品質に影響を与える別のファクタ(因子)はユニットの振幅で あり;とくに記憶されたデータから抽出されたユニットの長さは変化する可能性 があるので、波形を予め処理する−すなわち記憶する前に振幅を調節しても、こ の問題を解決できないことが分かっている。 本発明によると、 −言語波形表示を含むメモリと; 一所望の音声(sound)へ音素表示を入力する動作に応答して、メモリから該 所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択 手段と; −言語波形の選択したユニットを連結する手段とを含み、所定の基準レベル に対して少なくとも音声を含む部分の振幅を調節する手段によって特徴付けられ る言語合成装置が提供される。 ここで本発明の1例を添付の図面を参照して例示的に説明する。 図1は、本発明にしたがう言語合成の1例のブロック図である。 図2は、合成動作を説明するフローチャートである。 図3は、タイミング図である。 図1の言語合成装置において、メモリ1は、最初に全ての(または少なくとも 幅広い選択肢の)可能性のある異なる音声(sound)を含むように選択した一纏ま りの文(passage)(約200文程度)をある話者が読んで録音したものをデジタ ル化して生成した言語波形セクション(部分)を含む。加えて、各セクションは 記憶されたデータであり、最初の録音中に通常の方法で生成された信号内の声門 閉鎖点を示す“ピッチマーク”を定めている。 合成される言語を表わす入力信号は、音素表示の形式で入力2へ供給される。 この入力は、所望の場合には通常の手段(図示されていない)によってテキスト 入力から生成することができる。この入力は既知の方法で選択ユニット3によっ て処理されて、各入力ユニットに対して、そのユニットによって表わされる音声 に対応する記憶された波形セクションのメモリ1内のアドレスを決める。このユ ニットは、上記のように、音素、ジフォーン、トライフォーン、または他のサブ ワードユニットであってもよいが、一般にユニットの長さは波形メモリ内で対応 する波形セクションが得られるかどうかにしたがって変えることができる。 このユニットは読取られると、連結され(参照符号4)、連結された波形は望 ましいピッチ調節にかけられる(参照符号5)。 この連結の前に、各ユニットは個々に振幅調節部6で振幅正規化処理を受ける 。ここでその動作をより詳細に記載する。基本的な目的は、別の処理を適用する 前に、各ユニットの音声を含む部分(有声部分)を固定RMSレベルに正規化す ることである。基準レベルメモリ8は、選択したユニットを表わすラベルによっ て正規化プロセスで使用される適切なRMSレベルを判断することができる。音 声を含まない部分(無声部分)は調節しないが、音声を含む部分と音声を含まな い部分との間の遷移を滑らかにして急に途切れるのを避けることができる。この 方法は、ユニット選択および連結手順の動作に基いて生成された。選択したユニ ットは長さと、それらが取上げられるコンテキストを変えることができる。この ことは、隣接するユニットの長さ、コンテキスト、および発声の特徴が併合アル ゴリズムに影響を与え、したがって接合部にまたがる振幅変動に影響を与えるの で前処理を困難にする。この情報は、各ユニットが選択されるので走行時間での み分かる。併合後の後処理も同じ程度に困難である。 振幅調節部の第1のタスクは、ユニットの音声を含む部分(それがある場合に )を識別することである。これは発声検出器7の助けを借りて、信号内の声門閉 鎖点を示すピッチタイミングマークを使用し、連続するマーク間の距離によって 信号の基本周波数を判断して達成される。ピッチマークのタイミングを表わす( 波形メモリ1からの)データは発声検出器7によって受信され、それは最低予想 基 本周波数に対応する最大の分離を参照して、この最大値よりも短い距離だけ分離 している一連のピッチマークが音声を含む部分を構成すると考えることによって 、ユニットの音声を含む部分(有声部)を識別する。音声を含む部分は、その最 初(または最後の)ピッチマークが言語ユニットの最初(または最後)の最大値 内にあり、それぞれがユニットの最初に始まるかまたはユニットの最後に終了す ると考えられる。この識別段階は、図2に示されたフローチャート内の段階10と して示されている。 次に振幅調節部6は、音声を含む部分、例えば図3のタイミング図に示された 部分Bの波形のRMS値、およびRMSによって除算された固定基準値に等しい スケールファクタSを計算する(段階11)。固定基準値は全ての言語部分に対し て同じであるとするか、または言語部分の特定のサブセットに対して2以上の基 準値を使用てもよい。例えば、異なる音素を異なる基準値に割当てることができ る。音声を含む部分が2つの異なるサブセット間の境界を横切って発生するとき は、RMSによって除算された各固定基準値の加重された和としてスケールファ クタSを計算することができる。適切な加重は、各サブセット内にある音声を含 む部分の割合にしたがって計算される。音声を含む部分内の全てのサンプル値は スケールファクタSによって乗算される(図2の段階12)。音声を含む部分/音 声を含まない部分の遷移を滑らかにするために、音声を含む部分の前の音声を含 まない言語サンプルの最後の10msは、この期間内で1からSへ線形に変化す るファクタS1によって乗算される(段階13)。同様に、音声を含む部分の後に 続く音声を含まない言語サンプルの最初の10msは、Sから1へ線形に変化す るファクタS2によって乗算される(段階14)。フローチャート内のテスト15、1 6は、各音声を含む部分がそれぞれユニットの境界で始まるかまたは終了すると きに、これらの段階が実行されないことを保証する。 図3は、音声を含まない部分によって除算された3つの音声を含む部分A、B 、Cを有するユニットのスケーリング手順を示している。部分Aはユニットの始 めにあたるので、ランプインセグメントは含まないが、ランプアウトセグメント を含む。部分Bはユニット内で始まって終了するので、ランプインセグメントと ランプアウトセグメントとを含む。部分Cはユニット内で始まるが、ユニットの 最 後まで継続するので、ランプインセグメントを含むが、ランプアウトは含まない 。 このスケーリングプロセスは、2以上の音声を含む部分があるとき、各部分に 適用されると理解される。 振幅調整装置は専用ハードウエアで実現することができるが、好ましくは図2 のフローチャートにしたがって実行する記憶されたプログラム制御プロセッサに よって形成される。
【手続補正書】特許法第184条の8第1項 【提出日】1997年2月28日 【補正内容】 明細書 話し言葉の合成 言語合成の一方法は、時間領域内の小さいユニットの言語の連結を含む。した がって合成、すなわち連結する言語にしたがって音素、ジフォーン(二音)(dip hone)、またはトライフォーン(三音)(triphone)のような小さいユニット−す なわち単語よりも小さいユニットのような言語波形表現を選択して、記憶するこ とができる。連結後に、既知の方法を使用して、複合波形を調節して、ピッチお よび信号位相の継続を保証することができる。しかしながら、合成して生成され た言語の知覚した品質に影響を与える別のファクタ(因子)はユニットの振幅で あり;とくに記憶されたデータから抽出されたユニットの長さは変化する可能性 があるので、波形を予め処理する−すなわち記憶する前に振幅を調節しても、こ の問題を解決できないことが分かっている。 欧州特許出願第 0 427 485号明細書では、言語セグメントを連結して入力テキ ストに対応する合成言語を与える言語合成装置および方法を開示している。使用 するセグメントは、いわゆるVCV(母音−子音−母音)セグメントであり、連 結したときに互いに隣接する母音の強さ(パワー)は、その母音の記憶された基 準の強さに正規化される。 Shadle他による文献("Speech synthesis by linear interporation of spect ral parameters between dyad boundaries")(Journal of tne Acoustics Soci ety of America,vol.66,no.5,1979年11月,New York,US発行)では、言語を 合成するときに1対の境界にスペクトルパラメータを挿入することによって生じ る劣化(degradation)を記載している。 本発明によると、 −言語波形表示を含むメモリと; −所望の音声(sound)へ音素表示を入力する動作に応答して、メモリから該 所望の音声に対応する単語の部分を表示する言語波形のユニットを選択する選択 手段と; −言語波形の選択したユニットを連結する手段とを含み、所定の基準レベル に対して少なくとも音声を含む部分の振幅を調節する手段によって特徴付けられ る言語合成装置が提供される。 ここで本発明の1例を添付の図面を参照して例示的に説明する。 図1は、本発明にしたがう言語合成の1例のブロック図である。 図2は、合成動作を説明するフローチャートである。 図3は、タイミング図である。 図1の言語合成装置において、メモリ1は、最初に全ての(または少なくとも 幅広い選択肢の)可能性のある異なる音声(sound)を含むように選択した一纏ま りの文(passage)(約200文程度)をある話者が読んで録音したものをデジタ ル化して生成した言語波形セクション(部分)を含む。加えて、各セクションは 記憶されたデータであり、最初の録音中に通常の方法で生成された信号内の声門 閉鎖点を示す“ピッチマーク”を定めている。 合成される言語を表わす入力信号は、音素表示の形式で入力2へ供給される。 この入力は、所望の場合には通常の手段(図示されていない)によってテキスト 入力から生成することができる。この入力は既知の方法で選択ユニット3によっ て処理されて、各入力ユニットに対して、そのユニットによって表わされる音声 に対応する記憶された波形セクションのメモリ1内のアドレスを決める。このユ ニットは、上記のように、音素、ジフォーン、トライフォーン、または他のサブ ワードユニットであってもよいが、一般にユニットの長さは波形メモリ内で対応 する波形セクションが得られるかどうかにしたがって変えることができる。 このユニットは読取られると、連結され(参照符号4)、連結された波形は望 ましいピッチ調節にかけられる(参照符号5)。 この連結の前に、各ユニットは個々に振幅調節部6で振幅正規化処理を受ける 。ここでその動作をより詳細に記載する。基本的な目的は、別の処理を適用する 前に、各ユニットの音声を含む部分(有声部分)を固定RMSレベルに正規化す ることである。基準レベルメモリ8は、選択したユニットを表わすラベルによっ て正規化プロセスで使用される適切なRMSレベルを判断することができる。音 声を含まない部分(無声部分)は調節しないが、音声を含む部分と音声を含まな い部分との間の遷移を滑らかにして急に途切れるのを避けることができる。この 方法は、ユニット選択および連結手順の動作に基いて生成された。選択したユニ ッ トは長さと、それらが取上げられるコンテキストを変えることができる。このこ とは、隣接するユニットの長さ、コンテキスト、および発声の特徴が併合アルゴ リズムに影響を与え、したがって接合部にまたがる振幅変動に影響を与えるので 前処理を困難にする。この情報は、各ユニットが選択されるので走行時間でのみ 分かる。併合後の後処理も同じ程度に困難である。 振幅調節部の第1のタスクは、ユニットの音声を含む部分(それがある場合に )を識別することである。これは発声検出器7の助けを借りて、信号内の声門閉 鎖点を示すピッチタイミングマークを使用し、連続するマーク間の距離によって 信号の基本周波数を判断して達成される。ピッチマークのタイミングを表わす( 波形メモリ1からの)データは発声検出器7によって受信され、それは最低予想 基本周波数に対応する最大の分離を参照して、この最大値よりも短い距離だけ分 離している一連のピッチマークが音声を含む部分を構成すると考えることによっ て、ユニットの音声を含む部分(有声部)を識別する。音声を含む部分は、その 最初(または最後の)ピッチマークが言語ユニットの最初(または最後)の最大 値内にあり、それぞれがユニットの最初に始まるかまたはユニットの最後に終了 すると考えられる。この識別段階は、図2に示されたフローチャート内の段階10 として示されている。 次に振幅調節部6は、音声を含む部分、例えば図3のタイミング図に示された 部分Bの波形のRMS値、およびRMSによって除算された固定基準値に等しい スケールファクタSを計算する(段階11)。固定基準値は全ての言語部分に対し て同じであるとするか、または言語部分の特定のサブセットに対して2以上の基 準値を使用てもよい。例えば、異なる音素を異なる基準値に割当てることができ る。音声を含む部分が2つの異なるサブセット間の境界を横切って発生するとき は、RMSによって除算された各固定基準値の加重された和としてスケールファ クタSを計算することができる。適切な加重は、各サブセット内にある音声を含 む部分の割合にしたがって計算される。音声を含む部分内の全てのサンプル値は スケールファクタSによって乗算される(図2の段階12)。音声を含む部分/音 声を含まない部分の遷移を滑らかにするために、音声を含む部分の前の音声を含 まない言語サンプルの最後の10msは、この期間内で1からSへ線形に変化す るファクタS1によって乗算される(段階13)。同様に、音声を含む部分の後に 続く音声を含まない言語サンプルの最初の10msは、Sから1へ線形に変化す るファクタS2によって乗算される(段階14)。フローチャート内のテスト15、1 6は、各音声を含む部分がそれぞれユニットの境界で始まるかまたは終了すると きに、これらの段階が実行されないことを保証する。 図3は、音声を含まない部分によって除算された3つの音声を含む部分A、B 、Cを有するユニットのスケーリング手順を示している。部分Aはユニットの始 めにあたるので、ランプインセグメントは含まないが、ランプアウトセグメント を含む。部分Bはユニット内で始まって終了するので、ランプインセグメントと ランプアウトセグメントとを含む。部分Cはユニット内で始まるが、ユニットの 最後まで継続するので、ランプインセグメントを含むが、ランプアウトは含まな い。 このスケーリングプロセスは、2以上の音声を含む部分があるとき、各部分に 適用されると理解される。 振幅調整装置は専用ハードウエアで実現することができるが、好ましくは図2 のフローチャートにしたがって実行する記憶されたプログラム制御プロセッサに よって形成される。 請求の範囲 1.一言語波形表示を含むメモリと; −所望の音声へ音素表示を入力する動作に応答して、メモリから該所望の音 声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と; −選択したユニットの音声を含む部分を識別する手段と; −言語波形の選択したユニットを連結する手段と;を含み、 所定の基準レベルに対してユニットの音声を含む部分の振幅を調節し、かつユ ニットの音声を含まない部分の少なくとも一部分を変更しないままにしておくよ うに構成された手段によって特徴付けられる言語合成装置。 2.言語波形の前記ユニットが、音素、ジフォーン、トライフォーン、および他 のサブワードユニット間で変化する請求項1記載の言語合成装置。 3.前記調節手段が、各スケーリングファクタによって前記または各音声を含む 部分をスケールし、スケーリングファクタと1単位ユニットとの間の隣接部分の 継続期間内で単調に変化するファクタによって当接する音声を含まない部分の隣 接部分をスケーリングするように構成された請求項1記載の言語合成装置。 4.複数の基準レベルを使用して、調節手段が各音声を含む部分に対して、その 部分によって表わされる音声に依存して基準レベルを選択するように構成されて いる請求項1または3記載の言語合成装置。 5.各音素には基準レベルが割当てられ、かつ2以上の音素からの波形セグメン トを含む音声を含む部分には基準レベルとして、その中に含まれる音素に割当て られたレベルの加重された和であるものが割当てられ、セグメントの相対的な継 続期間にしたがって加重される請求項4記載の言語合成装置。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BB,BG,BR,BY,CA,CH,CN,CZ, DE,DK,EE,ES,FI,GB,GE,HU,I S,JP,KE,KG,KP,KR,KZ,LK,LR ,LS,LT,LU,LV,MD,MG,MK,MN, MW,MX,NO,NZ,PL,PT,RO,RU,S D,SE,SG,SI,SK,TJ,TM,TR,TT ,UA,UG,US,UZ,VN (72)発明者 ブリーン、アンドリュー イギリス国、アイピー4・2ユーティー、 サフォーク、イプスウィッチ、ウエスター フィールド・ロード 50 (72)発明者 ジャクソン、ピーター イギリス国、アイピー5・7エスワイ、サ フォーク、イプスウィッチ、マートレスハ ム・ヒース、マナー・ロード 36

Claims (1)

  1. 【特許請求の範囲】 1.−言語波形表示を含むメモリと; −所望の音声へ音素表示を入力する動作に応答して、メモリから該所望の音 声に対応する単語の部分を表示する言語波形のユニットを選択する選択手段と; −選択したユニットの音声を含む部分を識別する手段と; −言語波形の選択したユニットを連結する手段と;を含み、 所定の基準レベルに対してユニットの音声を含む部分の振幅を調節し、かつユ ニットの音声を含まない部分の少なくとも一部分を変更しないままにしておくよ うに構成された手段によって特徴付けられる言語合成装置。 2.前記調節手段が、各スケーリングファクタによって前記または各音声を含む 部分をスケールし、スケーリングファクタと1単位ユニットとの間の隣接部分の 継続期間内で単調に変化するファクタによって当接する音声を含まない部分の隣 接部分をスケーリングするように構成された請求項1記載の言語合成装置。 3.複数の基準レベルを使用して、調節手段が各音声を含む部分に対して、その 部分によって表わされる音声に依存して基準レベルを選択するように構成されて いる請求項1または2記載の言語合成装置。 4.各音素には基準レベルが割当てられ、かつ2以上の音素からの波形セグメン トを含む音声を含む部分には基準レベルとして、その中に含まれる音素に割当て られたレベルの加重された和であるものが割当てられ、セグメントの相対的な継 続期間にしたがって加重される請求項3記載の言語合成装置。
JP8526713A 1995-03-07 1996-03-07 話し言葉の合成 Pending JPH11501409A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP95301478 1995-03-07
GB95301478.4 1995-03-07
PCT/GB1996/000529 WO1996027870A1 (en) 1995-03-07 1996-03-07 Speech synthesis

Publications (1)

Publication Number Publication Date
JPH11501409A true JPH11501409A (ja) 1999-02-02

Family

ID=8221114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8526713A Pending JPH11501409A (ja) 1995-03-07 1996-03-07 話し言葉の合成

Country Status (10)

Country Link
US (1) US5978764A (ja)
EP (1) EP0813733B1 (ja)
JP (1) JPH11501409A (ja)
KR (1) KR19980702608A (ja)
AU (1) AU699837B2 (ja)
CA (1) CA2213779C (ja)
DE (1) DE69631037T2 (ja)
NO (1) NO974100D0 (ja)
NZ (1) NZ303239A (ja)
WO (1) WO1996027870A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
DE69631037T2 (de) * 1995-03-07 2004-08-19 British Telecommunications P.L.C. Sprachsynthese
WO1996032711A1 (en) * 1995-04-12 1996-10-17 British Telecommunications Public Limited Company Waveform speech synthesis
ATE249672T1 (de) * 1996-07-05 2003-09-15 Univ Manchester Sprachkodier- und dekodiersystem
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
KR100363027B1 (ko) * 2000-07-12 2002-12-05 (주) 보이스웨어 음성 합성 또는 음색 변환을 이용한 노래 합성 방법
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
TWI467566B (zh) * 2011-11-16 2015-01-01 Univ Nat Cheng Kung 多語言語音合成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4949241B1 (ja) * 1968-05-01 1974-12-26
JPS5972494A (ja) * 1982-10-19 1984-04-24 株式会社東芝 規則合成方式
JP2504171B2 (ja) * 1989-03-16 1996-06-05 日本電気株式会社 声門波形に基づく話者識別装置
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5469257A (en) * 1993-11-24 1995-11-21 Honeywell Inc. Fiber optic gyroscope output noise reducer
DE69631037T2 (de) * 1995-03-07 2004-08-19 British Telecommunications P.L.C. Sprachsynthese

Also Published As

Publication number Publication date
KR19980702608A (ko) 1998-08-05
CA2213779A1 (en) 1996-09-12
EP0813733B1 (en) 2003-12-10
MX9706349A (es) 1997-11-29
NZ303239A (en) 1999-01-28
WO1996027870A1 (en) 1996-09-12
DE69631037D1 (de) 2004-01-22
EP0813733A1 (en) 1997-12-29
NO974100L (no) 1997-09-05
DE69631037T2 (de) 2004-08-19
US5978764A (en) 1999-11-02
CA2213779C (en) 2001-12-25
AU699837B2 (en) 1998-12-17
NO974100D0 (no) 1997-09-05
AU4948896A (en) 1996-09-23

Similar Documents

Publication Publication Date Title
JPH11501409A (ja) 話し言葉の合成
US8977552B2 (en) Method and system for enhancing a speech database
EP1220195B1 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US8195464B2 (en) Speech processing apparatus and program
JPH11503535A (ja) 波形言語合成
JP6561499B2 (ja) 音声合成装置および音声合成方法
JPH11507740A (ja) 言語合成
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US7912718B1 (en) Method and system for enhancing a speech database
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
Mannell Formant diphone parameter extraction utilising a labelled single-speaker database.
JPH0247700A (ja) 音声合成方法および装置
Janse Time-compressing natural and synthetic speech.
JP2003208188A (ja) 日本語テキスト音声合成方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
EP1589524B1 (en) Method and device for speech synthesis
WO2011030424A1 (ja) 音声合成装置およびプログラム
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
MXPA97006349A (en) Speech synthesis
JPS63199399A (ja) 音声合成装置
Mannell Modelling of the segmental and prosodic aspects of speech intensity in synthetic speech
Silen et al. Evaluation of Finnish unit selection and HMM-based speech synthesis.