JP2008225254A - 音声合成装置及び方法並びにプログラム - Google Patents

音声合成装置及び方法並びにプログラム Download PDF

Info

Publication number
JP2008225254A
JP2008225254A JP2007065780A JP2007065780A JP2008225254A JP 2008225254 A JP2008225254 A JP 2008225254A JP 2007065780 A JP2007065780 A JP 2007065780A JP 2007065780 A JP2007065780 A JP 2007065780A JP 2008225254 A JP2008225254 A JP 2008225254A
Authority
JP
Japan
Prior art keywords
speech
word
synthesis
speech synthesis
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007065780A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Michio Aizawa
道雄 相澤
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007065780A priority Critical patent/JP2008225254A/ja
Priority to US12/035,789 priority patent/US8041569B2/en
Priority to EP08003590A priority patent/EP1970895A1/en
Priority to CNA2008100847173A priority patent/CN101266789A/zh
Publication of JP2008225254A publication Critical patent/JP2008225254A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 規則合成と録音合成を有する音声合成装置において、合成方式の境界で了解性が低下する。
【解決手段】 言語処理部202は、テキスト保持部201より供給されたテキストに対して言語解析を行って単語を同定する。合成選択部209は、上記言語解析の結果から抽出される注目単語に対して、規則合成部204による音声合成処理、又は、録音合成部206による音声合成処理のいずれかを選択する。そして、選択された規則合成部204又は録音合成部206が、前記注目単語に対して実行する。
【選択図】 図2

Description

本発明は、音声合成技術に関する。
駅のホームの電車案内や高速道路の渋滞情報などでは、録音音声(あらかじめ蓄積された単語音声やフレーズ音声)を組み合わせて接続する分野限定合成(Domain-specific synthesis)が使われている。この方式は、分野が限定されているため自然性の高い合成音声を得ることができるが、任意のテキストを音声合成することはできない。
一方、音声規則合成の代表である波形接続型の音声合成システムは、入力テキストを単語に分割し読みの情報を付与した後、読みの情報に従って音声素片を接続することにより規則合成音声を生成する。この方式は、任意のテキストを音声合成することができる特徴がある反面、合成音声の自然性が高くないという欠点がある。
特許文献1には、録音音声と規則合成音声を組み合わせて合成音声を生成する音声合成システムが記載されている。該システムは、録音音声を保持するフレーズ辞書、及び、読み・アクセントを保持する発音辞書を備える。入力テキストに対して、フレーズ辞書に登録されている単語はその録音音声を出力し、発音辞書に登録されている単語はその読みとアクセントから生成した規則合成音声を出力する。
特開2002−221980号公報
しかしながら、特許文献1の音声合成では、録音音声と規則合成音声の境界付近で音質が大きく変わるため、了解性が低下する場合がある。
本発明は上記の課題に鑑みてなされたものであり、録音音声と規則合成音声を組み合わせて合成音声を生成する際の了解性を向上させることを目的とする。
本発明の一側面に係る音声合成装置は、供給されたテキストに対して言語解析を行って単語を同定する言語解析手段と、前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第1の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第2の音声合成処理のいずれか1つを選択する選択手段と、前記選択手段が選択した前記第1又は第2の音声合成処理を、前記注目単語に対して実行する処理実行手段と、前記処理実行手段により生成された合成音声を出力する出力手段とを備えることを特徴とする。
本発明によれば、録音音声と規則合成音声を組み合わせて合成音声を生成する際の了解性が向上する。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。
また、以下の実施形態では、規則合成のための言語解析に利用される言語辞書や録音合成のための録音音声データに登録されている登録語が単語である場合について説明するが、本発明はこれに限定されるものではない。登録語が複数の単語列からなる句や、単語より小さい単位であってもかまわない。
<第1実施形態>
図1は、第1実施形態における音声合成装置のハードウエア構成を示すブロック図である。
図1において、101は制御メモリ(ROM)であり、本実施形態の音声合成プログラム1011や固定的なデータが格納される。102は中央処理装置であり、数値演算/制御等の処理を行う。103はメモリ(RAM)であり、一時的なデータが格納される。104は外部記憶装置である。105は入力装置であり、ユーザが本装置に対してデータを入力したり、動作を指示したりするのに用いられる。106は表示装置等の出力装置であり、中央処理装置102の制御下でユーザに対して各種の情報を提示する。107は音声出力装置であり、音声を出力する。108はバスであり、各装置間のデータのやり取りはこのバスを通じて行われる。109は、音声入力装置であり、ユーザが本装置に対して音声を入力するのに用いられる。
図2は、本実施形態における音声合成装置のモジュール構成を示すブロック図である。
図2において、テキスト保持部201は、音声合成の対象となる入力テキストを保持する。言語解析手段としての言語処理部202は、テキスト保持部201より供給されるテキストに対して、言語辞書212を用いて言語解析を実行して単語の同定を行う。これにより、音声合成処理の対象とする単語が抽出されるとともに、音声合成処理に必要な情報が生成される。解析結果保持部203は、言語処理部202による解析結果を保持する。規則合成部204は、解析結果保持部203が保持する解析結果に基づいて規則合成(第1の音声合成処理)を行う。規則合成データ205は、規則合成部204が規則合成を行うために必要な規則や単位素片データで構成される。録音合成部206は、解析結果保持部203が保持する解析結果に基づいて、録音音声データを再生する録音合成(第2の音声合成処理)を行う。録音合成データ207は、録音合成部206が録音合成を行うために必要な単語やフレーズの録音音声データである。合成音保持部208は、規則合成部204又は録音合成部206が合成した合成音声を保持する。
合成選択部209は、解析結果保持部203が保持する解析結果と、選択結果保持部210が保持する従前の選択結果とに基づいて、注目単語に適用する音声合成方法(規則合成又は録音合成のいずれか)を選択する。選択結果保持部210は、合成選択部209が選択した注目単語の音声合成方法を従前の結果とともに保持する。音声出力部211は、合成音保持部208が保持する合成音声を音声出力装置107を介して出力する。言語辞書212は、単語の表記、読みなどの情報を保持する。
本実施形態における録音合成とは、あらかじめ録音しておいた単語やフレーズなどの録音音声を組み合わせて合成音声を生成する方法である。言うまでもないことであるが、録音音声を組み合わせる際に録音音声を加工してもよいし、そのまま出力してもよい。
図3は、本実施形態における音声合成装置の処理を示すフローチャートである。
ステップS301では、言語処理部202が、テキスト保持部201が保持する合成対象のテキストに対して言語辞書212を用いて言語解析を行い、音声合成処理の対象とする単語を抽出する。本実施形態では、テキストの先頭から順次、音声合成処理する手順を想定している。そのため、単語はテキストの先頭から順に抽出されていくことになる。さらに、各単語に対する読みの情報を付与し、各単語に対応する録音音声が存在するか否かの情報を録音合成データ207から抽出する。解析結果を解析結果保持部203に保持してステップS302に移る。
ステップS302では、解析結果保持部203が保持する解析結果の中に、合成していない単語が存在する場合はステップS303に移る。合成していない単語が存在しない場合は本処理を終了する。
ステップS303では、合成選択部209が、解析結果保持部203が保持する解析結果と、選択結果保持部210が保持する過去に処理した単語の音声合成方法選択結果とに基づいて注目単語(第1の単語)の音声合成方法を選択する。この選択結果は選択結果保持部210に保持される。音声合成方法として規則合成を選択する場合はステップS304に移る。一方、音声合成方法として規則合成ではなく録音合成を選択する場合はステップS305に移る。
ステップS304では、処理実行手段としての規則合成部204が、解析結果保持部203が保持する解析結果と規則合成データ205とを用いて注目単語の規則合成を行う。生成された合成音声は合成音保持部208に保持され、その後、処理はステップS306に移る。
ステップS305では、処理実行手段としての録音合成部206が、解析結果保持部203が保持する解析結果と録音合成データ207とを用いて注目単語の録音合成を行う。生成された合成音声は合成音保持部208に保持され、その後、処理はステップS306に移る。
ステップS306では、音声出力部211が、合成音保持部208が保持する合成音声を音声出力装置107を介して出力し、ステップS302に戻る。
ここで、本実施形態のステップS303における音声合成方法の選択基準を以下に示す。
最初は録音合成方式を優先する。それ以外の場合は、注目単語に隣接する単語(第2の単語)として、例えば注目単語の直前の単語に対して選択された音声合成方法と同じ音声合成方法を優先的に選択する。なお、注目単語の録音音声が登録されていない場合には録音合成を行うことはできないので、この場合には規則合成を選択することになる。一方、規則合成については、通常、任意の単語を合成することが可能であるため、常に選択可能である。
以上の処理によれば、注目単語の直前の単語に対する音声合成方法に準じて注目単語の音声合成方法が選択される。このため、同じ音声合成方法を連続させることができ、音声合成方法が切り替わる回数が抑制される。これにより、合成音声の了解性の向上が期待できる。
<第2実施形態>
上述の第1実施形態は、注目単語に対して、その注目単語の直前の単語について選択された音声合成方法と同じ合成方法を優先的に選択するものであった。これに対し本実施形態は、接続歪の最小化を選択基準とする。以下、詳しく説明する。
図4は、第2実施形態における音声合成装置のモジュール構成を示すブロック図である。
図4において、第1実施形態と同じ処理を行うモジュールには図2と同じ参照番号を付与し、それらの説明は省略する。図4は、図2に対して、接続歪計算部401が付加された構成を示している。接続歪計算部401は、合成音保持部208が保持する注目単語の直前の単語の合成音声と注目単語の合成候補音声との接続歪を計算する。合成音保持部208は、規則合成部204又は録音合成部206が合成した合成音声を、次の単語に対する音声合成方法が選択されるまでの間保持する。合成選択部209は、接続歪計算部401が計算した接続歪が最小となる合成候補音声とそれに対応する音声合成方法を選択する。選択結果保持部210は、合成候補音声とそれに対応する音声合成方法を保持する。
第1実施形態の図3を用いて、本実施形態における音声合成装置の処理の流れを説明する。なお、ステップS303以外の処理の流れは第1実施形態と同じであるため説明を省略する。
ステップS303では、接続歪計算部401が、合成音保持部208が保持する注目単語の直前の単語の合成音声と注目単語の合成候補音声との接続歪を計算する。次に、合成選択部209は、接続歪計算部401が計算した接続歪が最小となる合成候補音声とそれに対応する音声合成方法を選択する。この選択結果は選択結果保持部210に保持される。選択された音声合成方法が規則合成の場合、処理はステップS304に移る。一方、選択された音声合成方法が規則合成ではなく録音合成の場合、処理ステップS305に移る。
図5は、第2実施形態における接続歪について説明するための模式図である。
図5において、501は注目単語の直前の単語の合成音声である。502は注目単語の読みに規則合成を適用した合成候補音声である。503は録音音声に録音合成を適用した合成候補音声である。
本実施形態における接続歪は、注目単語の直前の単語の合成音声の末尾と注目単語の合成音声の先頭とのスペクトル距離とする。接続歪計算部401は、直前の単語の合成音声501と注目単語の規則合成による合成候補音声(読みから合成した音声)502との接続歪と、直前の単語の合成音声501と録音合成による合成候補音声503との接続歪を、それぞれ計算する。そして合成選択部209は、接続歪が最小となる合成候補音声及びその音声合成方法を選択する。
なお、言うまでもないことであるが、接続歪はスペクトル距離に限定されるものではなく、ケプストラム距離や基本周波数に代表される音響特徴量等を基にして定義してもよいし、その他の公知技術を利用することもできる。例えば、発声速度に着目する場合は、直前の単語の発声速度と合成候補音声の発声速度との差又は比を基に接続歪を定義することができる。発声速度の差を接続歪とする場合は、差が小さいほど接続歪が小さいと定義することができる。また、発声速度の比を接続歪とする場合は、発声速度の比が基準比率1に近いほどよいと定義できる。言い換えると、発声速度の比の基準比率1からの距離が小さいほど接続歪が小さいと定義することができる。
以上説明したように、注目単語に複数の合成候補音声が存在する場合に、接続歪最小化を選択基準とすることによって、接続点での歪が小さい合成候補音声とその音声合成方法を選択することが可能となり、了解性の向上が期待できる。
<第3実施形態>
上述の第1及び第2実施形態では、一単語ずつ音声合成方法を選択するものであったが、本発明はこれに限定されるものではない。例えば、供給されたテキスト全体又は一部に対して選択基準を満足するように各単語の合成候補音声とその音声合成方法を選択してもよい。
また、第1及び第2実施形態では、言語処理部202が一意に単語の同定を行うことを仮定したが、これに限定されるものではなく、解析結果として複数解が存在してもよい。本実施形態では、複数解が存在する場合について説明する。
図6は、本実施形態における音声合成装置の処理を示すフローチャートである。図3と同じ処理を示す工程には図3と同じ参照番号を付与している。なお、本実施形態における音声合成装置のモジュール構成として図2の構成を援用する。
図6において、ステップS301では、言語処理部202が、テキスト保持部201が保持する合成対象のテキストに対して、言語辞書212を使って辞書引きを行い単語ラティスを構築する。さらに、各単語に読みを付与し、各単語に対応する録音音声が存在するか否かの情報を録音合成データ207から抽出する。第1実施形態との違いは解析結果が複数解であるという点である。解析結果は解析結果保持部203に保持され、その後、処理はステップS601に移る。
ステップS601では、合成選択部209が、解析結果保持部203が保持する解析結果に基づいて、テキストの全体又は一部に対して選択基準を満足する合成候補音声の最適系列を選択する。選択した最適系列は選択結果保持部210に保持され、その後、処理はステップS302に移る。
本実施形態における合成選択部209が採用する選択基準は、「音声合成方法の変更回数と合成候補音声の接続回数との和を最小化すること」とする。
ステップS302では、選択結果保持部210が保持する最適系列の中に、合成していない単語が存在する場合はステップS303に移る。合成していない単語が存在しない場合は本処理は終了する。
ステップS303では、合成選択部209が、選択結果保持部210が保持する最適系列に基づいて注目単語に適用する処理をステップS304とステップS305に振り分ける。注目単語に対し規則合成が選択される場合はステップS304に移る。注目単語に対し規則合成ではなく録音合成が選択される場合はステップS305に移る。ステップS304、ステップS305、ステップS306は第1実施形態に示した処理と同じであるため、説明を省略する。
次に、図7及び図8を用いて、言語解析の複数解及び最適系列の選択について説明する。図7は、本実施形態における言語解析の解析結果である複数解をラティス状に表現した模式図である。
図7において、701はラティスの始端、707はラティスの終端と表すノードである。702〜706は単語の候補を表す。この例では、以下に示す3通りの解に従う単語系列が存在する。
(1)702−703−706
(2)702−704−706
(3)702−705
図8は、図7における単語候補を合成候補音声に展開してラティス状に表現した模式図である。
図8において、801〜809は合成候補音声を表す。合成候補音声のうち、ハッチングなしの楕円(801,802,804,805,808)は、言語辞書212に登録されている単語の読みに規則合成を適用した合成候補音声である。一方、ハッチングされた楕円(803,806,807,809)は、録音合成データ207に登録されている録音音声に録音合成を適用した合成候補音声である。702及び704には、録音合成データ207に対応する録音音声データが登録されていないため、録音合成による合成候補音声が存在していない。なお、図8においては、図7に表された単語候補は図7と同じ番号を付与して破線で表されている。
図8の例では、以下に示す9通りの合成候補音声の系列が存在することになる。
(1)801−802−808
(2)801−802−809
(3)801−803−808
(4)801−803−809
(5)801−804−808
(6)801−804−809
(7)801−805
(8)801−806
(9)801−807
これらの合成候補音声の系列はそれぞれ、各単語の録音音声データの有無を考慮した音声合成方法の選択パターンを表していることが理解されよう。そして本実施形態では、得られた選択パターンのうち、音声合成方法の変更回数と単語の接続回数との和が最小となるものを選択する。この例の場合、音声合成方法の変更回数と単語の接続回数との和が最小となるのは、(7)801−805の系列である。よって合成選択部209は、この801−805の系列を選択する。
<第4実施形態>
一般的な音声合成のユーザ辞書機能は、表記と読みのペアをユーザ辞書に登録する。しかしながら、本発明のように規則合成と録音合成とを有する音声合成装置の場合は、ユーザが読み以外に録音音声を登録できると都合がよい。さらに、録音音声は複数登録できることが望ましい。本実施形態では、表記と読み、表記と録音音声、表記と読みと録音音声、のいずれの組み合わせでも登録可能なユーザ辞書機能が提供されている場合を考える。ユーザが登録した読みは規則合成を適用して合成音声に変換される。また、ユーザが登録した録音音声は録音合成を適用して合成音声に変換される。
本実施形態では、システムに登録されている録音音声が存在する場合はそれに録音合成を適用した合成音声を選択するものとする。また、システムに登録されている録音音声が存在しない場合は、読みに規則合成を適用した合成音声を選択するものとする。
一方で、ユーザが登録した録音音声に関しては、録音環境などによっては音質が高品位とは限らないため、ユーザが登録した単語の合成音声を選択する際には工夫が必要である。そこで本実施形態では、前後の単語の音声合成方法の情報を利用して、ユーザが登録した単語の合成音声を選択する方法について説明する。
図9は、本実施形態における音声合成装置のモジュール構成を示すブロック図である。なお、図9において、第1実施形態と同じ処理を行うモジュールには図2と同じ参照番号が付与されている。
テキスト保持部201は、音声合成の対象となるテキストを保持する。テキスト規則合成部901は、同定結果保持部904が保持する未知語(後述)の表記に対し、言語辞書212及びユーザ辞書906に読みが登録されている単語を用いて言語解析を行った後、言語解析結果を基に規則合成を行い、合成音声を出力する。読み規則合成部902は、ユーザ辞書906に登録されている読みを入力とし、規則合成を行い、合成音声を出力する。録音合成部206は、同定結果保持部904が保持する単語同定結果の中で単語として同定されたものに対して、録音合成データ207を用いて録音合成を行い、合成音声を出力する。録音合成データ207は単語やフレーズの表記と録音音声を保持する。
単語同定部903は、テキスト保持部201が保持するテキストに対して、録音合成データ207及びユーザ辞書906に登録されている録音音声の表記を用いて、単語の同定を行う。同定結果保持部904は単語同定結果を保持する。単語同定結果には、録音合成データ207及びユーザ辞書906に登録されていない文字列(本実施形態ではこれを未知語と呼ぶ)が含まれることがある。単語登録部905は、ユーザが入力装置105を介して入力する表記と読みをユーザ辞書906に登録する。
単語登録部905は、ユーザが音声入力装置109を介して入力する録音音声と入力装置105を介して入力する表記をユーザ辞書906に登録する。ユーザ辞書906は、表記と読み、表記と録音音声、表記と読みと録音音声、のいずれの組み合わせでも登録可能なユーザ辞書である。合成音声選択部907は、ユーザ辞書906に登録されている単語が同定結果保持部904に存在する場合に、選択基準に従って注目単語の合成音声を選択する。音声出力部211は、合成音保持部208が保持する合成音声を出力する。合成音保持部208は、テキスト規則合成部901、読み規則合成部902、録音合成部206がそれぞれ出力する合成音声を保持する。
次に、図10を用いて本実施形態における音声合成装置の処理を説明する。
図10において、ステップS1001では、単語同定部903が、テキスト保持部201が保持するテキストに対して、録音合成データ207及びユーザ辞書906に登録されている録音音声の表記を使って単語の同定を行う。単語が同定できなかった文字列は、未知語として、同定した単語とともに同定結果保持部904に保持される。その後、処理はステップS1002に移る。
ステップS1002では、録音合成部206が、同定結果保持部904が保持する単語同定結果の中で単語として同定されたものに対して、録音合成データ207及びユーザ辞書906に登録されている録音音声を用いて録音合成を行う。生成された合成音声は合成音保持部208に保持される。その後、処理はステップS1003に移る。
ステップS1003では、テキスト規則合成部901が、同定結果保持部904が保持する未知語の表記に対し、言語辞書121及びユーザ辞書906に読みが登録されている単語を用いて言語解析を行った後、言語解析結果を基に規則合成を行う。生成された合成音声は合成音保持部208に保持される。その後、処理はステップS1004に移る。
ステップS1004では、同定結果保持部904が保持する単語同定結果の中でユーザ辞書906に読みが登録されている単語に対して、読み規則合成部902が規則合成を行う。生成された合成音声は合成音保持部208に保持される。その後、処理はステップS1005に移る。
ステップS1005では、合成音声選択部907が、同定結果保持部904の中で未知語を含む単語に対して、合成候補音声が複数存在する場合はその中からひとつを選択する。選択結果は合成音保持部208に反映される(例えば、選択された合成音声を記録する、又は、選択されなかった合成音声を削除する。)。その後、処理はステップS1006に移る。
ステップS1006では、音声出力部211が、合成音保持部208が保持する合成音声をテキストの先頭から順に出力して、本処理は終了する。
図11は、上記したステップS1004の終了時点を示した模式図である。
図11において、データは角が丸められた四角で、処理モジュールは角ありの四角で表現されている。1101はテキスト保持部201が保持するテキストである。1102〜1104はテキスト1101に対して単語同定を行った結果であり、1102は未知語、1103及び1104は録音合成データ207に登録されている単語である。また、1103はユーザ辞書に読みと録音音声が登録されている単語でもある。一方、1104は録音合成データ207にだけ登録されている。
1105、1106、1107は、ステップS1004までの音声合成処理の結果として得られる合成音声を表している。1105は、1102に対応する合成音声であり、テキスト規則合成音声だけが存在する。1106は1103に対応する合成音声であり、録音合成音声、ユーザ録音合成音声、ユーザ読み規則合成音声が存在する。1107は、1104に対応する合成音声であり、録音合成音声だけが存在する。
テキスト規則合成音声はテキスト規則合成部901の出力であり、ユーザ読み規則合成音声は読み規則合成部902の出力であり、録音合成音声及びユーザ録音合成音声は録音合成部206の出力である。
図12は、ステップS1004までの音声合成処理の結果として得られる合成音声の詳細を示した模式図である。
図12を用いて、ステップS1005の処理について説明する。図12において、1201はテキスト規則合成音声である。1202は録音合成音声である。1203はユーザ録音合成音声である。1204はユーザ読み規則合成音声である。1205は録音合成音声である。なお、本実施形態の場合は、注目単語の前後はそれぞれ1201と1205であり、他の合成候補音声はないものとする。
合成音声選択部907は、録音合成音声1202、ユーザ録音合成音声1203、ユーザ読み規則合成音声1204の中から選択基準を満足する合成音声を1つ選択する。
選択基準が「直前の音声合成方法と同じ又は類似する音声合成方法を優先する」である場合を考える。この場合、直前の音声合成方法はテキスト規則合成であるため、規則合成の一種であるユーザ読み規則合成音声1204が選択される。
また、選択基準が「直後の音声合成方法と同じ又は類似する音声合成方法を優先する」である場合は、録音合成音声1202が選択される。
以上説明したように、単語の表記に対して読みと録音音声をユーザ辞書に登録する機能を提供することにより、音声合成方法を選択する選択肢が増え、了解性の向上が期待できる。
<第5実施形態>
第4実施形態では、ユーザが登録した単語の前後に関しては合成候補音声が1つしかない場合を説明した。本実施形態では、ユーザが登録した単語が連続する場合について説明する。
図13は、第5実施形態における合成候補音声を表現した模式図である。
図13において、両端の2単語は既に選択される合成音声が決まっている(1301及び1308)。一方、1302〜1307はユーザが登録した単語に対応する合成候補音声である。
第4実施形態と同様に、合成音声選択部907は、所定の選択基準に従って合成候補音声の中から1つの合成音声を選択する。例えば、選択基準が「音声合成方法の変更回数を最小化し、録音合成音声を優先すること」である場合は、1301−1302−1305−1308が選択される。また、選択基準が「ユーザ録音合成音声を優先し、その上で音声合成方法の変更回数を最小化する」である場合は、1301−1303−1306−1308が選択される。
また、ユーザが登録した録音音声の音質が安定していない可能性を考慮すると、「接続点における接続歪の総和を最小化する」という選択基準を採用することも有効である。
以上説明したように、ユーザが登録した単語が連続する場合についても全体又は部分最適化を実現する選択基準を設定することにより、了解性の向上が期待できる。
<第6実施形態>
第1実施形態から第5実施形態では、注目単語以外の単語情報に基づいて注目単語の音声合成方法を選択する場合について説明したが、これに限定されるものではなく、注目単語の単語情報のみに基づいて音声合成方法を選択する構成をとることも可能である。
図14は、第6実施形態における音声合成装置のモジュール構成を示すブロック図である。
図14において、第1実施形態から第5実施形態と同じ処理を行うモジュールには図2及び図9と同じ参照番号を付与し、それらの説明は省略する。波形歪計算部1401は、言語辞書212に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書906に登録されている録音音声に録音合成を適用した合成候補音声との波形歪(後述)を計算する。合成選択部209は、波形歪計算部1401が求めた波形歪と事前に設定しておいた閾値とを比較して、波形歪が閾値よりも大きい場合は、前後の単語の音声合成方法に関係なくユーザ登録単語を選択する。
本実施形態における処理の流れは第1実施形態の処理の流れと同じであるため、図3を用いて、本実施形態における処理の流れを説明する。
図3において、ステップS301、ステップS302、ステップS304、ステップS305、ステップS306の処理の流れは第1実施形態と同じであるため説明を省略する。
ステップS303では、波形歪計算部1401が、言語辞書212に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書906に登録されている録音音声に録音合成を適用した合成候補音声との波形歪を計算する。次に、合成選択部209が、波形歪計算部1401が求めた波形歪と事前に設定しておいた閾値とを比較する。波形歪が閾値よりも大きい場合は、前後の単語の音声合成方法に関係なく録音合成を選択し、ステップS305に移る。それ以外の場合は、ステップS304に移る。
波形歪に関しては、各時点における波形の振幅の差の総和、スペクトル距離の総和など公知技術が利用できる。また、動的計画法などを用いて両合成候補音声の時間的な対応関係をとってから波形歪を計算してもよい。
以上説明したように、波形歪を導入することにより、ユーザが録音音声を登録した意図(単なるバリエーションを増やすこと以上の、例えば、登録した録音音声通りに読ませたいなど)を優先させることができる。
<第7実施形態>
第6実施形態では、言語辞書212に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書902に登録されている録音音声に録音合成を適用した合成候補音声との波形歪に着目して、注目単語の音声合成方法を選択する場合について説明した。しかしながら、波形歪を求める対象はこれに限定されるものではない。すなわち、システムに登録されている読みや録音音声に基づく合成候補音声と、ユーザ辞書に登録されている読みや録音音声に基づく合成候補音声との間の波形歪に着目するようにしてもよい。この場合、波形歪が閾値よりも大きい場合は、ユーザ辞書に登録されている読みや録音音声に基づく合成候補音声を優先するものとする。
<第8実施形態>
第1実施形態及び第2実施形態では、各単語の音声合成方法を選択する際にテキストの先頭単語から処理する場合について説明したが、これに限定されるものではなく、末尾から処理する構成を採用してもよい。末尾から処理する場合は、直後の単語の音声合成方法を基に注目単語の音声合成方法を選択する。また、テキスト中の任意の単語から処理する構成をとることもできる。この場合、すでに選択済みの直前又は直後の単語の音声合成方法を基に注目単語の音声合成方法を選択する。
<第9実施形態>
第1実施形態乃至第3実施形態では、言語処理部202が言語辞書212を使ってテキストを単語に分割する場合について説明したが、これに限定されるものではない。例えば、言語辞書212と録音合成データ207に含まれる単語やフレーズを使って単語の同定を行う構成も本発明の範囲に含まれうる。
図15は、言語処理部212が言語辞書212と録音合成データ207に含まれる単語やフレーズを使って、テキストを単語又はフレーズに分割した結果を示す模式図である。図15において、1501〜1503は録音合成用の録音合成データ207に含まれる単語やフレーズによる同定結果である。1501及び1503は、複数の単語からなるフレーズを示している。一方、1504〜1509は、規則合成用の言語辞書212による同定結果である。1510は次に音声合成処理を行う位置を示している。
図3のステップS303において、規則合成を選択した場合は、1504〜1509の単語が音声合成の処理単位として選択される。一方、録音合成を選択した場合は、フレーズ1501、1503又は単語1502が合成の処理単位として選択される。図15では、音声合成処理が1510まで完了しているものとする。この場合、次に音声合成処理を行うフレーズまたは単語は、フレーズ1503又は単語1507である。録音合成を選択した場合は、フレーズ1503が録音合成部206で処理される。フレーズ1503を処理した場合は、単語1507〜1509はステップS302の選択対象から除外される。図15でいうと、次の音声合成処理を行う位置を示す点線1510が、フレーズ1503(単語1509)の後ろに移動することに相当する。
一方、規則合成を選択した場合は、単語1507が規則合成204で処理される。単語1507を処理した場合は、フレーズ1503はステップS302の選択対象から除外され、次に処理される単語は1508となる。図15でいうと、次の音声合成処理を行う位置を示す点線1510が単語1507の後ろに移動することに相当する。
以上説明したように、言語辞書212と録音合成データ207に含まれる単語やフレーズを使って言語解析を行った結果を用いる場合には、フレーズとそれに対応する単語の対応をとりながら処理を進める必要がある。
また、言語辞書212を作成する際、言語辞書212に録音合成データ207の単語やフレーズの情報を組み込んでおくことにより、言語解析の実行時に言語処理部202が録音合成データ207にアクセスする必要がなくなる。
<第10実施形態>
第1実施形態では、「直前の単語が選択した音声合成方法と同じ音声合成方法を優先的に選択する」ことを音声合成方法の選択基準としたが、これに限定されるものではない。別の選択基準を用いてよいし、任意の選択基準と組み合わせてもよい。
例えば、「呼気段落で音声合成方法をリセットする」という選択基準を上記の選択基準と組み合わせて、「直前の単語が選択した音声合成方法と同じ音声合成方法を優先的に選択する。ただし、呼気段落で音声合成方法をリセットし、録音音声合成方法を優先する。」という選択基準でもよい。呼気段落か否かの情報は、言語解析によって得られる単語情報のひとつである。すなわち、言語処理部202は同定した各単語が呼気段落である否かを判定する手段を有する。
第1実施形態の選択基準の場合、基本的には、いったん規則合成が選択されると最後まで規則合成が連続することになる。しかし、上記の組み合わせ選択基準の場合は、呼気段落でリセットされるため、録音音声合成方法が選択されやすくなり、音質の向上が期待できる。なお、呼気段落での音声合成方法の切り替えは了解性にほとんど影響を与えない。
<第11実施形態>
第2実施形態では、注目単語に対応する録音音声がひとつの場合について説明したが、これに限定されるものではなく、複数の録音音声が存在してもよいものとする。この場合、単語の読みに規則合成を適用した合成候補音声と直前の合成音声との接続歪と、複数の録音音声に録音合成を適用した合成候補音声と直前の合成音声との接続歪をそれぞれ計算し、その中で接続歪が最小である合成候補音声を選択する。ひとつの単語に対して複数の録音音声を用意しておくことは多様性の観点や接続歪を低減する観点からも有効な方法といえる。
<第12実施形態>
第3実施形態では、「音声合成方法の変更回数と合成候補音声の接続回数の和の最小化すること」を選択基準としたが、これに限定されるものではない。例えば、第2実施形態で用いた接続歪最小化など公知の選択基準を使ってもよいし、任意の選択基準を導入してもよい。
<第13実施形態>
第4実施形態では、図11に示したように、録音合成音声が存在する場合はテキスト規則合成音声を合成候補音声としない場合について説明したが、これに限定されるものではない。図11の1106において、合成候補音声としてテキスト規則合成音声がさらに存在する場合もある。この場合は、ステップS1003(図10参照)において、未知語以外の単語に対してもテキスト規則合成を行う必要がある。
<他の実施形態>
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。
したがって、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などもある。
また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。
第1実施形態における音声合成装置のハードウエア構成を示すブロック図である。 第1実施形態における音声合成装置のモジュール構成を示すブロック図である。 第1実施形態における音声合成装置の処理を示すフローチャートである。 第2実施形態における音声合成装置のモジュール構成を示すブロック図である。 第2実施形態における接続歪みを説明するための模式図である。 第3実施形態における音声合成装置の処理を示すフローチャートである。 第3実施形態における言語解析の解析結果である複数解をラティス状に表現した模式図である。 図7における単語候補を合成候補音声に展開してラティス状に表現した模式図である。 第4実施形態における音声合成装置のモジュール構成を示すブロック図である。 第4実施形態における音声合成装置の処理を示すフローチャートである。 第4実施形態におけるステップS1004の終了時点を示した模式図である。 第4実施形態におけるステップS1004までの音声合成処理の結果として得られる合成候補音声を示した模式図である。 第5実施形態における合成候補音声を示した模式図である。 第6実施形態における音声合成装置のモジュール構成を示すブロック図である 第9実施形態における言語解析の解析結果を示す模式図である。
符号の説明
201:テキスト保持部
202:言語処理部
203:解析結果保持部
204:規則合成部
205:規則合成データ
206:録音合成部
207:録音合成データ
208:合成音保持部
209:合成選択部
210:選択結果保持部
211:音声出力部
212:言語辞書
401:接続歪計算部
901:テキスト規則合成部
902:読み規則合成部
903:単語同定部
904:同定結果保持部
905:単語登録部
906:ユーザ辞書
907:合成音声選択部
1401:波形歪計算部

Claims (13)

  1. 供給されたテキストに対して言語解析を行って単語を同定する言語解析手段と、
    前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第1の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第2の音声合成処理のいずれか1つを選択する選択手段と、
    前記選択手段が選択した前記第1又は第2の音声合成処理を、前記注目単語に対して実行する処理実行手段と、
    前記処理実行手段により生成された合成音声を出力する出力手段と、
    を備えることを特徴とする音声合成装置。
  2. 前記選択手段は、前記注目単語に隣接する単語に対して先に前記処理実行手段によって実行された音声合成処理と同じ音声合成処理を選択することを特徴とする請求項1に記載の音声合成装置。
  3. 前記選択手段は、前記第1の音声合成処理を選択した場合における前記注目単語の合成音声と前記隣接する単語の合成音声との接続歪と、前記第2の音声合成処理を選択した場合における前記注目単語の合成音声と前記注目単語に隣接する単語の合成音声との接続歪とをそれぞれ計算し、接続歪が最小となる音声合成処理を選択することを特徴とする請求項1に記載の音声合成装置。
  4. 前記接続歪は、前記注目単語に隣接する単語の合成音声と前記注目単語の合成音声とのスペクトル距離であることを特徴とする請求項3に記載の音声合成装置。
  5. 前記接続歪は、前記注目単語に隣接する単語の合成音声の発声速度と前記注目単語の合成音声の発声速度との差であることを特徴とする請求項3に記載の音声合成装置。
  6. 前記接続歪は、前記注目単語に隣接する単語の合成音声の発声速度と前記注目単語の合成音声の発声速度との比の基準比率からの距離であることを特徴とする請求項3に記載の音声合成装置。
  7. 前記言語解析手段は複数解を出力するように構成され、
    前記選択手段は、前記複数解のそれぞれについて、各単語の前記録音音声データの有無に応じて、当該解において同定される単語系列に対する前記第1及び第2の音声合成処理の選択パターンを求め、得られた選択パターンのうち、前記第1及び第2の音声合成処理の変更回数と単語の接続回数との和が最小となるものを選択する
    ことを特徴とする請求項1に記載の音声合成装置。
  8. ユーザの指示に応じて、登録に係る単語について、表記及び読みの情報、表記の情報及び録音音声、表記及び読みの情報及び録音音声、のいずれかの組み合わせをユーザ辞書に登録する登録手段を更に備え、
    前記処理実行手段は、前記ユーザ辞書に基づいて、前記選択手段が選択した前記第1又は第2の音声合成処理を、前記注目単語に対して実行する
    ことを特徴とする請求項1から7までのいずれか1項に記載の音声合成装置。
  9. 前記注目単語が前記ユーザ辞書に登録された単語である場合において、前記選択手段は、前記第1の音声合成処理を選択した場合の前記注目単語の合成音声と、前記第2の音声合成処理を選択した場合の前記ユーザ辞書を用いた録音合成により生成された合成音声との波形歪を計算し、該波形歪が閾値より大きい場合、前記第2の音声合成処理を選択することを特徴とする請求項8に記載の音声合成装置。
  10. 前記言語解析手段は、同定した各単語が呼気段落の先頭であるか否かを判定する手段を含み、
    前記選択手段は更に、前記注目単語に対して前記第1の音声合成処理を選択した後において、前記言語解析手段が現在処理中の注目単語を呼気段落の先頭と判定した場合、当該注目単語に対して前記第2の音声合成処理を選択する
    ことを特徴とする請求項2に記載の音声合成装置。
  11. 言語解析手段が、供給されたテキストに対して言語解析を行って単語を同定する言語解析ステップと、
    選択手段が、前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第1の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第2の音声合成処理のいずれか1つを選択する選択ステップと、
    処理実行手段が、前記選択ステップで選択された前記第1又は第2の音声合成処理を、前記注目単語に対して実行する処理実行ステップと、
    出力手段が、前記処理実行ステップにより生成された合成音声を出力する出力ステップと、
    を備えることを特徴とする音声合成方法。
  12. 請求項11に記載の音声合成方法をコンピュータに実行させるためのプログラム。
  13. 請求項12に記載のプログラムを記憶したコンピュータ読取り可能な記憶媒体。
JP2007065780A 2007-03-14 2007-03-14 音声合成装置及び方法並びにプログラム Withdrawn JP2008225254A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007065780A JP2008225254A (ja) 2007-03-14 2007-03-14 音声合成装置及び方法並びにプログラム
US12/035,789 US8041569B2 (en) 2007-03-14 2008-02-22 Speech synthesis method and apparatus using pre-recorded speech and rule-based synthesized speech
EP08003590A EP1970895A1 (en) 2007-03-14 2008-02-27 Speech synthesis apparatus and method
CNA2008100847173A CN101266789A (zh) 2007-03-14 2008-03-14 语音合成设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007065780A JP2008225254A (ja) 2007-03-14 2007-03-14 音声合成装置及び方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2008225254A true JP2008225254A (ja) 2008-09-25

Family

ID=39477958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007065780A Withdrawn JP2008225254A (ja) 2007-03-14 2007-03-14 音声合成装置及び方法並びにプログラム

Country Status (4)

Country Link
US (1) US8041569B2 (ja)
EP (1) EP1970895A1 (ja)
JP (1) JP2008225254A (ja)
CN (1) CN101266789A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010230699A (ja) * 2009-03-25 2010-10-14 Toshiba Corp 音声合成装置、プログラム、及び方法
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
CN104115222A (zh) * 2012-02-16 2014-10-22 大陆汽车有限责任公司 用于将包含文字的数据组转为语音的方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027835B2 (en) * 2007-07-11 2011-09-27 Canon Kabushiki Kaisha Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
CN102779508B (zh) * 2012-03-31 2016-11-09 科大讯飞股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN105340003B (zh) * 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
DE112014007207B4 (de) * 2014-11-25 2019-12-24 Mitsubishi Electric Corporation Informations-Präsentationssystem
CN104810015A (zh) * 2015-03-24 2015-07-29 深圳市创世达实业有限公司 语音转化装置、方法及使用该装置的支持文本存储的音箱
US10102852B2 (en) 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN107240393A (zh) * 2017-08-16 2017-10-10 广东海翔教育科技有限公司 一种语音合成方法
CN109767752B (zh) * 2019-02-27 2023-05-26 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
JP2022081790A (ja) * 2020-11-20 2022-06-01 株式会社日立製作所 音声合成装置、音声合成方法、および音声合成プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930755A (en) * 1994-03-11 1999-07-27 Apple Computer, Inc. Utilization of a recorded sound sample as a voice source in a speech synthesizer
JP3559588B2 (ja) 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
CA2296330C (en) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Generation of voice messages
US6345250B1 (en) * 1998-02-24 2002-02-05 International Business Machines Corp. Developing voice response applications from pre-recorded voice and stored text-to-speech prompts
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US20030158734A1 (en) 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
US7039588B2 (en) 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
JP2002221980A (ja) 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
US20030177010A1 (en) * 2002-03-11 2003-09-18 John Locke Voice enabled personalized documents
JP2003295880A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US7577568B2 (en) * 2003-06-10 2009-08-18 At&T Intellctual Property Ii, L.P. Methods and system for creating voice files using a VoiceXML application
EP1511008A1 (en) 2003-08-28 2005-03-02 Universität Stuttgart Speech synthesis system
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4541781B2 (ja) 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010230699A (ja) * 2009-03-25 2010-10-14 Toshiba Corp 音声合成装置、プログラム、及び方法
US8626510B2 (en) 2009-03-25 2014-01-07 Kabushiki Kaisha Toshiba Speech synthesizing device, computer program product, and method
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
CN104115222A (zh) * 2012-02-16 2014-10-22 大陆汽车有限责任公司 用于将包含文字的数据组转为语音的方法和装置
CN104115222B (zh) * 2012-02-16 2016-10-19 大陆汽车有限责任公司 用于将包含文字的数据组转为语音的方法和装置

Also Published As

Publication number Publication date
US20080228487A1 (en) 2008-09-18
EP1970895A1 (en) 2008-09-17
US8041569B2 (en) 2011-10-18
CN101266789A (zh) 2008-09-17

Similar Documents

Publication Publication Date Title
JP2008225254A (ja) 音声合成装置及び方法並びにプログラム
JP6752872B2 (ja) 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム
US8046225B2 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
JPS62160495A (ja) 音声合成装置
US20080027727A1 (en) Speech synthesis apparatus and method
JP2008107454A (ja) 音声合成装置
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP2008139631A (ja) 音声合成方法、装置、プログラム
US11170755B2 (en) Speech synthesis apparatus and method
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP4639932B2 (ja) 音声合成装置
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP6538944B2 (ja) 発話リズム変換装置、方法及びプログラム
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6475572B2 (ja) 発話リズム変換装置、方法及びプログラム
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
CN117475991A (zh) 文本转换音频的方法、装置及计算机设备
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
KR20240012217A (ko) 음성합성 모델 학습방법, 학습장치 및 음성합성 방법
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008275698A (ja) 所望のイントネーションを備えた音声信号を生成するための音声合成装置
JPH11259091A (ja) 音声合成装置及び方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100601