JP2001100776A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JP2001100776A
JP2001100776A JP28052899A JP28052899A JP2001100776A JP 2001100776 A JP2001100776 A JP 2001100776A JP 28052899 A JP28052899 A JP 28052899A JP 28052899 A JP28052899 A JP 28052899A JP 2001100776 A JP2001100776 A JP 2001100776A
Authority
JP
Japan
Prior art keywords
speech
extended
syllable
syllables
waveform data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28052899A
Other languages
English (en)
Inventor
Kazuyuki Ashimura
和幸 芦村
Seiichi Amashiro
成一 天白
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arcadia Co Ltd
Original Assignee
Arcadia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arcadia Co Ltd filed Critical Arcadia Co Ltd
Priority to JP28052899A priority Critical patent/JP2001100776A/ja
Priority to US09/671,683 priority patent/US6847932B1/en
Publication of JP2001100776A publication Critical patent/JP2001100776A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 処理の迅速性と、出力音声の自然性を両立さ
せて向上させた音声合成装置を提供する。 【解決手段】 波形候補取得手段8は、与えられた音韻
情報を拡張音節に区分し、音声データベース6の中から
該当するサンプル音声波形データを取得する。音声デー
タベース6には、多くのサンプル波形データが記憶され
ているので、1つの拡張音節に対して、複数のサンプル
音声波形データが候補として得られる。波形候補決定手
段10は、波形候補取得手段8によって取得された複数
のサンプル音声波形データ中から、前後のつながり等を
考慮して、1つの拡張音節に対して1つのサンプル音声
波形データを決定する。波形結合手段12は、波形候補
決定手段10によって得られた一連のサンプル音声波形
データを結合し、出力すべき音声波形データを得る。ア
ナログ変換手段4は、これをアナログ音声信号に変換し
て出力する。

Description

【発明の詳細な説明】
【0001】
【発明の技術分野】この発明は、音声合成、音声解析に
関するものであり、特にこれら音声処理における処理速
度、品質の向上に関するものである。
【0002】
【従来の技術および発明が解決しようとする課題】音声
合成の方式としては、規則による合成方式やコーパスベ
ース音声合成方式が知られている。
【0003】規則による合成方式では、与えられた音韻
記号列を、音素などの音声単位(「a」「k」など、おお
むねローマ字一文字が対応する)に区分し、各音声単位
について、基本周波数や声道伝達関数の時間的変化を規
則によって決定し、得られた各音声単位の波形を結合し
て、音声波形として出力するものである。
【0004】しかしながら、各音声単位の波形の結合部
分において、不自然さがもたらされることが多かった。
また、これを解決するため、音声単位の種類ごとに音声
単位と音声単位を結合する際の波形変化等の規則を用意
すればよいが、規則の複雑化と処理の低速化を招くこと
となり、好ましくなかった。
【0005】また、コーパスベース音声合成方式では、
実際に人間が発話した大量の音声波形とこれに対応する
音韻情報を記録した音声のデータベース(音声コーパ
ス)を用意しておき、音声合成の際に、音声コーパスか
ら必要なサンプル音声波形データを切り出して結合する
ことによって、出力すべき音声波形を得るものである。
【0006】コーパスベース音声合成方式を記述したも
のとして、匂坂芳典「種種の音韻連接単位を用いた日本
語音声合成」電子情報通信学会、1988年3月、ニッ
ク・キャンベル他「CHATR:自然音声波形接続型任意音
声合成システム」電子情報通信学会、1996年5月、
匂坂芳典「コーパスベース音声合成」日本音響学会、1
998年11月などがある。
【0007】これら従来技術におけるコーパスベース音
声合成方式では、次のようにして与えられた音記号列に
対応する音声波形を得ている。まず、与えられた音韻記
号列を音素に区分する。次に、音声コーパス中から、与
えられた音韻記号列と最も長く音素列が一致する部分を
見いだして、サンプル音声波形を取り出す。取り出した
サンプル音声波形を結合して、音声波形を得る。
【0008】しかしながら、音素を単位として音声コー
パスを検索するため、検索処理に膨大な時間を要すると
いう問題があった。また、このように時間を要する割に
は、最も長く音素列が一致する部分を取り出したにも拘
わらず、出力音声が不自然になる場合もあった。
【0009】そこで、この発明では、上記のような問題
点を解決して、処理の迅速性と、出力音声の自然性を両
立させて向上させた音声合成装置、音声処理方法を提供
することを目的とする。
【0010】
【課題を解決するための手段および発明の効果】この発
明においては、人間の発話が持つ、自然なリズムや、ス
ペクトルのダイナミズムを保存し、より人間らしい音声
を合成し、あるいはより精度よく解析を行うために、主
として以下の2つの観点から、自然なリズムを保存する
音声単位として拡張音節という概念を創設した。
【0011】観点1:安定した音声波形素片切り出しの
ための音声単位 観点2:それ以上分割できない、音のリズムの最小単位 拡張音節を音声単位として用いることにより、「母音−
母音連接」「母音−半母音連接」や「特殊モーラ」など
の、従来、素片接続の連続性に問題のあった箇所におい
て、接続の自然性が改善される。
【0012】以下、観点1および観点2について説明す
る。以下合成について説明するが、解析においても同様
である。
【0013】観点1:安定した音声波形素片切り出しの
ための音声単位 自然な合成音のためには、まず、音声の持つ、スペクト
ルや基本周波数などの連続量の過渡部において、ダイナ
ミックな動きを音声単位中に保存する必要がある。その
ために、音声波形素片の切り出しは、上記の連続量が安
定した箇所で行う必要がある。安定した音声波形素片切
り出しのための音声単位としては、スペクトルやアクセ
ントの動きを内包したものが好ましい。この出願におい
て発明者が提案する「拡張音節」は、この条件をよく満
たしている。
【0014】観点2:それ以上分割できない、音のリズ
ムの最小単位 話し言葉の自然な合成音声を生成するためには、音声の
韻律情報の中でリズムが非常に重要であるため、発話の
軸として、まず、リズムを最優先させるべきであると考
えられる。
【0015】話し言葉のリズムは、発話の構成要素であ
る子音や母音の継続時間長の単なる合算によって生じる
のではなく、各言語の話者にとってここちよい言語構造
が、なんらかの文節単位ごとに繰り返されることによっ
て生じていると考えられる。例えば、現代日本語の話し
言葉では、母音の長さが弁別的であり、長母音や二重母
音と単母音では異なる意味を持つため、音声合成にあた
って、「長母音(あー)」と「短母音の連鎖(ああ)」
の音を互いに流用すると、合成音の品質が損なわれる。
【0016】したがって、発話のリズムをくずさないた
めに、あたかも化学における「分子」のように、「拡張
音節」が「リズムの最小単位」として好ましいと考えら
れる。逆に、発話を「拡張音節」よりも細かく分割して
しまうと、音声の持つ自然なリズムがくずれてしまう。
【0017】以上のような観点から、本件出願の発明者
は、「拡張音節」という新しい概念を、音声処理に用い
たものである。
【0018】この発明の音声合成装置は、人間の発話を
収録することによって得たサンプル音声波形データを音
声単位に区分するとともに、各音声単位のサンプル音声
波形データに対応する音韻情報を関連付けて形成した音
声データベースを記録した音声データベース記録手段
と、出力すべき音声の音韻情報を受けて、この音韻情報
を音声単位に区分するとともに、前記音声データベース
から、音声単位に区分したそれぞれの音韻情報について
対応するサンプル音声波形データを取得し、取得した音
声単位のサンプル音声波形データを結合して出力すべき
音声波形データを得る音声波形合成手段と、音声波形合
成手段によって得られた音声波形データを受けて、アナ
ログ音声信号に変換するアナログ変換手段とを備え、前
記音声データベースにおいては、少なくとも一つの母音
を含む音素系列からなっており、複数の音素が明瞭な区
分に乏しく連続している場合にはこれら音素を1つのか
たまりとして扱った拡張音節に基づいて、サンプル音声
波形データを音声単位に区分し、前記音声波形合成手段
は、上記拡張音節に基づいて、音韻情報を音声単位に区
分することを特徴としている。
【0019】すなわち、複数の音素が明瞭な区分に乏し
く連続している場合にはこれら音素を1つのかたまりと
して扱った拡張音節に基づいて、サンプル波形データか
ら音声単位を取り出すようにしている。したがって、音
の特質上区分が困難な部分で、無理矢理にサンプル波形
データが結合されるおそれがなく、自然な音声を合成す
ることができる。
【0020】この発明の音声合成装置は、出力すべき音
声の音韻情報を受けて、この音韻情報を拡張音節に区分
する区分手段と、区分手段によって区分された拡張音節
をひとかたまりとして音声波形データを生成し、各拡張
音節の音声波形データを結合して出力すべき音声波形デ
ータを得る音声波形合成手段と、音声波形合成手段によ
って得られた音声波形データを受けて、アナログ音声信
号に変換するアナログ変換手段とを備えている。ここ
で、拡張音節とは、母音を含む音素系列からなってお
り、複数の音素が明瞭な区分に乏しく連続している場合
にはこれら音素を1つのかたまりとして扱ったものをい
う。
【0021】すなわち、複数の音節が明瞭な区分に乏し
く連続している場合にはこれら音素を1つのかたまりと
して扱った拡張音節に基づいて、音声合成を行うように
している。したがって、音の特質上、区分が困難な部分
で、無理矢理に合成波形データを結合する必要がなく、
自然な音声を合成することができる。
【0022】この発明の音声合成装置は、拡張音節が、
母音、母音と長音の結合、母音と二重母音の第2要素の
結合のいずれかのみを母音要素として含む1以上の音素
であって、最も長いものが優先して拡張音節として選択
されるよう定義されることを特徴としている。
【0023】母音と長音の結合、母音と二重母音の第2
要素の結合も一つのかたまりとして扱うことにより、自
然な音声を合成することができる。
【0024】この発明の音声合成装置は、拡張音節が、
子音C(促音、拗音、撥音は含まない)、拗音y、母音
V(長音、二重母音の第2要素は含まない)、長音R、
二重母音の第2要素J、促音Q、撥音Nを構成要素とし
たものであって、子音C、拗音yの音節量を「0」、母
音V、長音R、二重母音の第2要素J、促音Q、撥音N
の音節量を「1」として、各構成要素の音節量合計の多
いものが優先して拡張音節として選択されるよう定義さ
れることを特徴としている。
【0025】この発明の音声合成装置は、拡張音節に
は、音節量が「2」の(C)(y)VR、(C)(y)VJ、(C)(y)VNお
よび(C)(y)VQを含む重音節と、音節量が「1」の(C)(y)
Vを含む軽音節が少なくとも含まれており、軽音節より
も重音節が優先して拡張音節として選択されることを特
徴としている。
【0026】この発明の音声合成装置は、拡張音節に
は、さらに、音節量が「3」の(C)(y)VRN、(C)(y)VRQ、
(C)(y)VJN、(C)(y)VJQおよび(C)(y)VNQを含む超重音節
が含まれており、軽音節よりも重音節が、重音節よりも
超重音節が優先して拡張音節として選択されることを特
徴としている。
【0027】この発明の音声合成装置は、音声データベ
ースは、拡張音節が、その読みを示すかな文字列の長い
順に検索可能に構成されていることを特徴としている。
【0028】したがって、音声データベースを順に検索
することにより、文字列の長いものを拡張音節として自
動的に選択することができる。
【0029】この発明において、「音声単位」とは、音
声合成または解析の際に音声波形をひとかたまりとして
扱う単位をいう。
【0030】「音声データベース」とは、少なくとも音
声波形とこれに対応する音韻情報を記録したデータベー
スをいう。実施形態においては、音声コーパスがこれに
該当する。
【0031】「音声波形合成手段」とは、規則もしくは
サンプル波形に基づいて、与えられた音韻情報に対応す
る音声波形を生成する手段をいう。実施形態において
は、図10のステップS12〜S19、図17のステッ
プS102〜S106がこれに対応する。
【0032】「プログラム(データ)を記録した記録媒
体」とは、プログラム(データ)を記録したROM、R
AM、フレキシブルディスク、CD−ROM、メモリカ
ード、ハードディスク等の記録媒体をいう。また、電話
回線、搬送路等の通信媒体も含む概念である。CPUに
接続されて、記録されたプログラムが直接実行されるハ
ードディスクのような記録媒体だけでなく、一旦ハード
ディスク等にインストールした後に実行されるプログラ
ムを記録したCD−ROM等の記録媒体を含む概念であ
る。さらに、ここでいうプログラム(データ)には、直
接実行可能なプログラムだけでなく、ソース形式のプロ
グラム、圧縮処理がされたプログラム(データ)、暗号
化されたプログラム(データ)等を含む。
【0033】
【発明の実施の形態】1.第1の実施形態 (1)全体構成 図1に、この発明の一実施形態による音声合成装置の全
体構成を示す。この装置は、音声波形合成手段2、アナ
ログ変換手段4、音声データベース6を備えている。音
声波形合成手段2は、波形候補取得手段8、波形候補決
定手段10、波形結合手段12を備えている。音声デー
タベース6は、人間の発話を収録することによって得た
サンプルの音声波形データを、拡張音節に区分して、音
韻情報に基づいて検索可能にデータベース化したもので
ある。
【0034】出力すべき音声の音韻情報は、波形候補取
得手段8に与えられる。波形候補取得手段8は、音韻情
報を拡張音節に区分し、音声データベース6の中から該
当するサンプル音声波形データを取得する。音声データ
ベース6には、多くのサンプル波形データが記憶されて
いるので、1つの拡張音節に対して、複数のサンプル音
声波形データが候補として得られる。
【0035】波形候補決定手段10は、波形候補取得手
段8によって取得された複数のサンプル音声波形データ
中から、前後のつながり等を考慮して、1つの拡張音節
に対して1つのサンプル音声波形データを決定する。
【0036】波形結合手段12は、波形候補決定手段1
0によって得られた一連のサンプル音声波形データを結
合し、出力すべき音声波形データを得る。
【0037】アナログ変換手段4は、これをアナログ音
声信号に変換して出力する。このようにして、音韻情報
に対応する音声信号を得ることができる。
【0038】(2)ハードウエア構成 図2に、図1の装置をCPUを用いて実現した場合のハ
ードウエア構成の一例を示す。CPU18には、メモリ
20、キーボード/マウス22、フロッピーディスクド
ライブ(FDD)24、CD−ROMドライブ36、ハ
ードディスク26、サウンドカード28、A/D変換器
52、ディスプレイ54が接続されている。ハードディ
スク26には、オペレーシングシステム(OS)44
(たとえば、マイクロソフト社のWINDOWS98など)、音
声合成プログラム40が格納されている。また、音声デ
ータベースである音声コーパスを作成するための音声コ
ーパス作成プログラム46も格納されている。さらに、
音声コーパス作成プログラム46によって作成された音
声コーパス42も格納されている。これらプログラム
は、CD−ROMドライブ36を介して、CD−ROM
38からインストールされたものである。この実施形態
では、音声合成プログラム40は、OSと共同してその
各機能を実現している。しかし、その一部または全部
を、音声合成プログラム40が単独で実現するようにし
てもよい。
【0039】(3)音声コーパスの作成処理 この実施形態による音声合成装置では、音声合成を行う
前に、音声コーパス42を作成して用意しておく必要が
ある。なお、すでに作成された音声コーパス42をハー
ドディスク26にインストールして用いてもよく、ま
た、ネットワーク(LAN、インターネット等)を介し
て接続された他のコンピュータに格納されている音声コ
ーパス42を用いるようにしてもよい。
【0040】図3に、音声コーパス作成プログラムをフ
ローチャートにて示す。まず、操作者は、マイク50か
らサンプルとなる音声を入力する。CPU18は、音声
をマイク50から取り込み、A/D変換器52によって
ディジタルのサンプル音声波形データに変換し、ハード
ディスク26に記憶する(ステップS1)。次に、操作
者は、入力した音声に対応するラベル(音韻情報として
の読み)を、キーボード22から入力する。CPU18
は、入力されたラベルを、サンプル音声波形データに関
連づけてハードディスク26に記録する。
【0041】図4に、ハードディスク26に記録された
サンプル音声波形データとラベルの例を示す。ここで
は、「らいうちゅーいほーが」という音声が入力された
場合を例にとって示している。
【0042】次に、CPU18は、ラベル「らいうちゅ
ーいほーが」を、拡張音節に区分する(ステップS
3)。ここで、この実施形態における「拡張音節」と
は、母音を含む音のかたまり(音素系列)であって、左
最長一致法に基づいて音声単位として切り出したもので
ある。ただし、母音連鎖は、多くとも2つまでを限度と
し、母音が3つ連鎖している場合は、2つ目と3つ目の
境で区切るようにしている。ここで、「音素」とは、あ
る一つの言語で用いる音の単位で、意味の相違をもたら
す最小の単位である。ある音が当該言語で他の音と弁別
的である場合に一つの音素と認められる。
【0043】図5に、この実施形態による「拡張音節」
の構造図を示す。中心となる母音は、単母音(1つの母
音)、長母音(母音+長音)、二重母音(母音+二重母
音の第二要素)のいずれかを必ずとる。その前後に、0
個以上の頭子音(子音、拗音)、尾子音(撥音、促音)
が結合したものである。
【0044】ここで、子音C(促音、拗音、撥音を含ま
ない)、拗音yの音節量を「0」、母音V(長音、二重
母音の第二要素を含まない)、長音R、二重母音の第二
要素J、撥音N、促音Qの音節量を「1」として、拡張
音節の音節量を定義している。すなわち、この音節量に
したがって、重さを規定し、この重さに応じて、拡張音
節を3つのタイプに分類している。
【0045】図6に、この実施形態において用いた「拡
張音節」を示す。この実施形態では、「拡張音節」とし
て、音節量「1」の軽音節、音節量「2」の重音節、音
節量「3」以上の超重音節を定義している。軽音節は、
(C)(y)Vとして示される、「か」「さ」「ちぇ」「ぴ
ゃ」などである。いわゆる、モーラと呼ばれるものが該
当する。また、(C)は、Cがなくとも、1以上あって
もよいことを示す。(y)も同様である。
【0046】重音節は、(C)(y)VR、(C)(y)VJ、(C)(y)V
N、(C)(y)VQとして示される、「とー」「やー」「か
い」「のう」「かん」「あん」「ちゅっ」「りゃっ」な
どである。
【0047】超重音節は、(C)(y)VRN、(C)(y)VRQ、(C)
(y)VJN、(C)(y)VJQ、(C)(y)VNQなどとして示される、
「ちぇーん」「うーっ」「さいん」「かいっ」「どん
っ」などである。
【0048】図3のステップS3に戻って、CPU18
は、拡張音節の定義に従って(定義アルゴリズムまたは
拡張音節一覧テーブル等に基づいて)、ラベル「らいう
ちゅーいほーが」を拡張音節に区分する。なお、この
際、CPU18は、もっとも長い拡張音節を、ラベル中
から切り出す。したがって、「らい」「う」「ちゅー」
「い」「ほー」「が」という7個の拡張音節が切り出さ
れる。
【0049】次に、CPU18は、図7に示すように、
サンプル音声波形70、スペクトログラム(周波数成分
の時間的変化)72、拡張音節に区分したラベル74
を、ディスプレイ54に表示する。
【0050】操作者は、この画面を参照しつつ、マウス
22を操作して、サンプル音声波形70に区分のマーク
を付して、拡張音節に区分する(ステップS5)。この
ようにして、図8に示すように、拡張音節に区分されて
ラベルの付されたサンプル音声波形(図においては音声
ファイル1)がハードディスク26に記録される。
【0051】次に、CPU18は、図8に示すようなフ
ァイルインデックスを作成し、ハードディスク26に記
録する。ファイルインデックスは、拡張音節に区分した
ラベルと、これに対応するサンプル音声波形データの開
始時間と終了時間を記述したものである。なお、各音声
ファイルのファイルインデックスの先頭と最後には、始
まりと終わりを示すための符号「##」が記述される。
ファイルインデックスは、サンプル音声波形データの数
だけ生成される。
【0052】次に、CPU18は、図9に示す、ユニッ
トインデックスを作成して、ハードディスク26に記録
する。ユニットインデックスは、拡張音節のラベルをイ
ンデックスにして、サンプル音声波形との対応を付けた
ものである。たとえば、図9において、見出し「ちゅ
ー」に対応して、拡張音節「ちゅー」のサンプル音声波
形が記録されたファイル名「ファイル1」と当該ファイ
ルにおける記録順番「3」が示されている。また、「フ
ァイル2」の「3」番目にも記録されていることが示さ
れている。このように、拡張音節を見出しとして、その
拡張音節が記録されている全てのファイルと、当該ファ
イル内における記録順が記述されたユニットインデック
スが作成される。
【0053】また、ユニットインデックスは、音声合成
時の効率的な検索を実現するために、拡張音節のラベル
の長さ(かな文字で表記した場合の文字数)により、長
い順にソートされて記録される。このようにラベルの長
さによってソートすることにより、結果的に音節量の大
きい順にソートされることとなる。
【0054】以上のようにして、音声コーパス42とし
て音声ファイル、ファイルインデックス、ユニットイン
デックスが、ハードディスク26に格納される。
【0055】なお、上記実施形態では、作業者がサンプ
ル音声波形データに対して、区分位置を示すようにして
いる。しかしながら、波形データの変化や周波数スペク
トルの変化等に基づいて、サンプル音声波形データを自
動的に拡張音節に区分するようにしてもよい。さらに、
CPU18が拡張音節の区分を候補として表示し、作業
者が確認または訂正して、サンプル音声波形データを拡
張音節に区分するようにしてもよい。
【0056】(4)音声合成処理 図10、図11に、ハードディスク26に記録された音
声合成プログラム40のフローチャートを示す。操作者
は、合成音声のターゲット(出力すべき音声)を「かな
文字列」としてキーボード22から入力する(ステップ
S11)。ここでは、ターゲットとして「らいうこーず
いけーほーが」と入力されたものとして、説明を進め
る。
【0057】なお、この「かな文字列」は、FDD24
を介して、フロッピーディスク34から取り込んでもよ
く、ネットワーク等を介して他のコンピュータから得た
ものであってもよい。また、かな文字列以外の音韻情報
(漢字かな混じり文等)を受けて、ハードディスク26
に記録しておいた辞書等によって、「かな文字列」に変
換するようにしてもよい。さらに、アクセントやポーズ
などの韻律的な情報を付加してもよい。
【0058】CPU18は、まず、音声コーパス42の
ユニットインデックスにおける最初の(つまり最長の)
見出し(拡張音節)を取得する(ステップS12)。図
9によれば、「ちゅー」が取得される。なお、実際のユ
ニットインデックスは、全ての拡張音節が見出しとされ
た膨大な量のものであるが、図9では一部のみを示して
いる。
【0059】次に、この拡張音節「ちゅー」が、ターゲ
ットである「らいうこーずいけーほーが」と、左最長一
致するかどうかを判断する(ステップS13)。ここで
は、一致しないので、ユニットインデックスの次の見出
し「こー」を取得し(ステップS14)、同様の判断を
行う(ステップS13)。これを繰り返すことにより、
拡張音節「らい」において一致することが見いだされ
る。
【0060】CPU18は、この拡張音節「らい」によ
り、ターゲット「らいうこーずいけーほーが」におい
て、「らい」と「う」の間に拡張音節の区分を行う。つ
まり、「らい」を拡張音節として切り出す(ステップS
15)。このように、文字列の長い順に拡張音節をソー
トした音声コーパスを用いることにより、効率的に拡張
音節の切り出しを行うことができる。
【0061】次に、CPU18は、「らい」のユニット
インデックスに基づいて、ファイルインデックスを参照
し、図12に示すような候補ファイル(エントリ)を作
成する(ステップS15A)。図12では、「らい」の
第1候補のファイルが示されている。このファイルに
は、音声ファイルのファイル名、順番、開始時間、終了
時間、ラベルが記録される。候補ファイル(エントリ)
は、「らい」についてのサンプル音声波形データの数だ
け生成される。
【0062】CPU18は、「らい」について生成した
エントリに番号を付して(たとえば、第1候補、第2候
補・・・のように)、「らい」に対応づけて記録する
(合成ターゲットの音声単位系列の拡張音節候補参
照)。図12においては、「らい」について、4つのエ
ントリがあることが示されている。
【0063】上記のようにして、ターゲットから拡張音
節を切り出すと、CPU18は、ターゲット中に未処理
の部分があるかどうかを判断する。つまり、ターゲット
中に、まだ、拡張音節として切り出されていない部分が
あるかどうかを判断する(ステップS16)。
【0064】まだ切り出されていない部分があれば、当
該部分を対象として、ステップS12以下を再び実行す
る(ステップS17)。これにより、次に、「う」が切
り出されてエントリが生成され、音声単位系列の拡張音
節候補が作成される。図12においては、「う」につい
て、5つのエントリが生成されている。
【0065】以上の処理を繰り返して、拡張音節の切り
出しと、これに対応するサンプル音声波形データの特定
(つまり取得)が行われる。図12に、完成した音声単
位系列の拡張音節候補を示す。なお、この実施形態で
は、先頭と最後を示すために、「##」を記録してい
る。
【0066】次に、CPU18は、複数の拡張音節候補
中から、最適候補を決定する(ステップS18)。この
実施形態では、次のような「環境歪み」および「接続歪
み」に基づいて、最適候補を決定するようにしている。
【0067】ここで、「環境歪み」は、さらに、「ター
ゲット歪み」と「コンテキスト歪み」を合計したもので
ある。
【0068】「ターゲット歪み」とは、ターゲットの拡
張音節と、音声コーパスの拡張音節とが一致することを
前提とした上で、当該拡張音節の前後の音素環境が一致
しない場合に考慮する歪みをいう。ターゲット歪みは、
「左方向歪み」と「右方向歪み」を加算したものとして
定義する。
【0069】「左方向歪み」は、直前の1拡張音節が、
ターゲットとサンプルで一致する場合「0」とし、一致
しない場合には「1」とする。ただし、直前の1音素
が、ターゲットとサンプルで一致する場合、拡張音節が
一致しなくとも「0」とする。さらに、ターゲットの直
前の1音素が、無音または促音であり、サンプルの直前
の1音素も無音または促音である場合は、一致したもの
とみなす(つまり「0」とする)。
【0070】「右方向歪み」は、直後の1拡張音節が、
ターゲットとサンプルで一致する場合「0」とし、一致
しない場合には「1」とする。ただし、直後の1音素
が、ターゲットとサンプルで一致する場合、拡張音節が
一致しなくとも「0」とする。さらに、ターゲットの直
後の1音素が、無音、無声破裂音または無声破擦音であ
るか、ターゲット自体が促音であり、サンプルの直後の
1音素が、無音、無声破裂音または無声破擦音である場
合は、一致したものとみなす(つまり「0」とする)。
【0071】「コンテキスト歪み」とは、次の「左方向
歪み」と「右方向歪み」を合計したものである。
【0072】「左方向歪み」とは、当該拡張音節を基準
として、文頭までの全ての拡張音節が一致している場
合、「0」とする。m個目の拡張音節において一致しな
くなった場合には、「1/m」の歪みとする。
【0073】「右方向歪み」とは、当該拡張音節を基準
として、文末までの全ての拡張音節が一致している場
合、「0」とする。m個目の拡張音節において一致しな
くなった場合には、「1/m」の歪みとする。
【0074】「接続歪み」とは、ターゲットにおいて連
続する2つの拡張音節(たとえば、「らい」と「う」)
に対応する、音声コーパス中の拡張音節候補が、同じ音
声ファイルにおいて連続している場合には「0」、そう
でない場合には「1」とするものである。すなわち、候
補として決定した連続する拡張音節が、音声コーパスに
おいても連続している場合には、歪みは生じない。
【0075】CPU18は、上記の「環境歪み」および
「接続歪み」の合計が小さく(好ましくは最小と)なる
ように、拡張音節候補を選択する。その選択基準を、図
12aに模式化して示す。その結果、たとえば、図13
に示すように、拡張音節候補が選択される。なお、この
実施形態では、動的計画法を用いて、好ましい拡張音節
候補を決定している。
【0076】次に、CPU18は、上記によって選択さ
れた拡張音節候補を結合(接続)して、音声波形データ
を生成する(ステップS19)。この接続の際には、再
び、「接続歪み」を考慮する。
【0077】接続歪みが「0」で連続する複数の拡張音
節候補に対しては、そのサンプル音声波形データを、エ
ントリを参照して、音声ファイルから、まとめて取り出
す。また、接続歪みが「1」である2つの拡張音節候補
については、前の拡張音節候補のサンプル音声波形、後
ろの拡張音節候補のサンプル音声波形を、それぞれ取り
出す。その上で、両サンプル音声波形を接続する。この
際、前のサンプル音声波形の終了付近および後ろのサン
プル波形の開始付近において、なめらかに接続できる箇
所(たとえば、両者の振幅が0に近く、かつ、振幅変化
の方向が同じ方向であるような箇所)を見いだし、当該
部分で切り出して接続する。
【0078】以上のようにして、図14に示すような
「らいうこーずいけーほーが」に対応する音声波形デー
タが得られる。
【0079】CPU18は、これを、サウンドカード2
8に与える。サウンドカード28は、与えられた音声波
形データをアナログ音声信号に変換し、スピーカ29か
ら音声として出力する。
【0080】上記実施形態においては、音声コーパスを
検索することにより拡張音節を見いだして切り出しを行
っているが、音声コーパス作成時と同様に、拡張音節の
規則に基づいて切り出しを行うようにしてもよい。
【0081】(5)その他の実施形態 上記実施形態では、母音連鎖を2以下に限定して拡張音
節を定義しているが、母音連鎖が3以上のものを含めて
もよい。たとえば、「きゃいーん」「ぎゅおーん」のよ
うに、長音および二重母音を含む場合に、これを1つの
拡張音節として扱ってもよい。
【0082】なお、母音連鎖を2以下に限定して拡張音
節を定義した場合であっても、「接続歪み」が0で連続
する複数の拡張音節候補については一つの波形素片とし
てまとめて切り出すため、一つの波形素片には3以上の
母音連鎖が含まれる場合がある。
【0083】また、上記実施形態では、音声コーパスと
して、音声波形データを記録している。しかしながら、
PARCOR係数などの音響特徴パラメータを記録するように
してもよい。これにより、音質は劣化するものの、音声
コーパスのサイズを小さくすることができる。
【0084】上記実施形態では、図1の各機能をCPU
を用いて実現した場合について説明したが、その一部又
は全部をハードウエアロジックによって構成してもよ
い。
【0085】2.第2の実施形態 (1)全体構成 図15に、この発明の第2の実施形態による音声合成装
置の全体構成を示す。この装置は、規則音声合成を行う
ものであり、区分手段102、音源生成手段104、調
音手段106、アナログ変換手段112を備えている。
調音手段106は、フィルタ係数制御手段108、音声
合成フィルタ手段110を備えている。拡張音節の継続
時間長の辞書116には、各拡張音節について、その継
続時間長が記録されている。音韻辞書114には、拡張
音節ごとに、声道伝達特性の時間的変化が記録されてい
る。
【0086】出力すべき音声の音韻情報は、区分手段1
02に与えられる。区分手段102は、音韻情報を拡張
音節に区分し、フィルタ係数制御手段108、音源生成
手段104に与える。また、区分手段102は、拡張音
節の継続時間長の辞書116を参照し、区分した各拡張
音節の継続時間長を算出する。これを、音源生成手段1
04に与える。音源生成手段104は、区分手段102
からの情報に基づいて、当該拡張音節のための音源波形
を生成する。
【0087】一方、フィルタ係数制御手段108は、拡
張音節の音韻情報に基づいて、音韻辞書114を参照
し、当該拡張音節の声道伝達特性の時間的変化を取得す
る。フィルタ係数制御手段108は、これに基づいて、
当該声道伝達特性を実現するフィルタ係数を音声合成フ
ィルタ110に出力する。したがって、音声合成フィル
タ手段110は、与えられた音源波形に対し、各拡張音
節に関して時間的同期をとりつつ、声道伝達特性による
調音を施し、音声合成波形として出力する。音声合成波
形は、アナログ変換手段112によって、アナログ音声
信号に変換される。
【0088】(2)ハードウエア構成 図16に、図15の装置をCPUを用いて実現した場合
のハードウエア構成の一例を示す。CPU18には、メ
モリ20、キーボード/マウス22、フロッピーディス
クドライブ(FDD)24、CD−ROMドライブ3
6、ハードディスク26、サウンドカード28、A/D
変換器52、ディスプレイ54が接続されている。ハー
ドディスク26には、オペレーシングシステム(OS)
44(たとえば、マイクロソフト社のWINDOWS98な
ど)、音声合成プログラム41が格納されている。これ
らプログラムは、CD−ROMドライブ36を介して、
CD−ROM38からインストールされたものである。
また、ハードディスク26には、拡張音節の継続時間長
の辞書116、音韻辞書114が記録されている。
【0089】(3)音声合成処理 図17に、音声合成処理プログラムのフローチャートを
示す。操作者は、合成音声のターゲット(出力すべき音
声)を「かな文字列」としてキーボード22から入力す
る(ステップS101)。なお、この「かな文字列」
は、FDD24を介して、フロッピーディスク34から
取り込んでもよく、ネットワーク等を介して他のコンピ
ュータから得たものであってもよい。また、かな文字列
以外の音韻情報(漢字かな混じり文等)を受けて、ハー
ドディスク26に記録しておいた辞書等によって、「か
な文字列」に変換するようにしてもよい。さらに、アク
セントやポーズなどの韻律的な情報を付加してもよい。
【0090】CPU18は、このかな文字列を拡張音節
に区分する(ステップS102)。拡張音節への区分
は、拡張音節の定義に基づく規則や拡張音節を列挙した
テーブルに基づいて行う。次に、図18に示す拡張音節
の継続時間長の辞書116を参照して、各拡張音節につ
いて、その継続時間長を取得する。なお、この辞書を、
図9のユニットインデックスと同じように、文字の多い
順にソートして用意すれば、図10のステップS11〜
S17と同様にして、拡張音節の区分と継続時間長の取
得を同時に行うこともできる。
【0091】さらに、CPU18は、各拡張音節の文字
列、形態素解析によって得たアクセント情報などに基づ
いて、各拡張音節に対応する音源波形を生成する(ステ
ップS104)。
【0092】次に、図19に示すような音韻辞書114
を参照して、各拡張音節に対応する声道伝達関数の時間
的変化を取得する(ステップS105)。この音韻辞書
114には、各拡張音節について、声道伝達関数の時間
的な変化が記述されている。さらに、各拡張音節の音源
波形に対して、上記の声道伝達関数の時間的変化を実現
するように、調音処理(フィルタ処理)を行う(ステッ
プS106)。
【0093】このようにして得た音声合成波形を、サウ
ンドカード28に与え、音声として出力する(ステップ
S107)。
【0094】以上のように、この実施形態においては、
拡張音節をひとかたまりとして音声合成を行っているの
で、音声波形の接続部分において不自然さが排除され、
品質の高い合成音声を得ることができる。
【0095】(4)その他の実施形態 前記第1の実施形態において指摘した変更が、この第2
の実施形態においても同様に適用可能である。
【0096】3.その他の実施形態 上記実施形態では、音声合成について拡張音節を用いた
場合を説明した。しかしながら、音声処理一般におい
て、拡張音節を基準として処理を行う場合として適用す
ることができる。たとえば、拡張音節をひとかたまりの
単位として、音声の解析を行う場合にも適用することが
でき、解析精度を向上させることができる。
【図面の簡単な説明】
【図1】この発明の一実施形態による音声合成装置の全
体構成を示す図である。
【図2】この発明の一実施形態による音声合成装置のハ
ードウエア構成を示す図である。
【図3】音声コーパス作成プログラムのフローチャート
である。
【図4】サンプル音声波形データとかな文字列を示す図
である。
【図5】拡張音節の構造を示す図である。
【図6】拡張音節の音節量と音節構造との対応関係およ
び拡張音節の例を示す図である。
【図7】サンプル音声波形データ、スペクトログラム、
拡張音節に区分された文字列を表示した画面を示す図で
ある。
【図8】音声ファイルとファイルインデックスとの関係
を示す図である。
【図9】ユニットインデックスを示す図である。
【図10】音声合成処理プログラムのフローチャートで
ある。
【図11】音声合成処理プログラムのフローチャートで
ある。
【図12】エントリの作成状態を示す図である。
【図12a】環境歪みと接続歪みとの関係を示す図であ
る。
【図13】拡張音節候補の決定を概念的に示す図であ
る。
【図14】合成された音声波形データを示す図である。
【図15】第2の実施形態による音声合成装置の全体構
成を示す図である。
【図16】第2の実施形態による音声合成装置のハード
ウエア構成を示す図である。
【図17】第2の実施形態による音声合成処理プログラ
ムのフローチャートである。
【図18】継続時間長の辞書を示す図である。
【図19】音韻辞書を示す図である。
【符号の説明】
4・・・アナログ変換手段 6・・・音声データベース 8・・・波形候補取得手段 10・・・波形候補決定手段 12・・・波形結合手段

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】人間の発話を収録することによって得たサ
    ンプル音声波形データを音声単位に区分するとともに、
    各音声単位のサンプル音声波形データに対応する音韻情
    報を関連付けて形成した音声データベースを記録した音
    声データベース記録手段と、 出力すべき音声の音韻情報を受けて、この音韻情報を音
    声単位に区分するとともに、前記音声データベースか
    ら、音声単位に区分したそれぞれの音韻情報について対
    応するサンプル音声波形データを取得し、取得した音声
    単位のサンプル音声波形データを結合して出力すべき音
    声波形データを得る音声波形合成手段と、 音声波形合成手段によって得られた音声波形データを受
    けて、アナログ音声信号に変換するアナログ変換手段
    と、 を備えた音声合成装置であって、 前記音声データベースにおいては、母音を含む音素系列
    からなっており、複数の音素が明瞭な区分に乏しく連続
    している場合にはこれら音素を1つのかたまりとして扱
    った拡張音節に基づいて、サンプル音声波形データを音
    声単位に区分し、 前記音声波形合成手段は、上記拡張音節に基づいて、音
    韻情報を音声単位に区分することを特徴とする音声合成
    装置。
  2. 【請求項2】音韻情報を対応付けたサンプル音声波形デ
    ータによる音声データベースを用いて、コンピュータに
    音声合成処理を行わせるための音声合成プログラムを記
    録した記録媒体であって、 出力すべき音声の音韻情報を受けて、この音韻情報を下
    記に定義する拡張音節に区分するとともに、前記音声デ
    ータベースから、拡張音節に区分したそれぞれの音韻情
    報について対応するサンプル音声波形データを取得し、
    取得した拡張音節のサンプル音声波形データを結合して
    出力すべき音声波形データを得る処理をコンピュータに
    行わせるためのプログラムを記録した記録媒体。ここ
    で、拡張音節とは、母音を含む音素系列からなってお
    り、複数の音素が明瞭な区分に乏しく連続している場合
    にはこれら音素を1つのかたまりとして扱ったものをい
    う。
  3. 【請求項3】出力すべき音声の音韻情報を受けて、この
    音韻情報を拡張音節に区分する区分手段と、 区分手段によって区分された拡張音節をひとかたまりと
    して音声波形データを生成し、各拡張音節の音声波形デ
    ータを結合して出力すべき音声波形データを得る音声波
    形合成手段と、 音声波形合成手段によって得られた音声波形データを受
    けて、アナログ音声信号に変換するアナログ変換手段
    と、 を備えた音声合成装置。ここで、拡張音節とは、母音を
    含む音素系列からなっており、複数の音素が明瞭な区分
    に乏しく連続している場合にはこれら音素を1つのかた
    まりとして扱ったものをいう。
  4. 【請求項4】コンピュータに音声合成処理を行わせるた
    めの音声合成プログラムを記録した記録媒体であって、 出力すべき音声の音韻情報を受けて、この音韻情報を拡
    張音節に区分し、拡張音節をひとかたまりとして音声波
    形データを生成し、各拡張音節の音声波形データを結合
    して出力すべき音声波形データを得る処理をコンピュー
    タに行わせるためのプログラムを記録した記録媒体。こ
    こで、拡張音節とは、母音を含む音素系列からなってお
    り、複数の音素が明瞭な区分に乏しく連続している場合
    にはこれら音素を1つのかたまりとして扱ったものをい
    う。
  5. 【請求項5】音韻情報を受けて、この音韻情報を区分す
    る処理を行うための区分プログラムを記録した記録媒体
    であって、 音韻情報を受け取り、 当該音韻情報を、下記によって定義される拡張音節に区
    分する処理をコンピュータに行わせるためのプログラム
    を記録した記録媒体。ここで、拡張音節とは、母音を含
    む音素系列からなっており、複数の音素が明瞭な区分に
    乏しく連続している場合にはこれら音素を1つのかたま
    りとして扱ったものをいう。
  6. 【請求項6】サンプル音声波形データを拡張音節に区分
    して記録した波形データ記録部と、 各拡張音節のサンプル音声波形データに対応する音韻情
    報を関連付けて記録した音韻情報記録部と、 を備えた音声データベースを記録した記録媒体。ここ
    で、前記拡張音節は、母音を含む音素系列からなってお
    り、複数の音素が明瞭な区分に乏しく連続している場合
    にはこれら音素を1つのかたまりとして扱ったものをい
    う。
  7. 【請求項7】音声処理のために用いる音韻情報データを
    記録した記録媒体であって、 前記音韻情報データは、下記定義による拡張音節をひと
    かたまりとして扱い、拡張音節ごとに区分情報が付され
    ていることを特徴とする音韻情報データを記録した記録
    媒体。ここで、前記拡張音節は、母音を含む音素系列か
    らなっており、複数の音素が明瞭な区分に乏しく連続し
    ている場合にはこれら音素を1つのかたまりとして扱っ
    たものをいう。
  8. 【請求項8】音声処理のために用いる音韻辞書を記録し
    た記録媒体であって、 下記定義による拡張音節を単位とする音韻情報に対応づ
    けて、当該音韻の声道伝達関数の時間的変化を記述した
    音韻辞書を記録した記録媒体。ここで、前記拡張音節
    は、母音を含む音素系列からなっており、複数の音素が
    明瞭な区分に乏しく連続している場合にはこれら音素を
    1つのかたまりとして扱ったものをいう。
  9. 【請求項9】請求項1、3の音声合成装置または請求項
    2、4〜8のいずれかの記録媒体において、 前記拡張音節は、母音、母音と長音の結合、母音と二重
    母音の第2要素の結合のいずれかのみを母音要素として
    含む1以上の音素系列であって、最も長いものが優先し
    て拡張音節として選択されるよう定義されることを特徴
    とするもの。
  10. 【請求項10】請求項1〜9のいずれかの音声合成装置
    または記録媒体において、 前記拡張音節は、子音C(促音、拗音、撥音は含まな
    い)、拗音y、母音V(長音、二重母音の第2要素は含
    まない)、長音R、二重母音の第2要素J、促音Q、撥
    音Nを構成要素としたものであって、子音C、拗音yの
    音節量を「0」、母音V、長音R、二重母音の第2要素
    J、促音Q、撥音Nの音節量を「1」として、各構成要
    素の音節量合計の多いものが優先して拡張音節として選
    択されるよう定義されるものをいう。
  11. 【請求項11】請求項1〜10のいずれかの音声合成装
    置または記録媒体において、 前記拡張音節には、音節量が「2」の(C)(y)VR、(C)(y)
    VJ、(C)(y)VNおよび(C)(y)VQを含む重音節と、音節量が
    「1」の(C)(y)Vを含む軽音節が少なくとも含まれてお
    り、 軽音節よりも重音節が優先して拡張音節として選択され
    ることを特徴とするもの。ここで、(X)はXが含まれ
    ていなくとも良く、1個以上含まれていてもよいことを
    示す。
  12. 【請求項12】請求項11の音声合成装置または音声合
    成プログラムを記録した記録媒体において、 前記拡張音節には、さらに、音節量が「3」の(C)(y)VR
    N、(C)(y)VRQ、(C)(y)VJN、(C)(y)VJQおよび(C)(y)VNQ
    を含む超重音節が含まれており、 軽音節よりも重音節が、重音節よりも超重音節が優先し
    て拡張音節として選択されることを特徴とするもの。
  13. 【請求項13】請求項1の音声合成装置または請求項2
    の音声合成プログラムを記録した記録媒体において、 前記音声データベースは、拡張音節が、その読みを示す
    かな文字列の長い順に検索可能に構成されていることを
    特徴とするもの。
  14. 【請求項14】音声波形に対する処理を行う音声処理方
    法において、 母音を含む音素系列からなっており、複数の音素が明瞭
    な区分に乏しく連続している場合にはこれら音素を1つ
    のかたまりとした拡張音節を分離できない単位として音
    声波形に対する処理を行う音声処理方法。
JP28052899A 1999-09-30 1999-09-30 音声合成装置 Pending JP2001100776A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP28052899A JP2001100776A (ja) 1999-09-30 1999-09-30 音声合成装置
US09/671,683 US6847932B1 (en) 1999-09-30 2000-09-28 Speech synthesis device handling phoneme units of extended CV

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28052899A JP2001100776A (ja) 1999-09-30 1999-09-30 音声合成装置

Publications (1)

Publication Number Publication Date
JP2001100776A true JP2001100776A (ja) 2001-04-13

Family

ID=17626367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28052899A Pending JP2001100776A (ja) 1999-09-30 1999-09-30 音声合成装置

Country Status (2)

Country Link
US (1) US6847932B1 (ja)
JP (1) JP2001100776A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352327A (ja) * 2004-06-14 2005-12-22 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249128B2 (en) * 2003-08-05 2007-07-24 International Business Machines Corporation Performance prediction system with query mining
US20070203705A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Database storing syllables and sound units for use in text to speech synthesis system
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0833744B2 (ja) * 1986-01-09 1996-03-29 株式会社東芝 音声合成装置
JP2894447B2 (ja) 1987-08-12 1999-05-24 株式会社 エイ・ティ・アール自動翻訳電話研究所 複合音声単位を用いた音声合成装置
WO1989003573A1 (en) * 1987-10-09 1989-04-20 Sound Entertainment, Inc. Generating speech from digitally stored coarticulated speech segments
JP2880507B2 (ja) 1988-02-17 1999-04-12 株式会社エイ・ティ・アール自動翻訳電話研究所 音声合成方法
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
JPH09185393A (ja) 1995-12-28 1997-07-15 Nec Corp 音声合成方式
WO1997036286A1 (fr) 1996-03-25 1997-10-02 Arcadia, Inc. Generateur de source de sons, synthetiseur vocal et procede de synthese vocale
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352327A (ja) * 2004-06-14 2005-12-22 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP4574333B2 (ja) * 2004-11-17 2010-11-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム

Also Published As

Publication number Publication date
US6847932B1 (en) 2005-01-25

Similar Documents

Publication Publication Date Title
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US20030158734A1 (en) Text to speech conversion using word concatenation
US20060155544A1 (en) Defining atom units between phone and syllable for TTS systems
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JPH11249677A (ja) 音声合成装置の韻律制御方法
JP3450237B2 (ja) 音声合成装置および方法
WO2011004502A1 (ja) 音声編集合成装置及び音声編集合成方法
JP2001100776A (ja) 音声合成装置
JP2761552B2 (ja) 音声合成方法
JP3281266B2 (ja) 音声合成方法及び装置
JPH0887297A (ja) 音声合成システム
JP2583074B2 (ja) 音声合成方法
JPH08335096A (ja) テキスト音声合成装置
JP3626398B2 (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
EP1589524B1 (en) Method and device for speech synthesis
Begum et al. Text-to-speech synthesis system for Mymensinghiya dialect of Bangla language
Dessai et al. Development of Konkani TTS system using concatenative synthesis
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
EP1640968A1 (en) Method and device for speech synthesis
Davaatsagaan et al. Diphone-based concatenative speech synthesis system for mongolian
Purboyo et al. A Review Paper Implementation of Indonesian Text-to-Speech using Java
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi