JPH1195796A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JPH1195796A
JPH1195796A JP9250857A JP25085797A JPH1195796A JP H1195796 A JPH1195796 A JP H1195796A JP 9250857 A JP9250857 A JP 9250857A JP 25085797 A JP25085797 A JP 25085797A JP H1195796 A JPH1195796 A JP H1195796A
Authority
JP
Japan
Prior art keywords
speech
unit
voice
section
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9250857A
Other languages
English (en)
Inventor
Masami Akamine
政巳 赤嶺
Takehiko Kagoshima
岳彦 籠嶋
Katsumi Tsuchiya
勝美 土谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9250857A priority Critical patent/JPH1195796A/ja
Publication of JPH1195796A publication Critical patent/JPH1195796A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】合成音声の音質が優れ、かつ音声素片辞書のサ
イズがコンパクトで、声質の変更も容易な音声合成方法
を提供する。 【解決手段】分析部100においてピッチ波形切り出し
部101で切り出した音声素片をLPC分析部102に
入力して残差信号とLPC係数の形で表現して、これら
クトルパラメータと残差信号の組を残差信号記憶部10
3とLPC係数記憶部104に音声素片辞書として格納
しておき、分析部200では文解析・韻律制御部から与
えられた音韻記号列に従って選択部201で残差信号と
スペクトルパラメータの組を選択し、選択された残差信
号を選択されたスペクトルパラメータに従って構成され
る合成フィルタ202に通すことにより音声素片を作成
し、この音声素片に対して韻律制御部203でピッチ同
期波形重畳法によるピッチ周期の制御と継続時間長の制
御を行った後、素片接続部204で接続して合成音声を
生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト音声合成
に適した音声合成方法に係り、特に音韻記号列・ピッチ
・音韻継続時間長などの情報から合成音声を生成する音
声合成方法に関する。
【0002】
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の3つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から合成音声が生成される。
【0003】このようなテキスト音声合成に用いる音声
合成方法は、任意の音韻記号列を任意の韻律で音声合成
することが可能な方法でなければならない。任意の音韻
記号列を音声として合成することができる音声合成方式
は、LPC分析合成方式と波形編集方式に大別される。
【0004】LPC分析合成方式は、例えば文献(1)
「伊藤、佐藤:“切り出し残差を用いた音声合成におけ
るピッチ制御法”、音響論2-7-18(1989-3)」に紹介され
ているように、音声信号にLPC分析を適用してLPC
スペクトルパラメータと残差信号を求め、残差信号のレ
ベルで韻律の制御および接続を行う方式である。この方
式は、LPC係数の操作で声質の変更が容易であり、ま
た合成のための音声素片辞書サイズが比較的小さくて済
むという利点がある反面、合成音声の音質はいわゆる鼻
にかかった明瞭性に欠けたものとなり、不十分なもので
あった。
【0005】一方、波形編集方式は、例えば文献(2)
「広川、箱田、佐藤:“波形編集型合成方式におけるス
ペクトル連続性を考慮した波形選択法”、音響論2-6-10
(1990-9)」、文献(3)「岩田、他::“パソコン向け
ソフトウェア日本語テキスト音声合成”、音響論2-8-13
(1993-10)」、および文献(4)「小山、小泉:“VC
Vを基本単位とする波形規則合成方式の検討”、信学技
報SP96-8(1996-5)」などで紹介されているように、実音
声波形から切出した音声素片のピッチ周期や継続時間長
を変更して接続することで音声を合成する方式で、高音
質化が比較的容易であると考えられており、盛んに検討
が行われている。
【0006】さらに、高音質化のためには分析、合成な
どの信号処理を行わない方が良いとの立場から、音韻環
境及び韻律環境が一致する音声波形を自然音声のデータ
ベースから最長単位で接続する方式も提案されている
(文献(5)「N.Campbell andA.W.Black:“CHAT
R:自然音声波形接続型任意音声合成システム”、信学
技報SP96-7(1996-5)」。
【0007】これらの方式は、分析合成方式より高音質
の合成音声を生成できるという利点を持つ反面、音声素
片辞書のサイズが大きくなるという問題がある。また、
スペクトルパラメータが陽に表現されていないため、声
質の変更などが難しいという問題がある。
【0008】本発明は、上述した従来の問題点を解消す
べくなされたものであり、合成音声の音質が優れ、かつ
音声素片辞書のサイズがコンパクトで、声質の変更も容
易な音声合成方法を提供することを目的とする。
【0009】
【課題を解決するための手段】上記の課題を解決するた
め、本発明による音声合成方法は、音声素片を残差信号
とLPC係数のようなスペクトルパラメータの形で表現
し、残差信号をスペクトルパラメータに従って構成され
る合成フィルタに通すことにより音声素片を作成し、こ
の音声素片に対して韻律制御を行い、韻律制御後の音声
素片を接続して合成音声を生成することを特徴とする。
【0010】さらに具体的には、音声素片を残差信号と
スペクトルパラメータの形で表現して、残差信号とスペ
クトルパラメータの組を音声素片辞書として格納してお
き、与えられた音韻記号列に従って残差信号とスペクト
ルパラメータの組を選択し、選択された残差信号を選択
されたスペクトルパラメータに従って構成される合成フ
ィルタに通すことにより音声素片を作成し、この音声素
片に対して韻律制御を行い、韻律制御後の音声素片を接
続して合成音声信号を生成する。
【0011】韻律制御に際しては、合成フィルタにより
得られる音声素片に対してピッチ同期波形重畳法を適用
することによりピッチ周期を制御することが好ましい。
韻律制御に際し、さらに音声素片の継続時間長を制御し
てもよい。
【0012】このような本発明に基づく音声合成方法に
よると、従来の残差駆動方式の音声合成法では残差信号
のレベルで韻律の制御を行っていたのに対して、音声素
片のレベルで韻律の制御を行い、かつ韻律制御後の音声
素片を接続するため、波形編集方式と同等の音質の合成
音声が得られる。
【0013】この場合、韻律制御におけるピッチ周期の
制御にピッチ同期波形重畳法を用いれば、さらに明瞭で
高音質の音声合成が可能となる。また、本発明では音声
素片辞書として用意する音声素片を残差信号とLPC係
数のようなスペクトルパラメータの組で表現するため、
音声素片辞書のサイズもコンパクトとなる。
【0014】さらに、このように音声素片をスペクトル
パラメータと残差信号の組で表現することによって、ス
ペクトルパラメータの操作により合成音声の声質を用意
に変更することが可能である。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明による音声合成方
法をテキスト音声合成システムに適用した実施形態を示
すブロック図である。この音声合成システムは、大きく
分けて分析部100と合成部200とからなる。
【0016】分析部100は、入力される音声波形から
ピッチ波形を切り出すピッチ波形切り出し部101と、
切り出されたパッチ波形のLPC分析(線形予測分析)
を行い、残差信号とスペクトルパラメータであるLPC
係数を抽出するLPC分析部102と、LPC分析部1
02により抽出された残差信号とLPC係数の組を音声
素片辞書として格納する残差信号記憶部103およびL
PC係数記憶部104からなる。
【0017】一方、合成部200は図示しない文解析・
韻律制御部でテキスト合成に供されるテキストを解析し
て得られる音韻記号列に従って、分析部100における
残差信号記憶部103およびLPC係数記憶部104か
ら、個々の音韻記号に対応する組の残差信号とLPC係
数を選択して取り出す音声素片選択部201と、選択さ
れたLPC係数に従って構成され、選択された残差信号
を入力として音声素片を作成する合成フィルタ202
と、作成された音声素片に対して、文解析・韻律制御部
から与えられるピッチ周期および継続時間長の情報に従
って韻律の制御を行う韻律制御部203と、韻律制御後
の音声素片を接続して合成音声を生成する素片接続部2
04からなる。
【0018】次に、図2に示すフローチャートを用い
て、分析部100の詳細な処理手順を説明する。まず、
音声波形を分析部100に入力する(ステップS1
1)。この音声波形としては、例えば後述するようにし
て作成された代表音声素片を用いる。
【0019】次に、ピッチ波形切り出し部101で入力
の音声波形にピッチ周期長の窓関数を掛けてピッチ周期
分の波形を切り出した後、LPC分析部102でピッチ
同期LPC分析を行う(ステップS12〜S13)。こ
の場合、窓関数により音声波形の離散的なスペクトルが
平滑化されるため、基本周波数の影響が低減されたスペ
クトル包絡を得ることができる。
【0020】ステップS12でのLPC分析の結果、音
声素片がピッチ周期単位の残差信号とLPC係数の組で
表現される。これらのうち残差信号は残差信号記憶部1
03に、LPC係数はLPC係数記憶部104に、それ
ぞれ互いに対応付けられて音声素片辞書として格納され
る(ステップS14)。
【0021】次に、図3に示すフローチャートを参照し
て合成部200の詳細な処理手順を説明する。音声合成
に際しては、図示しない文解析・韻律制御部から音韻記
号列とピッチ周期および継続時間長(音韻継続時間長)
の情報が与えられる。まず、音韻記号列に従って、音声
素片辞書を構成している残差信号記憶部103とLPC
係数記憶部104から、選択部201で個々の音韻記号
に対応した残差信号とLPC係数の組を選択して読み出
す(ステップS21)。
【0022】次に、ステップS21で選択されたLPC
係数によって合成フィルタ202を構成し、この合成フ
ィルタ202にステップS21で選択された残差信号を
入力することにより、音声素片を作成する(ステップS
22〜S23)。
【0023】次に、ステップS23で作成された音声素
片に対して、文解析・韻律制御部から与えられるピッチ
周期と継続時間長の情報に従って韻律制御部203で韻
律制御、つまりピッチ周期の制御と継続時間長の制御を
行う。
【0024】具体的には、ステップS23で作成された
音声素片に対して、まず波形編集方式と同様にピッチ同
期波形重畳法(PSOLA)を適用してピッチ周期の制
御を行う(ステップS24)。ピッチ同期波形重畳法
は、例えば文献(6)「F.Charpentier and M.Stella:
“Diphone Synthesis Using an Overlap-add Techniqef
or Speech Waveforms concateration”,Proc.ICASSP 8
6,pp.2015-2018(1986)」に記載されている公知の手法で
あるが、本実施形態ではより高音質の音声合成を可能と
するため、以下のようにしてピッチ同期波形重畳法に基
づくピッチ周期の制御を行う。
【0025】一般に、合成音声の音質は有声音の滑らか
さに負うところが大きい。そこで、本実施形態ではピッ
チ周期の変化をより滑らかにするために、与えられたピ
ッチ周期をサンプル単位で補間する。第jフレームと第
j+1フレームの中心時刻を各々t1 ,t2 とし、ピッ
チ周期をp1 ,p2 とすると、ピッチ周期が線形に変化
する場合、時刻tにおけるピッチ周期p(t) は次式で表
される。
【0026】
【数1】 また、t1 からt2 までのピッチマークの位置をmk (k
=1,2,…N)とすると、次式が成立する。
【0027】
【数2】 式(1)(2)から次式が得られる。
【0028】
【数3】
【0029】韻律制御部203におけるピッチ周期の制
御は、このようにして求められたピッチマークの位置を
基準にして、合成フィルタ202で作成された音声素片
を重畳しする。すなわち、例えば時間軸上で各ピッチマ
ークの位置に音声素片の先頭をそれぞれ配置して、それ
らを零信号に重畳する。この場合、各々のピッチマーク
の位置に対応する隣接した音声素片が重複している部分
は足し合わせられ、重複していない部分は元の音声素片
のままとなる。
【0030】韻律制御部202では、さらに継続時間長
の制御を行う(ステップS25)。この継続時間長の制
御では、元の音声波形と合成音声波形の各々のピッチマ
ークをどのように対応付けるかが重要であるが、本実施
形態ではこの対応付けに際して時間的なマッピングを関
数で行う。この方法によると、マッピング関数を適切に
定義することによって、ピッチ波形の間引き・補間を接
続する音声素片の性質に応じて自由に制御することがで
きる。
【0031】次に、このようにして韻律制御(ピッチ周
期と継続時間長の制御)がなされた音声素片どうしの接
続を行う(ステップS26)。本実施形態では、接続部
における波形の不連続性に起因する歪みを低減するた
め、音声素片としてCV、VC素片を用いており、母音
定常部で各音声素片を接続する。この際、接続する母音
のピッチ波形を全母音区間に渡って重み付き加算して接
続する。このようにして、任意の文章(テキスト)が音
声信号に変換された合成音声が生成される。
【0032】次に、本発明に付随する音声素片の学習法
について説明する。従来、音声素片の作成は人手による
試行錯誤的手法に頼っており、熟練した研究者が長時間
かけて単音発声や無意味単語発声または連続発声された
音声データから音声素片を切り出しては、合成音声を評
価するという一連の作業を繰り返し行う必要があった。
【0033】一方、音声データベースから音声素片を自
動的に生成する方法として、例えば文献(7)「中嶌、
浜田“音響近況に基づくクラスタリングによる規則合成
法”、信学論D-II,vol.J-72-D-II,No.8,pp.1177-1179(1
989-8)」に開示された音素環境クラスタリング(CO
C:Context Oriented Clustering)法が知られている。
この方法は、スペクトルパラメータの分散に基づいて音
韻環境の拘束条件の下で音声データベースから切り出さ
れた音声素片をクラスタリングし、各クラスタのセント
ロイドを代表音声素片とする方法である。
【0034】この音素環境クラスタリング法は、先見的
知識に頼らずに統計的評価基準に基づいて代表音声素片
を決定できるという特徴があるが、音声合成で問題とな
っているピッチ周期の制御に伴う歪みを考慮していない
ため、合成音声の音質は必ずしも十分なものとは言えな
い。
【0035】そこで、韻律制御(ピッチ周期と継続時間
長の制御)を行うことにより生じる歪みも含めて合成音
声の歪みを定義し、この歪みを最小化する代表音声素片
の学習法について説明する。
【0036】図4に、本実施形態で用いる代表音声素片
の閉ループ学習システムのブロック図を示す。この学習
法は、実際には様々な合成器や合成単位に対して適用す
ることができるが、ここでは先に説明した音声合成シス
テムに用いるCV、VC音声素片の学習に適用した場合
について述べる。これは学習によって音声素片を生成し
た後、合成フィルタのLPC係数と残差信号を求める。
【0037】学習に当たっては、まず事前準備として音
声合成単位の音声素片を音声データべース401から大
量に切り出し、これらを代表音声素片候補402とす
る。同時に、同様な方法で学習のためのトレーニングデ
ータ403を作成する。次に、代表音声素片候補のピッ
チ周期と継続時間長を分析して(404)、トレーニン
グデータ403をターゲットに代表音声素片候補のピッ
チ周期と継続時間長を分析して変更し(405)、音声
素片を合成する。このような方法で全ての代表音声素片
候補402と全てのトレーニングデータの組み合わせに
ついて、音声素片を生成する。
【0038】次に、生成された音声素片のトレーニング
データに対する歪みを計算で求めて評価し(405)、
全てのトレーニングデータに対する歪みの総和を最小に
する代表音声素片を探索して上述の代表音声素片の候補
から選択し(406)、これを代表素片とする。
【0039】この学習法は、合成された音声素片の評価
結果を音声素片の学習にフィードバックするという意味
で、閉ループ学習と呼ぶ。以下に、この学習法で重要に
なる歪み尺度と代表音声素片の選択法について、具体的
な一例を述べる。
【0040】(歪み尺度)学習の歪み尺度は、主観評価
の結果を良く反映するものである必要がある。また、合
成音声のパワーは音声合成システムで制御されることか
ら、代表音声素片はパワーが正規化されたレベルで評価
する必要がある。このようなことを考慮して、合成音声
素片の歪みを次式で定義する。
【0041】
【数4】
【0042】ここで、rj はトレーニングデータを表
し、sijはrj を目標にした代表音声素片候補ui によ
る合成音声素片を表す。 (代表音声素片の選択)合成単位当たりの代表音声素片
数をn、代表音声素片候補数をNとすると、代表音声素
片の選択はN個の候補からn個を選ぶ組み合わせの中か
ら次のコス卜関数を最小化する代表音声素片の組を一組
探索する問題となる。
【0043】
【数5】
【0044】ここで、Mはトレーニングデータの数であ
る。式(9)のコスト関数を最小化する代表音声素片の
組が求まると、全トレーニングデータを代表音声素片に
対応するクラスタにクラスタリングすることができる。
【0045】図5に、4個の代表音声素片候補から2個
の代表音声素片を選択する場合の例を示す。この例で
は、u1 〜u4 の任意の二個の組み合わせの中で、u2
とu3の組み合わせのコスト関数が最小となる。この結
果、u2 とu3 が代表音声素片として選択される。
【0046】(評価実験)CV、VCのdiphone
を合成単位として、各合成単位に対して上述の方法で1
個の代表音声素片を作成する実験を行った。視察により
音韻ラベルが付けられた音声データベースからトレーニ
ングに用いる音声素片データと代表音声素片候補を切り
出し、前述した閉ループ学習法で計302個のCV,V
C代表音声素片を作成した。学習に要した時間はSun
−Ultra2で約1.5時間であった。
【0047】図6は、合成単位(CV,VC)当たりの
音声素片数を増加させた場合のコスト関数の値を示して
おり、この図から音声素片数の増加とともに合成音声の
歪みが単調に減少していることが分かる。
【0048】従来から、パワーやピッチにより音声素片
を使い分けることにより合成音の音質が向上することは
知られている。しかし、従来の試行錯誤による方法で
は、代表音声素片の作成に多大な労力と時間を要し、代
表音声素片の数を増やすことは容易ではなかった。
【0049】これに対し、上述した閉ループ学習法によ
れば、ラベリングされた音声データが与えられれば短時
間で自動的に音声素片の作成ができ、任意の数の代表音
声素片を生成することが容易である。しかも、パワーや
ピッチといった先見的な知識で音声素片の選択を行うの
ではなく、合成音声の歪みの尺度で選択の規則を作成す
ることが可能である。すなわち、トレーニングデータを
選択された代表音声素片のクラスタにクラスタリング
し、クラスタ内で共通する要因を抽出することにより音
声素片選択の規則を生成することかできる。
【0050】次に、上述した音声合成システムで得られ
た合成音声の音質評価を行った。作成した代表音声素片
を図1の音声入力として分析部に与え、ピッチ波形切り
出し部101およびLPC分析部102を介して残差信
号とLPC係数に分解した形で残差信号記憶部103と
LPC係数記憶部104に音声素片辞書として蓄積し
た。蓄積に当たっては、ベクトル−スカラ量子化の手法
を適用して、残差信号とLPC係数を符号化した。この
結果、データ量は一話者当たり約150kバイトと、波
形編集方式に比べて1/10〜1/20の非常にコンパ
クトなものとなっている。従って、本実施形態の音声合
成システムはPDA等の携帯情報端末やカーナビゲーシ
ョンシステム等へ組み込みことも容易である。
【0051】大学生7名を含む計10名(男女同数)の
一般の被験者による7段階(−3:非常に悪い〜+3:
非常によい)の主観評価の結果、本実施形態の音声合成
システムで得られた合成音声の音質は、従来のケプスト
ラム合成方式による音声合成システムに比較して、男女
話者及び各種文章の平均で2.5ポイント向上し、明瞭
感が大幅に向上するとともに、ソフトでより肉声に近い
音質になったとの評価が被験者から得られた。
【0052】
【発明の効果】以上説明したように、本発明の音声合成
方法によれば、音声素片を残差信号とLPC係数のよう
なスペクトルパラメータの組で表現し、残差信号とスペ
クトルパラメータで生成される音声素片に対して音律の
制御を行っているため、明瞭で高音質の合成音声を生成
できるとともに、スペクトルパラメータの操作により声
質の変更が容易であり、さらに音声素片辞書のサイズも
コンパクトにすることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声合成システムの
構成を示すブロック図
【図2】同実施形態における分析側の処理手順を示すフ
ローチャート
【図3】同実施形態における合成側の処理手順を示すフ
ローチャート
【図4】代表音声素片の閉ループ学習システムを説明す
るためのブロック図
【図5】合成音声素片の歪みに基づく代表音声素片選択
の例を示す図
【図6】代表音声素片の素片数とコスト関数の関係を示
す図
【符号の説明】
100…音声分析部 101…ピッチ波形切出し部 102…LPC分析部 103…残差信号記憶部 104…LPC係数記憶部 200…音声合成部 201…選択部 202…LPC合成フィルタ 203…韻律制御部 204…音声素片接続部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】音声素片を残差信号とスペクトルパラメー
    タの形で表現し、残差信号をスペクトルパラメータに従
    って構成される合成フィルタに通すことにより音声素片
    を作成し、この音声素片に対して韻律制御を行い、韻律
    制御後の音声素片を接続して合成音声を生成することを
    特徴とする音声合成方法。
  2. 【請求項2】音声素片を残差信号とスペクトルパラメー
    タの形で表現して、該残差信号とスペクトルパラメータ
    の組を音声素片辞書として格納しておき、与えられた音
    韻記号列に従って残差信号とスペクトルパラメータの組
    を選択し、選択された残差信号を選択されたスペクトル
    パラメータに従って構成される合成フィルタに通すこと
    により音声素片を作成し、この音声素片に対して韻律制
    御を行い、韻律制御後の音声素片を接続して合成音声を
    生成することを特徴とする音声合成方法。
  3. 【請求項3】前記韻律制御に際して、前記合成フィルタ
    により得られる音声素片に対してピッチ同期波形重畳法
    を適用することによりピッチ周期を制御することを特徴
    とする請求項1または2記載の音声合成方法。
  4. 【請求項4】前記韻律制御に際して、さらに音声素片の
    継続時間長を制御することを特徴とする請求項3項記載
    の音声合成方法。
JP9250857A 1997-09-16 1997-09-16 音声合成方法 Pending JPH1195796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9250857A JPH1195796A (ja) 1997-09-16 1997-09-16 音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9250857A JPH1195796A (ja) 1997-09-16 1997-09-16 音声合成方法

Publications (1)

Publication Number Publication Date
JPH1195796A true JPH1195796A (ja) 1999-04-09

Family

ID=17214048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9250857A Pending JPH1195796A (ja) 1997-09-16 1997-09-16 音声合成方法

Country Status (1)

Country Link
JP (1) JPH1195796A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002063610A1 (fr) * 2001-02-02 2002-08-15 Nec Corporation Dispositif et procede de conversion de sequences de codes vocaux
US6470316B1 (en) 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US6499014B1 (en) 1999-04-23 2002-12-24 Oki Electric Industry Co., Ltd. Speech synthesis apparatus
US6757653B2 (en) * 2000-06-30 2004-06-29 Nokia Mobile Phones, Ltd. Reassembling speech sentence fragments using associated phonetic property
US7092878B1 (en) 1999-08-03 2006-08-15 Canon Kabushiki Kaisha Speech synthesis using multi-mode coding with a speech segment dictionary
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470316B1 (en) 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US6499014B1 (en) 1999-04-23 2002-12-24 Oki Electric Industry Co., Ltd. Speech synthesis apparatus
US7092878B1 (en) 1999-08-03 2006-08-15 Canon Kabushiki Kaisha Speech synthesis using multi-mode coding with a speech segment dictionary
US6757653B2 (en) * 2000-06-30 2004-06-29 Nokia Mobile Phones, Ltd. Reassembling speech sentence fragments using associated phonetic property
WO2002063610A1 (fr) * 2001-02-02 2002-08-15 Nec Corporation Dispositif et procede de conversion de sequences de codes vocaux
US7505899B2 (en) 2001-02-02 2009-03-17 Nec Corporation Speech code sequence converting device and method in which coding is performed by two types of speech coding systems
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus

Similar Documents

Publication Publication Date Title
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
WO2005109399A1 (ja) 音声合成装置および方法
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JPH031200A (ja) 規則型音声合成装置
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
Dutoit Corpus-based speech synthesis
JP2001109500A (ja) 音声合成装置および方法
JPH1195796A (ja) 音声合成方法
JP2001265375A (ja) 規則音声合成装置
JP2761552B2 (ja) 音声合成方法
JP3281266B2 (ja) 音声合成方法及び装置
JPH0887297A (ja) 音声合成システム
van Rijnsoever A multilingual text-to-speech system
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
Hirose et al. Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis
Qin et al. An improved spectral and prosodic transformation method in STRAIGHT-based voice conversion
JPH11249676A (ja) 音声合成装置
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JPH09179576A (ja) 音声合成方法
Ng Survey of data-driven approaches to Speech Synthesis