JP3563772B2 - 音声合成方法及び装置並びに音声合成制御方法及び装置 - Google Patents
音声合成方法及び装置並びに音声合成制御方法及び装置 Download PDFInfo
- Publication number
- JP3563772B2 JP3563772B2 JP13436394A JP13436394A JP3563772B2 JP 3563772 B2 JP3563772 B2 JP 3563772B2 JP 13436394 A JP13436394 A JP 13436394A JP 13436394 A JP13436394 A JP 13436394A JP 3563772 B2 JP3563772 B2 JP 3563772B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- speech
- pitch scale
- expansion
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 65
- 238000003786 synthesis reaction Methods 0.000 title claims description 65
- 238000000034 method Methods 0.000 title claims description 40
- 238000001308 synthesis method Methods 0.000 title claims description 16
- 230000008859 change Effects 0.000 claims abstract description 30
- 230000008602 contraction Effects 0.000 claims description 57
- 238000005070 sampling Methods 0.000 claims description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 abstract 1
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 38
- 230000005236 sound signal Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【産業上の利用分野】
本発明は、規則合成方式による音声合成方法及び装置に関するものである。
本発明は、合成音声を生成する音声合成装置において用いる音声合成制御方法及び装置に関するものである。
【0002】
【従来の技術】
従来の音声規則合成装置では、VcVパラメータ(母音−子音−母音)やcVパラメータ(子音−母音)を基本単位とした音声素片と、駆動音源信号とを一定の規則に基づいて結合することによってディジタル音声信号を生成し、更にこのディジタル音声信号をD−A変換することによってアナログ音声波形を得ている。そして、アナログ音声波形をアナログ低域フィルタに通すことにより、標本化によって発生する不要な高域雑音成分を除去して正しいアナログ音声波形を出力するようにしている。
【0003】
上述の音声合成装置においては、その発声速度を変化させる手段として、一般的に図4に示す方法を採用している。
【0004】
図4において、(A1)はVcVパラメータを切り出す前の音声波形で「あさ」と発声したものの一部、(A2)は同じく「あけ」と発声したものの一部である。又、(B1)は(A1)の音声波形情報のVcVパラメータを表し、同じく(B2)は(A2)の音声波形情報のVcVパラメータを表す。(B3)は拍同期点の間隔と母音の種類などにより設定される長さを有するパラメータであり連結前後のパラメータを補間するものである。拍同期点は各VCVパラメータのラベル情報に含まれる。(B1)〜(B3)における各矩形部はフレームを表し、各フレームは音声波形を生成するためのパラメータを有し、それぞれのフレームの時間的な長さは固定である。
【0005】
(C1)は(A1),(B1)に対応したラベル情報でパラメータの音響的な境界の位置を指している。(C2)も同様に(A2),(B2)に対応したラベル情報である。ここで図中のラベル「?」は拍同期点位置に対応している。合成音声の発声速度はこの拍同期点間の時間間隔により決定される。
【0006】
(D)は(C1)の拍同期点位置から(C2)の拍同期点位置までの対応するパラメータ情報(フレーム)を(B1),(B3),(B2)から切りだして連結した状態を表す。又、(E)は(D)に対応したラベル情報である。(F)は隣接するラベル間に設定された伸縮率であり、(D)のパラメータを合成音声の拍同期点間隔に合わせて引き延ばしたり、押し縮めたりする際の相対的な度合いである。(G)は合成音声の拍同期点間隔に応じて伸縮した後のパラメータ列、即ちフレーム列を表す。又、(H)は(G)に対応したラベル情報である。
【0007】
以上の如く、拍同期点間隔を伸縮することにより発声速度が変化する。この拍同期点間隔の伸縮は、各フレームの時間的な長さが一定であるため、(G)に示す如く拍同期点間のフレームの数を増減することで達成される。例えば、図4の(G)に示す如く拍同期点間隔を引き延ばした場合(発声速度を遅くした場合)はフレーム数を増やす。各フレームのパラメータは必要なフレームの数に応じて演算により生成される。
【0008】
【発明が解決しようとする課題】
上述した従来技術においては、合成音声の発声速度に応じてフレームの数を変化させるため、次のような問題点がある。例えば(D)のパラメータ列を(G)に伸縮する場合のうち、(G)のパラメータ列の長さが(D)よりも短くなる場合は、フレーム数が少なくなってパラメータの補間が粗くなり異音が出たり音質が悪くなる場合がある。
【0009】
また、発声速度が非常に遅くなった場合は、(G)のパラメータ列の長さが非常に長くなり、フレーム数が多くなってしまう。このため、パラメータを算出するための計算時間がかかる上にメモリの消費量も増大する。更に、(G)のパラメータ列を生成した後はそのパラメータ列の発声速度を変更することはできない。このため、利用者が指示した発声速度変更に対して時間的な遅れを生じ、利用者に違和感を感じさせるという問題がある。
【0010】
本発明は上記の問題点に鑑みてなされたものであり、合成音声の発声速度の変更に対してフレームの数を一定に保つことを可能とし、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑える音声合成方法及び装置を提供することを目的とする。
【0011】
また、本発明の他の目的は、発生音声の変更をフレーム単位で行うことを可能とし、1モーラ期間の間においても発生速度の変化に対応することが可能な音声合成方法及び装置を提供することにある。
【0012】
また、本発明の他の目的は、所定の期間(例えば1モーラ期間)において発生音声のアクセントの強弱が線形に変化するようにピッチスケールが設定される音声合成方法及び装置を提供することにある。
【0013】
また、本発明の他の目的は、所定の期間(例えば1モーラ期間)において発生音声の音程の高低が線形に変化するようにピッチスケールが設定される音声合成方法及び装置を提供することにある。
【0014】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成装置は例えば以下の構成を備える。即ち、
音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備える。
更に、上記の目的を達成するための本発明の音声合成装置は以下の構成を備える。即ち、
音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレーム時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備える。
【0015】
また、上記の目的を達成するための本発明による音声合成方法は例えば以下の工程を備える。即ち、
音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備える。
更に、上記の目的を達成するための本発明の音声合成方法は以下の構成を備える。即ち、
音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備える。
【0016】
【作用】
上記の構成により、音声波形のパラメータを格納する各フレームについて、合成音声の発声速度の変化に応じた各フレームの伸縮の度合いである伸縮度が格納される。合成音声を生成する際には、その発声速度と伸縮度とに基づいて各フレームの時間長が決定され、音声波形が生成される。
【0017】
【実施例】
以下に添付の図面を参照しながら、本発明の好適な実施例について詳細に説明する。
【0018】
<実施例1>
図16は、本実施例1の音声合成装置の機能構成を示すブロック図である。1は文字系列入力部であり、合成すべき音声の文字系列を入力する。例えば合成すべき音声が「音声」であるときには、「OnSEI」というような文字系列を入力する。また、この文字系列中には、発声速度や声の高さなどを設定するための制御シーケンス等が含まれることもある。2は制御データ格納部であり、文字系列入力部1で制御シーケンスと判断された情報や、ユーザインターフェースより入力される発声速度や声の高さなどの制御データを内部レジスタに格納する。3はVcV系列生成部であり、文字系列入力部1より入力された文字系列をVcV系列へ変換する。例えば、「OnSEI」という文字系列は、「QO,On,nSE,EI,IQ」というVcV系列へ変換される。
【0019】
4はVcV格納部であり、VcV系列生成部3で生成されたVcVを内部レジスタに格納する。5は音韻時間長係数設定部であり、VcV格納部4に格納されたVcVの種類より、合成音声の拍同期点間隔を標準の拍同期点間隔よりどれくらい広げるかを表す値を格納する。6はアクセント情報設定部であり、VcV格納部4に格納されたVcVのアクセント情報を設定する。7はVcVパラメータ格納部であり、VcV系列生成部3で生成されたVcV系列に対応するVcVパラメータ、或いは語頭のデータであるV(母音)パラメータやcVパラメータを格納している。8はラベル情報格納部であり、VcVパラメータ格納部7に格納されているVcVパラメータのそれぞれについて、母音開始点、有声区間、無声区間などの音響的な境界を区別するためのラベルや拍同期点を示すラベルを、その位置情報と共に格納している。9はパラメータ生成部であり、VcV系列生成部3で生成されたVcV系列に対応するパラメータ系列を生成する。尚、パラメータ生成部の処理手順については後述する。
【0020】
10はパラメータ格納部であり、パラメータ生成部9で生成されたパラメータ系列からパラメータを1フレームずつ取り出して内部レジスタに格納する。11は拍同期点間隔設定部であり、制御データ格納部2に格納された発声速度に関する制御データより、合成音声の標準拍同期点間隔を設定する。12は母音定常部長設定部であり、母音の種類等よりVcVパラメータの接続に関する母音定常部の時間長を設定する。13はフレーム時間長設定部であり、パラメータの発声速度係数、拍同期点間隔設定部11で設定された拍同期点間隔、母音定常部長設定部12で設定された母音定常部長から各フレームの時間長を計算する。14は駆動音源信号生成部である。駆動音源信号生成部14の処理手順については後述する。
【0021】
15は合成パラメータ補間部であり、パラメータ格納部に格納されているパラメータを、フレーム時間長設定部13で設定されたフレーム時間長で補間する。16は音声合成部であり、合成パラメータ補間部15で補間されたパラメータと、駆動音源信号生成部14で生成された駆動音源信号から合成音声を生成する。
【0022】
図17は、音声素片としてVcVパラメータを用いた音声合成の例を示す図である。尚、図4と同じ内容については同一の参照番号を付し、ここではその説明を省略する。
【0023】
図17において、(B1)及び(B2)のVcVパラメータは、それぞれVcVパラメータ格納部7に格納されている。(B3)のパラメータは、母音定常部のパラメータであり、VcVパラメータ格納部7とラベル情報格納部8に格納された情報によりパラメータ生成部9で生成される。又、各パラメータのラベル情報である(C1)及び(C2)は、ラベル情報格納部8に格納されている。(D’)は(C1)の拍同期点位置から(C2)の拍同期点位置までの対応するパラメータを(B1),(B3),(B2)より切り出して連結したフレーム列である。
【0024】
更に、(D’)の各フレームには発声速度係数Kiを格納する部分が付加されている。(E’)は(D’)に対応したラベル情報である。(F’)は、隣接するラベルの種類により設定される伸縮率である。(G’)は、合成パラメータ補間部15において、フレーム時間長設定部13で設定された時間長で(D’)の各フレームを補間した結果であり、(G’)のパラメータに従って音声合成部16は合成音声を生成する。
【0025】
更に、図18を参照しながら、VcVパラメータの伸縮について詳しく説明する。i番目のラベルの伸縮率をeiとすると、ラベル時間長Ti及びT’iは
(T1−T’1)/T1 : (T2−T’2)/T2 : … (Ti−T’i)/Ti … = e1 : e2 : … ei : … (1)
の関係を満たす。ここで、時間長の単位をサンプル数とする。
【0026】
伸縮率と伸縮前ラベル時間長との積和(伸縮フレーム積和)を
σ = ΣeiTi
とし、伸縮後時間長と伸縮前時間長との差(時間長差分)を
δ = T’−T=−Σ(Ti−T’i)
とし、発声速度係数を
Ki = ei/σ
として式(1)を変形すると、
T1−T’1 : T2−T’2: … : Ti−T’i:…=e1T1 : e2T2 : … : eiTi : … (1)
(T’i−Ti)/δ = eiTi/σ
T’i/Ti = (ei/σ)・δ+1
T’i/Ti = Ki・δ+1
となる。1フレームの標準時間長をNサンプル(12kHzサンプリングで120サンプル)とすると、i番目のラベルの合成パラメータを1フレーム当たりni個のサンプルで補間する。ここでniは、
ni=(T’i/Ti)・N=(Ki・δ+1)・N …(2)
で表される。発声速度に応じて決まる値はT’のみであるから、発声速度係数Kiを各フレームのパラメータとして与えることにより、式(2)を用いてフレーム単位で発声速度を変更することが可能となる。
【0027】
以上の動作を、図19のフローチャートを参照して説明する。
【0028】
ステップS101で、文字系列入力部1より表音テキストが入力される。ステップS102で、外部入力された制御データ(発声速度、声の高さ)と、入力された表音テキスト中の制御データが制御データ格納部2に格納される。ステップS103で、文字系列入力部1より入力された表音テキストからVcV系列生成部3においてVcV系列が生成される。
【0029】
ステップS104で、モーラ前後のVcVがVcV格納部4に取り込まれる。ステップS105で、音韻時間長係数設定部5において、前後のVcVの種類に応じて音韻時間長係数が設定される。
【0030】
図20は、パラメータ1フレームのデータ構造を示す図である。又、図21は、図19のステップS107に相当し、パラメータ生成部9で行われるパラメータ生成手段を示すフローチャートである。母音定常部フラグvowelflagは、パラメータが母音定常部であるか否かを示すフラグである。この変数は、図21のステップS75及びステップS76で設定される。母音の種類を表すvoweltypeは、母音定常部長を計算するときに使用する。この変数は、ステップS73で設定される。有声、無声情報uvflagは、音韻が有声であるか無声であるかの情報を示す。この変数は、ステップS77で設定される。
【0031】
ステップS106で、アクセント情報設定部6において、アクセント情報が設定される。アクセントモーラaccMora は、アクセント開始から終了までのモーラ数を表す。アクセントレベルaccLevelは、アクセントの強さをピッチスケール単位で表したものである。これらの変数に、表音テキストに記述されたアクセント情報を格納する。
【0032】
ステップS107で、パラメータ生成部9において、音韻時間長係数設定部5において設定された音韻時間長係数と、アクセント情報設定部6において設定されたアクセント情報と、VcVパラメータ格納部7から取り出されたVcVパラメータと、ラベル情報格納部8から取り出されたラベル情報とを用いて、1モーラ分のパラメータ系列が生成される。
【0033】
ステップS71で、1モーラ(前VcVの拍同期点から後VcVの拍同期点まで)のVcVパラメータとラベル情報がVcVパラメータ格納部7とラベル情報格納部8から取り出される。
【0034】
ステップS72で、図22に示すように、取り出されたVcVパラメータが非母音定常部と母音定常部とに分けれられる。そして、非母音定常部の伸縮前時間長Tp 、伸縮フレーム積和σp 、母音定常部の伸縮前時間長Tv 、伸縮フレーム積和σv が計算される。
【0035】
次に、パラメータ1フレーム毎の処理に移る。ステップS73で、音韻時間長係数がαに格納され、母音の種類がvoweltype に格納される。
【0036】
ステップS74で、パラメータが母音定常部であるかが判別される。母音定常部のときは、ステップS75で、母音定常フラグが立てられ、母音定常部の伸縮前時間長と発声速度係数が設定される。非母音定常部の時は、ステップS76で、母音定常部フラグがオフとなり、非母音定常部の伸縮前時間長と発声速度係数が設定される。
【0037】
ステップS77で、有声・無声情報と、合成パラメータが格納される。ステップS78で、1モーラの処理が終了したときは、ステップS108に進む。一方、1モーラの処理が終了していないときは、ステップS73に戻り、上述の処理が繰り返される。
【0038】
ステップS108で、パラメータ生成部9から1フレームのパラメータがパラメータ格納部10に取り込まれる。ステップS109で、制御データ格納部2より、発声速度が拍同期点間隔設定部11に、声の高さが駆動音源信号生成部14に取り込まれる。ステップS110で、拍同期点間隔設定部11において、パラメータ格納部10に取り込まれたパラメータの音韻時間長係数と、制御データ格納部2より取り込まれた発声速度を用いて、拍同期点間隔が設定される。制御データの発声速度をm(モーラ/秒)とすると、標準拍同期点間隔はTs=100N/m(サンプル数/モーラ)となる。ここで、1フレームの標準時間長をN(12kHzサンプリングで120ポイント)とする。拍同期点間隔は、標準拍同期点間隔に音韻時間長係数αをかけて
T’=α×Ts
となる。
【0039】
ステップS111で、母音定常部長設定部12において、パラメータ格納部10に取り込まれたパラメータの母音の種類と、拍同期点間隔設定部11で設定された拍同期点間隔を用いて、母音定常部長が設定される。例えば、母音定常部長vlenは、母音の種類voweltype と拍同期点間隔T’より、図23のように決定される。
【0040】
ステップS112で、フレーム時間長設定部13において、拍同期点間隔設定部11で設定された拍同期点間隔と、母音定常部長設定部12で設定された母音定常部長を用いて、フレーム時間長が設定される。伸縮後時間長と伸縮前時間長との差δを、母音定常部フラグvowelflagがOFF(非母音定常部)のとき、
δ=T'−vlen−T p
母音定常部フラグvowelflagがON(母音定常部)のとき、
δ=vlen−T v
とする。第kフレームの時間長(サンプル数)nkが、式(2)を用いて計算される。
【0041】
ステップS113で、駆動音源信号生成部14において、制御データ格納部2より取り込まれた声の高さと、パラメータ格納部10に取り込まれたパラメータのアクセント情報と、フレーム時間長設定部13で設定されたフレーム時間長を用いて、ピッチスケールが生成され、駆動音源信号が生成される。図24は、ピッチスケールの生成についての概念図である。1モーラの間に変化するアクセントの強さPmと1モーラのサンプル数Nmは、
Pm=accLevel/accMora
Nm=T’
によって求められる。発声速度が変化しなかったとき、1モーラでピッチスケールが線形に変化するようにピッチスケールの生成が行われる。第kフレームの時間長をnk サンプルとすると、kによってnk の値は異なるが、それとは関係なく、1サンプル当たりPm/Nmずつピッチスケールが変化するようにする。
【0042】
これを原則として、発声速度が途中で変化したときにも、フレーム単位で対応できるような処理を次に述べる。図25は、ピッチスケールの生成についての説明図である。拍同期点から第kフレームまでの間に変化したアクセントの強さをPg、処理されたサンプル数をN g とすると、残り(Nm−Ng)サンプルで(Pm−Pg)ピッチスケールで変化すればよい。したがって、1サンプル当たりのピッチスケール変化量は、
Δp=(Pm−Pg)/(Nm−Ng)
によって求められる。ピッチスケールの初期値をP0、ピッチスケールPとP0の差分をPdとすると、第kフレームのピッチスケールの初期値は、
P=P0+Pd
となる。次に、サンプル毎にピッチスケールが更新される。
【0043】
P=P+Δp
Pg =Pg +Δp
の処理が、第kフレームの時間長nk 回行われる。最後に、Ng 、Pd が
Ng =Ng +nk
Pd =P−P0
のように更新される。
【0044】
そして、パラメータの有声・無声情報が有声のときは、上述した方法で求めたピッチスケールに対応する駆動音源信号が生成される。
【0045】
ステップS114で、合成パラメータ補間部15において、パラメータ格納部10に取り込まれたパラメータの要素の合成パラメータと、フレーム時間長設定部13で設定されたフレーム時間長を用いて、合成パラメータの補間が行われる。図26は合成パラメータの補間についての説明図である。第kフレームの合成パラメータをck [i] (0≦i≦M)、第k−1フレームのパラメータをck−1 [i] (0≦i≦M)、第kフレームの時間長をnk サンプルとする。このとき、1サンプル当たりの合成パラメータの差分Δk [i] (0≦i≦M)は、
Δk [i] =(ck[i]−ck−1[i])/nk
となる。次に、サンプル毎に合成パラメータC[i] (0≦i≦M)が更新される。C[i] の初期値は、ck−1[i]で、
C[i] =C[i]+Δk [i]
の処理が第kフレームの時間長nk 回行われる。
【0046】
ステップS115で、音声合成部16において、駆動音源信号生成部14で生成された駆動音源信号と、合成パラメータ補間部15で補間された合成パラメータを用いて、音声合成が行われる。音声合成は、式(3)と式(4)によって得られたピッチスケールPと合成パラメータC[i] (0≦i≦M)を各サンプル毎に合成フィルタに入力することによって行われる。
【0047】
ステップS116で、1フレームの処理が終了したか否かが判別され、終了した場合はステップS117に進み、終了していない場合はステップS113に戻り、処理が続けられる。
【0048】
ステップS117で、1モーラの処理が終了したか否かが判別され、終了した場合は、ステップS119に進み、終了していない場合は、ステップS118で外部入力された制御データを制御データ格納部2に格納した後ステップS108に戻り処理が続けられる。
【0049】
ステップS119で、入力された文字系列について処置が終了したか否かが判別され、終了していない場合はステップS104に戻り処理が続けられる。
【0050】
上述した実施例1において、モーラ単位でピッチスケールが線形に変化する例を述べたが、ラベル単位でピッチスケールを生成することもできる。また、ピッチスケールを線形に変化させるのではなく、フィルタの応答で生成することもできる。この場合は、アクセント情報としてフィルタの係数やステップ幅などのデータを用いる。
【0051】
また、母音定常部長の設定に用いた図23は1つの例であり、これ以外の設定も可能である。
【0052】
以上説明したように実施例1によれば、合成音声の発声速度の変更に対してフレームの数を一定に保つことが可能となり、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑えることが可能となる。又、発声速度の変更をフレーム単位で行うことが可能である。
【0053】
<実施例2>
本実施例2は、実施例1においてアクセント情報設定部6により発声時のアクセントの制御を行ったのに替えて、声の高さを制御するピッチスケールを用いた発生を行うものである。本実施例2では、実施例1と比して異なる部分について特に説明し、実施例1と同様の部分は説明を省略する。
【0054】
図27は実施例2の音声合成装置の機能構成を示すブロック図である。このブロック図において、参照番号4、5、7、8、9、17について説明する。
【0055】
4はVcV格納部であり、VcV系列生成部3で生成されたVcVを内部レジスタに格納する。5は音韻時間長係数設定部であり、VcV格納部4に格納されたVcVの種類より、合成音声の拍同期点間隔を標準の拍同期点間隔よりどれくらい広げるかを表す値を格納する。7はVcVパラメータ格納部であり、VcV系列生成部3で生成されたVcV系列に対応するVcVパラメータ、或いは語頭のデータであるV(母音)パラメータやcVパラメータを格納している。8はラベル情報格納部であり、VcVパラメータ格納部7に格納されているVcVパラメータのそれぞれについて、母音開始点、有声区間、無声区間などの音響的な境界を区別するためのラベルや拍同期点を示すラベルを、その位置情報と共に格納している。9はパラメータ生成部であり、VcV系列生成部3で生成されたVcV系列に対応するパラメータ系列を生成する。パラメータ生成部9の処理手順については後述する。17はピッチスケール生成部であり、パラメータ生成部9で生成されたパラメータ系列のピッチスケールを生成する。
【0056】
次に、図28のフローチャートを用いて、図19のフローチャートの処理とは異なる部分のパラメータの生成、ピッチスケールの生成、駆動音源信号の生成について説明する。他のステップは、実施例1において説明したものと同様であり、同じステップ番号を付す。
【0057】
ステップS120で、パラメータ生成部9において、音韻時間長係数設定部5において設定された音韻時間長係数と、VcVパラメータ格納部7から取り出されたVcVパラメータと、ラベル情報格納部8から取り出されたラベル情報を用いて、1モーラ分のパラメータ系列が生成される。
【0058】
ステップS121で、ピッチスケール生成部17において、ラベル情報格納部8から取り出されたラベル情報を用いて、パラメータ生成部9で生成されたパラメータ系列に対してピッチスケールが生成される。ここで生成されるピッチスケールは、声の高さの基準値に対応するピッチスケールVからの差分を与える。生成されたピッチスケールは図29のピッチスケールpitch に格納される。
【0059】
ステップS122で、駆動音源信号生成部14において、制御データ格納部2より取り込まれた声の高さと、パラメータ格納部10に取り込まれたパラメータのピッチスケールと、フレーム時間長設定部13で設定されたフレーム時間長を用いて、駆動音源信号が生成される。
【0060】
図30は、ピッチスケールの補間についての説明図である。拍同期点から第k−1フレームのピッチスケールをPk−1 、拍同期点から第kフレームのピッチスケールをPk とする。Pk−1 とPk は、いずれも声の高さの基準値に対応するピッチスケールVからの差分を与える。更に、拍同期点から第k−1フレームの声の高さに対応するピッチスケールをVk−1 、拍同期点から第kフレームの声の高さに対応するピッチスケールをVk とする。このとき、1サンプルあたりのピッチスケールの変化量ΔPk は、
ΔPk =((Vk+Pk)−(Vk−1+Pk−1))/nk
となる。次に、サンプル毎にピッチスケールPが更新される。Pの初期値は、Vk−1+Pk−1で、
P=P+ΔPk
の処理が第kフレームの時間長nk 回行われる。
【0061】
そして、パラメータの有声・無声情報が有声のときは、上述した方法で補間したピッチスケールに対応する駆動音源信号が生成される。一方、パラメータの有声・無声情報が無声のときは、無声音に対応する駆動音源信号が生成される。
【0062】
<実施例3>
次に実施例3について説明する。
【0063】
図1は実施例3の音声合成装置の機能構成を表すブロック図である。同図において、101は文字系列入力部であり、合成すべき音声の文字系列を入力する。例えば合成すべき音声が「音声」であるときには、「OnSEI」というような文字系列を入力する。102はVcV系列生成部であり、文字系列入力部101より入力された文字系列をVcV系列へ変換する、例えば、「OnSEI」という文字系列は、「QO,On,nSE,EI,IQ」というVcV系列へ変換される。
【0064】
103はVcVパラメータ格納部であり、VcV系列生成部102で生成されたVcV系列に対応するVcVパラメータ、あるいは語頭のデータであるV(母音)パラメータやcVパラメータを格納している。104はVcVラベル格納部であり、VcVパラメータ格納部103に格納されているVcVパラメータのそれぞれについて母音開始位置,有声区間,無声区間等の音響的な境界を区別するラベルや拍同期点を示すラベルをその位置情報とともに格納している。
【0065】
105は拍同期点間隔設定部であり、合成音声の標準拍同期点間隔を設定する。106は母音定常部長さ設定部であり、拍同期点間隔設定部105で設定される標準拍同期点間隔と母音の種類等よりVcVパラメータの接続に関与する母音の定常部の長さを設定する。107は発声速度係数設定部であり、VcVラベル格納部104に格納されているラベルの種類に応じて決定される伸縮率を用いて、各フレームの発声速度係数を設定する。例えば、発声速度によって長さが変化し易い母音部や摩擦音等には大きな値の発声速度係数が与えられ、長さが変化しにくい破裂音には小さな値の発声速度係数が与えられる。
【0066】
108はパラメータ生成部であり、VcV系列生成部102で生成されたVcV系列に対応する標準拍同期点間隔に合致したVcVパラメータ列を生成する。ここでは、VcVパラメータ格納部103から読み出されたVcVパラメータを、母音定常部長さ設定部106及び拍同期点間隔設定部105の情報に基づいて接続していく。尚、パラメータ生成部108の処理手順については後述する。
【0067】
109は伸縮時間長格納部であり、文字系列入力部101で入力した文字系列の中から伸縮時間長制御に関するシーケンスコードを抜き取り、これを解釈して、合成音声の拍同期点間隔を標準拍同期点間隔よりどれくらい広げるかを表す値を格納する。
【0068】
110はフレーム長決定部であり、パラメータ生成部108から得られるパラメータの発声速度係数、伸縮時間長格納部109に格納された伸縮時間長から、各フレームの長さを計算する。111は音声合成部であり、パラメータ生成部108で得られるVcVパラメータ、フレーム長決定部110で得られるフレーム長に基づいて順次音声波形を生成し合成音声を出力する。
【0069】
次に上述の音声合成装置の動作手順について図2及び図3を参照して説明する。
【0070】
図2は音声素片として、VcVパラメータを用いた音声合成の例である。尚、図1と同じ内容については同一の参照記号を付し、ここではその説明を省略することとする。
【0071】
図2において、(B1)及び(B3)のVcVパラメータは、それぞれVcVパラメータ格納部103に格納されている。(B3)のパラメータは、標準拍同期点の間隔と結合に関与する母音の種類などにより補間されるパラメータであり、拍同期点間隔設定部105と母音定常部長さ設定部106に格納された情報によりパラメータ生成部108で生成される。又、各パラメータのラベル情報である(C1)および(C2)はVcVラベル格納部104に格納されている。
【0072】
(D’)は(C1)の拍同期点位置から(C2)の拍同期点位置までの対応するパラメータ(フレーム)を(B1),(B3),(B2)から切りだして連結したフレーム列である。更に、(D’)の各フレームには発声速度係数Ki を格納する部分がつけ加えられている。(E’)は隣接するラベルの種類により設定される伸縮率である。(F’)は(D’)に対応したラベル情報である。(G’)は(D’)の各フレームを音声合成部111において伸縮した結果であり、(G’)のパラメータとフレーム長に従って音声合成部111は音声波形を生成する。
【0073】
以上の動作を図3のフローチャートを参照して更に詳しく説明する。
【0074】
ステップS11において、文字列入力部101より音声合成すべき文字列が入力される。ステップS12において、VcV系列生成部102は入力された文字列をVcV系列へ変換する。ステップS13では、VcVパラメータ格納部103より音声合成すべきVcV系列のVcVパラメータ(図2の(B1)及び(B2))を獲得する。次にステップS14で、VcVパラメータに対して音響の境界や拍同期点を表すラベルをVcVラベル格納部104より抽出して付与する(図2の(C1),(C2))。そして、ステップS15において、拍同期点間隔設定部105及び母音定常部長さ設定部106の情報により、VcVパラメータを連結するためのパラメータを生成し(図2の(B3))、これを用いてパラメータの連結を行う。次に、発声速度係数設定部107により各フレーム毎に発声速度係数を付与する。
【0075】
発声速度係数の付与方法について図2の(D’),(E’),(F’)を参照して更に説明する。
【0076】
ここで、各ラベル間(図2の(F’))の伸縮率をEi (0≦i≦n)、各ラベル間の伸縮前の時間間隔(即ち標準拍同期点間隔における各ラベル間の時間間隔)をSi (0≦i≦n)、各ラベル間の伸縮後の時間間隔をDi (0≦i≦n)とする。
【0077】
このとき、
D0 −S0 :… :Di −Si :… :Dn −Sn
=E0 S0 :… :Ei Si :… :En Sn
が成り立つように伸縮率Ei を定義する(図2の(E’))。尚、この伸縮率Ei は発声速度係数設定部107に格納されている。この伸縮率Ei を用いて各フレームの発声速度係数Ki を求めると、
Ki =Ei /(E0 S0 +…+Ei Si +…+En Sn )
となる。発声速度係数設定部107により、この発声速度係数Ki が各フレーム毎に付与される(図2の(D’))。
【0078】
以上の如くステップS16で各フレームの発声速度係数が設定されるとステップS17へ進み、フレーム長決定部110により各フレームのフレーム長(各フレームの時間間隔)が求められる。伸縮前の各フレームの時間長をT0 、伸縮時間長格納部109で格納される伸縮後の全体の増加時間長をTp とすると、伸縮後の各フレームの時間長Ti は、
Ti =(Ki Tp +1)T0
として求めることができる。
【0079】
そして、ステップS18において、フレーム長決定部110は各フレーム毎にフレーム長を計算し、音声合成部111はそのフレーム長になるようにフレーム内の補間処理を行い、音声合成を行う。
【0080】
以上説明したように、本実施例によれば、発声速度の変化に対してフレーム数を一定に保つことが可能となる。このため、発声速度を速くした場合でも音質が劣化せず、また、発声速度を遅くした場合でも、メモリを消費することがないという効果がある。更に、音声合成部111において、フレーム毎にフレーム長を算出するので、発声速度の変更に対してリアルタイムに応答できる。
【0081】
尚、上記の実施例3では伸縮前の各フレーム長が等しいが、図2の(D ’)のパラメータの各フレーム長が異なる場合にも本発明を適用することができる。この場合、各フレームに標準拍同期点間隔における時間間隔T i0 を持たせ、
Ti =(KiTp+1)Ti0
の式によって、フレーム長決定部110が各フレームのフレーム長を算出する。そして、音声合成部111はそのフレーム長になるようにフレーム内の補間処理を行い、合成音声を生成する。このように、標準拍同期点間隔におけるフレーム長が可変長の場合にも容易に拡張することができる。
【0082】
このようにフレーム長を可変長とすることにより、例えば破裂音などのパラメータを細かく準備できるので明瞭度向上に寄与する。
【0083】
<実施例4>
実施例4では、標本化周波数の所定倍で動作するD/A変換器を用いて合成音声の発声速度を変化させる。
【0084】
図5は実施例4における音声規則合成装置の機能構成を示すブロック図である。本例においては、合成音声を通常速度と2倍の速度の2種類の速度で出力する場合を説明するが、この変倍率は、他の変倍率でも構わない。
【0085】
同図において、151は文字系列入力部であり、合成すべき音声の文字表記を入力する。152は韻律情報格納部であり、文音声の話調や単語のストレス、ポーズ等の韻律的特徴を格納しておく。153はピッチパタン生成部であり、文字系列入力部151より入力された文字系列に対応する韻律情報を韻律情報格納部152より取り出し、ピッチパタンを生成する。154は音声素片パラメータ格納部であり、VcVまたはcVといった単位のスペクトルパラメータ(メルケプストラム,PACOR,LPC,LSP等)を格納しておく。155は音声パラメータ生成部であり、文字系列入力部151より入力された文字系列に対応する音声素片パラメータを音声素片パラメータ格納部154から取り出し、これらを接続することにより音声パラメータを生成する。
【0086】
156は駆動音源であり、有声区間にたいしてはインパルス列のような音源信号、無声区間に対しては白色雑音のような音源信号をそれぞれ生成する。157は音声合成部であり、ピッチパターン生成部153で得られるピッチパタン、音声パラメータ生成部155で得られる音声パラメータ及び駆動音源156で得られる音源信号とを一定の規則に基づいて順次結合し、ディジタル音声信号を生成する。
【0087】
158は音声出力速度切換スイッチであり、音声合成部157で生成された合成音声を通常の速度で出力するか、通常の2倍の速度で出力するかを切り替える。159はディジタルフィルタであり、音声合成部157で生成されたディジタル音声信号の標本化周波数を2倍に変換する。160はD−A変換器であり、音声合成部157で生成されたディジタル音声信号の標本化周波数の2倍の周波数で作動する。
【0088】
以上の構成により、通常速度で合成音声を出力する場合は、ディジタルフィルタ159により音声合成部157で生成されたディジタル音声信号の標本化周波数を2倍に変換し、これを標本化周波数の2倍の動作速度を有するD−A変換器160によりアナログ変換することにより通常の速度のアナログ音声信号を得る。一方、2倍速の合成音声を出力する場合は、音声合成部107で生成されたディジタル音声信号が、標本化周波数の2倍の周波数で作動するD−A変換器160にそのまま入力されるため、D−A変換器160により2倍速のアナログ音声信号に変換される。
【0089】
161はアナログ低域フィルタであり、D−A変換器160で生成されたアナログ音声信号のうち音声合成部157で生成されたディジタル音声信号の標本化周波数以上の周波数成分を遮断する。162はスピーカであり、通常速度または2倍速の合成音声信号を出力する。
【0090】
以下に図6乃至図15を参照して上述の構成を備える実施例4の音声合成装置の動作を説明する。
【0091】
図15は実施例4の音声合成装置の動作手順を表すフローチャートである。まず、ステップS21において文字系列入力部151より音声合成すべき文字系列が入力される。次にステップS22において、入力された文字系列よりディジタル音声信号が生成される。このディジタル音声信号の生成過程を図6及び図7を用いて説明する。
【0092】
図6は音声合成部157の動作を説明する図である。201はピッチパタン生成部153より生成されるピッチパタンであり、出力音声に対する経過時間と周波数の関係を表している。202は音声パラメータ生成部155より生成される音声パラメータであり、出力音声に対応する音声素片パラメータを順に接続したものである。203は駆動音源156より生成される音源信号であり、有声区間にたいしてはインパルス列(203a)、無声区間にたいしては白色雑音(203b)である。204はディジタル信号処理部であり、例えば、PARCOR方式により、ピッチパターン、音声パラメータ及び音源信号を一定の規則に基づき結合し、ディジタル音声信号を生成する。205はディジタル信号処理部204より出力されるディジタル音声信号であり、時間T毎の振幅情報値である。この信号の標本化周波数をf=1/Tとする。206は205の周波数スペクトルであり、標本化によって発生する周波数f/2以上の不要な高域雑音成分が含まれている。
【0093】
次に、ステップS23において、音声出力速度切替スイッチ158の状態により、出力速度を通常速度とするか2倍速とするかを判断し、通常速度とする場合はステップS24へ、2倍速とする場合はステップS25へ進む。
【0094】
ステップS24ではディジタルフィルタ159によりディジタル音声信号の標本化周波数を2倍に変倍する。このディジタルフィルタ159における処理を図7及び図8を用いて説明する。
【0095】
図7において、301はディジタルフィルタ159の周波数スペクトルであり、周波数f/2をカットオフとする急峻な特性を持っている。
【0096】
図8において、ディジタル音声信号205は音声合成部157で生成され出力された信号である。304はディジタルフィルタ159より出力されるディジタル音声信号であり、周期Tで入力されたディジタル音声信号205に0(ゼロ)を内挿して2倍の周波数に変換されている。305は、ディジタル音声信号304の周波数スペクトルであり、周波数(2n+1)f、(n=0,1,2…)を中心とした周波数成分が消滅しているが、周波数2nf、(n=1,2…)を中心とした不要な高域雑音成分が含まれている。
【0097】
ステップS25において、D−A変換器160によりディジタル音声信号をアナログ音声信号に変換する。このD−A変換器160による処理を図9乃至図11を用いて説明する。
【0098】
図9はD−A変換器出力の周波数スペクトルを表す図である。このD−A変換器は音声合成部157で生成されるディジタル音声信号の標本化周波数fの2倍の周波数2fで作動するものであり、周波数2fを中心として高域雑音成分が含まれている。
【0099】
図10において、ディジタルフィルタ159を介して得られたディジタル音声信号304は、2倍の標本化周波数を有し、305に示されるような周波数スペクトルを有する。ディジタル信号304を周波数スペクトル401を持つD−A変換器160に通すことにより、アナログ音声信号404が生成される。アナログ音声信号404は通常速度で発声される。405はアナログ音声信号404の周波数スペクトルである。
【0100】
又、図11において、音声合成部157で生成された標本化周波数fの音声ディジタル信号205は周波数スペクトル401を持つD−A変換器160に通すことにより、アナログ音声信号408が生成される。アナログ音声信号408はディジタル音声信号205に比べて信号の継続時間が1/2に圧縮されている。409はアナログ音声信号408の周波数スペクトルであり、周波数スペクトル206に比べて周波数帯域が2倍になり、周波数f以上の周波数2nf、(n=1,2…)を中心とした不要な高域雑音成分が含まれてる。
【0101】
ステップS26では、アナログ低域フィルタ161によりD−A変換器160により生成されたアナログ音声信号の高周波成分を除去する。このアナログ低域フィルタ161の動作を図12乃至図14を用いて説明する。
【0102】
図12から図14はアナログ低域フィルタ161を説明する図である。
【0103】
図12において、501はアナログ低域フィルタ161の周波数スペクトルであり、周波数f以上の周波数成分を減衰させる。
【0104】
図13において、合成音を通常速度で出力する場合のアナログ音声信号404は、アナログフィルタ161を通過することにより、アナログ信号504として出力される。505はアナログ信号504の周波数スペクトルで、周波数f/2以上の不要な高域雑音成分が除去され、正しいアナログ信号となっている。
【0105】
図14において、合成音を2倍速で出力するためのアナログ信号408をアナログフィルタ161に通すことにより、アナログ信号508が得られる。509はアナログ信号508の周波数スペクトルであり、周波数f以上の不要な高域雑音成分が除去され、2倍速で出力する場合の正しいアナログ信号となっている。
【0106】
ステップS27では、アナログ低域フィルタ161を通過して得られたアナログ信号を音声信号として出力する。
【0107】
以上説明したように本実施例によれば、合成音を2倍速で出力することができるので、例えばカセットテープレコーダなどに録音する際の録音時間を2分の1に短縮することが可能であり、作業時間が短縮される。
【0108】
一般に音声規則合成装置は、小型軽量ではなく、パーソナルコンピュータやワークステーション等のホストコンピュータで音声合成処理を行い、付属のスピーカから合成音声を出力したり、または電話回線を通して手元の端末機から合成音声を出力したりしているのが現状である。このため、音声規則合成装置を携帯し、それから読み上げられる音声を聞きながら作業を行うというようなことはできず、音声規則合成装置から出力される合成音声を、一旦カセットテープレコーダ等に録音し、それを携帯し、再生される音声を聞きながら作業を行うという方法が一般的に用いられており、その録音のために多くの時間を費やさなければならないという問題がある。従って本実施例によればその録音時間を著しく短縮することが可能となる。
【0109】
尚、本発明は、複数の機器から構成されるシステムに適用しても1つの機器から成る装置に適用しても良い。また、本発明は、システム或は装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。
【0110】
【発明の効果】
以上説明したように本発明の音声合成方法及び装置によれば、合成音声の発声速度の変更に対してフレームの数を一定に保つことが可能となり、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑えることが可能である。
【0111】
また、発声速度の変更をフレーム単位で行うことが可能である。
【0112】
【図面の簡単な説明】
【図1】実施例3の音声合成装置の機能構成を表すブロック図である。
【図2】実施例3におけるVcVパラメータを用いた音声合成の手順を説明する図である。
【図3】実施例3の音声合成装置の動作手順を表すフローチャートである。
【図4】VcVパラメータを用いた音声合成の一般的な手順を説明する図である。
【図5】実施例4における音声規則合成装置の機能構成を示すブロック図である。
【図6】音声合成部の動作を説明する図である。
【図7】ディジタルフィルタの周波数特性を表す図である。
【図8】ディジタルフィルタの動作を説明する図である。
【図9】D−A変換器出力の周波数特性を表す図である。
【図10】D−A変換器の動作を説明する図である。
【図11】D−A変換器の動作を説明する図である。
【図12】アナログ低域フィルタの周波数特性を表す図でる。
【図13】アナログ低域フィルタの動作を説明する図である。
【図14】アナログ低域フィルタの動作を説明する図である。
【図15】実施例4の音声合成装置の動作手順を表すフローチャートである。
【図16】実施例1に係る音声合成装置の機能構成を示すブロック図である。
【図17】実施例1におけるVcVパラメータによる音声合成の手順を表す図である。
【図18】実施例1におけるVcVパラメータの伸縮を説明する図である。
【図19】実施例1における音声合成の手順を表すフローチャートである。
【図20】実施例1のパラメータ1フレームのデータ構造を表す図である。
【図21】実施例1のパラメータ生成手順を表すフローチャートである。
【図22】実施例1におけるパラメータの生成を説明する図である。
【図23】実施例1における母音定常部長の設定の1例を表す図である。
【図24】実施例1におけるピッチスケールの生成を表す概念図である。
【図25】実施例1におけるピッチスケールの生成方法を説明する図である。
【図26】実施例1における合成パラメータの補間を説明する図である。
【図27】実施例2に係る音声合成装置の機能構成を示すブロック図である。
【図28】実施例2における音声合成の手順をあらわすフローチャートである。
【図29】実施例2のパラメータ1フレームのデータ構造を表す図である。
【図30】実施例2におけるピッチスケールの補間の説明図である。
【符号の説明】
101 文字系列入力部
102 VcV系列入力部
103 VcVパラメータ格納部
104 VcVラベル格納部
105 拍同期点間隔設定部
106 母音定常部長さ設定部
107 発声速度係数設定部
108 パラメータ生成部
109 伸縮時間長格納部
110 フレーム長決定部
111 音声合成部
Claims (16)
- 音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。 - 音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレーム時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。 - 合成音声の発声速度に基づいて各音声素片の拍同期点間の時間間隔を決定する決定手段を更に備え、
前記波形生成手段は、前記決定手段で決定された時間間隔となるように、前記拍同期点間に存在する各フレームの時間長を決定することを特徴とする請求項1又は2に記載の音声合成装置。 - 前記ピッチスケール生成手段における所定の時間間隔は、拍同期点間の間隔であることを特徴とする請求項1又は2に記載の音声合成装置。
- 前記各フレームは複数の所定間隔のサンプリングデータで構成され、
前記ピッチスケール生成手段は、前記拍同期点間の時間間隔に基づいて各サンプリング毎に所定の割合で変化するピッチスケールを生成し、
前記波形生成手段は、前記ピッチスケールに基づいて各サンプリング毎の音声波形を生成することを特徴とする請求項4に記載の音声合成装置。 - 発声速度に応じて伸縮される前の各フレームがそれぞれ固有の時間長を有することを特徴とする請求項1又は2に記載の音声合成装置。
- 音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備えることを特徴とする音声合成方法。 - 音声波形のパラメータを有する1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備えることを特徴とする音声合成方法。 - 合成音声の発声速度に基づいて各音声素片の拍同期点間の時間間隔を決定する決定工程を更に備え、
前記波形生成工程は、前記決定工程で決定された時間間隔となるように、前記拍同期点間に存在する各フレームの時間長を決定することを特徴とする請求項7又は8に記載の音声合成方法。 - 前記ピッチスケール生成工程における所定の時間間隔が拍同期点間隔であることを特徴とする請求項7又は8に記載の音声合成方法。
- 前記各フレームは複数の所定間隔のサンプリングデータで構成され、
前記ピッチスケール生成工程は、前記拍同期点間の時間間隔に基づいて各サンプリング毎に所定の割合で変化するピッチスケールを生成し、
前記波形生成工程は、前記ピッチスケールに基づいて各サンプリング毎の音声波形を生成することを特徴とする請求項10に記載の音声合成方法。 - 発声速度に応じて伸縮される前の各フレームがそれぞれ固有の時間長を有することを特徴とする請求項7又は8に記載の音声合成方法。
- 1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御手段とを備えることを特徴とする音声合成制御装置。 - 1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御手段とを備えることを特徴とする音声合成制御装置。 - 1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレ ームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御工程とを備えることを特徴とする音声合成制御方法。 - 1つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御工程とを備えることを特徴とする音声合成制御方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13436394A JP3563772B2 (ja) | 1994-06-16 | 1994-06-16 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
EP95304063A EP0688010B1 (en) | 1994-06-16 | 1995-06-13 | Speech synthesis method and speech synthesizer |
DE69519820T DE69519820T2 (de) | 1994-06-16 | 1995-06-13 | Verfahren und Vorrichtung zur Sprachsynthese |
US08/490,140 US5682502A (en) | 1994-06-16 | 1995-06-14 | Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13436394A JP3563772B2 (ja) | 1994-06-16 | 1994-06-16 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH086592A JPH086592A (ja) | 1996-01-12 |
JP3563772B2 true JP3563772B2 (ja) | 2004-09-08 |
Family
ID=15126628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13436394A Expired - Fee Related JP3563772B2 (ja) | 1994-06-16 | 1994-06-16 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5682502A (ja) |
EP (1) | EP0688010B1 (ja) |
JP (1) | JP3563772B2 (ja) |
DE (1) | DE69519820T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305767A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院声学研究所 | 一种应用于语种识别的短时语音时长扩展方法 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
US5998725A (en) * | 1996-07-23 | 1999-12-07 | Yamaha Corporation | Musical sound synthesizer and storage medium therefor |
JP3242331B2 (ja) * | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
JPH10187195A (ja) * | 1996-12-26 | 1998-07-14 | Canon Inc | 音声合成方法および装置 |
JP3854713B2 (ja) | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP2002014952A (ja) * | 2000-04-13 | 2002-01-18 | Canon Inc | 情報処理装置及び情報処理方法 |
EP1286332A1 (en) * | 2001-08-14 | 2003-02-26 | Sony France S.A. | Sound processing method and device for modifying a sound characteristic, such as an impression of age associated to a voice |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
JP4529492B2 (ja) * | 2004-03-11 | 2010-08-25 | 株式会社デンソー | 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム |
US20060122837A1 (en) * | 2004-12-08 | 2006-06-08 | Electronics And Telecommunications Research Institute | Voice interface system and speech recognition method |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
JP5029168B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP5029167B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP4973337B2 (ja) * | 2007-06-28 | 2012-07-11 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
DE602008000303D1 (de) * | 2008-09-03 | 2009-12-31 | Svox Ag | Sprachsynthese mit dynamischen Einschränkungen |
WO2010115298A1 (zh) * | 2009-04-07 | 2010-10-14 | Lin Wen Hsin | 卡拉ok歌曲伴唱自动评分方法 |
CN102652336B (zh) * | 2009-12-28 | 2015-02-18 | 三菱电机株式会社 | 声音信号复原装置以及声音信号复原方法 |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
US20140236602A1 (en) * | 2013-02-21 | 2014-08-21 | Utah State University | Synthesizing Vowels and Consonants of Speech |
EP3086254A1 (en) | 2015-04-22 | 2016-10-26 | Gemalto Sa | Method of managing applications in a secure element when updating the operating system |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
CN110264993B (zh) * | 2019-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
US4611342A (en) * | 1983-03-01 | 1986-09-09 | Racal Data Communications Inc. | Digital voice compression having a digitally controlled AGC circuit and means for including the true gain in the compressed data |
JPH0727397B2 (ja) * | 1988-07-21 | 1995-03-29 | シャープ株式会社 | 音声合成装置 |
JPH02239292A (ja) * | 1989-03-13 | 1990-09-21 | Canon Inc | 音声合成装置 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
-
1994
- 1994-06-16 JP JP13436394A patent/JP3563772B2/ja not_active Expired - Fee Related
-
1995
- 1995-06-13 DE DE69519820T patent/DE69519820T2/de not_active Expired - Lifetime
- 1995-06-13 EP EP95304063A patent/EP0688010B1/en not_active Expired - Lifetime
- 1995-06-14 US US08/490,140 patent/US5682502A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305767A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院声学研究所 | 一种应用于语种识别的短时语音时长扩展方法 |
CN107305767B (zh) * | 2016-04-15 | 2020-03-17 | 中国科学院声学研究所 | 一种应用于语种识别的短时语音时长扩展方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH086592A (ja) | 1996-01-12 |
EP0688010A1 (en) | 1995-12-20 |
DE69519820T2 (de) | 2001-07-19 |
DE69519820D1 (de) | 2001-02-15 |
US5682502A (en) | 1997-10-28 |
EP0688010B1 (en) | 2001-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
JP3985814B2 (ja) | 歌唱合成装置 | |
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
JPH031200A (ja) | 規則型音声合成装置 | |
WO2005109399A1 (ja) | 音声合成装置および方法 | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP2600384B2 (ja) | 音声合成方法 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JPH10124082A (ja) | 歌声合成装置 | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
JPH11249676A (ja) | 音声合成装置 | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP3284634B2 (ja) | 規則音声合成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JP3515268B2 (ja) | 音声合成装置 | |
JPH0553595A (ja) | 音声合成装置 | |
JP6047952B2 (ja) | 音声合成装置および音声合成方法 | |
JPH04125699A (ja) | 残差駆動型音声合成装置 | |
JP2002244693A (ja) | 音声合成装置および音声合成方法 | |
JP2004206144A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 | |
JPH0836397A (ja) | 音声合成装置 | |
JPH0594199A (ja) | 残差駆動型音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040220 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080611 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090611 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090611 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100611 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110611 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120611 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120611 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |