JP2650480B2 - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JP2650480B2
JP2650480B2 JP2243226A JP24322690A JP2650480B2 JP 2650480 B2 JP2650480 B2 JP 2650480B2 JP 2243226 A JP2243226 A JP 2243226A JP 24322690 A JP24322690 A JP 24322690A JP 2650480 B2 JP2650480 B2 JP 2650480B2
Authority
JP
Japan
Prior art keywords
circuit
speech
phoneme
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2243226A
Other languages
English (en)
Other versions
JPH04123000A (ja
Inventor
泰 石川
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2243226A priority Critical patent/JP2650480B2/ja
Publication of JPH04123000A publication Critical patent/JPH04123000A/ja
Application granted granted Critical
Publication of JP2650480B2 publication Critical patent/JP2650480B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の技術分野] この発明は,キーボードなどから入力される任意の文
章を音声に変換する音声合成装置に関するものである。
[従来技術] 従来この種の音声合成装置では,音声の単位となる音
声素片の特徴パラメータを記憶しておき,合成しようと
する文章に応じてこれを接続し,文章に対応した特徴パ
ラメータを得ると共に,単語アクセント文章イントネー
ションに応じた音源波形を生成し,合成音声を得てい
る。第5図は従来技術による音声合成装置の一構成例を
示すブロック図であり,図中(31)は図に明示されない
キーボード等の装置から入力された文章,(32)は合成
用の音声素片のパラメータを記憶している音声素片特徴
パラメータ記憶回路,(33)は文章に応じ音声素片特徴
パラメータ記憶回路(32)から,必要な音声素片特徴パ
ラメータ(34)を読み出し時間軸上に配置し文章の特徴
パラメータ(35)を作成する読み出し編集回路,(36)
は文章に応じピッチ周波数等の制御を行い音源波形(3
7)を生成する音源波形生成回路,(38)は特徴パラメ
ータ(35)と音源波形(37)を入力とし合成音声(39)
を生成する合成フィルタ回路である。
ところでこの音声合成装置で用い,音声素片特徴パラ
メータ記憶回路(32)に記憶しておく音声素片について
は、いくつかの単位が考えられている。例えば,文献
(古井貞煕:“ディジタル音声処理”東海大学出版会,
(985),p.141−142)に示されるように,CV単位(子音
−母音型音節)VCV単位,CVC単位等がある。各単位を用
いた場合について音声素片特徴パラメータ記憶回路(3
2)に記憶させておき、良み出し編集回路(33)が接続
する音声素片を合成音声「敬う」を合成する場合を例に
第6図に示す。
[発明が解決しようとする課題] このような従来装置では上記文献にも示されるよう
に,CV音節のような比較的小さな単位を用いた場合は,
第6図に示すように音声素片の結合部において異なる音
素の接続が行われる。従って,自然な音声に見られる特
徴の連続的な変化が得られず合成音声は極めて品質が悪
く,場合によっては不連続性のために正しい音素として
聞き取られない場合もあった。
一方,これを改善するため音声の定常部で合成音声素
片の接続を行うよう,CVC,VCV単位を用いる方法もある
が、用意しなければならない素片数がCV音節の場合の10
0程度に比べ,700〜6000種となり音声素片の生成に厖大
な時間がかかり,また合成装置のメモリも大きなものが
必要となるという問題点を持っていた。
さらには,CV音節を用いた場合のような不連続性の問
題は大きく改善されるものの,VCV音節の母音(V)は中
央の子音(C)の,また,CVC音節では子音は中央の母音
やその後に発声された母音の影響を強く受けているた
め,接続部の音声特徴は必ずしも同一ではなく,問題が
完全に解決されたことではなかった。
また,この問題を改善するために音声素片の接続部で
なんらかの補間を行い,品質の向上を図る装置も提案さ
れている。この場合文献(古市ほか:“CV音節のメルケ
プストラムを用いる音声の規則合成”に日本音響学会音
声研究会資料,S83−37(1983))に示されるように接続
する2音声素片の間でパラメータの直線補間が行われ
る。これを前記の例と同様に「敬う」を合成する場合に
ついて説明した図を第7図に示す。この方法によればCV
音節などの比較的短い音声素片単位を用いた場合でもス
ペクトルの連続的な変化が得られるため,補間を行わな
い場合に比べれば著しく合成音声の品質は向上するが,
人間が発声する自然な音声に見られる連続的な変化は合
成に用いるパラメータ上では線形な変化ではないため,
このような装置によって得られる補間区間のスペクトル
は自然音声の音素の過渡区間に見られるスペクトルとは
大きく異なる場合があり,不自然なスペクトルから異音
として聞き取られるような場合もあった。
この発明は以上説明した従来の装置の問題点を解消
し,CV音節等の比較的小さな音声合成単位を用いた場合
でも,自然な連続性が得られる音声合成装置を提供する
ことである。
[課題を解決するための手段] 上記の目的を達成するために,この発明は,特徴ベク
トルで表現された音声の特徴を各音素との類似度を現す
音素ベクトルへ変換するための音素認識神経回路と,こ
の音素認識神経回路からの音素ベクトルを先行音声素片
の終端から後続音声素片の始端まで補間する音素ベクト
ル補間回路と、音素ベクトルから合成に用いる特徴ベク
トルへ音素認識神経回路の逆変換を行う合成神経回路と
を備えたものである。
[作用] この発明の音声合成装置においては,2つの音声素片の
接続を行う場合,先行する音声素片の最終時点の特徴パ
ラメータを音素認識神経回路によって,各音素との類似
度で現される音素ベクトルに変換する。同様に,後続の
音声素片の開始時点の特徴パラメータも音素ベクトルに
変換され,補間区間の各時点の音素ベクトルがそれらの
補間によって求められ,特徴ベクトルは得られた補間区
間の音素ベクトルを合成神経回路により変換することで
得る。
すなわち,音声における音素から音素への変化区間は
音声の特徴パラメータの上では非線形な動きであるが,
聞こえ(典型的な音素との類似性)の上から線形に近い
変化と考えられることを利用し,音素認識と合成回路を
設け,補間を音素との類似性を表すベクトル空間上で行
うものである。
[実施例] 以下,この発明の一実施例を図について説明する。第
1図は,この発明の一実施例を示すブロック図である。
図において(1)は図に明示されない入力装置から入力
された文章,(2)は音声素片特徴パラメータ記憶回
路,(3)は,文章に応じ音声素片特徴パラメータ記憶
回路(2)から音声素片特徴パラメータを読み出し編集
を行う読み出し編集回路,(4)は読み出された音声素
片特徴パラメータ,(5)は補間用特徴パラメータ,
(6)は音素認識神経回路,(7)は補間用音素ベクト
ル,(8)は補間回路,(9)は補間区間音素ベクト
ル,(10)は合成神経回路,(11)は補間区間特徴ベク
トル,(12)は文章に応じた音源波形を生成する音源波
形生成回路,(13)は音源波形,(14)は特徴ベクト
ル,(15)は合成フィルタ回路,(16)は合成音声であ
る。
第2図は,この発明の動作を説明する説明図、第3図
は,第1図に示した音素認識神経回路および合成神経回
路の構成例を示す構成図である。
図中(21)は入力ベクトルの各要素,(22)は非線形
積和素子,(23)は出力ベクトルの各要素である。
また第4図は第3図に示した音素認識神経回路,およ
び合成神経回路の動作を示す説明図である。
以下前記第1図を用いて,この発明の一実施例である
音声合成装置の動作を説明する。音声合成装置は図に示
されないキーボード,コンピュータ等から合成しようと
する文章(1)を入力する。読み出し回路(3)は文章
(1)に応じて,音声素片特徴パラメータ記憶回路
(2)から音声素片特徴パラメータ(4)を読み出す。
例えば,音声素片としてCV音節を用いた場合,従来の装
置の説明図である第7図と同様に各CV音節を読み出し,
時間的な配置を行う。ここで,補間が必要な区間に対し
ては,その先行する音声素片の配置上の最終フレームの
特徴パラメータと,後続の音声素片の始点フレームの特
徴パラメータを補間用特徴パラメータ(5)として,音
素認識神経回路(6)に送る。音素認識神経回路(6)
は第3図に示すように非線形積和素子(22)を複数組み
合わせることにより構成された回路である。この回路を
3層で構成した構成例の動作を第4図(a)を用いて説
明する。入力はN個のノードからなり,それぞれの入力
値をxi(i=0.1,...N−1)で表すと,第1層jノード
の出力x′j(j=0.1...N′−1)は次式で表され
る。
ここで,関数fは非線形の関数であり例えば,第4図
(b)に示す f(α)=1/(1+exp(α)) (2) 等が用いられる。同様に第2層のkノードの出力x″k
(k=0,1,...N″−1)は によって求められる。これを多段に重ねることにより,
非線形の変換回路となる。この回路の重み係数wij,w′j
k...は,文献(Lippmann,R.P.:“An Introduction to C
omputing with Neural Nets",IEEE ASSP Magazine,Apri
l 1987,pp.4−22)が示すように,例えば希望する変換
の学習データを与え,繰り返し計算によって値を求める
Back−Propagationアルゴリズムで求めることができ
る。
このような構成の回路で,入力ノードに音声特徴パラ
メータを与え,その時の音素の種類を出力ノードが類似
度の形で(これを音素ベクトルと呼ぶ)表わすよう学習
された重み係数を持った回路が,音素認識神経回路
(6)であり,逆に,入力ノードに音素ベクトルを与え
た時に特徴パラメータを出力する係数を持った回路が合
成神経回路(10)である。
今,特徴ベクトルAを A={a0,a1,...aN−1} (4) 音素ベクトルPを P={p0,p1,...pL−1} (5) (ここで,pは,1番目の音素との類似度を表す値であ
る。) とすると,音素認識神経回路(6)の動作は,非線形な
ベクトル射像関数R[・] P=R[A] (6) で表され、合成神経回路(10)の動作は,近似的に関数
R[・]の逆射像を行う射像関数S[・] A′=S[P]=A (7) で表される。第2図に示すように,先行音声素片の最終
フレームが合成音声中のn1フレームに相当しその特徴ベ
クトルがAnlであり,後続音声素片の始点フレームが合
成音声のn2フレームに相当し特徴ベクトルをAn2で表す
と,音素認識神経回路(6)では音素ベクトルPn1,Pn2
が(8),(9)式で求められる。
Pn1=R[An1] (8) Pn2=R[An2] (9) これらの補間用音素ベクトル(7)は,補間回路
(8)に送られる。ここでは補間回路(8)が,線形補
間を行う場合について説明すると,補間回路(8)は区
間(n1+1,n2−1)フレーム内の音素ベクトルPnを以下
のように計算する。
Pn=((n2−n)・Pn1+(n−n1)・Pn2)/(n2−n1)(10) これら補間区間音素ベクトルPn(n=n1+1,,,n2−
1)(9)はさらに合成神経回路(10)に送られ,補間
区間特徴ベクトルAnが11式で求められる。
An=S[Pn] (11) 補間区間特徴ベクトル(11)は読み出し編集回路
(3)に送られ合成する文章に対応する特徴ベクトル
(14)として,合成フィルタ回路(15)に送られる。一
方,音源波形生成回路(12)は文章に応じた音源波形
(13)を生成し,合成フィルタ回路(15)は特徴ベクト
ル(14)と音源波形(13)を入力として合成音声(16)
を得る。
前記実施例では、合成音声における音声素片結合部に
おいて,補間を特徴パラメータ上で行わず,音素認識神
経回路(6)によっていったん音素との類似度を表すベ
クトルへ変換し,このベクトル上での補間を行い,特徴
パラメータは合成神経回路(10)を用いるようにした。
一般に,このような音素認識回路,合成回路を構成す
ることは極めて困難であるが,ここでは非線形積和素子
を複数多段に組み合わせた神経回路を用いたため,あら
かじめ自然音声の変化区間を学習した重み係数を与えて
おくことで,容易に構成できる。
[他の実施例] 上記実施例では,1つの音素認識神経回路と合成神経回
路を有する構成であったが,音素をいくつかのカテゴリ
ーに分割し,そのカテゴリーの音素のみを扱う音素認識
神経回路と合成神経回路をカテゴリー数だけ用意する構
成とする,あるいはそのカテゴリーにより音素認識神経
回路と合成神経回路の重み係数を,記憶回路から読み出
し書き換えることで等価的に複数組の回路を設けたこと
とする構成をとることも可能である。
[発明の効果] この発明によれば,合成音声における音声素片結合部
において,補間を特徴パラメータ上で行わず,音素認識
神経回路(6)によっていったん音素との類似度を表す
ベクトルへ変換し,このベクトル上での補間を行い,特
徴パラメータは合成神経回路(10)を用いるようにして
いる。そのため,自然な音声の変化に近い変化が得られ
る。さらに,従来自然な連続性を得るためになされてい
た、変化区間を含む長い音声素片を用いる必要がなくな
るため,音声素片特徴パラメータ記憶回路の容量は小さ
なもので済み,音声素片作成の作業も小さなものですむ
という優れた効果を奏するものである。
【図面の簡単な説明】 第1図は,この発明の一実施例を示すブロック図、第2
図は,この発明の動作を説明する説明図第3図は,音素
認識神経回路および合成神経回路の構成例を示す構成
図,第4図は第3図に示した音素認識神経回路,および
合成神経回路の動作を示す説明図,第5図は従来技術に
よる音声合成装置の一構成例を示すブロック図,第6図
は単語「敬う」を音声合成する時に従来の合成装置での
音声素片接続例を示す説明図,第7図は,同様に従来の
補間回路を含む合成装置での接続と補間の例を示す説明
図である。 図において(1)は文章,(2)は音声素片特徴パラメ
ータ記憶回路,(3)は読み出し編集回路,(4)音声
素片特徴パラメータ,(5)は補間用特徴パラメータ,
(6)は音素認識神経回路,(7)は補間用音素ベクト
ル,(8)は補間回路,(9)は補間区間音素ベクト
ル,(10)は合成神経回路,(11)は補間区間特徴ベク
トル,(12)は音源波形生成回路,(13)は音源波形,
(14)は特徴ベクトル,(15)は合成フィルタ回路,
(16)は合成音声,(21)は入力ベクトルの各要素,
(22)は非線形積和素子,(23)は出力ベクトルの各要
素,(31)は文章,(32)は音声素片特徴パラメータ記
憶回路,(33)は読み出し編集回路,(34)は音声素片
特徴パラメータ,(35)は特徴パラメータ,(36)は音
源波形生成回路,(37)は音源波形,(38)は合成フィ
ルタ回路,(39)は合成音声である。 なお、図中同一符号は同一または相当部分を示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−243169(JP,A) 特開 平2−5098(JP,A) 特開 昭57−158900(JP,A) 特開 平1−276200(JP,A) 特開 平2−19960(JP,A) 特開 平2−72339(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声素片の特徴パラメータを用いて入力文
    章を音声合成する音声合成装置において,音声素片の特
    徴パラメータを記憶しておく特徴パラメータ記憶回路
    と,合成しようとする音声内容に応じてこの特徴パラメ
    ータ記憶回路から必要な音声素片の特徴パラメータを読
    みだし編集を行う読み出し編集回路と,この読み出し編
    集回路により読み出された特徴パラメータから各音素と
    の類似性を示す音素ベクトルを出力する音素認識神経回
    路と,この音素認識神経回路からの音素ベクトルを先行
    音声素片の終端から後続音声素片の始端まで補間する音
    素ベクトル補間回路と,この音素ベクトル補間回路の各
    音素ベクトル値を入力し,補間特徴パラメータに出力す
    る合成神経回路と,発声内容に応じた音源波形を生成す
    る音源波形生成回路と,前記合成神経回路の補間特徴パ
    ラメータと前記音声素片の特徴パラメータとを前記読み
    出し編集回路で編集した編集特徴パラメータと前記音源
    波形生成回路から与えられる音源波形とから合成音声を
    生成する合成フィルタ回路とを備えたことを特徴とする
    音声合成装置。
JP2243226A 1990-09-13 1990-09-13 音声合成装置 Expired - Lifetime JP2650480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2243226A JP2650480B2 (ja) 1990-09-13 1990-09-13 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2243226A JP2650480B2 (ja) 1990-09-13 1990-09-13 音声合成装置

Publications (2)

Publication Number Publication Date
JPH04123000A JPH04123000A (ja) 1992-04-23
JP2650480B2 true JP2650480B2 (ja) 1997-09-03

Family

ID=17100715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2243226A Expired - Lifetime JP2650480B2 (ja) 1990-09-13 1990-09-13 音声合成装置

Country Status (1)

Country Link
JP (1) JP2650480B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2637760B2 (ja) * 1988-03-24 1997-08-06 富士通株式会社 パターン学習・生成方式
JPH025098A (ja) * 1988-06-24 1990-01-09 Ricoh Co Ltd 韻律制御方式

Also Published As

Publication number Publication date
JPH04123000A (ja) 1992-04-23

Similar Documents

Publication Publication Date Title
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
WO2005109399A1 (ja) 音声合成装置および方法
KR20210095010A (ko) 표현력 있는 텍스트-대-음성 시스템 및 방법
US11830473B2 (en) Expressive text-to-speech system and method
JP6821970B2 (ja) 音声合成装置および音声合成方法
JPS62231998A (ja) 音声合成方法および装置
JP4194656B2 (ja) 波形の合成
JP2623586B2 (ja) 音声合成におけるピッチ制御方式
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP3513071B2 (ja) 音声合成方法及び音声合成装置
JP2650480B2 (ja) 音声合成装置
JPH09319391A (ja) 音声合成方法
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JP7280605B2 (ja) 音声処理装置、および音声処理方法
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP2004341259A (ja) 音声素片伸縮装置およびその方法
JP2679623B2 (ja) テキスト音声合成装置
JP4216125B2 (ja) 音声合成装置およびプログラム
JP2004125843A (ja) 音声合成方法
JPH0632037B2 (ja) 音声合成装置
Jayasinghe Machine Singing Generation Through Deep Learning
JP2878483B2 (ja) 音声規則合成装置
Guojie et al. Enhanced Variational Auto-encoder for Voice Conversion Using Non-parallel Corpora
JPS593496A (ja) 規則合成方式における基本周波数制御方式
JP3283657B2 (ja) 音声規則合成装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080516

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 14