JP2650480B2

JP2650480B2 - 音声合成装置

Info

Publication number: JP2650480B2
Application number: JP2243226A
Authority: JP
Inventors: 泰石川; 邦男中島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1990-09-13
Filing date: 1990-09-13
Publication date: 1997-09-03
Anticipated expiration: 2012-09-03
Also published as: JPH04123000A

Description

【発明の詳細な説明】［発明の技術分野］この発明は，キーボードなどから入力される任意の文
章を音声に変換する音声合成装置に関するものである。

［従来技術］従来この種の音声合成装置では，音声の単位となる音
声素片の特徴パラメータを記憶しておき，合成しようと
する文章に応じてこれを接続し，文章に対応した特徴パ
ラメータを得ると共に，単語アクセント文章イントネー
ションに応じた音源波形を生成し，合成音声を得てい
る。第５図は従来技術による音声合成装置の一構成例を
示すブロック図であり，図中（31）は図に明示されない
キーボード等の装置から入力された文章，（32）は合成
用の音声素片のパラメータを記憶している音声素片特徴
パラメータ記憶回路，（33）は文章に応じ音声素片特徴
パラメータ記憶回路（32）から，必要な音声素片特徴パ
ラメータ（34）を読み出し時間軸上に配置し文章の特徴
パラメータ（35）を作成する読み出し編集回路，（36）
は文章に応じピッチ周波数等の制御を行い音源波形（3
7）を生成する音源波形生成回路，（38）は特徴パラメ
ータ（35）と音源波形（37）を入力とし合成音声（39）
を生成する合成フィルタ回路である。

ところでこの音声合成装置で用い，音声素片特徴パラ
メータ記憶回路（32）に記憶しておく音声素片について
は、いくつかの単位が考えられている。例えば，文献
（古井貞煕：“ディジタル音声処理”東海大学出版会，
（985）,p.141−142）に示されるように,CV単位（子音
−母音型音節）VCV単位,CVC単位等がある。各単位を用
いた場合について音声素片特徴パラメータ記憶回路（3
2）に記憶させておき、良み出し編集回路（33）が接続
する音声素片を合成音声「敬う」を合成する場合を例に
第６図に示す。

［発明が解決しようとする課題］このような従来装置では上記文献にも示されるよう
に,CV音節のような比較的小さな単位を用いた場合は，
第６図に示すように音声素片の結合部において異なる音
素の接続が行われる。従って，自然な音声に見られる特
徴の連続的な変化が得られず合成音声は極めて品質が悪
く，場合によっては不連続性のために正しい音素として
聞き取られない場合もあった。

一方，これを改善するため音声の定常部で合成音声素
片の接続を行うよう,CVC,VCV単位を用いる方法もある
が、用意しなければならない素片数がCV音節の場合の10
0程度に比べ,700〜6000種となり音声素片の生成に厖大
な時間がかかり，また合成装置のメモリも大きなものが
必要となるという問題点を持っていた。

さらには,CV音節を用いた場合のような不連続性の問
題は大きく改善されるものの,VCV音節の母音（Ｖ）は中
央の子音（Ｃ）の，また,CVC音節では子音は中央の母音
やその後に発声された母音の影響を強く受けているた
め，接続部の音声特徴は必ずしも同一ではなく，問題が
完全に解決されたことではなかった。

また，この問題を改善するために音声素片の接続部で
なんらかの補間を行い，品質の向上を図る装置も提案さ
れている。この場合文献（古市ほか：“CV音節のメルケ
プストラムを用いる音声の規則合成”に日本音響学会音
声研究会資料,S83−37（1983））に示されるように接続
する２音声素片の間でパラメータの直線補間が行われ
る。これを前記の例と同様に「敬う」を合成する場合に
ついて説明した図を第７図に示す。この方法によればCV
音節などの比較的短い音声素片単位を用いた場合でもス
ペクトルの連続的な変化が得られるため，補間を行わな
い場合に比べれば著しく合成音声の品質は向上するが，
人間が発声する自然な音声に見られる連続的な変化は合
成に用いるパラメータ上では線形な変化ではないため，
このような装置によって得られる補間区間のスペクトル
は自然音声の音素の過渡区間に見られるスペクトルとは
大きく異なる場合があり，不自然なスペクトルから異音
として聞き取られるような場合もあった。

この発明は以上説明した従来の装置の問題点を解消
し,CV音節等の比較的小さな音声合成単位を用いた場合
でも，自然な連続性が得られる音声合成装置を提供する
ことである。

［課題を解決するための手段］上記の目的を達成するために，この発明は，特徴ベク
トルで表現された音声の特徴を各音素との類似度を現す
音素ベクトルへ変換するための音素認識神経回路と，こ
の音素認識神経回路からの音素ベクトルを先行音声素片
の終端から後続音声素片の始端まで補間する音素ベクト
ル補間回路と、音素ベクトルから合成に用いる特徴ベク
トルへ音素認識神経回路の逆変換を行う合成神経回路と
を備えたものである。

［作用］この発明の音声合成装置においては,2つの音声素片の
接続を行う場合，先行する音声素片の最終時点の特徴パ
ラメータを音素認識神経回路によって，各音素との類似
度で現される音素ベクトルに変換する。同様に，後続の
音声素片の開始時点の特徴パラメータも音素ベクトルに
変換され，補間区間の各時点の音素ベクトルがそれらの
補間によって求められ，特徴ベクトルは得られた補間区
間の音素ベクトルを合成神経回路により変換することで
得る。

すなわち，音声における音素から音素への変化区間は
音声の特徴パラメータの上では非線形な動きであるが，
聞こえ（典型的な音素との類似性）の上から線形に近い
変化と考えられることを利用し，音素認識と合成回路を
設け，補間を音素との類似性を表すベクトル空間上で行
うものである。

［実施例］以下，この発明の一実施例を図について説明する。第
１図は，この発明の一実施例を示すブロック図である。
図において（１）は図に明示されない入力装置から入力
された文章，（２）は音声素片特徴パラメータ記憶回
路，（３）は，文章に応じ音声素片特徴パラメータ記憶
回路（２）から音声素片特徴パラメータを読み出し編集
を行う読み出し編集回路，（４）は読み出された音声素
片特徴パラメータ，（５）は補間用特徴パラメータ，
（６）は音素認識神経回路，（７）は補間用音素ベクト
ル，（８）は補間回路，（９）は補間区間音素ベクト
ル，（10）は合成神経回路，（11）は補間区間特徴ベク
トル，（12）は文章に応じた音源波形を生成する音源波
形生成回路，（13）は音源波形，（14）は特徴ベクト
ル，（15）は合成フィルタ回路，（16）は合成音声であ
る。

第２図は，この発明の動作を説明する説明図、第３図
は，第１図に示した音素認識神経回路および合成神経回
路の構成例を示す構成図である。

図中（21）は入力ベクトルの各要素，（22）は非線形
積和素子，（23）は出力ベクトルの各要素である。

また第４図は第３図に示した音素認識神経回路，およ
び合成神経回路の動作を示す説明図である。

以下前記第１図を用いて，この発明の一実施例である
音声合成装置の動作を説明する。音声合成装置は図に示
されないキーボード，コンピュータ等から合成しようと
する文章（１）を入力する。読み出し回路（３）は文章
（１）に応じて，音声素片特徴パラメータ記憶回路
（２）から音声素片特徴パラメータ（４）を読み出す。
例えば，音声素片としてCV音節を用いた場合，従来の装
置の説明図である第７図と同様に各CV音節を読み出し，
時間的な配置を行う。ここで，補間が必要な区間に対し
ては，その先行する音声素片の配置上の最終フレームの
特徴パラメータと，後続の音声素片の始点フレームの特
徴パラメータを補間用特徴パラメータ（５）として，音
素認識神経回路（６）に送る。音素認識神経回路（６）
は第３図に示すように非線形積和素子（22）を複数組み
合わせることにより構成された回路である。この回路を
３層で構成した構成例の動作を第４図（ａ）を用いて説
明する。入力はＮ個のノードからなり，それぞれの入力
値をxi（ｉ＝0.1,...N−１）で表すと，第１層ｊノード
の出力ｘ′ｊ（ｊ＝0.1...N′−１）は次式で表され
る。

ここで，関数ｆは非線形の関数であり例えば，第４図
（ｂ）に示すｆ（α）＝1/（１＋exp（α））（２）等が用いられる。同様に第２層のｋノードの出力ｘ″ｋ
（ｋ＝0,1,...N″−１）はによって求められる。これを多段に重ねることにより，
非線形の変換回路となる。この回路の重み係数wij,w′j
k...は，文献（Lippmann,R.P.:“An Introduction to C
omputing with Neural Nets",IEEE ASSP Magazine,Apri
l 1987,pp.4−22）が示すように，例えば希望する変換
の学習データを与え，繰り返し計算によって値を求める
Back−Propagationアルゴリズムで求めることができ
る。

このような構成の回路で，入力ノードに音声特徴パラ
メータを与え，その時の音素の種類を出力ノードが類似
度の形で（これを音素ベクトルと呼ぶ）表わすよう学習
された重み係数を持った回路が，音素認識神経回路
（６）であり，逆に，入力ノードに音素ベクトルを与え
た時に特徴パラメータを出力する係数を持った回路が合
成神経回路（10）である。

今，特徴ベクトルＡをＡ＝｛a0,a1,...aN−１｝（４）音素ベクトルＰをＰ＝｛p0,p1,...pL−１｝（５）（ここで,pは,1番目の音素との類似度を表す値であ
る。）とすると，音素認識神経回路（６）の動作は，非線形な
ベクトル射像関数Ｒ［・］Ｐ＝Ｒ［Ａ］（６）で表され、合成神経回路（10）の動作は，近似的に関数
Ｒ［・］の逆射像を行う射像関数Ｓ［・］Ａ′＝Ｓ［Ｐ］＝Ａ（７）で表される。第２図に示すように，先行音声素片の最終
フレームが合成音声中のn1フレームに相当しその特徴ベ
クトルがAnlであり，後続音声素片の始点フレームが合
成音声のn2フレームに相当し特徴ベクトルをAn2で表す
と，音素認識神経回路（６）では音素ベクトルPn1,Pn2
が（８），（９）式で求められる。

Pn1＝Ｒ［An1］（８） Pn2＝Ｒ［An2］（９）これらの補間用音素ベクトル（７）は，補間回路
（８）に送られる。ここでは補間回路（８）が，線形補
間を行う場合について説明すると，補間回路（８）は区
間（n1＋1,n2−１）フレーム内の音素ベクトルPnを以下
のように計算する。

Pn＝((n2−ｎ)・Pn1＋(ｎ−n1)・Pn2)／(n2−n1)（10）これら補間区間音素ベクトルPn（ｎ＝n1＋1,,,n2−
１）（９）はさらに合成神経回路（10）に送られ，補間
区間特徴ベクトルAnが11式で求められる。

An＝Ｓ［Pn］（11）補間区間特徴ベクトル（11）は読み出し編集回路
（３）に送られ合成する文章に対応する特徴ベクトル
（14）として，合成フィルタ回路（15）に送られる。一
方，音源波形生成回路（12）は文章に応じた音源波形
（13）を生成し，合成フィルタ回路（15）は特徴ベクト
ル（14）と音源波形（13）を入力として合成音声（16）
を得る。

前記実施例では、合成音声における音声素片結合部に
おいて，補間を特徴パラメータ上で行わず，音素認識神
経回路（６）によっていったん音素との類似度を表すベ
クトルへ変換し，このベクトル上での補間を行い，特徴
パラメータは合成神経回路（10）を用いるようにした。

一般に，このような音素認識回路，合成回路を構成す
ることは極めて困難であるが，ここでは非線形積和素子
を複数多段に組み合わせた神経回路を用いたため，あら
かじめ自然音声の変化区間を学習した重み係数を与えて
おくことで，容易に構成できる。

［他の実施例］上記実施例では,1つの音素認識神経回路と合成神経回
路を有する構成であったが，音素をいくつかのカテゴリ
ーに分割し，そのカテゴリーの音素のみを扱う音素認識
神経回路と合成神経回路をカテゴリー数だけ用意する構
成とする，あるいはそのカテゴリーにより音素認識神経
回路と合成神経回路の重み係数を，記憶回路から読み出
し書き換えることで等価的に複数組の回路を設けたこと
とする構成をとることも可能である。

［発明の効果］この発明によれば，合成音声における音声素片結合部
において，補間を特徴パラメータ上で行わず，音素認識
神経回路（６）によっていったん音素との類似度を表す
ベクトルへ変換し，このベクトル上での補間を行い，特
徴パラメータは合成神経回路（10）を用いるようにして
いる。そのため，自然な音声の変化に近い変化が得られ
る。さらに，従来自然な連続性を得るためになされてい
た、変化区間を含む長い音声素片を用いる必要がなくな
るため，音声素片特徴パラメータ記憶回路の容量は小さ
なもので済み，音声素片作成の作業も小さなものですむ
という優れた効果を奏するものである。

【図面の簡単な説明】第１図は，この発明の一実施例を示すブロック図、第２
図は，この発明の動作を説明する説明図第３図は，音素
認識神経回路および合成神経回路の構成例を示す構成
図，第４図は第３図に示した音素認識神経回路，および
合成神経回路の動作を示す説明図，第５図は従来技術に
よる音声合成装置の一構成例を示すブロック図，第６図
は単語「敬う」を音声合成する時に従来の合成装置での
音声素片接続例を示す説明図，第７図は，同様に従来の
補間回路を含む合成装置での接続と補間の例を示す説明
図である。図において（１）は文章，（２）は音声素片特徴パラメ
ータ記憶回路，（３）は読み出し編集回路，（４）音声
素片特徴パラメータ，（５）は補間用特徴パラメータ，
（６）は音素認識神経回路，（７）は補間用音素ベクト
ル，（８）は補間回路，（９）は補間区間音素ベクト
ル，（10）は合成神経回路，（11）は補間区間特徴ベク
トル，（12）は音源波形生成回路，（13）は音源波形，
（14）は特徴ベクトル，（15）は合成フィルタ回路，
（16）は合成音声，（21）は入力ベクトルの各要素，
（22）は非線形積和素子，（23）は出力ベクトルの各要
素，（31）は文章，（32）は音声素片特徴パラメータ記
憶回路，（33）は読み出し編集回路，（34）は音声素片
特徴パラメータ，（35）は特徴パラメータ，（36）は音
源波形生成回路，（37）は音源波形，（38）は合成フィ
ルタ回路，（39）は合成音声である。なお、図中同一符号は同一または相当部分を示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−243169（ＪＰ，Ａ) 特開平２−5098（ＪＰ，Ａ) 特開昭57−158900（ＪＰ，Ａ) 特開平１−276200（ＪＰ，Ａ) 特開平２−19960（ＪＰ，Ａ) 特開平２−72339（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】音声素片の特徴パラメータを用いて入力文
章を音声合成する音声合成装置において，音声素片の特
徴パラメータを記憶しておく特徴パラメータ記憶回路
と，合成しようとする音声内容に応じてこの特徴パラメ
ータ記憶回路から必要な音声素片の特徴パラメータを読
みだし編集を行う読み出し編集回路と，この読み出し編
集回路により読み出された特徴パラメータから各音素と
の類似性を示す音素ベクトルを出力する音素認識神経回
路と，この音素認識神経回路からの音素ベクトルを先行
音声素片の終端から後続音声素片の始端まで補間する音
素ベクトル補間回路と，この音素ベクトル補間回路の各
音素ベクトル値を入力し，補間特徴パラメータに出力す
る合成神経回路と，発声内容に応じた音源波形を生成す
る音源波形生成回路と，前記合成神経回路の補間特徴パ
ラメータと前記音声素片の特徴パラメータとを前記読み
出し編集回路で編集した編集特徴パラメータと前記音源
波形生成回路から与えられる音源波形とから合成音声を
生成する合成フィルタ回路とを備えたことを特徴とする
音声合成装置。