JP2650480B2 - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JP2650480B2 JP2650480B2 JP2243226A JP24322690A JP2650480B2 JP 2650480 B2 JP2650480 B2 JP 2650480B2 JP 2243226 A JP2243226 A JP 2243226A JP 24322690 A JP24322690 A JP 24322690A JP 2650480 B2 JP2650480 B2 JP 2650480B2
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- speech
- phoneme
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
章を音声に変換する音声合成装置に関するものである。
声素片の特徴パラメータを記憶しておき,合成しようと
する文章に応じてこれを接続し,文章に対応した特徴パ
ラメータを得ると共に,単語アクセント文章イントネー
ションに応じた音源波形を生成し,合成音声を得てい
る。第5図は従来技術による音声合成装置の一構成例を
示すブロック図であり,図中(31)は図に明示されない
キーボード等の装置から入力された文章,(32)は合成
用の音声素片のパラメータを記憶している音声素片特徴
パラメータ記憶回路,(33)は文章に応じ音声素片特徴
パラメータ記憶回路(32)から,必要な音声素片特徴パ
ラメータ(34)を読み出し時間軸上に配置し文章の特徴
パラメータ(35)を作成する読み出し編集回路,(36)
は文章に応じピッチ周波数等の制御を行い音源波形(3
7)を生成する音源波形生成回路,(38)は特徴パラメ
ータ(35)と音源波形(37)を入力とし合成音声(39)
を生成する合成フィルタ回路である。
メータ記憶回路(32)に記憶しておく音声素片について
は、いくつかの単位が考えられている。例えば,文献
(古井貞煕:“ディジタル音声処理”東海大学出版会,
(985),p.141−142)に示されるように,CV単位(子音
−母音型音節)VCV単位,CVC単位等がある。各単位を用
いた場合について音声素片特徴パラメータ記憶回路(3
2)に記憶させておき、良み出し編集回路(33)が接続
する音声素片を合成音声「敬う」を合成する場合を例に
第6図に示す。
に,CV音節のような比較的小さな単位を用いた場合は,
第6図に示すように音声素片の結合部において異なる音
素の接続が行われる。従って,自然な音声に見られる特
徴の連続的な変化が得られず合成音声は極めて品質が悪
く,場合によっては不連続性のために正しい音素として
聞き取られない場合もあった。
片の接続を行うよう,CVC,VCV単位を用いる方法もある
が、用意しなければならない素片数がCV音節の場合の10
0程度に比べ,700〜6000種となり音声素片の生成に厖大
な時間がかかり,また合成装置のメモリも大きなものが
必要となるという問題点を持っていた。
題は大きく改善されるものの,VCV音節の母音(V)は中
央の子音(C)の,また,CVC音節では子音は中央の母音
やその後に発声された母音の影響を強く受けているた
め,接続部の音声特徴は必ずしも同一ではなく,問題が
完全に解決されたことではなかった。
なんらかの補間を行い,品質の向上を図る装置も提案さ
れている。この場合文献(古市ほか:“CV音節のメルケ
プストラムを用いる音声の規則合成”に日本音響学会音
声研究会資料,S83−37(1983))に示されるように接続
する2音声素片の間でパラメータの直線補間が行われ
る。これを前記の例と同様に「敬う」を合成する場合に
ついて説明した図を第7図に示す。この方法によればCV
音節などの比較的短い音声素片単位を用いた場合でもス
ペクトルの連続的な変化が得られるため,補間を行わな
い場合に比べれば著しく合成音声の品質は向上するが,
人間が発声する自然な音声に見られる連続的な変化は合
成に用いるパラメータ上では線形な変化ではないため,
このような装置によって得られる補間区間のスペクトル
は自然音声の音素の過渡区間に見られるスペクトルとは
大きく異なる場合があり,不自然なスペクトルから異音
として聞き取られるような場合もあった。
し,CV音節等の比較的小さな音声合成単位を用いた場合
でも,自然な連続性が得られる音声合成装置を提供する
ことである。
トルで表現された音声の特徴を各音素との類似度を現す
音素ベクトルへ変換するための音素認識神経回路と,こ
の音素認識神経回路からの音素ベクトルを先行音声素片
の終端から後続音声素片の始端まで補間する音素ベクト
ル補間回路と、音素ベクトルから合成に用いる特徴ベク
トルへ音素認識神経回路の逆変換を行う合成神経回路と
を備えたものである。
接続を行う場合,先行する音声素片の最終時点の特徴パ
ラメータを音素認識神経回路によって,各音素との類似
度で現される音素ベクトルに変換する。同様に,後続の
音声素片の開始時点の特徴パラメータも音素ベクトルに
変換され,補間区間の各時点の音素ベクトルがそれらの
補間によって求められ,特徴ベクトルは得られた補間区
間の音素ベクトルを合成神経回路により変換することで
得る。
音声の特徴パラメータの上では非線形な動きであるが,
聞こえ(典型的な音素との類似性)の上から線形に近い
変化と考えられることを利用し,音素認識と合成回路を
設け,補間を音素との類似性を表すベクトル空間上で行
うものである。
1図は,この発明の一実施例を示すブロック図である。
図において(1)は図に明示されない入力装置から入力
された文章,(2)は音声素片特徴パラメータ記憶回
路,(3)は,文章に応じ音声素片特徴パラメータ記憶
回路(2)から音声素片特徴パラメータを読み出し編集
を行う読み出し編集回路,(4)は読み出された音声素
片特徴パラメータ,(5)は補間用特徴パラメータ,
(6)は音素認識神経回路,(7)は補間用音素ベクト
ル,(8)は補間回路,(9)は補間区間音素ベクト
ル,(10)は合成神経回路,(11)は補間区間特徴ベク
トル,(12)は文章に応じた音源波形を生成する音源波
形生成回路,(13)は音源波形,(14)は特徴ベクト
ル,(15)は合成フィルタ回路,(16)は合成音声であ
る。
は,第1図に示した音素認識神経回路および合成神経回
路の構成例を示す構成図である。
積和素子,(23)は出力ベクトルの各要素である。
び合成神経回路の動作を示す説明図である。
音声合成装置の動作を説明する。音声合成装置は図に示
されないキーボード,コンピュータ等から合成しようと
する文章(1)を入力する。読み出し回路(3)は文章
(1)に応じて,音声素片特徴パラメータ記憶回路
(2)から音声素片特徴パラメータ(4)を読み出す。
例えば,音声素片としてCV音節を用いた場合,従来の装
置の説明図である第7図と同様に各CV音節を読み出し,
時間的な配置を行う。ここで,補間が必要な区間に対し
ては,その先行する音声素片の配置上の最終フレームの
特徴パラメータと,後続の音声素片の始点フレームの特
徴パラメータを補間用特徴パラメータ(5)として,音
素認識神経回路(6)に送る。音素認識神経回路(6)
は第3図に示すように非線形積和素子(22)を複数組み
合わせることにより構成された回路である。この回路を
3層で構成した構成例の動作を第4図(a)を用いて説
明する。入力はN個のノードからなり,それぞれの入力
値をxi(i=0.1,...N−1)で表すと,第1層jノード
の出力x′j(j=0.1...N′−1)は次式で表され
る。
(b)に示す f(α)=1/(1+exp(α)) (2) 等が用いられる。同様に第2層のkノードの出力x″k
(k=0,1,...N″−1)は によって求められる。これを多段に重ねることにより,
非線形の変換回路となる。この回路の重み係数wij,w′j
k...は,文献(Lippmann,R.P.:“An Introduction to C
omputing with Neural Nets",IEEE ASSP Magazine,Apri
l 1987,pp.4−22)が示すように,例えば希望する変換
の学習データを与え,繰り返し計算によって値を求める
Back−Propagationアルゴリズムで求めることができ
る。
メータを与え,その時の音素の種類を出力ノードが類似
度の形で(これを音素ベクトルと呼ぶ)表わすよう学習
された重み係数を持った回路が,音素認識神経回路
(6)であり,逆に,入力ノードに音素ベクトルを与え
た時に特徴パラメータを出力する係数を持った回路が合
成神経回路(10)である。
る。) とすると,音素認識神経回路(6)の動作は,非線形な
ベクトル射像関数R[・] P=R[A] (6) で表され、合成神経回路(10)の動作は,近似的に関数
R[・]の逆射像を行う射像関数S[・] A′=S[P]=A (7) で表される。第2図に示すように,先行音声素片の最終
フレームが合成音声中のn1フレームに相当しその特徴ベ
クトルがAnlであり,後続音声素片の始点フレームが合
成音声のn2フレームに相当し特徴ベクトルをAn2で表す
と,音素認識神経回路(6)では音素ベクトルPn1,Pn2
が(8),(9)式で求められる。
(8)に送られる。ここでは補間回路(8)が,線形補
間を行う場合について説明すると,補間回路(8)は区
間(n1+1,n2−1)フレーム内の音素ベクトルPnを以下
のように計算する。
1)(9)はさらに合成神経回路(10)に送られ,補間
区間特徴ベクトルAnが11式で求められる。
(3)に送られ合成する文章に対応する特徴ベクトル
(14)として,合成フィルタ回路(15)に送られる。一
方,音源波形生成回路(12)は文章に応じた音源波形
(13)を生成し,合成フィルタ回路(15)は特徴ベクト
ル(14)と音源波形(13)を入力として合成音声(16)
を得る。
おいて,補間を特徴パラメータ上で行わず,音素認識神
経回路(6)によっていったん音素との類似度を表すベ
クトルへ変換し,このベクトル上での補間を行い,特徴
パラメータは合成神経回路(10)を用いるようにした。
ることは極めて困難であるが,ここでは非線形積和素子
を複数多段に組み合わせた神経回路を用いたため,あら
かじめ自然音声の変化区間を学習した重み係数を与えて
おくことで,容易に構成できる。
路を有する構成であったが,音素をいくつかのカテゴリ
ーに分割し,そのカテゴリーの音素のみを扱う音素認識
神経回路と合成神経回路をカテゴリー数だけ用意する構
成とする,あるいはそのカテゴリーにより音素認識神経
回路と合成神経回路の重み係数を,記憶回路から読み出
し書き換えることで等価的に複数組の回路を設けたこと
とする構成をとることも可能である。
において,補間を特徴パラメータ上で行わず,音素認識
神経回路(6)によっていったん音素との類似度を表す
ベクトルへ変換し,このベクトル上での補間を行い,特
徴パラメータは合成神経回路(10)を用いるようにして
いる。そのため,自然な音声の変化に近い変化が得られ
る。さらに,従来自然な連続性を得るためになされてい
た、変化区間を含む長い音声素片を用いる必要がなくな
るため,音声素片特徴パラメータ記憶回路の容量は小さ
なもので済み,音声素片作成の作業も小さなものですむ
という優れた効果を奏するものである。
図は,この発明の動作を説明する説明図第3図は,音素
認識神経回路および合成神経回路の構成例を示す構成
図,第4図は第3図に示した音素認識神経回路,および
合成神経回路の動作を示す説明図,第5図は従来技術に
よる音声合成装置の一構成例を示すブロック図,第6図
は単語「敬う」を音声合成する時に従来の合成装置での
音声素片接続例を示す説明図,第7図は,同様に従来の
補間回路を含む合成装置での接続と補間の例を示す説明
図である。 図において(1)は文章,(2)は音声素片特徴パラメ
ータ記憶回路,(3)は読み出し編集回路,(4)音声
素片特徴パラメータ,(5)は補間用特徴パラメータ,
(6)は音素認識神経回路,(7)は補間用音素ベクト
ル,(8)は補間回路,(9)は補間区間音素ベクト
ル,(10)は合成神経回路,(11)は補間区間特徴ベク
トル,(12)は音源波形生成回路,(13)は音源波形,
(14)は特徴ベクトル,(15)は合成フィルタ回路,
(16)は合成音声,(21)は入力ベクトルの各要素,
(22)は非線形積和素子,(23)は出力ベクトルの各要
素,(31)は文章,(32)は音声素片特徴パラメータ記
憶回路,(33)は読み出し編集回路,(34)は音声素片
特徴パラメータ,(35)は特徴パラメータ,(36)は音
源波形生成回路,(37)は音源波形,(38)は合成フィ
ルタ回路,(39)は合成音声である。 なお、図中同一符号は同一または相当部分を示す。
Claims (1)
- 【請求項1】音声素片の特徴パラメータを用いて入力文
章を音声合成する音声合成装置において,音声素片の特
徴パラメータを記憶しておく特徴パラメータ記憶回路
と,合成しようとする音声内容に応じてこの特徴パラメ
ータ記憶回路から必要な音声素片の特徴パラメータを読
みだし編集を行う読み出し編集回路と,この読み出し編
集回路により読み出された特徴パラメータから各音素と
の類似性を示す音素ベクトルを出力する音素認識神経回
路と,この音素認識神経回路からの音素ベクトルを先行
音声素片の終端から後続音声素片の始端まで補間する音
素ベクトル補間回路と,この音素ベクトル補間回路の各
音素ベクトル値を入力し,補間特徴パラメータに出力す
る合成神経回路と,発声内容に応じた音源波形を生成す
る音源波形生成回路と,前記合成神経回路の補間特徴パ
ラメータと前記音声素片の特徴パラメータとを前記読み
出し編集回路で編集した編集特徴パラメータと前記音源
波形生成回路から与えられる音源波形とから合成音声を
生成する合成フィルタ回路とを備えたことを特徴とする
音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243226A JP2650480B2 (ja) | 1990-09-13 | 1990-09-13 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243226A JP2650480B2 (ja) | 1990-09-13 | 1990-09-13 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04123000A JPH04123000A (ja) | 1992-04-23 |
JP2650480B2 true JP2650480B2 (ja) | 1997-09-03 |
Family
ID=17100715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2243226A Expired - Lifetime JP2650480B2 (ja) | 1990-09-13 | 1990-09-13 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2650480B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2637760B2 (ja) * | 1988-03-24 | 1997-08-06 | 富士通株式会社 | パターン学習・生成方式 |
JPH025098A (ja) * | 1988-06-24 | 1990-01-09 | Ricoh Co Ltd | 韻律制御方式 |
-
1990
- 1990-09-13 JP JP2243226A patent/JP2650480B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH04123000A (ja) | 1992-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
WO2005109399A1 (ja) | 音声合成装置および方法 | |
KR20210095010A (ko) | 표현력 있는 텍스트-대-음성 시스템 및 방법 | |
US11830473B2 (en) | Expressive text-to-speech system and method | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JPS62231998A (ja) | 音声合成方法および装置 | |
JP4194656B2 (ja) | 波形の合成 | |
JP2623586B2 (ja) | 音声合成におけるピッチ制御方式 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP3513071B2 (ja) | 音声合成方法及び音声合成装置 | |
JP2650480B2 (ja) | 音声合成装置 | |
JPH09319391A (ja) | 音声合成方法 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP7280605B2 (ja) | 音声処理装置、および音声処理方法 | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2004341259A (ja) | 音声素片伸縮装置およびその方法 | |
JP2679623B2 (ja) | テキスト音声合成装置 | |
JP4216125B2 (ja) | 音声合成装置およびプログラム | |
JP2004125843A (ja) | 音声合成方法 | |
JPH0632037B2 (ja) | 音声合成装置 | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
JP2878483B2 (ja) | 音声規則合成装置 | |
Guojie et al. | Enhanced Variational Auto-encoder for Voice Conversion Using Non-parallel Corpora | |
JPS593496A (ja) | 規則合成方式における基本周波数制御方式 | |
JP3283657B2 (ja) | 音声規則合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080516 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090516 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100516 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100516 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110516 Year of fee payment: 14 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110516 Year of fee payment: 14 |