JPH11282484A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH11282484A
JPH11282484A JP10081319A JP8131998A JPH11282484A JP H11282484 A JPH11282484 A JP H11282484A JP 10081319 A JP10081319 A JP 10081319A JP 8131998 A JP8131998 A JP 8131998A JP H11282484 A JPH11282484 A JP H11282484A
Authority
JP
Japan
Prior art keywords
phoneme
unit
waveform data
waveform
pitch pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10081319A
Other languages
English (en)
Inventor
Yuji Wada
田 祐 司 和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP10081319A priority Critical patent/JPH11282484A/ja
Publication of JPH11282484A publication Critical patent/JPH11282484A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音素単位波形記憶部の記憶容量をそれほど大
きくすることなく、自然で滑らかな音声合成を行うこ
と。 【解決手段】 テキストデータ入力部1から入力された
テキストデータは音韻記号生成部2に送られ、ここで音
韻記号が生成される。音素単位波形呼び出し部3は、こ
の生成された音韻記号に基づき、最初の音素単位波形デ
ータA0 に該当するデータを音素単位波形記憶部4から
呼び出す。テキストデータ入力部1から入力されたテキ
ストデータは韻律規則部6により韻律規則が分析され、
韻律パラメータ生成部7は、この分析に基づいて韻律パ
ラメータを生成する。そして、ピッチパターン生成部8
は、この韻律パラメータに基づきピッチパターンを生成
する。波形データ接続部5Aの音素波形データ列生成手
段12はピッチパターン生成部8からの情報に基づき声
質パラメータ記憶部11からパラメータ数値を入力し、
これと呼び出し部3からのデータA0 とに基づき次に続
くべき音素単位波形データA1 を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、規則合成方式に基
づく音声合成を行う音声合成装置に関するものである。
【0002】
【従来の技術】図3は従来の音声合成装置の構成を示す
ブロック図である。この図において、テキストデータ入
力部1は、入力したテキストデータを音韻記号生成部2
に出力するようになっており、音韻記号生成部2はテキ
ストデータに対応する音韻記号を生成するようになって
いる。音素単位波形呼び出し部3は、音韻記号生成部2
が生成した音韻記号に対応する音素単位波形データを音
素単位波形記憶部4から呼び出すようになっている。そ
して、波形データ接続部5は、音素単位波形呼び出し部
3が順次呼び出した音素単位波形データを接続して音素
波形データ列を生成するようになっている。
【0003】図4は、このようにして生成される音素波
形データ列の一例を示す波形図であり、音素単位波形記
憶部4から順次呼び出されたN個の音素単位波形データ
A0,A1 ,…,An ,An+1 ,…,AN-1 が接続され
て一つの音素波形データ列が形成されている。
【0004】一方、テキストデータ入力部1は、入力し
たテキストデータを韻律規則部6にも出力するようにな
っており、韻律規則部6はテキストデータ中の韻律規則
を分析するようになっている。韻律パラメータ生成部7
は、韻律規則部6が分析した韻律規則に基づいて韻律パ
ラメータを生成するようになっている。そして、ピッチ
パターン生成部8は、韻律パラメータ生成部7が生成し
た韻律パラメータに基づきピッチパターンを生成するよ
うになっている。
【0005】波形合成部9は、波形データ接続部5が生
成した音素波形データ列と、ピッチパターン生成部8が
生成したピッチパターンとの入力に基づいて音声波形を
合成するようになっている。そして、音声出力部10は
波形合成部9が合成した音声波形に基づいて音声出力を
行うようになっている。
【0006】
【発明が解決しようとする課題】ところで、できるだけ
自然で滑らかな音声合成を行うためには、音素単位波形
記憶部4に全ての音韻データに対応する音素単位データ
を記憶させておき、この中から最適な音素単位データを
呼び出す必要がある。しかし、全ての音韻データに対応
する音素単位データを記憶させるためには、音素単位波
形記憶部4の記憶容量は非常に大きなものとなり、高コ
ストとなる。
【0007】一方、このように高コストとなるのを回避
するために音素単位波形記憶部4の記憶容量を一定以下
に制限すると、充分な量の音素単位データを記憶させる
ことができず不自然な音声合成が行われてしまう結果と
なる。
【0008】本発明は上記事情に鑑みてなされたもので
あり、音素単位波形記憶部の記憶容量をそれほど大きく
することなく、自然で滑らかな音声合成を行うことが可
能な音声合成装置を提供することを目的としている。
【0009】
【課題を解決するための手段】上記課題を解決するため
の手段として、請求項1記載の発明は、入力したテキス
トデータから音韻記号を生成する音韻記号生成部と、前
記音韻記号に対応する音素単位波形データを記憶する音
素単位波形記憶部と、前記音素単位波形記憶部から順次
呼び出した各音素単位波形データを接続して音素波形デ
ータ列を生成する波形データ接続部と、前記テキストデ
ータからピッチパターンを生成するピッチパターン生成
部と、を備え、前記波形データ接続部から出力される音
素波形データ列を、前記ピッチパターン生成部により生
成したピッチパターンに基づき合成する音声合成装置で
あって、前記波形データ接続部は、声質に関して予め設
定されている項目についてのパラメータ数値を記憶する
声質パラメータ記憶部と、前記ピッチパターン生成部に
より生成したピッチパターンに応じて前記声質パラメー
タ記憶部に記憶されている中から選択されたパラメータ
数値と、前回呼び出した音素単位波形データとが入力さ
れて、次に続くべき音素単位波形データを生成する音素
波形データ列生成手段と、前記音素波形データ列生成手
段にて生成された音素単位波形データを順次接続して出
力する接続手段と、を有するものである、ことを特徴と
する。
【0010】請求項2記載の発明は、請求項1記載の発
明において、前記音素単位データ列生成手段は、前記ピ
ッチパターン生成部により生成したピッチパターンに応
じて前記声質パラメータ記憶部に記憶されている中から
選択されたパラメータ数値と、前回呼び出した音素単位
波形データとが入力されて、次に続くべき音素単位波形
データを出力する階層型ニューラルネットワークで構成
されている、ことを特徴とする。
【0011】
【発明の実施の形態】以下、本発明の実施形態を図に基
づき説明する。但し、図3に示したものと同様の構成要
素には同一の符号を付して重複した説明を省略する。図
1は、本発明の実施形態の構成を示すブロック図であ
る。図1が図3と異なる主な点は、波形データ接続部5
Aが声質パラメータ記憶部11、音素波形データ列生成
手段12、及び接続手段13を有している点である。但
し、図3における音素単位波形記憶部4は、全ての音韻
データに対応する音素単位データを記憶するため非常に
大きな記憶容量を有していたが、この図1における音素
単位波形記憶部4は、全ての音韻データに対応する音素
単位データを記憶する必要がなくなるため、その記憶容
量は小さなものとなっている。
【0012】声質パラメータ記憶部11は、声質を決定
する所定のパラメータについて予め設定された数値を記
憶している。所定のパラメータとは、例えば、「アクセ
ントデータ」、「声の高さ」、「発声速度」、「性別
(男女数種類用意する)」等である。
【0013】音素波形データ列生成手段12は、ピッチ
パターン生成部8が生成したピッチパターン情報に基づ
いて、声質パラメータ記憶部11から入力するパラメー
タの数値を決定し、さらに、音素単位波形呼び出し部3
が前回呼び出した音素単位波形データの値を入力する。
そして、音素波形データ列生成手段12は、これらの入
力に基づいて次に続くべき音素単位波形データを生成す
るようになっている。そして、接続手段13は、音素波
形データ列生成手段12にて生成された音素単位波形デ
ータを順次接続して出力するものである。
【0014】図2は、音素波形データ列生成手段12の
構成図であり、この図に示すように、音素波形データ列
生成手段12はニューラルネットワークにより構成され
ている。このニューラルネットワークは入力層、中間
層、出力層を有しており、入力層は、音素単位波形デー
タを入力するためのq個のニューロンR1 ,R2 ,…,
Rq と、声質パラメータを入力するためのm個のニュー
ロンS1 ,S2 ,…,Sm とから構成されている。ま
た、中間層はq個のニューロンM1 ,M2 ,…,Mq に
より構成され、出力層は音素単位波形データを出力する
ためのq個のニューロンV1 ,V2 ,…,Vq により構
成されている。そして、このニューラルネットワークは
上記のような入力及び出力に基づく学習機能(バックプ
ロパゲーション法)を有するものである。
【0015】入力層のニューロンR1 ,R2 ,…,Rq
に入力される音素単位波形データとは、例えば、図4に
おける音素単位波形データA0 の所定周期(A0 全体の
時間をq等分することにより得られる周期)毎の振幅値
である。また、声質パラメータの入力については、1つ
の入力データに対して1つ以上のニューロンを用いるこ
ととする。この場合、入力データを2進数化して必要な
数のニューロンを用意し、これに「0」又は「1」を入
力するようにしてもよい。
【0016】次に、上記のように構成される本実施形態
の動作につき説明する。テキストデータ入力部1から入
力されたテキストデータは音韻記号生成部2に送られ、
音韻記号生成部2はこのテキストデータに対応する音韻
記号を生成する。音素単位波形呼び出し部3は、この生
成された音韻記号に基づき、最初の音素単位波形データ
A0 に該当するデータを音素単位波形記憶部4から呼び
出す。
【0017】一方、テキストデータ入力部1から入力さ
れたテキストデータは韻律規則部6にも送られてテキス
トデータ中の韻律規則が分析され、韻律パラメータ生成
部7は、この分析に基づいて韻律パラメータを生成す
る。そして、ピッチパターン生成部8は、この生成され
た韻律パラメータに基づきピッチパターンを生成する。
音素単位波形呼び出し部3が音素単位波形記憶部4から
呼び出した音素単位波形データA0 についての数値は音
素波形データ列生成手段12のニューロンR1,R2 ,
…,Rq に入力される。また、ピッチパターン生成部8
が生成したピッチパターンも音素波形データ列生成手段
12に送られ、音素波形データ列生成手段12はこのピ
ッチパターンに対応する声質パラメータの数値をニュー
ロンS1,S2 ,…,Sm に入力する。
【0018】音素波形データ列生成手段12のニューロ
ンR1 ,R2 ,…,Rq 及びニューロンS1 ,S2 ,
…,Sm にこのような入力が行われると、所定の演算が
行われ、出力層のニューロンV1 ,V2 ,…,Vq から
次の音素単位波形データA1 についての数値が出力され
る。したがって、図1において、音素波形データ列生成
手段12はこの数値に対応する音素単位波形データA0
を音素単位波形記憶部4から取り出して、音素単位波形
データA1 を生成する。
【0019】次いで、音素波形データ列生成手段12の
ニューロンR1 ,R2 ,…,Rq には、今度は音素単位
波形データA0 の代わりにA1 についての数値が入力さ
れ、ニューロンV1 ,V2 ,…,Vq から次の音素単位
波形データA2 についての数値が出力される。そして、
音素波形データ列生成手段12は同様にして音素波形デ
ータA2 を生成する。音素波形データ列生成手段12
は、以下同様にして音素波形データ列A3 ,A4 ,…,
An ,An+1 ,…,AN-1 を順次生成する。
【0020】接続手段13では、このようにして音素波
形データ列生成手段12が生成した音素波形データ列A
0 ,A1 ,…,An ,An+1 ,…,AN-1 を接続し、こ
れを波形合成部9に出力する。波形合成部9は、ピッチ
パターン生成部8からのピッチパターンに基づき、波形
データ接続部5Aから逐次送られてくるA0 ,A1 ,
…,An ,An+1 ,…,AN-1 等の音素波形データ列を
用いて音声波形の合成を行う。そして、音声出力部10
は波形合成部9が合成した音声波形に基づいて音声出力
を行う。
【0021】上述したように、図1の構成では、音素波
形データ列生成手段12は、声質パラメータ記憶部11
からのデータ入力と、前回呼び出した音素単位波形デー
タの入力とに基づいて、次に続くべき音素単位波形デー
タを生成している。したがって、自然で滑らかな音声合
成を行うことができると共に、音素単位波形記憶部4に
は、従来のように、全ての音韻データに対応する音素単
位波形データを記憶させておく必要がなくなるため、こ
の音素単位波形記憶部4の記憶容量を小さなものとする
ことができる。
【0022】なお、上記実施形態では、図2に示した音
素波形データ列生成手段12の入力層におけるニューロ
ンR1 ,R2 ,…,Rq には、前回呼び出された音素単
位波形データの数値が入力されるようになっていたが、
ニューロン数をさらに増やし、前回以前に呼び出された
全ての波形データの数値を入力させるようにして次に続
くべき音素単位波形データを生成するようにしてもよ
い。これによれば、より一層適切な音素単位波形データ
を呼び出すことができるようになる。
【0023】さらに、上記実施形態では音素波形データ
列生成手段12をニューラルネットワークにより構成し
た例を示したが、特にニューラルネットワークのみに限
定する必要はなく、例えばファジイ演算回路など他の機
能を有する回路を用いて構成することもできる。
【0024】
【発明の効果】以上のように、本発明によれば、声質パ
ラメータと、前回呼び出した音素単位波形データとに基
づいて、次に続くべき音素単位波形データを生成する構
成としているので、音素単位波形記憶部の記憶容量をそ
れほど大きくすることなく、自然で滑らかな音声合成を
行うことができる。
【図面の簡単な説明】
【図1】本発明の実施形態の構成図。
【図2】図1における音素波形データ列生成手段12の
ニューラルネットワーク構成を示す説明図。
【図3】従来例の構成図。
【図4】図1又は図3における波形データ接続部5,5
Aによって生成される音素波形データ列の例を示す波形
図。
【符号の説明】
1 テキストデータ入力部 2 音韻記号生成部 3 音素単位波形呼び出し部 4 音素単位波形記憶部 5,5A 波形データ接続部 6 韻律規則部 7 韻律パラメータ生成部 8 ピッチパターン生成部 9 波形合成部 10 音声出力部 11 声質パラメータ記憶部 12 音素波形データ列生成手段 13 接続手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力したテキストデータから音韻記号を生
    成する音韻記号生成部と、 前記音韻記号に対応する音素単位波形データを記憶する
    音素単位波形記憶部と、 前記音素単位波形記憶部から順次呼び出した各音素単位
    波形データを接続して音素波形データ列を生成する波形
    データ接続部と、 前記テキストデータからピッチパターンを生成するピッ
    チパターン生成部と、 を備え、前記波形データ接続部から出力される音素波形
    データ列を、前記ピッチパターン生成部により生成した
    ピッチパターンに基づき合成する音声合成装置であっ
    て、 前記波形データ接続部は、 声質に関して予め設定されている項目についてのパラメ
    ータ数値を記憶する声質パラメータ記憶部と、 前記ピッチパターン生成部により生成したピッチパター
    ンに応じて前記声質パラメータ記憶部に記憶されている
    中から選択されたパラメータ数値と、前回呼び出した音
    素単位波形データとが入力されて、次に続くべき音素単
    位波形データを生成する音素波形データ列生成手段と、 前記音素波形データ列生成手段にて生成された音素単位
    波形データを順次接続して出力する接続手段と、 を有するものである、 ことを特徴とする音声合成装置。
  2. 【請求項2】前記音素単位データ列生成手段は、前記ピ
    ッチパターン生成部により生成したピッチパターンに応
    じて前記声質パラメータ記憶部に記憶されている中から
    選択されたパラメータ数値と、前回呼び出した音素単位
    波形データとが入力されて、次に続くべき音素単位波形
    データを出力する階層型ニューラルネットワークで構成
    されている、 ことを特徴とする請求項1記載の音声合成装置。
JP10081319A 1998-03-27 1998-03-27 音声合成装置 Pending JPH11282484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10081319A JPH11282484A (ja) 1998-03-27 1998-03-27 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10081319A JPH11282484A (ja) 1998-03-27 1998-03-27 音声合成装置

Publications (1)

Publication Number Publication Date
JPH11282484A true JPH11282484A (ja) 1999-10-15

Family

ID=13743088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10081319A Pending JPH11282484A (ja) 1998-03-27 1998-03-27 音声合成装置

Country Status (1)

Country Link
JP (1) JPH11282484A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363876B1 (ko) * 2000-12-27 2002-12-11 (주)네오싸이피아 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
JP2019179257A (ja) * 2019-06-19 2019-10-17 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2021152664A (ja) * 2016-09-06 2021-09-30 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
US11948066B2 (en) 2016-09-06 2024-04-02 Deepmind Technologies Limited Processing sequences using convolutional neural networks

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363876B1 (ko) * 2000-12-27 2002-12-11 (주)네오싸이피아 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
JP2021152664A (ja) * 2016-09-06 2021-09-30 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
US11869530B2 (en) 2016-09-06 2024-01-09 Deepmind Technologies Limited Generating audio using neural networks
US11948066B2 (en) 2016-09-06 2024-04-02 Deepmind Technologies Limited Processing sequences using convolutional neural networks
JP2019179257A (ja) * 2019-06-19 2019-10-17 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム

Similar Documents

Publication Publication Date Title
JP2885372B2 (ja) 音声符号化方法
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
CN112037755B (zh) 一种基于音色克隆的语音合成方法、装置及电子设备
Tamaru et al. Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking
JPH11282484A (ja) 音声合成装置
JP4490818B2 (ja) 定常音響信号のための合成方法
JPH08335096A (ja) テキスト音声合成装置
JPH0419799A (ja) 音声合成装置
CN1682281B (zh) 在语音合成中用于控制持续时间的方法
JPH06318094A (ja) 音声規則合成装置
JPH09319394A (ja) 音声合成方法
JP2573586B2 (ja) 規則型音声合成装置
JP3059751B2 (ja) 残差駆動型音声合成装置
JPH07244496A (ja) テキスト朗読装置
Jitca et al. Improved speech synthesis using fuzzy methods
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP2703253B2 (ja) 音声合成装置
JPH09179576A (ja) 音声合成方法
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体
JP2023139557A (ja) 音声合成装置、音声合成方法及びプログラム
JP3588266B2 (ja) 音声合成方法、音声合成装置及び記録媒体
May et al. Speech synthesis using allophones
JPH037999A (ja) 音声出力装置
CN116052640A (zh) 一种语音合成方法及装置
JPH06162166A (ja) 画像作成装置