JP3915704B2 - Speech synthesizer - Google Patents

Speech synthesizer Download PDF

Info

Publication number
JP3915704B2
JP3915704B2 JP2003021683A JP2003021683A JP3915704B2 JP 3915704 B2 JP3915704 B2 JP 3915704B2 JP 2003021683 A JP2003021683 A JP 2003021683A JP 2003021683 A JP2003021683 A JP 2003021683A JP 3915704 B2 JP3915704 B2 JP 3915704B2
Authority
JP
Japan
Prior art keywords
output
formant
sound
selector
waveform data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003021683A
Other languages
Japanese (ja)
Other versions
JP2004233624A (en
Inventor
敦一 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2003021683A priority Critical patent/JP3915704B2/en
Priority to US10/765,379 priority patent/US7424430B2/en
Priority to EP04001856A priority patent/EP1443493A1/en
Priority to KR1020040005697A priority patent/KR100602979B1/en
Priority to TW093102192A priority patent/TWI240914B/en
Priority to CNB2004100053293A priority patent/CN100561574C/en
Priority to CNU2004200023397U priority patent/CN2706830Y/en
Publication of JP2004233624A publication Critical patent/JP2004233624A/en
Application granted granted Critical
Publication of JP3915704B2 publication Critical patent/JP3915704B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明が属する技術分野】
本発明は、複数のフォルマントを合成して音声を合成することができる音声合成装置に関するものである。
【0002】
【従来の技術】
従来の音声合成装置の一例としては、数msないし数十msの短時間の音声を定常と見なして数個の正弦波の和で音声を表現することを原理としている。そして、正弦波を発生する正弦波発生器の位相をピッチ周期でリセットすることにより有声音を形成すると共に、正弦波発生器の位相初期化タイミングをランダムにすることによりスペクトルを広げて無声音を形成する音声合成装置が知られていた(例えば、特許文献1参照)。
【0003】
【特許文献1】
特公昭58−53351号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置が合成することのできる音声の品位は低くリアリティがないという問題点があった。
そこで、本発明は、高品位の音声を合成することができる音声合成装置を提供することを目的としている。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明の音声合成装置は、所望のピッチ周期、所望のフォルマント中心周波数および所望のフォルマントレベルを有するフォルマントをそれぞれ形成する複数のフォルマント形成部を備え、該複数のフォルマント形成部で形成された複数のフォルマントを合成することにより音声を合成する音声合成装置であって、前記複数のフォルマント形成部のそれぞれが、複数種類の波形形状の中から所望の波形形状を指定する波形形状指定手段と、前記複数種類の波形形状に対応した複数の波形データを記憶する波形データ記憶手段と、前記フォルマント中心周波数に対応したレートで変化するアドレスを発生して、前記波形形状指定手段で指定された波形形状に対応した波形データを前記波形データ記憶手段から読み出す波形データ読み出し手段と、前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を形成し、該形成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段とを備えている。
【0006】
また、上記本発明の音声合成装置において、前記複数のフォルマント形成部により形成された複数のフォルマントを合成することにより有声音が合成されるようにしてもよい。
【0007】
このような本発明によれば、複数のフォルマント形成部により所望のフォルマント中心周波数および所望のフォルマントレベルをそれぞれ有するフォルマントを形成し、形成された複数のフォルマントを合成することにより音声を合成している。そして、フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与するようにしている。これにより、フォルマントにピッチ感を有させることができ、高品位のリアリティのある音声を合成することができるようになる。また、有声音フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与することにより、有声音フォルマントにピッチ感を有させることができる。
【0008】
【発明の実施の形態】
本発明の実施の形態の音源装置と兼用される音声合成装置の構成を示すブロック図を図1に示す。
図1に示す音声合成装置1は、複数種類の波形形状の波形データを記憶している波形データ記憶部と、この波形データ記憶部から所定の波形データを読み出す読み出し手段を少なくとも備える9つの波形テーブルボイス(WTボイス)部10a,10b,10c,10d,10e,10f,10g,10h,10iと、WTボイス部10a〜10iから出力される波形データをミキシングするミキシング手段11から構成され、ミキシング手段11からは発生された楽音あるいは合成された音声が出力される。この場合、WTボイス部10a〜10iに各種パラメータとして楽音パラメータおよび音声パラメータが供給されており、楽音/音声の発生指示をする音声モードフラグ(HVMODE)が楽音の発生を指示(HVMODE=0)していた場合は、楽音パラメータが選択されてWTボイス部10a〜10iで使用される。そして、選択された楽音パラメータに基づいてWTボイス部10a〜10iから発生された複数の楽音の波形データが出力され、ミキシング手段11から最大9音からなる楽音が出力される。
【0009】
そして、楽音/音声の発生指示をする音声モードフラグ(HVMODE)が音声の発生を指示(HVMODE=1)していた場合は、音声パラメータが選択されてWTボイス部10a〜10iで使用される。そして、選択された音声パラメータに基づいてWTボイス部10a〜10iから有声音ピッチ信号、有声音フォルマントあるいは無声音フォルマントを形成する波形データが出力され、有声音フォルマントおよび無声音フォルマントを形成している波形データがミキシング手段11で合成されることにより1つの音声が出力される。なお、HVMODEのHVはHuman Voiceの略である。また、U/Vは無声音(Unvoiced Sound)/有声音(Voiced Sound)指示フラグであり、HVMODE=1およびU/V=0が供給されている場合は、WTボイス部10b〜10iから有声音のフォルマントを形成する波形データが出力される。また、HVMODE=1およびU/V=0が供給されているWTボイス部10aからは、有声音のピッチ周期とされる有声音ピッチ信号が出力され、波形データは利用されない。WTボイス部10aから出力された有声音ピッチ信号はWTボイス部10b〜10iに供給されて、有声音フォルマントを形成する波形データの位相が、有声音ピッチ信号の周期毎にリセットされるようになる。また、有声音フォルマントのエンベロープ形状が有声音ピッチ信号の周期に対応したものとなる。これにより、有声音フォルマントにピッチ感を有させることができる。
【0010】
そして、WTボイス部10b〜10iにHVMODE=1およびU/V=1が供給されている場合は、WTボイス部10b〜10iから無声音のフォルマントを形成する波形データが出力される。また、HVMODE=1およびU/V=1が供給されているWTボイス部10aからの出力は利用されない。このように、HVMODE=1とすると、WTボイス部10b〜10iにより有声音フォルマントあるいは無声音フォルマントのフォルマントを最大8フォルマント出力することができる。
【0011】
ここで、音声について説明すると、音声の元になるのは声帯の振動であるが、声帯の振動は発音する言葉が違ってもほとんど変化することはない。口の開け方や喉の形などによって生じる共振や共鳴、そしてそれに付随する摩擦音や破裂音などが声帯の振動に付け加えられることでさまざまな音声になっている。このような音声には、特定の周波数領域にスペクトルが集中しているフォルマントと呼ばれる部分が周波数軸上で複数箇所存在している。このフォルマントの中央の周波数、あるいは、振幅最大の周波数がフォルマント中心周波数である。音声に含まれるフォルマントの数や、各フォルマントの中心周波数や振幅、帯域幅などは音声の性質を決める要素であり、音声を出す人の性別や体格、年齢などによって大きく異なるようになる。また、音声では発音する言葉の種類ごとに特徴的なフォルマントの組み合わせが決まっており、フォルマントの組み合わせは声質に関わることはない。フォルマントの種類を大別すると、有声音を合成するためのピッチ感を持った有声音フォルマントと、無声音を合成するためのピッチ感を持たない無声音フォルマントとなる。なお、有声音とは、発音する際に声帯が振動する音声であり、有声音には、母音と半母音、そしてバ行、ガ行、マ行、ラ行などで使用される有声子音が含まれる。また、無声音とは、発音する際に声帯が振動しない音声であり、ハ行、力行、サ行などの子音が無声音に該当する。
【0012】
図1に示す構成の本発明にかかる音源装置と兼用される音声合成装置1において、楽音を発生する際には、HVMODE=0としてWTボイス部10a〜10iのそれぞれで複数の楽音を発生するようにしている。すなわち、最大9音からなる楽音を発生することができる。
音声を合成する際には、HVMODE=1として合成する有声音あるいは無声音の音声に対応する有声音フォルマントあるいは無声音フォルマントをWTボイス部10b〜10iにより形成するようにしている。この場合、合成される音声は最大8つのフォルマントの組み合わせとなる。例えば、合成される音声が有声音の場合は、WTボイス部10b〜10iにU/V=0が供給されて、供給されている音声パラメータに基づく有声音フォルマントがそれぞれWTボイス部10b〜10iにより形成される。この際に、WTボイス部10aにはU/V=0が供給されて、WTボイス部10aは供給されている音声パラメータに基づいて有声音ピッチ信号を発生する。この有声音ピッチ信号はWTボイス部10b〜10iに供給されて、出力される有声音フォルマントを形成する波形データの位相が有声音ピッチ信号の周期毎にリセットされる。また、有声音フォルマントのエンベロープ形状が有声音ピッチ信号の周期に対応したものとなる。これによりピッチ感を持った有声音フォルマントがWTボイス部10b〜10iにより形成されるようになる。
【0013】
また、合成される音声が無声音の場合は、WTボイス部10b〜10iにHVMODE=1およびU/V=1が供給されて、供給されている音声パラメータに基づく無声音フォルマントがそれぞれWTボイス部10b〜10iにより形成される。後述するように、無声音の場合にはノイズが付与された無声音フォルマントとされる。これにより、高品質のリアリティのある音声を合成することができる。なお、無声音を合成する場合はWTボイス10aの出力は利用されない。
【0014】
音声合成装置1におけるWTボイス部10a〜10iの構成は同じ構成とされており、WTボイス部10として以下にその構成を説明する。図2は、WTボイス部10の概略構成を示すブロック図である。なお、図2以降において、(WT)、(有声音フォルマント)、(無声音フォルマント)の表記は、そのパラメータがそれぞれ、楽音、有声音フォルマント、無声音フォルマントを生成するためのパラメータであることを示している。
図2において、位相データ発生器(PG:Phase Generator)20は、発生すべき楽音のピッチあるいは有声音ピッチ信号、有声音フォルマント中心周波数、無声音フォルマント中心周波数のいずれかに対応する位相データを発生している。PG20には、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報と、楽音パラメータとして楽音のオクターブ情報BLOCK(WT)、楽音の周波数情報FNUM(WT)が供給されている。さらに、音声パラメータとして、有声音ピッチ信号のオクターブ情報BLOCK(有声音ピッチ)、有声音ピッチ信号の周波数情報FNUM(有声音ピッチ)、あるいは、有声音フォルマントのオクターブ情報BLOCK(有声音フォルマント)、有声音フォルマントの周波数情報FNUM(有声音フォルマント)、無声音フォルマントのオクターブ情報BLOCK(無声音フォルマント)、無声音フォルマントの周波数情報FNUM(無声音フォルマント)の各パラメータが供給されている。PG20において、供給されている各種パラメータがフラグ情報により選択されて、選択したパラメータに基づいて発生すべき楽音の音程あるいは有声音ピッチ信号、有声音フォルマント中心周波数、無声音フォルマント中心周波数のいずれかに対応する位相データが発生されている。
【0015】
PG20の詳細構成を図3に示す。図3においてセレクタ30では、U/Vフラグの状態に応じて有声音ピッチ信号あるいは有声音フォルマントの周波数情報FNUMと、無声音フォルマントの周波数情報FNUMとのいずれかが選択されてセレクタ31に出力される。セレクタ31では、HVMODEフラグの状態に応じて楽音の周波数情報FNUM(WT)と、セレクタ30から出力される音声関連の周波数情報FNUMとのいずれかが選択されてシフター34に出力され、セレクタ31から出力される周波数情報FNUMがシフター34にセットされる。また、セレクタ32では、U/Vフラグの状態に応じて有声音ピッチ信号あるいは有声音フォルマントのオクターブ情報BLOCKと、無声音フォルマントのオクターブ情報BLOCKとのいずれかが選択されてセレクタ33に出力される。セレクタ33では、HVMODEフラグの状態に応じて楽音のオクターブ情報BLOCK(WT)と、セレクタ32から出力される音声関連のオクターブ情報BLOCKとのいずれかが選択されてシフター34にシフト情報として出力され、シフター34にセットされている周波数情報FNUMがオクターブ情報BLOCKに応じてシフトされる。これにより、発生すべき楽音の音程、有声音ピッチ信号、有声音フォルマントの中心周波数、無声音フォルマントの中心周波数のいずれかを発生するためのオクターブの加味された位相データがPG出力としてPG20から出力される。
【0016】
図2に戻りPG20からのPG出力は、アドレス発生器(ADG:Address Generator)21に入力され、PG出力とされる位相データを累算することにより、波形データ記憶部(WAVE TABLE)22から所望の波形形状の波形データを読み出すための読み出しアドレスを発生している。ADG21には、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報と、楽音パラメータとしてスタートアドレスSA(WT)、ループポイントLP(WT)、エンドポイントEP(WT)が供給され、さらに、音声パラメータとして、有声音フォルマントを形成するに適した波形を選択するための波形選択(WS)信号と、楽音および音声に共通の発音開始を指示するキーオン(KeyOn)信号が供給されている。
【0017】
楽音を発生する場合には、HVMODE=0としてキーオン信号の開始タイミングでスタートアドレスSA(WT)がADG21から出力され、スタートアドレスSA(WT)で示される波形データ記憶部22の位置から波形データの読み出しが開始される。そして、PG20からの位相データを累算していくことによりエンドポイントEP(WT)までの読み出しアドレスが、楽音の音程に応じたレートで変化するようにADG21から順次出力される。これにより、エンドポイントEP(WT)で示される波形データ記憶部22の位置までの波形データのサンプルが楽音の音程に応じたレートで順次読み出される。次いで、ループポイントLP(WT)に相当する読み出しアドレスがADG21から出力され、さらにPG20からの位相データを累算していくことによりエンドポイントEP(WT)までの読み出しアドレスが楽音の音程に応じたレートで変化しながらADG21から順次出力される。これにより、ループポイントLP(WT)で示される波形データ記憶部22の位置からエンドポイントEP(WT)で示される波形データ記憶部22の位置までの波形データのサンプルが楽音の音程に応じたレートで順次読み出される。ループポイントLP(WT)からエンドポイントEP(WT)までの読み出しアドレスは、キーオン信号により発音停止されるまで繰り返し発生される。これにより、キーオン信号で示される発音開始から発音停止までの所望の波形データを、楽音の音程に応じたレートで波形データ記憶部22から読み出すことができる。
【0018】
また、音声を合成する際には、HVMODE=1としてキーオン信号の開始タイミングでWS(有声音フォルマント)信号で示されるスタートアドレス、あるいは、予め定められている無声音フォルマント用のスタートアドレスで示される波形データ記憶部22の位置から波形データの読み出しが開始される。そして、PG20からの位相データを累算していくことにより固定とされているアドレス範囲の読み出しアドレスが、有声音フォルマントあるいは無声音フォルマントの中心周波数に応じたレートで変化するようADG21から順次出力される。これにより、波形データのサンプルが波形データ記憶部22から有声音フォルマントあるいは無声音フォルマントの中心周波数に応じたレートで順次読み出されるようになる。なお、WTボイス部10aにおいては、PG20からの位相データを累算した累算値が有声音ピッチ周期で予め定められている所定の値(定数値)に達するようになり、定数値に達した際に有声音ピッチ信号(パルス信号)が出力されるようになる。
【0019】
このようなADG21の詳細構成を図4に示す。図4においてPG20からの位相データは累算器(ACC:Accumulator)41に入力されて、クロック毎に累算されることにより読み出しアドレスの増分値が生成される。この読み出しアドレスの増分値は、セレクタ46を介して加算器47に供給され加算器47においてスタートアドレスが加算されて読み出しアドレスが生成され、ADG出力としてADG21から出力される。
ADG21において、HVMODE=0とされて楽音を発生する際の動作を説明する。HVMODE=0とされると、アンドゲートANDが閉じるためオアゲートORから出力されるキーオン信号(KeyOn)のみによって累算器41は初期値にリセットされ、PG20から供給される発生すべき楽音の音程に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値bはセレクタ46および減算器43に出力される。
【0020】
減算器43にデータaを供給するセレクタ42はHVMODE=0とされていることからエンドポイントEP(WT)をデータaとして選択し減算器43に出力する。これにより、減算器43で演算された減算値(a−b)が出力され、減算値(a−b)のMSBが除外された振幅値|a−b|が加算器45に供給される。また、減算値(a−b)が負となった際に“1”となるMSB(Most Significant Bit)信号が選択信号としてセレクタ46に供給されると共に、累算器41にロード信号として供給される。MSB信号は、減算値(a−b)が負になった際に“1”になることから、セレクタ46は累算値bがエンドポイントEP(WT)を超えるまでは累算値bを加算器47に出力する。加算器47に加算データを供給するセレクタ50は、HVMODE=0とされていることからスタートアドレスSA(WT)を選択して加算器47に出力する。これにより、スタートアドレスSA(WT)が加算された累算値bがADG出力として出力される。累算値bはクロック毎に位相データが累算されて、位相データのレートで変化することから、ADG出力である読み出しアドレスも位相データに応じて変化していくようになる。
【0021】
そして、累算値bがエンドポイントEP(WT)を超えた際にMSB信号は“1”に変化することから、セレクタ46は加算器45から出力されるデータcを出力するようになる。データcは、HVMODE=0とされていることからセレクタ44において選択されたループポイントLP(WT)に、加算器45において減算値(a−b)のMSBが除外された振幅値|a−b|が加算された演算値とされる。これにより、加算器47から出力されるADG出力は振幅値|a−b|で補正されたループポイントLP(WT)の読み出しアドレスとなる。また、MSB信号が“1”に変化することから累算器41にロード信号が供給されて、累算器41にデータcがロードされるようになる。すると、MSB信号が“0”に戻ることから累算器41から出力されるデータcがセレクタ46から出力されるようになる。そして、累算器41からはクロック毎に位相データがデータcに加算された累算値bが出力されることから、ADG出力はほぼループポイントLP(WT)の読み出しアドレスから位相データに応じたレートで変化していくようになる。
【0022】
この場合のADG出力をグラフで図示して説明すると、ADG出力は図5に示すようになる。すなわち、キーオン信号が印加されるとスタートアドレスSA(WT)が出力され、位相データに応じたレートで変化しながら読み出しアドレスが上昇していきスタートアドレスSA(WT)からエンドポイント(EP)分増分された際に、スタートアドレスSA(WT)にループポイント(LP)を加算した値に戻り、以降は、スタートアドレスSA(WT)にループポイント(LP)を加算した値からエンドポイント(EP)分増分されるまでの読み出しアドレスを繰り返し発生するようになる。この際の読み出しアドレスの変化は、位相データに応じたレートとなる。そして、キーオン信号により発音停止された際にADG出力は停止されるようになる。このADG出力である読み出しアドレスにより波形データ記憶部22から読み出された波形データは、位相データに応じた周波数となる。なお、スタートアドレスSA(WT)により波形データ記憶部22から読み出される波形データの種類を選択することができることから、例えば、WTボイス部10a〜10i毎にスタートアドレスSA(WT)を選択することにより、WTボイス部10a〜10i毎の音色を異ならせることができるようになる。
【0023】
次に、ADG21がWTボイス部10aのアドレス発生器であって、HVMODE=1およびU/V=0とされて有声音ピッチ信号を発生する際の動作を説明する。HVMODE=1およびU/V=0とされると、アンドゲートANDが開くが、WTボイス10aには有声音ピッチ信号が供給されていないため、オアゲートORからはキーオン信号のみが出力される。従って、累算器41はキーオン信号により初期値にリセットされ、PG20から供給される発生すべき有声音ピッチ信号に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値bはセレクタ46および減算器43に出力される。減算器43にデータaを供給するセレクタ42はHVMODE=1とされていることからあらかじめ定められている定数値をデータaとして選択し減算器43に出力する。これにより、減算器43で演算された減算値(a−b)が出力され、減算値(a−b)のMSBが除外された振幅値|a−b|が加算器45に供給される。
【0024】
また、減算値(a−b)のMSB信号が選択信号としてセレクタ46に供給されると共に、累算器41にロード信号として供給される。MSB信号は、減算値(a−b)が負の値になった際、すなわち累算値が定数値に達した際に“1”になり、累算器41にロード信号として供給されて、累算器41にデータcがロードされるようになる。データcは、HVMODE=1とされていることからセレクタ44において選択された“0”に、加算器45において減算値(a−b)のMSBが除外された振幅値|a−b|が加算された演算値とされる。累算器41が次のクロックでデータcに位相データを加算すると、MSB信号は“0”になる。このようにして、MSB信号はPG20から供給された有声音ピッチパラメータに基づく位相データに応じた周期、すなわち有声音ピッチの周期で発生されるようになる。そこで、HVMODE=1およびU/V=0が供給されたWTボイス10aでは、このMSB信号を有声音ピッチ信号として出力している。有声音ピッチ信号をグラフで図示すると図7に示すように有声音ピッチの周期を有するパルス信号となる。この場合において、WTボイス部10aからはADG出力も出力されるが、このADG出力は読み出しアドレスとして使用しない。
【0025】
次に、ADG21において、HVMODE=1およびU/V=0とされて有声音フォルマントを発生する際の動作を説明する。HVMODE=1およびU/V=0とされると、ゲートNOTの作用によりアンドゲートANDが開くためオアゲートORから出力される有声音ピッチ信号およびキーオン信号によって累算器41は初期値にリセットされ、PG20から供給される発生すべき有声音フォルマントの中心周波数に応じた位相データの累算を開始する。アンドゲートANDには、WTボイス部10aから出力される図7に示す有声音ピッチ信号が供給されている。累算器41の累算はクロック毎に行われ、その累算値bはセレクタ46および減算器43に出力される。減算器43にデータaを供給するセレクタ42はHVMODE=1とされていることから、あらかじめ定められている定数値をデータaとして選択し減算器43に出力する。定数値とするのはフォルマントを形成する波形データのデータ量が固定値とされているからである。そして、減算器43で演算された減算値(a−b)が出力され、減算値(a−b)のMSBが除外された振幅値|a−b|が加算器45に供給される。
【0026】
また、減算値(a−b)のMSB信号が選択信号としてセレクタ46に供給されると共に、累算器41にロード信号として供給される。MSB信号は、減算値(a−b)が負の値になった際に“1”になることから、セレクタ46は累算値bが定数値を超えるまでは累算値bを加算器47に出力する。加算器47に加算データを供給するセレクタ50は、HVMODE=1とされていることからセレクタ49の出力を選択して加算器47に出力する。また、セレクタ49はU/V=0とされていることから、スタートアドレス発生器48から出力される有声音フォルマントを形成する選択された波形データのスタートアドレスSA(WS)をセレクタ49に出力している。さらに、スタートアドレス発生器48は、有声音フォルマントを形成するに適した波形を選択するよう入力されている波形選択(WS)信号に応じて波形データを選択するよう波形データ記憶部22上のスタートアドレスSAを出力している。これにより、加算器47においてスタートアドレスSA(WS)に累算値bが加算され、ADG出力として出力される。累算値bはクロック毎に位相データが累算されて位相データに応じたレートで変化していくことから、ADG出力である有声音フォルマントを形成する波形データを読み出す読み出しアドレスも位相データに応じたレートで変化していくようになる。
【0027】
そして、累算が進んで累算値が定数値に達すると、減算値(a−b)が負の値となってMSB信号が“1”になり、セレクタ46に供給される。すると、セレクタ46からデータcが出力されるようになるが、データcは、HVMODE=1とされていることからセレクタ44において選択された“0”に、加算器45において減算値(a−b)のMSBが除外された振幅値|a−b|が加算された演算値とされる。これにより、加算器47から出力されるADG出力は振幅値|a−b|の読み出しアドレスとなる。また、MSB信号は累算器41にロード信号として供給されて、累算器41にデータcがロードされるようになる。そして、次のクロックで位相データがデータcに加算されると、MSB信号が“0”に戻ることから累算器41から出力されるデータbがセレクタ46から出力されるようになる。累算器41における位相データの累算はクロック毎に行われ、ADG出力はスタートアドレスSA(WS)から位相データに応じたレートで変化していき、定数値分だけ増分した際に再びスタートアドレスSA(WS)に戻ることから、ADG出力はスタートアドレスSA(WS)から定数値分増分されるまでの読み出しアドレスを繰り返すようになる。この場合の位相データは有声音フォルマントの中心周波数に基づいていることから、読み出しアドレスは有声音フォルマントの中心周波数に応じたレートで変化するようになる。さらに、累算器41はWTボイス部10aから出力される有声音ピッチ信号により初期値にリセットされることから、ADG出力は有声音ピッチの周期毎にリセットされ、ADG信号を読み出しアドレスとして波形データ記憶部22から読み出した波形データにより形成される所定の中心周波数を有する有声音フォルマントに、ピッチ感を有させることができるようになる。
【0028】
この場合のADG出力をグラフで図示すると、図6に示すようになる。すなわち、キーオン信号が印加されると有声音フォルマントを形成させる波形データを選択するWS信号に対応したスタートアドレスSA(WS)が出力される。そして、累算器41の作用により有声音フォルマントの中心周波数に応じたレートで変化する読み出しアドレスが上昇していきスタートアドレスSA(WS)が定数値分増分された際に、スタートアドレスSA(WS)に戻り、以降は、スタートアドレスSA(WS)から定数値分増分した値までの読み出しアドレスを繰り返し発生するようになる。このADG出力により、波形データ記憶部22から選択された波形データを読み出すと、読み出された波形データにより所定の中心周波数の有声音フォルマントが形成されるようになる。そして、キーオン信号により発音停止された際にADG出力は停止されるようになる。なお、スタートアドレスSA(WS)すなわちWS(有声音フォルマント)信号により波形データ記憶部22から読み出される波形データの種類を選択することができ、これにより形成される有声音フォルマントのフォルマントを変化させることができる。また、図6では、累算器41がWTボイス部10aから出力される有声音ピッチ信号により初期値にリセットされることは図示していない。
【0029】
次に、ADG21において、HVMODE=1およびU/V=1とされて無声音フォルマントを発生する際の動作を説明する。HVMODE=1およびU/V=1とされると、アンドゲートANDがゲートNOTの作用により閉じるためオアゲートORから出力されるキーオン信号によってのみ累算器41は初期値にリセットされ、PG20から供給される発生すべき無声音フォルマントの中心周波数に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値bはセレクタ46および減算器43に出力される。減算器43にデータaを供給するセレクタ42はHVMODE=1とされていることからあらかじめ定められている定数値をデータaとして選択し減算器43に出力する。定数値とするのはフォルマントを形成する波形データのデータ量が固定値とされているからである。そして、減算器43で演算された減算値(a−b)が出力され、減算値(a−b)のMSBが除外された振幅値|a−b|が加算器45に供給される。
【0030】
また、減算値(a−b)のMSB信号が選択信号としてセレクタ46に供給されると共に、累算器41にロード信号として供給される。MSB信号は、減算値(a−b)が負の値になった際に“1”になることから、セレクタ46は累算値bが定数値を超えるまでは累算値bを加算器47に出力する。加算器47に加算データを供給するセレクタ50は、HVMODE=1とされていることからセレクタ49の出力を選択して加算器47に出力する。また、セレクタ49はU/V=1とされていることから、サイン波の波形データのスタートアドレスSA(サイン)をセレクタ49に出力している。これは、サイン波が無声音フォルマントを形成するのに適しているからである。これにより、加算器47においてスタートアドレスSA(サイン)に累算値bが加算され、ADG出力として出力される。累算値bはクロック毎に位相データが累算されて無声音フォルマントの中心周波数に応じたレートで変化していくことから、ADG出力である無声音フォルマントを形成する波形データを読み出す読み出しアドレスも無声音フォルマントの中心周波数に応じたレートで変化していくようになる。
【0031】
そして、累算値bが定数値を超えた際にMSB信号は“1”に変化することから、セレクタ46は加算器45から出力されるデータcを出力するようになる。データcは、HVMODE=1とされていることからセレクタ44において選択された“0”に、加算器45において減算値(a−b)のMSBが除外された振幅値|a−b|が加算された演算値とされる。これにより、加算器47から出力されるADG出力は振幅値|a−b|の読み出しアドレスとなる。また、MSB信号は累算器41にロード信号として供給されて、累算器41にデータcがロードされるようになる。そして、次のクロックで位相データがデータcに加算されると、MSB信号が“0”に戻ることから累算器41から出力されるデータbがセレクタ46から出力されるようになる。累算器41における位相データの累算は、クロック毎に行われADG出力はスタートアドレスSA(サイン)から位相データに応じたレートで変化していき、定数値分だけ増分した際に再びスタートアドレスSA(サイン)に戻ることから、ADG出力はスタートアドレスSA(サイン)から定数値分増分されるまでの読み出しアドレスを繰り返すようになる。この場合の位相データは無声音フォルマントの中心周波数に基づいていることから、読み出しアドレスは無声音フォルマントの中心周波数に応じたレートで変化するようになる。このADG信号を読み出しアドレスとして波形データ記憶部22から読み出した波形データにより、所定の中心周波数を有する無声音フォルマントが形成される。
【0032】
この場合のADG出力をグラフで図示すると、図8に示すようになる。すなわち、キーオン信号が印加されると無声音フォルマントを形成させるサイン波の波形データのスタートアドレスSA(サイン)が出力され、累算器41の作用により無声音フォルマントの中心周波数に応じたレートで変化する読み出しアドレスが上昇していきスタートアドレスSA(サイン)が定数値分増分された際に、スタートアドレスSA(サイン)に戻り、以降は、スタートアドレスSA(サイン)から定数値分増分した値までの読み出しアドレスを繰り返し発生するようになる。このADG出力により、波形データ記憶部22からサイン波の波形データを読み出すと、読み出された波形データにより所定の中心周波数の無声音フォルマントが形成されるようになる。そして、キーオン信号により発音停止された際にADG出力は停止されるようになる。
【0033】
ここで、波形データ記憶部22に記憶されている有声音フォルマントあるいは無声音フォルマントを形成するための複数種類の波形データの波形形状の一例を図14に示す。
図14では、波形データ記憶部22に32種類の波形形状の波形データが記憶されている例が示されており、WS(有声音フォルマント)信号として“0”をセットすると、0番のサイン波が読み出されるようになり、例えばWS(有声音フォルマント)信号として“16”をセットすると、16番の三角波が読み出されるようになる。また、スタートアドレスSA(サイン)は0番のサイン波の波形データ記憶部22上のスタートアドレスとされている。これらの32種類の波形データのデータ量は固定とされており、このデータ量に前記した定数値が対応している。従って、ADG21から出力されるADG出力により32種類の波形データのいずれかを読み出すと、選択された波形形状の波形データが発音停止されるまで繰り返し読み出されるようになる。
【0034】
図2に戻り波形データ記憶部22から読み出された波形データは乗算器23に供給され、エンベロープ発生器(EG)24により発生されたエンベロープ信号が乗算される。EG24には、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報と、楽音パラメータとしてアタックレートAR(WT)、ディケイレートDR(WT)、サスティンレートSR(WT)、リリースレートRR(WT)、サスティンレベルSL(WT)が供給され、さらに、楽音および音声に共通の発音開始を指示するキーオン(KeyOn)信号が供給されている。
【0035】
このようなエンベロープ発生器(EG)24の詳細構成を示すブロック図を図9に示す。
楽音を発生する場合には図9に示すEG24において、HVMODE=0としてセレクタ60においてアタックレートAR(WT)を選択してセレクタ61へ出力し、セレクタ63においてディケイレートDR(WT)を選択してセレクタ61へ出力し、セレクタ64においてリリースレートRR(WT)を選択してセレクタ61へ出力する。さらに、セレクタ61にはサスティンレートSR(WT)が入力されている。セレクタ61は、ステート制御部66により制御されてアタック、ディケイ、サスティン、リリースの各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部66には、キーオン信号、音声モードフラグ(HVMODE)が供給されると共に、サスティンレベルSL(WT)信号が入力されている。また、WTボイス部10aから出力される有声音ピッチ信号、無声音/有声音指示フラグ(U/V)も供給されているが、これらは使用されない。セレクタ61からステートに応じて出力されるエンベロープパラメータは累算器(ACC)65により累算されてエンベロープが生成されてEG出力として出力されると共に、ステート制御部66に供給される。ステート制御部66は、EG出力のレベルからステートを判断することができる。累算器65ではキーオン信号の開始タイミングで累算をスタートする。
【0036】
この場合のEG出力をグラフで図示すると、図10に示すようになる。すなわち、ステート制御部66および累算器65に供給されているキーオン信号が立ち上がると、ステート制御部66は発音開始と判断してセレクタ61から発音開始時のステートであるアタック用のアタックレートAR(WT)のパラメータを出力させる。このアタックレートAR(WT)のパラメータは、累算器65においてクロック毎に累算されEG出力は図10に示すARのように急速に上昇していく。そして、EG出力のレベルが例えば0dBに達すると、ステート制御部66はステートがディケイに移行したと判断してセレクタ61からディケイレートDR(WT)のパラメータを出力させる。このディケイレートDR(WT)のパラメータは、累算器65においてクロック毎に累算されEG出力は図10に示すDRのように急速に下降していく。
【0037】
EG出力が下降していき、EG出力のレベルがサスティンレベルSL(WT)に達すると、ステート制御部66はそのことを検出してステートがサスティンに移行したと判断し、セレクタ61からサスティンレートSR(WT)のパラメータを出力させる。出力されたサスティンレートSR(WT)のパラメータは、累算器65においてクロック毎に累算されEG出力は図10に示すSRのように緩やかな傾斜で下降していく。ステート制御部66は、キーオン信号が立ち下がるまではサスティンを継続させ、ここで、キーオン信号が立ち下がりステート制御部66が発音停止と判断すると、セレクタ61からリリースレートRR(WT)のパラメータを出力させる。出力されたリリースレートRR(WT)のパラメータは、累算器65においてクロック毎に累算されEG出力は図10に示すRRのように急速に傾斜で下降していき発音が停止されるようになる。
【0038】
次に、音声における有声音フォルマントを発生する場合には図9に示すEG24において、HVMODE=1およびU/V=0としてセレクタ60において初期ステート用の急速立ち上げレートを選択してセレクタ61へ出力し、セレクタ62でU/V=0に応じて選択された中間ステート用の定数値をセレクタ63において選択してセレクタ61へ出力し、セレクタ64において終了ステート用の急速減衰レートを選択してセレクタ61へ出力する。さらに、セレクタ61にはサスティンレートSR(WT)が入力されているが、このパラメータは使用されない。セレクタ61は、ステート制御部66により制御されて初期、中間、終了の各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部66には、キーオン信号、WTボイス部10aから出力される有声音ピッチ信号、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報が供給されている。また、サスティンレベルSL(WT)信号が供給されているが、この場合は使用されない。セレクタ61からステートに応じて出力されるエンベロープパラメータは累算器(ACC)65によりクロック毎に累算されてエンベロープが生成されてEG出力として出力されると共に、ステート制御部66に供給される。ステート制御部66は、EG出力のレベルからステートを判断することができる。累算器65ではキーオン信号の開始タイミングで累算をスタートする。
【0039】
この場合のEG出力をグラフで図示すると、図11に示すようになる。すなわち、ステート制御部66および累算器65に供給されているキーオン信号が立ち上がると、ステート制御部66は発音開始と判断してセレクタ61から初期ステート用の急速立ち上げレートのパラメータを出力させる。この急速立ち上げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は図11に示すように急激に上昇していく。そして、EG出力のレベルが所定レベルに達すると、ステート制御部66は中間ステートに移行したと判断してセレクタ61から中間ステート用の定数値のパラメータを出力させる。この定数値のパラメータは、累算器65においてクロック毎に累算されEG出力は図11に示すように緩やかに下降していく。
【0040】
ここで、ステート制御部66に図7に示す有声音ピッチ信号が入力されると、ステート制御部66はセレクタ61を制御して急速立ち下げレートのパラメータを選択して累算器65に出力する。この急速立ち下げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は図11に示すように急激に下降していく。そして、EG出力のレベルが所定の最低レベルに達すると、ステート制御部66はセレクタ61を制御して急速立ち下げレートのパラメータを再び選択して累算器65に出力する。この急速立ち上げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は図11に示すように急激に上昇していく。そして、EG出力のレベルが所定レベルに達すると、ステート制御部66は中間ステートに移行したと判断してセレクタ61から中間ステート用の定数値のパラメータを出力させる。以下、同様の動作が繰り返し行われる。このように、有声音ピッチの周期を有するエンベロープとされるため、このエンベロープが乗算器23で乗算された波形データにピッチ感を与えることができるようになる。
【0041】
また、キーオン信号が立ち下がりステート制御部66が発音停止と判断すると、ステート制御部66はセレクタ61を制御して急速立ち下げレートのパラメータを選択して累算器65に出力する。この急速立ち下げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は急激に下降していき発音が停止されるようになる。
【0042】
次に、音声における無声音フォルマントを発生する場合には図9に示すEG24において、HVMODE=1およびU/V=1としてセレクタ60において初期ステート用の急速立ち上げレートを選択してセレクタ61へ出力し、セレクタ62でU/V=1に応じて選択された中間ステート用の“0”をセレクタ63において選択してセレクタ61へ出力し、セレクタ64において終了ステート用の急速減衰レートを選択してセレクタ61へ出力する。さらに、セレクタ61にはサスティンレートSR(WT)が入力されているが、このパラメータは使用されない。セレクタ61は、ステート制御部66により制御されて初期、中間、終了の各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部66には、キーオン信号、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報が供給されている。また、WTボイス部10aから出力される有声音ピッチ信号およびサスティンレベルSL(WT)信号が供給されているが、この場合は使用されない。セレクタ61からステートに応じて出力されるエンベロープパラメータは累算器(ACC)65により累算されてエンベロープが生成されてEG出力として出力されると共に、ステート制御部66に供給される。ステート制御部66は、EG出力のレベルからステートを判断することができる。累算器65ではキーオン信号の開始タイミングで累算をスタートする。
【0043】
この場合のEG出力をグラフで図示すると、図12に示すようになる。すなわち、ステート制御部66および累算器65に供給されているキーオン信号が立ち上がると、ステート制御部66は発音開始と判断してセレクタ61から初期ステート用の急速立ち上げレートのパラメータを出力させる。この急速立ち上げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は図12に示すように急激に上昇していく。そして、EG出力のレベルが所定レベルに達すると、ステート制御部66は中間ステートに移行したと判断してセレクタ61から中間ステート用の“0”のパラメータを出力させる。これにより、累算器65から出力されるEG出力は図12に示すように、その値を維持するようになる。ここで、キーオン信号が立ち下がりステート制御部66が発音停止と判断すると、ステート制御部66はセレクタ61を制御して急速立ち下げレートのパラメータを選択して累算器65に出力する。この急速立ち下げレートのパラメータは、累算器65においてクロック毎に累算されEG出力は図12に示すように急激に下降していき発音が停止されるようになる。
なお、図10ないし図12に示すEG出力では直線的に変化しているエンベロープを形成するようにしたが、曲線的に変化するエンベロープを発生するようにしてもよい。また、EG24の出力を波形データに乗算する乗算器23は後述する加算器25の後段に配置してもよい。
【0044】
図2に戻り乗算器23においてエンベロープが乗算された波形データは、加算器25に供給されてノイズ発生部26により発生されたノイズが加算される。ノイズは、例えばホワイトノイズとされる。この場合、ノイズ発生部26には音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報が供給されており、HVMODE=1およびU/V=1とされて無声音フォルマントを発生する際にのみノイズを発生するようにしている。従って、加算器25においては無声音フォルマントを形成するエンベロープが乗算された波形データにのみノイズが加算されて出力されるようになる。
【0045】
ここで、ノイズ発生部26の詳細構成を図13に示す。図13に示すように、ノイズ発生部26におけるホワイトノイズ発生器70から発生されたホワイトノイズは、4段のローパスフィルタ(LPF1,LPF2,LPF3,LPF4)71,72,73,74により帯域制限される。そして、ローパスフィルタ74の出力は乗算器75においてノイズのレベルが調整され、セレクタ76に入力される。セレクタ76はアンドゲート(AND)77の出力により選択されており、アンドゲート77はHVMODE=1およびU/V=1とされて無声音フォルマントを発生する際にセレクタ76において乗算器75から出力されるノイズを出力している。また、HVMODE=1およびU/V=1のいずれかが“0”とされて楽音あるいは有声音フォルマントを発生する際には、アンドゲート77の出力によりセレクタ76からはノイズに代えて“0”が出力される。これにより、加算器25においては無声音フォルマントを形成するエンベロープが乗算された波形データにのみノイズが加算されて出力されるようになる。
【0046】
ローパスフィルタ71〜74は同様の構成とされており、代表としてローパスフィルタ71の構成が図13に示されている。ローパスフィルタ71において、ホワイトノイズ発生器70から入力されたホワイトノイズは、遅延回路70aにより1サンプル時間遅延され係数乗算器70bにおいて所定の係数が乗算され加算器70dに入力される。また、入力されたホワイトノイズは係数乗算器70cにおいて所定の係数が乗算され加算器70dに入力されて、係数乗算器70bの出力に加算される。加算器70dの出力がローパスフィルタ出力となる。このような構成の、例えば4段のローパスフィルタ71〜74によりホワイトノイズの帯域制限を行うことにより、音声における耳につく感じを抑制することができるようになる。なお、乗算器75におけるノイズレベルのレベル調整は必ずしも必要なものではなく、省略するようにしてもよい。
【0047】
図2に戻り加算器25から出力された波形データは、乗算器27に供給されて出力レベルが調整される。乗算器27には、音声モードフラグ(HVMODE)、無声音/有声音指示フラグ(U/V)のフラグ情報と、楽音の出力レベルを示すレベル(WT)、有声音フォルマントの出力レベルを示すレベル(有声音フォルマント)、無声音フォルマントの出力レベルを示すレベル(無声音フォルマント)が供給されている。そして、HVMODE=0とされて楽音を発生する場合には、乗算器27においてレベル(WT)が乗算されて楽音の波形データの出力レベルが調整される。また、HVMODE=1、U/V=0とされて有声音フォルマントを発生する場合には、乗算器27においてレベル(有声音フォルマント)が乗算されて有声音フォルマントを形成する波形データの出力レベルが調整される。これにより、有声音フォルマントのレベルが所定のレベルとなる。さらに、HVMODE=1、U/V=1とされて無声音フォルマントを発生する場合には、乗算器27においてレベル(無声音フォルマント)が乗算されて無声音フォルマントを形成する波形データの出力レベルが調整される。これにより、無声音フォルマントのレベルが所定のレベルとなる。
【0048】
以上の説明では、本発明にかかる音源装置と兼用される音声合成装置は9つの波形データ記憶部を有するWTボイス部から構成したが、これに限るものではなく9未満でも9を超えるWTボイス部としてもよい。9を超えるWTボイス部とすると、楽音の同時発音数を増加させることができると共に、合成するフォルマント数を増加することができ種々の音声を合成することができる。
また、本発明にかかる音源装置と兼用される音声合成装置は、音声モードフラグ(HVMODE)で楽音を指定した場合には、複数のWTボイス部は楽音形成部として機能し、音声モードフラグ(HVMODE)で音声を指定した場合には、複数のWTボイス部はフォルマント形成部として機能するようになる。また、音声モードフラグ(HVMODE)を音声に固定することにより、専用の音声合成装置として使用することができる。
【0049】
【発明の効果】
本発明は以上説明したように、複数の波形テーブルボイス部である複数のフォルマント形成部により所望のフォルマント中心周波数および所望のフォルマントレベルをそれぞれ有するフォルマントを形成し、形成された複数のフォルマントを合成することにより音声を合成している。そして、フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与するようにしている。これにより、フォルマントにピッチ感を有させることができ、高品位のリアリティのある音声を合成することができるようになる。また、有声音フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与することにより、有声音フォルマントにピッチ感を有させることができる。
【0050】
また、複数の波形テーブルボイス部から楽音パラメータに基づいて出力される波形データを、ミキシングすることにより複数の楽音を発生することができ、複数の波形テーブルボイス部から音声パラメータに基づいて出力される有声音フォルマントあるいは無声音フォルマントを形成する波形データを合成することにより音声を合成することができる。このように、複数の波形テーブルボイス部を楽音発生と音声合成とで兼用することができるため、本発明の音声合成装置は音源装置と兼用することができるようになる。
【図面の簡単な説明】
【図1】 本発明の実施の形態の音源装置と兼用される音声合成装置の構成を示すブロック図である。
【図2】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるWTボイス部の概略構成を示すブロック図である。
【図3】 本発明の実施の形態の音源装置と兼用される音声合成装置における位相データ発生器の詳細構成を示すブロック図である。
【図4】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器の詳細構成を示すブロック図である。
【図5】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のADG出力の一例を示すグラフである。
【図6】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のADG出力の他の例を示すグラフである。
【図7】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器の有声音ピッチ信号の波形を示す図である。
【図8】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のADG出力のさらに他の例を示すグラフである。
【図9】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器の詳細構成を示すブロック図である。
【図10】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のEG出力の一例を示すグラフである。
【図11】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のEG出力の他の例を示すグラフである。
【図12】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のEG出力のさらに他の例を示すグラフである。
【図13】 本発明の実施の形態の音源装置と兼用される音声合成装置におけるノイズ発生部の詳細構成を示すブロック図である。
【図14】 本発明の実施の形態の音源装置と兼用される音声合成装置における波形データ記憶部に記憶されている有声音フォルマントあるいは無声音フォルマントを形成するための複数種類の波形データの波形形状の一例を示す図である。
【符号の説明】
1 音声合成装置、10 WTボイス部、10a,10b,10c,10d,10e,10f,10g,10h,10i WTボイス部、11 ミキシング手段、20 位相データ発生器、21 アドレス発生器、22 波形データ記憶部、23 乗算器、25 加算器、26 ノイズ発生部、27 乗算器、30 セレクタ、31 セレクタ、32 セレクタ、33 セレクタ、34 シフター、41 累算器、42 セレクタ、43 減算器、44 セレクタ、45 加算器、46 セレクタ、47 加算器、48 スタートアドレス発生器、49 セレクタ、50 セレクタ、60 セレクタ、61 セレクタ、62 セレクタ、63セレクタ、64 セレクタ、65 累算器、66 ステート制御部、70 ホワイトノイズ発生器、70a 遅延回路、70b 係数乗算器、70c 係数乗算器、70d 加算器、71,72,73,74 ローパスフィルタ、75 乗算器、76 セレクタ、77 アンドゲート、AR アタックレート、BLOCK オクターブ情報、DR ディケイレート、EP エンドポイント、FNUM周波数情報、LP ループポイント、RR リリースレート、SA スタートアドレス、SL サスティンレベル、SR サスティンレート
[0001]
[Technical field to which the invention belongs]
The present invention relates to a speech synthesizer capable of synthesizing speech by synthesizing a plurality of formants.
[0002]
[Prior art]
An example of a conventional speech synthesizer is based on the principle that speech is expressed as a sum of several sine waves with a short duration of several ms to several tens of ms regarded as steady. Then, the voiced sound is formed by resetting the phase of the sine wave generator that generates the sine wave at the pitch period, and the spectrum is broadened to form the unvoiced sound by randomizing the phase initialization timing of the sine wave generator. A speech synthesizer is known (for example, see Patent Document 1).
[0003]
[Patent Document 1]
Japanese Examined Patent Publication No. 58-53351
[0004]
[Problems to be solved by the invention]
However, there is a problem that the quality of speech that can be synthesized by a conventional speech synthesizer is low and there is no reality.
Therefore, an object of the present invention is to provide a speech synthesizer that can synthesize high-quality speech.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the speech synthesizer of the present invention provides: The desired pitch period, A speech synthesizer comprising a plurality of formant forming portions each forming a formant having a desired formant center frequency and a desired formant level, and synthesizing speech by synthesizing a plurality of formants formed by the plurality of formant forming portions. Each of the plurality of formant forming units stores waveform shape designating means for designating a desired waveform shape from a plurality of types of waveform shapes, and a plurality of waveform data corresponding to the plurality of types of waveform shapes. Waveform data storage means for generating waveform data corresponding to the waveform shape designated by the waveform shape designation means by generating an address changing at a rate corresponding to the formant center frequency, and reading out the waveform data from the waveform data storage means Read means and corresponding to the pitch period Repeat with period Envelope providing means for forming an envelope signal and applying the formed envelope signal to the waveform data read from the waveform data storage means by the waveform data reading means.
[0006]
In the speech synthesizer of the present invention, a voiced sound may be synthesized by synthesizing a plurality of formants formed by the plurality of formant forming units.
[0007]
According to the present invention, a formant having a desired formant center frequency and a desired formant level is formed by a plurality of formant forming units, and a plurality of formed formants are synthesized to synthesize speech. . An envelope signal having a pitch period is added to the waveform data forming the formant. As a result, the formant can have a pitch feeling, and a high-quality reality voice can be synthesized. Further, by adding an envelope signal having a pitch period to the waveform data forming the voiced sound formant, the voiced sound formant can have a pitch feeling.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a block diagram showing a configuration of a speech synthesizer that is also used as a sound source device according to an embodiment of the present invention.
The speech synthesizer 1 shown in FIG. 1 includes nine waveform tables each including at least a waveform data storage unit that stores waveform data of a plurality of types of waveform shapes, and a reading unit that reads predetermined waveform data from the waveform data storage unit. Voice (WT voice) sections 10a, 10b, 10c, 10d, 10e, 10f, 10g, 10h, 10i and a mixing means 11 for mixing the waveform data output from the WT voice sections 10a to 10i. The generated musical sound or synthesized voice is output from. In this case, musical tone parameters and voice parameters are supplied to the WT voice units 10a to 10i as various parameters, and a voice mode flag (HVMODE) for instructing generation of musical sounds / voices instructs generation of musical sounds (HVMODE = 0). If so, the musical tone parameter is selected and used by the WT voice units 10a to 10i. Then, waveform data of a plurality of musical sounds generated from the WT voice units 10a to 10i based on the selected musical sound parameter is output, and musical sounds consisting of a maximum of nine sounds are output from the mixing means 11.
[0009]
When the voice mode flag (HVMODE) for instructing the generation of musical sounds / voices indicates the generation of voice (HVMODE = 1), the voice parameters are selected and used by the WT voice units 10a to 10i. Then, waveform data that forms a voiced sound pitch signal, voiced sound formant, or unvoiced sound formant is output from the WT voice units 10a to 10i based on the selected voice parameter, and waveform data that forms a voiced sound formant and an unvoiced sound formant. Are mixed by the mixing means 11 to output one sound. In addition, HV of HVMODE is an abbreviation for Human Voice. U / V is an unvoiced sound / voiced sound instruction flag. When HVMODE = 1 and U / V = 0 are supplied, the WT voice units 10b to 10i send voiced sounds. Waveform data forming a formant is output. The WT voice unit 10a to which HVMODE = 1 and U / V = 0 is supplied outputs a voiced sound pitch signal having a pitch period of voiced sound, and waveform data is not used. The voiced sound pitch signal output from the WT voice unit 10a is supplied to the WT voice units 10b to 10i, and the phase of the waveform data forming the voiced sound formant is reset every period of the voiced sound pitch signal. . The envelope shape of the voiced sound formant corresponds to the cycle of the voiced sound pitch signal. Thereby, the voiced sound formant can have a pitch feeling.
[0010]
When HVMODE = 1 and U / V = 1 are supplied to the WT voice units 10b to 10i, waveform data that forms an unvoiced sound formant is output from the WT voice units 10b to 10i. Further, the output from the WT voice unit 10a to which HVMODE = 1 and U / V = 1 are supplied is not used. As described above, when HVMODE = 1, the WT voice units 10b to 10i can output up to eight formants of voiced formants or unvoiced sound formants.
[0011]
Here, when explaining the voice, the origin of the voice is the vibration of the vocal cords, but the vibration of the vocal cords hardly changes even if different words are pronounced. Resonances and resonances caused by how the mouth is opened and the shape of the throat, and the accompanying frictional and plosive sounds are added to the vibration of the vocal cords to create a variety of sounds. In such speech, there are a plurality of portions called formants where the spectrum is concentrated in a specific frequency region on the frequency axis. The center frequency of the formant or the frequency with the maximum amplitude is the formant center frequency. The number of formants contained in the speech, the center frequency, amplitude, bandwidth, etc. of each formant are factors that determine the nature of the speech and vary greatly depending on the gender, physique, age, etc. of the person making the speech. Also, in the speech, a characteristic formant combination is determined for each type of word to be pronounced, and the formant combination does not relate to voice quality. The types of formants can be broadly divided into voiced formants with a pitch feeling for synthesizing voiced sounds and unvoiced sound formants with no pitch feeling for synthesizing unvoiced sounds. A voiced sound is a voice whose vocal cords vibrate when it is pronounced. The voiced sound includes vowels and semi-vowels, and voiced consonants used in the B, GA, MA, and LA lines. . An unvoiced sound is a sound in which the vocal cords do not vibrate when it is pronounced, and consonants such as crawling, power running, and sacrament correspond to unvoiced sounds.
[0012]
In the speech synthesizer 1 that is also used as the tone generator according to the present invention having the configuration shown in FIG. 1, when generating a musical sound, it is assumed that a plurality of musical sounds are generated in each of the WT voice units 10a to 10i with HVMODE = 0. I have to. That is, it is possible to generate a musical tone consisting of a maximum of 9 sounds.
When synthesizing speech, the WT voice units 10b to 10i form voiced sound formants or unvoiced sound formants corresponding to voiced or unvoiced sounds synthesized with HVMODE = 1. In this case, the synthesized voice is a combination of up to eight formants. For example, when the synthesized voice is a voiced sound, U / V = 0 is supplied to the WT voice units 10b to 10i, and the voiced formants based on the supplied voice parameters are respectively transmitted by the WT voice units 10b to 10i. It is formed. At this time, U / V = 0 is supplied to the WT voice unit 10a, and the WT voice unit 10a generates a voiced pitch signal based on the supplied voice parameter. The voiced sound pitch signal is supplied to the WT voice units 10b to 10i, and the phase of the waveform data forming the voiced sound formant is reset every period of the voiced sound pitch signal. The envelope shape of the voiced sound formant corresponds to the cycle of the voiced sound pitch signal. As a result, a voiced sound formant having a pitch feeling is formed by the WT voice units 10b to 10i.
[0013]
When the synthesized voice is an unvoiced sound, HVMODE = 1 and U / V = 1 are supplied to the WT voice units 10b to 10i, and unvoiced sound formants based on the supplied voice parameters are respectively set to the WT voice units 10b to 10b. 10i. As will be described later, an unvoiced sound is an unvoiced sound formant to which noise is added. As a result, it is possible to synthesize high-quality realistic speech. Note that when synthesizing an unvoiced sound, the output of the WT voice 10a is not used.
[0014]
The WT voice units 10a to 10i in the speech synthesizer 1 have the same configuration, and the configuration of the WT voice unit 10 will be described below. FIG. 2 is a block diagram showing a schematic configuration of the WT voice unit 10. In FIG. 2 and subsequent figures, the notations (WT), (voiced sound formant), and (unvoiced sound formant) indicate that the parameters are parameters for generating a musical sound, a voiced sound formant, and an unvoiced sound formant, respectively. Yes.
In FIG. 2, a phase data generator (PG) 20 generates phase data corresponding to one of the pitch of a musical sound to be generated or a voiced sound pitch signal, a voiced formant center frequency, and an unvoiced sound formant center frequency. ing. The PG 20 is supplied with voice mode flag (HVMODE), unvoiced / voiced instruction flag (U / V) flag information, musical tone octave information BLOCK (WT), and musical frequency information FNUM (WT). ing. Further, as voice parameters, octave information BLOCK (voiced sound pitch) of voiced sound pitch signal, frequency information FNUM (voiced sound pitch) of voiced sound pitch signal, or octave information BLOCK (voiced sound formant) of voiced sound formant, Parameters of voice formant frequency information FNUM (voiced sound formant), unvoiced sound formant octave information BLOCK (unvoiced sound formant), and unvoiced sound formant frequency information FNUM (unvoiced sound formant) are supplied. In the PG 20, various supplied parameters are selected by flag information and correspond to any one of the pitch of a musical tone to be generated based on the selected parameter or a voiced pitch signal, a voiced formant center frequency, and an unvoiced sound formant center frequency. Phase data is generated.
[0015]
The detailed structure of PG20 is shown in FIG. In FIG. 3, the selector 30 selects either the voiced pitch signal or the frequency information FNUM of the voiced formant and the frequency information FNUM of the unvoiced formant according to the state of the U / V flag and outputs the selected information to the selector 31. . In the selector 31, either the musical tone frequency information FNUM (WT) or the audio-related frequency information FNUM output from the selector 30 is selected according to the state of the HVMODE flag and output to the shifter 34. The output frequency information FNUM is set in the shifter 34. Also, the selector 32 selects either the voiced pitch signal or the octave information BLOCK of the voiced formant and the octave information BLOCK of the unvoiced formant according to the state of the U / V flag, and outputs it to the selector 33. In the selector 33, either the octave information BLOCK (WT) of the musical tone or the voice-related octave information BLOCK output from the selector 32 is selected according to the state of the HVMODE flag, and is output as shift information to the shifter 34. The frequency information FNUM set in the shifter 34 is shifted according to the octave information BLOCK. As a result, phase data in which an octave is added to generate any one of the pitch of the musical sound to be generated, the voiced sound pitch signal, the center frequency of the voiced formant, and the center frequency of the unvoiced sound formant is output from the PG 20 as a PG output. The
[0016]
Returning to FIG. 2, the PG output from the PG 20 is input to an address generator (ADG: Address Generator) 21, and the desired phase data is output from the waveform data storage unit (WAVE TABLE) 22 by accumulating the phase data. A read address for reading the waveform data of the waveform shape is generated. The ADG 21 includes a voice mode flag (HVMODE), unvoiced / voiced sound instruction flag (U / V) flag information, a start address SA (WT), a loop point LP (WT), and an end point EP (WT) as musical sound parameters. Furthermore, a waveform selection (WS) signal for selecting a waveform suitable for forming a voiced sound formant and a key-on signal for instructing the start of sound generation common to music and voice are provided as voice parameters. Have been supplied.
[0017]
When a musical tone is generated, the start address SA (WT) is output from the ADG 21 at the start timing of the key-on signal with HVMODE = 0, and the waveform data is stored from the position of the waveform data storage unit 22 indicated by the start address SA (WT). Reading is started. Then, by accumulating the phase data from PG 20, the read address up to the end point EP (WT) is sequentially output from the ADG 21 so as to change at a rate corresponding to the musical interval. As a result, the sample of waveform data up to the position of the waveform data storage unit 22 indicated by the end point EP (WT) is sequentially read out at a rate corresponding to the pitch of the musical sound. Next, a read address corresponding to the loop point LP (WT) is output from the ADG 21. Further, by accumulating the phase data from the PG 20, the read address to the end point EP (WT) corresponds to the pitch of the musical sound. The signals are sequentially output from the ADG 21 while changing at a rate. Thereby, the sample of the waveform data from the position of the waveform data storage unit 22 indicated by the loop point LP (WT) to the position of the waveform data storage unit 22 indicated by the end point EP (WT) is a rate corresponding to the pitch of the musical sound. Are read sequentially. The read address from the loop point LP (WT) to the end point EP (WT) is repeatedly generated until the sound generation is stopped by the key-on signal. Accordingly, desired waveform data from the start of sound generation to the stop of sound generation indicated by the key-on signal can be read from the waveform data storage unit 22 at a rate corresponding to the pitch of the musical sound.
[0018]
Also, when synthesizing speech, HVMODE = 1 and a start address indicated by a WS (voiced sound formant) signal at the start timing of the key-on signal, or a waveform indicated by a predetermined start address for unvoiced sound formant Reading of the waveform data is started from the position of the data storage unit 22. Then, the readout address in the address range fixed by accumulating the phase data from PG 20 is sequentially output from ADG 21 so as to change at a rate corresponding to the center frequency of voiced sound formant or unvoiced sound formant. . As a result, the waveform data samples are sequentially read from the waveform data storage unit 22 at a rate corresponding to the center frequency of the voiced sound formant or the unvoiced sound formant. In the WT voice unit 10a, the accumulated value obtained by accumulating the phase data from the PG 20 reaches a predetermined value (constant value) predetermined in the voiced sound pitch period, and reaches the constant value. In this case, a voiced pitch signal (pulse signal) is output.
[0019]
A detailed configuration of such an ADG 21 is shown in FIG. In FIG. 4, the phase data from the PG 20 is input to an accumulator (ACC: Accumulator) 41 and accumulated every clock to generate an increment value of the read address. The increment value of the read address is supplied to the adder 47 via the selector 46, and the adder 47 adds the start address to generate a read address, which is output from the ADG 21 as an ADG output.
In the ADG 21, the operation when generating a musical sound with HVMODE = 0 will be described. When HVMODE = 0, since the AND gate AND is closed, the accumulator 41 is reset to the initial value only by the key-on signal (KeyOn) output from the OR gate OR, and the musical tone pitch to be generated supplied from the PG 20 is set. The accumulation of the corresponding phase data is started. This accumulation is performed for each clock, and the accumulated value b is output to the selector 46 and the subtractor 43.
[0020]
The selector 42 that supplies the data a to the subtracter 43 selects the end point EP (WT) as the data a and outputs it to the subtracter 43 because HVMODE = 0. As a result, the subtraction value (ab) calculated by the subtractor 43 is output, and the amplitude value | ab− with the MSB of the subtraction value (ab) excluded is supplied to the adder 45. An MSB (Most Significant Bit) signal that becomes “1” when the subtraction value (a−b) becomes negative is supplied to the selector 46 as a selection signal and also supplied to the accumulator 41 as a load signal. The Since the MSB signal becomes “1” when the subtraction value (ab) becomes negative, the selector 46 adds the accumulation value b until the accumulation value b exceeds the end point EP (WT). Output to the unit 47. The selector 50 that supplies the addition data to the adder 47 selects the start address SA (WT) and outputs it to the adder 47 because HVMODE = 0. As a result, the accumulated value b to which the start address SA (WT) is added is output as an ADG output. Since the accumulated value b is accumulated at every clock and phase data is accumulated and changes at the rate of the phase data, the read address as the ADG output also varies according to the phase data.
[0021]
When the accumulated value b exceeds the end point EP (WT), the MSB signal changes to “1”, so that the selector 46 outputs the data c output from the adder 45. The data c has an amplitude value | a−b in which the MSB of the subtraction value (ab) is excluded from the loop point LP (WT) selected by the selector 44 because the HVMODE = 0. The calculated value is obtained by adding |. As a result, the ADG output output from the adder 47 becomes the read address of the loop point LP (WT) corrected with the amplitude value | a−b |. Further, since the MSB signal changes to “1”, the load signal is supplied to the accumulator 41 and the data c is loaded into the accumulator 41. Then, since the MSB signal returns to “0”, the data c output from the accumulator 41 is output from the selector 46. The accumulator 41 outputs an accumulated value b in which the phase data is added to the data c for each clock, so that the ADG output substantially corresponds to the phase data from the read address of the loop point LP (WT). It will change at the rate.
[0022]
If the ADG output in this case is illustrated with a graph, the ADG output is as shown in FIG. That is, when a key-on signal is applied, a start address SA (WT) is output, the read address rises while changing at a rate according to the phase data, and is incremented by the end point (EP) from the start address SA (WT). When this is done, the value returns to the value obtained by adding the loop point (LP) to the start address SA (WT), and thereafter the value obtained by adding the loop point (LP) to the start address SA (WT) is equal to the end point (EP). The read address is repeatedly generated until it is incremented. The change of the read address at this time becomes a rate according to the phase data. Then, when the sound generation is stopped by the key-on signal, the ADG output is stopped. The waveform data read from the waveform data storage unit 22 by the read address as the ADG output has a frequency corresponding to the phase data. Since the type of waveform data read from the waveform data storage unit 22 can be selected by the start address SA (WT), for example, by selecting the start address SA (WT) for each of the WT voice units 10a to 10i. The timbres of the WT voice units 10a to 10i can be made different.
[0023]
Next, the operation when the ADG 21 is an address generator of the WT voice unit 10a and HVMODE = 1 and U / V = 0 and generates a voiced sound pitch signal will be described. When HVMODE = 1 and U / V = 0, the AND gate AND opens, but since the voiced pitch signal is not supplied to the WT voice 10a, only the key-on signal is output from the OR gate OR. Therefore, the accumulator 41 is reset to the initial value by the key-on signal, and starts accumulating the phase data corresponding to the voiced sound pitch signal to be generated supplied from the PG 20. This accumulation is performed for each clock, and the accumulated value b is output to the selector 46 and the subtractor 43. The selector 42 that supplies the data a to the subtracter 43 selects a predetermined constant value as the data a and outputs it to the subtracter 43 because HVMODE = 1. As a result, the subtraction value (ab) calculated by the subtractor 43 is output, and the amplitude value | ab− with the MSB of the subtraction value (ab) excluded is supplied to the adder 45.
[0024]
Further, the MSB signal of the subtraction value (ab) is supplied to the selector 46 as a selection signal and is supplied to the accumulator 41 as a load signal. The MSB signal becomes “1” when the subtraction value (ab) becomes a negative value, that is, when the accumulated value reaches a constant value, and is supplied to the accumulator 41 as a load signal. Data c is loaded into the accumulator 41. Since the data c is set to HVMODE = 1, the amplitude value | a−b | from which the MSB of the subtraction value (a−b) is excluded is added to “0” selected by the selector 44. Is the calculated value. When the accumulator 41 adds the phase data to the data c at the next clock, the MSB signal becomes “0”. In this way, the MSB signal is generated with a period corresponding to the phase data based on the voiced sound pitch parameter supplied from the PG 20, that is, a period of the voiced sound pitch. Therefore, the WT voice 10a supplied with HVMODE = 1 and U / V = 0 outputs this MSB signal as a voiced sound pitch signal. When the voiced sound pitch signal is illustrated by a graph, it becomes a pulse signal having a cycle of the voiced sound pitch as shown in FIG. In this case, an ADG output is also output from the WT voice unit 10a, but this ADG output is not used as a read address.
[0025]
Next, in ADG21, the operation | movement at the time of setting HVMODE = 1 and U / V = 0 and generating a voiced sound formant is demonstrated. When HVMODE = 1 and U / V = 0, the AND gate AND is opened by the action of the gate NOT, so that the accumulator 41 is reset to the initial value by the voiced pitch signal and the key-on signal output from the OR gate OR. The accumulation of phase data corresponding to the center frequency of the voiced formant to be generated supplied from the PG 20 is started. A voiced sound pitch signal shown in FIG. 7 output from the WT voice unit 10a is supplied to the AND gate AND. The accumulation of the accumulator 41 is performed every clock, and the accumulated value b is output to the selector 46 and the subtracter 43. Since the selector 42 that supplies the data a to the subtracter 43 is set to HVMODE = 1, a predetermined constant value is selected as the data a and output to the subtractor 43. The constant value is used because the amount of waveform data forming the formant is a fixed value. Then, the subtraction value (ab) calculated by the subtractor 43 is output, and the amplitude value | ab− with the MSB of the subtraction value (ab) excluded is supplied to the adder 45.
[0026]
Further, the MSB signal of the subtraction value (ab) is supplied to the selector 46 as a selection signal and is supplied to the accumulator 41 as a load signal. Since the MSB signal becomes “1” when the subtraction value (ab) becomes a negative value, the selector 46 adds the accumulated value b to the adder 47 until the accumulated value b exceeds the constant value. Output to. The selector 50 that supplies the addition data to the adder 47 selects the output of the selector 49 and outputs it to the adder 47 because HVMODE = 1. Since the selector 49 is set to U / V = 0, the start address SA (WS) of the selected waveform data forming the voiced sound formant output from the start address generator 48 is output to the selector 49. ing. Further, the start address generator 48 starts on the waveform data storage unit 22 so as to select waveform data in response to a waveform selection (WS) signal input to select a waveform suitable for forming a voiced sound formant. The address SA is output. As a result, the adder 47 adds the accumulated value b to the start address SA (WS) and outputs it as an ADG output. Since the accumulated value b is accumulated at every clock and the phase data is accumulated at a rate corresponding to the phase data, the read address for reading the waveform data forming the voiced formant as the ADG output also corresponds to the phase data. Will change at a different rate.
[0027]
When the accumulation proceeds and the accumulated value reaches a constant value, the subtraction value (ab) becomes a negative value, the MSB signal becomes “1”, and is supplied to the selector 46. Then, the data c is output from the selector 46. The data c is set to “0” selected by the selector 44 because HVMODE = 1, and the subtracted value (ab) is added to the adder 45. The calculated value is the sum of the amplitude values | a−b | from which the MSBs are excluded. As a result, the ADG output output from the adder 47 becomes the read address of the amplitude value | a−b |. Further, the MSB signal is supplied to the accumulator 41 as a load signal, and the accumulator 41 is loaded with the data c. When the phase data is added to the data c at the next clock, the MSB signal returns to “0”, so that the data b output from the accumulator 41 is output from the selector 46. The accumulation of the phase data in the accumulator 41 is performed for each clock, and the ADG output changes at a rate corresponding to the phase data from the start address SA (WS), and when it is incremented by a constant value, the start address is again generated. Returning to SA (WS), the ADG output repeats the read address until it is incremented by a constant value from the start address SA (WS). Since the phase data in this case is based on the center frequency of the voiced sound formant, the read address changes at a rate corresponding to the center frequency of the voiced sound formant. Further, since the accumulator 41 is reset to the initial value by the voiced sound pitch signal output from the WT voice unit 10a, the ADG output is reset at every period of the voiced sound pitch, and the waveform data with the ADG signal as a read address is used. The voiced sound formant having a predetermined center frequency formed by the waveform data read from the storage unit 22 can be given a pitch feeling.
[0028]
The ADG output in this case is shown as a graph in FIG. That is, when a key-on signal is applied, a start address SA (WS) corresponding to a WS signal for selecting waveform data that forms a voiced sound formant is output. When the read address that changes at a rate corresponding to the center frequency of the voiced sound formant is increased by the action of the accumulator 41 and the start address SA (WS) is incremented by a constant value, the start address SA (WS After that, read addresses from the start address SA (WS) to a value incremented by a constant value are repeatedly generated. When the selected waveform data is read from the waveform data storage unit 22 by this ADG output, a voiced sound formant having a predetermined center frequency is formed by the read waveform data. Then, when the sound generation is stopped by the key-on signal, the ADG output is stopped. The type of waveform data read from the waveform data storage unit 22 can be selected by a start address SA (WS), that is, a WS (voiced sound formant) signal, and the formant of the voiced sound formant formed thereby can be changed. Can do. Further, FIG. 6 does not show that the accumulator 41 is reset to the initial value by the voiced sound pitch signal output from the WT voice unit 10a.
[0029]
Next, the operation when the unvoiced sound formant is generated with HVMODE = 1 and U / V = 1 in the ADG 21 will be described. When HVMODE = 1 and U / V = 1, since the AND gate AND is closed by the action of the gate NOT, the accumulator 41 is reset to the initial value only by the key-on signal output from the OR gate OR and supplied from the PG 20 Accumulation of phase data corresponding to the center frequency of the unvoiced sound formant to be generated is started. This accumulation is performed for each clock, and the accumulated value b is output to the selector 46 and the subtractor 43. The selector 42 that supplies the data a to the subtracter 43 selects a predetermined constant value as the data a and outputs it to the subtracter 43 because HVMODE = 1. The constant value is used because the amount of waveform data forming the formant is a fixed value. Then, the subtraction value (ab) calculated by the subtractor 43 is output, and the amplitude value | ab− with the MSB of the subtraction value (ab) excluded is supplied to the adder 45.
[0030]
Further, the MSB signal of the subtraction value (ab) is supplied to the selector 46 as a selection signal and is supplied to the accumulator 41 as a load signal. Since the MSB signal becomes “1” when the subtraction value (ab) becomes a negative value, the selector 46 adds the accumulated value b to the adder 47 until the accumulated value b exceeds the constant value. Output to. The selector 50 that supplies the addition data to the adder 47 selects the output of the selector 49 and outputs it to the adder 47 because HVMODE = 1. Since the selector 49 is set to U / V = 1, the start address SA (sign) of the waveform data of the sine wave is output to the selector 49. This is because a sine wave is suitable for forming an unvoiced sound formant. As a result, the adder 47 adds the accumulated value b to the start address SA (sign) and outputs it as an ADG output. Since the accumulated value b is accumulated at each clock and phase data is accumulated and changes at a rate corresponding to the center frequency of the unvoiced sound formant, the read address for reading the waveform data forming the unvoiced sound formant, which is an ADG output, is also used for the unvoiced sound formant. It will change at a rate according to the center frequency.
[0031]
Since the MSB signal changes to “1” when the accumulated value b exceeds the constant value, the selector 46 outputs the data c output from the adder 45. Since the data c is set to HVMODE = 1, the amplitude value | a−b | from which the MSB of the subtraction value (a−b) is excluded is added to “0” selected by the selector 44. Is the calculated value. As a result, the ADG output output from the adder 47 becomes the read address of the amplitude value | a−b |. Further, the MSB signal is supplied to the accumulator 41 as a load signal, and the accumulator 41 is loaded with the data c. When the phase data is added to the data c at the next clock, the MSB signal returns to “0”, so that the data b output from the accumulator 41 is output from the selector 46. The accumulation of the phase data in the accumulator 41 is performed every clock, and the ADG output changes at a rate corresponding to the phase data from the start address SA (sign). Returning to SA (sign), the ADG output repeats the read address until it is incremented by a constant value from the start address SA (sign). Since the phase data in this case is based on the center frequency of the unvoiced sound formant, the read address changes at a rate corresponding to the center frequency of the unvoiced sound formant. An unvoiced sound formant having a predetermined center frequency is formed by the waveform data read from the waveform data storage unit 22 using the ADG signal as a read address.
[0032]
The ADG output in this case is shown as a graph in FIG. That is, when a key-on signal is applied, a start address SA (sine) of waveform data of a sine wave that forms an unvoiced sound formant is output, and readout that changes at a rate corresponding to the center frequency of the unvoiced sound formant by the action of the accumulator 41. When the address rises and the start address SA (sign) is incremented by a constant value, the address returns to the start address SA (sign), and thereafter, reading from the start address SA (sign) to a value incremented by the constant value is performed. The address is generated repeatedly. When the waveform data of the sine wave is read from the waveform data storage unit 22 by this ADG output, an unvoiced sound formant with a predetermined center frequency is formed by the read waveform data. Then, when the sound generation is stopped by the key-on signal, the ADG output is stopped.
[0033]
Here, an example of the waveform shape of plural types of waveform data for forming the voiced sound formant or the unvoiced sound formant stored in the waveform data storage unit 22 is shown in FIG.
FIG. 14 shows an example in which waveform data of 32 types of waveform shapes are stored in the waveform data storage unit 22. When “0” is set as a WS (voiced sound formant) signal, the 0th sine wave is shown. For example, when “16” is set as the WS (voiced sound formant) signal, the 16th triangular wave is read out. The start address SA (sign) is the start address on the waveform data storage unit 22 of the 0th sine wave. The data amount of these 32 types of waveform data is fixed, and the constant values described above correspond to this data amount. Therefore, when any one of the 32 types of waveform data is read by the ADG output output from the ADG 21, the waveform data having the selected waveform shape is repeatedly read until the sound generation is stopped.
[0034]
Returning to FIG. 2, the waveform data read from the waveform data storage unit 22 is supplied to the multiplier 23, and is multiplied by the envelope signal generated by the envelope generator (EG) 24. The EG 24 includes a voice mode flag (HVMODE), unvoiced / voiced instruction flag (U / V) flag information, and attack rate AR (WT), decay rate DR (WT), and sustain rate SR (WT) as musical sound parameters. A release rate RR (WT) and a sustain level SL (WT) are supplied, and a key-on (KeyOn) signal for instructing the start of sound generation common to musical tones and voices is supplied.
[0035]
A block diagram showing the detailed configuration of such an envelope generator (EG) 24 is shown in FIG.
In the case of generating a musical tone, in EG24 shown in FIG. 9, HVMODE = 0 is set, the selector 60 selects the attack rate AR (WT) and outputs it to the selector 61, and the selector 63 selects the decay rate DR (WT). Output to the selector 61, the release rate RR (WT) is selected by the selector 64 and output to the selector 61. Further, the sustain rate SR (WT) is input to the selector 61. The selector 61 is controlled by the state control unit 66 to select and output an envelope parameter of the state for each of the attack, decay, sustain, and release states. The state control unit 66 is supplied with a key-on signal and a voice mode flag (HVMODE) and a sustain level SL (WT) signal. In addition, a voiced sound pitch signal and an unvoiced / voiced instruction flag (U / V) output from the WT voice unit 10a are also supplied, but these are not used. The envelope parameter output from the selector 61 according to the state is accumulated by an accumulator (ACC) 65 to generate an envelope, which is output as an EG output and supplied to the state control unit 66. The state control unit 66 can determine the state from the level of the EG output. The accumulator 65 starts accumulating at the start timing of the key-on signal.
[0036]
The EG output in this case is shown as a graph in FIG. That is, when the key-on signal supplied to the state control unit 66 and the accumulator 65 rises, the state control unit 66 determines that the sound generation starts and the attack rate AR for attack that is the state at the time of sound generation start from the selector 61 ( WT) parameters are output. The parameter of the attack rate AR (WT) is accumulated for each clock in the accumulator 65, and the EG output increases rapidly as AR shown in FIG. When the level of the EG output reaches, for example, 0 dB, the state control unit 66 determines that the state has shifted to decay and causes the selector 61 to output a parameter of decay rate DR (WT). The parameter of the decay rate DR (WT) is accumulated for each clock in the accumulator 65, and the EG output rapidly decreases as shown in DR shown in FIG.
[0037]
When the EG output decreases and the level of the EG output reaches the sustain level SL (WT), the state control unit 66 detects this and determines that the state has shifted to the sustain state, and the selector 61 determines the sustain rate SR. The parameter of (WT) is output. The output sustain rate SR (WT) parameter is accumulated for each clock in the accumulator 65, and the EG output falls with a gentle slope as shown in SR shown in FIG. The state control unit 66 continues sustaining until the key-on signal falls, and when the key-on signal falls and the state control unit 66 determines that the sound generation is stopped, the parameter of the release rate RR (WT) is output from the selector 61. Let The parameters of the output release rate RR (WT) are accumulated for each clock in the accumulator 65, and the EG output is rapidly lowered with a slope as shown in RR shown in FIG. Become.
[0038]
Next, when a voiced sound formant is generated in the voice, in EG24 shown in FIG. 9, HVMODE = 1 and U / V = 0 are set, and the selector 60 selects the rapid startup rate for the initial state and outputs it to the selector 61. The selector 62 selects the constant value for the intermediate state selected according to U / V = 0 by the selector 62 and outputs it to the selector 61, and the selector 64 selects the rapid decay rate for the end state. To 61. Further, although the sustain rate SR (WT) is input to the selector 61, this parameter is not used. The selector 61 is controlled by the state control unit 66 and selects and outputs an envelope parameter of the state for each of the initial, intermediate, and end states. The state control unit 66 is supplied with flag information of a key-on signal, a voiced pitch signal output from the WT voice unit 10a, a voice mode flag (HVMODE), and an unvoiced / voiced instruction flag (U / V). In addition, a sustain level SL (WT) signal is supplied, but it is not used in this case. Envelope parameters output from the selector 61 according to the state are accumulated for each clock by an accumulator (ACC) 65 to generate an envelope, which is output as an EG output and supplied to the state control unit 66. The state control unit 66 can determine the state from the level of the EG output. The accumulator 65 starts accumulating at the start timing of the key-on signal.
[0039]
The EG output in this case is shown as a graph in FIG. That is, when the key-on signal supplied to the state control unit 66 and the accumulator 65 rises, the state control unit 66 determines that the sound generation starts and causes the selector 61 to output a parameter of the rapid rise rate for the initial state. The rapid start-up rate parameter is accumulated for each clock in the accumulator 65, and the EG output increases rapidly as shown in FIG. When the level of the EG output reaches a predetermined level, the state control unit 66 determines that the state has shifted to the intermediate state and causes the selector 61 to output a parameter having a constant value for the intermediate state. The constant value parameter is accumulated at every clock in the accumulator 65, and the EG output gradually falls as shown in FIG.
[0040]
Here, when the voiced sound pitch signal shown in FIG. 7 is input to the state control unit 66, the state control unit 66 controls the selector 61 to select the rapid fall rate parameter and output it to the accumulator 65. . The parameter of the rapid fall rate is accumulated for each clock in the accumulator 65, and the EG output falls rapidly as shown in FIG. When the level of the EG output reaches a predetermined minimum level, the state control unit 66 controls the selector 61 to reselect the rapid fall rate parameter and output it to the accumulator 65. The rapid start-up rate parameter is accumulated for each clock in the accumulator 65, and the EG output increases rapidly as shown in FIG. When the level of the EG output reaches a predetermined level, the state control unit 66 determines that the state has shifted to the intermediate state and causes the selector 61 to output a parameter having a constant value for the intermediate state. Thereafter, the same operation is repeated. Since the envelope has a voiced sound pitch period in this way, it is possible to give a sense of pitch to the waveform data obtained by multiplying the envelope by the multiplier 23.
[0041]
When the key-on signal falls and the state controller 66 determines that the sound generation is stopped, the state controller 66 controls the selector 61 to select a rapid fall rate parameter and output it to the accumulator 65. The parameter of the rapid fall rate is accumulated for each clock in the accumulator 65, and the EG output is rapidly lowered to stop the sound generation.
[0042]
Next, when an unvoiced sound formant is generated in speech, in EG24 shown in FIG. 9, HVMODE = 1 and U / V = 1 are set, and the selector 60 selects the rapid start-up rate for the initial state and outputs it to the selector 61. The selector 62 selects “0” for the intermediate state selected according to U / V = 1 by the selector 62 and outputs it to the selector 61, and the selector 64 selects the rapid decay rate for the end state. To 61. Further, although the sustain rate SR (WT) is input to the selector 61, this parameter is not used. The selector 61 is controlled by the state control unit 66 and selects and outputs an envelope parameter of the state for each of the initial, intermediate, and end states. The state controller 66 is supplied with key information such as a key-on signal, a voice mode flag (HVMODE), and an unvoiced / voiced sound instruction flag (U / V). In addition, although the voiced pitch signal and the sustain level SL (WT) signal output from the WT voice unit 10a are supplied, they are not used in this case. The envelope parameter output from the selector 61 according to the state is accumulated by an accumulator (ACC) 65 to generate an envelope, which is output as an EG output and supplied to the state control unit 66. The state control unit 66 can determine the state from the level of the EG output. The accumulator 65 starts accumulating at the start timing of the key-on signal.
[0043]
The EG output in this case is shown as a graph in FIG. That is, when the key-on signal supplied to the state control unit 66 and the accumulator 65 rises, the state control unit 66 determines that the sound generation starts and causes the selector 61 to output a parameter of the rapid rise rate for the initial state. The parameter of the rapid rise rate is accumulated for each clock in the accumulator 65, and the EG output increases rapidly as shown in FIG. When the level of the EG output reaches a predetermined level, the state control unit 66 determines that the state has shifted to the intermediate state, and causes the selector 61 to output a parameter “0” for the intermediate state. As a result, the EG output outputted from the accumulator 65 maintains its value as shown in FIG. Here, if the key-on signal falls and the state control unit 66 determines that the sound generation is stopped, the state control unit 66 controls the selector 61 to select a rapid fall rate parameter and output it to the accumulator 65. The parameter of the rapid fall rate is accumulated for each clock in the accumulator 65, and the EG output falls rapidly as shown in FIG. 12, and the sound generation is stopped.
Although the envelope changing linearly is formed in the EG output shown in FIGS. 10 to 12, an envelope changing linearly may be generated. Further, the multiplier 23 for multiplying the waveform data by the output of the EG 24 may be arranged after the adder 25 described later.
[0044]
Returning to FIG. 2, the waveform data multiplied by the envelope in the multiplier 23 is supplied to the adder 25, and the noise generated by the noise generator 26 is added. The noise is, for example, white noise. In this case, the noise generating unit 26 is supplied with the voice mode flag (HVMODE) and unvoiced / voiced instruction flag (U / V) flag information, and HVMODE = 1 and U / V = 1 are set so that the unvoiced sound formant. Noise is generated only when it is generated. Therefore, in the adder 25, noise is added to only the waveform data multiplied by the envelope forming the unvoiced sound formant and output.
[0045]
Here, the detailed configuration of the noise generator 26 is shown in FIG. As shown in FIG. 13, the white noise generated from the white noise generator 70 in the noise generator 26 is band-limited by four-stage low-pass filters (LPF1, LPF2, LPF3, LPF4) 71, 72, 73, 74. The The noise level of the output of the low-pass filter 74 is adjusted by the multiplier 75 and input to the selector 76. The selector 76 is selected by the output of the AND gate (AND) 77, and the AND gate 77 is output from the multiplier 75 in the selector 76 when HVMODE = 1 and U / V = 1 to generate an unvoiced sound formant. Noise is being output. When either HVMODE = 1 or U / V = 1 is set to “0” to generate a musical tone or voiced formant, the selector 76 outputs “0” instead of noise by the output of the AND gate 77. Is output. As a result, the adder 25 adds and outputs noise only to the waveform data multiplied by the envelope forming the unvoiced sound formant.
[0046]
The low-pass filters 71 to 74 have the same configuration, and the configuration of the low-pass filter 71 is representatively shown in FIG. In the low-pass filter 71, the white noise input from the white noise generator 70 is delayed by one sample time by the delay circuit 70a, multiplied by a predetermined coefficient in the coefficient multiplier 70b, and input to the adder 70d. The input white noise is multiplied by a predetermined coefficient in the coefficient multiplier 70c, input to the adder 70d, and added to the output of the coefficient multiplier 70b. The output of the adder 70d becomes a low-pass filter output. By limiting the band of white noise with, for example, four stages of low-pass filters 71 to 74 having such a configuration, it is possible to suppress the feeling of being heard in the sound. Note that the level adjustment of the noise level in the multiplier 75 is not necessarily required and may be omitted.
[0047]
Returning to FIG. 2, the waveform data output from the adder 25 is supplied to the multiplier 27 to adjust the output level. The multiplier 27 includes a voice mode flag (HVMODE), unvoiced / voiced sound instruction flag (U / V) flag information, a level (WT) indicating a tone output level, and a level (VO) indicating a voiced formant output level. A level (unvoiced sound formant) indicating the output level of unvoiced sound formant is supplied. When HVMODE = 0 and a musical sound is generated, the multiplier 27 multiplies the level (WT) and adjusts the output level of the musical waveform data. When HVMODE = 1 and U / V = 0 and a voiced sound formant is generated, the output level of the waveform data that forms the voiced sound formant by multiplying the level (voiced sound formant) in the multiplier 27 is obtained. Adjusted. Thereby, the level of voiced sound formant becomes a predetermined level. Further, when HVMODE = 1 and U / V = 1 are set to generate an unvoiced sound formant, the multiplier 27 multiplies the level (unvoiced sound formant) to adjust the output level of the waveform data forming the unvoiced sound formant. . Thereby, the level of unvoiced sound formant becomes a predetermined level.
[0048]
In the above description, the speech synthesizer that is also used as the sound source device according to the present invention is configured by the WT voice unit having nine waveform data storage units. However, the present invention is not limited to this. It is good. When the number of WT voice parts exceeds 9, the number of simultaneously generated musical sounds can be increased, and the number of formants to be synthesized can be increased to synthesize various sounds.
In the voice synthesizer that is also used as the tone generator according to the present invention, when a musical tone is designated by the voice mode flag (HVMODE), the plurality of WT voice parts function as a musical tone forming part, and the voice mode flag (HVMODE) ) Designates a voice, the plurality of WT voice parts function as formant forming parts. Also, by fixing the voice mode flag (HVMODE) to voice, it can be used as a dedicated voice synthesizer.
[0049]
【The invention's effect】
As described above, the present invention forms a formant having a desired formant center frequency and a desired formant level by a plurality of formant forming units which are a plurality of waveform table voice units, and synthesizes the plurality of formed formants. The voice is synthesized. An envelope signal having a pitch period is added to the waveform data forming the formant. As a result, the formant can have a pitch feeling, and a high-quality reality voice can be synthesized. Further, by adding an envelope signal having a pitch period to the waveform data forming the voiced sound formant, the voiced sound formant can have a pitch feeling.
[0050]
In addition, a plurality of musical sounds can be generated by mixing waveform data output from a plurality of waveform table voice sections based on musical sound parameters, and output from a plurality of waveform table voice sections based on voice parameters. A voice can be synthesized by synthesizing waveform data forming a voiced sound formant or an unvoiced sound formant. As described above, since a plurality of waveform table voice sections can be used for both musical tone generation and voice synthesis, the voice synthesis apparatus of the present invention can also be used as a tone generator.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech synthesizer that is also used as a sound generator according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a schematic configuration of a WT voice unit in a speech synthesizer used also as a sound source device according to an embodiment of the present invention.
FIG. 3 is a block diagram showing a detailed configuration of a phase data generator in a speech synthesizer that is also used as a sound generator according to an embodiment of the present invention.
FIG. 4 is a block diagram showing a detailed configuration of an address generator in a speech synthesizer that is also used as a sound generator according to an embodiment of the present invention.
FIG. 5 is a graph showing an example of an ADG output of an address generator in a speech synthesizer that is also used as a sound generator according to an embodiment of the present invention.
FIG. 6 is a graph showing another example of the ADG output of the address generator in the speech synthesizer that is also used as the sound generator according to the embodiment of the present invention.
FIG. 7 is a diagram showing a waveform of a voiced pitch signal of an address generator in a speech synthesizer that is also used as a sound source device according to an embodiment of the present invention.
FIG. 8 is a graph showing still another example of the ADG output of the address generator in the speech synthesizer used also as the sound generator according to the embodiment of the present invention.
FIG. 9 is a block diagram showing a detailed configuration of an envelope generator in the speech synthesizer that is also used as the sound generator according to the embodiment of the present invention.
FIG. 10 is a graph showing an example of an EG output of an envelope generator in a speech synthesizer that is also used as a sound generator according to an embodiment of the present invention.
FIG. 11 is a graph showing another example of the EG output of the envelope generator in the speech synthesizer that is also used as the sound generator according to the embodiment of the present invention.
FIG. 12 is a graph showing still another example of the EG output of the envelope generator in the speech synthesizer that is also used as the sound generator according to the embodiment of the present invention.
FIG. 13 is a block diagram illustrating a detailed configuration of a noise generation unit in the speech synthesizer that is also used as the sound source device according to the embodiment of the present invention.
FIG. 14 shows the waveform shapes of a plurality of types of waveform data for forming a voiced sound formant or unvoiced sound formant stored in the waveform data storage unit in the speech synthesizer that is also used as the sound source device according to the embodiment of the present invention; It is a figure which shows an example.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Speech synthesizer, 10 WT voice part, 10a, 10b, 10c, 10d, 10e, 10f, 10g, 10h, 10i WT voice part, 11 mixing means, 20 phase data generator, 21 address generator, 22 waveform data storage Unit, 23 multiplier, 25 adder, 26 noise generator, 27 multiplier, 30 selector, 31 selector, 32 selector, 33 selector, 34 shifter, 41 accumulator, 42 selector, 43 subtractor, 44 selector, 45 Adder, 46 selector, 47 adder, 48 start address generator, 49 selector, 50 selector, 60 selector, 61 selector, 62 selector, 63 selector, 64 selector, 65 accumulator, 66 state control unit, 70 white noise Generator, 70a delay circuit, 70b coefficient multiplier, 70c Multiplier, 70d adder, 71, 72, 73, 74 Low pass filter, 75 multiplier, 76 selector, 77 AND gate, AR attack rate, BLOCK octave information, DR decay rate, EP endpoint, FNUM frequency information, LP loop Point, RR release rate, SA start address, SL sustain level, SR sustain rate

Claims (2)

所望のピッチ周期、所望のフォルマント中心周波数および所望のフォルマントレベルを有するフォルマントをそれぞれ形成する複数のフォルマント形成部を備え、該複数のフォルマント形成部で形成された複数のフォルマントを合成することにより音声を合成する音声合成装置であって、
前記複数のフォルマント形成部のそれぞれが、
複数種類の波形形状の中から所望の波形形状を指定する波形形状指定手段と、
前記複数種類の波形形状に対応した複数の波形データを記憶する波形データ記憶手段と、
前記フォルマント中心周波数に対応したレートで変化するアドレスを発生して、前記波形形状指定手段で指定された波形形状に対応した波形データを前記波形データ記憶手段から読み出す波形データ読み出し手段と、
前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を形成し、該形成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段と、
を備えることを特徴とする音声合成装置。
A plurality of formant forming sections each forming a formant having a desired pitch period, a desired formant center frequency and a desired formant level are provided, and a plurality of formants formed by the plurality of formant forming sections are synthesized to synthesize a sound. A speech synthesizer that synthesizes,
Each of the plurality of formant forming portions is
Waveform shape designating means for designating a desired waveform shape from a plurality of types of waveform shapes;
Waveform data storage means for storing a plurality of waveform data corresponding to the plurality of types of waveform shapes;
Waveform data reading means for generating an address that changes at a rate corresponding to the formant center frequency, and reading waveform data corresponding to the waveform shape specified by the waveform shape specifying means from the waveform data storage means;
Forming an envelope signal that repeats at a period corresponding to the pitch period, and applying the formed envelope signal to the waveform data read from the waveform data storage means by the waveform data reading means;
A speech synthesizer comprising:
前記複数のフォルマント形成部により形成された複数のフォルマントを合成することにより有声音が合成されることを特徴とする請求項1記載の音声合成装置。  The voice synthesizer according to claim 1, wherein a voiced sound is synthesized by synthesizing a plurality of formants formed by the plurality of formant forming units.
JP2003021683A 2003-01-30 2003-01-30 Speech synthesizer Expired - Fee Related JP3915704B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2003021683A JP3915704B2 (en) 2003-01-30 2003-01-30 Speech synthesizer
US10/765,379 US7424430B2 (en) 2003-01-30 2004-01-26 Tone generator of wave table type with voice synthesis capability
EP04001856A EP1443493A1 (en) 2003-01-30 2004-01-28 Tone generator of wave table type with voice synthesis capability
KR1020040005697A KR100602979B1 (en) 2003-01-30 2004-01-29 Voice source device and voice synthesis device
TW093102192A TWI240914B (en) 2003-01-30 2004-01-30 Tone generator of wave table type with voice synthesis capability
CNB2004100053293A CN100561574C (en) 2003-01-30 2004-01-30 The control method of sonic source device and sonic source device
CNU2004200023397U CN2706830Y (en) 2003-01-30 2004-01-30 Sound source apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003021683A JP3915704B2 (en) 2003-01-30 2003-01-30 Speech synthesizer

Publications (2)

Publication Number Publication Date
JP2004233624A JP2004233624A (en) 2004-08-19
JP3915704B2 true JP3915704B2 (en) 2007-05-16

Family

ID=32950953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003021683A Expired - Fee Related JP3915704B2 (en) 2003-01-30 2003-01-30 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP3915704B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798288B2 (en) 2008-11-26 2014-08-05 Panasonic Corporation Voice output device

Also Published As

Publication number Publication date
JP2004233624A (en) 2004-08-19

Similar Documents

Publication Publication Date Title
US5703311A (en) Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JP6024191B2 (en) Speech synthesis apparatus and speech synthesis method
US7424430B2 (en) Tone generator of wave table type with voice synthesis capability
JP2564641B2 (en) Speech synthesizer
US4440058A (en) Digital tone generation system with slot weighting of fixed width window functions
JP4214842B2 (en) Speech synthesis apparatus and speech synthesis method
JP4844623B2 (en) CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM
JP4304934B2 (en) CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM
JP3915704B2 (en) Speech synthesizer
JP3915703B2 (en) Speech synthesizer
Dutilleux et al. Time‐segment Processing
JP3797333B2 (en) Sound source device having speech synthesis function
JP3307283B2 (en) Singing sound synthesizer
JP5092905B2 (en) Singing synthesis apparatus and program
EP2634769B1 (en) Sound synthesizing apparatus and sound synthesizing method
JP2004233621A (en) Speech synthesizer
JP2004061753A (en) Method and device for synthesizing singing voice
JPH11126080A (en) Waveform data processing method
JPH08137469A (en) Frequency characteristic controller for musical tone signal
JPH1031496A (en) Musical sound generating device
JP2768064B2 (en) Music synthesizer
JP3414119B2 (en) Music synthesizer
JPH1039896A (en) Singing voice synthesizing device and its method
JP5782751B2 (en) Speech synthesizer
JPH04294400A (en) Format sound synthesis device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees