JP3242331B2 - Vcv波形接続音声のピッチ変換方法及び音声合成装置 - Google Patents

Vcv波形接続音声のピッチ変換方法及び音声合成装置

Info

Publication number
JP3242331B2
JP3242331B2 JP26914696A JP26914696A JP3242331B2 JP 3242331 B2 JP3242331 B2 JP 3242331B2 JP 26914696 A JP26914696 A JP 26914696A JP 26914696 A JP26914696 A JP 26914696A JP 3242331 B2 JP3242331 B2 JP 3242331B2
Authority
JP
Japan
Prior art keywords
vcv
pitch
waveform
chain
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26914696A
Other languages
English (en)
Other versions
JPH1097291A (ja
Inventor
康彦 新居
洋文 西村
利光 蓑輪
亮 望月
高 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP26914696A priority Critical patent/JP3242331B2/ja
Priority to ES97116375T priority patent/ES2188839T3/es
Priority to EP97116375A priority patent/EP0831459B1/en
Priority to US08/933,993 priority patent/US5950152A/en
Priority to DE69717933T priority patent/DE69717933T2/de
Publication of JPH1097291A publication Critical patent/JPH1097291A/ja
Application granted granted Critical
Publication of JP3242331B2 publication Critical patent/JP3242331B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、VCV(母音・子
音・母音)音韻連鎖波形を接続して音声を合成する方法
及び音声合成装置に関し、特にVCV音韻連鎖波形固有
のピッチ微細構造を維持したまま、目的とする合成音声
のピッチパターン(入力テキストに対し合成して得るべ
き音声のピッチパターン)に変換するピッチ変換方法お
よび該方法を用いた音声合成装置に関する。
【0002】
【従来の技術】従来、この種の技術としては、図3に示
すようなものがあった。図3は従来のVCV波形接続音
声のピッチ変換方法を説明するためのグラフ図である。
図3において、1は「横浜市(yokohamashi) 」という単
語を合成する場合、その入力信号波形から作成された合
成ピッチパターン、2、3、4、5は「横浜市(yokoham
ashi) 」を構成するそれぞれのVCV音韻連鎖波形[yok
o]、[oha] 、[ama] 、[ashi]固有(実際の音声から抽出
して格納してある)のピッチパターンを示す。
【0003】ただし、図3に示している各VCV音韻連
鎖波形[yoko]、[oha] 、[ama] 、[ashi]のピッチパター
ンのピッチ周波数はVCV音韻連鎖波形毎に移動した状
態で相対的に異なるように示してある。また、各ピッチ
パターン2、3、4、5において、点線で示す部分はピ
ッチの無い無声子音の部分を表わしている。更に、6、
7、8、9はおよその母音定常部を示したものである。
【0004】上記従来の音声合成のVCV接続合成法で
は、語頭の音韻とか無声化母音は例外として、原則的に
母音ー子音ー母音と連続した音韻波形を、母音の定常部
(ピッチ周波数が安定しているところ)で接続して目的
の音声を合成する。すなわち、VCV音韻連鎖波形固有
のピッチパターンを変換目標の合成ピッチパターン1に
おおよそ合致するように変換するものであった。上記の
例において、「横浜市(yokohamashi) 」という単語を合
成する場合は、例えば、[yoko]+[oha]+[ama]+[ashi] か
らなる4個のVCV音韻連鎖波形を母音定常部で接続し
て合成ピッチパターン1に沿い、目的の音声に合成する
ようにしている。
【0005】また、上記従来技術をさらに詳細に説明す
ると、上記と同様な「横浜市(yokohamashi) 」という単
語を合成する場合、それぞれのVCV音韻連鎖波形[yok
o]、[oha] 、[ama] 、[ashi]からインパルス駆動点を抽
出し、隣合う2区間毎にハニング窓などを用いてピッチ
波形を取り出し、それぞれのVCV音韻連鎖波形をピッ
チ波形列に分解し、その各ピッチ波形列を合成ピッチパ
ターン1に沿って再配列する方法によりVCV音韻連鎖
波形のピッチを変換し、母音定常部7、8、9において
VCV音韻連鎖波形同士を接続することにより「横浜市
(yokohamashi)」の音声を合成するようにしていた。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来のVCV音韻連鎖波形のピッチ変換方法においては、
それぞれのVCV音韻連鎖波形をピッチ波形列に分解し
て再配列するため、自然音声特有のピッチの揺らぎなど
が消失してしまい、そのため合成音声の自然性が劣化す
るという問題があった。
【0007】また、VCV音韻連鎖中の有声子音部にお
いては母音部に比べてやや低めのピッチとなることがあ
るが、従来の方法では大局的且つ全体的なピッチパター
ンを生成しておき、“単に”これに合うようにVCV音
韻連鎖波形のピッチを変換するようにしていたため、V
CV音韻連鎖波形固有のピッチの微細構造が失われてし
まい、子音部の音韻性が劣化するという問題があった。
【0008】さらに、VCV音韻連鎖波形固有のピッチ
パターンを合成ピッチパターンに沿って構成するように
変換する際のピッチ変換率が大き過ぎると、自然音声か
ら遠くなるため、合成音声の音質が劣化するという問題
があった。
【0009】本発明は、上記従来の問題を解決するため
になされたもので、VCV音韻連鎖波形のピッチ変換の
際、VCV音韻連鎖波形をピッチ波形列に分解して再配
列するようなことはせず、VCV音韻連鎖波形固有のピ
ッチの微細構造を維持したままにすることにより、自然
性と明瞭性の高いVCV波形接続音声のピッチ変換方法
及び音声合成装置を提供することを目的とする。
【0010】また、本発明は、上記従来の問題を解決す
るためになされたもので、ピッチ変換率を小さく押さえ
ることができるようにして、音声品質が極めて高いVC
V波形接続音声のピッチ変換方法及び音声合成装置を提
供することを目的とする。
【0011】
【課題を解決するための手段】本発明によるVCV波形
接続音声のピッチ変換方法および音声合成装置は、接続
して音声を合成するべきVCV音韻連鎖波形の先行母音
定常部と後続母音定常部との間のピッチ周波数の傾き
を、本発明によるピッチ変換率に従い、合成するべきテ
キストから得られた合成ピッチパターンのそれぞれ対応
する位置のピッチ周波数の傾き(またはピッチパターン
の傾き)に合わせて変換するようにしたものである。
【0012】本発明によれば、VCV音韻連鎖波形固有
のピッチパターンの細部構造及び自然音声特有のピッチ
の揺らぎなど有声子音部の特徴的なピッチ変動を維持し
たまま、合成ピッチパターンの傾きに合わせてピッチ変
換しうるため、自然性及び明瞭性の優れたVCV波形接
続合成音声を得ることができるVCV波形接続音声のピ
ッチ変換方法および音声合成装置が得られる。
【0013】また、本発明によるVCV波形接続音声の
ピッチ変換方法および音声合成装置は、入力テキストの
各VCV音韻記号に対し複数種類のVCV音韻連鎖波形
毎に分類されたVCV音韻連鎖波形データベースの中か
らピッチ変換率が最も小さいVCV音韻連鎖波形を選択
して音声合成に用いるようにしたものである。
【0014】本発明によれば、ピッチ変換率が小さいV
CV音韻連鎖波形を用いることにより、合成音声が自然
音声から遠くならず、音声品質が極めて高いVCV波形
接続音声のピッチ変換方法および音声合成装置が得られ
る。
【0015】本発明によるVCV波形接続音声のピッチ
変換方法および音声合成装置をより詳細に説明すると、
VCV音韻連鎖波形の先行母音定常部(時間a)と後続
母音定常部(時間b)とにおいて、そのVCV音韻連鎖
波形に対するピッチ周波数(Fa,Fb)と、それに対
応する合成ピッチパターンのピッチ周波数(Fsa,F
sb)とからそれぞれピッチ変換率Ca、Cbを求め、
先行母音定常部(時間a)と後続母音定常部(時間b)
との間のピッチ変換率(X)を、ピッチ変換率CaとC
b間を直線補間(直線補間に限らず任意でよい)して算
出し、このようにして求めたピッチ変換率を用いてVC
V音韻連鎖波形本来のピッチ周波数を合成音声(合成に
より求められるべき音声)のピッチ周波数に変換するよ
うにしたものであり、自然で明瞭なVCV波形接続合成
音声が得られるという効果を有する。
【0016】更に、本発明によるVCV波形接続音声の
ピッチ変換方法および音声合成装置をより詳細に説明す
ると、入力テキストの各VCV音韻記号毎に、そのVC
V音韻連鎖波形の先行母音定常部のピッチ周波数と後続
母音定常部のピッチ周波数の相対的な高さの違いによっ
て分類された少なくとも複数種類(本実施の形態では4
種類)のVCV音韻連鎖波形、および語頭のCV連鎖音
韻波形や無声化母音を含むVCV音韻連鎖波形などの例
外VCV音韻連鎖波形で構成したVCV音韻連鎖波形デ
ータベースを用意しておき、合成ピッチパターンに最も
近いVCV音韻連鎖波形を選択的に用いて音声を合成す
るようにしたものであり、高音質の合成音声が得られる
という効果を有する。
【0017】
【発明の実施の形態】本発明の請求項1に記載の発明
は、入力した音声合成されるべきテキストから合成ピッ
チパターンを生成し、前記音声合成されるべきテキスト
を構成するVCV音韻記号に対応するVCV音韻連鎖波
形をVCV音韻連鎖波形データベースから選出し、前記
合成音声を構成するべき音韻連鎖波形の先行母音定常部
と後続母音定常部との間のピッチ周波数の傾きを、ピッ
チ変換率を使用して、前記合成ピッチパターンの対応す
る位置のピッチ周波数の傾きに合わせて前記VCV音韻
連鎖波形のピッチを変換する各工程からなり、VCV音
韻連鎖波形を接続して音声を合成するようにしたもので
あり、自然で明瞭なVCV波形接続合成音声を発音しう
るVCV波形接続音声のピッチ変換方法が得られる。
【0018】また、本発明の請求項2に記載の発明は、
前記接続して合成音声を構成するべきVCV音韻連鎖波
形が該VCV音韻連鎖波形の先行母音定常部と後続母音
定常部とにおけるピッチ周波数の相対的な高さの違いに
よって分類された複数種類のVCV音韻連鎖波形から選
択されるようにしたものであり、高音質且つ自然で明瞭
なVCV波形接続合成音声を発音しうるVCV波形接続
音声のピッチ変換方法が得られる。
【0019】また、本発明の請求項3に記載の発明は、
前記ピッチ変換率が前記VCV音韻連鎖波形の先行母音
定常部(a点)と(b点)後続母音定常部との中間にお
いて、 Cx= Ca+ (Cb−Ca)X/(b−a) ここで、 Cxは(a点)と(b点)との中間におけるピッチ変換
率 aはa点の時間、 bはb点の時間、 Xはx点の時間 Caはa点におけるピッチ変換率 Cbはb点におけるピッチ変換率 から算出されるようにしたものであり、高音質且つ自然
で明瞭なVCV波形接続合成音声を発音しうるVCV波
形接続音声のピッチ変換方法が得られる。
【0020】また、本発明の請求項4に記載の発明は、
入力した音声合成されるべきテキストからそれを構成す
るVCV音韻記号を生成するVCV音韻記号列生成手段
と、ピッチパターン生成モデルを用いて前記入力した音
声合成されるべきテキストから合成ピッチパターンを生
成する合成ピッチパターン生成手段と、入力テキストの
VCV音韻記号毎にVCV音韻連鎖波形の先行母音定常
部のピッチ周波数と後続母音定常部のピッチ周波数の相
対的な高さの違いによって分類された複数種類のVCV
音韻連鎖波形のデータベースを格納する音韻連鎖波形デ
ータベース格納手段と、前記VCV音韻記号及び合成ピ
ッチパターンに基づき、前記複数種類のVCV音韻連鎖
波形の中からピッチ変換率が最小の1つを選択する音韻
連鎖波形選択手段と、前記ピッチ変換率に従い、前記合
成ピッチパターンと選択されたVCV音韻連鎖波形とか
ら、該選択されたVCV音韻連鎖波形のピッチ変換を行
なうピッチ変換手段と、前記ピッチ変換されたVCV音
韻連鎖波形を接続して合成音声を出力する音韻連鎖波形
接続手段とからなり、合成音声を構成するべき音韻連鎖
波形の先行母音定常部と後続母音定常部との間のピッチ
周波数の傾きをピッチ変換率を使用して変換し、該ピッ
チ変換率は複数種類のVCV音韻連鎖波形の中から最小
の1つを選択して使用するようにしたものであり、高音
質で且つ自然性及び明瞭性の優れたVCV波形接続合成
音声を発音しうるVCV波形接続音声の音声合成装置が
得られる。
【0021】また、本発明の請求項5に記載の発明は、
前記音韻連鎖波形データベース格納手段は、少なくとも
低高型VCV音韻連鎖波形データベースと、高高型VC
V音韻連鎖波形データベースと、高低型VCV音韻連鎖
波形データベースと、低低型VCV音韻連鎖波形データ
ベースと、例外VCV音韻連鎖波形データベースとで構
成されたVCV音韻連鎖波形データベースを格納するよ
うにしたものであり、高音質で且つ自然性及び明瞭性の
優れたVCV波形接続合成音声を発音しうるVCV波形
接続音声の音声合成装置が得られる。
【0022】以下、添付図面、図1及び図2に基づき、
第1及び第2の発明の実施の形態を詳細に説明する。図
1は第1の発明の実施の形態におけるVCV波形接続音
声のピッチ変換方法を説明するためのグラフ図、図2は
図1に示すVCV波形接続音声のピッチ変換方法を実現
するための第2の発明の実施の形態における音声合成装
置の構成を示すブロック図である。
【0023】(第1の発明の実施の形態)まず、図1を
参照して、第1の発明の実施の形態におけるVCV波形
接続音声のピッチ変換方法について説明する。図1にお
いて、11は入力したテキスト(ディジタル文字)から
生成され、合成音声のピッチパターンの基準となる合成
ピッチパターンの一部を示す。規則音声合成によると、
この合成ピッチパターン11は、通常、ピッチパターン
生成モデルを用いて入力したテキストから生成される。
12は予め格納手段に格納され、音声合成に用いる際、
格納手段から取り出されたVCV音韻連鎖波形から得ら
れたVCV音韻連鎖波形固有のピッチパターンの例を示
す。
【0024】時間軸上のa点(時間a)はVCV音韻連
鎖波形の先行母音定常部を、またb点(時間b)は後続
母音定常部を示している。縦軸上のFaはa点における
VCV音韻連鎖波形(ピッチパターン12)のピッチ周
波数であり、Fsaはa点における変換目標の合成ピッ
チパターン11のピッチ周波数である。さらに、縦軸上
のFbはb点におけるVCV音韻連鎖波形(ピッチパタ
ーン12)のピッチ周波数であり、Fsbはb点におけ
る変換目標の合成ピッチパターン11のピッチ周波数で
ある。
【0025】発音させる目的の音声を合成するために
は、FaをFsaに、また、FbをFsbに変換しなけ
ればならない。a点におけるピッチ変換率Caはによっ
て算出され、b点におけるピッチ変換率CbはFsb/
Fbによって算出される。a点とb点の間のX点におけ
るピッチ変換率Cxは次式(1)で算出される。 Cx= Ca+ (Cb−Ca)X/(b−a) (1)
【0026】本発明では、この式(1)を用いて各VC
V音韻連鎖波形のa点とb点との間のピッチを変換す
る。すなわち、本発明の実施の形態によれば、このピッ
チ変換率を用いて、VCV音韻連鎖波形のピッチパター
ンの傾きを合成ピッチパターン11の傾きに合わせて変
換するようにしている。なお、X点の数は任意である。
そして、ピッチパターンが変換されたVCV音韻連鎖波
形はともに接続されて、合成音声として出力される。ま
た、音声合成されるべきVCV音韻連鎖波形のピッチパ
ターン12は入力テキストの各VCV音韻記号に対し複
数種類のVCV音韻連鎖波形を含むデータベースから選
出されたVCV音韻連鎖波形のピッチパターンであり、
第2の発明の実施の形態において詳細に説明する。
【0027】以上のように、本発明の実施の形態によれ
ば、VCV音韻連鎖波形のa点とb点との間もピッチ変
換率を用いて変換するようにしたことにより、VCV音
韻連鎖波形のピッチの微細構造を維持したままピッチ変
換することができるため、自然で明瞭な合成音声を得る
ことができる。
【0028】(第2の発明の実施の形態)次に、図2を
参照して、図1に示すVCV波形接続音声のピッチ変換
方法を実現するための第2の発明の実施の形態における
音声合成装置の構成について説明する。図2において、
30は音声に変換する文字(例えば、yokohamashi )な
どテキストを電気信号として入力するテキスト入力端
子、31は、入力したテキストを例えば、[yo]、[oko]
、[oha] 、[ama] 、[ashi]などのVCV音韻記号列を
生成するVCV音韻記号列生成手段である。
【0029】また、32は入力した文字(例えば、yoko
hamashi など)からピッチパターン生成モデルを用いて
その合成ピッチパターン11を生成する合成ピッチパタ
ーン生成手段、33は入力テキストの各VCV音韻記号
に対し複数種類のVCV音韻連鎖波形を含むデータベー
スを格納して(本実施の形態では、入力テキストの各V
CV音韻記号に対し、VCV音韻連鎖波形の先行母音定
常部のピッチ周波数と後続母音定常部のピッチ周波数の
相違から、4種類のVCV音韻連鎖波形を含むデータベ
ースを格納しているが、4種類より多くても少なくとも
よい)その中から最も小さいピッチ変換率となるVCV
音韻連鎖波形を選び得るようにした音韻連鎖波形データ
ベース格納手段、34はVCV音韻記号列生成手段31
からの各VCV音韻記号列に対応するVCV音韻連鎖波
形を音韻連鎖波形データベース格納手段33から選択す
る音韻連鎖波形選択手段である。
【0030】また、35は音韻連鎖波形選択手段34で
選択されたVCV音韻連鎖波形のピッチパターンを上記
第1の発明方法、特にそのピッチ変換率を使用してその
ピッチパターンの傾きが合成ピッチパターン生成手段3
2からの合成ピッチパターン11の傾きに合うように変
換するピッチ変換手段、36はピッチ変換手段35でピ
ッチが変換されたVCV音韻連鎖波形を接続して合成音
声を構成し出力する音韻連鎖波形接続手段、37は合成
された合成音声(または音声の波形)を出力する合成音
声出力端子である。
【0031】次に、図2を参照して、本第2の発明の実
施の形態における音声合成装置の動作について説明す
る。まず、この音声合成装置により合成してそれをを発
音するべき音声のテキスト(例えば、yokohamashi のデ
ィジタル文字)を入力すると、VCV音韻記号列生成手
段31は入力したテキストを合成ピッチパターン生成手
段32に送るとともに、入力したテキストのVCV音韻
記号列(例えば、[yo]、[oko] 、[oha] 、[ama] 、[ash
i])を生成して音韻連鎖波形選択手段34に送でする。
【0032】合成ピッチパターン生成手段32は入力し
た文字(yokohamashi )からピッチパターン生成モデル
を用いて“yokohamashi ”を合成するための合成ピッチ
パターン11を生成して音韻連鎖波形選択手段34及び
本発明によるピッチ変換手段35に出力する。この合成
ピッチパターン11により、合成されるそれぞれのVC
V音韻連鎖波形に与えられるべき大凡のピッチパターン
が決定される。
【0033】一般に、VCV音韻連鎖波形の大局的且つ
全体的なピッチパターンの形状に現れるピッチ構造は、
先行母音定常部のピッチ周波数と後続母音定常部のピッ
チ周波数の相違から、低高型、高高型、高低型、低低型
の4種類に分類することができる。本発明の実施の形態
における音韻連鎖波形データベース格納手段33に格納
されているデータベースは、この4種類のデータベー
ス、すなわち、低高型VCV音韻連鎖波形データベー
ス、高高型VCV音韻連鎖波形データベース、高低型V
CV音韻連鎖波形データベース、低低型VCV音韻連鎖
波形データベースと、それに加えて語頭のVCV音韻連
鎖波形とか無声化母音を含むVCV音韻連鎖波形などの
例外VCV音韻連鎖波形データベースとにより構成され
る。
【0034】音韻連鎖波形選択手段34は、VCV音韻
記号列生成手段31から入力した各VCV音韻記号列
([yo]、[oko] 、[oha] 、[ama] 、[ashi])に対応する
VCV音韻連鎖波形を音韻連鎖波形データベース格納手
段33から選択する。このとき、それぞれのVCV音韻
連鎖波形固有のピッチパターンと変換目標の合成ピッチ
パターン11とから変換する際のピッチ変換率が最も小
さくなる型のVCV音韻連鎖波形(必要に応じて例外V
CV音韻連鎖波形)を選択する。ピッチ変換手段35
は、選択されたVCV音韻連鎖波形のピッチパターンを
上記第1の発明の実施の形態に記載するような方法で変
換する。音韻連鎖波形接続手段36は、ピッチ変換(ピ
ッチパターンが変換される)されたVCV音韻連鎖波形
を接続して合成音声を出力する。
【0035】以上のように、本発明の実施の形態によれ
ば、VCV音韻連鎖波形の大局的なピッチ構造を合成ピ
ッチパターンと整合するようになし、かつ、第1の発明
の実施の形態による方法を用いてピッチ変換を行うよう
にしているため、高音質かつ自然性、明瞭性の高い合成
音声を得ることができる。
【0036】
【発明の効果】第1の発明によるVCV波形接続音声の
ピッチ変換方法は、VCV音韻連鎖波形をピッチ波形列
に分解して再配列するようなことはせず、VCV音韻連
鎖波形固有のピッチパターンの傾きを本発明によるピッ
チ変換率に基づき合成ピッチパターンの傾きに合わせる
ようにしてVCV音韻連鎖波形のピッチ変換を行い、ま
た、VCV音韻連鎖波形毎に複数種類に分類されたVC
V音韻連鎖波形の中からピッチ変換率が最も小さくなる
ようなVCV音韻連鎖波形を選択するようにしたことに
より、VCV音韻連鎖波形固有のピッチの微細構造及び
自然音声特有のピッチの揺らぎなど有声子音の特徴的な
ピッチ変動が維持されると共に、ピッチ変換率が小さく
押さえられて、極めて高音質且つ自然性及び明瞭性の高
い合成音声を得ることができる。
【0037】第2の発明による音声合成装置は、VCV
音韻連鎖波形をピッチ波形列に分解して再配列するよう
なことはせず、VCV音韻連鎖波形固有のピッチパター
ンの傾きをピッチ変換率に基づき合成ピッチパターンの
傾きに合わせるようにしてVCV音韻連鎖波形のピッチ
変換を行うピッチ変換手段と、本発明によりVCV音韻
記号毎に複数種類に分類されたVCV音韻連鎖波形を格
納しその中からピッチ変換率が小さくなるようなVCV
音韻連鎖波形を選択しうるようにした音韻連鎖波形デー
タベース格納手段とからなり、VCV音韻連鎖波形固有
のピッチの微細構造及び自然音声特有のピッチの揺らぎ
など有声子音の特徴的なピッチ変動が維持されると共
に、ピッチ変換率が小さく押さえられるようにしたた
め、極めて高音質かつ自然性、明瞭性の高い合成音声を
得ることができる。
【図面の簡単な説明】
【図1】第1の発明の実施の形態におけるVCV波形接
続音声のピッチ変換方法を説明するためのグラフ図
【図2】図1に示すVCV波形接続音声のピッチ変換方
法を実現するための第2の発明の実施の形態における音
声合成装置の構成を示すブロック図
【図3】従来のVCV波形接続音声のピッチ変換方法を
説明するためのグラフ図
【符号の説明】
1 「横浜市(yokohamashi)」という単語を合成する場
合の合成ピッチパターン 2 VCV音韻連鎖波形[yoko]のピッチパターン 3 VCV音韻連鎖波形[oha] のピッチパターン 4 VCV音韻連鎖波形[ama] のピッチパターン 5 VCV音韻連鎖波形[ashi]のピッチパターン 6、7、8、9 母音定常部 11 合成ピッチパターンの一部 12 音声合成の接続に用いるVCV音韻連鎖波形のピッ
チパターンの例 30 テキスト入力端子 31 VCV音韻記号列生成手段 32 合成ピッチパターン生成手段 33 音韻連鎖波形データベース格納手段 34 音韻連鎖波形選択手段 35 ピッチ変換手段 36 音韻連鎖波形接続手段 37 合成音声出力端子
───────────────────────────────────────────────────── フロントページの続き (72)発明者 望月 亮 神奈川県綾瀬市綾西三丁目3番16号 (72)発明者 本多 高 東京都板橋区赤塚一丁目7番13号 (56)参考文献 特開 昭59−13299(JP,A) 特開 平3−141399(JP,A) 特開 平6−95692(JP,A) 特開 平8−234793(JP,A) 特開 平9−198073(JP,A) 特開 平10−39895(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 21/04

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】入力した音声合成されるべきテキストから
    合成ピッチパターンを生成し、 前記音声合成されるべきテキストを構成するVCV音韻
    記号に対応するVCV音韻連鎖波形をVCV音韻連鎖波
    形データベースから選出し、 前記合成音声を構成するべき音韻連鎖波形の先行母音定
    常部と後続母音定常部との間のピッチ周波数の傾きを、
    ピッチ変換率を使用して、前記合成ピッチパターンの対
    応する位置のピッチ周波数の傾きに合わせて前記VCV
    音韻連鎖波形のピッチを変換する各工程からなり、VC
    V音韻連鎖波形を接続して音声を合成するようにしたV
    CV波形接続音声のピッチ変換方法。
  2. 【請求項2】前記接続して合成音声を構成するべきVC
    V音韻連鎖波形は該VCV音韻連鎖波形の先行母音定常
    部と後続母音定常部とにおけるピッチ周波数の相対的な
    高さの違いによって分類された複数種類のVCV音韻連
    鎖波形から選択されることを特徴とする請求項1記載の
    ピッチ変換方法。
  3. 【請求項3】前記ピッチ変換率は前記VCV音韻連鎖波
    形の先行母音定常部(a点)と後続母音定常部(b点)
    との中間において、 Cx= Ca+ (Cb−Ca)X/(b−a) ここで、 Cxは(a点)と(b点)との中間におけるピッチ変換
    率 aはa点の時間、 bはb点の時間、 Xはx点の時間 Caはa点におけるピッチ変換率 Cbはb点におけるピッチ変換率 から算出されることを特徴とする請求項1または2記載
    のピッチ変換方法。
  4. 【請求項4】入力した音声合成されるべきテキストから
    それを構成するVCV音韻記号を生成するVCV音韻記
    号列生成手段と、 ピッチパターン生成モデルを用いて前記入力した音声合
    成されるべきテキストから合成ピッチパターンを生成す
    る合成ピッチパターン生成手段と、 入力テキストのVCV音韻記号毎にVCV音韻連鎖波形
    の先行母音定常部のピッチ周波数と後続母音定常部のピ
    ッチ周波数の相対的な高さの違いによって分類された複
    数種類のVCV音韻連鎖波形のデータベースを格納する
    音韻連鎖波形データベース格納手段と、 前記VCV音韻記号及び合成ピッチパターンに基づき、
    前記複数種類のVCV音韻連鎖波形の中からピッチ変換
    率が最小の1つを選択する音韻連鎖波形選択手段と、 前記ピッチ変換率に従い、前記合成ピッチパターンと選
    択されたVCV音韻連鎖波形とから、該選択されたVC
    V音韻連鎖波形のピッチ変換を行なうピッチ変換手段
    と、 前記ピッチ変換されたVCV音韻連鎖波形を接続して合
    成音声を出力する音韻連鎖波形接続手段とからなり、 合成音声を構成するべき音韻連鎖波形の先行母音定常部
    と後続母音定常部との間のピッチ周波数の傾きをピッチ
    変換率を使用して変換し、該ピッチ変換率は複数種類の
    VCV音韻連鎖波形の中から最小の1つを選択して使用
    するようにしたことを特徴とするVCV波形接続音声の
    音声合成装置。
  5. 【請求項5】前記音韻連鎖波形データベース格納手段
    は、少なくとも低高型VCV音韻連鎖波形データベース
    と、高高型VCV音韻連鎖波形データベースと、高低型
    VCV音韻連鎖波形データベースと、低低型VCV音韻
    連鎖波形データベースと、例外VCV音韻連鎖波形デー
    タベースとで構成されたVCV音韻連鎖波形データベー
    スを格納することを特徴とする請求項4記載の音声合成
    装置。
JP26914696A 1996-09-20 1996-09-20 Vcv波形接続音声のピッチ変換方法及び音声合成装置 Expired - Fee Related JP3242331B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP26914696A JP3242331B2 (ja) 1996-09-20 1996-09-20 Vcv波形接続音声のピッチ変換方法及び音声合成装置
ES97116375T ES2188839T3 (es) 1996-09-20 1997-09-19 Procedimiento de cambio de frecuencia fundamental de una forma de ondas constituida por una cadena de fonemas (v)ocal-(c)onsonante-(v)ocal y dispositivo de sintesis de un sonido a partir de una serie de formas de ondas constituidas por cadenas de fonemas vcv.
EP97116375A EP0831459B1 (en) 1996-09-20 1997-09-19 Method of changing a pitch of a VCV phoneme-chain waveform and apparatus of synthesizing a sound from a series of VCV phoneme-chain waveforms
US08/933,993 US5950152A (en) 1996-09-20 1997-09-19 Method of changing a pitch of a VCV phoneme-chain waveform and apparatus of synthesizing a sound from a series of VCV phoneme-chain waveforms
DE69717933T DE69717933T2 (de) 1996-09-20 1997-09-19 Verfahren zur Änderung der Grundfrequenz einer V(okal)-K(onsonant)-V(okal) Phonemketten-Wellenform und Vorrichtung zur Klangsynthese aus einer Folge von VKV Phonemketten-Wellenformen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26914696A JP3242331B2 (ja) 1996-09-20 1996-09-20 Vcv波形接続音声のピッチ変換方法及び音声合成装置

Publications (2)

Publication Number Publication Date
JPH1097291A JPH1097291A (ja) 1998-04-14
JP3242331B2 true JP3242331B2 (ja) 2001-12-25

Family

ID=17468329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26914696A Expired - Fee Related JP3242331B2 (ja) 1996-09-20 1996-09-20 Vcv波形接続音声のピッチ変換方法及び音声合成装置

Country Status (5)

Country Link
US (1) US5950152A (ja)
EP (1) EP0831459B1 (ja)
JP (1) JP3242331B2 (ja)
DE (1) DE69717933T2 (ja)
ES (1) ES2188839T3 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7429591A (en) * 1990-04-18 1991-10-24 Gene-Trak Systems Nucleic acid probes for the detection of giardia lamblia
EP0883106B1 (en) * 1996-11-11 2006-07-05 Matsushita Electric Industrial Co., Ltd. Sound reproducing speed converter
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP3361291B2 (ja) 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001100776A (ja) * 1999-09-30 2001-04-13 Arcadia:Kk 音声合成装置
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
TWI250509B (en) * 2004-10-05 2006-03-01 Inventec Corp Speech-synthesizing system and method thereof
JP4533255B2 (ja) * 2005-06-27 2010-09-01 日本電信電話株式会社 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5479823B2 (ja) * 2009-08-31 2014-04-23 ローランド株式会社 効果装置
JP5723568B2 (ja) * 2010-10-15 2015-05-27 日本放送協会 話速変換装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2761552B2 (ja) * 1988-05-11 1998-06-04 日本電信電話株式会社 音声合成方法
JP3059751B2 (ja) * 1990-09-18 2000-07-04 三洋電機株式会社 残差駆動型音声合成装置
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JPH06250691A (ja) * 1993-02-25 1994-09-09 N T T Data Tsushin Kk 音声合成装置
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
JP3233544B2 (ja) * 1995-02-28 2001-11-26 松下電器産業株式会社 Vcv連鎖波形を接続する音声合成方法およびその装置

Also Published As

Publication number Publication date
ES2188839T3 (es) 2003-07-01
EP0831459A3 (en) 1998-11-18
DE69717933D1 (de) 2003-01-30
EP0831459A2 (en) 1998-03-25
DE69717933T2 (de) 2003-06-05
EP0831459B1 (en) 2002-12-18
JPH1097291A (ja) 1998-04-14
US5950152A (en) 1999-09-07

Similar Documents

Publication Publication Date Title
EP0848372B1 (en) Speech synthesizing system and redundancy-reduced waveform database therefor
JP3361066B2 (ja) 音声合成方法および装置
JP3242331B2 (ja) Vcv波形接続音声のピッチ変換方法及び音声合成装置
US6424937B1 (en) Fundamental frequency pattern generator, method and program
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2005539262A (ja) 定常音響信号のための合成方法
JP3310226B2 (ja) 音声合成方法および装置
JP3059751B2 (ja) 残差駆動型音声合成装置
JP3495275B2 (ja) 音声合成装置
JP7280605B2 (ja) 音声処理装置、および音声処理方法
JP3310217B2 (ja) 音声合成方法とその装置
JP3515268B2 (ja) 音声合成装置
JP3034911B2 (ja) テキスト音声合成装置
JPH11282484A (ja) 音声合成装置
JPH0511794A (ja) 音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JPH06149283A (ja) 音声合成装置
JP2003005774A (ja) 音声合成装置
JPH1097268A (ja) 音声合成装置
JP3218639B2 (ja) 規則音声合成装置におけるエネルギ制御方法
JP2002297174A (ja) テキスト音声合成装置
JPH038000A (ja) 音声規則合成装置
JPH04214600A (ja) 音声合成方法
JPS5949599A (ja) 合成音声の音声特徴を変更する方法及び装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees