JP2975586B2 - 音声合成システム - Google Patents

音声合成システム

Info

Publication number
JP2975586B2
JP2975586B2 JP10051925A JP5192598A JP2975586B2 JP 2975586 B2 JP2975586 B2 JP 2975586B2 JP 10051925 A JP10051925 A JP 10051925A JP 5192598 A JP5192598 A JP 5192598A JP 2975586 B2 JP2975586 B2 JP 2975586B2
Authority
JP
Japan
Prior art keywords
phoneme
speech
voice
language
feature parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10051925A
Other languages
English (en)
Other versions
JPH11249695A (ja
Inventor
謙 藤澤
ニック・キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP10051925A priority Critical patent/JP2975586B2/ja
Publication of JPH11249695A publication Critical patent/JPH11249695A/ja
Application granted granted Critical
Publication of JP2975586B2 publication Critical patent/JP2975586B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然発話の音声波
形信号の音声セグメントを連結することにより任意の音
素列を音声合成する自然発話音声波形信号接続型音声合
成装置を用いて、第1の言語のネイティブの人の音声波
形データベースによる第1の言語の自然発話文の音声合
成信号データに基づいて、第1の言語とは異なる第2の
言語のネイティブの人の音声波形データベースによる第
1の言語の自然発話文の音声合成信号を発生する音声合
成システム、並びに、然発話の音声波形信号の音声セグ
メントを連結することにより任意の音素列を音声合成す
る自然発話音声波形信号接続型音声合成装置を用いて、
入力される第1の言語のネイティブの人の自然発話文の
音声信号に基づいて、第1の言語とは異なる第2の言語
のネイティブの人の音声波形データベースによる第1の
言語の自然発話文の音声合成信号を発生する音声合成シ
ステムに関する。ここで、ある言語のネイティブの人と
は、その言語を話す国又は地域で生まれて育った人、も
しくは、その言語を話す国又は地域で比較的長期間にわ
たって滞在して、生まれて育った人と同等にネイティブ
に話す人などをいう。
【0002】
【従来の技術】図2は、第1の従来例の音声合成システ
ムのブロック図である。図2に示すように、学習用話者
の信号波形データに対して例えばLPC分析を実行し、
16次ケプストラム係数を含む特徴パラメータを抽出す
る。抽出された特徴パラメータは、バッファメモリであ
る特徴パラメータメモリ62に記憶された後、当該メモ
リ62からパラメータ時系列生成部52に入力される。
次いで、パラメータ時系列生成部52は、抽出された特
徴パラメータに基づいて、時間正規化、及びメモリ63
内の韻律制御規則を用いたパラメータ時系列の生成処理
などの信号処理を実行することにより、音声合成に必要
な、例えば16次のケプストラム係数などのパラメータ
時系列を生成して音声合成部53に出力する。
【0003】音声合成部53は公知の音声合成装置であ
って、有声音を発生するためのパルス発生器53aと、
無声音を発生するための雑音発生器53bと、フィルタ
係数を変更可能なフィルタ53cとを備え、入力される
パラメータ時系列に基づいて、パルス発生器53aによ
って発生される有声音と、雑音発生器53bによって発
生される無声音とを切り換え、かつその振幅を制御し、
さらには、フィルタ53cの伝達関数に対応するフィル
タ係数を変化することにより、音声合成された音声信号
を発生して、スピーカ54からその音声を出力させる。
【0004】しかしながら、第1の従来例の音声合成装
置では、韻律制御規則を用いた信号処理を必要とするた
めに、また、処理された特徴パラメータに基づいて音声
合成しているために、声質がきわめて悪いという問題点
があった。
【0005】以上の問題点を解決するために、本特許出
願人は、特願平9−123822号の特許出願におい
て、韻律制御規則を使わず、信号処理を実行することな
く、任意の音素列を発声音声に変換することができ、し
かも従来例に比較して自然に近い声質を得ることができ
る音声合成装置(以下、第2の従来例という。)を提案
している。この第2の従来例の音声合成装置では、自然
発話の音声波形信号の音声セグメントを記憶する第1の
記憶手段と、上記第1の記憶手段によって記憶された音
声波形信号の音声セグメントと、上記音声波形信号に対
応する音素列とに基づいて、上記音声波形信号における
音素毎の索引情報と、上記索引情報によって示された音
素毎の第1の音響的特徴パラメータと、上記索引情報に
よって示された音素毎の韻律的特徴パラメータとを抽出
して出力する音声分析手段と、上記音声分析手段から出
力される索引情報と、上記第1の音響的特徴パラメータ
と、上記韻律的特徴パラメータとを記憶する第2の記憶
手段と、上記第2の記憶手段によって記憶された第1の
音響的特徴パラメータと韻律的特徴パラメータとに基づ
いて、同一の音素種類の1つの目標音素とそれ以外の音
素候補との間の第2の音響的特徴パラメータにおける音
響的距離を計算し、上記計算した音響的距離に基づいて
各音素候補に対して上記第2の音響的特徴パラメータ毎
に所定の統計的解析を実行することにより、各音素候補
に対する上記第2の音響的特徴パラメータにおける寄与
度を表わす各目標音素毎の重み係数ベクトルを決定する
重み係数学習手段と、上記重み係数学習手段によって決
定された上記第2の音響的特徴パラメータにおける各目
標音素毎の重み係数ベクトルを記憶する第3の記憶手段
と、上記第3の記憶手段によって記憶された各目標音素
毎の重み係数ベクトルと、上記第2の記憶手段によって
記憶された韻律的特徴パラメータとに基づいて、入力さ
れる自然発話文の音素列に対して、目標音素と音素候補
との間の近似コストを表わす目標コストと、隣接して連
結されるべき2つの音素候補間の近似コストを表わす連
結コストとを含むコストが最小となる、音素候補の組み
合わせを検索して、検索した音素候補の組み合わせの索
引情報を出力する音声単位選択手段と、上記音声単位選
択手段から出力される索引情報に基づいて、当該索引情
報に対応する音声波形信号の音声セグメントを上記第1
の記憶手段から逐次読み出して連結して出力することに
より、上記入力された音素列に対応する音声を合成して
出力する音声合成手段とを備えて構成している。
【0006】
【発明が解決しようとする課題】ところで、多言語翻訳
電話装置で、日本語から英語への変換を考えた場合、現
状では、日本人が日本語で話した言葉を英語に翻訳後、
(a)英語話者すなわち元話者とは全く異なった声の合
成音声を出力するか、もしくは、(b)元話者の日本語
DBから英語のローマ字読みの合成音声を出力するしか
方法がない。上記(a)の方法では、元話者とは全く異
なった音声になり、上記(b)の方法では、元話者の声
ではあるものの、いわゆるカタカナ英語の発音となる。
すなわち、例えば、日本人の声による英語の音声合成信
号を発生する装置はなかった。
【0007】本発明の目的は以上の問題点を解決し、第
2の言語のネイティブの人の声による第1の言語の自然
発話文の音声合成信号を、自然に近い声質で発生するこ
とができる音声合成音声合成システムを提供することに
ある。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載の音声合成システムは、第1の言語の自然発話の音声
波形信号の音声セグメントを記憶する第1の記憶手段
と、上記第1の記憶手段によって記憶された音声波形信
号の音声セグメントと、上記音声波形信号に対応する音
素列とに基づいて、上記音声波形信号における音素毎の
索引情報と、上記索引情報によって示された音素毎の第
1の音響的特徴パラメータと、上記索引情報によって示
された音素毎の韻律的特徴パラメータとを抽出して出力
する第1の音声分析手段と、上記第1の音声分析手段か
ら出力される索引情報と、上記第1の音響的特徴パラメ
ータと、上記韻律的特徴パラメータとを記憶する第2の
記憶手段と、上記第2の記憶手段によって記憶された第
1の音響的特徴パラメータと韻律的特徴パラメータとに
基づいて、同一の音素種類の1つの目標音素とそれ以外
の音素候補との間の第2の音響的特徴パラメータにおけ
る音響的距離を計算し、上記計算した音響的距離に基づ
いて各音素候補に対して上記第2の音響的特徴パラメー
タ毎に所定の統計的解析を実行することにより、各音素
候補に対する上記第2の音響的特徴パラメータにおける
寄与度を表わす各目標音素毎の重み係数ベクトルを決定
する重み係数学習手段と、上記重み係数学習手段によっ
て決定された上記第2の音響的特徴パラメータにおける
各目標音素毎の重み係数ベクトルを記憶する第3の記憶
手段と、上記第1の言語とは異なる第2の言語の自然発
話の音声波形信号の音声セグメントを記憶する第4の記
憶手段と、上記第4の記憶手段によって記憶された音声
波形信号の音声セグメントと、上記音声波形信号に対応
する音素列とに基づいて、上記音声波形信号における音
素毎の索引情報と、上記索引情報によって示された音素
毎の第1の音響的特徴パラメータと、上記索引情報によ
って示された音素毎の韻律的特徴パラメータとを抽出し
て出力する第2の音声分析手段と、上記第2の音声分析
手段から出力される索引情報と、上記第1の音響的特徴
パラメータと、上記韻律的特徴パラメータとを記憶する
第5の記憶手段と、上記第3の記憶手段によって記憶さ
れた各目標音素毎の重み係数ベクトルと、上記第2の記
憶手段によって記憶された韻律的特徴パラメータとに基
づいて、入力される第1の言語の自然発話文の音素列に
対して、目標音素と音素候補との間の近似コストを表わ
す目標コストと、隣接して連結されるべき2つの音素候
補間の近似コストを表わす連結コストとを含むコストが
最小となる、音素候補の組み合わせを検索して、検索し
た音素候補の組み合わせの索引情報を出力する第1の音
声単位選択手段と、上記第1の音声単位選択手段から出
力される索引情報に基づいて、当該索引情報に対応する
音声波形信号の音声セグメントを上記第1の記憶手段か
ら逐次読み出して連結して出力することにより、上記入
力された第1の言語の音素列に対応する第1の言語の音
声信号波形データを合成して出力する第1の音声合成手
段と、上記第1の音声合成手段から出力される音声信号
波形データからケプストラム係数データを抽出して出力
する抽出手段と、上記抽出手段から出力されるケプスト
ラム係数データと、上記第5の記憶手段によって記憶さ
れた韻律的特徴パラメータとに基づいて、上記入力され
る第1の言語の自然発話文の音素列に対して、目標音素
と音素候補との間の近似コストを表わす目標コストと、
隣接して連結されるべき2つの音素候補間の近似コスト
を表わす連結コストとを含むコストが最小となる、音素
候補の組み合わせを検索して、検索した音素候補の組み
合わせの索引情報を出力する第2の音声単位選択手段
と、上記第2の音声単位選択手段から出力される索引情
報に基づいて、当該索引情報に対応する音声波形信号の
音声セグメントを上記第4の記憶手段から逐次読み出し
て連結して出力することにより、上記入力された第1の
言語の音素列に対応しかつ第2の言語の音声セグメント
による音声信号波形を合成して出力する第2の音声合成
手段とを備えたことを特徴とする。
【0009】また、請求項2記載の音声合成システム
は、請求項1記載の音声合成システムにおいて、それぞ
れ互いに異なる話者の第1の言語の自然発話の音声波形
信号の音声セグメントを記憶する複数の第1の記憶手段
と、上記複数の第1の記憶手段に記憶された異なる話者
の第1の言語の自然発話の音声波形信号の音声セグメン
トと、上記第4の記憶手段に記憶された第2の言語の自
然発話の音声波形信号の音声セグメントとに基づいて、
所定の特徴パラメータの選択基準を用いて、第2の言語
の自然発話の音声波形信号により声質が近い第1の言語
の自然発話の音声波形信号の話者を選択して、選択した
話者の第1の言語の自然発話の音声波形信号の音声セグ
メントを記憶する第1の記憶手段を上記第1の音声合成
手段に接続する話者選択手段とをさらに備えたことを特
徴とする。さらに、請求項3記載の音声合成システム
は、請求項2記載の音声合成システムにおいて、上記特
徴パラメータの選択基準に用いる特徴パラメータは、話
者の性別及び基本周波数の平均値であることを特徴とす
る。
【0010】また、請求項4記載の音声合成システム
は、請求項1乃至3のうちの1つに記載の音声合成シス
テムにおいて、上記第1の音声分析手段は、入力される
音声波形信号に基づいて上記音声波形信号に対応する音
素列を予測する音素予測手段を備えたことを特徴とす
る。また、請求項5記載の音声合成システムは、請求項
1乃至4のうちの1つに記載の音声合成システムにおい
て、上記重み係数学習手段は、上記計算した音響的距離
に基づいて、最良の上位複数N1個の音素候補を抽出し
た後、上記第2の音響的特徴パラメータの各々に対して
線形回帰分析することにより、各音素候補に関する上記
第2の音響的特徴パラメータにおける寄与度を表わす各
目標音素毎の重み係数ベクトルを決定することを特徴と
する。さらに、請求項6記載の音声合成システムは、請
求項1乃至4のうちの1つに記載の音声合成システムに
おいて、上記重み係数学習手段は、上記計算した音響的
距離に基づいて、最良の上位複数N1個の音素候補を抽
出した後、上記第2の音響的特徴パラメータの各々に対
して所定のニューラルネットワークを用いた統計的解析
を実行することにより、各音素候補に関する上記第2の
音響的特徴パラメータにおける寄与度を表わす各目標音
素毎の重み係数ベクトルを決定することを特徴とする。
また、請求項7記載の音声合成システムは、請求項1乃
至6のうちの1つに記載の音声合成システムにおいて、
上記第1と第2の音声単位選択手段はそれぞれ、上記目
標コストと上記連結コストとを含むコストが最良の上位
複数N2個の音素候補を抽出した後、コストが最小とな
る音素候補の組み合わせを検索することを特徴とする。
【0011】また、請求項8記載の音声合成システム
は、請求項1乃至7のうちの1つに記載の音声合成シス
テムにおいて、上記第1の音響的特徴パラメータは、ケ
プストラム係数と、デルタケプストラム係数と、音素ラ
ベルとを含むことを特徴とする。さらに、請求項9記載
の音声合成システムは、請求項1乃至8のうちの1つに
記載の音声合成システムにおいて、上記第1の音響的特
徴パラメータは、フォルマントパラメータと、声道音源
パラメータとを含むことを特徴とする。またさらに、請
求項10記載の音声合成システムは、請求項1乃至9の
うちの1つに記載の音声合成システムにおいて、上記韻
律的特徴パラメータは、音素時間長と、音声基本周波数
0と、パワーとを含むことを特徴とする。さらに、請
求項11記載の音声合成システムは、請求項1乃至10
のうちの1つに記載の音声合成システムにおいて、上記
第2の音響的特徴パラメータは、ケプストラム距離を含
むことを特徴とする。
【0012】本発明に係る請求項12記載の音声合成シ
ステムは、入力される第1の言語の音声信号と、それに
対応する第1の言語の音素列に基づいて、上記第1の言
語の音素列に対応しかつ上記第1の言語とは異なる第2
の言語の音声セグメントによる音声信号波形を合成して
出力する音声合成システムであって、上記第2の言語の
自然発話の音声波形信号の音声セグメントを記憶する第
1の記憶手段と、上記第1の記憶手段によって記憶され
た音声波形信号の音声セグメントと、上記音声波形信号
に対応する音素列とに基づいて、上記音声波形信号にお
ける音素毎の索引情報と、上記索引情報によって示され
た音素毎の音響的特徴パラメータと、上記索引情報によ
って示された音素毎の韻律的特徴パラメータとを抽出し
て出力する音声分析手段と、上記音声分析手段から出力
される索引情報と、上記音響的特徴パラメータと、上記
韻律的特徴パラメータとを記憶する第2の記憶手段と、
上記入力される第1の言語の音声信号を音声信号波形デ
ータに変換して、変換された音声信号波形データからケ
プストラム係数データを抽出して出力する抽出手段と、
上記抽出手段から出力されるケプストラム係数データ
と、上記第2の記憶手段によって記憶された韻律的特徴
パラメータとに基づいて、上記入力される第1の言語の
自然発話文の音素列に対して、目標音素と音素候補との
間の近似コストを表わす目標コストと、隣接して連結さ
れるべき2つの音素候補間の近似コストを表わす連結コ
ストとを含むコストが最小となる、音素候補の組み合わ
せを検索して、検索した音素候補の組み合わせの索引情
報を出力する音声単位選択手段と、上記音声単位選択手
段から出力される索引情報に基づいて、当該索引情報に
対応する音声波形信号の音声セグメントを上記第1の記
憶手段から逐次読み出して連結して出力することによ
り、上記入力された第1の言語の音素列に対応しかつ第
2の言語の音声セグメントによる音声信号波形を合成し
て出力する音声合成手段とを備えたことを特徴とする。
【0013】また、請求項13記載の音声合成システム
は、請求項12記載の音声合成システムにおいて、上記
音声単位選択手段はそれぞれ、上記目標コストと上記連
結コストとを含むコストが最良の上位複数N2個の音素
候補を抽出した後、コストが最小となる音素候補の組み
合わせを検索することを特徴とする。さらに、請求項1
4記載の音声合成システムは、請求項12又は13記載
の音声合成システムにおいて、上記音響的特徴パラメー
タは、ケプストラム係数と、デルタケプストラム係数
と、音素ラベルとを含むことを特徴とする。またさら
に、請求項15記載の音声合成システムは、請求項12
乃至14のうちの1つに記載の音声合成システムにおい
て、上記韻律的特徴パラメータは、音素時間長と、音声
基本周波数F0と、パワーとを含むことを特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0015】図1は、本発明に係る一実施形態である音
声合成システムの構成を示すブロック図である。この実
施形態の音声合成システムは、一般的に言えば、ある言
語の音声波形データベースから別の言語の音声を合成す
る際に、一度上記ある言語のネイティブの音声波形デー
タベースを用いて音声合成信号波形データを発生し、そ
のケプストラム情報に基づいてそれをターゲットとし
て、ネイティブ以外の別の言語の音声波形データベース
を用いて音声を合成することを特徴としている。具体的
には、当該実施形態の音声合成システムは、大きく分け
て、英語音声による音声合成装置1と、日本語音声によ
る音声合成装置2とを備えて構成され、英語の音声波形
データベースから日本語の言語の音声を合成する際に、
英語音声による音声合成装置1において、一度英語のネ
イティブの音声波形データベース(メモリ21内)を用
いて音声合成信号波形データを発生し、そのケプストラ
ム情報に基づいて、日本語音声による音声合成装置2に
おいて、上記ケプストラム情報をターゲットとして、ネ
イティブ以外の別の言語の音声波形データベース(メモ
リ121内)を用いて音声を合成することを特徴として
いる。すなわち、本実施形態では、日本人による英語の
音声合成を実現する。
【0016】例えば図2に示した第1の従来例の音声合
成装置では入力された発声音声に対応するテキスト抽出
から音声波形信号の生成までが一連の処理として行なわ
れるのに対して、本実施形態の英語音声による音声合成
装置1では、大きく分類すれば、次の4つの処理部に分
類される。 (1)英語の音声波形信号データベースメモリ21内の
音声波形信号データベースの音声波形信号データの音声
分析、具体的には、英語の音素記号系列の生成、音素の
アラインメント、特徴パラメータの抽出を含む処理を実
行する音声分析部10。 (2)最適重み係数を学習しながら決定する重み係数学
習部11。 (3)入力される英語の音素列に基づいて音声単位の選
択を実行して入力音素列に対応する音声波形信号データ
の索引情報を出力する音声単位選択部12。 (4)音声単位選択部12から出力される索引情報に基
づいて英語の音声波形信号データベースメモリ21内の
音声波形信号データベースをランダムにアクセスして最
適とされた各音素候補の音声波形信号を再生してバッフ
ァンメモリ14を介して日本語音声による音声合成装置
2のケプストラム抽出部111に出力する音声合成部1
3。
【0017】また、日本語音声による音声合成装置2で
は、大きく分類すれば、次の4つの処理部に分類され
る。 (1)日本語の音声波形信号データベースメモリ121
内の音声波形信号データベースの音声波形信号データの
音声分析、具体的には、日本語の音素記号系列の生成、
音素のアラインメント、特徴パラメータの抽出を含む処
理を実行する音声分析部110。 (2)音声合成部13からバッファメモリ14を介して
入力される英語の音声合成信号波形データに基づいて、
ケプストラム係数データを抽出するケプストラム抽出部
111。 (3)上記と同じ入力される英語の音素列に基づいて、
抽出されたケプストラム係数データを目標として音声単
位の選択を実行して入力音素列に対応する音声波形信号
データの索引情報を出力する音声単位選択部112。 (4)音声単位選択部112から出力される索引情報に
基づいて日本語の音声波形信号データベースメモリ12
1内の音声波形信号データベースをランダムにアクセス
して最適とされた各音素候補の音声波形信号を再生して
スピーカ114に出力する音声合成部113。
【0018】具体的には、英語音声による音声合成装置
1において、音声分析部10は、入力される英語の自然
発話の音声波形信号の音声セグメントと、上記音声波形
信号に対応する英語の音素列とに基づいて、英語の音素
隠れマルコフモデルメモリ(以下、隠れマルコフモデル
をHMMという。)23内のHMMを参照して、上記音
声波形信号における音素毎の索引情報と、上記索引情報
によって示された音素毎の第1の音響的特徴パラメータ
と、上記索引情報によって示された音素毎の第1の韻律
的特徴パラメータとを抽出して出力する。英語の特徴パ
ラメータメモリ30は、上記音声分析部10から出力さ
れる索引情報と、上記第1の音響的特徴パラメータと、
上記第1の韻律的特徴パラメータとを記憶する。次い
で、重み係数学習部11は、英語の特徴パラメータメモ
リ30に記憶された第1の音響的特徴パラメータと上記
第1の韻律的特徴パラメータとに基づいて、同一の音素
種類の1つの目標音素とそれ以外の音素候補との間の第
2の音響的特徴パラメータにおける音響的距離を計算
し、上記計算した音響的距離に基づいて各音素候補に対
して上記第2の音響的特徴パラメータ毎に所定の統計的
解析を実行することにより、各音素候補に対する上記第
2の音響的特徴パラメータにおける寄与度を表わす各目
標音素毎の重み係数ベクトルを決定する。英語の重み係
数ベクトルメモリ31は、重み係数学習部11によって
決定された上記第2の音響的特徴パラメータにおける各
目標音素毎の重み係数ベクトルと、予め与えられた、各
音素候補に関する第2の韻律的特徴パラメータにおける
寄与度を表わす各目標音素毎の重み係数ベクトルとを記
憶する。さらに、音声単位選択部12は、英語の重み係
数ベクトルメモリ31に記憶された各目標音素毎の重み
係数ベクトルと、英語の特徴パラメータメモリ30に記
憶された第1の韻律的特徴パラメータとに基づいて、入
力される英語の自然発話文の音素列に対して、目標音素
と音素候補との間の近似コストを表わす目標コストと、
隣接して連結されるべき2つの音素候補間の近似コスト
を表わす連結コストとを含むコストが最小となる、音素
候補の組み合わせを検索して、検索した音素候補の組み
合わせの索引情報を出力する。そして、音声合成部13
は、音声単位選択部12から出力される索引情報に基づ
いて、当該索引情報に対応する英語の音声波形信号の音
声セグメントを英語の音声波形信号データベースメモリ
21から逐次読み出して連結してバッファメモリ14を
介してケプストラム抽出部111に出力する。
【0019】次いで、日本語音声による音声合成装置2
において、音声分析部110は、入力される日本語の自
然発話の音声波形信号の音声セグメントと、上記音声波
形信号に対応する日本語の音素列とに基づいて、日本語
のHMMメモリ123内のHMMを参照して、上記音声
波形信号における音素毎の索引情報と、上記索引情報に
よって示された音素毎の第1の音響的特徴パラメータ
と、上記索引情報によって示された音素毎の第1の韻律
的特徴パラメータとを抽出して出力する。日本語の特徴
パラメータメモリ130は、上記音声分析部110から
出力される索引情報と、上記第1の音響的特徴パラメー
タと、上記第1の韻律的特徴パラメータとを記憶する。
一方、ケプストラム抽出部111は、入力される英語の
音声合成信号波形データから音素毎に例えば12次のメ
ルケプストラム係数などのケプストラム係数データを抽
出して音声単位選択部112に出力する。さらに、音声
単位選択部112は、入力されるケプストラム係数デー
タを目標音素データとして用いて、日本語の特徴パラメ
ータメモリ130に記憶されたケプストラム係数データ
のみならず、(1)音素接続点におけるケプストラム距
離、(2)対数パワーの差の絶対値、及び、(3)音声
基本周波数F0の差の絶対値を含む音響的特徴パラメー
タに基づいて、入力される英語の自然発話文の音素列に
対して、目標音素と音素候補との間の近似コストを表わ
す目標コストと、隣接して連結されるべき2つの音素候
補間の近似コストを表わす連結コストとを含むコストが
最小となる、音素候補の組み合わせを検索して、検索し
た音素候補の組み合わせの索引情報を出力する。そし
て、音声合成部113は、音声単位選択部12から出力
される索引情報に基づいて、当該索引情報に対応する日
本語の音声波形信号の音声セグメントを日本語の音声波
形信号データベースメモリ121から逐次読み出して連
結してスピーカ14に出力することにより、音声合成装
置は、上記入力された英語の音素列に対応する日本人に
よる(すなわち、日本語の音声波形データベースメモリ
121内の音声波形データベースの日本人の音声セグメ
ントによる)音声を合成して出力する。
【0020】ここで、音声分析部10及び110の処理
は新しい各音声波形信号データベース(メモリ21及び
121内)に対しては必ず一度行なう必要があり、重み
係数学習部11の処理は、一般に一度の処理でよく、重
み係数学習部11によって求めた最適重み係数は異なる
音声合成条件に対しても再利用が可能である。さらに、
音声単位選択部12及び112と、ケプストラム抽出部
111と、音声合成部13の処理は、音声合成すべき入
力音素列が変われば、その都度実行される。
【0021】本実施形態の英語音声による音声合成装置
1は、与えられたレベルの入力に基づいて必要とする、
すべての特徴パラメータを予測し、所望の音声の特徴に
最も近いサンプル(すなわち、音素候補の音声波形信
号)をメモリ21内の音声波形信号データベースの中か
ら選び出す。最低限、音素ラベルの系列が与えられれば
処理は可能であるが、音声基本周波数F0や音素時間長
が予め与えられていれば、さらに高品質の合成音声が得
られる。なお、入力として単語の情報だけが与えられた
場合には、例えば音素HMMなどの辞書や規則に基づい
て音素系列を予測する必要がある。また、韻律特徴が与
えられなかった場合には音声波形信号データベース中の
いろいろな環境における音素の既知の特徴を基に標準的
な韻律を生成する。
【0022】また、日本語音声による音声合成装置2
は、音声合成装置1から入力されるケプストラム係数デ
ータを目標音素データとして、所望の音声の特徴に最も
近いサンプル(すなわち、音素候補の音声波形信号)を
メモリ121内の音声波形信号データベースの中から選
び出す。最低限、音素ラベルの系列が与えられれば処理
は可能であるが、音声基本周波数F0や音素時間長が予
め与えられていれば、さらに高品質の合成音声が得られ
る。なお、入力として単語の情報だけが与えられた場合
には、例えば音素HMMなどの辞書や規則に基づいて音
素系列を予測する必要がある。また、韻律特徴が与えら
れなかった場合には音声波形信号データベース中のいろ
いろな環境における音素の既知の特徴を基に標準的な韻
律を生成する。
【0023】本実施形態では、音声波形信号データベー
スメモリ21及び121内の録音内容を少なくとも正書
法で記述されたテキストデータが例えば、テキストデー
タベースメモリ22及び122内のテキストデータベー
スのように存在するならば、あらゆる音声波形信号デー
タベースが合成用の音声波形信号データとして利用可能
であるが、出力音声の品質は録音状態、音声波形信号デ
ータベース中の音素のバランス等に大きく影響を受け、
メモリ21及び121内の音声波形信号データベースが
豊富な内容であれば、より多様な音声が合成でき、反対
に音声波形信号データベースが貧弱であれば、合成音声
は不連続感が強く、ブツブツしたものになる。
【0024】次いで、自然な発話音声に対する音素ラベ
ル付けについて説明する。音声単位の選択の善し悪しは
音声波形信号データベース中の音素のラベル付けと検索
の方法に依存する。ここで、好ましい実施形態において
は、音声単位は、音素である。まず、録音された音声に
付与された正書法の発話内容を音素系列に変換し、さら
に音声波形信号に割り当てる。韻律的特徴パラメータの
抽出はこれに基づいて行なわれる。音声分析部10及び
110の入力はそれぞれメモリ22及び122内の音素
表記を伴ったメモリ21及び121内の音声波形信号デ
ータであり、出力は特徴ベクトル又は特徴パラメータで
ある。この特徴ベクトルは音声波形信号データベース中
で音声サンプルを表す基本単位となり、最適な音声単位
の選択に用いられる。
【0025】音声分析部10及び110の処理における
第1段階においては、正書法で書かれた発話内容が実際
の音声波形信号データでどのように発音されているかを
記述するための正書法テキストから音素記号への変換で
ある。次いで、第2段階においては、韻律的及び音響的
特徴を計測するために各音素の開始及び終了時点を決め
るために、各音素記号を音声波形信号に対応付ける処理
である(以下、当該処理を、音素のアラインメント処理
という。)。さらに、第3段階においては、各音素の特
徴ベクトル又は特徴パラメータを生成することである。
この特徴ベクトルには、必須項目として音素ラベル、メ
モリ21及び121内の音声波形信号データベース中の
各ファイルにおける当該音素の開始時刻(開始位置)、
音声基本周波数F0、音素時間長、パワーの情報が記憶
され、さらに、特徴パラメータのオプションとしてスト
レス、アクセント型、韻律境界に対する位置、スペクト
ル傾斜等の情報が記憶される。以上の特徴パラメータを
整理すると、例えば、次の表1のようになる。
【0026】
【表1】 ─────────────────────────────────── 索引情報: 索引番号(1つのファイルに対して付与) メモリ21及び121内の音声波形信号データベース中の各ファイルに おける当該音素の開始時刻(開始位置) ─────────────────────────────────── 第1の音響的特徴パラメータ: 12次メルケプストラム係数 12次Δメルケプストラム係数 音素ラベル 弁別素性: 母音性(vocalic)(+)/非母音性(non-vocalic)(−) 子音性(consonantal)(+)/非子音性(non-consonantal)(−) 中断性(interrupted)(+)/連続性(continuant)(−) 抑止性(checked)(+)/非抑止性(unchecked)(−) 粗擦性(strident)(+)/円熟性(mellow)(−) 有声(voiced)(+)/無声(unvoiced)(−) 集約性(compact)(+)/拡散性(diffuse)(−) 低音調性(grave)(+)/高音調性(acute)(−) 変音調性(flat)(+)/常音調性(plain)(−) 嬰音調性(sharp)(+)/常音調性(plain)(−) 緊張性(tense)(+)/弛緩性(lax)(−) 鼻音性(nasal)(+)/口音性(oral)(−) ─────────────────────────────────── 第1の韻律的特徴パラメータ: 音素時間長 音声基本周波数F パワー ───────────────────────────────────
【0027】とって代わって、第1の音響的特徴パラメ
ータは、好ましくは、フォルマントパラメータと、声道
音源パラメータであってもよい。
【0028】上記索引情報内の開始時刻(開始位置)、
第1の音響的特徴パラメータ及び第1の韻律的特徴パラ
メータは、各音素毎に特徴パラメータメモリ30及び1
30に記憶される。ここで、音素ラベルに付与される、
例えば12個の弁別素性の特徴パラメータは各項目別に
(+)又は(−)のパラメータ値が与えられる。さら
に、例えば、音声分析部10の出力結果である特徴パラ
メータの一例を表2に示す。ここで、索引番号は、音声
波形信号データベースメモリ21において、例えば複数
の文からなる1つのパラグラフ又は1つの文のファイル
毎に、索引番号が付与され、そして、1つの索引番号が
付与されたファイル中の任意の音素の位置を示すために
当該ファイル内の開始時刻から計時された当該音素の開
始時刻及びその当該音素の音素時間長とを付与すること
により、当該音素の音声波形信号の音声セグメントを特
定することができる。
【0029】
【表2】音声分析部10の出力結果である特徴パラメー
タの一例 索引番号X0005 ────────────────────── 音素 時間長 基本周波数 パワー ……… ────────────────────── # 120 90 4.0 ……… s 175 98 4.7 ……… ei 95 102 6.5 ……… dh 30 114 4.9 ……… ih 75 143 6.9 ……… s 150 140 5.7 ……… p 87 137 5.1 ……… l 34 107 4.9 ……… ii 150 98 6.3 ……… z 140 87 5.8 ……… # 253 87 4.0 ……… ───────────────────────
【0030】表2において、#はポーズを示す。音声単
位を選択する場合に、音響的及び韻律的な各特徴パラメ
ータがそれぞれの音素でどれだけの寄与をするかを予め
調べておくことが必要であり、第4段階では、このため
に音声波形信号データベース中のすべての音声サンプル
を用いて各特徴パラメータの重み係数を決定する。
【0031】音声分析部10及び110における音素記
号系列の生成処理においては、上述した通り、本実施形
態では、少なくとも録音内容が正書法で記述されたもの
があれば、あらゆる音声波形信号データベースが合成用
の音声波形信号データとして利用可能である。入力とし
て単語の情報だけが与えられた場合には辞書や規則に基
づいて音素系列を予測する必要がある。また、音声分析
部10及び110における音素のアラインメント処理に
おいては、読み上げ音声の場合、各単語がそれぞれの標
準の発音に近く発音されることが多く、躊躇したり、言
い淀んだりすることもまれである。このような音声波形
信号データの場合には簡単な辞書検索によって音素ラベ
リングが正しく行なわれ、音素アラインメント用の音素
HMMの音素モデルの学習が可能となる。
【0032】音素アラインメント用の音素モデルの学習
では完全な音声認識の場合と異なり、学習用の音声波形
信号データとテスト用の音声波形信号データとを完全に
分離する必要はなく、すべての音声波形信号データを用
いて学習を行なうことができる。まず、別の話者用のモ
デルを初期モデルとし、すべての単語について標準発音
か限られた発音変化のみを許し、適切なセグメンテーシ
ョンが行なわれるように、全音声波形信号データを用い
てビタビの学習アルゴリズムを用いて音素のアライメン
トを行ない、特徴パラメータの再推定を行なう。単語間
のポーズは単語間ポーズ生成規則によって処理するが、
単語内にポーズがあってアライメントが失敗した場合に
は人手により修正する必要がある。
【0033】どういう音素ラベルを音素表記として用い
るかは選択が必要である。もし良く学習されたHMMモ
デルが利用できるような音素セットが存在するなら、そ
れを用いることが有利である。反対に、音声合成装置が
完全な辞書を持っているなら、音声波形信号データベー
スのラベルを完全に辞書と照合する方法も有効である。
我々は、重み係数の学習に対して選択の余地があるか
ら、後で音声合成装置が予測したものと等価なものを音
声波形信号データベースの中から照合できるかどうかを
最も重要な基準とすれば良い。発音の微妙な違いはその
発音の韻律的環境によって自動的に把握されるため、特
に手作業で音素のラベル付けを行なう必要はない。
【0034】前処理の次の段階として、個々の音素の調
音的な特徴を記述するための韻律特徴パラメータの抽出
を行なう。従来の音声学では、調音位置や調音様式とい
った素性で言語音を分類した。これに対して、ファース
(Firth)学派のような韻律を考慮した音声学で
は、韻律的文脈の違いから生ずる細かな音質の違いをと
らえるために、明瞭に調音されている箇所や強調が置か
れている箇所を区別する。これらの違いを記述する方法
はいろいろなものがあるが、ここでは以下の2つの方法
を用いる。まず低次のレベルでは、1次元の特徴を求め
るために、パワー、音素時間長の伸び及び音声基本周波
数Fを、ある音素について平均した値を用いる。一
方、高次のレベルでは、韻律特徴における上記の違いを
考慮した韻律境界や強調箇所をマークする方法を用い
る。これらの2種類の特徴は相互に密接に関係している
ため一方から他方を予測することができるが、両者は共
に各音素の特徴に強い影響を与えている。
【0035】音声波形信号データベースを記述するため
の音素セットの規定法に自由度があるのと同様に、韻律
的特徴パラメータの記述方法についても自由度がある
が、これらの選び方は音声合成装置の予測能力に依存す
る。もし音声波形信号データベースが予めラベリングさ
れているなら、音声合成装置の仕事は内部表現から音声
波形信号データベース中の実音声をいかに行なうかを適
切に学習することである。これに対して、もし音声波形
信号データベースが音素のラベル付けがなされていない
なら、どのような特徴パラメータを使えば音声合成装置
が最も適切な音声単位を予測できるかから検討すること
が必要となる。この検討及び最適な特徴パラメータの重
みの決定学習は、各特徴パラメータに対する重み係数を
学習しながら決定する重み係数学習部11において実行
される。
【0036】次いで、重み係数学習部11によって実行
される重み係数学習処理について述べる。与えられた目
標音声の音響的及び韻律的な環境に最適なサンプルを音
声波形信号データベースから選択するために、まずどの
特徴がどれだけ寄与しているかを音素的及び韻律的な環
境の違いによって決める必要がある。これは音素の性質
によって重要な特徴パラメータの種類が変化するため
で、例えば、音声基本周波数F0は有声音の選択には極
めて有効であるが、無声音の選択にはほとんど影響がな
い。また、摩擦音の音響的特徴は前後の音素の種類によ
って影響が変わる。最適な音素を選択するためにそれぞ
れの特徴にどれだけの重みを置くかを最適重み決定処
理、すなわち重み係数学習処理で自動的に決定する。
【0037】重み係数学習部11によって実行される最
適重み係数の決定処理で、最初に行なわれることは音声
波形信号データベース中で該当するすべての発話サンプ
ルの中から最適なサンプルを選ぶときに使われる特徴を
リストアップすることである。ここでは、調音位置や調
音様式等の音素的特徴と先行音素、当該音素、及び後続
音素の音声基本周波数F0、音素時間長、パワー等の韻
律的特徴パラメータ等を用いる。具体的には、詳細後述
する第2の韻律的特徴パラメータを用いる。次いで、第
2段階では各音素毎に、最適な候補を選ぶ際にどの特徴
パラメータがどれだけ重要かを決定するために、1つの
音声サンプル(又は音素の音声波形信号)に着目し、他
のすべての音素サンプルとの音素時間長の差をも含む音
響的距離を求め、上位N2個の最良の類似音声サンプ
ル、すなわちN2ベストの音素候補の音声波形信号の音
声セグメントを選び出す。
【0038】さらに、第3段階では線形回帰分析を行な
い、それらの類似音声サンプルを用いて種々の音響的及
び韻律的環境におけるそれぞれの特徴パラメータの重要
度を示す重み係数を求める。当該線形回帰分析処理にお
ける韻律的特徴パラメータとして、例えば、次の特徴パ
ラメータ(以下、第2の韻律的特徴パラメータとい
う。)を用いる。 (1)処理すべき当該音素から1つだけ先行する先行音
素(以下、先行音素という。)の第1の韻律的特徴パラ
メータ; (2)処理すべき当該音素から1つだけ後続する後続音
素(以下、後続音素という。)の音素ラベルの第1の韻
律的特徴パラメータ; (3)当該音素の音素時間長; (4)当該音素の音声基本周波数F0; (5)先行音素の音声基本周波数F0;及び、 (6)後続音素の音声基本周波数F0
【0039】ここで、先行音素は、当該音素から1つだ
け先行する音素としているが、これに限らず、複数の音
素だけ先行する音素を含んでもよい。また、後続音素
は、当該音素から1つだけ後続する音素としているが、
これに限らず、複数の音素だけ後続する音素を含んでも
よい。さらに、後続音素の音声基本周波数F0を除外し
てもよい。
【0040】以上の実施形態においては、線形回帰分析
を行って、重み係数を求めているが、本発明はこれに限
らず、例えば、所定のニューラルネットワークを用いた
統計的解析などの種々の統計的解析を用いて、重み係数
を求めてもよい。
【0041】次いで、自然な音声サンプルの選択を行う
音声単位選択部12の処理について説明する。従来例の
音声合成装置では目的の発話に対して音素系列を決定
し、さらに韻律制御のためのF0と音素時間長の目標値
が計算された。これに対して、本実施形態では最適の音
声サンプルを適切に選択するために韻律が計算されるだ
けで、直接韻律を制御することは行なわれない。
【0042】図3は、図1の音声単位選択部12の処理
の入力は、目的発話の音素系列と、それぞれの音素毎に
求めた各特徴パラメータに対する重みベクトル及び音声
波形信号データベース中の全サンプルを表す特徴ベクト
ルである。一方、出力は音声波形信号データベース中で
の音素サンプルの位置を表す索引情報であって、音声波
形信号の音声セグメントを接続するためのそれぞれの音
声単位(具体的には音素、場合により複数の音素の系列
が連続して選択され、一つの音声単位となることがあ
る)の開始位置と音声単位時間長を示したものである。
【0043】最適な音声単位は目的発話との差の近似コ
ストを表す目標コストと、隣接音声単位間での不連続性
の近似コストを表す連結コストの和を最小化するパスと
して求められる。経路探索には公知のビタビの学習アル
ゴリズムが利用される。目的とする目標音声t1 n=(t
1,…,tn)に対しては、目標コストと連結コストの和
を最小化することで、各特徴が目的音声に近く、しかも
音声単位間の不連続性が少ない音声波形信号データベー
ス中の音声単位の組合せu1 n=(u1,…,un)を選ぶ
ことができ、これらの音声単位の音声波形信号データベ
ース内での位置を示すことにより、任意の発話内容の音
声合成が可能になる。
【0044】音声単位の選択コストは、図3に示すよう
に、目標コストCt(ui,ti)と連結コストCc(u
i-1,ui)からなり、目標コストCt(ui,ti)は、
音声波形信号データベース中の音声単位(音素候補)u
iと、合成音声として実現したい音声単位(目標音素)
iの間の差の予測値であり、連結コストCc(ui-1
i)は接続単位(接続する2つの音素)ui-1とui
の間の接続で起こる不連続の予測値である。例えば、本
出願人によって研究実用化された従来のATRν−Ta
lk音声合成システムも目標コストと連結コストを最小
化するという点では類似の考え方を取っていたが、韻律
的な特徴パラメータを直接に単位選択に用いるというこ
とは本実施形態の音声合成装置の新しい特徴となってい
る。
【0045】次いで、コストの計算について述べる。目
標コストは実現したい音声単位の特徴ベクトルtiと音
声波形信号データベース中から選ばれた候補の音声単位
の特徴ベクトルuiの各要素の差の重み付き合計であ
り、各目標サブコストCt j(ti,ui)の重み係数wt j
が与えられた場合、目標コストCt(ti,ui)は次式
で計算することができる。
【0046】
【数1】
【0047】ここで、特徴ベクトルの各要素の差はp個
の目標サブコストCt j(ti,ui)(ただし、jは1か
らpまでの自然数である。)で表され、特徴ベクトルの
次元数pは、好ましい実施例においては、20から30
の範囲で可変としている。より好ましい実施例において
は、次元数p=30であり、目標サブコストCt(ti
i)及び重み係数wt jにおける変数jの特徴ベクトル
又は特徴パラメータは、上述の第2の韻律的特徴パラメ
ータである。
【0048】一方、連結コストCc(ui-1,ui)も同
様にq個の連結サブコストCc j(ui-1,ui)(ただ
し、jは1からqまでの自然数である。)の重み付き合
計で表される。連結サブコストは接続する音声単位u
i-1とuiの音響的特徴から決定することができる。好ま
しい実施形態においては、連結サブコストとしては、
(1)音素接続点におけるケプストラム距離、(2)対
数パワーの差の絶対値、(3)音声基本周波数F0の差
の絶対値の3種類を用いており、すなわち、q=3であ
る。これら3種類の音響的特徴パラメータと、先行音素
の音素ラベルと、後続音素の音素ラベルとを、第3の音
響的特徴パラメータという。各連結サブコストCc j(u
i-1,ui)の重みwc jは予め経験的に(又は実験的に)
与えられ、この場合、連結コストCc(ui-1,ui)は
次式で計算することができる。
【0049】
【数2】
【0050】もし、音素候補ui-1とuiが音声波形信号
データベース中の連続する音声単位であった場合には、
接続は自然であり、連結コストは0になる。ここで、好
ましい実施例においては、連結コストは、特徴パラメー
タメモリ30内の第1の音響的特徴パラメータと第1の
韻律的特徴パラメータに基づいて決定され、連続量であ
る上記3つの第3の音響的特徴パラメータを取り扱うか
ら例えば0から1までの任意のアナログ量をとる一方、
目標コストは、それぞれの先行あるいは後続音素の弁別
素性が一致するか否かなどを示す上記30個の第2の韻
律的特徴パラメータを取り扱うから、例えば0(特徴が
一致しているとき)又は1(特徴が一致していないと
き)のデジタル量で表される要素を含む。そして、N個
の音声単位の連結コストはそれぞれの音声単位の目標コ
ストと連結コストの和となり、次式で表される。
【0051】
【数3】
【0052】このとき、Sはポーズを表しており、Cc
(S,u1)及びCc(un,S)はポーズから最初の音
声単位へ及び最後の音声単位からポーズへの接続におけ
る連結コストを表している。この表現からも明らかなよ
うに、本実施形態ではポーズも音声波形信号データベー
ス中の他の音素とまったく同じ扱い方をしている。さら
に上の式をサブコストで直接表現すると次式のようにな
る。
【0053】
【数4】
【0054】音声単位選択処理は上式で決まる全体のコ
ストを最小にするような音声単位の組合せ/u1 nを決定
するためのものである。ここで、日本出願の明細書で
は、オーバーラインを記述することができないために、
オーバーラインの代わりに/を用いる。
【0055】
【数5】/u1 n= min C(t1 n,u1 n) u1,u2,…,un
【0056】上記数5において、関数minは、当該関
数の引数であるC(t1 n,u1 n)を最小にする音素候補
の組み合わせ(すなわち、音素列候補)u1,u2,…,un
=/u1 nを表わす関数である。
【0057】図1の重み係数学習部11における重み係
数の学習処理について以下説明する。目標サブコストの
重みは音響的距離に基づく線形回帰分析を用いて決定す
る。重み係数の学習処理ではすべての音素毎に異なる重
み係数を決めることもできるし、音素カテゴリ(例え
ば、すべての鼻音)毎に重み係数を決めることもでき
る。また、すべての音素について共通の重み係数を決め
ることもできるが、ここでは各音素で別々の重み係数を
用いることとする。特徴パラメータメモリ30内のデー
タベースにおける各トークン(又は各音声サンプル)
は、各トークンの音響的特徴に関係する第1の音響的特
徴パラメータと第1の韻律的特徴パラメータの組で記述
されている。重み係数は、第1の音響的特徴パラメータ
と第1の韻律的特徴パラメータの各パラメータと、トー
クン又はコンテキストにおける音素の第2の音響的特徴
パラメータにおける差又は音響的距離との間の関係の強
さ(寄与度)を決定するために学習される。
【0058】以下に線形回帰分析における処理の流れを
示す。
【0059】<1>現在学習を行なっている音素種類
(又は音素カテゴリ)に属する音声波形信号データベー
ス中のすべてのサンプルについて繰り返し以下の4つの
処理(a)乃至(d)を実行する。 (a)取り上げた音声サンプルを目的の発話内容と見な
す。 (b)音声波形信号データベース中の同一の音素種類
(カテゴリ)に属する他のすべてのサンプルと当該音声
サンプルとの音響的距離を計算する。 (c)目標音素に近いもの上位N1個(例えば、N1=
20個である。)の最良の音素候補を選び出す。 (d)目標音素自身tiと上記(c)で選んだ上位N1
個のサンプルについて目標サブコストCt j(ti,ui
を求める。 <2>すべての目標音素tiと上位N1個の最適サンプ
ルについて音響的距離と目標サブコストCt j(ti
i)を求める。 <3>p個の目標サブコストに対して線形回帰分析を実
行することにより、上記目標音素を表わす第1の音響的
特徴パラメータと第1の韻律的特徴パラメータの各特徴
パラメータにおける寄与度を予測して、当該音素種類
(カテゴリ)に対する、p個の目標サブコストの線形重
み係数を求める。 この重み係数を用いて上記コストを計算する。そして、
<1>から<3>までの処理をすべての音素種類(カテ
ゴリ)について繰り返す。
【0060】もし仮に目的音声単位の音響的距離が直接
求められた場合に最も近い音声サンプルを選び出すため
にはそれぞれの目標サブコストにどのような重み係数を
かければ良いのかを決定するのが、この重み係数学習部
11の目的である。本実施形態の利点は音声波形信号デ
ータベース中の音声波形信号の音声セグメントを直接的
に利用できることである。
【0061】さらに、音声単位選択部12は、英語の重
み係数ベクトルメモリ31に記憶された各目標音素毎の
重み係数ベクトルと、英語の特徴パラメータメモリ30
に記憶された第1の韻律的特徴パラメータとに基づい
て、入力される英語の自然発話文の音素列に対して、目
標音素と音素候補との間の近似コストを表わす目標コス
トと、隣接して連結されるべき2つの音素候補間の近似
コストを表わす連結コストとを含むコストが最小とな
る、音素候補の組み合わせを検索して、検索した音素候
補の組み合わせの索引情報を出力する。そして、音声合
成部13は、音声単位選択部12から出力される索引情
報に基づいて、当該索引情報に対応する英語の音声波形
信号の音声セグメントを英語の音声波形信号データベー
スメモリ21から逐次読み出して連結してバッファメモ
リ14を介してケプストラム抽出部111に出力する。
【0062】以上のように構成された英語音声による音
声合成装置1では、目標コストとして実現したい音声単
位の基本周波数、音韻継続長、対数パワーなどを要素と
した特徴ベクトルと、メモリ21内の音声波形データー
ベース中から選ばれた候補の音声単位の特徴ベクトルの
差を用いる。
【0063】次いで、日本語音声による音声合成装置2
の構成及び動作について詳述する。例えば、英語の音声
波形データベースで他言語である日本語の音声を合成す
る場合、合成する日本語の音素が音声波形データベース
に無い場合がある。そこで,各言語毎に、公知の通り国
際的に取り決められたIPA(the International Phon
etic Alphabet)で定義される調音位置や調音様式によ
る分類を用いて音素をクラスタリングし、各クラスタに
所属する音素を合成のための音素候補とする。次の表
は、日本語の音素を調音様式で分類した例を示す。
【0064】
【表3】 日本語音素分類 ──────────────────────────────── 調音様式 日本語の音素例 ──────────────────────────────── 母音 /a/,/i/,/u/,/e/,/o/ 半母音 /j/,/w/ 破裂音 /p/,/b/,/t/,/d/,/k/,/g/ 摩擦音 /f/,/h/,/s/,/sh/,/z/,/r/ 破擦音 /ts/ 鼻音 /n/,/m/ ────────────────────────────────
【0065】音声単位選択部112の目標コストの計算
では、目標として音声合成装置1で使われていた韻律情
報ではなく、音声合成装置1で音声合成した英語音声信
号をケプストラム抽出部111によって抽出されたケプ
ストラム情報を用いて音素候補を選択することを特徴と
している。
【0066】日本語の音声波形データベースメモリ12
1は、英語の音声波形データベースメモリ21と同様に
日本語の音声波形データベースを予め記憶し、日本語の
テキストデータベースメモリ122は、英語のテキスト
データベースメモリ22と同様に、日本語の音声波形デ
ータベースメモリ121の内容と対応して日本語のテキ
ストデータベースを予め記憶し、日本語の音素HMMメ
モリ123は、英語の音素HMMメモリ23と同様に、
日本語音素HMMを予め記憶する。音声分析部110
は、音声分析部10の処理と同様に動作して、上記第1
の音響的特徴パラメータと上記第1の韻律的特徴パラメ
ータを抽出して日本語の特徴パラメータメモリ130に
記憶する。
【0067】音声単位選択部112の処理の入力は、目
的発話の英語の音素系列と、目標特徴パラメータとなる
ケプストラム抽出部111から入力されたケプストラム
係数データと、メモリ130内の音声波形信号データベ
ース中の全サンプルを表す特徴ベクトルである。一方、
出力は音声波形信号データベース中での音素サンプルの
位置を表す索引情報であって、音声波形信号の音声セグ
メントを接続するためのそれぞれの音声単位(具体的に
は音素、場合により複数の音素の系列が連続して選択さ
れ、一つの音声単位となることがある)の開始位置と音
声単位時間長を示したものである。
【0068】最適な音声単位は、目的発話との差の近似
コストを表す目標コストと、隣接音声単位間での不連続
性の近似コストを表す連結コストの和を最小化するパス
として求められる。経路探索には公知のビタビの学習ア
ルゴリズムが利用される。目的とする目標音声t1 n
(t1,…,tn)に対しては、目標コストと連結コスト
の和を最小化することで、各特徴が目的音声に近く、し
かも音声単位間の不連続性が少ない音声波形信号データ
ベース中の音声単位の組合せu1 n=(u1,…,un)を
選ぶことができ、これらの音声単位の音声波形信号デー
タベース内での位置を示すことにより、任意の発話内容
の音声合成が可能になる。
【0069】音声単位の選択コストは、図3に示すよう
に、目標コストCt(ui,ti)と連結コストCc(u
i-1,ui)からなり、目標コストCt(ui,ti)は、
音声波形信号データベース中の音声単位(音素候補)u
iと、合成音声として実現したい音声単位(目標音素で
あり、音声合成装置2では、ケプストラム係数データを
用いる。))tiの間の差の予測値であり、連結コスト
c(ui-1,ui)は接続単位(接続する2つの音素)
i-1とuiとの間の接続で起こる不連続の予測値であ
る。例えば、本特許出願人によって研究実用化された従
来のATRν−Talk音声合成システムも目標コスト
と連結コストを最小化するという点では類似の考え方を
取っていたが、韻律的な特徴パラメータを直接に単位選
択に用いるということは本実施形態の音声合成装置の新
しい特徴となっている。
【0070】次いで、コストの計算について述べる。目
標コストは実現したい音声単位の特徴ベクトル(ケプス
トラム係数データ)tiと音声波形信号データベース中
から選ばれた候補の音声単位の特徴ベクトル(ケプスト
ラム係数データ)uiの各要素の差の重み付き合計であ
り、各目標サブコストCt j(ti,ui)の重み係数wt j
が与えられた場合、目標コストCt(ti,ui)は次式
で計算することができる。
【0071】
【数6】
【0072】ここで、特徴ベクトルの各要素の差はp個
の目標サブコストCt j(ti,ui)(ただし、jは1か
らpまでの自然数である。)で表され、特徴ベクトルの
次元数pは、好ましい実施例においては、20から30
の範囲で可変としている。より好ましい実施形態におい
ては、次元数p=30であり、目標サブコストC
t(ti,ui)の特徴パラメータは、ケプストラム係数
データである。
【0073】一方、連結コストCc(ui-1,ui)も同
様にq個の連結サブコストCc j(ui-1,ui)(ただ
し、jは1からqまでの自然数である。)の重み付き合
計で表される。連結サブコストは接続する音声単位u
i-1とuiの音響的特徴から決定することができる。好ま
しい実施形態においては、連結サブコストとしては、
(1)音素接続点におけるケプストラム距離、(2)対
数パワーの差の絶対値、(3)音声基本周波数F0の差
の絶対値の3種類を用いており、すなわち、q=3であ
る。各連結サブコストCc j(ui-1,ui)の重みwc j
予め経験的に(又は実験的に)与えられ、この場合、連
結コストCc(ui-1,ui)は次式で計算することがで
きる。
【0074】
【数7】
【0075】もし、音素候補ui-1とuiが音声波形信号
データベース中の連続する音声単位であった場合には、
接続は自然であり、連結コストは0になる。ここで、好
ましい実施例においては、連結コストは、特徴パラメー
タメモリ30内の第1の音響的特徴パラメータと第1の
韻律的特徴パラメータに基づいて決定され、連続量であ
る上記3つの第3の音響的特徴パラメータを取り扱うか
ら例えば0から1までの任意のアナログ量をとる一方、
目標コストは、それぞれの先行あるいは後続音素の弁別
素性が一致するか否かなどを示す上記30個の第2の韻
律的特徴パラメータを取り扱うから、例えば0(特徴が
一致しているとき)又は1(特徴が一致していないと
き)のデジタル量で表される要素を含む。そして、N個
の音声単位の連結コストはそれぞれの音声単位の目標コ
ストと連結コストの和となり、次式で表される。
【0076】
【数8】
【0077】このとき、Sはポーズを表しており、Cc
(S,u1)及びCc(un,S)はポーズから最初の音
声単位へ及び最後の音声単位からポーズへの接続におけ
る連結コストを表している。この表現からも明らかなよ
うに、本実施形態ではポーズも音声波形信号データベー
ス中の他の音素とまったく同じ扱い方をしている。さら
に上の式をサブコストで直接表現すると次式のようにな
る。
【0078】
【数9】
【0079】音声単位選択処理は上式で決まる全体のコ
ストを最小にするような音声単位の組合せ/u1 nを決定
するためのものである。ここで、日本出願の明細書で
は、オーバーラインを記述することができないために、
オーバーラインの代わりに/を用いる。
【0080】
【数10】/u1 n= min C(t1 n,u1 n) u1,u2,…,un
【0081】上記数10において、関数minは、当該
関数の引数であるC(t1 n,u1 n)を最小にする音素候
補の組み合わせ(すなわち、音素列候補)u1,u2,…,
n=/u1 nを表わす関数である。従って、音声単位選
択部112は、ケプストラム抽出部111から入力され
るケプストラム係数データと、日本語の特徴パラメータ
メモリ30に記憶された第1の韻律的特徴パラメータと
に基づいて、入力される英語の自然発話文の音素列に対
して、目標音素と音素候補との間の近似コストを表わす
目標コストと、隣接して連結されるべき2つの音素候補
間の近似コストを表わす連結コストとを含むコストが最
小となる、音素候補の組み合わせを検索して、検索した
音素候補の組み合わせの索引情報を出力する。そして、
音声合成部113は、音声単位選択部112から出力さ
れる索引情報に基づいて、当該索引情報に対応する日本
語の音声波形信号の音声セグメントを日本語の音声波形
信号データベースメモリ121から逐次読み出して連結
してスピーカ114を介して出力することにより、英語
の入力音素列に基づいて、日本語の音声波形データベー
スによる日本人の声による英語の音声合成信号の音声を
出力することができる。
【0082】以上のように構成された図1の音声合成シ
ステムにおいて、音声分析部10及び110と、重み係
数学習部11と、ケプストラム抽出部111と、音声単
位選択部12及び112と、音声合成部113とは、例
えば、マイクロプロセッシングユニット(MPU)など
のデジタル計算機又は演算制御装置によって構成される
一方、テキストデータベースメモリ22及び122と、
音素HMMメモリ23及び123と、特徴パラメータメ
モリ30及び130と、重み係数ベクトルメモリ31と
は例えばハードディスクなどの記憶装置で構成される。
ここで、好ましい実施例においては、音声波形信号デー
タベースメモリ21及び121は、CD−ROMの形式
の記憶装置である。
【0083】以下、以上のように構成された図1の音声
合成装置の各処理部10乃至13における処理について
説明する。
【0084】図4は、図1の音声分析部10によって実
行される音声分析処理のフローチャートである。図4に
おいて、まず、ステップS11で、音声波形信号データ
ベースメモリ21から自然発話の音声波形信号の信号を
入力してA/D変換してデジタル音声波形信号データに
変換するとともに、当該音声波形信号の音声文を書き下
したテキストデータをテキストデータベースメモリ22
内のテキストデータベースから入力する。ここで、テキ
ストデータはなくてもよく、ない場合は、音声波形信号
から公知の音声認識装置を用いて音声認識してテキスト
データを得てもよい。なお、A/D変換した後のデジタ
ル音声波形信号データは、例えば10ミリ秒毎の音声セ
グメントに分割されている。そして、ステップS12
で、音素列が予測されているか否かが判断され、音素列
が予測されていないときは、ステップS13で例えば音
素HMMを用いて音素列を予測して記憶した後、ステッ
プS14に進む。ステップS12で音素列が予測されて
いる又は予め与えられている、もしくは手作業で音素ラ
ベルが付与されているときは、直接にステップS14に
進む。
【0085】ステップS14では、各音素セグメントに
対する、音声波形信号の複数の文又は1つの文からなる
ファイルにおける開始位置と終了位置を記録し、当該フ
ァイルに索引番号を付与する。次いで、ステップS15
では、各音素セグメントに対する上記第1の音響的特徴
パラメータを例えば公知のピッチ抽出法を用いて抽出す
る。そして、ステップS16では、各音素セグメントに
対して音素ラベル付けを実行して、音素ラベルとそれに
対する第1の音響的特徴パラメータを記録する。さら
に、ステップS17では、各音素セグメントに対する第
1の音響的特徴パラメータと、音素ラベルと、音素ラベ
ルに対する上記第1の韻律的特徴パラメータを、ファイ
ルの索引番号と、ファイル内の開始位置と時間長ととも
に、特徴パラメータメモリ30に記憶する。最後に、ス
テップS18で、各音素セグメントに対して、ファイル
の索引番号とファイル内の開始位置と時間長とを含む索
引情報を付与して、当該索引情報を特徴パラメータメモ
リ30に記憶して、当該音声分析処理を終了する。
【0086】また、音声分析部110は、図4の音声分
析処理と同様の処理を日本語について実行する。
【0087】図5及び図6は、図1の重み係数学習部1
1によって実行される重み係数学習処理のフローチャー
トである。図5において、まず、ステップS21で、特
徴パラメータメモリ30から1個の音素種類を選択す
る。次いで、ステップS22で、選択された音素種類と
同一の音素種類を有する音素の第1の音響的特徴パラメ
ータから第2の音響的特徴パラメータを取り出して目標
音素の第2の音響的特徴パラメータとする。そして、ス
テップS23で、同一の音素種類を有する目標音素以外
の残りの音素と、第2の音響的特徴パラメータにおける
目標音素との間の、音響的距離であるユークリッドケプ
ストラム距離と、底を2とする対数音素時間長とを計算
する。ステップS24では、すべての残りの音素につい
てステップS22及びS23の処理をしたか否かが判断
され、処理が完了していないときは、ステップS25で
別の残りの音素を選択してステップS23からの処理を
繰り返す。
【0088】一方、ステップS24で処理が完了してい
るときは、ステップS26で、ステップS23で得られ
た距離及び時間長に基づいて、上位N1個の最良の音素
候補を選択する。次いで、ステップS27で選択された
上位N1個の最良の音素候補について1番目からN1番
目までランク付けする。そして、ステップS28で、ラ
ンク付けされたN1個の最良の音素候補に対して各距離
から中間値を引いてスケール変換値を計算する。そし
て、ステップS29において、すべての音素種類及び音
素についてステップS22からS28までの処理を完了
したか否かが判断され、完了していないときは、ステッ
プS30で別の音素種類又は音素を選択した後、ステッ
プS22からの処理を繰り返す。一方、ステップS29
で処理が完了しているときは、図6のステップS31に
進む。
【0089】図6において、ステップS31では、1個
の音素種類を選択する。次いで、ステップS32では、
選択された音素種類に対して各音素の第2の音響的特徴
パラメータを抽出する。そして、ステップS33で、選
択された音素種類に対するスケール変換値に基づいて線
形回帰分析を行うことにより、各第2の音響的特徴パラ
メータにおけるスケール変換値に対する寄与度を計算
し、計算された寄与度を目標音素毎の重み係数として重
み係数ベクトルメモリ31に記憶する。ステップS34
では、すべての音素種類について上記ステップS32及
びS33の処理を完了したか否かが判断され、完了して
いないときは、ステップS35で別の音素種類を選択し
た後、ステップS32からの処理を繰り返す。一方、ス
テップS34で処理が完了しているときは、当該重み係
数学習処理を終了する。なお、各第2の韻律的特徴パラ
メータにおける寄与度は経験的に(又は実験的に)予め
与えられて、当該寄与度を目標音素毎の重み係数ベクト
ルとして重み係数ベクトルメモリ31に記憶する。
【0090】図7は、図1の音声単位選択部12によっ
て実行される音声単位選択処理のフローチャートであ
る。図7において、まず、ステップS41で、入力され
た音素列のうち最初から1個目の音素を選択する。次い
で、ステップS42で、選択された音素と同一の音素種
類を有する音素の重み係数ベクトルを重み係数ベクトル
メモリ31から読み出し、目標サブコスト及び必要な特
徴パラメータを特徴パラメータメモリ30から読み出し
てリストアップする。そして、ステップS43ですべて
の音素について処理したか否かが判断され、完了してい
ないときはステップS44で次の音素を選択した後、ス
テップS42の処理を繰り返す。一方、ステップS43
で完了していないときは、ステップS45に進む。
【0091】ステップS45では、入力された音素列に
対して数4を用いて各音素候補における全体のコストを
計算する。次いで、ステップS46では、計算されたコ
ストに基づいて、上位N2個の最良の音素候補をそれぞ
れの目標音素に対して選択する。そして、ステップS4
7では、数5を用いてビタビサーチにより、全体のコス
トを最小にする音素候補の組み合わせの索引情報と、そ
の各音素の開始時刻と時間長とともに検索した後、音声
合成部13に出力して、当該音声単位選択処理を終了す
る。
【0092】図8は、図1の音声単位選択部112によ
って実行される音声単位選択処理のフローチャートであ
る。図8において、まず、ステップS51で、入力され
た音素列のうち最初から1個目の音素を選択する。次い
で、ステップS52で、選択された音素と同一の音素種
類を有する音素のケプストラム係数データをケプストラ
ム抽出部111から入力し、目標サブコスト及び必要な
特徴パラメータを特徴パラメータメモリ130から読み
出してリストアップする。そして、ステップS53です
べての音素について処理したか否かが判断され、完了し
ていないときはステップS54で次の音素を選択した
後、ステップS52の処理を繰り返す。一方、ステップ
S53で完了していないときは、ステップS55に進
む。
【0093】ステップS55では、入力された音素列に
対して数8を用いて各音素候補における全体のコストを
計算する。次いで、ステップS56では、計算されたコ
ストに基づいて、上位N2個の最良の音素候補をそれぞ
れの目標音素に対して選択する。そして、ステップS5
7では、数10を用いてビタビサーチにより、全体のコ
ストを最小にする音素候補の組み合わせの索引情報と、
その各音素の開始時刻と時間長とともに検索した後、音
声合成部113に出力して、当該音声単位選択処理を終
了する。
【0094】さらに、音声合成部113は、音声単位選
択部112から出力される索引情報と、その各音素の開
始時刻と時間長とに基づいて、音声波形信号データベー
スメモリ121に対してアクセスして単位選択された音
素候補のデジタル音声波形信号データを読み出して、逐
次D/A変換して変換後のアナログ音声信号をスピーカ
114を介して出力する。これにより、入力された英語
の音素列に対応する日本語の音声波形データベースによ
る日本人の声により音声合成された音声がスピーカ11
4から出力される。
【0095】本実施形態においては、音声波形信号の圧
縮や音声基本周波数F0や音素時間長の修正は不要にな
ったが、代わって音声サンプルを注意深くラベル付け
し、大規模な音声波形信号データベースの中から最適な
ものを選択することが必要となる。本実施形態の音声合
成方法の基本単位は音素であり、これは辞書やテキスト
−音素変換プログラムで生成されるが、同一の音素であ
っても音声波形信号データベース中に音素の十分なバリ
エーションを含んでいることが要求される。音声波形信
号データベースからの音声単位選択処理では目的の韻律
的環境に適合し、しかも接続したときに隣接音声単位間
での不連続性が最も低い音素サンプルの組合せが選ばれ
る。このために、音素毎に各特徴パラメータの最適重み
係数が決定される。
【0096】本実施形態の音声合成装置の特徴は、次の
通りである。 <単位選択基準としての韻律的情報の利用> スペクトル的特徴は韻律的特徴と不可分であるとの立場
から、音声単位の選択基準に韻律的な特徴を導入した。 <音響的及び韻律的特徴パラメータの重み係数の自動学
習> 音素環境や音響的特徴、韻律的特徴等の各種の特徴量が
音声単位の選択にどれだけの寄与があるかを音声波形信
号データベース中の全音声サンプルを利用することで自
動的に決定し、コーパスを基本とする音声合成装置を構
築した。 <音声波形信号の直接接続> 上記の自動学習により、大規模音声波形信号データベー
スから最適な音声サンプルを選び出すことにより、何ら
の信号処理も利用しない任意音声合成装置を構築した。 <音声波形信号データベースの外部情報化> 音声波形信号データベースを完全に外部情報として取り
扱うことにより、単にCD−ROM等に記憶した音声波
形信号データを取り替えることで任意の言語、任意の話
者に利用できる音声合成装置を構築した。
【0097】以上説明したように、本実施形態によれ
ば、英語音声による音声合成装置1と、日本語音声によ
る音声合成装置2とを備えて音声合成システムを構成し
たので、英語の音声波形データベースを用いて英語の音
声合成の音声波形データを発生した後、それに基づいて
日本語の音声波形データベースを用いた英語の音声合成
の音声を得ることができるので、例えば、日本語のネイ
ティブの日本人の声による英語の音声合成の音声を得る
ことができる。
【0098】<変形例> 図1の音声合成システムにおいて用いる英語の音声波形
データベースは、以下のように、図7の話者選択装置2
00で予め話者選択されたものであることが好ましい。
図7において、話者選択部200には、互いに異なる性
別及び異なる人の複数N個の英語の音声波形データベー
スを記憶した音声波形データベースメモリ21−1乃至
21−NがスイッチSWを介して接続されるとともに、
日本語の音声波形データベースメモリ121が接続され
る。話者選択部201は、音声合成したい日本語の音声
波形データベースの声質に近い英語の音声波形データベ
ースを選択して音声合成部13に接続する。選択基準と
して、性別、基本周波数のレンジ、音韻継続長などがあ
げられる。ここで、選択基準として用いることが好まし
いのは、性別及び基本周波数の平均値である。
【0099】話者選択部201は、複数Nの英語の音声
波形データベースの各登録話者に対して、スイッチSW
を順次切り換えて、動的計画法マッチング(DTW)で
時間整合したメモリ121内の目的話者の学習音声スペ
クトル時系列と、メモリ21−1乃至21−N内の各登
録話者の学習音声スペクトル時系列との距離(すなわ
ち、音響的特徴パラメータの距離)を求め、2乗誤差最
小基準により最も距離の小さい登録話者を選択する。そ
して、話者選択部201は、スイッチSWを制御して、
選択した登録話者の英語の音声波形データベースメモリ
21を音声合成部13に接続する。当該変形例では、日
本語話者の自然発話の声質に近い英語話者の自然発話の
音声合成を得ることができ、これにより、より声質が近
くより自然な発話による日本人の声による英語の音声合
成の音声を得ることができる。
【0100】以上の実施形態においては、英語音声によ
る音声合成装置1と、日本語音声による音声合成装置2
とを備えて音声合成システムを構成し、英語の音声波形
データベースを用いて英語の音声合成の音声波形データ
を発生した後、それに基づいて日本語の音声波形データ
ベースを用いた英語の音声合成の音声を得ることによ
り、日本語のネイティブの日本人の声による英語の音声
合成の音声を得ている。本発明はこれに限らず、2つの
言語は英語と日本語に限らず、異なる2つの言語であっ
てもよい。従って、音声合成部13の前に、公知の音声
認識装置を接続することにより、英語の自然発話文の音
声を音声認識した後、本実施形態の音声合成システムに
より、元の音声に対応する、日本人の声による英語の音
声合成の音声を発生することができる。
【0101】以上の実施形態においては、英語音声によ
る音声合成装置1と、日本語音声による音声合成装置2
とを備えて音声合成システムを構成しているが、音声合
成装置2と、マイクロホン(図示せず。)とA/D変換
器(図示せず。)とを備えて変形例の音声合成システム
を構成してもよい。すなわち、上記の実施形態では、英
語の音声合成信号波形データは、音声合成装置1により
発生しているが、これに代えて、英語の音声信号の音声
を、例えば英語のネイティブの人により発声して、それ
をマイクロホンに入力する。マイクロホンはその音声を
音声信号に変換し、次いで、A/D変換器により音声信
号データに変換した後、図1のケプストラム抽出部11
1に入力して、以下、音声合成装置2の処理を実行す
る。これにより、入力される英語の音声に基づいて、音
声合成装置2により日本語の音声波形データベースを用
いた英語の音声合成の音声を得ることにより、日本語の
ネイティブの日本人の声による英語の音声合成の音声を
得ることができる。ここで、もちろん、2つの言語は英
語と日本語に限らず、異なる2つの言語であってもよ
い。
【0102】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声合成システムによれば、第1の言語の自然
発話の音声波形信号の音声セグメントを記憶する第1の
記憶手段と、上記第1の記憶手段によって記憶された音
声波形信号の音声セグメントと、上記音声波形信号に対
応する音素列とに基づいて、上記音声波形信号における
音素毎の索引情報と、上記索引情報によって示された音
素毎の第1の音響的特徴パラメータと、上記索引情報に
よって示された音素毎の韻律的特徴パラメータとを抽出
して出力する第1の音声分析手段と、上記第1の音声分
析手段から出力される索引情報と、上記第1の音響的特
徴パラメータと、上記韻律的特徴パラメータとを記憶す
る第2の記憶手段と、上記第2の記憶手段によって記憶
された第1の音響的特徴パラメータと韻律的特徴パラメ
ータとに基づいて、同一の音素種類の1つの目標音素と
それ以外の音素候補との間の第2の音響的特徴パラメー
タにおける音響的距離を計算し、上記計算した音響的距
離に基づいて各音素候補に対して上記第2の音響的特徴
パラメータ毎に所定の統計的解析を実行することによ
り、各音素候補に対する上記第2の音響的特徴パラメー
タにおける寄与度を表わす各目標音素毎の重み係数ベク
トルを決定する重み係数学習手段と、上記重み係数学習
手段によって決定された上記第2の音響的特徴パラメー
タにおける各目標音素毎の重み係数ベクトルを記憶する
第3の記憶手段と、上記第1の言語とは異なる第2の言
語の自然発話の音声波形信号の音声セグメントを記憶す
る第4の記憶手段と、上記第4の記憶手段によって記憶
された音声波形信号の音声セグメントと、上記音声波形
信号に対応する音素列とに基づいて、上記音声波形信号
における音素毎の索引情報と、上記索引情報によって示
された音素毎の第1の音響的特徴パラメータと、上記索
引情報によって示された音素毎の韻律的特徴パラメータ
とを抽出して出力する第2の音声分析手段と、上記第2
の音声分析手段から出力される索引情報と、上記第1の
音響的特徴パラメータと、上記韻律的特徴パラメータと
を記憶する第5の記憶手段と、上記第3の記憶手段によ
って記憶された各目標音素毎の重み係数ベクトルと、上
記第2の記憶手段によって記憶された韻律的特徴パラメ
ータとに基づいて、入力される第1の言語の自然発話文
の音素列に対して、目標音素と音素候補との間の近似コ
ストを表わす目標コストと、隣接して連結されるべき2
つの音素候補間の近似コストを表わす連結コストとを含
むコストが最小となる、音素候補の組み合わせを検索し
て、検索した音素候補の組み合わせの索引情報を出力す
る第1の音声単位選択手段と、上記第1の音声単位選択
手段から出力される索引情報に基づいて、当該索引情報
に対応する音声波形信号の音声セグメントを上記第1の
記憶手段から逐次読み出して連結して出力することによ
り、上記入力された第1の言語の音素列に対応する第1
の言語の音声信号波形データを合成して出力する第1の
音声合成手段と、上記第1の音声合成手段から出力され
る音声信号波形データからケプストラム係数データを抽
出して出力する抽出手段と、上記抽出手段から出力され
るケプストラム係数データと、上記第5の記憶手段によ
って記憶された韻律的特徴パラメータとに基づいて、上
記入力される第1の言語の自然発話文の音素列に対し
て、目標音素と音素候補との間の近似コストを表わす目
標コストと、隣接して連結されるべき2つの音素候補間
の近似コストを表わす連結コストとを含むコストが最小
となる、音素候補の組み合わせを検索して、検索した音
素候補の組み合わせの索引情報を出力する第2の音声単
位選択手段と、上記第2の音声単位選択手段から出力さ
れる索引情報に基づいて、当該索引情報に対応する音声
波形信号の音声セグメントを上記第4の記憶手段から逐
次読み出して連結して出力することにより、上記入力さ
れた第1の言語の音素列に対応しかつ第2の言語の音声
セグメントによる音声信号波形を合成して出力する第2
の音声合成手段とを備える。従って、第2の言語のネイ
ティブの人の声による第1の言語の自然発話文の音声合
成信号の音声を、自然に近い声質で発生することができ
る。
【0103】また、請求項2記載の音声合成システムに
よれば、請求項1記載の音声合成システムにおいて、そ
れぞれ互いに異なる話者の第1の言語の自然発話の音声
波形信号の音声セグメントを記憶する複数の第1の記憶
手段と、上記複数の第1の記憶手段に記憶された異なる
話者の第1の言語の自然発話の音声波形信号の音声セグ
メントと、上記第4の記憶手段に記憶された第2の言語
の自然発話の音声波形信号の音声セグメントとに基づい
て、所定の特徴パラメータの選択基準を用いて、第2の
言語の自然発話の音声波形信号により声質が近い第1の
言語の自然発話の音声波形信号の話者を選択して、選択
した話者の第1の言語の自然発話の音声波形信号の音声
セグメントを記憶する第1の記憶手段を上記第1の音声
合成手段に接続する話者選択手段とをさらに備える。こ
こで、上記特徴パラメータの選択基準に用いる特徴パラ
メータは、好ましくは、話者の性別及び基本周波数の平
均値である。従って、第2の言語の話者の自然発話の声
質に近い第1の言語の話者の自然発話の音声合成を得る
ことができ、これにより、より声質が近くより自然な発
話による第2の言語のネイティブの人の声による第1の
言語の音声合成の音声を得ることができる。
【0104】さらに、本発明に係る請求項12記載の音
声合成システムによれば、入力される第1の言語の音声
信号と、それに対応する第1の言語の音素列に基づい
て、上記第1の言語の音素列に対応しかつ上記第1の言
語とは異なる第2の言語の音声セグメントによる音声信
号波形を合成して出力する音声合成システムであって、
上記第2の言語の自然発話の音声波形信号の音声セグメ
ントを記憶する第1の記憶手段と、上記第1の記憶手段
によって記憶された音声波形信号の音声セグメントと、
上記音声波形信号に対応する音素列とに基づいて、上記
音声波形信号における音素毎の索引情報と、上記索引情
報によって示された音素毎の音響的特徴パラメータと、
上記索引情報によって示された音素毎の韻律的特徴パラ
メータとを抽出して出力する音声分析手段と、上記音声
分析手段から出力される索引情報と、上記音響的特徴パ
ラメータと、上記韻律的特徴パラメータとを記憶する第
2の記憶手段と、上記入力される第1の言語の音声信号
を音声信号波形データに変換して、変換された音声信号
波形データからケプストラム係数データを抽出して出力
する抽出手段と、上記抽出手段から出力されるケプスト
ラム係数データと、上記第2の記憶手段によって記憶さ
れた韻律的特徴パラメータとに基づいて、上記入力され
る第1の言語の自然発話文の音素列に対して、目標音素
と音素候補との間の近似コストを表わす目標コストと、
隣接して連結されるべき2つの音素候補間の近似コスト
を表わす連結コストとを含むコストが最小となる、音素
候補の組み合わせを検索して、検索した音素候補の組み
合わせの索引情報を出力する音声単位選択手段と、上記
音声単位選択手段から出力される索引情報に基づいて、
当該索引情報に対応する音声波形信号の音声セグメント
を上記第1の記憶手段から逐次読み出して連結して出力
することにより、上記入力された第1の言語の音素列に
対応しかつ第2の言語の音声セグメントによる音声信号
波形を合成して出力する音声合成手段とを備える。従っ
て、第1の言語のネイティブの人の音声に基づいて、第
2の言語のネイティブの人の声による第1の言語の自然
発話文の音声合成信号の音声を、自然に近い声質で発生
することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声合成シス
テムのブロック図である。
【図2】 第1の従来例の音声合成装置の構成を示すブ
ロック図である。
【図3】 図1の音声単位選択部12,112によって
計算される音声単位選択コストの定義を示すモデル図で
ある。
【図4】 図1の音声分析部10,110によって実行
される音声分析処理のフローチャートである。
【図5】 図1の重み係数学習部11によって実行され
る重み係数学習処理の第1の部分のフローチャートであ
る。
【図6】 図1の重み係数学習部11によって実行され
る重み係数学習処理の第2の部分のフローチャートであ
る。
【図7】 図1の音声単位選択部12によって実行され
る音声単位選択処理のフローチャートである。
【図8】 図1の音声単位選択部112によって実行さ
れる音声単位選択処理のフローチャートである。
【図9】 本発明に係る変形例の付加装置である話者選
択装置200の構成を示すブロック図である。
【符号の説明】
1…英語音声による音声合成装置、 2…日本語音声による音声合成装置、 10…音声分析部、 11…重み係数学習部、 12…音声単位選択部、 13…音声合成部、 14…バッファメモリ、 21,21−1乃至21−N…英語の音声波形信号デー
タベースメモリ、 22…英語のテキストデータベースメモリ、 23…英語の音素HMMメモリ、 30…英語の特徴パラメータメモリ、 31…英語の重み係数ベクトルメモリ、 110…音声分析部、 111…ケプストラム抽出部、 112…音声単位選択部、 113…音声合成部、 114…スピーカ、 121…日本語の音声波形信号データベースメモリ、 122…日本語のテキストデータベースメモリ、 123…日本語の音素HMMメモリ、 130…日本語の特徴パラメータメモリ、 200…話者選択装置、 201…話者選択部、 SW…スイッチ。
フロントページの続き (56)参考文献 特開 平6−332494(JP,A) 特開 平9−146585(JP,A) 特開 昭62−18600(JP,A) 特開 昭62−174800(JP,A) 藤沢ら「入力音声の韻律を用いた音声 合成」、日本音響学会平成10年度春季研 究発表会講演論文集、pp191−192 (1998) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 JICSTファイル(JOIS)

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1の言語の自然発話の音声波形信号の
    音声セグメントを記憶する第1の記憶手段と、 上記第1の記憶手段によって記憶された音声波形信号の
    音声セグメントと、上記音声波形信号に対応する音素列
    とに基づいて、上記音声波形信号における音素毎の索引
    情報と、上記索引情報によって示された音素毎の第1の
    音響的特徴パラメータと、上記索引情報によって示され
    た音素毎の韻律的特徴パラメータとを抽出して出力する
    第1の音声分析手段と、 上記第1の音声分析手段から出力される索引情報と、上
    記第1の音響的特徴パラメータと、上記韻律的特徴パラ
    メータとを記憶する第2の記憶手段と、 上記第2の記憶手段によって記憶された第1の音響的特
    徴パラメータと韻律的特徴パラメータとに基づいて、同
    一の音素種類の1つの目標音素とそれ以外の音素候補と
    の間の第2の音響的特徴パラメータにおける音響的距離
    を計算し、上記計算した音響的距離に基づいて各音素候
    補に対して上記第2の音響的特徴パラメータ毎に所定の
    統計的解析を実行することにより、各音素候補に対する
    上記第2の音響的特徴パラメータにおける寄与度を表わ
    す各目標音素毎の重み係数ベクトルを決定する重み係数
    学習手段と、 上記重み係数学習手段によって決定された上記第2の音
    響的特徴パラメータにおける各目標音素毎の重み係数ベ
    クトルを記憶する第3の記憶手段と、 上記第1の言語とは異なる第2の言語の自然発話の音声
    波形信号の音声セグメントを記憶する第4の記憶手段
    と、 上記第4の記憶手段によって記憶された音声波形信号の
    音声セグメントと、上記音声波形信号に対応する音素列
    とに基づいて、上記音声波形信号における音素毎の索引
    情報と、上記索引情報によって示された音素毎の第1の
    音響的特徴パラメータと、上記索引情報によって示され
    た音素毎の韻律的特徴パラメータとを抽出して出力する
    第2の音声分析手段と、 上記第2の音声分析手段から出力される索引情報と、上
    記第1の音響的特徴パラメータと、上記韻律的特徴パラ
    メータとを記憶する第5の記憶手段と、 上記第3の記憶手段によって記憶された各目標音素毎の
    重み係数ベクトルと、上記第2の記憶手段によって記憶
    された韻律的特徴パラメータとに基づいて、入力される
    第1の言語の自然発話文の音素列に対して、目標音素と
    音素候補との間の近似コストを表わす目標コストと、隣
    接して連結されるべき2つの音素候補間の近似コストを
    表わす連結コストとを含むコストが最小となる、音素候
    補の組み合わせを検索して、検索した音素候補の組み合
    わせの索引情報を出力する第1の音声単位選択手段と、 上記第1の音声単位選択手段から出力される索引情報に
    基づいて、当該索引情報に対応する音声波形信号の音声
    セグメントを上記第1の記憶手段から逐次読み出して連
    結して出力することにより、上記入力された第1の言語
    の音素列に対応する第1の言語の音声信号波形データを
    合成して出力する第1の音声合成手段と、 上記第1の音声合成手段から出力される音声信号波形デ
    ータからケプストラム係数データを抽出して出力する抽
    出手段と、 上記抽出手段から出力されるケプストラム係数データ
    と、上記第5の記憶手段によって記憶された韻律的特徴
    パラメータとに基づいて、上記入力される第1の言語の
    自然発話文の音素列に対して、目標音素と音素候補との
    間の近似コストを表わす目標コストと、隣接して連結さ
    れるべき2つの音素候補間の近似コストを表わす連結コ
    ストとを含むコストが最小となる、音素候補の組み合わ
    せを検索して、検索した音素候補の組み合わせの索引情
    報を出力する第2の音声単位選択手段と、 上記第2の音声単位選択手段から出力される索引情報に
    基づいて、当該索引情報に対応する音声波形信号の音声
    セグメントを上記第4の記憶手段から逐次読み出して連
    結して出力することにより、上記入力された第1の言語
    の音素列に対応しかつ第2の言語の音声セグメントとに
    よる音声信号波形を合成して出力する第2の音声合成手
    段とを備えたことを特徴とする音声合成システム。
  2. 【請求項2】 それぞれ互いに異なる話者の第1の言語
    の自然発話の音声波形信号の音声セグメントを記憶する
    複数の第1の記憶手段と、 上記複数の第1の記憶手段に記憶された異なる話者の第
    1の言語の自然発話の音声波形信号の音声セグメント
    と、上記第4の記憶手段に記憶された第2の言語の自然
    発話の音声波形信号の音声セグメントとに基づいて、所
    定の特徴パラメータの選択基準を用いて、第2の言語の
    自然発話の音声波形信号により声質が近い第1の言語の
    自然発話の音声波形信号の話者を選択して、選択した話
    者の第1の言語の自然発話の音声波形信号の音声セグメ
    ントを記憶する第1の記憶手段を上記第1の音声合成手
    段に接続する話者選択手段とをさらに備えたことを特徴
    とする請求項1記載の音声合成システム。
  3. 【請求項3】 上記特徴パラメータの選択基準に用いる
    特徴パラメータは、話者の性別及び基本周波数の平均値
    であることを特徴とする請求項2記載の音声合成システ
    ム。
  4. 【請求項4】 上記第1の音声分析手段は、入力される
    音声波形信号に基づいて上記音声波形信号に対応する音
    素列を予測する音素予測手段を備えたことを特徴とする
    請求項1乃至3のうちの1つに記載の音声合成システ
    ム。
  5. 【請求項5】 上記重み係数学習手段は、上記計算した
    音響的距離に基づいて、最良の上位複数N1個の音素候
    補を抽出した後、上記第2の音響的特徴パラメータの各
    々に対して線形回帰分析することにより、各音素候補に
    関する上記第2の音響的特徴パラメータにおける寄与度
    を表わす各目標音素毎の重み係数ベクトルを決定するこ
    とを特徴とする請求項1乃至4のうちの1つに記載の音
    声合成システム。
  6. 【請求項6】 上記重み係数学習手段は、上記計算した
    音響的距離に基づいて、最良の上位複数N1個の音素候
    補を抽出した後、上記第2の音響的特徴パラメータの各
    々に対して所定のニューラルネットワークを用いた統計
    的解析を実行することにより、各音素候補に関する上記
    第2の音響的特徴パラメータにおける寄与度を表わす各
    目標音素毎の重み係数ベクトルを決定することを特徴と
    する請求項1乃至4のうちの1つに記載の音声合成シス
    テム。
  7. 【請求項7】 上記第1と第2の音声単位選択手段はそ
    れぞれ、上記目標コストと上記連結コストとを含むコス
    トが最良の上位複数N2個の音素候補を抽出した後、コ
    ストが最小となる音素候補の組み合わせを検索すること
    を特徴とする請求項1乃至6のうちの1つに記載の音声
    合成システム。
  8. 【請求項8】 上記第1の音響的特徴パラメータは、ケ
    プストラム係数と、デルタケプストラム係数と、音素ラ
    ベルとを含むことを特徴とする請求項1乃至7のうちの
    1つに記載の音声合成システム。
  9. 【請求項9】 上記第1の音響的特徴パラメータは、フ
    ォルマントパラメータと、声道音源パラメータとを含む
    ことを特徴とする請求項1乃至8のうちの1つに記載の
    音声合成システム。
  10. 【請求項10】 上記韻律的特徴パラメータは、音素時
    間長と、音声基本周波数F0と、パワーとを含むことを
    特徴とする請求項1乃至9のうちの1つに記載の音声合
    成システム。
  11. 【請求項11】 上記第2の音響的特徴パラメータは、
    ケプストラム距離を含むことを特徴とする請求項1乃至
    10のうちの1つに記載の音声合成システム。
  12. 【請求項12】 入力される第1の言語の音声信号と、
    それに対応する第1の言語の音素列に基づいて、上記第
    1の言語の音素列に対応しかつ上記第1の言語とは異な
    る第2の言語の音声セグメントによる音声信号波形を合
    成して出力する音声合成システムであって、 上記第2の言語の自然発話の音声波形信号の音声セグメ
    ントを記憶する第1の記憶手段と、 上記第1の記憶手段によって記憶された音声波形信号の
    音声セグメントと、上記音声波形信号に対応する音素列
    とに基づいて、上記音声波形信号における音素毎の索引
    情報と、上記索引情報によって示された音素毎の音響的
    特徴パラメータと、上記索引情報によって示された音素
    毎の韻律的特徴パラメータとを抽出して出力する音声分
    析手段と、 上記音声分析手段から出力される索引情報と、上記音響
    的特徴パラメータと、上記韻律的特徴パラメータとを記
    憶する第2の記憶手段と、 上記入力される第1の言語の音声信号を音声信号波形デ
    ータに変換して、変換された音声信号波形データからケ
    プストラム係数データを抽出して出力する抽出手段と、 上記抽出手段から出力されるケプストラム係数データ
    と、上記第2の記憶手段によって記憶された韻律的特徴
    パラメータとに基づいて、上記入力される第1の言語の
    自然発話文の音素列に対して、目標音素と音素候補との
    間の近似コストを表わす目標コストと、隣接して連結さ
    れるべき2つの音素候補間の近似コストを表わす連結コ
    ストとを含むコストが最小となる、音素候補の組み合わ
    せを検索して、検索した音素候補の組み合わせの索引情
    報を出力する音声単位選択手段と、上記音声単位選択手
    段から出力される索引情報に基づいて、当該索引情報に
    対応する音声波形信号の音声セグメントを上記第1の記
    憶手段から逐次読み出して連結して出力することによ
    り、上記入力された第1の言語の音素列に対応しかつ第
    2の言語の音声セグメントによる音声信号波形を合成し
    て出力する音声合成手段とを備えたことを特徴とする音
    声合成システム。
  13. 【請求項13】 上記音声単位選択手段はそれぞれ、上
    記目標コストと上記連結コストとを含むコストが最良の
    上位複数N2個の音素候補を抽出した後、コストが最小
    となる音素候補の組み合わせを検索することを特徴とす
    る請求項12に記載の音声合成システム。
  14. 【請求項14】 上記音響的特徴パラメータは、ケプス
    トラム係数と、デルタケプストラム係数と、音素ラベル
    とを含むことを特徴とする請求項12又は13に記載の
    音声合成システム。
  15. 【請求項15】 上記韻律的特徴パラメータは、音素時
    間長と、音声基本周波数F0と、パワーとを含むことを
    特徴とする請求項12乃至14のうちの1つに記載の音
    声合成システム。
JP10051925A 1998-03-04 1998-03-04 音声合成システム Expired - Fee Related JP2975586B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10051925A JP2975586B2 (ja) 1998-03-04 1998-03-04 音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10051925A JP2975586B2 (ja) 1998-03-04 1998-03-04 音声合成システム

Publications (2)

Publication Number Publication Date
JPH11249695A JPH11249695A (ja) 1999-09-17
JP2975586B2 true JP2975586B2 (ja) 1999-11-10

Family

ID=12900463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10051925A Expired - Fee Related JP2975586B2 (ja) 1998-03-04 1998-03-04 音声合成システム

Country Status (1)

Country Link
JP (1) JP2975586B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
KR101125859B1 (ko) 2011-09-27 2012-03-28 주식회사 스마트송 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3706112B2 (ja) * 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
JP5709486B2 (ja) * 2010-11-25 2015-04-30 シャープ株式会社 音声処理装置および音声処理装置を備えた画像処理装置
JP6266372B2 (ja) 2014-02-10 2018-01-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
KR102287156B1 (ko) * 2019-09-23 2021-08-06 주식회사 한글과컴퓨터 음성합성기를 구축하기 위한 음소열 기반의 음성합성 훈련용 문장 선정 장치 및 그 동작 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤沢ら「入力音声の韻律を用いた音声合成」、日本音響学会平成10年度春季研究発表会講演論文集、pp191−192(1998)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
KR101125859B1 (ko) 2011-09-27 2012-03-28 주식회사 스마트송 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법

Also Published As

Publication number Publication date
JPH11249695A (ja) 1999-09-17

Similar Documents

Publication Publication Date Title
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
CN111566655B (zh) 多种语言文本语音合成方法
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
Turk et al. Robust processing techniques for voice conversion
JP5148026B1 (ja) 音声合成装置および音声合成方法
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP2002520664A (ja) 言語に依存しない音声認識
JP2005266349A (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP3050832B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP2975586B2 (ja) 音声合成システム
Ipsic et al. Croatian HMM-based speech synthesis
GB2313530A (en) Speech Synthesizer
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
JP2806364B2 (ja) 発声訓練装置
KR100811226B1 (ko) 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP3459600B2 (ja) 音声合成装置のための音声データ量削減装置及び音声合成装置
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
Houidhek et al. Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic
Huckvale 14 An Introduction to Phonetic Technology
Ng Survey of data-driven approaches to Speech Synthesis
Sherpa et al. Pioneering Dzongkha text-to-speech synthesis

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070903

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees