JP2001350491A

JP2001350491A - 音声処理方法および装置

Info

Publication number: JP2001350491A
Application number: JP2000170708A
Authority: JP
Inventors: Masaaki Yamada; 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-06-07
Filing date: 2000-06-07
Publication date: 2001-12-21

Abstract

(57)【要約】【課題】発声環境の変動を考慮した韻律推定モデルを学
習することが可能となる。【解決手段】学習データを入力する毎に、学習データの
韻律情報を取得し（Ｓ３）、学習データの推定要因を取
得し（Ｓ４）、学習データの発声日時情報を取得する
（Ｓ５）。そして、各学習データの韻律情報、推定要因
および発声日時情報を用いて、所定の韻律情報を推定す
るための韻律推定モデルを学習する（Ｓ８）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声処理方法およ
び装置に関し、特に、合成音声の品質を向上させるため
の技術に関わる。

【０００２】

【従来の技術】音声規則合成の過程は、入力テキストか
ら継続時間長、基本周波数（Ｆ０）、パワー等の韻律情
報を推定する韻律生成工程と、生成された韻律情報によ
り音声波形を生成する波形生成工程とに大別される。

【０００３】韻律生成工程に於いては、近年、コーパス
に基づく手法が用いられている。これは、大量の学習デ
ータをもとに、テキストと韻律情報との関係を統計的に
学習する手法である。この手法を用いて、所定の推定要
因を入力として所定の韻律情報を出力とするモデル（韻
律推定モデル）を仮定することによって、所定の韻律情
報の推定が可能となる。

【０００４】

【発明が解決しようとする課題】しかしながら、上記手
法には以下の問題がある。

【０００５】継続時間長、基本周波数、パワー等の韻律
情報は発声環境の影響を受けて変動するため、上記手法
を用いて精度の良い韻律推定モデルを作成するために
は、発声環境の安定した学習データを大量に用意する必
要がある。ところが、大量の学習データを用意するため
には学習データの収録に長時間を要することとなり、長
時間に渡って安定した発声環境を維持しなければ、精度
の良い韻律推定モデルを生成することができないという
問題がある。長時間に渡って安定した発声環境を維持す
るのは大変困難であり、同じ発声者であっても、その日
の体調、慣れ、疲労等によって発声環境は変動してしま
う。このような変動の影響を受けた韻律推定モデルを用
いて生成された合成音声は、不自然で違和感のあるもの
となってしまう。

【０００６】本発明は上記の問題に鑑みてなされたもの
であり、発声環境の変動を考慮した韻律推定モデルを学
習することを可能とし、自然で違和感のない合成音声の
生成を可能とすることを目的とする。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
めの本発明の一態様による音声処理方法は、音声情報を
入力する入力工程と、前記音声情報から韻律情報を取得
する第１取得工程と、前記音声情報の発声環境の変化を
示す情報を推定要因の一つとして取得する第２取得工程
と、前記韻律情報と前記推定要因とを用いて前記韻律情
報を推定のための韻律推定モデルを学習する学習工程と
を備える。

【０００８】上記の目的を達成するための本発明の他の
態様による音声処理方法は、文字情報を解析する解析工
程と、前記文字情報に対応する音声素片を取得する取得
工程と、発声環境の変化を示す情報を推定要因の一つと
して設定する設定工程と、前記推定要因と所定の韻律情
報を推定する韻律推定モデルとを用いて前記音声素片の
韻律情報を推定する推定工程とを備える。

【０００９】上記の目的を達成するための本発明の他の
態様による音声処理装置は、音声情報を入力する入力手
段と、前記音声情報から韻律情報を取得する第１取得手
段と、前記音声情報の発声環境の変化を示す情報を推定
要因の一つとして取得する第２取得手段と、前記韻律情
報と前記推定要因とを用いて前記韻律情報を推定のため
の韻律推定モデルを学習する学習手段とを備える。

【００１０】上記の目的を達成するための本発明の更に
他の態様による音声処理装置は、文字情報を解析する解
析手段と、前記文字情報に対応する音声素片を取得する
取得手段と、発声環境の変化を示す情報を推定要因の一
つとして設定する設定手段と、前記推定要因と所定の韻
律情報を推定する韻律推定モデルとを用いて前記音声素
片の韻律情報を推定する推定手段とを備える。

【００１１】

【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を説明する。

【００１２】［第１の実施形態］図１は、本実施形態に
おける音声合成装置のハードウェア構成を示すブロック
図である。図１において、１１は数値演算、制御等の処
理を行う中央処理装置であり、各種の制御プログラムを
用いて図２及び図４のフローチャートで説明する処理手
順を制御する。１２は学習ユニットであり、大量の学習
データを用いて所定の韻律情報を推定する韻律推定モデ
ルを学習する。学習ユニット１２は、学習した韻律推定
モデルを管理するモデル管理部１９を具備する。学習ユ
ニット１２は、ハードウェアで構成することもソフトウ
ェアで構成することも可能である。ソフトウェアで構成
する場合には、このソフトウェアを実現するための制御
プログラムを記録装置１３に格納する。そして、中央処
理装置１１がこの制御プログラムを基づいてモデル学習
ユニット１２の機能を実現する。

【００１３】１３は半導体メモリやハードディスク等か
らなる記憶装置であり、図２及び図４のフローチャート
で説明する処理手順を実現するための制御プログラム、
学習データの入力や音声合成するテキストの入力を支援
するためのグラフィカルユーザインタフェースを制御す
る制御プログラムを格納する。記憶装置１３は、大量の
学習データを蓄積する学習データ蓄積部１８を具備す
る。

【００１４】１４は表示器、スピーカ等からなる出力装
置であり、スピーカは合成された音声を出力し、表示器
は上述のグラフィカルユーザインタフェースを表示す
る。１５はキーボードやマイクロフォン等からなる入力
装置であり、キーボードは音声合成したいテキスト（日
本語や他の言語からなる）を入力或いは指定し、マイク
ロフォンは学習データを入力する。１６は内部バスであ
る。

【００１５】１７は音声合成ユニットであり、図４で説
明する処理手順に従って入力テキストから合成音声を生
成する。音声合成ユニット１７は、ハードウェアで構成
することもソフトウェアで構成することも可能である。
ソフトウェアで構成する場合には、このソフトウェアを
実現するための制御プログラムを記録装置１３に格納す
る。そして、中央処理装置１１がこの制御プログラムを
基づいて音声合成ユニット１７の機能を実現する。

【００１６】次に、以上の構成を備えた本実施形態の音
声合成装置の処理動作について説明する。

【００１７】図２は、本実施形態における韻律推定モデ
ルの学習手順を説明するフローチャートである。図２で
は、韻律情報の一つである継続時間長を推定する韻律推
定モデルを学習する手順について説明する。

【００１８】まず、ステップＳ１において、学習ユニッ
ト１２は、ループカウンタｉを０に初期化する。

【００１９】ステップＳ２において、入力装置１５の有
するマイクロフォンは、単語或いは文章を単位とする学
習テキストの音声波形を入力し、この音声波形をｉ番目
の学習データとして学習ユニット１２に供給するととも
に、この音声波形を学習データ蓄積部１８に格納する。

【００２０】ステップＳ３において、学習ユニット１２
は、ｉ番目の学習データをリアルタイムに音響分析し、
音素を音韻単位とする音韻系列と各音素の韻律情報とを
取得し、これらを学習データ蓄積部１８に蓄積する。例
えば、学習テキスト「あらし」の音声波形を音響分析し
た場合には、この音声波形から音韻系列「／ａ／，／ｒ
／，／ａ／，／ｓｈ／，／ｉ／」を取得する。また、韻
律情報としては、各音素の継続時間長（音韻の長さ）、
基本周波数（音韻の高さ）、パワー（音韻の大きさ）等
を取得する。各音素の継続時間長を韻律情報として蓄積
する例を図３に示す。

【００２１】ステップＳ４において、学習ユニット１２
は、ｉ番目の学習データから推定要因を取得し、これら
を学習データ蓄積部１８に蓄積する。本実施形態では、
アクセント核の有無、モーラ位置等を推定要因として取
得する。アクセント核の有無、モーラ位置等を推定要因
として蓄積する例を図３に示す。

【００２２】ステップＳ５において、学習ユニット１２
は、ｉ番目の学習データの発声日時情報を取得し、これ
を学習データ蓄積部１８に蓄積する。この発声日時情報
には、例えば、ステップＳ２で学習データを学習データ
蓄積部１８に蓄積した日時を用いる。この発声日時情報
は、学習データの発声環境の時間的な変動を考慮するた
めの推定要因である。各音素の発声日時情報を推定要因
の一つとして蓄積する例を図３に示す。

【００２３】ステップＳ６において、学習ユニット１２
は、ループカウンタｉの値に１を加える。そして、ステ
ップＳ７において、ループカウンタｉの値が予め設定さ
れた学習データの総数に等しいか否かを判定する。両者
が等しくない場合には、未入力の学習データがあると判
断し、ステップＳ２に戻り、上述の処理を繰り返す。こ
うして、学習ユニット１２は、大量の学習データの音声
波形、韻律情報、推定要因、発声日時情報を図３のごと
く学習データ蓄積部１８に蓄積する。

【００２４】ステップＳ８において、学習ユニット１２
は、学習データ蓄積部１８に蓄積されたデータを用い
て、韻律情報の一つである継続時間長を推定する韻律推
定モデルを学習する。韻律推定モデルの学習には、数量
化Ｉ類や回帰木等の統計的手法を用いる。学習した韻律
推定モデルは、学習ユニット１２のモデル管理部１９に
格納される。

【００２５】以上説明したように本実施形態によれば、
アクセント核の有無、モーラ位置、発声日時情報等の推
定要因を用いて、韻律情報の一つである継続時間長を推
定する韻律推定モデルを学習することができる。特に、
発声日時情報を推定要因の一つとすることにより、学習
データの発声環境の時間的な変動を考慮した韻律推定モ
デルを学習することができる。

【００２６】上記実施形態では、アクセント核の有無、
モーラ位置、発声日時情報等の推定要因を用いて、韻律
情報の一つである継続時間長を推定する韻律推定モデル
を学習する例について説明したが、本実施形態はそれに
限るものではない。上述の推定要因を用いることによっ
て、基本周波数、パワー等の韻律情報に対しても、学習
データの発声環境の時間的な変動を考慮した韻律推定モ
デルを学習することが可能である。

【００２７】図４は、本実施形態における音声合成処理
の手順を説明するフローチャートである。図４では、韻
律情報の一つである継続時間長を推定する韻律推定モデ
ルを用いて、入力テキストを音声合成する手順を説明す
る。

【００２８】まず、ステップＳ１１において、音声合成
ユニット１７は、入力されたテキスト（単語、文節、文
等の単位からなる文字列）を解析する。

【００２９】ステップＳ１２において、音声合成ユニッ
ト１７は、ステップＳ１１での解析結果に基づいて、ア
クセント核の有無、モーラ位置等の推定要因を設定す
る。

【００３０】ステップＳ１３において、音声合成ユニッ
ト１７は、学習データ蓄積部１８を検索し、入力テキス
トの音韻系列に対応する複数個の音声素片と各音声素片
の韻律情報とを取得する。ここで取得する韻律情報は、
継続時間長、基本周波数、パワー等である。

【００３１】ステップＳ１４において、音声合成ユニッ
ト１７は、ステップＳ１３で取得した所定の音声素片の
発声日時情報を設定する。本実施形態では、例えばステ
ップＳ１３で取得した最初の音声素片の発声日時情報を
設定する。

【００３２】ステップＳ１５において、音声合成ユニッ
ト１７は、ステップＳ１２で取得した推定要因と、ステ
ップＳ１４で設定した発声日時情報と、学習ユニット１
２のモデル管理部１９が保持する韻律推定モデルとを用
いて、韻律情報の一つである継続時間長を推定する。

【００３３】ステップＳ１６において、音声合成ユニッ
ト１７は、ステップＳ１３で取得した継続時間長をステ
ップＳ１５で推定した継続時間長に置き換え、置き換え
た継続時間長と他の韻律情報とに基づいてステップＳ１
３で取得した音声素片を波形編集して接続する。本実施
形態では、PSOLA(Pitch-Synchronous Overlap Add meth
od「ピッチ同期波形重畳法」)を用いて各音声素片を波
形編集する。

【００３４】ステップＳ１７において、音声合成ユニッ
ト１７は、ステップＳ１６で生成した合成音声を出力装
置１４に供給する。この合成音声は、出力装置１４の具
備するスピーカから出力される。

【００３５】以上説明したように本実施形態によれば、
発声環境の時間的な変動を考慮して学習した韻律推定モ
デルを用いて、韻律情報の一つである継続時間長を推定
することができる。これにより、入力テキストから発声
環境の変動による影響を抑制した自然で違和感のない合
成音声を生成することが可能となる。

【００３６】上記実施形態では、発声環境の時間的な変
動を考慮して学習した韻律推定モデルを用いて入力テキ
ストの継続時間長を推定する例について説明したが、本
実施形態はそれに限るものではない。継続時間長だけで
なく、基本周波数、パワー等の韻律情報を推定すること
も可能である。

【００３７】上記実施形態では、学習データを実際に入
力した日時を、推定要因の一つである発声日時情報とし
て用いる例について説明したが、本実施例はそれに限る
ものではない。例えば、図６に示すように、所定の期間
（時間、日にち等の単位）を表わすラベルを発声日時情
報として用いてもよい。図６は、韻律情報の一つである
継続時間長を推定する韻律推定モデルを学習するための
学習データの一例を示す図である。図６のアクセント核
の有無、モーラ位置、発声日時情報等は、この韻律推定
モデルの推定要因である。各学習データの発声日時情報
には、例えば、所定の時間毎に異なるラベル（セット１
〜７）を付与する。

【００３８】また、上記実施形態では、推定要因として
アクセント核の有無、モーラ位置、発声日時情報等を用
いる例について説明したが、本実施形態はそれに限るも
のではない。学習データの発声環境の変動による影響を
考慮することのできる推定要因であれば、発声日時情報
に加えて更に、話者の性別、単語を発声することにより
得た学習データなのか文を発声することにより得た学習
データなのか、読み上げ文から得た学習データなのか対
話文から得た学習データなのか等を推定要因として用い
ることも可能である。このような推定要因の種類を増や
すことによって、より高精度な韻律推定モデルを生成す
ることが可能となる。また、このような韻律推定モデル
を用いることにより、極めて自然で違和感のない合成音
声を生成することもできる。また、アクセント型、モー
ラ数を推定要因として用いることも可能である。

【００３９】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体（または記録媒体）を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納された
プログラムコードを読み出し実行することによっても、
達成されることは言うまでもない。この場合、記憶媒体
から読み出されたプログラムコード自体が前述した実施
形態の機能を実現することになり、そのプログラムコー
ドを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実
行することにより、前述した実施形態の機能が実現され
るだけでなく、そのプログラムコードの指示に基づき、
コンピュータ上で稼働しているオペレーティングシステ
ム（ＯＳ）などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。

【００４０】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。

【００４１】

【発明の効果】以上説明したように、本発明によれば、
発声環境の変動を考慮した韻律推定モデルを学習するこ
とが可能となる。

【００４２】また、本発明によれば、発声環境の変動に
よる影響を抑制した自然で違和感のない合成音声を生成
することが可能とできる。

【図面の簡単な説明】

【図１】本実施形態における音声合成装置のハードウェ
ア構成を示すブロック図である。

【図２】本実施形態における韻律推定モデルの学習手順
を説明するフローチャートである。

【図３】本実施形態における韻律情報、推定要因、発声
日時情報の例を示す図である。

【図４】本実施形態における音声合成処理の手順を説明
するフローチャートである。

【図５】他の実施形態における韻律情報、推定要因、発
声日時情報の例を示す図である。

Claims

【特許請求の範囲】

【請求項１】音声情報を入力する入力工程と、前記音声情報から韻律情報を取得する第１取得工程と、前記音声情報の発声環境の変化を示す情報を推定要因の
一つとして取得する第２取得工程と、前記韻律情報と前記推定要因とを用いて前記韻律情報を
推定のための韻律推定モデルを学習する学習工程とを備
えることを特徴とする音声処理方法。
【請求項２】前記第１取得工程は、音素毎に前記韻律
情報を取得することを特徴とする請求項１に記載の音声
処理方法。
【請求項３】前記第１取得工程は、継続時間長、基本
周波数、パワーの何れかを前記韻律情報として取得する
ことを特徴とする請求項１又は２に記載の音声処理方
法。
【請求項４】前記音声情報の発声環境の変化を示す情
報は、前記音声情報の発声日時を示す情報であることを
特徴とする請求項１及至３のいずれかに記載の音声処理
方法。
【請求項５】前記第２取得工程は、前記学習データの
アクセント情報を推定要因の一つとして取得することを
特徴とする請求項１及至４のいずれかに記載の音声処理
方法。
【請求項６】前記第２取得工程は、前記学習データの
モーラ情報を推定要因の一つとして取得することを特徴
とする請求項１及至５のいずれかに記載の音声処理方
法。
【請求項７】文字情報を解析する解析工程と、前記文字情報に対応する音声素片を取得する取得工程
と、発声環境の変化を示す情報を推定要因の一つとして設定
する設定工程と、前記推定要因と所定の韻律情報を推定する韻律推定モデ
ルとを用いて前記音声素片の韻律情報を推定する推定工
程とを備えることを特徴とする音声処理方法。
【請求項８】前記韻律推定モデルは、継続時間長、基
本周波数、パワーの何れかを推定することを特徴とする
請求項７に記載の音声処理方法。
【請求項９】前記発声環境の変化を示す情報は、前記
音声素片の発声日時を示す情報であることを特徴とする
請求項７又は８に記載の音声処理方法。
【請求項１０】前記設定工程は、前記文字情報のアク
セント情報を推定要因の一つとして設定することを特徴
とする請求項７及至９のいずれかに記載の音声処理方
法。
【請求項１１】前記設定工程は、前記文字情報のモー
ラ情報を推定要因の一つとして設定することを特徴とす
る請求項７及至１０のいずれかに記載の音声処理方法。
【請求項１２】更に、前記取得工程で取得した音声素
片と前記推定工程で推定した韻律情報とを用いて前記文
字情報に対応する音声を合成する合成工程を含むことを
特徴とする請求項７及至１１のいずれかに記載の音声処
理方法。
【請求項１３】音声情報を入力する入力手段と、前記音声情報から韻律情報を取得する第１取得手段と、前記音声情報の発声環境の変化を示す情報を推定要因の
一つとして取得する第２取得手段と、前記韻律情報と前記推定要因とを用いて前記韻律情報を
推定のための韻律推定モデルを学習する学習手段とを備
えることを特徴とする音声処理装置。
【請求項１４】前記第１取得手段は、音素毎に前記韻
律情報を取得することを特徴とする請求項１３に記載の
音声処理装置。
【請求項１５】前記第１取得手段は、継続時間長、基
本周波数、パワーの何れかを前記韻律情報として取得す
ることを特徴とする請求項１３又は１４に記載の音声処
理装置。
【請求項１６】前記音声情報の発声環境の変化を示す
情報は、前記音声情報の発声日時を示す情報であること
を特徴とする請求項１３及至１５のいずれかに記載の音
声処理装置。
【請求項１７】前記第２取得手段は、前記学習データ
のアクセント情報を推定要因の一つとして取得すること
を特徴とする請求項１３及至１６のいずれかに記載の音
声処理装置。
【請求項１８】前記第２取得手段は、前記学習データ
のモーラ情報を推定要因の一つとして取得することを特
徴とする請求項１３及至１７のいずれかに記載の音声処
理装置。
【請求項１９】文字情報を解析する解析手段と、前記文字情報に対応する音声素片を取得する取得手段
と、発声環境の変化を示す情報を推定要因の一つとして設定
する設定手段と、前記推定要因と所定の韻律情報を推定する韻律推定モデ
ルとを用いて前記音声素片の韻律情報を推定する推定手
段とを備えることを特徴とする音声処理装置。
【請求項２０】前記韻律推定モデルは、継続時間長、
基本周波数、パワーの何れかを推定することを特徴とす
る請求項１９に記載の音声処理装置。
【請求項２１】前記発声環境の変化を示す情報は、前
記音声素片の発声日時を示す情報であることを特徴とす
る請求項１９又は２０に記載の音声処理装置。
【請求項２２】前記設定手段は、前記文字情報のアク
セント情報を推定要因の一つとして設定することを特徴
とする請求項１９及至２１のいずれかに記載の音声処理
装置。
【請求項２３】前記設定手段は、前記文字情報のモー
ラ情報を推定要因の一つとして設定することを特徴とす
る請求項１９及至２２のいずれかに記載の音声処理装
置。
【請求項２４】更に、前記取得手段で取得した音声素
片と前記推定手段で推定した韻律情報とを用いて前記文
字情報に対応する音声を合成する合成手段を含むことを
特徴とする請求項１９及至２２のいずれかに記載の音声
処理装置。
【請求項２５】請求項１乃至１２のいずれかに記載の
音声処理方法をコンピュータによって実現するための制
御プログラムを格納したことを特徴とする記憶媒体。