JP2001100776A

JP2001100776A - 音声合成装置

Info

Publication number: JP2001100776A
Application number: JP28052899A
Authority: JP
Inventors: Kazuyuki Ashimura; 和幸芦村; Seiichi Amashiro; 成一天白
Original assignee: Arcadia Co Ltd
Current assignee: Arcadia Co Ltd
Priority date: 1999-09-30
Filing date: 1999-09-30
Publication date: 2001-04-13
Also published as: US6847932B1

Abstract

(57)【要約】【課題】処理の迅速性と、出力音声の自然性を両立さ
せて向上させた音声合成装置を提供する。【解決手段】波形候補取得手段８は、与えられた音韻
情報を拡張音節に区分し、音声データベース６の中から
該当するサンプル音声波形データを取得する。音声デー
タベース６には、多くのサンプル波形データが記憶され
ているので、１つの拡張音節に対して、複数のサンプル
音声波形データが候補として得られる。波形候補決定手
段１０は、波形候補取得手段８によって取得された複数
のサンプル音声波形データ中から、前後のつながり等を
考慮して、１つの拡張音節に対して１つのサンプル音声
波形データを決定する。波形結合手段１２は、波形候補
決定手段１０によって得られた一連のサンプル音声波形
データを結合し、出力すべき音声波形データを得る。ア
ナログ変換手段４は、これをアナログ音声信号に変換し
て出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の技術分野】この発明は、音声合成、音声解析に
関するものであり、特にこれら音声処理における処理速
度、品質の向上に関するものである。

【０００２】

【従来の技術および発明が解決しようとする課題】音声
合成の方式としては、規則による合成方式やコーパスベ
ース音声合成方式が知られている。

【０００３】規則による合成方式では、与えられた音韻
記号列を、音素などの音声単位（「a」「k」など、おお
むねローマ字一文字が対応する）に区分し、各音声単位
について、基本周波数や声道伝達関数の時間的変化を規
則によって決定し、得られた各音声単位の波形を結合し
て、音声波形として出力するものである。

【０００４】しかしながら、各音声単位の波形の結合部
分において、不自然さがもたらされることが多かった。
また、これを解決するため、音声単位の種類ごとに音声
単位と音声単位を結合する際の波形変化等の規則を用意
すればよいが、規則の複雑化と処理の低速化を招くこと
となり、好ましくなかった。

【０００５】また、コーパスベース音声合成方式では、
実際に人間が発話した大量の音声波形とこれに対応する
音韻情報を記録した音声のデータベース（音声コーパ
ス）を用意しておき、音声合成の際に、音声コーパスか
ら必要なサンプル音声波形データを切り出して結合する
ことによって、出力すべき音声波形を得るものである。

【０００６】コーパスベース音声合成方式を記述したも
のとして、匂坂芳典「種種の音韻連接単位を用いた日本
語音声合成」電子情報通信学会、１９８８年３月、ニッ
ク・キャンベル他「CHATR：自然音声波形接続型任意音
声合成システム」電子情報通信学会、１９９６年５月、
匂坂芳典「コーパスベース音声合成」日本音響学会、１
９９８年１１月などがある。

【０００７】これら従来技術におけるコーパスベース音
声合成方式では、次のようにして与えられた音記号列に
対応する音声波形を得ている。まず、与えられた音韻記
号列を音素に区分する。次に、音声コーパス中から、与
えられた音韻記号列と最も長く音素列が一致する部分を
見いだして、サンプル音声波形を取り出す。取り出した
サンプル音声波形を結合して、音声波形を得る。

【０００８】しかしながら、音素を単位として音声コー
パスを検索するため、検索処理に膨大な時間を要すると
いう問題があった。また、このように時間を要する割に
は、最も長く音素列が一致する部分を取り出したにも拘
わらず、出力音声が不自然になる場合もあった。

【０００９】そこで、この発明では、上記のような問題
点を解決して、処理の迅速性と、出力音声の自然性を両
立させて向上させた音声合成装置、音声処理方法を提供
することを目的とする。

【００１０】

【課題を解決するための手段および発明の効果】この発
明においては、人間の発話が持つ、自然なリズムや、ス
ペクトルのダイナミズムを保存し、より人間らしい音声
を合成し、あるいはより精度よく解析を行うために、主
として以下の２つの観点から、自然なリズムを保存する
音声単位として拡張音節という概念を創設した。

【００１１】観点１：安定した音声波形素片切り出しの
ための音声単位観点２：それ以上分割できない、音のリズムの最小単位拡張音節を音声単位として用いることにより、「母音−
母音連接」「母音−半母音連接」や「特殊モーラ」など
の、従来、素片接続の連続性に問題のあった箇所におい
て、接続の自然性が改善される。

【００１２】以下、観点１および観点２について説明す
る。以下合成について説明するが、解析においても同様
である。

【００１３】観点１：安定した音声波形素片切り出しの
ための音声単位自然な合成音のためには、まず、音声の持つ、スペクト
ルや基本周波数などの連続量の過渡部において、ダイナ
ミックな動きを音声単位中に保存する必要がある。その
ために、音声波形素片の切り出しは、上記の連続量が安
定した箇所で行う必要がある。安定した音声波形素片切
り出しのための音声単位としては、スペクトルやアクセ
ントの動きを内包したものが好ましい。この出願におい
て発明者が提案する「拡張音節」は、この条件をよく満
たしている。

【００１４】観点２：それ以上分割できない、音のリズ
ムの最小単位話し言葉の自然な合成音声を生成するためには、音声の
韻律情報の中でリズムが非常に重要であるため、発話の
軸として、まず、リズムを最優先させるべきであると考
えられる。

【００１５】話し言葉のリズムは、発話の構成要素であ
る子音や母音の継続時間長の単なる合算によって生じる
のではなく、各言語の話者にとってここちよい言語構造
が、なんらかの文節単位ごとに繰り返されることによっ
て生じていると考えられる。例えば、現代日本語の話し
言葉では、母音の長さが弁別的であり、長母音や二重母
音と単母音では異なる意味を持つため、音声合成にあた
って、「長母音（あー）」と「短母音の連鎖（ああ）」
の音を互いに流用すると、合成音の品質が損なわれる。

【００１６】したがって、発話のリズムをくずさないた
めに、あたかも化学における「分子」のように、「拡張
音節」が「リズムの最小単位」として好ましいと考えら
れる。逆に、発話を「拡張音節」よりも細かく分割して
しまうと、音声の持つ自然なリズムがくずれてしまう。

【００１７】以上のような観点から、本件出願の発明者
は、「拡張音節」という新しい概念を、音声処理に用い
たものである。

【００１８】この発明の音声合成装置は、人間の発話を
収録することによって得たサンプル音声波形データを音
声単位に区分するとともに、各音声単位のサンプル音声
波形データに対応する音韻情報を関連付けて形成した音
声データベースを記録した音声データベース記録手段
と、出力すべき音声の音韻情報を受けて、この音韻情報
を音声単位に区分するとともに、前記音声データベース
から、音声単位に区分したそれぞれの音韻情報について
対応するサンプル音声波形データを取得し、取得した音
声単位のサンプル音声波形データを結合して出力すべき
音声波形データを得る音声波形合成手段と、音声波形合
成手段によって得られた音声波形データを受けて、アナ
ログ音声信号に変換するアナログ変換手段とを備え、前
記音声データベースにおいては、少なくとも一つの母音
を含む音素系列からなっており、複数の音素が明瞭な区
分に乏しく連続している場合にはこれら音素を１つのか
たまりとして扱った拡張音節に基づいて、サンプル音声
波形データを音声単位に区分し、前記音声波形合成手段
は、上記拡張音節に基づいて、音韻情報を音声単位に区
分することを特徴としている。

【００１９】すなわち、複数の音素が明瞭な区分に乏し
く連続している場合にはこれら音素を１つのかたまりと
して扱った拡張音節に基づいて、サンプル波形データか
ら音声単位を取り出すようにしている。したがって、音
の特質上区分が困難な部分で、無理矢理にサンプル波形
データが結合されるおそれがなく、自然な音声を合成す
ることができる。

【００２０】この発明の音声合成装置は、出力すべき音
声の音韻情報を受けて、この音韻情報を拡張音節に区分
する区分手段と、区分手段によって区分された拡張音節
をひとかたまりとして音声波形データを生成し、各拡張
音節の音声波形データを結合して出力すべき音声波形デ
ータを得る音声波形合成手段と、音声波形合成手段によ
って得られた音声波形データを受けて、アナログ音声信
号に変換するアナログ変換手段とを備えている。ここ
で、拡張音節とは、母音を含む音素系列からなってお
り、複数の音素が明瞭な区分に乏しく連続している場合
にはこれら音素を１つのかたまりとして扱ったものをい
う。

【００２１】すなわち、複数の音節が明瞭な区分に乏し
く連続している場合にはこれら音素を１つのかたまりと
して扱った拡張音節に基づいて、音声合成を行うように
している。したがって、音の特質上、区分が困難な部分
で、無理矢理に合成波形データを結合する必要がなく、
自然な音声を合成することができる。

【００２２】この発明の音声合成装置は、拡張音節が、
母音、母音と長音の結合、母音と二重母音の第２要素の
結合のいずれかのみを母音要素として含む１以上の音素
であって、最も長いものが優先して拡張音節として選択
されるよう定義されることを特徴としている。

【００２３】母音と長音の結合、母音と二重母音の第２
要素の結合も一つのかたまりとして扱うことにより、自
然な音声を合成することができる。

【００２４】この発明の音声合成装置は、拡張音節が、
子音Ｃ（促音、拗音、撥音は含まない）、拗音ｙ、母音
Ｖ（長音、二重母音の第２要素は含まない）、長音Ｒ、
二重母音の第２要素Ｊ、促音Ｑ、撥音Ｎを構成要素とし
たものであって、子音Ｃ、拗音ｙの音節量を「０」、母
音Ｖ、長音Ｒ、二重母音の第２要素Ｊ、促音Ｑ、撥音Ｎ
の音節量を「１」として、各構成要素の音節量合計の多
いものが優先して拡張音節として選択されるよう定義さ
れることを特徴としている。

【００２５】この発明の音声合成装置は、拡張音節に
は、音節量が「２」の(C)(y)VR、(C)(y)VJ、(C)(y)VNお
よび(C)(y)VQを含む重音節と、音節量が「１」の(C)(y)
Vを含む軽音節が少なくとも含まれており、軽音節より
も重音節が優先して拡張音節として選択されることを特
徴としている。

【００２６】この発明の音声合成装置は、拡張音節に
は、さらに、音節量が「３」の(C)(y)VRN、(C)(y)VRQ、
(C)(y)VJN、(C)(y)VJQおよび(C)(y)VNQを含む超重音節
が含まれており、軽音節よりも重音節が、重音節よりも
超重音節が優先して拡張音節として選択されることを特
徴としている。

【００２７】この発明の音声合成装置は、音声データベ
ースは、拡張音節が、その読みを示すかな文字列の長い
順に検索可能に構成されていることを特徴としている。

【００２８】したがって、音声データベースを順に検索
することにより、文字列の長いものを拡張音節として自
動的に選択することができる。

【００２９】この発明において、「音声単位」とは、音
声合成または解析の際に音声波形をひとかたまりとして
扱う単位をいう。

【００３０】「音声データベース」とは、少なくとも音
声波形とこれに対応する音韻情報を記録したデータベー
スをいう。実施形態においては、音声コーパスがこれに
該当する。

【００３１】「音声波形合成手段」とは、規則もしくは
サンプル波形に基づいて、与えられた音韻情報に対応す
る音声波形を生成する手段をいう。実施形態において
は、図１０のステップＳ１２〜Ｓ１９、図１７のステッ
プＳ１０２〜Ｓ１０６がこれに対応する。

【００３２】「プログラム（データ）を記録した記録媒
体」とは、プログラム（データ）を記録したＲＯＭ、Ｒ
ＡＭ、フレキシブルディスク、ＣＤ−ＲＯＭ、メモリカ
ード、ハードディスク等の記録媒体をいう。また、電話
回線、搬送路等の通信媒体も含む概念である。ＣＰＵに
接続されて、記録されたプログラムが直接実行されるハ
ードディスクのような記録媒体だけでなく、一旦ハード
ディスク等にインストールした後に実行されるプログラ
ムを記録したＣＤ−ＲＯＭ等の記録媒体を含む概念であ
る。さらに、ここでいうプログラム（データ）には、直
接実行可能なプログラムだけでなく、ソース形式のプロ
グラム、圧縮処理がされたプログラム（データ）、暗号
化されたプログラム（データ）等を含む。

【００３３】

【発明の実施の形態】１．第１の実施形態 (1)全体構成図１に、この発明の一実施形態による音声合成装置の全
体構成を示す。この装置は、音声波形合成手段２、アナ
ログ変換手段４、音声データベース６を備えている。音
声波形合成手段２は、波形候補取得手段８、波形候補決
定手段１０、波形結合手段１２を備えている。音声デー
タベース６は、人間の発話を収録することによって得た
サンプルの音声波形データを、拡張音節に区分して、音
韻情報に基づいて検索可能にデータベース化したもので
ある。

【００３４】出力すべき音声の音韻情報は、波形候補取
得手段８に与えられる。波形候補取得手段８は、音韻情
報を拡張音節に区分し、音声データベース６の中から該
当するサンプル音声波形データを取得する。音声データ
ベース６には、多くのサンプル波形データが記憶されて
いるので、１つの拡張音節に対して、複数のサンプル音
声波形データが候補として得られる。

【００３５】波形候補決定手段１０は、波形候補取得手
段８によって取得された複数のサンプル音声波形データ
中から、前後のつながり等を考慮して、１つの拡張音節
に対して１つのサンプル音声波形データを決定する。

【００３６】波形結合手段１２は、波形候補決定手段１
０によって得られた一連のサンプル音声波形データを結
合し、出力すべき音声波形データを得る。

【００３７】アナログ変換手段４は、これをアナログ音
声信号に変換して出力する。このようにして、音韻情報
に対応する音声信号を得ることができる。

【００３８】(2)ハードウエア構成図２に、図１の装置をＣＰＵを用いて実現した場合のハ
ードウエア構成の一例を示す。ＣＰＵ１８には、メモリ
２０、キーボード／マウス２２、フロッピーディスクド
ライブ（ＦＤＤ）２４、ＣＤ−ＲＯＭドライブ３６、ハ
ードディスク２６、サウンドカード２８、Ａ／Ｄ変換器
５２、ディスプレイ５４が接続されている。ハードディ
スク２６には、オペレーシングシステム（ＯＳ）４４
（たとえば、マイクロソフト社のWINDOWS98など）、音
声合成プログラム４０が格納されている。また、音声デ
ータベースである音声コーパスを作成するための音声コ
ーパス作成プログラム４６も格納されている。さらに、
音声コーパス作成プログラム４６によって作成された音
声コーパス４２も格納されている。これらプログラム
は、ＣＤ−ＲＯＭドライブ３６を介して、ＣＤ−ＲＯＭ
３８からインストールされたものである。この実施形態
では、音声合成プログラム４０は、ＯＳと共同してその
各機能を実現している。しかし、その一部または全部
を、音声合成プログラム４０が単独で実現するようにし
てもよい。

【００３９】(3)音声コーパスの作成処理この実施形態による音声合成装置では、音声合成を行う
前に、音声コーパス４２を作成して用意しておく必要が
ある。なお、すでに作成された音声コーパス４２をハー
ドディスク２６にインストールして用いてもよく、ま
た、ネットワーク（ＬＡＮ、インターネット等）を介し
て接続された他のコンピュータに格納されている音声コ
ーパス４２を用いるようにしてもよい。

【００４０】図３に、音声コーパス作成プログラムをフ
ローチャートにて示す。まず、操作者は、マイク５０か
らサンプルとなる音声を入力する。ＣＰＵ１８は、音声
をマイク５０から取り込み、Ａ／Ｄ変換器５２によって
ディジタルのサンプル音声波形データに変換し、ハード
ディスク２６に記憶する（ステップＳ１）。次に、操作
者は、入力した音声に対応するラベル（音韻情報として
の読み）を、キーボード２２から入力する。ＣＰＵ１８
は、入力されたラベルを、サンプル音声波形データに関
連づけてハードディスク２６に記録する。

【００４１】図４に、ハードディスク２６に記録された
サンプル音声波形データとラベルの例を示す。ここで
は、「らいうちゅーいほーが」という音声が入力された
場合を例にとって示している。

【００４２】次に、ＣＰＵ１８は、ラベル「らいうちゅ
ーいほーが」を、拡張音節に区分する（ステップＳ
３）。ここで、この実施形態における「拡張音節」と
は、母音を含む音のかたまり（音素系列）であって、左
最長一致法に基づいて音声単位として切り出したもので
ある。ただし、母音連鎖は、多くとも２つまでを限度と
し、母音が３つ連鎖している場合は、２つ目と３つ目の
境で区切るようにしている。ここで、「音素」とは、あ
る一つの言語で用いる音の単位で、意味の相違をもたら
す最小の単位である。ある音が当該言語で他の音と弁別
的である場合に一つの音素と認められる。

【００４３】図５に、この実施形態による「拡張音節」
の構造図を示す。中心となる母音は、単母音（１つの母
音）、長母音（母音＋長音）、二重母音（母音＋二重母
音の第二要素）のいずれかを必ずとる。その前後に、０
個以上の頭子音（子音、拗音）、尾子音（撥音、促音）
が結合したものである。

【００４４】ここで、子音Ｃ（促音、拗音、撥音を含ま
ない）、拗音ｙの音節量を「０」、母音Ｖ（長音、二重
母音の第二要素を含まない）、長音Ｒ、二重母音の第二
要素Ｊ、撥音Ｎ、促音Ｑの音節量を「１」として、拡張
音節の音節量を定義している。すなわち、この音節量に
したがって、重さを規定し、この重さに応じて、拡張音
節を３つのタイプに分類している。

【００４５】図６に、この実施形態において用いた「拡
張音節」を示す。この実施形態では、「拡張音節」とし
て、音節量「１」の軽音節、音節量「２」の重音節、音
節量「３」以上の超重音節を定義している。軽音節は、
(C)(y)Vとして示される、「か」「さ」「ちぇ」「ぴ
ゃ」などである。いわゆる、モーラと呼ばれるものが該
当する。また、（Ｃ）は、Ｃがなくとも、１以上あって
もよいことを示す。（ｙ）も同様である。

【００４６】重音節は、(C)(y)VR、(C)(y)VJ、(C)(y)V
N、(C)(y)VQとして示される、「とー」「やー」「か
い」「のう」「かん」「あん」「ちゅっ」「りゃっ」な
どである。

【００４７】超重音節は、(C)(y)VRN、(C)(y)VRQ、(C)
(y)VJN、(C)(y)VJQ、(C)(y)VNQなどとして示される、
「ちぇーん」「うーっ」「さいん」「かいっ」「どん
っ」などである。

【００４８】図３のステップＳ３に戻って、ＣＰＵ１８
は、拡張音節の定義に従って（定義アルゴリズムまたは
拡張音節一覧テーブル等に基づいて）、ラベル「らいう
ちゅーいほーが」を拡張音節に区分する。なお、この
際、ＣＰＵ１８は、もっとも長い拡張音節を、ラベル中
から切り出す。したがって、「らい」「う」「ちゅー」
「い」「ほー」「が」という７個の拡張音節が切り出さ
れる。

【００４９】次に、ＣＰＵ１８は、図７に示すように、
サンプル音声波形７０、スペクトログラム（周波数成分
の時間的変化）７２、拡張音節に区分したラベル７４
を、ディスプレイ５４に表示する。

【００５０】操作者は、この画面を参照しつつ、マウス
２２を操作して、サンプル音声波形７０に区分のマーク
を付して、拡張音節に区分する（ステップＳ５）。この
ようにして、図８に示すように、拡張音節に区分されて
ラベルの付されたサンプル音声波形（図においては音声
ファイル１）がハードディスク２６に記録される。

【００５１】次に、ＣＰＵ１８は、図８に示すようなフ
ァイルインデックスを作成し、ハードディスク２６に記
録する。ファイルインデックスは、拡張音節に区分した
ラベルと、これに対応するサンプル音声波形データの開
始時間と終了時間を記述したものである。なお、各音声
ファイルのファイルインデックスの先頭と最後には、始
まりと終わりを示すための符号「＃＃」が記述される。
ファイルインデックスは、サンプル音声波形データの数
だけ生成される。

【００５２】次に、ＣＰＵ１８は、図９に示す、ユニッ
トインデックスを作成して、ハードディスク２６に記録
する。ユニットインデックスは、拡張音節のラベルをイ
ンデックスにして、サンプル音声波形との対応を付けた
ものである。たとえば、図９において、見出し「ちゅ
ー」に対応して、拡張音節「ちゅー」のサンプル音声波
形が記録されたファイル名「ファイル１」と当該ファイ
ルにおける記録順番「３」が示されている。また、「フ
ァイル２」の「３」番目にも記録されていることが示さ
れている。このように、拡張音節を見出しとして、その
拡張音節が記録されている全てのファイルと、当該ファ
イル内における記録順が記述されたユニットインデック
スが作成される。

【００５３】また、ユニットインデックスは、音声合成
時の効率的な検索を実現するために、拡張音節のラベル
の長さ（かな文字で表記した場合の文字数）により、長
い順にソートされて記録される。このようにラベルの長
さによってソートすることにより、結果的に音節量の大
きい順にソートされることとなる。

【００５４】以上のようにして、音声コーパス４２とし
て音声ファイル、ファイルインデックス、ユニットイン
デックスが、ハードディスク２６に格納される。

【００５５】なお、上記実施形態では、作業者がサンプ
ル音声波形データに対して、区分位置を示すようにして
いる。しかしながら、波形データの変化や周波数スペク
トルの変化等に基づいて、サンプル音声波形データを自
動的に拡張音節に区分するようにしてもよい。さらに、
ＣＰＵ１８が拡張音節の区分を候補として表示し、作業
者が確認または訂正して、サンプル音声波形データを拡
張音節に区分するようにしてもよい。

【００５６】(4)音声合成処理図１０、図１１に、ハードディスク２６に記録された音
声合成プログラム４０のフローチャートを示す。操作者
は、合成音声のターゲット（出力すべき音声）を「かな
文字列」としてキーボード２２から入力する（ステップ
Ｓ１１）。ここでは、ターゲットとして「らいうこーず
いけーほーが」と入力されたものとして、説明を進め
る。

【００５７】なお、この「かな文字列」は、ＦＤＤ２４
を介して、フロッピーディスク３４から取り込んでもよ
く、ネットワーク等を介して他のコンピュータから得た
ものであってもよい。また、かな文字列以外の音韻情報
（漢字かな混じり文等）を受けて、ハードディスク２６
に記録しておいた辞書等によって、「かな文字列」に変
換するようにしてもよい。さらに、アクセントやポーズ
などの韻律的な情報を付加してもよい。

【００５８】ＣＰＵ１８は、まず、音声コーパス４２の
ユニットインデックスにおける最初の（つまり最長の）
見出し（拡張音節）を取得する（ステップＳ１２）。図
９によれば、「ちゅー」が取得される。なお、実際のユ
ニットインデックスは、全ての拡張音節が見出しとされ
た膨大な量のものであるが、図９では一部のみを示して
いる。

【００５９】次に、この拡張音節「ちゅー」が、ターゲ
ットである「らいうこーずいけーほーが」と、左最長一
致するかどうかを判断する（ステップＳ１３）。ここで
は、一致しないので、ユニットインデックスの次の見出
し「こー」を取得し（ステップＳ１４）、同様の判断を
行う（ステップＳ１３）。これを繰り返すことにより、
拡張音節「らい」において一致することが見いだされ
る。

【００６０】ＣＰＵ１８は、この拡張音節「らい」によ
り、ターゲット「らいうこーずいけーほーが」におい
て、「らい」と「う」の間に拡張音節の区分を行う。つ
まり、「らい」を拡張音節として切り出す（ステップＳ
１５）。このように、文字列の長い順に拡張音節をソー
トした音声コーパスを用いることにより、効率的に拡張
音節の切り出しを行うことができる。

【００６１】次に、ＣＰＵ１８は、「らい」のユニット
インデックスに基づいて、ファイルインデックスを参照
し、図１２に示すような候補ファイル（エントリ）を作
成する（ステップＳ１５Ａ）。図１２では、「らい」の
第１候補のファイルが示されている。このファイルに
は、音声ファイルのファイル名、順番、開始時間、終了
時間、ラベルが記録される。候補ファイル（エントリ）
は、「らい」についてのサンプル音声波形データの数だ
け生成される。

【００６２】ＣＰＵ１８は、「らい」について生成した
エントリに番号を付して（たとえば、第１候補、第２候
補・・・のように）、「らい」に対応づけて記録する
（合成ターゲットの音声単位系列の拡張音節候補参
照）。図１２においては、「らい」について、４つのエ
ントリがあることが示されている。

【００６３】上記のようにして、ターゲットから拡張音
節を切り出すと、ＣＰＵ１８は、ターゲット中に未処理
の部分があるかどうかを判断する。つまり、ターゲット
中に、まだ、拡張音節として切り出されていない部分が
あるかどうかを判断する（ステップＳ１６）。

【００６４】まだ切り出されていない部分があれば、当
該部分を対象として、ステップＳ１２以下を再び実行す
る（ステップＳ１７）。これにより、次に、「う」が切
り出されてエントリが生成され、音声単位系列の拡張音
節候補が作成される。図１２においては、「う」につい
て、５つのエントリが生成されている。

【００６５】以上の処理を繰り返して、拡張音節の切り
出しと、これに対応するサンプル音声波形データの特定
（つまり取得）が行われる。図１２に、完成した音声単
位系列の拡張音節候補を示す。なお、この実施形態で
は、先頭と最後を示すために、「＃＃」を記録してい
る。

【００６６】次に、ＣＰＵ１８は、複数の拡張音節候補
中から、最適候補を決定する（ステップＳ１８）。この
実施形態では、次のような「環境歪み」および「接続歪
み」に基づいて、最適候補を決定するようにしている。

【００６７】ここで、「環境歪み」は、さらに、「ター
ゲット歪み」と「コンテキスト歪み」を合計したもので
ある。

【００６８】「ターゲット歪み」とは、ターゲットの拡
張音節と、音声コーパスの拡張音節とが一致することを
前提とした上で、当該拡張音節の前後の音素環境が一致
しない場合に考慮する歪みをいう。ターゲット歪みは、
「左方向歪み」と「右方向歪み」を加算したものとして
定義する。

【００６９】「左方向歪み」は、直前の１拡張音節が、
ターゲットとサンプルで一致する場合「０」とし、一致
しない場合には「１」とする。ただし、直前の１音素
が、ターゲットとサンプルで一致する場合、拡張音節が
一致しなくとも「０」とする。さらに、ターゲットの直
前の１音素が、無音または促音であり、サンプルの直前
の１音素も無音または促音である場合は、一致したもの
とみなす（つまり「０」とする）。

【００７０】「右方向歪み」は、直後の１拡張音節が、
ターゲットとサンプルで一致する場合「０」とし、一致
しない場合には「１」とする。ただし、直後の１音素
が、ターゲットとサンプルで一致する場合、拡張音節が
一致しなくとも「０」とする。さらに、ターゲットの直
後の１音素が、無音、無声破裂音または無声破擦音であ
るか、ターゲット自体が促音であり、サンプルの直後の
１音素が、無音、無声破裂音または無声破擦音である場
合は、一致したものとみなす（つまり「０」とする）。

【００７１】「コンテキスト歪み」とは、次の「左方向
歪み」と「右方向歪み」を合計したものである。

【００７２】「左方向歪み」とは、当該拡張音節を基準
として、文頭までの全ての拡張音節が一致している場
合、「０」とする。ｍ個目の拡張音節において一致しな
くなった場合には、「１／ｍ」の歪みとする。

【００７３】「右方向歪み」とは、当該拡張音節を基準
として、文末までの全ての拡張音節が一致している場
合、「０」とする。ｍ個目の拡張音節において一致しな
くなった場合には、「１／ｍ」の歪みとする。

【００７４】「接続歪み」とは、ターゲットにおいて連
続する２つの拡張音節（たとえば、「らい」と「う」）
に対応する、音声コーパス中の拡張音節候補が、同じ音
声ファイルにおいて連続している場合には「０」、そう
でない場合には「１」とするものである。すなわち、候
補として決定した連続する拡張音節が、音声コーパスに
おいても連続している場合には、歪みは生じない。

【００７５】ＣＰＵ１８は、上記の「環境歪み」および
「接続歪み」の合計が小さく（好ましくは最小と）なる
ように、拡張音節候補を選択する。その選択基準を、図
１２ａに模式化して示す。その結果、たとえば、図１３
に示すように、拡張音節候補が選択される。なお、この
実施形態では、動的計画法を用いて、好ましい拡張音節
候補を決定している。

【００７６】次に、ＣＰＵ１８は、上記によって選択さ
れた拡張音節候補を結合（接続）して、音声波形データ
を生成する（ステップＳ１９）。この接続の際には、再
び、「接続歪み」を考慮する。

【００７７】接続歪みが「０」で連続する複数の拡張音
節候補に対しては、そのサンプル音声波形データを、エ
ントリを参照して、音声ファイルから、まとめて取り出
す。また、接続歪みが「１」である２つの拡張音節候補
については、前の拡張音節候補のサンプル音声波形、後
ろの拡張音節候補のサンプル音声波形を、それぞれ取り
出す。その上で、両サンプル音声波形を接続する。この
際、前のサンプル音声波形の終了付近および後ろのサン
プル波形の開始付近において、なめらかに接続できる箇
所（たとえば、両者の振幅が０に近く、かつ、振幅変化
の方向が同じ方向であるような箇所）を見いだし、当該
部分で切り出して接続する。

【００７８】以上のようにして、図１４に示すような
「らいうこーずいけーほーが」に対応する音声波形デー
タが得られる。

【００７９】ＣＰＵ１８は、これを、サウンドカード２
８に与える。サウンドカード２８は、与えられた音声波
形データをアナログ音声信号に変換し、スピーカ２９か
ら音声として出力する。

【００８０】上記実施形態においては、音声コーパスを
検索することにより拡張音節を見いだして切り出しを行
っているが、音声コーパス作成時と同様に、拡張音節の
規則に基づいて切り出しを行うようにしてもよい。

【００８１】(5)その他の実施形態上記実施形態では、母音連鎖を２以下に限定して拡張音
節を定義しているが、母音連鎖が３以上のものを含めて
もよい。たとえば、「きゃいーん」「ぎゅおーん」のよ
うに、長音および二重母音を含む場合に、これを１つの
拡張音節として扱ってもよい。

【００８２】なお、母音連鎖を２以下に限定して拡張音
節を定義した場合であっても、「接続歪み」が０で連続
する複数の拡張音節候補については一つの波形素片とし
てまとめて切り出すため、一つの波形素片には３以上の
母音連鎖が含まれる場合がある。

【００８３】また、上記実施形態では、音声コーパスと
して、音声波形データを記録している。しかしながら、
PARCOR係数などの音響特徴パラメータを記録するように
してもよい。これにより、音質は劣化するものの、音声
コーパスのサイズを小さくすることができる。

【００８４】上記実施形態では、図１の各機能をＣＰＵ
を用いて実現した場合について説明したが、その一部又
は全部をハードウエアロジックによって構成してもよ
い。

【００８５】２．第２の実施形態 (1)全体構成図１５に、この発明の第２の実施形態による音声合成装
置の全体構成を示す。この装置は、規則音声合成を行う
ものであり、区分手段１０２、音源生成手段１０４、調
音手段１０６、アナログ変換手段１１２を備えている。
調音手段１０６は、フィルタ係数制御手段１０８、音声
合成フィルタ手段１１０を備えている。拡張音節の継続
時間長の辞書１１６には、各拡張音節について、その継
続時間長が記録されている。音韻辞書１１４には、拡張
音節ごとに、声道伝達特性の時間的変化が記録されてい
る。

【００８６】出力すべき音声の音韻情報は、区分手段１
０２に与えられる。区分手段１０２は、音韻情報を拡張
音節に区分し、フィルタ係数制御手段１０８、音源生成
手段１０４に与える。また、区分手段１０２は、拡張音
節の継続時間長の辞書１１６を参照し、区分した各拡張
音節の継続時間長を算出する。これを、音源生成手段１
０４に与える。音源生成手段１０４は、区分手段１０２
からの情報に基づいて、当該拡張音節のための音源波形
を生成する。

【００８７】一方、フィルタ係数制御手段１０８は、拡
張音節の音韻情報に基づいて、音韻辞書１１４を参照
し、当該拡張音節の声道伝達特性の時間的変化を取得す
る。フィルタ係数制御手段１０８は、これに基づいて、
当該声道伝達特性を実現するフィルタ係数を音声合成フ
ィルタ１１０に出力する。したがって、音声合成フィル
タ手段１１０は、与えられた音源波形に対し、各拡張音
節に関して時間的同期をとりつつ、声道伝達特性による
調音を施し、音声合成波形として出力する。音声合成波
形は、アナログ変換手段１１２によって、アナログ音声
信号に変換される。

【００８８】(2)ハードウエア構成図１６に、図１５の装置をＣＰＵを用いて実現した場合
のハードウエア構成の一例を示す。ＣＰＵ１８には、メ
モリ２０、キーボード／マウス２２、フロッピーディス
クドライブ（ＦＤＤ）２４、ＣＤ−ＲＯＭドライブ３
６、ハードディスク２６、サウンドカード２８、Ａ／Ｄ
変換器５２、ディスプレイ５４が接続されている。ハー
ドディスク２６には、オペレーシングシステム（ＯＳ）
４４（たとえば、マイクロソフト社のWINDOWS98な
ど）、音声合成プログラム４１が格納されている。これ
らプログラムは、ＣＤ−ＲＯＭドライブ３６を介して、
ＣＤ−ＲＯＭ３８からインストールされたものである。
また、ハードディスク２６には、拡張音節の継続時間長
の辞書１１６、音韻辞書１１４が記録されている。

【００８９】(3)音声合成処理図１７に、音声合成処理プログラムのフローチャートを
示す。操作者は、合成音声のターゲット（出力すべき音
声）を「かな文字列」としてキーボード２２から入力す
る（ステップＳ１０１）。なお、この「かな文字列」
は、ＦＤＤ２４を介して、フロッピーディスク３４から
取り込んでもよく、ネットワーク等を介して他のコンピ
ュータから得たものであってもよい。また、かな文字列
以外の音韻情報（漢字かな混じり文等）を受けて、ハー
ドディスク２６に記録しておいた辞書等によって、「か
な文字列」に変換するようにしてもよい。さらに、アク
セントやポーズなどの韻律的な情報を付加してもよい。

【００９０】ＣＰＵ１８は、このかな文字列を拡張音節
に区分する（ステップＳ１０２）。拡張音節への区分
は、拡張音節の定義に基づく規則や拡張音節を列挙した
テーブルに基づいて行う。次に、図１８に示す拡張音節
の継続時間長の辞書１１６を参照して、各拡張音節につ
いて、その継続時間長を取得する。なお、この辞書を、
図９のユニットインデックスと同じように、文字の多い
順にソートして用意すれば、図１０のステップＳ１１〜
Ｓ１７と同様にして、拡張音節の区分と継続時間長の取
得を同時に行うこともできる。

【００９１】さらに、ＣＰＵ１８は、各拡張音節の文字
列、形態素解析によって得たアクセント情報などに基づ
いて、各拡張音節に対応する音源波形を生成する（ステ
ップＳ１０４）。

【００９２】次に、図１９に示すような音韻辞書１１４
を参照して、各拡張音節に対応する声道伝達関数の時間
的変化を取得する（ステップＳ１０５）。この音韻辞書
１１４には、各拡張音節について、声道伝達関数の時間
的な変化が記述されている。さらに、各拡張音節の音源
波形に対して、上記の声道伝達関数の時間的変化を実現
するように、調音処理（フィルタ処理）を行う（ステッ
プＳ１０６）。

【００９３】このようにして得た音声合成波形を、サウ
ンドカード２８に与え、音声として出力する（ステップ
Ｓ１０７）。

【００９４】以上のように、この実施形態においては、
拡張音節をひとかたまりとして音声合成を行っているの
で、音声波形の接続部分において不自然さが排除され、
品質の高い合成音声を得ることができる。

【００９５】(4)その他の実施形態前記第１の実施形態において指摘した変更が、この第２
の実施形態においても同様に適用可能である。

【００９６】３．その他の実施形態上記実施形態では、音声合成について拡張音節を用いた
場合を説明した。しかしながら、音声処理一般におい
て、拡張音節を基準として処理を行う場合として適用す
ることができる。たとえば、拡張音節をひとかたまりの
単位として、音声の解析を行う場合にも適用することが
でき、解析精度を向上させることができる。

【図面の簡単な説明】

【図１】この発明の一実施形態による音声合成装置の全
体構成を示す図である。

【図２】この発明の一実施形態による音声合成装置のハ
ードウエア構成を示す図である。

【図３】音声コーパス作成プログラムのフローチャート
である。

【図４】サンプル音声波形データとかな文字列を示す図
である。

【図５】拡張音節の構造を示す図である。

【図６】拡張音節の音節量と音節構造との対応関係およ
び拡張音節の例を示す図である。

【図７】サンプル音声波形データ、スペクトログラム、
拡張音節に区分された文字列を表示した画面を示す図で
ある。

【図８】音声ファイルとファイルインデックスとの関係
を示す図である。

【図９】ユニットインデックスを示す図である。

【図１０】音声合成処理プログラムのフローチャートで
ある。

【図１１】音声合成処理プログラムのフローチャートで
ある。

【図１２】エントリの作成状態を示す図である。

【図１２ａ】環境歪みと接続歪みとの関係を示す図であ
る。

【図１３】拡張音節候補の決定を概念的に示す図であ
る。

【図１４】合成された音声波形データを示す図である。

【図１５】第２の実施形態による音声合成装置の全体構
成を示す図である。

【図１６】第２の実施形態による音声合成装置のハード
ウエア構成を示す図である。

【図１７】第２の実施形態による音声合成処理プログラ
ムのフローチャートである。

【図１８】継続時間長の辞書を示す図である。

【図１９】音韻辞書を示す図である。

【符号の説明】

４・・・アナログ変換手段６・・・音声データベース８・・・波形候補取得手段１０・・・波形候補決定手段１２・・・波形結合手段

Claims

【特許請求の範囲】

【請求項１】人間の発話を収録することによって得たサ
ンプル音声波形データを音声単位に区分するとともに、
各音声単位のサンプル音声波形データに対応する音韻情
報を関連付けて形成した音声データベースを記録した音
声データベース記録手段と、出力すべき音声の音韻情報を受けて、この音韻情報を音
声単位に区分するとともに、前記音声データベースか
ら、音声単位に区分したそれぞれの音韻情報について対
応するサンプル音声波形データを取得し、取得した音声
単位のサンプル音声波形データを結合して出力すべき音
声波形データを得る音声波形合成手段と、音声波形合成手段によって得られた音声波形データを受
けて、アナログ音声信号に変換するアナログ変換手段
と、を備えた音声合成装置であって、前記音声データベースにおいては、母音を含む音素系列
からなっており、複数の音素が明瞭な区分に乏しく連続
している場合にはこれら音素を１つのかたまりとして扱
った拡張音節に基づいて、サンプル音声波形データを音
声単位に区分し、前記音声波形合成手段は、上記拡張音節に基づいて、音
韻情報を音声単位に区分することを特徴とする音声合成
装置。
【請求項２】音韻情報を対応付けたサンプル音声波形デ
ータによる音声データベースを用いて、コンピュータに
音声合成処理を行わせるための音声合成プログラムを記
録した記録媒体であって、出力すべき音声の音韻情報を受けて、この音韻情報を下
記に定義する拡張音節に区分するとともに、前記音声デ
ータベースから、拡張音節に区分したそれぞれの音韻情
報について対応するサンプル音声波形データを取得し、
取得した拡張音節のサンプル音声波形データを結合して
出力すべき音声波形データを得る処理をコンピュータに
行わせるためのプログラムを記録した記録媒体。ここ
で、拡張音節とは、母音を含む音素系列からなってお
り、複数の音素が明瞭な区分に乏しく連続している場合
にはこれら音素を１つのかたまりとして扱ったものをい
う。
【請求項３】出力すべき音声の音韻情報を受けて、この
音韻情報を拡張音節に区分する区分手段と、区分手段によって区分された拡張音節をひとかたまりと
して音声波形データを生成し、各拡張音節の音声波形デ
ータを結合して出力すべき音声波形データを得る音声波
形合成手段と、音声波形合成手段によって得られた音声波形データを受
けて、アナログ音声信号に変換するアナログ変換手段
と、を備えた音声合成装置。ここで、拡張音節とは、母音を
含む音素系列からなっており、複数の音素が明瞭な区分
に乏しく連続している場合にはこれら音素を１つのかた
まりとして扱ったものをいう。
【請求項４】コンピュータに音声合成処理を行わせるた
めの音声合成プログラムを記録した記録媒体であって、出力すべき音声の音韻情報を受けて、この音韻情報を拡
張音節に区分し、拡張音節をひとかたまりとして音声波
形データを生成し、各拡張音節の音声波形データを結合
して出力すべき音声波形データを得る処理をコンピュー
タに行わせるためのプログラムを記録した記録媒体。こ
こで、拡張音節とは、母音を含む音素系列からなってお
り、複数の音素が明瞭な区分に乏しく連続している場合
にはこれら音素を１つのかたまりとして扱ったものをい
う。
【請求項５】音韻情報を受けて、この音韻情報を区分す
る処理を行うための区分プログラムを記録した記録媒体
であって、音韻情報を受け取り、当該音韻情報を、下記によって定義される拡張音節に区
分する処理をコンピュータに行わせるためのプログラム
を記録した記録媒体。ここで、拡張音節とは、母音を含
む音素系列からなっており、複数の音素が明瞭な区分に
乏しく連続している場合にはこれら音素を１つのかたま
りとして扱ったものをいう。
【請求項６】サンプル音声波形データを拡張音節に区分
して記録した波形データ記録部と、各拡張音節のサンプル音声波形データに対応する音韻情
報を関連付けて記録した音韻情報記録部と、を備えた音声データベースを記録した記録媒体。ここ
で、前記拡張音節は、母音を含む音素系列からなってお
り、複数の音素が明瞭な区分に乏しく連続している場合
にはこれら音素を１つのかたまりとして扱ったものをい
う。
【請求項７】音声処理のために用いる音韻情報データを
記録した記録媒体であって、前記音韻情報データは、下記定義による拡張音節をひと
かたまりとして扱い、拡張音節ごとに区分情報が付され
ていることを特徴とする音韻情報データを記録した記録
媒体。ここで、前記拡張音節は、母音を含む音素系列か
らなっており、複数の音素が明瞭な区分に乏しく連続し
ている場合にはこれら音素を１つのかたまりとして扱っ
たものをいう。
【請求項８】音声処理のために用いる音韻辞書を記録し
た記録媒体であって、下記定義による拡張音節を単位とする音韻情報に対応づ
けて、当該音韻の声道伝達関数の時間的変化を記述した
音韻辞書を記録した記録媒体。ここで、前記拡張音節
は、母音を含む音素系列からなっており、複数の音素が
明瞭な区分に乏しく連続している場合にはこれら音素を
１つのかたまりとして扱ったものをいう。
【請求項９】請求項１、３の音声合成装置または請求項
２、４〜８のいずれかの記録媒体において、前記拡張音節は、母音、母音と長音の結合、母音と二重
母音の第２要素の結合のいずれかのみを母音要素として
含む１以上の音素系列であって、最も長いものが優先し
て拡張音節として選択されるよう定義されることを特徴
とするもの。
【請求項１０】請求項１〜９のいずれかの音声合成装置
または記録媒体において、前記拡張音節は、子音Ｃ（促音、拗音、撥音は含まな
い）、拗音ｙ、母音Ｖ（長音、二重母音の第２要素は含
まない）、長音Ｒ、二重母音の第２要素Ｊ、促音Ｑ、撥
音Ｎを構成要素としたものであって、子音Ｃ、拗音ｙの
音節量を「０」、母音Ｖ、長音Ｒ、二重母音の第２要素
Ｊ、促音Ｑ、撥音Ｎの音節量を「１」として、各構成要
素の音節量合計の多いものが優先して拡張音節として選
択されるよう定義されるものをいう。
【請求項１１】請求項１〜１０のいずれかの音声合成装
置または記録媒体において、前記拡張音節には、音節量が「２」の(C)(y)VR、(C)(y)
VJ、(C)(y)VNおよび(C)(y)VQを含む重音節と、音節量が
「１」の(C)(y)Vを含む軽音節が少なくとも含まれてお
り、軽音節よりも重音節が優先して拡張音節として選択され
ることを特徴とするもの。ここで、（Ｘ）はＸが含まれ
ていなくとも良く、１個以上含まれていてもよいことを
示す。
【請求項１２】請求項１１の音声合成装置または音声合
成プログラムを記録した記録媒体において、前記拡張音節には、さらに、音節量が「３」の(C)(y)VR
N、(C)(y)VRQ、(C)(y)VJN、(C)(y)VJQおよび(C)(y)VNQ
を含む超重音節が含まれており、軽音節よりも重音節が、重音節よりも超重音節が優先し
て拡張音節として選択されることを特徴とするもの。
【請求項１３】請求項１の音声合成装置または請求項２
の音声合成プログラムを記録した記録媒体において、前記音声データベースは、拡張音節が、その読みを示す
かな文字列の長い順に検索可能に構成されていることを
特徴とするもの。
【請求項１４】音声波形に対する処理を行う音声処理方
法において、母音を含む音素系列からなっており、複数の音素が明瞭
な区分に乏しく連続している場合にはこれら音素を１つ
のかたまりとした拡張音節を分離できない単位として音
声波形に対する処理を行う音声処理方法。