WO2010050103A1

WO2010050103A1 - 音声合成装置

Info

Publication number: WO2010050103A1
Application number: PCT/JP2009/004004
Authority: WO
Inventors: 加藤正徳
Original assignee: 日本電気株式会社
Priority date: 2008-10-28
Filing date: 2009-08-21
Publication date: 2010-05-06
Also published as: US20110196680A1; JPWO2010050103A1

Abstract

　装置１００は、基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶する（音声素片情報記憶部１１５）。装置は、ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける（要求韻律情報受付部１１３）。装置は、基準韻律と要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する（中間韻律情報生成部１１４）。装置は、生成された中間韻律情報と、記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う（音声合成部１１６）。

Description

音声合成装置

　本発明は、文字列を表す音声を合成する音声合成処理を行う音声合成装置に関する。

　文字列を表す文字列情報を解析し、その文字列が表す音声を規則合成方式に従って合成する（即ち、合成音声を生成する）音声合成装置が知られている。図１は、この種の音声合成装置の構成を示したブロック図である。このような構成を有する音声合成装置は、例えば、非特許文献１乃至非特許文献３、特許文献１及び特許文献２のそれぞれに記載されている。

　図１に示した音声合成装置は、言語処理部９０１と、韻律推定部９０２と、素片情報記憶部９０５と、素片選択部９０６と、波形生成部９０８と、を備えている。

　素片情報記憶部９０５は、音声合成単位毎に生成された音声素片を表す音声素片情報と、各音声素片の属性情報と、を記憶している。ここで、音声素片情報は、合成音声（音声波形）を生成するために用いられる情報である。音声素片情報は、人間が発した音声（自然音声波形）から抽出された情報であることが多い。例えば、音声素片情報は、アナウンサー又は声優が発した（発声した）音声を録音した情報に基づいて生成される。音声素片情報の基となった音声を発した人間（話者）は、音声素片の元発話者と呼ばれる。

　例えば、音声素片は、音声合成単位毎に分割された（切り出された）音声波形、線形予測分析パラメータ、又は、ケプストラム係数等である。また、音声素片の属性情報は、各音声素片の基となった音声の音素環境、ピッチ周波数、振幅、継続時間等の音韻情報、並びに、韻律情報である。音声合成単位は、音素、ＣＶ、ＣＶＣ、又は、ＶＣＶ（Ｖは母音、Ｃは子音）等が用いられることが多い。この音声素片の長さ、及び、音声合成単位の詳細については、非特許文献１乃至非特許文献３に記載されている。

　言語処理部９０１は、入力された文字列情報に対して、形態素解析、構文解析、及び、読み付け等の分析を行い、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、アクセント型等を表す情報と、を言語解析処理結果として韻律推定部９０２及び素片選択部９０６に出力する。

　韻律推定部９０２は、言語処理部９０１から出力された言語解析処理結果に基づいて、合成音声の韻律（音の高さ（ピッチ）、音の長さ（時間長）、及び、音の大きさ（パワー）等に関する情報）を推定し、推定した韻律を表す韻律情報を素片選択部９０６及び波形生成部９０８に出力する。

　素片選択部９０６は、言語解析処理結果と推定韻律とに基づいて、素片情報記憶部９０５に記憶されている音声素片情報の中から、下記のように音声素片情報を選択し、選択した音声素片情報とその属性情報とを波形生成部９０８に出力する。

　具体的には、素片選択部９０６は、入力された言語解析処理結果と推定韻律とに基づいて、合成音声の特徴を表す情報（以下、これを「目標素片環境」と呼ぶ。）を音声合成単位毎に求める。目標素片環境は、該当・先行・後続の各音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、単位の継続時間長、ケプストラム、ＭＦＣＣ（Ｍｅｌ　Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）、及びこれらのΔ量（単位時間あたりの変化量）等である。

　次に、素片選択部９０６は、求めた目標素片環境に含まれる特定の情報（主に該当音素）に対応（例えば、一致）する音素を有する音声素片を表す音声素片情報を素片情報記憶部５から複数取得する。取得された音声素片情報は、音声を合成するために用いられる音声素片情報の候補である。

　そして、素片選択部９０６は、取得された音声素片情報に対して、音声を合成するために用いる音声素片情報としての適切度を示す指標であるコストを算出する。コストは、適切度が高くなるほど小さくなる値である。即ち、コストが小さい音声素片情報を用いるほど、合成された音声は、人間が発した音声と類似している程度を表す自然度が高い音声となる。即ち、素片選択部９０６は、算出されたコストが最も小さい音声素片情報を選択する。

　波形生成部９０８は、選択された音声素片情報と、韻律推定部９０２により推定された韻律情報と、に基づいて、音声素片情報が表す音声素片が有する韻律を、韻律情報が表す韻律とするように音声波形を生成し、生成した音声波形を接続した音声波形を合成音声として出力する。

　また、特許文献３に記載の音声合成装置は、ユーザが発した音声が有する韻律（ユーザにより要求された韻律、要求韻律）を有するように、音声を合成する。この音声合成装置によれば、ユーザは、合成される音声が有する韻律を自らが発した音声が有する韻律に近づけることができる。

特開２００５－９１５５１特開２００６－８４８５４特開２００２－２５８８８５

Ｘｕｅｄｏｎｇ　Ｈｕａｎｇ，　Ａｌｅｘ　Ａｃｅｒｏ，　Ｈｓｉａｏ－Ｗｕｅｎ　Ｈｏｎ：　"Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ"，　Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ，　ｐｐ．　６８９－８３６，　２００１．石川、「音声合成のための韻律制御の基礎」、電子情報通信学会技術研究報告、電子情報通信学会、２０００年、第１００巻、第３９２号、ｐ．２７－３４阿部、「音声合成のための合成単位の基礎」、電子情報通信学会技術研究報告、電子情報通信学会、２０００年、第１００巻、第３９２号、ｐ．３５－４２

　ところで、上述した音声合成装置には、基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報が記憶されている。

　従って、音声合成装置が基準韻律と大きく異なる韻律を有する音声を合成した場合、合成された音声の自然度が基準値よりも低くなる可能性が比較的高い。一方、ユーザにより要求された韻律（要求韻律）は、基準韻律と大きく異なる場合がある。従って、上述した音声合成装置においては、自然度が過度に低い（人間が発した音声であると認識される可能性が過度に低い）音声を合成してしまう場合があるという課題があった。

　また、この課題は、要求韻律がユーザにより入力（又は、編集）された韻律である場合、又は、要求韻律が人工的に生成された韻律である場合等においても同様に生じる。

　このため、本発明の目的は、上述した課題である「自然度が過度に低い音声を合成してしまう場合があること」を解決することが可能な音声合成装置を提供することにある。

　かかる目的を達成するため本発明の一形態である音声合成装置は、
　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶する音声素片情報記憶手段と、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける要求韻律情報受付手段と、
　上記基準韻律と上記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する中間韻律情報生成手段と、
　上記生成された中間韻律情報と、上記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う音声合成手段と、
　を備える。

　また、本発明の他の形態である音声合成方法は、
　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報が記憶装置に記憶されている場合に、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付け、
　上記基準韻律と上記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成し、
　上記生成された中間韻律情報と、上記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う、方法である。

　また、本発明の他の形態である音声合成プログラムは、
　情報処理装置に、
　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶装置に記憶させる音声素片情報記憶処理手段と、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける要求韻律情報受付手段と、
　上記基準韻律と上記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する中間韻律情報生成手段と、
　上記生成された中間韻律情報と、上記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う音声合成手段と、
　を実現させるためのプログラムである。

　本発明は、以上のように構成されることにより、合成音声の自然度が過度に低くなることを防止しながら、要求韻律を合成音声に反映することができる。

背景技術に係る音声合成装置の概略構成を表す図である。本発明による第１実施形態に係る音声合成装置の機能の概略を表すブロック図である。図２に示した音声合成装置のＣＰＵが実行する音声合成プログラムを示したフローチャートである。基準韻律、要求韻律、及び、候補韻律の関係を概念的に示したグラフである。候補韻律と基準韻律とが類似している程度と、コストと、の関係を概念的に示したグラフである。本発明による第２実施形態に係る音声合成装置のＣＰＵが実行する音声合成プログラムを示したフローチャートである。本発明による第３実施形態に係る音声合成装置の機能の概略を表すブロック図である。

　以下、本発明に係る、音声合成装置、音声合成方法、及び、音声合成プログラム、の各実施形態について図２～図７を参照しながら説明する。

＜第１実施形態＞
（構成）
　図２に示したように、第１実施形態に係る音声合成装置１は、情報処理装置である。音声合成装置１は、図示しない中央処理装置（ＣＰＵ；Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、記憶装置（メモリ及びハードディスク駆動装置（ＨＤＤ；Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ））、入力装置及び出力装置を備える。

　出力装置は、ディスプレイ及びスピーカを有する。出力装置は、ＣＰＵにより出力された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示させる。また、出力装置は、ＣＰＵにより生成された音声情報に基づいて、音声をスピーカから出力させる。

　入力装置は、マウス、キーボード及びマイクロホンを有する。音声合成装置１は、キーボード及びマウスを介して、ユーザの操作に基づく情報が入力されるように構成されている。音声合成装置１は、マイクロホンを介して、マイクロホンの周囲（即ち、音声合成装置１の外部）の音声を表す入力音声情報が入力されるように構成されている。

（機能）
　次に、上記のように構成された音声合成装置１の機能について説明する。
　この音声合成装置１の機能は、言語処理部１１と、韻律推定部１２と、要求韻律情報受付部（要求韻律情報受付手段）１３と、中間韻律情報生成部（中間韻律情報生成手段）１４と、素片情報記憶部（音声素片情報記憶手段、音声素片情報記憶処理工程、音声素片情報記憶処理手段）１５と、素片選択部（音声素片情報選択手段、コスト算出手段、音声合成手段の一部）１６と、韻律特定部（音声合成手段の一部）１７と、波形生成部（音声合成手段の一部）１８と、を含む。この機能は、音声合成装置１のＣＰＵが、記憶装置に記憶されている図３に示した音声合成プログラムを実行することにより実現される。

　素片情報記憶部１５は、音声合成単位毎に生成された音声素片を表す音声素片情報と、各音声素片の属性情報と、を予め記憶装置に記憶させている。本例では、音声素片は、音声合成単位毎に分割された（切り出された）音声波形である。なお、音声素片は、線形予測分析パラメータ、又は、ケプストラム係数等であってもよい。

　また、音声素片の属性情報は、各音声素片の基となった音声の音素環境、ピッチ周波数、振幅、継続時間等の音韻情報、並びに、韻律を表す韻律情報を含む。本例では、音声合成単位は、音素である。なお、音声合成単位は、ＣＶ、ＣＶＣ、又は、ＶＣＶ（Ｖは母音、Ｃは子音）等であってもよい。また、韻律は、音の高さ（ピッチ）を表すパラメータ、音の長さ（時間長）を表すパラメータ、及び、音の大きさ（パワー）を表すパラメータを含む。

　言語処理部１１は、ユーザにより入力された文字列情報を受け付ける。言語処理部１１は、受け付けた文字列情報が表す文字列に対して、言語解析処理を行う。言語解析処理は、形態素解析処理、構文解析処理、及び、読み付け処理を含む。これにより、言語処理部１１は、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、アクセント型等を表す情報と、を言語解析処理結果として韻律推定部１２及び素片選択部１６へ伝達する。

　韻律推定部１２は、言語処理部１１から伝達された言語解析処理結果に基づいて、基準となる韻律である基準韻律を推定する。基準韻律は、素片情報記憶部１５に記憶されている音声素片情報を用いて、その基準韻律を有する音声を合成した場合に、合成された音声の自然度が所定の基準値よりも高くなるように設定された韻律である。換言すると、基準韻律を有する音声を合成した場合に、合成された音声の自然度を所定の基準値よりも高くする音声素片情報が素片情報記憶部１５に記憶されている。

　ここで、自然度は、人間が発した音声と類似している程度を表す値である。即ち、基準韻律は、文字列情報が表す文字列に対して言語解析処理を行うことにより推定された韻律である、と言うことができる。
　韻律推定部１２は、推定した基準韻律を表す基準韻律情報を中間韻律情報生成部１４へ伝達する。

　要求韻律情報受付部１３は、マイクロホンを介して入力された入力音声情報に基づいて、韻律情報を抽出することにより、抽出した韻律情報を要求韻律情報として受け付ける。要求韻律情報は、ユーザにより要求された韻律である要求韻律を表す。即ち、要求韻律情報受付部１３は、ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける。

　なお、要求韻律情報受付部１３は、入力音声情報に基づいて韻律情報を抽出する方法として、音声素片の属性情報を生成する際に利用されている周知の方法を用いる。
　要求韻律情報受付部１３は、受け付けた要求韻律情報を中間韻律情報生成部１４へ伝達する。

　中間韻律情報生成部１４は、韻律推定部１２から伝達された基準韻律情報と、要求韻律情報受付部１３から伝達された要求韻律情報と、に基づいて、合成する音声が有する韻律の候補である候補韻律を表す候補韻律情報を複数生成する。候補韻律情報は、後述する中間韻律情報と、要求韻律情報と、を含む。更に、候補韻律情報は、基準韻律情報を含んでいてもよい。中間韻律情報生成部１４は、生成した候補韻律情報を素片選択部１６へ伝達する。

　中間韻律情報生成部１４は、基準韻律と要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する。このとき、中間韻律情報生成部１４は、生成される中間韻律情報が表す中間韻律と、基準韻律（又は、要求韻律）と、が類似している程度がそれぞれ異なるように、複数の中間韻律情報を生成する。

　ところで、基準韻律に類似している程度が大きい（高い）韻律ほど、その韻律を有する音声を合成した場合に、高い自然度を有する音声を合成することができる。一方、基準韻律に類似している程度が大きい韻律ほど、要求韻律に類似している程度が小さく（低く）なるので、ユーザの要求が満足される可能性が低くなる。従って、基準韻律と要求韻律との間の韻律を用いることにより、自然度が過度に低くなることを防止しながら、ユーザの要求が満足される可能性を高めることができる。

　本実施例における中間韻律とは、基準韻律と要求韻律とを内分（内挿）した値である。ここでは、韻律がＫ（Ｋは整数）個の要素（ピッチ、時間長、パワー等）を有する場合を想定する。この場合、韻律をＫ次元ベクトルにより表現することができる。即ち、基準韻律をｐとし、要求韻律をｑとし、中間韻律をｒとすると、基準韻律ｐ、要求韻律ｑ、及び、中間韻律ｒのそれぞれは下記式（１）～（３）のように表される。
ｐ＝（ｐ（１），ｐ（２），…，ｐ（Ｋ））　　…（１）
ｑ＝（ｑ（１），ｑ（２），…，ｑ（Ｋ））　　…（２）
ｒ＝（ｒ（１），ｒ（２），…，ｒ（Ｋ））　　…（３）

　本例では、中間韻律ｒの要素ｒ（ｉ）は、下記式（４）により求められる。
ｒ（ｉ）＝α（ｉ）・ｐ（ｉ）＋（１－α（ｉ））・ｑ（ｉ）　　…（４）

　但し、ｉ＝１，２，…，Ｋであり、α（ｉ）は、０＜α（ｉ）＜１を満足する実数である。すべてのα（ｉ）が０に近づくほど、中間韻律ｒと基準韻律ｐとが類似している程度が大きくなる（中間韻律ｒは基準韻律ｐに近くなる）。一方、すべてのα（ｉ）が１に近づくほど、中間韻律ｒと要求韻律ｑとが類似している程度が大きくなる（中間韻律ｒは要求韻律ｑに近くなる）。

　いま、韻律の要素としてピッチパタンを想定して説明する。
　基準韻律としてのピッチパタン（基準ピッチパタン）をｆ１（ｔ）とし、要求韻律としてのピッチパタン（要求ピッチパタン）をｆ２（ｔ）とすると、候補韻律としてのピッチパタン（候補ピッチパタン）ｆｎ（ｔ）は下記式（５）により導出される。
ｆｎ（ｔ）＝β（ｔ）・ｆ１（ｔ）＋（１－β（ｔ））・ｆ２（ｔ）　　…（５）

　但し、ｔは時刻を表し、β（ｔ）は０＜β（ｔ）＜１を満足する実数である。
　図４は、基準ピッチパタンｆ１（ｔ）、要求ピッチパタンｆ２（ｔ）、及び、候補ピッチパタンｆｎ１（ｔ）～ｆｎ３（ｔ）の例を示したグラフである。実線は、基準ピッチパタンｆ１（ｔ）及び要求ピッチパタンｆ２（ｔ）を表し、点線は、候補ピッチパタンｆｎ１（ｔ）～ｆｎ３（ｔ）を表している。

　この例においては、候補ピッチパタンｆｎ１（ｔ）が、基準ピッチパタンｆ１（ｔ）と類似している程度が最大である。基準ピッチパタンｆ１（ｔ）と類似している程度が候補ピッチパタンｆｎ１（ｔ）の次に大きい候補ピッチパタンは、ｆｎ２（ｔ）であり、その次がｆｎ３（ｔ）である。ピッチパタンｆｎ４（ｔ）は、基準ピッチパタンｆ１（ｔ）と要求ピッチパタンｆ２（ｔ）の中間韻律ではない韻律の例である。

　後述する音声素片情報の選択が容易に行えるように、候補韻律は、音声素片情報を選択する処理の単位で（例えば、句点又は読点に挟まれた部分である呼気段落毎に）生成する。但し、中間韻律を生成する際に、音声素片情報を選択する処理の単位と同一の単位で生成する必要はない。例えば、基準韻律と類似している程度が、アクセント句（アクセントを１つ含む句）単位で異なる韻律を候補韻律として生成してもよい。

　素片選択部１６は、中間韻律情報生成部１４から伝達された候補韻律情報と、言語処理部１１から伝達された言語解析処理結果と、素片情報記憶部１５に記憶されている音声素片情報と、に基づいて、候補韻律情報が表す候補韻律のそれぞれに対して、記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する。

　具体的には、素片選択部１６は、候補韻律のそれぞれに対して下記の処理を行う。
　素片選択部１６は、言語解析処理結果と、候補韻律と、に基づいて、合成される音声（合成音声）の特徴を表す情報（目標素片環境）を音声合成単位毎に求める。目標素片環境は、該当・先行・後続の各音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、単位の継続時間長、ケプストラム、ＭＦＣＣ（Ｍｅｌ　Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）、及びこれらのΔ量（単位時間あたりの変化量）等である。素片選択部１６は、目標素片環境に含まれる特定の情報（主に該当音素）に対応（例えば、一致）する音素を有する音声素片を表す音声素片情報を選択する。

　そして、素片選択部１６は、選択された音声素片情報に基づいて、コストを算出する。コストは、音声を合成するために用いる音声素片情報としての適切度を示す指標である。即ち、コストは、候補韻律を有する音声を合成した場合におけるその音声の自然度に応じて変化する値である。

　具体的には、コストは、記憶されている音声素片情報が有する素片環境と、目標素片環境と、が相違している程度を表すパラメータと、接続される音声素片間の素片環境が相違している程度を表すパラメータと、を含む。コストは、記憶されている音声素片情報が有する素片環境と、目標素片環境と、が相違している程度が大きくなるほど大きくなる。更に、コストは、接続される音声素片間の素片環境が相違している程度が大きくなるほど大きくなる。即ち、コストは、自然度が上記基準値よりも低下する程度が大きくなるほど大きくなる値である、と言うことができる。

　例えば、コストは、目標素片環境、素片の接続境界におけるピッチ周波数、ケプストラム、ＭＦＣＣ、短時間自己相関、パワー、及び、これらの△量（時間変化量）等を用いて算出される。コストの詳細は、特開２００６－８４８５４及び特開２００５－９１５５１等に開示されているので、本明細書では省略する。

　そして、素片選択部１６は、選択した音声素片情報のうちの、算出されたコストが最小となる音声素片情報を、その候補韻律に対応する音声素片情報として選択する。

　このようにして、素片選択部１６は、候補韻律のそれぞれに対して、記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する。

　そして、素片選択部１６は、候補韻律毎に、選択された音声素片情報と、その音声素片情報に基づいて算出されたコストと、を当該候補韻律を表す候補韻律情報とともに韻律特定部１７へ伝達する。

　なお、各候補韻律に対して選択される音声素片情報は、異なることが多いが、同一である場合もある。例えば、中間韻律情報生成部１４により生成された候補韻律が類似している場合、又は、素片情報記憶部１５に記憶されている音声素片情報の数が少ない場合、各候補韻律に対して選択される音声素片情報が同一となる可能性が高い。

　韻律特定部１７は、素片選択部１６から伝達された、コスト、音声素片情報、及び、候補韻律情報に基づいて候補韻律の１つを特定する。

　ところで、韻律が要求韻律に近くなるほど（即ち、基準韻律から遠ざかるほど）、自然度は低下する傾向がある。従って、韻律特定部１７は、合成音声の自然度が予め設定された許容水準を満足する範囲において、可能な限り要求韻律に近くなるように候補韻律を特定する。

　具体的には、韻律特定部１７は、算出されたコストが所定の閾値よりも小さい候補韻律のうちの、要求韻律に類似している程度が最も高い候補韻律を特定する。なお、韻律特定部１７は、閾値よりも小さいコストを有する候補韻律が存在しない場合、基準韻律と類似している程度が最も大きい候補韻律を特定する。

　コストと候補韻律との関係について図５を参照しながら説明する。図５において、縦軸がコストを表し、横軸が基準韻律に対する候補韻律の類似度（候補韻律と基準韻律とが類似している程度、式（４）におけるα）を表している。

　図５の（Ａ）に示したように、候補韻律が基準韻律と類似している程度が大きいほどコストが小さくなる（即ち、コストが単調に減少する）場合が多い。但し、図５の（Ｂ）に示したように、候補韻律が基準韻律と類似している程度が大きくなるにつれて、コストが単調に減少しない場合もある。図５に示したように閾値が設定された場合、黒丸により示した点に対応する候補韻律が特定されることになる。

　本例では、閾値は、予め設定された値（定数値）である。なお、閾値は、素片選択部１６から伝達されたコストに基づいて設定されてもよい。これによれば、閾値を適切に設定することができる。具体的には、韻律特定部１７は、素片選択部１６から伝達されたコストの最大値Ｓｍａｘと最小値Ｓｍｉｎとに基づいて、下記式（６）に従って閾値Ｔｈを設定する。
Ｔｈ＝Ｓｍａｘ－ｃ・（Ｓｍａｘ－Ｓｍｉｎ）　　…（６）

　但し、ｃは、０＜ｃ＜１を満足する実数である。なお、韻律特定部１７は、候補韻律として基準韻律が用いられたことを認識した場合、その候補韻律に対して算出されたコストを、最小値Ｓｍｉｎとして用いてもよい。同様に、韻律特定部１７は、候補韻律として要求韻律が用いられたことを認識した場合、その候補韻律に対して算出されたコストを、最大値Ｓｍａｘとして用いてもよい。

　そして、韻律特定部１７は、特定した候補韻律情報と、その候補韻律情報とともに伝達された音声素片情報と、を波形生成部１８へ伝達する。

　波形生成部１８は、韻律特定部１７から伝達された音声素片情報及び候補韻律情報に基づいて、音声素片情報が表す音声素片が有する韻律を、候補韻律情報が表す韻律とするように音声波形を生成し、生成した音声波形を接続した音声波形を合成音声として出力する。即ち、波形生成部１８は、韻律特定部１７により特定された候補韻律を有する音声を合成する音声合成処理を行う。

（作動）
　次に、上述した音声合成装置１の作動について具体的に述べる。
　音声合成装置１のＣＰＵは、図３にフローチャートにより示した音声合成プログラムをユーザにより入力された起動指示に応じて実行するようになっている。

　具体的に述べると、ＣＰＵは、音声合成プログラムの処理を開始すると、ステップ３０５にて、ユーザにより文字列情報が入力されるまで待機する。そして、ユーザにより文字列情報が入力されると、ＣＰＵは、入力された文字列情報を受け付け、受け付けた文字列情報が表す文字列に対して、言語解析処理を行う。そして、ＣＰＵは、言語解析処理結果を出力する（ステップＡ１）。

　次に、ＣＰＵは、出力された言語解析処理結果に基づいて基準韻律を推定し、推定した基準韻律を表す基準韻律情報を出力する（ステップＡ２）。次いで、ＣＰＵは、ユーザにより入力音声情報が入力されるまで待機する。そして、ユーザにより入力音声情報が入力されると、ＣＰＵは、入力された入力音声情報を受け付け、受け付けた入力音声情報に基づいて、要求韻律情報を抽出する（ステップＡ３、要求韻律情報受付工程）。

　次いで、ＣＰＵは、出力された基準韻律情報と、抽出された要求韻律情報と、に基づいて、合成する音声が有する韻律の候補である候補韻律を表す候補韻律情報を複数生成する（ステップＡ４、中間韻律情報生成工程）。

　そして、ＣＰＵは、生成された候補韻律情報と、出力された言語解析処理結果と、記憶装置に記憶されている音声素片情報と、に基づいて、候補韻律情報が表す候補韻律のそれぞれに対して、記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する。

　具体的には、ＣＰＵは、候補韻律のそれぞれに対して、目標素片環境に含まれる特定の情報に対応する音素を有する音声素片を表す音声素片情報を選択し、選択した音声素片情報に基づいてコストを算出する（コスト算出工程）。そして、ＣＰＵは、選択した音声素片情報のうちの、算出されたコストが最小となる音声素片情報を、その候補韻律に対応する音声素片情報として選択する（ステップＡ５、音声素片情報選択工程）。

　次いで、ＣＰＵは、算出されたコストが所定の閾値よりも小さい候補韻律のうちの、要求韻律に類似している程度が最も高い候補韻律を特定する（ステップＡ６）。そして、ＣＰＵは、特定した候補韻律に応じて選択された音声素片情報が表す音声素片が有する韻律を、特定した候補韻律とするように音声波形を生成する。次いで、ＣＰＵは、生成した音声波形を接続した音声波形を合成音声としてスピーカから出力させる（ステップＡ７、音声合成工程）。

　以上、説明したように、本発明による音声合成装置の第１実施形態によれば、音声合成装置１は、基準韻律と要求韻律との間の韻律である中間韻律に基づいて音声を合成するように構成されている。これにより、要求韻律を有する音声を合成した場合よりも、合成された音声（合成音声）の自然度を高くすることができる。即ち、合成された音声の自然度が過度に低くなることを防止しながら、要求韻律を合成音声に反映することができる。

　更に、上記第１実施形態によれば、自然度に応じて変化するコストに基づいて、音声を合成するために用いられる候補韻律が決定される。従って、自然度が過度に低くなることを確実に防止することができる。

　加えて、上記第１実施形態によれば、自然度が十分に大きい範囲において、要求韻律に最も類似している（最も近い）韻律を有する音声を合成することができる。従って、合成された音声の自然度が過度に低くなることを防止しながら、要求韻律が合成音声に反映される程度を大きくすることができる。この結果、ユーザの要求が満足される可能性を高めることができる。

　なお、上記第１実施形態の変形例において、音声合成装置１は、複数の中間韻律情報を並列的に生成するように構成されていてもよい。例えば、音声合成装置１が中間韻律情報を生成するための回路を有している場合には、音声合成装置１は、１つの中間韻律情報を生成するための回路部を複数備えていてもよい。また、音声合成装置１のＣＰＵが並列処理を行ってもよい。

＜第２実施形態＞
　次に、本発明の第２実施形態に係る音声合成装置について説明する。第２実施形態に係る音声合成装置は、上記第１実施形態に係る音声合成装置に対して、要求韻律に類似している程度が高い候補韻律から順にコストを算出し、算出したコストが閾値よりも最初に小さくなった候補韻律を用いて音声合成処理を行う点において相違している。従って、以下、かかる相違点を中心として説明する。

　この第２実施形態に係る素片選択部１６は、候補韻律を、要求韻律に類似している程度が高い候補韻律から順に１つずつ生成（取得）するとともに、当該取得した候補韻律に対してコストを算出する。
　更に、韻律特定部１７は、算出されたコストが閾値よりも小さくなった場合、そのコストを算出する基となった候補韻律を特定する。

　この第２実施形態に係る音声合成装置１のＣＰＵは、図３の音声合成プログラムに代えて、図６に示した音声合成プログラムを実行するようになっている。

　先ず、ＣＰＵは、第１実施形態と同様に、ステップＡ１～ステップＡ３の処理を実行する。次いで、ＣＰＵは、候補韻律情報を１つだけ生成する（ステップＢ４）。このとき、ＣＰＵは、ステップＢ４の処理が繰り返し実行される毎に、生成される候補韻律情報が表す候補韻律と、要求韻律と、が類似している程度が小さく（低く）なるように、候補韻律情報を生成する。

　そして、ＣＰＵは、生成された候補韻律情報と、出力された言語解析処理結果と、記憶装置に記憶されている音声素片情報と、に基づいて、記憶されている音声素片情報の中から、候補韻律情報が表す候補韻律に対応する音声素片情報を選択する。

　具体的には、ＣＰＵは、目標素片環境に含まれる特定の情報に対応する音素を有する音声素片を表す音声素片情報を選択し、選択した音声素片情報に基づいてコストを算出する。そして、ＣＰＵは、選択した音声素片情報のうちの、算出されたコストが最小となる音声素片情報を、上記候補韻律に対応する音声素片情報として選択する（ステップＢ５）。

　次いで、ＣＰＵは、上記選択された音声素片情報に対して算出されたコストが、閾値よりも小さいか否かを判定する（ステップＢ６）。
　いま、算出されたコストが閾値よりも大きい場合を想定して説明を続ける。この場合、ＣＰＵは、ステップＢ６にて「Ｎｏ」と判定してステップＢ４へ戻り、ステップＢ４～ステップＢ６の処理を繰り返し実行する。

　その後、算出されたコストが閾値よりも小さくなると、ＣＰＵがステップＢ６に進んだとき、ＣＰＵは、「Ｙｅｓ」と判定してステップＡ７へ進む。そして、ＣＰＵは、生成した最新の候補韻律に応じて選択された音声素片情報が表す音声素片が有する韻律を、その候補韻律とするように音声波形を生成する。次いで、ＣＰＵは、生成した音声波形を接続した音声波形を合成音声としてスピーカから出力させる（ステップＡ７）。

　以上、説明したように、上記第２実施形態によれば、上記第１実施形態と同様の作用及び効果を奏することができる。更に、上記第２実施形態によれば、コストが無駄に算出されることを防止することができる。この結果、音声合成装置１がコストを算出するための処理負荷を軽減することができる。

＜第３実施形態＞
　次に、本発明の第３実施形態に係る音声合成装置について図７を参照しながら説明する。
　第３実施形態に係る音声合成装置１００の機能は、要求韻律情報受付部１１３と、中間韻律情報生成部１１４と、音声素片情報記憶部１１５と、音声合成部１１６と、を含む。

　音声素片情報記憶部１１５は、基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶する。

　要求韻律情報受付部１１３は、ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける。
　中間韻律情報生成部１１４は、基準韻律と要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する。

　音声合成部１１６は、中間韻律情報生成部１１４により生成された中間韻律情報と、音声素片情報記憶部１１５により記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う。

　これによれば、要求韻律を有する音声を合成した場合よりも、合成された音声（合成音声）の自然度を高くすることができる。即ち、合成された音声の自然度が過度に低くなることを防止しながら、要求韻律を合成音声に反映することができる。

　この場合、上記音声合成手段は、
　上記中間韻律を含む候補韻律のそれぞれに対して、上記記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する音声素片情報選択手段と、
　上記候補韻律のそれぞれに対して、上記選択された音声素片情報に基づいて、当該候補韻律を有する音声を合成した場合におけるその音声の上記自然度に応じて変化するコストを算出するコスト算出手段と、
　を含むとともに、
　上記算出されたコストに基づいて上記候補韻律の１つを特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する上記音声合成処理を行うように構成されることが好適である。

　これによれば、自然度に応じて変化するコストに基づいて、音声を合成するために用いられる候補韻律が決定される。従って、自然度が過度に低くなることを確実に防止することができる。

　この場合、
　上記コストは、上記自然度が上記基準値よりも低下する程度が大きくなるほど大きくなる値であり、
　上記音声合成手段は、上記算出されたコストが所定の閾値よりも小さい上記候補韻律のうちの、上記要求韻律に類似している程度が最も高い候補韻律を特定するように構成されることが好適である。

　これによれば、自然度が十分に大きい範囲において、要求韻律に最も類似している（最も近い）韻律を有する音声を合成することができる。従って、合成された音声の自然度が過度に低くなることを防止しながら、要求韻律が合成音声に反映される程度を大きくすることができる。この結果、ユーザの要求が満足される可能性を高めることができる。

　この場合、上記音声合成手段は、上記算出されたコストの最大値と当該算出されたコストの最小値とに基づいて上記閾値を設定するように構成されることが好適である。
　これによれば、閾値を適切に設定することができる。

　この場合、
　上記コスト算出手段は、上記候補韻律を、上記要求韻律に類似している程度が高い候補韻律から順に１つずつ取得するとともに、当該取得した候補韻律に対して上記コストを算出するように構成され、
　上記音声合成手段は、上記算出されたコストが上記閾値よりも小さくなった場合、そのコストを算出する基となった候補韻律を特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する上記音声合成処理を行うように構成されることが好適である。

　要求韻律に類似している程度が高い韻律ほど、コストが大きくなる可能性が高い。従って、上記構成によれば、コストが無駄に算出されることを防止することができる。この結果、音声合成装置がコストを算出するための処理負荷を軽減することができる。

　この場合、
　上記基準韻律は、文字列に対して言語解析処理を行うことにより推定された韻律であることが好適である。

　この場合、上記音声合成装置は、
　上記基準韻律及び上記要求韻律のそれぞれは、音の高さを表すパラメータ、音の長さを表すパラメータ、及び、音の大きさを表すパラメータ、のうちの少なくとも１つを含むことが好適である。

　この場合、上記音声合成方法は、
　上記中間韻律を含む候補韻律のそれぞれに対して、上記記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択し、
　上記候補韻律のそれぞれに対して、上記選択された音声素片情報に基づいて、当該候補韻律を有する音声を合成した場合におけるその音声の上記自然度に応じて変化するコストを算出し、
　上記算出されたコストに基づいて上記候補韻律の１つを特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する上記音声合成処理を行うように構成されることが好適である。

　この場合、上記コストは、上記自然度が上記基準値よりも低下する程度が大きくなるほど大きくなる値であり、
　上記算出されたコストが所定の閾値よりも小さい上記候補韻律のうちの、上記要求韻律に類似している程度が最も高い候補韻律を特定するように構成されることが好適である。

　上述した構成を有する、音声合成方法、又は、音声合成プログラム、の発明であっても、上記音声合成装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

　以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

　例えば、上記各実施形態においては、要求韻律情報は、ユーザによって発せられた音声に基づく情報であったが、ユーザが入力装置（キーボード及びマウス等）を用いて入力した情報に基づく情報であってもよい。例えば、音声合成装置１が記憶している韻律情報をユーザが編集した情報が要求韻律情報として用いられてもよい。

　また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

　また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。

　なお、本発明は、日本国にて２００８年１０月２８日に出願された特願２００８－２７６６５４の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

　本発明は、文字列を表す音声を合成する音声合成処理を行う音声合成装置等に適用可能である。

１　　　音声合成装置
１１　　言語処理部
１２　　韻律推定部
１３　　要求韻律情報受付部
１４　　中間韻律情報生成部
１５　　素片情報記憶部
１６　　素片選択部
１７　　韻律特定部
１８　　波形生成部
１００　音声合成装置
１１３　要求韻律情報受付部
１１４　中間韻律情報生成部
１１５　音声素片情報記憶部
１１６　音声合成部
９０１　言語処理部
９０２　韻律推定部
９０５　素片情報記憶部
９０６　素片選択部
９０８　波形生成部

Claims

　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶する音声素片情報記憶手段と、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける要求韻律情報受付手段と、
　前記基準韻律と前記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する中間韻律情報生成手段と、
　前記生成された中間韻律情報と、前記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う音声合成手段と、
　を備える音声合成装置。
　請求項１に記載の音声合成装置であって、
　前記音声合成手段は、
　前記中間韻律を含む候補韻律のそれぞれに対して、前記記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する音声素片情報選択手段と、
　前記候補韻律のそれぞれに対して、前記選択された音声素片情報に基づいて、当該候補韻律を有する音声を合成した場合におけるその音声の前記自然度に応じて変化するコストを算出するコスト算出手段と、
　を含むとともに、
　前記算出されたコストに基づいて前記候補韻律の１つを特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する前記音声合成処理を行うように構成された音声合成装置。
　請求項２に記載の音声合成装置であって、
　前記コストは、前記自然度が前記基準値よりも低下する程度が大きくなるほど大きくなる値であり、
　前記音声合成手段は、前記算出されたコストが所定の閾値よりも小さい前記候補韻律のうちの、前記要求韻律に類似している程度が最も高い候補韻律を特定するように構成された音声合成装置。
　請求項３に記載の音声合成装置であって、
　前記音声合成手段は、前記算出されたコストの最大値と当該算出されたコストの最小値とに基づいて前記閾値を設定するように構成された音声合成装置。
　請求項３又は請求項４に記載の音声合成装置であって、
　前記コスト算出手段は、前記候補韻律を、前記要求韻律に類似している程度が高い候補韻律から順に１つずつ取得するとともに、当該取得した候補韻律に対して前記コストを算出するように構成され、
　前記音声合成手段は、前記算出されたコストが前記閾値よりも小さくなった場合、そのコストを算出する基となった候補韻律を特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する前記音声合成処理を行うように構成された音声合成装置。
　請求項１乃至請求項５のいずれか一項に記載の音声合成装置であって、
　前記基準韻律は、文字列に対して言語解析処理を行うことにより推定された韻律である音声合成装置。
　請求項１乃至請求項６のいずれか一項に記載の音声合成装置であって、
　前記基準韻律及び前記要求韻律のそれぞれは、音の高さを表すパラメータ、音の長さを表すパラメータ、及び、音の大きさを表すパラメータ、のうちの少なくとも１つを含む音声合成装置。
　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報が記憶装置に記憶されている場合に、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付け、
　前記基準韻律と前記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成し、
　前記生成された中間韻律情報と、前記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う、音声合成方法。
　請求項８に記載の音声合成方法であって、
　前記中間韻律を含む候補韻律のそれぞれに対して、前記記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択し、
　前記候補韻律のそれぞれに対して、前記選択された音声素片情報に基づいて、当該候補韻律を有する音声を合成した場合におけるその音声の前記自然度に応じて変化するコストを算出し、
　前記算出されたコストに基づいて前記候補韻律の１つを特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する前記音声合成処理を行う、音声合成方法。
　請求項９に記載の音声合成方法であって、
　前記コストは、前記自然度が前記基準値よりも低下する程度が大きくなるほど大きくなる値であり、
　前記算出されたコストが所定の閾値よりも小さい前記候補韻律のうちの、前記要求韻律に類似している程度が最も高い候補韻律を特定するように構成された音声合成方法。
　情報処理装置に、
　基準となる韻律である基準韻律を有する音声を合成するために用いられた場合に、人間が発した音声と類似している程度を表す自然度が所定の基準値よりも高い音声を合成可能な音声素片を表す音声素片情報を記憶装置に記憶させる音声素片情報記憶処理手段と、
　ユーザにより要求された韻律である要求韻律を表す要求韻律情報を受け付ける要求韻律情報受付手段と、
　前記基準韻律と前記要求韻律との間の韻律である中間韻律を表す中間韻律情報を生成する中間韻律情報生成手段と、
　前記生成された中間韻律情報と、前記記憶されている音声素片情報と、に基づいて音声を合成する音声合成処理を行う音声合成手段と、
　を実現させるための音声合成プログラム。
　請求項１１に記載の音声合成プログラムであって、
　前記音声合成手段は、
　前記中間韻律を含む候補韻律のそれぞれに対して、前記記憶されている音声素片情報の中からその候補韻律に対応する音声素片情報を選択する音声素片情報選択手段と、
　前記候補韻律のそれぞれに対して、前記選択された音声素片情報に基づいて、当該候補韻律を有する音声を合成した場合におけるその音声の前記自然度に応じて変化するコストを算出するコスト算出手段と、
　を含むとともに、
　前記算出されたコストに基づいて前記候補韻律の１つを特定し、当該特定した候補韻律に対して選択された音声素片情報に基づいて、当該特定した候補韻律を有する音声を合成する前記音声合成処理を行うように構成された音声合成プログラム。
　請求項１２に記載の音声合成プログラムであって、
　前記コストは、前記自然度が前記基準値よりも低下する程度が大きくなるほど大きくなる値であり、
　前記音声合成手段は、前記算出されたコストが所定の閾値よりも小さい前記候補韻律のうちの、前記要求韻律に類似している程度が最も高い候補韻律を特定するように構成された音声合成プログラム。