JP6436806B2

JP6436806B2 - 音声合成用データ作成方法、及び音声合成用データ作成装置

Info

Publication number: JP6436806B2
Application number: JP2015019009A
Authority: JP
Inventors: 慶華孫
Original assignee: Hitachi ULSI Systems Co Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2015-02-03
Filing date: 2015-02-03
Publication date: 2018-12-12
Anticipated expiration: 2035-02-03
Also published as: JP2016142936A

Description

本発明は、音声合成用データ作成方法、及び音声合成用データ作成装置に関し、例えば、収録した口語調音声から、読み上げ調との差異（口語調度）を自動的に測定する技術に関するものである。

テキストを音声に変換して読み上げるテキスト音声合成技術、およびそれを利用したテキスト音声合成システムがある。このような技術、システムの応用先として、例えば、カーナビゲーションでのガイド音声、携帯電話・スマートフォンでのメール読み上げや音声対話インタフェース、視覚障碍者向けのスクリーンリーダー、電子書籍の読み上げ機能などが存在する。

近年、音声合成技術はその重要性が増大している。例えば、カーナビゲーションや携帯電話・スマートフォンの普及に加えて障碍者や高齢者を対象としたユニバーサルデザインの志向によって音声を使ったユーザインターフェースが今まで以上に使われるようになってきている。また、近年では、電子書籍端末の普及が始まり、音声読上げに必須な音声合成技術のニーズも拡大している。

最近、音声合成技術は、カーナビや携帯電話などの音声対話処理で多く用いられるようになってきている。加えて、そのような応用例では、ユーザが会話を自然に進められるように、話し言葉（以降、口語調）での音声を合成したいというニーズが増えてきている。

従来の音声合成技術であっても、合成音声の韻律（抑揚やリズム、強さなど）を工夫することで口語調の音声を生成できるものは存在している。例えば、標準的な発話特性を有する韻律特徴（読み上げ調韻律）に、感情や個性、発話スタイルなどの発話特性の違いに応じて補正するため修正韻律（口語調韻律）を重畳することで、口語調を含む多様な韻律を実現する手法が提案されている（特許文献１参照）。

また、入力されたテキストについて、口語調音声の特徴を担う部分（口語表現部分）とそれ以外の部分を分けて、前者に関しては口語調音声コーパスから得られた韻律や音声を用いて合成し、後者に関しては従来読み上げ調音声合成手法で合成するという技術も考案されている（特許文献２参照）。このような手法では、従来培ってきた読み上げ音声合成技術を最大限に生かしたうえ、自然性が高く、安定した口語調音声合成が実現できると考えられる。

特開２００３−３３７５９２号公報特開２０１４−０６２９７０号公報

しかし、特許文献１の技術では、音声合成時に大きく韻律を制御する（変形させる）ため、合成音声の品質が劣化するという課題が指摘されている。

また、特許文献１及び２に開示の何れの手法においても、口語調での音声合成を実現するために、収録した口語調音声コーパスから、口語調音声データの作成が必須となる。例えば、特許文献２では、収録した口語音声から、熟練したラベリング作業者の経験に基づいて、手作業で口語調表現を抽出していた。しかし、この作業は、非常に時間がかかるうえ、作業者ごとに判定基準が異なり、抽出した口語調表現の一貫性を保つことが難しい（例えば、同じ音声に対しても、作業者ごとに、抽出された口語調表現が異なる。）。さらに、特許文献１の音声合成方法を用いる場合、音声のセグメントごとに、口語調表現らしさをより正確に定量的に評価することが望まれる。しかし、作業者の手作業ではこのような定量的な評価はほぼ不可能である。

本発明はこのような状況に鑑みてなされたものであり、口語調音声のように、読み上げ音声（平静音声）の特徴とは異なる韻律や声質の特徴を持つ音声に対して、その特徴部分のデータを自動的に抽出する技術を提供するものである。

上記課題を解決するために、本発明では、まず、予め用意されている第２種音声の韻律モデルをコーパスデータに含まれるテキストに対して適用し、テキストに対応する第２韻律を予測し、当該コーパスに含まれる音声データから抽出された第１韻律と第２韻律の差分値を算出する。次に、コーパスデータのテキストに含まれる文字のうち、差分値が所定の閾値よりも大きい文字を判定する。そして、この判定結果に基づいて、第１韻律と第２韻律との違いに起因する特徴テキスト部分に対応するデータを抽出する。

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明によれば、口語調音声のように、読み上げ音声（平静音声）の特徴とは異なる韻律や声質の特徴を持つ音声に対して、その特徴部分のデータを自動的に抽出することができるようになる。

本発明の実施形態による音声合成システムのハードウェア構成例を示す図である。本発明の第１の実施形態による音声合成システムの機能ブロックを示す図である。本発明の実施形態による読み上げ調韻律・音韻予測部によって予測された韻律特徴量の例を示す図である。本発明の実施形態による韻律・音韻特徴抽出部によって抽出された韻律特徴量の例を示す図である。本発明の実施形態による口語調度算出部によって算出された韻律差分値の例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって計算された音節（モーラ）レベルでの口語調度の例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって計算された形態素レベルでの口語調度の例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって計算されたアクセント句レベルでの口語調度の例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって抽出された口語調音声データの例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって抽出された口語調韻律データの例を示す図である。本発明の第１の実施形態による口語調表現部分の自動抽出部によって抽出された口語調テキストデータの例を示す図である。本発明の第１の実施形態による口語調表現抽出ルール作成部で用いられるデータの例を示す図である。本発明の第１の実施形態による口語調表現抽出ルール作成部で生成されたルールの例を示す図である。本発明の第１の実施形態による、英語F0パターンによる口語調度の計算を説明する図である。本発明の第１の実施形態による、英語単語レベルで計算した口語調度の例を示す図である。本発明の第１お実施形態による口語調データ作成処理を説明するためのフローチャートである。本発明の第２の実施形態による音声合成システムの機能ブロックを示す図である。本発明の第１の実施形態による口語調表現抽出ルール作成部で用いられるデータ（口語調度が連続値）の例を示す図である。本発明の第２の実施形態による口語調度予測＆韻律混合比決定部で生成した口語調度および口語調混合比の例を示す図である。本発明の第２の実施形態による韻律混合部で生成した韻律の例を示す図である。本発明の第２の実施形態による韻律混合処理の概念を示す図である。本発明の第２の実施形態による口語調データ作成処理を説明するためのフローチャートである。

本発明は、従来手作業で行っていた口語調データ（口語調表現抽出ルール又は口語調度モデル、口語調韻律・音韻モデル、及び口語調音声ＤＢ）の作成を、収録口語調音声コーパスと読み上げ韻律・音韻予測モデルを用いて自動化するものである。具体的には、本発明は、収録した口語調音声から抽出した特徴量と、収録した音声のテキストデータを読み上げモデルで読み上げた場合の特徴量とを比較して口語調表現部分を抽出する。口語の言い回しで特徴ある部分（例えば、「今日は雨かなぁ」の「かなぁ」の部分）以外は、収録音声と読み上げ音声とでは差がないが、特徴部分に関しては特徴量に差異が生じるという性質を利用したものである。この特徴ある部分の情報から口語調表現抽出ルール等、口語調韻律・音韻モデル、口語調音声が作成され、口語調データとして登録される。音声合成装置では、この口語調データを用いて、例えば特許文献２で示された方法で口語調の音声合成データを出力する。

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これらの情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では「プロセッサ」を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、プロセッサはプログラムを実行することで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、「プログラム」を主語とした説明としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。

（１）第１の実施形態
＜ハードウェア構成＞
図１は、本発明の実施形態による音声合成システムのハードウェア構成例を示す図である。音声合成システム１は、各種プログラムを実行するプロセッサ（ＣＰＵ：Central Processing Unit）１０１と、各種プログラムを格納するメモリ１０２と、各種データを格納する記憶装置１０３と、出力装置１０４と、入力装置１０５と、必要に応じて通信デバイス１０６と、を有している。

メモリ１０２は、少なくとも口語調データ（口語調表現抽出ルール、口語調韻律・音韻モデル、及び口語調音声ＤＢを含む）を作成する口語調データ作成プログラム１０２１と、読み上げ調データ（読み上げ韻律・音韻予測モデル、及び読み上げ調音声ＤＢを含む）を作成する読み上げ調データ作成プログラム１０２２と、音声合成処理を実行する音声合成プログラム１０２３と、を格納する。

記憶装置１０３は、読み上げ調データを作成するために用いられる、収録した読み上げ調音声データ１０３１と、収録した読み上げ調音声データから抽出された特徴量を学習して得られる読み上げ韻律・音韻予測モデル１０３２と、収録した読み上げ調音声データ１０３１から生成された読み上げ調音声ＤＢ１０３３と、を格納する。また、記憶装置１０３は、口語調データを作成する元データである収録した口語調音声コーパスデータ１０３４と、口語調音声コーパスデータ１０３４から抽出された口語調抽出データ１０３５と、口語調抽出データ１０３５に基づいて生成された口語調表現抽出ルール１０３６と、口語調抽出データ１０３５の特徴を学習して得られる口語調韻律・音韻モデル１０３７と、口語調抽出データ１０３５から生成される口語調音声ＤＢ１０３８と、を格納している。

出力装置１０４は、音声合成処理して得られる音声を出力するデバイスである。例えば、スピーカが該当する。また、出力装置１０４は、口語調データ作成処理によって生成されるデータを画面上に表示したりしても良い。

入力装置１０５は、テキストや音声を入力するためのデバイスである。例えば、テキスト入力であればキーボード、マウス、入力すべきテキストデータを取り込んで自動的に入力するソフトウェア等が該当し、音声入力であれば、マイクや入力すべき音声データを取り込んで自動的に入力するソフトウェア等が該当する。

通信デバイス１０６は、必要に応じて設けられるデバイスであり、処理に必要なデータを受信したり、処理済のデータを他の装置に送信したりする場合に用いられる。

なお、図１に示される音声合成システム１は、読み上げ調データ作成処理１０と、口語調データ作成処理１１と、音声合成処理１２と、を実行するシステムとして構成されているが、本発明の特徴である口語調データ作成処理１１のみを実行する口語調データ作成装置として構成しても良い。この場合、メモリ１０２に格納されるプログラムは口語調データ作成プロプログラムのみということになる。また、各処理を別のコンピュータで実行させるようなシステムを音声合成システムとして構成しても良い。この場合、読み上げ調データ作成処理１０を実行するコンピュータ（読み上げデータ作成装置）、口語調データ作成処理１１を実行するコンピュータ（口語調データ作成装置）、音声合成処理１２を実行するコンピュータ（音声合成装置）がそれぞれ独立に存在していても良い（それぞれがネットワークに接続され、遠隔的に設置されていても良い）。

コンピュータが口語調データ作成装置を構成する場合には、メモリ１０２は、口語調データ作成プログラム１０２１を格納する。また、この場合、記憶装置１０３は、収録した口語調音声コーパスデータ１０３４、口語調抽出データ１０３５、口語調表現抽出ルール１０３６、口語調韻律・音韻モデル１０３７、及び口語調音声ＤＢ１０３８を格納することとなる。

＜機能ブロックと処理内容＞
図２は、本発明の第１の実施形態による音声合成システム１の機能ブロック図である。音声合成システム１は、読み上げ調データ作成処理１０と、口語調データ作成処理（口語調の音声合成用データを作成する処理）１１と、口語調データを用いた音声合成処理１２を実行する。

読み上げ調データ作成処理１０は、韻律・音韻抽出部、音声ＤＢ作成部、韻律・音韻特徴自動学習部などで構成されるが、これらによる処理は一般的な音声合成データ作成に用いられる処理であり、本発明の特徴となるものではないので、以降、その説明は原則省略する。

（i）口語調データ作成処理
口語調データ作成処理１１は、収録した口語調音声と、読み上げ韻律・音韻予測モデルを入力すると、口語調音声から口語調表現部分を自動抽出し、口語調音声合成に必要な口語調表現抽出ルール、口語調韻律・音韻モデル、口語調音声ＤＢ（データベースの略）を生成する処理である。この口語調データ作成処理１１を実現するために、韻律・音韻特徴抽出部２０２、韻律・音韻自動学習部２０６、音声ＤＢ作成部２０７という通常の音声データ作成装置が持つ処理単位を備える。これに加えて、本発明に特徴的な、読み上げ調韻律・音韻予測部２０１、口語調度算出部２０３、口語調表現部分の自動抽出部２０４が設けられ、さらに、入力テキストから口語調テキスト表現を自動検出できる口語調表現抽出ルールを生成する口語調表現抽出ルール作成部２０５が設けられる。

音声合成処理１２は、口語調データ作成処理によって生成された口語調表現抽出ルール１０３６、口語調韻律・音韻モデル１０３７、及び口語調音声ＤＢ１０３８を用いて、入力されたテキストデータを処理し、合成音声を生成する処理である。当該音声合成処理は、特許文献２に開示された内容と同様であるので、以降、詳細な説明は原則省略する。

以上のように、読み上げ調データ作成処理１０と音声合成処理１２は、通常の音声合成システムにも存在する処理単位であり、口語調データ作成処理１１が本発明の特徴となる処理に相当する。従って、以下では口語調データ作成処理１１を中心に説明することとする。

なお、以降の説明において、収録した音声として「お願いします」や「今日は雨かなぁ」などの単文を用いているが、複数の文を結合した長い文書の収録も可能である。また、図２では入力テキストを漢字かな文としているが、もちろん、英語や中国語などの外国語でも構わない。その場合は、内部処理もその外国語に対応したプログラム・データ（たとえば、収録した口語調音声、収録した読み上げ調音声）を用いなければならないことは言うまでもない。

読み上げ調韻律・音韻予測部２０１は、収録した口語調音声コーパスデータ１０３４から、収録した口語調音声の発話テキストを読み出し、それに対して読み上げ韻律・音韻予測モデル１０３２を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。ただし、韻律特徴量は、発話速度を表す特徴量（例えば、音素継続長、音節継続長など）、声の高さを表す特徴量（例えば、基本周波数の時間変化パターン（Ｆ０パターン）など）、音の大きさを表す特徴量（例えば、短時間平均パワーなど）等である。音韻特徴量は、声道形状を表す特徴量（例えば、ケプストラム、ＬＰＣ係数など）が考えられる。また、これらの情報をすべて用いる必要がないが、口語調の特徴に最も寄与する基本周波数を用いることが好ましい。ただし、以降、本明細書では、音韻特徴量についての説明を省略し、単に韻律特徴量と記載した場合でも、韻律特徴量と音韻特徴量と両方を意味するものとする。また、韻律特徴量についても、理解しやすいＦ０パターンを中心に説明を行うこととする。例えば、収録した口語調音声「今日は雨かなぁ」のテキストに対して予測された韻律特徴は図３に示されるようなものとなる。なお、読み上げ韻律・音韻予測モデル１０３２は、口語調音声と同じ話者の読み上げ調音声から学習したものを用いることが望ましいが、別の話者から学習したモデルを口語調音声話者に適用したものでも良い。

韻律・音韻特徴抽出部２０２は、収録した収録した口語調音声コーパスデータ１０３４から収録音声データを読み出し、その音声の韻律・音韻特徴量を抽出する。つまり、発話者がこのテキストに対して、実際に口語調スタイルで発話した場合の韻律・音韻特徴がどのようなものであるかが分かる。だたし、収録した口語調音声には、事前に音素セグメンテーション情報が、自動および手動で付与されているものとする。なお、抽出する特徴量は、読み上げ調韻律・音韻予測部で予測された特徴量と同じである。例えば、収録した口語調音声「今日は雨かなぁ」の音声波形に対して、抽出した韻律特徴量は、図４に示されるようなものとなる。

口語調度算出部２０３は、読み上げ調韻律・音韻予測部２０１で予測された特徴量と、韻律・音韻特徴抽出部２０２で抽出した収録口語調音声の特徴量とを比較し、口語調への寄与度（口語調度）を計算する。例えば、口語調算出部２０３は、単純に音素ごとに韻律特徴量の差分を取り、下記式１を用いて音素ごとの口語調度を計算する。図５は、継続長係数＝０．３；高さ係数＝０．５；強さ係数＝０．２の場合、計算された口語調度を示している。

口語調度＝｜継続長係数＊継続長差分｜＋｜高さ係数＊高さ差分｜
＋｜強さ係数＊強さ差分｜・・・・・（式１）
ここで、“｜Ａ｜”は“Ａ”の絶対値を示すものとする。

口語調表現部分の自動抽出部２０４は、口語調度算出部２０３で計算された口語調度を用いて、音声を構成する各セグメントについて、セグメントの口語調度を計算し、口語調度が所定の閾値以上を示すセグメントを口語調表現部分として自動抽出する。抽出された口語調表現部分は、口語調抽出データ１０３５に格納される。口語調表現のセグメント単位は、合成時に用いる韻律モデルにも依存するが、日本語であれば音節単位、形態素単位、アクセント句単位などが適切だと考えられる。例えば、セグメント単位が音節（モーラ）の場合、口語調特徴が母音のみに現れることを仮定すると、音節口語調度は式２のようになる。つまり、音節に含まれる母音の口語調度が音節口語調度として与えられる。式２に従うと、音節口語調度は、図６のようになる。閾値が“２０”の場合は、７番目の“ナ”と８番目の“ァ”が抽出される。閾値が“１０”の場合には、６番目の“カ”も口語調データとして、抽出されることになる。なお、例えば、閾値は経験値で定められる値であり、予め決めておく。

音節口語調度＝母音口語調度・・・・・（式２）

また、例えば、セグメント単位が形態素であるとする場合、口語調度は式３のように表される。つまり、音節に含まれる音節の口語調度の平均値が形態素口語調度として与えられる。式３に従うと、形態素口語調度は、図７のようになる。閾値が“２５”の場合は、４番目の“かなぁ”が口語調データとして、抽出される。

形態素口語調度＝音節平均口語調度・・・・・（式３）

さらに、セグメント単位がアクセント句の場合、口語調度は式４のように表される。つまり、アクセント句に含まれる形態素の形態素口語調度のうち、最大値が口語調度として与えられる。式４に従うと、アクセント句口語調度は図８のようになる。閾値が“２０”の場合は、２番目の“雨かなぁ”が口語調データとして、抽出される。

アクセント句口語調度＝形態素最大口語調度・・・・・（式４）

音声ＤＢ作成部２０７は、口語調表現部分の自動抽出部２０４によって抽出された口語調抽出データの音声波形を蓄積し、音声合成に用いる口語調音声ＤＢ１０３８を作成する。口語調音声ＤＢ１０３８は、音声合成装置による音声合成処理に適合する所定のフォーマットで作成される。例えば、「今日は雨かなぁ」から抽出した口語調表現部分の音声波形は、図９のようになる。

韻律音韻特徴自動学習部２０６は、口語調表現部分の自動抽出部２０４から抽出された口語調抽出データの韻律・音韻情報（図１０参照）を用いて、音声合成に用いる口語調韻律・音韻モデル１０３７を作成する。口語調韻律・音韻モデル１０３７は、音声合成装置による音声合成処理に適合する所定のフォーマットで作成される。口語調韻律・音韻モデル１０３７は、コンテキストから韻律・音韻情報を推定する統計モデルでも良いし、口語調のデータとして抽出され肉声の韻律・音韻情報をそのまま蓄積したモデルでも良い。例えば、「今日は雨かなぁ」から抽出した口語調表現部分の韻律（Ｆ０パターン）は、図１０のようになる。

口語調表現抽出ルール作成部２０５は、口語調表現部分の自動抽出部２０４によって抽出された口語調抽出データのテキスト（図１１）を用いて、口語調表現抽出ルールを作成する。最も簡単な口語調表現抽出ルールは、「“かなぁ”という文字列がマッチした場合、その部分を口語調表現とする。」のように、文字列表現のみを用いた文字列マッチングルールである。ただし、このようなルール作成手法では、例えば「お願いします」の口語調音声に対して、“します”の部分を口語調表現として抽出されたとすると、「します”という文字列がマッチした場合、その部分を口語調表現とする。」というルールを作成されてしまう。このルールは明らかに不適切である。従って、作成したルールには、前後のコンテキスト情報を考慮した方が良いと考えられる。例えば、「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位（アクセント句単位など、形態素より大きい言語単位でも良い）に分解し、それぞれコンテキストと口語調度（“Ｙｅｓ”と“Ｎｏ”の２値）を付与すると、図１２のようになる。このデータに対して、機械学習手法を用いて、口語調表現抽出ルールを自動作成することができる。例えば、２分岐決定木を自動構築した場合、図１３のようになる。もちろん、ニューラルネットワーク、スーパーベクトルマシンなどのカテゴリを推測する手法を用いても良い。図１３は、「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位（アクセント句単位など、形態素より大きい言語単位でも良い）に分解し、それぞれコンテキストと口語調度（口語調表現部分抽出部で口語調抽出に用いる口語調度の連続値）を付与した場合の２分岐決定木（図１２を基に学習したツリー）を示している。このデータに対して、機械学習手法を用いて、口語調表現度予測モデルを自動作成することができる。例えば、重回帰解析などの連続値を推測する統計手法を用いることができる。そして、合成時に文を構成する各形態素について、口語調度を予測し、ある閾値を超えた形態素を「口語調表現」とし、一方、予測した口語調度がその閾値より小さい形態素を「口語調表現でない」とする。

以上のように、読み上げ調韻律・音韻予測部２０１、韻律・音韻特徴抽出部２０２、口語調度算出部２０３、及び口語調表現部分の自動抽出部２０４については、日本語「今日は雨かなぁ」を適用した場合を例に説明したが、英語や中国語などの外国語でも構わない。例えば、口語調音声が英語「Oh, It's raining.」である場合、図１４で示すように、Ｆ０観測値（収録した口語調音声からのＦ０値）とＦ０予測値（読み上げ調音声からのＦ０値）が得られたとする。英語の場合は、口語調表現のセグメント単位は、音素や音節より、単語や韻律語を用いたほうが良い。例えば、セグメント単位が単語の場合、口語調度は式５のようになる。ただし、この式は一例であり、上記式１を用いても構わない。式５に従うと、各単語の口語調度が図１５のようになる。閾値を５０と設定した場合、一番最初の“Oh”が、口語調表現として抽出される。

単語口語調度＝｜予測した単語最大Ｆ０値 − 観測した単語最大Ｆ０値｜・・・（式５）
ここで、“｜Ａ｜”は“Ａ”の絶対値を示している。

（ii）音声合成処理
音声合成処理では、まずテキスト入力部に音声合成すべきテキスト（例えば、かな漢字文）がユーザによって入力され、テキスト解析部で解析される。

口語調表現自動抽出部は、テキスト解析部で解析されたコンテキスト情報と口語調データ作成処理１１の口語調表現抽出ルール作成部２０５で作成された口語調表現抽出ルール１０３６を用いて、入力テキストを「口語調表現」部分と「口語調表現でない」部分に分割する。「口語調表現」部分は、口語調部分の韻律・音韻作成部に出力し、「口語調表現でない」部分は、読み上げ部分の韻律・音韻予測部に出力する。ただし、入力テキストに必ず「口語調表現」部分と「口語調表現でない」部分と両方存在すると限らないので、入力テキストが必ず分割されると限らない。

例えば、テキスト「今日は晴れかなぁ」が入力された場合、図１３で示した口語調表現抽出ルールに従い、口語調表現が抽出される。この例では、形態素「かなぁ」が「口語調表現」として抽出され、残りの形態素が「口語調表現でない」と判断される。そのため、入力テキスト「今日は晴れかなぁ」は、口語調表現でない部分の「今日は晴れ」と口語調表現部分の「かなぁ」と分割される。また、例えば、テキスト「掃除します」が入力された場合、図１３で示した口語調表現抽出ルールには「掃除」「します」の両方とも口語調表現として登録されていないため、口語調表現は抽出されず、文分割は行われない。

韻律生成部は、口語調部分の韻律・音韻作成部で生成された韻律・音韻特徴量と読み上げ部分の韻律・音韻予測部で生成された韻律・音韻特徴量を合併し、文全体の韻律・音韻特徴量ターゲットを生成する。

そして、波形生成部は、読み上げ調音声ＤＢ１０３３を参照して、口語調ではない部分のテキストについて声質を考慮した処理を実行し、読み上げ調部分のテキストについて音声波形を生成する。また、口語調音声生成部は、口語調音声ＤＢ１０３８を参照して、口語調部分のテキストについて音声波形を生成する。

波形接続部は、口語調部分の音声波形と口語調ではない部分（読み上げ調部分）の音声波形を接続し、音声出力部は、最終的な合成音声を出力する。

＜口語調データ作成処理のフローチャート＞
図１６は、本発明の第１の実施形態による口語調データ作成処理を説明するためのフローチャートである。

（i）ステップ１６０１
プロセッサ１０１は、収録した口語調音声コーパスデータ１０３４の入力を受け付ける。当該データには、収録音声データとそれに対応するテキストデータ（発話テキスト）がセットとなっている。

（ii）ステップ１６０２
プロセッサ１０１は、収録した収録した口語調音声コーパスデータ１０３４の収録音声データから、その音声の韻律・音韻特徴量を抽出する。詳細については上述した通りである。

（iii）ステップ１６０３
プロセッサ１０１は、収録した口語調音声コーパスデータ１０３４の発話テキストに対して読み上げ韻律・音韻予測モデル１０３２を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。詳細は上述した通りである。

（iv）ステップ１６０４
プロセッサ１０１は、ステップ１６０２で抽出した収録口語調音声の特徴量と、ステップ１６０３で予測した韻律・音韻特徴量とを比較し、口語調への寄与度（口語調度）を計算する。

（v）ステップ１６０５
プロセッサ１０１は、ステップ１６０４で得られた口語調度を用いて、音声を構成する各セグメントについて、セグメントの口語調度を計算し、口語調度が所定の閾値以上を示すセグメントを口語調表現部分として自動抽出する。抽出された口語調表現部分は、口語調抽出データ１０３５に格納される。詳細は上述した通りである。

（vi）ステップ１６０６
プロセッサ１０１は、ステップ１６０５で得られた口語調抽出データの音声波形を蓄積し、音声合成に用いる口語調音声ＤＢ１０３８を作成する

（vii）ステップ１６０７
プロセッサ１０１は、口語調抽出データの韻律・音韻情報（図１０参照）を用いて、音声合成に用いる口語調韻律・音韻モデル１０３７を作成する。詳細は上述した通りである。

（viii）ステップ１６０８
プロセッサ１０１は、ステップ１６０５で得られた口語調抽出データのテキスト（図１１）を用いて、口語調表現抽出ルール１０３６を作成する。詳細は上述した通りである。

（２）第２の実施形態
第２の実施形態は、特許文献１のような音声合成装置に用いる口語調音声合成用データを作成することを想定したものである。ハードウェア構成は第１の実施形態と同様であるので、説明は省略する。ただし、記憶装置１０３は、口語調抽出データ１０３５の代わりに口語調度付き口語調音声データ１７０２、口語調表現抽出ルール１０３６の代わりに口語調度予測モデル１７０４を格納する。

＜機能ブロックと処理内容＞
図１７は、本発明の第２の実施形態による音声合成システムの機能ブロックを示す図である。第２の実施形態では、従来手作業による音声の口語調度ラベリングに代わって、収録した口語調音声にセグメントごとに、口語調度の定量的な評価を実現し、入力テキストの各セグメントに対する口語調度を予測する。この予測した口語調度によって、口語調音声から学習した韻律・音韻モデルと読み上げ調音声から学習した読み上げ調韻律・音韻モデルと、セグメント毎の混合割合を計算し、文全体の韻律・音韻特徴の予測を行う。第１の実施形態とは異なり、入力テキストを分割することがないので、分割された口語調表現部分と口語調表現でない部分と接続するときの不連続感を低減できると考えられる。

以下では、第１の実施形態とは異なる部分のみ説明することとする。
（i）口語調データ作成処理
口語調度付与部１７０１は、口語調度算出部２０３で算出された韻律特徴の差分情報を用いて、収録した口語調音声の各セグメントに口語調度を付与し、口語調度付き口語調音声データ１７０２を生成する。ここで、セグメントの単位は、音素、音節、形態素、アクセント句、フレーズ、文などが考えられるが、口語調音声の特徴を担う最小単位として、形態素を用いたことが好ましい。各セグメントの口語調度の計算については、口語調度算出部２０３で算出された韻律特徴の差分情報から求められるが、その具体例については、第１の実施形態で説明したので、ここでは詳細については省略する。「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位に分解し、それぞれコンテキストと口語調度を付与すると、図１８のようになる。

口語調度予測モデル学習部１７０３は、口語調度付与部１７０１が生成した口語調度付き口語調音声データ１７０２を用いて、口語調度を予測する統計モデル（口語調度予測モデル）１７０４を生成する。第１の実施形態では、入力文（テキスト）を「口語調」の部分と「口語調でない」の部分と分割するためのルールを作成しているが、第２の実施形態では、入力文を構成するすべてのセグメントについて、口語調度を予測するための統計モデルを作成することになる。

（ii）音声合成処理
第２の実施形態では、テキスト解析部が入力テキストを解析した後、口語調度予測＆韻律混合比決定部が、口語調度予測モデル１７０４を用いて、テキスト文を構成する各セグメントについて、口語調度を予測する。さらに、口語調度予測＆韻律混合比決定部は、この予測した口語調度に基づいて、口語調韻律と読み上げ調韻律の混合比率を計算する。例えば、「今日は晴れかなぁ」というテキスト文が入力された場合、すべての形態素について口語調を予測した結果は、図１９のようになる。ここで、口語調混合比を式６のように定義した場合（口語調下限値＝０，口語調上限値＝５０とする）、口語調混合比は、図１９に示される値となる。

口語調混合比＝ＭＩＮ（１００％，（口語調度−口語調下限値）／（口語調上限値−口語調下限値））
・・・・・（式６）
ここで、ＭＩＮ（Ａ，Ｂ）は、ＡとＢとの間で小さい方の値を選ぶことを意味するものとする。

読み上げ調韻律・音韻予測部２０１は、読み上げ韻律・音韻予測モデル１０３２を参照し、入力テキストの読み上げ調の音声データを予測する。口語調韻律・音韻作成部は、口語調韻律・音韻モデル１０３７を参照し、入力テキストの口語調の音声データを作成する。

韻律混合部は、口語調度予測＆韻律混合比決定部で生成された口語調混合比を用いて、口語調の音声データと読み上げ調の音声データの韻律混合処理を実施する。例えば、入力テキスト「今日は晴れかなぁ」に対して、図２０に示されるように口語調韻律と読み上げ韻律が予測された場合、式７を用いて、韻律生成を行う。

韻律＝口語調韻律＊口語調混合比＋読み上げ調韻律＊（１-口語調混合比）・・・・・（式７）

図２１は、当該韻律混合処理の概念を示す図である。図２１に示されるように、「今日」については読み上げ調音声データが９０％、口語調音声データが１０％用いられる。「は」についてはそれぞれ８４％、１６％用いられ、「晴れ」についてはそれぞれ６６％、３４％用いられる。そして、「かな」については読み上げ調音声データが４％、口語調音声データが９６％用いられて、混合韻律が生成される。

最後に、音声生成部は、韻律混合部で生成した韻律をターゲットとして音声を生成し、音声出力部がこれを出力する。

＜口語調データ作成処理のフローチャート＞
図２２は、本発明の第２の実施形態による口語調データ作成処理を説明するためのフローチャートである。

（i）ステップ２２０１
プロセッサ１０１は、収録した口語調音声コーパスデータ１０３４の入力を受け付ける。当該データには、収録音声データとそれに対応するテキストデータ（発話テキスト）がセットとなっている。

（ii）ステップ２２０２
プロセッサ１０１は、収録した収録した口語調音声コーパスデータ１０３４の収録音声データから、その音声の韻律・音韻特徴量を抽出する。詳細については上述した通りである。

（iii）ステップ２２０３
プロセッサ１０１は、収録した口語調音声コーパスデータ１０３４の発話テキストに対して読み上げ韻律・音韻予測モデル１０３２を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。詳細は上述した通りである。

（iv）ステップ２２０４
プロセッサ１０１は、ステップ２２０２で抽出した収録口語調音声の特徴量と、ステップ２２０３で予測した韻律・音韻特徴量とを比較し、口語調への寄与度（口語調度）を計算する。

（v）ステップ２２０５
プロセッサ１０１は、ステップ２２０４で算出された口語調度（韻律特徴の差分情報）を用いて、収録した口語調音声の各セグメントに口語調度を付与し、口語調度付き口語調音声データ１７０２を生成する。詳細は上述した通りである。

（vi）ステップ２２０６
プロセッサ１０１は、ステップ２２０５で得られた口語調度付き口語調音声データ１７０２の音声波形を蓄積し、音声合成に用いる口語調音声ＤＢ１０３８を作成する。

（vii）ステップ２２０７
プロセッサ１０１は、口語調度付き口語調音声データ１７０２の韻律・音韻情報（図１０参照）を用いて、音声合成に用いる口語調韻律・音韻モデル１０３７を作成する。詳細は上述した通りである。

（viii）ステップ２２０８
プロセッサ１０１は、ステップ２２０４で得られた口語調度付き口語調音声データ１７０２を用いて、口語調予測モデル（口語調度予測モデル）１７０４を生成する。詳細は上述した通りである。

（３）まとめ
（i）第１の実施形態では、口語調音声データから韻律特徴量を抽出し、一方、当該口語調音声データに対応するテキストデータに対して読み上げ韻律・音韻予測モデルを適用して読み上げ調の韻律特徴量を予測する。次に、これらの韻律特徴量の差分を取り、差分値が所定の閾値（経験から設定される値）よりも大きい箇所を口語調の特徴部分（音声合成に用いる口語調データ）として抽出する。これらの処理は、収録した口語調音声コーパスと読み上げ韻律・音韻予測モデルを与えれば自動的に実行される。このように、口語調音声を始めとする韻律や声質の変化が大きい発話スタイルの合成音声から、その特徴を担う部分（口語調音声の場合は、口語調表現部分）を自動的に抽出するので、作業コストを抑えることができるうえ、異なった作業者による基準の不統一を改善できる。

第１の実施形態では、口語調表現抽出ルールが生成される。このルールは、口語調の特徴部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールとして生成される。この場合、特徴部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて当該ルールを生成するようにしても良い。このようなルールを作成することにより、このルールに従って生成された合成音声を、より自然で安定的な口語調音声とすることができるようになる。

第２の実施形態では、口語調韻律データと読み上げ調韻律データの差分値に基づいて、テキストのセグメントに対して、当該セグメントの口語調の程度を示す口語調度を算出し、これを口語調音声データに付与する。そして、この口語調度が付与された口語調音声データを用いて、音声合成用データが生成される。第２の実施形態による音声合成用データは、音声合成すべき入力テキストの口語調度を予測するための統計モデル（口語調度予測モデル）となっている。第２の実施形態によっても上述の第１の実施形態と同様の技術的効果を期待することができる。

（ii）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによっても実装できる。更に、汎用目的の多様なタイプのデバイスがここで記述内容に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのも有益である。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することもできる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点において限定の為ではなく説明のためである。本分野にスキルのある者であれば、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることを理解できるものと考えられる。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

１音声合成システム
１０読み上げ調データ作成処理
１１口語調データ作成処理
１２音声合成処理
１０１ＣＰＵ
１０２メモリ
１０３記憶装置
１０４出力装置
１０５入力装置
１０６通信デバイス

Claims

メモリから各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサが、第１種音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから第１韻律を抽出するステップと、
前記プロセッサが、予め用意されている第２種音声の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する第２韻律を予測するステップと、
前記プロセッサが、前記第１韻律と前記第２韻律の差分値を算出するステップと、
前記プロセッサが、前記テキストに含まれる文字のうち、前記差分値が所定の閾値よりも大きい文字を判定するステップと、
前記プロセッサが、前記判定するステップの結果に基づいて、前記第１韻律と前記第２韻律との違いに起因する特徴テキスト部分に対応するデータを抽出するステップと、
を含み、
前記第１種音声は口語調音声であり、前記第２種音声は読み上げ調音声であり、
前記第２種音声の韻律モデルは、読み上げ韻律・音韻予測モデルであり、
前記抽出された特徴テキスト部分に対応するデータは、前記特徴テキスト部分の音声波形データ、韻律・音韻情報、及びテキストデータを含み、
さらに、前記プロセッサが、前記特徴テキスト部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールを生成するステップを含むことを特徴とする音声合成用データ作成方法。
請求項１において、
前記プロセッサは、前記特徴テキスト部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて前記ルールを生成することを特徴とする音声合成用データ作成方法。
メモリから各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサが、口語調音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから口語調韻律データを抽出するステップと、
前記プロセッサが、予め用意されている読み上げ調の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する読み上げ調韻律データを予測するステップと、
前記プロセッサが、前記口語調韻律データと前記読み上げ調韻律データの差分値を算出するステップと、
前記プロセッサが、前記差分値に基づいて、前記テキストのセグメントに対して、当該セグメントの口語調の程度を示す口語調度を算出し、前記口語調韻律データに付与するステップと、
前記プロセッサが、前記口語調度が付与された前記口語調韻律データを用いて、前記音声合成用データを生成するステップと、
を含むことを特徴とする音声合成用データ作成方法。
請求項３において、
前記音声合成用データを生成するステップは、前記プロセッサが、前記口語調度が付与された前記口語調韻律データを用いて、入力テキストの口語調度を予測するための統計モデルである口語調度予測モデルを生成することを含むことを特徴とする音声合成用データ作成方法。
各種プログラムを格納するメモリと、
前記メモリから前記各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサと、を有し、
前記プロセッサは、
第１種音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから第１韻律を抽出する処理と、
予め用意されている第２種音声の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する第２韻律を予測する処理と、
前記第１韻律と前記第２韻律の差分を算出する処理と、
前記テキストに含まれる文字のうち、前記差分が所定の閾値よりも大きい文字を判定する処理と、
前記第１韻律と前記第２韻律との違いに起因する特徴テキスト部分を抽出する処理と、
を実行し、
前記第１種音声は口語調音声であり、前記第２種音声は読み上げ調音声であり、
前記第２種音声の韻律モデルは、読み上げ韻律・音韻予測モデルであり、
前記抽出された特徴テキスト部分に対応するデータは、前記特徴テキスト部分の音声波形データ、韻律・音韻情報、及びテキストデータを含み、
前記プロセッサは、さらに、前記特徴テキスト部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールを生成する処理を実行する音声合成用データ作成装置。
請求項５において、
前記プロセッサは、前記特徴テキスト部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて前記ルールを生成することを特徴とする音声合成用データ作成装置。