JP5954221B2

JP5954221B2 - 音源特定システム、及び音源特定方法

Info

Publication number: JP5954221B2
Application number: JP2013039583A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2016-07-20
Anticipated expiration: 2033-02-28
Also published as: JP2014167556A

Description

本発明は、文章データに基づく合成音の生成に適した音源データを特定する音源特定システム、及び音源特定方法に関する。

従来、周知の音声合成技術を用いて、入力された文章データを読み上げる音声合成装置が知られている（特許文献１参照）。
この特許文献１に記載された音声合成装置では、入力された文章データによって表されたテキストを解析し、その解析結果として属性情報を導出する。そして、属性情報と予め対応付けられた韻律パラメータに、上記解析結果である属性情報を照合し、類似度が基準値以上となる属性情報と対応付けられた韻律パラメータを用いて音声合成を実行する。

なお、特許文献１に記載された属性情報とは、文の構造を表す情報であり、例えば、モーラ数、アクセント型、品詞などの情報である。

特開２０００−０５６７８８号公報

ところで、音声合成装置においては、音声合成によってテキストを読み上げた合成音に対して、当該テキストの内容に適した表情を付与することが求められている。
しかしながら、特許文献１に記載された音声合成装置では、文構造を表す属性情報に従って、音声合成に用いる韻律データを特定している。このため、特許文献１に記載された音声合成装置では、音声合成によってテキストを読上げた合成音は、当該テキストに適した表情が付与されないという課題がある。

つまり、従来の技術では、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ（音声パラメータ）を特定することが困難であるという問題がある。

そこで、本発明は、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ（音声パラメータ）を特定することを目的とする。

上記目的を達成するためになされた本発明の音源特定システムは、文章取得手段と、文章解析手段と、音源解析手段と、マッチング手段と、情報提示手段とを備えている。
本発明の音源特定システムでは、文章取得手段が、指定された文章を構成する文字列を表す文章データを取得し、文章解析手段が、文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する。

そして、音源解析手段が、複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、規定内容文について発声したときの各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から音源データそれぞれを取得して解析し、音源データごとに、当該音源データに含まれる音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布を導出する。

さらに、本発明の音源特定システムでは、マッチング手段が、文章解析手段にて導出されたテキスト表情分布を、音源解析手段にて導出された音源表情分布それぞれに照合して、両者の相関値を導出し、情報提示手段が、マッチング手段にて導出された相関値の中で、値が最も高い相関値に対応する音源データを提示する。

本発明の音源特定システムによれば、テキスト表情分布との相関値が最大となる音源表情分布に対応する音源データを特定できる。この相関値が最大となる音源データは、文章データにて出現する表情分布に、最も高い一致度の表情分布を有した音声パラメータを含むものである。

したがって、本発明の音源特定システムによれば、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ（音声パラメータ）を特定することができる。

なお、本発明における「表情」とは、少なくとも、感情や情緒、情景、状況を含む概念である。
ところで、本発明の音源特定システムにおいては、内容情報取得手段と、波形取得手段と、パラメータ導出手段と、表情データ生成手段と、音源データ登録手段とを備えていても良い。

この場合、内容情報取得手段が、複数種類の表情が出現する内容の文章を構成する文字列を表す規定内容文を取得し、波形取得手段が、内容情報取得手段で取得した規定内容文である特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する。さらに、パラメータ導出手段が、波形取得手段で取得した対象波形から、音声パラメータを導出し、表情データ生成手段が、特定内容情報に基づいて、対象波形にて表出される表情を推定し、その推定結果を表情データとして生成する。

そして、音源データ登録手段が、パラメータ導出手段で導出された音声パラメータと、表情データ生成手段で生成された表情データとを対応付けることで、音源データを生成し、記憶装置に記憶する。

このような音源特定システムによれば、発声内容情報及び当該発声内容情報に対する音声波形に基づいて音源データを生成することができる。
つまり、本発明の音源特定システムによれば、発声内容情報によって表される文字列を多くの人物に発声させた各対象波形から音声パラメータを導出することで、多様な発声者の音声パラメータを導出できる。

この結果、音源特定システムによれば、音声パラメータの種類を多様化できるため、音声合成によって文章データを読上げた合成音を出力する際に多様な音源データから選択でき、より適切な表情を付与できる。

なお、本発明は、音源データを特定する方法である音源特定方法としてなされたものであっても良い。
この場合、音源特定方法では、文章データをコンピュータに取得させる文章取得過程と、文章データによって表される文章を解析し、テキスト表情分布をコンピュータに導出させる文章解析過程と、音声パラメータと表情データとを発声ごとに対応付けた音源データを格納した記憶装置から音源データそれぞれを取得して解析し、音源表情分布をコンピュータに導出させる音源解析過程と、テキスト表情分布を音源表情分布それぞれに照合して、両者の相関値をコンピュータに導出させるマッチング過程と、相関値の中で、値が最も高い相関値に対応する音源データをコンピュータに提示させる情報提示過程とを有していても良い。

このような音源特定方法を実行すれば、請求項１に係る音源特定システムと同様の効果を得ることができる。

音源特定システムの概略構成を示すブロック図である。音源データ登録処理の処理手順を示すフローチャートである。音源特定処理の処理手順を示すフローチャートである。音源特定処理の処理概要を示す説明図である。音源特定処理の処理概要を示す説明図である。

以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図１に示す音声合成システム１は、ユーザが指定した文章データＷＴの内容を、ユーザが指定した特徴の合成音にて出力するシステムであり、少なくとも一つの情報処理サーバ１０と、少なくとも一つの音声出力端末６０とを備えている。

この音声合成システム１では、音声出力端末６０のユーザが指定した文章データＷＴを情報処理サーバ１０が解析し、少なくとも、予め登録された複数の音源データＳＤの中から、当該ユーザの希望に合致する音源データＳＤを抽出して提示する。さらに、音声合成システム１では、音源データＳＤに基づいて、音声出力端末６０が音声合成を実行して、指定された文章データＷＴに対応する内容の合成音を出力する。

すなわち、音声合成システム１は、本発明における音源特定システムとして機能する。
〈音声出力端末〉
音声出力端末６０は、通信部６１と、情報受付部６２と、表示部６３と、音入力部６４と、音出力部６５と、記憶部６６と、制御部７０とを備えている。本実施形態における音声出力端末６０として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。

通信部６１は、通信網を介して音声出力端末６０が外部との間で情報通信を行う。情報受付部６２は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６３は、制御部７０からの信号に基づいて画像を表示する。

音入力部６４は、音を電気信号に変換して制御部７０に入力する装置であり、例えば、マイクロホンである。音出力部６５は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。記憶部６６は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部６６には、各種処理プログラムや各種データが記憶される。

また、制御部７０は、ＲＯＭ７２、ＲＡＭ７４、ＣＰＵ７６を少なくとも有した周知のコンピュータを中心に構成されている。
すなわち、各音声出力端末６０は、当該音声出力端末６０のユーザが指定した文章データＷＴ、及び当該文章データＷＴに適した音源データＳＤを情報処理サーバ１０から取得して音声合成を実行する。そして、その音声合成によって、文章データＷＴの内容を表す合成音を生成して出力する。
〈情報処理サーバ〉
情報処理サーバ１０は、通信部１２と、制御部２０と、記憶部３０とを備え、少なくとも、文章を構成する文字列を表す文章データＷＴと、予め入力された音声の音声特徴量を少なくとも含む音源データＳＤとが格納されたサーバである。

通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２２と、処理プログラムやデータを一時的に格納するＲＡＭ２４と、ＲＯＭ２２やＲＡＭ２４に記憶された処理プログラムに従って各種処理を実行するＣＰＵ２６とを少なくとも有した周知のコンピュータを中心に構成されている。この制御部２０は、通信部１２や記憶部３０を制御する。

記憶部３０は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部３０には、文章データＷＴと、音源データＳＤとが格納されている。

ここでいう文章データＷＴは、例えば、書籍をテキストデータ化したデータであり、書籍ごとに予め用意されている。ここでいう書籍とは、小説などである。
音源データＳＤは、音声パラメータＰＶ_jと、タグデータ（表情データ）ＴＧ_jとを音源ｊごとに対応付けたデータである。

音声パラメータＰＶは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータＰＶにおける特徴量として、発声音声における各音素での基本周波数Ｆ０、メル周波数ケプストラム（ＭＦＣＣ）、音素長、パワー、及びそれらの時間差分を少なくとも備えている。

タグデータＴＧは、音声パラメータＰＶによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴データと、当該音声が発声されたときの発声者の表情を表す表情データとを少なくとも含む。発声者特徴データには、例えば、発声者の性別、年齢などを含む。また、表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。

これらの音声パラメータＰＶとタグデータＴＧとが対応付けられた音源データＳＤは、音源データ登録処理を制御部２０が実行することで生成され、記憶部３０に記憶される。〈音源データ登録処理〉
その音源データ登録処理は、起動されると、図２に示すように、複数種類の表情が出現する内容の文章として予め規定された規定内容文の文字列を表す文章データＷＴを取得する（Ｓ１１０）。このＳ１１０にて取得する文章データＷＴを、以下では、発声内容文章データと称す。

続いて、Ｓ１１０にて取得した発声内容文章データに対応する一つの音声波形データを取得する（Ｓ１２０）。この音声波形データは、発声内容文章データによって表される規定内容文について、予め発声された音声波形それぞれを表すデータであり、多様な人物によって予め発声されたものである。

さらに、Ｓ１２０にて取得した音声波形データそれぞれから音声パラメータＳＶを導出する（Ｓ１３０）。本実施形態のＳ１３０では、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分を、それぞれ、音声パラメータＳＶとして導出する。これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、時間軸に沿った自己相関、周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、時間分析窓における振幅の二乗した結果を時間方向に積分することで導出すれば良い。

続いて、音源データ登録処理では、表情データを推定する表情データ推定処理を実行する（Ｓ１４０）。この表情データ推定処理では、Ｓ１１０にて取得した発声内容文章データを解析した結果に基づいて、音声波形データによって表現された表情を推定する。

ここでいう「発声内容文章データ」の解析とは、例えば、発声内容文章データに対応する文章を形態素解析することで特定した各単語について、単語それぞれに対応する単語表情情報を取得する。ここでいう単語表情情報とは、単語それぞれと、各単語によって表される表情の内容とを予め対応付けた情報であり、単語表情データベースに予め格納されている。そして、取得した単語表情情報に従って、同一内容を表す表情の登場頻度を各表情の内容ごとに集計し、この集計の結果、最も頻度が高い表情の内容を、当該音声波形データによって表された表情として推定すれば良い。

続いて、Ｓ１３０にて導出した音声パラメータＳＶと、Ｓ１４０にて推定した表情データとを対応する音声波形データごとに対応付けることで、音源データＳＤを生成して記憶部３０に格納する音声パラメータ登録を実行する（Ｓ１５０）。なお、本実施形態のＳ１５０にて記憶部３０に格納される音声パラメータＳＶと対応付けられるデータは、表情データに加えて、発声した文章の内容（種類）や、発声者ＩＤ、発声者特徴データを含む（即ち、タグデータＴＧである）。これら発声者ＩＤや発声者特徴データは、情報処理サーバ１０や音声出力端末６０、その他の端末へのログインに用いる情報を発声者ＩＤや発声者特徴データとして取得すれば良い。

その後、本音声パラメータ登録処理を終了する。
つまり、本実施形態の音声パラメータ登録処理では、発声内容文章データによって表される文章に対して発声された一つの音声波形データを解析し、音声パラメータＳＶを導出する。これと共に、音声パラメータ登録処理では、当該発声内容文章データによって表される文章を解析し、当該音声パラメータＳＶにて表現される表情を表す表情データを導出する。

そして、音声パラメータ登録処理では、それらの対応する音声パラメータＳＶと表情データとを対応付けることで音源データＳＤを生成し、その音源データＳＤを記憶部３０に記憶する。これにより、記憶部３０には、規定内容文について発声された音声ごとに作成された音源データＳＤが格納される。
〈音源特定処理〉
次に、情報処理サーバ１０の制御部２０が実行する音源特定処理について説明する。

この音源特定処理は、起動されると、図３に示すように、音声出力端末６０にて指定された文章データＷＴを表す文章指定情報を取得する（Ｓ３１０）。続いて、Ｓ３１０にて取得した文章指定情報に対応する文章データ（以下、「指定文章データ」と称す）ＷＴを記憶部３０から取得する（Ｓ３２０）。このＳ３２０にて取得する指定文章データＷＴは、図４（Ａ）に示すように、文章を構成する文字列そのもの、即ち、テキストデータである。

さらに、Ｓ３２０にて取得した指定文章データＷＴをテキスト解析し、指定文章データＷＴによって表される文章中に登場する登場人物ｉと、各登場人物ｉが発声すべきテキストの内容を表す発声テキストとを対応付けた話者テキスト対応データを生成する（Ｓ３３０）。なお、ここでいう登場人物ｉとは、発話者とナレータとを含むものである。例えば、会話文については、文章中にて当該会話文を発声した人物を表す発話者を登場人物ｉとして、地の文についてはナレータを登場人物ｉとして特定する。

具体的には、Ｓ３３０では、まず、Ｓ３１０にて取得した指定文章データＷＴを、当該指定文章データＷＴによって表される文章中の句読点及び括弧にて分割して、図４（Ｂ）に示すように、文章を構成する単位区間である発声テキストに切り分ける。そして、その切り分けた発声テキストに対して形態素解析、及び係り受け解析を実行して、当該単位区間を発声すべき登場人物ｉを特定する。さらに、各発声テキストと、当該発声テキストに対応する登場人物ｉとを対応付けることで、図４（Ｃ）に示すような、登場人物ｉ（図中：話者）と発声テキスト（図中：テキスト）とを対応付けた話者テキスト対応データを生成する。

なお、形態素解析や係り受け解析は、周知の手法を用いれば良く、例えば、形態素解析であれば、“ＭｅＣａｂ”を用いれば良い。また、係り受け解析であれば、“Ｃａｂｏｃｈａ（「工藤拓，松本裕治，“チャンキングの段階適用による日本語係り受け解析”，情報処理学会論文誌，４３（６），１８３４−１８４２（２００１）」）”などを用いれば良い。

音源特定処理へと戻り、話者テキスト対応データに基づいて、登場人物ｉごとに対応付けられた発声テキストを解析して、各発声テキストに出現する表情を特定する（Ｓ３４０）。このＳ３４０における解析は、上述した単語表情情報に基づいて、発声テキストに含まれる各単語によって表される表情の内容を取得することで実施すれば良い。

続いて、指定文章データＷＴによって表される文章中の登場人物ｉごとに、Ｓ３４０における表情解析の結果を集計し、登場人物ｉごとの表情の分布を表すテキスト表情分布ｔｐｄ（ｉ，ｋ）を導出する（Ｓ３５０）。このＳ３５０にて導出されるテキスト表情分布ｔｐｄ（ｉ，ｋ）は、図５（Ａ）に示すように、指定文章データＷＴによって表される文章中の登場人物ｉが表現すべき各表情を項目ｋとして、各表情の強さの分布を表したものである。

さらに、記憶部３０に記憶された音源データＳＤに基づいて、各音源データＳＤにおける表情の分布を表す音源表情分布ｖｐｄ（ｊ，ｋ）を導出する（Ｓ３６０）。このＳ３６０では、具体的には、表情の内容が中立状態である表情データと対応付けられた音声パラメータｓｐ＿ｎ（ｊ）それぞれを基準とし、その基準から、各表情ｋを内容とする表情データと対応付けられた音声パラメータｓｐ＿ｅ（ｊ）のそれぞれへのベクトルを音源表情分布ｖｐｄ（ｊ，ｋ）として、下記（１）式にて音源ｊごとに導出する。

この（１）式によって音源ｊごとに導出される音源表情分布ｖｐｄは、図５（Ｂ）に示すように、規定内容文にて出現する各表情を項目ｋとして、各表情の強さの分布を表したものとなる。

続いて、Ｓ３５０にて導出した登場人物ｉごとのテキスト表情分布ｔｐｄ（ｉ，ｋ）を、Ｓ３６０にて導出した音源表情分布ｖｐｄ（ｊ，ｋ）それぞれに照合し、相関値ｃｏｒ（ｉ，ｊ）を導出する（Ｓ３７０）。このＳ３７０における相関値ｃｏｒ（ｉ，ｊ）の導出は、下記（２）式，（３）式に従って実行する。

なお、（２）式，及び（３）式におけるＴＰ及びＶＰは、それぞれ、テキスト表情分布ｔｐｄ、音源表情分布ｖｐｄを、出現する各表情の項目ｋに関して相加平均したものであり、ｋｍａｘは表情の数量である。

さらに、Ｓ３７０にて導出した相関値ｃｏｒ（ｉ，ｊ）が最大となる音源データＳＤを、登場人物ｉごとに提示する（Ｓ３８０）。このＳ３８０における提示とは、通信部１２を介して、相関値ｃｏｒ（ｉ，ｊ）が最大となる登場人物ｉごとの音源データＳＤを、音声出力端末６０の表示部６３に出力することでも良い。

その後、本音源特定処理を終了する。
つまり、音源特定処理では、指定文章データＷＴによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布ｔｐｄ（ｉ，ｋ）を登場人物ｉごとに導出する。そして、記憶部３０に記憶された音源データＳＤそれぞれを取得して解析し、音源データＳＤごとに、当該音源データＳＤに含まれる音声パラメータＰＶにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布ｖｐｄ（ｊ，ｋ）を導出する。

さらに、音源特定処理では、導出された登場人物ｉごとのテキスト表情分布ｔｐｄ（ｉ，ｋ）を、音源表情分布ｖｐｄ（ｊ，ｋ）それぞれに照合して、両者の相関値ｃｏｒ（ｉ，ｊ）を導出して、その相関値ｃｏｒ（ｉ，ｊ）が最も高い音源データＳＤを提示する。
［実施形態の効果］
以上説明したように、音声合成システム１によれば、テキスト表情分布ｔｐｄ（ｉ，ｋ）との相関値ｃｏｒ（ｉ，ｊ）が最大となる音源表情分布ｖｐｄ（ｊ，ｋ）に対応する音源データＳＤを特定して提示できる。この相関値ｃｏｒ（ｉ，ｊ）が最大となる音源データＳＤは、文章データＷＴにて出現する表情分布に、最も高い一致度の表情分布を有した音声パラメータＰＶを含むものである。

したがって、音声合成システム１によれば、音声合成によって文章データＷＴを読上げた合成音を出力する際に、当該文章データＷＴの合成音に適切な表情を付与可能な音源データＳＤを特定することができる。

しかも、音声合成システム１によれば、発声内容文章データ及び発声内容文章データに対する音声波形に基づいて音源データＳＤを生成することができる。そして、音声合成システム１によれば、発声内容文章データによって表される文字列を多くの人物に発声させた各対象波形から音声パラメータＰＶを導出することで、多様な発声者の音声パラメータＰＶを導出できる。

この結果、音声合成システム１によれば、音声パラメータＰＶの種類を多様化できるため、音声合成によって文章データＷＴを読上げた合成音を出力する際に多様な音源データＳＤから選択でき、より適切な表情を付与できる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

すなわち、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

例えば、上記実施形態の音源特定処理におけるＳ３７０では、相関値ｃｏｒ（ｉ，ｊ）が最大となる音源データＳＤを提示していたが、Ｓ３７０にて提示する音源データＳＤは、これに限るものではない。すなわち、Ｓ３７０にて提示する音源データＳＤは、登場人物ｉごとに、相関値ｃｏｒ（ｉ，ｊ）が最大値から規定数（例えば「５」）までに該当する音源データＳＤを提示しても良い。

また、Ｓ３７０における音源データＳＤの提示では、登場人物ｉの性別に応じて、出力対象を決定しても良い。つまり、登場人物ｉの性別が、男であれば、発声者特徴データにおける性別が男性である音源データＳＤを提示し、登場人物ｉの性別が、女であれば、発声者特徴データにおける性別が女性である音源データＳＤを提示することが好ましい。

この場合、登場人物ｉの性別は、登場人物ｉの名前を表す固有名詞における性別から判定しても良いし、登場人物ｉを表す代名詞から判定しても良い。
また、上記実施形態における音源特定処理におけるＳ３６０では、相関値ｃｏｒを導出する際に、テキスト表情分布ｔｐｄ（ｉ，ｋ）と音源表情分布ｖｐｄ（ｊ，ｋ）とを正規化していたが、各正規化は、テキスト表情分布ｔｐｄ（ｉ，ｋ）と音源表情分布ｖｐｄ（ｊ，ｋ）とのそれぞれを導出する際に実行しても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音源特定処理におけるＳ３１０，Ｓ３２０を実行することで得られる機能が、特許請求の範囲の記載における文章取得手段に相当し、Ｓ３３０〜Ｓ３５０が、特許請求の範囲の記載における文章解析手段に相当する。さらに、上記実施形態の音源特定処理におけるＳ３６０が、特許請求の範囲の記載における音源解析手段に相当し、Ｓ３７０が、マッチング手段に相当し、Ｓ３８０が、情報提示手段に相当する。

また、上記実施形態の音源登録処理におけるＳ１１０を実行することで得られる機能が、特許請求の範囲の記載における内容情報取得手段に相当し、Ｓ１２０が、波形取得手段に相当する。そして、Ｓ１３０を実行することで得られる機能が、特許請求の範囲の記載におけるパラメータ導出手段に相当し、Ｓ１４０が、表情データ生成手段に相当し、Ｓ１５０が音源データ登録手段に相当する。

１…音声合成システム１０…情報処理サーバ１２…通信部２０…制御部２２…ＲＯＭ２４…ＲＡＭ２６…ＣＰＵ３０…記憶部６０…音声出力端末６１…通信部６２…情報受付部６３…表示部６４…音入力部６５…音出力部６６…記憶部７０…制御部７２…ＲＯＭ７４…ＲＡＭ７６…ＣＰＵ

Claims

指定された文章を構成する文字列を表す文章データを取得する文章取得手段と、
前記文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手段と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、前記規定内容文について発声したときの各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から前記音源データそれぞれを取得して解析し、前記音源データごとに、当該音源データに含まれる前記音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手段と、
前記文章解析手段にて導出されたテキスト表情分布を、前記音源解析手段にて導出された音源表情分布それぞれに照合して、両者の相関値を導出するマッチング手段と、
前記マッチング手段にて導出された相関値の中で、値が最も高い相関値に対応する前記音源データを提示する情報提示手段と
を備えることを特徴とする音源特定システム。
複数種類の表情が出現する内容の文章を構成する文字列を表す規定内容文を取得する内容情報取得手段と、
前記内容情報取得手段で取得した規定内容文である特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
前記波形取得手段で取得した対象波形から、前記音声パラメータを導出するパラメータ導出手段と、
前記特定内容情報に基づいて、前記対象波形にて表出される表情を推定し、その推定結果を前記表情データとして生成する表情データ生成手段と、
前記パラメータ導出手段で導出された音声パラメータと、前記表情データ生成手段で生成された表情データとを対応付けることで、前記音源データを生成し、前記記憶装置に記憶する音源データ登録手段と
を備えることを特徴とする請求項１に記載の音源特定システム。
指定された文章を構成する文字列を表す文章データをコンピュータに取得させる文章取得過程と、
前記文章取得過程で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布をコンピュータに導出させる文章解析過程と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、前記規定内容文について発声した音声の各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から前記音源データそれぞれを取得して解析し、前記音源データごとに、当該音源データに含まれる前記音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布をコンピュータに導出させる音源解析過程と、
前記文章解析過程にて導出されたテキスト表情分布を、前記音源解析過程にて導出された音源表情分布それぞれに照合して、両者の相関値をコンピュータに導出させるマッチング過程と、
前記マッチング過程にて導出された相関値の中で、値が最も高い相関値に対応する前記音源データをコンピュータに提示させる情報提示過程と
を備えることを特徴とする音源特定方法。