JP5954221B2 - 音源特定システム、及び音源特定方法 - Google Patents

音源特定システム、及び音源特定方法 Download PDF

Info

Publication number
JP5954221B2
JP5954221B2 JP2013039583A JP2013039583A JP5954221B2 JP 5954221 B2 JP5954221 B2 JP 5954221B2 JP 2013039583 A JP2013039583 A JP 2013039583A JP 2013039583 A JP2013039583 A JP 2013039583A JP 5954221 B2 JP5954221 B2 JP 5954221B2
Authority
JP
Japan
Prior art keywords
sound source
sentence
data
expression
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013039583A
Other languages
English (en)
Other versions
JP2014167556A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2013039583A priority Critical patent/JP5954221B2/ja
Publication of JP2014167556A publication Critical patent/JP2014167556A/ja
Application granted granted Critical
Publication of JP5954221B2 publication Critical patent/JP5954221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文章データに基づく合成音の生成に適した音源データを特定する音源特定システム、及び音源特定方法に関する。
従来、周知の音声合成技術を用いて、入力された文章データを読み上げる音声合成装置が知られている(特許文献1参照)。
この特許文献1に記載された音声合成装置では、入力された文章データによって表されたテキストを解析し、その解析結果として属性情報を導出する。そして、属性情報と予め対応付けられた韻律パラメータに、上記解析結果である属性情報を照合し、類似度が基準値以上となる属性情報と対応付けられた韻律パラメータを用いて音声合成を実行する。
なお、特許文献1に記載された属性情報とは、文の構造を表す情報であり、例えば、モーラ数、アクセント型、品詞などの情報である。
特開2000−056788号公報
ところで、音声合成装置においては、音声合成によってテキストを読み上げた合成音に対して、当該テキストの内容に適した表情を付与することが求められている。
しかしながら、特許文献1に記載された音声合成装置では、文構造を表す属性情報に従って、音声合成に用いる韻律データを特定している。このため、特許文献1に記載された音声合成装置では、音声合成によってテキストを読上げた合成音は、当該テキストに適した表情が付与されないという課題がある。
つまり、従来の技術では、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ(音声パラメータ)を特定することが困難であるという問題がある。
そこで、本発明は、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ(音声パラメータ)を特定することを目的とする。
上記目的を達成するためになされた本発明の音源特定システムは、文章取得手段と、文章解析手段と、音源解析手段と、マッチング手段と、情報提示手段とを備えている。
本発明の音源特定システムでは、文章取得手段が、指定された文章を構成する文字列を表す文章データを取得し、文章解析手段が、文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する。
そして、音源解析手段が、複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、規定内容文について発声したときの各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から音源データそれぞれを取得して解析し、音源データごとに、当該音源データに含まれる音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布を導出する。
さらに、本発明の音源特定システムでは、マッチング手段が、文章解析手段にて導出されたテキスト表情分布を、音源解析手段にて導出された音源表情分布それぞれに照合して、両者の相関値を導出し、情報提示手段が、マッチング手段にて導出された相関値の中で、値が最も高い相関値に対応する音源データを提示する。
本発明の音源特定システムによれば、テキスト表情分布との相関値が最大となる音源表情分布に対応する音源データを特定できる。この相関値が最大となる音源データは、文章データにて出現する表情分布に、最も高い一致度の表情分布を有した音声パラメータを含むものである。
したがって、本発明の音源特定システムによれば、音声合成によって文章データを読上げた合成音を出力する際に、当該文章データの合成音に適切な表情を付与可能な音源データ(音声パラメータ)を特定することができる。
なお、本発明における「表情」とは、少なくとも、感情や情緒、情景、状況を含む概念である。
ところで、本発明の音源特定システムにおいては、内容情報取得手段と、波形取得手段と、パラメータ導出手段と、表情データ生成手段と、音源データ登録手段とを備えていても良い。
この場合、内容情報取得手段が、複数種類の表情が出現する内容の文章を構成する文字列を表す規定内容文を取得し、波形取得手段が、内容情報取得手段で取得した規定内容文である特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する。さらに、パラメータ導出手段が、波形取得手段で取得した対象波形から、音声パラメータを導出し、表情データ生成手段が、特定内容情報に基づいて、対象波形にて表出される表情を推定し、その推定結果を表情データとして生成する。
そして、音源データ登録手段が、パラメータ導出手段で導出された音声パラメータと、表情データ生成手段で生成された表情データとを対応付けることで、音源データを生成し、記憶装置に記憶する。
このような音源特定システムによれば、発声内容情報及び当該発声内容情報に対する音声波形に基づいて音源データを生成することができる。
つまり、本発明の音源特定システムによれば、発声内容情報によって表される文字列を多くの人物に発声させた各対象波形から音声パラメータを導出することで、多様な発声者の音声パラメータを導出できる。
この結果、音源特定システムによれば、音声パラメータの種類を多様化できるため、音声合成によって文章データを読上げた合成音を出力する際に多様な音源データから選択でき、より適切な表情を付与できる。
なお、本発明は、音源データを特定する方法である音源特定方法としてなされたものであっても良い。
この場合、音源特定方法では、文章データをコンピュータに取得させる文章取得過程と、文章データによって表される文章を解析し、テキスト表情分布をコンピュータに導出させる文章解析過程と、音声パラメータと表情データとを発声ごとに対応付けた音源データを格納した記憶装置から音源データそれぞれを取得して解析し、音源表情分布をコンピュータに導出させる音源解析過程と、テキスト表情分布を音源表情分布それぞれに照合して、両者の相関値をコンピュータに導出させるマッチング過程と、相関値の中で、値が最も高い相関値に対応する音源データをコンピュータに提示させる情報提示過程とを有していても良い。
このような音源特定方法を実行すれば、請求項1に係る音源特定システムと同様の効果を得ることができる。
音源特定システムの概略構成を示すブロック図である。 音源データ登録処理の処理手順を示すフローチャートである。 音源特定処理の処理手順を示すフローチャートである。 音源特定処理の処理概要を示す説明図である。 音源特定処理の処理概要を示す説明図である。
以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図1に示す音声合成システム1は、ユーザが指定した文章データWTの内容を、ユーザが指定した特徴の合成音にて出力するシステムであり、少なくとも一つの情報処理サーバ10と、少なくとも一つの音声出力端末60とを備えている。
この音声合成システム1では、音声出力端末60のユーザが指定した文章データWTを情報処理サーバ10が解析し、少なくとも、予め登録された複数の音源データSDの中から、当該ユーザの希望に合致する音源データSDを抽出して提示する。さらに、音声合成システム1では、音源データSDに基づいて、音声出力端末60が音声合成を実行して、指定された文章データWTに対応する内容の合成音を出力する。
すなわち、音声合成システム1は、本発明における音源特定システムとして機能する。
〈音声出力端末〉
音声出力端末60は、通信部61と、情報受付部62と、表示部63と、音入力部64と、音出力部65と、記憶部66と、制御部70とを備えている。本実施形態における音声出力端末60として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。
通信部61は、通信網を介して音声出力端末60が外部との間で情報通信を行う。情報受付部62は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部63は、制御部70からの信号に基づいて画像を表示する。
音入力部64は、音を電気信号に変換して制御部70に入力する装置であり、例えば、マイクロホンである。音出力部65は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。記憶部66は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部66には、各種処理プログラムや各種データが記憶される。
また、制御部70は、ROM72、RAM74、CPU76を少なくとも有した周知のコンピュータを中心に構成されている。
すなわち、各音声出力端末60は、当該音声出力端末60のユーザが指定した文章データWT、及び当該文章データWTに適した音源データSDを情報処理サーバ10から取得して音声合成を実行する。そして、その音声合成によって、文章データWTの内容を表す合成音を生成して出力する。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、制御部20と、記憶部30とを備え、少なくとも、文章を構成する文字列を表す文章データWTと、予め入力された音声の音声特徴量を少なくとも含む音源データSDとが格納されたサーバである。
通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM22と、処理プログラムやデータを一時的に格納するRAM24と、ROM22やRAM24に記憶された処理プログラムに従って各種処理を実行するCPU26とを少なくとも有した周知のコンピュータを中心に構成されている。この制御部20は、通信部12や記憶部30を制御する。
記憶部30は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部30には、文章データWTと、音源データSDとが格納されている。
ここでいう文章データWTは、例えば、書籍をテキストデータ化したデータであり、書籍ごとに予め用意されている。ここでいう書籍とは、小説などである。
音源データSDは、音声パラメータPVjと、タグデータ(表情データ)TGjとを音源jごとに対応付けたデータである。
音声パラメータPVは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータPVにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を少なくとも備えている。
タグデータTGは、音声パラメータPVによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴データと、当該音声が発声されたときの発声者の表情を表す表情データとを少なくとも含む。発声者特徴データには、例えば、発声者の性別、年齢などを含む。また、表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。
これらの音声パラメータPVとタグデータTGとが対応付けられた音源データSDは、音源データ登録処理を制御部20が実行することで生成され、記憶部30に記憶される。〈音源データ登録処理〉
その音源データ登録処理は、起動されると、図2に示すように、複数種類の表情が出現する内容の文章として予め規定された規定内容文の文字列を表す文章データWTを取得する(S110)。このS110にて取得する文章データWTを、以下では、発声内容文章データと称す。
続いて、S110にて取得した発声内容文章データに対応する一つの音声波形データを取得する(S120)。この音声波形データは、発声内容文章データによって表される規定内容文について、予め発声された音声波形それぞれを表すデータであり、多様な人物によって予め発声されたものである。
さらに、S120にて取得した音声波形データそれぞれから音声パラメータSVを導出する(S130)。本実施形態のS130では、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分を、それぞれ、音声パラメータSVとして導出する。これらの基本周波数、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、時間軸に沿った自己相関、周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、時間分析窓における振幅の二乗した結果を時間方向に積分することで導出すれば良い。
続いて、音源データ登録処理では、表情データを推定する表情データ推定処理を実行する(S140)。この表情データ推定処理では、S110にて取得した発声内容文章データを解析した結果に基づいて、音声波形データによって表現された表情を推定する。
ここでいう「発声内容文章データ」の解析とは、例えば、発声内容文章データに対応する文章を形態素解析することで特定した各単語について、単語それぞれに対応する単語表情情報を取得する。ここでいう単語表情情報とは、単語それぞれと、各単語によって表される表情の内容とを予め対応付けた情報であり、単語表情データベースに予め格納されている。そして、取得した単語表情情報に従って、同一内容を表す表情の登場頻度を各表情の内容ごとに集計し、この集計の結果、最も頻度が高い表情の内容を、当該音声波形データによって表された表情として推定すれば良い。
続いて、S130にて導出した音声パラメータSVと、S140にて推定した表情データとを対応する音声波形データごとに対応付けることで、音源データSDを生成して記憶部30に格納する音声パラメータ登録を実行する(S150)。なお、本実施形態のS150にて記憶部30に格納される音声パラメータSVと対応付けられるデータは、表情データに加えて、発声した文章の内容(種類)や、発声者ID、発声者特徴データを含む(即ち、タグデータTGである)。これら発声者IDや発声者特徴データは、情報処理サーバ10や音声出力端末60、その他の端末へのログインに用いる情報を発声者IDや発声者特徴データとして取得すれば良い。
その後、本音声パラメータ登録処理を終了する。
つまり、本実施形態の音声パラメータ登録処理では、発声内容文章データによって表される文章に対して発声された一つの音声波形データを解析し、音声パラメータSVを導出する。これと共に、音声パラメータ登録処理では、当該発声内容文章データによって表される文章を解析し、当該音声パラメータSVにて表現される表情を表す表情データを導出する。
そして、音声パラメータ登録処理では、それらの対応する音声パラメータSVと表情データとを対応付けることで音源データSDを生成し、その音源データSDを記憶部30に記憶する。これにより、記憶部30には、規定内容文について発声された音声ごとに作成された音源データSDが格納される。
〈音源特定処理〉
次に、情報処理サーバ10の制御部20が実行する音源特定処理について説明する。
この音源特定処理は、起動されると、図3に示すように、音声出力端末60にて指定された文章データWTを表す文章指定情報を取得する(S310)。続いて、S310にて取得した文章指定情報に対応する文章データ(以下、「指定文章データ」と称す)WTを記憶部30から取得する(S320)。このS320にて取得する指定文章データWTは、図4(A)に示すように、文章を構成する文字列そのもの、即ち、テキストデータである。
さらに、S320にて取得した指定文章データWTをテキスト解析し、指定文章データWTによって表される文章中に登場する登場人物iと、各登場人物iが発声すべきテキストの内容を表す発声テキストとを対応付けた話者テキスト対応データを生成する(S330)。なお、ここでいう登場人物iとは、発話者とナレータとを含むものである。例えば、会話文については、文章中にて当該会話文を発声した人物を表す発話者を登場人物iとして、地の文についてはナレータを登場人物iとして特定する。
具体的には、S330では、まず、S310にて取得した指定文章データWTを、当該指定文章データWTによって表される文章中の句読点及び括弧にて分割して、図4(B)に示すように、文章を構成する単位区間である発声テキストに切り分ける。そして、その切り分けた発声テキストに対して形態素解析、及び係り受け解析を実行して、当該単位区間を発声すべき登場人物iを特定する。さらに、各発声テキストと、当該発声テキストに対応する登場人物iとを対応付けることで、図4(C)に示すような、登場人物i(図中:話者)と発声テキスト(図中:テキスト)とを対応付けた話者テキスト対応データを生成する。
なお、形態素解析や係り受け解析は、周知の手法を用いれば良く、例えば、形態素解析であれば、“MeCab”を用いれば良い。また、係り受け解析であれば、“Cabocha(「工藤拓,松本裕治,“チャンキングの段階適用による日本語係り受け解析”,情報処理学会論文誌,43(6),1834−1842(2001)」)”などを用いれば良い。
音源特定処理へと戻り、話者テキスト対応データに基づいて、登場人物iごとに対応付けられた発声テキストを解析して、各発声テキストに出現する表情を特定する(S340)。このS340における解析は、上述した単語表情情報に基づいて、発声テキストに含まれる各単語によって表される表情の内容を取得することで実施すれば良い。
続いて、指定文章データWTによって表される文章中の登場人物iごとに、S340における表情解析の結果を集計し、登場人物iごとの表情の分布を表すテキスト表情分布tpd(i,k)を導出する(S350)。このS350にて導出されるテキスト表情分布tpd(i,k)は、図5(A)に示すように、指定文章データWTによって表される文章中の登場人物iが表現すべき各表情を項目kとして、各表情の強さの分布を表したものである。
さらに、記憶部30に記憶された音源データSDに基づいて、各音源データSDにおける表情の分布を表す音源表情分布vpd(j,k)を導出する(S360)。このS360では、具体的には、表情の内容が中立状態である表情データと対応付けられた音声パラメータsp_n(j)それぞれを基準とし、その基準から、各表情kを内容とする表情データと対応付けられた音声パラメータsp_e(j)のそれぞれへのベクトルを音源表情分布vpd(j,k)として、下記(1)式にて音源jごとに導出する。
Figure 0005954221
この(1)式によって音源jごとに導出される音源表情分布vpdは、図5(B)に示すように、規定内容文にて出現する各表情を項目kとして、各表情の強さの分布を表したものとなる。
続いて、S350にて導出した登場人物iごとのテキスト表情分布tpd(i,k)を、S360にて導出した音源表情分布vpd(j,k)それぞれに照合し、相関値cor(i,j)を導出する(S370)。このS370における相関値cor(i,j)の導出は、下記(2)式,(3)式に従って実行する。
なお、(2)式,及び(3)式におけるTP及びVPは、それぞれ、テキスト表情分布tpd、音源表情分布vpdを、出現する各表情の項目kに関して相加平均したものであり、kmaxは表情の数量である。
Figure 0005954221
Figure 0005954221
さらに、S370にて導出した相関値cor(i,j)が最大となる音源データSDを、登場人物iごとに提示する(S380)。このS380における提示とは、通信部12を介して、相関値cor(i,j)が最大となる登場人物iごとの音源データSDを、音声出力端末60の表示部63に出力することでも良い。
その後、本音源特定処理を終了する。
つまり、音源特定処理では、指定文章データWTによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布tpd(i,k)を登場人物iごとに導出する。そして、記憶部30に記憶された音源データSDそれぞれを取得して解析し、音源データSDごとに、当該音源データSDに含まれる音声パラメータPVにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布vpd(j,k)を導出する。
さらに、音源特定処理では、導出された登場人物iごとのテキスト表情分布tpd(i,k)を、音源表情分布vpd(j,k)それぞれに照合して、両者の相関値cor(i,j)を導出して、その相関値cor(i,j)が最も高い音源データSDを提示する。
[実施形態の効果]
以上説明したように、音声合成システム1によれば、テキスト表情分布tpd(i,k)との相関値cor(i,j)が最大となる音源表情分布vpd(j,k)に対応する音源データSDを特定して提示できる。この相関値cor(i,j)が最大となる音源データSDは、文章データWTにて出現する表情分布に、最も高い一致度の表情分布を有した音声パラメータPVを含むものである。
したがって、音声合成システム1によれば、音声合成によって文章データWTを読上げた合成音を出力する際に、当該文章データWTの合成音に適切な表情を付与可能な音源データSDを特定することができる。
しかも、音声合成システム1によれば、発声内容文章データ及び発声内容文章データに対する音声波形に基づいて音源データSDを生成することができる。そして、音声合成システム1によれば、発声内容文章データによって表される文字列を多くの人物に発声させた各対象波形から音声パラメータPVを導出することで、多様な発声者の音声パラメータPVを導出できる。
この結果、音声合成システム1によれば、音声パラメータPVの種類を多様化できるため、音声合成によって文章データWTを読上げた合成音を出力する際に多様な音源データSDから選択でき、より適切な表情を付与できる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
すなわち、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
例えば、上記実施形態の音源特定処理におけるS370では、相関値cor(i,j)が最大となる音源データSDを提示していたが、S370にて提示する音源データSDは、これに限るものではない。すなわち、S370にて提示する音源データSDは、登場人物iごとに、相関値cor(i,j)が最大値から規定数(例えば「5」)までに該当する音源データSDを提示しても良い。
また、S370における音源データSDの提示では、登場人物iの性別に応じて、出力対象を決定しても良い。つまり、登場人物iの性別が、男であれば、発声者特徴データにおける性別が男性である音源データSDを提示し、登場人物iの性別が、女であれば、発声者特徴データにおける性別が女性である音源データSDを提示することが好ましい。
この場合、登場人物iの性別は、登場人物iの名前を表す固有名詞における性別から判定しても良いし、登場人物iを表す代名詞から判定しても良い。
また、上記実施形態における音源特定処理におけるS360では、相関値corを導出する際に、テキスト表情分布tpd(i,k)と音源表情分布vpd(j,k)とを正規化していたが、各正規化は、テキスト表情分布tpd(i,k)と音源表情分布vpd(j,k)とのそれぞれを導出する際に実行しても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音源特定処理におけるS310,S320を実行することで得られる機能が、特許請求の範囲の記載における文章取得手段に相当し、S330〜S350が、特許請求の範囲の記載における文章解析手段に相当する。さらに、上記実施形態の音源特定処理におけるS360が、特許請求の範囲の記載における音源解析手段に相当し、S370が、マッチング手段に相当し、S380が、情報提示手段に相当する。
また、上記実施形態の音源登録処理におけるS110を実行することで得られる機能が、特許請求の範囲の記載における内容情報取得手段に相当し、S120が、波形取得手段に相当する。そして、S130を実行することで得られる機能が、特許請求の範囲の記載におけるパラメータ導出手段に相当し、S140が、表情データ生成手段に相当し、S150が音源データ登録手段に相当する。
1…音声合成システム 10…情報処理サーバ 12…通信部 20…制御部 22…ROM 24…RAM 26…CPU 30…記憶部 60…音声出力端末 61…通信部 62…情報受付部 63…表示部 64…音入力部 65…音出力部 66…記憶部 70…制御部 72…ROM 74…RAM 76…CPU

Claims (3)

  1. 指定された文章を構成する文字列を表す文章データを取得する文章取得手段と、
    前記文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手段と、
    複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、前記規定内容文について発声したときの各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から前記音源データそれぞれを取得して解析し、前記音源データごとに、当該音源データに含まれる前記音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手段と、
    前記文章解析手段にて導出されたテキスト表情分布を、前記音源解析手段にて導出された音源表情分布それぞれに照合して、両者の相関値を導出するマッチング手段と、
    前記マッチング手段にて導出された相関値の中で、値が最も高い相関値に対応する前記音源データを提示する情報提示手段と
    を備えることを特徴とする音源特定システム。
  2. 複数種類の表情が出現する内容の文章を構成する文字列を表す規定内容文を取得する内容情報取得手段と、
    前記内容情報取得手段で取得した規定内容文である特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
    前記波形取得手段で取得した対象波形から、前記音声パラメータを導出するパラメータ導出手段と、
    前記特定内容情報に基づいて、前記対象波形にて表出される表情を推定し、その推定結果を前記表情データとして生成する表情データ生成手段と、
    前記パラメータ導出手段で導出された音声パラメータと、前記表情データ生成手段で生成された表情データとを対応付けることで、前記音源データを生成し、前記記憶装置に記憶する音源データ登録手段と
    を備えることを特徴とする請求項1に記載の音源特定システム。
  3. 指定された文章を構成する文字列を表す文章データをコンピュータに取得させる文章取得過程と、
    前記文章取得過程で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布をコンピュータに導出させる文章解析過程と、
    複数種類の表情が出現する内容の文章として規定された規定内容文について発声された音の少なくとも一つの音声パラメータと、前記規定内容文について発声した音声の各表情を表す表情データとを発声ごとに対応付けたデータである音源データを格納した記憶装置から前記音源データそれぞれを取得して解析し、前記音源データごとに、当該音源データに含まれる前記音声パラメータにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布をコンピュータに導出させる音源解析過程と、
    前記文章解析過程にて導出されたテキスト表情分布を、前記音源解析過程にて導出された音源表情分布それぞれに照合して、両者の相関値をコンピュータに導出させるマッチング過程と、
    前記マッチング過程にて導出された相関値の中で、値が最も高い相関値に対応する前記音源データをコンピュータに提示させる情報提示過程と
    を備えることを特徴とする音源特定方法。
JP2013039583A 2013-02-28 2013-02-28 音源特定システム、及び音源特定方法 Active JP5954221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013039583A JP5954221B2 (ja) 2013-02-28 2013-02-28 音源特定システム、及び音源特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013039583A JP5954221B2 (ja) 2013-02-28 2013-02-28 音源特定システム、及び音源特定方法

Publications (2)

Publication Number Publication Date
JP2014167556A JP2014167556A (ja) 2014-09-11
JP5954221B2 true JP5954221B2 (ja) 2016-07-20

Family

ID=51617276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013039583A Active JP5954221B2 (ja) 2013-02-28 2013-02-28 音源特定システム、及び音源特定方法

Country Status (1)

Country Link
JP (1) JP5954221B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091891A (ja) * 2000-09-19 2002-03-29 Nippon Telegraph & Telephone East Corp 電子メール読み上げ装置、その方法およびそのプログラムが記録されたコンピュータ読み取り可能な記録媒体、並びにデータが記録されたコンピュータ読み取り可能な記録媒体
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP5031269B2 (ja) * 2005-05-30 2012-09-19 京セラ株式会社 文書表示装置及び文書読み上げ方法
JP5747471B2 (ja) * 2010-10-20 2015-07-15 三菱電機株式会社 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Also Published As

Publication number Publication date
JP2014167556A (ja) 2014-09-11

Similar Documents

Publication Publication Date Title
US10339290B2 (en) Spoken pass-phrase suitability determination
US10621968B2 (en) Method and apparatus to synthesize voice based on facial structures
Eyben et al. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing
CN106503646B (zh) 多模态情感辨识***及方法
WO2019196306A1 (zh) 基于语音的口型动画合成装置、方法及可读存储介质
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
US20060080098A1 (en) Apparatus and method for speech processing using paralinguistic information in vector form
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
JP2021152682A (ja) 音声処理装置、音声処理方法、およびプログラム
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
Park et al. Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles
CN113782032B (zh) 一种声纹识别方法及相关装置
KR20210071713A (ko) 스피치 스킬 피드백 시스템
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP5954221B2 (ja) 音源特定システム、及び音源特定方法
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP2004117662A (ja) 音声合成システム
CN114514576A (zh) 数据处理方法、装置和存储介质
CN110580905A (zh) 识别装置及方法
ASAOLU et al. UNILAG Laughter Corpus–A Dataset for Laughter Analyses and Biometrics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5954221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150