JP6922306B2 - 音声再生装置、および音声再生プログラム - Google Patents

音声再生装置、および音声再生プログラム Download PDF

Info

Publication number
JP6922306B2
JP6922306B2 JP2017056326A JP2017056326A JP6922306B2 JP 6922306 B2 JP6922306 B2 JP 6922306B2 JP 2017056326 A JP2017056326 A JP 2017056326A JP 2017056326 A JP2017056326 A JP 2017056326A JP 6922306 B2 JP6922306 B2 JP 6922306B2
Authority
JP
Japan
Prior art keywords
intention
answer
voice
control data
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017056326A
Other languages
English (en)
Other versions
JP2018159777A (ja
Inventor
嘉山 啓
啓 嘉山
久湊 裕司
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017056326A priority Critical patent/JP6922306B2/ja
Publication of JP2018159777A publication Critical patent/JP2018159777A/ja
Application granted granted Critical
Publication of JP6922306B2 publication Critical patent/JP6922306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Toys (AREA)

Description

本発明は、音声再生技術に関する。
音声再生技術の応用例として、人と機械による音声インタラクション或いは機械と機械による音声インタラクションが挙げられる。人と機械による音声インタラクションの一例としては、音声による利用者の問いに対してその問いに対する回答の音声を合成して再生する音声対話システムが挙げられる。機械と機械による音声インタラクションの一例としては、予め定められたシナリオにしたがって音声再生装置Aにより再生された問いの音声を、音声再生装置Bが認識して回答の音声を再生することが挙げられ、具体的には登場人物の全てを機械(音声再生装置)が演じる演劇や漫才が挙げられる。音声による問いに対する回答の音声を合成する際には、利用者の音声による問いに対して不自然さのない人間らしい受け答えを実現するために、意図を込めた回答の音声を再生することが好ましい。例えば、特許文献1に開示の技術では、回答に込められた意図を表現するために、肯定的な回答と否定的な回答とで語尾の音高を異ならせている。
特開2015−064480号公報
しかし、特許文献1に開示の技術のように回答の語尾の音高の調整だけでは、多彩な意図を表現することはできない。多様な意図の各々について意図毎に回答の音声データを用意しておけば豊かな意図表現が可能となるが、音声データを記憶する記憶装置の記憶容量が増加する、といった問題がある。
本発明は以上に説明した課題に鑑みて為されたものであり、回答の音声データの記憶に要する記憶容量の増加を抑えつつ、豊かな意図の表現を可能にする技術を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る音声再生装置は、入力された音声信号の表す問いに対する回答の音声データを取得する回答取得部と、前記回答に付与する意図を指定する意図指定部と、前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、を具備することを特徴とする。
韻律の時間変化とは、音高、話速、音量および発話タイミングといった各韻律構成要素の時間変化のことを言う。なお、話速とは、単位時間当たりに発音される音素数のことを言う。人は、問いに対する回答を発話する際に、その回答に込める意図に応じて韻律の時間変化を調整することで、「気楽」や「慎重」、或いは「怒り」や「あきれ」などの多彩な意図を表現する。本態様によれば、回答に込める意図に応じて、韻律の時間変化をきめ細かく制御した回答の音声を再生することが可能になり、豊かな意図の表現が可能になる。ここで、韻律制御データは、音高、話速、音量および発話タイミングといった韻律構成要素の各時刻(回答の語頭を起算点とする時刻)における韻律構成要素の変化量の配列、すなわちシーケンスデータであれば良く、音声の波形データに比較してデータ量が少ない。このため、回答毎に各意図に応じた韻律制御データを記憶装置に予め記憶させておくとしても、異なる意図を込めて発音された各回答の音声データを記憶装置へ記憶させておく態様に比較して少ない記憶容量で対応可能である。つまり、本態様によれば、回答の音声データの記憶に要する記憶容量の増加を抑えつつ、豊かな意図の表現が可能になる。なお、回答には、問いに対する具体的な答えに限られず、相槌(間投詞)も含まれる。また、回答には、問に対する答えや相槌の他、演劇や漫才における掛け合いの台詞も含まれ、人による声のほかにも、「ワン」(bowwow)、「ニャー」(meow)などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。
より好ましい態様においては、前記韻律制御データが意図毎に格納されたデータベースを有し、前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得する。また、別の好ましい態様においては、前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得することを特徴とする。このような態様によれば、上記データベースの記憶容量の増加を抑えつつ、さらに豊な意図表現が可能になる。また、別の好ましい態様においては、前記入力された音声信号を解析して前記問いに付与されている意図を特定する意図特定部を有し、前記意図指定部は、前記意図特定部により特定された意図に応じて前記回答に付与する意図を指定することを特徴とする。このような態様によれば、問いに込められた意図に応じた意図を込めた回答の音声を再生することが可能になる。
本発明の態様について、音声再生装置のみならず、コンピュータを当該音声再生装置として機能させるプログラムとして概念することも可能である。
実施形態に係る音声再生装置の構成を示すブロック図である。 意図を込められた回答における韻律の時間変化の一例を示す図である。 音声再生装置の動作を示すフローチャートである。
以下、図面を参照しつつ、この発明の実施形態を説明する。
(A:構成)
図1は、本発明の実施形態に係る音声再生装置10の構成を示す図である。
この音声再生装置10は、例えば、ぬいぐるみに組み込まれる装置である。音声再生装置10は、利用者が当該ぬいぐるみに問いを発したときに、利用者により指定された意図を込めた回答の音声を合成して再生する。人は、問いに対する回答を発話する際に、その回答に込める意図に応じて韻律の時間変化を調整することで、「気楽」や「慎重」、或いは「怒り」や「あきれ」などの多彩な意図を表現する。例えば、図2には、特定の意図を込めずに発音された「あのさ」という基準音声の時間波形TWと、「気楽さ」を込めた「あのさ」という音声の基準音声からの韻律の変化パターンP1と、「慎重さ」を込めた「あのさ」という音声の基準音声からの韻律の変化パターンP2と例示されている。なお、図2では、「音高」、「話速」および「音量」の各韻律構成要素の基準音声からの変化量が、三角形の重心から各頂点へ至る座標軸上の位置で表されており、上記重心から遠ざかるほど、基準音声に比較して音高が高いこと、話速が早いこと、音量が大きいことを意味する。
音声再生装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ114を有し、予めインストールされたアプリケーションプログラムを当該CPUが実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声再生装置10では、言語解析部104、回答取得部106、意図指定部108、韻律制御データ取得部110、および回答再生部112が構築される。なお、特に図示しないが、このほかにも音声再生装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定を行えるようになっている。また、音声再生装置10は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。
音声入力部102は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するA/D変換器とで構成される。言語解析部104は、音声入力部102から入力される音声信号で規定される問いの意味内容を解析し、その解析結果(すなわち、上記問いの意味内容)を示す意味内容データを回答取得部106に与える。
回答ライブラリ124は、利用者による問いに対する回答を一意に示す識別子(以下、回答識別子)とその回答の音声データの組を、予め複数格納したデータベースである。この音声データは、モデルとなる人物の音声を録音したものであり、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する返事や相槌などである。回答の音声データについては、例えばwavやmp3などのフォーマットである。また、回答識別子の具体例としては、「はい」や「いいえ」など回答の内容を表す文字列や一連番号が挙げられる。なお、問いに対する回答は返事や相槌には限定されず、例えば、「今日の天気は?」という問いに対する「晴れです。」といった答えのように、問いにより要求された情報を提示する文章であっても良い。
回答取得部106は、言語解析部104から与えられる意味内容データにより意味内容が表される問いに対する回答の回答識別子と音声データを、回答ライブラリ124から1つを選択し、当該選択した回答識別子および音声データを回答ライブラリ124から読み出して取得する。そして、回答取得部106は、回答ライブラリ124から取得した回答識別子を韻律制御データ取得部110へ出力し、回答ライブラリ124から取得した音声データを回答再生部112へ出力する。本実施形態の回答取得部106は、言語解析部104から出力され得る意味内容データに対応づけて、その意味内容データの表す意味内容の問いに対して相応しい回答の回答識別子を格納したテーブルを備えている。回答取得部106は、上記テーブルの格納内容を参照して上記意味内容データの表す意味内容の問いに対して相応しい回答を1つ選択する。
本実施形態では、問いの意味内容に応じて回答を選択する態様について説明するが、問いの意味内容とは無関係にランダムに回答を選択しても良い。この場合、言語解析部104および上記テーブルは不要である。具体的には、音声入力部102の出力信号を回答取得部106に与え、回答取得部106には、音声入力部102からの音声信号の受信を契機として、回答ライブラリ124から回答識別子および音声データをランダムに読み出す処理を実行させれば良い。
韻律ライブラリ122は、回答ライブラリ124に格納されている複数の回答識別子の各々に対応付けて、その回答識別子の示す回答に込める意図毎にその意図を示す識別子(以下、意図識別子)とその意図に応じた当該回答における韻律の時間変化を規定する韻律制御データと、を格納したデータベースである。ここで、韻律制御データは、音高、話速、および音量といった韻律構成要素の各時刻(回答の語頭を起算点とする時刻)における変化量の配列、すなわちシーケンスデータである。また、意図識別子の具体例としては、「怒り」や「あきれ」など意図の内容を表す文字列が挙げられる。
韻律制御データについては、次の要領で作成することが考えられる。例えば、「あのさ」という回答であれば、特定の意図を込めずに平板に発音された「あのさ」という音声の波形データを基準データとし、「怒り」や「あきれ」などの特定の意図を込めて発音された「あのさ」という音声の波形データを上記基準データと比較して音高、話速および音量などの韻律の構成要素毎に各時刻における基準データからの差分(オフセット)を算出し、構成要素毎に当該差分を時刻順に並べて韻律制御データとすることが考えられる。この場合、回答ライブラリ124には、回答の音声データとして、特定の意図を込めずに平板に発音された音声の音声データを格納しておけば良い。なお、特定の意図を込めて発音された音声の波形データを基準データとし、他の意図を込めて発音された音声についての韻律制御データを生成しても良く、この場合は、回答の音声データとして当該特定の意図を込めて発音された音声の音声データを回答ライブラリ124に格納しておけば良い。
意図指定部108は、問いに対する回答に込める意図として、意図識別子および韻律制御データが韻律ライブラリ122に格納されている各意図のうちの1つを利用者に指定させる装置である。例えば、意図指定部108は、意図識別子のリストを表示部(図1では図示略)に表示させ、操作入力部(図1では図示略)に対する操作により指定された意図識別子を韻律制御データ取得部110に与える。
韻律制御データ取得部110は、意図指定部108から与えられた意図識別子と回答取得部106から与えられた回答識別子に対応する韻律制御データを韻律ライブラリ122から読み出して取得する。韻律制御データ取得部110は、韻律ライブラリ122から読み出した韻律制御データを回答再生部112へ与える。
回答再生部112は、回答取得部106から与えられた音声データの表す音声を、韻律制御データ取得部110から与えられた韻律制御データにしたがって音高、話速および音量の各韻律構成要素の時間変化を別個独立に制御して、再生(合成)する。
以上が音声再生装置10の構成である。
(B:動作)
次に、音声再生装置10の動作について説明する。
図3は、音声再生装置10における処理動作を示すフローチャートである。本実施形態では、音声再生装置10が適用されたぬいぐるみに対して、利用者が音声で問いを発したときに、このフローチャートで示される処理が起動される。
利用者が音声で問いを発すると、その問いの音声は音声入力部102によって音声信号に変換され、当該音声信号が音声入力部102から言語解析部104に供給される。ステップSa11において言語解析部104は、音声入力部102から供給される音声信号をメモリ等に蓄積し、音声による問いが終了したか否かを判別する。問いが終了したか否かについては、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。問いが終了していなければ(ステップSa11の判別結果が「No」であれば)、言語解析部104はステップSa11の処理を再度実行し、問いの発話終了を待ち受ける。
ステップSa11の判別結果が「Yes」の場合に実行されるステップSa12では、言語解析部104は、メモリ等に蓄積した音声信号の規定する問いの意味内容を解析してその解析結果を示す意味内容データを回答取得部106に与える。本実施形態では、問いの発話が終了したか否かの判別と、問いの意味解析と、をシーケンシャルに実行するが、両者を並列に逐次実行しても良い。このようにすることで、問いの発話終了から意味解析完了までの遅延を軽減することができる。ステップSa12に後続するステップSa13では、回答取得部106は、上記意味内容データにより意味内容が表される問いに対する回答の回答識別子および音声データを回答ライブラリ124から取得し、前者を韻律制御データ取得部110に与え、後者を回答再生部112に与える。
ステップSa13に後続するステップSa14では、回答再生部112は、回答を再生中であるか否かを判別する。ステップSa14において、回答再生部112によって回答が再生中であると判別される場合とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。回答が再生中であれば(ステップSa14の判別結果が「Yes」であれば)、回答再生部112は、ステップSa14の判別結果が「No」になるまで、ステップSa14の処理を再度実行する。ステップSa14の判別結果が「No」である場合は、意図指定部108は回答に込める意図を利用者に指定させ、利用者により指定された意図を示す意図識別子を韻律制御データ取得部110へ出力する(ステップSa15)。ステップSa15に後続するステップSa16では、韻律制御データ取得部110は、意図指定部108から与えられる意図識別子と回答取得部106から与えられた回答識別子とに対応する韻律制御データを韻律ライブラリ122から取得し、取得した韻律制御データを回答再生部112に通知して回答取得部106により選択された回答の音声データの再生を指示する。この指示にしたがって回答再生部112は、韻律制御データ取得部110から与えられた韻律制御データにしたがって、音高、話速および音量の各韻律構成要素の時間変化を別個独立に制御しつつ、上記音声データの表す音声を再生する(ステップSa17)。
例えば、ステップSa13にて「あのさ」という回答が選択され、ステップSa15にて「気楽」という意図が指定された場合には、ステップSa17では、図2の時間変化パターンP1で韻律が時間変化する音声が合成され、この音声を聴いた利用者は当該音声における韻律の時間変化から「気楽さ」を感じ取る。一方、ステップSa13にて「あのさ」という回答が選択され、ステップSa15にて「慎重」という意図が指定された場合には、ステップSa17では、図2の時間変化パターンP2で韻律が時間変化する音声が合成され、この音声を聴いた利用者は当該音声における韻律の時間変化から「慎重さ」を感じ取る。
このように、本実施形態によれば、回答に込める意図に応じて韻律の時間変化をきめ細かく制御した回答音声を再生することができ、豊かな意図の表現が可能になる。本実施形態の音声再生装置10では、回答ライブラリ124の他に韻律ライブラリ122を記憶装置等に記憶させておくことが必要となる。しかし、韻律ライブラリ122に格納される韻律制御データはシーケンスデータであるため、各回答について様々な意図を込めた音声の音声データの総和に比較して合計データ量は小さくなる。このため、これらの音声データの全てを記憶させておく態様に比較して記憶装置の記憶容量の増加を抑えることができる。つまり、本実施形態によれば、回答の音声の合成に要するデータを記憶する記憶装置の記憶容量の増加を抑えつつ、豊かな意図の表現が可能になる。なお、上記実施形態では、音高、話速、および音量の時間変化を制御する場合について説明したが、さらに発話タイミングの制御も行うようにしても良い。
(C:変形および応用例)
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<音声入力部>
上記実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られない。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、音声入力部102は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。また、音声再生装置10に対する問い掛けは、音声による問い掛けには限定されず、問いを書き下した文を表すテキストデータの入力であっても良い。この場合、音声入力部102に代えてテキストデータ入力部を音声再生装置10に設けて置けば良い。
<韻律の制御単位>
上記実施形態では、問いに対する回答の音声データ単位で韻律制御データを用意しておき、音声データ単位で回答音声の韻律の時間変化を制御した。しかし、韻律制御データを回答の音声を構成する音素単位、回答の音声をサンプリングして音声データを生成する際の波形サンプル単位、或いは回答の音声を所定時間のフレームに区切った場合のフレーム単位で韻律制御データを用意しておき、これらを単位として韻律の時間変化を制御しても良い。
<意図の指定のバリエーション>
上記実施形態では、問いに対する回答に込める意図を利用者に1つだけ指定させたが、例えば、「あきれ」と「気楽に」とを指定するといった具合に、複数の意図を利用者に指定させても良い。この場合、意図指定部108には、利用者により指定された複数の意図の各々を示す意図識別子を韻律制御データ取得部110へ出力させる。このように利用者により指定された複数の意図に直接対応する1つの韻律制御データは韻律ライブラリ122には格納されていない。そこで、韻律制御データ取得部110には、これら複数の意図識別子の各々に対応する韻律制御データを取得し、それら複数の韻律制御データを用いた補間により1つの韻律制御データを生成させるようにすれば良い。具体的には、韻律制御データ取得部110は、上記の要領で取得した複数の韻律制御データを、例えば1:1などの重み付け加算して新たな韻律制御データを生成し、当該新たな韻律制御データを回答再生部112へ出力し回答の音声を合成させる。
このような態様によれば、利用者により指定された複数の意図の中間の意図に対応する回答の音声を合成することができると考えられる。一般に、「あきれた」感じで発音された「あのね」という音声の波形データと「気楽な」感じで発音された「あのね」という音声の波形データとを重み付け加算しても、「気楽さを伴いつつあきれた」感じの音声の波形データは得られないが、韻律制御データはシーケンスデータであるため、重み付け加算により中間の意図を表す韻律制御データを生成できるからである。同様に、特定の意図を込めずに平板に発音することも意図の一態様と考え、「平板」と「慎重」とを指定することで、「やや慎重」といった「平板」と「慎重」の中間の意図に対応する韻律制御データを生成することもできる。
複数の意図を利用者に指定させる態様においては、上記重み付け加算における各意図の重みについても利用者に指定させても良く、さらに韻律構成要素毎の重みを利用者に指定させても良い。「怒り」や「あきれ」とではその意図を演出する際の各韻律構成要素の重要度が異なり得るからである。また、「気楽さを伴いつつあきれた」感じなど複数の意図の中間な意図を利用者に指定させ、このような中間な意図を複数の意図に分解して各意図に対応する韻律制御データを韻律制御データ取得部110に取得させるようにしても良い。要は、意図指定部108により指定された意図に対応する韻律制御データが韻律ライブラリ122(データベース)に格納されていない場合には、当該データベースに格納されている複数の韻律制御データを用いた補間により上記指定された意図に対応する韻律制御データを韻律制御データ取得部110に取得させる態様であれば良い。
上記実施形態では、音声再生装置10への問い掛け毎にその問いに対する回答に込める意図を利用者に指定させたが、常に同じ意図を込めた回答の音声が合成されるように、回答に込める意図を予め利用者に指定させておいても良い。また、予め定められたシナリオにしたがって回答を合成する場合、そのシナリオの進行にしたがって意図の指定が行われるようにしても良い。具体的には、回答に込める意図の意図識別子が当該回答の再生順に配列されたシナリオデータを意図指定部108へ入力し、音声入力部102から問いの音声が入力される毎に意図指定部108には当該シナリオデータに含まれている意図識別子をその記載順に取得して韻律制御データ取得部110へ出力させるようにすれば良い。
また、音声再生装置10或いは当該音声再生装置10の埋め込まれたぬいぐるみを擬人化した回答キャラクタについて「常に気楽な感じ」或いは「常に慎重さを失わない」などの人格や雰囲気、話し方の特性(以下、キャラクタ特性)を予め複数用意しておき、キャラクタ特性毎にそのキャラクタ特性に応じた意図識別子を対応付けておき、利用者には回答キャラクタのキャラクタ特性を指定させることで回答に込める意図を指定させるようにしても良い。また、各々異なるキャラクタ特性を有する複数の回答キャラクタを用意しておき、利用者に回答キャラクタを指定させることで回答に込める意図を指定させても良い。問いに対する回答をシナリオにしたがって合成する場合には、シナリオの登場人物毎にキャラクタ特性を定めておけば良い。さらに、1つの回答キャラクタに対して複数のキャラクタ特性を対応付けておき、何れのキャラクタ特性で回答の音声を合成するのかをシナリオにおいて定めておき、1つの回答キャラクタの経年変化や、本音と建て前の使い分けを演出しても良い。
また、問いの音声信号を解析して当該問いに付与されている意図を特定する意図特定部を設け、意図指定部108には、意図特定部により特定された意図に応じて上記問い対する回答に付与する意図を指定させても良い。具体的には、回答の音声データが回答ライブラリ124に格納されている各問いについて、その問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとして意図特定部に予め記憶させておき、意図特定部には、音声入力部102から入力された音声信号を波形データに変換して対応する基準データと比較することで、当該波形データの表す音声における韻律を表す韻律規定データ(上記韻律制御データと同一フォーマットのデータ)を生成させる。そして、意図特定部は、当該韻律規定データと同じまたは当該韻律規定データに近似する韻律制御データに対応する意図識別子を韻律ライブラリ122から読み出して意図指定部108に与える。意図指定部108には、意図特定部から与えられた意図識別子と予め定められた特定の関係にある意図識別子を韻律制御データ取得部110に出力させるようにすれば良い。ここで、上記特定の関係とは、例えば「気楽」に対する「慎重」のように反対の意図の関係や、同じ意図の関係が考えられる。上記特定の関係として「同じ意図の関係」を採用する場合には、意図特定部から与えられた意図識別子をそのまま韻律制御データ取得部110へ出力する処理を意図指定部108に実行させるようにすれば良い。
<問いに対する意図の込め方の評価・採点>
意図特定部を設ける態様においては、意図特定部により特定された意図と韻律ライブラリ122の格納内容とを比較することにより、問いに対する意図の込め方を評価、採点するようにしても良い。具体的には、「怒り」や「あきれ」などの意図を込めて利用者は発話した問いについて、当該利用者が問いに込めた意図が意図特定部により特定されたか否か、或いは、意図特定部により問いの音声信号から生成された韻律規定データと当該意図について韻律ライブラリ122に格納されている韻律制御データとの比較結果に応じて、当該意図の込め方の適否を評価・採点するようにすれば良い。この態様によれば、問いに対する意図の込め方の練習を支援することが可能になる。
<その他>
上記実施形態にあっては、発言に対する回答を取得する構成である言語解析部104、韻律ライブラリ、および回答ライブラリを音声再生装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。また、上記実施形態では、利用者の音声による問いに対する回答の音声を合成して再生し音声対話を実現する音声再生装置への本発明の適用例を説明したが、演劇や漫才などにおける各役を演じる音声再生装置に本発明を適用しても良い。
102…音声入力部、104…言語解析部、106…回答取得部、108…意図指定部、110…韻律制御データ取得部、112…回答再生部、122…韻律ライブラリ、124…回答ライブラリ。

Claims (7)

  1. 入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
    前記問いに対する回答の音声データを取得する回答取得部と、
    前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
    前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、を備え、
    前記意図特定部は、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定し、
    前記意図指定部は、前記意図特定部により特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する、
    とを特徴とする音声再生装置。
  2. 前記韻律制御データが意図毎に格納されたデータベースを有し、
    前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得する
    ことを特徴とする請求項1に記載の音声再生装置。
  3. 入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
    前記問いに対する回答の音声データを取得する回答取得部と、
    前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
    前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
    前記韻律制御データが意図毎に格納されたデータベースと、を有し、
    前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得し、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する
    ことを特徴とする音声再生装置。
  4. コンピュータを、
    入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部であって、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定する意図特定部と、
    前記問いに対する回答の音声データを取得する回答取得部と、
    前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部であって、前記意図特定部により特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する意図指定部と、
    前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
    して機能させることを特徴とする音声再生プログラム。
  5. コンピュータを、
    入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
    前記問いに対する回答の音声データを取得する回答取得部と、
    前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
    前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部であって、前記韻律制御データが意図毎に格納されたデータベースから前記意図指定部により指定された意図に対応する韻律制御データを取得し、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する韻律制御データ取得部と、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
    して機能させることを特徴とする音声再生プログラム。
  6. 入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定ステップであって、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定する意図特定ステップと、
    前記問いに対する回答の音声データを取得する回答取得ステップと、
    前記回答に付与する意図を、前記意図特定ステップにて特定された意図に応じて指定する意図指定ステップであって、前記意図特定ステップにて特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する意図指定ステップと、
    前記意図指定ステップにて指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得ステップと、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生ステップと、
    を含むことを特徴とする音声再生方法。
  7. 入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定ステップと、
    前記問いに対する回答の音声データを取得する回答取得ステップと、
    前記回答に付与する意図を、前記意図特定ステップにて特定された意図に応じて指定する意図指定ステップと、
    前記意図指定ステップにて指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得ステップであって、前記韻律制御データが意図毎に格納されたデータベースから前記意図指定ステップにて指定された意図に対応する韻律制御データを取得し、前記意図指定ステップにて指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する韻律制御データ取得ステップと、
    前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生ステップと、
    を含むことを特徴とする音声再生方法。
JP2017056326A 2017-03-22 2017-03-22 音声再生装置、および音声再生プログラム Active JP6922306B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017056326A JP6922306B2 (ja) 2017-03-22 2017-03-22 音声再生装置、および音声再生プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017056326A JP6922306B2 (ja) 2017-03-22 2017-03-22 音声再生装置、および音声再生プログラム

Publications (2)

Publication Number Publication Date
JP2018159777A JP2018159777A (ja) 2018-10-11
JP6922306B2 true JP6922306B2 (ja) 2021-08-18

Family

ID=63796586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017056326A Active JP6922306B2 (ja) 2017-03-22 2017-03-22 音声再生装置、および音声再生プログラム

Country Status (1)

Country Link
JP (1) JP6922306B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3616250B2 (ja) * 1997-05-21 2005-02-02 日本電信電話株式会社 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
JP2002258886A (ja) * 2001-03-02 2002-09-11 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2005196645A (ja) * 2004-01-09 2005-07-21 Nippon Hoso Kyokai <Nhk> 情報提示システム、情報提示装置、及び情報提示プログラム
JP2005283647A (ja) * 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 感情認識装置
JP6342428B2 (ja) * 2013-12-20 2018-06-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
JP2018159777A (ja) 2018-10-11

Similar Documents

Publication Publication Date Title
JP4125362B2 (ja) 音声合成装置
CN105247609B (zh) 利用言语合成对话语进行响应的方法及装置
JP2006323806A (ja) テキストを音声に変換するシステムおよび方法
US20180130462A1 (en) Voice interaction method and voice interaction device
WO2016063879A1 (ja) 音声合成装置および方法
JP2001034282A (ja) 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2005342862A (ja) ロボット
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
JP2019045867A (ja) 音声制御方法、音声制御装置およびプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4882327B2 (ja) コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム
JP6922306B2 (ja) 音声再生装置、および音声再生プログラム
JP3518898B2 (ja) 音声合成装置
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
JP6170604B1 (ja) 音声生成装置
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
JP6566076B2 (ja) 音声合成方法およびプログラム
JP2006139162A (ja) 語学学習装置
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6190030B1 (ja) 音声生成プログラム
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
KR20170018281A (ko) 이 보이스북 편집장치 및 재생장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R151 Written notification of patent or utility model registration

Ref document number: 6922306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151