JP5913394B2 - 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム - Google Patents
音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム Download PDFInfo
- Publication number
- JP5913394B2 JP5913394B2 JP2014021276A JP2014021276A JP5913394B2 JP 5913394 B2 JP5913394 B2 JP 5913394B2 JP 2014021276 A JP2014021276 A JP 2014021276A JP 2014021276 A JP2014021276 A JP 2014021276A JP 5913394 B2 JP5913394 B2 JP 5913394B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- data
- length
- speech
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Processing Or Creating Images (AREA)
Description
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
(1)音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
(2)音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
(3)音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップと
を含む。
前記音素抽出ステップは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップとを含み、前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
また、本発明では、音声データと、その音声を文字で記述したテキストデータとに基づいて発話データを生成することができるため、音声データに含まれる音声が不明瞭であったり、ノイズが含まれているような場合であっても、適切に音声とオブジェクトの同期を取ることができる。
すなわち、本発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、
(1)コンピューターに、同期すべき音声に対応する音素が含まれる音声信号から各音素を抽出する音素抽出ステップと、
(2)音素抽出ステップによって検出された音素毎の時間長を検出する音素長検出ステップと、
(3)音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップとを含む処理を実行させる。
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
先ず、本発明の第1実施形態について説明する。本実施形態では、本発明の音声同期処理装置を、パーソナルコンピューター等の情報処理装置に適用した場合を例に説明する。図1は、本実施形態に係る音声同期処理装置の内部構造を示すブロック図である。
本実施形態に係る音声同期処理装置1は、CPUやメモリ装置を備えた演算処理装置であり、パーソナルコンピューター等の汎用コンピューターや、機能を特化させた専用装置により実現することができ、例えば、モバイルコンピューターやPDA(Personal Digital Assistance)、携帯電話機、スマートフォンなどが含まれる。
そして、本実施形態では、この音素長データベース153を参照することにより、音素数と全体のセンテンスの長さから、各音素のしきい値と比較し、早口であるか、ゆっくり話をしているかを推定したり、数段階に分けたしきい値と順次比較することにより、段階的に表情を変更してもよいし、線形補間をして変更してもよい。
先ず、各音素に対応した音顔データを発話に従って連続させる処理について説明する。初めに、オブジェクト制御部144は、発話データに基づいて各音素に応じた音顔データを表示部13aに表示させる基本処理を行う。具体的に、オブジェクト制御部144は、発話データ内の各音素を選択し、その音素に基づいてオブジェクトデータベース154を参照して該当する音顔データを抽出する。
(式1)…Pn’(i)=Pn(i)×(tn(i)/ave)
ここで、「Pn」は、オブジェクトデータベース154内における各音の口の開け方に関するパラメータであり、「tn(i)]は音素長、すなわち音素の継続時間を示し、「ave]は、平均的な各音素の長さ(sec)である。これにより、入力された音声の早さに応じて、変更された口の開け方のパラメータ「Pn’(i)」が決定される。すなわち、早口で発話し、音素長が短ければ変化量は小さくなり、音素長が長ければ変化量は大きくなる。
(式2)…f(tn(i))=eye.x(tn(i))
ここで、関数f(x)は、単純な乗算、logistic関数等の線形な関数が用いられている。
具体的に、オブジェクト制御部144は、音素と音素の間におけるオブジェクトの表示を滑らかにする補間処理を行う。この補間処理とは、次式3で求めることができる。
(式3)…Pm=Pn’(i)+((Pn’(i+1)-Pn’(i))/m)
ここで、「Pm」は補間後のデータであり、「m」は補間するデータの数である。このmは、話者の速度、すなわち音素長(音素と音素の間隔時間)に応じて増減してもよく、早口であれば補間数を少なく、ゆっくりであれば補間数を多くする。
オブジェクトの変化率を変動させる処理とは、音素長が所定のしきい値よりも小さいか大きいかに応じて、線形的な変化と,非線形的な変化とを切り換える処理である。具体的には、音素長がしきい値よりも小さいときには、音素長に比例させて、話者が早口で話して音素長が短い場合に変化量の最大値を小さくし、ゆっくり話しているときにはアクションを大きくする。その一方で、所定の音素長を長くして強調したときにはオブジェクトが非線形的に大げさなアクションをとったり、特別なグラフィック処理が挿入されるなどの、イベントが発生される。この処理は変化率制御部143bによってオブジェクトの変化率が変動された場合に実行される。
以上の構成を有する音声同期処理装置1を動作させることによって、本発明の音声同期処理方法を実施することができる。図4は、本実施形態に係る音声同期処理方法の概要を示すフローチャート図であり、図5は、図4に示したステップS101における音素抽出処理及び音素長検出処理の詳細を示すフローチャート図である。
算出された分割候補のエネルギー(振幅値)が他の音素の音量の平均値よりもある一定量大きい場合は、長く継続している音素として、その長く継続している音素を除いた平均継続時間よりも長い時間から、新たな発話候補を推定する(繰り返し)。この際、音素長検出部142は、不足している音素をテキストデータから推定するとともに、その文字の子音と母音のデータを参照して音素長を推定して不足分の音素を追加する(S211)。
上述した第1実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピューターやICチップにインストールし、CPU上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
このような本実施形態によれば、音声にオブジェクトの動きを同期させる際、音素の時間長(継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。
次いで、第2実施形態について説明する。上述した実施形態では、音声信号及びテキストデータを用いて、音素数毎の時間長を検出してオブジェクトを変化させたが、本発明はこれに限定されるものではなく、テキストデータのみを用いて、音素数毎の時間長を検出してオブジェクトを変化させてもよい。図7は、第2実施形態に係る音声同期処理装置の内部構成を示すブロック図である。なお、第2実施形態において、上述した第1実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。
図7に示すように、本実施形態に係る音声同期処理装置1aの音素抽出部141には、同期すべき音声を文字で記述したテキストデータを文言データとして取得する文言データ取得部141aのみ備えている。そして、この文言データ取得部141aでは、上記同様に、文言データから発話すべき文字の数であるフレーズ文字数を算出し、そのフレーズ文字数を音素長検出部142に送出する。
次いで、上述したような構成を有する音声同期処理方法について説明する。なお、ここで、ステップ102からの処理は上述した第1実施形態と同様であるため、ステップS101での処理内容のみを説明するものとする。図8は、第2実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。
上述した第2実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピューターやICチップにインストールし、CPU上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
このような本実施形態によれば、上述した第1実施形態と同様な効果をそうする。すなわち、音声にオブジェクトの動きを同期させる際、音素の時間長(継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。さらに、本実施形態によれば、テキストデータのみで発話データを生成することができるため、音声を後から合成するようなコンテンツを制作する場合であっても、適切に音声とオブジェクトの同期を取ることができる。
なお、上述した各実施形態の説明は、本発明の一例である。このため、本発明は上述した実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。以下に、本発明の変更例について説明する。
本変更例に係る音声同期処理システムは、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、図8に示すように、通信ネットワーク5上には、利用者U1及びU2が利用し、音声信号又は文言データが入力されるとともに、入力された音声信号又は文言データに基づいて生成されたオブジェクトが出力されるユーザー端末2A及び2Bと、管理サーバ4とが接続される。
次いで、上述したシステムを構成する各装置の内部構造について説明する。図9は、変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。なお、上記同様、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、あるいはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
先ず、サーバ装置4の内部構成について説明する。図9に示すように、サーバ装置4には、メモリ15と制御部14aとを備えている。
次いで、ユーザー端末2A及び2Bの内部構成について説明する。図9に示すように、ユーザー端末2A及び2Bには、入力インターフェース12と、出力インターフェース13と、通信インターフェース16と、制御部18から構成される。
以上の構成を有する音声同期処理システムを動作させることによって、本発明の音声同期処理方法を実施することができる。図10は、変更例に係る音声同期処理方法の概要を示すシーケンス図である。なお、ここでは、利用者U1が発話又はテキストの入力を行い、その入力されたデータに基づいて生成されたオブジェクトを利用者U2に対して閲覧可能に表示させる場合を例に説明する。
このような本変更例によれば、管理サーバ4内において、ユーザー端末2Aから入力された音声信号、又は文言データに基づいて、オブジェクトを生成しているので、ユーザーが所持するユーザー端末2A及び2Bに対する処理負担の軽減、及びメモリ容量の有効利用を図ることができる。また、本変更例においては、通信ネットワーク5を介してユーザー端末2A及び2B間で相互にオブジェクトを表示させることができるため、例えば、利用者U1及びU2がそれぞれ所持する情報処理端末を用いて、チャットサービスやビデオメッセージサービスに用いることができる。また、本変更例において、管理サーバ4内に、入力された音声信号又は文言データを解析する機能モジュールを有するとともに、解析した結果に対応する返答データを蓄積して、入力された側のユーザー端末にたいして、返答データをオブジェクトに変換して返信させることもできる。これにより、本発明を音声対話受付案内サービスに利用することができる。
以上の各形態及び変更例に例示した音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムは、種々のシステムに利用され得る。すなわち、本発明の音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムを用いることで、例えば、コールセンターシステム、電話会議システム、汎用コンピューター、又はスマートフォンへの文章作成システム、音声指示による機械操作システム(カーナビ、電子カルテ等のハンズフリーコンピューティング)、指示を聞き分けるロボット技術、音声対話受付案内システム(自動音声応答装置)などに用いることができる。
2A,2B…ユーザー端末
3…無線基地局
4…管理サーバ
5…通信ネットワーク
11…通信インターフェース
12…入力インターフェース
12a…マイク
12b…キーボード
13…出力インターフェース
13a…表示部
13b…スピーカー
14…アプリケーション実行部
14a…制御部
15,17…メモリ
16…通信インターフェース
18…制御部
141…音素抽出部
141a…文言データ取得部
141b…音声分析部
142…音素長検出部
142a…発話設定部
143…制御信号生成部
143a…音素長比較部
143b…変化率制御部
144…オブジェクト制御部
151…音素データベース
152…文字データベース
153…音素長データベース
154…オブジェクトデータベース
Claims (12)
- 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理装置であって、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出部と、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と
を備え、
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
を備え、
前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理装置。 - 前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項1に記載の音声同期処理装置。 - 前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項1に記載の音声同期処理装置。 - 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、コンピューターに、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
前記音素抽出ステップによって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
を含む処理を実行させ、
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理プログラム。 - 前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項4に記載の音声同期処理プログラム。 - 前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項4に記載の音声同期処理プログラム。 - 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理方法であって、
音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
を含み、
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理方法。 - 前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項7に記載の音声同期処理方法。 - 前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項7に記載の音声同期処理方法。 - 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データを入力する入力手段と、
前記入力手段から前記音声信号又は前記文言データを取得し、取得した前記音声信号又は前記文言データから、発話すべき各音素を抽出する音素抽出部と、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と、
前記制御信号生成部から前記発話データを取得し、取得された発話データに従って変化されるオブジェクトを出力する出力手段と
を備え、
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
を備え、
前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期システム。 - 前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項10に記載の音声同期システム。 - 前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を前記検出結果として出力する
ことを特徴とする請求項10に記載の音声同期システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014021276A JP5913394B2 (ja) | 2014-02-06 | 2014-02-06 | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014021276A JP5913394B2 (ja) | 2014-02-06 | 2014-02-06 | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015148932A JP2015148932A (ja) | 2015-08-20 |
JP5913394B2 true JP5913394B2 (ja) | 2016-04-27 |
Family
ID=53892246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014021276A Active JP5913394B2 (ja) | 2014-02-06 | 2014-02-06 | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5913394B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6665446B2 (ja) * | 2015-08-21 | 2020-03-13 | ヤマハ株式会社 | 情報処理装置、プログラム及び音声合成方法 |
KR102116315B1 (ko) * | 2018-12-17 | 2020-05-28 | 주식회사 인공지능연구원 | 캐릭터의 음성과 모션 동기화 시스템 |
CN111953922B (zh) * | 2019-05-16 | 2022-05-27 | 南宁富联富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CA3045132C (en) * | 2019-06-03 | 2023-07-25 | Eidos Interactive Corp. | Communication with augmented reality virtual agents |
CN111460785B (zh) * | 2020-03-31 | 2023-02-28 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN111459450A (zh) * | 2020-03-31 | 2020-07-28 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
JP7194371B1 (ja) | 2022-06-29 | 2022-12-22 | カバー株式会社 | プログラム、方法、情報処理装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3551668B2 (ja) * | 1996-12-20 | 2004-08-11 | オムロン株式会社 | 似顔絵送信装置、似顔絵通信装置及び方法 |
JP2001029649A (ja) * | 1999-07-21 | 2001-02-06 | Taito Corp | 音声認識により音声視覚表示を行うゲーム機 |
JP4631077B2 (ja) * | 2006-05-02 | 2011-02-16 | 株式会社国際電気通信基礎技術研究所 | アニメーション作成装置 |
JP5482042B2 (ja) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | 合成音声テキスト入力装置及びプログラム |
-
2014
- 2014-02-06 JP JP2014021276A patent/JP5913394B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2015148932A (ja) | 2015-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5913394B2 (ja) | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム | |
CN110688911B (zh) | 视频处理方法、装置、***、终端设备及存储介质 | |
US20200279553A1 (en) | Linguistic style matching agent | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
US20020111794A1 (en) | Method for processing information | |
WO2019196306A1 (zh) | 基于语音的口型动画合成装置、方法及可读存储介质 | |
CN112650831A (zh) | 虚拟形象生成方法、装置、存储介质及电子设备 | |
JP4745036B2 (ja) | 音声翻訳装置および音声翻訳方法 | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
JP2017530393A (ja) | 顔構造に基づいて声を合成する方法および装置 | |
JP2012073941A (ja) | 音声翻訳装置、方法、及びプログラム | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN112735371A (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
KR20110081364A (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
EP3534363A1 (en) | Information processing device and information processing method | |
JP2014062970A (ja) | 音声合成方法、装置、及びプログラム | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
US12002487B2 (en) | Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy | |
CN113948062A (zh) | 数据转换方法及计算机存储介质 | |
JP2020006482A (ja) | アンドロイドのジェスチャ生成装置及びコンピュータプログラム | |
JP2002132291A (ja) | 自然言語対話処理装置およびその方法並びにその記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5913394 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |