JP5913394B2 - 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム - Google Patents

音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム Download PDF

Info

Publication number
JP5913394B2
JP5913394B2 JP2014021276A JP2014021276A JP5913394B2 JP 5913394 B2 JP5913394 B2 JP 5913394B2 JP 2014021276 A JP2014021276 A JP 2014021276A JP 2014021276 A JP2014021276 A JP 2014021276A JP 5913394 B2 JP5913394 B2 JP 5913394B2
Authority
JP
Japan
Prior art keywords
phoneme
data
length
speech
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014021276A
Other languages
English (en)
Other versions
JP2015148932A (ja
Inventor
裕子 石若
裕子 石若
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PS Solutions Corp
Original Assignee
PS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PS Solutions Corp filed Critical PS Solutions Corp
Priority to JP2014021276A priority Critical patent/JP5913394B2/ja
Publication of JP2015148932A publication Critical patent/JP2015148932A/ja
Application granted granted Critical
Publication of JP5913394B2 publication Critical patent/JP5913394B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Description

本発明は、2D又は3Dの動画アニメーションや人形やロボットなどの立体物等のオブジェクトに対する動作制御を、音声に同期させるための音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システムに関する。
従来、ユーザーの音声を認識する音声認識技術が普及しており、コールセンターサービス、カーナビシステム、CGキャラクター生成システムなどでこの音声認識技術が用いられている。そして、この音声認識技術を応用した技術として、認識された音声に合わせて、コンピューターの画面上に表示される顔の画像(キャラクター)の口を変化させるものがある(例えば、特許文献1)。
特開2001-319241号公報
しかしながら、特許文献1に開示されたような技術では、単に入力された音声データのうち母音に基づいて、画像の口を変化させる技術であるため、合成音声が機械的であって表現が不自然になり、キャラクターの感情等を適切に表現することはできないという問題があった。
そこで、本発明は、上記のような問題を解決するものであり、2D又は3Dの動画アニメーションや人形やロボットなどの立体物等のオブジェクトに対する動作制御を音声に同期させる際、同期されるオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、オブジェクトによる感情表現などの表現力を向上させることのできる音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システムを提供することを目的とする。
上記課題を解決するために、本発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理装置であって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出部と、音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、音素抽出部が検出した音素と、音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部とを備える。
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
また、他の発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理方法であって、
(1)音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
(2)音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
(3)音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップと
を含む。
前記音素抽出ステップは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップとを含み、前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
さらに、他の発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データを入力する入力手段と、入力手段から音声信号又は文言データを取得し、取得した音声信号又は文言データから、発話すべき各音素を抽出する音素抽出部と、音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、音素抽出部が検出した音素と、音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と、制御信号生成部から発話データを取得し、取得された発話データに従って変化されるオブジェクトを出力する出力手段とを備える。
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
ここで、本発明における「オブジェクト」とは、人間や動物、妖精、ロボットなど言葉を話す生物その他のクリーチャーやキャラクターを表現したものであり、2D又は3Dの動画アニメーションでもよく、実際に造形されて動作制御が可能な人形やロボットなどの立体物であってもよい。また、このようなオブジェクトを変化させる「制御信号」とは、上述した動画アニメーションや立体物を動作制御する信号であり、音素に応じた口の動きの他、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位やパーツの位置や大きさ、向き、移動量、その他のアクションを種々に変化させたり、グラフィックを挿入するなどのイベント処理を実行させたりするものである。
本発明において、「同期すべき音声」とは、上記オブジェクトの動作に同期させられて発せられる音や声であって、日本語や英語など各国の言語の他、動物やロボット、その他のクリーチャーの擬音語(「ワンワン」や「ニャーニャー」、「ガチャンガチャン」等)や、擬態語(「しーん」や「めろめろ」、「ばらばら」等)が含まれる。なお、この「同期すべき音声」として動物の鳴き声を適用する場合には、その鳴き声の判定は、音量の他に、音の立ち上がりの鋭さや、遠吠えのビブラートなどを検出することにより行うことができる。
また、本発明における「音素」とは、話者が認識している言語音であり、日本語であれば、一般的に母音、子音及び半母音を主な単位要素とし、必要に応じてさらには撥音や長音、促音も一つの単位要素として含まれる。さらに、「音素長」とは、一つの音素が発話される継続時間であるが、必要に応じて、単一音素が伸ばされているのか、母音音素が繰り返されているのかを選択するようにしてもよい。
このような本発明によれば、音声にオブジェクトの動きを同期させる際、音素長(音素の継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。
また、本発明では、音声データと、その音声を文字で記述したテキストデータとに基づいて発話データを生成することができるため、音声データに含まれる音声が不明瞭であったり、ノイズが含まれているような場合であっても、適切に音声とオブジェクトの同期を取ることができる。
上記発明において、音素長が所定のしきい値よりも長いか否かを判断する音素長比較部と、音素長比較部による比較結果に基づいて、オブジェクトの変化率を変動させる変化率制御部とをさらに備えることが好ましい。この場合には、例えば、音素長がしきい値よりも短い場合にはオブジェクトを滑らかな線形的変化とし、しきい値よりも長い場合にはオブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることにより、より感情表現の多様化を図ることができる。
なお、本発明において、上記「所定のしきい値」としては、音素長と直接比較される具体的な時間長(例えば秒)であってもよく、文章全体やフレーズ、文言中における音素長の平均に対する比などであってもよい。
上記発明において、制御信号に基づいてオブジェクトを変化させるオブジェクト制御部をさらに有し、オブジェクトは、複数のパーツによって動作や表情を表現するものであり、オブジェクト制御部は、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させることが好ましい。この場合には、各音素の種類と、その音素を発話している人の顔のパーツに関する情報である音顔データとを予め紐付けておき、音顔データに従ってオブジェクトを制御することから、オブジェクト制御の際の演算量を低減することができる。なお、音顔データによる設定及び制御信号に基づくオブジェクトの変化には、例えば、各音素に対応した音顔データを、発話に従って連続させるとともに、各音素に対応した各音顔データを、線形あるいは非線形に補間する処理などが含まれる。
ここで、本発明において「文言」とは、所定の纏まりを有する言葉(文字)の羅列であり、日本語であれば、単語+てにをは、や、動詞+助詞のグループを意味し、「文言データ」とはこのような文言を、文字列あるいは音で表記したテキストデータを意味する。
さらに、本発明において「フレーズ」とは、発話する際に、センテンスの中、「間」で区切られた一つ又は複数連続した文言を意味し、フレーズ文字数とは、センテンス中で「間」で区切られた各フレーズの中にそれぞれ含まれる文字数を意味する。具体例を挙げると、日本語での「みなさん(間)おはようございます」というセンテンスについては、「みなさん」と「おはようございます」という間によって区切られた2つのフレーズが含まれ、「フレーズ文字数」は、前半のフレーズ「みなさん」が4となり、後半のフレーズ「おはようございます」が9となる。
そして、本発明において、フレーズ数の判定は、例えば、文言データに含まれる、句読点や改行、スペース、記号その他の制御文字などを「間」として読み取って行う他、辞書データを参照して、文章の形態素から推定するようにしてもよい。一方、本発明において、「発話候補数」とは、分析対象となる音声信号から実際に抽出されるフレーズの中に含まれ、音素として発声される文字数であり、例えば、一定長さの無音部分を「間」としてフレーズを抽出し、各フレーズ内に含まれる文字数をカウントする。
上記発明において、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、音素長検出部は、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力することが好ましい。この場合には、テキストデータのみで発話データを生成することができるため、音声を後から合成するようなコンテンツを制作する場合であっても、適切に音声とオブジェクトの同期を取ることができる。
また、上述した本発明に係る装置及び方法は、所定の言語で記述されたプログラムをコンピューター上で実行することにより実現することができる。
すなわち、本発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、
(1)コンピューターに、同期すべき音声に対応する音素が含まれる音声信号から各音素を抽出する音素抽出ステップと、
(2)音素抽出ステップによって検出された音素毎の時間長を検出する音素長検出ステップと、
(3)音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップとを含む処理を実行させる。
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。
このようなプログラムを、ユーザー端末やWebサーバ等のコンピューターやICチップにインストールし、CPU上で実行することにより、上述した各機能を有する音声同期処理装置を容易に構築して、音声同期処理方法を実施することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、また、汎用コンピューターで読み取り可能な記録媒体に記録することにより、スタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。記録媒体として、具体的には、フレキシブルディスクやカセットテープ等の磁気記録媒体、若しくはCD-ROMやDVD-ROM等の光ディスクの他、RAMカードなど、種々の記録媒体に記録することができる。そして、このプログラムを記録したコンピューター読み取り可能な記録媒体によれば、汎用のコンピューターや専用コンピューターを用いて、上述した音声同期処理装置及び音声同期処理方法を簡便に実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
以上述べたように、この発明によれば、音声にオブジェクトの動きを同期させる際、音素の時間長(継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。
第1実施形態に係る音声同期処理装置の内部構成を示すブロック図である。 (a)〜(c)は、第1実施形態に係るデータ構成を示す説明図であり、同図(a)は、複数の音素が連続した音声信号を示し、同図(b)は、分割された各音素の音声信号を示し、同図(c)は、発話データの内容を示している。 第1実施形態に係る表示部に表示されるオブジェクトを示す説明図である。 第1実施形態に係る音声同期処理方法の概要を示すフローチャート図である。 第1実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。 第2実施形態に係る音声同期処理装置の内部構成を示すブロック図である。 第2実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。 変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。 変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。 変更例に係る音声同期処理方法の概要を示すシーケンス図である。
以下に添付図面を参照して、本発明の実施形態を詳細に説明する。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、あるいはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
[第1実施形態]
先ず、本発明の第1実施形態について説明する。本実施形態では、本発明の音声同期処理装置を、パーソナルコンピューター等の情報処理装置に適用した場合を例に説明する。図1は、本実施形態に係る音声同期処理装置の内部構造を示すブロック図である。
(音声同期処理装置の構成)
本実施形態に係る音声同期処理装置1は、CPUやメモリ装置を備えた演算処理装置であり、パーソナルコンピューター等の汎用コンピューターや、機能を特化させた専用装置により実現することができ、例えば、モバイルコンピューターやPDA(Personal Digital Assistance)、携帯電話機、スマートフォンなどが含まれる。
そして、この音声同期処理装置1には、通信インターフェース11と、入力インターフェース12と、出力インターフェース13と、メモリ15と、アプリケーション実行部14とを備えている。
入力インターフェース12は、キーボード、マウス、及びタッチパネルなどユーザー操作を入力したり、音声や電波、光(赤外線・紫外線)等が入力されるデバイスであり、特に本実施形態では、外部から入力された音響を、同期すべき音声に対応する音素が含まれる音声信号(電気信号)として取得するマイク12aと、ユーザー操作に基づいて入力されたテキストデータを、同期すべき音声に対応する文字が含まれる文言データとして受け付けるキーボード12b等とが接続されている。なお、マイク12aから取得された音声信号を、音声認識手段により認識された文字列からなるテキストデータとして取得することもでき、キーボード12bから入力されたテキストデータを、音声合成手段により合成された音声信号として取得するようにしてもよい。
なお、本実施形態において「同期すべき音声」とは、上記オブジェクトの動作に同期させられて発せられる音や声であって、日本語や英語など各国の言語の他、動物やロボット、その他のクリーチャーの擬音語(「ワンワン」や「ニャーニャー」、「ガチャンガチャン」等)や、擬態語(「しーん」や「めろめろ」、「ばらばら」等)が含まれる。
一方、出力インターフェース13は、映像や音響、その他の信号(赤外線・紫外線、電波等)を出力するデバイスであり、本実施形態では、液晶ディスプレイなどの表示部13aと、音響スピーカーが含まれており、生成されるオブジェクトがこの表示部13aに表示され、また、音声データに基づいた音響がオブジェクトの動作に合わせてスピーカー13bから出力される。
通信インターフェース11は、音声同期処理装置1と通信ネットワーク5の間でデータの送受信を行う通信インターフェースであり、例えば、有線・無線LANや3G・PHS等の無線公衆回線の他、Bluetooth(登録商標)や赤外線通信、USB方式等によりデータの通信を行う。通信ネットワーク5は、いわゆるインターネットであり、通信プロトコルTCP/IPを用いたIP網であって、種々の通信回線(電話回線やISDN回線、ADSL回線、光回線などの公衆回線、専用回線、無線通信網)を相互に接続して構築される分散型の通信ネットワークである。このIP網には、10BASE-Tや100BASE-TX等による有線・無線のイントラネット(企業内ネットワーク)や家庭内ネットワークなどのLANなども含まれる。
メモリ15は、OS(Operating System)やファームウェア、各種のアプリケーション用のプログラム、その他のデータ等などが記憶される記憶装置であり、特に、このメモリ15内には、本発明に係る音声同期処理プログラムが格納される。なお、この音声同期処理プログラムは、CD-ROM等の記録媒体からインストールされたり、通信ネットワーク5上のサーバからダウンロードされてインストールされることで格納される。そして、メモリ15には、音素データベース151と、文字データベース152と、音素長データベース153と、オブジェクトデータベース154とを備えている。
音素データベース151は、各音素を記憶するデータベースであり、例えば言語や方言毎、年代や性別毎に音素のデータセットを備えることができる。なお、ここにいうデータベースとしては、複数のデータベースがリレーションにより相互に関連づけられたリレーショナルデータベースの他、テーブルデータや配列変数やデータセットであってもよい。ここで、「音素」とは、話者が認識している言語音であり、日本語であれば、一般的に母音(/a/, /i/, /u/, /e/, /o/ )、子音(/k/, /s/, /t/, /c/, /n/, /h/, /m/, /r/, /g/, /z/, /d/, /b/, /p/ )及び半母音(/j/, /w/)を主な単位要素とし、必要に応じてさらには撥音や長音、促音も一つの単位要素として含まれる。この各音素は、その音の読みそのものを引数としたデータセットとして蓄積してもよく、必要に応じて各音素を識別する音素IDに関連付けて蓄積してもよい。
上記文字データベース152は、読み情報(発話すべき文字についての発声情報)が付いた文字情報を記憶するデータベースであり、日本語であれば、漢字(熟語・単漢字を含む)や英単語等の各文字を識別する文字コード(キャラクターコード)に、カタカナ等の読み仮名や発音記号などに表記された読み情報が関連付けられて蓄積されている。また、読み情報としては、その音の読みそのものを引数としたデータセットとして蓄積してもよく、各音素を識別する音素IDに関連づけて蓄積してもよい。
オブジェクトデータベース154は、表示部13aに表示するオブジェクトに関する情報を記憶するデータベースである、ここで、「オブジェクト」とは、人間や動物、妖精、ロボットなど言葉を話す生物その他のクリーチャーやキャラクターを表現したものであり、2D又は3Dの動画アニメーションでもよく、実際に造形されて動作制御が可能な人形やロボットなどの立体物であってもよい。本実施形態では、オブジェクトとして、複数のパーツ(目、眉、口、輪郭、髪等)によって動作や表情を表現するものであり、本実施形態では人の顔を模したものを用いている。また、データベース内には、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データとともに、各音顔データに従った位置、変形及び動作に関する設定情報が蓄積されている。
ここで「音顔データ」とは、各音素の種類と、その音素を発話(発声)しているオブジェクトの動作や表情に関する情報であり、各音顔データに各音素が関連付けられて蓄積されている。この音顔データについて、本実施形態では、人の顔の各パーツの変位や変形に関する情報であり、オブジェクトの種類(動物の種類や、性別、年令、キャラクターなど)に応じて、データセットを切り換えるようなデータベース構造としている。
また、「音顔データに従った位置、変形及び動作に関する設定情報」とは、この音顔データに対する各パーツの位置、大きさ、又は形状を示す座標データの他、発話時における各パーツの動作情報(発話動作開始から発話動作終了までの変化パラメータ)などの基本動作に関する情報が含まれる。これら音顔データや設定情報は、例えば、3Dセンサーから取得した顔の表情を数値化する技術などを用いて作成される。
さらに、このオブジェクトデータベース154には、オブジェクトの変化率を変動させるための情報が含まれている。この「オブジェクトの変化率を変動させる」とは、例えば、驚きを表現するためにあごが外れたり目が飛び出したりなど、オブジェクトを非線形的に大げさなアクションをさせたり、背景に爆発や陰影を表示させるなどの特別なグラフィック処理を挿入するなどイベント処理を実行したりする処理である。この各音顔データを変化させる情報は、例えば、一音素の継続時間や、フレーズやフレーズを含む文言単位の時間長に応じて切り換えられるように、段階的に関連付けて記憶させてもよい。さらに、音素長のみでは表現すべき感情の種類が判別できない場合もあることから、発話されている言葉の意味や属性を、辞書を用いて照合し、その照合結果に基づいて上記イベント処理の種類を切り換えるようにしてもよい。この言葉の意味や属性に関する辞書情報は、例えば、上記文字データベース152に、言葉の意味や属性の辞書情報を組み込んでおき、オブジェクトデータベース154に、文字データベース152で照合された辞書情報に連動されるイベント情報を紐付けるようにする。
音素長データベース153は、各音素の音素長のしきい値を記憶するデータベースあるいはデータセットであり、各音素又は各音素IDに関連付けられて記憶されている。ここで、「音素長」とは、一つの音素が発話(発声)される継続時間であるが、必要に応じて、単一音素が伸ばされているのか、母音音素が繰り返されているのかを選択するようにしてもよい。また「しきい値」は、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりするなど、オブジェクトに変化をもたらすか否かを判定するために用いられる値であり、本実施形態では、フレーズ中における各音素の平均音素長に対する比率が用いられており、平均音素長に対する各音素の比率を算出し、その算出結果が1.5倍以上となるか否かで判断するように設定されている。なお、音素長データベース153は、各音素の一般的な平均音素長についても蓄積されており、入力された音声信号が平均音素長か否かを簡易的に比較する演算処理も利用可能となっている。
この音素長データベース153に格納されているデータは、本実施形態では、例えば、音素毎に、人間の話すスピードの最小値を設定したり(本実施形態では、最小値を0.1秒)、線形的な変化から非線形的な変化へ遷移するしきい値(時間長)を音素毎に関連づけて記録している。このしきい値は単一の数値であってもよく、段階的な数値としてもよい。
そして、本実施形態では、この音素長データベース153を参照することにより、音素数と全体のセンテンスの長さから、各音素のしきい値と比較し、早口であるか、ゆっくり話をしているかを推定したり、数段階に分けたしきい値と順次比較することにより、段階的に表情を変更してもよいし、線形補間をして変更してもよい。
なお、ここでは、この音素長データベース153を設け、音素毎にしきい値を設定する場合を例示したが、この音素長データベース153を省略し、すべての音素に共通のしきい値や関数を設定するようにしてもよい。この場合、表情の変化のパラメータは、共通のしきい値との比較により、センテンス全体の長さと、そこに含まれている音素数、及び極端に長くなっている音素を検出する。
アプリケーション実行部14は、一般のOSやブラウザソフト、電子メール、画像表示ソフトなどのアプリケーションを実行するモジュールであり、通常はCPU等により実現される。このアプリケーション実行部14で、通信ネットワーク5上の管理サーバからダウンロードした音響信号検出プログラムを実行することにより、CPU上に音素抽出部141と、音素長検出部142と、制御信号生成部143と、オブジェクト制御部144とが仮想的に構築される。図2(a)〜(c)は、第1実施形態に係るデータ構成を示す説明図であり、図3は、第1実施形態に係る表示部に表示されるオブジェクトを示す説明図である。なお、図2(a)及び(b)は、音声波形を示すグラフであり、横軸が時間を示し、縦軸は振幅を示している。
音素抽出部141は、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出するモジュールであり、図2(a)に示すように、各音素が連続した音声信号を、図2(b)に示すように各音素に分割して抽出する。なお、図2(a)及び(b)は、音声波形を示すグラフであり、横軸が時間を示し、縦軸は振幅を示している。
音素を抽出する処理としては、例えば、音声信号を取得し、その音声信号を音声認識処理により分析することで音響的な特徴量を取り出し、その音響的な特徴量と、一致又は類似する音素を音素データベースから検索することで、音声信号内にある各音素部分をそれぞれ抽出する。
また、本実施形態において、音素抽出部141は、同期すべき音声についての音声信号(音声データ)及びテキストデータをそれぞれ取得して、これらのデータから各音素を抽出する機能を有している。具体的に、音素抽出部141には、文言データ取得部141aと、音声分析部141bとを備えている。
文言データ取得部141aは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールであり、取得されたテキストデータの文字コードを認識し、フレーズとフレーズの区切りである「間」を検出して、フレーズを抽出するとともに、各フレーズに含まれる文字数をそれぞれフレーズ文字数としてカウントする。
この「間」の検出手法としては、句読点や改行、スペース、記号その他の制御文字などを「間」として読み取る他、辞書データを参照して、文章の形態素から推定するようにしてもよい。例えば、文言データが漢字とかなとが交じった文章である場合には、文法や辞書(品詞等の情報付き単語リスト)を用い、漢字の読みなどを正しく発話すべきカナ表記に変換したうえで、品詞の種類や送り仮名活用の種類などから、「間」を推定することができる。この文言データ取得部141aにおいて算出されたフレーズ数や各フレーズ文字数は、音声分析部141b及び音素長検出部142へ送出される。
一方、音声分析部141bは、文言データ(文言データ取得部141aが算出したフレーズ数や各フレーズ文字数を含む。)とともに音声信号(音声データ)を取得し、取得された音声信号から、フレーズ(文言)を抽出し、フレーズ毎に音素を分割し、フレーズ単位で発話されるべき文字の数である発話候補数を算出するモジュールである。発話候補数の算出としては、先ず、取得した音声を、交流正弦波の正の部分のみを取り出す半波整流処理し、半波整流処理後のデータをブロック幅で積分をするとともに、ブロック単位の積分データを微分する。その後、微分データから、プラスマイナスの判定をし、プラスが一定時間継続している間は発話中とし、マイナスが一定時間継続している間は、発話していない「間」と判定する。
次いで、この「間」の検出により音声データを、フレーズ単位に分割する。このフレーズへの分割の際、文言データ取得部141aが算出した文言データについてのフレーズ数を参照し、音声信号から抽出したフレーズ数と、文言データから抽出したフレーズ数とを比較し、一致するようであればフレーズ分割処理を完了し、一致しない場合は分割位置を追加・削除を行う。この分割位置の追加削除に際しては、「間」を検出する際の無音部分の検出精度を変動させることによって「間」の箇所を増減させる。このとき、文言データ取得部141aが算出した「間」の位置を参照して、文言データ中の文字数や、音声信号の時間長に基づいて、より近似した箇所で音声信号を分割するようにしてもよい。
その後、分割されたフレーズ毎に音素を特定して、各フレーズに含まれる「発話されるべき文字」を抽出してカウントする。この各音素の特定については、文言データ取得部141aでの処理と同様に各音素部分を抽出して行う。そして、音声分析部141bは、発話されている部分のみを音素として発話候補数を算出する。この音声分析部141bで算出された発話候補数は、それぞれ音素長検出部142に送出される。
音素長検出部142は、音素抽出部141によって検出された発話すべき音素毎の継続時間長を音素長として検出するモジュールであり、分割された各音素の音素長を計測することで、各音素の継続時間を検出する。なお、本実施形態では、音声データ及びテキストデータを取得し、音素長検出部142は、各フレーズ毎に、それぞれのフレーズ文字数と発話候補数とを比較し、音素抽出部141が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する機能を有している。具体的に、音素長検出部142は、算出されたフレーズ文字数と発話候補数とを比較する。ここで、発話候補数がフレーズ文字数よりも少ない場合は、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の音素長を比較する。ここで、「平均継続時間」とは、入力された音声信号のトータル時間を、入力されたフレーズ文字数によって除算して、一文字(一音素)あたりの平均時間を示したものである。
そして、音素長検出部142は、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の音素長とを比較した結果、平均継続時間よりも長い音素長部分を特定し、当該音素長部分から足りない文字数分を分割する。この際、音素長検出部142は、不足している音素をテキストデータから推定するとともに、その文字の子音と母音のデータを参照して音素長を推定する。
一方、発話候補数がフレーズ文字数よりも多い場合、音素長検出部142は、フレーズあたりの平均継続時間を算出し、この平均継続時間と、発話候補数における各音素の時間長を用い、それぞれの時間長及びエネルギー(振幅値)を比較する。比較した結果、音素長検出部142は、時間長が短く、かつ、エネルギー(振幅値)が少ない音素については、発話していないものと判定して当該音素を削除する。なお、この補正処理は、フレーズ文字数と発話候補数とが同じ数になるまで繰り返し行われ、同数となった時点で各音素の継続時間を測定し、各音素の音素長を検出する。そして、音素長検出部142において検出及び補正された各音素の時間長は、制御信号生成部143に送出される。
なお、本実施形態において「音素長」は、各音素の発話開始時刻により算出する。すなわち、一つの音素の発話が発話時刻i(時分秒)に開始され、次の音素の発話が発話時刻(i+1)に開始された場合、音素長は、発話時刻(i+1)と発話時刻(i)の差分(間隔時間)として求められる。このように本実施形態では、「音素長」は、発話開始時刻の差分(間隔時間)であるため、必ずしも実際に発声している時間長ではなく、一つの音素を長く発声している場合や、次の音素までに無音部分があるような場合も、同じ「音素長」として扱われる。
制御信号生成部143は、音素抽出部141が検出した音素と、音素長検出部142によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力するモジュールである。ここで、発話データとは、オブジェクトを画面上に表示させるためのすべての情報が含まれたものであり、図2(c)に示すように、出力すべき各音素、音素に対応する音顔データ、各音素を出力する順番、及び各音素の開始時間及び終了時間が定義されている他、このデータ内にオブジェクトを変化させる制御信号が含まれている。
また、オブジェクトを変化させる「制御信号」とは、上述した動画アニメーションや立体物を動作制御する信号であり、音素に応じた口の動きの他、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位やパーツの位置や大きさ、向き、移動量、その他のアクションを種々に変化させたり、グラフィックを挿入するなどのイベント処理を実行させたりするものである。この制御信号は、オブジェクトデータベース154内に含まれた設定情報、各音素を出力する順番、トータル時間長、及び変化率を変動させる情報などに基づいて生成される。
また、制御信号生成部143には、オブジェクトの変化率を変動させる機能として、音素長比較部143aと、変化率制御部143bとを備えている。音素長比較部143aは、音素長データベース153を参照し、言語や方言等の属性に基づいて所定のしきい値を読みみ出し、当該音素の音素長が所定のしきい値よりも長いか否かを判断するモジュールである。ここで制御信号生成部143は、音素抽出部141によって抽出された音素を選択し、選択された音素に基づいて、当該音素の音素長を音素長データベース153内から選択して比較するようになっている。
変化率制御部143bは、音素長比較部143aによる比較結果に基づいて、オブジェクトの変化率を変動させるモジュールである。本実施形態では、しきい値より長いと判断した場合には、オブジェクトの変化率を変動させる情報をオブジェクトデータベースから抽出し、その情報を制御信号に付加するようになっている。
オブジェクト制御部144は、制御信号に基づいてオブジェクトを変化させるモジュールであり、本実施形態において、オブジェクト制御部144は、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させる機能を有する。ここで、音顔データによる設定及び制御信号に基づくオブジェクトの変化とは、各音素に対応した音顔データを発話に従って連続させるなどの基本動作の他、各音素に対応した各音顔データを、線形あるいは非線形に補間するものなどが含まれる。また、オブジェクトの変化率を変動させる情報が付加されている場合、この情報に基づいて、オブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることも含まれる。
以下、オブジェクト制御における各処理について具体的に説明する。
(1)音顔データを連続させる処理について
先ず、各音素に対応した音顔データを発話に従って連続させる処理について説明する。初めに、オブジェクト制御部144は、発話データに基づいて各音素に応じた音顔データを表示部13aに表示させる基本処理を行う。具体的に、オブジェクト制御部144は、発話データ内の各音素を選択し、その音素に基づいてオブジェクトデータベース154を参照して該当する音顔データを抽出する。
この際、オブジェクト制御部144は、発話データ内に含まれた音素の音素長(出力開始時間及び終了時間を示した情報)も参照し、音顔データを発話が開始される順に配置し、このとき、各音素の音顔データと音顔データとの間を補間したうえで、その音顔データ及び補間された音顔データが配列された順に出力されるように制御する。さらに、オブジェクト制御部144は、各パーツに対して、オブジェクトデータベース154内の設定情報に基づいて、各パートに対して音顔データに従った位置、変形及び動作を制御する。
例えば、口の開き方のパラメータは、次式1で求めることができる。

(式1)…Pn’(i)=Pn(i)×(tn(i)/ave)

ここで、「Pn」は、オブジェクトデータベース154内における各音の口の開け方に関するパラメータであり、「tn(i)]は音素長、すなわち音素の継続時間を示し、「ave]は、平均的な各音素の長さ(sec)である。これにより、入力された音声の早さに応じて、変更された口の開け方のパラメータ「Pn’(i)」が決定される。すなわち、早口で発話し、音素長が短ければ変化量は小さくなり、音素長が長ければ変化量は大きくなる。
また、口以外の顔や首の動きについては、上述した口の開き方のパラメータ「Pn’(i)」を次式2のように、関数変換させることで求めることができる。

(式2)…f(tn(i))=eye.x(tn(i))

ここで、関数f(x)は、単純な乗算、logistic関数等の線形な関数が用いられている。
このように式1や2を用いたオブジェクト制御部144の処理によって、例えば、話者が普通の速度で話している場合には、図3(a)に示すように、音声「みなさん」に対応するように、人の顔であるオブジェクトが「み」「な」、「さ」、「ん」とそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話している場合、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図3(b)に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現されている。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなり、さらに所定のしきい値以上の音素長になったとき(図3(c)中の「さーーーーー」)には,非線形に変化させてオーバーなアクションを取らせることができる。
(2)音素間での変化における補間処理
具体的に、オブジェクト制御部144は、音素と音素の間におけるオブジェクトの表示を滑らかにする補間処理を行う。この補間処理とは、次式3で求めることができる。

(式3)…Pm=Pn’(i)+((Pn’(i+1)-Pn’(i))/m)

ここで、「Pm」は補間後のデータであり、「m」は補間するデータの数である。このmは、話者の速度、すなわち音素長(音素と音素の間隔時間)に応じて増減してもよく、早口であれば補間数を少なく、ゆっくりであれば補間数を多くする。
(3)オブジェクトの変化率を変動させる処理
オブジェクトの変化率を変動させる処理とは、音素長が所定のしきい値よりも小さいか大きいかに応じて、線形的な変化と,非線形的な変化とを切り換える処理である。具体的には、音素長がしきい値よりも小さいときには、音素長に比例させて、話者が早口で話して音素長が短い場合に変化量の最大値を小さくし、ゆっくり話しているときにはアクションを大きくする。その一方で、所定の音素長を長くして強調したときにはオブジェクトが非線形的に大げさなアクションをとったり、特別なグラフィック処理が挿入されるなどの、イベントが発生される。この処理は変化率制御部143bによってオブジェクトの変化率が変動された場合に実行される。
詳述すると、図3(a)や(b)に示すように、音素長が所定のしきい値よりも小さいときには、その音素長に比例した変化率又は変化量で各パーツが線経的に変化され、図3(c)中の「さ」のように、音素長が所定のしきい値を超える場合には、オブジェクトが非線形的に大げさなアクションをとるように、例えば、上記式2における関数f(x)を非線形の関数に切り換える。このように、非線形の関数を用いることで、漫画のように、急に表情を変更する表情の自動生成が可能となる。また、補間処理においても、上記式3に示したような線形の関数を用いず、非線形の関数を用いることで急に表情を変更する表情の自動生成が可能となる。
なお、オブジェクトの変化率を変動させるかどうかの基準は、判定は、音素長データベース153に格納された各音素に対応付けられたしきい値により決定され、そのしきい値は、使用するキャラクターや使用状況によって、適宜設定することができる。例えば、あるキャラクターでは、ある特定の文字でしきい値を超えたときは、目の玉を飛び出させる、などの設定を行うことができ、「ありがとうございました?」と、最後の”た”の音素長が他よりも長く、しきい値(例えば、平均値の1.5倍)を超えたら、目を飛び出させて、あごを外すなどのオーバーアクションを設定することができる。
なお、オブジェクト制御部144は、音顔データの出力と同期させて当該各音素の音声を出力させる。この音声は、入力されたユーザーの音声であってもよく、また、出力するオブジェクトに応じて、予めメモリ15内に蓄積された音声データを用いてもよい。
(音声同期処理方法)
以上の構成を有する音声同期処理装置1を動作させることによって、本発明の音声同期処理方法を実施することができる。図4は、本実施形態に係る音声同期処理方法の概要を示すフローチャート図であり、図5は、図4に示したステップS101における音素抽出処理及び音素長検出処理の詳細を示すフローチャート図である。
音声同期処理方法は、音声にオブジェクトを同期させるための制御信号を生成する方法であって、先ず、音素抽出部141は、音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出するとともに、音素長検出部142は、音素抽出部141によって検出された発話すべき音素毎の継続時間長を音素長として検出する(S101)。
本実施形態においては、音声同期処理装置1に、同期させるべき音声についての音声信号とテキストデータとが入力され、これらのデータに基づいて音素抽出及び音素長検出処理が実行される。具体的には、図5に示すように、文言データ取得部141aにおいて、同期すべき音声を文字で記述したテキストデータを文言データとして取得し(S201)、文言データから発話すべき文字の数であるフレーズ文字数を算出する(S202)。具体的には、文言データ取得部141aにおいて、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールであり、取得されたテキストデータの文字コードを認識し、フレーズとフレーズの区切りである「間」を検出して、フレーズを抽出するとともに、各フレーズに含まれる文字数をそれぞれフレーズ文字数としてカウントする。この文言データ取得部141aにおいて算出されたフレーズ数や各フレーズ文字数は、音声分析部141b及び音素長検出部142へ送出される。
一方、音声分析部141bでは、文言データ(文言データ取得部141aが算出したフレーズ数や各フレーズ文字数を含む。)とともに音声信号を取得し(S203)、取得された音声信号から、フレーズ(文言)を抽出し、フレーズ毎に音素を分割する(S204)。具体的には、音声信号中の「間」を検出することによって、音声データをフレーズ単位に分割する。このフレーズへの分割の際、音声分析部141bは、文言データ取得部141aが算出した文言データについてのフレーズ数を参照し、音声信号から抽出したフレーズ数と、文言データから抽出したフレーズ数とを比較し、一致するようであればフレーズ分割処理を完了し、一致しない場合は分割位置を追加・削除を行う。この分割位置の追加削除に際しては、「間」を検出する際の無音部分の検出精度を変動させることによって「間」の箇所を増減させる。このとき、文言データ取得部141aが算出した「間」の位置を参照して、文言データ中の文字数や、音声信号の時間長に基づいて、より近似した箇所で音声信号を分割するようにしてもよい。
その後、音声分析部141bは、分割されたフレーズ毎に音素を特定して、各フレーズに含まれる「発話されるべき文字」を抽出してカウントして、フレーズ単位で発話されるべき文字の数である発話候補数を算出する(S205)。音声分析部141bで算出された発話候補数、及び各音素に関する情報(音素IDや音声信全体のトータル時間)は、音素長検出部142に入力される。
そして、音素長検出部142では、フレーズ文字数と発話候補数とを比較し、音素抽出部141が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する。具体的に、音素長検出部142は、先ず、フレーズ文字数と発話候補数とを比較し(S206)、フレーズ文字数と発話候補数とが一致するか否かを判断する(S207)。フレーズ文字数と発話候補数とが一致する場合には(S207における“Y”)、音声信号と文言データとに相違がないと判断し、音声信号に基づいて抽出された各音素の音素長を検出する(S212)。
一方、フレーズ文字数と発話候補数とが一致しない場合には(S207における“N”)、音素長検出部142において、入力された音声信号のトータル時間を、入力されたフレーズ数によって除算し、さらにフレーズ毎にフレーズ文字数で除算してフレーズ毎の平均継続時間をそれぞれ算出したうえで(S208)、発話候補数がフレーズ文字数よりも少ないか否かを判断する(S209)。ここで、発話候補数がフレーズ文字数よりも少ない場合は(S209における“Y”)、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の時間長を比較する。そして、平均継続時間よりも長い時間長部分の分割候補を算出し、
算出された分割候補のエネルギー(振幅値)が他の音素の音量の平均値よりもある一定量大きい場合は、長く継続している音素として、その長く継続している音素を除いた平均継続時間よりも長い時間から、新たな発話候補を推定する(繰り返し)。この際、音素長検出部142は、不足している音素をテキストデータから推定するとともに、その文字の子音と母音のデータを参照して音素長を推定して不足分の音素を追加する(S211)。
このとき、フレーズ文字数と発話候補数とが一致しない場合における平均継続時間よりも長い時間長部分の分割に際しては、平均継続時間よりも長い時間長部分の分割候補を選定する。そして、選定された分割候補のエネルギー(振幅値)が他の音素の音量の平均値よりもある一定量大きい場合に、長く継続している音素として、その長く継続している音素を除いた平均継続時間よりも長い時間長部分から、分割する候補の音素を選定する。例えば、フレーズが「こんにちはーーーー」である場合、フレーズ文字数は5音素であり、この場合において、発話候補数が4音素しかないときに、平均継続時間長との比較のみで分割すると、「はーーーー」と伸びているところが分割されることとなる。このため、本実施形態では、「はーーーー」の部分の特徴を抽出して、その部分の音素を除外し、その音素以外の音素から分割する候補を選定する。ここでの例では、「はーーーー」の部分の音量が大きくなるため、この部分は継続部分として分割対象から除外し、「こんにち」の中で一番間が空いている部分を検出して分割する。なお、音素分割の対象から除外する継続部分の特徴としては、例えば、音量や振幅値を用いることができる。
一方、発話候補数がフレーズ文字数よりも多い場合は(S209における“N”)、平均継続時間と各音素の時間長との、平均継続時間及びエネルギー(振幅値)とを比較して、時間長が平均継続時間よりも短く、かつ、エネルギー(振幅値)が少ない音素を抽出する。抽出された音素は、発話していないものと判定して当該音素を削除する(S210)。このステップS211及びS210の後は、再度、フレーズ文字数と発話候補数とを比較して、フレーズ文字数と発話候補数とが同じ数になるまで繰り返し処理する(S206〜S211)。
このようにして、音素抽出部141で検出された音素と、音素長検出部142で検出された音素長とは、制御信号生成部143に入力され、図4に示すように、制御信号生成部143において、オブジェクトを変化させる制御信号を含む発話データが生成される。この際、制御信号生成部143では、オブジェクトの変化率を変動させるか否かの制御が行われる。具体的には、音素長比較部143aでは、検出された各音素長の音素IDに基づいて音素長データベース153を参照して、当該音素に設置された音素長のしきい値と、当該検出された音素の音素長とを比較して(S102)、入力された各音素長が所定のしきい値よりも長いか否かを判断する(S103)。
音素長が所定のしきい値よりも時間が短い比較結果である場合には(S103における“N”)、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する処理行い(S109)、オブジェクトの変化を変動させる制御を含んだ制御信号を生成する(S105)。
詳述すると、ステップS109において、例えば、話者が普通の速度で話している場合には、図3(a)に示すように、人の顔であるオブジェクトがそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話しているときには、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図3(b)に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現される。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなる。
一方、音素長が所定のしきい値よりも時間が長い比較結果である場合には(S103における“Y”)、オブジェクトの変化を変動させる制御を実行する(S104)。具体的には、図3(c)中の「さーーーーー」に示すように、非線形に変化させてオーバーなアクションを取らせるように、非線形的な変化を起こさせる制御信号を生成する(S105)。その後、音素、音素長、制御信号を含む発話データは、オブジェクト制御部144に出力される。
オブジェクト制御部144は、発話データ(制御信号を含む)に基づいて、オブジェクトを表示させるとともに、音素に併せてオブジェクトを変化させる。具体的には、先ず、発話データ内の各音素を選択して、オブジェクトデータベース154を参照し(S106)、オブジェクトデータベース154から音顔データを抽出する(S107)。その後、各音素についての音素長(発話開始時間及び発話終了時間)に基づいて音顔データを順番に出力させる。この際、各音顔データは、音顔データに従った設定情報や制御信号に基づいてオブジェクトを変化させる(S108)、具体的に、オブジェクト制御部144は、音顔データに従った設定情報に基づいて、音素に応じた口の動きや、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位を変化させるとともに、音素間での変化を補間処理する。
さらに、発話データ内にオブジェクトの変化率を変動させる信号が含まれている場合に、オブジェクト制御部144は、その信号に基づいて、オブジェクトを非線形的に大げさなアクションとするように表示したり、特別なグラフィック処理を挿入してイベントを発生させるなどの処理を実行する。なお、本実施形態において、変化率を変動させる信号は、発話データ内にフラグを立てることにより実現され、発話データを読みみ出す際に、このフラグが合った場合に信号が検出されたとして変化率を変動させる。
(音声同期処理プログラム)
上述した第1実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピューターやICチップにインストールし、CPU上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
そして、このようなプログラムは、パーソナルコンピューターで読み取り可能な記録媒体に記録することができ、汎用のコンピューターや専用コンピューターを用いて、上述した音声同期処理装置、及び音声同期処理方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
(作用・効果)
このような本実施形態によれば、音声にオブジェクトの動きを同期させる際、音素の時間長(継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。
特に、本実施形態において、音素長比較部143a及び変化率制御部143bでは、音素長が所定のしきい値よりも長いか否かを判断し、その判断結果によってオブジェクトの変化率を変動させているので、例えば、音素長がしきい値よりも短い場合には、オブジェクトを滑らかな線形的変化とし、しきい値よりも長い場合にはオブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることにより、より感情表現の多様化を図ることができる。
さらに、本実施形態では、各音素の種類と、その音素を発話している人の顔のパーツに関する情報である音顔データとを予め紐付けているので、音顔データに従ってオブジェクトを制御することから、オブジェクト制御の際の演算量を低減することができる。
また、本実施形態によれば、音声データと、その音声を文字で記述したテキストデータとに基づいて発話データを生成しているので、音声データに含まれる音声が不明瞭であったり、ノイズが含まれているような場合であっても、適切に音声とオブジェクトの同期を取ることができる。
[第2実施形態]
次いで、第2実施形態について説明する。上述した実施形態では、音声信号及びテキストデータを用いて、音素数毎の時間長を検出してオブジェクトを変化させたが、本発明はこれに限定されるものではなく、テキストデータのみを用いて、音素数毎の時間長を検出してオブジェクトを変化させてもよい。図7は、第2実施形態に係る音声同期処理装置の内部構成を示すブロック図である。なお、第2実施形態において、上述した第1実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。
(音声同期処理装置の構成)
図7に示すように、本実施形態に係る音声同期処理装置1aの音素抽出部141には、同期すべき音声を文字で記述したテキストデータを文言データとして取得する文言データ取得部141aのみ備えている。そして、この文言データ取得部141aでは、上記同様に、文言データから発話すべき文字の数であるフレーズ文字数を算出し、そのフレーズ文字数を音素長検出部142に送出する。
音素長検出部142には、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部142aを備えている。なお、この設定は、表示部13aうえに設定受け付け画面を表示させ、ユーザーからの操作信号を受け付けることで設定される。トータル時間長の設定としては、例えば、「普通」、「早口」、又は「ゆっくり」などの予め設定されて時間長を選択する構成であってもよく、ユーザー自身が時間長の数値を入力する構成であってもよい。
一方、強調箇所の設定とは、オブジェクトに所定の変化を付けるための設定であり、例えば、特定の音素の時間長をしきい値よりも長く設定するものである。この強調すべき音素の特定としては、強調箇所すべき音素をユーザーが選択することでしきい値よりも長い所定時間長に自動で設定する構成であってもよく、また、ユーザー自身が時間長の数値を入力する構成であってもよい。なお、強調箇所は任意項目であるものとする。
音素長検出部142は、この発話設定部142aにより設定されたトータル時間長及び強調箇所と、算出されたフレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。具体的には、強調箇所が設定されているか否かを判断し、強調箇所が設定されていない場合には、設定されたトータル時間長に基づいて各音素の音素長を算出する。この際、各音素長を均等な長さにしてもよく、また、平均音素長に基づいて、各音素の音素長をその比率に基づいて変動してもよい。
一方、強調箇所が設定されている場合には、強調された音素の音素長をしきい値よりも長く設定したうえで、残りのトータル時間長に基づいて各音素の音素長を設定する。この場合にも、残りの各音素は、各音素を均等な長さにしてもよく、また、平均音素長の比率に基づいて変動させてもよい。
その後、制御信号生成部143では、入力された音素及び音素長に基づいてオブジェクトを変化させる制御信号を生成する。ここで、強調箇所が設定されている場合には、当該音素の音素長はしきい値よりも長く設定されているため、音素長比較部143a及び変化率制御部143bによって、当該音素についてのオブジェクトの変化率が変動されるように設定される。
このように制御信号生成部143において、制御信号を含む発話データが生成され、当該制御信号がオブジェクト制御部144に入力されることで、第1実施形態と同様に画面上にオブジェクトが出力される。なお、本実施形態においても、オブジェクト制御部144は、音顔データに従った位置、変形、動作を示す設定情報、及び制御信号に基づいて、上記に記載した、音顔データを連続させる処理、音素間での変化における補間処理、及びオブジェクトの変化率を変動させる処理を実行する。
なお、本実施形態においては、テキストデータのみ入力されているため、オブジェクト制御部144は、例えば、TTS(text-to-speech)技術を用いて、入力された文言データから音声信号を生成して出力させる。この場合、オブジェクト制御部144は、TTSによって生成された各音素の発話開始時間を取得し、当該発話開始時間から音顔データについて補間処理を実行する。
この補間処理としては、TTSの出力を変更する場合、実施形態1と同じ処理となり、TTSそのものに組み込む場合は、TTSが発話に用いる各音素及び各音素の発話時刻を取得し、各音素の音顔データを参照し、顔のパーツを制御して配置するとともに、音素長に応じて前記式1によって補間を行う、あるいは、あるしきい値を超えたときに、大げさな表現を選択する。
(音声同期処理方法)
次いで、上述したような構成を有する音声同期処理方法について説明する。なお、ここで、ステップ102からの処理は上述した第1実施形態と同様であるため、ステップS101での処理内容のみを説明するものとする。図8は、第2実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。
先ず、同期すべき音声を文字で記述したテキストデータが入力されると、文言データ取得部141aは、テキストデータを文言データとして取得し(S301)、文言データから発話すべき文字の数であるフレーズ文字数を算出する(S302)。そして、算出されたフレーズ文字数は、発話設定部142aに入力される。発話設定部142aでは、例えば、ユーザー操作信号を取得し、当該操作信号から文言データを発話する際のトータル時間長及び強調箇所を設定する(S303)。
次いで、音素長検出部142は、設定されたトータル時間長及び強調箇所と、フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。具体的に音素長検出部142は、先ず、強調箇所の設定がされたか否かを判断し(S304)、強調箇所の設定がない場合には(S304における“N”)、フレーズ文字数及びトータル時間長から各音素の音素長を算出する(S305)。この算出方法としては、各音素の平均音素長に基づいて、各音素の音素長をその比率に基づいて変動させてもよく、また、トータル時間長と文字数とから音素長を均等な長さとしてもよい。
一方、強調箇所の設定がある場合には(S304における“Y”)、強調指定された音素については、しきい値が超えるような音素長に設定し(S306)、その他の音素については、強調指定された音素長を除いたトータル時間長から各音素の音素長を算出して設定する(S307)。
音素長が設定された後は、当該音素と音素長は制御信号生成部143に入力され、制御信号生成部143において、制御信号を含めた発話データが生成される。強調箇所部分がある場合には、音素長比較部143aにおいて、しきい値よりも長いと判断されて、変化率制御部143bにおいてオブジェクトの変化率を変動させる処理が実行される。これにより、オブジェクト制御部144では、この変化率を変動させる信号に基づいてオブジェクトを通常動作とは異なる動作で表示させる。一方、強調箇所部分がない場合は、設定情報に基づいてオブジェクトが通常動作が行われる。
(音声同期処理プログラム)
上述した第2実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピューターやICチップにインストールし、CPU上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
そして、このようなプログラムは、パーソナルコンピューターで読み取り可能な記録媒体に記録することができ、汎用のコンピューターや専用コンピューターを用いて、上述した音声同期処理装置、及び音声同期処理方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
(作用・効果)
このような本実施形態によれば、上述した第1実施形態と同様な効果をそうする。すなわち、音声にオブジェクトの動きを同期させる際、音素の時間長(継続時間)によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。さらに、本実施形態によれば、テキストデータのみで発話データを生成することができるため、音声を後から合成するようなコンテンツを制作する場合であっても、適切に音声とオブジェクトの同期を取ることができる。
[変更例]
なお、上述した各実施形態の説明は、本発明の一例である。このため、本発明は上述した実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。以下に、本発明の変更例について説明する。
例えば、第1実施形態では、音声信号及びテキストデータに基づいて、音素及び音素長を検出してオブジェクトを変化させ、第2実施形態ではテキストデータのみに基づいて、音素及び音素長を検出してオブジェクトを変化させたが、本発明はこれに限定されるものではなく、例えば、音声信号にのみで音素及び音素長を検出してオブジェクトを変化させてもよい。この場合、上述したように、音素抽出部141では、音声信号から音声認識処理で各音素を分割し、音素長検出部142では分割された音声からそれぞれの音素長を検出する。この場合、ユーザーがマイク12aに向けて発声するのみで、各音素及び音素長を検出してオブジェクトを変化させることができるので、テキスト入力の手間を軽減させることができる。
なお、いずれかの入力信号(音声信号のみ、テキストデータのみ、又は音声信号及びテキストデータ)を用いてオブジェクトを制御するかは、ユーザー操作に応じて設定してもよく、また、入力された信号に基づいて、アプリケーション実行部14が自動で判断して各処理を変更させてもよい。また、上述した各実施形態の処理は、入力されるデータに基づいて、音声同期処理装置1が自動で処理を切り換えることもできる。具体的には、音声信号及びテキストデータが入力された場合には、第1実施形態のような処理を行い音素及び音素長を検出してオブジェクトを変化させ、テキストデータのみが入力された場合には、第2実施形態のような処理を行い、音素及び音素長を検出してオブジェクトを変化させる。
また、上述した各実施形態において、しきい値は、音声のスピードに合わせてオブジェクトの動きを自然なものにするか、アクセントをつけて強調するかを判断するために用いたが、本発明は、これに限定するものではなく、例えば、「喜び」、「悲しみ」、「怒り」、「驚き」など音顔データを所定の感情に変化させるために用いてもよい。
この場合、例えば、しきい値を各音素の平均音素長より短い値を設定したうえで、音素長比較部143aにおいて、検出された音素長がしきい値よりも短いか否かを判断する。そして、当該音素長がしきい値よりも短い場合には、オブジェクトの表情が「怒り」の表情となるように、各パーツの変化率を変動させた制御信号を生成する。この場合には、音声のスピードに合わせてオブジェクトを「喜び」、「悲しみ」、「怒り」、「驚き」などの所定パターンに変化させることができるため、音声のスピードに合わせてオブジェクトの動きをより自然なものとすることができる。なお、本発明では、複数のしきい値を設定することもでき、音素長に応じて、例えば、「怒り」の感情においても、「静かな怒り」や「爆発する怒り」などに設定するなど、より細かく設定することもできる。また、複数のしきい値を設定することで、オブジェクトの感情を音声のスピードに合わせて変化させるとともに、上述した実施形態のように、一定の音素長となった場合には、オブジェクトを非線形的に大げさなアクションとすることもできる。
また、上述した実施形態では、音声同期処理プログラム、及び各種データベース151〜154を汎用コンピューターに保持させて、スタンドアローン形式でオブジェクトを変化させる処理を実行するようにしたが、本発明はこれに限定されるものではなく、通信ネットワーク5上に配置されたサーバにおいて、これらの処理を実行するようにしてもよい。
次いで、信ネットワーク5上に配置されたサーバを用いて、音声にオブジェクトを同期させるための制御信号を生成させる音声同期処理システムについて説明する。図8は、変更例に係る音声同期処理システムの概略構成を示すブロック図である。なお、変更例においても、上述した各実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。
(音声同期処理システムの概略構成)
本変更例に係る音声同期処理システムは、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、図8に示すように、通信ネットワーク5上には、利用者U1及びU2が利用し、音声信号又は文言データが入力されるとともに、入力された音声信号又は文言データに基づいて生成されたオブジェクトが出力されるユーザー端末2A及び2Bと、管理サーバ4とが接続される。
なお、本変更例では、利用者U1が発話者となって音声信号又は文言データをユーザー端末2Aに入力することで、利用者U2が利用するユーザー端末2Bにオブジェクトを出力させる場合を例に説明するが、利用者U2が発話者となり、ユーザー端末2Bを用いて音声信号又は文言データを入力し、利用者U1が利用するユーザー端末2Aにオブジェクトを出力させることもできる。
管理サーバ4は、音声同期処理サービスを提供するためのサーバアプリケーションを運用するサーバコンピューター、あるいはその機能を持ったソフトウェアとすることができ、本実施形態では、本発明に係る音声同期処理プログラムを保持し、ユーザー端末2Aから音声信号又は文言データを取得するとともに、ユーザー端末2Bに対してオブジェクトを配信することができる。また、管理サーバ2は、WWW(World Wide Web)等のドキュメントシステムにおいて、HTML(HyperText Markup Language)ファイルや画像ファイル、音楽ファイルなどの情報送信を行うサーバコンピューターあるいはその機能を持ったソフトウェアであり、HTML文書や撮影された画像などの情報を蓄積しておき、Webブラウザなどのクライアントソフトウェアの要求に応じて、インターネットなどの通信ネットワーク5を通じてこれらの情報を送信することもできる。
なお、本変更例において、管理サーバ4は、単一のサーバ装置から構成されたが、複数のサーバ装置で構成することも可能であり、また、装置や機器等のハードウェアのみならず、その機能を持ったソフトウェア、又はこれらの組み合わせなどによっても構成することができる。また、データベースも単一のデータベース装置の他、リレーションシップ機能により連携される複数のデータベース群で構成することもできる。
ユーザー端末2A及び2Bは、CPUによる演算処理機能、及び通信インターフェースによる通信処理機能を備えたユーザー端末であり、例えば、パーソナルコンピューター等の汎用コンピューターや、機能を特化させた専用装置により実現することができ、モバイルコンピューターやPDA、携帯電話機等も含まれる。なお、本変更例では、2aは、パーソナルコンピューター等の汎用コンピューターであり、2bは、移動電話やスマートフォン等の携帯情報端末であり、2cは、例えば、受付場所に設置され、音声対話受付案内システムに用いられる自動音声応答装置である。
この携帯情報端末2bの通信方式としては、例えば、4G方式、LTE方式、3G方式、FDMA方式、TDMA方式、CDMA方式、W−CDMAの他、PHS(Personal Handyphone System)方式、Wi−Fi(登録商標)、Bluetooth(登録商標)などの無線LAN方式が挙げられる。
無線基地局3は、中継装置を通じて通信ネットワーク5に接続され、ユーザー端末2A及び2Bとの間で無線通信接続を確立し、ユーザー端末2A及び2Bによる通話やデータ通信を提供する装置である。中継装置は、通信ネットワーク7に接続するためのモデムやターミナルアダプタ、ゲートウェイ装置等のノード装置であり、通信経路の選択や、データ(信号)の相互変換を行い、無線基地局3と、通信ネットワーク5との間における中継処理を行う。
(各装置の内部構造)
次いで、上述したシステムを構成する各装置の内部構造について説明する。図9は、変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。なお、上記同様、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、あるいはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
(1)サーバ装置
先ず、サーバ装置4の内部構成について説明する。図9に示すように、サーバ装置4には、メモリ15と制御部14aとを備えている。
メモリ15は、OS(Operating System)やファームウェア、各種のアプリケーション用のプログラム、その他のデータ等などが記憶されるデータベース群であり、上述した実施形態同様に、このメモリ15内には、本発明に係る音声同期処理プログラムが格納される。そして、メモリ15には、音素データベース151と、文字データベース152と、音素長データベース153と、オブジェクトデータベース154とを備えている。なお、音素データベース151と、文字データベース152と、音素長データベース153と、オブジェクトデータベース154に蓄積されるデータ構成は、上述した実施形態と同様であるため、その説明は省略する。
制御部14aは、CPUやDSP(Digital Signal Processor)等のプロセッサ、メモリ、及びその他の電子回路等のハードウェア、あるいはその機能を持ったプログラム等のソフトウェア、又はこれらの組み合わせなどによって構成された演算モジュールであり、各種プログラムを適宜読み込んで実行することにより種々の機能モジュールを仮想的に構築し、構築された各機能モジュールによって、各部の動作制御、ユーザー操作に対する種々の処理を行っている。
この制御部14aには、音響信号検出プログラムを実行することにより、CPU上に音素抽出部141と、音素長検出部142と、制御信号生成部143と、オブジェクト制御部144が仮想的に構築される。
音素抽出部141は、入力手段から音声信号又は文言データを取得し、取得した音声信号又は文言データから、発話すべき各音素を抽出するモジュールであり、音素抽出部141には、文言データ取得部141aと音声分析部141bとを備える。
文言データ取得部141aは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールである。音声分析部141bは、文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出するモジュールである。
音素長検出部142は、音素抽出部141によって検出された発話すべき音素毎の継続時間長を音素長として検出するモジュールであり、音素長検出部142には、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部142aを備える。
なお、本変更例では、ユーザー端末2Aから入力されたデータの種類に応じて、音素抽出部141及び音素長検出部142の機能モジュールが切り換えられる。具体的に、音声データと文言データとを用いて音素数毎の時間長を検出してオブジェクトを変化させる場合は、上述した第1実施形態のように、音素抽出部141には、文言データ取得部141aと音声分析部141bとが構成され、音素長検出部142には、発話設定部142aは構成されないようになっている。そして、音素長検出部142は、文言データ取得部141a及び音声分析部141bから取得したフレーズ文字数と発話候補数とを比較し、音素抽出部141が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する。
一方、文言データのみを用いて音素数毎の時間長を検出してオブジェクトを変化させる場合には、上述した第2実施形態のように、音素抽出部141には文言データ取得部141aのみが構成され、音素長検出部142には発話設定部142aが構成される。そして、音素長検出部142は、この発話設定部142aにより設定されたトータル時間長及び強調箇所と、文言データ取得部141aから取得したフレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。なお、音素抽出部141及び音素長検出部142で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。
制御信号生成部143は、音素抽出部141が検出した音素と、音素長検出部142によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、ユーザー端末2Bに対して出力するモジュールである。この制御信号制御部143には、上述した各実施形態と同様に、音素長が所定のしきい値よりも長いか否かを判断する音素長比較部143aと、音素長比較部143aによる比較結果に基づいて、オブジェクトの変化率を変動させる変化率制御部143bとが構成される。なお、制御信号生成部143で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。
オブジェクト制御部144は、制御信号に基づいて、オブジェクトを変化させるモジュールであり、本変更例においても、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させる。そして、本変更例に係るオブジェクト制御部144では、制御信号生成部143から取得された発話データに従って変化されたオブジェクトを画像データ形式又は動画データ形式に変換し、変換後のデータを配信データとしてユーザー端末2Bに対して配信している。この配信データは、各音素に対応した音顔データを発話に従って連続されるなどの基本動作の他、各音素に対応した各音顔データを、線形あるいは非線形に補間された画像となっている。また、オブジェクトの変化率を変動させる情報が付加されている場合、この情報に基づいて、オブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理が挿入された画像となっている。なお、配信データには、各音顔データに対応する各音素の音声も含まれている。なお、オブジェクト制御部144で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。
(2)ユーザー端末
次いで、ユーザー端末2A及び2Bの内部構成について説明する。図9に示すように、ユーザー端末2A及び2Bには、入力インターフェース12と、出力インターフェース13と、通信インターフェース16と、制御部18から構成される。
入力インターフェース12は、キーボード、マウス、及びタッチパネルなどユーザー操作を入力したり、音声や電波、光(赤外線・紫外線)等が入力されるデバイスであり、この入力インターフェース12から、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データが入力される。そして、本変更例においても、入力インターフェース12には、外部から入力された音響を電気信号として取得するマイク12aと、テキストデータを、ユーザー操作に基づく文言データとして受け付けるキーボード12b等とが接続されている。一方、出力インターフェース13は、映像や音響、その他の信号(赤外線・紫外線、電波等)を出力するデバイスであり、この出力インターフェース13から、発話データに従って変化されるオブジェクトを含んだ画像データを出力する。そして、この本変更例においても、液晶ディスプレイなどの表示部13aと、音響スピーカーが含まれており、生成されるオブジェクトがこの表示部13aに表示され、また、音声データに基づいた音響がオブジェクトの動作に合わせてスピーカー13bから出力される。
通信インターフェース11は、音声同期処理装置1と通信ネットワーク5の間でデータの送受信を行う通信インターフェースであり、例えば、有線・無線LANや3G・PHS等の無線公衆回線の他、Bluetooth(登録商標)や赤外線通信、USB方式等によりデータの通信を行う。
制御部18は、制御部12は、CPUやDSP(Digital Signal Processor)等のプロセッサ、メモリ、及びその他の電子回路等のハードウェア、あるいはその機能を持ったプログラム等のソフトウェア、又はこれらの組み合わせなどによって構成された演算モジュールであり、各種のプログラムを適宜読み込んで実行することにより種々の機能モジュールを仮想的に構築し、構築された各機能モジュールによって、各部の動作制御、ユーザー操作に対する種々の処理を行っている。特に、本変更例において、制御部18は、入力インターフェース12から取得した音声データ及びテキストデータを管理サーバ4に送信したり、管理サーバ4から送信された、発話データに従って変化されるオブジェクトを含んだ画像データや音声データを含んだ配信データを取得して、出力インターフェース13から出力させる。
また、ユーザー端末2A及び2Bには、各種のプログラムやデータを記憶するメモリ17を有しており、サーバ装置4から取得したオブジェクトの変化を示した画像データ(動画データ)や、画像データ内の各音顔データに対応する音声データを一時的に蓄積している。なお、本変更例では、管理サーバ4のオブジェクト制御部144において、発話データに従って変化されるオブジェクトを生成し、そのオブジェクトを画像データ形式でユーザー端末2Bに送信する構成としたが、本発明は、これに限定するものではなく、ユーザー端末2Bの制御部18が制御信号生成部143から発話データを取得して、制御部18において、オブジェクトを生成して出力させてもよい。この場合、オブジェクト生成及びオブジェクト出力に必要な各種データ及びプルグラムは、予めメモリ17内に蓄積させておくか、オブジェクトを出力する毎に管理サーバ4から取得してメモ15内に一時的に蓄積させるものとする。
(音声同期処理方法)
以上の構成を有する音声同期処理システムを動作させることによって、本発明の音声同期処理方法を実施することができる。図10は、変更例に係る音声同期処理方法の概要を示すシーケンス図である。なお、ここでは、利用者U1が発話又はテキストの入力を行い、その入力されたデータに基づいて生成されたオブジェクトを利用者U2に対して閲覧可能に表示させる場合を例に説明する。
先ず、ユーザー端末2Aでは、利用者U1の操作に応じて入力データを取得する。具体的に、ユーザー端末2Aのキーボード12bは、利用者U1からのテキスト入力操作を受け付けて、同期すべき音声に対応する文字が含まれる文言データとして取得する。また、利用者U1がユーザー端末2Aを用いて発話すると、ユーザー端末2Aのマイク12aは、その発話の音響を同期すべき音声に対応する音素が含まれる音声信号として取得する。そして、取得された入力データ(文言データ及び音声信号、若しくは文言データのみ)は、通信インターフェース16を通じて、サーバ装置4に送信される(S401)。
管理サーバ4では、ユーザー端末2Aから入力データを取得すると(S402)、そのデータを音素抽出部141に送信する。そして、音素抽出部141及び音素長検出部142では、入力されたデータに基づいて、音素抽出処理及び音素長検出処理がされる(S403)。ここで、ステップS403で実行される音素抽出処理及び音素長検出処理は、管理サーバ4に入力された入力データの種別に応じて、処理が切り換えられる。具体的に、文言データ及び音声信号が入力された場合には、上述した第1実施形態に係る音素抽出処理及び音素長検出処理(S201〜S212)が実行され。一方、管理サーバ4に文言データのみが入力された場合には、上述した第2実施形態に係る音素抽出処理及び音素長検出処理(S301〜S307)が実行される。
その後、いずれかの処理が実行された、音素抽出部141で検出された音素と、音素長検出部142で検出された音素長とは、制御信号生成部143に入力され、図4に示すように、制御信号生成部143において、オブジェクトを変化させる制御信号を含む発話データが生成される。この際、制御信号生成部143では、オブジェクトの変化率を変動させるか否かの制御が行われる。具体的には、音素長比較部143aでは、検出された各音素長の音素IDに基づいて音素長データベース153を参照して、当該音素に設置された音素長のしきい値と、当該検出された音素の音素長とを比較して(S404)、入力された各音素長が所定のしきい値よりも長いか否かを判断する(S405)。
音素長が所定のしきい値よりも時間が短い比較結果である場合には(S405における“N”)、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する処理行い(S407)、オブジェクトの変化を変動させる制御を含んだ制御信号を生成する(S408)。
詳述すると、ステップS407において、例えば、話者が普通の速度で話している場合には、図3(a)に示すように、人の顔であるオブジェクトがそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話しているときには、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図3(b)に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現される。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなる。
一方、音素長が所定のしきい値よりも時間が長い比較結果である場合には(S405における“Y”)、オブジェクトの変化を変動させる制御を実行する(S406)。具体的には、図3(c)中の「さーーーーー」に示すように、非線形に変化させてオーバーなアクションを取らせるように、非線形的な変化を起こさせる制御信号を生成する(S408)。その後、音素、音素長、制御信号を含む発話データは、オブジェクト制御部144に出力される。
オブジェクト制御部144は、発話データ(制御信号を含む)に基づいて、音素に併せて変化されるオブジェクトを配信データとして生成して、ユーザー端末2Bに対して配信する。具体的には、先ず、発話データ内の各音素を選択して、オブジェクトデータベース154を参照し(S409)、オブジェクトデータベース154から音顔データを抽出する(S410)。その後、オブジェクト制御部144では、各音素についての音素長(発話開始時間及び発話終了時間)に基づいて音顔データを順番に並び替える。この際、各音顔データは、音顔データに従った設定情報や制御信号に基づいてオブジェクトを変化させる。具体的に、オブジェクト制御部144は、音顔データに従った設定情報に基づいて、音素に応じた口の動きや、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位を変化させるとともに、音素間での変化を補間処理する。
さらに、発話データ内にオブジェクトの変化率を変動させる信号が含まれている場合に、オブジェクト制御部144は、その信号に基づいて、オブジェクトを非線形的に大げさなアクションとするように表示したり、特別なグラフィック処理を挿入してイベントを発生させるなどの処理を実行する。なお、本変更例において、変化率を変動させる信号は、発話データ内にフラグを立てることにより実現され、発話データを読みみ出す際に、このフラグが合った場合に信号が検出されたとして変化率を変動させる。このように、発話データに基づいて変化されたオブジェクトを生成し(S411)、当該オブジェクトを画像データ形式又は動画形式に変換して、配信データとしてユーザー端末2Bに対して配信する(S412)。なお、配信先となるユーザー端末2Bは、例えば、電話会議システムなどで用いられる会員情報に基づいて、配信先のIPアドレスや電話番号等の配信先情報が予め管理サーバ4に蓄積されており、その配信先情報に基づいて、動画データが送信される。
ユーザー端末2Bでは、発話データに基づいて変化されるオブジェクトが纏められた画像データを受信して(S413)、制御部18の出力機能によって、表示部13aに変化されるオブジェクトが表示されるとともに、スピーカー13bからオブジェクト(音顔データ)の出力と同期させて各音素の音声を出力させる(S414)。その後、利用者U2の操作によって、ユーザー端末2Bに音声データやテキストデータが入力された場合には、管理サーバ4において、入力データに応じてオブジェクトが生成され、配信データとしてユーザー端末2Aに配信させることもでき、これにより、利用者U1及び利用者U2の間で相互で通話を行うこともできる。
(作用・効果)
このような本変更例によれば、管理サーバ4内において、ユーザー端末2Aから入力された音声信号、又は文言データに基づいて、オブジェクトを生成しているので、ユーザーが所持するユーザー端末2A及び2Bに対する処理負担の軽減、及びメモリ容量の有効利用を図ることができる。また、本変更例においては、通信ネットワーク5を介してユーザー端末2A及び2B間で相互にオブジェクトを表示させることができるため、例えば、利用者U1及びU2がそれぞれ所持する情報処理端末を用いて、チャットサービスやビデオメッセージサービスに用いることができる。また、本変更例において、管理サーバ4内に、入力された音声信号又は文言データを解析する機能モジュールを有するとともに、解析した結果に対応する返答データを蓄積して、入力された側のユーザー端末にたいして、返答データをオブジェクトに変換して返信させることもできる。これにより、本発明を音声対話受付案内サービスに利用することができる。
[応用例]
以上の各形態及び変更例に例示した音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムは、種々のシステムに利用され得る。すなわち、本発明の音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムを用いることで、例えば、コールセンターシステム、電話会議システム、汎用コンピューター、又はスマートフォンへの文章作成システム、音声指示による機械操作システム(カーナビ、電子カルテ等のハンズフリーコンピューティング)、指示を聞き分けるロボット技術、音声対話受付案内システム(自動音声応答装置)などに用いることができる。
1, 1a…音声同期処理装置
2A,2B…ユーザー端末
3…無線基地局
4…管理サーバ
5…通信ネットワーク
11…通信インターフェース
12…入力インターフェース
12a…マイク
12b…キーボード
13…出力インターフェース
13a…表示部
13b…スピーカー
14…アプリケーション実行部
14a…制御部
15,17…メモリ
16…通信インターフェース
18…制御部
141…音素抽出部
141a…文言データ取得部
141b…音声分析部
142…音素長検出部
142a…発話設定部
143…制御信号生成部
143a…音素長比較部
143b…変化率制御部
144…オブジェクト制御部
151…音素データベース
152…文字データベース
153…音素長データベース
154…オブジェクトデータベース

Claims (12)

  1. 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理装置であって、
    同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出部と、
    前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
    前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と
    を備え
    前記音素抽出部は、
    同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
    前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
    を備え、
    前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
    ことを特徴とする音声同期処理装置。
  2. 前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
    前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
    前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
    ことを特徴とする請求項に記載の音声同期処理装置。
  3. 前記音素抽出部は、
    同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
    前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
    ことを特徴とする請求項1に記載の音声同期処理装置。
  4. 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、コンピューターに、
    同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
    前記音素抽出ステップによって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
    前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
    を含む処理を実行させ、
    前記音素抽出ステップは、
    同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
    前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
    を含み、
    前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
    ことを特徴とする音声同期処理プログラム。
  5. 前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
    前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
    前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
    ことを特徴とする請求項に記載の音声同期処理プログラム。
  6. 前記音素抽出ステップは、
    同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
    前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
    ことを特徴とする請求項に記載の音声同期処理プログラム。
  7. 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理方法であって、
    音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
    前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
    前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
    を含み、
    前記音素抽出ステップは、
    同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
    前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
    を含み、
    前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
    ことを特徴とする音声同期処理方法。
  8. 前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
    前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
    前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
    ことを特徴とする請求項に記載の音声同期処理方法。
  9. 前記音素抽出ステップは、
    同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
    前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
    ことを特徴とする請求項に記載の音声同期処理方法。
  10. 音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、
    同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データを入力する入力手段と、
    前記入力手段から前記音声信号又は前記文言データを取得し、取得した前記音声信号又は前記文言データから、発話すべき各音素を抽出する音素抽出部と、
    前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
    前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と、
    前記制御信号生成部から前記発話データを取得し、取得された発話データに従って変化されるオブジェクトを出力する出力手段と
    を備え
    前記音素抽出部は、
    同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
    前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
    を備え、
    前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
    ことを特徴とする音声同期システム。
  11. 前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
    前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
    前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
    ことを特徴とする請求項10に記載の音声同期システム。
  12. 前記音素抽出部は、
    同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
    前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を前記検出結果として出力する
    ことを特徴とする請求項10に記載の音声同期システム。
JP2014021276A 2014-02-06 2014-02-06 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム Active JP5913394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014021276A JP5913394B2 (ja) 2014-02-06 2014-02-06 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014021276A JP5913394B2 (ja) 2014-02-06 2014-02-06 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Publications (2)

Publication Number Publication Date
JP2015148932A JP2015148932A (ja) 2015-08-20
JP5913394B2 true JP5913394B2 (ja) 2016-04-27

Family

ID=53892246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014021276A Active JP5913394B2 (ja) 2014-02-06 2014-02-06 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Country Status (1)

Country Link
JP (1) JP5913394B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6665446B2 (ja) * 2015-08-21 2020-03-13 ヤマハ株式会社 情報処理装置、プログラム及び音声合成方法
KR102116315B1 (ko) * 2018-12-17 2020-05-28 주식회사 인공지능연구원 캐릭터의 음성과 모션 동기화 시스템
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CA3045132C (en) * 2019-06-03 2023-07-25 Eidos Interactive Corp. Communication with augmented reality virtual agents
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
JP7194371B1 (ja) 2022-06-29 2022-12-22 カバー株式会社 プログラム、方法、情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3551668B2 (ja) * 1996-12-20 2004-08-11 オムロン株式会社 似顔絵送信装置、似顔絵通信装置及び方法
JP2001029649A (ja) * 1999-07-21 2001-02-06 Taito Corp 音声認識により音声視覚表示を行うゲーム機
JP4631077B2 (ja) * 2006-05-02 2011-02-16 株式会社国際電気通信基礎技術研究所 アニメーション作成装置
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置

Also Published As

Publication number Publication date
JP2015148932A (ja) 2015-08-20

Similar Documents

Publication Publication Date Title
JP5913394B2 (ja) 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
CN110688911B (zh) 视频处理方法、装置、***、终端设备及存储介质
US20200279553A1 (en) Linguistic style matching agent
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20020111794A1 (en) Method for processing information
WO2019196306A1 (zh) 基于语音的口型动画合成装置、方法及可读存储介质
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
JP2017530393A (ja) 顔構造に基づいて声を合成する方法および装置
JP2012073941A (ja) 音声翻訳装置、方法、及びプログラム
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN112735371A (zh) 一种基于文本信息生成说话人视频的方法及装置
KR20110081364A (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
EP3534363A1 (en) Information processing device and information processing method
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
US20230148275A1 (en) Speech synthesis device and speech synthesis method
CN116597858A (zh) 语音口型匹配方法、装置、存储介质及电子设备
US12002487B2 (en) Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy
CN113948062A (zh) 数据转换方法及计算机存储介质
JP2020006482A (ja) アンドロイドのジェスチャ生成装置及びコンピュータプログラム
JP2002132291A (ja) 自然言語対話処理装置およびその方法並びにその記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160401

R150 Certificate of patent or registration of utility model

Ref document number: 5913394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250