JP5913394B2

JP5913394B2 - 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Info

Publication number: JP5913394B2
Application number: JP2014021276A
Authority: JP
Inventors: 裕子石若
Original assignee: PS Solutions Corp
Current assignee: PS Solutions Corp
Priority date: 2014-02-06
Filing date: 2014-02-06
Publication date: 2016-04-27
Anticipated expiration: 2034-02-06
Also published as: JP2015148932A

Description

本発明は、２Ｄ又は３Ｄの動画アニメーションや人形やロボットなどの立体物等のオブジェクトに対する動作制御を、音声に同期させるための音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システムに関する。

従来、ユーザーの音声を認識する音声認識技術が普及しており、コールセンターサービス、カーナビシステム、ＣＧキャラクター生成システムなどでこの音声認識技術が用いられている。そして、この音声認識技術を応用した技術として、認識された音声に合わせて、コンピューターの画面上に表示される顔の画像（キャラクター）の口を変化させるものがある（例えば、特許文献１）。

特開２００１-３１９２４１号公報

しかしながら、特許文献１に開示されたような技術では、単に入力された音声データのうち母音に基づいて、画像の口を変化させる技術であるため、合成音声が機械的であって表現が不自然になり、キャラクターの感情等を適切に表現することはできないという問題があった。

そこで、本発明は、上記のような問題を解決するものであり、２Ｄ又は３Ｄの動画アニメーションや人形やロボットなどの立体物等のオブジェクトに対する動作制御を音声に同期させる際、同期されるオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、オブジェクトによる感情表現などの表現力を向上させることのできる音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システムを提供することを目的とする。

上記課題を解決するために、本発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理装置であって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出部と、音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、音素抽出部が検出した音素と、音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部とを備える。
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。

また、他の発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理方法であって、
（１）音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
（２）音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
（３）音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップと
を含む。
前記音素抽出ステップは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップとを含み、前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。

さらに、他の発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データを入力する入力手段と、入力手段から音声信号又は文言データを取得し、取得した音声信号又は文言データから、発話すべき各音素を抽出する音素抽出部と、音素抽出部によって検出された発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、音素抽出部が検出した音素と、音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と、制御信号生成部から発話データを取得し、取得された発話データに従って変化されるオブジェクトを出力する出力手段とを備える。
前記音素抽出部は、同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部とを備え、前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。

ここで、本発明における「オブジェクト」とは、人間や動物、妖精、ロボットなど言葉を話す生物その他のクリーチャーやキャラクターを表現したものであり、２Ｄ又は３Ｄの動画アニメーションでもよく、実際に造形されて動作制御が可能な人形やロボットなどの立体物であってもよい。また、このようなオブジェクトを変化させる「制御信号」とは、上述した動画アニメーションや立体物を動作制御する信号であり、音素に応じた口の動きの他、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位やパーツの位置や大きさ、向き、移動量、その他のアクションを種々に変化させたり、グラフィックを挿入するなどのイベント処理を実行させたりするものである。

本発明において、「同期すべき音声」とは、上記オブジェクトの動作に同期させられて発せられる音や声であって、日本語や英語など各国の言語の他、動物やロボット、その他のクリーチャーの擬音語（「ワンワン」や「ニャーニャー」、「ガチャンガチャン」等）や、擬態語（「しーん」や「めろめろ」、「ばらばら」等）が含まれる。なお、この「同期すべき音声」として動物の鳴き声を適用する場合には、その鳴き声の判定は、音量の他に、音の立ち上がりの鋭さや、遠吠えのビブラートなどを検出することにより行うことができる。

また、本発明における「音素」とは、話者が認識している言語音であり、日本語であれば、一般的に母音、子音及び半母音を主な単位要素とし、必要に応じてさらには撥音や長音、促音も一つの単位要素として含まれる。さらに、「音素長」とは、一つの音素が発話される継続時間であるが、必要に応じて、単一音素が伸ばされているのか、母音音素が繰り返されているのかを選択するようにしてもよい。

このような本発明によれば、音声にオブジェクトの動きを同期させる際、音素長（音素の継続時間）によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。
また、本発明では、音声データと、その音声を文字で記述したテキストデータとに基づいて発話データを生成することができるため、音声データに含まれる音声が不明瞭であったり、ノイズが含まれているような場合であっても、適切に音声とオブジェクトの同期を取ることができる。

上記発明において、音素長が所定のしきい値よりも長いか否かを判断する音素長比較部と、音素長比較部による比較結果に基づいて、オブジェクトの変化率を変動させる変化率制御部とをさらに備えることが好ましい。この場合には、例えば、音素長がしきい値よりも短い場合にはオブジェクトを滑らかな線形的変化とし、しきい値よりも長い場合にはオブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることにより、より感情表現の多様化を図ることができる。

なお、本発明において、上記「所定のしきい値」としては、音素長と直接比較される具体的な時間長（例えば秒）であってもよく、文章全体やフレーズ、文言中における音素長の平均に対する比などであってもよい。

上記発明において、制御信号に基づいてオブジェクトを変化させるオブジェクト制御部をさらに有し、オブジェクトは、複数のパーツによって動作や表情を表現するものであり、オブジェクト制御部は、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させることが好ましい。この場合には、各音素の種類と、その音素を発話している人の顔のパーツに関する情報である音顔データとを予め紐付けておき、音顔データに従ってオブジェクトを制御することから、オブジェクト制御の際の演算量を低減することができる。なお、音顔データによる設定及び制御信号に基づくオブジェクトの変化には、例えば、各音素に対応した音顔データを、発話に従って連続させるとともに、各音素に対応した各音顔データを、線形あるいは非線形に補間する処理などが含まれる。

ここで、本発明において「文言」とは、所定の纏まりを有する言葉（文字）の羅列であり、日本語であれば、単語+てにをは、や、動詞＋助詞のグループを意味し、「文言データ」とはこのような文言を、文字列あるいは音で表記したテキストデータを意味する。

さらに、本発明において「フレーズ」とは、発話する際に、センテンスの中、「間」で区切られた一つ又は複数連続した文言を意味し、フレーズ文字数とは、センテンス中で「間」で区切られた各フレーズの中にそれぞれ含まれる文字数を意味する。具体例を挙げると、日本語での「みなさん（間）おはようございます」というセンテンスについては、「みなさん」と「おはようございます」という間によって区切られた２つのフレーズが含まれ、「フレーズ文字数」は、前半のフレーズ「みなさん」が４となり、後半のフレーズ「おはようございます」が９となる。

そして、本発明において、フレーズ数の判定は、例えば、文言データに含まれる、句読点や改行、スペース、記号その他の制御文字などを「間」として読み取って行う他、辞書データを参照して、文章の形態素から推定するようにしてもよい。一方、本発明において、「発話候補数」とは、分析対象となる音声信号から実際に抽出されるフレーズの中に含まれ、音素として発声される文字数であり、例えば、一定長さの無音部分を「間」としてフレーズを抽出し、各フレーズ内に含まれる文字数をカウントする。

上記発明において、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、音素長検出部は、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力することが好ましい。この場合には、テキストデータのみで発話データを生成することができるため、音声を後から合成するようなコンテンツを制作する場合であっても、適切に音声とオブジェクトの同期を取ることができる。

また、上述した本発明に係る装置及び方法は、所定の言語で記述されたプログラムをコンピューター上で実行することにより実現することができる。
すなわち、本発明は、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、
（１）コンピューターに、同期すべき音声に対応する音素が含まれる音声信号から各音素を抽出する音素抽出ステップと、
（２）音素抽出ステップによって検出された音素毎の時間長を検出する音素長検出ステップと、
（３）音素抽出ステップで検出した音素と、音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を生成し、出力する制御信号生成ステップとを含む処理を実行させる。
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する。

このようなプログラムを、ユーザー端末やＷｅｂサーバ等のコンピューターやＩＣチップにインストールし、ＣＰＵ上で実行することにより、上述した各機能を有する音声同期処理装置を容易に構築して、音声同期処理方法を実施することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、また、汎用コンピューターで読み取り可能な記録媒体に記録することにより、スタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。記録媒体として、具体的には、フレキシブルディスクやカセットテープ等の磁気記録媒体、若しくはＣＤ-ＲＯＭやＤＶＤ-ＲＯＭ等の光ディスクの他、ＲＡＭカードなど、種々の記録媒体に記録することができる。そして、このプログラムを記録したコンピューター読み取り可能な記録媒体によれば、汎用のコンピューターや専用コンピューターを用いて、上述した音声同期処理装置及び音声同期処理方法を簡便に実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

以上述べたように、この発明によれば、音声にオブジェクトの動きを同期させる際、音素の時間長（継続時間）によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。

第１実施形態に係る音声同期処理装置の内部構成を示すブロック図である。（ａ）〜（ｃ）は、第１実施形態に係るデータ構成を示す説明図であり、同図（ａ）は、複数の音素が連続した音声信号を示し、同図（ｂ）は、分割された各音素の音声信号を示し、同図（ｃ）は、発話データの内容を示している。第１実施形態に係る表示部に表示されるオブジェクトを示す説明図である。第１実施形態に係る音声同期処理方法の概要を示すフローチャート図である。第１実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。第２実施形態に係る音声同期処理装置の内部構成を示すブロック図である。第２実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。変更例に係る音声同期処理方法の概要を示すシーケンス図である。

以下に添付図面を参照して、本発明の実施形態を詳細に説明する。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、あるいはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

［第１実施形態］
先ず、本発明の第１実施形態について説明する。本実施形態では、本発明の音声同期処理装置を、パーソナルコンピューター等の情報処理装置に適用した場合を例に説明する。図１は、本実施形態に係る音声同期処理装置の内部構造を示すブロック図である。

（音声同期処理装置の構成）
本実施形態に係る音声同期処理装置１は、ＣＰＵやメモリ装置を備えた演算処理装置であり、パーソナルコンピューター等の汎用コンピューターや、機能を特化させた専用装置により実現することができ、例えば、モバイルコンピューターやＰＤＡ（Personal Digital Assistance）、携帯電話機、スマートフォンなどが含まれる。

そして、この音声同期処理装置１には、通信インターフェース１１と、入力インターフェース１２と、出力インターフェース１３と、メモリ１５と、アプリケーション実行部１４とを備えている。

入力インターフェース１２は、キーボード、マウス、及びタッチパネルなどユーザー操作を入力したり、音声や電波、光（赤外線・紫外線）等が入力されるデバイスであり、特に本実施形態では、外部から入力された音響を、同期すべき音声に対応する音素が含まれる音声信号（電気信号）として取得するマイク１２ａと、ユーザー操作に基づいて入力されたテキストデータを、同期すべき音声に対応する文字が含まれる文言データとして受け付けるキーボード１２ｂ等とが接続されている。なお、マイク１２ａから取得された音声信号を、音声認識手段により認識された文字列からなるテキストデータとして取得することもでき、キーボード１２ｂから入力されたテキストデータを、音声合成手段により合成された音声信号として取得するようにしてもよい。

なお、本実施形態において「同期すべき音声」とは、上記オブジェクトの動作に同期させられて発せられる音や声であって、日本語や英語など各国の言語の他、動物やロボット、その他のクリーチャーの擬音語（「ワンワン」や「ニャーニャー」、「ガチャンガチャン」等）や、擬態語（「しーん」や「めろめろ」、「ばらばら」等）が含まれる。

一方、出力インターフェース１３は、映像や音響、その他の信号（赤外線・紫外線、電波等）を出力するデバイスであり、本実施形態では、液晶ディスプレイなどの表示部１３ａと、音響スピーカーが含まれており、生成されるオブジェクトがこの表示部１３ａに表示され、また、音声データに基づいた音響がオブジェクトの動作に合わせてスピーカー１３ｂから出力される。

通信インターフェース１１は、音声同期処理装置１と通信ネットワーク５の間でデータの送受信を行う通信インターフェースであり、例えば、有線・無線ＬＡＮや３Ｇ・ＰＨＳ等の無線公衆回線の他、Ｂｌｕｅｔｏｏｔｈ（登録商標）や赤外線通信、ＵＳＢ方式等によりデータの通信を行う。通信ネットワーク５は、いわゆるインターネットであり、通信プロトコルＴＣＰ／ＩＰを用いたＩＰ網であって、種々の通信回線（電話回線やＩＳＤＮ回線、ＡＤＳＬ回線、光回線などの公衆回線、専用回線、無線通信網）を相互に接続して構築される分散型の通信ネットワークである。このＩＰ網には、１０ＢＡＳＥ-Ｔや１００ＢＡＳＥ-ＴＸ等による有線・無線のイントラネット（企業内ネットワーク）や家庭内ネットワークなどのＬＡＮなども含まれる。

メモリ１５は、ＯＳ（Operating System）やファームウェア、各種のアプリケーション用のプログラム、その他のデータ等などが記憶される記憶装置であり、特に、このメモリ１５内には、本発明に係る音声同期処理プログラムが格納される。なお、この音声同期処理プログラムは、ＣＤ-ＲＯＭ等の記録媒体からインストールされたり、通信ネットワーク５上のサーバからダウンロードされてインストールされることで格納される。そして、メモリ１５には、音素データベース１５１と、文字データベース１５２と、音素長データベース１５３と、オブジェクトデータベース１５４とを備えている。

音素データベース１５１は、各音素を記憶するデータベースであり、例えば言語や方言毎、年代や性別毎に音素のデータセットを備えることができる。なお、ここにいうデータベースとしては、複数のデータベースがリレーションにより相互に関連づけられたリレーショナルデータベースの他、テーブルデータや配列変数やデータセットであってもよい。ここで、「音素」とは、話者が認識している言語音であり、日本語であれば、一般的に母音（/a/, /i/, /u/, /e/, /o/ ）、子音（/k/, /s/, /t/, /c/, /n/, /h/, /m/, /r/, /g/, /z/, /d/, /b/, /p/ ）及び半母音（/j/, /w/）を主な単位要素とし、必要に応じてさらには撥音や長音、促音も一つの単位要素として含まれる。この各音素は、その音の読みそのものを引数としたデータセットとして蓄積してもよく、必要に応じて各音素を識別する音素ＩＤに関連付けて蓄積してもよい。

上記文字データベース１５２は、読み情報（発話すべき文字についての発声情報）が付いた文字情報を記憶するデータベースであり、日本語であれば、漢字（熟語・単漢字を含む）や英単語等の各文字を識別する文字コード（キャラクターコード）に、カタカナ等の読み仮名や発音記号などに表記された読み情報が関連付けられて蓄積されている。また、読み情報としては、その音の読みそのものを引数としたデータセットとして蓄積してもよく、各音素を識別する音素ＩＤに関連づけて蓄積してもよい。

オブジェクトデータベース１５４は、表示部１３ａに表示するオブジェクトに関する情報を記憶するデータベースである、ここで、「オブジェクト」とは、人間や動物、妖精、ロボットなど言葉を話す生物その他のクリーチャーやキャラクターを表現したものであり、２Ｄ又は３Ｄの動画アニメーションでもよく、実際に造形されて動作制御が可能な人形やロボットなどの立体物であってもよい。本実施形態では、オブジェクトとして、複数のパーツ（目、眉、口、輪郭、髪等）によって動作や表情を表現するものであり、本実施形態では人の顔を模したものを用いている。また、データベース内には、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データとともに、各音顔データに従った位置、変形及び動作に関する設定情報が蓄積されている。

ここで「音顔データ」とは、各音素の種類と、その音素を発話（発声）しているオブジェクトの動作や表情に関する情報であり、各音顔データに各音素が関連付けられて蓄積されている。この音顔データについて、本実施形態では、人の顔の各パーツの変位や変形に関する情報であり、オブジェクトの種類（動物の種類や、性別、年令、キャラクターなど）に応じて、データセットを切り換えるようなデータベース構造としている。

また、「音顔データに従った位置、変形及び動作に関する設定情報」とは、この音顔データに対する各パーツの位置、大きさ、又は形状を示す座標データの他、発話時における各パーツの動作情報（発話動作開始から発話動作終了までの変化パラメータ）などの基本動作に関する情報が含まれる。これら音顔データや設定情報は、例えば、３Ｄセンサーから取得した顔の表情を数値化する技術などを用いて作成される。

さらに、このオブジェクトデータベース１５４には、オブジェクトの変化率を変動させるための情報が含まれている。この「オブジェクトの変化率を変動させる」とは、例えば、驚きを表現するためにあごが外れたり目が飛び出したりなど、オブジェクトを非線形的に大げさなアクションをさせたり、背景に爆発や陰影を表示させるなどの特別なグラフィック処理を挿入するなどイベント処理を実行したりする処理である。この各音顔データを変化させる情報は、例えば、一音素の継続時間や、フレーズやフレーズを含む文言単位の時間長に応じて切り換えられるように、段階的に関連付けて記憶させてもよい。さらに、音素長のみでは表現すべき感情の種類が判別できない場合もあることから、発話されている言葉の意味や属性を、辞書を用いて照合し、その照合結果に基づいて上記イベント処理の種類を切り換えるようにしてもよい。この言葉の意味や属性に関する辞書情報は、例えば、上記文字データベース１５２に、言葉の意味や属性の辞書情報を組み込んでおき、オブジェクトデータベース１５４に、文字データベース１５２で照合された辞書情報に連動されるイベント情報を紐付けるようにする。

音素長データベース１５３は、各音素の音素長のしきい値を記憶するデータベースあるいはデータセットであり、各音素又は各音素ＩＤに関連付けられて記憶されている。ここで、「音素長」とは、一つの音素が発話（発声）される継続時間であるが、必要に応じて、単一音素が伸ばされているのか、母音音素が繰り返されているのかを選択するようにしてもよい。また「しきい値」は、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりするなど、オブジェクトに変化をもたらすか否かを判定するために用いられる値であり、本実施形態では、フレーズ中における各音素の平均音素長に対する比率が用いられており、平均音素長に対する各音素の比率を算出し、その算出結果が１．５倍以上となるか否かで判断するように設定されている。なお、音素長データベース１５３は、各音素の一般的な平均音素長についても蓄積されており、入力された音声信号が平均音素長か否かを簡易的に比較する演算処理も利用可能となっている。

この音素長データベース１５３に格納されているデータは、本実施形態では、例えば、音素毎に、人間の話すスピードの最小値を設定したり(本実施形態では、最小値を０．１秒)、線形的な変化から非線形的な変化へ遷移するしきい値（時間長）を音素毎に関連づけて記録している。このしきい値は単一の数値であってもよく、段階的な数値としてもよい。
そして、本実施形態では、この音素長データベース１５３を参照することにより、音素数と全体のセンテンスの長さから、各音素のしきい値と比較し、早口であるか、ゆっくり話をしているかを推定したり、数段階に分けたしきい値と順次比較することにより、段階的に表情を変更してもよいし、線形補間をして変更してもよい。

なお、ここでは、この音素長データベース１５３を設け、音素毎にしきい値を設定する場合を例示したが、この音素長データベース１５３を省略し、すべての音素に共通のしきい値や関数を設定するようにしてもよい。この場合、表情の変化のパラメータは、共通のしきい値との比較により、センテンス全体の長さと、そこに含まれている音素数、及び極端に長くなっている音素を検出する。

アプリケーション実行部１４は、一般のＯＳやブラウザソフト、電子メール、画像表示ソフトなどのアプリケーションを実行するモジュールであり、通常はＣＰＵ等により実現される。このアプリケーション実行部１４で、通信ネットワーク５上の管理サーバからダウンロードした音響信号検出プログラムを実行することにより、ＣＰＵ上に音素抽出部１４１と、音素長検出部１４２と、制御信号生成部１４３と、オブジェクト制御部１４４とが仮想的に構築される。図２（ａ）〜（ｃ）は、第１実施形態に係るデータ構成を示す説明図であり、図３は、第１実施形態に係る表示部に表示されるオブジェクトを示す説明図である。なお、図２（ａ）及び（ｂ）は、音声波形を示すグラフであり、横軸が時間を示し、縦軸は振幅を示している。

音素抽出部１４１は、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出するモジュールであり、図２（ａ）に示すように、各音素が連続した音声信号を、図２（ｂ）に示すように各音素に分割して抽出する。なお、図２（ａ）及び（ｂ）は、音声波形を示すグラフであり、横軸が時間を示し、縦軸は振幅を示している。

音素を抽出する処理としては、例えば、音声信号を取得し、その音声信号を音声認識処理により分析することで音響的な特徴量を取り出し、その音響的な特徴量と、一致又は類似する音素を音素データベースから検索することで、音声信号内にある各音素部分をそれぞれ抽出する。

また、本実施形態において、音素抽出部１４１は、同期すべき音声についての音声信号（音声データ）及びテキストデータをそれぞれ取得して、これらのデータから各音素を抽出する機能を有している。具体的に、音素抽出部１４１には、文言データ取得部１４１ａと、音声分析部１４１ｂとを備えている。

文言データ取得部１４１ａは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールであり、取得されたテキストデータの文字コードを認識し、フレーズとフレーズの区切りである「間」を検出して、フレーズを抽出するとともに、各フレーズに含まれる文字数をそれぞれフレーズ文字数としてカウントする。

この「間」の検出手法としては、句読点や改行、スペース、記号その他の制御文字などを「間」として読み取る他、辞書データを参照して、文章の形態素から推定するようにしてもよい。例えば、文言データが漢字とかなとが交じった文章である場合には、文法や辞書（品詞等の情報付き単語リスト）を用い、漢字の読みなどを正しく発話すべきカナ表記に変換したうえで、品詞の種類や送り仮名活用の種類などから、「間」を推定することができる。この文言データ取得部１４１ａにおいて算出されたフレーズ数や各フレーズ文字数は、音声分析部１４１ｂ及び音素長検出部１４２へ送出される。

一方、音声分析部１４１ｂは、文言データ（文言データ取得部１４１ａが算出したフレーズ数や各フレーズ文字数を含む。）とともに音声信号（音声データ）を取得し、取得された音声信号から、フレーズ（文言）を抽出し、フレーズ毎に音素を分割し、フレーズ単位で発話されるべき文字の数である発話候補数を算出するモジュールである。発話候補数の算出としては、先ず、取得した音声を、交流正弦波の正の部分のみを取り出す半波整流処理し、半波整流処理後のデータをブロック幅で積分をするとともに、ブロック単位の積分データを微分する。その後、微分データから、プラスマイナスの判定をし、プラスが一定時間継続している間は発話中とし、マイナスが一定時間継続している間は、発話していない「間」と判定する。

次いで、この「間」の検出により音声データを、フレーズ単位に分割する。このフレーズへの分割の際、文言データ取得部１４１ａが算出した文言データについてのフレーズ数を参照し、音声信号から抽出したフレーズ数と、文言データから抽出したフレーズ数とを比較し、一致するようであればフレーズ分割処理を完了し、一致しない場合は分割位置を追加・削除を行う。この分割位置の追加削除に際しては、「間」を検出する際の無音部分の検出精度を変動させることによって「間」の箇所を増減させる。このとき、文言データ取得部１４１ａが算出した「間」の位置を参照して、文言データ中の文字数や、音声信号の時間長に基づいて、より近似した箇所で音声信号を分割するようにしてもよい。

その後、分割されたフレーズ毎に音素を特定して、各フレーズに含まれる「発話されるべき文字」を抽出してカウントする。この各音素の特定については、文言データ取得部１４１ａでの処理と同様に各音素部分を抽出して行う。そして、音声分析部１４１ｂは、発話されている部分のみを音素として発話候補数を算出する。この音声分析部１４１ｂで算出された発話候補数は、それぞれ音素長検出部１４２に送出される。

音素長検出部１４２は、音素抽出部１４１によって検出された発話すべき音素毎の継続時間長を音素長として検出するモジュールであり、分割された各音素の音素長を計測することで、各音素の継続時間を検出する。なお、本実施形態では、音声データ及びテキストデータを取得し、音素長検出部１４２は、各フレーズ毎に、それぞれのフレーズ文字数と発話候補数とを比較し、音素抽出部１４１が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する機能を有している。具体的に、音素長検出部１４２は、算出されたフレーズ文字数と発話候補数とを比較する。ここで、発話候補数がフレーズ文字数よりも少ない場合は、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の音素長を比較する。ここで、「平均継続時間」とは、入力された音声信号のトータル時間を、入力されたフレーズ文字数によって除算して、一文字（一音素）あたりの平均時間を示したものである。

そして、音素長検出部１４２は、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の音素長とを比較した結果、平均継続時間よりも長い音素長部分を特定し、当該音素長部分から足りない文字数分を分割する。この際、音素長検出部１４２は、不足している音素をテキストデータから推定するとともに、その文字の子音と母音のデータを参照して音素長を推定する。

一方、発話候補数がフレーズ文字数よりも多い場合、音素長検出部１４２は、フレーズあたりの平均継続時間を算出し、この平均継続時間と、発話候補数における各音素の時間長を用い、それぞれの時間長及びエネルギー（振幅値）を比較する。比較した結果、音素長検出部１４２は、時間長が短く、かつ、エネルギー（振幅値）が少ない音素については、発話していないものと判定して当該音素を削除する。なお、この補正処理は、フレーズ文字数と発話候補数とが同じ数になるまで繰り返し行われ、同数となった時点で各音素の継続時間を測定し、各音素の音素長を検出する。そして、音素長検出部１４２において検出及び補正された各音素の時間長は、制御信号生成部１４３に送出される。

なお、本実施形態において「音素長」は、各音素の発話開始時刻により算出する。すなわち、一つの音素の発話が発話時刻ｉ（時分秒）に開始され、次の音素の発話が発話時刻（ｉ+１）に開始された場合、音素長は、発話時刻（ｉ+１）と発話時刻（ｉ）の差分（間隔時間）として求められる。このように本実施形態では、「音素長」は、発話開始時刻の差分（間隔時間）であるため、必ずしも実際に発声している時間長ではなく、一つの音素を長く発声している場合や、次の音素までに無音部分があるような場合も、同じ「音素長」として扱われる。

制御信号生成部１４３は、音素抽出部１４１が検出した音素と、音素長検出部１４２によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力するモジュールである。ここで、発話データとは、オブジェクトを画面上に表示させるためのすべての情報が含まれたものであり、図２（ｃ）に示すように、出力すべき各音素、音素に対応する音顔データ、各音素を出力する順番、及び各音素の開始時間及び終了時間が定義されている他、このデータ内にオブジェクトを変化させる制御信号が含まれている。

また、オブジェクトを変化させる「制御信号」とは、上述した動画アニメーションや立体物を動作制御する信号であり、音素に応じた口の動きの他、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位やパーツの位置や大きさ、向き、移動量、その他のアクションを種々に変化させたり、グラフィックを挿入するなどのイベント処理を実行させたりするものである。この制御信号は、オブジェクトデータベース１５４内に含まれた設定情報、各音素を出力する順番、トータル時間長、及び変化率を変動させる情報などに基づいて生成される。

また、制御信号生成部１４３には、オブジェクトの変化率を変動させる機能として、音素長比較部１４３ａと、変化率制御部１４３ｂとを備えている。音素長比較部１４３ａは、音素長データベース１５３を参照し、言語や方言等の属性に基づいて所定のしきい値を読みみ出し、当該音素の音素長が所定のしきい値よりも長いか否かを判断するモジュールである。ここで制御信号生成部１４３は、音素抽出部１４１によって抽出された音素を選択し、選択された音素に基づいて、当該音素の音素長を音素長データベース１５３内から選択して比較するようになっている。

変化率制御部１４３ｂは、音素長比較部１４３ａによる比較結果に基づいて、オブジェクトの変化率を変動させるモジュールである。本実施形態では、しきい値より長いと判断した場合には、オブジェクトの変化率を変動させる情報をオブジェクトデータベースから抽出し、その情報を制御信号に付加するようになっている。

オブジェクト制御部１４４は、制御信号に基づいてオブジェクトを変化させるモジュールであり、本実施形態において、オブジェクト制御部１４４は、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させる機能を有する。ここで、音顔データによる設定及び制御信号に基づくオブジェクトの変化とは、各音素に対応した音顔データを発話に従って連続させるなどの基本動作の他、各音素に対応した各音顔データを、線形あるいは非線形に補間するものなどが含まれる。また、オブジェクトの変化率を変動させる情報が付加されている場合、この情報に基づいて、オブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることも含まれる。

以下、オブジェクト制御における各処理について具体的に説明する。

（１）音顔データを連続させる処理について
先ず、各音素に対応した音顔データを発話に従って連続させる処理について説明する。初めに、オブジェクト制御部１４４は、発話データに基づいて各音素に応じた音顔データを表示部１３ａに表示させる基本処理を行う。具体的に、オブジェクト制御部１４４は、発話データ内の各音素を選択し、その音素に基づいてオブジェクトデータベース１５４を参照して該当する音顔データを抽出する。

この際、オブジェクト制御部１４４は、発話データ内に含まれた音素の音素長（出力開始時間及び終了時間を示した情報）も参照し、音顔データを発話が開始される順に配置し、このとき、各音素の音顔データと音顔データとの間を補間したうえで、その音顔データ及び補間された音顔データが配列された順に出力されるように制御する。さらに、オブジェクト制御部１４４は、各パーツに対して、オブジェクトデータベース１５４内の設定情報に基づいて、各パートに対して音顔データに従った位置、変形及び動作を制御する。

例えば、口の開き方のパラメータは、次式１で求めることができる。

（式１）…Ｐｎ’（ｉ）＝Ｐｎ（ｉ）×（ｔｎ（ｉ）／ａｖｅ）

ここで、「Ｐｎ」は、オブジェクトデータベース１５４内における各音の口の開け方に関するパラメータであり、「ｔｎ（ｉ）］は音素長、すなわち音素の継続時間を示し、「ａｖｅ］は、平均的な各音素の長さ（ｓｅｃ）である。これにより、入力された音声の早さに応じて、変更された口の開け方のパラメータ「Ｐｎ’（ｉ）」が決定される。すなわち、早口で発話し、音素長が短ければ変化量は小さくなり、音素長が長ければ変化量は大きくなる。

また、口以外の顔や首の動きについては、上述した口の開き方のパラメータ「Ｐｎ’（ｉ）」を次式２のように、関数変換させることで求めることができる。

（式２）…ｆ（ｔｎ（ｉ））＝ｅｙｅ．ｘ（ｔｎ（ｉ））

ここで、関数ｆ（ｘ）は、単純な乗算、logistic関数等の線形な関数が用いられている。

このように式１や２を用いたオブジェクト制御部１４４の処理によって、例えば、話者が普通の速度で話している場合には、図３（ａ）に示すように、音声「みなさん」に対応するように、人の顔であるオブジェクトが「み」「な」、「さ」、「ん」とそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話している場合、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図３（ｂ）に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現されている。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなり、さらに所定のしきい値以上の音素長になったとき（図３（ｃ）中の「さーーーーー」）には，非線形に変化させてオーバーなアクションを取らせることができる。

（２）音素間での変化における補間処理
具体的に、オブジェクト制御部１４４は、音素と音素の間におけるオブジェクトの表示を滑らかにする補間処理を行う。この補間処理とは、次式３で求めることができる。

（式３）…Ｐｍ＝Ｐｎ’（ｉ）＋（（Ｐｎ’（ｉ＋１）-Ｐｎ’（ｉ））／ｍ）

ここで、「Ｐｍ」は補間後のデータであり、「ｍ」は補間するデータの数である。このｍは、話者の速度、すなわち音素長（音素と音素の間隔時間）に応じて増減してもよく、早口であれば補間数を少なく、ゆっくりであれば補間数を多くする。

（３）オブジェクトの変化率を変動させる処理
オブジェクトの変化率を変動させる処理とは、音素長が所定のしきい値よりも小さいか大きいかに応じて、線形的な変化と，非線形的な変化とを切り換える処理である。具体的には、音素長がしきい値よりも小さいときには、音素長に比例させて、話者が早口で話して音素長が短い場合に変化量の最大値を小さくし、ゆっくり話しているときにはアクションを大きくする。その一方で、所定の音素長を長くして強調したときにはオブジェクトが非線形的に大げさなアクションをとったり、特別なグラフィック処理が挿入されるなどの、イベントが発生される。この処理は変化率制御部１４３ｂによってオブジェクトの変化率が変動された場合に実行される。

詳述すると、図３（ａ）や（ｂ）に示すように、音素長が所定のしきい値よりも小さいときには、その音素長に比例した変化率又は変化量で各パーツが線経的に変化され、図３（ｃ）中の「さ」のように、音素長が所定のしきい値を超える場合には、オブジェクトが非線形的に大げさなアクションをとるように、例えば、上記式２における関数ｆ（ｘ）を非線形の関数に切り換える。このように、非線形の関数を用いることで、漫画のように、急に表情を変更する表情の自動生成が可能となる。また、補間処理においても、上記式３に示したような線形の関数を用いず、非線形の関数を用いることで急に表情を変更する表情の自動生成が可能となる。

なお、オブジェクトの変化率を変動させるかどうかの基準は、判定は、音素長データベース１５３に格納された各音素に対応付けられたしきい値により決定され、そのしきい値は、使用するキャラクターや使用状況によって、適宜設定することができる。例えば、あるキャラクターでは、ある特定の文字でしきい値を超えたときは、目の玉を飛び出させる、などの設定を行うことができ、「ありがとうございました?」と、最後の”た”の音素長が他よりも長く、しきい値（例えば、平均値の１．５倍）を超えたら、目を飛び出させて、あごを外すなどのオーバーアクションを設定することができる。

なお、オブジェクト制御部１４４は、音顔データの出力と同期させて当該各音素の音声を出力させる。この音声は、入力されたユーザーの音声であってもよく、また、出力するオブジェクトに応じて、予めメモリ１５内に蓄積された音声データを用いてもよい。

（音声同期処理方法）
以上の構成を有する音声同期処理装置１を動作させることによって、本発明の音声同期処理方法を実施することができる。図４は、本実施形態に係る音声同期処理方法の概要を示すフローチャート図であり、図５は、図４に示したステップＳ１０１における音素抽出処理及び音素長検出処理の詳細を示すフローチャート図である。

音声同期処理方法は、音声にオブジェクトを同期させるための制御信号を生成する方法であって、先ず、音素抽出部１４１は、音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出するとともに、音素長検出部１４２は、音素抽出部１４１によって検出された発話すべき音素毎の継続時間長を音素長として検出する（Ｓ１０１）。

本実施形態においては、音声同期処理装置１に、同期させるべき音声についての音声信号とテキストデータとが入力され、これらのデータに基づいて音素抽出及び音素長検出処理が実行される。具体的には、図５に示すように、文言データ取得部１４１ａにおいて、同期すべき音声を文字で記述したテキストデータを文言データとして取得し（Ｓ２０１）、文言データから発話すべき文字の数であるフレーズ文字数を算出する（Ｓ２０２）。具体的には、文言データ取得部１４１ａにおいて、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールであり、取得されたテキストデータの文字コードを認識し、フレーズとフレーズの区切りである「間」を検出して、フレーズを抽出するとともに、各フレーズに含まれる文字数をそれぞれフレーズ文字数としてカウントする。この文言データ取得部１４１ａにおいて算出されたフレーズ数や各フレーズ文字数は、音声分析部１４１ｂ及び音素長検出部１４２へ送出される。

一方、音声分析部１４１ｂでは、文言データ（文言データ取得部１４１ａが算出したフレーズ数や各フレーズ文字数を含む。）とともに音声信号を取得し（Ｓ２０３）、取得された音声信号から、フレーズ（文言）を抽出し、フレーズ毎に音素を分割する（Ｓ２０４）。具体的には、音声信号中の「間」を検出することによって、音声データをフレーズ単位に分割する。このフレーズへの分割の際、音声分析部１４１ｂは、文言データ取得部１４１ａが算出した文言データについてのフレーズ数を参照し、音声信号から抽出したフレーズ数と、文言データから抽出したフレーズ数とを比較し、一致するようであればフレーズ分割処理を完了し、一致しない場合は分割位置を追加・削除を行う。この分割位置の追加削除に際しては、「間」を検出する際の無音部分の検出精度を変動させることによって「間」の箇所を増減させる。このとき、文言データ取得部１４１ａが算出した「間」の位置を参照して、文言データ中の文字数や、音声信号の時間長に基づいて、より近似した箇所で音声信号を分割するようにしてもよい。

その後、音声分析部１４１ｂは、分割されたフレーズ毎に音素を特定して、各フレーズに含まれる「発話されるべき文字」を抽出してカウントして、フレーズ単位で発話されるべき文字の数である発話候補数を算出する（Ｓ２０５）。音声分析部１４１ｂで算出された発話候補数、及び各音素に関する情報（音素ＩＤや音声信全体のトータル時間）は、音素長検出部１４２に入力される。

そして、音素長検出部１４２では、フレーズ文字数と発話候補数とを比較し、音素抽出部１４１が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する。具体的に、音素長検出部１４２は、先ず、フレーズ文字数と発話候補数とを比較し（Ｓ２０６）、フレーズ文字数と発話候補数とが一致するか否かを判断する（Ｓ２０７）。フレーズ文字数と発話候補数とが一致する場合には（Ｓ２０７における“Ｙ”）、音声信号と文言データとに相違がないと判断し、音声信号に基づいて抽出された各音素の音素長を検出する（Ｓ２１２）。

一方、フレーズ文字数と発話候補数とが一致しない場合には（Ｓ２０７における“Ｎ”）、音素長検出部１４２において、入力された音声信号のトータル時間を、入力されたフレーズ数によって除算し、さらにフレーズ毎にフレーズ文字数で除算してフレーズ毎の平均継続時間をそれぞれ算出したうえで（Ｓ２０８）、発話候補数がフレーズ文字数よりも少ないか否かを判断する（Ｓ２０９）。ここで、発話候補数がフレーズ文字数よりも少ない場合は（Ｓ２０９における“Ｙ”）、フレーズ文字数から算出した平均継続時間と、発話候補数における各音素の時間長を比較する。そして、平均継続時間よりも長い時間長部分の分割候補を算出し、
算出された分割候補のエネルギー（振幅値）が他の音素の音量の平均値よりもある一定量大きい場合は、長く継続している音素として、その長く継続している音素を除いた平均継続時間よりも長い時間から、新たな発話候補を推定する（繰り返し）。この際、音素長検出部１４２は、不足している音素をテキストデータから推定するとともに、その文字の子音と母音のデータを参照して音素長を推定して不足分の音素を追加する（Ｓ２１１）。

このとき、フレーズ文字数と発話候補数とが一致しない場合における平均継続時間よりも長い時間長部分の分割に際しては、平均継続時間よりも長い時間長部分の分割候補を選定する。そして、選定された分割候補のエネルギー（振幅値）が他の音素の音量の平均値よりもある一定量大きい場合に、長く継続している音素として、その長く継続している音素を除いた平均継続時間よりも長い時間長部分から、分割する候補の音素を選定する。例えば、フレーズが「こんにちはーーーー」である場合、フレーズ文字数は５音素であり、この場合において、発話候補数が４音素しかないときに、平均継続時間長との比較のみで分割すると、「はーーーー」と伸びているところが分割されることとなる。このため、本実施形態では、「はーーーー」の部分の特徴を抽出して、その部分の音素を除外し、その音素以外の音素から分割する候補を選定する。ここでの例では、「はーーーー」の部分の音量が大きくなるため、この部分は継続部分として分割対象から除外し、「こんにち」の中で一番間が空いている部分を検出して分割する。なお、音素分割の対象から除外する継続部分の特徴としては、例えば、音量や振幅値を用いることができる。

一方、発話候補数がフレーズ文字数よりも多い場合は（Ｓ２０９における“Ｎ”）、平均継続時間と各音素の時間長との、平均継続時間及びエネルギー（振幅値）とを比較して、時間長が平均継続時間よりも短く、かつ、エネルギー（振幅値）が少ない音素を抽出する。抽出された音素は、発話していないものと判定して当該音素を削除する（Ｓ２１０）。このステップＳ２１１及びＳ２１０の後は、再度、フレーズ文字数と発話候補数とを比較して、フレーズ文字数と発話候補数とが同じ数になるまで繰り返し処理する（Ｓ２０６〜Ｓ２１１）。

このようにして、音素抽出部１４１で検出された音素と、音素長検出部１４２で検出された音素長とは、制御信号生成部１４３に入力され、図４に示すように、制御信号生成部１４３において、オブジェクトを変化させる制御信号を含む発話データが生成される。この際、制御信号生成部１４３では、オブジェクトの変化率を変動させるか否かの制御が行われる。具体的には、音素長比較部１４３ａでは、検出された各音素長の音素ＩＤに基づいて音素長データベース１５３を参照して、当該音素に設置された音素長のしきい値と、当該検出された音素の音素長とを比較して（Ｓ１０２）、入力された各音素長が所定のしきい値よりも長いか否かを判断する（Ｓ１０３）。

音素長が所定のしきい値よりも時間が短い比較結果である場合には（Ｓ１０３における“Ｎ”）、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する処理行い（Ｓ１０９）、オブジェクトの変化を変動させる制御を含んだ制御信号を生成する（Ｓ１０５）。

詳述すると、ステップＳ１０９において、例えば、話者が普通の速度で話している場合には、図３（ａ）に示すように、人の顔であるオブジェクトがそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話しているときには、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図３（ｂ）に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現される。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなる。

一方、音素長が所定のしきい値よりも時間が長い比較結果である場合には（Ｓ１０３における“Ｙ”）、オブジェクトの変化を変動させる制御を実行する（Ｓ１０４）。具体的には、図３（ｃ）中の「さーーーーー」に示すように、非線形に変化させてオーバーなアクションを取らせるように、非線形的な変化を起こさせる制御信号を生成する（Ｓ１０５）。その後、音素、音素長、制御信号を含む発話データは、オブジェクト制御部１４４に出力される。

オブジェクト制御部１４４は、発話データ（制御信号を含む）に基づいて、オブジェクトを表示させるとともに、音素に併せてオブジェクトを変化させる。具体的には、先ず、発話データ内の各音素を選択して、オブジェクトデータベース１５４を参照し（Ｓ１０６）、オブジェクトデータベース１５４から音顔データを抽出する（Ｓ１０７）。その後、各音素についての音素長（発話開始時間及び発話終了時間）に基づいて音顔データを順番に出力させる。この際、各音顔データは、音顔データに従った設定情報や制御信号に基づいてオブジェクトを変化させる（Ｓ１０８）、具体的に、オブジェクト制御部１４４は、音顔データに従った設定情報に基づいて、音素に応じた口の動きや、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位を変化させるとともに、音素間での変化を補間処理する。

さらに、発話データ内にオブジェクトの変化率を変動させる信号が含まれている場合に、オブジェクト制御部１４４は、その信号に基づいて、オブジェクトを非線形的に大げさなアクションとするように表示したり、特別なグラフィック処理を挿入してイベントを発生させるなどの処理を実行する。なお、本実施形態において、変化率を変動させる信号は、発話データ内にフラグを立てることにより実現され、発話データを読みみ出す際に、このフラグが合った場合に信号が検出されたとして変化率を変動させる。

（音声同期処理プログラム）
上述した第１実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やＷｅｂサーバ等のコンピューターやＩＣチップにインストールし、ＣＰＵ上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

そして、このようなプログラムは、パーソナルコンピューターで読み取り可能な記録媒体に記録することができ、汎用のコンピューターや専用コンピューターを用いて、上述した音声同期処理装置、及び音声同期処理方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

（作用・効果）
このような本実施形態によれば、音声にオブジェクトの動きを同期させる際、音素の時間長（継続時間）によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。

特に、本実施形態において、音素長比較部１４３ａ及び変化率制御部１４３ｂでは、音素長が所定のしきい値よりも長いか否かを判断し、その判断結果によってオブジェクトの変化率を変動させているので、例えば、音素長がしきい値よりも短い場合には、オブジェクトを滑らかな線形的変化とし、しきい値よりも長い場合にはオブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理を挿入するなどイベント処理を実行したりすることにより、より感情表現の多様化を図ることができる。

さらに、本実施形態では、各音素の種類と、その音素を発話している人の顔のパーツに関する情報である音顔データとを予め紐付けているので、音顔データに従ってオブジェクトを制御することから、オブジェクト制御の際の演算量を低減することができる。

また、本実施形態によれば、音声データと、その音声を文字で記述したテキストデータとに基づいて発話データを生成しているので、音声データに含まれる音声が不明瞭であったり、ノイズが含まれているような場合であっても、適切に音声とオブジェクトの同期を取ることができる。

［第２実施形態］
次いで、第２実施形態について説明する。上述した実施形態では、音声信号及びテキストデータを用いて、音素数毎の時間長を検出してオブジェクトを変化させたが、本発明はこれに限定されるものではなく、テキストデータのみを用いて、音素数毎の時間長を検出してオブジェクトを変化させてもよい。図７は、第２実施形態に係る音声同期処理装置の内部構成を示すブロック図である。なお、第２実施形態において、上述した第１実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。

（音声同期処理装置の構成）
図７に示すように、本実施形態に係る音声同期処理装置１ａの音素抽出部１４１には、同期すべき音声を文字で記述したテキストデータを文言データとして取得する文言データ取得部１４１ａのみ備えている。そして、この文言データ取得部１４１ａでは、上記同様に、文言データから発話すべき文字の数であるフレーズ文字数を算出し、そのフレーズ文字数を音素長検出部１４２に送出する。

音素長検出部１４２には、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部１４２ａを備えている。なお、この設定は、表示部１３ａうえに設定受け付け画面を表示させ、ユーザーからの操作信号を受け付けることで設定される。トータル時間長の設定としては、例えば、「普通」、「早口」、又は「ゆっくり」などの予め設定されて時間長を選択する構成であってもよく、ユーザー自身が時間長の数値を入力する構成であってもよい。

一方、強調箇所の設定とは、オブジェクトに所定の変化を付けるための設定であり、例えば、特定の音素の時間長をしきい値よりも長く設定するものである。この強調すべき音素の特定としては、強調箇所すべき音素をユーザーが選択することでしきい値よりも長い所定時間長に自動で設定する構成であってもよく、また、ユーザー自身が時間長の数値を入力する構成であってもよい。なお、強調箇所は任意項目であるものとする。

音素長検出部１４２は、この発話設定部１４２ａにより設定されたトータル時間長及び強調箇所と、算出されたフレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。具体的には、強調箇所が設定されているか否かを判断し、強調箇所が設定されていない場合には、設定されたトータル時間長に基づいて各音素の音素長を算出する。この際、各音素長を均等な長さにしてもよく、また、平均音素長に基づいて、各音素の音素長をその比率に基づいて変動してもよい。

一方、強調箇所が設定されている場合には、強調された音素の音素長をしきい値よりも長く設定したうえで、残りのトータル時間長に基づいて各音素の音素長を設定する。この場合にも、残りの各音素は、各音素を均等な長さにしてもよく、また、平均音素長の比率に基づいて変動させてもよい。

その後、制御信号生成部１４３では、入力された音素及び音素長に基づいてオブジェクトを変化させる制御信号を生成する。ここで、強調箇所が設定されている場合には、当該音素の音素長はしきい値よりも長く設定されているため、音素長比較部１４３ａ及び変化率制御部１４３ｂによって、当該音素についてのオブジェクトの変化率が変動されるように設定される。

このように制御信号生成部１４３において、制御信号を含む発話データが生成され、当該制御信号がオブジェクト制御部１４４に入力されることで、第１実施形態と同様に画面上にオブジェクトが出力される。なお、本実施形態においても、オブジェクト制御部１４４は、音顔データに従った位置、変形、動作を示す設定情報、及び制御信号に基づいて、上記に記載した、音顔データを連続させる処理、音素間での変化における補間処理、及びオブジェクトの変化率を変動させる処理を実行する。

なお、本実施形態においては、テキストデータのみ入力されているため、オブジェクト制御部１４４は、例えば、ＴＴＳ（text-to-speech）技術を用いて、入力された文言データから音声信号を生成して出力させる。この場合、オブジェクト制御部１４４は、ＴＴＳによって生成された各音素の発話開始時間を取得し、当該発話開始時間から音顔データについて補間処理を実行する。

この補間処理としては、ＴＴＳの出力を変更する場合、実施形態１と同じ処理となり、ＴＴＳそのものに組み込む場合は、ＴＴＳが発話に用いる各音素及び各音素の発話時刻を取得し、各音素の音顔データを参照し、顔のパーツを制御して配置するとともに、音素長に応じて前記式１によって補間を行う、あるいは、あるしきい値を超えたときに、大げさな表現を選択する。

（音声同期処理方法）
次いで、上述したような構成を有する音声同期処理方法について説明する。なお、ここで、ステップ１０２からの処理は上述した第１実施形態と同様であるため、ステップＳ１０１での処理内容のみを説明するものとする。図８は、第２実施形態に係る音素抽出ステップ及び音素長検出ステップの詳細を示すフローチャート図である。

先ず、同期すべき音声を文字で記述したテキストデータが入力されると、文言データ取得部１４１ａは、テキストデータを文言データとして取得し（Ｓ３０１）、文言データから発話すべき文字の数であるフレーズ文字数を算出する（Ｓ３０２）。そして、算出されたフレーズ文字数は、発話設定部１４２ａに入力される。発話設定部１４２ａでは、例えば、ユーザー操作信号を取得し、当該操作信号から文言データを発話する際のトータル時間長及び強調箇所を設定する（Ｓ３０３）。

次いで、音素長検出部１４２は、設定されたトータル時間長及び強調箇所と、フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。具体的に音素長検出部１４２は、先ず、強調箇所の設定がされたか否かを判断し（Ｓ３０４）、強調箇所の設定がない場合には（Ｓ３０４における“Ｎ”）、フレーズ文字数及びトータル時間長から各音素の音素長を算出する（Ｓ３０５）。この算出方法としては、各音素の平均音素長に基づいて、各音素の音素長をその比率に基づいて変動させてもよく、また、トータル時間長と文字数とから音素長を均等な長さとしてもよい。

一方、強調箇所の設定がある場合には（Ｓ３０４における“Ｙ”）、強調指定された音素については、しきい値が超えるような音素長に設定し（Ｓ３０６）、その他の音素については、強調指定された音素長を除いたトータル時間長から各音素の音素長を算出して設定する（Ｓ３０７）。

音素長が設定された後は、当該音素と音素長は制御信号生成部１４３に入力され、制御信号生成部１４３において、制御信号を含めた発話データが生成される。強調箇所部分がある場合には、音素長比較部１４３ａにおいて、しきい値よりも長いと判断されて、変化率制御部１４３ｂにおいてオブジェクトの変化率を変動させる処理が実行される。これにより、オブジェクト制御部１４４では、この変化率を変動させる信号に基づいてオブジェクトを通常動作とは異なる動作で表示させる。一方、強調箇所部分がない場合は、設定情報に基づいてオブジェクトが通常動作が行われる。

（音声同期処理プログラム）
上述した第２実施形態係る音声同期処理装置、及び音声同期処理方法は、所定の言語で記述された音声同期処理プログラムをコンピューター上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やＷｅｂサーバ等のコンピューターやＩＣチップにインストールし、ＣＰＵ上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

（作用・効果）
このような本実施形態によれば、上述した第１実施形態と同様な効果をそうする。すなわち、音声にオブジェクトの動きを同期させる際、音素の時間長（継続時間）によってオブジェクトの動き方を変化させて、音声のスピードに合わせてオブジェクトの動きを自然なものとしたり、アクセントをつけて強調したりする等、音声に同期されるオブジェクトによる感情表現などの表現力を向上させることができる。さらに、本実施形態によれば、テキストデータのみで発話データを生成することができるため、音声を後から合成するようなコンテンツを制作する場合であっても、適切に音声とオブジェクトの同期を取ることができる。

［変更例］
なお、上述した各実施形態の説明は、本発明の一例である。このため、本発明は上述した実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。以下に、本発明の変更例について説明する。

例えば、第１実施形態では、音声信号及びテキストデータに基づいて、音素及び音素長を検出してオブジェクトを変化させ、第２実施形態ではテキストデータのみに基づいて、音素及び音素長を検出してオブジェクトを変化させたが、本発明はこれに限定されるものではなく、例えば、音声信号にのみで音素及び音素長を検出してオブジェクトを変化させてもよい。この場合、上述したように、音素抽出部１４１では、音声信号から音声認識処理で各音素を分割し、音素長検出部１４２では分割された音声からそれぞれの音素長を検出する。この場合、ユーザーがマイク１２ａに向けて発声するのみで、各音素及び音素長を検出してオブジェクトを変化させることができるので、テキスト入力の手間を軽減させることができる。

なお、いずれかの入力信号（音声信号のみ、テキストデータのみ、又は音声信号及びテキストデータ）を用いてオブジェクトを制御するかは、ユーザー操作に応じて設定してもよく、また、入力された信号に基づいて、アプリケーション実行部１４が自動で判断して各処理を変更させてもよい。また、上述した各実施形態の処理は、入力されるデータに基づいて、音声同期処理装置１が自動で処理を切り換えることもできる。具体的には、音声信号及びテキストデータが入力された場合には、第１実施形態のような処理を行い音素及び音素長を検出してオブジェクトを変化させ、テキストデータのみが入力された場合には、第２実施形態のような処理を行い、音素及び音素長を検出してオブジェクトを変化させる。

また、上述した各実施形態において、しきい値は、音声のスピードに合わせてオブジェクトの動きを自然なものにするか、アクセントをつけて強調するかを判断するために用いたが、本発明は、これに限定するものではなく、例えば、「喜び」、「悲しみ」、「怒り」、「驚き」など音顔データを所定の感情に変化させるために用いてもよい。

この場合、例えば、しきい値を各音素の平均音素長より短い値を設定したうえで、音素長比較部１４３ａにおいて、検出された音素長がしきい値よりも短いか否かを判断する。そして、当該音素長がしきい値よりも短い場合には、オブジェクトの表情が「怒り」の表情となるように、各パーツの変化率を変動させた制御信号を生成する。この場合には、音声のスピードに合わせてオブジェクトを「喜び」、「悲しみ」、「怒り」、「驚き」などの所定パターンに変化させることができるため、音声のスピードに合わせてオブジェクトの動きをより自然なものとすることができる。なお、本発明では、複数のしきい値を設定することもでき、音素長に応じて、例えば、「怒り」の感情においても、「静かな怒り」や「爆発する怒り」などに設定するなど、より細かく設定することもできる。また、複数のしきい値を設定することで、オブジェクトの感情を音声のスピードに合わせて変化させるとともに、上述した実施形態のように、一定の音素長となった場合には、オブジェクトを非線形的に大げさなアクションとすることもできる。

また、上述した実施形態では、音声同期処理プログラム、及び各種データベース１５１〜１５４を汎用コンピューターに保持させて、スタンドアローン形式でオブジェクトを変化させる処理を実行するようにしたが、本発明はこれに限定されるものではなく、通信ネットワーク５上に配置されたサーバにおいて、これらの処理を実行するようにしてもよい。

次いで、信ネットワーク５上に配置されたサーバを用いて、音声にオブジェクトを同期させるための制御信号を生成させる音声同期処理システムについて説明する。図８は、変更例に係る音声同期処理システムの概略構成を示すブロック図である。なお、変更例においても、上述した各実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。

（音声同期処理システムの概略構成）
本変更例に係る音声同期処理システムは、音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、図８に示すように、通信ネットワーク５上には、利用者Ｕ１及びＵ２が利用し、音声信号又は文言データが入力されるとともに、入力された音声信号又は文言データに基づいて生成されたオブジェクトが出力されるユーザー端末２Ａ及び２Ｂと、管理サーバ４とが接続される。

なお、本変更例では、利用者Ｕ１が発話者となって音声信号又は文言データをユーザー端末２Ａに入力することで、利用者Ｕ２が利用するユーザー端末２Ｂにオブジェクトを出力させる場合を例に説明するが、利用者Ｕ２が発話者となり、ユーザー端末２Ｂを用いて音声信号又は文言データを入力し、利用者Ｕ１が利用するユーザー端末２Ａにオブジェクトを出力させることもできる。

管理サーバ４は、音声同期処理サービスを提供するためのサーバアプリケーションを運用するサーバコンピューター、あるいはその機能を持ったソフトウェアとすることができ、本実施形態では、本発明に係る音声同期処理プログラムを保持し、ユーザー端末２Ａから音声信号又は文言データを取得するとともに、ユーザー端末２Ｂに対してオブジェクトを配信することができる。また、管理サーバ２は、ＷＷＷ（World Wide Web）等のドキュメントシステムにおいて、ＨＴＭＬ（HyperText Markup Language）ファイルや画像ファイル、音楽ファイルなどの情報送信を行うサーバコンピューターあるいはその機能を持ったソフトウェアであり、ＨＴＭＬ文書や撮影された画像などの情報を蓄積しておき、Ｗｅｂブラウザなどのクライアントソフトウェアの要求に応じて、インターネットなどの通信ネットワーク５を通じてこれらの情報を送信することもできる。

なお、本変更例において、管理サーバ４は、単一のサーバ装置から構成されたが、複数のサーバ装置で構成することも可能であり、また、装置や機器等のハードウェアのみならず、その機能を持ったソフトウェア、又はこれらの組み合わせなどによっても構成することができる。また、データベースも単一のデータベース装置の他、リレーションシップ機能により連携される複数のデータベース群で構成することもできる。

ユーザー端末２Ａ及び２Ｂは、ＣＰＵによる演算処理機能、及び通信インターフェースによる通信処理機能を備えたユーザー端末であり、例えば、パーソナルコンピューター等の汎用コンピューターや、機能を特化させた専用装置により実現することができ、モバイルコンピューターやＰＤＡ、携帯電話機等も含まれる。なお、本変更例では、２ａは、パーソナルコンピューター等の汎用コンピューターであり、２ｂは、移動電話やスマートフォン等の携帯情報端末であり、２ｃは、例えば、受付場所に設置され、音声対話受付案内システムに用いられる自動音声応答装置である。

この携帯情報端末２ｂの通信方式としては、例えば、４Ｇ方式、ＬＴＥ方式、３Ｇ方式、ＦＤＭＡ方式、ＴＤＭＡ方式、ＣＤＭＡ方式、Ｗ−ＣＤＭＡの他、ＰＨＳ（Personal Handyphone System）方式、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線ＬＡＮ方式が挙げられる。

無線基地局３は、中継装置を通じて通信ネットワーク５に接続され、ユーザー端末２Ａ及び２Ｂとの間で無線通信接続を確立し、ユーザー端末２Ａ及び２Ｂによる通話やデータ通信を提供する装置である。中継装置は、通信ネットワーク７に接続するためのモデムやターミナルアダプタ、ゲートウェイ装置等のノード装置であり、通信経路の選択や、データ（信号）の相互変換を行い、無線基地局３と、通信ネットワーク５との間における中継処理を行う。

（各装置の内部構造）
次いで、上述したシステムを構成する各装置の内部構造について説明する。図９は、変更例に係る管理サーバ及びユーザー端末の内部構成を示すブロック図である。なお、上記同様、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、あるいはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

（１）サーバ装置
先ず、サーバ装置４の内部構成について説明する。図９に示すように、サーバ装置４には、メモリ１５と制御部１４ａとを備えている。

メモリ１５は、ＯＳ（Operating System）やファームウェア、各種のアプリケーション用のプログラム、その他のデータ等などが記憶されるデータベース群であり、上述した実施形態同様に、このメモリ１５内には、本発明に係る音声同期処理プログラムが格納される。そして、メモリ１５には、音素データベース１５１と、文字データベース１５２と、音素長データベース１５３と、オブジェクトデータベース１５４とを備えている。なお、音素データベース１５１と、文字データベース１５２と、音素長データベース１５３と、オブジェクトデータベース１５４に蓄積されるデータ構成は、上述した実施形態と同様であるため、その説明は省略する。

制御部１４ａは、ＣＰＵやＤＳＰ（Digital Signal Processor）等のプロセッサ、メモリ、及びその他の電子回路等のハードウェア、あるいはその機能を持ったプログラム等のソフトウェア、又はこれらの組み合わせなどによって構成された演算モジュールであり、各種プログラムを適宜読み込んで実行することにより種々の機能モジュールを仮想的に構築し、構築された各機能モジュールによって、各部の動作制御、ユーザー操作に対する種々の処理を行っている。

この制御部１４ａには、音響信号検出プログラムを実行することにより、ＣＰＵ上に音素抽出部１４１と、音素長検出部１４２と、制御信号生成部１４３と、オブジェクト制御部１４４が仮想的に構築される。

音素抽出部１４１は、入力手段から音声信号又は文言データを取得し、取得した音声信号又は文言データから、発話すべき各音素を抽出するモジュールであり、音素抽出部１４１には、文言データ取得部１４１ａと音声分析部１４１ｂとを備える。

文言データ取得部１４１ａは、同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出するモジュールである。音声分析部１４１ｂは、文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出するモジュールである。

音素長検出部１４２は、音素抽出部１４１によって検出された発話すべき音素毎の継続時間長を音素長として検出するモジュールであり、音素長検出部１４２には、文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部１４２ａを備える。

なお、本変更例では、ユーザー端末２Ａから入力されたデータの種類に応じて、音素抽出部１４１及び音素長検出部１４２の機能モジュールが切り換えられる。具体的に、音声データと文言データとを用いて音素数毎の時間長を検出してオブジェクトを変化させる場合は、上述した第１実施形態のように、音素抽出部１４１には、文言データ取得部１４１ａと音声分析部１４１ｂとが構成され、音素長検出部１４２には、発話設定部１４２ａは構成されないようになっている。そして、音素長検出部１４２は、文言データ取得部１４１ａ及び音声分析部１４１ｂから取得したフレーズ文字数と発話候補数とを比較し、音素抽出部１４１が抽出した音素数を補正し、補正された音素数毎の継続時間長を音素長として検出する。

一方、文言データのみを用いて音素数毎の時間長を検出してオブジェクトを変化させる場合には、上述した第２実施形態のように、音素抽出部１４１には文言データ取得部１４１ａのみが構成され、音素長検出部１４２には発話設定部１４２ａが構成される。そして、音素長検出部１４２は、この発話設定部１４２ａにより設定されたトータル時間長及び強調箇所と、文言データ取得部１４１ａから取得したフレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する。なお、音素抽出部１４１及び音素長検出部１４２で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。

制御信号生成部１４３は、音素抽出部１４１が検出した音素と、音素長検出部１４２によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、ユーザー端末２Ｂに対して出力するモジュールである。この制御信号制御部１４３には、上述した各実施形態と同様に、音素長が所定のしきい値よりも長いか否かを判断する音素長比較部１４３ａと、音素長比較部１４３ａによる比較結果に基づいて、オブジェクトの変化率を変動させる変化率制御部１４３ｂとが構成される。なお、制御信号生成部１４３で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。

オブジェクト制御部１４４は、制御信号に基づいて、オブジェクトを変化させるモジュールであり、本変更例においても、複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、音顔データによる設定及び制御信号に基づいて、オブジェクトを変化させる。そして、本変更例に係るオブジェクト制御部１４４では、制御信号生成部１４３から取得された発話データに従って変化されたオブジェクトを画像データ形式又は動画データ形式に変換し、変換後のデータを配信データとしてユーザー端末２Ｂに対して配信している。この配信データは、各音素に対応した音顔データを発話に従って連続されるなどの基本動作の他、各音素に対応した各音顔データを、線形あるいは非線形に補間された画像となっている。また、オブジェクトの変化率を変動させる情報が付加されている場合、この情報に基づいて、オブジェクトを非線形的に大げさなアクションとしたり、特別なグラフィック処理が挿入された画像となっている。なお、配信データには、各音顔データに対応する各音素の音声も含まれている。なお、オブジェクト制御部１４４で実行される具体的な処理については、上述した各実施形態と同様であるため、その説明は省略する。

（２）ユーザー端末
次いで、ユーザー端末２Ａ及び２Ｂの内部構成について説明する。図９に示すように、ユーザー端末２Ａ及び２Ｂには、入力インターフェース１２と、出力インターフェース１３と、通信インターフェース１６と、制御部１８から構成される。

入力インターフェース１２は、キーボード、マウス、及びタッチパネルなどユーザー操作を入力したり、音声や電波、光（赤外線・紫外線）等が入力されるデバイスであり、この入力インターフェース１２から、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データが入力される。そして、本変更例においても、入力インターフェース１２には、外部から入力された音響を電気信号として取得するマイク１２ａと、テキストデータを、ユーザー操作に基づく文言データとして受け付けるキーボード１２ｂ等とが接続されている。一方、出力インターフェース１３は、映像や音響、その他の信号（赤外線・紫外線、電波等）を出力するデバイスであり、この出力インターフェース１３から、発話データに従って変化されるオブジェクトを含んだ画像データを出力する。そして、この本変更例においても、液晶ディスプレイなどの表示部１３ａと、音響スピーカーが含まれており、生成されるオブジェクトがこの表示部１３ａに表示され、また、音声データに基づいた音響がオブジェクトの動作に合わせてスピーカー１３ｂから出力される。

通信インターフェース１１は、音声同期処理装置１と通信ネットワーク５の間でデータの送受信を行う通信インターフェースであり、例えば、有線・無線ＬＡＮや３Ｇ・ＰＨＳ等の無線公衆回線の他、Ｂｌｕｅｔｏｏｔｈ（登録商標）や赤外線通信、ＵＳＢ方式等によりデータの通信を行う。

制御部１８は、制御部１２は、ＣＰＵやＤＳＰ（Digital Signal Processor）等のプロセッサ、メモリ、及びその他の電子回路等のハードウェア、あるいはその機能を持ったプログラム等のソフトウェア、又はこれらの組み合わせなどによって構成された演算モジュールであり、各種のプログラムを適宜読み込んで実行することにより種々の機能モジュールを仮想的に構築し、構築された各機能モジュールによって、各部の動作制御、ユーザー操作に対する種々の処理を行っている。特に、本変更例において、制御部１８は、入力インターフェース１２から取得した音声データ及びテキストデータを管理サーバ４に送信したり、管理サーバ４から送信された、発話データに従って変化されるオブジェクトを含んだ画像データや音声データを含んだ配信データを取得して、出力インターフェース１３から出力させる。

また、ユーザー端末２Ａ及び２Ｂには、各種のプログラムやデータを記憶するメモリ１７を有しており、サーバ装置４から取得したオブジェクトの変化を示した画像データ（動画データ）や、画像データ内の各音顔データに対応する音声データを一時的に蓄積している。なお、本変更例では、管理サーバ４のオブジェクト制御部１４４において、発話データに従って変化されるオブジェクトを生成し、そのオブジェクトを画像データ形式でユーザー端末２Ｂに送信する構成としたが、本発明は、これに限定するものではなく、ユーザー端末２Ｂの制御部１８が制御信号生成部１４３から発話データを取得して、制御部１８において、オブジェクトを生成して出力させてもよい。この場合、オブジェクト生成及びオブジェクト出力に必要な各種データ及びプルグラムは、予めメモリ１７内に蓄積させておくか、オブジェクトを出力する毎に管理サーバ４から取得してメモ１５内に一時的に蓄積させるものとする。

（音声同期処理方法）
以上の構成を有する音声同期処理システムを動作させることによって、本発明の音声同期処理方法を実施することができる。図１０は、変更例に係る音声同期処理方法の概要を示すシーケンス図である。なお、ここでは、利用者Ｕ１が発話又はテキストの入力を行い、その入力されたデータに基づいて生成されたオブジェクトを利用者Ｕ２に対して閲覧可能に表示させる場合を例に説明する。

先ず、ユーザー端末２Ａでは、利用者Ｕ１の操作に応じて入力データを取得する。具体的に、ユーザー端末２Ａのキーボード１２ｂは、利用者Ｕ１からのテキスト入力操作を受け付けて、同期すべき音声に対応する文字が含まれる文言データとして取得する。また、利用者Ｕ１がユーザー端末２Ａを用いて発話すると、ユーザー端末２Ａのマイク１２ａは、その発話の音響を同期すべき音声に対応する音素が含まれる音声信号として取得する。そして、取得された入力データ（文言データ及び音声信号、若しくは文言データのみ）は、通信インターフェース１６を通じて、サーバ装置４に送信される（Ｓ４０１）。

管理サーバ４では、ユーザー端末２Ａから入力データを取得すると（Ｓ４０２）、そのデータを音素抽出部１４１に送信する。そして、音素抽出部１４１及び音素長検出部１４２では、入力されたデータに基づいて、音素抽出処理及び音素長検出処理がされる（Ｓ４０３）。ここで、ステップＳ４０３で実行される音素抽出処理及び音素長検出処理は、管理サーバ４に入力された入力データの種別に応じて、処理が切り換えられる。具体的に、文言データ及び音声信号が入力された場合には、上述した第１実施形態に係る音素抽出処理及び音素長検出処理（Ｓ２０１〜Ｓ２１２）が実行され。一方、管理サーバ４に文言データのみが入力された場合には、上述した第２実施形態に係る音素抽出処理及び音素長検出処理（Ｓ３０１〜Ｓ３０７）が実行される。

その後、いずれかの処理が実行された、音素抽出部１４１で検出された音素と、音素長検出部１４２で検出された音素長とは、制御信号生成部１４３に入力され、図４に示すように、制御信号生成部１４３において、オブジェクトを変化させる制御信号を含む発話データが生成される。この際、制御信号生成部１４３では、オブジェクトの変化率を変動させるか否かの制御が行われる。具体的には、音素長比較部１４３ａでは、検出された各音素長の音素ＩＤに基づいて音素長データベース１５３を参照して、当該音素に設置された音素長のしきい値と、当該検出された音素の音素長とを比較して（Ｓ４０４）、入力された各音素長が所定のしきい値よりも長いか否かを判断する（Ｓ４０５）。

音素長が所定のしきい値よりも時間が短い比較結果である場合には（Ｓ４０５における“Ｎ”）、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する処理行い（Ｓ４０７）、オブジェクトの変化を変動させる制御を含んだ制御信号を生成する（Ｓ４０８）。

詳述すると、ステップＳ４０７において、例えば、話者が普通の速度で話している場合には、図３（ａ）に示すように、人の顔であるオブジェクトがそれぞれの音素を発話しているかのように、線形的な関数により音素長に応じた変化量で、各パーツを変化させて表現する。また、話者が早口で発話しているときには、各音素長は所定のしきい値よりも短くなって、表情の変化量が小さくなり、図３（ｂ）に示すように、線形的な変化ではあるが、口の開き方など各パーツの変化が小さく表現される。一方、話者がゆっくり話しているときには、その音素長が長くなることから、その長さに応じた変化量で線経的に変化され音素一つ一つの顔の変化が大きくなる。

一方、音素長が所定のしきい値よりも時間が長い比較結果である場合には（Ｓ４０５における“Ｙ”）、オブジェクトの変化を変動させる制御を実行する（Ｓ４０６）。具体的には、図３（ｃ）中の「さーーーーー」に示すように、非線形に変化させてオーバーなアクションを取らせるように、非線形的な変化を起こさせる制御信号を生成する（Ｓ４０８）。その後、音素、音素長、制御信号を含む発話データは、オブジェクト制御部１４４に出力される。

オブジェクト制御部１４４は、発話データ（制御信号を含む）に基づいて、音素に併せて変化されるオブジェクトを配信データとして生成して、ユーザー端末２Ｂに対して配信する。具体的には、先ず、発話データ内の各音素を選択して、オブジェクトデータベース１５４を参照し（Ｓ４０９）、オブジェクトデータベース１５４から音顔データを抽出する（Ｓ４１０）。その後、オブジェクト制御部１４４では、各音素についての音素長（発話開始時間及び発話終了時間）に基づいて音顔データを順番に並び替える。この際、各音顔データは、音顔データに従った設定情報や制御信号に基づいてオブジェクトを変化させる。具体的に、オブジェクト制御部１４４は、音顔データに従った設定情報に基づいて、音素に応じた口の動きや、口が動くスピードに合わせて目や眉毛、首、手その他の身体の部位を変化させるとともに、音素間での変化を補間処理する。

さらに、発話データ内にオブジェクトの変化率を変動させる信号が含まれている場合に、オブジェクト制御部１４４は、その信号に基づいて、オブジェクトを非線形的に大げさなアクションとするように表示したり、特別なグラフィック処理を挿入してイベントを発生させるなどの処理を実行する。なお、本変更例において、変化率を変動させる信号は、発話データ内にフラグを立てることにより実現され、発話データを読みみ出す際に、このフラグが合った場合に信号が検出されたとして変化率を変動させる。このように、発話データに基づいて変化されたオブジェクトを生成し（Ｓ４１１）、当該オブジェクトを画像データ形式又は動画形式に変換して、配信データとしてユーザー端末２Ｂに対して配信する（Ｓ４１２）。なお、配信先となるユーザー端末２Ｂは、例えば、電話会議システムなどで用いられる会員情報に基づいて、配信先のＩＰアドレスや電話番号等の配信先情報が予め管理サーバ４に蓄積されており、その配信先情報に基づいて、動画データが送信される。

ユーザー端末２Ｂでは、発話データに基づいて変化されるオブジェクトが纏められた画像データを受信して（Ｓ４１３）、制御部１８の出力機能によって、表示部１３ａに変化されるオブジェクトが表示されるとともに、スピーカー１３ｂからオブジェクト（音顔データ）の出力と同期させて各音素の音声を出力させる（Ｓ４１４）。その後、利用者Ｕ２の操作によって、ユーザー端末２Ｂに音声データやテキストデータが入力された場合には、管理サーバ４において、入力データに応じてオブジェクトが生成され、配信データとしてユーザー端末２Ａに配信させることもでき、これにより、利用者Ｕ１及び利用者Ｕ２の間で相互で通話を行うこともできる。

（作用・効果）
このような本変更例によれば、管理サーバ４内において、ユーザー端末２Ａから入力された音声信号、又は文言データに基づいて、オブジェクトを生成しているので、ユーザーが所持するユーザー端末２Ａ及び２Ｂに対する処理負担の軽減、及びメモリ容量の有効利用を図ることができる。また、本変更例においては、通信ネットワーク５を介してユーザー端末２Ａ及び２Ｂ間で相互にオブジェクトを表示させることができるため、例えば、利用者Ｕ１及びＵ２がそれぞれ所持する情報処理端末を用いて、チャットサービスやビデオメッセージサービスに用いることができる。また、本変更例において、管理サーバ４内に、入力された音声信号又は文言データを解析する機能モジュールを有するとともに、解析した結果に対応する返答データを蓄積して、入力された側のユーザー端末にたいして、返答データをオブジェクトに変換して返信させることもできる。これにより、本発明を音声対話受付案内サービスに利用することができる。

［応用例］
以上の各形態及び変更例に例示した音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムは、種々のシステムに利用され得る。すなわち、本発明の音声同期処理装置、音声同期処理方法、及び音声同期処理プログラムを用いることで、例えば、コールセンターシステム、電話会議システム、汎用コンピューター、又はスマートフォンへの文章作成システム、音声指示による機械操作システム（カーナビ、電子カルテ等のハンズフリーコンピューティング）、指示を聞き分けるロボット技術、音声対話受付案内システム（自動音声応答装置）などに用いることができる。

１，１ａ…音声同期処理装置
２Ａ，２Ｂ…ユーザー端末
３…無線基地局
４…管理サーバ
５…通信ネットワーク
１１…通信インターフェース
１２…入力インターフェース
１２ａ…マイク
１２ｂ…キーボード
１３…出力インターフェース
１３ａ…表示部
１３ｂ…スピーカー
１４…アプリケーション実行部
１４ａ…制御部
１５，１７…メモリ
１６…通信インターフェース
１８…制御部
１４１…音素抽出部
１４１ａ…文言データ取得部
１４１ｂ…音声分析部
１４２…音素長検出部
１４２ａ…発話設定部
１４３…制御信号生成部
１４３ａ…音素長比較部
１４３ｂ…変化率制御部
１４４…オブジェクト制御部
１５１…音素データベース
１５２…文字データベース
１５３…音素長データベース
１５４…オブジェクトデータベース

Claims

音声にオブジェクトを同期させるための制御信号を生成する音声同期処理装置であって、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出部と、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と
を備え、
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
を備え、
前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理装置。
前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項１に記載の音声同期処理装置。
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項１に記載の音声同期処理装置。
音声にオブジェクトを同期させるための制御信号を生成する音声同期処理プログラムであって、コンピューターに、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
前記音素抽出ステップによって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
を含む処理を実行させ、
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理プログラム。
前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項４に記載の音声同期処理プログラム。
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項４に記載の音声同期処理プログラム。
音声にオブジェクトを同期させるための制御信号を生成する音声同期処理方法であって、
音素抽出部によって、同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データから、発話すべき各音素を抽出する音素抽出ステップと、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出ステップと、
前記音素抽出ステップで検出した音素と、前記音素長検出ステップによって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成ステップと
を含み、
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップと、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析ステップと
を含み、
前記音素長検出ステップでは、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期処理方法。
前記制御信号生成ステップに続いて、前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御ステップをさらに含み、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御ステップでは、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項７に記載の音声同期処理方法。
前記音素抽出ステップは、
同期すべき音声を文字で記述したテキストデータを文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得ステップをさらに含み、
前記音素長検出ステップは、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定ステップをさらに含み、この発話設定ステップで設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を検出結果として出力する
ことを特徴とする請求項７に記載の音声同期処理方法。
音声にオブジェクトを同期させるための制御信号を生成する音声同期処理システムであって、
同期すべき音声に対応する音素が含まれる音声信号、又は同期すべき音声に対応する文字が含まれる文言データを入力する入力手段と、
前記入力手段から前記音声信号又は前記文言データを取得し、取得した前記音声信号又は前記文言データから、発話すべき各音素を抽出する音素抽出部と、
前記音素抽出部によって検出された前記発話すべき音素毎の継続時間長を音素長として検出する音素長検出部と、
前記音素抽出部が検出した音素と、前記音素長検出部によって検出された音素長とに基づいて、オブジェクトを変化させる制御信号を含む発話データを生成し、出力する制御信号生成部と、
前記制御信号生成部から前記発話データを取得し、取得された発話データに従って変化されるオブジェクトを出力する出力手段と
を備え、
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部と、
前記文言データとともに音声信号を取得し、取得された音声信号を音素毎に分割し、発話されるべき文字の数である発話候補数を算出する音声分析部と
を備え、
前記音素長検出部は、前記フレーズ文字数と前記発話候補数とを比較し、前記音素抽出部が抽出した音素数を補正し、補正された音素数毎の継続時間長を前記音素長として検出する
ことを特徴とする音声同期システム。
前記制御信号に基づいて前記オブジェクトを変化させるオブジェクト制御部をさらに有し、
前記オブジェクトは、複数のパーツによって動作や表情を表現するものであり、
前記オブジェクト制御部は、前記複数のパーツに対して、各音素の種類に対応する動作や表情を示す音顔データに従った位置、変形及び動作を設定し、前記音顔データによる設定及び前記制御信号に基づいて、前記オブジェクトを変化させる
ことを特徴とする請求項１０に記載の音声同期システム。
前記音素抽出部は、
同期すべき音声を文字で記述したテキストデータを前記文言データとして取得し、文言データから発話すべき文字の数であるフレーズ文字数を算出する文言データ取得部を備え、
前記音素長検出部は、前記文言データを発話した際のトータル時間長及び強調箇所を設定する発話設定部を備え、この発話設定部により設定されたトータル時間長及び強調箇所と、前記フレーズ文字数とに基づいて、音素数毎の時間長を前記検出結果として出力する
ことを特徴とする請求項１０に記載の音声同期システム。