JP7496128B2

JP7496128B2 - 仮想人物対話システム、映像生成方法、映像生成プログラム

Info

Publication number: JP7496128B2
Application number: JP2020179082A
Authority: JP
Inventors: 晴彦安田
Original assignee: 株式会社シルバコンパス
Priority date: 2019-11-28
Filing date: 2020-10-26
Publication date: 2024-06-06
Anticipated expiration: 2039-11-28
Also published as: JP2021086618A

Description

本発明は、仮想人物対話システム、仮想人物対話システムによる映像生成方法および仮想人物対話システムの映像生成プログラムに関する。

特許文献１には、指定された特定の顔画像データと、補正処理に利用された顔画像データとに基づいて、顔認識データ用メモリに記憶すべき顔画像データを補正し、正面以外の角度や方向の画像でも個人の顔の顔検出を行う撮像装置が開示されている。

特許文献２には、あらかじめ作成されている会話テンプレートの中から、入力された文に対応する文を選択し、選択された文を仮想エージェントのエージェント情報に基づいて加工して応答文を生成する、会話文生成装置が開示されている。

特開２０１１－７６４５７号公報特開２０１５－６９４５５号公報

故人や有名人等、実際にはそこに存在しない特定の仮想人物の動画を生成し、現実味のある対話を実現するためには、映像、音声、性格の特性等、仮想人物に関する膨大な情報が必要である。また、これらの情報を統合して仮想人物を生成するには、コンピュータグラフィックス等を用いて映像を生成するため、大規模な設備やコンテンツを購入する必要があり、個人レベルで使用するのは困難であった。そこで、簡易な構成で仮想人物の発話映像を生成できるシステムが必要とされている。

本発明は、簡易な構成で仮想人物の発話映像を生成することを目的の１つとする。

上記目的を達成するため、本発明の一の観点に係る仮想人物対話システムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、登録される情報ソースから、前記仮想人物の顔データを抽出する映像処理部と、前記顔データを前記使用映像モデルに統合する顔挿入部と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理部と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、を備える。

人物の性格モデルを複数記憶する性格モデルデータベースと、前記仮想人物の性格に関する質問を提示し、前記質問に対する回答に基づいて、前記仮想人物の生成に使用する使用性格モデルを前記性格モデルデータベース内のデータから選択する性格モデル選択部と、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、をさらに備えるものとしてもよい。

前記性格モデル選択部は、前記仮想人物が作成した記録に基づいて前記使用性格モデルを選択するものとしてもよい。

前記仮想人物への質問が入力される入力部と、前記仮想人物の返答を出力する出力部と、をさらに備え、前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させるものとしてもよい。

前記メッセージに対する評価に基づいて前記使用性格モデルを補正する性格モデル補正部をさらに備えるものとしてもよい。

上記目的を達成するため、本発明の別の観点に係る映像生成方法は、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成する方法であって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理ステップと、前記顔データを前記使用映像モデルに統合する顔挿入ステップと、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理ステップと、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、を含む。

上記目的を達成するため、本発明のさらに別の観点に係る映像生成プログラムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成するコンピュータプログラムであって、前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理命令と、前記顔データを前記使用映像モデルに統合する顔挿入命令と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理命令と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、をコンピュータに実行させる。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、ＣＤ－ＲＯＭなどのコンピュータ読取可能な各種の記録媒体に記録して提供したりすることができる。

本発明によれば、簡易な構成で仮想人物の発話映像を生成できる。

本発明にかかる仮想人物対話システムの概略構成図である。上記仮想人物対話システムの機能ブロック図である。上記仮想人物対話システムが、仮想人物の生成に使用する使用映像モデルを決定する工程を示すシーケンス図である。上記仮想人物対話システムが、仮想人物の声を生成する工程を示すシーケンス図である。上記仮想人物対話システムが、仮想人物の性格モデルを決定する工程を示すシーケンス図である。ユーザが、上記仮想人物対話システムを用いて仮想人物と対話する工程を示すシーケンス図である。

以下、本発明にかかる仮想人物対話システム、映像生成方法、および映像生成プログラムの実施の形態について、図面を参照しながら説明する。

●仮想人物対話システムの概要
仮想人物対話システムは、実際にはそこにいない特定の仮想人物の動画、声を再生し、また発話内容を自動生成することで、ユーザが仮想人物との対話を疑似的に行うことができるシステムである。仮想人物の生成対象となる人物（以下、「対象人物」ともいう。）は、故人や有名人、戦争体験者等の語り手等、場所や時間の制限により話す機会が無い又は限られる人物が想定されるが、どのような人物であってもよい。仮想人物は、ユーザから登録される、対象人物に関する情報および後述するモデルデータに基づいて生成される。仮想人物は、ユーザ端末１０（図１参照）上において再生され、あたかも実際に存在しているかのように、動作し、発話し、ユーザに話しかけたり、ユーザからの質問に答えたりする。

図１に示すように、ユーザＵは、ユーザ端末１０を介して、仮想人物対話システムの一部又は全部の構成を備えるクラウドコンピュータＣと通信を行うことで、仮想人物Ｋと対話を行う。ユーザＵがユーザ端末１０を介してクラウドコンピュータＣにログインすると（ステップｓ１）、クラウドコンピュータCから仮想人物Kの映像が送信される（ステップｓ２）。ユーザUが仮想人物Kに話しかけると（ステップｓ３）、クラウドコンピュータCは、入力されたメッセージの内容を解析し、あらかじめ決定されている仮想人物Kの性格に基づいて返答を生成し、ユーザ端末１０上で映像と共に再生させる（ステップｓ４）。

図２に示すように、本発明にかかる仮想人物対話システム１（以下、「本システム１」ともいう。）は、記憶装置２０と、仮想人物生成装置３０と、動画生成装置４０と、がネットワークNWを介して接続されて構成されている。本システム１は、顧客が有するユーザ端末１０とネットワークＮＷで接続され、相互に情報の送受信が可能である。

ユーザ端末１０、記憶装置２０、仮想人物生成装置３０および動画生成装置４０の相互の接続は、それぞれ無線であっても有線であってもよい。なお、記憶装置２０、仮想人物生成装置３０および動画生成装置４０は、１個の装置で構成されていてもよい。また、記憶装置２０、仮想人物生成装置３０および動画生成装置４０の機能の一部又は全部がクラウドコンピュータＣ上に実現されていてもよい。

ユーザ端末１０は、仮想人物と対話するユーザが使用するコンピュータであり、入力部１１、出力部１２、表示部１３、情報ソース登録部１４、および通信処理部１９を備える。ユーザ端末１０は、例えばパーソナルコンピュータである。また、ユーザ端末１０は、スマートホンやタブレットであってもよい。本システム１に接続されるユーザ端末１０は、単数であっても複数であってもよい。

入力部１１は、ユーザから仮想人物へのメッセージを入力する機能部であり、キーボード、タッチパネルディスプレイおよびマイクロホン等により構成される。

出力部１２は、仮想人物のメッセージが出力される機能部である。出力部１２は、メッセージを文字表示するディスプレイ、又はメッセージを音声出力するスピーカ等により構成される。

ユーザ端末１０の表示部１３は、液晶画面等の平面的な再生機器の他、ヘッドマウントディスプレイ型のＶＲ表示装置や、ホログラム（立体映像）表示装置等の、仮想人物の像を立体的に再生する機器であってもよい。ユーザ端末１０が仮想人物の像を立体的に再生する装置である構成によれば、仮想人物との対話をより現実感のあるものとすることができる。また、表示部１３は、複数のユーザが同時に１個の仮想人物の像を視認可能な投影装置であってもよい。

表示部１３は、本システム１独自のＵＩにより表示されてもよいし、本システム１がＳＫＹＰＥ（登録商標）等既存のチャットツールと連動して、仮想人物からのメッセージや動画が既存のツールに表示されてもよい。この構成によれば、実際の人物とチャットをしているような感覚を得ることができ、仮想人物との対話を現実感のあるものとすることができる。

情報ソース登録部１４は、対象人物に関する情報、すなわち対象人物の情報ソースを取得する機能部である。情報ソースは、例えば対象人物が含まれる動画、静止画および音源、ならびに対象人物が作成した日記等の記録文書、趣味嗜好を表す文書、ＳＮＳ等の文字データを含む。また、情報ソースは、衣服等の所有物に関する情報を含む。情報ソースは、ユーザにより登録される他、インターネットを通じて取得してもよい。取得される情報ソースは、仮想人物生成装置３０に送信される。

通信処理部１９は、ネットワークＮＷを介して本システム１と情報の授受を行う機能部であり、通信の形式は任意である。

ユーザがユーザ端末１０を通じて対象人物の情報を登録すると、仮想人物生成装置３０は、当該情報を処理して、仮想人物の映像や声、性格等を決定づける。決定された仮想人物のデータは記憶装置２０に格納され、動画生成装置４０により適宜呼び出される。動画生成装置４０は、仮想人物データに基づいて仮想人物の映像、声、メッセージを含む動画を生成し、ユーザ端末１０上に表示させる。

●記憶装置の構成
記憶装置２０は、情報処理を実行するためのCPU（Central Processing Unit）などの演算装置、RAM（Random Access Memory）やROM（Read Only Memory）などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像モデルＤＢ２１、性格モデルＤＢ２２、仮想人物データ記憶部２３、および通信処理部２９を有する。なお、本明細書において「ＤＢ」は「データベース」の略である。

映像モデルＤＢ２１は、人が動作する映像モデルを複数種類記憶する記憶部である。映像モデルは、仮想人物の像を生成するために用いられる、映像のテンプレートである。映像モデルは、特に胴体の形や動作を構成するデータである。また、映像モデルは、後述する顔データを統合して、統合した顔データを胴体の像と共に動作させるように構成されている。

映像モデルには、身長、体重、年齢等に応じて、体格が異なる複数種類の人物の外観が含まれている。映像モデルには、各人物が着用して再生可能な、複数種類の服装が含まれている。さらに、映像モデルは、各外観の人物が動作する様々なデータを含んでおり、例えば、うなずく、腕を組む、手を挙げる、といった、対話の際によく行われる動作のデータが含まれている。映像モデルは、実際の人物を撮影した映像であってもよいし、CGでモデリングした映像であってもよく、両方が含まれていてもよい。

性格モデルＤＢ２２は、人物の性格モデルが複数種類記憶されている記憶部である。性格モデルは、例えば、質問に対する回答の特性を含み、ポジティブな内容であるかネガティブな内容であるかといった回答の方針、および回答に表れる喜怒哀楽等を決定づける。また、性格モデルは、ユーザからの質問に対する回答に限らず、季節や時間帯等に応じたメッセージの特性であってもよい。性格モデルＤＢ２２には、各性格モデルに即した、あらかじめ想定される質問に対する返答が合わせて記憶されていてもよい。この構成によれば、定型的な質問に対して、性格モデルに応じた返答を生成する計算処理負担が軽減できる。

仮想人物データ記憶部２３は、仮想人物ごとに決定された映像モデル、性格モデル、および声の情報を格納する記憶部である。また、仮想人物データ記憶部２３は、仮想人物が知っている情報、例えば対象人物のエピソードや、体験談等の情報が格納されている。仮想人物データは、仮想人物生成装置３０により決定され、格納される。また、仮想人物データは、仮想人物の動画の再生時に、動画生成装置４０により呼び出される。

●仮想人物生成装置の構成
仮想人物生成装置３０は、情報処理を実行するためのCPU（Central Processing Unit）などの演算装置、RAM（Random Access Memory）やROM（Read Only Memory）などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像処理部３１、音声処理部３２、性格処理部３３および通信処理部３９を備える。

映像処理部３１は、対象人物のデータから、仮想人物の生成に用いる外観データを抽出する機能部である。外観データは、対象人物の顔、体、髪型、服装などを含むデータである。また、映像処理部３１は、仮想人物の生成に使用する映像モデルを選択し、仮想人物の映像に使用する映像データを決定する。なお、映像処理部３１は、ユーザ端末１０の情報ソース登録部１４を介して登録される情報ソースの他、インターネット上から取得される情報ソースに基づいて、仮想人物の外観データを抽出してもよい。また、映像処理部３１は、複数のユーザ端末１０から登録される情報ソースに基づいて、１個の仮想人物の生成に用いる外観データを抽出してもよい。有名人など、多くのユーザが共通の仮想人物と対話する場合、各ユーザが１個の仮想人物の情報ソースを登録する。この構成によれば、より多くの情報ソースに基づいて仮想人物を生成することができ、より現実感のある対話が可能となる。

映像処理部３１は、動画取得部３１１、静止画取得部３１２、トリミング部３１３、画像補正部３１４、映像モデル選択部３１５および顔挿入部３１６を有する。

動画取得部３１１は、動画データを取得する機能部である。動画取得部３１１は、ユーザ端末１０に登録される情報ソースに含まれる動画を取得する。また、動画取得部３１１は、ユーザ端末１０を通じてユーザに動画の撮影を促すこともできる。ユーザ端末１０を通じて動画が撮影可能な状況として、例えば、対象人物がユーザの身近な人物であり、仮想人物を別のユーザ端末１０に表示させる場合や、対象人物が亡くなった後にも対話可能とするために仮想人物を生成しておく場合などが考えられる。この場合、動画取得部３１１は、ユーザに動画を撮影させるためのチュートリアルをユーザ端末１０に表示させてもよい。

静止画取得部３１２は、静止画データを取得する機能部である。静止画取得部３１２は、ユーザ端末１０に登録される情報ソースに含まれる静止画を取得する。また、静止画取得部３１２は、ユーザ端末１０を通じてユーザに静止画の撮影を促すこともできる。この場合、静止画取得部３１２は、ユーザに静止画、すなわち写真を撮影させるためのチュートリアルをユーザ端末１０に表示させてもよい。また、静止画取得部３１２は、動画データを静止画に変換し、取得する。静止画取得部３１２は、対象人物の様々な角度の画像や、様々な表情の画像を抽出し、静止画に変換する。

トリミング部３１３は、静止画から対象人物のデータをトリミングして抽出する機能部である。トリミング部３１３は、顔認識機能を備え、対象人物の顔のみを自動で抽出可能であってもよい。

画像補正部３１４は、抽出された画像の色調補正や、解像度補正を行い、抽出した画像の質を均一化する。また、画像補正部３１４は、抽出された画像が鮮明か否かを判別し、不鮮明な画像を抽出されたデータ群から除外してもよい。また、画像補正部３１４は、所定以下の解像度の画像を抽出されたデータ群から除外してもよい。

映像モデル選択部３１５は、仮想人物の生成に使用する使用映像モデルを映像モデルDB２１内のデータから選択する機能部である。映像モデル選択部３１５は、動画取得部３１１により取得される外観データに基づいて、対象人物に最も類似する映像モデルを選択してもよいし、ユーザ端末１０に映像モデルを複数提示し、ユーザに使用する映像モデルを選択させてもよい。この構成によれば、仮想人物が動いている様子が表れている情報ソースを十分登録しなくても、映像モデルにより仮想人物の動画を構成することができる。

また、映像モデル選択部３１５は、生成する仮想人物の服装を、外観データに基づいて決定してもよいし、情報ソースに含まれる所有物情報に基づいて決定してもよい。また、映像モデル選択部３１５は、映像モデルDB２１から、仮想人物の服装を選択してもよい。すなわち、対象人物がその服装をしている情報ソースがあれば、当該情報ソースに基づいて仮想人物の映像を生成することができるし、対象人物の情報ソースがなくても、所有物情報に基づいて仮想人物の映像を生成可能である。また、映像モデルＤＢ２１から服装のデータを選択することもできるので、対象人物の服装に関するデータが不足していても、仮想人物の生成を簡便に行うことができる。なお、映像モデル選択部３１５は複数種類の服装をしている仮想人物の映像を構成しておき、時期や時間帯、又はユーザの選択に基づいて服装が変更可能になっていてもよい。

映像モデル選択部３１５は、生成する仮想人物の髪型を、外観データに基づいて決定してもよいし、映像モデルDB２１から、仮想人物の髪型を選択してもよい。さらに、映像モデル選択部３１５は、複数種類の髪型をしている仮想人物の映像を構成しておき、髪型が変更可能になっていてもよい。

なお、ここまでの説明において、映像処理部３１は対象人物自身の情報ソースに基づいて仮想人物のデータを抽出することを想定して説明したが、対象人物に似ている人物の動画や静止画を新たに撮影し、仮想人物の生成に用いてもよい。また、髪型や服装など、似ている人物の外観データを部分的に使用して、仮想人物の生成に用いてもよい。すなわち、外観データのうち仮想人物の生成に用いる要素を、ユーザが選択可能になっていてもよい。

顔挿入部３１６は、動画取得部３１１、静止画取得部３１２、トリミング部３１３および画像補正部３１４により抽出された顔データを使用映像モデルに統合する機能部である。顔挿入部３１６により、使用映像モデルで構成される胴体に、顔データが統合され、仮想人物の全身像が構成される。

音声処理部３２は、仮想人物の話す声を人工的に生成する機能部である。音声処理部３２は、音声抽出部３２１と音声生成部３２２とを備える。

音声抽出部３２１は、情報ソースから対象人物の音声を抽出する機能部である。音声抽出部３２１は、例えば情報ソースに含まれる複数種類の声のうち、最も長時間含まれている人物の声を対象人物の声と同定してもよい。

音声生成部３２２は、音声抽出部３２１により抽出された音声に基づいて、仮想人物の声を生成する機能部である。音声生成部３２２は、対象人物の音声をトリミングし、仮想人物の声として再生可能な状態に編集してもよい。また、音声生成部３２２は、あらかじめ用意された音声データの中から、対象人物の声に似た声を選んで仮想人物の声として決定することもできる。さらに、音声生成部３２２は、対象人物の音声に類似する人工音声を生成してもよい。なお、仮想人物からのメッセージをテキストで表示する場合は、音声の生成はなくてもよい。

性格処理部３３は、仮想人物の性格モデルを決定する機能部である。性格処理部３３は、テキストデータ登録部３３１、性格モデル選択部３３２、および性格モデル補正部３３３を備える。

テキストデータ登録部３３１は、情報ソースからテキストデータを抽出し、仮想人物データ記憶部２３に格納する機能部である。テキストデータ登録部３３１は、対象人物のブログやＳＮＳ等の電子的なテキストデータを抽出し、所定のルールに従って仮想人物データ記憶部２３に格納する。また、テキストデータ登録部３３１は、対象人物による手書きの文書、例えば日記等を読み込み、テキストデータに変換して仮想人物データ記憶部２３に格納してもよい。さらに、テキストデータ登録部３３１は、音声や動画データに含まれる対象人物の声をテキストデータに変換し、仮想人物データ記憶部２３に格納してもよい。

性格モデル選択部３３２は、仮想人物の生成に使用する性格モデル（以下、「使用性格モデル」ともいう。）を性格モデルDB２２から選択する機能部である。性格モデル選択部３３２は、ユーザ端末１０を通じて仮想人物の性格に関する質問を提示する。ユーザ端末１０から質問に対する回答が入力されると、当該回答に基づいて、仮想人物の生成に使用する使用性格モデルを性格モデルＤＢ２２内のデータから選択する。

性格に関する質問は、複数提示されてもよい。また、入力される回答と次の質問とが紐づけられるチャートに沿って、質問が提示されてもよい。ユーザが質問に答えていくことで、あらかじめ用意された性格の基本分類に基づいて、仮想人物の基本的な性格付けが行われる。性格付けを、対象人物の実際の会話の情報から行うものとすると、膨大な量の会話の情報が必要である。本システム１によれば、性格に関する質問の回答に基づいてあらかじめ用意された性格のいずれかに分類することができるので、情報が不足していても簡易な構成で仮想人物の性格を決定することができる。

なお、仮想人物の性格モデルは、ユーザからの質問のタイプに応じたシナリオパターンごとに定められていてもよい。シナリオパターンは、例えば日常会話、又は悩みごとの相談等である。一部のシナリオパターンに関して性格モデルが決定されれば、当該シナリオパターンに即した対話が可能に構成されていてもよい。この構成によれば、必要なシナリオパターンに関する性格モデルのみを決定すれば対話できるので、簡便である。

性格モデル補正部３３３は、性格モデル選択部３３２が選択した使用性格モデルを補正する機能部である。性格モデル補正部３３３は、ユーザ端末１０から、仮想人物が行った返答に対する評価を受信し、当該評価に基づいて使用性格モデルを補正する。例えば、ユーザは、返答に対し、対象人物の返答として適切な内容であったか否かを評価として入力する。また、返答とともになされる仮想人物の動作に対して評価をしてもよい。性格モデル補正部３３３は、ＡＩ等により自動学習を行い、性格モデルを補正する。この構成によれば、仮想人物の性格をより対象人物に近いものに補正することができる。なお、１個の仮想人物に対して複数のユーザ端末１０が同時又は別の時点で対話を行う場合において、複数のユーザ端末１０からの評価を１個の仮想人物の性格モデルの補正に使用してもよい。この構成によれば、仮想人物の性格モデルに多くのフィードバックを与えることができるため、仮想人物の性格モデルを対象人物の性格により近づけ、対話精度を上げることができる。

また、性格モデル補正部３３３は、ユーザからの評価ではなく、仮想人物からのメッセージに対するユーザの返答に基づいて、当該メッセージが適していたか否かを判定し、性格モデルを補正してもよい。性格モデル補正部３３３は、ユーザの返答内容をテキストデータに変換して解析してもよいし、ユーザの声色から満足度を類推してもよい。

通信処理部３９は、ユーザ端末１０、記憶装置２０、および動画生成装置４０と、ネットワークNWを通じて相互に通信する機能部である。

●動画生成装置の構成
動画生成装置４０は、仮想人物生成装置３０により生成された仮想人物の動画を、ユーザ端末１０上に表示させる装置である。動画生成装置４０は、映像表示処理部４１、対話処理部４２、通信処理部４９を備える。

映像表示処理部４１は、仮想人物が発話する発話映像を生成する機能部である。映像表示処理部４１は、外観データから抽出された顔データをモデリング処理し、発話に合わせて動作させる。

対話処理部４２は、使用性格モデルに基づいて、仮想人物が発話するメッセージを生成する機能部である。メッセージの内容は、ユーザからの質問に対する返答であってもよいし、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に応じて生成される言葉であってもよい。また、ユーザへの返答にあたって、使用性格モデルに加えて、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に基づいて返答を生成してもよい。対話処理部４２は、最適な回答をＡＩにより決定する。

対話処理部４２で生成されるメッセージは、音声処理部３２で生成される声により発話され、映像表示処理部４１で生成される発話映像と共にユーザ端末１０で再生される。仮想人物の声は、音声抽出部３２１から抽出した対象人物の台詞を再生してもよい。また、あらかじめ決定した似た声の音源データに基づいて再生してもよい。さらに、人工の音声を生成し、再生してもよい。

通信処理部４９は、ユーザ端末１０、記憶装置２０、および仮想人物生成装置３０と、ネットワークNWを通じて相互に通信する機能部である。

●使用映像モデルを決定する流れ
図３を用いて、仮想人物生成装置３０が使用映像モデルを決定する流れを説明する。同図に示すように、まず、ユーザ端末１０から対象人物の情報ソースが登録され、仮想人物生成装置３０に送信される（ステップＳ１１）。次いで、仮想人物生成装置３０は、情報ソースから外観データを抽出する（ステップＳ１２）。外観データのうち、動画を静止画に変換する（ステップＳ１３）。次いで、登録された静止画および動画から変換された静止画に対し、対象人物の画像をトリミングし、画像の色調および解像度を補正する（ステップＳ１４）。トリミングおよび画像の補正は、順不同である。なお、このとき、補正してもデータの品質が所定以下である場合は、当該画像を後の工程に使用しないことを決定してもよい。

次いで、仮想人物生成装置３０は、トリミングおよび画像補正が施された画像を記憶装置２０の仮想人物データ記憶部２３に格納する（ステップＳ１５）。仮想人物生成装置３０は、格納される画像のうち主に体格に関する情報に基づいて、映像モデルＤＢ２１に格納されている映像モデルを参照し（ステップＳ１６）、対象人物の外観に最も類似する映像モデルを選択し、ユーザ端末１０に表示させる（ステップＳ１７）。なお、このとき、映像モデルの候補がユーザ端末１０に複数表示され、ユーザ端末１０により使用映像モデルを選択可能にしてもよい。また、提示される映像モデルとは異なる映像モデルをユーザ端末１０により選択可能になっていてもよい。

次いで、ユーザ端末１０は、使用映像モデルが有するパーツを個別に変更する入力を受け付ける（ステップＳ１８）。パーツは、輪郭や、目、鼻又は口等の各このとき、仮想モデルの髪型や服装についての選択が入力されてもよい。使用映像モデルのパーツが適宜変更され、仮想人物の使用映像モデルが確定すると、当該使用映像モデルに、外観データから抽出された顔データを統合する（ステップＳ１９）。次いで、顔データが統合された使用映像モデルを、記憶装置２０の仮想人物データ記憶部２３に格納する（ステップＳ２０）。

●仮想人物の声を生成する流れ
図４を用いて、仮想人物生成装置３０が仮想人物の声を生成する流れを説明する。まず、ユーザ端末１０から情報ソースが登録されると（ステップＳ２１）、仮想人物生成装置３０は、当該情報ソースから対象人物の音声データを抽出する（ステップＳ２２）。仮想人物生成装置３０は、当該音声データに基づいて、仮想人物の声を生成する。

●仮想人物の性格モデルを決定する流れ
図５を用いて、仮想人物生成装置３０が仮想人物の性格モデルを決定する流れを説明する。ユーザ端末１０から情報ソースが登録されると（ステップＳ３１）、仮想人物生成装置３０は、当該情報ソースからブログやＳＮＳなどのテキストデータを抽出する（ステップＳ３２）。また、このとき、手書きの日記等の画像データを抽出し、テキストデータに変換する。さらに、音源データを抽出し、対象人物の声をテキストデータに変換する。抽出されたテキストデータは、所定のルールに基づいて仮想人物データ記憶部２３に格納される（ステップＳ３３）。

次いで、仮想人物生成装置３０は、対象人物の性格に関する質問を、ユーザ端末１０に表示させる（ステップＳ３４）。このとき、質問の内容は登録される情報ソースに基づいて決定されてもよい。また、登録したいシナリオパターンをユーザに選択させ、シナリオパターンに応じた質問を表示させてもよい。ユーザ端末１０は、質問に対する回答の入力を受け付ける（ステップＳ３５）。なおこのとき、１度に複数の質問が表示されてもよいし、ステップＳ３４およびステップＳ３５を繰り返してもよい。

仮想人物生成装置３０は、性格に関する質問への回答に基づいて、性格モデルＤＢ２２に格納されている性格モデルを参照し（ステップＳ３６）、使用性格モデルを決定する（ステップＳ３７）。次いで、決定した使用性格モデルを仮想人物データ記憶部２３に格納する（ステップＳ３８）。

●仮想人物と対話する流れ
図６を用いて、ユーザが仮想人物対話システムを用いて仮想人物と対話する流れを説明する。ユーザ端末１０にＩＤおよびパスワードが入力されると（ステップＳ４１）、仮想人物生成装置３０により認証され（ステップＳ４２）、ＩＤに紐づけられている仮想人物との対話が可能となる。このとき、仮想人物からチャットの着信がある、電話がかかってくる、メールが届く、といった演出がなされてもよい。次いで、記憶装置２０の仮想人物データ記憶部２３から、対話する仮想人物のデータが呼び出され、動画生成装置４０により参照可能な状態となる（ステップＳ４３）。すなわち、ユーザ端末１０上に仮想人物の像が表示される。仮想人物は、表示された時点で発話してもよく、動作をしてもよい。

ユーザ端末１０から仮想人物への質問が入力されると（ステップＳ４４）、動画生成装置４０は、仮想人物のデータに基づいて、仮想人物が返答する動画を生成する。

具体的には、まず、動画生成装置４０は、仮想人物の性格モデルに基づいて、質問に対する返答テキストを生成する（ステップＳ４５）。また、動画生成装置４０は、当該返答テキストを仮想人物の声で再生する返答音声を生成する（ステップＳ４６）。返答音声は、記憶されている対象人物の音源データでもよいし、人工的に生成した人工音声であってもよい。さらに、動画生成装置４０は、返答音声を再生する際に再生される返答映像を生成する（ステップＳ４７）。生成される返答音声および返答映像は、返答する動画としてユーザ端末１０に送信される（ステップＳ４８）。なお、返答音声および返答映像は、統合されて１個のデータファイルとしてユーザ端末１０に送信されてもよいし、それぞれのデータファイルがユーザ端末１０に送信されてもよい。次いで、ユーザ端末１０上に、仮想人物の動画が表示される（ステップＳ４９）。すなわち、ユーザからの質問に対し仮想人物が返答し、仮想人物との対話が成立する。ステップＳ４４からステップＳ４９までの工程は、複数回繰り返されてよい。この構成により、仮想人物との自然な対話が可能である。

なお、図６においては、ステップＳ４４に示すユーザ端末１０への質問の入力を契機に仮想人物の動画が生成される流れを説明したが、所定の日付や時間になったことに基づいて仮想人物の動画が生成され、ユーザ端末１０に表示される構成であってもよい。また、インターネット上等からの外部情報に基づいて動画が生成されてもよいし、仮想人物対話システム１の管理者からの指令に基づいて、動画が生成されてもよい。動画が生成されると直ちにユーザ端末１０に表示される構成であってもよいし、動画をあらかじめ生成しておき、ユーザからの質問、日付、時間、外部情報又は指令等を契機にユーザ端末１０に表示させてもよい。

ステップＳ４９に次いで、ユーザ端末１０から動画に対する評価が入力されると（ステップＳ５０）、仮想人物生成装置３０は性格モデルを補正し、記憶装置２０の仮想人物データ記憶部２３に記憶する（ステップＳ５１）。

このように、本発明にかかる仮想人物対話システムによれば、簡易な構成で仮想人物の発話映像を生成できる。

１仮想人物生成システム
１０ユーザ端末
２０記憶装置
２１映像モデルＤＢ
３０仮想人物生成装置
３１映像処理部
４０動画生成装置
４１映像表示処理部

Claims

人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、
前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入部と、
前記仮想人物の声を生成する音声処理部と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、
人物の性格モデルを複数記憶する性格モデルデータベースと、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択部と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正部と、
を備え、
前記対話処理部は、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
仮想人物対話システム。
前記性格モデル選択部は、前記仮想人物の生成対象となる人物が作成した記録に基づいて、前記使用性格モデルを前記性格モデルデータベース内のデータから選択する、
請求項１記載の仮想人物対話システム。
前記性格モデル選択部は、ユーザが質問に答えていくことで、あらかじめ用意された性格の基本分類に基づいて、前記仮想人物の基本的な性格付けが行われ、前記仮想人物の生成に使用する使用性格モデルを前記性格モデルデータベースに含まれる性格のいずれかに分類する、
請求項１又は２記載の仮想人物対話システム。
前記仮想人物への質問が入力される入力部と、前記仮想人物の返答を出力する出力部と、をさらに備え、
前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させる、
請求項１乃至３のいずれかに記載の仮想人物対話システム。
人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、人物の性格モデルを複数記憶する性格モデルデータベースと、を備える仮想人物対話システムにより、仮想人物の映像を生成する方法であって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入ステップと、
前記仮想人物の声を生成する音声処理ステップと、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択ステップと、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理ステップと、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正ステップと、
を含み、
前記対話処理ステップでは、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
映像生成方法。
人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、人物の性格モデルを複数記憶する性格モデルデータベースと、を備える仮想人物対話システムにより、仮想人物の映像を生成するコンピュータプログラムであって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入命令と、
前記仮想人物の声を生成する音声処理命令と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択命令と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理命令と、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正命令と、
をコンピュータに実行させ、
前記対話処理命令では、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
映像生成プログラム。