JP7227395B2 - インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体 - Google Patents

インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体 Download PDF

Info

Publication number
JP7227395B2
JP7227395B2 JP2021556973A JP2021556973A JP7227395B2 JP 7227395 B2 JP7227395 B2 JP 7227395B2 JP 2021556973 A JP2021556973 A JP 2021556973A JP 2021556973 A JP2021556973 A JP 2021556973A JP 7227395 B2 JP7227395 B2 JP 7227395B2
Authority
JP
Japan
Prior art keywords
driving
data
interactive
interactive object
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021556973A
Other languages
English (en)
Other versions
JP2022531072A (ja
Inventor
子隆 ▲張▼
文岩 ▲呉▼
潜溢 ▲呉▼
▲親▼▲親▼ ▲許▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022531072A publication Critical patent/JP2022531072A/ja
Application granted granted Critical
Publication of JP7227395B2 publication Critical patent/JP7227395B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体に関する。
<関連出願の相互引用>
本発明は、出願番号が2020102461120であり、出願日が2020年3月31日である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
人間とコンピュータの相互作用は、主に、キーストローク、タッチ、および音声によって入力し、表示スクリーンに画像、テキスト、または仮想キャラクターを表示して応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されたものであり、デバイスの音声を出力するだけである。
本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。
本発明の1態様によると、表示デバイスに展示されているインタラクティブ対象の駆動方法を提供し、前記方法は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定することと、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することと、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および/または、テキストを展示することをさらに含む。
本発明によって提供される任意の実施形態に結合して、前記駆動データに対応する駆動モードを確定することは、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第1駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、を含み、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第1駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することを含む。
本発明によって提供される任意の実施形態に結合して、前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、前記インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。
本発明によって提供される任意の実施形態に結合して、前記駆動データに対応する駆動モードを確定することは、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、前記音声データ単位に含まれている目標データが検出されないと、前記駆動データの駆動モードを第2駆動モードとして確定し、前記目標データは、前記インタラクティブ対象の所定の制御パラメータ値に対応する。前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第2駆動モードに応答して、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することと、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記音声データシーケンスは、音素シーケンスを含み、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することは、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第1コードシーケンスを得ることと、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することと、前記特徴コードに基づいて前記少なくとも1つの音素の特徴情報を得ることと、を含む。
本発明によって提供される任意の実施形態に結合して、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することは、前記音声フレームシーケンス対応する第1音響特徴シーケンスを取得することであって、前記第1音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴ベクトルを取得することと、前記音響特徴ベクトルに基づいて前記少なくとも1つの音声フレームに対応する特徴情報を得ることと、を含む。
本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、前記顔部筋肉制御係数は、少なくとも1つの顔部筋肉の運動状態を制御するために使用され、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得することを含み、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することを含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記顔部姿態パラメータに関連している体姿態の駆動データを取得することと、前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動することと、をさらに含む。
本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の制御パラメータ値は、前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを含み、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記駆動データに基づいて前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを取得することを含み、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、取得した前記少なくとも1つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および/または肢体動作を制御することを含む。
本発明によって提供される任意の実施形態に結合して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することは、前記特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む。
本発明の1態様によると、表示デバイスに展示されているインタラクティブ対象の駆動装置を提供し、前記装置は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第1取得ユニットと、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第2取得ユニットと、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。
本発明の1態様によると、電子デバイスを提供し、当該電子デバイスは、前記デバイスメモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、実現本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法を実行する。
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実行される。
本発明の1つのまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記憶媒体によると、前記インタラクティブ対象の駆動データの駆動モードに基づいて、前記インタラクティブ対象の制御パラメータ値を取得することによって、前記インタラクティブ対象の姿態を制御する。ここで、互いに異なる駆動モードに対して互いに異なる方法に従って該当するインタラクティブ対象の制御パラメータ値を取得し、インタラクティブ対象が前記駆動データの内容および/または対応する音声にマッチングされる姿態を展示するようにして、目標対象にインタラクティブ対象と交流しているような感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。
以下、本明細書の1つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の説明に使用する必要のある図面を簡単に紹介する。明らかに、以下に説明する図面は、本明細書の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動方法中の表示デバイスの模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動方法のフローチャートである。 本発明の少なくとも1つの実施例によって提供される音素シーケンスに対して特徴エンコーディングを実行する過程の模式図である。 本発明の少なくとも1つの実施例によって提供される音素シーケンスに基づいて制御パラメータ値を得る過程の模式図である。 本発明の少なくとも1つの実施例によって提供される音声フレームシーケンスに基づいて制御パラメータ値を得る過程の模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動装置の構成の模式図である。 本発明の少なくとも1つの実施例によって提供される電子デバイスの構成の模式図である。
以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本明細書における「および/または」という用語は、ただ関連対象の関連関係を説明するものであり、3つの関係が存在できることを示し、たとえば、Aおよび/またはBは、Aが単独に存在すること、AとBが同時に存在すること、および、Bが単独に存在することのような3つの関係が存在する。また、本明細書における「少なくとも1種」という用語は、複数種類の中の任意の1種または複数種類の中の少なくとも2種の任意の組み合わせを示し、たとえば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットから選択した任意の1つまたは複数の要素を含むことを示す。
本発明の少なくとも1つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。
本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。1実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、2Dまたは3Dであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。1例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう1例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。
前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。
図1は、本発明の少なくとも1つの実施例によって提供される表示デバイスを示す。図1に示すように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図1の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供されるインタラクティブ対象の駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。
いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方法によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。
インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに鑑みて、本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。
図2は、本発明の少なくとも1つの実施例に係るインタラクティブ対象の駆動方法のフローチャートであり、前記インタラクティブ対象は、表示デバイスに展示されており、図2に示すように、前記方法は、ステップ201~ステップ203を含む。
ステップ201において、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定する。
本発明の実施例において、前記音声駆動データは、オーディオデータ(音声データ)、テキストなどを含み得る。前記音声駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを行う目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより直接取得した内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方法に対して限定しない。
前記駆動データのタイプおよび前記駆動データ中に含まれている情報に基づいて、前記駆動データの駆動モードを確定することができる。
1例において、前記駆動データのタイプに基づいて前記駆動データに対応する音声データシーケンスを取得することができ、ここで、前記音声データシーケンスは複数の音声データ単位を含む。ここで、前記音声データ単位は、文字または単語を単位として構成されてもよいし、音素または音節を単位として構成されてもよい。テキストタイプの駆動データに対応して、前記駆動データに対応する文字シーケンス、単語シーケンスなどを得ることができ、オーディオタイプの駆動データに対応して、前記駆動データに対応する音素シーケンス、音節シーケンス、音声フレームシーケンスなどを得ることができる。1実施例において、オーディオデータとテキストデータとは、互いに変換されることができる。たとえば、オーディオデータをテキストデータに変換してから音声データ単位の分割を実行し、または、テキストデータをオーディオデータに変換してから音声データ単位の分割を実行することができ、本発明はこれに対して限定しない。
前記音声データ単位に含まれている目標データが検出された場合、前記駆動データの駆動モードを第1駆動モードとして確定することができ、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応する。
前記目標データは、設定されたキー単語またはキー文字などであり得、前記キー単語または前記キー文字は、インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応する。
本発明の実施例において、事前に各々の目標データに、所定の動作をマッチングさせる。各所定の動作は、該当する制御パラメータ値によって制御して実現される。したがって、各目標データと所定の動作の制御パラメータ値とは、マッチングされる。キー単語が「手振り」である例をとると、前記音声データ単位がテキストの形の「手振り」および/または音声の形の「手振り」を含む場合、前記駆動データが目標データを含むと確定することができる。
例示的に、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。
前記目標データに対応する音節は、事前に分割された互いに異なる音節タイプに属し、また、前記互いに異なる音節タイプは、互いに異なる所定の口形状にマッチングされる。ここで、音節は、少なくとも1つの音素を組み合わせて形成して音声単位を含む。前記音節は、ピンイン言語の音節および非ピンイン言語(たとえば中国語である)の音節を含み得る。互いに異なる音節タイプは、発音動作と一致するか基本的に一致する音節であり、互いに異なる音節タイプは、インタラクティブ対象の互いに異なる動作に対応する。1実施例において、互いに異なる音節タイプは、インタラクティブ対象が話すときの互いに異なる所定の口形状に対応し、すなわち、互いに異なる発音動作に対応する。この場合、互いに異なる音節タイプは、それぞれ互いに異なる所定の口形状の制御パラメータ値にマッチングする。たとえば、ピンインである「ma」、「man」、「mang」などのタイプの音節は、その発音動作が基本的に一致するため、同一のタイプに見なすことができ、いずれも、インタラクティブ対象が話すときの「口が開いている」の口形状の制御パラメータ値に対応する。
前記音声データ単位に含まれている目標データが検出されなかった場合、前記駆動データの駆動モードを第2駆動モードとして確定することができ、ここで、前記目標データはインタラクティブ対象の所定の制御パラメータ値に対応する。
当業者は、上述した第1駆動モードと第2駆動モードは例に過ぎず、本発明の実施例は具体的な駆動モードを限定しないことを理解すべきである。
ステップ202において、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得する。
駆動データのさまざまな駆動モードに対して、該当する方式を採用して前記インタラクティブ対象の制御パラメータ値を取得することができる。
1例において、ステップ201で確定した第1駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することができる。たとえば、第1駆動モードに対して、前記音声データシーケンスに含まれている目標データ(たとえば「手振り」である)に対応する所定の制御パラメータ値を、前記インタラクティブ対象の制御パラメータ値として使用することができる。
1例において、ステップ201で確定した第2駆動モードに応答して、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得し、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することができる。つまり、音声データシーケンスに含まれている目標データが検出されないと、前記音声データ単位の特徴情報に基づいて対応する制御パラメータ値を取得することができる。前記特徴情報は、前記音声データシーケンスに対して特徴エンコーディングを実行して得られた音声データ単位の特徴情報、前記音声データシーケンスの音響特徴情報に基づいて得られた音声データ単位の特徴情報などを含み得る。
ステップ203において、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。
いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、当該顔部筋肉制御係数は、少なくとも1つの顔部筋肉の運動状態を制御するために使用される。1実施例において、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得し、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することができる。
いくつかの実施例において、前記インタラクティブ対象の制御パラメータ値は、前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを含む。1実施例において、前記駆動データに基づいて前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを取得することができ、取得した前記少なくとも1つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および/または肢体動作を制御するができる。
前記インタラクティブ対象の駆動データの駆動モードに基づいて、前記インタラクティブ対象の制御パラメータ値を取得することによって、前記インタラクティブ対象の姿態を制御する。ここで、互いに異なる駆動モードに対して、互いに異なる方式によって該当するインタラクティブ対象の制御パラメータ値を取得することによって、インタラクティブ対象が前記駆動データの内容および/または対応する音声にマッチングする姿態を展示するようにして、目標対象にインタラクティブ対象と交流しているような感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。
いくつかの実施例において、さらに、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および/または、テキストを展示することができる。また、音声の出力および/またはテキストの展示の同時に、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することができる。
本発明の実施例において、制御パラメータ値と前記駆動データとがマッチングされるため、前記駆動データに基づく音声の出力および/またはテキストの展示が、前記制御パラメータ値に基づく制御インタラクティブ対象の姿態とが、同期化される場合、インタラクティブ対象が行った姿態と出力した音声および/または展示したテキストも同期化されるため、目標対象に前記インタラクティブ対象と交流しているような感覚を与える。
いくつかの実施例において、前記音声データシーケンスは、音素シーケンスを含む。前記駆動データがオーディオデータを含むことに応答して、オーディオデータを複数のオーディオフレームに分割し、オーディオフレームの状態に基づいてオーディオフレームを組み合わせて音素を形成することができる。前記オーディオデータに基づいて形成した各音素は、音素シーケンスを形成する。ここで、音素は、音声の自然的な属性に基づいて分割した最小の音声単位であり、実在の人物の1つの発音動作が1つの音素を形成することができる。前記駆動データがテキストであることに応答して、前記テキストに含まれている形態素に基づいて、前記形態素に対応する音素を得ることによって、該当する音素シーケンスを得ることができる。
いくつかの実施例において、以下の方法によって、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することができ、前記方法は、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第1コードシーケンスを得ることと、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することと、前記特徴コードに基づいて前記少なくとも1つの音素の特徴情報を得ることと、を含む。
図3は、音素シーケンスに対して特徴エンコーディングを実行する過程を示す模式図である。図3に示すように、音素シーケンス310は、音素j、i1、j、ie4(簡素化のために、一部の音素のみを示す)を含み、各々の音素j、i1、ie4に対してそれぞれ対応するコードシーケンス321、322、323を得る。各々のコードシーケンスにおいて、前記音素が対応されている時点に対応するコード値を第1数値として設定し(たとえば1に設定する)、前記音素が対応されていない時点に対応するコード値を第2数値として設定する(たとえば0に設定する)。コードシーケンス321の例をとると、音素シーケンス310において音素jがいる時点で、コードシーケンス321の値が第1数値である1であり、音素jがない時点で、コードシーケンス321の値が第2数値である0に設定される。すべてのコードシーケンス321、322、323によって完全なコードシーケンス320が構成される。
音素j、i1、ie4にそれぞれ対応するコードシーケンス321、322、323のコード値、および、当該3つのコードシーケンス中に対応する音素の時間長さに基づいて、つまり、コードシーケンス321におけるjの時間長さ、コードシーケンス322におけるi1の時間長さ、および、コードシーケンス323におけるie4の時間長さに基づいて、コードシーケンス321、322、323の特徴情報を得ることができる。
たとえば、ガウスフィルターを利用してそれぞれ前記コードシーケンス321、322、323中の音素j、i1、ie4の時間における連続値に対してガウス畳み込み操作を実行して、前記コードシーケンスの特徴情報を得ることができる。つまり、ガウスフィルターを利用して音素の時間における連続値に対してガウス畳み込み操作を実行することによって、各々のコードシーケンス中のコード値が第2数値から第1数値または第1数値から第2数値の変化の段階がスムーズになるようにする。各々のコードシーケンス321、322、323に対してそれぞれガウス畳み込み操作を実行することによって、各々のコードシーケンスの特徴値を得る。ここで、特徴値は特徴情報中のパラメータを構成し、各々のコードシーケンスの特徴情報のセットに基づいて、当該音素シーケンス310に対応する特徴情報330を得る。当業者は、各々のコードシーケンスに対して他の操作を実行して前記コードシーケンスの特徴情報を得ることができ、本発明はこれに対して限定しないことを理解すべきである。
本発明の実施例において、音素シーケンス中各々の音素の時間長さに基づいて前記コードシーケンスの特徴情報を得ることによって、コードシーケンスの変化の段階がスムーズになるようにする。たとえば、コードシーケンスの値は、0と1に加えて、中間状態の値であってもよく、たとえば0.2、0.3などであり得る。これら中間状態の値に基づいて取得した姿態パラメータ値は、インタラクティブ人物の姿態の変化がよりスムーズで自然になるようにし、特に、インタラクティブ人物の表情の変化をよりスムーズで自然になるようにして、目標対象のインタラクティブ体験を改善した。
いくつかの実施例において、前記顔部姿態パラメータは、顔部筋肉制御係数を含み得る。
人間の顔の運動は、解剖学の観点から、さまざまな顔の筋肉の協調的な変形の結果である。したがって、インタラクティブ対象の顔筋肉を分割して顔筋肉モデルを得、分割して得られた各筋肉(領域)に対して対応する顔筋肉制御係数に基づいてその運動を制御し、つまり、各筋肉に対して収縮/拡張制御を実行して、インタラクティブ人物の顔がさまざまな表情を行うようにすることができる。前記顔筋肉モデルの各々の筋肉に対して、筋肉が位置している顔位置および筋肉自身の運動特徴に基づいて、異なる筋肉制御係数に対応する運動状態を設定することができる。たとえば、上唇の筋肉の場合、その制御係数の数値の範囲は0~1であり、当該範囲内の異なる数値は上唇の筋肉の異なる収縮/拡張状態に対応され、当該数値を変更することによって、口部の縦方向の開閉を実現することができる。口の筋肉の左隅の場合、その制御係数の数値の範囲は0~1であり、当該範囲内の異なる数値は口の筋肉の左隅の収縮/拡張状態に対応され、当該数値を変更することによって、口部の横方向の変化を実現することができる。
音素シーケンスに基づいて音声を出力する同時に、前記音素シーケンスに対応する顔筋肉制御係数に基づいて前記インタラクティブ対象が顔表情を行うように駆動して、表示デバイスが音声を出力するときに、インタラクティブ対象が同時に当該音声を発する表情を行うようにすることによって、目標対象に当該インタラクティブ対象が話している感覚を与え、目標対象のインタラクティブ体験を改善した。
いくつかの実施例において、前記インタラクティブ対象の顔動作と体姿態とを関連付けることができる。つまり、当該顔動作に対応する顔姿態パラメータ値と前記体姿態とを関連付けることができ、前記体姿態は、肢体動作、ジェスチャ動作、歩き姿態などを含み得る。
インタラクティブ対象を駆動する過程で、前記顔姿態パラメータ値に関連する体姿態の駆動データを取得し、前記音素シーケンスに基づいて音声を出力する同時に、前記顔姿態パラメータ値に関連する体姿態の駆動データに基づいて、前記インタラクティブ対象が肢体動作を行うように前記インタラクティブ対象を駆動する。つまり、前記インタラクティブ対象の音声駆動データに基づいて前記インタラクティブ対象が顔動作を行うように駆動する同時に、さらに、当該顔動作に対応する顔姿態パラメータ値に基づいて関連付けられる体姿態の駆動データを取得して、音声を出力するときに、インタラクティブ対象が同期に該当する顔動作および肢体動作を行うように駆動することによって、インタラクティブ対象の発話状態がより鮮やかで自然であるになるようにし、目標対象のインタラクティブ体験を改善した。
音声の出力は連続性を維持する必要があるため、1実施例において、音素シーケンス上で時間ウィンドウを移動させ、毎回の移動過程で時間ウィンドウ内の音素を出力する。ここで、所定の時間長さを毎回の移動時間ウィンドウのステップサイズとして設定する。たとえば、時間ウィンドウの長さを1秒に設定し、所定の時間長さを0.1秒に設定することができる。時間ウィンドウ内の音素を出力する同時に、時間ウィンドウの所定の位置の音素または音素の特徴情報に対応する姿態パラメータ値を取得し、前記姿態パラメータ値を利用して前記インタラクティブ対象の姿態を制御する。当該所定の位置は、時間ウィンドウの開始位置からの所定の時間長さの位置であり、たとえば、時間ウィンドウの長さを1sに設定する場合、当該所定の位置は、時間ウィンドウの開始位置からの0.5sの位置であり得る。時間ウィンドウを移動するたびに、時間ウィンドウ内の音素を出力する同時に、時間ウィンドウの所定の位置に対応する姿態パラメータ値でインタラクティブ対象の姿態を制御することによって、インタラクティブ対象の姿態と出力される音声とが同期化されるようにし、目標対象に前記インタラクティブ対象と話している感覚を与える。
所定の時間長さを変更することによって、姿態パラメータ値を取得する時間間隔(頻度)を変更することができ、したがって、インタラクティブ対象が姿態を行う頻度を変更することができる。実際のインタラクティブのシーンに応じて当該所定の時間長さを設定することができ、インタラクティブ対象の姿態の変化がより自然になるようにすることができる。
いくつかの実施例において、インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを得ることによって前記インタラクティブ対象の姿態を制御することができる。
前記局部領域は、インタラクティブ対象の全体(顔および/または体を含む)を分割して得られたものである。顔の1つまたは複数の局部領域の制御は、インタラクティブ対象の一連の顔表情または動作に対応され得る。たとえば、目部領域の制御は、インタラクティブ対象の開目、閉目、ウィンク、視角変換などの顔動作に対応され得る。また、たとえば、口部領域の制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔動作に対応され得る。体のその中の1つまたは複数の局部領域の制御は、インタラクティブ対象の一連の肢体動作に対応され得る。たとえば、足部領域の制御は、インタラクティブ対象歩行、ジャンプ、蹴りなどの動作に対応され得る。
前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含む。各々の局部領域の姿態制御ベクトルは、前記インタラクティブ対象の前記局部領域の動作を駆動するために使用される。異なる姿態制御ベクトル値は、異なる動作または動作振幅に対応される。たとえば、口部領域の姿態制御ベクトルの場合、その1組の姿態制御ベクトル値は、前記インタラクティブ対象が口部をわずかに開くようにすることができ、もう1組の姿態制御ベクトル値は、前記インタラクティブ対象が口部を大きく開くようにすることができる。異なる姿態制御ベクトル値で前記インタラクティブ対象を駆動することによって、該当する局部領域が異なる動作または異なる振幅の動作を行うようにすることができる。
局部領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば、前記インタラクティブ対象の顔と肢体が同時に動作を行う制御する必要がある場合には、全ての局部領域の姿態制御ベクトル値を取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔に対応する局部領域の姿態制御ベクトル値を取得することができる。
いくつかの実施例において、前記第1コードシーケンス上でウィンドウスライディングを実行する方法によって、少なくとも1つの音素に対応する特徴コードを取得することができる。ここで、前記第1コードシーケンスは、ガウス畳み込み操作を通じた後のコードシーケンスであり得る。
所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも1つの音素の特徴コードとして設定し、ウィンドウスライディングが完了した後に、得られた複数の特徴コードに基づいて第2コードシーケンスを得ることができる。図4に示すように、第1コードシーケンス320またはスムーズした後の第1コードシーケンス430上で、所定の長さの時間ウィンドウをスライディングして、特徴コード1、特徴コード2、および、特徴コード3をそれぞれ得ることができ、以下同様である。第1コードシーケンスをトラバースした後、特徴コード1、特徴コード2、特徴コード3、…、特徴コードMを得ることによって、第2コードシーケンス440を得る。ここで、Mは正の整数であり、その数値は、第1コードシーケンスの長さ、時間ウィンドウの長さ、および、時間ウィンドウをスライディングするステップサイズに応じて決定される。
特徴コード1、特徴コード2、特徴コード3、…、特徴コードMに基づいて、該当する姿態制御ベクトル1、姿態制御ベクトル2、姿態制御ベクトル3、…、姿態制御ベクトルMをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンス450を得る。
姿態制御ベクトルのシーケンス450と第2コードシーケンス440とは、時間的に整列される。前記第2コードシーケンス中の各々の特徴コードが音素シーケンス中の少なくとも1つの音素に基づいて得たものであるため、姿態制御ベクトルのシーケンス450中の各々の制御ベクトルも同様に音素シーケンス中の少なくとも1つの音素に基づいて得たものである。テキストデータに対応する音素シーケンスを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動すると、駆動インタラクティブ対象がテキスト内容に対応する音声を発するようにする同時に、音声に同期化された動作を行うようにすることができ、目標対象に前記インタラクティブ対象と話している感覚を与える、目標対象のインタラクティブ体験を改善した。
1番目の時間ウィンドウの所定のタイミングから特徴コードを出力し始めると仮定すると、前記所定のタイミングの前の姿態制御ベクトル値をデフォルト値に設定することができ、つまり、音素シーケンスを最初に再生するときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後で第1コードシーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。図4を例にとると、t0のタイミングで特徴コード1を出力し始め、t0のタイミングの前に対応するのはデフォルトの姿態制御ベクトルである。
前記時間ウィンドウの長さは、前記特徴コードに含まれている情報の量に関連している。時間ウィンドウに含まれている情報の量がより大きい場合、前記リカレントニューラルネットワーク処理を通じてより均一な結果を出力することになる。時間ウィンドウの長さが大き過ぎると、インタラクティブ対象が話すときの表情が一部の文字に対応できなくなる。時間ウィンドウの長さが小さ過ぎると、インタラクティブ対象が話すときの表情が硬く見えるようになる。したがって、時間ウィンドウの時間長さは、テキストデータに対応する音素が持続する最小時間によって確定することによって、前記インタラクティブ対象を駆動して行った動作が音声とより強い関連性を有するようにする。
時間ウィンドウをスライディングするステップサイズは、姿態制御ベクトルを取得する時間間隔(頻度)に関連しており、つまり、駆動インタラクティブ対象が動作を行う頻度に関連している。実際のインタラクティブのシーンに応じて、前記時間ウィンドウの長さおよびステップサイズを設定することによって、インタラクティブ対象が行う表情および動作と音声との関連性がより強くて、また、より鮮やかで自然になるようにする。
いくつかの実施例において、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の姿態制御ベクトルに基づいて、前記インタラクティブ対象が動作を行うように駆動する。つまり、インタラクティブ人物の発話の停頓がより長いと、前記インタラクティブ対象が所定の動作を行うように駆動する。たとえば、出力する音声の停頓がより長いときに、インタラクティブ対象が微笑の表情を行うか、または体を少し振るようにすることによって、停頓がより長いときにインタラクティブ対象が表情なしで直立していることを回避し、インタラクティブ対象が発話する過程がより自然でスムーズになるようにし、目標対象のインタラクティブ対象とのインタラクティブエクスペリエンスを改善した。
いくつかの実施例において、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することは、前記音声フレームシーケンス対応する第1音響特徴シーケンスを取得することであって、前記第1音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴ベクトルを取得することと、前記音響特徴ベクトルに基づいて前記少なくとも1つの音声フレームに対応する特徴情報を得ることと、を含む。
本発明の実施例において、前記音声フレームシーケンスの音響特徴に基づいて、インタラクティブ対象の少なくとも1つの部分的領域の制御パラメータを確定してもよいし、前記音声フレームシーケンスの他の特徴に基づいて制御パラメータを確定してもよい。
まず、前記音声フレームシーケンス対応する音響特徴シーケンスを取得する。ここで、後続で言及される音響特徴シーケンスと区別するために、前記音声フレームシーケンスに対応する音響特徴シーケンスを第1音響特徴シーケンスと呼ぶ。
本発明の実施例において、音響特徴は、基本周波数特徴、共通ピーク特徴、メル周波数係数(Mel Frequency Cofficient、MFCC)などのような、音声情感に関連する特徴であり得る。
前記第1音響特徴シーケンスは、音声フレームシーケンスの全体に対して処理を実行して得たものであり、MFCC特徴の例をとると、前記音声フレームシーケンス中の各々の音声フレームに対して、ウィンドウ、高速フーリエ変換、フィルタリング、対数処理、離散コサイン処理を実行して、各々の音声フレームに対応するMFCC係数を得る。
前記第1音響特徴シーケンスは、音声フレームシーケンスの全体に対して処理を実行して得たものであり、音声データシーケンスの全体の音響特徴を反映した。
本発明の実施例において、前記第1音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む。MFCCの例をとると、前記第1音響特徴シーケンスは、各音声フレームのMFCC係数を含む。前記音声フレームシーケンスに基づいて得られた第1音響特徴シーケンスは、図5に示すとおりである。
続いて、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴を取得する。
前記第1音響特徴シーケンスが前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む場合、前記少なくとも1つの音声フレームに対応する同じ数の特徴ベクトルを前記音声フレームの音響特徴として利用することができる。ここで、上述した同じ数の特徴ベクトルは、1つの特徴マトリックスを形成することができ、当該特徴マトリックスが前記少なくとも1つの音声フレームの音響特徴である。
図5の例をとると、前記第1音響特徴シーケンス中のN個の特徴ベクトルによって対応するN個の音声フレームの音響特徴を形成し、ここで、Nは正の整数である。前記第1音響特徴マトリックスは、複数の音響特徴を含み得、ここで、各々の前記音響特徴に対応する音声フレーム間は一部が重複する場合がある。
最後に、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを取得する。
得られた少なくとも1つの音声フレームに対応する音響特徴に対して、少なくとも1つの部分的領域の制御ベクトルを取得することができる。部分的領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができる。たとえば、前記インタラクティブ対象の顔部および肢体が同時に動作を行うように制御する必要がある場合には、全部の部分的領域の制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔部に対応する部分的領域の制御ベクトルを取得することができる。
音声データシーケンスを再生する同時に、前記第1音響特徴シーケンスによって得られた各々の音響特徴に対応する制御ベクトルに基づいて前記インタラクティブ対象が動作を行う駆動することによって、端末デバイスが音声を出力する同時に、インタラクティブ対象が出力された音声にマッチングされる動作を行うようにすることができ、ここで、当該動作は、顔部動作、表情、肢体動作などを含む。したがって、目標対象に当該インタラクティブ対象が話している感覚を与えることができる。前記制御ベクトルが出力される音声の音響特徴に関連しているため、前記制御ベクトルに基づいて駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素が加わり、インタラクティブ対象が発話する過程がより自然で鮮やかになるようにし、目標対象のインタラクティブ体験を改善した。
いくつかの実施例において、前記第1音響特徴シーケンスにおいてウィンドウスライディングを実行の方法によって、前記少なくとも1つの音声フレームに対応する音響特徴を取得することができる。
所定の長さの時間ウィンドウと所定のステップサイズで、前記第1音響特徴シーケンスに対してウィンドウスライディングを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する同じ数の音声フレームの音響特徴に設定することによって、これら音声フレームに共同に対応される音響特徴を得ることができる。ウィンドウスライディングを完了した後に、得られた複数の音響特徴に基づいて第2音響特徴シーケンスを得ることができる。
図5に示したインタラクティブ対象の駆動方法の例をとると、前記音声フレームシーケンスは、1秒あたり100個の音声フレームが含まれ、前記時間ウィンドウの長さは1sであり、ステップサイズは0.04sである。前記第1音響特徴シーケンス中の各特徴ベクトルは音声フレームに対応され、これに応じて、前記第1音響特徴シーケンスも、1秒同様に100個の特徴ベクトルが含まれる。前記第1音響特徴シーケンスにおいてウィンドウスライディングを実行する過程において、前記時間ウィンドウ内の100個の特徴ベクトルを得るたびに、得られた100個の特徴ベクトルを対応する100個の音声フレームの音響特徴に設定する。前記第1音響特徴シーケンスにおいて0.04sのステップサイズで前記時間ウィンドウを移動することで、それぞれ第1~100個の音声フレームに対応する音響特徴1、および、第4~104音声フレームに対応する音響特徴2を得、類推により、第1音響特徴に対する処理を完了した後、音響特徴1、音響特徴2、…、音響特徴Mを得、したがって、第2音響特徴シーケンスを得る。ここで、Mは、正の整数であり、その数値は、音声フレームシーケンスのフレーム数(第1音響特徴シーケンス中の特徴ベクトルの数)、時間ウィンドウの長さ、および、ステップサイズによって、確定される。
音響特徴1、音響特徴2、…、音響特徴Mに基づいて、該当する制御ベクトル1、制御ベクトル2、…、制御ベクトルMをそれぞれ得ることができ、したがって、制御ベクトルのシーケンスを得ることができる。
図5に示すように、前記制御ベクトルのシーケンスは、前記第2音響特徴シーケンスと時間上で整列され、前記第2音響特徴シーケンス中の音響特徴1、音響特徴2、…、音響特徴Mは、それぞれ前記第1音響特徴シーケンス中のN個の特徴ベクトルに基づいて得られ、したがって、前記音声フレームを再生する同時に、前記制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することができる。
1番目の時間ウィンドウの所定のタイミングに音響特徴の出力を開始すると仮定すると、前記所定のタイミングの前の制御ベクトルをデフォルト値に設定することができ、つまり、音声フレームシーケンスを再生したばかりのときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後に第1音響特徴シーケンスに基づいて得られた制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行う駆動し始める。
図5の例をとると、t0タイミングで音響特徴1の出力を開始し、ステップサイズに対応する時間0.04sを間隔として音響特徴を出力し、t1タイミングで音響特徴2の出力を開始し、t2タイミングで音響特徴3の出力を開始し、…、t(M-1)タイミングで音響特徴Mを出力する。これに対して、ti~t(i+1)時間帯には、特徴ベクトル(i+1)が対応され、ここで、iは(M-1)未満の整数である。ただし、t0タイミングの前には、制御ベクトルはデフォルト制御ベクトルである。
本発明の実施例において、前記音声データシーケンスを再生する同時に、前記制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、インタラクティブ対象の動作が出力する音声に同期化されるようにし、目標対象に前記インタラクティブ対象が話している感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。
前記時間ウィンドウの長さは、前記音響特徴に含まれている情報量に関連している。時間ウィンドウの長さが大きいほど、含まれている情報が多く、前記インタラクティブ対象を駆動して行う動作と音声の関連性もより強い。時間ウィンドウスライディングのステップサイズは、制御ベクトルを取得する時間間隔(頻度)に関連しており、つまり、インタラクティブ対象が動作を行うように駆動する頻度に関連している。実際のインタラクティブシーンに応じて前記時間ウィンドウの長さおよびステップサイズを設定することができ、インタラクティブ対象が表情および動作と音声の関連性がより強くなるようにし、より鮮やかで自然である。
いくつかの実施例において、前記音響特徴は、L個の次元のメル周波数係数MFCCを含み、ここで、Lは正の整数である。MFCCは、音声信号のエネルギーの頻度の範囲における分布である。前記音声フレームシーケンス中の複数の音声フレームデータを周波数領域に変換し、L個のサブ領域を含むメルフィルターを利用して、L個の次元のMFCCを得る。音声データシーケンスのMFCCに基づいて制御ベクトルを取得し、前記制御ベクトルに基づいて前記インタラクティブ対象が顔部動作と肢体動作を実行するように駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素が加わり、インタラクティブ対象が話している過程より自然で鮮やかになるようにし、したがって、目標対象のインタラクティブ対象とのインタラクティブ体験を改善する。
いくつかの実施例において、前記音声データ単位の特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力された特徴情報の履歴情報を学習し、音声単位シーケンスに基づいて制御パラメータを出力することができる。たとえば、当該制御パラメータは、顔部姿態制御パラメータ、または、少なくとも1つの部分的領域の制御ベクトルであり得る。
本発明の実施例において、事前に訓練されたリカレントニューラルネットワークを利用して前記音声データ単位の特徴情報に対応する制御パラメータを取得し、関連性がある履歴特徴情報と現在特徴情報とを融合することによって、履歴制御パラメータが現在制御パラメータの変化に対して影響を与えるようにすることによって、インタラクティブ人物の表情変化と肢体動作がよりスムーズで自然になるようにする。
いくつかの実施例において、以下の方法によって前記リカレントニューラルネットワークを訓練することができる。
まず、特徴情報サンプルを取得する。たとえば、以下の方法によって前記特徴情報サンプルを取得することができる。
キャラクターを発した音声のビデオセグメントを取得し、前記ビデオセグメント中からキャラクターの該当する音声セグメントを抽出する。たとえば、実在の人物が話しているビデオセグメントを取得することができる。前記ビデオセグメントに対してサンプリングを実行して複数の前記キャラクターの第1画像フレームを取得することができる。また、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることができる。
前記第1画像フレームに対応する前記音声フレームに含まれている音声データ単位に基づいて、前記音声フレームに対応する特徴情報を取得することができる。
前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換して、前記第2画像フレームに対応する前記インタラクティブ対象の制御パラメータ値を取得することができる。
前記制御パラメータ値に基づいて、前記第1画像フレームに対応する特徴情報をラベリングして、特徴情報サンプルを得ることができる。
いくつかの実施例において、前記特徴情報は、音素の特徴コードを含み、前記制御パラメータは、顔部筋肉制御係数を含む。上述した特徴情報サンプルを取得する方法によって、得られた顔部筋肉制御係数を利用して、前記第1画像フレームに対応する音素の特徴エンコーディングをラベリングして、音素の特徴コードに対応する特徴情報サンプルを得ることができる。
いくつかの実施例において、前記特徴情報は、音素の特徴コードを含み、前記制御パラメータは、前記インタラクティブ対象の少なくとも1つの部分的な制御ベクトルを含む。上述した特徴情報サンプルを取得する方法によって、得られた少なくとも1つの部分的な制御ベクトルを利用して、前記第1画像フレームに対応する音素の特徴コードをラベリングして、音素の特徴エンコーディングに対応する特徴情報サンプルを得ることができる。
いくつかの実施例において、前記特徴情報は、音声フレームの音響特徴を含み、前記制御パラメータは、前記インタラクティブ対象の少なくとも1つの部分的な制御ベクトルを含む。上述した特徴情報サンプルを取得する方法によって、得られた少なくとも1つの部分的な制御ベクトルを利用して、前記第1画像フレームに対応する音声フレームの音響特徴をラベリングして、音声フレームの音響特徴に対応する特徴情報サンプルを得ることができる。
当業者は、前記特徴情報サンプルは、上記に記載に限定されず、各々のタイプの音声データ単位のさまざまな特徴に対応して、該当する特徴情報サンプルを得ることができることを理解すべきである。
前記特徴情報サンプルを得た後に、前記特徴情報サンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワークの損失の変化が収束条件を満たすと、前記リカレントニューラルネットワーク訓練して得る。前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た制御パラメータ値とラベリングした制御パラメータ値との間の差異を含む。
本発明の実施例において、キャラクターのビデオセグメントを対応する複数の第1画像フレームと複数の音声フレームに分割し、実在の人物が含まれた第1画像フレームをインタラクティブ対象が含まれた第2画像フレームに変換して、少なくとも1つの音声フレームの特徴情報に対応する制御パラメータ値を取得することによって、特徴情報と制御パラメータ値との対応性がより良くなるようにし、高品質の特徴情報サンプルを得、インタラクティブ対象の姿態が対応するキャラクターの実在の姿態に近くなるようにする。
図6は、本発明の少なくとも1つの実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図6に示すように、当該装置は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第1取得ユニット601と、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第2取得ユニット602と、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット603と、を備える。
いくつかの実施例において、前記装置は、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および/または、テキストを展示するための出力ユニットをさらに備える。
いくつかの実施例において、前記駆動データに対応する駆動モードを確定するときに、前記第1取得ユニットは、具体的に、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得し、ここで、前記音声データシーケンスは複数の音声データ単位を含み、また、前記音声データ単位に含まれている目標データが検出されると、前記駆動データの駆動モードを第1駆動モードとして確定し、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応し、また、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第1駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することを含む。
いくつかの実施例において、前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。
いくつかの実施例において、前記駆動データの駆動モードを認識するときに、前記第1取得ユニットは、具体的に、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得し、ここで、前記音声データシーケンスは複数の音声データ単位を含み、また、前記音声データ単位に含まれている目標データが検出されないと、前記駆動データの駆動モードを第2駆動モードとして確定し、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応し、また、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第2駆動モードに応答して、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することと、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む。
いくつかの実施例において、前記音声データシーケンスは、音素シーケンスを含み、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得するときに、前記第2取得ユニットは、具体的に、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第1コードシーケンスを得、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得し、前記特徴コードに基づいて前記少なくとも1つの音素の特徴情報を得る。
いくつかの実施例において、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得するときに、前記第2取得ユニットは、具体的に、前記音声フレームシーケンス対応する第1音響特徴シーケンスを取得し、ここで、前記第1音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、また、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴ベクトルを取得し、前記音響特徴ベクトルに基づいて前記少なくとも1つの音声フレームに対応する特徴情報を得る。
いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、当該顔部筋肉制御係数は、少なくとも1つの顔部筋肉の運動状態を制御するために使用され、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するときに、前記第2取得ユニットは、具体的に、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得し、前記駆動ユニットは、具体的に、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動し、また、前記装置は、前記顔部姿態パラメータに関連している体姿態の駆動データを取得し、前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動するための肢体駆動ユニットをさらに備える。
いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを含み、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するときに、前記第2取得ユニットは、具体的に、前記駆動データに基づいて前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを取得し、前記駆動ユニットは、具体的に、取得した前記少なくとも1つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および/または肢体動作を制御する。
本発明の1態様によると、電子デバイスを提供し、前記デバイスメモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法を実現する。
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。
本明細書の少なくとも1つの実施例は、電子デバイスをさらに提供し、図7に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。
本明細書少なくとも1つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法が実現される。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせた実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記録媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
本発明における各実施例は、いずれも、漸進的な方法を使用して叙述され、各実施例同士の間の同一または類似な一部は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせからの変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の1つまたは複数の実施例の範囲に含まれるべきである。

Claims (12)

  1. 表示デバイスに展示されているインタラクティブ対象の駆動方法であって、
    前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定することと、
    前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することと、
    前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含み、
    前記駆動データに対応する駆動モードを確定することは、
    前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、
    前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第1駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、
    前記音声データ単位に含まれている前記目標データが検出されなかったことに応答して、前記駆動データの駆動モードを第2駆動モードとして確定することと、を含み、
    前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
    前記第1駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することと、
    前記第2駆動モードに応答して、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得すると共に、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む、
    ことを特徴とするインタラクティブ対象の駆動方法。
  2. 前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および/または、テキストを展示することをさらに含む
    ことを特徴とする請求項1に記載のインタラクティブ対象の駆動方法。
  3. 前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、前記インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、
    前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する
    ことを特徴とする請求項に記載のインタラクティブ対象の駆動方法。
  4. 前記音声データシーケンスは、音素シーケンスを含み、
    前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することは、
    前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第1コードシーケンスを得ることと、
    前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することと、
    前記特徴コードに基づいて前記少なくとも1つの音素の特徴情報を得ることと、を含む
    ことを特徴とする請求項に記載のインタラクティブ対象の駆動方法。
  5. 前記音声データシーケンスは、音声フレームシーケンスを含み、
    前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得することは、
    前記音声フレームシーケンス対応する第1音響特徴シーケンスを取得することであって、前記第1音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、
    前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴ベクトルを取得することと、
    前記音響特徴ベクトルに基づいて前記少なくとも1つの音声フレームに対応する特徴情報を得ることと、を含む
    ことを特徴とする請求項に記載のインタラクティブ対象の駆動方法。
  6. 前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、前記顔部筋肉制御係数は、少なくとも1つの顔部筋肉の運動状態を制御するために使用され、
    前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
    前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得することを含み、
    前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
    取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することを含む
    ことを特徴とする請求項1からのいずれか1項に記載のインタラクティブ対象の駆動方法。
  7. 前記顔部姿態パラメータに関連している体姿態の駆動データを取得することと、
    前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動することと、をさらに含む
    ことを特徴とする請求項に記載のインタラクティブ対象の駆動方法。
  8. 前記インタラクティブ対象の制御パラメータは、前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを含み、
    前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
    前記駆動データに基づいて前記インタラクティブ対象の少なくとも1つの部分的領域の制御ベクトルを取得することを含み、
    前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
    取得した前記少なくとも1つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および/または肢体動作を制御することを含む
    ことを特徴とする請求項1からのいずれか1項に記載のインタラクティブ対象の駆動方法。
  9. 前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することは、
    前記特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む
    ことを特徴とする請求項に記載のインタラクティブ対象の駆動方法。
  10. 表示デバイスに展示されているインタラクティブ対象の駆動装置であって、
    前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第1取得ユニットと、
    前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第2取得ユニットと、
    前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備え
    前記駆動データに対応する駆動モードを確定することは、
    前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、
    前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第1駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、
    前記音声データ単位に含まれている前記目標データが検出されなかったことに応答して、前記駆動データの駆動モードを第2駆動モードとして確定することと、を含み、
    前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
    前記第1駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することと、
    前記第2駆動モードに応答して、前記音声データシーケンス中の少なくとも1つの音声データ単位の特徴情報を取得すると共に、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む、
    ことを特徴とするインタラクティブ対象の駆動装置。
  11. 電子デバイスであって、
    メモリとプロセッサとを備え、
    前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
    前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項1からのいずれか1項に記載の方法を実行する
    ことを特徴とする電子デバイス。
  12. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1からのいずれか1項に記載の方法が実行される
    ことを特徴とするコンピュータ可読記録媒体。
JP2021556973A 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体 Active JP7227395B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010246112.0A CN111459452B (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质
CN202010246112.0 2020-03-31
PCT/CN2020/129806 WO2021196645A1 (zh) 2020-03-31 2020-11-18 交互对象的驱动方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022531072A JP2022531072A (ja) 2022-07-06
JP7227395B2 true JP7227395B2 (ja) 2023-02-21

Family

ID=71683479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021556973A Active JP7227395B2 (ja) 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体

Country Status (5)

Country Link
JP (1) JP7227395B2 (ja)
KR (1) KR20210129713A (ja)
CN (1) CN111459452B (ja)
TW (1) TWI760015B (ja)
WO (1) WO2021196645A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113050859B (zh) * 2021-04-19 2023-10-24 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN114283227B (zh) * 2021-11-26 2023-04-07 北京百度网讯科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN116932706A (zh) * 2022-04-15 2023-10-24 华为技术有限公司 汉语翻译的方法和电子设备
CN116977499B (zh) * 2023-09-21 2024-01-16 粤港澳大湾区数字经济研究院(福田) 一种面部、身体运动参数的联合生成方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200125A (ja) 1998-12-30 2000-07-18 Fuji Xerox Co Ltd インタフェ―ス
JP2016038601A (ja) 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
CN109739350A (zh) 2018-12-24 2019-05-10 武汉西山艺创文化有限公司 基于透明液晶显示屏的ai智能助理设备及其交互方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
JP5855742B2 (ja) * 2011-05-11 2016-02-09 ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation ヘルスケア用の対話型グラフィカルマップのビジュアライゼーション
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US20180160077A1 (en) * 2016-04-08 2018-06-07 Maxx Media Group, LLC System, Method and Software for Producing Virtual Three Dimensional Avatars that Actively Respond to Audio Signals While Appearing to Project Forward of or Above an Electronic Display
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互***
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和***
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及***
CN108942919B (zh) * 2018-05-28 2021-03-30 北京光年无限科技有限公司 一种基于虚拟人的交互方法及***
CN110876024B (zh) * 2018-08-31 2021-02-12 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
CN109377539B (zh) * 2018-11-06 2023-04-11 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110176284A (zh) * 2019-05-21 2019-08-27 杭州师范大学 一种基于虚拟现实的言语失用症康复训练方法
CN110716634A (zh) * 2019-08-28 2020-01-21 北京市商汤科技开发有限公司 交互方法、装置、设备以及显示设备
CN110688008A (zh) * 2019-09-27 2020-01-14 贵州小爱机器人科技有限公司 虚拟形象交互方法和装置
CN110815258B (zh) * 2019-10-30 2023-03-31 华南理工大学 基于电磁力反馈和增强现实的机器人遥操作***和方法
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200125A (ja) 1998-12-30 2000-07-18 Fuji Xerox Co Ltd インタフェ―ス
JP2016038601A (ja) 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
CN109739350A (zh) 2018-12-24 2019-05-10 武汉西山艺创文化有限公司 基于透明液晶显示屏的ai智能助理设备及其交互方法

Also Published As

Publication number Publication date
TWI760015B (zh) 2022-04-01
WO2021196645A1 (zh) 2021-10-07
JP2022531072A (ja) 2022-07-06
TW202138970A (zh) 2021-10-16
KR20210129713A (ko) 2021-10-28
CN111459452A (zh) 2020-07-28
CN111459452B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN110162598B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
WO2023284435A1 (zh) 生成动画的方法及装置
WO2021232876A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
TW202248994A (zh) 互動對象驅動和音素處理方法、設備以及儲存媒體
WO2021232877A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
CN110166844B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN112632262A (zh) 一种对话方法、装置、计算机设备及存储介质
JP2022531056A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
CN117036556A (zh) 虚拟形象驱动方法、装置及机器人
Pueblo Videorealistic facial animation for speech-based interfaces

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220727

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230209

R150 Certificate of patent or registration of utility model

Ref document number: 7227395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150