JP2022530726A - インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 - Google Patents

インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 Download PDF

Info

Publication number
JP2022530726A
JP2022530726A JP2021529000A JP2021529000A JP2022530726A JP 2022530726 A JP2022530726 A JP 2022530726A JP 2021529000 A JP2021529000 A JP 2021529000A JP 2021529000 A JP2021529000 A JP 2021529000A JP 2022530726 A JP2022530726 A JP 2022530726A
Authority
JP
Japan
Prior art keywords
acoustic feature
sequence
interactive
audio
local area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021529000A
Other languages
English (en)
Inventor
文岩 ▲呉▼
潜溢 ▲呉▼
晨 ▲錢▼
宇欣 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022530726A publication Critical patent/JP2022530726A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明は、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の少なくとも1つの局所エリアの姿態を制御することと、を含む。【選択図】図2

Description

<関連出願の互いに引用>
本発明は、出願日が2020年3月31日であり、出願番号が2020102472765である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータ技術の分野に関し、具体的には、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体に関する。
ヒューマンコンピュータインタラクションは、主にキーストローク、タッチ、音声入力によって、表示スクリーンに画像、テキスト、または、仮想人物を現わして応答を行う。現在、仮想人物は、主に音声アシスタントを基に改良して得られたものである。
本発明の実施例は、インタラクティブ対象駆動の解決策を提供する。
本発明の1態様によると、インタラクティブ対象駆動方法を提供し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することをさらに含む。
本発明によって提供される任意の実施形態に結合すると、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することは、前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得することと、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することと、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することと、を含む。
本発明によって提供される任意の実施形態に結合すると、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することは、所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得ることを含む。
本発明によって提供される任意の実施形態に結合すると、前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
本発明によって提供される任意の実施形態に結合すると、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得ることを含む。
本発明によって提供される任意の実施形態に結合すると、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記方法は、音響特徴サンプルを取得することをさらに含み、具体的には、1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、前記第1画像フレームに対応する前記音声フレームの音響特徴を取得することと、前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得することと、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む。
本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む。
本発明の1態様によると、インタラクティブ対象駆動装置を提供し、前記装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニットと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニットと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。
本発明の1態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサは、前記コンピュータ命令が実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法を実現する。
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムプログラムがプロセッサによって実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法が実現される。
本発明の1つまたは複数の実施例のインタラクティブ対象駆動方法、装置、デバイス、および、コンピュータ可読記録媒体によると、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。
以下、本発明の1つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の記述で使用する必要がある図面を簡単に紹介する。以下の記述中の図面は、本発明の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者にとって創造的な作業なしでこれら図面に基づいてその他の図面をさらに得ることができることは、明らかである。
本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法中の表示デバイスの模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法のフローチャートである。 本発明の少なくとも1つの実施例によって提供される音声フレームのシーケンスに対して特徴コーディングを行う過程の模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動装置の構成の模式図である。 本発明の少なくとも1つの実施例によって提供される電子デバイスの構成を示す模式図である。
ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本明細書中の「および/または」という用語は、ただ、関連オブジェクトの関連関係を叙述し、例えば、Aおよび/またはBは、Aが単独的に存在すること、AとBが同時に存在すること、および、Bが単独的に存在することのような、3種の関係が存在することができることを意味する。また、本明細書中の「少なくとも1種」という用語は、複数種の中の任意の1種、または、複数種の中の少なくとも2種の任意の組み合わせを意味し、例えば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットの中から選択した任意1つまたは複数の要素を意味する。
本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、固定端末または移動端末であり得、たとえば、携帯電話、タブレットコンピュータ、ゲームコンソール、デスクトップコンピュータ、広告機、オールインワン器、車載端末などである。前記サーバは、ローカルサーバまたはクラウドサーバなどを含み、前記方法は、さらに、プロセッサによってメモリに記憶されているコンピュータ可読命令を呼び出す方式によって実現され得る。
本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを行うことができる任意の仮想キャラクターであり得る。1実施例において、インタラクティブ対象は、仮想人物であり、さらに、仮想動物、仮想物品、漫画キャラクターなどの、インタラクティブ機能を実現できる他の仮想キャラクターであり得る。インタラクティブ対象の表示形式は、2Dまたは3Dであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方式は、能動的インタラクティブ方式または受動的インタラクティブ方式であり得る。1例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方式によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう1例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方式によって、目標対象が受動的方式によってインタラクティブ対象とインタラクティブを行うようにすることができる。
前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。
図1は、本発明の少なくとも1つの実施例によって提供される表示デバイスを示す。図1に示したように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図1の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリに、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサにより、前記コンピュータ命令が実行されるときに本発明によって提供されるインタラクティブ対象駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。
いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方式によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。
インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに基づいて、本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。
図2は、本発明の少なくとも1つの実施例に係るインタラクティブ対象駆動方法を示すフローチャートであり、図2に示したように、前記方法は、ステップ201~ステップ203を含む。
ステップ201において、音声セグメントに含まれている音声フレームのシーケンスを取得する。
前記音声セグメントは、前記インタラクティブ対象の音声駆動データに対応する音声セグメントであり得、前記音声駆動データは、オーディオデータ(音声データ)、テキストなどを含み得る。前記音声駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを行う目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方式に対して限定しない。
本発明の実施例において、前記音声セグメントに対して周波数分割処理を実行して、前記音声セグメントに含まれている音声フレームのシーケンスを得ることができる。前記音声セグメントに対して周波数分割処理を実行することは、前記音声セグメントを複数の音声フレームに分割し、各音声フレームを時間順に配列して音声フレームのシーケンスを形成することであり得る。周波数分割処理を実行して得られた音声フレームに含まれているサンプリング点数(持続時間)、および、フレームシフト(フレーム間のオーバーラップ程度)は、インタラクティブ対象に対する駆動要求によって決定されることができ、本発明は、これに対して限定しない。
図3は、本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法を示す模式図である。音声セグメント信号に対してセグメント分割/周波数分割処理を行って得られた音声フレームのシーケンスは、図3に示すようである。
ステップ202において、前記音声フレームのシーケンスに対応する、インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を、取得する。
前記局所エリアは、インタラクティブ対象の全体(顔部および/または体を含む)を分割することによって得られる。顔部の1つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の顔部の表情または動作に対応され、たとえば、目部エリアの制御は、インタラクティブ対象の開眼、閉眼、まばたき、視角変換などの顔部の動作に対応され得、また、たとえば口部エリアの制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔部の動作に対応され得る。体の1つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の肢体動作に対応され得、たとえば、腿部エリアの制御は、インタラクティブ対象の歩行、ジャンプ、蹴りなどの動作に対応され得る。
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含む。各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の前記局所エリアが動作を行うように駆動するために用いられる。異なる姿態制御ベクトル値は、異なる動作または動作度合いに対応される。たとえば、口部エリアの姿態制御ベクトルの場合、その1組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がわずかに開けるようにすることができ、もう1組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がより広く開けるようにすることができる。異なる姿態制御ベクトル値に基づいて前記インタラクティブ対象を駆動することによって、該当する局所エリアが異なる動作または異なる度合いの動作を行うように駆動することができる。
局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。
本発明の実施例において、前記音声フレームのシーケンスの音響特徴に基づいて、インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定してもよいし、前記音声フレームのシーケンスのその他の特徴に基づいて制御パラメータ値を確定してもよい。
本発明の実施例において、音声フレームのシーケンスの一部の特徴とインタラクティブ対象の制御パラメータ値との間の対応関係を予め構築することができ、前記音声フレームのシーケンスを得た場合、対応する制御パラメータ値を得ることができる。前記音声フレームのシーケンスとマッチングされる前記インタラクティブ対象の制御パラメータ値を取得する具体的な方法は、後続で詳細に説明する。
ステップ203において、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。
ここで、姿態制御ベクトル値などの前記制御パラメータ値は、前記音声セグメントに含まれている音声フレームのシーケンスとマッチングされる。たとえば、前記インタラクティブ対象を展示する表示デバイスが現在前記音声セグメントを出力している場合、または、現在前記音声セグメントに該当するテキストを展示している場合、インタラクティブ対象が行う姿態は、出力する音声および/または展示するテキストと同期化されており、したがって、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。
本発明の実施例において、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ体験を向上させた。
いくつかの実施例において、前記方法は、ローカルサーバまたはクラウドサーバなどを含むサーバに適用され、前記サーバは、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る。前記サーバは、前記動画を端末に送信して展示することによって、目標対象に対して交流または応答を行うことができ、さらに、前記動画をクラウドに送信することによって、端末がクラウドから前記動画を取得して、目標対象に対して交流または応答を行うようにすることができる。サーバは、前記インタラクティブ対象の制御パラメータ値を生成した後に、さらに、前記制御パラメータ値を端末に送信することによって、端末が、レンダリング、動画の生成、および、展示の過程を実行するようにする。
いくつかの実施例において、前記方法は、端末に適用され、前記端末は、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得ることができる。前記端末は、前記動画を展示して目標対象に対して交流または応答を行うことができる。
いくつかの実施例において、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することができる。また、音声出力および/またはテキスト展示を実行する同時に、前記制御パラメータ値に基づいて前記表示デバイス展示された前記インタラクティブ対象の姿態を制御することができる。
本発明の実施例において、前記制御パラメータ値が前記音声セグメントの音声フレームのシーケンスとマッチングされるため、前記音声セグメントに基づいて出力する音声および/またはテキストと、前記制御パラメータ値に基づいて制御するインタラクティブ対象の姿態とが、同期に行われる場合、インタラクティブ対象が行う姿態と出力する音声および/または展示するテキストとが、同期化され、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。
いくつかの実施例において、前記インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータが姿態制御ベクトルを含む場合、以下の方式によって姿態制御ベクトルを得ることができる。
まず、前記音声フレームのシーケンスに対応する音響特徴シーケンスを取得する。ここで、後続で言及される音響特徴シーケンスと区分するために、前記音声フレームのシーケンスに対応する音響特徴シーケンスを第1音響特徴シーケンスと呼ぶ。
本発明の実施例において、音響特徴は、音声感情に関連する特徴であり得、たとえば基本周波数特徴、共通ピーク特徴、メル周波数ケプストラム係数(Mel Frequency Cepstral Cofficient、MFCC)などであり得る。
前記第1音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理をおこなって得られたものであり、MFCC特徴の例を挙げると、前記音声フレームのシーケンス中の各音声フレームに対して、ウィンドウ処理、高速フーリエ変換、フィルタリング、対数処理、および離散コサイン処理を実行することによって、各音声フレームに対応するMFCC係数を得ることができる。
前記第1音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理を行って得られたものであるため、音声セグメントの全体の音響特徴を反映した。
本発明の実施例において、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む。MFCCの例を挙げると、前記第1音響特徴シーケンスは、各音声フレームのMFCC係数を含む。前記音声フレームのシーケンスに基づいて得られた第1音響特徴シーケンスは、図3に示したようである。
次に、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得する。
前記第1音響特徴シーケンスが前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む場合、前記少なくとも1つの音声フレームに対応する同じ数の特徴ベクトルを前記音声フレームの音響特徴とすることができる。ここで、上記の同じ数の特徴ベクトルは、1つの特徴行列を形成することができ、当該特徴行列が前記少なくとも1つの音声フレームに対応する音響特徴である。
図3を例とすると、前記第1音響特徴シーケンス中のN個の特徴ベクトルは、対応するN個の音声フレームの音響特徴を形成し、ここで、Nは正の整数である。前記第1音響特徴シーケンスは、複数の音響特徴を含み得、各前記音響特徴に対応する音声フレーム同士の間は、部分的に重複されてもよい。
最後に、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する。
得られた少なくとも1つの音声フレームに対応する音響特徴に基づいて、少なくとも1つの局所エリアの姿態制御ベクトルを取得することができる。局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。
音声セグメントを再生する同時に、前記第1音響特徴シーケンスによって得られた各音響特徴に対応する姿態制御ベクトルに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、端末デバイスを利用して音声を出力する同時に、インタラクティブ対象が出力する音声にマッチングされる動作を行うようにすることができる。当該動作は、顔部の動作、表情、および、肢体動作などを含み、したがって、目標対象に、インタラクティブ対象が現在話しているような感覚を与える。また、前記姿態制御ベクトルが出力される音声の音響特徴に関連されるため、前記姿態制御ベクトルに基づいて駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象の前記インタラクティブ対象とのインタラクティブ体験を向上させた。
いくつかの実施例において、前記第1音響特徴シーケンス上でスライディングウィンドウを実行する方式によって、前記少なくとも1つの音声フレームに対応する音響特徴を取得することができる。
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する同じ数の音声フレームの音響特徴とすることによって、これら音声フレームに共同に対応する音響特徴を得ることができる。スライディングウィンドウが完了された後に得られた複数の音響特徴に基づいて、第2音響特徴シーケンスを得ることができる。
図3に示したインタラクティブ対象駆動方法の例を挙げると、前記音声フレームのシーケンスは毎秒100個の音声フレームを含み、前記時間ウィンドウの長さは1sであり、歩幅は0.04sである。前記第1音響特徴シーケンス中の各特徴ベクトルが音声フレームに対応するので、これに応じて、前記第1音響特徴シーケンスも同様に毎秒100個の特徴ベクトルを含むことになる。前記第1音響特徴シーケンス上でスライディングウィンドウを実行する過程において、毎回前記時間ウィンドウ内の100個の特徴ベクトルを得て、対応する100個の音声フレームの音響特徴とする。前記第1音響特徴シーケンス上で0.04sの歩幅で前記時間ウィンドウを移動して、1番目から100番目の音声フレームに対応する音響特徴1、および、4番目から104番目の音声フレームに対応する音響特徴2をそれぞれ得、類推により、第1音響特徴をトラバースした後に、音響特徴1、音響特徴2、…、音響特徴Mを得て、第2音響特徴シーケンスを得る。ここで、Mは正の整数であり、その数値は、音声フレームシーケンスのフレーム数(第1音響特徴シーケンス中の特徴ベクトルの数)、時間ウィンドウの長さ、および、歩幅によって決定される。
音響特徴1、音響特徴2、…、音響特徴Mに基づいて、該当する姿態制御ベクトル1、姿態制御ベクトル2、…、姿態制御ベクトルMをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンスを得ることができる。
図3に示したように、前記姿態制御ベクトルのシーケンスと前記第2音響特徴シーケンスとは時間的に整列され、前記第2音響特徴シーケンス中の音響特徴1、音響特徴2、…、音響特徴Mは、それぞれ、前記第1音響特徴シーケンス中のN個の特徴ベクトルに基づいて得られるため、前記音声フレームを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することができる。
1番目の時間ウィンドウの所定の時点で音響特徴を出力し始めると仮定すると、前記所定の時点の前の姿態制御ベクトルをデフォルト値に設定することができ、すなわち、音声フレームシーケンスを再生し始めたばかりのとき、前記インタラクティブ対象がデフォルトの動作を実行するようにし、前記所定の時点に後に、第1音響特徴シーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。
図3の例を挙げると、t0時点で音響特徴1を出力し始め、歩幅に対応する時間0.04sを間隔として音響特徴を出力し、t1時点で音響特徴2を出力し始め、t2時点で音響特徴3を出力し始め、…、t(M-1)時点で音響特徴Mを出力する。これに対応して、ti~t(i+1)時間帯に対応するのは、特徴ベクトル(i+1)であり、ここで、iは(M-1)よりも小さい整数であり、t0時点の前では、姿態制御ベクトルがデフォルト姿態制御ベクトルである。
本発明の実施例において、前記音声セグメントを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、インタラクティブ対象の動作が出力する音声と同期されるようにして、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与えて、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。
前記時間ウィンドウの長さは、前記音響特徴に含まれている情報量に関連される。時間ウィンドウの長さが大きいほど、含まれている情報量が多く、前記インタラクティブ対象を駆動して行う動作と音声との間の関連性が強い。時間ウィンドウがスライディングされる歩幅は、姿態制御ベクトルを取得する時間の間隔(頻度)に関連され、すなわち、インタラクティブ対象が動作を行うように駆動する頻度に関連される。実際のインタラクティブシナリオに応じて前記時間ウィンドウの長さおよび歩幅を設定することによって、インタラクティブ対象が行う表情および動作と音声との間の関連性がより強くようにし、より鮮やかで自然にする。
いくつかの実施例において、前記音響特徴は、L個の次元のメル周波数ケプストラム係数MFCCを含み、ここで、Lは正の整数である。MFCCは、音声信号のエネルギーの異なる周波数範囲における分布を表し、前記音声フレームのシーケンス中の複数の音声フレームデータを周波数領域に変換し、L個のサブバンドを含むメルフィルターを利用して、L個の次元のMFCCを得ることができる。音声セグメントのMFCCに基づいて姿態制御ベクトルを取得することによって、前記姿態制御ベクトルに基づいて前記インタラクティブ対象が顔部の動作および肢体動作を行うように駆動して、インタラクティブ対象の表情および肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象のインタラクティブ体験を向上させた。
いくつかの実施例において、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することができる。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力された音響特徴の過去情報を学習し、音響特徴シーケンスに基づいて前記少なくとも1つの局所エリアの姿態制御ベクトルを出力することができる。ここで、前記音響特徴シーケンスは、第1音響特徴シーケンスと第2音響特徴シーケンスとを含む。
本発明の実施例において、事前にトレーニングされたリカレントニューラルネットワークを利用して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得し、音響特徴の過去特徴情報および現在特徴情報を融合することによって、過去姿態制御ベクトルが現在姿態制御ベクトルの変化に影響を与えるようにして、インタラクティブ人物の表情変化および肢体動作をよりスムーズで自然にする。
いくつかの実施例において、以下の方式によって前記リカレントニューラルネットワークに対してトレーニングを実行することができる。
まず、音響特徴サンプルを取得し、ここで、前記音響特徴サンプルには真の値がラベリングされており、前記真の値は前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトル値である。
音響特徴サンプルを得た後に、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの姿態制御ベクトル値と前記真の値との間の差異を含む。
いくつかの実施例において、以下の方法によって音響特徴サンプルを取得する。
まず、1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出する。たとえば、実在の人物が現在話しているビデオセグメントを取得することができる。
次に、第1サンプリング周期に従って前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、第2サンプリング周期に従って前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得る。
ここで、前記第2サンプリング周期は、前記第1サンプリング周期よりも小さく、すなわち、音声セグメントに対してサンプリングを実行する頻度がビデオセグメントに対してサンプリングを実行する頻度よりも高いので、1つの第1画像フレームが少なくとも1つの音声フレームの音響特徴に対応されるようにする。
その後、前記第1画像フレームに対応する少なくとも1つの音声フレームに対応する音響特徴を取得する。トレーニング過程において1つの第1画像フレームに対応される音声フレームの数は、前述した駆動過程において取得した音響特徴に対応する音声フレームの数と同じであり、また、トレーニング過程において音響特徴を取得する方法は、前述した駆動過程と同じであることに注意する必要がある。
続いて、前記第1画像フレームを、前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得する。ここで、当該姿態制御ベクトル値は、すべての局所エリアの姿態制御ベクトル値を含んでもよいし、その中の一部の局所エリアの姿態制御ベクトル値を含んでもよい。
前記第1画像フレームに実在の人物が含まれている画像フレームの例を挙げると、当該実在の人物の画像フレームを、インタラクティブ対象によって示されたキャラクターを含む第2画像フレームに変換することができる。前記実在の人物の各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の各局所エリアの姿態制御ベクトルに対応されるため、第2画像フレーム中のインタラクティブ対象の各局所エリアの姿態制御ベクトルを取得することができる。
最後、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。
本発明の実施例において、1つのキャラクターのビデオセグメントを、対応する複数の第1画像フレームおよび複数の音声フレームに分割し、実在の人物を含む第1画像フレームを、インタラクティブ対象を含む第2画像フレームに変換して、少なくとも1つの音声フレームの音響特徴に対応する姿態制御ベクトルを取得することによって、音響特徴と姿態制御ベクトルとの対応性がより良くようにし、高い品質の音響特徴サンプルを得、インタラクティブ対象の動作が対応するキャラクターの実在の動作に近くなるようにする。
図4は、本発明の少なくとも1つの実施例に係るインタラクティブ対象駆動装置の構成を示す模式図であり、図4に示したように、当該装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニット401と、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニット402と、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット403と、を備え得る。
いくつかの実施例において、前記装置は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える。
いくつかの実施例において、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記第2取得ユニットは、具体的に、前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得し、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得し、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する。
いくつかの実施例において、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴を取得するときに、前記第2取得ユニットは、具体的に、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。
いくつかの実施例において、前記駆動ユニットは、具体的に、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。
いくつかの実施例において、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得するときに、前記第2取得ユニットは、具体的に、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを得る。
いくつかの実施例において、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、当該サンプル取得ユニットは、取得したビデオセグメントから、前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、前記第1画像フレームに対応する前記音声フレームの音響特徴を取得し、前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得し、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。
いくつかの実施例において、前記装置は、トレーニングユニットをさらに備え、当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記初期リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの姿態制御ベクトル値と、ラベリングした姿態制御ベクトル値と、の間の差異を含む。
本発明の少なくとも1つの実施例は、電子デバイスをさらに提供し、図5に示したように、前記デバイスは、メモリとプロセッサとを備える。メモリは、プロセッサによって実行できる命令を記憶し、前記命令が実行されるときに、プロセッサが本発明の任意の1実施例に記載のインタラクティブ対象駆動方法を実現するようにする。
本発明の少なくとも1つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサが本発明の任意の1実施例に記載のインタラクティブ対象駆動方法を実現するようにする。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記憶媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims (16)

  1. インタラクティブ対象駆動方法であって、
    音声セグメントに含まれている音声フレームのシーケンスを取得することと、
    前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を取得することと、
    取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
    ことを特徴とするインタラクティブ対象駆動方法。
  2. 前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することをさらに含む
    ことを特徴とする請求項1に記載のインタラクティブ対象駆動方法。
  3. 前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
    前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することは、
    前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得することと、
    前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することと、
    前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することと、を含む
    ことを特徴とする請求項1または2に記載のインタラクティブ対象駆動方法。
  4. 前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
    前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することは、
    所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得ることを含み、
    取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、
    前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
    前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
    ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
  5. 前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することは、
    前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得ることを含む
    ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
  6. 前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
    前記音響特徴サンプルを得ることは、
    1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、
    前記第1画像フレームに対応する前記音声フレームの音響特徴を取得することと、
    前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得することと、
    前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む
    ことを特徴とする請求項5に記載のインタラクティブ対象駆動方法。
  7. 前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、
    前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
    ことを特徴とする請求項6に記載のインタラクティブ対象駆動方法。
  8. インタラクティブ対象駆動装置であって、
    音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニットと、
    前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニットと、
    取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
    ことを特徴とするインタラクティブ対象駆動装置。
  9. 前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える
    ことを特徴とする請求項8に記載のインタラクティブ対象駆動装置。
  10. 前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
    前記第2取得ユニットは、
    前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得し、
    前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得し、
    前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する
    ことを特徴とする請求項8または9に記載のインタラクティブ対象駆動装置。
  11. 前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
    前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴を取得するときに、
    前記第2取得ユニットは、
    所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得、
    前記駆動ユニットは、
    前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、
    前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する
    ことを特徴とする請求項10に記載のインタラクティブ対象駆動装置。
  12. 前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得するときに、前記第2取得ユニットは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得る
    ことを特徴とする請求項10に記載のインタラクティブ対象駆動装置。
  13. 前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
    前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、
    当該サンプル取得ユニットは、
    1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、
    前記第1画像フレームに対応する前記音声フレームの音響特徴を取得し、
    前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得し、
    前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得る
    ことを特徴とする請求項12に記載のインタラクティブ対象駆動装置。
  14. トレーニングユニットをさらに備え、
    当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、
    前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
    ことを特徴とする請求項13に記載のインタラクティブ対象駆動装置。
  15. 電子デバイスであって、メモリとプロセッサとを備え、
    前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、
    前記プロセッサは、前記コンピュータ命令が実行されると、請求項1乃至7の中のいずれか1項に記載の方法を実現する
    ことを特徴とする電子デバイス。
  16. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1乃至7の中のいずれか1項に記載の方法が実現される
    ことを特徴とするコンピュータ可読記録媒体。
JP2021529000A 2020-03-31 2020-11-18 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 Ceased JP2022530726A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010247276.5 2020-03-31
CN202010247276.5A CN111459454B (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质
PCT/CN2020/129814 WO2021196646A1 (zh) 2020-03-31 2020-11-18 交互对象的驱动方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022530726A true JP2022530726A (ja) 2022-07-01

Family

ID=71678881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021529000A Ceased JP2022530726A (ja) 2020-03-31 2020-11-18 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体

Country Status (5)

Country Link
JP (1) JP2022530726A (ja)
KR (1) KR20210124182A (ja)
CN (2) CN111459454B (ja)
TW (1) TW202139052A (ja)
WO (1) WO2021196646A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459454B (zh) * 2020-03-31 2021-08-20 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN112527115B (zh) * 2020-12-15 2023-08-04 北京百度网讯科技有限公司 用户形象生成方法、相关装置及计算机程序产品
CN113050859B (zh) * 2021-04-19 2023-10-24 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113314104B (zh) * 2021-05-31 2023-06-20 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN114283227B (zh) * 2021-11-26 2023-04-07 北京百度网讯科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN114330631A (zh) * 2021-12-24 2022-04-12 上海商汤智能科技有限公司 数字人生成方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123977A (ja) * 1994-10-24 1996-05-17 Imeeji Rinku:Kk アニメーションシステム
JP2001009169A (ja) * 1999-06-30 2001-01-16 Interrobot Inc 身体的音声反応玩具
JP2001034785A (ja) * 1999-07-16 2001-02-09 Atr Media Integration & Communications Res Lab 仮想変身装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
JP2019078857A (ja) * 2017-10-24 2019-05-23 国立研究開発法人情報通信研究機構 音響モデルの学習方法及びコンピュータプログラム
US20190224853A1 (en) * 2016-07-27 2019-07-25 Warner Bros. Entertainment Inc. Control of social robot based on prior character portrayal
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
WO2019160105A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
WO2019160104A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
CN110288682A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110929762A (zh) * 2019-10-30 2020-03-27 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的肢体语言检测与行为分析方法及***

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9728203B2 (en) * 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和***
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及***
CN108942919B (zh) * 2018-05-28 2021-03-30 北京光年无限科技有限公司 一种基于虚拟人的交互方法及***
CN110176284A (zh) * 2019-05-21 2019-08-27 杭州师范大学 一种基于虚拟现实的言语失用症康复训练方法
CN110310662A (zh) * 2019-05-21 2019-10-08 平安科技(深圳)有限公司 音节自动标注方法、装置、计算机设备及存储介质
CN110400251A (zh) * 2019-06-13 2019-11-01 深圳追一科技有限公司 视频处理方法、装置、终端设备及存储介质
CN110503942A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置
CN110794964A (zh) * 2019-10-22 2020-02-14 深圳追一科技有限公司 虚拟机器人的交互方法、装置、电子设备及存储介质
CN110815258B (zh) * 2019-10-30 2023-03-31 华南理工大学 基于电磁力反馈和增强现实的机器人遥操作***和方法
CN111459454B (zh) * 2020-03-31 2021-08-20 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123977A (ja) * 1994-10-24 1996-05-17 Imeeji Rinku:Kk アニメーションシステム
JP2001009169A (ja) * 1999-06-30 2001-01-16 Interrobot Inc 身体的音声反応玩具
JP2001034785A (ja) * 1999-07-16 2001-02-09 Atr Media Integration & Communications Res Lab 仮想変身装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
US20190224853A1 (en) * 2016-07-27 2019-07-25 Warner Bros. Entertainment Inc. Control of social robot based on prior character portrayal
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
JP2019078857A (ja) * 2017-10-24 2019-05-23 国立研究開発法人情報通信研究機構 音響モデルの学習方法及びコンピュータプログラム
WO2019160105A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
WO2019160104A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110288682A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
JP2021009669A (ja) * 2019-06-28 2021-01-28 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 三次元仮想ポートレートの口形の変化を制御する方法および装置
CN110929762A (zh) * 2019-10-30 2020-03-27 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的肢体语言检测与行为分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
四倉 達夫 他: "仮想人物によるサイバースペース上でのコミュニケーションシステムの構築", 電子情報通信学会技術研究報告 HIP98−52〜61 ヒューマン情報処理, vol. 第98巻, 第683号, JPN6023002075, 23 March 1999 (1999-03-23), JP, pages 39 - 46, ISSN: 0004971644 *

Also Published As

Publication number Publication date
CN113672194A (zh) 2021-11-19
TW202139052A (zh) 2021-10-16
CN111459454A (zh) 2020-07-28
CN111459454B (zh) 2021-08-20
WO2021196646A1 (zh) 2021-10-07
KR20210124182A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
JP2022530726A (ja) インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
US20230042654A1 (en) Action synchronization for target object
JP2022530935A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP7193015B2 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
WO2023284435A1 (zh) 生成动画的方法及装置
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
JP7273901B2 (ja) ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム
CN110162598A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
KR20230075998A (ko) 텍스트 기반 아바타 생성 방법 및 시스템
JP2022531056A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
CN115145434A (zh) 基于虚拟形象的互动服务方法及装置
CN112632262A (zh) 一种对话方法、装置、计算机设备及存储介质
CN110166844A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
Gjaci Comunicazione Non Verbale Culturalmente Competente Basata Su Generative Adversarial Networks
CN116958328A (zh) 口型合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220708

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230928

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240126