JP2022527155A - 人工知能に基づくアニメキャラクター駆動方法及び関連装置 - Google Patents
人工知能に基づくアニメキャラクター駆動方法及び関連装置 Download PDFInfo
- Publication number
- JP2022527155A JP2022527155A JP2021557135A JP2021557135A JP2022527155A JP 2022527155 A JP2022527155 A JP 2022527155A JP 2021557135 A JP2021557135 A JP 2021557135A JP 2021557135 A JP2021557135 A JP 2021557135A JP 2022527155 A JP2022527155 A JP 2022527155A
- Authority
- JP
- Japan
- Prior art keywords
- facial expression
- base
- character
- target
- expression base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013473 artificial intelligence Methods 0.000 title abstract description 25
- 230000008921 facial expression Effects 0.000 claims abstract description 626
- 238000012545 processing Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 29
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 17
- 230000001815 facial effect Effects 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するステップと、を含む。
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
話者の顔表情及び対応する音声を含む第1メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであるステップと、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であるステップと、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するステップと、を含む。
前記取得ユニットは、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであり、
前記第2決定ユニットは、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニットは、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する。
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて第1態様又は第3態様に記載の方法を実行する。
1632461396376_0
のコアであり、コンピュータに知能を持たせる根本的なルートであり、人工知能の各分野に適用されている。機械学習は、通常、深層学習(Deep Learning)などの技術を含み、学習深層は、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、サイクルニューラルネットワーク(Recurrent Neural Network、RNN)、深層ニューラルネットワーク(Deep neural network、DNN)などの人工ニューラルネットワーク(artificial neural network)を含む。
1632461396376_1
された最小の音声単位であり、音節の発音動作に応じて解析し、1つの動作(例えば、口の形)が1つの音素を構成する。つまり、音素は、話者と関係ない。話者が誰であっても、音声が英語又は中国語であっても、音素に対応するテキストが同じであっても、音声中の1つの時間区間内の音素が同じである限り、口の形などの対応する表情が一致性を有する。図8を参照すると、図8は、時間区間と音素との対応関係を示し、1つの音声のうち、どの時間区間がどの音素に対応するかを記述する。例えば、2行目の「5650000」及び「6300000」は、タイムスタンプを表し、5.65秒~6.3秒の時間区間を表し、この時間区間内に話者が発した音素は、「u」である。音素の統計方法は、唯一ではなく、本実施例では、33個の中国語音素を例とする。
前記取得ユニット1001は、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニット1002は、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニット1003は、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット1004は、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
前記顔表情に基づいて前記第1アニメキャラクターの第1表情ベース及び前記第1アニメキャラクターの顔カスタマイズパラメータを決定し、前記顔カスタマイズパラメータは、前記第1アニメキャラクターの顔の形の、前記第1アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであり、
前記駆動ユニット1004は、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第2アニメキャラクターを駆動する。
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動する。
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定し、前記第1表情パラメータが、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定し、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定する。
前記ターゲットテキスト情報及び前記メディアデータに基づいて、対応する前記ターゲットテキスト情報の音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する。
前記取得ユニット1101は、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニット1102は、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーである、
前記第2決定ユニット1103は、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニット1104は、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット1105は、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する。
前記第1アニメキャラクターに対応する無表情メッシュ及び前記第2アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定し、前記調整メッシュが、第2頂点トポロジーを有し、無表情にある時の第1アニメキャラクターを識別し、
前記調整メッシュと前記第2表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成する。
話者の顔表情及び対応する音声を含むメディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する機能であって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものである機能と、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する機能であって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものである機能と、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する機能、
又は、
話者の顔表情及び対応する音声を含む第1メディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する機能であって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーである機能と、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定する機能であって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元である機能と、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定する機能であって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものである機能と、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する機能とをさらに有する。
1001 取得ユニット
1002 第1決定ユニット
1003 第2決定ユニット
1004 駆動ユニット
1100 アニメキャラクター駆動装置
1101 取得ユニット
1102 第1決定ユニット
1103 第2決定ユニット
1104 第3決定ユニット
1105 駆動ユニット
1210 RF回路
1220 メモリ
1230 入力ユニット
1231 タッチパネル
1232 他の入力機器
1240 表示ユニット
1241 ディスプレイパネル
1250 センサ
1260 オーディオ回路
1261 スピーカー
1262 マイクロホン
1270 WiFiモジュール
1280 プロセッサ
1290 電源
1300 サーバ
1322 中央処理装置
1326 電源
1330 記憶媒体
1332 メモリ
1341 オペレーティングシステム
1342 アプリケーションプログラム
1344 データ
1350 有線又は無線のネットワークインターフェース
1358 入出力インターフェース
Claims (16)
- オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するステップと、を含むアニメキャラクター駆動方法。 - 前記第1アニメキャラクターと前記第2アニメキャラクターは、同じアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは同じであり、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する前記ステップは、
前記顔表情に基づいて前記第1アニメキャラクターの第1表情ベース及び前記第1アニメキャラクターの顔カスタマイズパラメータを決定するステップであって、前記顔カスタマイズパラメータは、前記第1アニメキャラクターの顔の形の、前記第1アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであるステップを含み、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する前記ステップは、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第2アニメキャラクターを駆動するステップを含む請求項1に記載の方法。 - 前記第1アニメキャラクターと前記第2アニメキャラクターは、異なるアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは異なっており、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する前記ステップは、
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定するステップと、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動するステップと、を含む請求項1に記載の方法。 - 前記第2表情ベースは、前記第2表情ベースと音素との所定関係に基づいて生成され、前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定する前記ステップは、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定するステップと、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定するステップであって、前記第1表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定するステップと、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定するステップと、を含む請求項3に記載の方法。 - ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する前記ステップは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定するステップであって、前記表情特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであるステップと、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定するステップと、を含む請求項1に記載の方法。 - オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第1決定ユニット、第2決定ユニット及び駆動ユニットを含み、
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するアニメキャラクター駆動装置。 - 前記第1アニメキャラクターと前記第2アニメキャラクターは、同じアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは同じであり、前記第1決定ユニットは、
前記顔表情に基づいて前記第1アニメキャラクターの第1表情ベース及び前記第1アニメキャラクターの顔カスタマイズパラメータを決定し、前記顔カスタマイズパラメータが、前記第1アニメキャラクターの顔の形の、前記第1アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであり、
前記駆動ユニットは、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第2アニメキャラクターを駆動する請求項6に記載の装置。 - 前記第1アニメキャラクターと前記第2アニメキャラクターは、異なるアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは異なっており、前記駆動ユニットは、
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動する請求項6に記載の装置。 - 前記第2表情ベースは、前記第2表情ベースと音素との所定関係に基づいて生成され、前記駆動ユニットは、さらに、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定し、前記第1表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定し、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定する請求項8に記載の装置。 - 前記第2決定ユニットは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する請求項6に記載の装置。 - オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含む第1メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであるステップと、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であるステップと、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するステップと、を含むアニメキャラクター駆動方法。 - 前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいてターゲット表情ベースを決定する前記ステップは、
前記第1表情ベースから前記第1アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、前記第2表情ベースから前記第2アニメキャラクターが無表情にある時に対応する無表情メッシュを決定するステップと、
前記第1アニメキャラクターに対応する無表情メッシュ及び前記第2アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定するステップであって、前記調整メッシュは、第2頂点トポロジーを有し、無表情にある時の第1アニメキャラクターを識別するものであるステップと、
前記調整メッシュと前記第2表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成するステップと、を含む請求項11に記載の方法。 - オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第1決定ユニット、第2決定ユニット、第3決定ユニット及び駆動ユニットを備え、
前記取得ユニットは、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであり、
前記第2決定ユニットは、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニットは、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するアニメキャラクター駆動装置。 - アニメキャラクターを駆動するための機器であって、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて請求項1~5又は、11~12のいずれか一項に記載の方法を実行する機器。 - 請求項1~5又は、11~12のいずれか一項に記載の方法を実行するためのプログラムコードを記憶するコンピュータ可読記憶媒体。
- コンピュータプログラム製品であって、コンピュータプログラム製品を実行すると、請求項1~5又は、11~12のいずれか一項に記載の方法を実行するコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910824770.0 | 2019-09-02 | ||
CN201910824770.0A CN110531860B (zh) | 2019-09-02 | 2019-09-02 | 一种基于人工智能的动画形象驱动方法和装置 |
PCT/CN2020/111615 WO2021043053A1 (zh) | 2019-09-02 | 2020-08-27 | 一种基于人工智能的动画形象驱动方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022527155A true JP2022527155A (ja) | 2022-05-31 |
JP7408048B2 JP7408048B2 (ja) | 2024-01-05 |
Family
ID=68666304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021557135A Active JP7408048B2 (ja) | 2019-09-02 | 2020-08-27 | 人工知能に基づくアニメキャラクター駆動方法及び関連装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11605193B2 (ja) |
EP (1) | EP3929703A4 (ja) |
JP (1) | JP7408048B2 (ja) |
KR (1) | KR102694330B1 (ja) |
CN (1) | CN110531860B (ja) |
WO (1) | WO2021043053A1 (ja) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN112823380A (zh) * | 2018-05-24 | 2021-05-18 | 华纳兄弟娱乐公司 | 将数字视频中的口形和动作与替代音频匹配 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN111627095B (zh) * | 2019-02-28 | 2023-10-24 | 北京小米移动软件有限公司 | 表情生成方法及装置 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110531860B (zh) | 2019-09-02 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动画形象驱动方法和装置 |
CN111145777A (zh) * | 2019-12-31 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种虚拟形象展示方法、装置、电子设备及存储介质 |
US11593984B2 (en) | 2020-02-07 | 2023-02-28 | Apple Inc. | Using text for avatar animation |
CN111294665B (zh) * | 2020-02-12 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 视频的生成方法、装置、电子设备及可读存储介质 |
CN111311712B (zh) * | 2020-02-24 | 2023-06-16 | 北京百度网讯科技有限公司 | 视频帧处理方法和装置 |
CN111372113B (zh) * | 2020-03-05 | 2021-12-21 | 成都威爱新经济技术研究院有限公司 | 基于数字人表情、嘴型及声音同步的用户跨平台交流方法 |
CN111736700A (zh) * | 2020-06-23 | 2020-10-02 | 上海商汤临港智能科技有限公司 | 基于数字人的车舱交互方法、装置及车辆 |
JP7469467B2 (ja) * | 2020-03-30 | 2024-04-16 | 上海臨港絶影智能科技有限公司 | デジタルヒューマンに基づく車室インタラクション方法、装置及び車両 |
CN111459450A (zh) * | 2020-03-31 | 2020-07-28 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN111988658B (zh) * | 2020-08-28 | 2022-12-06 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
US11960792B2 (en) * | 2020-10-14 | 2024-04-16 | Sumitomo Electric Industries, Ltd. | Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program |
US20220184506A1 (en) * | 2020-11-12 | 2022-06-16 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for driving vehicle in virtual environment, terminal, and storage medium |
CN112527115B (zh) * | 2020-12-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 用户形象生成方法、相关装置及计算机程序产品 |
CN112669424B (zh) * | 2020-12-24 | 2024-05-31 | 科大讯飞股份有限公司 | 一种表情动画生成方法、装置、设备及存储介质 |
CN112286366B (zh) * | 2020-12-30 | 2022-02-22 | 北京百度网讯科技有限公司 | 用于人机交互的方法、装置、设备和介质 |
CN112927712B (zh) * | 2021-01-25 | 2024-06-04 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
CN113066156A (zh) * | 2021-04-16 | 2021-07-02 | 广州虎牙科技有限公司 | 表情重定向方法、装置、设备和介质 |
CN113256821B (zh) * | 2021-06-02 | 2022-02-01 | 北京世纪好未来教育科技有限公司 | 一种三维虚拟形象唇形生成方法、装置及电子设备 |
KR20230100205A (ko) * | 2021-12-28 | 2023-07-05 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN114420088A (zh) * | 2022-01-20 | 2022-04-29 | 安徽淘云科技股份有限公司 | 一种展示方法及其相关设备 |
CN114612600B (zh) * | 2022-03-11 | 2023-02-17 | 北京百度网讯科技有限公司 | 虚拟形象生成方法、装置、电子设备和存储介质 |
CN116778107A (zh) * | 2022-03-11 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 表情模型的生成方法、装置、设备及介质 |
CN115050067B (zh) * | 2022-05-25 | 2024-07-02 | 中国科学院半导体研究所 | 人脸表情构建方法、装置、电子设备、存储介质及产品 |
CN115617169B (zh) * | 2022-10-11 | 2023-05-30 | 深圳琪乐科技有限公司 | 一种语音控制机器人及基于角色关系的机器人控制方法 |
KR102652652B1 (ko) * | 2022-11-29 | 2024-03-29 | 주식회사 일루니 | 아바타 생성 장치 및 방법 |
US20240265605A1 (en) * | 2023-02-07 | 2024-08-08 | Google Llc | Generating an avatar expression |
CN116188649B (zh) * | 2023-04-27 | 2023-10-13 | 科大讯飞股份有限公司 | 基于语音的三维人脸模型驱动方法及相关装置 |
CN116452709A (zh) * | 2023-06-13 | 2023-07-18 | 北京好心情互联网医院有限公司 | 动画生成方法、装置、设备及存储介质 |
CN116778043B (zh) * | 2023-06-19 | 2024-02-09 | 广州怪力视效网络科技有限公司 | 一种表情捕捉及动画自动生成***和方法 |
US12045639B1 (en) * | 2023-08-23 | 2024-07-23 | Bithuman Inc | System providing visual assistants with artificial intelligence |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141564A (ja) * | 2001-10-31 | 2003-05-16 | Minolta Co Ltd | アニメーション生成装置およびアニメーション生成方法 |
JP2012528390A (ja) * | 2009-05-29 | 2012-11-12 | マイクロソフト コーポレーション | キャラクターにアニメーションまたはモーションを加えるシステムおよび方法 |
JP2015210739A (ja) * | 2014-04-28 | 2015-11-24 | 株式会社コロプラ | キャラクタ画像生成方法及びキャラクタ画像生成プログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8555164B2 (en) * | 2001-11-27 | 2013-10-08 | Ding Huang | Method for customizing avatars and heightening online safety |
BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
US10702773B2 (en) * | 2012-03-30 | 2020-07-07 | Videx, Inc. | Systems and methods for providing an interactive avatar |
WO2015145219A1 (en) * | 2014-03-28 | 2015-10-01 | Navaratnam Ratnakumar | Systems for remote service of customers using virtual and physical mannequins |
CN104217454B (zh) * | 2014-08-21 | 2017-11-03 | 中国科学院计算技术研究所 | 一种视频驱动的人脸动画生成方法 |
WO2016070354A1 (en) * | 2014-11-05 | 2016-05-12 | Intel Corporation | Avatar video apparatus and method |
US9911218B2 (en) * | 2015-12-01 | 2018-03-06 | Disney Enterprises, Inc. | Systems and methods for speech animation using visemes with phonetic boundary context |
CN105551071B (zh) * | 2015-12-02 | 2018-08-10 | 中国科学院计算技术研究所 | 一种文本语音驱动的人脸动画生成方法及*** |
US10528801B2 (en) * | 2016-12-07 | 2020-01-07 | Keyterra LLC | Method and system for incorporating contextual and emotional visualization into electronic communications |
US10586368B2 (en) | 2017-10-26 | 2020-03-10 | Snap Inc. | Joint audio-video facial animation system |
KR20190078015A (ko) * | 2017-12-26 | 2019-07-04 | 주식회사 글로브포인트 | 3d 아바타를 이용한 게시판 관리 서버 및 방법 |
CN108875633B (zh) * | 2018-06-19 | 2022-02-08 | 北京旷视科技有限公司 | 表情检测与表情驱动方法、装置和***及存储介质 |
CN109377540B (zh) * | 2018-09-30 | 2023-12-19 | 网易(杭州)网络有限公司 | 面部动画的合成方法、装置、存储介质、处理器及终端 |
CN109447234B (zh) * | 2018-11-14 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、合成说话表情的方法和相关装置 |
CN109961496B (zh) * | 2019-02-22 | 2022-10-28 | 厦门美图宜肤科技有限公司 | 表情驱动方法及表情驱动装置 |
US11202131B2 (en) * | 2019-03-10 | 2021-12-14 | Vidubly Ltd | Maintaining original volume changes of a character in revoiced media stream |
US10949715B1 (en) * | 2019-08-19 | 2021-03-16 | Neon Evolution Inc. | Methods and systems for image and voice processing |
CN110531860B (zh) * | 2019-09-02 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动画形象驱动方法和装置 |
-
2019
- 2019-09-02 CN CN201910824770.0A patent/CN110531860B/zh active Active
-
2020
- 2020-08-27 JP JP2021557135A patent/JP7408048B2/ja active Active
- 2020-08-27 EP EP20860658.2A patent/EP3929703A4/en active Pending
- 2020-08-27 WO PCT/CN2020/111615 patent/WO2021043053A1/zh unknown
- 2020-08-27 KR KR1020217029221A patent/KR102694330B1/ko active IP Right Grant
-
2021
- 2021-08-18 US US17/405,965 patent/US11605193B2/en active Active
-
2022
- 2022-12-13 US US18/080,655 patent/US20230123433A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141564A (ja) * | 2001-10-31 | 2003-05-16 | Minolta Co Ltd | アニメーション生成装置およびアニメーション生成方法 |
JP2012528390A (ja) * | 2009-05-29 | 2012-11-12 | マイクロソフト コーポレーション | キャラクターにアニメーションまたはモーションを加えるシステムおよび方法 |
JP2015210739A (ja) * | 2014-04-28 | 2015-11-24 | 株式会社コロプラ | キャラクタ画像生成方法及びキャラクタ画像生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110531860B (zh) | 2020-07-24 |
WO2021043053A1 (zh) | 2021-03-11 |
US11605193B2 (en) | 2023-03-14 |
JP7408048B2 (ja) | 2024-01-05 |
US20230123433A1 (en) | 2023-04-20 |
CN110531860A (zh) | 2019-12-03 |
US20210383586A1 (en) | 2021-12-09 |
KR20210123399A (ko) | 2021-10-13 |
EP3929703A1 (en) | 2021-12-29 |
EP3929703A4 (en) | 2022-10-05 |
KR102694330B1 (ko) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7408048B2 (ja) | 人工知能に基づくアニメキャラクター駆動方法及び関連装置 | |
WO2020253663A1 (zh) | 基于人工智能的图像区域识别方法、模型训练方法及装置 | |
US12002138B2 (en) | Speech-driven animation method and apparatus based on artificial intelligence | |
JP7090971B2 (ja) | 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN112379812B (zh) | 仿真3d数字人交互方法、装置、电子设备及存储介质 | |
CN110868635B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN110517339B (zh) | 一种基于人工智能的动画形象驱动方法和装置 | |
CN110517340B (zh) | 一种基于人工智能的脸部模型确定方法和装置 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
JP7324838B2 (ja) | 符号化方法並びにその、装置、機器及びコンピュータプログラム | |
CN111327772B (zh) | 进行自动语音应答处理的方法、装置、设备及存储介质 | |
CN110516749A (zh) | 模型训练方法、视频处理方法、装置、介质和计算设备 | |
CN109343695A (zh) | 基于虚拟人行为标准的交互方法及*** | |
CN113750523A (zh) | 三维虚拟对象的动作生成方法、装置、设备及存储介质 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN114630135A (zh) | 一种直播互动方法及装置 | |
CN114339375A (zh) | 视频播放方法、生成视频目录的方法及相关产品 | |
CN111914106B (zh) | 纹理与法线库构建方法、纹理与法线图生成方法及装置 | |
CN117789306A (zh) | 图像处理方法、装置及存储介质 | |
CN117436418A (zh) | 指定类型文本的生成方法、装置、设备及存储介质 | |
CN116229311B (zh) | 视频处理方法、装置及存储介质 | |
CN109636898B (zh) | 3d模型生成方法及终端 | |
CN109447896B (zh) | 一种图像处理方法及终端设备 | |
CN114550185B (zh) | 一种文档生成的方法、相关装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210924 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7408048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |