JP6019108B2 - 文字に基づく映像生成 - Google Patents
文字に基づく映像生成 Download PDFInfo
- Publication number
- JP6019108B2 JP6019108B2 JP2014509502A JP2014509502A JP6019108B2 JP 6019108 B2 JP6019108 B2 JP 6019108B2 JP 2014509502 A JP2014509502 A JP 2014509502A JP 2014509502 A JP2014509502 A JP 2014509502A JP 6019108 B2 JP6019108 B2 JP 6019108B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- video sequence
- speech
- character string
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 85
- 238000012545 processing Methods 0.000 claims description 63
- 230000014509 gene expression Effects 0.000 claims description 31
- 230000002996 emotional effect Effects 0.000 claims description 26
- 230000001815 facial effect Effects 0.000 claims description 25
- 230000008451 emotion Effects 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 24
- 230000033001 locomotion Effects 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 13
- 238000000513 principal component analysis Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 239000002131 composite material Substances 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72436—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72439—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
「雨」 : f(k,t)、k = 1 〜K、 t = 1 〜T
「雨(驚きの感情)」 : f1(k,t) 、k = 1 〜K、 t = 1 〜T
Claims (23)
- 処理装置に文字列を入力するステップと、
視覚的かつ可聴的な、実在の人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記実在の人の映像列を生成するステップであって、前記映像列の音響部分を生成するために、前記実在の人の音声の音響モデルを用いることを有し、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップとを含む方法。 - 前記処理装置は、携帯装置であり、前記文字列は、ショートメッセージサービス(SMS)を介して第二携帯装置から入力され、
人の映像列を生成する前記ステップは、前記携帯装置と前記第二携帯装置に記録された共有情報に基づいて人の映像列を前記携帯装置により生成することを含む請求項1に記載の方法。 - 前記文字列は、少なくとも一つの言葉を含む言葉群を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される請求項1に記載の方法。
- 前記文字列は、発声を表現する文字を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される請求項1に記載の方法。
- 前記文字列は、言葉と該言葉の指標とを有しており、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示し、前記指標は、規定の指標群であり、前記規定の指標群の各指標は、異なる感情表現に関連する請求項1に記載の方法。
- 映像列を生成する前記ステップは、前記文字列と前記人の事前知識に基づいて、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記処理装置により人の映像列を生成することを含む請求項1に記載の方法。
- 映像列を生成する前記ステップは、前記文字列の言葉を前記人の顔の特徴にマッピングするステップと、前記人の顔の特徴を背景上にレンダリングするステップとを含む請求項1に記載の方法。
- 前記言葉は、前記言葉のための一又は複数の指標に基づいて前記顔の特徴にマッピングされ、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示する請求項7に記載の方法。
- 前記顔の特徴は、特定の前記人に適用される特定の顔の特徴を含む請求項7に記載の方法。
- 映像列を生成する前記ステップは、前記人の顔の特徴に適合する前記人の体のジェスチャーを生成することを含む請求項7に記載の方法。
- 映像列を生成する前記ステップは、前記人の音声に基づく音響モデルを用いて、前記文字列内の言葉に基づいて前記人の発話を表現する音響列を生成することを含む請求項1に記載の方法。
- 文字列の受信は、リアルタイムで文字列を受信することを含み、
映像列を生成する前記ステップは、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記文字列に基づいて人の映像列をリアルタイムで生成するステップを含み、該ステップは、前記映像列の音響部分を生成するために前記人の音声の音響モデルを用いることを含む請求項1に記載の方法。 - 処理装置に文字列を入力するステップと、
視覚的な、実在の人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記実在の人の映像列を生成するステップであって、前記映像列の各フレームの顔部が前記実在の人の複数の推測画像の結合により表現され、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップと、
可聴的な、実在の人の感情表現をシミュレートするために、前記実在の人の音声の音響モデルを用いて、前記文字列に基づいて前記実在の人の音響列を前記処理装置により生成するステップと、
前記処理装置を用いて、前記映像列と音響列とを結合することにより前記実在の人の映像列を生成するステップであって、前記映像列と音響列が前記文字列に基づいて同期されるステップとを含む方法。 - 前記映像列の各フレームの顔部は、前記人の複数の推測画像の線形結合により表現され、前記人の複数の推測画像における各推測画像は、前記人の平均画像からの偏差に対応する請求項13に記載の方法。
- 前記文字列に基づいて前記人の映像列を生成する前記ステップは、前記映像列の各フレームを2以上の領域に分割することを含み、少なくとも一つの前記領域は、前記人の推測画像の結合により表現されている請求項13に記載の方法。
- 前記人の音声の前記音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴を含み、前記複数の音声の特徴の各音声の特徴は、文字に対応する請求項13に記載の方法。
- 前記複数の音声の特徴における各音声の特徴は、言葉、又は、音素、発声に対応する請求項16に記載の方法。
- 前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従う第二の人の発話と、前記人の音声の波形と第二の人の音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と第二の人の音声の波形との前記対応関係に基づいて、前記第二の人の発話にマッピングされる請求項13に記載の方法。
- 前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従って、文字を発話に変換するモデルにより生成される音声と、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との前記対応関係に基づいて、前記モデルの発話にマッピングされる請求項13に記載の方法。
- 文字列を生成するステップであって、前記文字列は、実在の人の感情の範囲を視覚的かつ可聴的に表現するために、前記実在の人の音声に基づく音響モデルを用いて生成される映像列の中で実在の人が発声する一又は複数の言葉を表現するように構成され、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップと、
前記文字列内の言葉に関連する指標を特定するステップであって、前記指標は、規定の指標群の一つであり、各指標が前記実在の人の異なる感情表現を示すように構成されるステップと、
前記指標を前記文字列に組み込むステップと、
前記映像列を生成するように構成される装置に前記文字列を送信するステップとを含む方法。 - 指標を特定する前記ステップは、前記文字列内の言葉に関連する項目群の一覧から一項目を選択するステップを含み、前記一覧の各項目は、前記人の感情表現を示す指標である請求項20に記載の方法。
- 指標を特定する前記ステップは、自動音声認識(ASR)エンジンを用いて、前記文字列内の言葉を話す話者の音響列に基づいて、前記文字列内の言葉に関連する指標を特定するステップを含む請求項20に記載の方法。
- 前記シミュレートされた視覚的かつ可聴的な実在の人の感情表現は、前記映像モデルのトレーニングデータとは別のものである、請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161483571P | 2011-05-06 | 2011-05-06 | |
US61/483,571 | 2011-05-06 | ||
PCT/US2012/036679 WO2012154618A2 (en) | 2011-05-06 | 2012-05-04 | Video generation based on text |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014519082A JP2014519082A (ja) | 2014-08-07 |
JP2014519082A5 JP2014519082A5 (ja) | 2016-09-08 |
JP6019108B2 true JP6019108B2 (ja) | 2016-11-02 |
Family
ID=47139917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014509502A Active JP6019108B2 (ja) | 2011-05-06 | 2012-05-04 | 文字に基づく映像生成 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9082400B2 (ja) |
EP (1) | EP2705515A4 (ja) |
JP (1) | JP6019108B2 (ja) |
CN (2) | CN108090940A (ja) |
WO (1) | WO2012154618A2 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10375534B2 (en) | 2010-12-22 | 2019-08-06 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
US8682144B1 (en) * | 2012-09-17 | 2014-03-25 | Google Inc. | Method for synchronizing multiple audio signals |
KR102091003B1 (ko) * | 2012-12-10 | 2020-03-19 | 삼성전자 주식회사 | 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 |
WO2014091479A1 (en) * | 2012-12-10 | 2014-06-19 | Wibbitz Ltd. | A method for automatically transforming text into video |
GB2510201B (en) * | 2013-01-29 | 2017-05-03 | Toshiba Res Europe Ltd | A computer generated head |
GB2510200B (en) | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
US9639743B2 (en) * | 2013-05-02 | 2017-05-02 | Emotient, Inc. | Anonymization of facial images |
US9928874B2 (en) | 2014-02-05 | 2018-03-27 | Snap Inc. | Method for real-time video processing involving changing features of an object in the video |
CN105282621A (zh) * | 2014-07-22 | 2016-01-27 | 中兴通讯股份有限公司 | 一种语音消息可视化服务的实现方法及装置 |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US10116901B2 (en) | 2015-03-18 | 2018-10-30 | Avatar Merger Sub II, LLC | Background modification in video conferencing |
US10664741B2 (en) | 2016-01-14 | 2020-05-26 | Samsung Electronics Co., Ltd. | Selecting a behavior of a virtual agent |
US11736756B2 (en) * | 2016-02-10 | 2023-08-22 | Nitin Vats | Producing realistic body movement using body images |
US10595039B2 (en) | 2017-03-31 | 2020-03-17 | Nvidia Corporation | System and method for content and motion controlled action video generation |
CN107172449A (zh) * | 2017-06-19 | 2017-09-15 | 微鲸科技有限公司 | 多媒体播放方法、装置及多媒体存储方法 |
KR102421745B1 (ko) * | 2017-08-22 | 2022-07-19 | 삼성전자주식회사 | Tts 모델을 생성하는 시스템 및 전자 장치 |
CN109992754B (zh) * | 2017-12-29 | 2023-06-16 | 阿里巴巴(中国)有限公司 | 文档处理方法及装置 |
WO2020018724A1 (en) * | 2018-07-19 | 2020-01-23 | Dolby International Ab | Method and system for creating object-based audio content |
KR102079453B1 (ko) * | 2018-07-31 | 2020-02-19 | 전자부품연구원 | 비디오 특성에 부합하는 오디오 합성 방법 |
KR102136464B1 (ko) * | 2018-07-31 | 2020-07-21 | 전자부품연구원 | 어텐션 메커니즘 기반의 오디오 분할 방법 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN108986186B (zh) * | 2018-08-14 | 2023-05-05 | 山东师范大学 | 文字转化视频的方法和*** |
CN109218629B (zh) * | 2018-09-14 | 2021-02-05 | 三星电子(中国)研发中心 | 视频生成方法、存储介质和装置 |
TW202014992A (zh) * | 2018-10-08 | 2020-04-16 | 財團法人資訊工業策進會 | 虛擬臉部模型之表情擬真系統及方法 |
CN109195007B (zh) * | 2018-10-19 | 2021-09-07 | 深圳市轱辘车联数据技术有限公司 | 视频生成方法、装置、服务器及计算机可读存储介质 |
CN109614537A (zh) * | 2018-12-06 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成视频的方法、装置、设备和存储介质 |
KR102116315B1 (ko) * | 2018-12-17 | 2020-05-28 | 주식회사 인공지능연구원 | 캐릭터의 음성과 모션 동기화 시스템 |
AU2020211809A1 (en) | 2019-01-25 | 2021-07-29 | Soul Machines Limited | Real-time generation of speech animation |
CN109978021B (zh) * | 2019-03-07 | 2022-09-16 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN110148406B (zh) * | 2019-04-12 | 2022-03-04 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
CN110162598B (zh) * | 2019-04-12 | 2022-07-12 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
CN110166844B (zh) * | 2019-04-12 | 2022-05-31 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
CN110263203B (zh) * | 2019-04-26 | 2021-09-24 | 桂林电子科技大学 | 一种结合皮尔逊重构的文本到图像生成方法 |
US11151979B2 (en) | 2019-08-23 | 2021-10-19 | Tencent America LLC | Duration informed attention network (DURIAN) for audio-visual synthesis |
CN110728971B (zh) * | 2019-09-25 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种音视频合成方法 |
CN110933330A (zh) * | 2019-12-09 | 2020-03-27 | 广州酷狗计算机科技有限公司 | 视频配音方法、装置、计算机设备及计算机可读存储介质 |
CN111061915B (zh) * | 2019-12-17 | 2023-04-18 | 中国科学技术大学 | 视频人物关系识别方法 |
CN111259148B (zh) * | 2020-01-19 | 2024-03-26 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
US11682153B2 (en) | 2020-09-12 | 2023-06-20 | Jingdong Digits Technology Holding Co., Ltd. | System and method for synthesizing photo-realistic video of a speech |
CN113115104B (zh) * | 2021-03-19 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
US20230040015A1 (en) * | 2021-08-07 | 2023-02-09 | Google Llc | Automatic Voiceover Generation |
CN114513706B (zh) * | 2022-03-22 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 视频生成方法和装置、计算机设备、存储介质 |
CN114579806B (zh) * | 2022-04-27 | 2022-08-09 | 阿里巴巴(中国)有限公司 | 视频检测方法、存储介质和处理器 |
CN116582726B (zh) * | 2023-07-12 | 2023-12-01 | 北京红棉小冰科技有限公司 | 视频生成方法、装置、电子设备及存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999046734A1 (en) * | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
US6813607B1 (en) * | 2000-01-31 | 2004-11-02 | International Business Machines Corporation | Translingual visual speech synthesis |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
US20070254684A1 (en) | 2001-08-16 | 2007-11-01 | Roamware, Inc. | Method and system for sending and creating expressive messages |
WO2002017602A1 (en) * | 2000-08-22 | 2002-02-28 | Symbian Limited | Method of and apparatus for communicating user related information using a wireless information device |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
JP2003216173A (ja) * | 2002-01-28 | 2003-07-30 | Toshiba Corp | 合成音声及び映像の同期制御方法、装置及びプログラム |
WO2005031654A1 (en) * | 2003-09-30 | 2005-04-07 | Koninklijke Philips Electronics, N.V. | System and method for audio-visual content synthesis |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
JP4627152B2 (ja) * | 2004-06-01 | 2011-02-09 | 三星電子株式会社 | 危機監視システム |
JP2007279776A (ja) * | 2004-07-23 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Cgキャラクタエージェント装置 |
KR20070117195A (ko) | 2006-06-07 | 2007-12-12 | 삼성전자주식회사 | 휴대용 단말기에서 사용자의 감정이 이입된 문자메시지를송수신하는 방법 및 장치 |
GB0702150D0 (en) * | 2007-02-05 | 2007-03-14 | Amegoworld Ltd | A Communication Network and Devices |
US8571879B2 (en) | 2008-01-21 | 2013-10-29 | Panasonic Corporation | Sound reproducing device adding audio data to decoded sound using processor selected based on trade-offs |
US20090252481A1 (en) | 2008-04-07 | 2009-10-08 | Sony Ericsson Mobile Communications Ab | Methods, apparatus, system and computer program product for audio input at video recording |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
US9665563B2 (en) * | 2009-05-28 | 2017-05-30 | Samsung Electronics Co., Ltd. | Animation system and methods for generating animation based on text-based data and user information |
WO2011049799A1 (en) | 2009-10-20 | 2011-04-28 | Qwiki, Inc. | Method and system for assembling animated media based on keyword and string input |
CN101751809B (zh) * | 2010-02-10 | 2011-11-09 | 长春大学 | 基于三维头像的聋儿语言康复方法及*** |
US8558903B2 (en) | 2010-03-25 | 2013-10-15 | Apple Inc. | Accelerometer / gyro-facilitated video stabilization |
US10375534B2 (en) | 2010-12-22 | 2019-08-06 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
-
2012
- 2012-05-04 JP JP2014509502A patent/JP6019108B2/ja active Active
- 2012-05-04 CN CN201810052644.3A patent/CN108090940A/zh active Pending
- 2012-05-04 WO PCT/US2012/036679 patent/WO2012154618A2/en active Application Filing
- 2012-05-04 EP EP12782015.7A patent/EP2705515A4/en not_active Withdrawn
- 2012-05-04 CN CN201280033415.8A patent/CN103650002B/zh active Active
- 2012-05-04 US US13/464,915 patent/US9082400B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108090940A (zh) | 2018-05-29 |
US20130124206A1 (en) | 2013-05-16 |
EP2705515A4 (en) | 2015-04-29 |
EP2705515A2 (en) | 2014-03-12 |
WO2012154618A3 (en) | 2013-01-17 |
JP2014519082A (ja) | 2014-08-07 |
WO2012154618A2 (en) | 2012-11-15 |
CN103650002A (zh) | 2014-03-19 |
CN103650002B (zh) | 2018-02-23 |
US9082400B2 (en) | 2015-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6019108B2 (ja) | 文字に基づく映像生成 | |
JP2014519082A5 (ja) | ||
JP7408048B2 (ja) | 人工知能に基づくアニメキャラクター駆動方法及び関連装置 | |
CN110688911B (zh) | 视频处理方法、装置、***、终端设备及存储介质 | |
Cao et al. | Expressive speech-driven facial animation | |
JP3664474B2 (ja) | 視覚的スピーチの言語透過的合成 | |
CN113554737A (zh) | 目标对象的动作驱动方法、装置、设备及存储介质 | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
Cosatto et al. | Lifelike talking faces for interactive services | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
KR20220097121A (ko) | 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법 | |
WO2022106654A2 (en) | Methods and systems for video translation | |
WO2023011221A1 (zh) | 混合变形值的输出方法及存储介质、电子装置 | |
JP2023552854A (ja) | ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN116597857A (zh) | 一种语音驱动图像的方法、***、装置及存储介质 | |
CN117523088A (zh) | 一种个性化的三维数字人全息互动形成***及方法 | |
CN117315102A (zh) | 虚拟主播处理方法、装置、计算设备及存储介质 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及*** | |
KR20210086744A (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
Verma et al. | Animating expressive faces across languages | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
Mahavidyalaya | Phoneme and viseme based approach for lip synchronization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150422 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160122 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160421 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160622 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20160722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6019108 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |