CN112328076B - 一种语音驱动人物手势的方法和*** - Google Patents
一种语音驱动人物手势的方法和*** Download PDFInfo
- Publication number
- CN112328076B CN112328076B CN202011219858.9A CN202011219858A CN112328076B CN 112328076 B CN112328076 B CN 112328076B CN 202011219858 A CN202011219858 A CN 202011219858A CN 112328076 B CN112328076 B CN 112328076B
- Authority
- CN
- China
- Prior art keywords
- voice
- joint angle
- angle rotation
- rotation sequence
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音驱动人物手势的方法和***,包括如下内容:提取语音信号中的文本特征和音频特征;将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。本发明能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种语音驱动人物手势的方法和***。
背景技术
现实世界中,人们在讲话过程时,会伴随着手势,手势反映了说话人的情感状态,在信息传递中起着关键作用。因此,虚拟代理或动画中的虚拟人物在说话的过程中,也需要伴随着手势,以实现逼真的效果,且便于用户感知虚拟人物的情感。
但是,现有技术中的语音手势生成***使用单一模态表示语音,即:音频或文本。因此,这些语音手势生成***只能产生与音频相关的节拍手势或与文本相关的手势,例如,说“高”时举起一只手,而不能适当地同时产生两种手势,更不能产生连续的手势。
发明内容
本发明的目的在于提供一种语音驱动人物手势的方法和***,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种语音驱动人物手势的方法,其改进之处在于,包括如下内容:
提取语音信号中的文本特征和音频特征;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
本发明还提供了一种语音驱动人物手势的***,其改进之处在于,包括:
特征模块,用于提取语音信号中的文本特征和音频特征;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
本发明通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供语音驱动人物手势的方法的步骤图;
图2是本发明一实施例提供语音驱动人物手势的***的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明一实施例提供的语音驱动人物手势的方法,如图1所示,包括如下内容:
提取语音信号中的文本特征和音频特征;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
通过以上方案,由于通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
在一个实施例中,提取语音信号中的文本特征和音频特征,包括以下内容:
通过前馈神经网络提取语音信号中的文本特征和音频特征,并对文本特征和音频特征进行联合编码,以降维,进而便于后续数据处理。
在一个实施例中,提取语音信号中的文本特征和音频特征步骤之前,包括以下内容:
通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,以提供更多的参考语音信号,进而能够准确预测当前帧。
在一个实施例中,语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度。
基于同样的发明构思,本发明实施例还提供一种语音驱动人物手势的***,如图2所示,包括:
特征模块,用于提取语音信号中的文本特征和音频特征;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
通过以上方案,由于通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
在一个实施例中,特征模块,包括:
提取模块,用于通过前馈神经网络提取语音信号中的文本特征和音频特征;
编码模块,用于对文本特征和音频特征进行联合编码。
通过以上方案,能够降维,便于后续数据处理。
在一个实施例中,语音驱动人物手势的***,还包括:
窗口模块,用于通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号。
通过以上方案,能够获取更多的参考语音信号,进而能够准确预测当前帧。
在一个实施例中,语音驱动人物手势的***,还包括:
编辑模块,用于在语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (2)
1.一种语音驱动人物手势的方法,其特征在于,包括如下内容:
通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,并提取语音信号中的文本特征和音频特征,其中,所述语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出;
所述提取语音信号中的文本特征和音频特征,包括以下内容:
通过前馈神经网络提取语音信号中的文本特征和音频特征,并对文本特征和音频特征进行联合编码。
2.一种语音驱动人物手势的***,其特征在于,包括:
窗口模块,用于通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号;
特征模块,用于提取语音信号中的文本特征和音频特征,其中,所述语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出;
所述特征模块,包括:
提取模块,用于通过前馈神经网络提取语音信号中的文本特征和音频特征;
编码模块,用于对文本特征和音频特征进行联合编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219858.9A CN112328076B (zh) | 2020-11-06 | 2020-11-06 | 一种语音驱动人物手势的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219858.9A CN112328076B (zh) | 2020-11-06 | 2020-11-06 | 一种语音驱动人物手势的方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328076A CN112328076A (zh) | 2021-02-05 |
CN112328076B true CN112328076B (zh) | 2021-10-29 |
Family
ID=74315376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011219858.9A Active CN112328076B (zh) | 2020-11-06 | 2020-11-06 | 一种语音驱动人物手势的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328076B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168686B (zh) * | 2023-04-23 | 2023-07-11 | 碳丝路文化传播(成都)有限公司 | 数字人动态拟真方法、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103890695A (zh) * | 2011-08-11 | 2014-06-25 | 视力移动技术有限公司 | 基于手势的接口***和方法 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN107798964A (zh) * | 2017-11-24 | 2018-03-13 | 郑军 | 一种实时识别手势的手语智能交互设备及其交互方法 |
CN108985157A (zh) * | 2018-06-07 | 2018-12-11 | 北京邮电大学 | 一种手势识别方法和装置 |
CN110691550A (zh) * | 2017-02-01 | 2020-01-14 | 塞雷比安公司 | 对感知体验进行测量的***和方法 |
CN110751708A (zh) * | 2019-10-21 | 2020-02-04 | 北京中科深智科技有限公司 | 一种实时的语音驱动人脸动画的方法和*** |
CN111292743A (zh) * | 2020-01-22 | 2020-06-16 | 北京松果电子有限公司 | 语音交互方法及装置、电子设备 |
CN111316203A (zh) * | 2018-07-10 | 2020-06-19 | 微软技术许可有限责任公司 | 自动生成形象的动作 |
CN111369967A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 基于虚拟人物的语音合成方法、装置、介质及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020140718A1 (en) * | 2001-03-29 | 2002-10-03 | Philips Electronics North America Corporation | Method of providing sign language animation to a monitor and process therefor |
JP2008524904A (ja) * | 2004-12-15 | 2008-07-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 遅延されたビデオとオーディオの同期 |
US20120306741A1 (en) * | 2011-06-06 | 2012-12-06 | Gupta Kalyan M | System and Method for Enhancing Locative Response Abilities of Autonomous and Semi-Autonomous Agents |
CN102609969B (zh) * | 2012-02-17 | 2013-08-07 | 上海交通大学 | 基于汉语文本驱动的人脸语音同步动画的处理方法 |
CN103218842B (zh) * | 2013-03-12 | 2015-11-25 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN103561277B (zh) * | 2013-05-09 | 2017-05-03 | 陕西思智通教育科技有限公司 | 一种用于网络教学的传输方法和*** |
US9696813B2 (en) * | 2015-05-27 | 2017-07-04 | Hsien-Hsiang Chiu | Gesture interface robot |
US10249091B2 (en) * | 2015-10-09 | 2019-04-02 | Warner Bros. Entertainment Inc. | Production and packaging of entertainment data for virtual reality |
CN108335346A (zh) * | 2018-03-01 | 2018-07-27 | 黄淮学院 | 一种互动动画生成*** |
US11416732B2 (en) * | 2018-12-05 | 2022-08-16 | Disney Enterprises, Inc. | Simulated human-like affect-driven behavior by a virtual agent |
-
2020
- 2020-11-06 CN CN202011219858.9A patent/CN112328076B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103890695A (zh) * | 2011-08-11 | 2014-06-25 | 视力移动技术有限公司 | 基于手势的接口***和方法 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN110691550A (zh) * | 2017-02-01 | 2020-01-14 | 塞雷比安公司 | 对感知体验进行测量的***和方法 |
CN107798964A (zh) * | 2017-11-24 | 2018-03-13 | 郑军 | 一种实时识别手势的手语智能交互设备及其交互方法 |
CN108985157A (zh) * | 2018-06-07 | 2018-12-11 | 北京邮电大学 | 一种手势识别方法和装置 |
CN111316203A (zh) * | 2018-07-10 | 2020-06-19 | 微软技术许可有限责任公司 | 自动生成形象的动作 |
CN110751708A (zh) * | 2019-10-21 | 2020-02-04 | 北京中科深智科技有限公司 | 一种实时的语音驱动人脸动画的方法和*** |
CN111292743A (zh) * | 2020-01-22 | 2020-06-16 | 北京松果电子有限公司 | 语音交互方法及装置、电子设备 |
CN111369967A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 基于虚拟人物的语音合成方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112328076A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230316643A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
WO2022052481A1 (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
US20200279553A1 (en) | Linguistic style matching agent | |
US8131551B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US9431027B2 (en) | Synchronized gesture and speech production for humanoid robots using random numbers | |
US7353177B2 (en) | System and method of providing conversational visual prosody for talking heads | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
EP1269465B1 (en) | Character animation | |
US20080259085A1 (en) | Method for Animating an Image Using Speech Data | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
JP2022518721A (ja) | 発話アニメーションのリアルタイム生成 | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
WO2023216765A1 (zh) | 多模态交互方法以及装置 | |
CN112002301A (zh) | 一种基于文本的自动化视频生成方法 | |
CN112328076B (zh) | 一种语音驱动人物手势的方法和*** | |
CN106875947B (zh) | 用于智能机器人的语音输出方法和装置 | |
JP2008125815A (ja) | 会話ロボットシステム | |
Nagy et al. | A framework for integrating gesture generation models into interactive conversational agents | |
JP2003522978A (ja) | 手話を音声へ変換する方法及び装置 | |
JP2008107673A (ja) | 会話ロボット | |
JPH06162167A (ja) | 合成画像表示システム | |
KR20190111642A (ko) | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 | |
JP2015125613A (ja) | アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 100000 room 311a, floor 3, building 4, courtyard 4, middle Yongchang Road, Beijing Economic and Technological Development Zone, Beijing Patentee after: Beijing Zhongke Shenzhi Technology Co., Ltd Address before: 100000 303 platinum international building, block C, fortune World Building, No. 1, Hangfeng Road, Fengtai District, Beijing Patentee before: Beijing Zhongke Shenzhi Technology Co., Ltd |
|
CP02 | Change in the address of a patent holder |