CN112328076B

CN112328076B - 一种语音驱动人物手势的方法和***

Info

Publication number: CN112328076B
Application number: CN202011219858.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-10-29
Anticipated expiration: 2040-11-06
Also published as: CN112328076A

Abstract

本发明公开了一种语音驱动人物手势的方法和***，包括如下内容：提取语音信号中的文本特征和音频特征；将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。本发明能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

Description

一种语音驱动人物手势的方法和***

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种语音驱动人物手势的方法和***。

背景技术

现实世界中，人们在讲话过程时，会伴随着手势，手势反映了说话人的情感状态，在信息传递中起着关键作用。因此，虚拟代理或动画中的虚拟人物在说话的过程中，也需要伴随着手势，以实现逼真的效果，且便于用户感知虚拟人物的情感。

但是，现有技术中的语音手势生成***使用单一模态表示语音，即：音频或文本。因此，这些语音手势生成***只能产生与音频相关的节拍手势或与文本相关的手势，例如，说“高”时举起一只手，而不能适当地同时产生两种手势，更不能产生连续的手势。

发明内容

本发明的目的在于提供一种语音驱动人物手势的方法和***，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种语音驱动人物手势的方法，其改进之处在于，包括如下内容：

提取语音信号中的文本特征和音频特征；

将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；

通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。

本发明还提供了一种语音驱动人物手势的***，其改进之处在于，包括：

特征模块，用于提取语音信号中的文本特征和音频特征；

预测模块，用于将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；

合成模块，用于通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。

本发明通过文本特征和音频特征两个模态来表征语音信号，能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供语音驱动人物手势的方法的步骤图；

图2是本发明一实施例提供语音驱动人物手势的***的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明一实施例提供的语音驱动人物手势的方法，如图1所示，包括如下内容：

提取语音信号中的文本特征和音频特征；

通过以上方案，由于通过文本特征和音频特征两个模态来表征语音信号，能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

在一个实施例中，提取语音信号中的文本特征和音频特征，包括以下内容：

通过前馈神经网络提取语音信号中的文本特征和音频特征，并对文本特征和音频特征进行联合编码，以降维，进而便于后续数据处理。

在一个实施例中，提取语音信号中的文本特征和音频特征步骤之前，包括以下内容：

通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号，以提供更多的参考语音信号，进而能够准确预测当前帧。

在一个实施例中，语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度。

基于同样的发明构思，本发明实施例还提供一种语音驱动人物手势的***，如图2所示，包括：

特征模块，用于提取语音信号中的文本特征和音频特征；

在一个实施例中，特征模块，包括：

提取模块，用于通过前馈神经网络提取语音信号中的文本特征和音频特征；

编码模块，用于对文本特征和音频特征进行联合编码。

通过以上方案，能够降维，便于后续数据处理。

在一个实施例中，语音驱动人物手势的***，还包括：

窗口模块，用于通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号。

通过以上方案，能够获取更多的参考语音信号，进而能够准确预测当前帧。

在一个实施例中，语音驱动人物手势的***，还包括：

编辑模块，用于在语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种语音驱动人物手势的方法，其特征在于，包括如下内容：

通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,并提取语音信号中的文本特征和音频特征，其中，所述语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度；

通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出；

所述提取语音信号中的文本特征和音频特征，包括以下内容：

通过前馈神经网络提取语音信号中的文本特征和音频特征，并对文本特征和音频特征进行联合编码。

2.一种语音驱动人物手势的***，其特征在于，包括：

窗口模块，用于通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号；

特征模块，用于提取语音信号中的文本特征和音频特征，其中，所述语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度；

合成模块，用于通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出；

所述特征模块，包括：

编码模块，用于对文本特征和音频特征进行联合编码。