CN116597858A

CN116597858A - 语音口型匹配方法、装置、存储介质及电子设备

Info

Publication number: CN116597858A
Application number: CN202310363302.4A
Authority: CN
Inventors: 夏明�; 郝冬宁
Original assignee: Hubei Xingji Meizu Technology Co ltd
Current assignee: Hubei Xingji Meizu Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-08-15

Abstract

本申请公开了一种语音口型匹配方法、装置、存储介质及电子设备，涉及计算机技术领域，其中方法包括：获得待匹配语音对应的文字，以及所述文字对应的发音时间；基于所述文字对应的口型形态键，生成所述文字对应的口型图；在所述文字对应的发音时间内展示所述文字对应的口型图。本申请提供的方法和装置，可以在各个文字对应的发音时间内展示其对应的口型图，使虚拟形象能够同步做出与语音匹配的口型动作，提高了语音和虚拟形象口型匹配的准确度。

Description

语音口型匹配方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种语音口型匹配方法、装置、存储介质及电子设备。

背景技术

随着人工智能技术和元宇宙技术的飞速发展，虚拟形象得到了广泛地应用。虚拟形象讲话时能够具有自然流畅并与语音同步的口型动作可以提升用户的体验感。

发明内容

第一方面，本申请提供了一种语音口型匹配方法，包括：

获得待匹配语音对应的文字，以及所述文字对应的发音时间；

基于所述文字对应的口型形态键，生成所述文字对应的口型图；

在所述文字对应的发音时间内展示所述文字对应的口型图。

在一些实施例中，获得待匹配语音对应的文字，包括：

获取待匹配语音；

对所述待匹配语音进行语音识别，确定所述待匹配语音对应的文字，以及所述文字对应的发音时间。

在一些实施例中，所述基于所述文字对应的口型形态键，生成所述文字对应的口型图之前，所述方法包括：

确定所述待匹配语音的语种信息；

基于所述语种信息，确定所述待匹配语音对应的口型形态键库；

将所述文字与所述口型形态键库中各个候选文字进行匹配，确定所述文字对应的口型形态键；

其中，所述口型形态键库包括多个候选文字，以及各个候选文字对应的口型形态键。

在一些实施例中，所述口型形态键库是基于如下步骤确定的：

获取当前语种信息下各个候选文字的口型图；

基于各个候选文字的口型图，生成各个候选文字对应的口型形态键；

基于各个候选文字对应的口型形态键，构建所述当前语种信息对应的口型形态键库。

在一些实施例中，所述将所述文字与所述口型形态键库中各个候选文字进行匹配，确定所述文字对应的口型形态键，包括：

在所述文字为多音字的情况下，确定所述文字在各个发音下的口型形态键；

获取所述待匹配语音的语音转写文本；

将所述语音转写文本输入多音字消歧模型，得到所述多音字消歧模型输出的所述文字在各个发音下的发音概率；

将发音概率最大的发音对应的口型形态键作为所述文字对应的口型形态键。

在一些实施例中，所述基于所述文字对应的口型形态键，生成所述文字对应的口型图，所述方法包括：

获取所述文字对应的初始口型形态键，以及所述待匹配语音对应的音频特征和/或人脸图像；

将所述音频特征与多个情绪类型对应的音频特征进行匹配，确定所述待匹配语音对应的第一情绪类型；

将所述人脸图像的表情特征与多个情绪类型对应的表情特征进行匹配，确定所述待匹配语音对应的第二情绪类型；

基于所述待匹配语音对应的第一情绪类型和/或第二情绪类型，对所述初始口型形态键进行调整，并基于调整后的所述文字对应的口型形态键，生成所述文字对应的口型图。

在一些实施例中，所述在所述文字对应的发音时间内展示所述文字对应的口型图，包括：

对当前文字对应的口型形态键与下一文字对应的口型形态键进行平滑插值，生成所述当前文字与所述下一文字对应的口型切换动画；

在所述当前文字对应的发音时间内确定所述口型切换图的起始时刻，并在所述下一文字对应的发音时间内确定所述口型切换图的终止时刻；

在所述起始时刻和所述终止时刻所确定的发音时间内展示所述口型切换动画。

在一些实施例中，所述在所述文字对应的发音时间内展示所述文字对应的口型图之后，所述方法包括：

确定所述待匹配语音的声纹特征；

将所述声纹特征与预设说话人声纹特征进行匹配，确定所述声纹特征对应的说话人身份信息；

基于所述说话人身份信息，确定所述待匹配语音对应的虚拟形象；

在所述文字对应的发音时间内，将所述文字对应的口型图加载至所述虚拟形象中的对应位置。

在一些实施例中，所述对所述待匹配语音进行语音识别，确定所述待匹配语音对应的文字，以及所述文字对应的发音时间，包括：

将所述待匹配语音输入语音识别模型，得到所述语音识别模型输出的所述待匹配语音对应的文字，以及所述文字对应的发音时间；

其中，所述语音识别模型包括特征提取层、静音检测层和语音识别层；所述静音检测层和所述语音识别层分别与所述特征提取层连接；

所述特征提取层用于将所述待匹配语音划分为多个语音帧，并提取各个语音帧的声学识别特征；所述静音检测层用于基于各个语音帧的声学识别特征，确定所述待匹配语音中的待识别语音帧，以及所述待识别语音帧对应的发音时间；所述语音识别层用于基于所述待识别语音帧的声学识别特征，确定所述待匹配语音对应的文字。

第二方面，本申请提供了一种语音口型匹配装置，包括：

获取单元，用于获得待匹配语音对应的文字，以及所述文字对应的发音时间；

生成单元，用于基于所述文字对应的口型形态键，生成所述文字对应的口型图；

匹配单元，用于在所述文字对应的发音时间内展示所述文字对应的口型图。

第三方面，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的方法。

第四方面，本申请提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的语音口型匹配方法的流程示意图；

图2是本申请一个实施例提供的构建口型形态键的流程示意图；

图3是本申请另一个实施例提供的语音口型匹配方法的流程示意图；

图4是本申请一个实施例提供的语音口型匹配装置的结构示意图；

图5是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的语音口型匹配方法适用于终端设备。终端设备包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备、或连接到无线调制解调器的其它处理设备，例如，手机、平板、台式笔记本以及可以运行应用程序的智能设备，包括智能汽车的中央控制台等。具体可以指用户设备(User Equipment，UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。

终端设备还可以是卫星电话、蜂窝电话、智能手机、无线数据卡、无线调制解调器、机器类型通信设备、可以是无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal DigitalAssistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备或可穿戴设备，虚拟现实(virtual reality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Self-driving)中的无线终端、远程医疗(Remote medical)中的无线终端、智能电网(Smart grid)中的无线终端、运输安全(Transportation safety)中的无线终端、智慧城市(Smart city)中的无线终端、智慧家庭(Smart home)中的无线终端、5G网络或者未来通信网络中的终端设备等。

终端设备可以由电池供电，还可以附接到车辆或者船舶的电源***，并由车辆或者船舶的电源***供电。车辆或者船舶的电源***还可以为终端设备的电池充电，以延长终端设备通信时间。

终端设备可以与用户通过语音进行交互，并展示虚拟形象的口型图。虚拟形象可以包括人物形象、动物形象和卡通形象等。

图1是本申请一个实施例提供的语音口型匹配方法的流程示意图，如图1所示，该方法包括步骤110、步骤120和步骤130。该方法流程步骤仅仅作为本申请一个可能的实现方式。

步骤110、获得待匹配语音对应的文字，以及所述文字对应的发音时间。

具体地，本申请实施例提供的语音口型匹配方法的执行主体为语音口型匹配装置，该装置可以为终端设备中独立设置的硬件设备，也可以为运行在终端设备中的软件程序。例如，当终端设备为手机时，语音口型匹配装置可以体现为手机中的应用程序。

待匹配语音是用于对虚拟形象进行口型匹配的语音。例如，在虚拟人物直播的场景中，待匹配语音可以为用户发出的实时语音，用户以虚拟形象的方式向外界展示。

可以将待匹配语音转换成文字，并获取该文字的发音时间。

发音时间可以包括文字对应的语音起始时刻、语音终止时刻，以及文字对应的语音发音时长。通过确定各个文字的发音时间，可以使虚拟形象的口型动作与待匹配语音的语速保持一致。

例如，待匹配语音为“你好”。语音口型匹配装置对待匹配语音进行语音识别，确定待匹配语音对应的文字为“你好”，获取“你”字对应的语音起始时刻和语音终止时刻，以及“好”字对应的语音起始时刻和语音终止时刻。根据各个文字对应的发音时间，可以确定各个文字对应的虚拟形象的口型动作的持续时间。

例如，易于通过比如通过将要进行口型匹配的文字以及文字对应的时间信息配置成文本或者脚本或者JSON或者任意文本化指令的方式，提供文字及其发音时间。

步骤120、基于文字对应的口型形态键，生成文字对应的口型图。

具体地，口型形态键(Shape Key)为唇部各个特征点所在的位置参数。可以根据文字对应的口型形态键，构建该文字对应的口型图。

口型图为能够展示虚拟形象唇部形状的图片。口型图中包括多个特征点，将这些特征点相连接，可以得到三维的网状图，通过三维引擎渲染网状图，可以得到虚拟形象的口型图。

例如，将虚拟形象的唇部划分为上嘴唇、下嘴唇、嘴角和人中等，在各个部分中均设置多个特征点。其中，在进行口型动作时，运动范围较大的部分可设置更密集的特征点。

步骤130、在文字对应的发音时间内展示文字对应的口型图。

具体地，确定各个文字的发音时间以及各个文字对应的口型图后，根据各个文字的发音顺序，在各个文字对应的发音时间内依次展示各个文字对应的口型图，实现待匹配语音与虚拟形象的口型动作的同步。

本申请实施例提供的语音口型匹配方法，通过获得待匹配语音对应的文字，以及所述文字对应的发音时间，根据文字对应的口型形态键，生成文字对应的口型图；在文字对应的发音时间内展示文字对应的口型图；可以使虚拟形象能够同步做出与用户发出的实时语音相匹配的口型动作，提高了语音和虚拟形象口型匹配的准确度，提高了虚拟形象的真实度，提高了用户使用虚拟形象的体验。

需要说明的是，本申请每一个实施方式可以自由组合、调换顺序或者单独执行，并不需要依靠或依赖固定的执行顺序。

在一些实施例中，步骤110包括：

获取待匹配语音；

具体地，获取待匹配语音的方式有多种。例如，语音口型匹配装置对当前环境的语音进行监听，在监听到语音信号时，对该语音信号进行去噪处理，得到待匹配语音。

可以通过语音识别模型对待匹配语音进行语音识别，把待匹配语音转变为对应的文字。

语音识别模型可以采用卷积神经网络模型、全连接神经网络模型、循环神经网络模型和长短期记忆神经网络模型等进行构建。

文字对应的发音时间可以通过语音活动检测(Voice Activity Detection，VAD)的方式进行获取。

语音口型匹配装置还可以对待匹配语音的采集参数进行解析，确定待匹配语音对应的各个文字的时间戳，以得到各个文字对应的发音时间。

本申请实施例提供的语音口型匹配方法，通过对获取的待匹配语音进行语音识别，确定待匹配语音对应的文字，以及文字对应的发音时间，可以在文字对应的发音时间内展示文字对应的口型图，提高了语音和虚拟形象口型匹配的准确度，提高了用户使用虚拟形象的体验。

在一些实施例中，步骤120之前包括：

确定待匹配语音的语种信息；

基于语种信息，确定待匹配语音对应的口型形态键库；

将文字与口型形态键库中各个候选文字进行匹配，确定文字对应的口型形态键；

其中，口型形态键库包括多个候选文字，以及各个候选文字对应的口型形态键。

具体地，待匹配语音可以为各种语种，例如，普通话、四川话、广东话和河南话等。语种信息包括待匹配语音的语音特征和语种类别等信息。同一个文字，在不同的语种下的发音可能是不同的，也就是说，同一个文字在不同的语种下的口型形态键可能是不同的。

可以预先为各个语种创建口型形态键库，口型形态键库中包括对应语种所包括的各个候选文字，以及各个候选文字在对应语种发音下的口型形态键。

在得到待匹配语音后，可以对待匹配语音进行语种分析得到待匹配语音的语种信息，将待匹配语音的语种信息与各个语种进行匹配，可以得到待匹配语音所对应的语种，查询该语种的口型形态键库，从而得到该语种中的各个候选文字，以及各个候选文字对应的口型形态键。将待匹配语音对应的文字与该口型形态键库中的各个候选文字进行匹配，获取匹配成功的候选文字对应的口型形态键，即得到该文字对应的口型形态键。

例如，待匹配语音为普通话，待匹配语音对应的文字为“你好”。在得到待匹配语音后，对待匹配语音进行语种分析得到待匹配语音的语种信息，将待匹配语音的语种信息与各个语种进行匹配，得到待匹配语音的语种信息与普通话相匹配，确定待匹配语音的语种为普通话，确定待匹配语音对应的口型形态键库为普通话的口型形态键库，将待匹配语音转换成文字“你好”，分别将“你”和“好”与普通话的口型形态键库中的各个候选文字进行匹配，并获取普通话中“你”和“好”对应的口型形态键。

本申请实施例提供的语音口型匹配方法，通过设置多种语种的口型形态键库，可以得到各个语种的待匹配语音对应的口型形态键，从而得到各个语种的待匹配语音的口型图，适用于更多的语言环境。

在一些实施例中，口型形态键库是基于如下步骤确定的：

获取当前语种信息下各个候选文字的口型图；

基于各个候选文字对应的口型形态键，构建当前语种信息对应的口型形态键库。

具体地，根据当前语种信息确定当前待匹配语音对应的语种，获取该语种下各个候选文字以及各个候选文字发音的口型图；对各个候选文字的口型图进行特征点建模，生成各个候选文字对应的口型形态键，将各个候选文字以及各个口型形态键进行关联存储，得到当前语种信息对应的口型形态键库。

本申请实施例提供的语音口型匹配方法，根据各个候选文字的口型图，生成各个候选文字对应的口型形态键，最终构建当前语种信息对应的口型形态键库，可以用于语音口型匹配，提高了语音口型匹配的准确度。

在一些实施例中，将文字与口型形态键库中各个候选文字进行匹配，确定文字对应的口型形态键，包括：

在文字为多音字的情况下，确定文字在各个发音下的口型形态键；

获取待匹配语音的语音转写文本；

将语音转写文本输入多音字消歧模型，得到多音字消歧模型输出的文字在各个发音下的发音概率；

将发音概率最大的发音对应的口型形态键作为文字对应的口型形态键。

具体地，多音字是具有两个或两个以上的发音的文字。不同的发音表示的含义和用法不同，且词性也往往不同，例如，文字“为”可以读2声，可以表示“当”或“是”等含义；“为”还可以读4声，可以表示“给”等含义。

语音转写文本为待匹配语音转换为文字后构成的文本。

多音字消歧模型是用于多音字消歧任务的统计模型，例如，多音字消歧模型可以是根据最大熵模型和条件随机场模型等构建的。又例如，可以通过神经网络模型进行特征训练可以得到多音字消歧模型。

多音字消歧模型主要是基于提取的特征来确定多音字的发音，提取的特征包括多音字的前后字、前后词、前后词的词长、前后词的词性、前后关键字和多音字在句中的相对位置等。

语音口型匹配装置将该语音转写文本发送至多音字消歧模型，多音字消歧模型对接收的语音转写文本进行解码，得到语音转写文本的多音字的各个发音的发音概率，并根据多音字的各个发音的发音概率预测多音字在语音转写文本的上下文中的发音。可以根据预测得到的多音字的各个发音的发音概率，选择发音概率最大的发音，得到多音字的发音；或者，可以根据预测得到的多音字的各个发音的发音概率，结合语言学发音规则做进一步判断，从而确定多音字的发音。

例如，待匹配语音的语音转写文本为“朝上放置”，其中“朝”字有两种发音，分别为“zhao”，可以表示早晨、日或天等含义；还可以为“chao”，可以表示面对着、向、朝廷或朝代等含义。语音口型匹配装置在获取到待匹配语音的语音转写文本“朝上放置”后，可以通过多音字消歧模型对语音转写文本“朝上放置”进行解码，对多音字“朝”进行预测，得到发音为“zhao”的概率为0.1，发音为“chao”的概率为0.9。可以根据得到的两个概率，选择概率较大的发音，即选择概率为0.9的“chao”作为多音字“朝”在语音转写文本“朝上放置”中的发音。

本申请实施例提供的语音口型匹配方法，通过多音字消歧模型，可以确定多音字在当前语境下的发音，进而得到该发音对应的口型形态键。即使在文字为多音字的情况下，也可以使虚拟形象准确地做出该文字对应的口型，提高了语音口型匹配的准确度。

在一些实施例中，步骤130包括：

获取文字对应的初始口型形态键，以及待匹配语音对应的音频特征和/或人脸图像；

将音频特征与多个情绪类型对应的音频特征进行匹配，确定待匹配语音对应的第一情绪类型；

将人脸图像的表情特征与多个情绪类型对应的表情特征进行匹配，确定待匹配语音对应的第二情绪类型；

基于待匹配语音对应的第一情绪类型和/或第二情绪类型，对初始口型形态键进行调整，并基于调整后的文字对应的口型形态键，生成文字对应的口型图。

具体地，音频特征可以包括：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征等。表情特征可以包括：五官分布特征和表情幅度特征等。情绪类型可以分为喜、怒、哀和乐等，或者可以分为激动和平静等。

若口型图能够与用户的情绪进行关联，则可以提高用户的体验感。其中，可以通过用户语音的音频特征和/或用户人脸的表情特征来判断用户的情绪。

提取待匹配语音的音频特征，将音频特征输入至第一情绪识别模型，由第一情绪识别模型将输入的音频特征与多个情绪类型对应的音频特征进行匹配，根据匹配结果确定待匹配语音对应的第一情绪类型。

第一情绪识别模型可以是根据多个样本语音的音频特征，以及多个样本语音对应的情绪类型对初始模型进行训练后得到的。

可以在采集待匹配语音的同时，获取待匹配语音对应的说话人的人脸图像。提取人脸图像的表情特征，将表情特征输入至第二情绪识别模型，由第二情绪识别模型将输入的表情特征与多个情绪类型对应的表情特征进行匹配，根据匹配结果确定待匹配语音对应的第二情绪类型。

第二情绪识别模型可以是根据多个样本人脸图像的表情特征，以及多个样本人脸图像对应的情绪类型对初始模型进行训练后得到的。

第一情绪识别模型和第二情绪识别模型对应的初始模型可以采用卷积神经网络模型、全连接神经网络模型、循环神经网络模型和长短期记忆神经网络模型等。

可以根据第一情绪类型和/或第二情绪类型，对初始口型形态键进行调整，并根据调整后的文字对应的口型形态键，生成文字对应的口型图。

例如，根据第一情绪类型和第二情绪类型共同确定，用户的情绪类型为激动。在此情况下，用户唇部的动作幅度会比较大，因此可以在初始口型形态键的基础上进行调整，将初始口型形态键的变化幅度加大，得到调整后的口型形态键，基于调整后的口型形态键，生成对应的口型图。

本申请实施例提供的语音口型匹配方法，通过根据待匹配语音对应的音频特征和/或表情特征，对文字对应的初始口型形态键进行调整，可以使虚拟形象的口型与用户的实际口型更加贴合，提高了用户的体验感。

在一些实施例中，步骤140包括：

对当前文字对应的口型形态键与下一文字对应的口型形态键进行平滑插值，生成当前文字与下一文字对应的口型切换动画；

在当前文字对应的发音时间内确定口型切换动画的起始时刻，并在下一文字对应的发音时间内确定口型切换动画的终止时刻；

在起始时刻和终止时刻所确定的发音时间内展示口型切换动画。

具体地，若直接从当前文字对应的口型图切换到下一文字对应的口型图，则口型切换过程缺少过渡，切换过程比较突兀。为了使当前文字对应的口型图能够平滑自然地切换到下一文字对应的口型图，本申请实施例在当前文字对应的口型形态键与下一文字对应的口型形态键之间进行平滑插值，并生成多个当前文字与下一文字对应的口型之间的口型切换图，该多个口型切换图构成口型切换动画。

例如，当前文字为“你”，下一文字为“好”，获取“你”对应的口型形态键，以及“好”对应的口型形态键，在“你”对应的口型形态键与“好”对应的口型形态键之间进行平滑差值，并生成“你”和“好”之间的口型切换动画。

在当前文字对应的发音时间内确定口型切换动画的起始时刻，并在下一文字对应的发音时间内确定口型切换动画的终止时刻。

例如，“你”的发音时间为T₁时刻至T₂时刻，“好”的发音时间为T₂时刻至T₃时刻，则在T₁时刻至T₂时刻的时间范围内确定口型切换动画的起始时刻为T_1a，在T₂时刻至T₃时刻的时间范围内确定口型切换动画的终止时刻为T_2a，在T_1a时刻至T_2a时刻的发音时间内***口型切换动画。

本申请实施例提供的语音口型匹配方法，通过插值的方式实现从当前文字对应的口型图平滑地切换到下一文字对应的口型图，提高了口型切换的自然度，使用户有沉浸式的体验。

在一些实施例中，步骤140之后，该方法包括：

确定待匹配语音的声纹特征；

将声纹特征与预设说话人声纹特征进行匹配，确定声纹特征对应的说话人身份信息；

基于说话人身份信息，确定待匹配语音对应的；

在文字对应的发音时间内，将文字对应的口型图加载至中的对应位置。

具体地，声纹特征是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征。身份信息包括说话人的性别、年龄和职位等信息。预设说话人声纹特征是已知身份信息的说话人的声纹特征。

提取待匹配语音的声纹特征，将该声纹特征与多个预设说话人声纹特征进行匹配，根据与该声纹特征匹配成功的预设说话人声纹特征，确定说话人身份信息。

对该身份信息进行解析，可以得到说话人的性别、年龄和职位等信息，根据预测的说话人的性别、年龄和职位等信息，构建说话人的虚拟形象，在文字对应的发音时间内，将文字对应的口型图加载至虚拟形象中的对应位置，可以实现口型和形象的同步变化。

本申请实施例提供的语音口型匹配方法，通过确定待匹配语音的声纹特征，可以获取纹特征对应的说话人身份信息，通过对说话人身份信息进行解析，可以构建待匹配语音对应的虚拟形象，将文字对应的口型图加载至虚拟形象中的对应位置，可是实现口型和虚拟形象的同步变化，给用户沉浸式的体验。

在一些实施例中，步骤120包括：

将待匹配语音输入语音识别模型，得到语音识别模型输出的待匹配语音对应的文字，以及文字对应的发音时间；

其中，语音识别模型包括特征提取层、静音检测层和语音识别层；静音检测层和语音识别层分别与特征提取层连接；

特征提取层用于将待匹配语音划分为多个语音帧，并提取各个语音帧的声学识别特征；静音检测层用于基于各个语音帧的声学识别特征，确定待匹配语音中的待识别语音帧，以及待识别语音帧对应的发音时间；语音识别层用于基于待识别语音帧的声学识别特征，确定待匹配语音对应的文字。

具体地，在实际的语音交互过程中，用户发出的待匹配语音可能包括语音部分和非语音部分。非语音部分可以是静音部分或者环境声音部分。例如用户超过一半的时间都没有讲话，采集的待匹配语音中超过一半是静音，对带有静音的待匹配语音进行识别处理，浪费了终端设备的计算资源。

可以以神经网络模型为初始模型，建立语音识别模型，用于对待匹配语音进行处理，得到待匹配语音对应的文字，以及文字对应的发音时间。

考虑到静音检测和语音识别在采用神经网络模型进行实现时，都可以建立在对待匹配语音的声学特征进行分析的基础上。因此，本申请实施例建立的语音识别模型从模型结构上可以包括特征提取层、静音检测层和语音识别层。静音检测层和语音识别层分别与特征提取层连接。

特征提取层用于将待匹配语音划分为多个语音帧，并提取各个语音帧的声学识别特征。首先，特征提取层可以将待匹配语音划分为多个语音帧。例如，将待匹配语音按照10ms为一帧分开。其次，特征提取层提取各个语音帧的声学识别特征。声学识别特征用于描述语音帧在声学特性方面的物理量。例如，声学识别特征可以为韵律特征、音色特征和响度特征等；也可以为时域特征和频域特征等。其中，频域特征又可以包括梅尔频率倒谱系数和滤波器组特征等。

静音检测层用于根据特征提取层输出的声学识别特征，确定待匹配语音中的待识别语音帧。待识别语音帧为对各个语音帧进行静音检测后，确定为包含待匹配语音的语音帧。通过提取待识别语音帧，可以将待匹配语音中的有用部分(语音部分)提取出来，减少对无用部分(非语音部分)进行处理，从而减少终端设备的计算量。

语音识别层用于根据待识别语音帧的声学识别特征，确定待匹配语音的语音识别结果。

特征提取层、静音检测层和语音识别层可以采用不同的初始神经网络模型进行实现。各个层所采用的初始神经网络模型的种类可以相同，也可以不同，本申请实施例对此不做具体限定。初始神经网络模型可以包括卷积神经网络、深度前馈序列记忆神经网络、长短期记忆神经网络和注意力神经网络等。

为了缩小语音识别模型的模型结构，静音检测层和语音识别层也可以采用神经网络的部分结构进行实现，例如神经网络中的全连接层等。由于各个层执行的任务不同，虽然都采用全连接层实现，但是各个层的神经元数量和权重参数等均不相同。

其中，获取到非语音部分后，可以构建非语音部分的口型图，非语音部分的口型图中的口型可以为紧闭或微张。获取非语音部分的持续时间，在该持续时间内，展示非语音部分的口型图。

本申请实施例提供的语音口型匹配方法，通过语音识别模型可以识别待匹配语音的有用部分(语音部分)和无用部分(非语音部分)，对待匹配语音针对性的进行处理，减少终端设备的计算量，同时通过构建非语音部分的口型图，可以使虚拟形象在口型变化的过程中与实际情况更加贴合，提升了用户的体验感。

在一些实施例中，图2是本申请一个实施例提供的创建口型形态键的流程示意图，如图2所示，该构建方法包括：

步骤210、创建口型形态键库，包含口型标识符、口型形态键和候选文字；一个口型图包括一组口型形态键，同时一个口型图可以对应多个候选文字，可以通过待匹配语音对应的文字或者口型标识关键词来查找到对应口型形态键。

步骤220、遍历口型形态键库中的候选文字，判断当前口型形态键库中是否包含待匹配语音对应的文字以及该文字对应的口型形态键；如果待匹配语音对应的所有文字均能匹配到当前口型形态键库中的候选文字以及其对应的口型形态键，则结束创建。

步骤230、如果待匹配语音对应的文字在口型形态键库中没有匹配到候选文字，绘制待匹配语音对应的文字对应的口型图，并命名唯一的口型标识关键词，以便后续的查询。

步骤240、在模型编辑工具中调整口型形态键，使模型口型与待匹配语音对应的文字对应的口型图一致。

步骤250、在口型形态键库中录入口型标识关键词以及对应的口型形态键。

本申请实施例提供的语音口型匹配方法，通过绘制待匹配语音对应的文字对应的口型图，确定该文字对应的口型形态键，以对口型形态键库进行完善，提高了语音口型匹配的准确度。

在一些实施例中，图3是本申请另一个实施例提供的语音口型匹配方法的流程示意图，如图3所示，该方法包括：

步骤310、启动语音口型匹配装置，三维引擎渲染虚拟形象。

步骤320、语音口型匹配装置对当前环境的声音进行监听。

步骤330、监听到待匹配语音，将待匹配语音转换成文字，记录各个文字的发音时间；

步骤340、查询口型形态键库，获取各个文字对应的口型形态键；

步骤350、根据各个文字的发音时间，用插值方式修改虚拟形象的口型形态键，使口型平滑切换。

其中，从一个口型到另一个口型的变化是一个渐变的过程，这个过程就是将相邻文字分别对应的口型形态键进行插值，以将当前文字的口型图在间隔时间内平滑渐变到下一文字的口型图。

本申请实施例提供的语音口型匹配方法，通过对当前环境的声音进行监听，将获取的待匹配语音进行口型匹配，用插值方式修改虚拟形象的口型形态键，使口型平滑切换，提高了语音口型匹配的准确度，提升了用户体验。

下面对本申请实施例提供的语音口型匹配装置进行描述，下文描述的语音口型匹配装置与上文描述的语音口型匹配方法可相互对应参照。

图4是本申请一个实施例提供的语音口型匹配装置的结构示意图，如图4所示，该装置包括获取单元410、生成单元420和匹配单元430。

获取单元410用于获得待匹配语音对应的文字，以及所述文字对应的发音时间。

生成单元420用于基于文字对应的口型形态键，生成文字对应的口型图。

匹配单元430用于在文字对应的发音时间内展示文字对应的口型图。

具体地，根据本申请的实施例，获取单元410、生成单元420和匹配单元430中的任意多个单元可以合并在一个单元中实现，或者其中的任意一个单元可以被拆分成多个单元。

或者，这些单元中的一个或多个单元的至少部分功能可以与其他单元的至少部分功能相结合，并在一个单元中实现。

根据本申请的实施例，获取单元410、生成单元420和匹配单元430中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。

或者，获取单元410、生成单元420和匹配单元430中的至少一个可以至少被部分地实现为计算机程序单元，当该计算机程序单元被运行时，可以执行相应的功能。

本申请实施例提供的语音口型匹配装置，通过获得待匹配语音对应的文字，以及所述文字对应的发音时间，根据文字对应的口型形态键，生成文字对应的口型图；在文字对应的发音时间内展示文字对应的口型图；可以使虚拟形象能够同步做出与用户发出的实时语音相匹配的口型动作，提高了语音和虚拟形象口型匹配的准确度，提高了虚拟形象的真实度，提高了用户使用虚拟形象的体验。

在一些实施例中，语音口型匹配装置还包括识别单元，识别单元用于：

获取待匹配语音；

在一些实施例中，语音口型匹配装置还包括确定单元，确定单元用于：

确定待匹配语音的语种信息；

基于语种信息，确定待匹配语音对应的口型形态键库；

在一些实施例中，确定单元具体用于：

获取当前语种信息下各个候选文字的口型图；

在一些实施例中，确定单元具体用于：

获取待匹配语音的语音转写文本；

在一些实施例中，生成单元具体用于：

在一些实施例中，匹配单元具体用于：

在一些实施例中，匹配单元还用于：

确定待匹配语音的声纹特征；

基于说话人身份信息，确定待匹配语音对应的虚拟形象；

在文字对应的发音时间内，将文字对应的口型图加载至虚拟形象中的对应位置。

在一些实施例中，识别单元具体用于：

在此需要说明的是，本申请实施例提供的语音口型匹配装置，能够实现上述语音口型匹配方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图5为本申请一个实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令，以执行语音口型匹配方法，该方法包括：

基于文字对应的口型形态键，生成文字对应的口型图；

在文字对应的发音时间内展示文字对应的口型图。

此外，上述的存储器中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本申请实施例还提供一种非暂态计算机可读的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。

其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本申请实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音口型匹配方法，其特征在于，包括：

在所述文字对应的发音时间内展示所述文字对应的口型图。

2.根据权利要求1所述的语音口型匹配方法，其特征在于，获得待匹配语音对应的文字，包括：

获取待匹配语音；

3.根据权利要求1所述的语音口型匹配方法，其特征在于，所述基于所述文字对应的口型形态键，生成所述文字对应的口型图之前，所述方法包括：

确定所述待匹配语音的语种信息；

4.根据权利要求3所述的语音口型匹配方法，其特征在于，所述口型形态键库是基于如下步骤确定的：

获取当前语种信息下各个候选文字的口型图；

5.根据权利要求3所述的语音口型匹配方法，其特征在于，所述将所述文字与所述口型形态键库中各个候选文字进行匹配，确定所述文字对应的口型形态键，包括：

获取所述待匹配语音的语音转写文本；

6.根据权利要求1所述的语音口型匹配方法，其特征在于，所述基于所述文字对应的口型形态键，生成所述文字对应的口型图，包括：

7.根据权利要求1所述的语音口型匹配方法，其特征在于，所述在所述文字对应的发音时间内展示所述文字对应的口型图，包括：

在所述当前文字对应的发音时间内确定所述口型切换动画的起始时刻，并在所述下一文字对应的发音时间内确定所述口型切换动画的终止时刻；

8.根据权利要求1所述的语音口型匹配方法，其特征在于，所述在所述文字对应的发音时间内展示所述文字对应的口型图之后，所述方法包括：

确定所述待匹配语音的声纹特征；

9.根据权利要求2至8任一项所述的语音口型匹配方法，其特征在于，所述对所述待匹配语音进行语音识别，确定所述待匹配语音对应的文字，以及所述文字对应的发音时间，包括：

10.一种语音口型匹配装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述的语音口型匹配方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的语音口型匹配方法。