CN112017633B

CN112017633B - 语音识别方法、装置、存储介质及电子设备

Info

Publication number: CN112017633B
Application number: CN202010950236.7A
Authority: CN
Inventors: 宫一尘
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2024-04-26
Anticipated expiration: 2040-09-10
Also published as: CN112017633A

Abstract

一种语音识别方法、装置、存储介质及电子设备，通过获取当前时间点的语音帧和当前时间点的视频帧，然后提取视频帧中的视频特征信息，其中视频特征信息用于表征当前用户对应语音帧的语音动作，并且基于语音帧和视频特性信息确定语音帧的识别结果，即结合语音帧的信息和用户对应该语音帧的语音动作来识别该语音帧，不仅提高了语音帧的识别结果的准确性，而且针对每一帧语音进行识别，提高了语音交互的相应时效性，实时识别用户语音，提高了语音交互的体验效果。

Description

语音识别方法、装置、存储介质及电子设备

技术领域

本申请涉及语音技术领域，尤其涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术

目前，对于信号处理***来说，例如多模态语音识别***，通常是将待处理信号完全接收后，再进行处理。例如，当待处理信号为音频信号时，对于多模态语音识别***来说，通常是在录制完一段音频信号之后，再进行语音识别处理。这语音识别的结果不能满足实时性的要求。

因此，如何提高信号处理的实时性成为亟待解决的问题。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种语音识别方法、装置、存储介质及电子设备，实时识别用户语音，提高了语音交互的体验效果。

根据本申请的一个方面，提供了一种语音识别方法，包括：获取当前时间点的语音帧；获取所述当前时间点的视频帧；提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果。

根据本申请的一个方面，提供了一种语音识别装置，包括：语音获取模块，用于获取当前时间点的语音帧；视频获取模块，用于获取所述当前时间点的视频帧；视频特征提取模块，用于提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及确定模块，用于基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的语音识别方法。

根据本申请的一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的语音识别方法。

本申请实施例提供的一种语音识别方法、装置、存储介质及电子设备，通过获取当前时间点的语音帧和视频帧，然后提取视频帧中的视频特征信息，并且结合视频特性信息和语音帧综合确定语音帧的识别结果，即结合语音帧的信息和用户对应该语音帧的语音动作来识别该语音帧，不仅提高了语音帧的识别结果的准确性，而且针对每一帧语音进行识别，提高了语音交互的相应时效性，实时识别用户语音，提高了语音交互的体验效果。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的语音识别方法的流程示意图。

图2是本申请一示例性实施例提供的一种确定语音帧的识别结果方法的流程示意图。

图3是本申请一示例性实施例提供的一种计算音素信息的概率方法的流程示意图。

图4是本申请另一示例性实施例提供的语音识别方法的流程示意图。

图5是本申请另一示例性实施例提供的语音识别方法的流程示意图。

图6是本申请一示例性实施例提供的语音识别装置的结构示意图。

图7是本申请另一示例性实施例提供的语音识别装置的结构示意图。

图8是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

现有的信号处理***通常是将待处理的信号完整接收后再进行处理，例如多模语音识别***中，通常是在获取了用户的一段完整语音后，对该完整语音进行整体识别。由于用户在输入语音时往往不会是深思熟虑后作出的，因此，用户的输入语音有时候会出现冗余较长的问题，由于用户的输入语音较长，多模语音识别***在识别过程中需要费时较长，很难满足实时性的需求，并且较长的语音也会增加语音识别的难度、甚至是无法识别或错误识别。

出于解决上述问题的目的，本申请实施例提供了一种语音识别方法和装置，通过获取当前时间点的语音帧和视频帧，然后提取视频帧中的视频特征信息，并且结合视频特性信息和语音帧综合确定语音帧的识别结果，即结合语音帧的信息和用户对应该语音帧的语音动作来识别该语音帧，这样不仅可以利用视频帧与语音帧的配合提高语音帧的识别结果的准确性，而且针对每一帧语音进行识别，提高了语音交互的相应时效性，实时识别用户语音，提高了语音交互的体验效果。

示例性方法

图1是本申请一示例性实施例提供的语音识别方法的流程示意图。如图1所示，该语音识别方法包括如下步骤：

步骤110：获取当前时间点的语音帧。

在一实施例中，当前时间点可以是接收待识别语音过程中的当前时刻，具体可以是用户输入待识别语音的过程中的任意一个时刻。在另一实施例中，语音帧可以是一帧语音数据，具体的，当前时间点的语音帧可以是用户输入待识别语音的过程中的当前时刻开始的一帧语音数据。本公开中的待识别语音可以分割为多个时刻对应的多帧语音数据，即待识别语音可以分割为多个时间点的语音帧。

步骤120：获取当前时间点的视频帧。

在一实施例中，当前时间点的视频帧可以是用户输入待识别语音的过程中的当前时刻开始的一帧视频数据。本公开中对应待识别语音的视频数据(即用户输入待识别语音的过程中的视频数据)可以分割为多个时间点的视频帧。

步骤130：提取视频帧中的视频特征信息；其中视频特征信息用于表征当前用户对应语音帧的语音动作。

在一实施例中，视频特征信息可以是用户输入待识别语音时对应的语音动作，可以包括肢体动作(如摆手动作)、头部动作(如点头或摇头动作)、唇部动作(如口型变化)等。对应的视频帧中的视频特征信息可以是当前时间点的动作状态，例如口型等。

在一实施例中，视频特征信息还可以包括光流场特征。光流场特征用于表征相邻两帧视频之间的像素层面的位移信息，考虑到当前用户在输入待识别语音时可能存在位移动作(例如面部位移等)，利用光流场特征可以更准确的获知当前用户的语音动作。在一实施例中，每一个视频帧的光流场特征可以根据当前帧与当前帧的前一帧或后一帧的视频计算得到，其具体的计算方式可以是神经网络方式，即将当前帧的视频和当前帧的前一帧或后一帧的视频输入训练好的神经网络模型，得到当前帧的光流场特征。

步骤140：基于语音帧和视频特征信息，确定语音帧的识别结果。

由于用户在输入语音时会伴随有特定的语音动作，例如口型的变化和肢体动作等，因此，可以通过语音动作直接获知语音内容，例如通过口型的变化识别语音内容(即读取唇语)，在通过语音动作获知语音内容后，将该语音内容与语音帧所对应的语音内容进行融合(例如拼接、加权等)来确定语音帧的识别结果。在一实施例中，还可以在获取语音帧后，利用对应的视频特征信息(例如口型等)进行验证，排除语音帧中不可能的语音内容，从而提高语音帧的识别结果的准确性。

本公开实施例中，基于语音帧和对应的视频帧中的视频特征信息，综合来确定语音帧的识别结果，即结合语音帧和对应的语音动作综合识别语音帧，由于视频特征信息包含了与语音信息相关的动作信息(即用户发出语音时所伴随的动作信息，例如口型变化、肢体语音等)，因此可以提高语音帧识别结果的准确性，并且通过逐帧的识别语音，可以在用户输入语音的过程中实时对语音进行识别，提高语音识别的实时效果。

图2是本申请一示例性实施例提供的一种确定语音帧的识别结果方法的流程示意图。如图2所示，步骤140可以包括如下子步骤：

步骤141：将语音帧解析为至少一个音素信息。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，每一帧语音中会包括至少一个音素信息，将语音帧解析为最小的语音单元(即音素)，并通过对音素信息进行处理来实现对语音帧的处理。

步骤142：基于至少一个音素信息和视频特征信息，得到每个音素信息的概率。

每个用户的发音有所不同，并且还存在外部噪声、语音获取偏差等方面的影响，从而导致所获取的语音信息并不一定是用户所输入的准确的全部语音。由于每个音素信息都对应一个语音动作，因此，可以根据音素信息和对应的语音动作(即视频特征信息)来综合得到每个语音帧中所包含的所有音素信息的概率，即通过获取每帧语音中的音素信息和对应该帧语音的视频特征信息，综合得到该帧语音中的包含的各个音素的概率。

步骤143：根据每个音素信息的概率，计算得到多个语音结果的概率；其中多个语音结果由至少一个音素信息中的部分或全部音素信息组合得到。

由上述步骤142可以计算得到当前语音帧中每个音素信息的概率，即得到当前语音帧中可能存在的音素信息的概率，由于每段语音都是由一个或多个音素信息组成的，因此，可以通过对各个语音结果的组成音素信息的概率进行加权等方式处理以得到对应的语音结果的概率。

步骤144：当多个语音结果中存在一个语音结果的概率满足预设条件时，将该语音结果作为识别结果。

设定预设条件，当步骤143得到的多个语音结果中存在一个语音结果的概率满足该预设条件时，即通过语音帧的语音信息和对应的视频帧中的语音动作综合得到的语音结果的概率满足预设条件，此时，可以将该语音结果作为识别结果输出。

在一实施例中，该预设条件可以包括：该语音结果的概率大于预设的概率阈值；和/或该语音结果的概率为多个语音结果的概率中的最大值。当步骤143得到的多个语音结果中存在一个语音结果的概率大于预设的概率阈值或者步骤143得到的多个语音结果中存在一个语音结果的概率为多个语音结果的概率中的最大值时，可以选取该语音结果为识别结果输出。应当理解，步骤144中可能存在多个满足预设条件的语音结果，此时可以将该多个语音结果同时作为当前语音帧的识别结果存储，在得到所有语音帧的识别结果后结合所有语音帧的识别结果，综合语义确定当前语音帧的识别结果，也可以只选取该多个语音结果中概率最大且与其他语音结果的概率之差大于预设差值，只要所选取的语音结果能够准确表达当前语音帧的识别结果即可，本申请实施例对于选取多个识别结果的具体准则不做限定。

图3是本申请一示例性实施例提供的一种计算音素信息的概率方法的流程示意图。如图3所示，步骤142可以包括如下子步骤：

步骤1421：确定至少一个音素信息中的单个音素信息与对应的标准音素语音之间的第一相似度，得到多个第一相似度。

标准音素信息是基于标准语言(例如标准普通话或标准英语等)得到的，由于不同的标准音素语音信息之间存在一定的差异性，虽然每个用户的发音可能有些区别，但是其所发出语音的音素信息与标准音素语音之间也会存在较高的相似度，通过比对单个音素信息与标准音素语音，得到单个音素信息与标准音素语音之间的第一相似度，可以将单个音素信息的可能结果锁定在少数几个内，从而保证识别精度。

步骤1422：确定视频特征信息与每个音素的标准视频特性信息之间的第二相似度，得到多个第二相似度。

音素的标准视频特性信息是基于标准音素的发音动作设定的标准语音动作，不同的标准视频特性信息之间存在一定的差异性，虽然每个用户的语音动作(即视频特征信息)可能有些区别，但是其所发出语音时的视频特征信息与标准视频特性信息之间也会存在较高的相似度，通过比对当前语音帧的视频特征信息与单个音素的标准视频特性信息，得到视频特征信息与每个音素的标准视频特性信息之间的第二相似度，可以将单个音素信息的可能结果锁定在少数几个内，从而保证识别精度。

步骤1423：将每个音素的第一相似度和第二相似度加权，得到每个音素信息的概率。

通过步骤1421和步骤1422，得到每个音素信息与标准音素语音之间的第一相似度、视频特征信息与每个音素的标准视频特性信息之间的第二相似度，将每个音素对应的第一相似度和第二相似度加权，即结合语音信息与标准音素语音之间的相似度和视频信息与标准视频信息之间的相似度，综合得到每个音素信息的概率，以从而音素和视频两个维度综合获知当前语音帧中包含单个音素信息的概率。在一实施例中，第一相似度和第二相似度的权重可以相等，也可以不相等，例如，当第一相似度和第二相似度都大于各自的预设相似度时，第一相似度和第二相似度的权重可以相等，而当第一相似度和第二相似度中存在一个小于自己的预设相似度时，说明该识别结果准确度不高，因此，可以将该相似度的权重设置为小于另一个相似度的权重，从而避免不准确的识别结果对最终的识别结果产生较大的影响。

在一实施例中，步骤140的具体实现方式还可以包括：至少一个音素信息中的单个音素信息与对应的视频特征信息进行加权后得到加权后的单个音素信息，然后计算加权后的单个音素信息与对应的标准音素语音之间的相似度，得到每个音素信息的概率。

在一实施例中，步骤140的具体实现方式还可以包括：将语音帧和视频特征信息输入第一神经网络模型，得到语音帧的识别结果。具体的实现方式可以是：将语音帧和视频特征信息输入第一神经网络模型，第一神经网络模型对语音帧的语音信息和视频特征信息进行拼接、平均求和、注意力加权求和等融合方式中的任一种，以得到每一帧语音帧中的音素概率的分布结果，然后基于束搜索来获取概率较高的识别结果作为当前语音帧的识别结果，从而可以提高效率并且节省内存空间。

图4是本申请另一示例性实施例提供的语音识别方法的流程示意图。如图4所示，在步骤110之前，上述语音识别方法还可以包括：

步骤150：判断当前用户是否进行语音动作。

由于语音识别的环境中或多或少的会存在一些其他的环境声音或其他用户的干扰语音，若对于所有的声音都进行获取操作，这显然会造成很多的无用操作。因此，通过实时获取用户的图像和动作，并且根据该动作来判断用户是否在进行语音输入，即通过摄像头等图像获取装置来采集交互设备前的图像信息，当所采集的图像信息中包含有用户头像信息时，可以进一步获取当前用户的头部动作或唇部动作，以判断当前用户是否进行语音动作。

步骤160：当判断结果为当前用户正在进行语音动作时，获取当前时间点的语音帧。

若当前用户正在进行语音动作，则激活语音获取设备和视频获取设备来获取当前用户的语音帧和视频帧，即进入语音获取和语音识别状态。在一实施例中，也可以通过步骤150来判断当前用户的语音动作是否结束，当判断当前用户已经结束语音动作，则可以输出当前用户开始语音动作至结束语音动作的时间段内的语音识别结果，并且可以清空所存储的语音帧和视频帧、以及识别过程中产生的音素信息和概率等，为下一次的语音识别预留出存储空间。

在一实施例中，上述步骤130的具体实现方式可以包括：将视频帧输入第二神经网络模型，得到视频特征信息；或者通过SIFT算法、SURF算法和ORB算法中的至少一种得到视频特征信息。提取视频帧中的视频特性信息，即提取视频帧中对应语音帧的语音动作，可以通过第二神经网络模型对视频帧(即图片)中的特定位置区域图像进行特征提取，或者也可以通过SIFT算法、SURF算法和ORB算法中的至少一种提取视频帧中的视频特征信息。应当理解，本申请实施例也可以根据需求而选取其他的方法来提取视频帧中的视频特征。

在一实施例中，视频特征信息可以包括当前用户的唇部区域视频信息。由于用户的语音动作只与特定位置相关，例如唇部或脸部，因此，可以只需要获取当前用户的脸部或唇部区域视频信息，从而避免视频帧中大部分的不相关数据的计算，不仅节省计算空间，也提高了计算效率和响应速度。

图5是本申请另一示例性实施例提供的语音识别方法的流程示意图。如图5所示，在步骤110之后，上述识别方法还可以包括：

步骤170：对语音帧进行预处理，得到预处理后的语音帧。

由于交互环境中可能存在很多噪声，为了提高用户语音的识别精度，本申请实施例可以对语音帧进行预处理来降低噪声水平和提高声燥比，从而为后续的语音识别提供较为准确的初始语音帧。在一实施例中，预处理可以包括：对语音帧进行短时傅里叶变换，得到频谱特征信息。短时傅里叶变换是选择一个时频局部化的窗函数，假定分析窗函数在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使语音帧在不同的有限时间宽度内是平稳信号，从而降低杂乱的噪声。

在一实施例中，在得到频谱特征信息之后，上述识别方法还可以包括：提取频谱特征信息中的MFCC特征和/或FBank特征。通过提取频谱特征信息中的MFCC特征和/或FBank特征，可以拟合出接近人耳的响应特性，从而提高语音的可识别度。

示例性装置

图6是本申请一示例性实施例提供的语音识别装置的结构示意图。如图6所示，该语音识别装置60包括：语音获取模块61，用于获取当前时间点的语音帧；视频获取模块62，用于获取当前时间点的视频帧；视频特征提取模块63，用于提取视频帧中的视频特征信息；其中视频特征信息用于表征当前用户对应语音帧的语音动作；确定模块64，用于基于语音帧和视频特征信息，确定语音帧的识别结果。

本申请实施例提供的一种语音识别装置，通过语音获取模块61和视频获取模块62获取当前时间点的语音帧和视频帧，然后视频特征提取模块63提取视频帧中的视频特征信息，并且确定模块64结合视频特性信息和语音帧综合确定语音帧的识别结果，即结合语音帧的信息和用户对应该语音帧的语音动作来识别该语音帧，不仅提高了语音帧的识别结果的准确性，而且针对每一帧语音进行识别，提高了语音交互的相应时效性，实时识别用户语音，提高了语音交互的体验效果。

图7是本申请另一示例性实施例提供的语音识别装置的结构示意图。如图7所示，确定模块64可以包括：解析单元641，用于将语音帧解析为至少一个音素信息；音素概率获取单元642，用于基于至少一个音素信息和视频特征信息，得到每个音素信息的概率；语音概率获取单元643，用于根据每个音素信息的概率，计算得到多个语音结果的概率；其中多个语音结果由至少一个音素信息中的部分或全部音素信息组合得到；识别结果获取单元644，用于当多个语音结果中存在一个语音结果的概率满足预设条件时，将该语音结果作为识别结果。

在一实施例中，音素概率获取单元642可以进一步配置为：确定至少一个音素信息中的单个音素信息与对应的标准音素语音之间的第一相似度，得到多个第一相似度；确定视频特征信息与每个音素的标准视频特性信息之间的第二相似度，得到多个第二相似度；将每个音素的第一相似度和第二相似度加权，得到每个音素信息的概率。

在一实施例中，音素概率获取单元642可以进一步配置为：至少一个音素信息中的单个音素信息与对应的视频特征信息进行加权后得到加权后的单个音素信息，然后计算加权后的单个音素信息与对应的标准音素语音之间的相似度，得到每个音素信息的概率。

在一实施例中，确定模块64可以可以进一步配置为：将语音帧和视频特征信息输入第一神经网络模型，得到语音帧的识别结果。具体的实现方式可以是：将语音帧和视频特征信息输入第一神经网络模型，第一神经网络模型对语音帧的语音信息和视频特征信息进行拼接、平均求和、注意力加权求和等融合方式中的任一种，以得到每一帧语音帧中的音素概率的分布结果，然后基于束搜索来获取概率较高的识别结果作为当前语音帧的识别结果。

在一实施例中，如图7所示，语音识别装置60还可以包括：判断模块65，用于判断当前用户是否进行语音动作；语音获取模块61进一步配置为：当判断结果为当前用户正在进行语音动作时，获取当前时间点的语音帧。

在一实施例中，视频特征提取模块63可以进一步配置为：将视频帧输入第二神经网络模型，得到视频特征信息；或者通过SIFT算法、SURF算法和ORB算法中的至少一种得到视频特征信息。在一实施例中，视频特征信息可以包括当前用户的唇部区域视频信息。

在一实施例中，如图7所示，语音识别装置60还可以包括：预处理模块66，用于对语音帧进行预处理，得到预处理后的语音帧。在进一步的实施例中，预处理可以包括：对语音帧进行短时傅里叶变换，得到频谱特征信息。在一实施例中，在得到频谱特征信息之后，语音识别装置60还可以进一步配置为：提取频谱特征信息中的MFCC特征和/或FBank特征。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置13可以是麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音识别方法，包括：

获取当前时间点的语音帧；

获取所述当前时间点的视频帧；

提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及

基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果；

其中，所述基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果包括：

将所述语音帧解析为至少一个音素信息；

基于所述至少一个音素信息和所述视频特征信息，得到每个音素信息的概率；

根据所述每个音素信息的概率，计算得到多个语音结果的概率；其中所述多个语音结果由所述至少一个音素信息中的部分或全部音素信息组合得到；以及

当所述多个语音结果中存在一个语音结果的概率满足预设条件时，将该语音结果作为识别结果；

其中，所述基于所述至少一个音素信息和所述视频特征信息，得到每个音素信息的概率包括：

确定所述至少一个音素信息中的单个音素信息与对应的标准音素语音之间的第一相似度，得到多个第一相似度；

确定所述视频特征信息与每个音素的标准视频特性信息之间的第二相似度，得到多个第二相似度；以及

将每个音素的所述第一相似度和所述第二相似度加权，得到所述每个音素信息的概率。

2.根据权利要求1所述的识别方法，其中，所述预设条件包括：该语音结果的概率大于预设的概率阈值；和/或该语音结果的概率为所述多个语音结果的概率中的最大值。

3.根据权利要求1或2所述的识别方法，其中，所述基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果包括：

将所述语音帧和所述视频特征信息输入第一神经网络模型，得到所述语音帧的识别结果。

4.根据权利要求1所述的识别方法，其中，在所述获取当前时间点的语音帧之前，还包括：

判断所述当前用户是否进行语音动作；

当判断结果为所述当前用户正在进行语音动作时，获取所述当前时间点的语音帧。

5.根据权利要求1所述的识别方法，其中，所述提取所述视频帧中的视频特征信息包括：

将所述视频帧输入第二神经网络模型，得到所述视频特征信息；或者

通过SIFT算法、SURF算法和ORB算法中的至少一种得到所述视频特征信息。

6.根据权利要求1所述的识别方法，其中，所述视频特征信息包括所述当前用户的唇部区域视频信息。

7.根据权利要求1所述的识别方法，其中，在所述获取当前时间点的语音帧之后，还包括：

对所述语音帧进行预处理，得到预处理后的语音帧。

8.根据权利要求7所述的识别方法，其中，所述预处理包括：

对所述语音帧进行短时傅里叶变换，得到频谱特征信息。

9.根据权利要求8所述的识别方法，其中，在所述得到频谱特征信息之后，还包括：

提取频谱特征信息中的MFCC特征和/或FBank特征。

10.一种语音识别装置，包括：

语音获取模块，用于获取当前时间点的语音帧；

视频获取模块，用于获取所述当前时间点的视频帧；

视频特征提取模块，用于提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及

确定模块，用于基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果；

将所述语音帧解析为至少一个音素信息；

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的语音识别方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-9任一所述的语音识别方法。