CN110517685B

CN110517685B - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN110517685B
Application number: CN201910912919.0A
Authority: CN
Inventors: 袁小薇
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-10-08
Anticipated expiration: 2039-09-25
Also published as: CN110517685A

Abstract

本申请实施例公开了一种语音识别方法、装置、电子设备及存储介质。该方法包括：获取用户输入的触发指令，启动语音采集；在语音采集过程中，检测用户的唇部状态是否满足预设条件；若用户的唇部状态满足预设条件，获取本次用户的唇部状态满足预设条件的持续时间；判断持续时间是否超过预设检测时间；若持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。本申请实施例通过识别唇部状态判断是否结束采集，可实现准确结束采集，避免因提前结束采集，打断用户说话，降低甚至消除用户输入过程的局促感，为用户带来更轻松自然的交互体验。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音采集是语音识别***的基本功能和必要步骤之一，语音数据采集的处理时间在很大程度上决定语音识别***的响应时间。在用户说完语音内容之后尽早结束语音数据采集，并进入到语音识别阶段，将会明显提升语音识别***的响应速度。但是，目前语音识别对语音采集的效果不佳。

发明内容

鉴于上述问题，本申请实施例提供一种语音识别方法、装置、电子设备及存储介质，可以准确结束采集，提升交互体验。

第一方面，本申请实施例提供了一种语音识别方法，该语音识别方法可包括：获取用户输入的触发指令，启动语音采集；在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件；若所述用户的唇部状态满足预设条件，获取本次所述用户的唇部状态满足所述预设条件的持续时间；判断所述持续时间是否超过预设检测时间；若所述持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

可选地，所述获取待构建的文档中的任意两个段落文本，包括：所述判断本次持续时间是否超过预设检测时间之后，所述方法还包括：若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；判断所述预先识别结果是否正确；根据判断结果，获得本次识别结果。

可选地，所述判断所述预先识别结果是否正确，包括:对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；或者基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

可选地，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；若存在，则基于所述指令获取所述预先识别结果的目标关键词；确定所述目标关键词在所述预先识别结果中的目标位置；基于所述目标位置，获取所述目标关键词的上下文信息；对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

可选地，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果预测识别结果。

可选地，所述根据判断结果，获得本次识别结果，包括：若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；若判断错误，则继续本次语音采集，并返回执行检测所述用户的唇部状态是否满足预设条件以及后续操作。

可选地，所述在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件，包括:在所述语音采集过程中，检测所述用户的唇部状态是否处于闭合状态。若所述用户的唇部状态处于闭合状态，则判定所述用户的唇部状态满足预设条件；若所述用户的唇部状态不处于闭合状态，则判定所述用户的唇部状态不满足预设条件。

可选地，所述在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件，包括:在所述语音采集过程中，检测所述用户的唇部状态；若无法检测到所述用户的唇部状态，则判定所述用户的唇部状态满足预设条件；若检测到所述用户的唇部状态，则判定所述用户的唇部状态不满足预设条件。

第二方面，本申请实施例提供了一种语音识别装置，该语音识别装置可包括：指令获取模块，用于获取用户输入的触发指令，启动语音采集；唇部检测模块，用于在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件；唇部判断模块，用于若所述用户的唇部状态满足预设条件，获取本次所述用户的唇部状态满足所述预设条件的持续时间；时间判断模块，用于判断所述持续时间是否超过预设检测时间；语音识别模块，用于若所述持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

可选地，所述语音识别装置还包括：采集判断模块、预先识别模块、识别判断模块以及结果获取模块，其中：采集判断模块，用于若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；预先识别模块，用于若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；识别判断模块，用于判断所述预先识别结果是否正确；结果获取模块，用于根据判断结果，获得本次识别结果。

可选地，所述识别判断模块包括：预先显示单元、预先确认单元、预测识别单元、预测显示单元以及预测确认单元，其中：预先显示单元，用于对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；预先确认单元，用于根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；预测识别单元，用于基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；预测显示单元，用于对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；预测确认单元，用于根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

可选地，所述预测识别单元包括：指令匹配子单元、目标获取子单元、位置确定子单元、信息获取子单元、预测识别子单元以及预测网络子单元，其中：指令匹配子单元，用于基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；目标获取子单元，用于若存在，则基于所述指令获取所述预先识别结果的目标关键词；位置确定子单元，用于确定所述目标关键词在所述预先识别结果中的目标位置；信息获取子单元，用于基于所述目标位置，获取所述目标关键词的上下文信息；预测识别子单元，用于对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

可选地，所述预测识别单元还包括：预测网络子单元，用于将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

可选地，所述结果获取模块包括：判断正确单元以及判断错误单元，其中：判断正确单元，用于若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；判断错误单元，用于若判断错误，则继续本次语音采集，并返回执行检测所述用户的唇部状态是否满足预设条件以及后续操作。

可选地，所述唇部检测模块包括：闭合检测单元、第一闭合单元、第二闭合单元、唇部检测单元、第一唇部单元以及第二唇部单元，其中：闭合检测单元，用于在所述语音采集过程中，检测所述用户的唇部状态是否处于闭合状态。第一闭合单元，用于若所述用户的唇部状态处于闭合状态，则判定所述用户的唇部状态满足预设条件；第二闭合单元，用于若所述用户的唇部状态不处于闭合状态，则判定所述用户的唇部状态不满足预设条件。唇部检测单元，用于在所述语音采集过程中，检测所述用户的唇部状态；第一唇部单元，用于若无法检测到所述用户的唇部状态，则判定所述用户的唇部状态满足预设条件；第二唇部单元，用于若检测到所述用户的唇部状态，则判定所述用户的唇部状态不满足预设条件。

第三方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如上述第一方面所述的方法。

在本申请实施例中，通过获取用户输入的触发指令，启动语音采集，然后在语音采集过程中，检测用户的唇部状态是否满足预设条件，若用户的唇部状态满足预设条件，获取本次用户的唇部状态满足预设条件的持续时间，接着判断持续时间是否超过预设检测时间，若持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。由此，本申请实施例通过识别唇部状态判断是否结束采集，可实现准确结束采集，避免因提前结束采集，打断用户说话，降低甚至消除用户输入过程的局促感，为用户带来更轻松自然的交互体验。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请一个实施例提供的语音识别方法的方法流程图；

图3示出了本申请另一个实施例提供的语音识别方法的方法流程图；

图4示出了本申请实施例提供的一种检测用户的唇部状态是否满足预设条件的方法流程图；

图5示出了本申请实施例提供的另一种检测用户的唇部状态是否满足预设条件的方法流程图；

图6示出了本申请实施例提供的一种判断预先识别结果是否准确的方法流程图；

图7示出了本申请实施例提供的另一种判断预先识别结果是否准确的方法流程图；

图8示出了本申请另一个实施例提供的步骤S20831至步骤S20835的方法流程图。

图9示出了本申请一个实施例提供的语音识别装置的模块框图；

图10示出了本申请实施例用于执行根据本申请实施例的语音识别方法的电子设备的模块框图；

图11示出了本申请实施例用于执行根据本申请实施例的语音识别方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音技术作为人工智能产业链上的关键一环，AI(Artificial Intelligence，人工智能)应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴等领域都有着迅猛发展。例如，在智能家居领域，已涌现出越来越多成熟的技术，可使得用户通过语音控制家居设备。

目前，在语音技术领域存在的难题不仅在于语音识别，还在于前期的语音采集，不合理的语音采集也将影响语音识别的准确性，给用户带来较差的体验。其中，发明人发现目前在语音采集时，现有技术往往是以一个固定的时间段是否有语音输入作为结束语音采集的判断条件，但如果这个时间段设置过短，那么容易出现用户话没说完就结束采集的情况，使得用户为了避免漏采集，不得不加快说话节奏，精炼语言，这样容易给用户带来局促感。

基于上述分析，发明人发现目前语音采集无法准确判断结束采集的时间，导致用户在输入过程中常感局促，并且由于过早地结束采集，还导致对用户输入理解不准确的问题，体验不佳。为此，发明人研究了目前语音识别的困难点，更是综合考虑实际场景的使用需求，提出了本申请实施例的语音识别方法、装置、电子设备及存储介质。

为便于更好的理解本申请实施例提供的语音识别方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的语音识别方法可以应用于如图1所示的交互***100。交互***100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，终端设备可基于客户端应用程序的虚拟机器人与用户进行多态交互，用于向用户提供客户服务。具体地，客户端应用程序可以对用户输入的语音进行采集，对采集到的语音进行语音识别，并基于虚拟机器人对该用户输入的语音作出应答。并且，虚拟机器人作出的应答包括语音输出和行为输出，其中，行为输出为输出基于语音输出驱动的行为，并且行为与语音对齐。行为包括与所输出语音对齐的表情、姿态等。从而让用户可以在人机交互界面上直观看到具有虚拟形象的虚拟机器人在“说话”，使用户与虚拟机器人之间能够进行“面对面”的沟通交流。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形象建立的形似真人的机器人，也可以是基于动漫形象的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在另一些实施方式中，终端设备也可仅通过语音与用户进行交互。即根据用户输入通过语音作出应答。

进一步地，在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时交互***100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的语音识别方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，本申请一个实施例提供了一种语音识别方法，可应用于上述终端设备。具体地，该方法包括步骤S101至步骤S105：

步骤S101：获取用户输入的触发指令，启动语音采集。

其中，触发指令可基于多种触发方式获取，基于触发方式的不同，触发指令可包括语音触发指令、按键触发指令、触摸触发指令等。具体地，若为语音触发指令，终端设备可通过检测语音唤醒词或其他语音输入，以获取触发指令；若为按键触发指令，终端设备可通过检测是否采集到按键按下信号，以获取触发指令；若为触摸触发指令，终端设备可通过检测指定区域是否采集到触摸信号，以获取触发指令，等等。上述仅为多种触发方式仅为示例性描述，不对本实施例构成限定，本实施例还可获取其他形式的触发指令。

进一步地，获取用户输入的触发指令，启动语音采集，开始采集语音信号。例如，在一种实施方式中，终端设备可预设语音唤醒词“你好小一”，在检测到用户输入的“你好小一”时，获取触发指令，启动语音采集程序，开始采集语音信号。

步骤S102：在语音采集过程中，检测用户的唇部状态是否满足预设条件。

启动语音采集后，可开启图像采集装置，基于图像采集装置，在语音采集过程中，获取用户图像，检测用户的唇部状态是否满足预设条件。

其中，预设条件可以是***预设的，也可以是用户自定义的，在此不作限定。并且预设条件可以是一个条件，也可以是多个子条件的组合。通过检测用户的唇部状态是否满足预设条件，可判定用户是否结束语音输入。具体地，若用户的唇部状态满足预设条件，可判定用户已结束语音输入，若用户的唇部状态不满足预设条件，可判定用户未结束语音输入。

具体地，作为一种实施方式，预设条件可以为检测到用户唇部闭合，由于用户在进行语音输入即说话时，唇部往往会作开合动作，若用户唇部长期保持闭合超过一定时间可认为用户当前并未说话，也就是说无语音输入，因此可通过检测用户的唇部状态是否处于闭合状态，来判定用户是否已结束语音输入。并且由于目前单纯基于语音输入的时间来判断是否结束采集的方式，可能导致在用户没说完话时就结束了语音采集，不仅打断用户说话，而且由于采集不全还影响语音识别的准确新。因此通过判断唇部是否闭合，来判定用户是否可能已经结束语音输入，从而可采集到完整的语音信号，而不打断用户，基于完整的语音信号，可进一步提高语音识别的准确性。

具体地，作为一种方式，检测用户的唇部状态是否闭合，可通过将获取到的用户的唇部图像与预设唇部闭合图像进行匹配，若可匹配成功则判定闭合；作为另一种方式，也可通过设置唇部闭合时，唇部关键点之间的预设相对位置阈值，以基于用户的唇部图像，提取唇部关键点，判断唇部关键点之间是否符合预设相对位置阈值，若符合则判定闭合。另外还可采用其他检测唇部是否闭合的方式，对此不作任何限定。

作为另一种实施方式，预设条件也可以为获取的用户图像不包含用户唇部。若终端设备预先设置为仅在可检测到用户的唇部状态时，才做语音信号的采集，因此在检测不到用户的唇部图像时，可认为用户已结束语音输入。则可在检测不到用户的唇部时，判定用户的唇部状态满足预设条件。从而可通过检测是否存在用户的唇部图像，来判定用户可能已经结束语音输入。

作为又一种实施方式，预设条件还可以为无法检测到用户等。由于用户一般会在终端设备可接收信号的范围进行语音输入，若用户离开了该范围，可认为用户已结束语音输入。因此，通过检测是否存在用户图像，即可检测用户是否离开，以判定用户可能已经结束语音输入。

进一步地，预设条件还可以是多个条件的组合，例如可以同时检测用户的唇部状态是否处于闭合状态，以及监控是否可检测到用户的唇部。

进一步地，在一种实施方式中，在判定用户是否可能已经结束语音输入后，可在判定用户可能已经结束语音输入时，结束本次语音采集，以及时结束语音采集，减少响应时间，提高响应速度。

步骤S103：若用户的唇部状态满足预设条件，获取本次用户的唇部状态满足预设条件的持续时间。

若用户的唇部状态满足预设条件，则判定用户可能需结束本次语音输入，此时获取本次用户的唇部状态满足预设条件的持续时间，以确定是否结束本次语音采集。例如，若预设条件为用户的唇部状态处于闭合状态，则在检测到用户的唇部状态处于闭合状态时，可获取唇部状态处于闭合状态的持续时间。

进一步地，在一种实施方式中，若预设条件为用户的唇部状态处于闭合状态，由于用户说话都需要反复开合唇部，但说话过程中往往唇部闭合时间相对开启时间短得多，因此为避免误触发，可设置至少两个检测时间，例如可设置第一检测时间、第二检测时间，其中，第一检测时间可为0.3s，第二检测时间可为1s。具体地，首先在检测到用户的唇部状态为闭合状态时，判断是否闭合超过第一检测时间，若未超过，则清除本次累计的闭合的持续时间，并继续检测，直到检测到一次闭合超过第一检测时间后，不作清除继续累计本次的持续时间，此时可获取本次用户的唇部状态满足预设条件的持续时间，并执行步骤S104。由此可避免说话过程中的正常开合动作导致误触发检测，也减少了计算资源的消耗，提高***性能及***可用性。

步骤S104：判断持续时间是否超过预设检测时间。

其中，持续时间为本次检测唇部状态满足预设条件的持续时间，判断持续时间是否超过预设检测时间。预设检测时间可以***预设，也可用户自定义，具体地，预设检测时间可设置为0.5s、1s、1.3s、2s等，在此不作限定，可具体根据用户实际使用情况进行设定。可以理解的是，预设检测时间设置地越短，响应时间越快，预设检测时间设置地越长，响应时间越慢。

在一些实施方式中，预设条件可以是多个子条件的组合，并对每个子条件设置各子条件对应的预设检测时间，各子条件对应的预设检测时间可以相同，也可以不同。

具体地例如，预设条件包括两个条件，分别为用户的唇部状态处于闭合状态、无法检测到用户的唇部，则可以同时检测用户的唇部状态是否处于闭合状态(对应第一预设检测时间)，以及监控是否可检测到用户的唇部(对应第二预设检测时间)，并分别累计闭合状态的第一持续时间、检测不到用户的唇部的第二持续时间。并且可设置第二预设检测时间小于第一预设检测时间，从而使得在用户已经完成本次语音输入，希望更早结束本次语音采集时，可通过转头或移动等其他方式使得终端设备无法检测到用户的唇部，以在更短的时间内结束本次语音采集。由此，通过设置预设条件为多个子条件的组合，并分别设置预设检测时间，可实现灵活响应，提高响应速度，进而提高语音采集和识别的效率，提高用户体验。

步骤S105：若持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

若持续时间超过预设检测时间，则结束本次语音采集，获取本次采集的语音信号，对该语音信号进行识别，得到本次识别结果。具体地，结束本次语音采集后，将本次采集的语音信号输入至语音识别模型，可得到对该语音信号识别后的本次识别结果，从而及时结束语音采集，并进行语音识别。

进一步地，在一些实施方式中，得到本次识别结果后，可从本次识别结果中提取控制指令，以根据控制指令执行对应的操作，例如，本次识别结果为“今天天气好好啊，帮我开个窗帘吧”，从中可提取出对应“打开窗帘”的控制指令，并向预先设置的智能窗帘发送该控制指令，以控制智能窗帘打开。

在另一些实施方式中，得到本次识别结果后，还可针对本次识别结果进行回复。具体地，作为一种方式，可预先设置和存储一个问答模型，通过将本次识别结果输入问答模型，可得到本次识别结果对应的答复信息，其中问答模型可以是网上下载的模型，也可以是基于用户数据自行训练的，在此不做限定。作为另一种方式，还可构建一个问答数据库，基于本次识别结果在问答数据库中进行匹配，从而得到本次识别结果对应的答复信息。例如，本次识别结果为“今天出门遇到了好久没见的高中同学，可我差点没认出来”，进而获取本次识别结果对应的答复信息，如“哎哟，那这是变帅了，还是变油腻了呀”，并基于语音合成得到该答复信息对应的答复语音，从而可输出该答复语音以对用户进行回答，实现人机交互。

进一步地，在一些实施方式中，终端设备包括显示屏，显示有一个虚拟机器人，基于该虚拟机器人与用户进行交互，获取答复信息，并合成该答复信息对应的答复语音后，可基于该答复语音生成驱动该虚拟机器人的行为参数，以驱动该虚拟机器人将该答复语音“说”出来，实现更自然的人机交互。其中行为参数包括表情，还可包括姿态，通过行为参数，可驱动虚拟机器人的表情或姿态与答复语音对应，如虚拟机器人的嘴型和输出的语音匹配，使虚拟机器人可说话自然，提供更自然的交互体验。

本实施例提供的语音识别方法，通过检测用户的唇部状态是否满足预设条件，以在满足预设条件时，基于本次满足预设条件的持续时间，判断持续时间是否超过预设检测时间，从而基于用户的唇部状态实现是否结束语音采集的判断，可实现准确结束采集，避免因提前结束采集，打断用户说话，因而可获取完整的语音信号进行识别，不仅可提高语音识别的准确性，还降低甚至消除了用户输入过程的局促感，为用户带来更轻松自然且更佳的交互体验。

请参阅图3，本申请一个实施例提供了一种语音识别方法，可应用于上述终端设备。具体地，该方法包括步骤S201至步骤S209：

步骤S201：获取用户输入的触发指令，启动语音采集。

于本实施例中，步骤S201的具体描述可参考前述实施例中的步骤S101，在此不再赘述。

步骤S202：在语音采集过程中，检测用户的唇部状态是否满足预设条件。

作为一种实施方式，可通过检测用户的唇部状态是否处于闭合状态，来判断用户的唇部状态是否符合预设条件，以在用户唇部闭合超过预设的时间后结束采集。由于经试验和调研发现，多数时候用户唇部闭合超过一定时间，可能已经结束了一次交互输入，所以此时可通过结束采集来及时触发识别，而且相较于现有技术，还可降低用户语音输入的局促感，避免在用户还没结束说话时，就提前结束采集的情况，不仅可提高用户的人机交互体验，而且由于获取的语音信号更完整，更可提高语音识别的准确性。具体地，本申请实施例提供了一种检测用户的唇部状态是否满足预设条件的方法，如图4所示，图4示出了该方法的方法流程图，该方法包括：步骤S2021至步骤S2023。

步骤S2021：在语音采集过程中，检测用户的唇部状态是否处于闭合状态。

作为一种实施方式，可预先存储一个预设唇部闭合图像，预设唇部闭合图像为唇部状态处于闭合状态下的图像。终端设备通过获取用户的唇部图像，将该唇部图像与预设唇部闭合图像进行匹配，若匹配成功，则判定用户的唇部状态处于闭合状态，若匹配失败，则判定用户的唇部状态不处于闭合状态。

作为另一种实施方式，检测用户的唇部状态是否处于闭合状态，还可通过获取唇部关键点位置，根据预设唇部闭合条件，判断唇部关键点位置是否符合预设唇部闭合条件，若符合则判定用户的唇部状态处于闭合状态。具体地，获取唇部图像，提取20个唇部特征点，获取唇部特征点的坐标，并基于上唇特征点的坐标、上唇特征点对应的下唇特征点的坐标，计算一组上下唇距离，将该上下唇距离与预设唇部闭合条件中的上下唇距离进行一一比较，若误差在预设范围内，可判定用户的唇部状态处于闭合状态。

于本实施例中，检测用户的唇部状态是否处于闭合状态后，还可以包括：

若用户的唇部状态处于闭合状态，可执行步骤S2022；

若用户的唇部状态不处于闭合状态，可执行步骤S2023。

步骤S2022：判定用户的唇部状态满足预设条件。

若用户的唇部状态处于闭合状态，判定用户的唇部状态满足预设条件。

步骤S2023：判定用户的唇部状态不满足预设条件。

若用户的唇部状态不处于闭合状态，判定用户的唇部状态不满足预设条件。

另外，作为另一种实施方式，还可通过检测用户的唇部状态，通过是否可检测到唇部来判定是否符合预设条件，以此进一步判断是否结束采集，可在用户离开时及时结束采集，提高语音采集和识别效率。具体地，本申请实施例提供了另一种检测用户的唇部状态是否满足预设条件的方法，如图5所示，该方法包括：步骤S2024至步骤S2026。

步骤S2024：在语音采集过程中，检测用户的唇部状态。

在语音采集过程中，获取用户的唇部图像，基于获取的唇部图像，检测用户的唇部状态，并判定是否可检测到用户的唇部状态。

作为一种实施方式，可通过获取用户的唇部图像，根据所述唇部图像判断是否为正面图像，若不为正面图像，可判定无法检测到用户的唇部状态，若为正面图像，可判定可检测到用户的唇部状态。具体地，预先存储一个预设唇部正面图像，在语音采集过程中，获取用户的唇部图像，将该唇部图像与预设唇部正面图像进行匹配，若匹配失败，可判定不为正面图像，即可判定无法检测到用户的唇部状态，若匹配成功，可判定为正面图像，即可判定可检测到用户的唇部状态。

作为另一种实施方式，在语音采集过程中，可基于获取的图像，检测是否存在用户的唇部图像或存在包含用户的用户图像，若检测到不存在用户的唇部图像或用户图像，可判定无法检测到用户的唇部状态。

于本实施例中，检测用户的唇部状态后，还可以包括：

若无法检测到用户的唇部状态，可执行步骤S2025；

若检测到用户的唇部状态，可执行步骤S2026。

步骤S2025：若无法检测到用户的唇部状态，则判定用户的唇部状态满足预设条件。

步骤S2026：若检测到用户的唇部状态，则判定用户的唇部状态不满足预设条件。

另外，在一些实施方式中，若检测到用户的唇部状态，还可继续检测唇部状态是否处于闭合状态，具体可见步骤S2021至步骤S2023，在此不再赘述。由此，可先检测是否存在唇部，以在用户离开时加快结束采集的速度，减少了图像数据处理量，加快反馈、提高语音采集和识别效率，并可进一步提高***可用性。

步骤S203：若用户的唇部状态满足预设条件，获取本次用户的唇部状态满足预设条件的持续时间。

步骤S204：判断持续时间是否超过预设检测时间。

于本实施例中，判断持续时间是否超过预设检测时间后，还可以包括：

若持续时间超过预设检测时间，可执行步骤S205；

若持续时间未超过预设检测时间，可执行步骤S206及后续步骤。

步骤S205：结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

若持续时间超过预设检测时间，结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

步骤S206：判断本次语音采集时间是否超过预设采集时间。

若持续时间未超过预设检测时间，可判断本次语音采集时间是否超过预设采集时间。从而在通过检测唇部状态是否满足预设条件，来判断是否结束采集，避免过早结束采集的同时，又通过设置预设采集时间，监控语音采集时间，以避免语音采集时间过长，造成过多不必要的功耗和计算资源的消耗。

其中，预先采集时间可以是***预设的，也可以是用户自定义的。具体地，预设采集时间用于监控本次语音采集时间是否过长。例如预设采集时间设置为3s、5s、10s等，在此不作限定。可以理解的是，预设采集时间越长，监控的细粒度越低，预设采集时间越长，监控的细粒度越高。

在一些实施方式中，预设采集时间可以大于或等于预设检测时间，可在通过检测唇部状态是否满足预设条件来避免过早结束采集的同时，避免语音采集时间过长，提高采集效率。

在另一些可能的实施方式中，预设采集时间还可以小于预设检测时间，具体地，在启动语音采集后即开启时间窗口，累计本次语音采集时间，并在本次语音采集时间达到预设采集时间时，可触发中断信号，以无论程序执行到哪个步骤，均跳转到执行步骤S206及后续操作。例如，在一些场景下，用户所要输入的语音仅有1s，而预设检测时间为1s，此时预设采集时间可设置为0.5s，已在用户输入结束后(1s后)，已超过预设采集时间(0.5s)，此时则可开始对1s内采集到的语音信号进行预先识别，而无需在耗费1s的时间检测唇部状态满足预设条件的持续时间，从而加快响应，提高语音采集效率，具体如何预先识别可见后述步骤。

步骤S207：若本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果。

从语音采集启动开始，即可开启一个时间窗口对本次语音采集时间进行累计，并在本次语音采集时间超过预设采集时间时，对当前以采集的语音信号进行预先识别，以得到预先识别结果。从而在采集时间过长时，先对已采集的语音进行识别，以便提前判断是否已准确接收并理解用户输入的语音。

具体地，在一种实施方式中，若本次语音采集时间超过预设采集时间，将从启动语音采集的时间开始、直到判定本次语音采集时间超过预设采集时间的时刻为止采集得到的语音信号，作为当前已采集的语音信号，并对该语音信号进行识别，同时此时仍在采集持续输入的语音信号，从而实现在采集时间过长时的预先识别。

步骤S208：判断预先识别结果是否正确。

作为一种实施方式，得到预先识别结果后，可基于语言模型判断预先识别结果的语句合理性，进而判断预先识别结果是否正确。并进一步地，在一些实施方式中，还可基于语言模型对预先识别结果进行修正，以将修正后的预先识别结果作为新的预先识别结果，进行后续操作，进一步提高识别准确率。其中，语言模型可以采用N-Gram模型，也可以采用其他语言模型，在此不作限定。

作为另一种实施方式，可直接先显示预先识别结果，以向用户确认。具体地，本实施例提供了一种判断预先识别结果是否准确的方法，如图6所示，该方法包括：步骤S2081至步骤S2082。

步骤S2081：对预先识别结果进行显示，以使用户确认预先识别结果是否正确。

得到预先识别结果后，生成显示页面，对预先识别结果进行显示，以使用户确认预先识别结果是否确认。由于此时仍在语音采集过程中，故通过在显示界面显示预先识别结果，可在不打断用户继续输入语音信号的同时，使用户确认是否识别正确，一方面保证语音采集的流畅性，以便提高语音采集效率，另一方面也提高了用户交互体验。

步骤S2082：根据获取到的用户针对预先识别结果的确认指令，判断预先识别结果是否正确。

其中，确认指令包括确认正确指令和确认错误指令，确认正确指令对应预先识别结果正确，确认错误指令对应预先识别结果错误。

在一些实施方式中，用户可通过确认操作触发确认指令，使终端设备获取用户针对预先识别结果的确认指令。其中，确认操作可包括触控确认操作、图像确认操作、语音确认操作等，在此不作限定。

其中，触控确认操作可以是基于设置有触摸屏等触控区域的终端设备，在显示页面中可显示有两个控件，分别对应确认正确指令和确认错误指令，通过触压控件可触发对应的确认指令；触控确认操作也可以是通过分别检测两个触摸按键是否被触发，来获取确认指令，其中，一个触摸按键对应一个确认指令；触控确认操作还可以是通过滑动触控开触发确认指令，例如左滑对应确认正确指令，右滑对应确认错误指令，使得用户在无需触碰任何具***置，只需在触摸屏幕上任意位置执行左滑或右滑即可，简化用户操作，提高确认便利性。

其中，图像确认操作可以是基于采集的图像判断是否存在预设动作、来触发确认指令，其中预设动作可以是点头、ok手势等，不作限定。从而无需用户触碰终端设备即可触发确认指令，提高操作便利性。

其中，语音确认操作可包括检测预设确认词，来获取确认指令。预设确认词可以包括对应确认正确指令的“嗯”、“没错”、“对啦”、“可以”等，还包括对应确认错误指令的“错啦”、“不对”、“再来”等，在此不做限定。从而通过检测预设确认词，可获取预设确认词对应的确认指令，由于无需图像采集，也无需触碰设备，语音确认操作使得用户可不必作出动作即可触发确认指令，大大提高操作便利性，优化交互体验。

进一步地，在一些实施方式中，还可设置预设确认时间，以在用户未作确认操作触发确认指令时，自动生成确认指令以用于判断预先识别结果是否正确，提高***可用性。

具体地，在一种实施方式中，若超过预设确认时间，未接收到确认指令，可生成确认正确指令。由此，使得用户在确认识别正确时，无需任何操作可使得终端设备在超过预设确认时间时，自动进行后续操作，从而简化用户交互操作。。

在另一种实施方式中，若超过预设确认时间，未接收到确认指令，可生成确认错误指令，以在用户不操作时，仍继续采集语音信号。从而在用户确认识别错误时，无需作任何操作，简化用户操作。并且在用户确认识别正确时，还可通过确认操作，直接触发确认指令，加快响应。如此在简化用户操作、不打扰用户继续输入语音的基础上，还可加快响应，大大提高交互体验，和交互流畅性。

在另一些实施方式中，也可仅设置预设确认时间，不设置确认操作，进一步简化用户操作，同时由于无需存储大量确认操作，及进行确认操作识别，还可降低存储压力和减少计算资源的消耗，优化处理效率，进一步提高***可用性。

另外，作为又一种实施方式，判断预先识别结果是否正确，可基于预先识别结果获得预测识别结果，以预测用户所想表达的内容，并通过显示可向用户确认是否预测正确，以在预测正确时结束采集。从而不仅确保了对用户输入的正确理解，而且在用户思路不够明确表达不够简洁清晰时可通过预测帮助用户，一方面大大优化了人机交互体验，另一方面也在保证准确结束采集和识别的基础上，降低了语音采集时间，进一步提高***可用性。具体地，本实施例提供了另一种判断预先识别结果是否准确的方法，如图7所示，该方法包括：步骤S2083至步骤S2085。

步骤S2083：基于预先识别结果，获取预先识别结果对应的预测识别结果。

在一些实施方式中，可基于预先识别结果，通过与预设指令进行匹配，得到预测识别结果。具体地，如图8所示，步骤S2083可包括：步骤S20831至步骤S20835。

步骤S20831：基于预先识别结果，在预设指令库中查找是否存在与预先识别结果匹配的指令。

其中，预设指令库包括至少一个指令，指令基于不同的场景有所不同，在此不做限定。例如家居场景下，指令可包括“打开窗帘”、“打开电视”、“关灯”、“打开音乐”等，再如银行场景下，指令可包括“办理***”、“银行开户”等。

基于预先识别结果，在预设指令库中查找是否存在与预先识别结果匹配的指令。例如，预先识别结果为“今天天气真好，咱们开个窗帘吧”，则基于该预先识别结果，可在预设指令库中，查找到与之匹配的指令“打开窗帘”。

再如，预先识别结果为“你好，我想办张***，请问办理***是不是要房产证？我没有房产证”，可在预设指令库中，查找到与之匹配的指令“办理***”。

步骤S20832：若存在，则基于指令获取预先识别结果的目标关键词。

若在预设指令库中可查找到与预先识别结果匹配的指令，可基于该指令获取预先识别结果的目标关键词。例如，存在与预先识别结果匹配指令为“办理***”，则可基于指令“办理***”确定一个或多个目标关键词，如“办理***”、“办理”和“***”中的至少一个。

在一些实施方式中，还可进一步通过匹配度来给多个目标关键词排序，以优先基于匹配度最高的目标关键词进行后续操作。由此不仅可提高预测效率，还可保证较高的预测准确度。例如，基于指令“办理***”可确定出三个目标关键词，分别为“办理***”、“办理”、“***”，三者分别结合指令“办理***”计算匹配度，并根据匹配度排序后，由高至低依次为“办理***”、“***”、“办理”，进而可优先基于匹配度最高的“办理***”进行后续操作。

步骤S20833：确定目标关键词在预先识别结果中的目标位置。

基于目标关键词和预先识别结果，确定目标关键词在预先识别结果中的目标位置。

步骤S20834：基于目标位置，获取目标关键词的上下文信息。

步骤S20835：对上下文信息进行识别，以得到预先识别结果对应的预测识别结果。

基于目标位置，获取目标关键词的上下文信息，并对上下文信息进行识别，以得到预先识别结果对应的预测识别结果。从而在本次采集时间超过预设采集时间，即采集超时时，不仅预先识别，还在预先识别的基础上作预测，提高语音采集效率，也有利于提高用户体验，使得用户不必事无巨细说明，也可准确接收用户所需表达的信息。

例如，预先识别结果为“你好，我想办张***，请问办理***是不是要房产证？我没有房产证”，在预设指令库中查找到与预先识别结果匹配的指令“办理***”，并确定目标关键词包括“办理***”，基于目标关键词确定其在预先识别结果中的目标位置后，获取目标关键词“办理***”的上下文信息。识别上下文信息包括“想办张***”、“是不是要房产证”、“没有房产证”，可得到预先识别结果对应的预测识别结果，具体如“没有房产证办理***，还可用什么资料替代”。由此，在用户未结束语音输入时，可预先识别已采集的语音信号，并在预先识别的基础上预测用户所需表达的完整内容，一方面避免语音采集时间过长，提高语音采集效率，一方面也可帮助用户整理思路，帮用户多想一步甚至几步，提高用户体验。

另外，在另一些实施方式中，也可通过一个预先训练好的预测神经网络模型，以根据预先识别结果获得所述预先识别结果对应的预测识别结果。由于该预测神经网络模型可学习用户习惯或通过网络上大量数据集进行训练，因而可提高基于预先识别结果进行预测的细粒度和准确性，进一步提高语音采集和识别效率，提高***可用性。具体地，将预先识别结果输入预测神经网络模型，得到预先识别结果对应的预测识别结果。其中，预测神经网络模型被预先训练，用于根据预先识别结果获得预先识别结果对应的预测识别结果。

在一些实施方式中，预测神经网络模型可以基于循环神经网络(RecurrentNeural Networks，RNN)构建得到，进一步地，还可以基于长短时记忆(Long Short TermMemory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)构建得到。循环神经网络可很好地处理时间序列的数据，因而基于循环神经网络构建的预测神经网络模型，可基于过去的信息预测未来的信息。

进一步地，预测神经网络模型可通过下述方式训练得到：获取待训练样本集，待训练样本集包括多个样本整句，以及将每个样本整句进行拆分后得到的至少一个样本分句，将样本整句与样本分句对应存储得到待训练样本集。具体地，以一个样本整句为例进行说明，例如，一个样本整句“我想办张***，请问办理***是不是要房产证？我没有房产证，怎么办***？是不是还可以用其他什么资料作替代呀”，可拆分得到多个样本分句如“没有房产证，怎么办***”、“办理***是不是要房产证”、“怎么办***？是不是还可以用其他什么资料替代呀”等，将每个样本分句与该样本整句对应存储。进一步地，还可基于关键词“办理***”、“房产证”，增加多个“房产证”以外办理***所需的资料，如“身份证”等，以丰富待训练样本集。

进一步地，将样本分句作为预测神经网络模型的输入，将样本分句对应的样本整句作为预测神经网络模型的期望输出，基于机器学习算法训练预测神经网络模型，得到预先训练号的预测神经网络模型，用于基于预先识别结果得到预测识别结果。其中，机器学习算法可采用自适应时刻估计方法(Adaptive Moment Estimation，ADAM)，还可以采用其他方法，在此不作限定。

步骤S2084：对预测识别结果进行显示，以使用户确认预测识别结果是否正确。

得到预测识别结果后，可在屏幕上显示该预测识别结果，以使用户确认预测识别结果是否正确。由于用户此时可能仍在输入语音信号，因而通过显示来进行确认，可在不打断用户继续输入语音信号的同时，使用户确认是否识别正确，一方面保证语音采集的流畅性，以便提高语音采集效率，另一方面也提高了用户交互体验。

步骤S2085：根据获取到的用户针对预测识别结果的确认指令，判断预先识别结果是否正确。

本实施例中，步骤S2085与步骤S2082大致相同，不同之处在于步骤S2085中是对预测识别结果进行显示后，获取用户针对预测识别结果的确认指令，而步骤S2082是对预先识别结果进行显示后，获取用户针对预先识别结果的确认指令，故步骤S2085的具体描述可参考步骤S2082，在此不再赘述。

其中，在一些实施方式中，若预测识别结果正确，可判断预先识别结果正确，若预测识别结果错误，也可判断预先识别结果错误。

于本实施例中，判断预先识别结果是否正确后，还可以包括：

若判断正确，可执行步骤S209；

若判断错误，可继续本次语音采集，并返回执行步骤S202，即执行检测唇部状态是否满足预设条件及后续操作。

步骤S209：结束本次语音采集，将正确的识别结果作为本次识别结果。

若判断正确，可结束本次语音采集，将正确的识别结果作为本次识别结果。具体地，作为一种实施方式，若确认指令是对预先识别结果进行显示后获取的，将预先识别结果作为正确的识别结果，即将预先识别结果作为本次识别结果。

作为另一种实施方式，若确认指令是对预先识别结果进行显示后获取的，将预测识别结果作为正确的识别结果，即将预测识别结果作为本次识别结果。

需要说明的是，本实施例中未详细描述的部分，可参考前述实施例，在此不再赘述。

本实施例提供的语音识别方法，通过识别唇部状态判断是否结束采集，可实现准确结束采集，避免因提前结束采集，打断用户说话，降低甚至消除用户输入过程的局促感，为用户带来更轻松自然的交互体验。并且，还通过判断本次语音采集时间是否超过预设采集时间，以在采集时间过长时预先识别用户语音，并向用户确认是否正确，从而不仅可避免采集时间过长，减少交互时间，而且通过确认还可提高交互效率，实现更准确的交互，减少交互来回次数，带来更智能的交互。

应该理解的是，虽然图2至图8的流程示意图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图9，图9示出了本申请一个实施例提供的一种语音识别装置的模块框图。下面将针对图9所示的模块框图进行阐述，所述语音识别装置1000包括：指令获取模块1010、唇部检测模块1020、唇部判断模块1030、时间判断模块1040以及语音识别模块1050，其中：

指令获取模块1010，用于获取用户输入的触发指令，启动语音采集；

唇部检测模块1020，用于在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件；

唇部判断模块1030，用于若所述用户的唇部状态满足预设条件，获取本次所述用户的唇部状态满足所述预设条件的持续时间；

时间判断模块1040，用于判断所述持续时间是否超过预设检测时间；

语音识别模块1050，用于若所述持续时间超过预设检测时间，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

进一步地，所述语音识别装置1000还包括：采集判断模块、预先识别模块、识别判断模块以及结果获取模块，其中：

采集判断模块，用于若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；

预先识别模块，用于若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；

识别判断模块，用于判断所述预先识别结果是否正确；

结果获取模块，用于根据判断结果，获得本次识别结果。

进一步地，所述识别判断模块包括：预先显示单元、预先确认单元、预测识别单元、预测显示单元以及预测确认单元，其中：

预先显示单元，用于对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；

预先确认单元，用于根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；

预测识别单元，用于基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；

预测显示单元，用于对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；

预测确认单元，用于根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

进一步地，所述预测识别单元包括：指令匹配子单元、目标获取子单元、位置确定子单元、信息获取子单元、预测识别子单元以及预测网络子单元，其中：

指令匹配子单元，用于基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；

目标获取子单元，用于若存在，则基于所述指令获取所述预先识别结果的目标关键词；

位置确定子单元，用于确定所述目标关键词在所述预先识别结果中的目标位置；

信息获取子单元，用于基于所述目标位置，获取所述目标关键词的上下文信息；

预测识别子单元，用于对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

预测网络子单元，用于将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

进一步地，所述结果获取模块包括：判断正确单元以及判断错误单元，其中：

判断正确单元，用于若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；

判断错误单元，用于若判断错误，则继续本次语音采集，并返回执行检测所述用户的唇部状态是否满足预设条件以及后续操作。

进一步地，所述唇部检测模块1020包括：闭合检测单元、第一闭合单元、第二闭合单元、唇部检测单元、第一唇部单元以及第二唇部单元，其中：

闭合检测单元，用于在所述语音采集过程中，检测所述用户的唇部状态是否处于闭合状态。

第一闭合单元，用于若所述用户的唇部状态处于闭合状态，则判定所述用户的唇部状态满足预设条件；

第二闭合单元，用于若所述用户的唇部状态不处于闭合状态，则判定所述用户的唇部状态不满足预设条件。

唇部检测单元，用于在所述语音采集过程中，检测所述用户的唇部状态；

第一唇部单元，用于若无法检测到所述用户的唇部状态，则判定所述用户的唇部状态满足预设条件；

第二唇部单元，用于若检测到所述用户的唇部状态，则判定所述用户的唇部状态不满足预设条件。

本申请实施例提供的语音识别装置用于实现前述方法实施例中相应的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的语音识别装置能够实现图2至图8的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图10，其示出了本申请实施例提供的一种电子设备的结构框图。本申请中的电子设备1100可以包括一个或多个如下部件：处理器1110、存储器1120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1120中并被配置为由一个或多个处理器1110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。本实施例中，电子设备可以是智能音箱、手机、平板、电脑、可穿戴式设备等能够运行应用程序的电子设备，还可以是服务器，具体实施方式可参见上述方法实施例所描述的方法。

处理器1110可以包括一个或者多个处理核。处理器1110利用各种接口和线路连接整个电子设备1100内的各个部分，通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集，以及调用存储在存储器1120内的数据，执行电子设备1100的各种功能和处理数据。可选地，处理器1110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1110中，单独通过一块通信芯片进行实现。

存储器1120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备1100还可以包括显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图11中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图11，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1200中存储有程序代码1210，所述程序代码1210可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1200包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1200具有执行上述方法中的任何方法步骤的程序代码1210的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1210可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请各实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取用户输入的触发指令，启动语音采集；

在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件；

若所述用户的唇部状态满足所述预设条件，则获取本次所述用户的唇部状态满足所述预设条件的持续时间；

判断所述持续时间是否超过预设检测时间；

若所述持续时间未超过所述预设检测时间，则判断本次语音采集时间是否超过预设采集时间；

若所述本次语音采集时间超过所述预设采集时间，则对当前已采集的语音信号进行预先识别，以得到预先识别结果；

判断所述预先识别结果是否正确；

若判断正确，则结束所述本次语音采集，将正确的识别结果作为本次识别结果；

若判断错误，则继续所述本次语音采集，并返回执行检测所述用户的唇部状态是否满足所述预设条件以及后续操作；

若所述持续时间超过所述预设检测时间，则结束所述本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

2.根据权利要求1所述的方法，其特征在于，所述判断所述预先识别结果是否正确，包括:

对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；

根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；或者

基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；

对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；

根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

3.根据权利要求2所述的方法，其特征在于，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:

基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；

若存在，则基于所述指令获取所述预先识别结果的目标关键词；

确定所述目标关键词在所述预先识别结果中的目标位置；

基于所述目标位置，获取所述目标关键词的上下文信息；

对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

4.根据权利要求2所述的方法，其特征在于，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:

将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

5.根据权利要求1所述的方法，其特征在于，所述在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件，包括:

在所述语音采集过程中，检测所述用户的唇部状态是否处于闭合状态；

若所述用户的唇部状态处于闭合状态，则判定所述用户的唇部状态满足预设条件；

若所述用户的唇部状态不处于闭合状态，则判定所述用户的唇部状态不满足预设条件。

6.根据权利要求1所述的方法，其特征在于，所述在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件，包括:

在所述语音采集过程中，检测所述用户的唇部状态；

若无法检测到所述用户的唇部状态，则判定所述用户的唇部状态满足预设条件；

若检测到所述用户的唇部状态，则判定所述用户的唇部状态不满足预设条件。

7.一种语音识别装置，其特征在于，所述装置包括：

指令获取模块，用于获取用户输入的触发指令，启动语音采集；

唇部检测模块，用于在所述语音采集过程中，检测所述用户的唇部状态是否满足预设条件；

唇部判断模块，用于若所述用户的唇部状态满足所述预设条件，则获取本次所述用户的唇部状态满足所述预设条件的持续时间；

时间判断模块，用于判断所述持续时间是否超过预设检测时间；

采集判断模块，用于若所述持续时间未超过所述预设检测时间，则判断本次语音采集时间是否超过预设采集时间；

预先识别模块，用于若所述本次语音采集时间超过所述预设采集时间，则对当前已采集的语音信号进行预先识别，以得到预先识别结果；

识别判断模块，用于判断所述预先识别结果是否正确；

结果获取模块，用于根据判断结果，获得本次识别结果；其中，所述结果获取模块包括：判断正确单元以及判断错误单元；所述判断正确单元，用于若判断正确，则结束所述本次语音采集，将正确的识别结果作为所述本次识别结果；所述判断错误单元，用于若判断错误，则继续所述本次语音采集，并返回执行检测所述用户的唇部状态是否满足预设条件以及后续操作；

语音识别模块，用于若所述持续时间超过所述预设检测时间，则结束所述本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

8.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码被处理器执行时实现如权利要求1至6中任一项所述的方法。