CN111583933B

CN111583933B - 一种语音信息的处理方法、装置、设备及介质

Info

Publication number: CN111583933B
Application number: CN202010366954.XA
Authority: CN
Inventors: ***; 钟贵平; 李家魁
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-10-27
Anticipated expiration: 2040-04-30
Also published as: CN111583933A

Abstract

本发明公开了一种语音信息的处理方法、装置、设备及介质，用以解决现有智能语音交互过程时间长，导致效率低的问题。因为在本发明实施例中当最终语音数据的语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果相同时，将该语音结束点之前的语音截断点对应的临时语义识别结果直接作为最终语音数据的语义识别结果，从而节省了再对语音识别结果进行处理获取语义识别结果的时间，可直接将已获取的临时语义识别结果确定为最终语音数据的语义识别结果，完成本次交互，即可实现智能语音的交互，节省了基于最终语音数据的语音识别结果进行语义识别的处理过程，因此，缩短了对用户语音的响应时间，提高了整个智能语音交互的效率。

Description

一种语音信息的处理方法、装置、设备及介质

技术领域

本发明涉及语音技术领域，尤其涉及一种语音信息的处理方法、装置、设备及介质。

背景技术

随着智能交互技术的迅猛发展，越来越多的智能家居和智能机器人进入人们的家庭，通过智能语音交互的方式，用户可以在不动手操作的前提下，通过语音来点播音乐，播放视频，设定闹钟，控制智能家居等，从而满足了用户的需求。

现有技术中，智能语音交互过程一般包括语音活动检测(Voice ActivityDetection,VAD)，自动语音识别(Automatic Speech Recognition，ASR)，自然语音理解(Natural language understanding，NLU)，技能，文字转换语音(Text to speech，TTS)等环节。

其中，VAD又称语音端点检测、语音边界检测，目的是从语音信息中识别和消除长时间的静音期，以达到在不降低后续识别质量的情况下，节省占用的资源的作用。ASR是语音识别，将语音信号转换为文字的过程。NLU是理解文字信息，确定用户的交互意图，以及槽位信息。技能是根据识别的语音信息与任一设定指令的匹配结果，执行相应的操作。TTS是将文字转换为语音，给用户以语音回复。

图1为现有语音交互过程示意图，VAD环节在采集声音数据时，采集到设定切分阈值500ms的静音语音段，则确定该声音数据采集完成，并开始对该声音数据进行处理。

通过VAD环节得到声音数据中的语音起始点和语音结束点，确定最终语音数据，ASR环节对该最终语音数据中的每个语音帧进行处理，获取该最终语音数据对应的最终语音识别结果后，NLU环节对该语音识别结果进行处理，通过NLU模型识别，获取该最终语音数据的槽位信息及目标意图，即最终语音数据的语义识别结果，并输出最终语音数据的语义识别结果。基于该语义识别结果，进行后续相应的处理，从而实现智能语音的交互。

由于，该整个智能语音交互过程中，各个环节都是串行处理的，也就是说，如果要执行下一个环节，必须等到上一个环节执行完成并输出该环节的最终处理结果才行，比如，NLU环节必须等到ASR环节输出语音识别结果后，才能进行语义识别，从而导致整个智能语音交互过程交互时间过长，降低了用户体验。

发明内容

本发明实施例提供了一种语音信息的处理方法、装置、设备及介质，用以解决现有智能语音交互过程时间长，导致效率低的问题。

本发明实施例提供了一种语音信息的处理方法，所述方法包括：

基于语音活动检测VAD模型，在采集到的声音数据中检测到语音起始点后，检测到语音截断点，确定所述语音起始点与所述语音截断点之间的临时语音数据的临时语音识别结果，并确定所述临时语音识别结果对应的临时语义识别结果；

检测到语音截断点之后，在采集到的声音数据中检测到语音结束点，确定所述语音起始点与所述语音结束点之间的最终语音数据的语音识别结果；

若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果。

在一种可能的实施方式中，确定所述临时语音识别结果之后，所述方法还包括：

若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语音识别结果，对缓存的临时语音识别结果进行更新；

其中，缓存的临时语音识别结果为上一次检测到的语音截断点对应的临时语音数据的语音识别结果。

在一种可能的实施方式中，若所述临时语音识别结果与缓存的临时语音识别结果不一致，所述方法还包括：

根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；

其中，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

在一种可能的实施方式中，所述方法还包括：

根据所述临时语音识别结果或所述语音识别结果，控制智能设备更新所述智能设备显示的文本信息。

在一种可能的实施方式中，所述检测到语音截断点，包括：

若识别到连续静音帧的数量在预设数量范围内，则将所述连续静音帧中的设定时间点确定为所述语音截断点；或，

若识别到连续静音帧的时长在预设时长范围内，则将所述连续静音帧中的设定时间点确定为所述语音截断点。

在一种可能的实施方式中，所述方法还包括：

若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果不相同，确定所述语音识别结果对应的语义识别结果，将所述语义识别结果确定为所述最终语音数据的语义识别结果。

本发明实施例还提供了一种语音信息的处理装置，所述装置包括：

第一确定单元，用于基于语音活动检测VAD模型，在采集到的声音数据中检测到语音起始点后，检测到语音截断点，确定所述语音起始点与所述语音截断点之间的临时语音数据的临时语音识别结果，并确定所述临时语音识别结果对应的临时语义识别结果；

第二确定单元，用于检测到语音截断点之后，在采集到的声音数据中检测到语音结束点，确定所述语音起始点与所述语音结束点之间的最终语音数据的语音识别结果；

处理单元，用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果。

在一种可能的实施方式中，所述第一确定单元，具体用于：

确定所述临时语音识别结果之后，若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语音识别结果，对缓存的临时语音识别结果进行更新；其中，缓存的临时语音识别结果为上一次检测到的语音截断点对应的临时语音数据的语音识别结果。

在一种可能的实施方式中，所述第一确定单元，还用于若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；其中，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

在一种可能的实施方式中，所述装置还包括：

显示单元，用于根据所述临时语音识别结果或所述语音识别结果，控制智能设备更新所述智能设备显示的文本信息。

在一种可能的实施方式中，所述第一确定单元，具体用于：

若识别到连续静音帧的数量在预设数量范围内，则将所述连续静音帧中的设定时间点确定为所述语音截断点；或，若识别到连续静音帧的时长在预设时长范围内，则将所述连续静音帧中的设定时间点确定为所述语音截断点。

在一种可能的实施方式中，所述处理单元，还用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果不相同，确定所述语音识别结果对应的语义识别结果，将所述语义识别结果确定为所述最终语音数据的语义识别结果。

本发明实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音信息的处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音信息的处理方法的步骤。

因为在本发明实施例中当最终语音数据的语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果相同时，将该语音结束点之前的语音截断点对应的临时语义识别结果直接作为最终语音数据的语义识别结果，从而节省了再对语音识别结果进行处理获取语义识别结果的时间，可直接将已获取的临时语义识别结果确定为最终语音数据的语义识别结果，完成本次交互，即可实现智能语音的交互，缩短了对用户语音的响应时间，提高了整个智能语音交互的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有语音交互过程示意图；

图2为本发明实施例提供的一种语音信息的处理过程示意图；

图3为本发明实施例提供的具体的语音信息的处理方法实施流程示意图；

图4为本发明实施例提供的具体的语音信息的处理方法实施流程示意图；

图5为本发明实施例提供的一种语音信息的处理装置的结构示意图；

图6为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了缩短智能语音交互过程的时间，并提高智能交互的效率，本发明实施例提供了一种语音信息的处理方法、装置、设备及介质。

实施例1：

图2为本发明实施例提供的一种语音信息的处理过程示意图，该过程包括：

S201：基于语音活动检测(VAD)模型，在采集到的声音数据中检测到语音起始点后，检测到语音截断点，确定所述语音起始点与所述语音截断点之间的临时语音数据的临时语音识别结果，并确定所述临时语音识别结果对应的临时语义识别结果。

本发明实施例提供的语音信息的处理方法应用于电子设备，该电子设备可以是智能设备，例如智能机器人、智能手机、平板电脑等，也可以是服务器。

本发明实施例中，智能设备通过声音采集模块(如麦克风等)对周围环境中的声音数据进行采集。若进行语音信息处理的电子设备是服务器，智能设备将采集到的声音数据发送给服务器，服务器基于本发明实施例提供的语音信息的处理方法，对智能设备采集到的声音数据进行相应的处理，实现智能语音交互。若进行语音信息处理的电子设备是智能设备，则智能设备直接基于本发明实施例提供的语音信息的处理方法，将采集到的声音数据进行相应的处理，实现智能语音交互。

为了方便对声音数据进行语音识别，电子设备需要按照预设的分帧规则，获取声音数据的每个语音帧。其中，预设的分帧规则为将多长时间采集到的语音数据划分为一个语音帧。例如，每采集到10ms的语音数据确定一个语音帧。

其中，每个语音帧的时长，与进行语音活动检测模型训练的语音信息样本被划分的语音帧的时长相同。

若电子设备持续不断地获取智能设备采集到的声音数据(即音频流数据)，并对采集到的声音数据进行分帧处理，得到语音帧，再将语音帧依次输入至预先训练完成的VAD模型，以确定每个语音帧是否为静音帧。根据VAD模型的输出结果，确定声音数据中的语音起始点。其中，具体的确定声音数据中的语音起始点的方法属于现有技术，在此不再赘述。

需要说明的是，具体的语音活动检测模型的训练方法属于现有技术，在此不作赘述。

通过预先训练完成的VAD模型，依次对在语音起始点之后采集到的每个语音帧进行检测，从而确定声音数据中的语音截断点。

当基于上述实施例检测到声音数据中的语音截断点后，获取该语音起始点和语音截断点之间的临时语音数据。通过预先训练完成的语音识别模型，获取该临时语音数据中包含的每个语音帧对应每种语音元素的概率向量，并通过解码网络，获取该临时语音数据的临时语音识别结果。

其中，具体的语音识别过程属于现有技术，在此不再具体赘述。

当获取到临时语音识别结果后，通过预先训练完成的NLU/NLP模型，获取该临时语音识别结果对应的临时语义识别结果。

其中，具体的语义识别过程属于现有技术，在此不再具体赘述。

S202：检测到语音截断点之后，在采集到的声音数据中检测到语音结束点，确定所述语音起始点与所述语音结束点之间的最终语音数据的语音识别结果。

VAD检测是个持续的检测过程，当检测到语音截断点之后，确定该语音起始点和语音截断点之间的临时语音数据对应的临时语音识别结果，并确定临时语音识别结果对应的临时语义识别结果的过程中，电子设备仍通过预先训练完成的VAD模型，继续对在语音截断点之后采集到的每个语音帧进行检测，从而确定声音数据中的语音结束点。根据语音起始点和语音结束点之间的每个语音帧，确定最终语音数据。通过预先训练完成的语音识别模型，获取该最终语音数据中包含的每个语音帧对应每种语音元素的概率向量，并通过解码网络，获取该最终语音数据的语音识别结果。

此外，在检测到语音结束点之后，确定语音起始点与语音结束点之间的最终语音数据的语音识别结果的过程中，电子设备也仍会通过预先训练完成的VAD模型，继续对在语音结束点之后采集到的每个语音帧进行检测，从而确定下一个语音数据的语音起始点。

S203：若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果。

基于上述实施例的方法，获取到最终语音数据的语音识别结果之后，判断该语音识别结果与该语音结束点之前的语音截断点对应的临时语音识别结果是否相同，若该语音识别结果与该语音结束点之前的语音截断点对应的临时语音识别结果相同，说明无需再通过NLU模型，直接将该语音结束点之前的语音截断点对应的临时语义识别结果，确定为最终语音数据的语义识别结果。

作为另一种可能的实施方式，若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果不相同，确定所述语音识别结果对应的语义识别结果，将所述语义识别结果确定为所述最终语音数据的语义识别结果。

具体实施中，若该语音识别结果与该语音结束点之前的语音截断点对应的临时语音识别结果不相同，说明最终语音数据的语义，对比语音结束点之前的临时语音数据的语义发生了变化，则需要通过NLU/NLP模型，确定该语音识别结果对应的语义识别结果，将该语义识别结果确定为该最终语音数据的语义识别结果。

因为在本发明实施例中当最终语音数据的语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果相同时，将该语音结束点之前的语音截断点对应的临时语义识别结果直接作为最终语音数据的语义识别结果，从而节省了再对语音识别结果进行处理获取语义识别结果的时间，可直接将已获取的临时语义识别结果确定为最终语音数据的语义识别结果，完成本次交互，即可实现智能语音的交互，节省了基于最终语音数据的语音识别结果进行语义识别的处理过程，因此，缩短了对用户语音的响应时间，提高了整个智能语音交互的效率。

实施例2：

为了方便进行语音识别结果及语义识别结果的比较，在上述实施例的基础上，在本发明实施例中，确定所述临时语音识别结果之后，所述方法还包括：

为了方便后续将最终语音数据的语音识别结果，与语音结束点之前的语音截断点对应的临时语音识别结果进行比较，在本发明实施例中，预先设置有用于存储临时语音识别结果的第一缓存空间。当获取到临时语音识别结果的时候，将该临时语音识别结果缓存到该第一缓存空间中。但由于基于VAD模型，对采集到的声音数据的语音起始点之后的语音帧进行检测的过程中，可能检测到至少两个语音截断点，如果针对每个语音截断点对应的临时语音识别结果均进行缓存的话，会出现一些相同的临时语音识别结果均被缓存，从而造成存储资源浪费。

因此，为了节约存储资源，在发明实施例中，在每获取到临时语音识别结果的时候，将获取到的临时语音识别结果与缓存的临时语音识别结果进行比较，即将获取的临时语音识别结果，与上一次检测到的语音截断点对应的临时语音数据的语音识别结果进行比较。判断该临时语音识别结果是否与缓存的临时语音识别结果不一致，从而确定是否对缓存的临时语音识别结果进行更新。

具体的，若获取的临时语音识别结果与缓存的临时语音识别结果不一致，说明临时语音识别结果发生了变化，则根据当前获取到的临时语音识别结果，对缓存中的临时语音识别结果进行更新。

例如，当前获取到的临时语音识别结果为“打开空调”，缓存的临时语音识别结果为“打开”，因为当前获取到的临时语音识别结果“打开空调”与缓存的临时语音识别结果“打开”不一致，则根据当前获取到的临时语音识别结果为“打开空调”，对缓存中的临时语音识别结果“打开”进行更新，更新为“打开空调”。

若获取的临时语音识别结果与缓存的临时语音识别结果一致，说明当前的临时语音数据的临时语音识别结果未发生变化，则无需对缓存的临时语音识别结果进行更新。

在本发明实施例中，也预先设置有用于存储临时语义识别结果的第二缓存空间。当获取到临时语义识别结果的时候，将该临时语义识别结果缓存到该第二缓存空间中。

在一种可能的实施方式中，若确定获取的临时语音识别结果与缓存的临时语音识别结果不一致时，则说明当前的临时语音识别结果对应的临时语音数据的语义，对比上一次检测到的语音截断点对应的临时语音数据的语义发生了变化，即当前获取的临时语音识别结果对应的临时语义识别结果，与上一次检测到的语音截断点对应的临时语音数据的语义识别结果不同，则获取当前的临时语音识别结果对应的临时语义识别结果，并为了保证后续识别的语义识别结果的准确性，根据该临时语义识别结果对缓存的临时语义识别结果进行更新。

具体的，若所述临时语音识别结果与缓存的临时语音识别结果不一致，所述方法还包括：

具体实施过程中，若确定临时语音识别结果与缓存的临时语音识别结果不一致，说明当前的临时语音识别结果对应的临时语义识别结果，与上一次检测到的语音截断点对应的临时语音数据的语义识别结果不同，则根据获取的临时语音识别结果对应的临时语义识别结果，对缓存的临时语义识别结果进行更新。

例如，当前获取到的临时语音识别结果为“打开空调”，缓存的临时语音识别结果为“打开”，因为当前获取到的临时语音识别结果“打开空调”与缓存的临时语音识别结果“打开”不相同，则根据当前获取到的临时语音识别结果为“打开空调”，对缓存中的临时语音识别结果“打开”更新为“打开空调”，并且因为当前获取的临时语音识别结果“打开空调”与缓存的临时语音识别结果“打开”不相同，临时语义识别结果也不同，因此获取当前获取到的临时语音识别结果“打开空调”的临时语义识别结果包含的意图“开启”，以及槽位信息为“空调”，将缓存的临时语义识别结果中包含的意图“开启”和槽位信息“空”，分别更新为“开启”以及“空调”。

实施例3：

图3为本发明实施例提供的具体的语音信息的处理方法实施流程示意图，该流程包括：

S301：获取声音数据，并对获取到的声音数据进行分帧处理，得到语音帧，基于语音活动检测VAD模型，对语音帧进行检测，并根据检测结果，判断该语音帧是否为语音起始点，若是，则执行S302，否则，返回执行S301。

S302：获取声音数据中语音起始点之后的语音帧。

S303：基于语音活动检测VAD模型，对语音帧进行检测，并根据检测结果，判断该语音帧是否为语音截断点，若是，则执行S304，否则，执行S307。

S304：确定语音起始点与该语音截断点之间的临时语音数据的临时语音识别结果，并确定临时语音识别结果对应的临时语义识别结果，并判断临时语音识别结果与缓存的临时语音识别结果是否不一致，若是，执行，S305，否则，执行S312。

S305：根据临时语音识别结果，对缓存的临时语音识别结果进行更新。

S306：根据临时语义识别结果，对缓存的临时语义识别结果进行更新，然后执行S312。

S307：根据检测结果，判断该语音帧是否为语音结束点，若是，执行S308，否则，执行S312。

S308：确定语音起始点与语音结束点之间的最终语音数据的语音识别结果。

S309：判断语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果是否相同，若是，则执行S311，否则，执行S310。

S310：确定语音识别结果对应的语义识别结果，将语义识别结果确定为最终语音数据的语义识别结果。

S311：将语音结束点之前的语音截断点对应的临时语义识别结果确定为最终语音数据的语义识别结果。

S312:获取下一语音帧，然后返回执行S303。

实施例4：

为了缩短智能交互的时间，并提高智能交互的效率，在上述各实施例的基础上，在本发明实施例中，所述检测到语音截断点，包括：

一般情况下，在检测到声音数据中的语音结束点时，才对语音起始点和语音结束点确定的最终语音数据中包含的每个语音帧进行语音识别。一般采集到设定切分时长(比如，500ms)的静音帧，或，设定切分数量(比如，50帧)的静音帧，确定采集到语音结束点。由于该设定切分时长或设定切分数量都是预先设置的，且为了保证能够获取到完整的语义，一般会将该设定切分时长或设定切分数量设置得比较大。但是在实际应用过程中，可能在采集到语音起始点之后，语音结束点之前采集到的临时语音数据的临时语音识别结果，和该采集到语音结束点之后确定的最终语音数据的语音识别结果相同，所以没必要确定最终语音数据之后，再根据该最终语音数据的语音识别结果获取对应的语义识别结果。因此，为了提高智能交互的效率，缩短智能设备的响应时间，在本发明实施例中，可以设置语音截断点，当在检测到声音数据的语音起始点之后，检测到语音截断点时，便执行上述实施例中后续的步骤。

具体实施中，检测到语音截断点的方法包括：

方式一：若识别到连续静音帧的数量在预设数量范围内，则将连续静音帧中的设定时间点确定为语音截断点。

基于VAD模型，确定采集到的语音帧是否为静音帧，当识别到连续预设数量范围内的静音帧，则可以将连续静音帧中的设定时间点，比如，连续静音帧的起始时间点，或连续静音帧中的结束时间点，或连续静音帧中第n个静音帧对应的时间点等，确定为语音截断点。

连续静音帧是指在该连续静音帧之前的语音帧为非静音帧，该连续静音帧之后的语音帧为非静音帧。

其中，预设数量范围可以为[A，B]，B和A均为正整数，并且B不小于A。该预设数量范围中的最大值小于设定切分数量(一般是50帧)。

在另一种可能的实施方式中，该预设数量范围中的最大值和最小值可能相等，即A＝B。例如，当识别到连续静音帧的数量为A个时，则将该连续静音帧中的结束时间点确定为语音截断点。

需要说明的是，在设置预设数量范围中的最大值和最小值的时候，该最大值和最小值设置的均不宜过大也不宜过小，过小检测到的临时语音数据是完整语音的概率较低，导致浪费大量资源去获取临时语音识别结果以及临时语义识别结果，过大则不易检测到语音截断点，从而无法有效地提高智能语音交互的效率。具体设置该最大值和最小值的时候，应根据实际需求进行灵活设置，在此不做具体限定，例如，可以通过测试或仿真的方式，使基于设定的数量范围内的数值，检测到的临时语音数据是完整语音的概率达到设定阈值(例如0.9等)。

方式二：当识别到连续静音帧的时长在预设时长范围内，则将连续静音帧中的设定时间点确定为语音截断点。

基于VAD模型，确定采集到的语音帧是否为静音帧，当识别到连续静音帧的时长在预设时长范围内，则可以将连续静音帧中的设定时间点，比如，连续静音帧的起始时间点，或连续静音帧中的结束时间点，或从连续静音帧的起始时间点开始的第N毫秒等，确定为语音截断点。

其中，预设时长范围可以为[C，D]，C和D均为正数，并且D不小于C，其单位一般为毫秒。该预设时长范围中的最大值小于设定切分时长(一般是500ms)。

在另一种可能的实施方式中，该预设时长范围中的最大值和最小值可能相等，即C＝D。具体实施过程中，当识别到连续静音帧的时长为C毫秒时，则将连续静音帧中的结束时间点确定为语音截断点。

需要说明的是，在设置预设时长范围中的最大值和最小值的时候，该最大值和最小值设置的均不宜过大也不宜过小，过小检测到的临时语音数据是完整语音的概率较低，导致浪费大量资源去获取临时语音识别结果以及临时语义识别结果，过大则不易检测到语音截断点，从而无法有效地提高智能语音交互的效率。具体设置该最大值和最小值的时候，应根据实际需求进行灵活设置，在此不做具体限定。

实施例5：

为了提高智能语音的交互性，提高用户体验，在上述各实施例的基础上，在本发明实施例中，所述方法还包括：

为了提高智能语音的交互性，提高用户体验，在本发明实施例中，若智能设备上安装有显示屏，则每当获取到临时语音识别结果或语音识别结果时，可以控制智能设备更新当前显示屏上显示的文本信息。其中，更新的内容为临时语音识别结果或语音识别结果对应的文本信息。

若进行语音信息处理的电子设备为服务器，服务器根据临时语音识别结果或语音识别结果，获取对应的文本信息，将该文本信息发送给智能设备，也可以直接将临时语音识别结果或语音识别结果发送给智能设备，从而实现临时语音识别结果或语音识别结果，控制智能设备更新当前显示的文本信息。

若进行语音信息处理的电子设备为智能设备，则智能设备直接获取临时语音识别结果或语音识别结果对应的文本信息，根据获取到的文本信息，更新当前显示的文本信息。

在一种可能的实施方式中，电子设备在根据临时语音识别结果或语音识别结果，控制智能设备更新显示的文本信息时，电子设备可以每获取到临时语音识别结果或语音识别结果时，均控制智能设备更新智能设备显示的文本信息。智能设备在根据临时语音识别结果对应的文本信息，或，语音识别结果对应的文本信息，对显示的文本信息进行更新时，直接根据该对应的文本信息对显示的文本信息进行覆盖，以实现无痕更新智能设备上显示的文本信息。

在另一种可能的实施方式中，电子设备确定获取到临时语音识别结果与缓存的临时语音识别结果不一致，或，语音识别结果与缓存的临时语音识别结果不一致时，才控制智能设备更新智能设备显示的文本信息。智能设备在根据临时语音识别结果对应的文本信息，或，语音识别结果对应的文本信息，对显示的文本信息进行替换，以实现对智能设备上显示的文本信息进行更新。

为了能够根据语义识别结果，及时给予用户反馈响应，预先针对每种意图设置有对应的操作。当基于上述实施例获取的语义识别结果后，根据每种意图与操作的对应关系，确定该语义识别结果包含的意图对应的目标操作。

比如，意图为“打开”，则该意图对应的目标操作是发送开启的控制信号，意图为“查询”，则该意图对应的目标操作是通过预先保存的链接请求并输出相关信息等。

而根据语义识别结果中包含的槽位信息，可以确定上述意图对应的目标操作的具体信息。比如，上述目标操作的操作对象，执行时间，设置内容等。

根据上述确定的目标操作以及该目标操作的具体信息，即可确定最终语音数据对应的操作，并执行该操作。

例如，语音识别结果为“北京明天的天气怎么样”，该语音识别结果的语义识别结果中包含的意图为“查询天气”，包含的槽位信息为“北京、明天”，则确定该意图对应的目标操作是查找并输出天气的相关信息，根据语义识别结果中包含的意图以及槽位信息，确定通过预设的天气查询链接，获取北京明天的天气信息。

当电子设备根据上述的确定的最终语音数据对应的操作，获取关于该操作对应的信息，并将该信息输出。比如，根据确定的最终语音数据对应的操作为在预设的天气查询链接，查询北京明天的天气，获取的该操作对应的信息为“北京明天的天气小雨，最高气温18摄氏度，最低气温9摄氏度”，并控制智能设备显示或播报该天气信息；根据确定的最终语音数据对应的操作为在预设的音乐查询链接，查找并下载歌曲《两只老虎》的音乐文件，获取的该操作对应的信息为《两只老虎》这首歌曲的音乐文件，并控制智能设备播放该歌曲。

为了提高用户体验，将获取到的信息进行输出的时候，若该信息为文本信息，则可以直接将该文本信息显示在电子设备的显示界面上，也可以将该文本信息转化为语音信息进行播报。若该信息为文件，则根据预设的文件类型与输出方式的对应关系，确定该文件对应的目标输出方式，按照该目标输出方式进行输出，比如，文件为音频文件，则该文件对应的目标输出方式为音频播放，则直接通过扬声器播放该音频文件；文件为视频文件，则该文件对应的目标输出方式为视频播放，则直接通过显示界面播放该视频文件。

实施例6：

下面通过具体的语音交互过程，对发明实施例提供的语音信息的处理方法进行详细说明：

第一部分：检测语音起始点。

首先，电子设备持续不断地获取声音数据(即音频流数据)，并对获取到的声音数据进行分帧处理，得到语音帧，获取该语音帧对应的语音特征。为了考虑当前语音帧与其他语音帧之间的相关性，将每获取到设定数量的语音帧对应的语音特征拼接成语音特征段，针对每个拼接的语音特征段，通过预先训练完成的语音活动检测模型，获取该语音特征段对应的每个语音帧为静音帧的概率。根据预设的概率阈值，以及该语音特征段对应的每个语音帧为静音帧的概率，将概率大于该概率阈值的语音帧均作为静音帧。

其次，依次检测获取到的声音数据的每个语音帧是否为静音帧，确定语音起始点。

第二部分：检测语音截断点和/或语音结束点。

若检测到语音起始点之后，直接检测到语音结束点，则确定语音起始点与该语音结束点之间的最终语音数据。通过预先训练完成的语音识别模型，获取该最终语音数据中包含的每个语音帧对应每种语音元素的概率向量，通过解码网络，获取该最终语音数据的最终语音识别结果，并通过预先训练完成的NLU/NLP模型，获取该临时语音识别结果对应的临时语义识别结果，然后执行第三部分的步骤。

若检测到语音起始点之后的语音截断点，则确定语音起始点与该语音截断点之间的临时语音数据。通过预先训练完成的语音识别模型，获取该临时语音数据中包含的每个语音帧对应每种语音元素的概率向量，通过解码网络，获取该临时语音数据的临时语音识别结果。

其中，检测语音起始点之后的语音截断点的方法包括：若在语音起始点之后，识别到连续静音帧的数量在预设数量范围内，则将连续静音帧中的设定时间点确定为语音截断点，或，若在语音起始点之后，识别到连续静音帧的时长在预设时长范围内，则将连续静音帧中的设定时间点确定为语音截断点。

在检测到语音起始点之后，检测到语音结束点之前，可能只检测到一个语音截断点，也可能检测到至少两个语音截断点。

当只检测到一个语音截断点时，当前用于缓存临时语音识别结果的第一缓存空间为空，直接将该临时语音识别结果保存在该第一缓存空间中，并通过预先训练完成的NLU/NLP模型，获取该临时语音识别结果对应的临时语义识别结果，将该临时语义识别结果保存在用于缓存临时语义识别结果的第二缓存空间中。

若检测到至少两个语音截断点时，针对第一次检测到的语音截断点，直接将语音起始点到该语音截断点之间的临时语音数据的临时语音识别结果，缓存到第一缓存空间中，并获取该临时语音数据的临时语义识别结果，将该临时语义识别结果缓存到第二缓存空间中；针对除第一次检测到的语音截断点之外的每个其他语音截断点，确定语音起始点与该其他语音截断点之间的临时语音数据的临时语音识别结果，将当前获取的临时语音识别结果与缓存的上一次语音截断点的临时语音识别结果进行比较，若当前获取的临时语音识别结果与缓存的临时语音识别结果不一致，根据临时语音识别结果，对缓存的临时语音识别结果进行更新，并获取该临时语音识别结果对应的临时语义识别结果，根据该临时语义识别结果，对缓存的临时语义识别结果进行更新；若当前获取的临时语音识别结果与缓存的临时语音识别结果一致，则继续检测下一语音帧。

若检测到语音截断点之后，在采集到的声音数据中检测到语音结束点，确定语音起始点与语音结束点之间的最终语音数据的语音识别结果。判断该语音识别结果是否与缓存的临时语音识别结果相同，若相同，则直接将缓存的语义识别结果作为最终语音数据的语义识别结果；若不相同，则获取语音识别结果对应的语义识别结果，将该语义识别结果作为最终语音数据的语义识别结果。

需要说明的是，电子设备在进行语音识别的过程中，还根据临时语音识别结果或语音识别结果，控制智能设备更新智能设备显示的文本信息。

第三部分：执行操作。

根据上述语义识别结果确定的最终语音数据对应的操作，获取该操作对应的信息并输出。

下面通过具体的实施例进行详细说明本发明实施例提供的一种语音信息的处理方法。

图4为本发明实施例提供的具体的语音信息的处理方法实施流程示意图，该流程包括：

S401：获取声音数据，并对获取到的声音数据进行分帧处理，得到语音帧，当基于语音活动检测VAD模型，对语音帧进行检测，并根据检测结果，判断该语音帧是否为语音截断点，若是，则执行S402，否则，执行S401。

S402：获取声音数据中语音起始点之后的语音帧。

S403：基于语音活动检测VAD模型，对语音帧进行检测，并根据检测结果，判断该语音帧是否为语音截断点，若是，则执行S404，否则，执行S407。

S404：确定语音起始点与该语音截断点之间的临时语音数据的临时语音识别结果，并确定临时语音识别结果对应的临时语义识别结果，并判断临时语音识别结果与缓存的临时语音识别结果是否不一致，若是，执行，S405，否则，执行S406。

S405：根据临时语音识别结果，对缓存的临时语音识别结果进行更新，并根据该临时语音识别结果，控制智能设备更新当前智能设备显示的文本信息。

S406：根据临时语义识别结果，对缓存的临时语义识别结果进行更新，然后执行S412。

S407：根据检测结果，判断该语音帧是否为语音结束点，若是，执行S408，否则，执行S412。

S408：确定语音起始点与语音结束点之间的最终语音数据的语音识别结果。

S409：判断语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果是否相同，若是，则执行S411，否则，执行S410。

S410：确定语音识别结果对应的语义识别结果，将语义识别结果确定为最终语音数据的语义识别结果，并根据该语音识别结果，控制智能设备更新当前智能设备显示的文本信息。

S411：将语音结束点之前的语音截断点对应的临时语义识别结果确定为最终语音数据的语义识别结果。

进一步的，基于该最终语音数据的语义识别结果执行相应的操作。

S412:获取下一语音帧，然后执行S403。

实施例7：

图5为本发明实施例提供的一种语音信息的处理装置的结构示意图，本发明实施例提供了一种语音信息的处理装置，所述装置包括：

第一确定单元51，用于基于语音活动检测VAD模型，在采集到的声音数据中检测到语音起始点后，检测到语音截断点，确定所述语音起始点与所述语音截断点之间的临时语音数据的临时语音识别结果，并确定所述临时语音识别结果对应的临时语义识别结果；

第二确定单元52，用于检测到语音截断点之后，在采集到的声音数据中检测到语音结束点，确定所述语音起始点与所述语音结束点之间的最终语音数据的语音识别结果；

处理单元53，用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果。

在一种可能的实施方式中，所述第一确定单元51，具体用于：

在一种可能的实施方式中，所述第一确定单元51，还用于若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；其中，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

在一种可能的实施方式中，所述装置还包括：

所述第一确定单元51，具体用于：

在一种可能的实施方式中53，所述处理单元，还用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果不相同，确定所述语音识别结果对应的语义识别结果，将所述语义识别结果确定为所述最终语音数据的语义识别结果。

实施例8：

如图6为本发明实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本发明实施例还提供了一种电子设备，如图6所示，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

所述存储器63中存储有计算机程序，当所述程序被所述处理器61执行时，使得所述处理器61执行如下步骤：

在一种可能的实施方式中，所述处理器61，具体用于：

在一种可能的实施方式中，所述处理器61，还用于若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；其中，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

在一种可能的实施方式中，所述处理器61，还用于根据所述临时语音识别结果或所述语音识别结果，控制智能设备更新所述智能设备显示的文本信息。

在一种可能的实施方式中，所述处理器61，具体用于：

在一种可能的实施方式中，所述处理器61，还用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果不相同，确定所述语音识别结果对应的语义识别结果，将所述语义识别结果确定为所述最终语音数据的语义识别结果。

由于上述电子设备解决问题的原理与语音信息的处理方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口62用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

在一种可能的实施方式中，所述方法还包括：

在一种可能的实施方式中，所述检测到语音截断点，包括：

在一种可能的实施方式中，所述方法还包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信息的处理方法，其特征在于，所述方法包括：

若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果；

所述方法还包括：

在检测到至少两个语音截断点时，判断所述临时语音识别结果与缓存的临时语音识别结果是否一致；

若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语音识别结果，对缓存的临时语音识别结果进行更新，以及根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；其中，缓存的临时语音识别结果为上一次检测到的语音截断点对应的临时语音数据的语音识别结果，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述检测到语音截断点，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.一种语音信息的处理装置，其特征在于，所述装置包括：

处理单元，用于若所述语音识别结果与所述语音结束点之前的语音截断点对应的临时语音识别结果相同，将所述语音结束点之前的语音截断点对应的临时语义识别结果确定为所述最终语音数据的语义识别结果；

所述第一确定单元，还用于在检测到至少两个语音截断点时，判断所述临时语音识别结果与缓存的临时语音识别结果是否一致；若所述临时语音识别结果与缓存的临时语音识别结果不一致，根据所述临时语音识别结果，对缓存的临时语音识别结果进行更新，以及根据所述临时语义识别结果，对缓存的临时语义识别结果进行更新；其中，缓存的临时语音识别结果为上一次检测到的语音截断点对应的临时语音数据的语音识别结果，缓存的临时语义识别结果为上一次检测到的语音截断点对应的临时语音数据的语义识别结果。

6.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-4中任一所述语音信息的处理方法的步骤。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述语音信息的处理方法的步骤。