CN114267339A

CN114267339A - 语音识别处理方法及***、设备以及存储介质

Info

Publication number: CN114267339A
Application number: CN202111527196.6A
Authority: CN
Inventors: 李飞腾
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-01

Abstract

一种语音识别处理方法及***、设备以及存储介质，所述语音识别处理方法包括：获取语音数据；对所述语音数据进行解码处理，获得当前词对应的中间识别结果；从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；基于所述第一语音端点，输出所述重打分结果为最终识别结果。本发明实施例有利于改善语音识别的端点延迟。

Description

语音识别处理方法及***、设备以及存储介质

技术领域

本发明实施例涉及语音交互领域，尤其涉及一种语音识别处理方法及***、设备以及存储介质。

背景技术

随着移动互联网技术的发展，包括语音识别在内的与自然语言处理相关技术获得了蓬勃发展。实时双工语音交互指的是用户和引擎可以相互随时发送信息流/拥有双向通信的语音交互，特别是长时链接的人机对话请求，比如说在线教育。

例如：在线教育的一个场景为AI(Artificial Intelligence)老师课，在这个场景下语音识别处理需要全程在后台处理用户的音频并返回结果。如同其它人机交互场景一样，AI老师需要模拟真人拥有处理打断、合理时间回复以及自然停顿等特性。衡量AI老师回复快慢的指标，可以标志为“端到端延迟”，这部分通常会在一个合理的停顿时间间隔来模拟正常对话场景下的自然停顿。如果太快会有抢话打断的表现，太慢即表现为延迟太快，反应太慢。

“端到端延迟”会由一系列部分延迟累加，其中包括语音识别处理(AutomaticSpeech Recognition，ASR)，语音合成(Text to Speech，TTS)，对话管理(DialogManagement，DM)，自然语言理解(Natural Language Understanding，NLU)等，常见的会留有一个动态调整的主动等待时间，以满足“端到端延迟”均值在预计值左右。其中，语音识别处理中，一句完整的话最后一个单词结束的时间戳至收到最终识别结果的时间差，定义为端点延迟(Endpoint Latency)。

但是，目前语音识别的端点延迟仍有待优化。

发明内容

本发明实施例解决的问题是提供一种语音识别处理方法及***、设备以及存储介质，改善语音识别的端点延迟。

为解决上述问题，本发明实施例提供一种语音识别处理方法，包括：获取语音数据；对所述语音数据进行解码处理，获得当前词对应的中间识别结果；从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；基于所述第一语音端点，输出所述重打分结果为最终识别结果。

相应的，本发明实施例还提供一种语音识别处理***，包括：语音获取模块，用于获取语音数据；解码模块，用于对所述语音数据进行解码处理，获得当前词对应的中间识别结果；端点判断模块，用于从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；重打分模块，用于从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；识别结果输出模块，用于基于所述第一语音端点，输出所述重打分结果为最终识别结果。

相应的，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器，所述存储器存储有一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现本发明实施例提供的语音识别处理方法。

相应的，本发明实施例还提供一种存储介质，所述存储介质存储有一条或多条计算机指令，所述一条或多条计算机指令用于实现本发明实施例提供的语音识别处理方法。

与现有技术相比，本发明实施例的技术方案具有以下优点：

本发明实施例提供的语音识别处理方法中，从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；其中，所述第二预设时长小于或等于所述第一预设时长。因此，本发明实施例基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，与通过基于音频的静音时间判断是否需要产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而降低出现背景噪音导致的语音端点判断不准确问题的概率，相应有利于改善语音识别处理的端点延迟。

本发明实施例提供的语音识别处理***，端点判断模块用于从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；重打分模块用于从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长。因此，本发明实施例基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，与通过基于音频的静音时间判断是否需要产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而降低出现背景噪音导致的语音端点判断不准确问题的概率，相应有利于改善语音识别处理的端点延迟。

附图说明

图1是一种语音识别处理方法的流程示意图；

图2是本发明语音识别处理方法第一实施例的流程示意图；

图3是本发明语音识别处理方法第二实施例的流程示意图；

图4是本发明语音识别处理方法第三实施例的流程示意图

图5是本发明语音识别处理***一实施例的功能框图；

图6是本发明一实施例提供的设备的硬件结构图。

具体实施方式

由背景技术可知，目前语音识别的端点延迟仍有待优化。现结合一种语音识别处理方法，分析目前语音识别的端点延迟仍有待优化的原因。

如图1所示，示出了一种语音识别处理方法的流程示意图。

所述语音识别处理方法包括：

步骤s100：获取语音数据；

步骤s200：在以语音数据中当前词结束的时间为起始点，检测音频的静音时间达到预设时长的静音时，产生语音端点；

步骤s300：在产生语音端点后进行重打分处理，输出最终识别结果。

所述语音识别处理方法，在以语音数据中当前词结束的时间为起始点，检测音频的静音时间达到预设时长的静音的过程中，如果夹杂了背景噪音，则容易在背景噪音结束之后才开始进行静音计时，进而容易出现对语音端点的判断不准确的问题，增加了语音识别处理的端点延迟。

为了解决所述技术问题，本发明实施例提供一种语音识别处理方法。参考图2，示出了本发明语音识别处理方法一实施例的流程示意图。本实施例中，所述语音识别处理方法包括以下基本步骤：

步骤S1a：获取语音数据；

步骤S2a：对语音数据进行解码处理，获得当前词对应的中间识别结果；

步骤S3a：从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；

步骤S4a：从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于第一预设时长；

步骤S5a：基于所述第一语音端点，输出所述重打分结果为最终识别结果。

本发明实施例提供的语音识别处理方法中，基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，与通过基于音频的静音时间判断是否需要产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而降低出现背景噪音导致的语音端点判断不准确问题的概率，相应有利于减小语音识别处理的端点延迟。

为使本发明实施例的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参考图2，步骤S1a：获取语音数据，以便对语音数据进行识别处理。

作为一实施例，所述语音识别处理方法的应用场景可以为在线教育的AI老师课，因此实时获取用户的语音数据，以便全程处理用户的音频并返回结果。

具体地，语音数据为实时输入的语音流数据，或音频文件中的文件流数据。语音数据可以是直接接收并加工生成的数据，也可以是从其他终端获取的数据。

其中，语音流数据获取通常可通过麦克风、声卡等具有实时录入功能的硬件，将语音进行实时录入生成。文件流数据的获取通常可通过读取存放已完成录制的音频数据的音频文件，音频文件的格式可以是任意的，包括但不限于.WAV、.MP3等。

继续参考图2，步骤S2a：对所述语音数据进行解码处理，获得当前词对应的中间识别结果(partial result)。

在实时语音识别处理的场景，对语音数据在进行实时解码处理的过程中，获取语音识别的中间结果，并将中间结果抛出给用户，以便快速上屏，从而让用户感知会话过程中一直有字幕弹出，进而优化用户的实时性体验。并且，通过获得中间识别结果，还可以在进行实时解码处理的过程中，将中间识别结果传递给下游的模块，使下游模块提前进行相应的处理，从而节省下游模块的计算时间，进而减小下游模块的延迟。

本实施例中，对所述语音数据进行解码处理包括：以固定解码窗长为基本单元，对所述语音数据进行解码处理。在具体实施中，可以是通过解码模型对所述语音数据进行解码处理，生成语音识别的中间结果。作为一种实施例，所述解码模型可以由声学模型、字典和语言模型共同构成。

需要说明的是，进行解码处理的方式不仅限于此。在其他实施例中，还可以采用其他方式对所述语音数据进行解码处理。

其中，通过声学模型可建立语音数据中语音特征与音素之间的映射；通过字典可建立音素与字词之间的映射；通过语言模型可建立词与词、词与句子的映射。根据所述声学模型、字典和语言模型所建立的映射，对所述语音数据进行解码处理，从而生成对应的语音识别中间结果。

具体的，声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示；语言模型是对一组字序列构成的知识表示；字典是字词对应的音素索引集合。

在具体实施中，所述中间识别结果包括语音对应的文本以及文本相关信息。其中，文本可以为中文文本、英文文本或两者兼有，文本可以包括其他语言类型的文本；文本相关信息可以包括文本在语音数据中对应的时间戳，即文本对应的音频的开始时间和结束时间。

所述文本相关信息通常还可以包括置信度、词属性等在内的各种信息，本实施例在此不再赘述。

具体地，在语音识别的实时解码处理的过程中，逐个输出中间结果，对应记录每一中间结果，以及中间结果的输出顺序。以用户说完一句完整的话为示例，语音识别的中间结果通常为多个。

作为一种示例，以在所述语音数据中，用户说了一句“I have a dream”，通常返回的中间结果集为：

Partial result:“I”；

Partial result:“I have”；

Partial result:“I have a”；

Partial result:“I have a dream”。

在上述示例中，如果当前语音数据是用户讲完了一整句话，则当前词为“dream”，对应的中间识别结果相应为“I have a dream”。

步骤S3a：从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点。

从获得中间结果时起停顿时长为第一预设时长时，则说明用户说完了一句完整的话，进而判断需要产生第一语音端点，以便作为是否需要将重打分结果输出为最终识别结果的判断基准。

本实施例中，将获得所述中间识别结果的时间作为停顿时长的起算点，以判断是否需要产生第一语音端点，从而基于解码处理的连续出词的时间间隔，对当前词是否为一句完整话的最后一个词进行判断，与通过基于音频的静音时间判断是否需要产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而降低出现背景噪音导致的语音端点判断不准确问题的概率，相应有利于减小语音识别处理的端点延迟。

在具体实施中，所述第一预设时长基于用户说话的自然停顿时间设置。

相应地，所述第一预设时长不宜过小，也不宜过大。如果所述第一预设时长过小，则容易出现对第一语音端点的判断不准确，导致在用户未说完一句完整话时就判断需要产生第一语音端点；如果所述第一预设时长过大，则容易增加端点延迟时长，而且容易导致满足从获得中间结果时起停顿时长为第一预设时长的要求的词过少，进而容易导致对第一语音端点的漏判。作为一种示例，所述第一预设时长为0.9S至1.1S。例如：所述第一预设时长可以设置为1S，从而更接近用户说话的自然停顿时间。

在其他实施例中，基于实际的应用场景以及需求，所述第一预设时长还可以设置为其他合适的时长。

在具体实施中，所述中间识别结果包括文本相关信息，例如：文本在语音数据中对应的时间戳，相应地，从获得所述中间识别结果时起，通过判断相邻出词的时间戳差距是否满足所述第一预设时长，来判断获得所述中间识别结果时起停顿时长是否为第一预设时长。

继续参考图2，步骤S4a：从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；其中，所述第二预设时长小于或等于所述第一预设时长。

对中间识别结果进行重打分，从而利用性能更加优秀的语言模型，重新评估候选中间识别结果，更新最终输出结果排序，以给出更精确的识别结果，进而提升语音识别处理的准确性。

进行重打分处理，获得重打分结果，以便在判断需要产生语音端点时，能够输出所述重打分结果作为最终识别结果。换言之，所述重打分结果用于作为最终识别结果的候选项。

本实施例中，以当前词对应的中间识别结果产生时起，计算识别出词停顿时间至所述第二预设时长时，进行重打分处理，从而能够从进行解码处理的角度，对相邻词的中间识别结果产生的时间间隔进行判断。

作为一种示例，采用RNN(Recurrent Neural Networks,循环神经网络)语言模型，对中间识别结果进行重打分处理。在其他实施例中，还可以采用其他的语言模型(例如：Large N-gram等)，对中间识别结果进行重打分处理。

所述第二预设时长小于或等于所述第一预设时长，即与所述第二预设时长相比，所述第一预设时长更长，也就是说，判断用户是否讲完一句完整话的停顿时长更长，从而提高对用户是否讲完一句完整话的判断准确性，相应提高对第一语音端点的判断准确性，进而提高输出的最终识别结果的准确性。

本实施例中，以所述第二预设时长等于所述第一预设时长为示例进行说明。

相应地，如图2所示，本实施例中，在步骤S3a：在判断需要产生所述第一语音端点之后，执行步骤S4a：进行重打分处理，获得重打分结果。

需要说明的是，本实施例中，以所述第二预设时长等于所述第一预设时长为示例进行说明。在其他实施例中，所述第二预设时长还可以小于所述第二预设时长，相应地，产生第一语音端点和进行重打分处理的顺序还可以调换。

继续参考图2，步骤S5a：基于所述第一语音端点，输出所述重打分结果为最终识别结果。在判断需要产生第一语音端点时，相应判断用户讲完了一句完整的话，进而可以返回所述重打分结果为最终识别结果。

最终识别结果作为对用户说完一句完整话的最终识别结果，以返回给下游的模块进行处理，例如：返回最终识别结果至自然语言理解模块进行相应处理。

作为一种示例，以在所述语音数据中，用户说了一句“I have a dream”为示例，则返回的最终识别结果为：“I have a dream”。

在语音识别处理领域中，一句完整的话最后一个单词结束的时间戳至收到最终识别结果的时间差，定义为端点延迟(Endpoint Latency)。

本实施例中，以获得所述中间识别结果的时间为停顿时间的起算点，对语音端点进行判断，从而基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，进而降低由于背景噪音导致的语音端点判断不准确的问题，相应有利于减小语音识别处理的端点延迟。

本实施例中，所述第二预设时长等于所述第一预设时长，因此，基于所述第一语音端点，输出所述重打分结果为最终识别结果包括：在获得所述重打分结果时，输出所述重打分结果作为最终识别结果。

需要说明的是，参考图2，本实施例中，所述语音识别处理方法还包括：

步骤S6a：以当前词结束的时间为起始点，判断语音数据的静音时间达到第一预设时长时，产生第二语音端点；产生第二语音端点的时间与当前词结束的时间之间具有端点间隔。

在具体实施中，可以通过声音活动检测(Voice Activity Detection，VAD)模块，判断静音时间是否达到第二预设时长，以判断是否需要产生第二语音端点。

在语音识别处理领域中，通常来说，所述声音活动检测模块对语音数据的静音时间判断是准确的。因此，通过还判断语音数据的静音时间是否达到第二预设时长以判断是否产生第二语音端点，从而能够利用现有的技术，对大多数情况的语音端点进行判断，进而有利于简化运算。

但是，在语音识别领域中，由于声音活动检测模块是从音频的角度进行静音时间的判断，在当用户的语音数据中夹杂了背景噪音时，容易在背景噪音结束时，才开始进行静音时间的判断，从而容易导致对语音端点判断的不准确，造成预期之外的端点延迟的增加。

因此，本实施例中，所述语音识别处理方法还包括：步骤S7a：判断所述端点间隔是否大于所述第一预设时长。

在当所述端点间隔大于所述第一预设时长时，执行步骤S5a：基于所述第一语音端点，输出重打分结果为最终识别结果；

在当所述端点间隔小于或等于所述第一预设时长时，执行步骤S8a：基于所述第二语音端点，进行重打分处理，输出重打分结果作为最终识别结果。

因此，本实施例中，既以当前词结束的时间为起始点，通过判断语音数据的静音时间达到第二预设时长来判断是否需要产生第二语音端点，还以获得所述中间识别结果时起为起始点对停顿时长进行检测，以判断是否需要产生第一语音端点，从而两种判断方式能够同时开启，并且能够互补，并通过比较所述端点间隔与所述第一预设时长的大小，来判断从较早满足端点生成条件的方式生成端点，相应地，在保证端点判断准确的同时，还能够防止端点延迟的增加。

需要说明的是，对于语音数据中夹杂背景噪声的场景，通过从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点，能够在对通过判断语音数据的静音时间来判断第二语音端点的方式失效时，能够准确对语音端点进行判断，相应有利于降低端点延迟的方差。

图3是本发明语音识别处理方法第二实施例的流程示意图。本实施例语音识别处理方法与前述实施例的相同之处在此不再赘述，本实施例语音识别处理方法与前述实施例的不同之处在于：所述第二预设时长小于所述第一预设时长。

以下结合图3，对本实施例语音识别处理方法的步骤进行详细说明。

步骤S1b：获取语音数据。

步骤S2b：对语音数据进行解码处理，获得当前词对应的中间识别结果。

步骤S3b：从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点。

步骤S4b：从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果。

本实施例中，第二预设时长小于第一预设时长，相应地，进行重打分处理的触发时机不依赖于第一语音端点的生成，而是能够在产生第一语音端点之前，就开始进行重打分处理，从而将进行重打分处理的时间提前，进而将判断是否需要产生第一语音端点和进行重打分处理的步骤并行进行，从而在所述第一预设时长的等待时间内，便进行重打分处理的运算，且进行重打分处理所需的时间能够占用所述第一预设时长的部分时间，相应有利于进一步减小端点延迟。

需要说明的是，所述第二预设时长不宜过小，也不宜过大。如果所述第二预设时长过小，则解码处理对相邻词识别结果的时间间隔过小，容易导致触发重打分处理的频率过高，进而容易增加运算量；如果所述第二预设时长过大，容易导致开始进行重打分处理的时机与产生第一语音端点的时间间隔过短，容易导致对端点延迟的进一步改善效果不明显。为此，本实施例中，所述第二预设时长是第一预设时长的40％至90％。

作为一种示例，所述第一预设时长为1S，所述第二预设时长可以设置为0.6S，从而在将触发重打分处理的频率控制在合理范围的同时，能够显著地改善端点延迟的方差。

作为一实施例，所述进行重打分处理所需的时间，小于或等于所述第二预设时长与第一预设时长之间的差值，从而在产生第一语音端点之前或产生第一语音端点之时，便获得所述重打分结果，相应地，所述第二预设时长与所述重打分处理所需的时间之和，能够控制在所述第一预设时长范围内，相应地，进而在产生第一语音端点之后，无需额外的时间进行重打分处理，有利于进一步改善端点延迟，相应改善端点延迟的方差。

步骤S5b：基于所述第一语音端点，输出所述重打分结果为最终识别结果。

其中，在所述进行重打分处理所需的时间，小于或等于所述第二预设时长与第一预设时长之间的差值时，在产生第一语音端点时即可输出重打分结果为所述最终识别结果。

图4是本发明语音识别处理方法第三实施例的流程示意图。本实施例语音识别处理方法与第二实施例的相同之处在此不再赘述，本实施例语音识别处理方法与前述实施例的不同之处在于：设置输出最终识别结果的时间点至当前词结束的时间点之间具有目标端点延迟时长。

步骤S1c：获取语音数据。

步骤S2c：对所述语音数据进行解码处理，获得当前词对应的中间识别结果。对所述语音数据进行解码处理包括：以固定解码窗长(Decoder chunk size)为基本单元，对所述语音数据进行解码处理。

步骤S3c：从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点。

步骤S4c：从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于所述第一预设时长。

定义获得重打分结果的时间点与所述当前词结束时间点之间的时间间隔为重打分时间间隔。

本实施例中，所述第二预设时长为所述固定解码窗长，从而以固定解码窗长为基本单位，在中间识别结果时起，在固定解码窗长时间内，没有更新识别结果，则判断在所述固定解码窗长时间内没有识别出词。在其他实施例中，所述第二预设时长还可以设定为其他数值。

需要说明的是，所述固定解码窗长不宜过小，也不宜过大。如果所述固定解码窗长过小，则容易频繁地触发进行重打分；如果所述固定解码窗长过大，则容易导致所述重打分时间间隔过大，进而容易导致输出最终识别结果的时间点至当前词结束的时间点之间的时间间隔过大，即端点延迟(endpoint latency)难以满足目标端点延迟时长的要求。为此，本实施例中，所述固定解码窗长为所述目标端点延迟时长的30％至50％。。

作为一实施例，所述固定解码窗长为400mS。在其他实施例中，所述固定解码窗长还可以设定为其他数值。

本实施例中，所述语音识别处理方法还包括：

步骤S6c：判断所述重打分时间间隔是否小于所述目标端点延迟时长。

如果是，则执行步骤S7c：在获得重打分结果时起，间隔动态窗长产生第一语音端点；所述动态窗长为：目标端点延迟时长与所述重打分时间间隔之差。

通过在判断重打分时间间隔小于所述目标端点延迟时长时，在获得重打分结果时起，间隔动态窗长产生第一语音端点，从而能够将端点延迟限定在所述目标端点延迟时长，相应进一步改善端点延迟和端点延迟的方差。

步骤S5c：基于所述第一语音端点，输出所述重打分结果为所述最终识别结果。本实施例中，基于所述第一语音端点，输出所述重打分结果为最终识别结果包括：在产生第一语音端点时，输出所述重打分结果作为最终识别结果。

为了解决所述问题，本发明实施例还提供一种语音识别处理***。参考图5，示出了本发明语音识别处理***一实施例的功能框图。

本实施例中，所述语音识别处理***包括：语音获取模块101，用于获取语音数据；解码模块102，用于对语音数据进行解码处理，获得当前词对应的中间识别结果；端点判断模块103，用于从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；重打分模块104，用于从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；识别结果输出模块105，用于基于第一语音端点，输出所述重打分结果为最终识别结果。

所述语音识别处理***中，端点判断模块103用于从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；重打分模块104用于从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长。因此，本实施例基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，与通过基于音频的静音时间判断是否需要产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而降低由于背景噪音导致的语音端点判断不准确的问题，相应有利于改善语音识别处理的端点延迟。

语音获取模块101，获取用户的语音数据，以便对语音数据进行识别处理。

作为一实施例，所述语音识别处理***的应用场景可以为在线教育的AI老师课，因此实时获取用户的语音数据，以便全程处理用户的音频并返回结果。

解码模块102，用于对所述语音数据进行解码处理，获得当前词对应的中间识别结果。在实时语音识别处理的场景，解码模块102对所述语音数据在进行实时解码处理的过程中，获取语音识别的中间结果，并将中间结果抛出给用户，以便快速上屏，从而让用户感知会话过程中一直有字幕弹出，进而优化用户在语音识别处理的实时性体验。

并且，通过获得中间识别结果，还可以在进行实时解码处理的过程中，将中间识别结果传递给下游的模块，使下游模块提前进行相应的处理，从而节省下游模块的计算时间，进而减小下游模块的延迟。

解码模块102对所述语音数据进行解码处理包括：以固定解码窗长为基本单元，对所述语音数据进行解码处理。在具体实施中，解码模块102可以是通过解码模型对所述语音数据进行解码处理，生成语音识别的中间结果。作为一种实施例，所述解码模型可以由声学模型、字典和语言模型共同构成。

需要说明的是，解码模块进行解码处理的方式不仅限于此。在其他实施例中，还可以采用其他方式对所述语音数据进行解码处理。

具体地，在解码模块102进行实时解码处理的过程中，逐个输出中间结果，对应记录每一中间结果，以及中间结果的输出顺序。以用户说完一句完整的话为示例，语音识别的中间结果通常为多个。

Partial result:“I”；

Partial result:“I have”；

Partial result:“I have a”；

Partial result:“I have a dream”。

端点判断模块103，用于从获得中间结果时起停顿时长为第一预设时长时，则说明用户说完了一句完整的话，进而判断需要产生第一语音端点，以便作为是否需要将重打分结果输出为最终识别结果的判断基准。

本实施例中，端点判断模块103将获得中间识别结果的时间作为停顿时长的起算点，以判断是否需要产生第一语音端点，从而基于解码模块102进行解码处理的连续出词的时间间隔，对当前词是否为一句完整话的最后一个词进行判断，与通过基于音频的静音时间判断是否产生语音端点的方式相比，解码处理对背景噪音的敏感度较低，将背景噪音识别为词的概率低，进而改善由于背景噪音导致的语音端点判断不准确的问题，相应减小语音识别处理的端点延迟。

重打分模块104对中间识别结果进行重打分，从而利用性能更加优秀的语言模型，重新评估候选中间识别结果，更新最终输出结果排序，以给出更精确的识别结果，进而提升语音识别处理的准确性。

重打分模块104进行重打分处理，获得重打分结果，以便在判断需要产生语音端点时，能够输出所述重打分结果作为最终识别结果。换言之，所述重打分结果用于作为最终识别结果的候选项。

本实施例中，重打分模块104以当前词对应的中间识别结果产生时起，计算识别出词停顿时间至所述第二预设时长时，进行重打分处理，从而能够从进行解码处理的角度，对相邻词的中间识别结果产生的时间间隔进行判断。

作为一种示例，重打分模块104可以采用RNN语言模型，对中间识别结果进行重打分处理。在其他实施例中，重打分模块还可以采用其他的语言模型(例如：Large N-gram等)，对中间识别结果进行重打分处理。

相应地，本实施例中，在端点判断模块103判断需要产生所述第一语音端点之后，触发所述重打分模块104进行重打分处理，获得重打分结果。

识别结果输出模块105，在判断需要产生第一语音端点时，相应判断用户讲完了一句完整的话，进而可以返回所述重打分结果为最终识别结果。

作为一种示例，以用户说了一句“I have a dream”为示例，则返回的最终识别结果(Final result)为：“I have a dream”。

本实施例中，端点判断模块103以获得所述中间识别结果的时间为停顿时间的起算点，对语音端点进行判断，从而基于解码处理的连续出词的时间间隔，对当前词是否为一句话的最后一个词进行判断，进而降低由于背景噪音导致的语音端点判断不准确的问题，相应有利于减小语音识别处理的端点延迟。

本实施例中，所述第二预设时长等于所述第一预设时长，因此，识别结果输出模块105在获得所述重打分结果时，输出重打分结果作为最终识别结果。

需要说明的是，本实施例中，所述语音识别处理***还包括：声音活动检测(VoiceActivity Detection，VAD)模块106，用于以当前词结束的时间为起始点，判断语音数据的静音时间达到第一预设时长时，产生第二语音端点；产生第二语音端点的时间与当前词结束的时间之间具有端点间隔。

在语音识别处理领域中，通常来说，所述声音活动检测模块106对语音数据的静音时间判断是准确的。因此，通过还判断语音数据的静音时间是否达到第二预设时长以判断是否产生第二语音端点，从而能够利用现有的技术，对大多数情况的语音端点进行判断，进而有利于简化运算。

但是，在语音识别领域中，由于声音活动检测模块106是从音频的角度进行静音时间的判断，在当用户的语音数据中夹杂了背景噪音时，容易在背景噪音结束时，才开始进行静音时间的判断，从而容易导致对语音端点判断的不准确，造成预期之外的端点延迟的增加。

因此，所述语音识别处理***还包括：比较模块107，用于比较所述端点间隔与所述第一预设时长的相对大小。

在当所述端点间隔大于所述第一预设时长时，所述识别结果输出模块105基于所述第一语音端点，输出重打分结果为最终识别结果。

在当所述端点间隔小于或等于所述第一预设时长时，所述重打分模块104用于基于所述第二语音端点，进行重打分处理；所述识别结果输出模块105输出重打分结果作为最终识别结果。

因此，本实施例中，不仅声音活动检测模块106以当前词结束的时间为起始点，通过判断语音数据的静音时间达到第二预设时长来判断是否需要产生第二语音端点，而且所述端点判断模块103还以获得所述中间识别结果时起为起始点对停顿时长进行检测，以判断是否需要产生第一语音端点，从而两种判断方式能够同时开启，并且互补，所述比较模块107通过比较所述端点间隔与所述第一预设时长的相对大小，来判断从较早满足端点生成条件的方式生成端点，相应地，在保证端点判断准确的同时，还能够防止端点延迟的增加。

需要说明的是，对于语音数据中夹杂背景噪声的场景，端点判断模块103通过从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点，能够在对通过判断语音数据的静音时间来判断第二语音端点的方式失效时，能够准确对语音端点进行判断，相应有利于降低端点延迟的方差。

需要说明的是，本实施例中，以所述第二预设时长等于所述第一预设时长为示例进行说明。

在本发明提供的语音识别处理***的另一实施例中，所述第二预设时长还可以小于所述第一预设时长。

所述第二预设时长小于所述第一预设时长，相应地，所述重打分模块进行重打分处理的触发时机不依赖于第一语音端点的生成，而是能够在产生第一语音端点之前，就开始进行重打分处理，从而将进行重打分处理的时间提前，进而将端点判断模块判断是否需要产生第一语音端点和重打分模块进行重打分处理的步骤并行进行，从而在所述第一预设时长的等待时间内，便进行重打分处理的运算，且进行重打分处理所需的时间能够占用所述第一预设时长的部分时间，相应有利于进一步减小端点延迟。

需要说明的是，所述第二预设时长不宜过小，也不宜过大。如果所述第二预设时长过小，则解码模块进行解码处理对相邻词识别结果的时间间隔过小，容易导致触发重打分处理的频率过高，进而容易增加运算量；如果所述第二预设时长过大，容易导致开始进行重打分处理的时机与产生第一语音端点的时间间隔过短，容易导致对端点延迟的进一步改善效果不明显。为此，作为一实施例，所述第二预设时长是第一预设时长的40％至90％。

作为一实施例，重打分模块进行重打分处理所需的时间，小于或等于第二预设时长与第一预设时长之间的差值，从而在端点产生模块产生第一语音端点之前或产生第一语音端点之时，便获得重打分结果，使得所述识别结果输出模块在产生第一端点时便输出所述重打分结果作为最终识别结果，相应地，所述第二预设时长与所述重打分处理所需的时间之和，能够控制在所述第一预设时长范围内，相应地，进而在端点判断模块产生第一语音端点之后，无需额外的时间进行重打分处理，有利于进一步改善端点延迟，相应改善端点延迟的方差。

在本发明提供的语音识别处理***的又一实施例中，在当所述第二预设时长小于所述第一预设时长时，所述语音识别***，还设置输出最终识别结果的时间点至当前词结束的时间点之间具有目标端点延迟时长，并定义获得重打分结果的时间点与所述当前词结束时间点之间的时间间隔为重打分时间间隔。

作为一实施例，所述第二预设时长为所述固定解码窗长，从而以固定解码窗长为基本单位，在中间识别结果时起，在固定解码窗长时间内，没有更新识别结果，则判断在所述固定解码窗长时间内没有识别出词。在其他实施例中，所述第二预设时长还可以设定为其他数值。

需要说明的是，固定解码窗长不宜过小，也不宜过大。如果固定解码窗长过小，则容易频繁地触发进行重打分；如果所述固定解码窗长过大，则容易导致所述重打分时间间隔过大，进而容易导致输出最终识别结果的时间点至当前词结束的时间点之间的时间间隔过大，即端点延迟难以满足目标端点延迟时长的要求。为此，本实施例中，固定解码窗长为目标端点延迟时长的30％至50％。

所述语音识别处理***还包括：间隔判断模块，用于判断所述重打分时间间隔是否小于所述目标端点延迟时长；动态窗长***模块，用于在所述重打分时间间隔小于所述目标端点延迟时长时，在获得重打分结果时起，间隔动态窗长产生所述第一语音端点；其中，所述动态窗长为：所述目标端点延迟时长与所述重打分时间间隔之差。

动态窗长***模块，在重打分时间间隔小于所述目标端点延迟时长时，在获得重打分结果时起，间隔动态窗长产生第一语音端点，从而能够将端点延迟限定在所述目标端点延迟时长，相应进一步改善端点延迟和端点延迟的方差。

相应地，所述识别结构输出模块，在产生第一语音端点时，输出所述重打分结果作为最终识别结果。

本发明实施例还提供一种设备，该设备可以通过装载程序形式的上述语音识别处理方法，以实现本发明实施例提供的语音识别处理方法。本发明实施例提供的设备的一种可选硬件结构如图6所示，包括：至少一个处理器01，至少一个通信接口02，至少一个存储器03和至少一个通信总线04。

本实施例中，处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信。

可选的，通信接口02可以为用于进行网络通信的通信模块的接口，如GSM模块的接口。

可选的，处理器01可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

可选的，存储器03可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，存储器03存储一条或多条计算机指令，所述一条或多条计算机指令被处理器01执行以实现本发明实施例提供的语音识别处理方法。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

相应地，本发明实施例还提供一种存储介质，所述存储介质存储有一条或多条计算机指令，所述一条或多条计算机指令用于实现本发明实施例所述的语音识别处理方法。

所述存储介质为计算机可读存储介质，存储介质可以为只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、U盘、移动硬盘、磁盘或光盘等各种可以存储程序代码的介质。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音识别处理方法，其特征在于，包括：

获取语音数据；

对所述语音数据进行解码处理，获得当前词对应的中间识别结果；

从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；

从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；

基于所述第一语音端点，输出所述重打分结果为最终识别结果。

2.如权利要求1所述的语音识别处理方法，其特征在于，所述语音识别处理方法还包括：以当前词结束的时间为起始点，判断语音数据的静音时间达到所述第一预设时长时，产生第二语音端点；产生第二语音端点的时间与当前词结束的时间之间具有端点间隔；

判断所述端点间隔是否大于所述第一预设时长；

当所述端点间隔大于所述第一预设时长时，基于所述第一语音端点，输出重打分结果为最终识别结果；

当所述端点间隔小于或等于所述第一预设时长时，基于所述第二语音端点，进行重打分处理，输出重打分结果作为最终识别结果。

3.如权利要求1或2所述的语音识别处理方法，其特征在于，所述第二预设时长等于所述第一预设时长；在产生所述第一语音端点之后，进行重打分处理，获得重打分结果；

基于所述第一语音端点，输出所述重打分结果为最终识别结果包括：在获得所述重打分结果时，输出所述重打分结果作为最终识别结果。

4.如权利要求1或2所述的语音识别处理方法，其特征在于，所述第二预设时长小于所述第一预设时长。

5.如权利要求4所述的语音识别处理方法，其特征在于，所述第二预设时长是第一预设时长的40％至90％。

6.如权利要求4所述的语音识别处理方法，其特征在于，所述进行重打分处理所需的时间，小于或等于所述第二预设时长与第一预设时长之间的差值。

7.如权利要求4所述的语音识别处理方法，其特征在于，设置输出最终识别结果的时间点至当前词结束的时间点之间具有目标端点延迟时长；

获得重打分结果的时间点与所述当前词结束时间点之间的时间间隔为重打分时间间隔；所述语音识别处理方法还包括：判断所述重打分时间间隔是否小于所述目标端点延迟时长；

如果是，则在获得重打分结果时起，间隔动态窗长产生第一语音端点；其中，所述动态窗长为：所述目标端点延迟时长与所述重打分时间间隔之差；

基于所述第一语音端点，输出所述重打分结果为最终识别结果包括：在产生第一语音端点时，输出所述重打分结果作为最终识别结果。

8.如权利要求7所述的语音识别处理方法，其特征在于，对所述语音数据进行解码处理包括：以固定解码窗长为基本单元，对所述语音数据进行解码处理；

所述第二预设时长为所述固定解码窗长。

9.如权利要求8所述的语音识别处理方法，其特征在于，所述固定解码窗长为所述目标端点延迟时长的30％至50％。

10.一种语音识别处理***，其特征在于，包括：

语音获取模块，用于获取语音数据；

解码模块，用于对所述语音数据进行解码处理，获得当前词对应的中间识别结果；

端点判断模块，用于从获得所述中间识别结果时起停顿时长为第一预设时长时，判断需要产生第一语音端点；

重打分模块，用于从获得所述中间识别结果时起停顿时长为第二预设时长时，进行重打分处理，获得重打分结果；所述第二预设时长小于或等于所述第一预设时长；

识别结果输出模块，用于基于所述第一语音端点，输出所述重打分结果为最终识别结果。

11.一种设备，包括至少一个存储器和至少一个处理器，所述存储器存储有一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-9任一项所述的语音识别处理方法。

12.一种存储介质，其特征在于，所述存储介质存储有一条或多条计算机指令，所述一条或多条计算机指令用于实现如权利要求1-9任一项所述的语音识别处理方法。