CN111667829A

CN111667829A - 信息处理方法及装置、存储介质

Info

Publication number: CN111667829A
Application number: CN202010476806.3A
Authority: CN
Inventors: 邓雄文; 鲁骁; 孟二利; 王斌; 崔世起; 许金琳
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-15
Anticipated expiration: 2040-05-29
Also published as: CN111667829B

Abstract

本公开是关于一种信息处理方法及装置、存储介质。该方法应用于语音设备中，包括：采集当前语音得到语音数据；基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果；若所述第一判定结果表征所述当前语音输入未停止，基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果；若所述第二判定结果表征所述当前语音未停止输入，继续采集所述当前语音的语音数据。通过该方法，能够结合历史语音的语音数据(即结合语境)进行判不停的分析，因而可提高电子设备响应的精确度，提升用户使用体验。

Description

信息处理方法及装置、存储介质

技术领域

本公开涉及智能语音技术领域，尤其涉及一种信息处理方法及装置、存储介质。

背景技术

随着计算机和人工智能技术的飞速发展，智能语音对话也得到极大的发展。用户通过语音来向智能语音助手(语音设备中的应用)传达自己的需求，例如数值计算、天气查询和智能家居控制等。

智能语音助手在接收到用户的语音后，通过自动语音识别(Automatic SpeechRecognition，ASR)技术，将语音转化为文本，通过后台的自然语言处理(Natural LanguageProcessing，NLP)技术来对用户的需求进行分析，其中的NLP技术包括但不限于文本纠错、意图识别以及槽位提取(关键词提取)等。智能语音助手通过这一系列分析得到相应的指令，会执行相应的操作。

然而NLP技术处理的一个基本要求就是文本完整，但是用户使用智能语音助手的过程中，常常会出现用户没有结束输入(即没有说完)，智能机器人就停止采集语音并给出响应的情况。因语音输入不完整，所以可能存在错误响应的现象，大大降低了用户的满意度。

发明内容

本公开提供一种信息处理方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种信息处理方法，应用于语音设备，包括：

采集当前语音得到语音数据；

基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果；

若所述第一判定结果表征所述当前语音输入未停止，基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果；

若所述第二判定结果表征所述当前语音未停止输入，继续采集所述当前语音的语音数据。

可选的，所述基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果，包括：

将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果；其中，所述语境分类模型为：通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。

可选的，所述将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果，包括：

基于所述语境分类模型中的自注意力机制对所述当前语音的语音数据进行处理，确定卷积核；所述卷积核包括：所述当前语音的语音数据中各词语的关注程度的权重值；

利用所述卷积核与所述历史语音的语音数据进行卷积，获得卷积结果；

根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果。

可选的，所述根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果，包括：

将所述当前语音的语音数据和所述卷积结果进行拼接，利用所述语境分类模型得到所述第二判定结果。

可选的，所述方法还包括：

检测所述当前语音是否是本轮交互检测的首条语音；

所述基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果，包括：

若所述当前语音不是本轮交互检测的首条语音，基于所述当前语音的语音数据和所述本轮交互的历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果。

可选的，所述检测所述当前语音是否是本轮交互检测的首条语音，包括：

确定在所述当前语音的预设历史时长内的历史语音是否获得语音指令的响应；

若所述预设历史时长内的历史语音未获得响应，确定所述当前语音是所述本轮交互检测的首条语音。

可选的，所述基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果，包括：

利用句子边界检测SBD方法对所述语音数据进行分析，获得表征所述当前语音是否输入停止的所述第一判定结果。

可选的，所述方法还包括：

若所述第二判定结果为所述当前语音停止输入，则停止采集所述当前语音；

在停止采集所述当前语音之后，基于采集得到的所述语音数据进行语音指令的响应。

根据本公开实施例的第二方面，提供一种信息处理装置，应用于语音设备，包括：

采集模块，配置为采集当前语音得到语音数据；

第一获得模块，配置为基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果；

第二获得模块，配置为若所述第一判定结果表征所述当前语音输入未停止，基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果；

所述采集模块，还配置为若所述第二判定结果表征所述当前语音未停止输入，继续采集所述当前语音的语音数据。

可选的，所述第二获得模块，具体配置为将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果；其中，所述语境分类模型为：通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。

可选的，所述第二获得模块，具体配置为基于所述语境分类模型中的自注意力机制对所述当前语音的语音数据进行处理，确定卷积核；所述卷积核包括：所述当前语音的语音数据中各词语的关注程度的权重值；利用所述卷积核与所述历史语音的语音数据进行卷积，获得卷积结果；根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果。

可选的，所述第二获得模块，具体配置为将所述当前语音的语音数据和所述卷积结果进行拼接，利用所述语境分类模型得到所述第二判定结果。

可选的，所述装置还包括：

检测模块，配置为检测所述当前语音是否是本轮交互检测的首条语音；

所述第二获得模块，具体配置为若所述当前语音不是本轮交互检测的首条语音，基于所述当前语音的语音数据和所述本轮交互的历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果。

可选的，所述装置还包括：

所述检测模块，具体配置为确定在所述当前语音的预设历史时长内的历史语音是否获得语音指令的响应；若所述预设历史时长内的历史语音未获得响应，确定所述当前语音是所述本轮交互检测的首条语音。

可选的，所述第一获得模块，具体配置为利用句子边界检测SBD方法对所述语音数据进行分析，获得表征所述当前语音是否输入停止的所述第一判定结果。

可选的，所述装置还包括：

停止模块，配置为若所述第二判定结果为所述当前语音停止输入，则停止采集所述当前语音；

响应模块，配置为在停止采集所述当前语音之后，基于采集得到的所述语音数据进行语音指令的响应。

根据本公开实施例的第三方面，提供一种信息处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中所述的信息处理方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：

当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如上述第一方面中所述的信息处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

可以理解的是，本公开实施例在语音交互过程中，语音设备在基于当前语音的语音数据确定当前语音输入未停止时，进一步的基于当前语音的语音数据和历史语音的语音数据再次确定当前语音是否输入停止，并在进一步确定当前语音输入未停止的情况下，继续采集语音数据。通过该方式，结合的历史语音的语音数据，即结合语境，可更准确的判断当前语音是否输入完整，减少因仅基于当前语音来判断时造成的误将完整的语音判定为不完整语音的现象发生，一方面，使得语音设备可容忍用户说话停顿或自然语言环境下的语义省略，能提升用户交互的自然性；另一方面，减少语音设备不必要的持续采集，从而能使语音设备快速做出响应并能基于当前已经完整的语音给出更精确的响应，提升用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例示出的一种信息处理方法流程图。

图2为使用CNN网络来进行句子边界检测的模型结构图。

图3是本公开实施例中一种语境分类模型的网络结构图。

图4是本公开实施例示出的一种信息处理方法流程示例图

图5是根据一示例性实施例示出的一种信息处理装置图。

图6是本公开实施例示出的一种语音设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

近几年来，在语音交互技术中，为了达到流畅，自然，拟人化对话体验，出现了一种可通过一次唤醒实现连续对话的语音交互技术。如背景技术所述的，当语音输入不完整时，可能存在错误响应的现象，在基于一次唤醒实现连续对话的语音交互技术中，也同样存在上述问题。

图1是本公开实施例示出的一种信息处理方法流程图，如图2所示，应用于语音设备中的信息处理方法包括以下步骤：

S11、采集当前语音得到语音数据；

S12、基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果；

S13、若所述第一判定结果表征所述当前语音输入未停止，基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果；

S14、若所述第二判定结果表征所述当前语音未停止输入，继续采集所述当前语音的语音数据。

在本公开的实施例中，语音设备支持语音采集和音频输出的功能，在此基础上能实现人机间的语音交互。语音设备包括：智能手机、智能音箱或支持语音交互功能的可穿戴设备等。

例如，以语音设备是智能音箱为例，可以基于智能音箱所包含的语音采集组件采集用户输入的语音，并基于智能音箱的分析处理，通过智能音箱的语音输出组件输出采集的语音所对应的响应信息。智能音箱的语音采集组件可以是麦克风，智能音箱的语音输出组件可以是扬声器。

语音设备采集的语音的语音数据，可以是用户输入的语音请求信息，例如“请播放一首李白的诗”等；也可以是用户输入的语音聊天信息，例如，用户和语音设备进行人机对话时输入的“我觉得你太聪明了”等聊天信息。

在步骤S11至S12中，语音设备采集当前语音得到语音数据后，会事先基于语音数据获得表征当前语音是否输入停止的第一判定结果。

在本公开的实施例中，当前语音是否输入停止可以是指当前语音是否输入完整。需要说明的是，当基于语音数据获得所述当前语音是否输入停止的第一判定结果时，可以是直接根据音频形式的语音数据来获得当前语音是否输入停止的第一判定结果，例如通过语音活动检测(Voice Activity Detection，VAD)方法来确定当前语音是否输入停止；也可以是将语音数据通过ASR技术转化为文本，并利用转化后的ASR文本来获得当前语音是否输入停止的第一判定结果。

表1是本公开实施例中不完整语音的示例，如下：

表1不完整语音示例

编号	不完整的语音
		1	我要听
2	再讲个
		3	读一下
4	用酷狗

如表1所示，例如“我要听”很明显是缺少了“听”的宾语成分；而“英文怎么说”则是缺少了主语，少了被翻译的对象。基于“残缺”的语音做出响应，可能存在响应错误的问题。因此，语音设备需要根据采集到的当前语音的语音数据来判断是否应该“停”或“不停”。“停”表示用户说完，语音设备需要停止继续采集，并作出响应；“不停”则表示用户还没有说完，语音设备需要继续采集语音。

在本公开的实施例中，当基于语音数据确定当前语音是否输入停止时，在一种实施例中，可利用简单的二分类模型来确认。例如，该二分类模型是对大量完整语音数据的ASR文本和不完整语音数据的ASR文本进行训练后获得的模型，将当前语音的语音数据的ASR文本输入到该模型后，即可获得当前语音是否输入完整(输入停止)的判定结果。例如，该二分类模型是基于卷积神经网络(Convolutional Neural Networks，CNN)或深度神经网络(Deep Neural Network，DNN)训练获得的模型。

在另一种实施例中，所述基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果，包括：

在该实施例中，句子边界检测(Sentence Boundary Detection，SBD)又称为标点预测，其目的是恢复文本中的标点。

当前的句子边界检测有两类主要的特征，一是文本的特征称为词汇特征，二是音频中的韵律特征。基于SBD方法，例如，可使用深度神经网络-条件随机场(DNN-CRF)模型，通过韵律信息的层次结构来检测句子边界；还有人提出使用长短期记忆深度学习(LongShort Term Memory，LSTM)模型，同时捕获韵律和词汇特征来检测句子边界。

在该实施例中，若基于SBD方法获得的是当前语音完整的标点(例如句号、问号或者叹号)未出现在句末的第一判定结果，那么该第一判定结果表征当前语音是一个不完整的句子，即当前语音输入未停止。

通常，在语音交互过程中，存在的一种方式是仅基于当前语音的语音数据来判断是否输入完整，该种方式可以是基于当前语音数据对应的ASR文本的语法结构和语义内容来确定的。例如，一种方式中，将CNN网络结合子词信息的向量来进行句子边界检测。

图2为使用CNN网络来进行句子边界检测的模型结构图，如图2所示，假设当前预测的中心词语为w_i，则整个模型的输入就是以词语w_i为中心以及其前后共m个词语而形成的序列，如图2中①所示。图2中的②为表征层，在这一层将输入的m个词的序列转化为词向量的表征，成为一个m×n的矩阵。这里的词向量例如是基于fastext构建，通过跳字模型(skip-gram)模型训练的词向量。将②中得到的矩阵输入卷积层③，通过卷积运算后将结果输入池化层④，最后通过全连接层⑤，得到预测的标点⑥。其中卷积层与全连接层的层数并非完全确定，可以是在卷积层数为2，全连接层数为3时能取得较好的准确率。

通过图2所示的句子边界检测的模型，在判断当前语音是否输入停止时，语音设备只需将通过ASR得到的文本中的最后一个词作为中心词，然后逐词的利用其前置的窗口内的词语和中心词构建词语序列输入到训练好的CNN模型中，得到该位置上相应的标点符号的预测。如果得到返回的结果为表示停顿的标点符号，如句号(“。”)，问号(“？”)或叹号(“！”)等，则表示当前语音已经输入完整；若得到非标点符号或是其他表示停顿的标点符号，如逗号(“，”)，顿号(“、”)等，则表示当前语音并未输入完整。

然而，由于在基于一次唤醒实现连续对话时，语音设备采集的当前语音是可能基于语境下省略的语音，当前语音并非是不完整的语音。

例如，以表1为例，在一次持续对话中，智能音箱接收到用户发送的“你可以干什么？”的语音，而智能音箱的响应是“我可以讲笑话”；则当智能音箱采集到的当前语音是“我要听”时，可以理解的是，当前语音“我要听”省略的是宾语“笑话”，而该宾语出现在上一条智能音箱的响应中，当前语音“我要听”是一个完整的语音。

再例如，在一次持续对话中，智能音箱收到用户发送的“我爱你用日文怎么说”的语音，智能音箱给出响应，则当智能音箱采集到的当前语音是“英语怎么说”时，也可以理解的是当前语音被省略的翻译对象出现在本次持续对话中，语音设备采集的由用户发出的历史语音中，当前语音“英语怎么说”也是一个完整的语音。

可以理解的是，历史语音中包括了聊天的语境，因为语境的存在而使得语音设备检测的当前语音出现省略而表现出“不完整”。

对此，本公开在确定当前语音是否完整时，并不以当前语音的语音数据的第一判定结果为准，而是在步骤S13中，当根据当前语音确定当前语音输入未停止时，基于当前语音的语音数据和历史语音的语音数据来进一步确定当前语音是否输入停止。

在该实施例中，当基于当前语音的语音数据和历史语音的语音数据进一步确定当前语音是否输入停止时，可以是直接基于当前语音和历史语音的音频数据来确定；也可以是将当前语音的语音数据或历史语音的语音数据转换为ASR文本后来确定。

在本公开的实施例中，历史语音可以包括与当前语音属于同一交互轮次的语音，还可以包括当前语音所属轮次之前轮次的语音。需要说明的是，一轮交互是指一次唤醒后，相邻两条语音不超过预定交互时长的多次语音交互，例如以语音设备是智能音箱为例，当智能音箱基于唤醒词唤醒后，即可在预定交互时长内进行连续多条的语音交互。而若超过预定交互时长，则需要重新用唤醒词唤醒，开启新一轮的交互。

在一种实施例中，例如，当用户边工作边和智能音箱交互时，用户由于工作的影响，一段内容具有连续性的对话中，语音数据可能分散在多个交互轮次中，因此可结合包括当前语音所属轮次之前的预设轮次的语音来获得第二判定结果。在该种方式中，因提供了更多的历史语音数据，可能能提升第二判定结果的准确性。

在另一种实施例中，信息处理方法还包括：

检测所述当前语音是否是本轮交互检测的首条语音；

在该实施例中，通常，在一轮交互中表达的内容更具有连续性，因此本公开事先检测当前语音是否是本轮交互检测的首条语音，当不是首条语音时，将当前语音和本轮交互的历史语音相结合来获得第二判定结果。在该实施例中，只有当当前语音不是本轮交互检测的首条语音时，才会存在语境。

在该实施例中，本轮检测的首条语音，是指基于唤醒词唤醒之后，语音设备采集的由用户发出的第一条语音；本轮交互的历史语音可包括：同一次唤醒中语音设备接收的当前语音之前的由用户发出的一条或多条语音。该一条或多条语音可以是与当前语音连续采集的。

本公开实施例中，在基于语境进一步确定当前语音是否完整时，还可利用语音设备接收当前语音之前由语音设备给出的一条或多条语音响应。该一条或多条语音响应可以是与当前语音相连续的。

需要说明的是，在本公开的实施例中，历史语音或历史语音响应也可以是指定的当前语音之前的某些可能具有代表性的语音，例如，通常语音设备检测的首条语音中即可包含用户的需求，因此历史语音可以是本轮交互的首条语音；同理，历史语音响应也可以是首条语音响应。

此外，需要说明的是，在本公开的实施例中，仅当第一判定结果表征当前语音输入未停止时才做进一步确定的原因在于：当第一判定结果表征当前语音输入停止(即当前语音输入完整)时，当前语音为内容和语法结构完整的语音的可能性比较大，因而无需进行二次判定。在确定当前语音是否是首条语音时，可以根据当前语音属于语音设备在唤醒词之后检测的第几条语音来确定。例如，可将唤醒词之后的第一条语音设定为首条语音。

基于以上，本公开考虑到历史语音能提供语境相关信息，在基于第一判定结果确定当前语音输入未停止时，基于当前语音的语音数据和历史语音的语音数据来确定当前语音是否输入停止，并在得到当前语音未停止输入的第二判定结果后，在步骤S14中继续采集当前语音的语音数据。

需要说明的是，在本公开的实施例中，继续采集当前语音的语音数据是指不立马响应当前语音，而是等待预定时长，在预定时长内继续采集用户的语音输入，该继续采集的语音输入为对已采集语音数据的补充，语音设备可以在预定时长后再给出响应。在本公开的实施例中，预定时长可设置为3秒。当然，若在预定时长内未继续采集到补充的语音，则基于当前语音的语音数据给出响应。

此外，本公开的语音设备在进行语音交互时，会缓存采集到的历史语音的音频文件或是历史语音的语音识别结果，这样方便语音设备在持续采集时，基于当前语音和历史语音提供的语境共同确定当前语音是否输入完整。在预设轮次的语音交互完成之后或超过预设时长之后，语音设备即可清除缓存，以释放内存。

可以理解的是，本公开实施例在语音交互过程中，在基于当前语音的语音数据确定当前语音输入未停止时，进一步的基于当前语音的语音数据和历史语音的语音数据再次确定当前语音是否输入停止，并在进一步确定当前语音输入未停止的情况下，继续采集语音数据。通过该方式，结合历史语音的语音数据，即结合语境可更准确的判断当前语音是否输入完整，减少因仅基于当前语音来判断时造成的误将完整的语音判定为不完整语音的现象发生，一方面，使得语音设备可容忍用户说话停顿或自然语言环境下的语义省略，能提升用户交互的自然性；另一方面，减少语音设备不必要的持续采集，从而能使语音设备快速做出响应并能基于当前已经完整的语音给出更精确的响应，提升用户的使用体验。

在一种实施例中，所述方法还包括：

若所述当前语音是所述本轮交互检测的首条语音，基于所述当前语音的语音数据进行语音指令的响应。

在该实施例中，若当前语音是本轮交互检测的首条语音，因无法获得历史语音，则基于当前语音的语音数据进行语音指令的响应。

在语音设备未采取其他延时响应策略的基础上，在该实施例中，即便是根据当前语音的语音数据确定当前语音输入未停止也给出响应，而不是直接拒识，能提升用户的使用体验。其中，所述的延时响应策略可以是：设定在采集到当前语音之后继续等待预定时长，看能否继续采集到用户对当前语音的语音数据进行补充的语音数据，并在等待预定时长之后再给出响应。

当然，语音设备在根据当前语音的语音数据确定当前语音输入未停止时，也可采取延时响应策略，也可基于延时后获得的属于当前语音的语音数据进行语音指令的响应。通过延时响应来填补属于首条语音的语音数据内容，因而能提升响应精度。

此外，本公开中，若当前语音是本轮交互检测的首条语音，且第一判定结果表征当前语音输入停止，语音设备也会基于当前语音的语音数据进行语音指令的响应。

在一种实施例中，所述检测所述当前语音是否是本轮交互检测的首条语音，包括：

在该实施例中，根据预设历史时长内的历史语音来确定当前语音是否是本轮交互检测的首条语音。该历史时长可以是以分钟为单位，也可以是以秒为单位，本公开实施例不做限制。

例如，在预设的历史时长内，智能音箱检测到的历史语音是“你可以干什么？”，但是智能音箱并未给出“我可以讲笑话”的响应，那么若当前语音是“我要听”，即历史语音无法给出语境信息，此时则将当前语音确定为本轮交互检测的首条语音。

可以理解的是，通过历史时长内的历史语音是否获得响应来确定当前语音是否是本轮交互检测的首条语音的方式，相对于直接将唤醒词之后的第一条语音设定为首条语音的方式，能使得更为准确的确定出能提供语境信息的历史语音，从而提升第二判定结果的精度。

在一种实施例中，所述方法还包括：

在该实施例中，当语音设备基于当前语音的语音数据和历史语音的语音数据判断当前语音停止输入(即当前语音输入完整)时，则停止继续采集语音，并对当前采集的语音的语音数据进行响应。

例如，当智能音箱采集到上述示例中的“我要听”、“英语怎么说”的当前语音，因结合历史语音的语音数据得到的是当前语音输入完整的第二判定结果，因而会停止继续采集，并对当前语音的语音数据进行响应。

需要说明的是，在本公开的实施例中，语音设备停止采集当前语音，并非是语音设备不再采集语音。停止采集当前语音是表示当前语音已经采集完整，语音设备会将后续采集的语音作为下一条语音，并基于下一条语音来执行本公开的处理方法。

如前所述的，为了减少语音设备对不完整的当前语音进行响应而造成错误响应或拒绝响应的现象发生，可采用延时响应策略。而本公开，在基于当前语音的语音数据确定当前语音输入未停止时，进一步的基于当前语音的语音数据和历史语音的语音数据再次确定当前语音是否输入停止，并在判定语音输入停止的情况下即给出响应。通过该方式，语音设备可能无需等待预定时长后再给响应，因而能在不降低语音设备响应精确度的情况下，加快语音设备的响应速度。

在本公开的实施例中，在基于当前语音的语音数据和历史语音的语音数据获得表征当前语音是否输入停止的第二判定结果时，可以是利用句子成分分析获得当前语音的语音数据缺失的成分，并从历史语音的语音数据中寻找缺失的成分并对当前语音的语音数据进行补充，再利用语义分析来确定补充后的语音数据是否完整以确定当前语音是否完整；也可以直接利用分类模型，使用该分类模型无需事先利用句子成分分析获得当前语音的语音数据缺失的成分。

在一种实施例中，该分类模型可以是语境分类模型，所述基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果，包括：

在该实施例中，语境分类模型是通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。例如，对包括如前述的当前语音“我要听”以及对应历史语音的第一类语境下的语音样本数据，以及包括如当前语音为“读一下”、对应的历史语音为“吃饭”等第二类语境下的语音样本数据采用神经网络方式进行训练后获得。其中，第一类语境是指语音完整的语境，第二类语境是指语音不完整的语境。

基于训练后的语境分类模型，将当前语音的语音数据和历史语音的语音数据输入到该语境分类模型后，即可直接得出表征当前语音是否输入停止的第二判定结果。

需要说明的是，在语境分类模型中，可通过ASR技术对语音样本数据进行处理获得ASR文本，当前语音的语音数据和历史语音的语音数据输入到语境分类模型后，也会转换为ASR文本后再进行判定。

在一种实施例中，所述将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果，包括：

在该实施例中，在语境分类模型中引入了自注意力(self-attention)机制，通过自注意机制的引入可突出重点关注部分，即可获得能表征语音数据中各词语的关注程度的权重值，不同的权重值大小代表了不同的关注程度。通常，关注度越高，则权重值越大。

在本公开的实施例中，对当前语音的语音数据进行自注意力分析，即对当前语音的语音数据中的词语分配不同的关注度，其中重点关注的可能是当前语音的语音数据中被省略(“缺失”)的部分。

需要说明的是，基于句子语法结构，句子本身即可反应出其是否缺失成分，而不需要额外的信息。例如：“我喜欢吃饭”是完整的句子，而“我喜欢”在不加任何语境的情况下是不完整的，而且缺少“喜欢”的宾语。因此，在本公开实施例中，对当前语音的语音数据进行计算，相当于使用当前语音的语音数据来获得能表征对词语的关注程度的权重，例如通过自注意力机制，分配给“喜欢”的权重可能更大。

该实施例中，对当前语音的语音数据进行自注意力分析获得的权重矩阵，会用作卷积运算的卷积核，被卷积对象是历史语音的语音数据。如前所述的，关注度越高，则权重值越大，那么卷积核中权重值大的部分对应的历史语音的部分词语对第二判定结果的影响程度就越大。在本公开实施例中，权重值大的部分对应的历史语音的部分词语可能是当前语音的语音数据中被省略的部分。

在该实施例中，对当前语音的语音数据利用自注意力机制确定卷积核，即基于不同的当前语音，可“定制”不同的卷积核。卷积核可以视为一种特征的权重，通过卷积核对历史语音的语音数据进行卷积，即将历史语音的语音数据的特征以相应的权重进行组合。然而如果对所有的句子(历史语音的语音数据)全部使用相同的卷积核，那么对于中心词语来说，其句子中其他词语的权重由其与中心词语的相对位置对决定，而非中心词语本身。然而，在语言中，对于中心词语有直接影响的词语不一定每一个都出现在相同的位置，因此使用同样的卷积核并不能凸显出当前语音的语音数据的特性，因而不能凸显出当前语境的特性并做针对性的特征抽取。

可以理解的是，本公开相对于如图2所示的模型或其他神经网络模型，基于当前语音的语音数据针对性的确定卷积核再对历史语音的语音数据进行卷积，即针对当前语境进行定制的方式，能提升第二判定结果的精准度。

如下公式(1)是自注意力机制的计算公式：

上述公式(1)中，Q代表当前词的词向量做过映射处理后的矩阵，K代表语音中所有词的词向量经映射处理后的矩阵，V是系数矩阵，也是经映射处理后的矩阵，d是常数。

自注意力机制先对Q和K进行相似度计算，得到权值；然后采用softmax对权值进行归一化，得到权重；再将权重和V进行加权求和，从而能获得各词语相对当前词的关注程序的权重值。

本公开实施例中，将通过自注意力机制计算得到的结果记为

其中w*d表示卷积核的大小，w表示卷积时滑动窗口的大小，即取词的数量。需要说明的是，w可根据需求来设定大小；d表示是词向量的维度；heads表示多头的数量，即卷积核的个数，卷积核的个数与前述做映射时的映射次数相同。本公开使用“A”来表示已经突出重点“缺失”部分的当前语音。

此外，如前所述的，历史语音的语音数据包括同一次唤醒中语音设备接收的当前语音之前的由用户发出的语音，还包括语音设备接收当前语音之前由语音设备给出的语音响应。需要说明的是，在该实施例中，历史语音可以是当前语音之前的部分交互语音，例如可以是当前语音之前的前两次交互语音，也可以是前三次交互语音等，本公开实施例不做限制。

在一种实施例中，所述根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果，包括：

在该实施例中，在获得第二判定结果时，并非是直接根据卷积结果做后续操作，而是将当前语音的语音数据和卷积结果进行拼接。可以理解的是，由于当前语音的语音数据本身带有一定的信息，所以纳入当前语音的语音数据能提供更多的特征，因而能提升第二判定结果获得的精准度。

需要说明的是，本公开在通过自注意力机制对当前语音的语音数据进行处理来确定卷积核以及将当前语音的语音数据和卷积结果进行拼接的操作，均是基于在训练获得语境分类模型时所做的同样操作。此外，本公开在训练获得语境分类模型时，可采用Adam方法做优化，以提升训练速度。

图3是本公开实施例中一种语境分类模型的网络结构图，如图3所示，输入包含两个部分，一个是样本数据中被标识为当前语音的语音数据(Query)，另一部分则是样本数据中被标识为历史语音的语音数据(Contexts)。这里我们取历史语音为当前语音的前两次(k＝2)交互语音。

前两次交互语音一共包含四个部分，语音设备的一次语音采集C_u1，语音设备对应的一次响应C_a1；语音设备的另一次语音采集C_u2，语音设备对应的一次响应C_a2；其中，C_u1、C_a1、C_u2和C_a2均可以是ASR文本。在处理时，不对这些采集的语音与响应进行分词，直接将其他们按照顺序拼接，得到Contexts，为区隔每个部分的，在两两之间增加一个特殊字符<S>，即如下公式(2)：

Contexts＝[C_u1,<S>,C_a1,<S>,C_u2,<S>,C_a2] (2)

需要说明的是，在该实施例中，按照k＝2进行训练时，若历史语音交互次数不足两次时，需进行数据填充以保证处理时矩阵大小的一致性。

我们将历史语音的语音数据和当前语音的语音数据本身输入到图3的编码层，通过编码层将历史语音的语音数据和当前语音的语音数据分别编码得到C_i和Q_i。其中

l₁和l₂分别表示历史语音的语音数据长度以及当前语音的语音数据长度，d表示编码表征的大小。

本公开实施例中，可采用BERT模型来获得历史语音的语音数据和当前语音的语音数据的表征。BERT模型的关键是采用了一种名为掩蔽语言模型(Masked LanguageModeling)的技术，它允许在模型中同时利用左侧和右侧的词语从而进行双向训练来提升精度。

经过编码层之后，即可基于编码获得的当前语音的语音数据的表征Q_i利用自注意力机制来确定卷积核A。在确定卷积核之后，即可对历史语音的语音数据的表征C_i进行卷积操作。具体的，C_i为被卷积矩阵，A为卷积核，卷积后为Conv，即图3中的卷积结果。

需要说明的是，在卷积过程中，可采用“SAME”的填充方式，不改变C_i的大小，以便于后续在调整参数时不用考虑尺寸变化。

经过卷积操作之后，即可将当前语音的语音数据的表征Q_i和卷积结果进行全连接，需要说明的是，在将当前语音的语音数据的表征Q_i和卷积结果Conv进行全连接前，需压缩Q_i，以使Q_i的矩阵大小和Conv一致以便于拼接。全连接之后，即可得到当前语音是否输入完整的第二判定结果。

如前所述的，语境分类模型是通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。语境分类模型在训练时，可通过预定的损失函数来调整模型中的参数，以得到分类效果更好的模型。本公开使用的损失函数可以是交叉熵损失函数，如下公式(3)：

其中，

表示样本的真实类别，y_i表示模型预测的标签，T为训练样本的个数。

可以理解的是，本公开训练语境分类模型时，不仅针对性的确定卷积核来抽取特征，且还将当前语音的语音数据的信息拼接至卷积后的特征，使得在利用语境分类模型获得表征当前语音是否输入停止的第二判定结果时，能获得准确度较高的第二判定结果。

图4是本公开实施例示出的一种信息处理方法流程示例图，应用于智能音箱中，如图4所示，包括如下步骤：

S101、智能音箱采集当前语音获得语音数据。

在该实施例中，智能音箱即语音设备。

S102、智能音箱确定当前语音是否是本轮交互的首条语音，若是，执行步骤S103至S104；若否，执行步骤S105至S108。

S103、若是首条语音，根据当前语音的语音数据确定当前语音是否输入停止的判定结果。

在该实施例中，步骤S103获得的判定结果为第一判定结果。

S104、根据第一判定结果执行相应的操作。

在该实施例中，执行响应的操作可包括对当前语音做出响应。

S105、若不是首条语音，根据当前语音的语音数据确定当前语音是否输入停止的判定结果；若是，执行步骤S106；若否，执行步骤S107。

在该实施例中，步骤S105获得的判定结果也为第一判定结果。

S106、若当前语音的语音数据获得的判定结果表征当前语音输入停止，给出响应。

在该实施例中，给出响应即对当前语音的语音数据进行语音指令的响应。

S107、若当前语音的语音数据获得的判定结果表征当前语音输入未停止，根据当前语音的语音数据和历史语音的语音数据确定当前语音输入是否停止的第二判定结果。

S108、根据第二判定结果执行相应的操作。

在该实施例中，根据第二判定结果执行相应的操作，包括：若第二判定结果表征当前语音输入停止，则对当前语音的语音数据进行语音指令的响应；若第二判定结果表征当前语音输入未停止，则继续采集当前语音的语音数据。

可以理解的是，本公开实施例在语音交互过程中，智能音箱在基于当前语音的语音数据确定当前语音输入未停止时，进一步的基于当前语音的语音数据和本轮交互的历史语音的语音数据再次确定当前语音是否输入停止，并在进一步确定当前语音输入未停止的情况下，继续采集语音数据。通过该方式，结合本轮交互的历史语音的语音数据，即结合语境可更准确的判断当前语音是否输入完整，减少因仅基于当前语音来判断时造成的误将完整的语音判定为不完整语音的现象的发生，一方面，使得语音设备可容忍用户说话停顿或自然语言环境下的语义省略，能提升用户交互的自然性；另一方面，减少智能音箱不必要的持续采集，从而能使智能音箱快速做出响应并能基于当前已经完整的语音给出更精确的响应，提升用户的使用体验。

图5是根据一示例性实施例示出的一种信息处理装置图。参照图5，该信息处理装置包括：

采集模块101，配置为采集当前语音得到语音数据；

第一获得模块102，配置为基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果；

第二获得模块103，配置为若所述第一判定结果表征所述当前语音输入未停止，基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果；

所述采集模块101，还配置为若所述第二判定结果表征所述当前语音未停止输入，继续采集所述当前语音的语音数据。

在一种实施例中，所述第二获得模块103，具体配置为将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果；其中，所述语境分类模型为：通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。

在一种实施例中，所述第二获得模块103，具体配置为基于所述语境分类模型中的自注意力机制对所述当前语音的语音数据进行处理，确定卷积核；所述卷积核包括：所述当前语音的语音数据中各词语的关注程度的权重值；利用所述卷积核与所述历史语音的语音数据进行卷积，获得卷积结果；根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果。

在一种实施例中，所述第二获得模块103，具体配置为将所述当前语音的语音数据和所述卷积结果进行拼接，利用所述语境分类模型得到所述第二判定结果。

在一种实施例中，所述装置还包括：

检测模块104，配置为检测所述当前语音是否是本轮交互检测的首条语音；

所述第二获得模块103，具体配置为若所述当前语音不是本轮交互检测的首条语音，基于所述当前语音的语音数据和所述本轮交互的历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果。

在一种实施例中，所述检测模块104，具体配置为确定在所述当前语音的预设历史时长内的历史语音是否获得语音指令的响应；若所述预设历史时长内的历史语音未获得响应，确定所述当前语音是所述本轮交互检测的首条语音。

在一种实施例中，所述第一获得模块102，具体配置为利用句子边界检测SBD方法对所述语音数据进行分析，获得表征所述当前语音是否输入停止的所述第一判定结果。

在一种实施例中，所述装置还包括：

停止模块105，配置为若所述第二判定结果为所述当前语音停止输入，则停止采集所述当前语音；

响应模块106，配置为在停止采集所述当前语音之后，基于采集得到的所述语音数据进行语音指令的响应。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种语音设备装置800的框图。例如，装置800可以是智能音箱、智能手机等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他语音元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行控制方法，所述方法包括：

采集当前语音得到语音数据；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，应用于语音设备，包括：

采集当前语音得到语音数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前语音的语音数据和历史语音的语音数据获得表征所述当前语音是否输入停止的第二判定结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

检测所述当前语音是否是本轮交互检测的首条语音；

6.根据权利要求5所述的方法，其特征在于，所述检测所述当前语音是否是本轮交互检测的首条语音，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据获得表征所述当前语音是否输入停止的第一判定结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种信息处理装置，其特征在于，应用于语音设备，包括：

采集模块，配置为采集当前语音得到语音数据；

10.根据权利要求9所述的装置，其特征在于，

所述第二获得模块，具体配置为将所述当前语音的语音数据和所述历史语音的语音数据输入到语境分类模型，得到所述第二判定结果；其中，所述语境分类模型为：通过对不同语境下的语音样本数据采用神经网络方式进行训练后获得。

11.根据权利要求10所述的装置，其特征在于，

所述第二获得模块，具体配置为基于所述语境分类模型中的自注意力机制对所述当前语音的语音数据进行处理，确定卷积核；所述卷积核包括：所述当前语音的语音数据中各词语的关注程度的权重值；利用所述卷积核与所述历史语音的语音数据进行卷积，获得卷积结果；根据所述卷积结果，利用所述语境分类模型得到所述第二判定结果。

12.根据权利要求11所述的装置，其特征在于，

所述第二获得模块，具体配置为将所述当前语音的语音数据和所述卷积结果进行拼接，利用所述语境分类模型得到所述第二判定结果。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，

15.根据权利要求9所述的装置，其特征在于，

所述第一获得模块，具体配置为利用句子边界检测SBD方法对所述语音数据进行分析，获得表征所述当前语音是否输入停止的所述第一判定结果。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

17.一种信息处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至8中任一项所述的信息处理方法。

18.一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如权利要求1至8中任一项所述的信息处理方法。