CN111768769A

CN111768769A - 语音交互方法、装置、设备及存储介质

Info

Publication number: CN111768769A
Application number: CN201910196765.XA
Authority: CN
Inventors: 曹元斌; 张智超; 徐涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2020-10-13

Abstract

本公开提出了一种语音交互方法、装置、设备及存储介质。针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取第一语音的第一声纹特征；接收第一语音之后的第二语音；确定第二语音中与第一声纹特征相匹配的语音部分的语音识别结果；基于语音识别结果，为用户提供服务。由此可以解决因不能区分说话人，而导致的语音识别错误的问题。

Description

语音交互方法、装置、设备及存储介质

技术领域

本公开涉及语音交互领域，特别是涉及一种语音交互方法、装置、设备及存储介质。

背景技术

语音交互属于人机交互的范畴，是人机交互发展到现在的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令，以达成自己的目的的过程。

目前的语音交互方案主要是利用ASR(Automatic Speech Recognition，自动语音识别)技术从语音输入的频谱抽出来的特征，来识别出文本内容。在语音交互过程中不能区分语音的来源，因此，如果语音交互过程中除了使用者外，附近有其他人说话，则会导致语音识别错误，降低用户的体验。

例如，在智能音箱这一语音场景下，不同于手机端，音箱会接收来自四面八方所有使用人的语音信号，于是在智能音箱的场景下，当使用者对音箱下命令的同时，如果有其他人也在进行说话，则会导致语音识别错误，带来不好的用户体验。

因此，需要一种能够提高语音识别的准确度的语音交互方案。

发明内容

本公开的一个目的在于提供一种能够提高语音识别的准确度的语音交互方案。

根据本公开的第一个方面，提出了一种语音交互方法，包括：针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取第一语音的第一声纹特征；接收第一语音输入之后的第二语音；确定第二语音中与第一声纹特征相匹配的语音输入部分的语音识别结果；基于语音识别结果，为用户提供服务。

可选地，确定第二语音中与第一声纹特征相匹配的语音部分的语音识别结果的步骤包括：识别第二语音的文本内容；获取文本内容中各个字或词对应的第二语音中的语音片段的第二声纹特征；确定第二声纹特征与第一声纹特征的相似度大于预定阈值的语音片段；基于所确定的语音片段所对应的字或词，得到语音识别结果。

可选地，该方法还包括：去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果。

可选地，所述去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果的步骤包括：识别所述第二语音的文本内容；获取所述文本内容中各个字或词对应的所述第二语音中的语音片段的第二声纹特征；去除所述第二声纹特征与所述第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。

可选地，第一声纹特征为第一语音中与唤醒词对应的语音部分的声纹特征。

可选地，该方法还包括：将第一声纹特征与声纹特征库中的声学特征进行比较，其中，声纹特征库中的声学特征为已注册用户的声学特征；在声纹特征库中不存在与第一声纹特征相匹配的声学特征的情况下，将第一声纹特征注册为新用户，并将第一声纹特征保存到声纹特征库中。

根据本公开的第二个方面，还提出了一种语音交互方法，包括：针对接收到的语音进行唤醒检测；在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声纹特征；确定语音中与第一声纹特征相匹配的第二语音部分的语音识别结果；基于语音识别结果，为用户提供服务。

可选地，确定语音中与第一声纹特征相匹配的第二语音部分的语音识别结果的步骤包括：识别语音部分的文本内容；获取文本内容中各个字或词对应的语音中的语音片段的第二声纹特征；确定第二声纹特征与第一声纹特征的相似度大于预定阈值的语音片段；基于所确定的语音片段所对应的字或词，得到语音识别结果。

可选地，该方法还包括：去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果。

可选地，所述去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果的步骤包括：识别所述语音的文本内容；获取所述文本内容中各个字或词对应的所述语音中的语音片段的第二声纹特征；去除所述第二声纹特征与所述第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。

根据本公开的第三个方面，还提出了一种语音交互方法，包括：针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取第一语音的第一声学特征；接收第一语音输入之后的第二语音；确定第二语音中与第一声学特征相匹配的语音部分的语音识别结果；基于语音识别结果，为用户提供服务。

根据本公开的第四个方面，还提出了一种语音交互方法，包括：针对接收到的语音进行唤醒检测；在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声学特征；确定语音中与第一声学特征相匹配的第二语音部分的语音识别结果；基于语音识别结果，为用户提供服务。

根据本公开的第五个方面，还提出了一种用于提供语音交互服务的电子设备，包括：语音接收装置，用于接收用户的语音；唤醒检测装置，用于针对接收到的语音进行唤醒检测；声学特征获取装置，用于在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声纹特征；语音识别结果确定装置，用于确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果；服务装置，用于基于语音识别结果，为用户提供服务。

可选地，电子设备为智能音箱。

根据本公开的第六个方面，还提出了一种语音交互装置，包括：唤醒检测模块，用于针对接收到的第一语音进行唤醒检测；获取模块，用于在唤醒成功的情况下，获取第一语音的第一声学特征；接收模块，用于接收所述第一语音之后的第二语音；确定模块，用于确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果；服务模块，用于基于语音识别结果，为用户提供服务。

根据本公开的第七个方面，还提出了一种语音交互装置，包括：唤醒检测模块，用于针对接收到的语音进行唤醒检测；获取模块，用于在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声学特征；确定模块，用于确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果；服务模块，用于基于语音识别结果，为用户提供服务。

根据本公开的第八个方面，还提出了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面至第四个方面中任一个方面述及的方法。

根据本公开的第九个方面，还提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面至第四个方面中任一个方面述及的方法。

本公开通过在唤醒成功后，获取唤醒人的声学特征(例如声纹)，然后在语音识别的时候，根据唤醒人的声学特征筛选出只属于唤醒人的语音信号进行语音识别，由此可以解决因不能区分说话人，而导致的语音识别错误的问题。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一实施例的语音交互方法的示意性流程图。

图2以智能音箱应用场景为例示出了语音交互过程的示意性流程图。

图3示出了根据本公开另一实施例的语音交互方法的示意性流程图。

图4示出了根据本公开一实施例的电子设备的结构的示意性方框图。

图5示出了根据本公开一实施例的语音交互装置的结构的示意性方框图。

图6示出了根据本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在语音交互场景中，语音交互设备可能会接收到多个说话人的语音，在有人做出语音命令的同时，如果旁边有别人也在说话，会导致语音识别错误，降低用户的语音交互体验。例如，在智能音箱的使用场景中，智能音箱面对的用户不是固定的单个用户，而可以是多个用户。并且由于智能音箱可以接收来自四面八方的语音信号，因此如果有人对音箱下命令的同时，旁边有别人也在说话，则会导致语音识别错误，影响音箱后续对话***的正确运作。

针对上述问题，本公开发明人在深入研究后发现，在语音交互场景中，唤醒人一般与后续发出语音指令的说话人属于同一人。例如，在智能音箱的使用场景中，一般需要用户先说出唤醒词，再说出具体的语音指令，才能指令智能音箱执行相应的服务(如歌曲播放服务)。

有鉴于此，本公开提出，可以在设备唤醒成功后，获取唤醒人的声学特征，在进行语音识别时，可以根据唤醒人的声学特征，筛选出只属于唤醒人的语音信号，并根据筛选出的语音信号进行语音识别。由此，通过跟踪语音唤醒时说话人的声学特征，可以解决因不能区分说话人，而导致的语音识别错误的问题。

本公开述及的声学特征优选地是声纹特征。作为可选实施例，声学特征也可以是音量、音调、音色等其他类型的声学特征。例如，女生的音调较高，男生的音调较低，因此在唤醒人是女生，周围其他说话人是男生的情况下，可以根据唤醒人发出的唤醒指令的音调，筛选出只属于唤醒人的语音信号。再例如，在唤醒人和周围说话人与语音交互设备的距离不同，或者唤醒人的音量与周围说话人有明显区别的情况下，也可以根据唤醒人发出的唤醒指令的音量，筛选出只属于唤醒人的语音信号。

下面以声学特征为声纹特征为例，就本公开的语音交互方案进行示例性说明。应该知道，在下文述及的方案中，声纹特征也可以用音量、音调、音色等声学特征替代。

图1示出了根据本公开一实施例的语音交互方法的示意性流程图。其中，图1所示的方法可以由支持语音交互服务的设备执行，例如可以由智能音箱执行。

参见图1，在步骤S110，针对接收到的第一语音进行唤醒检测。

唤醒检测主要是检测第一语音中是否存在特定的唤醒词。在检测到第一语音中存在唤醒词的情况下，可以判定唤醒成功，然后可以进行后续的语音识别流程，识别用户的语音交互指令。在检测到第一语音中不存在特定的唤醒词的情况下，唤醒失败，对于此后接收到的语音，可以继续执行唤醒检测流程。

可以利用多种方式进行唤醒检测。例如，在进行唤醒检测时，可以首先将接收到的第一语音进行信号处理和特征抽取，以将音频转换成特征(如可以是MFCC特征)，特征可以进入唤醒引擎，用于判断是否命中唤醒词，当命中唤醒词时，即可以判断唤醒成功。再例如，也可以利用预先构建的唤醒检测模型，来对第一语音进行唤醒检测，其中，唤醒检测模型可以是神经网络模型。关于唤醒检测的具体实现手段为本领域成熟技术，此处不再赘述。

在步骤S120，在唤醒成功的情况下，获取第一语音的第一声纹特征。

第一声纹特征可以是第一语音中与唤醒词对应的语音部分的声纹特征，也即第一语音中被检测为唤醒词的语音部分的声纹特征。第一声纹特征可以用于表征唤醒人。

在步骤S130，接收第一语音之后的第二语音。

在步骤S140，确定第二语音中与第一声纹特征相匹配的语音部分的语音识别结果。

在步骤S150，基于语音识别结果，为用户提供服务。

针对第一语音之后接收到的第二语音，可以根据第二语音中与第一声纹特征相匹配的语音部分的语音识别结果，为用户提供服务。由此，在第二语音包括多个说话人的语音输入的情况下，可以根据唤醒人的第一声纹特征，从第二语音中选出与唤醒人的声纹特征相匹配的语音部分，并基于选取的语音部分的语音识别结果，为用户提供相应的服务。

作为本公开的一个示例，可以首先利用语音识别技术识别第二语音的文本内容，在识别出第二语音的文本内容后，可以将识别到的各个字或词与第二语音中相应的语音片段关联起来。由此，可以获取文本内容中各个字或词对应的第二语音中的语音片段的第二声纹特征，然后将各个字或词对应的第二语音中的语音片段的第二声纹特征与第一声纹特征进行比对，以得到各个字或词对应的第二语音中的语音片段的第二声纹特征与第一声纹特征的相似度。可以将第二声纹特征与第一声纹特征的相似度大于预定阈值的语音片段，确定为与第一声纹特征相匹配语音部分，由此可以基于所确定的语音片段所对应的字或词，得到语音识别结果。

作为本公开的另一个示例，也可以去除第二语音中与第一声纹特征不匹配的语音部分的语音识别结果，由此最终保留的语音识别结果即是与第一声纹特征相匹配的语音输入部分的语音识别结果。例如，可以利用语音识别技术识别第二语音的文本内容，在识别出第二语音的文本内容后，可以将识别到的各个字或词与第二语音中相应的语音片段关联起来。然后可以获取文本内容中各个字或词对应的第二语音中的语音片段的第二声纹特征，并去除第二声纹特征与第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。由此，基于最终保留的字或词，就可以得到与第一声纹特征相匹配的语音部分的语音识别结果。

在本公开中，可以利用语音识别技术识别第二语音的文本内容。语音识别技术的具体实现手段为本领域成熟技术。下面仅就利用语音识别技术识别第二语音的文本内容的过程进行示例性说明。

一般来说，可以将第二语音进行分帧处理，分成多帧音频，其中每帧音频的长度可以根据实际情况设定。然后可以对每帧音频进行特征提取，如可以提取MFCC特征。然后可以根据提取的特征，将帧音频识别为状态，将识别到的状态组合成音素，将音素合成为字或词，由此最终可以得到第二语音对应的文本内容。

作为示例，可以将第二语音分成等长的窗口，然后在每个窗口内计算特征，计算得到的特征可以进入声学模型，由声学模型计算每个音素的概率分布，最后进入解码器，得到最终的解码结果，由此可以得到第二语音对应的文本内容。其中，在进行解码时，可以利用WFST模型进行Viterbi搜索，以得到最终的解码结果。WFST(Weighted Finaite-statetransducer)用于大规模的语音识别，包括HMM模型、词典、n-gram语言模型。Viterbi算法用于于寻找最可能的隐藏状态序列。

在利用WFST模型进行解码时，所用到的WFST模型由四种WFST网络级联组成：1、HMM声学模型WFST(简称H)；2、上下文相关WFST(简称C)；3、发音词典WFST(简称L)；4、语言模型WFST(简称G)。H是声学模型状态，C是phone的上下文映射，L是发音词典，G是语言模型，最终合成HCLG网络。声学模型预测出来声学模型状态通过在HCLG网络上一层一层搜索，最终找到词的概率以及对应组成的句子的概率。在动态解码器中，WFST模型会被分成两部分，HCL一个网络，G一个网络，模型状态过了HCL网络，得到词的概率序列，再过G网络得到句子的概率。在end-to-end(端对端)的声学模型中，采用TLG的结构，T等同于原来的HC部分，代表token网络，在动态解码中，类似的拆解为TL和G两个网络。关于利用WFST模型、TLG网络均为本领域成熟技术，此处不再赘述。

参见图2，当有人对音箱说话(1)时，可以先走唤醒流程，检测唤醒词，如果检测到唤醒，则进一步接收音频并识别，在识别之前，先提取检测到的唤醒词所对应的音频的特征(2)，计算对应的声纹(4)，然后可以将计算得到的声纹与预先注册的声纹模型进行匹配(5)，如可以计算与各个已注册声纹模型的相似度得分(6)，其中，每个声纹模型对应一个用户(也即唤醒人)，在存在与计算得到的声纹的相似度高于预定阈值的声纹模型的情况下，该声纹模型所对应的用户即为唤醒人。在不存在与计算得到的声纹的相似度高于预定阈值的声纹模型的情况下，可以将计算得到的声纹进行注册(3)，注册为新的声纹模型，也即注册新用户，所注册的新用户即为唤醒人。在找到对应的唤醒人(7)后，保留该唤醒人信息，以供后面语音识别里，比对唤醒人(18)时使用。

唤醒的工作结束后，继续接收用户的说话信号(8)，然后通过声学模型，计算声学模型分(9)，将声学模型分灌入TL/HCL网络做Viterbi搜索(10)，得到各个字或词的概率，将抽出来的字或词对应的特征(12)，同样计算声纹(13)，然后可以将计算得到的声纹与所注册的声纹模型进行匹配(14)，如可以计算声纹与各个已注册声纹模型的相似度得分(15)，由此可以得到各个字或词对应的特征的声纹所对应的声纹模型，也即得到各个字或词对应的唤醒人(16)。

然后将各个字或词对应的唤醒人与之前唤醒检测时得到的唤醒人进行比对(18)，过滤掉不属于唤醒检测时得到的唤醒人的词汇(17)，这里，就把没有发出命令人的说话内容全部过滤掉了，剩下的词继续灌入G网络做最后一步解码(19)得到句子概率(20)，最后可以基于最终得到的句子为用户语音交互服务。

在本公开的一个实施例中，在进行唤醒检测时，还可以将第一声纹特征与声纹特征库中的声学特征进行比较，其中，声纹特征库中的声学特征为已注册用户的声学特征。由此，还可以判断发出第一语音的用户是不是某个已注册用户。可选地，可以在第一语音中存在唤醒词且第一语音的用户是已注册用户的情况下，才真正唤醒成功。可选地，在声纹特征库中不存在与第一声纹特征相匹配的声学特征的情况下，可以将第一声纹特征注册为新用户，并将第一声纹特征保存到声纹特征库中。

图3示出了根据本公开另一实施例的语音交互方法的示意性流程图。其中，图3所示的方法可以由支持语音交互服务的设备执行，例如可以由智能音箱执行。

与上文结合图1描述的语音交互方法不同的是，上文结合图1描述的语音交互方法支持的语音交互场景是用户先说出唤醒词进行设备唤醒，再发出语音指令来指令设备执行相应的操作。以智能音箱为例，用户需要按照“唤醒词+语音交互指令”的模式，发出语音，才能与智能音箱交互。

在下文结合图3描述的实施例中，用户既可以先说出唤醒词进行设备唤醒，再发出语音指令来指令设备执行相应的操作，也可以先发出语音指令，再说出唤醒词。也就是说，用户既可以按照“唤醒词+语音交互指令”的模式，发出语音，实现交互，也可以按照“语音交互指令+唤醒词”的模式，发出语音，实现交互。例如，假设智能音箱的唤醒词为“小A”，则用户可以通过说出“小A，给我播放一首歌曲”，指令音箱播放音乐，也可以通过说出“给我播放一首歌曲，小A”，指令音箱播放音乐。

参见图3，在步骤S210，针对接收到的语音进行唤醒检测。

此处述及的语音可以是从检测到有语音活动到语音活动结束所检测到的语音。所接收到的语音中可以包括一个或多个人的语音。

针对接收到的语音进行唤醒检测，主要是检测语音中是否存在特定的唤醒词。在检测到语音中存在唤醒词的情况下，可以判定唤醒成功，然后可以进行后续的语音识别流程，从语音中识别出目标用户的语音交互指令。在检测到语音中不存在特定的唤醒词的情况下，唤醒失败，对于此后接收到的语音，可以继续执行唤醒检测流程。关于唤醒检测可以参见上文相关描述，此处不再赘述。

在步骤S220，在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声纹特征。

第一声纹特征也即语音中被检测为唤醒词的语音片段的声纹特征。第一声纹特征可以用于表征唤醒人。

在步骤S230，确定语音中与第一声纹特征相匹配的第二语音部分的语音识别结果。

在步骤240，基于语音识别结果，为用户提供服务。

在语音包括多个说话人的语音的情况下，可以通过第一声纹特征，从中选出与唤醒人的声纹特征相匹配的语音部分，并基于选取的语音部分的语音识别结果，为用户提供相应的服务。

作为本公开的一个示例，可以首先利用语音识别技术识别语音的文本内容，在识别出语音的文本内容后，可以将识别到的各个字或词与语音中相应的语音片段关联起来。由此，可以获取文本内容中各个字或词对应的语音中的语音片段的第二声纹特征，然后将各个字或词对应的语音中的语音片段的第二声纹特征与第一声纹特征进行比对，以得到各个字或词对应的语音中的语音片段的第二声纹特征与第一声纹特征的相似度。最后可以基于第二声纹特征与第一声纹特征的相似度大于预定阈值的语音片段所对应的字或词，得到语音识别结果。

作为本公开的另一个示例，也可以去除语音中与第一声纹特征不匹配的语音部分的语音识别结果，由此最终保留的语音识别结果即是与第一声纹特征相匹配的语音部分的语音识别结果。例如，可以利用语音识别技术识别语音的文本内容，在识别出语音的文本内容后，可以将识别到的各个字或词与语音中相应的语音片段关联起来。然后可以获取文本内容中各个字或词对应的语音中的语音片段的第二声纹特征，并去除第二声纹特征与第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。由此，基于最终保留的字或词，就可以得到与第一声纹特征相匹配的第二语音部分的语音识别结果。

利用语音识别技术识别语音的文本内容的实现过程，可以参见上文相关描述，此处不再赘述。

图4示出了根据本公开一实施例的电子设备的结构的示意性方框图。其中，图4所示的电子设备400可以是任何支持语音交互服务的电子设备，如可以是智能音箱。

参见图4，电子设备400包括语音接收装置410、唤醒检测装置420、声学特征获取装置430、语音识别结果确定装置440以及服务装置450。

在本公开的一个实施例中，语音接收装置410用于接收用户的语音。唤醒检测装置420用于针对接收到的语音进行唤醒检测。声学特征获取装置430用于在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声纹特征。语音识别结果确定装置440用于确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果。服务装置450用于基于语音识别结果，为用户提供服务。

根据本公开示例性实施例的电子设备400的具体实现方式可以参照上文结合图3描述的相关具体实现方式来实现，在此不再赘述。

在本公开的另一个实施例中，语音接收装置410可以接收第一语音，唤醒检测装置420可以用于针对接收到的第一语音进行唤醒检测。在唤醒成功的情况下，声学特征获取装置430可以获取第一语音的第一声纹特征。语音接收装置410还可以继续接收第一语音之后的第二语音。语音识别结果确定装置440可以确定第二语音中与所述第一声纹特征相匹配的语音部分的语音识别结果。服务装置450可以基于第二语音中与第一声纹特征相匹配的语音部分的语音识别结果，为用户提供服务。

根据本公开示例性实施例的电子设备400的具体实现方式可以参照上文结合图1描述的相关具体实现方式来实现，在此不再赘述。

图5示出了根据本公开一实施例的语音交互装置的结构的示意性方框图。其中，语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图5所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图5，语音交互装置500包括唤醒检测模块510、获取模块520接收模块530、确定模块540以及服务模块550。

在本公开的一个实施例中，唤醒检测模块510用于针对接收到的第一语音进行唤醒检测。获取模块520用于在唤醒成功的情况下，获取第一语音的第一声学特征。接收模块530用于接收所述第一语音之后的第二语音。确定模块540用于确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果。服务模块550用于基于语音识别结果，为用户提供服务。

可选地，确定模块540可以包括识别模块、第二声学特征获取模块、音频片段确定模块以及识别结果获取模块。识别模块用于识别第二语音的文本内容。第二声学特征获取模块用于获取文本内容中各个字或词对应的第二语音中的语音片段的第二声学特征。音频片段确定模块用于确定所述第二声纹特征与所述第一声纹特征的相似度大于预定阈值的语音片段。识别结果获取模块用于基于所确定的语音片段所对应的字或词，得到语音识别结果。

可选地，语音交互装置500还可以包括去除模块，用于去除所述第二语音中与所述第一声学特征不匹配的语音部分的语音识别结果。

在本公开的另一个实施例中，唤醒检测模块510用于针对接收模块530接收到的语音进行唤醒检测。获取模块520用于在唤醒成功的情况下，获取语音中与唤醒词对应的第一语音部分的第一声学特征。确定模块540用于确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果。服务模块550用于基于语音识别结果，为用户提供服务。

可选地，确定模块540可以包括识别模块、第二声学特征获取模块、音频片段确定模块以及识别结果获取模块。识别模块用于识别语音的文本内容。第二声学特征获取模块用于获取文本内容中各个字或词对应的语音中的语音片段的第二声学特征。音频片段确定模块用于确定第二声学特征与第一声学特征的相似度大于预定阈值的语音片段，识别结果获取模块用于基于所确定的语音片段所对应的字或词，得到语音识别结果。

可选地，语音交互装置500还可以包括去除模块，用于去除语音中与第一声学特征不匹配的语音部分的语音识别结果。

作为示例，语音交互装置500还可以包括比较模块和注册模块。比较模块用于将第一声学特征与声学特征库中的声学特征进行比较，其中，声学特征库中的声学特征为已注册用户的声学特征。注册模块用于在声学特征库中不存在与第一声学特征相匹配的声学特征的情况下，将第一声学特征注册为新用户，并将第一声学特征保存到声学特征库中。

根据本公开示例性实施例的语音交互装置500的具体实现方式可以参照上文结合图1至图3描述的相关具体实现方式来实现，在此不再赘述。

图6示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的语音交互方法。

上文中已经参考附图详细描述了根据本公开的语音交互方法、装置及设备。

此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本公开的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互方法，其特征在于，包括：

针对接收到的第一语音进行唤醒检测；

在唤醒成功的情况下，获取所述第一语音的第一声纹特征；

接收所述第一语音之后的第二语音；

确定所述第二语音中与所述第一声纹特征相匹配的语音部分的语音识别结果；

基于所述语音识别结果，为用户提供服务。

2.根据权利要求1所述的语音交互方法，其特征在于，所述确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果的步骤包括：

识别所述第二语音的文本内容；

获取所述文本内容中各个字或词对应的所述第二语音中的语音片段的第二声纹特征；

确定所述第二声纹特征与所述第一声纹特征的相似度大于预定阈值的语音片段；

基于所确定的语音片段所对应的字或词，得到所述语音识别结果。

3.根据权利要求1所述的语音交互方法，其特征在于，还包括：

去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果。

4.根据权利要求3所述的语音交互方法，其特征在于，所述去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果的步骤包括：

识别所述第二语音的文本内容；

去除所述第二声纹特征与所述第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。

5.根据权利要求1所述的语音交互方法，其特征在于，

所述第一声纹特征为所述第一语音中与唤醒词对应的语音部分的声纹特征。

6.根据权利要求1所述的语音交互方法，其特征在于，还包括：

将所述第一声纹特征与声纹特征库中的声学特征进行比较，其中，所述声纹特征库中的声学特征为已注册用户的声学特征；

在所述声纹特征库中不存在与所述第一声纹特征相匹配的声学特征的情况下，将所述第一声纹特征注册为新用户，并将所述第一声纹特征保存到所述声纹特征库中。

7.一种语音交互方法，其特征在于，包括：

针对接收到的语音进行唤醒检测；

在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声纹特征；

确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果；

基于所述语音识别结果，为用户提供服务。

8.根据权利要求7所述的语音交互方法，其特征在于，所述确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果的步骤包括：

识别所述语音的文本内容；

获取所述文本内容中各个字或词对应的所述语音中的语音片段的第二声纹特征；

9.根据权利要求7所述的语音交互方法，其特征在于，还包括：

去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果。

10.根据权利要求9所述的语音交互方法，其特征在于，所述去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果的步骤包括：

识别所述语音的文本内容；

11.根据权利要求7所述的语音交互方法，其特征在于，还包括：

12.一种语音交互方法，其特征在于，包括：

针对接收到的第一语音进行唤醒检测；

在唤醒成功的情况下，获取所述第一语音的第一声学特征；

接收所述第一语音输入之后的第二语音；

确定所述第二语音中与所述第一声学特征相匹配的语音部分的语音识别结果；

基于所述语音识别结果，为用户提供服务。

13.一种语音交互方法，其特征在于，包括：

针对接收到的语音进行唤醒检测；

在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声学特征；

确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果；

基于所述语音识别结果，为用户提供服务。

14.一种用于提供语音交互服务的电子设备，其特征在于，包括：

语音接收装置，用于接收用户的语音；

唤醒检测装置，用于针对接收到的语音进行唤醒检测；

声学特征获取装置，用于在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声纹特征；

语音识别结果确定装置，用于确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果；

服务装置，用于基于所述语音识别结果，为用户提供服务。

15.根据权利要求14所述的电子设备，其特征在于，所述电子设备为智能音箱。

16.一种语音交互装置，其特征在于，包括：

唤醒检测模块，用于针对接收到的第一语音进行唤醒检测；

获取模块，用于在唤醒成功的情况下，获取所述第一语音的第一声学特征；

接收模块，用于接收所述第一语音之后的第二语音；

确定模块，用于确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果；

服务模块，用于基于所述语音识别结果，为用户提供服务。

17.一种语音交互装置，其特征在于，包括：

唤醒检测模块，用于针对接收到的语音进行唤醒检测；

获取模块，用于在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声学特征；

确定模块，用于确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果；

服务模块，用于基于所述语音识别结果，为用户提供服务。

18.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。

19.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至13中任一项所述的方法。