CN110491383A

CN110491383A - 一种语音交互方法、装置、***、存储介质及处理器

Info

Publication number: CN110491383A
Application number: CN201910910484.6A
Authority: CN
Inventors: 陈孝良; 丁玉江; 李智勇
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2019-11-22
Anticipated expiration: 2039-09-25
Also published as: CN110491383B

Abstract

本发明公开了一种语音交互方法、装置、***、存储介质及处理器，该方法包括：获取输入语音流，将输入语音流派发给各个语音识别引擎进行语音识别，在得到各个语音识别结果选取目标语音识别结果；将目标语音识别结果派发给各个自然语言处理引擎，在得到各个语义处理结果中选取目标语义处理结果；依据目标语义处理结果对输入语音流进行回复。上述方法中，在各个语音识别结果中筛选出目标语音识别结果，将其派发给多个自然语言处理引擎，在得到的各个语义处理结果中选取目标语义处理结果，避免了语音交互过程采用单一的ASR、NLP、TTS进行处理，局限性比较大，若ASR和/或NLP识别不准，影响语音交互的问题。

Description

一种语音交互方法、装置、***、存储介质及处理器

技术领域

本发明涉及人机交互技术领域，尤其涉及一种语音交互方法、装置、***、存储介质及处理器。

背景技术

在语音交互过程中，智能音箱采集输入的语音数据，经过语音识别ASR(AutomaticSpeech Recognition)后将识别到的文字发送给自然语言处理NLP(NaturalLanguageProcessing)，采用语音合成技术TTS(Text To Speech)将语义理解后语音返回端侧进行播放。

现有的语音交互过程是采用单一的ASR、NLP、TTS对输入语音流进行处理，局限性比较大，若前期ASR识别不准，同时会影响到NLP的理解或者ASR识别准确，NLP理解不够，会影响到整个语音交互过程。

发明内容

有鉴于此，本发明提供一种基于区块链的基础设施服务方法及装置，用以解决现有的语音交互过程大都是单一的ASR、NLP、TTS的处理，局限性比较大，譬如前期ASR识别不准，同时会影响到NLP的理解或者ASR识别准确，如果NLP理解不够，同样会影响到整个语音交互过程的问题，具体方案如下：

一种语音交互方法，包括：

获取输入语音流，将所述输入语音流派发给各个目标语音识别引擎进行语音识别，得到各个语音识别结果；

在所述各个语音识别结果中选取目标语音识别结果；

将所述目标语音识别结果派发给各个目标自然语言处理引擎，得到各个语义处理结果；

在所述各个语义处理结果中选取目标语义处理结果；

依据所述目标语义处理结果对所述输入语音流进行回复。

上述的方法，可选的，在所述各个语音识别结果中选取目标语音识别结果，包括：

获取每一个语音识别结果的识别率；

将各个识别率中识别率最高的识别结果作为目标识别结果。

上述的方法，可选的，在所述各个语义处理结果中选取目标语义处理结果，包括：

获取每一个语义处理结果的置信度；

将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。

上述的方法，可选的，依据所述目标语义处理结果对所述输入语音流进行回复，包括：

获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体；

依据所述用户群体，确定目标语音合成引擎；

将所述目标回复通过所述目标语音合成引擎转换为输出语音流。

上述的方法，可选的，所述确定产生所述输入语音流的用户群体，包括：

获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果；

依据所述类型和/或所述人脸语音识别结果，确定所述用户群体。

一种语音交互装置，包括：

获取和识别模块，用于获取输入语音流，将所述输入语音流派发给各个目标语音识别引擎进行语音识别，得到各个语音识别结果；

语音识别结果选取模块，用于在所述各个语音识别结果中选取目标语音识别结果；

处理模块，用于将所述目标语音识别结果派发给各个目标自然语言处理引擎，得到各个语义处理结果；

处理结果选取模块，用于在所述各个语义处理结果中选取目标语义处理结果；

回复模块，用于依据所述目标语义处理结果对所述输入语音流进行回复。

上述的装置，可选的，所述回复模块包括：

获取和确定单元，用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体；

确定单元，用于依据所述用户群体，确定目标语音合成引擎；

转换单元，用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。

一种语音交互***，包括：云服务器、语音识别模块、语义处理模块、技能模块、语音合成模块和智能语音终端，其中，

所述云服务器用于获取所述智能语音终端采集的输入语音流，将所述输入语音流派发给所述语音识别模块进行语音识别，得到目标语音识别结果；

所述语音识别模块将所述目标语音识别结果发送给所述云服务器，所述云服务器将所述目标语音识别结果所述语义处理模块，得到目标语义处理结果；

所述语义处理模块将所述目标语义处理结果发送给所述云服务器，所述云服务器将所述目标语义处理结果发送给所述技能模块，得到目标回复；

所述技能模块将所述目标回复发送给所述云服务器，所述云服务器将所述目标回复发送给所述语音合成模块，得到输出语音流；

所述语音合成模块将所述输出语音流发送给所述云服务器，所述云服务器将所述输出语音流发送给所述智能语音终端进行播放。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的一种语音交互方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的一种语音交互方法。

与现有技术相比，本发明包括以下优点：

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音交互方法流程图；

图2为本申请实施例公开的一种语音交互方法又一流程图；

图3为本申请实施例公开的一种语音交互***结构框图；

图4为本申请实施例公开的一种语音交互装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种语音交互方法及装置，应用在语音交互过程中，现有的语音交互过程中通过单一的ASR、NLP、TTS对输入语音流进行处理，若ASR的语音识别结果和/或NLP的自然语言处理结果与对应的实际结果的偏差较大，会出现答非所问的情况影响语音交互的过程，本发明提供了一种语音交互方法用于解决上述问题，所述交互方法的执行流程如图1所示，包括步骤：

S101、获取输入语音流，将所述输入语音流派发给各个目标语音识别引擎进行语音识别，得到各个语音识别结果；

本发明实施例中，所述输入语音流是从智能语音设备中获取，所述智能语音设备可以为智能音箱、智能语音机器人，智能手机等等，所述智能语音设备采集用户发出的语音，将其转换为输入语音流，将所述输入语音流派发给各个目标语音识别引擎进行识别，得到各个语音识别结果。

其中，针对派发过程进行举例说明，若***中包含10个语音识别引擎，所述目标语音识别引擎的数量可以小于等于10个，例如：可以将上述10个语音识别引擎全部作为目标语音识别引擎，即所述语音识别引擎的数量与所述目标语音识别阴影的数量相等，将所述输入语音流派发给上述10个目标语音识别引擎进行语音识别，但是这种处理方式对处理器的要求较高，当处理器的配置不能满足要求时，会导致语音识别的速度缓慢，进而影响语音交互的过程，导致语音交互过程中用户体验不好，因此，为了提高语音识别的速度，可以在派发给语音识别引擎之前，获取所述输入语音流的类型，依据所述类型对上述的10个语音识别引擎进行筛选，得到不少于两个的目标语音识别引擎，此时目标语音识别引擎的数量可以小于等于10个。其中，所述类型可以根据实际场景、垂直细分领域，例如：所述分类可以按语言进行分类、也可以按专业领域进行分类或者其它场景进行分类，其中，按语言进行分类可以细分为中文和外文，中文又可以细分为普通话和方言，依据具体的情况还可以针对方言继续细分，外文可以为英语、日语、韩语等，也可以按专业领域进行分类，例如：计算机领域、通信领域或者机械领域等等，针对计算机领域、通信领域或者机械领域等等还可以依据具体情况继续进行细分，在此不再赘述，当然也还可以包含其它的划分形式，本发明实施例中，对所述类型的具体形式不进行限定。

S102、在所述各个语音识别结果中选取目标语音识别结果；

本发明实施例中，针对每一个目标语音识别引擎，其在输出与所述输入语音流对应的识别结果的同时还会输出该识别结果的识别率，识别率会因信噪比、在线/离线识别等会产生差异，因此，需要获取所述输入语音流的信噪比和目标语音识别引擎是否在线等影响识别率的因素后，在确定所述输入语音流在对应的目标语音识别引擎下的识别率。

实际工作中，一般识别率的直接指标是词错误率WER(Word Error Rate)其定义如下：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者***某些词，这些***、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

公式为：

Accuracy＝100-WER％ (2)

其中：S-被替换的词的数目；

D-被删除词的数目；

I-***词的数目；

N-词总数目；

WER-词错误率；

Accuracy-识别率；

其中：WER可以分男女、快慢、口音、数字/英文/中文等情况，分别来看，因为有***词，所以理论上WER有可能大于100％，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。

进一步的，可以采用句错误率SER(Sentence Error Rate)，即“句子识别错误的个数/总的句子个数”。不过在实际工作中，一般句错误率是字错误率的2～3倍，所以通常不采用句错误率对识别过程进行衡量。

本发明实施例中以识别率作为参考，首先计算每一个语音识别结果的识别率，将各个识别率中识别率最高的语音识别结果作为目标语音识别结果。

S103、将所述目标语音识别结果派发给各个目标自然语言处理引擎，得到各个语义处理结果；

本发明实施例中，将所述目标语音识别结果派发给各个目标自然处理引擎，其中，针对派发过程进行举例说明，若***中包含10个自然语言处理引擎，所述目标自然语言处理引擎的数量小于等于10个，例如：可以将上述10个自然语言处理引擎全部作为目标自然语言处理引擎，即所述目标自然语言处理引擎的数量等于所述自然语言处理引擎的数量，但是这种处理方式对处理器的要求较高，当处理器的配置不能满足要求时，会导致语音识别的速度缓慢，进而影响语音交互的过程，导致语音交互过程中用户体验不好，因此，语音交互的速度，可以在将所述目标识别结果派发给各个目标自然语言处理引擎之前，确定所述目标识别结果的类别，其中，所述类别可以根据实际场景、垂直细分领域来确定，例如：所述分类可以按语言进行分类、也可以按专业领域进行分类或者其它场景进行分类，其中，按语言进行分类可以细分为中文和外文，中文又可以细分为普通话和方言，依据具体的情况还可以针对方言继续细分，外文可以为英语、日语、韩语等，也可以按专业领域进行分类，例如：计算机领域、通信领域或者机械领域等等，针对计算机领域、通信领域或者机械领域等等还可以依据具体情况继续进行细分，在此不再赘述，当然也还可以包含其它的划分形式，本发明实施例中，对分类的具体形式不进行限定，优选的，针对所述目标语音识别引擎和所述目标自然语言处理引擎的分类存在对应关系。例如，若所述目标语音识别结果是通过针对方言的目标语音识别引擎得到的，可以直接将其派发给方言的目标自然语言处理引擎即可。

S104、在所述各个语义处理结果中选取目标语义处理结果；

本发明实施例中，针对每一个目标自然语言处理引擎，其在输出与所述目标语音识别结果对应的目标语义处理结果的同时还会输出该目标语义处理结果的置信度，以所述目标自然语言处理引擎为百度NLP语义计算整体框架为例，其主要分三大部分，底层依托于大数据、网页数据和用户行为数据，以及高性能集群(GPU、CPU和FPGA)，打造了基于DNN和概率图模型的目标自然语言处理引擎，通过将所述目标语音识别结果入到目标自然语言处理引擎，可以得到目标语义处理结果，其中，所述目标语义处理结果为针对所述输入语音流的文本回复，进而基于所述语义处理结果，进行语义层面的计算，包括语义匹配、语义检索、文本分类、序列生成以及序列标注等，从而确定语义处理结果的置信度，由于不同目标自然语言处理引擎的对置信度的确定方法不同，可能导致各个置信度之间不具备参考性，将所述各个置信度进行归一化或者其它处理后进行比较，将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。

S105、依据所述目标语义处理结果对所述输入语音流进行回复。

本发明实施例中，采用语音合成TTS(Text-To-Speech)技术，是将文字所述目标语义处理结果转化为输出语音流，并通过所述智能语音设备朗读出来，类比于人类的嘴巴。例如：Siri等各种语音助手中听到的声音，都是由TTS来生成的。

本发明公开了一种语音交互方法，包括：获取输入语音流，将输入语音流派发给各个语音识别引擎进行语音识别，在得到各个语音识别结果选取目标语音识别结果；将目标语音识别结果派发给各个自然语言处理引擎，在得到各个语义处理结果中选取目标语义处理结果；依据目标语义处理结果对输入语音流进行回复。上述方法中，在各个语音识别结果中筛选出目标语音识别结果，将其派发给多个自然语言处理引擎，在得到的各个语义处理结果中选取目标语义处理结果，避免了语音交互过程采用单一的ASR、NLP、TTS进行处理，局限性比较大，若ASR和/或NLP识别不准，影响语音交互的问题。

本发明实施例中，依据所述目标语义处理结果对所述输入语音流进行回复的处理流程如图2所示，包括步骤:

S201、获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体；

本发明实施例中，获取所述目标语义处理结果中的关键词，依据所述关键词确定与所述目标语义处理结果对应的技能单元，接收该技能单元反馈的针对所述目标语音处理结果目标回复。获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果，依据所述类型和/或所述人脸语音识别结果，确定产生所述输入语音流的用户群体，所述用户群体可以为男女老少，家庭成员或者采用某种方言或者语种的语音发出者等。

S202、依据所述用户群体，确定目标语音合成引擎；

本发明实施例中，所述语音合成引擎选择也可以结合实际场景、垂直细分领域进行划分，依据所述目标群体，确定目标语音合成引擎，例如：所述目标语音合成引擎可以按语言进行分类可以细分为中文和外文，中文又可以细分为普通话和方言，依据具体的情况还可以针对方言继续细分，外文可以为英语、日语、韩语等，本发明实施例中，对分类的具体形式不进行限定。例如：如果所述用户群体为方言的发出者，因此目标语音识别引擎可以采用与方言类型对应的目标语音识别引擎，则可以直接根据方言类型选择语音合成引擎作为目标语音合成引擎。

S203、将所述目标回复通过所述目标语音合成引擎转换为输出语音流。

本发明实施例中，将所述目标回复通过所述目标语音合成引擎转换为输出语音流，所述目标语音合成引擎的类型不同，回复的方式不同。所述目标语音合成引擎也可以依据人脸识别技术按用户人像进行识别，例如：所述智能语音终端依据人脸识别技术，识别到接收的是输入语音流是妈妈说的话，而通过历史记录或者设定的回复规则进行分析得到妈妈最想听见儿子的声音，此时，目标语音合成引擎可以采用儿子的声音将所述目标回复发送到所述智能语音终端，当然也还可以依据具体的情况将所述目标回复通过英语、方言或者其它的方式发送到所述智能语音终端。

基于上述的一种语音交互方法，本发明实施例中提供了一种语音交互***，所述交互***的结构框图如图3所示，包括：云服务器301、语音识别模块302、语义处理模块303、技能模块304、语音合成模块305和智能语音终端306，其中，

所述云服务器301用于获取所述智能语音终端306采集的输入语音流，将所述输入语音流派发给所述语音识别模块302进行语音识别，得到目标语音识别结果；

本发明实施例中，所述语音识别模块302包含多个语音识别引擎，优选的，为了提高识别效率，在语音识别过程中可以优先对多个语音识别引擎进行筛选，得到多个目标语音识别引擎，依据多个目标语音识别引擎进行语音识别，在得到的各个语音识别结果中选取识别率最高的语音识别结果作为目标语音识别结果。

所述语音识别模块302将所述目标语音识别结果发送给所述云服务器301，所述云服务器301将所述目标语音识别结果所述语义处理模块303，得到目标语义处理结果；

本发明实施例中，所述语音识别模块303包含多个自然语言处理引擎，优选的，为例提高处理效率，在自然语言处理过程中可以对多个自然语言处理引擎进行筛选，得到多个目标自然语言处理引擎，将所述目标语音识别结果发送给多个目标自然语言处理处理引擎，在得到的多个语义处理结果中选取置信度最高的语义处理结果作为目标语义处理结果。

所述语义处理模块303将所述目标语义处理结果发送给所述云服务器301，所述云服务器301将所述目标语义处理结果发送给所述技能模块304，得到目标回复。

本发明实施例中，所述技能模块304根据所述目标语义处理结果依据具体情况进行处理，如果需要所述智能语音终端306进行回复，则返回的结果为目标回复，如果是控制指令，则继续在所述技能模块304中进行处理。本发明实施中针对返回结果为目标回复的情况进行举例说明。例如：用户说“打开客厅的空调”，目标语音识别结果就是“打开客厅的空调”，经过自然语言理解后就转化为“领域是空调，指令是打开，具***置是客厅”，云服务器304会根据领域将结果派发到所述技能模块304中与空调对应的技能中，空调的技能根据指令和位置，则会通过控制将客厅的空调打开，成功后返回目标回复，例如所述目标回复可以为“好的，客厅空调已经打开”。

所述技能模块304将所述目标回复发送给所述云服务器301，所述云服务器301将所述目标回复发送给所述语音合成模块305，得到输出语音流；

所述语音合成模块305将所述输出语音流发送给所述云服务器301，所述云服务器将所述输出语音流发送给所述智能语音终端306进行播放。

基于上述的一种语音交互方法，本发明实施例中提供了一种语音交互装置，所述交互装置的结构框图如图4所示，包括：

获取和识别模块401、语音识别结果选取模402、处理模块403、处理结果选取模404和回复模块405。

其中，

所述获取和识别模块401，用于获取输入语音流，将所述输入语音流派发给各个目标语音识别引擎进行语音识别，得到各个语音识别结果；

所述语音识别结果选取模块402，用于在所述各个语音识别结果中选取目标语音识别结果；

所述处理模块403，用于将所述目标语音识别结果派发给各个目标自然语言处理引擎，得到各个语义处理结果；

所述处理结果选取模块404，用于在所述各个语义处理结果中选取目标语义处理结果；

所述回复模块405，用于依据所述目标语义处理结果对所述输入语音流进行回复。

本发明公开了一种语音交互装置，包括：获取输入语音流，将输入语音流派发给各个语音识别引擎进行语音识别，在得到各个语音识别结果选取目标语音识别结果；将目标语音识别结果派发给各个自然语言处理引擎，在得到各个语义处理结果中选取目标语义处理结果；依据目标语义处理结果对输入语音流进行回复。上述装置中，在各个语音识别结果中筛选出目标语音识别结果，将其派发给多个自然语言处理引擎，在得到的各个语义处理结果中选取目标语义处理结果，避免了语音交互过程采用单一的ASR、NLP、TTS进行处理，局限性比较大，若ASR和/或NLP识别不准，影响语音交互的问题。

本发明实施例中，所述回复模块405包括：

获取和确定单元406、确定单元407和转换单元408。

其中，

所述获取和确定单元406，用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体；

所述确定单元407，用于依据所述用户群体，确定目标语音合成引擎；

所述转换单元408，用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。

所述语音交互装置包括处理器和存储器，上述获取和识别模块、语音识别结果选取模、处理模块、处理结果选取模和回复模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，在所述各个语音识别结果中筛选出目标语音识别结果，将所述目标语音识别结果派发给多个自然语言处理引擎，在所述各个语义处理结果中选取目标语义处理结果，避免了语音交互过程采用单一的ASR、NLP、TTS进行处理，局限性比较大，若ASR和/或NLP识别不准，会影响到整个语音交互过程的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音交互方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音交互方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

在所述各个语音识别结果中选取目标语音识别结果；

在所述各个语义处理结果中选取目标语义处理结果；

依据所述目标语义处理结果对所述输入语音流进行回复。

获取每一个语音识别结果的识别率；

将各个识别率中识别率最高的识别结果作为目标识别结果。

获取每一个语义处理结果的置信度；

依据所述用户群体，确定目标语音合成引擎；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行有如下方法步骤的程序：

在所述各个语音识别结果中选取目标语音识别结果；

在所述各个语义处理结果中选取目标语义处理结果；

依据所述目标语义处理结果对所述输入语音流进行回复。

获取每一个语音识别结果的识别率；

将各个识别率中识别率最高的识别结果作为目标识别结果。

获取每一个语义处理结果的置信度；

依据所述用户群体，确定目标语音合成引擎；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种语音交互方法、装置、***、存储介质及处理器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互方法，其特征在于，包括：

在所述各个语音识别结果中选取目标语音识别结果；

在所述各个语义处理结果中选取目标语义处理结果；

依据所述目标语义处理结果对所述输入语音流进行回复。

2.根据权利要求1所述的方法，其特征在于，在所述各个语音识别结果中选取目标语音识别结果，包括：

获取每一个语音识别结果的识别率；

将各个识别率中识别率最高的识别结果作为目标识别结果。

3.根据权利要求1所述的方法，其特征在于，在所述各个语义处理结果中选取目标语义处理结果，包括：

获取每一个语义处理结果的置信度；

4.根据权利要求1所述的方法，其特征在于，依据所述目标语义处理结果对所述输入语音流进行回复，包括：

依据所述用户群体，确定目标语音合成引擎；

5.根据权利要求4所述的方法，其特征在于，所述确定产生所述输入语音流的用户群体，包括：

6.一种语音交互装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述回复模块包括：

8.一种语音交互***，其特征在于，包括：云服务器、语音识别模块、语义处理模块、技能模块、语音合成模块和智能语音终端，其中，

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至5中任意一项所述的一种语音交互方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的一种语音交互方法。