CN113763947B

CN113763947B - 一种语音意图识别方法、装置、电子设备及存储介质

Info

Publication number: CN113763947B
Application number: CN202110053446.0A
Authority: CN
Inventors: 冯明超; 王泽勋
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2024-04-05
Anticipated expiration: 2041-01-15
Also published as: CN113763947A

Abstract

本发明实施例适用于语音识别技术领域，提供了一种语音意图识别方法、装置、电子设备及存储介质，其中，语音意图识别方法包括：获取输入的第一语音数据；对所述第一语音数据进行语音识别，得到至少两个第一候选文本；对所述至少两个第一候选文本进行拼接；基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图。

Description

一种语音意图识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音意图识别方法、装置、电子设备及存储介质。

背景技术

目前，相关技术通过语音识别***将用户输入的语音数据转换为文本，然后将文本输入意图识别模型，意图识别模型输出用户语音的意图。相关技术中，意图识别模型用来进行意图识别的文本是语音识别***输出的Top1文本，Top1文本是语音识别***认为最接近用户所说的话的文本。然而，在一些情况下，Top1文本不能与用户所有的话完全匹配，导致用户语音的意图识别率低。

发明内容

为了解决上述问题，本发明实施例提供了一种语音意图识别方法、装置、电子设备及存储介质，以至少解决相关技术Top1文本不能与用户所有的话完全匹配，导致用户语音的意图识别率低的问题。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种语音意图识别方法，该方法包括：

获取输入的第一语音数据；

对所述第一语音数据进行语音识别，得到至少两个第一候选文本；

对所述至少两个第一候选文本进行拼接；

基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图。

上述方案中，所述对所述至少两个第一候选文本进行拼接，包括：

基于设定拼接顺序对所述至少两个第一候选文本进行拼接；所述设定拼接顺序表征所述至少两个第一候选文本中的每个第一候选文本与所述第一语音数据的匹配程度。

上述方案中，所述基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果，包括：

确定与所述拼接后的所述至少两个第一候选文本相匹配的至少两个领域词典；所述领域词典包括对应领域的字词；

确定所述拼接后的所述至少两个第一候选文本与所述至少两个领域词典中的每个领域词典的匹配度；

基于匹配度最大的领域词典对应的意图种类确定所述识别结果。

第二方面，本发明实施例提供了一种模型训练方法，该方法包括：

获取至少一个第二语音数据；所述至少一个第二语音数据表征所述设定模型的训练数据；

对所述至少一个第二语音数据进行语音识别，得到每个第二语音数据对应的至少两个第二候选文本；

对每个第二语音数据对应的至少两个第二候选文本进行拼接；

基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型；所述标注表征对应的第二语音数据的意图。

上述方案中，所述对每个第二语音数据对应的至少两个第二候选文本进行拼接，包括：

基于设定拼接顺序对每个第二语音数据对应的至少两个第二候选文本进行拼接；所述设定拼接顺序表征所述至少两个第二候选文本中的每个第二候选文本与对应第二语音数据的匹配程度。

上述方案中，所述基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型时，所述方法还包括：

获取所述设定模型的第一参数；所述第一参数表征所述设定模型的训练程度；

在所述第一参数大于或等于设定值的情况下，确定所述设定模型训练完成。

第三方面，本发明实施例提供了一种语音意图识别装置，该装置包括：

第一获取模块，用于获取输入的第一语音数据；

第一语音识别模块，用于对所述第一语音数据进行语音识别，得到至少两个第一候选文本；

第一拼接模块，用于对所述至少两个第一候选文本进行拼接；

意图识别模块，用于基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图。

第四方面，本发明实施例提供了一种模型训练装置，该装置包括：

第二获取模块，用于获取至少一个第二语音数据；所述至少一个第二语音数据表征所述设定模型的训练数据；

第二语音识别模块，用于对所述至少一个第二语音数据进行语音识别，得到每个第二语音数据对应的至少两个第二候选文本；

第二拼接模块，用于对每个第二语音数据对应的至少两个第二候选文本进行拼接；

训练模块，用于基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型；所述标注表征对应的第二语音数据的意图。

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行本发明实施例第一方面提供的语音意图识别方法的步骤或第二方面提供的模型训练方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序。所述计算机程序被处理器执行时实现如本发明实施例第一方面提供的语音意图识别方法的步骤或第二方面提供的模型训练方法的步骤。

本发明实施例通过获取输入的第一语音数据，对第一语音数据进行语音识别，得到至少两个第一候选文本。然后对至少两个第一候选文本进行拼接，基于设定模型对拼接后的至少两个第一候选文本进行意图识别，得到识别结果，识别结果表征第一语音数据对应的意图。本发明实施例通过对语音识别得到的至少两个第一候选文本进行拼接，将拼接后的至少两个第一候选文本作为设定模型的输入，进行意图识别。本发明实施例可以提高意图识别的准确率，解决了解决相关技术中只根据Top1文本进行意图识别，用户语音的意图识别率低的问题。

附图说明

图1是本发明实施例提供的一种语音意图识别方法的实现流程示意图；

图2是本发明实施例提供的一种语音识别流程的示意图；

图3是本发明实施例提供的一种文本拼接流程的示意图；

图4是本发明实施例提供的另一种语音意图识别方法的实现流程示意图；

图5是本发明应用实施例提供的一种意图识别流程示意图；

图6是本发明实施例提供的一种模型训练方法的实现流程示意图；

图7是本发明实施例提供的一种语音意图识别装置的示意图；

图8是本发明实施例提供的一种模型训练装置的示意图；

图9是本发明一实施例提供的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，许多智能***都可以使用语音进行人机交互，智能***可以根据用户的语音做出相应的操作。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂并转化成书面语言文字；其二是对口述语言中所包含的要求或询问加以理解，做出正确响应。语音识别的关键在于确定出用户的真实意图，根据真实意图才能做出准确的操作。例如，用户在电商应用程软件(APP，Application)上进行网购时，用户可以在APP上输入语音与商家进行聊天，APP将用户输入的语音转换为文本，根据文本识别用户的意图。商家可以设置自动回复功能，自动回复功能会根据用户的意图自动向用户回复消息。例如，如果用户的意图是询问商品价格，则商家自动将该商品的价格发送至用户。

在相关技术中，语音识别***会根据用户输入的语音数据输出多个文本，按照与用户所说的话的匹配度将语音识别***输出的多个文本进行Top1至TopN的排序。相关技术中意图识别模型用来进行意图识别的文本是语音识别***输出的Top1文本，但是在一些情况下，Top1文本并不一定包含用户的真实意图。

针对上述相关技术的缺点，本发明实施例提供了一种语音意图识别方法，至少能够提高语音意图识别的准确率。为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1是本发明实施例提供的一种语音意图识别方法的实现流程示意图，所述语音意图识别方法的执行主体为电子设备，电子设备包括台式电脑、笔记本电脑和服务器等。参考图1，语音意图识别方法包括：

S101，获取输入的第一语音数据。

在本发明实施例中，电子设备可以包括拾音器，电子设备通过拾音器采集现场环境声音再传送到后端设备，得到第一语音数据。例如，用户在手机上进行语音聊天时，第一语音数据是用户通过手机的拾音器输入的。

这里，第一语音数据还可以是其他电子设备采集到的，电子设备接收其他电子设备采集到的第一语音数据。

S102，对所述第一语音数据进行语音识别，得到至少两个第一候选文本。

这里，语音识别指将语音数据转换为文本。语音识别过程主要包括语音数据的预处理、特征提取和模型匹配3个部分。预处理包括预滤波、采样、量化、加窗、端点检测和预加重等过程。语音识别最重要的一环是提取特征参数，提取的特征参数必须能有效地代表语音特征，具有很好的区分性；各阶特征参数之间有良好的独立性；特征参数要计算方便，以保证语音识别的实时实现。在识别阶段，将特征参数输入模型进行匹配，模型将特征参数与模板库中的特征参数进行匹配，将匹配分数最高的模板作为识别结果，即匹配分数最高的模板对应的文本为识别结果。

在本发明实施例中，在语言识别中应用N-best搜索方法，N-best即在模型对特征参数进行匹配时，并不仅仅只匹配得到唯一的识别结果，而是得到一系列的识别结果，将这一系列的识别结果按照与特征参数的匹配度进行排序，得到Top1识别结果至TopN识别结果，其中，Top1识别结果是语音识别模型认为最接近用户所说的话的识别结果。

按照上述方法，对第一语音数据进行语音识别，可以得到至少两个第一候选文本，将至少两个第一候选文本按照匹配度进行排序，得到Top1第一候选文本至TopN第一候选文本。

参考图2，图2是本发明实施例提供的一种语音识别流程的示意图。对第一语音数据进行语音识别进行预处理，预处理包括预滤波、采样、量化、加窗、端点检测和预加重等过程。对预处理后的第一语音数据进行特征提取，得到特征参数。将特征参数输入模型进行特征匹配，模型将特征参数与模板库中的特征参数进行匹配，得到至少两个第一候选文本。

S103，对所述至少两个第一候选文本进行拼接。

在相关技术中，意图识别模型用来进行意图识别的文本是语音识别***输出的Top1文本，但是有时候Top1文本并不能和用户所说的话完全匹配上，相反可能是Top2文本或Top3文本能匹配用户说的话。这种情况下，相关技术会引入句子的词法特征(如词语个数，词语类别：名词、动词)、句法特征(如句子类别：肯定句、疑问句)以及语音识别特征(如语音置信度得分)，将Top1文本至TopN文本进行重新排序，将重新排序得到的Top1文本输入意图识别模型。

然而，如果Top1文本至TopN文本都不是用户所说的话，或者用户所说的话分布在Top1文本至TopN文本中，如Top1文本的前3个词是正确的，Top2的后三个词是正确的。这种情况下，将Top1文本至TopN文本重新排序是没有意义的，因为无论怎么排序都得不到真实结果。而且如何选择符合业务场景的特征进行重新排序，这对业务和算法人员都是一个极大的挑战。

在本发明实施例中，对至少两个第一候选文本进行拼接，可以用分隔符对至少两个第一候选文本进行拼接，比如SEP分隔符。拼接能够融合不同的识别结果，正好能将真实结果组合起来进行意图识别。

在一实施例中，基于设定拼接顺序对所述至少两个第一候选文本进行拼接；所述设定拼接顺序表征所述至少两个第一候选文本中的每个第一候选文本与所述第一语音数据的匹配程度。

至少两个第一候选文本的拼接顺序的不同影响意图识别的准确率，将至少两个第一候选文本按照与第一语音数据的匹配程度从高到低进行拼接，意图识别的准确率最高。

参考图3，图3是本发明实施例提供的一种文本拼接流程的示意图。至少两个第一候选文本在图3中表示为Hypothesis Top1至Hypothesis TopN，按照每个第一候选文本与第一语音数据的匹配程度对至少两个第一候选文本进行拼接，匹配程度越高，说明第一候选文本与用户说的话越接近。如图3所示，用SEP分隔符先拼接Hypothesis Top1和Hypothesis Top2，然后拼接Hypothesis Top3，以此类推，直至拼接至Hypothesis TopN。图3中的IntentModel为意图识别模型，将拼接后的Hypothesis Top1至Hypothesis TopN作为意图识别模型的输入，以此进行意图识别。

S104，基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图。

这里，设定模型是意图识别模型，预先训练好设定模型，本发明实施例直接使用训练好的设定模型进行意图识别。

将拼接后的至少两个第一候选文本作为设定模型的输入，设定模型根据至少两个第一候选文本输出识别结果，识别结果表征第一语音数据对应的意图。

意图识别是通过分类的办法将句子分到相应的意图种类，例如，我想听周杰伦的歌，这个句子的意图便是属于音乐意图。意图识别以后对于很多自然语言处理的应用都有很重要的提升，比如在搜索引擎领域使用意图识别来获取与用户输入最相关的信息。例如，用户在查询“生化危机”时，我们知道“生化危机”既有游戏还有电影、歌曲等等，如果通过意图识别发现该用户是想玩“生化危机”的游戏时，那直接将游戏的查询结果返回给用户，就会节省用户的搜索点击次数，缩短搜索时间，大幅提高用户的体验。

有多种方法可以实现意图识别，参考图4，在一实施例中，所述基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果，包括：

S401，确定与所述拼接后的所述至少两个第一候选文本相匹配的至少两个领域词典。

不同的意图会有的不同的领域词典，比如音乐词典、影视词典和游戏词典等，领域词典包括对应领域的字词。例如，音乐词典包括各种歌曲信息，比如歌曲名称、词曲作者等。影视词典包括各种电影和电视剧的信息，比如电影名称、电影导演、编剧和演员的名称等。

这里，可以将拼接后的至少两个第一候选文本中的词或句子与领域词典中的词进行匹配，如果有相同的词或句子，可以认为是相匹配的。

例如，如果拼接后的至少两个第一候选文本包括词“生化危机”，在音乐词典、影视词典和游戏词典中都有词“生化危机”，因此与拼接后的至少两个第一候选文本相匹配的领域词典包括音乐词典、影视词典和游戏词典。

S402，确定所述拼接后的所述至少两个第一候选文本与所述至少两个领域词典中的每个领域词典的匹配度。

根据拼接后的至少两个第一候选文本和领域词典的匹配程度或者重合程度来确定匹配度，例如拼接后的至少两个第一候选文本与哪个词典的重合程度越高，就判别给这个领域词典。

拼接后的至少两个第一候选文本中的词与领域词典中的词重合的越多，什么匹配度越大。例如，假设拼接后的至少两个第一候选文本为“我想看生化危机电影”，其中，词“电影”和“看”都在影视词典中，而音乐词典和游戏词典中没有包括词“电影”和“看”，则说明与拼接后的至少两个第一候选文本的匹配度最高的是影视词典。

S403，基于匹配度最大的领域词典对应的意图种类确定所述识别结果。

例如，如果匹配度最大的领域词典是游戏词典，则对应的意图种类是游戏意图。如果匹配度最大的领域词典是音乐词典，则对应的意图种类是歌曲意图。

在上述实施例中，匹配度最大的领域词典是影视词典，说明意图种类是影视意图。结合拼接后的至少两个第一候选文本中的关键词“生化危机”，说明用户的意图是看生化危机电影。

根据上述方法，第一模型可以识别出用户语音的意图，从而可以使得智能***根据用户语音做出正确的操作。例如，如果用户语音对应的文本是“帮我查询明天到北京的机票。”，则对应的意图是订机票。如果用户语音对应的文本是“北京明天是否有雨？”，则对应的意图是查天气。如果用户语音对应的文本是“帮我定个烤鸭送到酒店。”则对应的意图是订餐。

本发明实施例还有其他方法可以实现意图识别，在另一实施例中，所述基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果，包括：

确定与所述至少两个第一候选文本中的每个第一候选文本相匹配的第一意图，计算确定出的每个第一意图对应的得分值，所述得分值表征对应的第一意图与用户真实意图的匹配程度。基于确定出的每个第一意图对应的得分值，确定所述识别结果。

其中，对至少两个第一候选文本中的每个第一候选文本进行意图识别，这样每个第一候选文本都得到一个第一意图。然后计算确定出的每个第一意图对应的得分值，对每个第一候选文本对应的第一意图进行统计，得分值表示第一意图出现的次数。例如，假设一共有Top1至Top3这3个第一候选文本，其中Top1文本对应的第一意图是音乐意图，Top2和Top3对应的第一意图是游戏意图，统计得到音乐意图的得分为1，游戏意图的得分为2，得分值最高的为游戏意图，将游戏意图确定为用户的意图。

本发明实施例通过获取输入的第一语音数据，对第一语音数据进行语音识别，得到至少两个第一候选文本。然后对至少两个第一候选文本进行拼接，基于设定模型对拼接后的至少两个第一候选文本进行意图识别，得到识别结果，识别结果表征第一语音数据对应的意图。本发明实施例通过对语音识别得到的至少两个第一候选文本进行拼接，将拼接后的至少两个第一候选文本作为设定模型的输入，进行意图识别。本发明实施例可以提高意图识别的准确率，解决了解决相关技术中只根据Top1文本进行意图识别，用户语音的意图识别准确率低的问题。

参考图5，图5是本发明应用实施例提供的一种意图识别流程示意图，意图识别流程包括：首先获取到用户的音频文件(Speech)，语音识别***(ASR)对用户的音频文件进行语音识别。这里与传统方式不一样的地方在于，传统方法只返回ASR***输出的Top1结果作为意图识别模型的输入，在本发明应用实施例中，ASR***不再只返回Top1结果，而返回所识别到的topN结果，即Hypothesis Top1到Hypothesis TopN。然后自然语言理解***(NLP)对topN结果进行拼接，用[SEP]拼接N个结果。最后，将拼接后的数据输入到预先训练好的意图识别模型中，最后得到用户意图。

在上述实施例中，在进行意图识别之前，需要对设定模型进行训练，以满足意图识别的要求。

参考图6，图6是本发明实施例提供的一种模型训练方法的实现流程示意图，所述模型训练方法的执行主体为电子设备，电子设备包括台式电脑、笔记本电脑和服务器等。模型训练方法包括：

S601，获取至少一个第二语音数据；所述至少一个第二语音数据表征所述设定模型的训练数据。

在本发明实施例中，设定模型的训练数据是语音数据和人工对语音数据的标注数据，标注数据标注语音数据的真实意图。

这里，至少一个第二语音数据就是设定模型的训练数据，同时在人工听取至少一个第二语音数据后进行意图标注。

S602，对所述至少一个第二语音数据进行语音识别，得到每个第二语音数据对应的至少两个第二候选文本。

按照上述实施例的方法对每个第二语音数据进行语音识别，得到每个第二语音数据对应的至少两个第二候选文本。

S603，对每个第二语音数据对应的至少两个第二候选文本进行拼接。

按照上述实施例的方法对每个第二语音数据对应的至少两个第二候选文本进行拼接。

在一实施例中，所述对每个第二语音数据对应的至少两个第二候选文本进行拼接，包括：

S604，基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型；所述标注表征对应的第二语音数据的意图。

以每个第二语音数据对应的拼接后的至少两个第二候选文本作为设定模型的query输入，设定的对应的第二语音数据的标注作为设定模型的label输入，对模型进行训练。

拼接数据的意图是端到端意图，即标注人员对音频听取后标注出来的意图。有了query输入和对应的label输入，就可以进行设定模型的训练。在设定模型的选取上，可以采用谷歌开源的BERT中文预训练模型。

在一实施例中，模型训练方法还包括：获取所述设定模型的第一参数；所述第一参数表征所述设定模型的训练程度；在所述第一参数大于或等于设定值的情况下，确定所述设定模型训练完成。

在模型训练过程中，获取模型的第一参数，第一参数表征设定模型的训练程度。这里，第一参数可以是设定模型的最大迭代次数，例如最大迭代次数1000次。设定模型完成最大迭代次数的训练之后认为模型训练完成。

这里，第一参数还可以是设定模型对应的代价函数的值(loss值)，loss值表征设定模型的预测值与真实值之间的误差，训练模型的目的是为了降低loss值，减小设定模型的预测值与真实值之间的误差。在loss值小于设定值时，确定模型训练完成。

本发明实施例通过获取至少一个第二语音数据，对至少一个第二语音数据进行语音识别，得到每个第二语音数据对应的至少两个第二候选文本。然后对每个第二语音数据对应的至少两个第二候选文本进行拼接，基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型。其中，标注表征对应的第二语音数据的意图，至少一个第二语音数据表征设定模型的训练数据。本发明实施例以拼接后的至少两个第二候选文本作为训练模型的输入，可以提高模型的鲁棒性，训练得到的模型的意图识别准确率高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

需要说明的是，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

另外，在本发明实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

参考图7，图7是本发明实施例提供的一种语音意图识别装置的示意图，如图7所示，该装置包括：第一获取模块、第一语音识别模块、第一拼接模块和意图识别模块。

第一获取模块，用于获取输入的第一语音数据；

第一拼接模块具体用于：

意图识别模块具体用于：

参考图8，图8是本发明实施例提供的一种模型训练装置的示意图，如图8所示，该装置包括：第二获取模块、第二语音识别模块、第二拼接模块和训练模块。

所述第二拼接模块具体用于：

所述装置还包括：

参数获取模块，用于获取所述设定模型的第一参数；所述第一参数表征所述设定模型的训练程度；

确定模块，用于在所述第一参数大于或等于设定值的情况下，确定所述设定模型训练完成。

实际应用时，所述第一获取模块、第一语音识别模块、第一拼接模块和意图识别模块可通过电子设备中的处理器，比如中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，MicrocontrollerUnit)或可编程门阵列(FPGA，Field－Programmable GateArray)等实现。

需要说明的是：上述实施例提供的语音意图识别装置在进行语音意图识别时，仅以上述各模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的模块完成，即将装置的内部结构划分成不同的模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音意图识别装置与语音意图识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种电子设备。图9为本申请实施例电子设备的硬件组成结构示意图，如图9所示，电子设备包括：

通信接口，能够与其它设备比如网络设备等进行信息交互；

处理器，与所述通信接口连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述电子设备侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器上。

当然，实际应用时，电子设备中的各个组件通过总线***耦合在一起。可理解，总线***用于实现这些组件之间的连接通信。总线***除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线***。

本申请实施例中的存储器用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。

可以理解，存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static RandomAccess Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic RandomAccess Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic RandomAccess Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic RandomAccess Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus RandomAccess Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的程序，结合其硬件完成前述方法的步骤。

可选地，所述处理器执行所述程序时实现本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的第一存储器，上述计算机程序可由电子设备的处理器执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、电子设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

另外，在本申请实例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音意图识别方法，其特征在于，所述方法包括：

获取输入的第一语音数据；

对所述至少两个第一候选文本进行拼接；

基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图；

其中，所述对所述至少两个第一候选文本进行拼接，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果，包括：

3.一种模型训练方法，用于训练如权利要求1或2所述的设定模型，其特征在于，所述方法包括：

基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型；所述标注表征对应的第二语音数据的意图；

其中，所述对每个第二语音数据对应的至少两个第二候选文本进行拼接，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型时，所述方法还包括：

5.一种语音意图识别装置，其特征在于，包括：

第一获取模块，用于获取输入的第一语音数据；

意图识别模块，用于基于设定模型对拼接后的所述至少两个第一候选文本进行意图识别，得到识别结果；所述识别结果表征所述第一语音数据对应的意图；

其中，所述第一拼接模块，具体用于：

6.一种模型训练装置，其特征在于，包括：

训练模块，用于基于每个第二语音数据对应的拼接后的至少两个第二候选文本以及设定的对应的第二语音数据的标注，训练所述设定模型；所述标注表征对应的第二语音数据的意图；

其中，所述第二拼接模块，具体用于：

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2所述的语音意图识别方法或3或4所述的模型训练方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1或2所述的语音意图识别方法或3或4所述的模型训练方法。