CN111933127A

CN111933127A - 一种具备自学习能力的意图识别方法及意图识别***

Info

Publication number: CN111933127A
Application number: CN202010758935.1A
Authority: CN
Inventors: 彭殷路
Original assignee: Shengzhi Information Technology Nanjing Co ltd
Current assignee: Shengzhi Information Technology Nanjing Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-13
Anticipated expiration: 2040-07-31
Also published as: CN111933127B; US20220383854A1; WO2022022746A1

Abstract

本发明公开了一种具备自学习能力的意图识别方法及意图识别***，属于意图识别技术领域，包含以下步骤，获取用户表述，将语音识别为对应的文本；对用户表述进行初步的意图识别，输出候选意图；获取候选意图的历史数据特征参数；根据预设的规则策略，决策是否直接输出最终识别意图，并根据各意图的特征参数进行规则计算，输出最终的识别意图；将意图识别过程中的候选意图和最终识别意图的预测数据提交至自学习***，进行自学习和指标参数的数据更新。本发明能够根据智能语音对话***和终端的实际使用场景中意图识别历史数据的特征分布进行自学习，动态调整意图识别的策略，以提高该使用场景下意图识别的准确率。

Description

一种具备自学习能力的意图识别方法及意图识别***

技术领域

本发明涉及意图识别技术领域，尤其涉及一种具备自学习能力的意图识别方法及意图识别***。

背景技术

随着人工智能和机器学习技术的发展，智能语音对话***在各个领域的应用越来越广泛。语音识别、语音合成以及自然语言理解作为智能语音对话***的主要技术点，这些技术的发展也推动着智能对话***能力的演进。

意图识别属于自然语言理解的技术范畴，是指通过对用户表述的识别和处理，输出用户说表达的真实意图。智能对话***可以根据用户的意图来组织正确的回应，以推动对话的正常进行。在意图识别的过程中，不论是采用哪种类型的意图识别技术，都会涉及到从多个候选的意图中选取最终意图的过程，而最终选择的意图的正确性又直接影响着对话能不能正确的进行下去。

现有的意图识别方案主要以基于规则的意图识别和基于机器学习模型的意图识别为主。

但是不论是选择何种意图识别技术，都需要解决从多个意图中选取最终意图的问题，基于规则的意图识别技术，可以根据匹配文本的长度或者编辑距离选择最终的意图；基于机器学习模型的意图识别技术，一般根据意图的得分进行排序选择分数最高的意图，但是这个结果过于依赖于模型的质量，即训练模型的语料的质量。

所以，存在的问题主要是，需要持续不断的根据存在问题的意图识别记录，进行规则的调整优化，或者对模型训练语料进行扩展优化，才能够提高或者维持意图识别的准确率。无法根据实际的语境和意图识别的历史记录的特征，动态的进行意图识别优化，通过自学习的方式和相关的识别策略，来调整意图识别的准确率。

在智能语音对话领域，意图识别技术是指在人机交互的过程中，智能语音对话***对于用户所表述的自然语言文本进行分析和识别，获取用户所表达的意图。一般来说，意图识别也称为意图分类，即根据自定义的意图领域和意图将用户表述分类到具体的意图类别中。

智能问答***就是一种典型的智能语音对话***，用户可以使用自然语言进行提问，***需要识别用户的真实问题，并根据问题查询答案。在这个场景中，意图识别的能力就是识别用户的真实问题的能力，只有满足这一点，***才能给用户提供正确的答案。

传统的智能语音对话***和终端一般使用以下技术来进行意图识别：

基于规则模版（Rule-Based）的意图识别

该技术使用人为构造的关键词、正则表达式以及其他常见的规则模板对意图文本进行分类。基于规则模板的意图识别方法不需要大量的训练数据，使用过程中所需要的资源消耗很很小，并且能够快速验证规则的准确性，广泛适用于意图识别模块的冷启动阶段。从效果上来看，基于规则模板的意图识别方法在意图类别数量较低的情况下能够具备较高的准确率，但是随着意图类别数量的增加，会面临多意图命中的问题，很难维持高准确率。

基于文本编辑距离的意图识别

文本编辑距离是指两个字符串文本之间，有一个转为另一个所需要的最少编辑操作次数。所谓的编辑操作是指将一个字符删除、新增或者替换为用另一个字符的操作。

文本编辑距离本意上是用来计算两个文本的相似程度。需要人为构造意图分类及各个意图分类下的文本语料，当用户表述的文本与某句语料文本的编辑距离最小的时候，即选取该语料文本所在的意图分类作为意图识别的结果。

基于文本分类的意图识别

该技术同样需要人为构造的意图分类以及各个意图分类下的语料文本，语料文本需要能够覆盖大部分用户表述的通用话术，然后需要人工打标和扩展语料来优化和扩展数据集。通过对数据机进行各种特征抽取和训练模型并调优，然后使用该模型对于用户表述文本进行意图识别预测，通常模型会输出命中的意图分类名称和预测分。基于文本分类的意图识别技术是机器学习技术发展后比较流行的意图识别技术，但是该技术对于模型训练数据集质量的要求很高，其意图识别效果经常取决于训练数据集质量的高低。

传统的意图识别技术，不论是基于规则模版或是基于编辑距离和文本分类的意图分类，首先对于预定义的规则、意图分类和意图语料都有较高的质量要求，同时不能够根据意图识别的历史请求结果对于意图识别的能力进行自学习，无法适应千差万别的用户表述意图的方式和不同语境下的真实意图的选择。

发明内容

本发明所要解决的技术问题是针对传统的意图识别技术意图识别的准确率过于依赖于规则或者模型训练数据的质量的高低，并且在使用过程中，不具备自学习的能力，需要持续的人工干预来维持和提供意图识别的准确率，本发明能够根据智能语音对话***和终端的实际使用场景中意图识别历史数据的特征分布进行自学习，动态调整意图识别的策略，以提高该使用场景下意图识别的准确率。

本发明为解决上述技术问题采用以下技术方案：

用于智能语音对话***的具备自学习能力的意图识别方法，具体包含如下步骤；

步骤1，获取用户表述，并通过语音识别技术将其识别为对应的文本；

步骤2，根据预设的策略中的配置对用户表述进行初步的意图识别，输出候选意图；

步骤3，根据当前的意图识别的上下文场景，以候选意图作为查询条件向意图场景特征自学习***发起查询，获取候选意图的历史数据特征参数；

步骤4，根据预设的意图选择规则策略，决策是否直接输出最终识别意图，或者使用意图选择规则策略中配置的其他意图识别算法对候选意图进行进一步的识别，并根据各意图的特征参数进行规则计算，输出最终的识别意图；

步骤5，将意图识别过程中的候选意图和最终识别意图的预测数据提交至自学习***，进行自学习和指标参数的数据更新。

作为本发明用于智能语音对话***的具备自学习能力的意图识别方法的进一步优选方案，在步骤1中，获取用户表述，是指通过智能对话***或者终端获得用户表述的音频。

作为本发明用于智能语音对话***的具备自学习能力的意图识别方法的进一步优选方案，在步骤2中，候选意图具体为：对步骤1中所输出的用户表述的文本进行初步的意图识别，可通过规则模版、计算成本较低的文本分类算法模型、语义槽值提取算法模型对用户的表述进行快速的分析，输出高相似度的候选意图分类。

作为本发明用于智能语音对话***的具备自学习能力的意图识别方法的进一步优选方案，在步骤3中，获取候选意图的历史数据特征参数的步骤，是指根据用户表述的对话上下文语境获取该语境下意图识别的历史记录的特征，提取上一步骤中输出的候选意图分类的特征参数，如该场景下所有意图识别历史数据中命中某一意图的比例、所有意图识别历史数据中某一意图分类下的各个语料的所占比例。

作为本发明用于智能语音对话***的具备自学习能力的意图识别方法的进一步优选方案，在步骤4中，

预设的意图选择规则策略行步骤，是指根据预设的策略，决策是否需要对候选意图使用成本较高的意图识别技术进行预测，输出所有候选意图的准确性预测得分；并根据上一步骤中获取的所有候选意图的场景特征参数进行规则计算，输出最终的识别意图。

作为本发明用于智能语音对话***的具备自学习能力的意图识别方法的进一步优选方案，在步骤5中，自学习***，是指将上述步骤中所预测的候选意图和最终识别意图及其相关的场景特征参数提交至自学习数据分析***，用于实时或者定期的数据分析和回归测试，更新意图识别的场景特征相关数据。

一种用于智能语音对话***的具备自学习能力的意图识别方法的意图识别***，包含

用户表述获取模块，用于将用户表述的语音转化为字符串文本，提供给其他模块进行意图识别；

意图识别算法模块，用于根据服务接口的定义，以用户表述的字符串文本和调用的意图识别算法类型为输入，在模块内部进行语义解析、规则匹配、关键词匹配和文本分类计算过程执行，输出用户表述文本可能属于的意图；

意图识别策略引擎模块，用于为用户预定义的意图识别策略配置，根据意图识别的策略配置调用制定的意图识别算法并与自学习模块进行数据的获取和提交，用于最终意图的选择和自学习数据的更新；

意图场景特征自学习模块，用于对于意图识别策略引擎模块上报的意图识别历史数据进行自学习，并在意图识别阶段提供基于上下文场景的历史数据指标参数，用于决策最终选择的意图。本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明能够根据智能语音对话***和终端的实际使用场景中意图识别历史数据的特征分布进行自学习，动态调整意图识别的策略，以提高该使用场景下意图识别的准确率。

此外，采用以上的技术方案后，意图识别的准确率不再强依赖于规则的配置正确率和意图识别模型训练数据的质量的高低，在智能语音对话***和终端的使用过程中，也能有效的减少人工干预来维持意图识别的准确率。

附图说明

图1是本发明所描述的具备自学习能力的意图识别和自学习的流程图；

图2是本发明意图识别模块协同工作交互示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明要解决的问题是：传统的意图识别技术意图识别的准确率过于依赖于规则或者模型训练数据的质量的高低，并且在使用过程中，不具备自学习的能力，需要持续的人工干预来维持和提供意图识别的准确率。

本发明所提供的一种具备自学习能力的意图识别方法，能够根据智能语音对话***和终端的实际使用场景中意图识别历史数据的特征分布进行自学习，动态调整意图识别的策略，以提高该使用场景下意图识别的准确率。

该方法用于智能语音对话***的具备自学习能力的意图识别方法，如图1所示，具体包

含如下步骤；

获取用户表述步骤，是指通过智能对话***或者终端获得用户表述的音频，并通过语音识别技术将其识别为对应的文本。

候选意图识别步骤，是指对上一步骤中所输出的用户表述的文本进行初步的意图识别，通常可以通过规则模版、计算成本较低的文本分类算法模型、语义槽值提取算法模型对用户的表述进行快速的分析，输出高相似度的候选意图分类。

场景特征获取步骤，是指根据用户表述的对话上下文语境获取该语境下意图识别的历史记录的特征，提取上一步骤中输出的候选意图分类的特征参数，如该场景下所有意图识别历史数据中命中某一意图的比例、所有意图识别历史数据中某一意图分类下的各个语料的所占比例等。

意图选择策略执行步骤，是指根据预设的策略，决策是否需要对候选意图使用成本较高的意图识别技术进行预测，输出所有候选意图的准确性预测得分；并根据上一步骤中获取的所有候选意图的场景特征参数进行规则计算，输出最终的识别意图场景特征自学习步骤，是指将上述步骤中所预测的候选意图和最终识别意图及其相关的场景特征参数提交至自学习数据分析***，用于实时或者定期的数据分析和回归测试，更新意图识别的场景特征相关数据。

为了更清楚了解本发明的技术内容和实施方式，特举具体实施案例并配合所附图示说明如下。

本发明在实施过程中，会涉及到以下模块的协同工作，以下结合附图对于本发明中各个模块的功能范围和协作过程进行阐述。

用户表述获取模块，用户表述通俗来说就是用户说的话，模块需要调用ASR（语音转文本）服务将用户表述的语音转化为字符串文本，提供给其他模块进行意图识别。

意图识别算法模块，该模块一般内部包含多种独立的意图识别算法的实现，包括本专利中所描述的基于规则模版或者基于文本分类的意图识别算法的实现。意图识别算法模块根据服务接口的定义，以用户表述的字符串文本和调用的意图识别算法类型为输入，在模块内部进行语义解析、规则匹配、关键词匹配和文本分类计算等过程执行，输出用户表述文本可能属于的意图。根据不同的意图识别算法的实现，输出的意图可能是一个意图，也有可能是多个意图，同时输出的意图识别的详细信息也可能不一致。比如基于规则匹配意图识别除了输出匹配识别的意图外，也会输出匹配命中的具体规则；基于文本编辑距离的意图识别方法，会额外输出识别出的意图及其对应的表示编辑距离的数值。

意图识别策略引擎模块，该模块是意图识别策略的执行模块，也是意图识别算法的调用方。模块输入为用户预定义的意图识别策略配置，该配置一般以JSON或者XML序列化的方式进行组织。模块根据意图识别的策略配置调用制定的意图识别算法并与自学习模块进行数据的获取和提交，用于最终意图的选择和自学习数据的更新。以下是意图识别策略的配置示例。

意图场景特征自学习模块，该模块对于意图识别策略引擎模块上报的意图识别历史数据进行自学习，并在意图识别阶段提供基于上下文场景的历史数据指标参数，用于决策最终选择的意图。

图2是意图识别过程中各模块协同工作交互示意图。

为了更清晰的阐述本发明实施过程中所涉及的各个模块在意图识别和自学习的各步骤中承担的功能范围，下文将以特定场景为例详细阐述具备自学习能力的意图识别方法。

1.智能语音对话***或者终端的用户表述获取模块接收到“请帮我购买两张票”的用户表述语音，并将其识别为对应的文本。

2.意图识别策略引擎模块根据预设的策略，首先从意图识别算法模块中调用基于规则模版的意图识别方法进行初步的意图识别，获取到候选的意图分别为“购买电影票”和“购买火车票”。

3.意图识别策略引擎模块使用会话的上下文场景对应的唯一标志符从意图场景特征自学习模块中获取该场景下两个候选意图的分布权重数值。

4.意图识别策略引擎模块从意图识别算法模块中调用文本分类的意图识别算法，获取两个候选意图的预测得分，如“购买电影票”和“购买火车票”得分分别为0.9分和0.85分。

5.意图识别策略引擎模块对于预测得分和意图场景特征自学习模块所提供的意图分布权重进行加权计算，并根据最终的分值输出最终意图为“购买电影票”。

意图识别策略引擎模块将本次意图识别的结果和相关计算数据提交至意图场景特征自学习模块，意图场景特征自学习模块进行自学习计算并更新该场景下相关意图的指标数据。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：具体包含如下步骤；

2.根据权利要求1所述的用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：在步骤1中，获取用户表述，是指通过智能对话***或者终端获得用户表述的音频。

3.根据权利要求1所述的用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：在步骤2中，候选意图具体为：对步骤1中所输出的用户表述的文本进行初步的意图识别，可通过规则模版、计算成本较低的文本分类算法模型、语义槽值提取算法模型对用户的表述进行快速的分析，输出高相似度的候选意图分类。

4.根据权利要求1所述的用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：在步骤3中，获取候选意图的历史数据特征参数的步骤，是指根据用户表述的对话上下文语境获取该语境下意图识别的历史记录的特征，提取上一步骤中输出的候选意图分类的特征参数，如该场景下所有意图识别历史数据中命中某一意图的比例、所有意图识别历史数据中某一意图分类下的各个语料的所占比例。

5.根据权利要求1所述的用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：在步骤4中，预设的意图选择规则策略行步骤，是指根据预设的策略，决策是否需要对候选意图使用成本较高的意图识别技术进行预测，输出所有候选意图的准确性预测得分；并根据上一步骤中获取的所有候选意图的场景特征参数进行规则计算，输出最终的识别意图。

6.根据权利要求1所述的用于智能语音对话***的具备自学习能力的意图识别方法，其特征在于：在步骤5中，自学习***，是指将上述步骤中所预测的候选意图和最终识别意图及其相关的场景特征参数提交至自学习数据分析***，用于实时或者定期的数据分析和回归测试，更新意图识别的场景特征相关数据。

7.一种基于权利要求1至5任一项所述的用于智能语音对话***的具备自学习能力的意图识别方法的意图识别***，其特征在于：包含

意图场景特征自学习模块，用于对于意图识别策略引擎模块上报的意图识别历史数据进行自学习，并在意图识别阶段提供基于上下文场景的历史数据指标参数，用于决策最终选择的意图。