CN110704641A

CN110704641A - 一种万级意图分类方法、装置、存储介质及电子设备

Info

Publication number: CN110704641A
Application number: CN201910966234.4A
Authority: CN
Inventors: 韩亚昕; 李航; 宋成业; 曾文佳; 冯梦盈
Original assignee: Zero Rhino (beijing) Technology Co Ltd
Current assignee: Zero Rhino (beijing) Technology Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-17
Anticipated expiration: 2039-10-11
Also published as: CN110704641B

Abstract

本申请涉及人工智能技术领域，提供一种万级意图分类方法、装置、存储介质及电子设备。其中，万级意图分类方法包括：获取与用户进行的至少一轮对话的对话语句；对对话语句进行语境分析，补全对话的语境信息；对对话语句进行语义分析，获得用户的多个候选意图；基于多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型确定用户的真实意图。上述方法基于一种全新的三层人机对话技术框架实现，在语义理解层通过语义分析获得多个候选意图，在逻辑推理层通过语境分析获得补全后的语境信息，在决策判断层利用意图决策模型根据候选意图以及补全后的语境信息进行动态决策，该方法进行意图分类的准确度较高。

Description

一种万级意图分类方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种万级意图分类方法、装置、存储介质及电子设备。

背景技术

近几年，以深度学***的全新高度。深度学习使能的感知智能技术已日益接近其“天花板”，而在人类认知能力模拟方面即认知智能方面，机器还存在着很大差距。如何让机器具有认知智能是人工智能领域面临的重大应用需求和技术挑战。

自然人机对话是目前认知智能领域最经典的技术应用场景之一，类似于人类之间的对话交流，自然人机对话追求的“自然”程度决定于机器能否“察言观色”，能否“说出”让对方感觉“满意”和“舒适”的话语，即机器能否根据所掌握的特定语境状态，“精确识别或洞察”出目标用户诉求或内心的复杂意图，进而做出能够满足目标用户意图和体验的应答话术或技能决策。

随着智能客服、智能助手等应用的日益兴起和普及，人机对话技术得到了飞速发展，但总体来看，目前大部分面向企业的人机对话产品对用户意图的识别能力较弱(例如，仅能够对百级意图进行分类)，仅能够满足中小企业在简单业务场景下的对话需求，而有相当数量的大型企业在应用人机对话技术赋能企业创新的过程中，存在着应用场景多、业务种类复杂、客户需求精细等特点，对用户意图的识别能力要求较高(例如，要对万级意图进行分类)，现有人机对话技术尚不能满足这样的要求。

发明内容

本申请实施例的目的在于提供一种万级意图分类方法、装置、存储介质及电子设备，用以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种万级意图分类方法，包括：获取与用户进行的至少一轮对话的对话语句；对所述对话语句进行语境分析，补全对话的语境信息；对所述对话语句进行语义分析，获得用户的多个候选意图；基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图。

上述方法基于一种全新的三层人机对话技术框架实现，该框架包括语义理解层、逻辑推理层以及决策判断层，在语义理解层通过语义分析的方式获得多个候选意图，在逻辑推理层通过语境分析的方式获得补全后的语境信息，在决策判断层利用强化学习算法构建的意图决策模型，并根据候选意图以及补全后的语境信息进行动态决策，最终输出用户的真实意图，该方法在意图分类的过程中不仅利用了传统的语义理解框架，而且引入了语境信息以及强化学习算法进行意图决策，因此分类准确度较高，可以应用于复杂业务场景下的意图分类，例如对万级意图进行分类。

在第一方面的一种实现方式中，所述对所述对话语句进行语境分析，补全对话的语境信息，包括：抽取所述对话语句中的实体与关系；根据抽取的实体与关系，利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

上述实现方式通过全景图谱引入领域知识，因此能够对语境信息进行有效补全，进而改善意图决策的准确度。

在第一方面的一种实现方式中，所述对话的语境信息包括：对话语句中的实体与槽位信息、用户情绪信息、用户画像信息、对话涉及的常识以及对话的场景信息；所述利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息，包括：利用预先构建好的全景图谱对所述对话语句进行语言语境分析，补全对话语句中的实体与槽位信息；利用预先构建好的全景图谱对所述对话语句进行文化语境分析，补全用户情绪信息、用户画像信息以及对话涉及的常识；利用预先构建好的全景图谱对所述对话语句进行场景语境分析，补全对话的场景信息。

上述实现方式中，语言语境信息、文化语境信息以及场景语境信息构成了完整的语境信息，有利于充分描述对话发生的语言环境，在现有技术中尚无将这三种语境信息同时用于意图分类的先例。

在第一方面的一种实现方式中，所述基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图，包括：将预先构建好的全景图谱、所述多个候选意图、补全后的对话语境信息、用户上一轮输入的对话语句的文本特征、用户本轮输入的对话语句的文本特征以及上一轮对话状态的概率分布输入到所述意图决策模型，获得所述意图决策模型输出的所述用户的真实意图以及本轮对话状态；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

上述实现方式描述了意图决策模型可能的输入和输出，该模型可以进行动态决策，不受意图分类种类的限制，不用根据有限的用户意图预先配置对话流程，能够很好地应对万级意图分类需求下的意图精准识别和对话状态的动态决策等挑战性问题，有利于实现多轮自由对话动态决策。

在第一方面的一种实现方式中，所述对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

在语义理解层，可以根据需求采用语义匹配模型和意图分类模型中的一个模型，或者联合两个模型的分析结果来获得用户的多个候选意图。

在第一方面的一种实现方式中，利用语义匹配模型和意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用语义匹配模型对所述对话语句进行语义分析，获得模型输出的第一意图；利用意图分类模型对所述对话语句进行语义分析，获得模型输出的第二意图；判断所述第一意图和所述第二意图是否相同，若所述第一意图和所述第二意图不相同，则将所述第一意图以及所述第二意图确定为所述多个候选意图。

在第一方面的一种实现方式中，所述方法还包括：若所述第一意图和所述第二意图相同，则将所述第一意图确定为用户的真实意图。

上述两种实现方式描述了在语义理解层同时采用语义匹配模型和意图分类模型时的情况，若两个模型对用户意图的预测不一致，表明用户的意图尚不明确，可以将模型输出的两个意图作为候选意图，交由意图决策模型进一步决策；若两个模型对用户意图的预测一致，则基本可以确定用户表达的意图是明确的，此时可以直接输出用户的真实意图作为意图分类结果，不必再交由意图决策模型进一步决策。

在第一方面的一种实现方式中，所述利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：将所述对话语句基于字、词以及对话所涉及领域的领域知识进行嵌入表示；将所述对话语句嵌入表示的结果输入到所述语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

在上述实现方式中，在对语句进行嵌入表示时引入了领域知识，使得作为表示结果的特征的维度得到增加，因此有利于改善语义理解层模型的意图分类结果的准确度，进而有利于提高最终的意图决策的准确度。

在第一方面的一种实现方式中，所述获取与用户进行的至少一轮对话的对话语句，包括：获取用户输入的首个对话语句；判断所述首个对话语句中是否存在语句信息缺失；若存在语句信息缺失，则与所述用户进行至少一轮澄清对话；其中，所述对话语句包括所述首个对话语句以及所述至少一轮澄清对话的澄清对话语句。

在上述实现方式中，当发现用户的对话语句存在信息缺失时，可以主动和用户进行澄清对话，在澄清对话的过程中收集更多有价值的信息，以便进行语句缺失信息补全、语境信息补全等操作。

在第一方面的一种实现方式中，所述对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用补全后的对话语境信息补全所述对话语句中的信息缺失；对补全后的对话语句进行语义分析，获得用户的多个候选意图。

在上述实现方式中，由于对对话语句中缺失的关键信息进行了补全，因此有利于改善语义理解层模型的意图分类结果的准确度，进而有利于提高最终的意图决策的准确度。

在第一方面的一种实现方式中，所述对话的语境信息包括对话语句中的实体与槽位信息，所述利用补全后的对话语境信息补全所述对话语句中的信息缺失，包括：利用补全后的实体与槽位信息补全所述对话语句中的信息缺失。

第二方面，本申请实施例提供一种万级意图分类装置，包括：对话获取模块，用于获取与用户进行的至少一轮对话的对话语句；语境信息补全模块，用于对所述对话语句进行语境分析，补全对话的语境信息；语义理解模块，用于对所述对话语句进行语义分析，获得用户的多个候选意图；意图决策模块，用于基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的自然人机对话技术的架构图；

图2为本申请实施例提供的一种万级意图分类方法的流程图；

图3为图2中的万级意图分类方法的一种实现方式的示意图；

图4为图3中的逻辑推理层的一种实现方式的示意图；

图5为图3中的决策判断层的一种实现方式的示意图；

图6为本申请实施例提供的一种万级意图分类装置的功能模块图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

自然人机对话技术的核心问题之一是用户意图识别，一旦机器人(泛指可以与用户进行人机对话的实体，其实现方式可以为软件、硬件或者二者的结合)识别到了用户的意图，就可以采取相应的应答话术或技能决策，从而提供使用户满意的服务。意图识别的一种主流实现方式是意图分类，也即预设若干个意图类别，并根据用户的对话内容确定用户想要表达的意图属于其中的哪个类别。

然而，现有的意图分类方法，仅适用于百级意图的分类，对万级意图分类则难以获得理想的分类结果，而本申请实施例提供的万级意图分类方法则能够很好地用于万级意图分类。在本文中，“百级意图”是指需要分类的意图数量最大值为数百个，常见于中小企业的简单业务场景中，例如，对于用户预定晚餐的业务场景，其意图数量有限，无非是询问是否有座位、有多少座位、就餐价格是多少、有无停车场等。“万级意图”是指需要分类的意图数量最大值为数万个，常见于大型企业的复杂业务场景中，例如，对于用户使用电商平台进行电商交易的场景，其意图数量庞大，用户作为买家和卖家都有不同的意图表达，以买家为例，又可以进一步包含询问电商平台规则、询问购物流程、投诉卖家、向平台提出优化建议等内容，每项内容下又包含大量更加精细的意图。可以理解的，上述“百级”、“万级”只是约数，不是精确数值。另外，本申请实施例提供的万级意图分类方法既然可用于万级意图分类，自然也可以用于万级以下的意图分类，并且，该方法也可用于万级以上的意图分类，只是为简单起见，在后文中主要以万级意图分类为例进行阐述。

发明人经长期研究发现，针对万级意图的精细分类需求，目前的人机对话技术主要存在以下瓶颈问题：

(1)万级意图分类下的语义缠绕问题

对于百级意图分类，不管是按照分层次类别还是单一层次类别进行分类，依据词语统计特征或分布式向量表示对句子的语义相似性进行匹配的意图识别，或者利用标注语料训练分类模型对意图进行识别，这种综合语义匹配和分类模型两个技术方案的传统语义理解框架基本能够准确识别用户90％以上的意图。但对于万级意图分类需求，由于业务被分得很精细，造成两个不同类别的业务诉求之间存在语义相关性、字词重叠性，使得语义上看似相似的几个业务诉求的文字表达，很可能属于完全不同的意图分类，可以称之为万级意图分类下的语义缠绕问题。例如：在运营商的智能客服中，用户表达的“我欠了多少钱”、“我为什么欠费了”、“我为什么欠了三十块”看似都是表达“话费”业务类别中的“查询话费”诉求，但实际上表达了三种不同的、更为精细的意图，分别是：“查询余额”、“查询欠费原因”和“核查话费去向”。这种语义缠绕问题在万级意图分类场景中普遍存在，利用现有的技术框架分类准确度不高，导致语义缠绕问题成为制约自然人机对话***在大型企业业务场景中成功落地应用的重要因素。

(2)万级意图分类下的关键信息缺失问题

在自然人机对话项目实施初期，企业能够提供的业务标注语料一般较少，由此造成难以训练出有效的语义匹配模型和意图分类模型。对于百级意图分类的应用来说，可以采用数据增强、伪标签或自助法等技术来边增加标注语料边训练模型，或者依据迁移学习思想，基于Bert等预训练模型进行参数微调来提高语义匹配模型或意图分类模型的准确度。但对于具有万级意图分类需求的大型企业，由于业务种类多而复杂，业务意图经常发生更新和调整，往往更新的意图相关语料没有或很少，造成需要分类绝大部分业务意图需要的关键信息缺失问题，补足相关关键信息周期较长，由此造成很多业务意图的统计特征难以挖掘，传统的认知架构无法满足万级意图分类需求。

(3)万级意图分类下的多轮自由对话动态决策问题

对于百级意图分类来说，在高准确度的意图分类率保障下，常用的多轮对话管理能够基于图结构路径配置的有限状态机或其他马尔可夫决策过程来建模实现。但这种对话管理机制需要事先预设所有可能的对话路径，并且假定对话的状态是有限的，这对于百级意图分类下的多轮对话基本上是可以胜任的。但对于万级意图分类下的多轮对话，由于涉及的意图多，多意图的业务诉求、多意图的转换等情况在人机多轮对话中经常出现，需要根据上下文语言表达环境进行对话状态的动态决策，可以称为多轮自由对话的动态决策问题。针对这种问题，传统基于有限固定状态序列的对话决策方法难以应对。

需要特别强调，上述问题的发现，是发明人在经过实践并仔细研究后得出的结果，因此，其发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都是发明人在本发明过程中对本发明做出的贡献。

传统框架主要是从语义理解的角度、通过语义匹配模型和意图分类模型进行意图分类。基于传统框架的认知智能主要依据统计特征或模式来解决语义理解和意图分类问题，这种基于统计特征的模型有其先天的局限性，即没有考虑自然语言内在的逻辑性以及语言表达的环境(简称语境)，因此无法解决万级意图分类下的语义缠绕、关键信息缺失和多轮自由对话动态决策问题(即上文所述的三个问题)。

发明人研究后认为，如何将自然语言符号空间的逻辑表达(即知识表示)、语境表示融合到统计特征空间进行联合学习和建模是解决万级意图分类下的自然人机对话问题的关键。为此，参照图1，本申请提出了一个集基于语义匹配模型和意图分类模型的语义理解层100、基于知识图谱和事理图谱的逻辑推理层110、基于强化学习的多轮对话决策的决策判断层120三层于一体的自然人机对话技术架构。在图1的每一层中，还以矩形小方框示出了每层包含的一些(但不是全部)技术要点，有关每一层的具体实现方式，将在后文阐述。

针对语义理解层，本申请在传统基于统计特征的语义特征表示(即基于字、词的语义特征表示)中进一步嵌入领域知识相关实体与关系特征，提升语义匹配模型和分类模型的预测准确度。

针对逻辑推理层，本申请构建由领域知识图谱和事理图谱组成的全景图谱，通过基于全景图谱的语境分析，完成实体识别、实体纠错、省略补全、指代消解等功能，实现对对话语句的关键信息的补全以及对对话的语境信息的补全，构建包含<语言、文化、场景>三种要素在内的完整对话语境知识。

在决策判断层，本申请基于补全后的对话语境信息，跟踪对话状态，完成多轮对话状态决策和意图分类等决策判断任务。

下面将结合图2至图5具体阐述如何在图1的技术框架的基础上实现用户的意图分类。其中，图2为本申请实施例提供的一种万级意图分类方法的流程图，图3为图2中万级意图分类方法的一种具体的实现方式，图4为图3中逻辑推理层的一种具体实现方式，图5为图3中决策判断层的一种具体实现方式。图2至图5中方法都可以由进行人机对话的机器人执行，下文不再特别说明。

首先参照图2，该方法包括：

步骤S200：获取与用户进行的至少一轮对话的对话语句。

机器人为识别用户的意图，需要与用户进行至少一轮对话，以获取对话语句作为分析素材，对话语句中既可以包括用户说的话，也可以包括机器人说的话。其中，人机对话的具体方式不作限定：例如，用户可以通过键盘输入文字与机器人对话，又例如，用户可以通过语音方式与机器人对话，机器人负责将用户的语音转换为文字，并将自己要说的话转换为人工语音输出，等等。

产生至少一轮对话有多种方式，例如，若机器人主要用于聊天，则至少一轮对话将在聊天过程中自然产生，又例如，若机器人主要用于客服，在用户输入首个对话语句后，机器人判断该语句是否已经具备意图分类的条件(例如，语句信息是否存在缺失、对话的语境信息是否完整等)，若已经具备意图分类的条件可以直接根据该语句进行意图分类，否则可以按照澄清话术主动与用户进行至少一轮澄清对话，并将用户输入的首个对话语句和至少一轮澄清对话产生的澄清对话语句作为分类用户意图的素材。其中，澄清对话即机器人为了引导用户说出其真实意图而进行的对话，例如，用户说“我想买机票”，这是一个模糊的业务意图表达，机器人可以通过澄清话术引导用户说出更多和买机票有关的细节，例如，机器人可以回复“您想买什么时间的机票”“您想买从哪儿出发到哪儿的机票”等等，当客户回答了这些问题后，其真实意图得到逐步澄清。

参照图3，用户输入首个对话语句后，可以对语句进行预处理，将原始语句转换为更适合后续处理的形式，当然在某些实现方式中不进行预处理也是可以的。例如，预处理可以包括对语句进行去标点、文本正则化、分字、分词和词性标注等操作，其具体方法可以参考现有技术，此处不具体阐述。

需要指出，上面所谓“首个对话语句”并不是严格指用户首次与机器人对话时说的话，用户与机器人的对话可能是一个连续的过程，例如，用户希望机器人为其提供几项服务，则机器人识别出用户的一项意图后，用户开始表达下一个意图的语句也可以称之为“首个对话语句”。

针对预处理后的对话语句，机器人可以通过预设的规则判断是否有信息缺失，例如，语句是否有代词(有代词则存在缺失)，语句是否省略了主语或宾语(省略了则存在缺失)，等等。若不存在信息缺失，则可利用语义理解层的模型进行用户意图分类(见步骤S202)；若判断出存在信息缺失，则表明对话语句尚不满足进行意图分类的条件，从而机器人可以按照澄清话术与用户进行至少一轮澄清对话，并在对话过程中补全缺失的信息，并根据信息补全后的对话语句，利用语义理解层的模型进行用户意图分类(见步骤S202)。关于语句信息缺失的补全，在步骤S201再阐述。需要指出的是，由于在澄清对话的过程中，用户输入了新的语句，新的语句也可能存在信息缺失，因此信息补全的对象并不限于用户输入的首个对话语句，还可以是用户输入的新的语句，图3中并未明确示出这一点。另外，对于用户新输入的语句，机器人也可以对其进行预处理，在图3中也未明确示出。

在机器人识别出用户的真实意图之前，澄清对话可能会一直持续下去，每当机器人补全了已经进行的对话语句中的信息缺失，都可以将补全后的语句反馈至语义理解层的模型进行意图分类(见步骤S202)。

发明人研究发现，信息缺失是导致万级意图难以准确分类的主要原因之一，因此，对于信息不完整的语句首先通过澄清话术补全其信息缺失，然后再进行意图分类，有利于提高意图分类的准确度。

步骤S201：对对话语句进行语境分析，补全对话的语境信息。

上文已经提到，语境即语言表达的环境，在不同的环境下，相同的语句可能表达不同的意图，因此补全对话的语境信息对于改善意图分类的准确度具有重要意义。

在步骤S200中获得至少一轮对话语句后，可以抽取对话语句中的实体与关系，然后根据抽取的实体与关系，利用预先构建好的全景图谱对对话语句进行语境分析，补全对话的语境信息。其中，全景图谱包括对话所涉及领域的知识图谱以及事理图谱，知识图谱是基于二元关系的知识库，主要用来描述真实世界中存在的各种实体和概念，以及它们之间的关系，而事理图谱则是一个事理逻辑知识库，主要用来描述事件之间的演化规律和模式，对话涉及的领域可以是机器人提供服务的领域，例如，对于保险公司的机器人该领域就是保险领域。关于知识图谱和事理图谱的构建，可以参考现有技术，此处不作具体阐述。

参照图4，对于步骤S200中获得的对话语句(在图4中，是通过与用户进行澄清对话获得，但也不排除步骤S200中其他获得对话语句的方式)，可以基于全景图谱进行对话的语境信息的补全。对话的语境信息可以包括，但不限于图4中示出的三个部分，即语言语境信息、文化语境信息以及场景语境信息，这三部分语境信息分别可以通过基于全景图谱的语言语境分析、文化语境分析以及场景语境分析进行补全。其中，语言语境信息侧重于描述语句本身的内容，具体可以包括对话语句中的实体与槽位信息等；文化语境信息侧重于描述进行对话的用户的状态，具体可以包括用户情绪信息(用户在对话时的情绪)、用户画像信息(用户的身份、属性、偏好等特征)、对话涉及的常识等；场景语境信息侧重于描述对话发生的外部环境因素，具体可以包括对话的场景信息，例如对话发生的时间、地点等。

继续参照图3，在图4中对<语言、文化、场景>三类语境信息进行补全后，可将补全后的语境信息输出至决策判断层(见步骤S203)，语境信息的补全对于意图决策模型的决策准确度提升至关重要。

另一方面，仍然参照图3，逻辑推理层有两大功能，其一上面已经介绍，即通过全景图谱补全对话的语境信息，其二便是在介绍步骤S200时提到的：在对话语句存在信息缺失时，补全语句的信息缺失。例如，缺失信息的补全具体可以包括对语句执行实体识别、实体纠错、省略补全、指代消解等操作，在一种可选方案中，语句缺失信息的补全可以利用图4中补全后的实体与槽位信息来实现。并且，之前已经提到，补全后的语句可以反馈至语义理解层中的模型进行意图分类(见步骤S202)，从而有利于改善意图分类的准确度。

需要指出，虽然在图3中，只有机器人判断出对话语句存在信息缺失时才会主动进行澄清对话，但其实进行澄清对话的原因并不限于语句信息缺失，例如，当机器人认为语境信息存在缺失时，也可以主动与用户进行澄清对话，并在对话过程中逐步补全对话的语境信息。

步骤S202：对对话语句进行语义分析，获得用户的多个候选意图。

语义分析可以采用，但不限于语义匹配模型、意图分类模型中的一个或者两个，例如，前者可以是经过迁移学习的Bert模型，后者可以是Fasttext模型、Bert分类模型等。语义匹配模型以及意图分类模型均可以输出意图分类的概率大小，此处不对模型实现作进一步阐述，参考现有技术即可。

在对对话语句进行语义分析之前，可以先对语句进行适当的量化表示(例如，表示为特征向量的形式)，然后再输入至模型进行意图分类。例如，可以将对话语句基于字、词以及对话所涉及领域的领域知识三个特征维度进行嵌入表示(比如，基于Bert模型的分布式嵌入表示)，当然也可以将对话语句基于字、词两个特征维度进行嵌入表示或者采用其他表示方法，不过基于字、词以及领域知识的表示方法由于嵌入了领域知识，使得表示语句的特征的维度得到增加，因此有利于改善意图分类的准确度。

候选意图是指通过语义理解层的模型确定出的用户可能表达的意图，但由于语义缠绕等问题，在语义理解层难以区分其中哪一个是用户的真实意图，因此可以将多个候选意图输入到决策判断层的意图决策模型进行最终决策输出。当然，不排除用户要表达的意图十分简单，语义理解层直接就能够确定用户的真实意图，此时也可以直接输出用户的真实意图，不必再通过决策判断层去进行意图决策。

候选意图有多种获得方式：例如，若只采用一个模型，以意图分类模型为例，模型输出各意图的概率大小，若概率最大的意图其概率值超过一定的阈值(比如80％、90％等)，可以将其认定为用户的真实意图，不必输出候选意图，若概率最大的几个意图概率值接近，比如排名前两个的意图概率分别是45％、42％，可以将这两个意图作为候选意图。

又例如，若同时采用语义匹配模型和意图分类模型，两个模型都将概率最大的意图作为输出，即利用语义匹配模型对对话语句进行语义分析获得模型输出的第一意图，以及利用意图分类模型对对话语句进行语义分析获得模型输出的第二意图。此时可判断第一意图和第二意图是否相同，若不相同，表明在语义理解层看来用户的意图尚不明确，则可以将第一意图以及第二意图确定为两个候选意图，交由决策判断层进一步处理；若相同，表明在语义理解层看来用户的意图是明确的，则可以将第一意图(或者第二意图)确定为用户的真实意图，直接输出，不必交由决策判断层进一步处理。当然，在某些实现方式中，也不一定一个模型只输出一个候选意图，也可输出几个概率近似的候选意图，从而这些实现方式中候选意图的数量可能超过两个。

参照图3，图3中同时采用了语义匹配模型以及意图分类模型，模型的输入是经过信息补全的对话语句(或者不需要信息补全的对话语句)，并且，对话语句基于字、词以及领域知识进行了嵌入表示，其中，用于嵌入表示的字和词可以在语句进行预处理时获得(预处理可以包括分字、分词)。融合了语义匹配模型以及意图分类模型的语义分析结果而输出的候选意图，将输入至决策判断层的意图决策模型进行进一步决策输出。需要指出，图3并未示出语义理解层直接输出用户的真实意图的分支。

步骤S203：基于多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从多个候选意图中确定用户的真实意图。

参照图3，意图决策模型可以通过强化学习算法预先构建好，模型的输入包括步骤S201中获得的补全后的对话语境信息以及步骤S202中获得的多个候选意图，模型的输出包括预测出的用户的真实意图(属于多个候选意图中的一个)，判断出用户的真实意图后，机器人可以采取合适的应答话术或技能决策，其中，技能决策可以包括，但不限于为用户办理其表达的真实意图所对应的业务。

在图3中，不仅仅是用户输入的首个对话语句，用户针对机器人的澄清话术的回答方式也是各种各样，有些甚至是答非所问，缺乏逻辑。本申请利用全景图谱的知识表达对对话语句进行分析推理，一方面，通过补全了用户表达意图模糊的语句中的关键信息，进而将信息补全后的语句重新输入给语义理解层的模型，有利于改善候选意图的分类准确度，最终改善意图决策模型进行意图分类的准确度；另一方面，补全了包含<语言、文化、场景>三种要素在内的完整对话语境信息，进而将补全的语境信息输入给意图决策模型并结合全景图谱进行意图决策，同样有利于改善意图决策模型进行意图分类的准确度。

在一些实现方式中，机器人还可以对模型输出的意图进行评估，并且只有在满足评估条件的时候才会最终确认用户的真实意图，若不满足评估条件则可以继续与用户进行对话(例如，继续进行澄清对话)，并在每轮对话后都利用意图决策模型判断用户的真实意图并进行意图评估，直至满足评估条件(图3并未明确示出这一过程)。例如，意图决策模型可以为所有的候选意图预测一个概率值，并将概率值最大的候选意图作为用户的真实意图输出，则评估条件可以设置为真实意图对应的概率值必须大于一定的阈值(比如80％、90％等)。

参照图5，在决策判断层的一种具体实现方式中，意图决策模型可以采用，但不限于DeepMind提出的深度Q学习网络DQN强化学习算法进行构建。模型的输入可以包括预先构建好的全景图谱、多个候选意图以及补全后的对话语境信息、用户在上一轮中输入的对话语句的文本特征、用户在本轮对话中输入的对话语句的文本特征以及上一轮对话状态的概率分布，模型的输出可以包括用户的真实意图(图5中未示出)以及本轮对话状态(本轮对话后该转移的对话状态)。之前已经提到过，若意图决策模型在对意图进行分类后，机器人评估其分类结果不满足评估条件，则可以继续与用户的对话，因此模型的输入输出中的对话状态之间存在迭代关系。

发明人研究发现，用户在与机器人的多轮对话中，往往会出现多个意图并存、意图来回切换和模糊意图表达等问题，现有的方法一般是采用基于有限状态机模型预置客户的多个意图识别、意图转换与话术应对路径，这样对于用户表达的意图没有在预置方案中的情况，对话管理就无法识别和应对了。在万级意图分类的场景下，由于意图多，难以预先做全部的意图分类与话术应对路径的配置，本申请利用全景图谱，通过基于增强学习算法构建的意图决策模型，根据相关的语境信息和历史对话状态，动态决策机器人当前对话该转移的状态以及用户的真实意图，能够获得较好的意图分类结果。

在一些实现方式中，还可以对全景图谱进行动态更新，以进一步改善意图决策的准确度。

综上所述，本申请实施例提供的万级意图分类方法基于一种全新的三层人机对话技术框架实现，该框架针对万级意图分类场景提出，具体包括语义理解层、逻辑推理层以及决策判断层。在语义理解层通过语义分析的方式获得多个候选意图，在逻辑推理层通过语境分析的方式获得补全后的语境信息，在决策判断层利用强化学习算法构建的意图决策模型，并根据候选意图以及补全后的语境信息进行动态决策，最终输出用户的真实意图，该方法在意图分类的过程中不仅利用了传统的语义理解框架，而且引入了语境信息以及强化学习算法进行意图决策，因此分类准确度较高，可以应用于复杂业务场景下的意图分类，例如对万级意图进行分类。

针对前文提出的人机对话领域的三个瓶颈问题，在本申请实施例提供的万级意图分类方法中都对应提出了有价值的解决方案予以回应：首先，在传统语义匹配模型和意图分类模型的基础上，重点考虑了自然语言内在逻辑的符号特征，提出了领域知识嵌入的语义特征表示方法，提升了对话语句在语义匹配模型和意图分类模型上进行意图分类的准确度，有利于解决语义缠绕问题。另外，在用户的对话语句和/或语境信息存在缺失时，通过主动与用户进行至少一轮澄清对话，收集更多有效信息，并可以通过基于领域知识构建的全景图谱进行分析与推理，补全对话中的缺失信息和对话的语境信息，有效改善了因语句信息缺失和对话上下文(表征为语境信息)缺失所导致语义缠绕问题。同时，对于语句缺失信息和语境信息的补全最终都会反馈到意图决策模型的输入，有利于改善因关键信息缺失导致的意图分类结果不理想的问题。此外，本申请创新性地提出了基于强化学习算法的意图决策模型，该模型可以进行动态决策，不受意图分类种类的限制，不用根据有限的用户意图预先配置对话流程，能够很好地应对万级意图分类需求下的意图精准识别和对话状态的动态决策等挑战性问题，有利于实现多轮自由对话动态决策。

图6为本申请实施例提供的万级意图分类装置300的功能模块图。参照图6，万级意图分类装置300包括：对话获取模块310，用于获取与用户进行的至少一轮对话的对话语句；语境信息补全模块320，用于对所述对话语句进行语境分析，补全对话的语境信息；语义理解模块330，用于对所述对话语句进行语义分析，获得用户的多个候选意图；意图决策模块340，用于基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图。

在万级意图分类装置300的一种实现方式中，语境信息补全模块320对所述对话语句进行语境分析，补全对话的语境信息，包括：抽取所述对话语句中的实体与关系；根据抽取的实体与关系，利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

在万级意图分类装置300的一种实现方式中，所述对话的语境信息包括：对话语句中的实体与槽位信息、用户情绪信息、用户画像信息、对话涉及的常识以及对话的场景信息；语境信息补全模块320利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息，包括：利用预先构建好的全景图谱对所述对话语句进行语言语境分析，补全对话语句中的实体与槽位信息；利用预先构建好的全景图谱对所述对话语句进行文化语境分析，补全用户情绪信息、用户画像信息以及对话涉及的常识；利用预先构建好的全景图谱对所述对话语句进行场景语境分析，补全对话的场景信息。

在万级意图分类装置300的一种实现方式中，意图决策模块340基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图，包括：将预先构建好的全景图谱、所述多个候选意图、补全后的对话语境信息、用户上一轮输入的对话语句的文本特征、用户本轮输入的对话语句的文本特征以及上一轮对话状态的概率分布输入到所述意图决策模型，获得所述意图决策模型输出的所述用户的真实意图以及本轮对话状态；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

在万级意图分类装置300的一种实现方式中，语义理解模块330对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

在万级意图分类装置300的一种实现方式中，语义理解模块330利用语义匹配模型和意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用语义匹配模型对所述对话语句进行语义分析，获得模型输出的第一意图；利用意图分类模型对所述对话语句进行语义分析，获得模型输出的第二意图；判断所述第一意图和所述第二意图是否相同，若所述第一意图和所述第二意图不相同，则将所述第一意图以及所述第二意图确定为所述多个候选意图。

在万级意图分类装置300的一种实现方式中，语义理解模块330还用于：若所述第一意图和所述第二意图相同，则将所述第一意图确定为用户的真实意图。

在万级意图分类装置300的一种实现方式中，语义理解模块330利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：将所述对话语句基于字、词以及对话所涉及领域的领域知识进行嵌入表示；将所述对话语句嵌入表示的结果输入到所述语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

在万级意图分类装置300的一种实现方式中，对话获取模块310获取与用户进行的至少一轮对话的对话语句，包括：获取用户输入的首个对话语句；判断所述首个对话语句中是否存在语句信息缺失；若存在语句信息缺失，则与所述用户进行至少一轮澄清对话；其中，所述对话语句包括所述首个对话语句以及所述至少一轮澄清对话的澄清对话语句。

在万级意图分类装置300的一种实现方式中，语义理解模块330对所述对话语句进行语义分析，获得用户的多个候选意图，包括：利用补全后的对话语境信息补全所述对话语句中的信息缺失；对补全后的对话语句进行语义分析，获得用户的多个候选意图。

在万级意图分类装置300的一种实现方式中，所述对话的语境信息包括对话语句中的实体与槽位信息，语义理解模块330利用补全后的对话语境信息补全所述对话语句中的信息缺失，包括：利用补全后的实体与槽位信息补全所述对话语句中的信息缺失。

本申请实施例提供的万级意图分类装置300，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

图7为本申请实施例提供的一种电子设备的示意图。参照图7，电子设备400包括：处理器410、存储器420以及通信接口430，这些组件通过通信总线440和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，存储器420包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。处理器410以及其他可能的组件可对存储器420进行访问，读和/或写其中的数据。

处理器410包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器410可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通信接口430包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。例如，通信接口430可以是以太网接口；可以是移动通信网络接口，例如3G、4G、5G网络的接口；还是可以是具有数据收发功能的其他类型的接口。

在存储器420中可以存储一个或多个计算机程序指令，处理器410可以读取并运行这些计算机程序指令，以实现本申请实施例提供的万级意图分类方法以及其他期望的功能。

可以理解，图7所示的结构仅为示意，电子设备400还可以包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。例如，电子设备400可以是单台服务器(或其他具有运算处理能力的设备)、多台服务器的组合、大量服务器的集群等，并且，既可以是物理设备也可以是虚拟设备。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的万级意图分类方法。例如，计算机可读存储介质可以实现为图7中电子设备400中的存储器420。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种万级意图分类方法，其特征在于，包括：

获取与用户进行的至少一轮对话的对话语句；

对所述对话语句进行语境分析，补全对话的语境信息；

对所述对话语句进行语义分析，获得用户的多个候选意图；

基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图。

2.根据权利要求1所述的万级意图分类方法，其特征在于，所述对所述对话语句进行语境分析，补全对话的语境信息，包括：

抽取所述对话语句中的实体与关系；

根据抽取的实体与关系，利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

3.根据权利要求2所述的万级意图分类方法，其特征在于，所述对话的语境信息包括：对话语句中的实体与槽位信息、用户情绪信息、用户画像信息、对话涉及的常识以及对话的场景信息；

所述利用预先构建好的全景图谱对所述对话语句进行语境分析，补全对话的语境信息，包括：

利用预先构建好的全景图谱对所述对话语句进行语言语境分析，补全对话语句中的实体与槽位信息；

利用预先构建好的全景图谱对所述对话语句进行文化语境分析，补全用户情绪信息、用户画像信息以及对话涉及的常识；

利用预先构建好的全景图谱对所述对话语句进行场景语境分析，补全对话的场景信息。

4.根据权利要求1所述的万级意图分类方法，其特征在于，所述基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图，包括：

将预先构建好的全景图谱、所述多个候选意图、补全后的对话语境信息、用户上一轮输入的对话语句的文本特征、用户本轮输入的对话语句的文本特征以及上一轮对话状态的概率分布输入到所述意图决策模型，获得所述意图决策模型输出的所述用户的真实意图以及本轮对话状态；其中，所述全景图谱包括对话所涉及领域的知识图谱以及事理图谱。

5.根据权利要求1所述的万级意图分类方法，其特征在于，所述对所述对话语句进行语义分析，获得用户的多个候选意图，包括：

利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

6.根据权利要求5所述的万级意图分类方法，其特征在于，利用语义匹配模型和意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：

利用语义匹配模型对所述对话语句进行语义分析，获得模型输出的第一意图；

利用意图分类模型对所述对话语句进行语义分析，获得模型输出的第二意图；

判断所述第一意图和所述第二意图是否相同，若所述第一意图和所述第二意图不相同，则将所述第一意图以及所述第二意图确定为所述多个候选意图。

7.根据权利要求6所述的万级意图分类方法，其特征在于，所述方法还包括：若所述第一意图和所述第二意图相同，则将所述第一意图确定为用户的真实意图。

8.根据权利要求5所述的万级意图分类方法，其特征在于，所述利用语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图，包括：

将所述对话语句基于字、词以及对话所涉及领域的领域知识进行嵌入表示；

将所述对话语句嵌入表示的结果输入到所述语义匹配模型和/或意图分类模型对所述对话语句进行语义分析，获得用户的多个候选意图。

9.权利要求1-8任一项所述的万级意图分类方法，其特征在于，所述获取与用户进行的至少一轮对话的对话语句，包括：

获取用户输入的首个对话语句；

判断所述首个对话语句中是否存在语句信息缺失；

若存在语句信息缺失，则与所述用户进行至少一轮澄清对话；其中，所述对话语句包括所述首个对话语句以及所述至少一轮澄清对话的澄清对话语句。

10.根据权利要求1-8中任一项所述的万级意图分类方法，其特征在于，所述对所述对话语句进行语义分析，获得用户的多个候选意图，包括：

利用补全后的对话语境信息补全所述对话语句中的信息缺失；

对补全后的对话语句进行语义分析，获得用户的多个候选意图。

11.根据权利要求10所述的万级意图分类方法，其特征在于，所述对话的语境信息包括对话语句中的实体与槽位信息，所述利用补全后的对话语境信息补全所述对话语句中的信息缺失，包括：

利用补全后的实体与槽位信息补全所述对话语句中的信息缺失。

12.一种万级意图分类装置，其特征在于，包括：

对话获取模块，用于获取与用户进行的至少一轮对话的对话语句；

语境信息补全模块，用于对所述对话语句进行语境分析，补全对话的语境信息；

语义理解模块，用于对所述对话语句进行语义分析，获得用户的多个候选意图；

意图决策模块，用于基于所述多个候选意图以及补全后的对话语境信息，利用基于强化学习算法构建的意图决策模型从所述多个候选意图中确定用户的真实意图。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-11中任一项所述的方法。

14.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行如权利要求1-11中任一项所述的方法。