CN112069298B

CN112069298B - 基于语义网和意图识别的人机交互方法、设备及介质

Info

Publication number: CN112069298B
Application number: CN202010756664.6A
Authority: CN
Inventors: 嵇望; 钱艳; 王伟凯; 梁青; 安毫亿; 朱鹏飞; 陈默
Original assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Current assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2024-06-14
Anticipated expiration: 2040-07-31
Also published as: CN112069298A

Abstract

本发明公开了一种基于语义网和意图识别的人机交互方法，涉及自然语言处理领域，旨在实现准确识别问题意图，提高人机交互的问答质量。该方法包含以下步骤：获取行业内的常见问题解答作为交互数据源；对所述常见问题解答中的标准问题进行语义标注，构建行业语义网络；获取训练语料；通过所述训练语料训练意图识别分类模型；接收用户问题，通过所述意图识别分类模型对所述用户问题进行意图识别，得到意图候选集，基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，输出答案。本发明还公开了一种电子设备和计算机存储介质。

Description

基于语义网和意图识别的人机交互方法、设备及介质

技术领域

本发明涉及自然语音处理领域，尤其涉及一种基于语义网和意图识别的人机交互方法、设备及介质。

背景技术

呼叫中心或客服中心的人员一般流动性大，导致企业的培训成本较大以及客户服务满意度下降等问题，造成运营成本大幅上升。因此智能客服越来越受重视，但智能客服在交互过程中面临意图识别不准确，意图模糊无法定位，训练语料维护成本高等问题。

为了解决上述问题，在现有技术中，存在中国专利申请201710575327.5，公开了一种基于知识图谱的问答方法及装置，获取用户输入的自然查询语句，并识别出自然查询语句中的实体针对知识图谱的全局唯一标识符GUID，知识图谱中包括实体的属性和属性值以及各实体之间的关系；根据上下文无关文法规则，将自然查询语句解析为语法树，并根据语法树得到自然查询语句对应的逻辑表达式；根据逻辑表达式以及实体的GUID，生成知识图谱对应的机器查询语句；根据机器查询语句，在知识图谱中查询机器查询语句对应的问答结果，并向用户反馈问答结果。以实现针对问答可以获取准确的问答结果。但该专利申请需要大量语料构建的知识图谱，且目前的通用实体识别模型只能识别人名、地名、机构名等，对特定领域的专业实体的识别缺乏训练语料，导致缺乏特定领域的问答适用性，且问答过程中因存在很多口语化语句，导致实体和属性无法提取，因此无法准确定位问题。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于语义网和意图识别的人机交互方法，可实现准确识别问题意图，提高人机交互的问答质量。

本发明的目的之一采用以下技术方案实现：

一种基于语义网和意图识别的人机交互方法，包括以下步骤：

获取行业内的常见问题解答作为交互数据源；

对所述常见问题解答中的标准问题进行语义标注，构建行业语义网络；

获取训练语料，所述训练语料包括所述标准问题、所述标准问题的相似问题及所述标准问题对应的意图标签；

通过所述训练语料训练机器学习模型，得到意图识别分类模型；

接收用户问题，通过所述意图识别分类模型对所述用户问题进行意图识别，得到意图候选集，其中所述意图候选集包括若干意图类别下的标准问题；

基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案，输出所述答案。

进一步地，根据预先构建的分词词典，对所述标准问题进行分词、词性标注和句法分析，得到所述标准问题中的各分词之间的依存句法关系；

根据语义标注规则，提取所述标准问题中各分词的语义属性，其中所述语义属性包括个体、状语、动作属性、定语和数据属性；

根据所述语义属性，标注所述标准问题中的各分词，得到所述标准问题中的各分词的语义标注结果；

根据所述语义标注结果，按以下查询顺序构建语义网络：查询所述标准问题中的个体，将所述个体作为所述语义网络的节点；查询所述个体对应的动作属性，将所述动作属性作为所述个体的分支节点；查询所述动作属性对应的数据属性和状语，将查询到的数据属性和状语分别作为所述动作属性的分支节点；查询数据属性对应的定语，将查询到的定语作为所述数据属性的分支节点。

进一步地，还包括以下步骤：

动作属性确定规则：若核心词是所述标准问题中的第一个动词，则标记为动作属性；若核心词是非动词时，则查找与所述核心词距离最近的动词标记为动作属性；若核心词不是第一个动词，则查找与所述核心词有直接关系的动词标记为动作属性；

个体确定规则：当所述标准问题的分词数量小于3时，将第一个未被标记的分词标记为个体；当两个未被标记的分词不相连且距离最近时，将第一个未被标记的分词标记为个体；当两个未被标记的分词相连且有修饰关系时，则合并所述两个未被标记且相连的分词并标记为个体；

分词合并规则：当需要合并的分词相连并均未被标记为所述语义属性，且均不为形容词和副词时，将所述标准问题的定中关系和状中关系与被修饰词合并；将与核心词并列的分词与宾语合并；将所述标准问题中的并列宾语合并；当所述标准问题中的动作属性不是核心词时，将核心词和所述核心词的宾语合并；

数据属性确定规则：将所述标准问题的动作属性的宾语标记为数据属性；将所述标准问题中与动作属性有主谓关系的分词标记为数据属性；

定语状语确定规则：将所述标准问题中修饰动作属性的形容词或副词及其他名词修饰语标记为状语；将所述标准问题中修饰数据属性的形容词或副词及其他名词修饰语标记为定语。

进一步地，获取训练语料，包括：

获取所述标准问题以及所述标准问题对应的意图标签；

构建所述标准问题的相似问题，包括以下步骤：

对所述标准问题进行分词和词性标注，提取所述标准问题的名词、动词和个体词；

在通用同义词词典中检索所述名词和所述动词的同义词，通过检索到的同义词依次循环替换对应的所述名词和对应的所述动词，得到若干新语句；

通过语言模型对所述若干新语句进行评分；

将评分排序前N位的新语句中的个体词依次替换成个体同义词词典中的同义词，得到所述标准问题的若干相似问题。

进一步地，通过所述训练语料训练机器学习模型，得到意图识别分类模型，包括以下步骤：

对所述训练语料进行分词、词性标注和停用词过滤，得到预处理后的训练语料；

将预处理后的训练语料进行特征的构建，其中所述特征的构建包括自定义特征的构建、词特征的构建、语义特征的构建及句法特征的构建；

通过特征构建后的训练语料训练机器学习模型，确定所述机器学习模型中与所述训练语料中的意图标签拟合的特征的权重；

固定所述权重，得到意图识别分类模型。

进一步地，接收用户问题，通过所述意图识别分类模型对所述用户问题进行意图识别，得到意图候选集，包括以下步骤：

对所述用户问题进行分词、词性标注和停用词过滤，得到预处理后的用户问题；

对所述预处理后的用户问题进行所述特征的构建；

通过所述意图识别模型计算所述特征与所述特征对应的固定权重下的每个意图类别的置信度值，按置信度值从大到小，依次排序输出相关置信度值对应的意图类别下的标准问题作为候选问题，并形成意图候选集，所述意图候选集包括预设个数的候选问题和每个候选问题对应的置信度值。

进一步地，基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案，输出所述答案，包括以下步骤：

当所述意图候选集中置信度值最大的候选问题的置信度值大于第一预设阈值时，从所述交互数据源中查询所述置信度值最大的候选问题对应的答案，并输出所述置信度值最大的候选问题对应的答案；

当所述意图候选集中置信度值最大的候选问题的置信度值小于第二预设阈值时，则将所述用户问题判定为未识别问题；

当所述意图候选集中置信度值最大的候选问题的置信度值小于所述第一预设阈值且大于所述第二预设阈值时，根据所述行业语义网络和所述意图候选集，确定所述用户问题缺失的语义属性信息：

若基于所述行业语义网络和所述意图候选集，查询到所述用户问题缺失的语义属性信息对应唯一候选词，则通过所述唯一候选词补全所述用户问题缺失的语义属性信息，并从所述意图候选集中查询补全后的所述用户问题匹配的候选问题，若查询到，则从所述交互数据源中查询并输出补全后的所述用户问题匹配的候选问题的答案；

若基于所述行业语义网络和所述意图候选集，查询到所述用户问题缺失的语义属性信息对应一个以上候选词，则通过各所述候选词补全所述用户问题缺失的语义属性形成询问问题；接收所述询问问题的反馈答案，以补全所述用户问题缺失的语义属性信息，形成新用户问题，在所述意图候选集中去查询与所述新用户问题匹配的候选问题，若查询到，则从所述交互数据源中查询并输出与所述新用户问题匹配的候选问题的答案；否则，继续查询所述新问题缺失的其他语义属性信息，若通过多轮交互，将所有缺失的语义属性信息均补全后，还未从所述意图候选集中查询到匹配的候选问题，则返回不理解用户问题的提示信息。

进一步地，还包括以下步骤：

获取所述人机交互的交互日志；提取所述交互日志中的未识别问题；

对所述未识别问题进行预处理，对预处理后的未识别问题进行所述特征的构建；

通过K-均值聚类算法把所述未识别问题进行聚类，得到若干意图类别的问题；

筛选所述若干意图类别中的问题，对所述若干意图类别中的问题进行处理，包括：

比对所述若干意图类别与所述训练语料的意图标签，若比对成功，则将与所述意图标签具有相同意图类别的问题加入到所述训练语料中；

否则，新增意图类别或舍弃所述未识别问题。

本发明的目的之二在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的基于语义网和意图识别的人机交互方法。

本发明的目的之三在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于语义网和意图识别的人机交互方法。

相比现有技术，本发明的有益效果在于：

基于行业内的标准问题构建语义网络并训练意图识别模型，可结合语义网络和意图识别模型进行多轮人机交互，补全影响意图识别的属性信息，以精确识别问题意图，从而提高了人机交互的问答质量，提升客户体验的同时可减少人工客服的工作量。

附图说明

图1是本发明基于语义网和意图识别的人机交互方法的流程图；

图2是实施例1中构建的行业语义网络示意图；

图3是实施例2的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例1

本实施例提供了一种基于语义网和意图识别的人机交互方法，具体包括以下步骤：

获取行业内的常见问题解答作为交互数据源；

基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询所述与所述用户问题意图匹配的标准问题的答案，输出所述答案。

在实际应用中，可以根据不同行业的训练语料训练机器学习模型得到相应的意图识别模型，其中机器学习模型可以为任意的机器学习算法或深度学习分类算法，包括但不限于KNN、决策树等。

本实施例的基于语义网和意图识别的人机交互方法可针对特定领域的人机交互，因特定领域的人机交互对智能客服机器人有很高的专业知识要求，因此常见问题解答(FAQ数据源)的质量将直接影响人机交互的质量，因此要求交互数据源中的标准问题必须准确精简，所以本实施例要求FAQ的标准问题不包含多余话术，为精简语句，如口语化问题为我的贷记卡丢了，对应的标准问题为贷记卡挂失，而口语化问题我的贷记卡丢了作为标准问题“贷记卡挂失”的相似问题加入数据集中。因此执行上述基于语义网和意图识别的人机交互方法之前，需要采集特定行业内的常见问题解答(FAQ)作为交互数据源，且作为交互数据源的常见问题解答中的问题已被提前处理为标准问题，使得获取到的常见问题解答包含标准问题以及标准问题的相似问题和标准问题对应的答案。

根据语言习惯，本实施例规定标准问题由个体、动作属性、数据属性、状语和定语构成，每个标准问题必须要具备个体和动作属性，其余属性不要求必须具备。

本实施例通过行业内的标准问题构建行业语义网络，并训练意图识别分类模型，当接收到用户问题时，可根据意图识别模型预测用户问题的真实意图，得到标准问题组成的意图候选集，基于该意图候选集，通过行业语义网络，可确定用户问题中缺少的意图信息，并基于缺少的意图信息可进行多轮人机交互，以从意图候选集中明确能表达用户问题的真实意图的标准问题，从而从交互数据源中查询该标准问题的答案，将答案输出，从而完成客户服务。本实施例的方法不仅具有特定领域的问答适用性，且基于语义网络和意图识别分类模型，进行多轮人机交互，可补全缺少的意图信息，从而确定用户问题的真正意图，及时进行问题反馈，提高了人机交互的问答质量，能避免口语化问答过程中因无法提取意图信息而不能准确引导交互的问题。

优选地，对所述常见问题解答中的标准问题进行语义标注，构建行业语义网络，包括以下步骤：

根据预先构建的分词词典，对所述标准问题进行分词、词性标注和句法分析，得到所述标准问题中的各分词之间的依存句法关系；

简而言之，若在所述标准问题中查询到具备上述语义属性的分词，则将相关语义属性的分词作为语义属性的分支。

在构建上述行业语义网络之前，需要预先构建分词词典，该分词词典除了包含常规词语之外，还需要采用新词发现算法对标准问题中进行处理，确定标准问题中的复合新词，并将复合新词加入分词词典。

具体地，通过新词发现算法确定复合新词的步骤如下：

Step1：对标准问题进行分词，将得到的分词结果存储到字典树；

Step2：使用所述字典树统计所述分词结果的词频，利用互信息算法和信息熵算法分别计算所述分词结果的内部凝聚力MI和左右熵，得到分词得分score＝MI+min(左熵，右熵)；

Step3：以得分score进行降序排序后，过滤重复词，最后按排序由前至后依次获取复合新词，将获取到的所述复合新词加入分词词典。

上述互信息(Mutual Information)算法，缩写为MI，表示两个变量X与Y是否有关系，以及关系的强弱。

词片段的内部信息定义为：词片段的概率/子序列概率的积，将其取对数，就得到了互信息：

若词片段中有多个子序列，将多个子序列的互信息累加起来作为最终的“聚合度”，比如“电影院”＝“电+影院”+“电影+院”。

熵表示随机变量不确定性的量度。具体表述如下：一般地，设X是取有限个值的随机变量(或者说X是有限个离散事件的概率场)，X取值x的概率为P(x)，则X的熵定义为:

而左右熵是指多字词表达的左边界的熵和右边界的熵。以左熵为例，对一个词左边所有可能出现的词以及词频，计算信息熵，然后求和。左右熵的公式如下:

左熵：

右熵：

其中，W表示待计算熵的词语，aW为词语W左边搭配的字词，Wb表示词语W右边搭配的字词。

本实施例基于预先构建的分词词典，采用Viterbi等分词算法对标准问题进行分词，采用CLAWS算法或VOLSUNGA算法进行词性标注，采用PCFG中最左派生规则(left-mostderivations)和不同的rules概率，计算所有可能的树结构概率，取最大值对应的树作为该句子的句法分析结果。

词性包括形容词、副词、名词、数词、人名、地名、动词、量词、介词等。

通过句法分析得到的依存句法关系包括主谓关系(我-送)、动宾关系(送-花)、间宾关系(送-他)、前置宾语(书-读)、兼语(请-我)、定中关系(红-苹果)、状中关系(非常-美丽)、动补关系(做-完)、并列关系(大山-大海)、介宾关系(在-内)、左附加关系(和-大海)、右附加关系(孩子-们)、独立结构(两个单句在结构上彼此独立)、核心关系(句子的核心词)。

优选地，根据语义标注规则，提取所述标准问题中各分词的语义属性，其中所述语义属性包括个体、状语、动作属性、定语和数据属性，包括：

在此以构建银行领域的语义网络为例，通过上述语义标注过程得到银行领域的标准问题和语义标注结果，如下表所示：

根据上述语义网络构建过程，构建上述语义标注结果对应语义网络，得到如图2所示的行业语义网络，该行业语义网络可实现多词性、多意图识别和上下文关联。多词性，例如A卡升级B卡。多意图识别，例如，我想查一下我的***额度和积分分别是多少。该问题包含了两个意图：***积分查询和***额度查询，则返回多个答案。上下文关联，例如，第一个问题为：办理A卡需要什么资料，第二问题为：那办理B卡呢。

优选地，获取训练语料，包括：

获取所述标准问题以及所述标准问题对应的意图标签；

构建所述标准问题的相似问题，包括以下步骤：

通过语言模型对所述若干新语句进行评分；

将评分排序前N位的新语句中的个体词依次替换成个体词同义词词典中的同义词，得到所述标准问题的若干相似问题。

在本发明的其他实施例中，获取训练语料时，可不构建所述标准问题的相似问题，可直接获取标准问题和已人工维护的相似问题及问题对应的意图标签组成的训练语料，其中将口语化问题直接维护成对应的标准问题的相似问题，可得到已人工维护的相似问题。

因人机交互过程中需要明确用户问题的意图，本实施例在意图识别过程中结合机器学习模型训练意图识别分类模型，因此通过扩充标准问题的相似问题以扩充训练语料，使得训练语料中存在大量同一意图的训练样本，从而增加训练得到的意图识别分类模型的泛化能力。

本实施例通过将标准问题中的部分分词替换成同义词词典中的同义词，得到标准问题的相似问题。

在本实施例中，在对标准问题进行分词之前，初始化标准问题中个体词的同义词，并把个体的同义词加载到分词词典中，并根据个体词和个体词的同义词预先构建自定义的个体同义词词典。

为了防止同义词排列组合产生过多的相似问题，先提取个体外的其他词，在此选择先提取标准问题中的名词和动词，在同义词词典中查询该名词或动词的同义词，替换标准问题中对应的名词和动词，以组合成若干新语句，当一个名词和动词在同义词词典中存在多个同义词时，通过排列组合的方式替换标准问题中对应的名词和动词。

通过语言模型对组成得到若干新语句进行评分，在本实施例选用的语言模型采用n-gram语言模型对若干新语句进行依次评分，n-gram语言模型计算新语句概率的公式为：

P(w)＝P(w₁，w₂，w₃，w₄，...w_n)＝P(w₁)P(w₂|w₁)P(w₃|w₁，w₂)...P(w_n|w₁...w_n-1)；

其中w表示分词结果，w_n表示第n个分词结果。P(w_n|w₁，…w_n-1)表示当之前n-1词是w₁,..w_n-1的情况下第n个词是w_n的概率。

当n-gram的n值越大时，对下一个词的约束力就越强，但同时模型就越复杂，问题越多，所以在本发明另一实施例中可采用Bigram2元语言模型，所述Bigram2元语言模型为n-gram语音模型简化后得到，计算句子概率的公式为：

P(w)＝P(w₁)P(w₂|w₁)...P(w_n|w_n-1)，

通过计算最大似然估计(Maximum Likelihood Estimate)构造Bigram2元语言模型，其计算公式为：

P(w_n|w_n-1)＝count(w_n,w_n-1)/count(w_n-1)，count(w_n-1)表示w_n-1在文本中出现的次数。

本实施例中取评分降序排列前N位的新语句，其中N的取值可根据实际情况确定，一般可取N＝10。

最后，将评分排序前N位的新语句中的个体依次替换成所述同义词词典中的同义词，得到所述标准问题的若干相似问题。

需要注意的是，由于特定的专业领域内专业词作为个体不能通过同义词替换，因此为了保障替换准确性，对专业词进行分类替换。

优选地，通过所述训练语料训练机器学习模型，得到意图识别分类模型，包括以下步骤：

固定所述权重，得到意图识别分类模型。

上述意图识别分类模型可对用户问题进行意图归类，有助于后续的业务流程处理，提高用户服务体验，比如“我要办理***”则归类到“办理***”意图，“注销***怎么做”则归类到“注销***”意图。

对预处理后的分词进行特征构建，特征构建过程如下：

基于自定义意图类别的关键词以及关键词组合，构建自定义特征；

基于各分词的词频统计，构建词特征；

基于各分词的词向量，构建语义特征，其中词向量可通过现有语料训练或使用已训练好的开源词向量文件求取；

基于句法分析结果，构建句法特征。

优选地，接收用户问题，通过所述意图识别分类模型对所述用户问题进行意图识别，得到意图候选集，包括以下步骤：

对所述预处理后的用户问题进行所述特征的构建；

上述意图候选集为通过意图识别分类模型得到的与用户问题意图最相关的预设个数的标准问题形成的意图候选集，置信度值越大，表示该置信度值对应的候选问题与用户问题的意图越接近，其中所述预设个数的取值在此不作限定，可根据实际情况自行设置，一般选择10个到20个标准问题形成意图候选集。在本发明的其中一个实施例，可以通过测试问题语料统计选取不同个数的多个意图候选集，根据各意图候选集包含真实意图的准确率，确定所述预设个数的取值，比如测试问题语料有100条，只取一个意图识别结果(意图类别)作为意图候选集，其中包含正确意图的测试问题个数为85个，则准确率可达85％；若选取前五个意图识别结果作为意图候选集，包含正确意图的测试问题个数为93个，则准确率可达93％。在实际使用过程中可以相对多取几个意图识别结果作为候选集合，然后结合行业语义网络查找得出用户的真实意图。

优选地，基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案，输出所述答案，包括以下步骤：

当所述意图候选集中置信度值最大的标准问题的置信度值小于第二预设阈值时，则将所述用户问题判定为未识别问题；

本实施例通过语义网络与意图识别分类模型解决用户意图不明确时的意图补全问题，即利用构建的行业语义网络和意图识别分类模型输出的意图候选集合实现特定领域的多轮人机交互，当用户问题缺少某些属性信息时，通过反问用户补全缺少的属性信息。

当意图候选集中意图最接近的候选问题(置信度值最大的候选问题)的置信度值大于第一预设阈值时，表示意图明确，直接从交互数据源中查询并返回该最接近的候选问题对应的答案。如果意图最接近的候选问题(置信度值最大的候选问题)的置信度值小于第二预设阈值时，表示没有识别出该用户问题的意图，将所述用户问题标记为未识别问题。

当上述候选问题的置信度值在第一预设阈值和第二预设阈值之间，则表示用户问题的意图不明确，需要从行业语义网络中查询用户问题缺少的语义属性，并在意图候选集中的候选问题中提取缺少的语义属性的具体语义属性信息，并结合具体的语义属性信息反问(输出问题)用户缺少的语义属性信息是什么，通过交互确定用户问题的真正意图。

例如：用户问题为“我想要查询”，而关于“查询”意图，在行业语义网络中不止一个候选词，基于意图识别分类模型的用户问题意图，其得到的意图候选集合中必然会存在不止一条“查询”的意图类别。此时根据候选词和意图候选集向用户输出询问问题，以澄清用户问题的意图，由于“查询”为动作属性，其对应的所有个体均在行业语义网络中被确定，再去意图候选集中匹配候选语句中的个体，则可以生成询问问题“请问您想要查询燃气费，还是抄表时间，还是营业厅地址？”；由用户针对该询问问题反馈答案，从而补全查询缺少的个体信息，实现定位用户问题意图，形成意图明确的标准问题，然后从所述意图候选集中匹配与所述意图明确的标准问题一致的候选问题，再从交互数据源中查询并返回该候选问题的答案。

在其他实施例中，可能还需要用户依次补全其他的语义属性信息才能形成意图明确的标准问题，一般根据语义属性的重要程度依次补全，补全的顺序为：个体、动作属性。状语、数据属性和定语，每补全一次均会在意图候选集中做一次匹配，若匹配到相应的候选语句则表示意图已明确。

所述第一预设阈值和第二预设阈值的取值可根据实际情况确定，但是第一预设阈值大于第二预设阈值，第一阈值一般取0.8-0.9，第二阈值一般取0.2-0.3。在实际应用中，可以通过测试问题语料统计意图识别的首条标准问题的置信度和准确度来确定阈值。例如有100条和业务相关的测试问题，其中有85条问题得到正确意图，在这85条问题进行意图识别后的置信度范围在0.8到0.9之间，则可取置信度值均值作为第一预设阈值。同理，使用和业务无关的问题进行意图识别，可得到第二预设阈值的取值。

进一步地，还包括以下步骤：

获取所述人机交互的交互日志；提取所述交互日志中的未识别问题，得到未识别问题集合；

否则，新增意图类别或舍弃所述未识别问题。

由于训练语料是采用同义词替换的方式生成标准问题的相似问题，其句式单一，在交互过程会存在无法识别的用户问题，将这些用户问题通过文本聚类的方式，实现对交互过程中的未识别问题的总结归纳，并对训练语料进行调整，从而实现增强意图识别的训练语料，进一步地提高意图识别分类模型的泛化能力。

在本发明的其他实施例中，可人工过滤未识别问题中明显无意义的问题，得到未识别问题集合，本实施例对未识别问题进行预处理包括分词和停用词过滤。通过K-均值聚类算法把所述未识别问题进行聚类，可得到K个意图类别的问题，K的取值为最优聚类数，以轮廓系数为指标遍历得到K。当然在其他实施中，K-均值聚类算法可也采用其他任意的聚类算法实现未识别问题的聚类。得到未识别问题的聚类结果，可比对聚类意图类别是否为行业内的业务类别，若不是则丢弃聚类类别下的未识别问题，若是，则比对每个聚类类别与所述训练语料包含的意图类别是否一致，若一致，则将相应聚类类别下意图描述完整的未识别问题加入到训练语料中，作为对应的意图标签下原标准问题的相似问题，若都不一致，则维护答案，总结新标准问题，将聚类类别下意图描述完整的问题作为新标准问题的相似问题，加入到训练语料和交互数据源中。通过调整后的训练语料对意图识别分类模型进行迭代训练。当然在本发明的其中一些实施例中，也可采用人工判断的方式对聚类结果进行判断和归类、舍弃。

实施例2

图3为本发明实施例2提供的一种电子设备的结构示意图，如图3所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于语义网和意图识别的人机交互方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现实施例1的基于语义网和意图识别的人机交互方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可接收输入的数据或请求等。输出装置340可输出和显示数据。

实施例3

本发明实施例3还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于实现基于语义网和意图识别的人机交互方法，该方法包括：

获取行业内的常见问题解答作为交互数据源；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于语义网和意图识别的人机交互方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于语义网和意图识别的人机交互方法或装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于语义网和意图识别的人机交互方法，其特征在于，包括以下步骤：

获取行业内的常见问题解答作为交互数据源；

基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案，输出所述答案；其中，若基于所述行业语义网络和所述意图候选集，查询到所述用户问题缺失的语义属性信息对应一个以上候选词，则通过各所述候选词补全所述用户问题缺失的语义属性形成询问问题；接收所述询问问题的反馈答案，以补全所述用户问题缺失的语义属性信息，形成新用户问题，在所述意图候选集中去查询与所述新用户问题匹配的候选问题，若查询到，则从所述交互数据源中查询并输出与所述新用户问题匹配的候选问题的答案；否则，继续查询所述新用户问题缺失的其他语义属性信息，若通过多轮交互，将所有缺失的语义属性信息均补全后，还未从所述意图候选集中查询到匹配的候选问题，则返回不理解用户问题的提示信息。

2.如权利要求1所述的基于语义网和意图识别的人机交互方法，其特征在于，对所述常见问题解答中的标准问题进行语义标注，构建行业语义网络，包括以下步骤：

3.如权利要求2所述的基于语义网和意图识别的人机交互方法，其特征在于，所述语义标注规则，包括：

数据属性确定规则；将所述标准问题的动作属性的宾语标记为数据属性；将所述标准问题中与动作属性有主谓关系的分词标记为数据属性；

定语状语确定规则；将所述标准问题中修饰动作属性的形容词或副词及其他名词修饰语标记为状语；将所述标准问题中修饰数据属性的形容词或副词及其他名词修饰语标记为定语。

4.如权利要求1所述的基于语义网和意图识别的人机交互方法，其特征在于，获取训练语料，包括：

获取所述标准问题以及所述标准问题对应的意图标签；

构建所述标准问题的相似问题，包括以下步骤：

通过语言模型对所述若干新语句进行评分；

5.如权利要求4所述的基于语义网和意图识别的人机交互方法，其特征在于，通过所述训练语料训练机器学习模型，得到意图识别分类模型，包括以下步骤：

固定所述权重，得到意图识别分类模型。

6.如权利要求5所述的基于语义网和意图识别的人机交互方法，其特征在于，接收用户问题，通过所述意图识别分类模型对所述用户问题进行意图识别，得到意图候选集，包括以下步骤：

对所述预处理后的用户问题进行所述特征的构建；

通过所述意图识别模型计算所述特征与所述特征对应的固定权重下的每个意图类别的置信度值，按置信度值从大到小，依次排序输出相关置信度值对应的意图类别下的标准问题作为候选问题，形成意图候选集，所述意图候选集包括预设个数的候选问题和每个候选问题对应的置信度值。

7.如权利要求6所述的基于语义网和意图识别的人机交互方法，其特征在于，基于所述意图候选集，通过所述行业语义网络进行多轮人机交互，确定与所述用户问题意图匹配的标准问题，从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案，输出所述答案，包括以下步骤：

若基于所述行业语义网络和所述意图候选集，查询到所述用户问题缺失的语义属性信息对应唯一候选词，则通过所述唯一候选词补全所述用户问题缺失的语义属性信息，并从所述意图候选集中查询补全后的所述用户问题匹配的候选问题，若查询到，则从所述交互数据源中查询并输出补全后的所述用户问题匹配的候选问题的答案。

8.如权利要求1或7所述的基于语义网和意图识别的人机交互方法，其特征在于，还包括以下步骤：

对所述未识别问题进行预处理，对预处理后的未识别问题进行特征的构建；

否则，新增意图类别或舍弃所述未识别问题。

9.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的基于语义网和意图识别的人机交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的基于语义网和意图识别的人机交互方法。