CN117313748B

CN117313748B - 面向政务问答的多特征融合语义理解方法及装置

Info

Publication number: CN117313748B
Application number: CN202311582287.9A
Authority: CN
Inventors: 曾伟; 苑建坤; 高振伟; 王胜漪; 周桂兰
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-03-12
Anticipated expiration: 2043-11-24
Also published as: CN117313748A

Abstract

本发明公开了一种面向政务问答的多特征融合语义理解方法及装置，该方法包括：获取用户输入的咨询问题；对用户输入的咨询问题进行语法纠错和方言纠错，得到纠错后的文本；将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组；根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征；将多维特征输入随机森林模型，得到对应咨询问题的语义理解结果。利用本发明方案，可以准确理解用户输入信息，精准定位用户咨询事项。

Description

面向政务问答的多特征融合语义理解方法及装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种面向政务问答的多特征融合语义理解方法及装置。

背景技术

目前，随着AI（Artificial Intelligence，人工智能）技术的发展，问答机器人也得到了广泛的应用，但在有些应用领域，机器人的答复内容质量较低，往往“答非所问”，不能准确理解用户输入语句的含义。比如，政务服务领域涉及职能部门多、业务复杂，对于第一次办理政务事项的人员来说，会通过拨打电话、在线留言、到访窗口等方式进行咨询，详细了解办事地点、所需材料、办事流程等，且政府办事人员不断处理重复事项，工作量巨大。基于当前政务服务现状，部分政府门户网站中已经开始应用问答机器人。

如何准确理解用户输入信息，精准定位用户咨询事项，给出高质量的问答，是目前急需解决的一项重要问题。

发明内容

本发明提供一种面向政务问答的多特征融合语义理解方法及装置，以准确理解用户输入信息，精准定位用户咨询事项。

为此，本发明提供如下技术方案：

一种面向政务问答的多特征融合语义理解方法，所述方法包括：

获取用户输入的咨询问题；

对用户输入的咨询问题进行语法纠错和方言纠错，得到纠错后的文本；

将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组，所述信息融合三元组包括：候选问题、候选问题排名、候选问题得分；所述特征匹配模型用于确定与模型输入信息相匹配的候选问题；所述候选问题为用户输入的咨询问题经所述特征匹配模型与知识库中事项匹配后满足设定的判定阈值的事项问法及相似问法集合；

根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征；

将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征；

将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果。

可选地，所述方法还包括：

构建知识库；

利用所述知识库构建文本匹配数据集；

利用所述文本匹配数据集构建所述特征匹配模型。

可选地，所述知识库包括：方言库、事项库；

所述方言库包括方言及对应的普通话、方言拼音及对应的普通话拼音；

所述事项库包括以下信息：主事项、子事项、事项问法、事项相似问法、事项包含实体及其组合实体、事项节点回复方式。

可选地，所述利用所述知识库构建文本匹配数据集包括：

从所述事项库中提取事项问法、事项相似问法，生成所述匹配问题列表；所述匹配问题列表包括事项问法样本及对应的相似问法样本；

通过负样本采样方式得到所述匹配问题列表中各事项问法的非相似问法样本；

根据所述事项问法、对应的相似问法样本和非相似问法样本、以及添加的相似标签，生成文本匹配数据集。

可选地，所述特征匹配模型包括以下任意一个或多个：向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型。

可选地，利用所述文本匹配数据集构建所述向量表示模型包括：采用BERT-Base-Chinese模型作为基础模型，采用余弦距离作为损失函数，利用所述文本匹配数据集训练得到基于Sentence-BERT的向量表示模型。

可选地，利用所述文本匹配数据集构建所述句子模糊匹配模型包括：

对所述文本匹配数据集中的每条样本的事项问法及相似问法进行模糊匹配，得到模糊匹配的分数；

将模糊匹配的分数及所述样本的相似标签作为确定阈值的数据，采用网格搜索方法，以步长为1的方式，遍历模糊匹配的分数，以特定衡量指标作为评价标准；所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标；

选取特定衡量指标最大值对应的匹配分数作为所述句子模糊匹配模型的阈值。

可选地，利用所述文本匹配数据集构建所述关键词组模糊匹配模型包括：

对所述文本匹配数据集中的每条样本的事项问法及相似问法提取关键词；

将提取的关键词进行模糊匹配，得到模糊匹配的分数；

选取特定衡量指标最大值对应的匹配分数作为所述关键词组模糊匹配模型的阈值。

可选地，利用所述文本匹配数据集构建所述拼音编辑距离模型包括：

对所述文本匹配数据集中的每条样本的问法及相似问法进行拼音转化，得到对应的拼音句子；

计算所述拼音句子的编辑距离，将所述编辑距离作为所述样本的分数；

将所述样本分数及所述样本的相似标签作为确定阈值的数据，采用网格搜索方法，以步长为1的方式，遍历模糊匹配的分数，以特定衡量指标作为评价标准；所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标；

选取特定衡量指标最大值对应的匹配分数作为所述拼音编辑距离模型的阈值。

可选地，按照以下公式计算所述特定衡量指标：

其中，L为特定衡量指标，P为准确率，R为召回率。

一种面向政务问答的多特征融合语义理解装置，所述装置包括：

接收模块，用于获取用户输入的咨询问题；

纠错模块，用于对用户输入的咨询问题进行语法纠错和方言纠错，得到纠错后的文本；

语义理解特征确定模块，用于将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组，所述信息融合三元组包括：候选问题、候选问题排名、候选问题得分；

访问特征确定模块，用于根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征；

融合模块，用于将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征；

语义理解模块，用于将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果。

可选地，所述装置还包括：

知识库构建模块，用于构建知识库，

数据集生成模块，用于利用所述知识库构建文本匹配数据集；

模型构建模块，用于利用所述文本匹配数据集构建所述特征匹配模型。

本发明提供的面向政务问答的多特征融合语义理解方法及装置，针对用户输入的咨询问题，先利用多个不同的特征匹配模型构建信息融合三元组，将这些三元组作为语义理解特征，然后根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征，将所述三元组信息、以及历史咨询特征和/或热点事项特征作为多维融合特征，利用该多维融合特征及预先构建的随机森林模型，得到对应咨询问题的语义理解结果。本发明方案针对问答小样本场景，采用多种特征融合的方式，可以更精准地理解用户输入信息，精准定位用户咨询事项，提高了事项语义理解的准确率，进而为给出高质量的问答提供准确的表达。

本发明方案中，特征匹配模型不直接输出候选问题，而是输出多个候选问题，根据这些候选问题构建信息融合三元组，并结合候选问题对应的历史咨询特征和/或热点事项特征，利用随机森林模型输出对应咨询问题的语义理解结果，提高了事项问答的语义理解能力。

进一步地，本发明方案采用向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型等模型组成融合模型，这样既提高了获取句子语义信息的准确率，也能避免有监督模型需要大量训练数据问题。

进一步地，为更加能够理解用户个性化需求，引入用户历史咨询特征和热点事项特征，并对访问用户信息、用户最近匹配的问题列表进行编码，方便了这些特征的表达。

附图说明

图1是本发明方法中确定句子模糊匹配模型的阈值的流程图；

图2是本发明提供的面向政务问答的多特征融合语义理解方法的一种流程图；

图3是图2所示流程的框架示意图；

图4是本发明提供的面向政务问答的多特征融合语义理解装置的一种结构示意图。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在针对本发明的实施方式进行描述时，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

在有些领域，语义理解模型的训练需要大量的样本及标注，在数据量少的情况下，比如在政务服务领域，由于群众大多都通过窗口办理、电话咨询等方式进行政务事项办理，积累的问答数据较少，且政务事项繁多，这种情况下通过监督学习的方式难以满足用户语义理解需求，怎样利用有限的标注数据来提高语义理解的准确性是一个具有挑战的任务。

一种实现方法是：采用无监督的方式实现，具体做法是通过分领域对数据进行分类处理，构建分领域智能词典；再将用户输入信息进行分领域查询智能词典；最后分析查询结果，处理查询结果并返回。

另一种实现方式是在已有问答数据集上进行有监督的训练，具体是将问题文本输入预构建的神经网络智能识别模型，确定问题文本的智能标签，在预构建的问答知识库中将智能标签与候选问答对进行匹配。

上述第一种实现方式主要是构建了智能词典，采用词匹配的方式定位具体事项，处理方式单一，且没有组合语义层面的匹配，在实际应用中往往效果不佳。

上述第二种实现方式采用神经网络模型在标注数据上进行训练，能够一定程度上获取句子间的语义信息，但政务事项问答本身的标注数据少，在少量标注数据上训练深度学习模型效果不佳，难以满足准确定位咨询事项需求。

针对词典匹配准确率低，神经网络模型所需数据量大的问题，本发明提出一种小样本场景下，面向政务问答的多特征融合政务事项语义理解方法及***，先利用多个不同的特征匹配模型分别获取候选问题，基于这些候选问题构建信息融合三元组，将这些三元组作为语义理解特征，然后遍历匹配的问题列表，确定遍历问题被访问情况，确定访问特征，将语义理解特征和访问特征作为多维融合特征，利用该多维融合特征及预先构建的随机森林模型，得到对应咨询问题的语义理解结果，通过多种特征融合的方式，可以提高语义识别准确率，尽可能地去提高咨询事项的召回率。

特征匹配模型的构建需要基于相应的文本匹配数据集，在本发明实施例中，可以基于知识库来构建所述文本匹配数据集。

在具体应用中，可以基于通用知识库，也可以根据应用领域构建特定领域的专有知识库，比如政务领域知识库。区别在于通用知识库可以包罗各个领域的知识内容，而特定领域的专有知识库主要包括本领域的知识内容。

在本发明实施例中，所述知识库可以包括但不限于：方言库、事项库。其中，所述方言库包括方言及对应的普通话、方言拼音及对应的普通话拼音；所述事项库包括以下信息：主事项、子事项、事项问法、事项相似问法、事项包含实体及其组合实体、事项节点回复方式。

方言库的构建：收集方言表达，并将其与普通话的表达对应。形成方言与普通话以及方言拼音与普通话拼音的对应关系。以贵阳方言为例：方言的“朗子”，与普通话的“什么”含义相同，他们将形成{朗子:什么}，{langzi:shenme}两条知识。

事项库的构建：对事项进行梳理，将事项梳理成包含主事项、子事项、事项问法、事项相似问法、事项包含实体及组合实体、事项节点回复方式等知识点的事项知识。举例如下：

{事项名称: 水污染相关权力清单和责任清单,

事项问法: 水污染相关的权责清单,

事项包含实体: [[水污染], [生态环境], [权责清单], [权力清单], [责任清单]]

相似问法: [水污染的权责清单是什么, 生态环境的权责清单是什么, 水污染相关的权责清单, 水污染相关权利清单],

回复语句：请选择具体的事项，

子事项情况：[{事项名称: xxx,事项问法：xxx,事项包含实体：xxx,相似问法：xxx,回复语句：xxx}]

}

利用所述知识库构建文本匹配数据集的过程如下：

（1）从所述事项库中提取事项问法、事项相似问法，生成所述匹配问题列表；所述匹配问题列表包括事项问法样本及对应的相似问法样本。

生成的匹配问题列表示例如表1所示：

表1

（2）通过负样本采样方式得到所述匹配问题列表中各事项问法的非相似问法样本。

具体地，可以获取相似问法相同句子数量的负样本，当然负样本的数量与正样本的数量也可以不同，对此本发明实施例不做限定。

（3）根据所述事项问法、对应的相似问法样本和非相似问法样本、以及添加的相似标签，生成文本匹配数据集。

比如，生成的文本匹配数据集示例如下表2所示：

表2

利用上述文本匹配数据集，构建多个不同的特征匹配模型，所述特征匹配模型比如可以包括但不限于以下任意一个或多个：向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型等。

上述各特征匹配模型用于确定与模型输入信息相匹配的候选问题，所述特征匹配模型的输入为用户输入的咨询问题，输出为候选问题，所述候选问题为用户输入的咨询问题经所述特征匹配模型与知识库中事项匹配后满足设定的判定阈值的事项问法及相似问法集合。

根据所述候选问题可构建信息融合三元组，即：候选问题、候选问题排名、候选问题得分。

下面分别详细说明上述各特征匹配模型的构建过程。

（1）向量表示模型

本发明实施案例中，向量表示模型可以采用Sentence-BERT模型。Sentence-BERT是基于预训练过的BERT（Bidirectional Encoder Representation from Transformers）的孪生网络，能够获得在语义上有足够意义的篇章向量。Sentence-BERT主要是解决Bert语义相似度检索的巨大时间开销和其句子表征不适用于非监督任务如聚类，句子相似度计算等而提出的。Sentence-BERT使用鉴孪生网络结构，获取句子对的向量表示，然后进行相似度模型的预训练即为Sentence-BERT。

具体地，可以在上述文本匹配数据集上进行预训练，基础模型采用BERT-Base-Chinese模型，BERT-Base-Chinese模型是针对中文语言特性的BERT模型，它在词汇表大小、层数、隐藏层大小等方面与原始的BERT模型保持一致，但在词汇和语言特性上针对中文进行了优化。由于BERT-Base-Chinese模型已经从大量无监督文本中学习了丰富的语义信息，因此在构建向量表示模型时，可以直接利用这些信息，无需再从零开始训练。在基于BERT-Base-Chinese模型训练所述向量表示模型时，损失函数可以采用余弦距离，最终得到基于Sentence-BERT的句子向量表示模型，并生成每个问法及相似问法句子的句向量。

（2）句子模糊匹配模型

确定用户咨询问题可以看作文本分类问题，主要是确定句子模糊匹配的阈值。为此，可以按照以下方式确定句子模糊匹配模型的阈值：

首先，对所述文本匹配数据集中的每条样本的事项问法及相似问法进行模糊匹配，得到模糊匹配的分数；然后将模糊匹配的分数及对应的样本的相似标签作为确定阈值的数据，采用网格搜索方法，以步长为1的方式，遍历模糊匹配的分数，以特定衡量指标作为评价标准；最终选取特定衡量指标最大值对应的匹配分数作为所述句子模糊匹配模型的阈值。所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标。

比如，在政务场景下，群众更加关注咨询问题是否被准确理解，因此模糊匹配环节更加关注相似问题的召回率。

本发明的实施例中，比如可以按照以下公式计算所述特定衡量指标：

其中，L为特定衡量指标，用于评价模型效果，P为准确率，R为召回率，召回率表示在所有真实为真的数据中，预测也为真的比例。

如图1所示，是本发明方法中确定句子模糊匹配模型的阈值的流程图，包括以下步骤：

步骤101，从文本匹配数据集中取出一条样本，每条样本即表2中的一条内容，包括事项问法、相似问法、以及相似标签。

步骤102，计算匹配分数S，即事项问法和相似问法的匹配分数，并记录样本和计算得到的分数S。

步骤103，设定阈值V，比如可以设初始V=55。

步骤104，判断是否S>V；然后根据判断结果确定预测标签，即后面的步骤105和步骤106。

如果是，则执行步骤105，该条样本的预测标签为1；否则执行步骤106，该条样本的预测标签为0。

在步骤107，收集已判断样本。

步骤108，确定是否遍历完所有样本；如果是，则执行步骤109；否则返回步骤101，继续取出下一条样本进行判断。

步骤109，计算衡量指标L值，并记录当前L值及当前阈值V。

步骤110，判断当前L值是否小于前一L值；如果是，则执行步骤111；否则，执行步骤112。

在遍历的过程中，L值是逐步增大，达到最大值后开始减小，因此如果当前L值小于前一L值，则表明前一L值为最大L值。

步骤111，根据最大L值确定最终阈值V。

步骤112，将当前阈值V加1，然后返回步骤104。

（3）关键词组模糊匹配模型

确定用户咨询问题可以看作文本分类问题，主要是确定关键词组模糊匹配模型的阈值。为此，可以按照以下方式确定关键词组模糊匹配模型的阈值：

首先，对所述文本匹配数据集中的每条样本的事项问法及相似问法提取关键词；关键词提取可以采用TF-IDF（term frequency–inverse document frequency，词频-逆文本频率指数），TextRank等算法；

然后，将提取的关键词进行模糊匹配，得到模糊匹配的分数；关键词模糊匹配的算法可采用现有技术，对此本发明不做限定；

然后，将模糊匹配的分数及所述样本的相似标签作为确定阈值的数据，采用网格搜索方法，以步长为1的方式，遍历模糊匹配的分数，以特定衡量指标作为评价标准；所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标；

最后，选取特定衡量指标最大值对应的匹配分数作为所述关键词组模糊匹配模型的阈值。

上述确定关键词组模糊匹配模型的阈值的流程与图1类似，只是增加了关键词提取的步骤，对该流程的具体过程不再赘述。

（4）拼音编辑距离模型

类似地，构建拼音编辑距离模型主要是确定拼音编辑距离模型的阈值。为此，可以按照以下方式确定拼音编辑距离模型的阈值：

首先，对所述文本匹配数据集中的每条样本的问法及相似问法进行拼音转化，得到对应的拼音句子；

然后，计算所述拼音句子的编辑距离，将所述编辑距离作为所述样本的分数；

然后，将所述样本分数及所述样本的相似标签作为确定阈值的数据，采用网格搜索方法，以步长为1的方式，遍历模糊匹配的分数，以特定衡量指标作为评价标准；所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标；

最后，选取特定衡量指标最大值对应的匹配分数作为拼音编辑距离模型的阈值。

拼音编辑距离模型阈值的确定流程与图1类似，只是需要先对问法及相似问法句子进行拼音转化，得到拼音句子，再计算拼音编辑距离，作为该样本的事项问法与相似问法的匹配分数，对该流程的具体过程不再赘述。

利用上述多种特征匹配模型，既能获取句子的语义信息，也能避免有监督模型需要大量训练数据问题。

本发明方案中，可以根据上述各特征匹配模型的权重，将根据各特征匹配模型输出的候选问题构建的信息融合三元组进行组合，得到基于模型的多维语义理解特征。

另外，还可根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，确定访问特征，即得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征，将上述基于模型的多维语义理解特征和所述访问特征作为多维融合特征，利用该多维融合特征及预先构建的随机森林模型，得到对应咨询问题的语义理解结果。

需要说明的是，在本发明实施例中，所述访问特征可以包括：历史咨询特征和/或热点事项特征。

其中，所述历史咨询特征是用于表征所述用户最近一段时间是否咨询该问题（即用户输入的咨询问题）的特征；所述热点事项特征用于表征该问题（即用户输入的咨询问题）最近一段时间被咨询的情况特征，此处的被咨询是指被所有用户，而非特定用户所咨询。

在一种非限制性实施例中，针对所述历史咨询特征的确定，可以获取访问用户信息，遍历匹配的问题列表，得到遍历问题在该用户最近一段时间是否咨询该问题的标记。比如，可以根据候选问题绑定事项情况，查询该事项在最近1天、3天、5天、7天、14天、30天、60天、90天之内是否被该用户问过，并将查询信息用二进制的方式表示，得到用户历史咨询多维特征。

为了便于计算，可以采用3位二进制的方式，压缩最近咨询记录，具体记录结果如下表3所示示例。

表3

在一种非限制性实施例中，针对所述热点事项特征的确定，可以遍历匹配的问题列表，得到遍历问题在最近一段时间是否被访问的标记。比如，可以根据候选问题绑定事项情况，查询该事项在最近1天、3天、5天、7天、14天、30天、60天、90天之内是否是热门事项。

为了便于计算，可以采用3位二进制的方式，压缩被咨询记录，具体记录结果如表4所示示例。

表4

本发明提供的面向政务问答的多特征融合语义理解方法，针对一些小样本场景，对用户输入的咨询问题进行语义理解时，不是根据特征匹配模型直接得到语义理解结果，而是利用多种特征匹配模型得到基于模型的语义理解特征，即前面所述的三元组信息，并根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征，然后再将这些不同的多维特征拼接，得到最终的多维特征，输入预先构建的随机森林模型，预测得到候选集排名，并根据实际业务情况，选择对应个数的匹配节点或事项，得到对应所述咨询问题的语义理解结果。

如图2所示，是本发明提供的面向政务问答的多特征融合语义理解方法的流程图，包括以下步骤：

步骤201，获取用户输入的咨询问题。

步骤202，对用户输入的咨询问题进行语法纠错和方言纠错，得到纠错后的文本。

其中，语法纠错可以采用pycorrector工具，方言纠错可以采用自定义的方言库。

步骤203，将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组，所述信息融合三元组包括：候选问题、候选问题排名、候选问题得分。

例如，将所述文本输入前面提到的四个特征匹配模型中，输出信息如下表5所示。

表5

/>

步骤204，根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征。

上述历史咨询特征和热点事项特征的确定可参见前面的描述，在此不再赘述。

步骤205，将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征。

在一种非限制性实施例中，所述多维融合特征可以有18个，其中，12个特征为模型输出特征，6个特征为基于用户对问题的咨询情况得到的历史咨询特征和基于问题被咨询情况得到的热点事项特征，即上述表3和表4中压缩后的特征。所述多维融合特征中各特征项列表如下表6所示。

表6

/>

步骤206，将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果。

比如，将上述表6中的多维融合特征输入随机森林模型，得到随机森林输出的候选匹配事项及分数，再根据各分数的排名，确定分数最高的匹配事项，即最终的语义理解结果。

图3示出了对应上述流程的框图，结合该框图，可以更清晰、直观地理解本发明方案。

在本发明实施例中，所述随机森林模型采用sklearn（scikit-learn，python中的机器学习库）框架的RandomForestClassifier（随机森林分类器），超参数采用网格搜索的方式确定。

随机森林模型的训练数据集如下表7所示，训练过程可参照现有技术，在此不再赘述。

表7

/>

本发明提供的面向政务问答的多特征融合语义理解方法，针对用户输入的咨询问题，先利用多个不同的特征匹配模型输出的候选问题构建信息融合三元组，根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征，将三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征，利用该多维融合特征及预先构建的随机森林模型，得到对应咨询问题的语义理解结果。本发明方案针对问答小样本场景，采用多种特征融合的方式，可以更精准地理解用户输入信息，精准定位用户咨询事项，提高了事项语义理解的准确率，进而为给出高质量的问答提供准确的表达。

利用本发明方法，既提高获取句子语义信息的准确率，也能避免有监督模型需要大量训练数据问题。尤其是针对政务事项问答小样本场景，采用多特征融合的方法，可以大大提高政务事项语义理解的准确率。

相应地，本发明还提供一种面向政务问答的多特征融合语义理解装置，如图4所示，该装置400包括：

接收模块401，用于获取用户输入的咨询问题；

纠错模块402，用于对用户输入的咨询问题进行语法纠错和方言纠错，得到纠错后的文本；

语义理解特征确定模块403，用于将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组，所述信息融合三元组包括：候选问题、候选问题排名、候选问题得分；所述特征匹配模型用于确定与模型输入信息相匹配的候选问题；所述候选问题为用户输入的咨询问题经所述特征匹配模型与知识库中事项匹配后满足设定的判定阈值的事项问法及相似问法集合；

访问特征确定模块404，用于根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表，得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征；

融合模块405，用于将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征；

语义理解模块406，用于将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果。

进一步地，所述装置400还可包括以下各模块：

知识库构建模块，用于构建知识库，

所述特征匹配模型可以包括前面所述的向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型中的任意一个或多个，当然，还可以有其它特征匹配模型，对此本发明实施例不做限定。

本发明提供的问答的多特征融合语义理解方法及装置，针对问答小样本场景，采用多种特征融合的方式，可以更精准地理解用户输入信息，精准定位用户咨询事项，提高了事项语义理解的准确率，进而为给出高质量的问答提供准确的表达。

关于上述本发明面向政务问答的多特征融合语义理解装置中各模块及单元的其它说明可参见前面本发明方法实施例中的相应描述，在此不再赘述。

本发明实施例还公开了一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时可以执行图1或图2中所示方法的部分或全部步骤。所述存储介质可以包括只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁盘或光盘等。存储介质还可以包括非挥发性存储器（non-volatile）或者非瞬态（non-transitory）存储器等。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的***实施例仅仅是示意性的，其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的，即可以位于一个网络单元上，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及***，其仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围，本说明书内容不应理解为对本发明的限制。因此，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向政务问答的多特征融合语义理解方法，其特征在于，所述方法包括：

获取用户输入的咨询问题；

将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果;

所述方法还包括：

构建知识库；

利用所述知识库构建文本匹配数据集；

利用所述文本匹配数据集构建所述特征匹配模型。

2.根据权利要求1所述的面向政务问答的多特征融合语义理解方法，其特征在于，所述知识库包括：方言库、事项库；

3.根据权利要求2所述的面向政务问答的多特征融合语义理解方法，其特征在于，所述利用所述知识库构建文本匹配数据集包括：

4.根据权利要求3所述的面向政务问答的多特征融合语义理解方法，其特征在于，所述特征匹配模型包括以下任意一个或多个：向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型。

5.根据权利要求4所述的面向政务问答的多特征融合语义理解方法，其特征在于，利用所述文本匹配数据集构建所述向量表示模型包括：

采用BERT-Base-Chinese模型作为基础模型，采用余弦距离作为损失函数，利用所述文本匹配数据集训练得到基于Sentence-BERT的向量表示模型。

6.根据权利要求4所述的面向政务问答的多特征融合语义理解方法，其特征在于，利用所述文本匹配数据集构建所述句子模糊匹配模型包括：

7.根据权利要求4所述的面向政务问答的多特征融合语义理解方法，其特征在于，利用所述文本匹配数据集构建所述关键词组模糊匹配模型包括：

将提取的关键词进行模糊匹配，得到模糊匹配的分数；

8.根据权利要求4所述的面向政务问答的多特征融合语义理解方法，其特征在于，利用所述文本匹配数据集构建所述拼音编辑距离模型包括：

9.根据权利要求6或7或8所述的面向政务问答的多特征融合语义理解方法，其特征在于，按照以下公式计算所述特定衡量指标：

其中，L为特定衡量指标，P为准确率，R为召回率。

10.一种面向政务问答的多特征融合语义理解装置，其特征在于，所述装置包括：

接收模块，用于获取用户输入的咨询问题；

语义理解特征确定模块，用于将所述文本分别输入一个或多个不同的特征匹配模型，根据各特征匹配模型输出的候选问题构建信息融合三元组，所述信息融合三元组包括：候选问题、候选问题排名、候选问题得分；所述特征匹配模型用于确定与模型输入信息相匹配的候选问题；所述候选问题为用户输入的咨询问题经所述特征匹配模型与知识库中事项匹配后满足设定的判定阈值的事项问法及相似问法集合；

语义理解模块，用于将所述多维特征输入随机森林模型，得到对应所述咨询问题的语义理解结果;

所述装置还包括：

知识库构建模块，用于构建知识库，