CN110825930A

CN110825930A - 基于人工智能自动识别社区问答论坛中的正确回答的方法

Info

Publication number: CN110825930A
Application number: CN201911058818.8A
Authority: CN
Inventors: 孙海峰; 王晶; 戚琦; 王敬宇; 郭令奇; 马兵; 杜纯宁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-21

Abstract

基于人工智能自动识别社区问答论坛中的正确回答的方法，包括下列操作步骤：(1)数据集建立的过程；(2)使用深度学习的方法抽取文本对的信息特征；(3)使用规则提取提问和回答的其他特征，将这些特征与步骤(2)中得到的特征拼接成特征向量，特征向量的格式为[BERT预测概率，当前回答和优秀回答的相似度，回答和提问的相似度，天数差]；(4)训练机器学习分类模型并预测新帖。本发明的方法能够快速、准确的判断出一个帖子下可能为正确答案的回答，省时省力。

Description

基于人工智能自动识别社区问答论坛中的正确回答的方法

技术领域

本发明涉及基于人工智能自动识别社区问答论坛中的正确回答的方法，属于自然语言处理技术领域，特别是属于基于人工智能的自然语言处理的论坛问答技术领域。

背景技术

随着众多社区论坛的出现，与之相关的任务在最近变得越来越重要。随着这些论坛每天涌入很多新问题，与这些新问题相关的留言大部分有一定的错误，对他人造成了一定的误导作用。这些错误的留言如果用人工鉴别的话，不光需要某些领域比较权威的专家，还费时费力。因此，如何快速有效的判别新问题下的答案是否对解决该问题有帮助，是解决论坛为解决问题不断增多的有效途径。

人工智能技术和自然语言处理技术在近几年获得很大的发展，如何利用人工智能技术和自然语言处理技术来实现对回答的好坏进行甄别成了亟需解决的一个技术难题。

发明内容

有鉴于此，本发明的目的是发明一种基于人工智能自动识别社区问答论坛中的正确回答的方法，实现对问答贴中的回答进行辨别，选择出优秀的答案留给他人参考。

为了达到上述目的，本发明提出了基于人工智能自动识别社区问答论坛中的正确回答的方法，所述方法包括下列操作步骤：

(1)数据集建立的过程，具体内容是：先用爬虫软件爬取大量的问答贴内容；在爬取后，将所述问答贴内容以提问和单个回答组成的文本对的形式进行数据存储；然后对前述存储的数据进行数据清洗，再进行人工标注，建立数据集；

(2)使用深度学习的方法抽取文本对的信息特征，具体内容是：将步骤(1)中获得的数据集作为训练集训练深度学习模型，然后用所述的深度学习模型提取文本对的语气，关键词，语法结构等特征；

(3)使用规则提取提问和回答的其他特征，具体内容是：计算提问与回答发布的天数差、利用TF-IDF计算单个回答与当前提问的相似程度、利用TF-IDF计算单个回答与当前提问的其他回答的相似程度等特征，将这些特征与步骤(2)中得到的特征拼接成特征向量；

(4)训练机器学习分类模型并预测新帖，具体内容是：将步骤(3)获得的特征向量对机器学习分类模型进行训练；训练完成后对新帖进行预测，先用爬虫爬取新帖的全部内容并存储，之后按照步骤(2)和步骤(3)抽取特征组成向量再用所述的机器学习分类模型进行预测，选取概率最高的前n个回答，n为自然数，n不大于回答的总个数。

所述步骤(1)的具体内容包括如下操作步骤：

(11)使用爬虫爬取网站的信息，将帖子提问，回答，提问用户，回答用户，发帖时间等信息存储，也可以从其他类似数据集中获得数据，一并进行整理；

(12)遍历并用“NULL”填充为空的属性，统一文本的最大长度，清洗干扰数据；

(13)将上一步骤中获得的数据以问题和单个回答以文本对的形式存储，进行人工标注。

所述步骤(2)的具体内容包括如下操作步骤：

(21)使用BERT模型并根据步骤(1)中得到的数据进行微调训练；BERT模型将输入的文本内容进行字节编码、片段编码和位置编码；在微调训练结束后，将微调后的模型存储。

(22)将步骤(21)中得到的三个编码层的向量相加后进行分类，获得单个提问和单个回答的分类结果，所述分类结果中含有BERT模型学习到文本中的语气，关键词等文本特征。

所述步骤(3)的具体内容包括如下操作步骤：

(31)在所述数据集中读取当前提问和其回答的时间，计算天数差，即天数差＝提问的时间-回答提问的时间，使用TF-IDF词频-逆文件频率算法来计算单个回答和提问的相似度；

(32)根据步骤(2)中所得到对所有回答的分类结果，计算每个回答与它当前提问的概率最高的回答之间的相似度，具体方法是使用TF-IDF词频-逆文件频率算法来计算所述相似度，所述概率最高的回答即优秀回答；

(33)将前述获得的天数差特征、相似度特征和步骤(2)中获得的特征值拼接成特征向量，所述特征向量的格式为[BERT预测概率，当前回答和优秀回答的相似度，回答和提问的相似度，天数差]。

所述步骤(4)的具体内容包括如下操作步骤：

(41)选取SVM模型作为机器学习分类模型，根据步骤(3)获得的特征向量对所述机器学习分类模型进行训练；

(42)获得目标帖的相关信息，包括但不限于提问内容、回答内容、发帖时间，按照步骤(1)的存储格式，将提问和单个回答以文本对的形式存储；

(43)根据上一步骤获得的文本数据，使用在步骤(2)中微调好的BERT模型对所述目标贴进行预测，再按照步骤(3)的方法计算天数差、相似度等特征之后组合成特征向量，特征向量格式与步骤(3)中组成的特征向量格式相同，特征向量的个数与回答个数相等；

(44)使用步骤(41)中训练好的机器学习分类模型对所述特征向量进行预测，输出前n个概率最高的回答供用户参考，n为自然数，n不大于回答的总个数。

本发明的有益效果在于：本发明的方法不仅局限于发帖和回帖的文本信息，更考虑了文本以外的信息，如用户名，发帖与回帖的时间差，与其他回答的相似程度等，以多维度的特征去训练模型，使模型的准确率更高。本发明的方法能够快速、准确的判断出一个帖子下可能为正确答案的回答，省时省力，也减少了错误答案对他人的误导。

附图说明

图1是本发明提出的基于人工智能自动识别社区问答论坛中的正确回答的方法的流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的基于人工智能自动识别社区问答论坛中的正确回答的方法，所述方法包括下列操作步骤：

(1)数据集建立的过程，具体内容是：先用爬虫软件爬取大量的问答贴内容；在爬取后，将所述问答贴内容以提问和单个回答组成的文本对的形式进行数据存储，文本对的数据存储格式参见表1；也可以通过其他的数据集获得数据；然后对前述存储的数据进行数据清洗，再进行人工标注，建立数据集；

表1

问题	回答
		签证的有效期是几个月	3个月
签证的有效期是几个月	在3个月内允许多次入出境。
		签证的有效期是几个月	大概两个月吧，也可能三个月

所述步骤(1)的具体内容包括如下操作步骤：

(11)使用爬虫爬取网站的信息，将帖子提问，回答，提问用户，回答用户，发帖时间等信息存储，也可以从其他类似数据集中获得数据，如：一些主要内容为论坛求助帖的数据集，比如Semeval2019的Task8的数据集中获得数据，一并进行整理；

(12)遍历并用“NULL”填充为空的属性，统一文本的最大长度，利用规则清洗干扰数据；例如讨论帖，公告帖等无关帖子内容，所述规则主要是查找帖子中是否含有“节日快乐”、“水贴”、“讨论”等关键词；

表2

(13)将上一步骤中获得的数据以问题和单个回答以文本对的形式存储，进行人工标注，人工标注的方法遵循以下公式：

在上述公式中，a代表了文本对的标签，如果回答是正确的，则文本对会被标为“1”，如果回答是错误的，文本对会被标为“0”，如果回答是个问句，则文本对被标为“2”。

参见表1，数据以问题和单个回答的文本对的形式存储在文件里以便读取。参见表2所示的数据举例，表2中每一行代表了单个的文本对，第一列是问题，第二列是对该问题的回答。对于一个帖子，可能有零个、一个或多个正确的回答。在该例中，第一个回答和第二个回答是正确的，第三个回答是错误的。

所述步骤(2)的具体内容包括如下操作步骤：

(21)使用BERT模型并根据步骤(1)中得到的数据进行微调训练；BERT模型将输入的文本内容进行字节编码、片段编码和位置编码；在微调训练结束后，将微调后的模型存储。BERT模型全称为Bidirectional Encoder Representation from Transformers，详细情况参见论文Jacob Devlin，Ming-Wei Chang，Kenton Lee，andKristinaToutanova.2018.Bert:Pre-training of deep bidirectional transformersfor language understanding.arXiv preprint arXiv:1810.04805；

所述步骤(3)的具体内容包括如下操作步骤：

所述步骤(4)的具体内容包括如下操作步骤：

发明人对本发明方法进行了大量的实验，实验结果证明本发明的方法是可行有效的。

Claims

1.基于人工智能自动识别社区问答论坛中的正确回答的方法，其特征在于：所述方法包括下列操作步骤：

2.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法，其特征在于：所述步骤(1)的具体内容包括如下操作步骤：

3.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法，其特征在于：所述步骤(2)的具体内容包括如下操作步骤：

(21)使用BERT模型并根据步骤(1)中得到的数据进行微调训练；BERT模型将输入的文本内容进行字节编码、片段编码和位置编码；在微调训练结束后，将微调后的模型存储；

4.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法，其特征在于：所述步骤(3)的具体内容包括如下操作步骤：

5.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法，其特征在于：所述步骤(4)的具体内容包括如下操作步骤：