CN112966518B

CN112966518B - 一种面向大规模在线学习平台的优质答案识别方法

Info

Publication number: CN112966518B
Application number: CN202011535456.XA
Authority: CN
Inventors: 吴宁; 陆鑫; 梁欢; 王雅迪; 邹斌
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-12-19
Anticipated expiration: 2040-12-22
Also published as: CN112966518A

Abstract

一种面向大规模在线学习平台的优质答案识别方法，步骤如下：(一)、特征向量构建：在对获取的数据集进行预处理之后，对数据集进行人工标注，随后构建特征向量；(二)、将步骤(一)中构建的特征向量作为输入，以人工标注的标签作为输出，构建基于XGBOOST的分类模型并进行训练；(三)、对于一个新问题及其一系列答案与评论，利用新问题的文本内容、答案的文本内容及评论的文本内容构建三个特征向量并以此输入到步骤(二)中训练好的模型中，从而得到一系列分类结果，作为识别优质答案的结果；本发明使用了不同角度更多的信息，对问题和答案及答案评论进行充分使用来解决识别优质答案，预测结果也在多个评价指标上有一定的提高。

Description

一种面向大规模在线学习平台的优质答案识别方法

技术领域

本发明涉及人工智能的自然语言处理技术领域，特别涉及一种面向大规模在线学习平台的优质答案识别方法。

背景技术

随着互联网技术的发展，在线教育以其无时间地点限制等优势得到了大众的认可，越来越多的人使用线上学***台提供的问答社区为学习者提供了在线交流的机会，但是由于学习者人数众多，教师无法为学生提供个性化、实时的问题解答，因此，能够模拟教师随时在线的智能问答技术成为在线教育的研究热点之一。而如何针对学习者的提问，快速选出最优质的答案，也就成为智能问答领域需要解决的重要问题。

优质答案识别与答案排序本质上都是为了帮助用户获取高质量的答案，提升用户的使用体验。两者之间的区别在于答案排序一般将点赞数作为模型学***台中答案的排序方式主要有以下几种：按照内容相关性、按照答案长短、按照答案发表时间、按照优质答案、按照答案的评论数以及按照答案的点赞数等方式。目前大规模在线学***台而言，提供智能化模拟教师随时在线的问答服务是提升用户体验的一个重要方式，而识别优质答案则是智能问答中一个重要的技术。

目前关于优质答案识别的研究相对较少，与之最相关的是答案排序的研究，很多研究者提出了多种答案排序的方式，如下所列：

(1)一种社区问答平台回答排序方法(申请人：中国科学技术大学，申请号：201810186972.2)；

(2)一种用于问答***的答案排序方法(申请人：北京大学深圳研究生院，申请号：201810284245.X)；

(3)答案质量确定模型训练方法、答案质量确定方法及装置(申请人：国信优易数据有限公司，申请号：201811285467.X)；

(4)基于人工智能自动识别社区问答论坛中的正确回答的方法(申请人：北京邮电大学，申请号：201911058818.8)。

以上相关的研究主要是将答案的点赞数作为其答案质量排序的学习目标，研究集中在使用问题与答案之间的相关性、答案的内容属性及答案的时间属性等方面的特征对答案质量进行评估，忽略了答案的评论文本及评论文本情感极性对答案质量评估带来的积极影响。

发明内容

为了克服上述现有技术的缺陷，本发明的目的是提供一种面向大规模在线学习平台的优质答案识别方法，使用了不同角度更多的信息，对问题和答案及答案评论进行充分使用来解决识别优质答案的问题，预测结果也在多个评价指标上有一定的提高。

为了达到上述目的，本发明通过以下技术方案实现。

一种面向大规模在线学习平台的优质答案识别方法，步骤如下：

(一)特征向量构建：在对获取的数据集进行预处理之后，对数据集进行人工标注，随后构建以下三个角度的特征向量：问题与答案的语义相关性特征、每一答案的所有评论的文档向量特征和评论的情感特征；三种角度的特征获取通过以下三个方式实现：(1)获取问题和答案的句子向量表示，然后基于余弦相似度计算两个语义向量相似性，得到问题与答案的语义相关性；(2)使用HAN模型对答案评论进行文档向量表示；(3)使用迁移学习对评论进行情感特征的提取；

(二)模型构建：将步骤(一)中构建的特征向量作为输入，以人工标注的标签作为输出，构建基于XGBOOST的分类模型并进行训练；

(三)对于一个新问题及其一系列答案与评论，利用新问题的文本内容、答案的文本内容及评论的文本内容构建步骤(一)中描述的三个特征向量并以此输入到步骤(二)中训练好的模型中，从而得到一系列分类结果，作为识别优质答案的结果。

所述步骤(一)中的人工标注具体操作为：

使用爬虫技术爬取网站信息，将问题、答案、答案评论及答案点赞数信息进行存储整理，对于问题、答案及评论为空的数据进行清除，对于同一问题下同一答案的评论进行整合，将获取到的数据以问题、答案及整合后的评论的形式进行存储，使用如下的方法对爬取的数据集进行人工标注：

在上述公式中，Flag代表文本对的标签，如果回答错误，认为是较差答案，文本对被标注为‘0’，如果回答正确但不完善，认为是普通答案，文本对被标注为‘1’，如果回答正确且完善，认为是优质答案，文本对被标注为‘2’，完成人工标注后，最终数据集包含以下内容：问题、答案、整合后的答案评论和文本对的标签；

所述问题与答案的语义相关性特征提取操作为：

(1)使用BERT模型获取问题和答案的句子向量，将问题、答案文本输入BERT模型并进行句向量生成，将预训练模型倒数第二层的输出值作为问题和答案的句子向量；

(2)使用余弦相似度方法计算问题与答案之间的相似性，通过计算两个向量夹角的余弦值来度量它们之间的相似性。

所述答案评论的文档向量特征提取操作为：

使用层次注意力网络HAN对多条评论进行特征提取，HAN模型分成两个部分，一部分是根据词向量构建句子向量，另一部分是根据句子向量构建文档向量，将数据集中的评论内容作为HAN模型的输入，文本对的标签作为其输出进行模型训练，将模型的倒数第二层输出作为评论的文档向量；

所述的HAN模型是一种用于文档分类的神经网络，该模型有两个特征：一是具有层级结构，可以通过首先构建句子的表示再将其聚合成文档表示来构造文档向量；二是在单词和句子级别应用了两个级别的注意力机制，使其能够在构建文档表示时能够加强对重要内容的表示；

所述答案评论的情感特征的提取操作为：

由于获取到的答案评论内容并没有相关的情感标签，而人工标注的工作量非常大，因此随机地对部分数据进行情感标签标记，然后采用半监督学习中伪标签策略来解决训练数据不充足的问题：首先使用情感分类模型对已有标记的数据进行训练，得到最优模型，使用最优模型对未标记的数据进行伪标签标记，之后使用所有数据进行训练提升模型效果,具体为：

(1)在已有标记的评论数据上进行训练，使用BERT模型获取评论的句子向量，将评论文本输入BERT模型，将预训练模型倒数第二层的输出值作为问题和答案的句子向量，使用全连接网络对句子向量进行降维，将降维后的句子向量通过softmax归一化处理，将结果用于情感分类，同时得到训练好的情感分类模型；情感分类模型由输入层、预训练好的BERT模型、全连接网络层和输出层组成；

(2)使用(1)中训练好的情感分类模型对未标注的评论文本进行分析，将未标注的评论文本表示成句子向量，使用训练好的模型进行情感特征分析，得到评论的情感特征；再将原始已有标注的数据和基于伪标签策略生成的数据进行结合，继续训练情感分析模型获取最优模型。

本发明的优点：本发明面向在线教育平台优质答案识别，从三个角度进行了特征提取，分别是问题与答案的相关性特征、答案的评论文档向量特征和答案评论的情感特征。相比于其他方法，使用了不同角度更多的信息，预测结果也在多个评价指标上有一定的提高。

附图说明

图1为本发明实施例的实现流程图。

图2为问题答案相似度的模型图。

图3为HAN模型的模型图。

图4为答案评论情感特征提取模型图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步的详细说明。

参见图1，一种面向大规模在线学习平台的优质答案识别方法，步骤如下：

(一)特征向量构建：在对获取的数据集进行预处理(包括异常值删除、格式处理等)之后，对数据集进行人工标注，随后构建以下三个角度的特征向量：问题与答案的语义相关性特征、每一答案的所有评论的文档向量特征和评论的情感特征；三种角度的特征获取通过以下三个方式实现：(1)获取问题和答案的句子向量表示，然后基于余弦相似度计算两个语义向量相似性，得到问题与答案的语义相关性；(2)使用HAN模型对答案评论进行文档向量表示；(3)使用迁移学习对评论进行情感特征的提取；

所述步骤(一)中的人工标注具体操作为：

使用爬虫技术爬取网站信息，将问题、答案、答案评论及答案点赞数信息进行存储整理，对于问题、答案及评论为空的的数据进行清除，对于同一问题下同一答案的评论进行整合，将获取到的数据以问题、答案及整合后的评论的形式进行存储。使用如下的方法对爬取的数据集进行人工标注：

在上述公式中，Flag代表文本对的标签，如果回答错误，认为是较差答案，文本对被标注为‘0’，如果回答正确但不完善，认为是普通答案，文本对被标注为‘1’，如果回答正确且完善，认为是优质答案，文本对被标注为‘2’。完成人工标注后，最终数据集包含以下内容：问题、答案、整合后的答案评论和文本对的标签。

参照图2，所述问题与答案的语义相关性特征提取操作为：

(1)使用BERT模型获取问题和答案的句子向量，传统的词向量句向量生成方式有一个较大的弊端，同一个词在不同语境语义不同时也会被表示成相同的向量，而BERT是一个大型预训练模型，能够解决一词多义问题，使用BERT并在特定领域进行微调会获取到很好的实验结果。BERT包括两个版本，12层的transformer和24层的transformer，本实验使用了12层的模型进行实验，理论上每一层transformer的输出值都可以作为句子向量，参考实验数据可知最佳的句子向量应该采取倒数第二层，这是由于最后一层的值太接近目标以及前面几层的值对句子的语义信息还没有充分学习到。将问题、答案文本输入BERT模型并进行句向量生成，将预训练模型倒数第二层的输出值作为问题和答案的句子向量。

参照图3，所述答案评论的文档向量特征提取操作为：

一般情况下一条答案会有多条评论，关于如何提取多条评论，已有工作分为以下两种：一种是将多条评论拼接得到一个较长的文档，然后对该文档进行特征提取；另一种是对每一条评论进行单独建模，之后再将建模后的特征进行聚合。在本发明中不需要区分单条评论之间的区别，因此不需要对其进行区分，所以本发明采取第一种方式，将多条评论拼接成文档，再使用文档向量特征提取的方法对其进行处理，具体为：

所述的HAN模型是一种用于文档分类的神经网络，该模型有两个特征：一是具有层级结构，可以通过首先构建句子的表示再将其聚合成文档表示来构造文档向量；二是在单词和句子级别应用了两个级别的注意力机制，使其能够在构建文档表示时能够加强对重要内容的表示。

参照图4，所述答案评论的情感特征的提取操作为：

(1)在已有标记的评论语料上进行训练，使用BERT模型获取评论的句子向量，将评论文本输入BERT模型，将预训练模型倒数第二层的输出值作为问题和答案的句子向量，使用全连接网络对句子向量进行降维，将降维后的句子向量通过softmax归一化处理，将结果用于情感分类，同时得到训练好的情感分类模型；情感分类模型由输入层、预训练好的BERT模型、全连接网络层和输出层组成；

(2)使用(1)中训练好的情感分类模型对未标注的评论文本进行分析，将未标注的评论文本表示成句子向量，使用训练好的模型进行情感特征分析，得到评论的情感特征。

综上所述，基于三种特征的提取方法，最终获取到的特征向量格式为[问题答案的相似度、评论的文档向量、评论的情感特征]。

Claims

1.一种面向大规模在线学习平台的优质答案识别方法，其特征在于，步骤如下：

2.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法，其特征在于，

所述步骤(一)中的人工标注具体操作为：

使用爬虫技术爬取网站信息，将问题、答案、答案评论及答案点赞数信息进行存储整理，对于问题、答案及评论为空的数据进行清除，对于同一问题下同一答案的评论进行整合，将获取到的数据以问题、答案及整合后的评论的形式进行存储；使用如下的方法对爬取的数据集进行人工标注：

在上述公式中，Flag代表文本对的标签，如果回答错误，认为是较差答案，文本对被标注为‘0’，如果回答正确但不完善，认为是普通答案，文本对被标注为‘1’，如果回答正确且完善，认为是优质答案，文本对被标注为‘2’，完成人工标注后，最终数据集包含以下内容：问题、答案、整合后的答案评论和文本对的标签。

3.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法，其特征在于，

所述问题与答案的语义相关性特征提取操作为：

4.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法，其特征在于，

所述答案评论的文档向量特征提取操作为：

5.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法，其特征在于，

所述答案评论的情感特征的提取操作为：