CN117473096B

CN117473096B - 一种融合latex标签的知识点标注方法及其模型

Info

Publication number: CN117473096B
Application number: CN202311834982.XA
Authority: CN
Inventors: 罗文兵; 王岚清; 陶聪; 梁佳美; 黄琪; 罗凯威; 王明文
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-15
Anticipated expiration: 2043-12-28
Also published as: CN117473096A

Abstract

本发明公开了一种融合LATEX标签的知识点标注方法及其模型，步骤如下：数据集构建，构建好的数据集中原始习题文本输入到句子编码器模块中，输出结果；将输出结果输入到学科知识融合模块中的计算结果分别为最终的语义表征；将最终的语义表征输入到门控筛选模块，其输出结果为原始习题文本在学科知识信息影响下最终被保留的信息；将输出结果输入到通过带有sigmoid函数的线性层，得到最终的分类概率向量，并将其通过阈值分类器从而转化为预测标签。本发明的有益效果是：引入两种更细化的学科知识，即LATEX标签概念和术语类型的信息，进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。

Description

一种融合LATEX标签的知识点标注方法及其模型

技术领域

本发明涉及多标签文本分类任务相关的领域，具体为一种融合LATEX标签的知识点标注方法及其模型。

背景技术

自20世纪90年代末以来，随着互联网的发展和数字化信息的大量产生，研究者们就广泛探索文本分类相关的领域，从传统的单标签分类方法到多标签分类方法的研究。近年来，随着互联网教育规模的扩大和学生在线学习需求的增加，大数据技术在教育领域的应用变得越来越重要，同时习题在课程教学过程中也扮演着非常重要的角色。通过分析学生所做的习题来评估学生对知识点的掌握情况，但是如何准确地标注出习题所考察的知识点是优化题库构建和个性化学习的关键问题。

在数学学科领域，数学知识点是数学教学信息中的基本组织单元和传递单元，用于描述和表达数学学科的核心概念和要点。习题知识点标注任务旨在标注出习题中考察的核心概念和要点。由于习题中考察的核心概念和要点不唯一，因此习题知识点标注任务可视为多标签文本分类任务。然而，习题知识标注任务存在样本分布失衡、标签层次化、领域受限等问题。更关键的是数学学科知识具有的特殊性使模型无法深层的理解习题文本的语义。例如，习题具有符号化、公式化、逻辑复杂化以及表达精炼化等特殊性，这些都是研究习题知识点标注任务的难点问题。

习题知识点自动标注任务中的知识点标签类数较多，且通过对抽样数据的统计，大部分习题实例只包含1到3个知识点，这样标签空间就会较为稀疏。而这类标注稀疏的问题会导致现有模型在训练实例较少的知识点上的标注效果较差，模型性能难以提升。

现有传统的知识点标注方法大多采用结合统计学与机器学习算法的方式，后来有许多工作基于向量空间模型（Vector Space Model，VSM）生成空间向量，并通过计算文本相似度实现了对各自领域文本的知识点标注。但以上方法只基于浅层的特征，未考虑文本的上下文信息，并且过分依赖于语料库，通用性不强。因此后续有研究者提出基于词向量表示的深度学习方法。但此类方法中的词向量表示是静态的，并且对于新加入的训练习题无法有效地学习其上下文表示。随着BERT（是一种基于注意力机制的深度学习模型）的出世，解决了上述词向量表征问题，越来越多工作采取嵌入预训练框架的形式提升各自领域模型的性能。

虽然直接嵌入预训练框架的方式在词汇和语义表达上的能力很强，但是对各自领域中特有先验知识的语义编码效果不佳，在数学学科领域更是如此。因此后续有工作利用预训练模型的同时结合数学文本的特殊性，如融入数学符号、公式、习题解析等先验知识，最后在习题知识点标注任务上的表现更进一步。然而这些模型在融合先验知识时，直接用其词向量表示和原始习题文本表示进行级联（Concatenate），最后将级联结果送入分类器，这种显式的融合实际上会引入一些噪声干扰习题原来的语义表示。而且一些通过领域知识对原始习题文本事先进行题目清洗和替换以获取习题中间表示的知识点标注方法，同样也存在原始习题文本完整的语义表示受到破环的问题，导致模型分类时有效信息的特征缺失。

发明内容

为了解决上述问题，本发明提出一种融合LATEX标签的知识点标注方法及其模型，考虑到数学学科知识的表示具有公式化、表达精炼化等特殊性，引入两种更细化的学科知识，即LATEX标签概念和术语类型的信息，进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。

本发明的技术方案：一种融合LATEX标签的知识点标注方法，方法步骤如下：

步骤S1,数据集构建，在初中数学试卷中收集习题，对收集的习题进行预处理；预处理之后对收集的习题的知识点标注；最后得到习题数据集,习题数据集中的习题称为原始习题文本w；

步骤S2，将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中，输出结果是原始习题文本表示e、LATEX标签概念表示e^lc和术语类型表示e^tt；

步骤S3，将步骤S2获得的输出结果输入到学科知识融合模块中，利用交叉注意力机制将LATEX标签概念表示e^lc和术语类型表示e^tt分别与原始***均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征，即LATEX标签概念的池化表示与术语类型的池化表示/>；

步骤S4，将步骤S3中的最终的语义表征输入到门控筛选模块，通过一种隐式融合多种学科知识的门控筛选机制，以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息，则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术语类型信息的影响下最终被保留的信息，简称为最终保留的信息e^cls-remain2；

步骤S5，将步骤S4中门控筛选模块输出的最终保留的信息 e^cls-remain2作为预测模块的输入，将输入通过带有sigmoid函数的线性层，得到最终的分类概率向量，分类概率向量是预测标签的一种表示，最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签。

进一步的，步骤S1中数据集构建，具体为：

步骤S11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点，共有四种题型包括选择题、填空题、解答题和判断题；

步骤S12，对收集的习题进行预处理，首先对习题进行去无效字符、去重、补全清洗操作，得到14200道习题；然后采用数学公式识别工具将以图片形式存在的公式识别成Word支持的公式格式；

步骤S13，预处理之后对***台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准；

步骤S14，经过习题预处理和知识点标注，最后得到包含12073道习题的数据集。

进一步的，步骤S13中对习题的知识点标注，具体为：

步骤S131，借助在线教育平台的习题查询功能找到习题对应的多个三级知识点；

步骤S132，通过查询知识点分级标准中与习题对应的一、二、三级知识点；

步骤S133，以在线教育平台所获的三级知识点为主，对从知识点分级标准中查询的三级知识点进行筛除，并从中查询三级知识点所属的一级和二级知识点；

步骤S134，借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断，对相似度大的标注结果进行统一，确保所标注的知识点不冗余；

步骤S135，根据初中数学教育专家提供的中考考纲，去除中考中不考察的知识点及对应习题。

进一步的，步骤S2中句子编码器模块，具体为：

步骤S21，句子编码器模块选取RoBERTa作为预训练语言模型，RoBERTa预训练语言模型是鲁棒优化的BERT方法，句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt，三者共享RoBERTa预训练语言模型的参数；

步骤S22，RoBERTa预训练语言模型作为函数，w_i为第i个索引的原始习题文本，lc_i为第i个索引的LATEX标签概念文本，tt_i为第i个索引的术语类型文本，具体的计算过程如公式（1）所示；

（1）；

其中，e_i为第i个索引的原始习题文本w_i经过RoBERTa预训练语言模型得到的向量表示，即称为第i个索引的原始习题文本表示e_i，e_i ^lc为第i个索引的LATEX标签概念文本经过RoBERTa预训练语言模型得到的向量表示，即称为第i个索引的LATEX标签概念表示e_i ^lc，e_i ^tt为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示，即称为第i个索引的术语类型表示e_i ^tt；

步骤S23，提取最后一层自然语言处理领域的模型的输出作为文本词向量表示，文本词向量表示即第i个索引的原始习题文本表示e_i、第i个索引的LATEX标签概念表示e_i ^lc、第i个索引的术语类型表示e_i ^tt。

进一步的，步骤S3中学科知识融合模块，具体为：

步骤S31，输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示；

步骤S32，利用交叉注意力机制将第i个索引的LATEX标签概念表示e_i ^lc，第i个索引的术语类型表示e_i ^tt分别与第i个索引的原始习题文本表示e_i进行融合，输出结果为第i个索引的LATEX标签概念的深层语义表示M_i ^lc和第i个索引的术语类型的深层语义表示M_i ^tt；

步骤S33，同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示，引入多头注意力机制，最终的注意力计算过程如公式（2）、公式（3）所示；

(2)；

(3)；

其中，head_ij ^lc为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示，softmax作为一种激活函数，将输入的未归一化的分数转换为概率分布，W_j ^Q、W_j ^K、W_j ^V分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵，T为第i个索引的LATEX标签概念表示e_i ^lc和键向量W_j ^K相乘的转置，d_K为第i个索引的原始习题文本表示e_i的第二维度大小；

head_ij ^tt为第i个索引的术语类型表示进行第j次注意力计算的特征表示；

M_i ^lc为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标签概念的深层语义表示，称为第i个索引的LATEX标签概念的深层语义表示M_i ^lc ，表示级联操作，h表示注意力计算次数；

M_i ^tt为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深层语义表示，称为第i个索引的术语类型的深层语义表示M_i ^tt；

步骤S34，提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子信息表示，对第i个索引的LATEX标签概念的深层语义表示M_i ^lc和第i个索引的术语类型的深层语义表示M_i ^tt进行平均池化，并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征，计算如公式（4）所示；

(4)；

其中，为对第i个索引的标签概念的深层语义表示进行平均池化后的结果，称为第i个索引的LATEX标签概念的池化表示/>，/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果，称为第i个索引的术语类型的池化表示/>；AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示M_i ^lc和第i个索引的术语类型的深层语义表示M_i ^tt平均池化的操作。

进一步的，步骤S4中门控筛选模块，具体为：

步骤S41，输入数据即第i个索引的LATEX标签概念的池化表示与第i个索引的术语类型的池化表示/>；

步骤S42，通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量（CLS标签向量用于表示整个序列或句子意义的特殊位置编码的向量，这里是用于替代原始习题文本的句子表示）e_cls的门控机制，计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例，以筛选出原始习题文本中与之相关的关键信息，计算过程如公式（5）所示；

(5)；

其中，r_i ^lc为在第i个索引的LATEX标签概念信息的影响下所保留的权重值，为sigmoid激活函数，W^lc为对第i个索引的LATEX标签概念的池化表示/>和CLS标签向量e_cls拼接后的可学习的矩阵，b^lc为偏置向量，[e_cls, />]为对CLS标签向量e_cls和第i个索引的LATEX标签概念的池化表示/>进行拼接得到的结果；

e_i ^cls-remain1为在第i个索引的LATEX标签概念信息的影响下所保留的权重值r_i ^lc与CLS标签向量e_cls相乘得到的结果，表示原始习题文本在第i个索引的LATEX标签概念信息的影响下被保留的信息，简称为初步保留的信息e_i ^cls-remain1；

步骤S43，原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信息的影响下最终被保留的信息e_i ^cls-remain2，计算过程如公式（6）所示；

(6)；

其中，r_i ^tt为在第i个索引的术语类型信息的影响下所保留的权重值，表示sigmoid激活函数，输入为初步保留的信息e_i ^cls-remain1 ，W^tt为对初步保留的信息e_i ^cls-remain1和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵，b^tt为偏置向量，[e_i ^cls ^-remain1, />]为初步保留的信息e_i ^cls-remain1和第i个索引的术语类型的池化表示/>进行拼接得到的结果；

e_i ^cls-remain2则是初步保留的信息e_i ^cls-remain1与r_i ^tt相乘得到的门控筛选模块的最终输出，即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息，称为第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2；

步骤S5，将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2作为预测模块的输入，将输入通过带有sigmoid函数的线性层，得到最终的分类概率向量，分类概率向量是预测标签的一种表示，最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签。

进一步的，步骤S5中预测模块，具体步骤为：

步骤S51，将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2输入到带有sigmoid函数的线性层后，将得到最终的分类概率向量,如公式(7)所示；

(7)；

其中，为sigmoid函数的线性层得到的第j个分类概率向量，sigmoid为激活函数，W_c为第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2可学习的矩阵，b_c偏置向量；

步骤S52，引入分类阈值δ，表示当前习题对应第j 个知识点标签，判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j 个知识点标签/>，如公式（8）；

(8) ；

步骤S53，采用分布平衡损失以平衡各知识点标签之间的实例数量，具体损失函数的计算如公式（9）所示；

(9)；

其中，L_DB表示最后所求得的分布平衡损失，C表示知识点的总数，k表示数据集中的第k道习题，作为加权系数加入训练以弥补期待与实际采样概率之间的差距，y_j ^k表示第k道习题对应第j个知识点的真实标记，y_j ^k∈{0,1}，log表示取对数，z_j ^k表示第k道习题预测出第j个知识点的概率，v_j是一种阶级特异性偏差，表示固有模型的偏差；λ是影响损失梯度的决定性因素，表示对分类概率z_j ^k的“容忍”程度。

进一步的，一种融合LATEX标签的知识点自动标注模型，应用于所述的融合LATEX标签的知识点标注方法，主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块，句子编码器模块作为知识点自动标注模型的第一个模块，四个模块依次呈串行结构。

本发明的优点是：（1）本发明考虑到数学学科知识的表示具有公式化、表达精炼化等特殊性，故引入了两种更细化的学科知识，即LATEX标签概念和术语类型两者的信息，进而在构建的习题数据集分布失衡的情况下为大部分知识点的标注提供关键信息。

（2）本发明设计一种用于学科知识隐式融合的门控机制，以较少的参数保留原始习题文本表示中与两种学科知识相关的关键信息，从而减少特征融合时产生的噪声。

（3）融合学科知识的***衡损失以平衡各知识点标签之间的实例数量。

附图说明

图1为本发明的整体模型框架图。

具体实施方式

本发明构建了一个初中习题知识点标注数据集，首先，从人教版初中数学教材和试卷中采集文本，构建了一个初中习题知识点标注数据集，该数据集经过大量预处理操作以清洗和模板化习题题目，并由多位专家对习题进行多轮知识点标注，标注一致率达到96.02%。然后在该数据集上进行了详细实验，实验结果表明本发明所提的知识点自动标注模型：①在microF₁，macroF₂，weightedF₁三个评价指标上较基准模型分别提升了1.99%，2.99%，2.12%；②对于训练实例较少的知识点，标注效果有所提升；③在基于不同预训练模型的四组基线对比实验中，测试的F₁值（是一个用于评估分类模型性能的指标）都超过了所选的基线。

步骤S1,数据集构建，在初中数学试卷中收集习题，对收集的习题进行预处理；预处理之后对收集的习题的知识点标注；最后得到习题数据集,习题数据集中的任意一道习题包含两部分，一部分为原始习题文本w，另一部分为真实标签Q；

进一步的，步骤S1中数据集构建，具体为：

进一步的，步骤S13中对习题的知识点标注，具体为：

进一步的，步骤S2中句子编码器模块，具体为：

（1）；

进一步的，步骤S3中学科知识融合模块，具体为：

(2)；

(3)；

(4)；

进一步的，步骤S4中门控筛选模块，具体为：

(5)；

(6)；

进一步的，步骤S5中预测模块，具体步骤为：

(7)；

步骤S52，引入分类阈值δ，表示当前习题对应第j 个知识点标签，判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j个知识点标签/>，如公式（8）；

(8) ；

(9)；

图1的具体流程如下:首先，构造句子编码器模块所需的数据，从构建好的中学数学数据集中取出原始习题文本w，连同其习题的LATEX标签概念文本lc和术语类型文本tt这三者共同输入到句子编码器模块中并共享句子编码器模块的参数，经过句子编码器模块的处理后得到最后一层自然语言处理领域的模型（Transformer）的输出，将该输出作为文本词向量表示，包括LATEX标签概念表示e^lc，术语类型表示e^tt和原始习题文本表示e。

然后，将LATEX标签概念表示e^lc，术语类型表示e^tt和原始***均池化，分别得到LATEX标签概念的池化表示与术语类型的池化表示/>，并将LATEX标签概念的池化表示/>与术语类型的池化表示/>分别作为LATEX标签概念与术语类型最终的语义表征。

将LATEX标签概念的池化表示，术语类型的池化表示/>和CLS标签向量e_cls输入到门控筛选模块。在这里，使用多个门控机制依次控制原始习题文本中应该保留的有效信息量。首先，通过一种作用于LATEX标签概念的池化表示/>和CLS标签向量e_cls的门控机制，计算出在LATEX标签概念信息的影响下原始习题文本信息应保留的比例，以筛选出原始习题文本中与之相关的关键信息；同理，另一种门控机制则是考虑术语类型信息的影响，保留句子表示中的关键信息。其中输入为上一个门控机制的输出，最终保留的信息e^cls-remain2则作为门控筛选模块的最终输出。

分类器作为最后的预测模块，只需将门控筛选模块输出的最终保留的信息e^cls ^-remain2输入到带有sigmoid激活函数的线性层即可得到第j个分类概率向量，并且引入阈值分类器，然后通过标器解码器最后得到预测的知识点。

由于本发明的数据集中大部分知识点标签拥有的***衡分布的情况极大地增加了多知识点标注任务的复杂性。故将分类概率向量与图1所示的***衡损失函数（Distribution-Balanced Loss for Multi-Label Classification in Long-TailedDatasets，DB_Loss）以平衡各知识点标签之间的实例数量，其中的损失是L_DB。

知识点自动标注模型在实验时采用深度学习模型框架为PyTorch。原始习题、LATEX标签概念、术语类型的文本嵌入维度均为768维。相似度阈值设为0.95，多头注意力机制的头数设定为6，分类阈值δ为0.5，初始学习率设为0.00003。/>

Claims

1.一种融合LATEX标签的知识点标注方法，其特征在于：方法步骤如下：

步骤S5，将步骤S4中门控筛选模块输出的最终保留的信息 e^cls-remain2作为预测模块的输入，将输入通过带有sigmoid函数的线性层，得到最终的分类概率向量，分类概率向量是预测标签的一种表示，最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签；

步骤S2中句子编码器模块，具体为：

（1）；

步骤S23，提取最后一层自然语言处理领域的模型的输出作为文本词向量表示，文本词向量表示即第i个索引的原始习题文本表示e_i、第i个索引的LATEX标签概念表示e_i ^lc、第i个索引的术语类型表示e_i ^tt；

步骤S3中学科知识融合模块，具体为：

(2)；

(3)；

(4)；

其中，为对第i个索引的标签概念的深层语义表示进行平均池化后的结果，称为第i个索引的LATEX标签概念的池化表示/>，/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果，称为第i个索引的术语类型的池化表示/>；AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示M_i ^lc和第i个索引的术语类型的深层语义表示M_i ^tt平均池化的操作；

步骤S4中门控筛选模块，具体为：

步骤S42，通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量e_cls的门控机制，计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例，以筛选出原始习题文本中与之相关的关键信息，计算过程如公式（5）所示；

(5)；

(6)；

其中，r_i ^tt为在第i个索引的术语类型信息的影响下所保留的权重值，表示sigmoid激活函数，输入为初步保留的信息e_i ^cls-remain1 ，W^tt为对初步保留的信息e_i ^cls-remain1和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵，b^tt为偏置向量，[e_i ^cls-remain1, />]为初步保留的信息e_i ^cls-remain1和第i个索引的术语类型的池化表示/>进行拼接得到的结果；

步骤S5，将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2作为预测模块的输入，将输入通过带有sigmoid函数的线性层，得到最终的分类概率向量，分类概率向量是预测标签的一种表示，最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签；

步骤S5中预测模块，具体步骤为：

(7)；

其中，为sigmoid函数的线性层得到的第j个分类概率向量，sigmoid为激活函数，W_c为第i个索引的学科知识信息影响下的最终保留的信息e_i ^cls-remain2可学习的矩阵，b_c为偏置向量；

(8)；

(9)；

2.根据权利要求1所述的一种融合LATEX标签的知识点标注方法，其特征在于：步骤S1中数据集构建，具体为：

3.根据权利要求2所述的一种融合LATEX标签的知识点标注方法，其特征在于：步骤S13中对习题的知识点标注，具体为：

4.一种融合LATEX标签的知识点自动标注模型，应用于权利要求1-3任意一项所述的融合LATEX标签的知识点标注方法，其特征在于：主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块，句子编码器模块作为知识点自动标注模型的第一个模块，四个模块依次呈串行结构。