CN117473096B - 一种融合latex标签的知识点标注方法及其模型 - Google Patents
一种融合latex标签的知识点标注方法及其模型 Download PDFInfo
- Publication number
- CN117473096B CN117473096B CN202311834982.XA CN202311834982A CN117473096B CN 117473096 B CN117473096 B CN 117473096B CN 202311834982 A CN202311834982 A CN 202311834982A CN 117473096 B CN117473096 B CN 117473096B
- Authority
- CN
- China
- Prior art keywords
- representation
- information
- latex
- knowledge
- ith index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000004816 latex Substances 0.000 title claims abstract description 132
- 238000002372 labelling Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000003058 natural language processing Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 210000002464 muscle smooth vascular Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000001418 vibrating-sample magnetometry Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Educational Technology (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合LATEX标签的知识点标注方法及其模型,步骤如下:数据集构建,构建好的数据集中原始习题文本输入到句子编码器模块中,输出结果;将输出结果输入到学科知识融合模块中的计算结果分别为最终的语义表征;将最终的语义表征输入到门控筛选模块,其输出结果为原始习题文本在学科知识信息影响下最终被保留的信息;将输出结果输入到通过带有sigmoid函数的线性层,得到最终的分类概率向量,并将其通过阈值分类器从而转化为预测标签。本发明的有益效果是:引入两种更细化的学科知识,即LATEX标签概念和术语类型的信息,进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。
Description
技术领域
本发明涉及多标签文本分类任务相关的领域,具体为一种融合LATEX标签的知识点标注方法及其模型。
背景技术
自20世纪90年代末以来,随着互联网的发展和数字化信息的大量产生,研究者们就广泛探索文本分类相关的领域,从传统的单标签分类方法到多标签分类方法的研究。近年来,随着互联网教育规模的扩大和学生在线学习需求的增加,大数据技术在教育领域的应用变得越来越重要,同时习题在课程教学过程中也扮演着非常重要的角色。通过分析学生所做的习题来评估学生对知识点的掌握情况,但是如何准确地标注出习题所考察的知识点是优化题库构建和个性化学习的关键问题。
在数学学科领域,数学知识点是数学教学信息中的基本组织单元和传递单元,用于描述和表达数学学科的核心概念和要点。习题知识点标注任务旨在标注出习题中考察的核心概念和要点。由于习题中考察的核心概念和要点不唯一,因此习题知识点标注任务可视为多标签文本分类任务。然而,习题知识标注任务存在样本分布失衡、标签层次化、领域受限等问题。更关键的是数学学科知识具有的特殊性使模型无法深层的理解习题文本的语义。例如,习题具有符号化、公式化、逻辑复杂化以及表达精炼化等特殊性,这些都是研究习题知识点标注任务的难点问题。
习题知识点自动标注任务中的知识点标签类数较多,且通过对抽样数据的统计,大部分习题实例只包含1到3个知识点,这样标签空间就会较为稀疏。而这类标注稀疏的问题会导致现有模型在训练实例较少的知识点上的标注效果较差,模型性能难以提升。
现有传统的知识点标注方法大多采用结合统计学与机器学习算法的方式,后来有许多工作基于向量空间模型(Vector Space Model,VSM)生成空间向量,并通过计算文本相似度实现了对各自领域文本的知识点标注。但以上方法只基于浅层的特征,未考虑文本的上下文信息,并且过分依赖于语料库,通用性不强。因此后续有研究者提出基于词向量表示的深度学习方法。但此类方法中的词向量表示是静态的,并且对于新加入的训练习题无法有效地学习其上下文表示。随着BERT(是一种基于注意力机制的深度学习模型)的出世,解决了上述词向量表征问题,越来越多工作采取嵌入预训练框架的形式提升各自领域模型的性能。
虽然直接嵌入预训练框架的方式在词汇和语义表达上的能力很强,但是对各自领域中特有先验知识的语义编码效果不佳,在数学学科领域更是如此。因此后续有工作利用预训练模型的同时结合数学文本的特殊性,如融入数学符号、公式、习题解析等先验知识,最后在习题知识点标注任务上的表现更进一步。然而这些模型在融合先验知识时,直接用其词向量表示和原始习题文本表示进行级联(Concatenate),最后将级联结果送入分类器,这种显式的融合实际上会引入一些噪声干扰习题原来的语义表示。而且一些通过领域知识对原始习题文本事先进行题目清洗和替换以获取习题中间表示的知识点标注方法,同样也存在原始习题文本完整的语义表示受到破环的问题,导致模型分类时有效信息的特征缺失。
发明内容
为了解决上述问题,本发明提出一种融合LATEX标签的知识点标注方法及其模型,考虑到数学学科知识的表示具有公式化、表达精炼化等特殊性,引入两种更细化的学科知识,即LATEX标签概念和术语类型的信息,进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。
本发明的技术方案:一种融合LATEX标签的知识点标注方法,方法步骤如下:
步骤S1,数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集,习题数据集中的习题称为原始习题文本w;
步骤S2,将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原始习题文本表示e、LATEX标签概念表示elc和术语类型表示ett;
步骤S3,将步骤S2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制将LATEX标签概念表示elc和术语类型表示ett分别与原始***均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征,即LATEX标签概念的池化表示与术语类型的池化表示/>;
步骤S4,将步骤S3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术语类型信息的影响下最终被保留的信息,简称为最终保留的信息ecls-remain2;
步骤S5,将步骤S4中门控筛选模块输出的最终保留的信息 ecls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签。
进一步的,步骤S1中数据集构建,具体为:
步骤S11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点,共有四种题型包括选择题、填空题、解答题和判断题;
步骤S12,对收集的习题进行预处理,首先对习题进行去无效字符、去重、补全清洗操作,得到14200道习题;然后采用数学公式识别工具将以图片形式存在的公式识别成Word支持的公式格式;
步骤S13,预处理之后对***台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准;
步骤S14,经过习题预处理和知识点标注,最后得到包含12073道习题的数据集。
进一步的,步骤S13中对习题的知识点标注,具体为:
步骤S131,借助在线教育平台的习题查询功能找到习题对应的多个三级知识点;
步骤S132,通过查询知识点分级标准中与习题对应的一、二、三级知识点;
步骤S133,以在线教育平台所获的三级知识点为主,对从知识点分级标准中查询的三级知识点进行筛除,并从中查询三级知识点所属的一级和二级知识点;
步骤S134,借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断,对相似度大的标注结果进行统一,确保所标注的知识点不冗余;
步骤S135,根据初中数学教育专家提供的中考考纲,去除中考中不考察的知识点及对应习题。
进一步的,步骤S2中句子编码器模块,具体为:
步骤S21,句子编码器模块选取RoBERTa作为预训练语言模型,RoBERTa预训练语言模型是鲁棒优化的BERT方法,句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt,三者共享RoBERTa预训练语言模型的参数;
步骤S22,RoBERTa预训练语言模型作为函数,wi为第i个索引的原始习题文本,lci为第i个索引的LATEX标签概念文本,tti为第i个索引的术语类型文本,具体的计算过程如公式(1)所示;
(1);
其中,ei为第i个索引的原始习题文本wi经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的原始习题文本表示ei,ei lc为第i个索引的LATEX标签概念文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的LATEX标签概念表示ei lc,ei tt为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的术语类型表示ei tt;
步骤S23,提取最后一层自然语言处理领域的模型的输出作为文本词向量表示,文本词向量表示即第i个索引的原始习题文本表示ei、第i个索引的LATEX标签概念表示ei lc、第i个索引的术语类型表示ei tt。
进一步的,步骤S3中学科知识融合模块,具体为:
步骤S31,输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示;
步骤S32,利用交叉注意力机制将第i个索引的LATEX标签概念表示ei lc,第i个索引的术语类型表示ei tt分别与第i个索引的原始习题文本表示ei进行融合,输出结果为第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt;
步骤S33,同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示,引入多头注意力机制,最终的注意力计算过程如公式(2)、公式(3)所示;
(2);
(3);
其中,headij lc为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示,softmax作为一种激活函数,将输入的未归一化的分数转换为概率分布,Wj Q、Wj K、Wj V分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵,T为第i个索引的LATEX标签概念表示ei lc和键向量Wj K相乘的转置,dK为第i个索引的原始习题文本表示ei的第二维度大小;
headij tt为第i个索引的术语类型表示进行第j次注意力计算的特征表示;
Mi lc为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标签概念的深层语义表示,称为第i个索引的LATEX标签概念的深层语义表示Mi lc ,表示级联操作,h表示注意力计算次数;
Mi tt为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深层语义表示,称为第i个索引的术语类型的深层语义表示Mi tt;
步骤S34,提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子信息表示,对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt进行平均池化,并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征,计算如公式(4)所示;
(4);
其中,为对第i个索引的标签概念的深层语义表示进行平均池化后的结果,称为第i个索引的LATEX标签概念的池化表示/>,/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果,称为第i个索引的术语类型的池化表示/>;AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt平均池化的操作。
进一步的,步骤S4中门控筛选模块,具体为:
步骤S41,输入数据即第i个索引的LATEX标签概念的池化表示与第i个索引的术语类型的池化表示/>;
步骤S42,通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量(CLS标签向量用于表示整个序列或句子意义的特殊位置编码的向量,这里是用于替代原始习题文本的句子表示)ecls的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息,计算过程如公式(5)所示;
(5);
其中,ri lc为在第i个索引的LATEX标签概念信息的影响下所保留的权重值,为sigmoid激活函数,Wlc为对第i个索引的LATEX标签概念的池化表示/>和CLS标签向量ecls拼接后的可学习的矩阵,blc为偏置向量,[ecls, />]为对CLS标签向量ecls和第i个索引的LATEX标签概念的池化表示/>进行拼接得到的结果;
ei cls-remain1为在第i个索引的LATEX标签概念信息的影响下所保留的权重值ri lc与CLS标签向量ecls相乘得到的结果,表示原始习题文本在第i个索引的LATEX标签概念信息的影响下被保留的信息,简称为初步保留的信息ei cls-remain1;
步骤S43,原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信息的影响下最终被保留的信息ei cls-remain2,计算过程如公式(6)所示;
(6);
其中,ri tt为在第i个索引的术语类型信息的影响下所保留的权重值,表示sigmoid激活函数,输入为初步保留的信息ei cls-remain1 ,Wtt为对初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵,btt为偏置向量,[ei cls -remain1, />]为初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>进行拼接得到的结果;
ei cls-remain2则是初步保留的信息ei cls-remain1与ri tt相乘得到的门控筛选模块的最终输出,即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息,称为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2;
步骤S5,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签。
进一步的,步骤S5中预测模块,具体步骤为:
步骤S51,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2输入到带有sigmoid函数的线性层后,将得到最终的分类概率向量,如公式(7)所示;
(7);
其中,为sigmoid函数的线性层得到的第j个分类概率向量,sigmoid为激活函数,Wc为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2可学习的矩阵,bc偏置向量;
步骤S52,引入分类阈值δ,表示当前习题对应第j 个知识点标签,判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j 个知识点标签/>,如公式(8);
(8) ;
步骤S53,采用分布平衡损失以平衡各知识点标签之间的实例数量,具体损失函数的计算如公式(9)所示;
(9);
其中,LDB表示最后所求得的分布平衡损失,C表示知识点的总数,k表示数据集中的第k道习题,作为加权系数加入训练以弥补期待与实际采样概率之间的差距,yj k表示第k道习题对应第j个知识点的真实标记,yj k∈{0,1},log表示取对数,zj k表示第k道习题预测出第j个知识点的概率,vj是一种阶级特异性偏差,表示固有模型的偏差;λ是影响损失梯度的决定性因素,表示对分类概率zj k的“容忍”程度。
进一步的,一种融合LATEX标签的知识点自动标注模型,应用于所述的融合LATEX标签的知识点标注方法,主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块,句子编码器模块作为知识点自动标注模型的第一个模块,四个模块依次呈串行结构。
本发明的优点是:(1)本发明考虑到数学学科知识的表示具有公式化、表达精炼化等特殊性,故引入了两种更细化的学科知识,即LATEX标签概念和术语类型两者的信息,进而在构建的习题数据集分布失衡的情况下为大部分知识点的标注提供关键信息。
(2)本发明设计一种用于学科知识隐式融合的门控机制,以较少的参数保留原始习题文本表示中与两种学科知识相关的关键信息,从而减少特征融合时产生的噪声。
(3)融合学科知识的***衡损失以平衡各知识点标签之间的实例数量。
附图说明
图1为本发明的整体模型框架图。
具体实施方式
本发明构建了一个初中习题知识点标注数据集,首先,从人教版初中数学教材和试卷中采集文本,构建了一个初中习题知识点标注数据集,该数据集经过大量预处理操作以清洗和模板化习题题目,并由多位专家对习题进行多轮知识点标注,标注一致率达到96.02%。然后在该数据集上进行了详细实验,实验结果表明本发明所提的知识点自动标注模型:①在microF1,macroF2,weightedF1三个评价指标上较基准模型分别提升了1.99%,2.99%,2.12%;②对于训练实例较少的知识点,标注效果有所提升;③在基于不同预训练模型的四组基线对比实验中,测试的F1值(是一个用于评估分类模型性能的指标)都超过了所选的基线。
本发明的技术方案:一种融合LATEX标签的知识点标注方法,方法步骤如下:
步骤S1,数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集,习题数据集中的任意一道习题包含两部分,一部分为原始习题文本w,另一部分为真实标签Q;
步骤S2,将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原始习题文本表示e、LATEX标签概念表示elc和术语类型表示ett;
步骤S3,将步骤S2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制将LATEX标签概念表示elc和术语类型表示ett分别与原始***均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征,即LATEX标签概念的池化表示与术语类型的池化表示/>;
步骤S4,将步骤S3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术语类型信息的影响下最终被保留的信息,简称为最终保留的信息ecls-remain2;
步骤S5,将步骤S4中门控筛选模块输出的最终保留的信息 ecls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签。
进一步的,步骤S1中数据集构建,具体为:
步骤S11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点,共有四种题型包括选择题、填空题、解答题和判断题;
步骤S12,对收集的习题进行预处理,首先对习题进行去无效字符、去重、补全清洗操作,得到14200道习题;然后采用数学公式识别工具将以图片形式存在的公式识别成Word支持的公式格式;
步骤S13,预处理之后对***台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准;
步骤S14,经过习题预处理和知识点标注,最后得到包含12073道习题的数据集。
进一步的,步骤S13中对习题的知识点标注,具体为:
步骤S131,借助在线教育平台的习题查询功能找到习题对应的多个三级知识点;
步骤S132,通过查询知识点分级标准中与习题对应的一、二、三级知识点;
步骤S133,以在线教育平台所获的三级知识点为主,对从知识点分级标准中查询的三级知识点进行筛除,并从中查询三级知识点所属的一级和二级知识点;
步骤S134,借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断,对相似度大的标注结果进行统一,确保所标注的知识点不冗余;
步骤S135,根据初中数学教育专家提供的中考考纲,去除中考中不考察的知识点及对应习题。
进一步的,步骤S2中句子编码器模块,具体为:
步骤S21,句子编码器模块选取RoBERTa作为预训练语言模型,RoBERTa预训练语言模型是鲁棒优化的BERT方法,句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt,三者共享RoBERTa预训练语言模型的参数;
步骤S22,RoBERTa预训练语言模型作为函数,wi为第i个索引的原始习题文本,lci为第i个索引的LATEX标签概念文本,tti为第i个索引的术语类型文本,具体的计算过程如公式(1)所示;
(1);
其中,ei为第i个索引的原始习题文本wi经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的原始习题文本表示ei,ei lc为第i个索引的LATEX标签概念文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的LATEX标签概念表示ei lc,ei tt为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的术语类型表示ei tt;
步骤S23,提取最后一层自然语言处理领域的模型的输出作为文本词向量表示,文本词向量表示即第i个索引的原始习题文本表示ei、第i个索引的LATEX标签概念表示ei lc、第i个索引的术语类型表示ei tt。
进一步的,步骤S3中学科知识融合模块,具体为:
步骤S31,输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示;
步骤S32,利用交叉注意力机制将第i个索引的LATEX标签概念表示ei lc,第i个索引的术语类型表示ei tt分别与第i个索引的原始习题文本表示ei进行融合,输出结果为第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt;
步骤S33,同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示,引入多头注意力机制,最终的注意力计算过程如公式(2)、公式(3)所示;
(2);
(3);
其中,headij lc为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示,softmax作为一种激活函数,将输入的未归一化的分数转换为概率分布,Wj Q、Wj K、Wj V分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵,T为第i个索引的LATEX标签概念表示ei lc和键向量Wj K相乘的转置,dK为第i个索引的原始习题文本表示ei的第二维度大小;
headij tt为第i个索引的术语类型表示进行第j次注意力计算的特征表示;
Mi lc为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标签概念的深层语义表示,称为第i个索引的LATEX标签概念的深层语义表示Mi lc ,表示级联操作,h表示注意力计算次数;
Mi tt为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深层语义表示,称为第i个索引的术语类型的深层语义表示Mi tt;
步骤S34,提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子信息表示,对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt进行平均池化,并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征,计算如公式(4)所示;
(4);
其中,为对第i个索引的标签概念的深层语义表示进行平均池化后的结果,称为第i个索引的LATEX标签概念的池化表示/>,/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果,称为第i个索引的术语类型的池化表示/>;AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt平均池化的操作。
进一步的,步骤S4中门控筛选模块,具体为:
步骤S41,输入数据即第i个索引的LATEX标签概念的池化表示与第i个索引的术语类型的池化表示/>;
步骤S42,通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量(CLS标签向量用于表示整个序列或句子意义的特殊位置编码的向量,这里是用于替代原始习题文本的句子表示)ecls的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息,计算过程如公式(5)所示;
(5);
其中,ri lc为在第i个索引的LATEX标签概念信息的影响下所保留的权重值,为sigmoid激活函数,Wlc为对第i个索引的LATEX标签概念的池化表示/>和CLS标签向量ecls拼接后的可学习的矩阵,blc为偏置向量,[ecls, />]为对CLS标签向量ecls和第i个索引的LATEX标签概念的池化表示/>进行拼接得到的结果;
ei cls-remain1为在第i个索引的LATEX标签概念信息的影响下所保留的权重值ri lc与CLS标签向量ecls相乘得到的结果,表示原始习题文本在第i个索引的LATEX标签概念信息的影响下被保留的信息,简称为初步保留的信息ei cls-remain1;
步骤S43,原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信息的影响下最终被保留的信息ei cls-remain2,计算过程如公式(6)所示;
(6);
其中,ri tt为在第i个索引的术语类型信息的影响下所保留的权重值,表示sigmoid激活函数,输入为初步保留的信息ei cls-remain1 ,Wtt为对初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵,btt为偏置向量,[ei cls -remain1, />]为初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>进行拼接得到的结果;
ei cls-remain2则是初步保留的信息ei cls-remain1与ri tt相乘得到的门控筛选模块的最终输出,即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息,称为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2;
步骤S5,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签。
进一步的,步骤S5中预测模块,具体步骤为:
步骤S51,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2输入到带有sigmoid函数的线性层后,将得到最终的分类概率向量,如公式(7)所示;
(7);
其中,为sigmoid函数的线性层得到的第j个分类概率向量,sigmoid为激活函数,Wc为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2可学习的矩阵,bc偏置向量;
步骤S52,引入分类阈值δ,表示当前习题对应第j 个知识点标签,判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j个知识点标签/>,如公式(8);
(8) ;
步骤S53,采用分布平衡损失以平衡各知识点标签之间的实例数量,具体损失函数的计算如公式(9)所示;
(9);
其中,LDB表示最后所求得的分布平衡损失,C表示知识点的总数,k表示数据集中的第k道习题,作为加权系数加入训练以弥补期待与实际采样概率之间的差距,yj k表示第k道习题对应第j个知识点的真实标记,yj k∈{0,1},log表示取对数,zj k表示第k道习题预测出第j个知识点的概率,vj是一种阶级特异性偏差,表示固有模型的偏差;λ是影响损失梯度的决定性因素,表示对分类概率zj k的“容忍”程度。
进一步的,一种融合LATEX标签的知识点自动标注模型,应用于所述的融合LATEX标签的知识点标注方法,主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块,句子编码器模块作为知识点自动标注模型的第一个模块,四个模块依次呈串行结构。
图1的具体流程如下:首先,构造句子编码器模块所需的数据,从构建好的中学数学数据集中取出原始习题文本w,连同其习题的LATEX标签概念文本lc和术语类型文本tt这三者共同输入到句子编码器模块中并共享句子编码器模块的参数,经过句子编码器模块的处理后得到最后一层自然语言处理领域的模型(Transformer)的输出,将该输出作为文本词向量表示,包括LATEX标签概念表示elc,术语类型表示ett和原始习题文本表示e。
然后,将LATEX标签概念表示elc,术语类型表示ett和原始***均池化,分别得到LATEX标签概念的池化表示与术语类型的池化表示/>,并将LATEX标签概念的池化表示/>与术语类型的池化表示/>分别作为LATEX标签概念与术语类型最终的语义表征。
将LATEX标签概念的池化表示,术语类型的池化表示/>和CLS标签向量ecls输入到门控筛选模块。在这里,使用多个门控机制依次控制原始习题文本中应该保留的有效信息量。首先,通过一种作用于LATEX标签概念的池化表示/>和CLS标签向量ecls的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息;同理,另一种门控机制则是考虑术语类型信息的影响,保留句子表示中的关键信息。其中输入为上一个门控机制的输出,最终保留的信息ecls-remain2则作为门控筛选模块的最终输出。
分类器作为最后的预测模块,只需将门控筛选模块输出的最终保留的信息ecls -remain2输入到带有sigmoid激活函数的线性层即可得到第j个分类概率向量,并且引入阈值分类器,然后通过标器解码器最后得到预测的知识点。
由于本发明的数据集中大部分知识点标签拥有的***衡分布的情况极大地增加了多知识点标注任务的复杂性。故将分类概率向量与图1所示的***衡损失函数(Distribution-Balanced Loss for Multi-Label Classification in Long-TailedDatasets,DB_Loss)以平衡各知识点标签之间的实例数量,其中的损失是LDB。
知识点自动标注模型在实验时采用深度学习模型框架为PyTorch。原始习题、LATEX标签概念、术语类型的文本嵌入维度均为768维。相似度阈值设为0.95,多头注意力机制的头数设定为6,分类阈值δ为0.5,初始学习率设为0.00003。/>
Claims (4)
1.一种融合LATEX标签的知识点标注方法,其特征在于:方法步骤如下:
步骤S1,数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集,习题数据集中的习题称为原始习题文本w;
步骤S2,将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原始习题文本表示e、LATEX标签概念表示elc和术语类型表示ett;
步骤S3,将步骤S2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制将LATEX标签概念表示elc和术语类型表示ett分别与原始***均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征,即LATEX标签概念的池化表示与术语类型的池化表示/>;
步骤S4,将步骤S3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术语类型信息的影响下最终被保留的信息,简称为最终保留的信息ecls-remain2;
步骤S5,将步骤S4中门控筛选模块输出的最终保留的信息 ecls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签;
步骤S2中句子编码器模块,具体为:
步骤S21,句子编码器模块选取RoBERTa作为预训练语言模型,RoBERTa预训练语言模型是鲁棒优化的BERT方法,句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt,三者共享RoBERTa预训练语言模型的参数;
步骤S22,RoBERTa预训练语言模型作为函数,wi为第i个索引的原始习题文本,lci为第i个索引的LATEX标签概念文本,tti为第i个索引的术语类型文本,具体的计算过程如公式(1)所示;
(1);
其中,ei为第i个索引的原始习题文本wi经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的原始习题文本表示ei,ei lc为第i个索引的LATEX标签概念文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的LATEX标签概念表示ei lc,ei tt为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的术语类型表示ei tt;
步骤S23,提取最后一层自然语言处理领域的模型的输出作为文本词向量表示,文本词向量表示即第i个索引的原始习题文本表示ei、第i个索引的LATEX标签概念表示ei lc、第i个索引的术语类型表示ei tt;
步骤S3中学科知识融合模块,具体为:
步骤S31,输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示;
步骤S32,利用交叉注意力机制将第i个索引的LATEX标签概念表示ei lc,第i个索引的术语类型表示ei tt分别与第i个索引的原始习题文本表示ei进行融合,输出结果为第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt;
步骤S33,同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示,引入多头注意力机制,最终的注意力计算过程如公式(2)、公式(3)所示;
(2);
(3);
其中,headij lc为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示,softmax作为一种激活函数,将输入的未归一化的分数转换为概率分布,Wj Q、Wj K、Wj V分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵,T为第i个索引的LATEX标签概念表示ei lc和键向量Wj K相乘的转置,dK为第i个索引的原始习题文本表示ei的第二维度大小;
headij tt为第i个索引的术语类型表示进行第j次注意力计算的特征表示;
Mi lc为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标签概念的深层语义表示,称为第i个索引的LATEX标签概念的深层语义表示Mi lc ,表示级联操作,h表示注意力计算次数;
Mi tt为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深层语义表示,称为第i个索引的术语类型的深层语义表示Mi tt;
步骤S34,提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子信息表示,对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt进行平均池化,并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征,计算如公式(4)所示;
(4);
其中,为对第i个索引的标签概念的深层语义表示进行平均池化后的结果,称为第i个索引的LATEX标签概念的池化表示/>,/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果,称为第i个索引的术语类型的池化表示/>;AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示Mi lc和第i个索引的术语类型的深层语义表示Mi tt平均池化的操作;
步骤S4中门控筛选模块,具体为:
步骤S41,输入数据即第i个索引的LATEX标签概念的池化表示与第i个索引的术语类型的池化表示/>;
步骤S42,通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量ecls的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息,计算过程如公式(5)所示;
(5);
其中,ri lc为在第i个索引的LATEX标签概念信息的影响下所保留的权重值,为sigmoid激活函数,Wlc为对第i个索引的LATEX标签概念的池化表示/>和CLS标签向量ecls拼接后的可学习的矩阵,blc为偏置向量,[ecls, />]为对CLS标签向量ecls和第i个索引的LATEX标签概念的池化表示/>进行拼接得到的结果;
ei cls-remain1为在第i个索引的LATEX标签概念信息的影响下所保留的权重值ri lc与CLS标签向量ecls相乘得到的结果,表示原始习题文本在第i个索引的LATEX标签概念信息的影响下被保留的信息,简称为初步保留的信息ei cls-remain1;
步骤S43,原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信息的影响下最终被保留的信息ei cls-remain2,计算过程如公式(6)所示;
(6);
其中,ri tt为在第i个索引的术语类型信息的影响下所保留的权重值,表示sigmoid激活函数,输入为初步保留的信息ei cls-remain1 ,Wtt为对初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵,btt为偏置向量,[ei cls-remain1, />]为初步保留的信息ei cls-remain1和第i个索引的术语类型的池化表示/>进行拼接得到的结果;
ei cls-remain2则是初步保留的信息ei cls-remain1与ri tt相乘得到的门控筛选模块的最终输出,即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息,称为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2;
步骤S5,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签;
步骤S5中预测模块,具体步骤为:
步骤S51,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2输入到带有sigmoid函数的线性层后,将得到最终的分类概率向量,如公式(7)所示;
(7);
其中,为sigmoid函数的线性层得到的第j个分类概率向量,sigmoid为激活函数,Wc为第i个索引的学科知识信息影响下的最终保留的信息ei cls-remain2可学习的矩阵,bc为偏置向量;
步骤S52,引入分类阈值δ,表示当前习题对应第j 个知识点标签,判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j 个知识点标签/>,如公式(8);
(8);
步骤S53,采用分布平衡损失以平衡各知识点标签之间的实例数量,具体损失函数的计算如公式(9)所示;
(9);
其中,LDB表示最后所求得的分布平衡损失,C表示知识点的总数,k表示数据集中的第k道习题,作为加权系数加入训练以弥补期待与实际采样概率之间的差距,yj k表示第k道习题对应第j个知识点的真实标记,yj k∈{0,1},log表示取对数,zj k表示第k道习题预测出第j个知识点的概率,vj是一种阶级特异性偏差,表示固有模型的偏差;λ是影响损失梯度的决定性因素,表示对分类概率zj k的“容忍”程度。
2.根据权利要求1所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S1中数据集构建,具体为:
步骤S11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点,共有四种题型包括选择题、填空题、解答题和判断题;
步骤S12,对收集的习题进行预处理,首先对习题进行去无效字符、去重、补全清洗操作,得到14200道习题;然后采用数学公式识别工具将以图片形式存在的公式识别成Word支持的公式格式;
步骤S13,预处理之后对***台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准;
步骤S14,经过习题预处理和知识点标注,最后得到包含12073道习题的数据集。
3.根据权利要求2所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S13中对习题的知识点标注,具体为:
步骤S131,借助在线教育平台的习题查询功能找到习题对应的多个三级知识点;
步骤S132,通过查询知识点分级标准中与习题对应的一、二、三级知识点;
步骤S133,以在线教育平台所获的三级知识点为主,对从知识点分级标准中查询的三级知识点进行筛除,并从中查询三级知识点所属的一级和二级知识点;
步骤S134,借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断,对相似度大的标注结果进行统一,确保所标注的知识点不冗余;
步骤S135,根据初中数学教育专家提供的中考考纲,去除中考中不考察的知识点及对应习题。
4.一种融合LATEX标签的知识点自动标注模型,应用于权利要求1-3任意一项所述的融合LATEX标签的知识点标注方法,其特征在于:主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块,句子编码器模块作为知识点自动标注模型的第一个模块,四个模块依次呈串行结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311834982.XA CN117473096B (zh) | 2023-12-28 | 2023-12-28 | 一种融合latex标签的知识点标注方法及其模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311834982.XA CN117473096B (zh) | 2023-12-28 | 2023-12-28 | 一种融合latex标签的知识点标注方法及其模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117473096A CN117473096A (zh) | 2024-01-30 |
CN117473096B true CN117473096B (zh) | 2024-03-15 |
Family
ID=89638326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311834982.XA Active CN117473096B (zh) | 2023-12-28 | 2023-12-28 | 一种融合latex标签的知识点标注方法及其模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473096B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299281A (zh) * | 2018-07-06 | 2019-02-01 | 浙江学海教育科技有限公司 | 知识点标签的标注方法 |
JP2020161111A (ja) * | 2019-03-27 | 2020-10-01 | ワールド ヴァーテックス カンパニー リミテッド | 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法 |
CN112580361A (zh) * | 2020-12-18 | 2021-03-30 | 蓝舰信息科技南京有限公司 | 基于统一注意力机制的公式及文字识别模型方法 |
CN113420543A (zh) * | 2021-05-11 | 2021-09-21 | 江苏大学 | 基于改进Seq2Seq模型的数学试题自动标注方法 |
CN116244445A (zh) * | 2022-12-29 | 2023-06-09 | 中国航空综合技术研究所 | 航空文本数据标注方法及其标注*** |
CN116578665A (zh) * | 2022-12-29 | 2023-08-11 | 成都索贝数码科技股份有限公司 | 基于提示学习的可扩展文本信息联合抽取方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2596600C2 (ru) * | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
-
2023
- 2023-12-28 CN CN202311834982.XA patent/CN117473096B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299281A (zh) * | 2018-07-06 | 2019-02-01 | 浙江学海教育科技有限公司 | 知识点标签的标注方法 |
JP2020161111A (ja) * | 2019-03-27 | 2020-10-01 | ワールド ヴァーテックス カンパニー リミテッド | 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法 |
CN112580361A (zh) * | 2020-12-18 | 2021-03-30 | 蓝舰信息科技南京有限公司 | 基于统一注意力机制的公式及文字识别模型方法 |
CN113420543A (zh) * | 2021-05-11 | 2021-09-21 | 江苏大学 | 基于改进Seq2Seq模型的数学试题自动标注方法 |
CN116244445A (zh) * | 2022-12-29 | 2023-06-09 | 中国航空综合技术研究所 | 航空文本数据标注方法及其标注*** |
CN116578665A (zh) * | 2022-12-29 | 2023-08-11 | 成都索贝数码科技股份有限公司 | 基于提示学习的可扩展文本信息联合抽取方法及设备 |
Non-Patent Citations (3)
Title |
---|
Improved Chinese Word Segmentation Algorithm of Quantitative Units in Elementary Mathematics Application Problems;Mingwen Wang 等;《 2021 7th Annual International Conference on Network and Information Systems for Computers (ICNISC)》;20220408;493-9 * |
一种基于集成学习的试题多知识点标注方法;郭崇慧;吕征达;;运筹与管理;20200225(02);133-140 * |
基于依存结构学习的中学数学术语鲁棒抽取;罗文兵 等;《 中文信息学报》;20231214;75-85 * |
Also Published As
Publication number | Publication date |
---|---|
CN117473096A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273490B (zh) | 一种基于知识图谱的组合错题推荐方法 | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN106469560B (zh) | 一种基于无监督域适应的语音情感识别方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及*** | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112784013B (zh) | 一种基于上下文语义的多粒度文本推荐方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN113420543A (zh) | 基于改进Seq2Seq模型的数学试题自动标注方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及*** | |
CN114722833A (zh) | 一种语义分类方法及装置 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN117034921B (zh) | 一种基于用户数据的提示学习训练方法、装置和介质 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN117473096B (zh) | 一种融合latex标签的知识点标注方法及其模型 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN116362247A (zh) | 一种基于mrc框架的实体抽取方法 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN113505603A (zh) | 适用于司法考试主观题的多任务学习智能阅卷方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |