CN113793239B - 融合学习行为特征的个性化知识追踪方法与*** - Google Patents
融合学习行为特征的个性化知识追踪方法与*** Download PDFInfo
- Publication number
- CN113793239B CN113793239B CN202110928810.3A CN202110928810A CN113793239B CN 113793239 B CN113793239 B CN 113793239B CN 202110928810 A CN202110928810 A CN 202110928810A CN 113793239 B CN113793239 B CN 113793239B
- Authority
- CN
- China
- Prior art keywords
- vector
- sequence
- learning behavior
- answer
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 202
- 230000009467 reduction Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000009849 deactivation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 claims 1
- 238000013139 quantization Methods 0.000 abstract description 2
- 239000002131 composite material Substances 0.000 abstract 1
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合学习行为特征的个性化知识追踪方法与***,利用卷积神经网络提取学习行为和答题结果数据组成的复合向量中的有效特征;并通过降噪自编码器提取包含知识点在内的题目信息特征,最终将学习行为特征与题目信息特征相结合,经过LSTM网络和全连接层,获得学生对知识的掌握程度状态。在建模过程中,本发明融合了学生在学习过程中的一系列学习行为特征和习题本身及知识点的丰富信息,更准确地预测了每位学生的知识掌握程度。本发明可应用于混合式教学,为个性化教学提供量化依据。
Description
技术领域
本发明涉及混合式教学的技术领域,尤其是指一种融合学习行为特征的个性化知识追踪方法与***。
背景技术
混合式教学是线上线下教学模式的深度融合。目前,信息技术的快速发展使混合式教学模式越来越多地应用到教学当中,混合式教学不仅保留师生面对面交流的机会,同时还最大限度突破了时空限制,学***台进行课前预***台上留下了痕迹,产生了学***台会提供可视化窗口、日志等形式来展示这些数据的统计特征,但是缺乏对这些数据的深入分析和挖掘,无法为个性化学习提供直接的依据。
事实上,混合式教学的一大好处就是促进学生的个性化学习。如果可以利用上述数据为每一个学生出具量化的知识掌握报告,无疑可为个性化学习提供量化依据,减少盲目性。
知识追踪(Knowledge Tracing,KT)的任务是基于时间序列对学生的知识进行建模,以便能够准确地预测其在未来交互中的表现。目前主要的研究方向是将深度学***台普遍发展之前,学生学***台的迅速发展,丰富的学习日志数据使得研究者有条件进行深入研究。
发明内容
本发明的第一目的在于克服现有的知识追踪模型和方法大部分仅考虑了题目和答题结果特征,而忽略了学生在学习过程中的学习行为特征对知识达成度的影响(实际上,这些行为特征更多地刻画了学生的学习态度、学习方法和付出的努力,直接影响了知识点的掌握),提出了一种融合学习行为特征的个性化知识追踪方法,可以预测学生对知识点的掌握情况,将学习行为特征融入到知识追踪中,综合了学习行为特征、习题文本以及知识点对作答的影响,更准确地预测学生对知识点的掌握程度。
本发明的第二目的在于提供一种融合学习行为特征的个性化知识追踪***。
本发明的第一目的通过下述技术方案实现:融合学习行为特征的个性化知识追踪方法,包括以下步骤:
S1、获取教学过程中学生的学***台上的学习活动产生的数据;获取的作答数据包括学生作答的习题和作答结果;
S2、对获取到的学习行为特征数据和作答数据进行预处理,得到相应序列;其中,对于学习行为特征数据,需要先进行清洗,再进行标准归一化处理得到原始学习行为特征向量;对于作答数据,需要从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
S3、使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;将习题文本序列和习题相关知识点序列进行拼接,再输入到降噪自编码器,得到习题编码向量;
S4、对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
S5、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
进一步,在步骤S1,从包括MOOC和雨课堂在内的在线教学平台中,分教学单元来获取学生的学习行为特征数据和作答数据;其中,以一个教学单元为一个阶段来统计学生学习行为特征。
进一步,所述步骤S2包括以下步骤:
S201、对学习行为特征数据进行清洗,将选取出来的特征缺失超过80%的学生个体剔除,部分学习行为特征根据原始学习行为特征进行简单数值运算,提取更能反应学生学生状态的学习行为特征;
S202、对清洗后的学***衡,得到每个学生的原始学习行为特征向量,记为F,表示如下:
其中,n为学生个数,c为课程章节数,N*表示正整数,表示第n个学生在第c个单元中的学习行为向量,/>能够具体描述为{b1,b2,…,bfk},bfk表示第n个学生在第c个单元中的某一个学习行为特征,统计的学习行为特征总共有fk个;
提取学生的习题文本序列,记为Q;对作答数据按学生序号进行排序,然后将同一学生在同一单元中的答题记录按答题的先后顺序进行拼接成一条记录,然后使用一个标准化单元来统一数据的表现形式,形式化表示如下:
其中,表示第n个学生做了第tn道习题,每个学生的答题量或每个单元的题量可能会不相同,分别记为(t1,t2,…,tn),tn表示第n个学生的答题量;
提取习题相关知识点序列,记为K;根据作答数据和提取到的学生习题作答系列以及习题与知识点间的对应关系,获取每个学生作答的习题相关知识点序列,形式化表示如下:
其中,表示第n个题目中包含第sn个知识点,每个题目包含的知识点数量不同,分别记为(s1,s2,…,sn);
提取学生作答结果序列,记为A;根据作答数据和提取到的学生习题作答系列,获取每个学生的作答结果序列,形式化表示如下:
其中,表示第n个学生在第tn道习题上的作答结果,为正确或错误。
进一步,所述步骤S3包括以下步骤:
S301、使用独热编码规则对作答结果序列进行编码,1代表作答正确,0代表作答错误,得到作答结果向量,将学生学习行为特征和作答结果向量构造成二维向量,将习题文本序列和习题相关知识点序列进行序列拼接,再输入到降噪自编码器,得到习题编码向量,具体步骤如下:
S3011、对习题文本进行预处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列;
S3012、将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量;
S3013、将词向量输入到降噪自编码器中,重构得到习题编码向量;降噪自编码器是由多层前馈神经网络构成,其中包括编码层、隐藏层和解码层,以隐藏层为界限,左边为编码器,右边为解码器,降噪自编码器经过解码器解码能够还原出文本的原始信息,在这个过程中,隐藏层通过使用更少的神经元来捕获文本的隐式描述,是文本更抽象的低维信息表示,在可解释性上分析,隐藏层提取了文本的主题信息;其中,每层前馈神经网络的权重是根据高斯分布进行随机初始化;
所述编码层是用于将词向量输入映射到低维空间,具体表示为:
h=f(wTx'+d)
其中,h表示编码后的习题特征,x'表示词向量的有噪声版本,wT为编码层输入的权值矩阵,d为编码层偏置项,f(·)是一个element-wide映射函数,该映射函数包括恒等函数f(g)=g或sigmoid函数f(x)=1/(1+e(-x));
所述解码层是用于从噪声数据中重构原始的输入数据,具体表示为:
其中,为经过降噪编码器重构后的习题编码向量,参数w'T为解码层输入的权值矩阵,d'为解码层偏置项,g(·)是一个element-wise映射函数;
S302、基于卷积神经网络进行特征学习,卷积层使用多个不同大小的卷积核来提取多组局部特征,通过卷积操作后的输出为:
co=fr(wd*xi,i+cw-1+br)
其中,*表示卷积层计算中的卷积操作,wd为共享权重参数,cw为滑动窗口大小,x为指窗口大小的学习行为特征和作答结果向量组成的二维向量,br为偏置项,fr为激活函数;
S303、对卷积层提取出来的特征进行最大池化操作,然后通过全连接层的softmax函数对特征进行计算,从而根据计算出的概率值提取出影响作答结果的学习行为特征向量。
进一步,所述步骤S4包括以下步骤:
S401、将学习特征向量、习题编码向量和作答结果向量进行向量拼接,得到每个学生的影响作答结果的特征集合;
S402、对影响作答结果的特征集合进行交叉,并在此基础上进行特征级联,使用自编码器对特征向量进行降维,得到答题记录向量。
进一步,所述步骤S5包括以下步骤:
S501、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量;模型间传递公式如下:
it=σ(Wrirt+Uriht-1+bi)
ft=σ(Wrfrt+Urfht-1+bf)
ct=ft*ct-1+it*Tanh(Wrcrt+Urcht-1)
ot=σ(Wrort+Uroht-1+bo)
ht=ot*Tanh(ct)
其中,it、ft、ot、ct分别表示LSTM中的输入门、遗忘门、输出门和记忆单元,ht为当前层的隐向量输出,rt为t时刻的输入,Uriht-1、Urfht-1、Urcht-1、Uroht-1分别代表相应门的上一时刻的隐向量的ht-1权重,Wri、Wrf、Wrc、Wro分别代表相应门的权重,bi、bf、bo分别代表相应门的偏置,σ为激活函数;
S502、将对应时刻的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量Kt,表示如下:
Kt=σ(wkot+bk)
其中,wk、bk是待学习的参数;
在训练过程中采用的是交叉熵损失函数L,公式如下:
其中,qt+1表示学生在t+1时刻回答的习题,at+1表示t+1时刻回答的习题的正确与否,δ表示降维后的独热编码格式,l为交叉熵函数,yt T表示t时刻的输出。
本发明的第二目的通过下述技术方案实现:融合学习行为特征的个性化知识追踪***,包括:
数据预处理单元,用于准备输入数据集;首先对学***衡,得到每个学生的原始学习行为特征向量,并从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
学习行为特征提取单元,用于提取影响作答结果的学习行为特征;使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;
习题信息提取单元,用于获取题目文本及所包含知识点的信息;通过对习题文本进行处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列,将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量,将词向量输入到降噪自编码器中,重构得到习题编码向量;
特征降维单元,用于对获取到的特征集合进行降维;对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
知识追踪训练单元,用于训练知识追踪模型,预测学生对知识点的掌握情况;将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
本发明与现有技术相比,具有如下优点与有益效果:
本发明融合了学生在学习过程中的学习行为特征,充分考虑了学生在学习过程中个人学习习惯以及状态变化对学习效果的影响,并且使用卷积神经网络自动学习这些数据对其知识掌握的影响,同时综合考虑学习行为特征、习题文本和习题知识点信息,全方面准确地预测每位学生的知识掌握程度,对混合式教学有重要的应用价值,例如在实际教学中可以使用该模型预测学生对学习内容的掌握程度,为学习者提供个性化的学习推荐。本发明可应用于混合式教学,为个性化教学提供量化依据,值得推广。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为本发明***的架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例所提供的融合学习行为特征的个性化知识追踪方法,包括以下步骤:
S1、获取教学过程中学生的学***台上的学习活动产生的数据;获取的作答数据包括学生作答的习题和作答结果;具体如下:
从包括MOOC和雨课堂在内的在线教学平台中,分教学单元来获取学生的学习行为特征数据和作答数据;其中,以一个教学单元为一个阶段来统计学生学习行为特征。
S2、对获取到的学习行为特征数据和作答数据进行预处理,得到相应序列;其中,对于学习行为特征数据,需要先进行清洗,再进行标准归一化处理得到原始学习行为特征向量;对于作答数据,需要从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列。具体步骤如下:
S201、对学***均每次视频观看时长。
S202、考虑到学***衡,得到每个学生的原始学习行为特征向量,记为F,表示如下:
其中,n为学生个数,c为课程章节数,N*表示正整数,表示第n个学生在第c个单元中的学习行为向量,/>可具体描述为{b1,b2,…,bfk},bfk表示第n个学生在第c个单元中的某一个学习行为特征,统计的学习行为特征总共有fk个。
提取学生的习题文本序列,记为Q。对作答数据按学生序号进行排序,然后将同一学生在同一单元中的答题记录按答题的先后顺序进行拼接成一条记录,,然后使用一个标准化单元来统一数据的表现形式。形式化表示如下:
其中,表示第n个学生做了第tn道习题,每个学生的答题量或每个单元的题量可能会不相同,分别记为(t1,t2,…,tn),tn表示第n个学生的答题量。
提取习题相关知识点序列,记为K。根据作答数据和提取到的学生习题作答系列以及习题与知识点间的对应关系,获取每个学生作答的习题相关的知识点序列,形式化表示如下:
其中,表示第n个题目中包含第sn个知识点,每个题目包含的知识点数量不同,分别记为(s1,s2,…,sn)。
提取学生作答结果序列,记为A。根据作答数据和提取到的学生习题作答系列,获取每个学生的作答结果序列,形式化表示如下:
其中,表示第n个学生在第tn道习题上的作答结果(正确或错误)。
S3、使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;将习题文本序列和习题相关知识点序列进行拼接,再输入到降噪自编码器,得到习题编码向量。具体步骤如下:
S301、使用独热编码规则对作答结果序列进行编码,1代表作答正确,0代表作答错误,得到作答结果向量,将学生学习行为特征和作答结果向量构造成二维向量,将习题文本序列和习题相关知识点序列进行序列拼接,再输入到降噪自编码器,得到习题编码向量,具体步骤如下:
S3011、对习题文本进行预处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列。
S3012、将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层。假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小为d*m的矩阵,此时题目中所包含的词汇可通过位序索引,得到相应的词向量(嵌入向量)。
S3013、将词向量输入到降噪自编码器中,重构得到习题编码向量。降噪自编码器是由多层前馈神经网络构成的,其中包括编码层、隐藏层和解码层,以隐藏层为界限,左边为编码器,右边为解码器,降噪自编码器经过解码器解码可以还原出文本的原始信息。在这个过程中,隐藏层通过使用更少的神经元来捕获文本的隐式描述,是文本更抽象的低维信息表示,在可解释性上分析,隐藏层提取了文本的主题信息。其中,每层前馈神经网络的权重是根据高斯分布进行随机初始化的。
所述编码层是用于将词向量输入映射到低维空间,具体表示为:
h=f(wTx'+d)
其中,h表示编码后的习题特征,x'表示词向量的有噪声版本,wT为编码层输入的权值矩阵,d为编码层偏置项,f(·)是一个element-wide映射函数,该映射函数包括恒等函数f(g)=g或sigmoid函数f(x)=1/(1+e(-x))。
所述解码层是用于从噪声数据中重构原始的输入数据,具体表示为:
其中,为经过降噪编码器重构后的习题编码向量,参数w'T为解码层输入的权值矩阵,d'为解码层偏置项,g(·)是一个element-wise映射函数。
S302、基于卷积神经网络进行特征学习,卷积层使用多个不同大小的卷积核来提取多组局部特征,通过卷积操作后的输出为:
co=fr(wd*xi,i+cw-1+br)
其中,*表示卷积层计算中的卷积操作,wd为共享权重参数,cw为滑动窗口大小,x为指窗口大小的学习行为特征和作答结果向量组成的二维向量,br为偏置项,fr为激活函数。
S303、对卷积层提取出来的特征进行最大池化操作,然后通过全连接层的softmax函数对特征进行计算,从而根据计算出的概率值提取出影响作答结果的学习行为特征向量。
S4、对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量。具体步骤如下:
S401、将学习特征向量、习题编码向量和作答结果向量进行向量拼接,得到每个学生的影响作答结果的特征集合。
S402、对影响作答结果的特征集合进行交叉,并在此基础上进行特征级联,使用自编码器对特征向量进行降维,得到答题记录向量。
S5、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。具体步骤如下:
S501、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量。模型间传递公式如下:
it=σ(Wrirt+Uriht-1+bi)
ft=σ(Wrfrt+Urfht-1+bf)
ct=ft*ct-1+it*Tanh(Wrcrt+Urcht-1)
ot=σ(Wrort+Uroht-1+bo)
ht=ot*Tanh(ct)
其中,其中,it、ft、ot、ct分别表示LSTM中的输入门、遗忘门、输出门和记忆单元,ht为当前层的隐向量输出,rt为t时刻的输入,Uriht-1、Urfht-1、Urcht-1、Uroht-1分别代表相应门的上一时刻的隐向量的ht-1权重,Wri、Wrf、Wrc、Wro分别代表相应门的权重,bi、bf、bo分别代表相应门的偏置,σ为激活函数。
S502、将对应时刻的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量Kt,表示如下:
Kt=σ(wkot+bk)
其中,wk、bk是待学习的参数。
在训练过程中采用的是交叉熵损失函数L,公式如下:
其中,qt+1表示学生在t+1时刻回答的习题,at+1表示t+1时刻回答的习题的正确与否,δ表示降维后的独热编码格式,l为交叉熵函数,yt T表示t时刻的输出。
实施例2
本实施例也公开了一种融合学习行为特征的个性化知识追踪***,如图2所示,该***包括以下功能单元:
数据预处理单元,用于准备输入数据集;首先对学***衡,得到每个学生的原始学习行为特征向量,并从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
学习行为特征提取单元,用于提取影响作答结果的学习行为特征;使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;
习题信息提取单元,用于获取题目文本及所包含知识点的信息;通过对习题文本进行处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列,将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量,将词向量输入到降噪自编码器中,重构得到习题编码向量;
特征降维单元,用于对获取到的特征集合进行降维;对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
知识追踪训练单元,用于训练知识追踪模型,预测学生对知识点的掌握情况;将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.融合学习行为特征的个性化知识追踪方法,其特征在于,包括以下步骤:
S1、获取教学过程中学生的学***台上的学习活动产生的数据;获取的作答数据包括学生作答的习题和作答结果;
S2、对获取到的学习行为特征数据和作答数据进行预处理,得到相应序列;其中,对于学习行为特征数据,需要先进行清洗,再进行标准归一化处理得到原始学习行为特征向量;对于作答数据,需要从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
S3、使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;将习题文本序列和习题相关知识点序列进行拼接,再输入到降噪自编码器,得到习题编码向量;包括以下步骤:
S301、使用独热编码规则对作答结果序列进行编码,1代表作答正确,0代表作答错误,得到作答结果向量,将学生学习行为特征和作答结果向量构造成二维向量,将习题文本序列和习题相关知识点序列进行序列拼接,再输入到降噪自编码器,得到习题编码向量,具体步骤如下:
S3011、对习题文本进行预处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列;
S3012、将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量;
S3013、将词向量输入到降噪自编码器中,重构得到习题编码向量;降噪自编码器是由多层前馈神经网络构成,其中包括编码层、隐藏层和解码层,以隐藏层为界限,左边为编码器,右边为解码器,降噪自编码器经过解码器解码能够还原出文本的原始信息,在这个过程中,隐藏层通过使用更少的神经元来捕获文本的隐式描述,是文本更抽象的低维信息表示,在可解释性上分析,隐藏层提取了文本的主题信息;其中,每层前馈神经网络的权重是根据高斯分布进行随机初始化;
所述编码层是用于将词向量输入映射到低维空间,具体表示为:
h=f(wTx'+d)
其中,h表示编码后的习题特征,x'表示词向量的有噪声版本,wT为编码层输入的权值矩阵,d为编码层偏置项,f(·)是一个element-wide映射函数,该映射函数包括恒等函数f(g)=g或sigmoid函数f(x)=1/(1+e(-x));
所述解码层是用于从噪声数据中重构原始的输入数据,具体表示为:
其中,为经过降噪编码器重构后的习题编码向量,参数w'T为解码层输入的权值矩阵,d'为解码层偏置项,g(·)是一个element-wise映射函数;
S302、基于卷积神经网络进行特征学习,卷积层使用多个不同大小的卷积核来提取多组局部特征,通过卷积操作后的输出为:
co=fr(wd*xi,i+cw-1+br)
其中,*表示卷积层计算中的卷积操作,wd为共享权重参数,cw为滑动窗口大小,x为指窗口大小的学习行为特征和作答结果向量组成的二维向量,br为偏置项,fr为激活函数;
S303、对卷积层提取出来的特征进行最大池化操作,然后通过全连接层的softmax函数对特征进行计算,从而根据计算出的概率值提取出影响作答结果的学习行为特征向量;
S4、对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
S5、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
2.根据权利要求1所述的融合学***台中,分教学单元来获取学生的学习行为特征数据和作答数据;其中,以一个教学单元为一个阶段来统计学生学习行为特征。
3.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,所述步骤S2包括以下步骤:
S201、对学习行为特征数据进行清洗,将选取出来的特征缺失超过80%的学生个体剔除,部分学习行为特征根据原始学习行为特征进行简单数值运算,提取更能反应学生学生状态的学习行为特征;
S202、对清洗后的学***衡,得到每个学生的原始学习行为特征向量,记为F,表示如下:
其中,n为学生个数,c为课程章节数,N*表示正整数,表示第n个学生在第c个单元中的学习行为向量,/>能够具体描述为{b1,b2,…,bfk},bfk表示第n个学生在第c个单元中的某一个学习行为特征,统计的学习行为特征总共有fk个;
提取学生的习题文本序列,记为Q;对作答数据按学生序号进行排序,然后将同一学生在同一单元中的答题记录按答题的先后顺序进行拼接成一条记录,然后使用一个标准化单元来统一数据的表现形式,形式化表示如下:
其中,表示第n个学生做了第tn道习题,每个学生的答题量或每个单元的题量可能会不相同,分别记为(t1,t2,…,tn),tn表示第n个学生的答题量;
提取习题相关知识点序列,记为K;根据作答数据和提取到的学生习题作答系列以及习题与知识点间的对应关系,获取每个学生作答的习题相关知识点序列,形式化表示如下:
其中,表示第n个题目中包含第sn个知识点,每个题目包含的知识点数量不同,分别记为(s1,s2,…,sn);
提取学生作答结果序列,记为A;根据作答数据和提取到的学生习题作答系列,获取每个学生的作答结果序列,形式化表示如下:
其中,表示第n个学生在第tn道习题上的作答结果,为正确或错误。
4.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,所述步骤S4包括以下步骤:
S401、将学习特征向量、习题编码向量和作答结果向量进行向量拼接,得到每个学生的影响作答结果的特征集合;
S402、对影响作答结果的特征集合进行交叉,并在此基础上进行特征级联,使用自编码器对特征向量进行降维,得到答题记录向量。
5.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,所述步骤S5包括以下步骤:
S501、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量;模型间传递公式如下:
it=σ(Wrirt+Uriht-1+bi)
ft=σ(Wrfrt+Urfht-1+bf)
ct=ft*ct-1+it*Tanh(Wrcrt+Urcht-1)
ot=σ(Wrort+Uroht-1+bo)
ht=ot*Tanh(ct)
其中,it、ft、ot、ct分别表示LSTM中的输入门、遗忘门、输出门和记忆单元,ht为当前层的隐向量输出,rt为t时刻的输入,Uriht-1、Urfht-1、Urcht-1、Uroht-1分别代表相应门的上一时刻的隐向量的ht-1权重,Wri、Wrf、Wrc、Wro分别代表相应门的权重,bi、bf、bo分别代表相应门的偏置,σ为激活函数;
S502、将对应时刻的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量Kt,表示如下:
Kt=σ(wkot+bk)
其中,wk、bk是待学习的参数;
在训练过程中采用的是交叉熵损失函数L,公式如下:
其中,qt+1表示学生在t+1时刻回答的习题,at+1表示t+1时刻回答的习题的正确与否,δ表示降维后的独热编码格式,l为交叉熵函数,yt T表示t时刻的输出。
6.融合学习行为特征的个性化知识追踪***,其特征在于,用于实现权利要求1-5任意一项所述的融合学习行为特征的个性化知识追踪方法,包括:
数据预处理单元,用于准备输入数据集;首先对学***衡,得到每个学生的原始学习行为特征向量,并从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
学习行为特征提取单元,用于提取影响作答结果的学习行为特征;使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;
习题信息提取单元,用于获取题目文本及所包含知识点的信息;通过对习题文本进行处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列,将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量,将词向量输入到降噪自编码器中,重构得到习题编码向量;
特征降维单元,用于对获取到的特征集合进行降维;对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
知识追踪训练单元,用于训练知识追踪模型,预测学生对知识点的掌握情况;将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928810.3A CN113793239B (zh) | 2021-08-13 | 2021-08-13 | 融合学习行为特征的个性化知识追踪方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928810.3A CN113793239B (zh) | 2021-08-13 | 2021-08-13 | 融合学习行为特征的个性化知识追踪方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793239A CN113793239A (zh) | 2021-12-14 |
CN113793239B true CN113793239B (zh) | 2023-12-19 |
Family
ID=79181650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110928810.3A Active CN113793239B (zh) | 2021-08-13 | 2021-08-13 | 融合学习行为特征的个性化知识追踪方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793239B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238613B (zh) * | 2022-02-22 | 2022-05-27 | 北京一起航帆科技有限公司 | 一种确定知识点掌握程度的方法、装置及电子设备 |
CN114997461B (zh) * | 2022-04-11 | 2024-05-28 | 安徽大学 | 一种联合学习与遗忘的时间敏感的答题正确性预测方法 |
CN114781710B (zh) * | 2022-04-12 | 2022-12-23 | 云南师范大学 | 一种综合学习过程及题目知识点难度特征的知识追踪方法 |
CN114971066A (zh) * | 2022-06-16 | 2022-08-30 | 兰州理工大学 | 融合遗忘因素和学习能力的知识追踪方法及*** |
CN116127048B (zh) * | 2023-04-04 | 2023-06-27 | 江西师范大学 | 融合习题和学习行为表征的顺序自注意力知识追踪模型 |
CN117291775B (zh) * | 2023-11-27 | 2024-03-01 | 山东多科科技有限公司 | 一种深度知识追踪的精准化教学方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428010A (zh) * | 2019-08-05 | 2019-11-08 | 中国科学技术大学 | 知识追踪方法 |
CN111831831A (zh) * | 2020-07-17 | 2020-10-27 | 广东金融学院 | 一种基于知识图谱的个性化学习平台及其构建方法 |
CN112182308A (zh) * | 2020-09-29 | 2021-01-05 | 华中师范大学 | 基于多热编码的多特征融合深度知识追踪方法及*** |
CN112800323A (zh) * | 2021-01-13 | 2021-05-14 | 中国科学技术大学 | 一种基于深度学习的智能教学*** |
CN112949935A (zh) * | 2021-03-26 | 2021-06-11 | 华中师范大学 | 融合学生知识点题目交互信息的知识追踪方法与*** |
CN112990464A (zh) * | 2021-03-12 | 2021-06-18 | 东北师范大学 | 一种知识追踪方法及*** |
-
2021
- 2021-08-13 CN CN202110928810.3A patent/CN113793239B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428010A (zh) * | 2019-08-05 | 2019-11-08 | 中国科学技术大学 | 知识追踪方法 |
CN111831831A (zh) * | 2020-07-17 | 2020-10-27 | 广东金融学院 | 一种基于知识图谱的个性化学习平台及其构建方法 |
CN112182308A (zh) * | 2020-09-29 | 2021-01-05 | 华中师范大学 | 基于多热编码的多特征融合深度知识追踪方法及*** |
CN112800323A (zh) * | 2021-01-13 | 2021-05-14 | 中国科学技术大学 | 一种基于深度学习的智能教学*** |
CN112990464A (zh) * | 2021-03-12 | 2021-06-18 | 东北师范大学 | 一种知识追踪方法及*** |
CN112949935A (zh) * | 2021-03-26 | 2021-06-11 | 华中师范大学 | 融合学生知识点题目交互信息的知识追踪方法与*** |
Non-Patent Citations (1)
Title |
---|
一种结合深度知识追踪的个性化习题推荐方法;马骁睿;徐圆;朱群雄;;小型微型计算机***(第05期);第96-101页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113793239A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113793239B (zh) | 融合学习行为特征的个性化知识追踪方法与*** | |
CN110379225B (zh) | 互动式语言习得的***和方法 | |
CN107608943B (zh) | 融合视觉注意力和语义注意力的图像字幕生成方法及*** | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN111159419B (zh) | 基于图卷积的知识追踪数据处理方法、***和存储介质 | |
Suresh et al. | Automating analysis and feedback to improve mathematics teachers’ classroom discourse | |
CN109145304B (zh) | 一种基于字的中文观点要素情感分析方法 | |
CN112257966B (zh) | 模型处理方法、装置、电子设备及存储介质 | |
CN112529155B (zh) | 动态知识掌握建模方法、建模***、存储介质及处理终端 | |
CN111291940A (zh) | 一种基于Attention深度学习模型的学生辍课预测方法 | |
CN111444432A (zh) | 领域自适应的深度知识追踪及个性化习题推荐方法 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及*** | |
CN113610235A (zh) | 一种基于深度知识追踪的适应性学习支持装置及方法 | |
CN112116137A (zh) | 一种基于混合深度神经网络的学生辍课预测方法 | |
CN112949935B (zh) | 融合学生知识点题目交互信息的知识追踪方法与*** | |
CN117390141B (zh) | 一种农业社会化服务质量用户评价数据分析方法 | |
CN114254127A (zh) | 学生能力画像方法、学习资源推荐方法及装置 | |
Cai | Automatic essay scoring with recurrent neural network | |
CN114881331A (zh) | 一种面向在线教育的学习者异常学习状态预测方法 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
CN115935969A (zh) | 基于多模态信息融合的异构数据特征提取方法 | |
CN114861754A (zh) | 一种基于外部注意力机制的知识追踪方法及*** | |
CN115080715A (zh) | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 | |
CN113283488B (zh) | 一种基于学习行为的认知诊断方法及*** | |
CN117473041A (zh) | 一种基于认知策略的编程知识追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |