CN114863341B - 一种在线课程学习监督方法及*** - Google Patents

一种在线课程学习监督方法及*** Download PDF

Info

Publication number
CN114863341B
CN114863341B CN202210535724.0A CN202210535724A CN114863341B CN 114863341 B CN114863341 B CN 114863341B CN 202210535724 A CN202210535724 A CN 202210535724A CN 114863341 B CN114863341 B CN 114863341B
Authority
CN
China
Prior art keywords
course
user
returning
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210535724.0A
Other languages
English (en)
Other versions
CN114863341A (zh
Inventor
马坤
张嘉轩
纪科
陈贞翔
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202210535724.0A priority Critical patent/CN114863341B/zh
Publication of CN114863341A publication Critical patent/CN114863341A/zh
Application granted granted Critical
Publication of CN114863341B publication Critical patent/CN114863341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/817Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术领域,提供了一种在线课程学习监督方法及***,包括:采集待监督用户的退课预测数据;对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;若退课概率超出设定值,则向待监督用户发送提醒信息;其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。提高了模型对不同数据的泛化能力,提高线课程学习监督的精度。

Description

一种在线课程学习监督方法及***
技术领域
本发明属于人工智能技术领域,尤其涉及一种在线课程学习监督方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
大规模开放在线课程(Massive Open Online Courses,简称MOOC)是一种“互联网+教育”的新模式。MOOC用户数量不断增长,但退课率高一直是在线教育难以解决的问题。在线课程退课率偏高表明大量用户在学习过程中没有完成课程就放弃学习,严重影响了用户的学习效果以及在线课程的有效实施。
现有在线课程学习监督方法方法在进行在线课程退课预测时,主要围绕特征提取和分类模型展开,现有的特征提取方法分为人工提取与自动提取。人工提取是指人为构造数据的数字统计特征,用于评估用户学习行为状态,缺点是耗费大量人力和时间;自动提取利用现有的机器学习、深度学习、词向量等模型提取退课特征。例如,卷积神经网络(CNN)被应用于自动提取退课特征,CNN由特征提取层和特征映射层组成,可以对原始特征进行卷积运算产生新的特征,但由于卷积核的限制,无法捕获长距离依赖关系;循环神经网络(RNN)可以捕捉退课预测数据中的时间序列,提取用户退课时间特征并表示为特征向量,但在学习长本文时存在梯度消失问题。Word2vec词向量模型基于词的维度对课程及视频序列进行上下文语义分析,但是忽略了序列的词序问题。Doc2vec词向量模型在Word2vec基础上增加了段落向量,弥补了这方面的不足。但Doc2vec只能捕捉课程间的语义关系,不能表达课程间的属性差异。
现有的在线课程学习监督方法方法中的在线课程退课预测分类模型分为机器学习模型和深度学习模型。机器学习模型包括逻辑回归、朴素贝叶斯分类器、支持向量机(SVM)、决策树等,其可解释性强,但当退课特征维度较高时分类效果较差。深度学习模型包括CNN、RNN、LSTM等模型,适用于处理高维特征,但当特征之间没有结构上的关联时,该模型拟合效果变差,影响分类效果。
目前,在线课程学习监督方法方法主要存在以下问题:
(1)用户退课数据包含了用户行为数据、课程信息数据以及视频信息数据,现有的特征提取方法在提取不同类型数据特征时效果较差,导致特征提取不充分。
(2)对于提取课程中的文本信息,现有词向量模型只能捕捉课程间的语义关系,无法表达课程间的属性差异。
(3)单一的分类模型在处理结构上没有关联的高维度特征时,分类效果较差,导致退课预测准确率低。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种在线课程学习监督方法及***,针对高维度退课特征,提出加权软投票集成分类模型,并通过遗传算法优化基分类器权重系数,提高模型对不同数据的泛化能力,提高线课程学习监督的精度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种在线课程学习监督方法,其包括:
采集待监督用户的退课预测数据;
对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;
若退课概率超出设定值,则向待监督用户发送提醒信息;
其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
进一步地,所述退课特征包括用户行为统计特征、用户所选的每个课程的差分特征、课程相似度特征、课程属性特征、视频属性特征和课程难度特征。
进一步地,所述用户行为统计特征包括用户对每门课程的总观看时长、用户观看每门课程的时长占总时长的比例和用户观看的不同视频间的观看间隔时长。
进一步地,所述课程属性特征的获取方法为:
采用词向量模型将用户的课程序列进行编码后,得到特征向量;
将所述特征向量与特征矩阵做注意力运算,计算得到注意力权重向量;
所述注意力权重向量与所述特征向量相乘,得到用户的课程属性特征。
进一步地,所述课程难度特征采用元学习策略模型得到;
所述元学习策略模型由基学习器和元学习器两层架构组成;
所述元学***均退课率,基于平均退课率构建拼接特征,基学习器学习拼接特征,建立非线性回归模型,预测初步课程难度值;
所述元学习器,学习基学习器预测的初步课程难度值,建立多元线性回归模型,由多元线性回归模型得到课程难度特征。
进一步地,所述遗传算法以各基分类器的预测值的加权和与真实值的均方误差作为适应度函数,并以权重之和等于1为约束条件。
本发明的第二个方面提供一种在线课程学习监督***,其包括:
数据采集模块,其被配置为:采集待监督用户的退课预测数据;
退课预测模块,其被配置为:对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;
用户提醒模块,其被配置为:若退课概率超出设定值,则向待监督用户发送提醒信息;
其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
进一步地,所述遗传算法以各基分类器的预测值的加权和与真实值的均方误差作为适应度函数,并以权重之和等于1为约束条件。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种在线课程学习监督方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种在线课程学习监督方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种在线课程学习监督方法,其提出多模式特征提取方法,转换不同研究对象从多个维度提取退课特征,提高退课特征维度,提高退课预测模型的抗过拟合能力。
本发明提供了一种在线课程学习监督方法,其提出课程难度表示方法,构建元学习策略模型,该模型通过计算课程难度值,增强原始课程特征,提高特征的表示能力。
本发明提供了一种在线课程学习监督方法,其针对高维度退课特征,提出加权软投票集成分类模型(XLCR-SV),并通过遗传算法优化基分类器权重系数,提高模型对不同数据的泛化能力,提高退课预测准确率。
本发明提供了一种在线课程学习监督方法,其针对课程序列文本数据,提出AD-sequence模型,优化了课程序列文本特征提取方法,挖掘了课程的语义特征以及课程序列中隐含的属性特征。
本发明提供了一种在线课程学习监督方法,其采用数据挖掘技术和深度学习模型替代人工提取特征方法,实现自动提取退课特征,更加准确的学习用户退课行为,并将退课率偏高的用户筛选出来,最后通过邮件发送机制提醒用户观看课程,挽留用户,降低MOOC退课率。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的在线课程学习监督方法流程图;
图2是本发明实施例一的AD-sequence模型结构图;
图3是本发明实施例一的课程难度表示方法框架图;
图4是本发明实施例一的分类器训练模型图;
图5是本发明实施例二的***模块图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种在线课程学习监督方法,如图1所示,具体包括以下步骤:
步骤1、采集待监督用户的退课预测数据,采集训练集中每个用户的退课预测数据。
其中,训练集中每个用户已经完成了课程视频,这里的完成是指用户观看了课程中的全部视频,或观看了课程中的部分视频后进行了退课;待监督用户已经观看了课程中的部分视频,还没有退课。
采集后的退课预测数据分为:课程序列、视频序列和用户行为数据。课程序列为用户所选课程的课程ID集合,课程ID为字符串类型,示例为course-v1:JXUST+JXUST2016001+2016_T2,其中隐含了学校来源、课程编号、课程发布时间以及课程类型等属性特征;视频序列为每门课程对应的视频ID集合,视频ID格式为字符串类型;用户行为数据包括:视频观看序列(即按照用户观看视频的先后顺序对视频进行排列)、watching_count(用户对每个视频观看次数)、video_duration(每个视频总长度)、local_watching_time(用户对每个视频的实际观看时长)、video_progress_time(用户对每个视频考虑倍速后的播放时长)、video_start_time(用户观看视频的最早时间点)、video_end_time(用户观看视频的最晚时间点)、local_starrt_time(用户对每个视频的实际观看开始时间)、local_end_time(用户对每个视频的实际观看结束时间)。
步骤2、数据预处理:对在线课程退课预测数据进行数据清洗、数据重构。
为了便于特征提取,需要规范化数据格式。
数据清洗即标准化数据格式:将数据集中的换行更换为逗号分隔符,并对括号做规范化处理,并且用0填充缺失值。
数据重构是指对所有用户的课程ID以及视频ID进行LabelEncoder编码,将字符串类型数据转换为数值类型,而后根据用户与课程的所属关系以及课程与所属视频的关系建立用户-课程-视频链式关系。
步骤3:特征提取:对于某一个待监督用户user,通过特征提取,其观看课程的行为被整理为多维的数值特征(退课特征)Guser,其中Guser={g1,g2...,gm},其中,m为数值特征的维度,gi表示第i维的退课特征,Guser包括用户行为统计特征、用户所选的每个课程的差分特征、课程相似度特征、课程属性特征、视频属性特征、用户所选的每个课程的难度特征。对于训练集中的用户user,除了退课特征Guser,还需要获取该用户的退课标签yuser,yuser=0(不退课)或1(退课),得到训练集中用户的退课特征和退课标签。具体步骤:首先,针对用户行为信息,提出多模式特征提取方法,对用户、视频、用户与课程的关系三种不同对象分别构造退课特征;其次,针对课程及视频序列,构建课程序列表示模型AD-sequence,建立词向量模型,提取课程文本序列特征,引入注意力机制,挖掘课程序列的隐藏属性特征;最后,提出课程难度表示方法,构建元学习策略模型,对原始特征(该特征指用户行为特征、差分特征、课程相似度特征和课程及视频属性特征的组合)进行特征增强。
步骤301:多模式特征提取方法构造退课特征:针对用户对象,构造用户行为统计特征;针对视频对象,构造视频索引序列,而后视频索引序列的所有元素相邻两项作差计算视频索引序列的差分特征;针对用户与课程的关系,通过余弦相似度函数计算用户与所有课程的相似度值,该相似度值用以评估课程之间的相似性,得到课程相似度特征。多模式特征提取方法从不同研究对象分别构造退课特征,并统计特征的最大值、最小值、平均值、方差等。具体,分为以下3个子步骤:
步骤30101:根据用户行为数据构造用户行为统计特征,由原有特征作差、作比、累加求和等运算构造用户对每门课程的总观看时长、用户观看每门课程的时长占总时长的比例、用户观看的不同视频间的观看间隔时长等用户观看视频的行为特征(用户行为统计特征);
步骤30102:差分特征(包括一阶差分特征和二阶差分特征)表示视频在课程中的位置特征以及视频间隔密度特征。首先,计算用户观看某一课程k的所有视频的索引位置X(k),X(k)=(k1,k2,...,kv),其中,ki表示用户对某一课程k的视频观看序列中的第i个视频在相应课程的视频序列中的索引位置,i=1,2,…,v,v表示用户观看某一课程中的视频的个数,比如在第一个课程视频序列中,1-1表示第一个课程中的第1个视频、1-2表示第一个课程中的第2个视频,1-2在1-1的下一个视频位置。之后计算X(k)的一阶差分特征Y(k),Y(k)=X(k+1)-X(k)=(0,k2-k1,k3-k2,...,kv-kv-1),进而计算二阶差分特征Z(k)=Y(k+1)-Y(k)=X(k+2)-2X(k+1)+X(k)。X(k)、Y(k)和Z(k)反映用户对该课程的喜爱程度,并且一阶差分特征Y(k)和二阶差分特征Z(k)描述了视频间的连贯性(如用户看了某课程的第1个视频后直接跳跃观看了第5个视频,连贯性较差)。
步骤30103:课程相似度特征是指同一个用户下的课程之间的相似度。课程相似度特征需要先得到用户及其所选课程的向量化表示,利用余弦相似度计算方法计算用户与所选课程之间的相似度值,用以评估课程之间的关联性,所有课程的相似度值通过余弦相似度公式计算为similarity,设置阈值为0.05,当课程之间的相似度值similarity在0.05以内,则判定两个课程相似,用户对于这些课程具有相似的退课行为,具体过程如下:
首先,将用户ID及对应的课程序列输入到Doc2vec词向量模型中训练,向量化用户ID及课程序列为r维向量,某一用户的向量化表示D=(d1,d2,…,dr)以及用户所选课程的向量化表示 其中,D指的是某一个用户ID被表示为r维的向量;Ci表示用户选取的第i个课程的向量化表示(1≤i≤Q),Q为用户所选课程数量。
其次,使用余弦相似度算法计算用户与各个课程的关系值,得到各个课程的关系值,如果关系值相近,则课程之间具有相似性,为公式化表示,设定某当前课程为θ(1≤θ≤Q),公式如下:
最后,将计算的相似度值加入到原始特征中,扩充特征维度。
步骤302:课程序列表示模型AD-sequence:设长度为len的课程序列S={s1,s2,…,slen},其中隐含了学校来源、课程编号、课程发布时间以及课程类型属性特征,首先通过词向量模型提取语义特征,其为课程ID的语义特征,原始课程序列经过词向量模型训练编码后,课程ID分别被表示为16维度的语义特征;而后引入注意力机制提取权重向量,进一步挖掘课程属性特征。
课程序列表示模型AD-sequence是提取课程序列特征的重要模型部分,该模型结构如图2所示,模型由Doc2vec词向量模型和注意力机制两部分组成,Doc2vec是一个三层的神经网络,用户ID作为段落向量,其课程序列或视频序列被表示为多个单词wi,最大化函数为其中,T指单词个数,I指wt的前后I个词(上下文),pro(wt-I,...,wt+I;w)为预测概率,模型的输出最终被表示为:y=b+Uh(wt-k,...,wt+k;w)。其中,U都是b函数的参数,W为词向量矩阵,h表示把上下文单词融合到一起的方法。经过训练将序列用户对应的课程及视频序列编码为向量特征。而后加入注意力机制进一步提取权重向量。设有K个用户,采用词向量模型将用户i(1≤i≤K,K表示待监督用户或训练集中包含的用户的总个数)的课程序列被编码为16维度的向量进行表示:αi=[p1,p2,…,p16],用户所选的所有课程的视频序列组成的组合视频序列被编码为βi=[q1,q2,…,q32]。全部用户的课程序列被表示为α=[α1,α2,…,αK],全部用户的视频序列为表示为β=[β1,β2,…,βK]。为了提取课程及视频序列中的属性特征,加入注意力机制突出序列中的重要位置,提取向量特征的权重向量,挖掘课程属性特征及视频属性特征。采用词向量模型将用户的课程序列进行编码后,得到特征向量;将特征向量与特征矩阵做注意力运算,计算得到注意力权重向量;注意力权重向量与所述特征向量相乘,得到用户的课程属性特征。具体步骤如下:
首先,在这里以课程序列为例,视频序列同理。αi记为featurei,代表当前匹配的特征向量,featurei=αi=[p1,p2,…,p16](1≤i≤K)。
其次,当前特征向量featurei与特征矩阵α作注意力运算,计算得到注意力权重向量weighti,计算方法如下:
weighti=∑ai·α
最后,特征向量featurei与权重向量weighti相乘,得到加权后的特征向量
加权特征向量相比原始特征向量featurei更具有课程及视频序列的表示能力,它可以捕捉课程或视频属性之间的关系,表示效果更好。
步骤303:提出课程难度表示方法,构建元学***均退课率,基于平均退课率构建拼接特征(将平均退课率与特征提取后的数据特征(用户行为特征、差分特征、课程相似度特征、课程及视频属性特征的组合特征)进行拼接),基学习器学习拼接后的特征,建立非线性回归模型,预测初步的课程难度值;第二层为元学习器,学习基学习器预测的初步课程难度值,建立多元线性回归模型,由多元线性回归模型计算出最终的课程难度值,得到课程难度特征,该课程难度值表示某个课程的难易程度,区间为[0,1],数值越大代表课程难度越高。
课程难度表示方法即以stacking方式连接基学***均退课率,此平均退课概率被标记为初始难度特征,通过基于stacking元学习策略的课程难度表示框架计算了课程难度特征,计算过程如图3所示。
首先,计算课程平均退课率P。基于训练集中的数据,统计每门课程的选课总人数和退课人数,退课人数与选课总人数的比值为该课程的平均退课率。
其次,平均退课率特征与原始特征(用户行为特征、差分特征、课程相似度特征、课程及视频属性特征的组合特征)拼接为训练特征,输入到集成框架第一层的非线性回归模型中训练,产生初步的课程难度特征。元学习预测模型。L1、L2、L3为三种非线性回归模型,三个基学习器分别输出退课概率预测值P1、P2、P3。M为线性回归模型,作为元学习器。
最后,预测课程难度值。第二层的元学习器学习P1、P2、P3,以线性回归方式预测课程难度值diff,即课程难度特征。
步骤4:采用训练集中用户的退课特征和退课标签训练加权软投票集成分类模型。其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
加权软投票集成分类模型XLCR-SV,以加权软投票方式集成了极限梯度提升树(XGBoost)、轻量级的梯度提升器(Light Gradient Boosting Machine,LightGBM)、CatBoost(Gradient Boosting+Categorical Features)和随机森林模型4个基分类器。基分类器权重由遗传算法确定,各基分类器加权后经过软投票的方式产生最终分类结果。
XLCR-SV分类器:如图4所示,该模型输入特征后,分别经过训练、形成基分类器、确定基分类器权重、加权集成和产生预测结果步骤,具体过程如下:
首先,按照4种基分类模型特点将特征分为4份,分别作为基分类模型训练特征,各个基分类模型学习等分后的训练特征,训练为基分类器。将构造好的特征输入到各个基模型中进行训练。XGBoost、LightGBM和CatBoost模型以boosting形式对树模型进行集成,表达式为:(其中fki)代表每一个弱学习器,N为弱学习器个数,F为基本的树模型)。XGBoost针对目标函数/>(l为损失函数,用来表示预测值/>与真实值yi之间的误差,Ω是用于正则化以防止过拟合的函数,fki)代表每一个弱学习器)进行了二阶泰勒展开,有优秀的抗过拟合能力,故在训练退课特征时不易过拟合;LightGBM分类表达式为Fn(x)=λ0f0(x)+λ1f1(x)+…+λnfn(x)(fi(x)为弱分类器,n为弱分类器个数,λi为弱分类器系数,1≤i≤n),在训练退课特征前会对特征提前预排序,提高了分类效率;CatBoost可以将类别型特征转化为数字特征,适合处理退课特征中的类别型特征;随机森林模型随机抽取数据以及随机选取特征保证了随机森林在处理高维度退课特征时不容易陷入过拟合。将原始特征C分为以下4份fe1、fe2、fe3、fe4,4种基模型分别进行训练:fe1为退课特征中类别型特征,用于训练CatBoost模型;fe2为退课特征中用户行为特征,用于训练XGBoost模型;fe3为退课特征中差分特征,用于训练LightGBM模型;fe4为退课特征中剩余特征,用于训练随机森林模型。各个基模型分别训练不同类型特征,最终训练为4种基分类器。基分类器训练不同特征保证了基分类器的多样性,提高XLCR-SV模型的泛化能力。
其次,设置权重参数的范围为0-1、遗传算法的迭代次数为1000、初始种群的数量为200,初始化4个基分类器权值ωi(1≤i≤4),将各个基分类器权重作为遗传算法中适应度函数的自变量,然后随机生成P组初始值,以真实值与预测值(各基分类器的预测值的加权和)的均方误差作为适应度函数,并且以权值之和等于1为约束条件,从种群中选取一定比例优秀个体,对选取的优秀个体进行交叉、变异,从而产生新的个体,循环这个过程直到满足条件时停止,从历代种群中选择最优值作为最终结果。最终通过选择、交叉和变异过程不断优化基分类器权值(ω1,ω2,ω3,ω4),确定各个基分类器权重,构造XLCR-SV模型。适应度计算公式如下:
ω1234=1
其中,ω1、ω2、ω3、ω4分别为XGBoost、LightGBM、CatBoost和随机森林基分类器的权重,分别为各基分类器的预测值,yT为训练集的真实值。
通过遗传算法优化权重后赋予各基分类器权重,加权软投票后形成XLCR-SV分类器。
步骤5、将待监督用户的退课预测数据进行预处理和特征提取后,输入加权软投票集成分类模型,输出退课预测结果result:
其中,o=4(基分类器个数),xi为基分类器预测结果,当result≥0.5时,判定用户退课;当result<0.5时。判定用户不退课。
针对每一个用户,分析用户的每一个课程数据,包括该课程的用户行为数据、课程和视频序列数据,训练特征提取后的退课特征,预测出退课概率大于50%的用户。将获取到的高风险用户(退课率大于50%)按照退课率数值大小从高到低排序,并统计退课率偏高的课程,以柱状图的形式展示高风险用户的退课概率,并显示退课率偏高的课程。
对退课率偏高的用户通过电子邮件及时提醒,提示用户课程没有完成,鼓励用户继续学习。
本发明通过多模式特征提取方法构建用户行为特征、差分特征、课程相似度等特征,提出课程难度表示方法增强课程特征,提高特征的表示能力;构建课程序列表示模型AD-sequence,提取课程文本序列特征,并挖掘序课程序列的隐藏属性特征;以加权软投票的方式构造XLCR-SV模型,提高模型的退课预测准确率。
实施例二
本实施例提供了一种在线课程学习监督***,如图5所示,其具体包括如下模块:
数据采集模块,其被配置为:采集待监督用户的退课预测数据;
退课预测模块,其被配置为:对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;
结果可视化模块,其被配置为:将获取到的高风险用户(退课率大于50%)按照退课率数值大小从高到低排序,并统计退课率偏高的课程,以柱状图的形式展示高风险用户的退课概率,并显示退课率偏高的课程。
用户提醒模块,其被配置为:若退课概率超出设定值,则向待监督用户发送提醒信息;
其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
其中,遗传算法以各基分类器的预测值的加权和与真实值的均方误差作为适应度函数,并以权重之和等于1为约束条件。
其中,退课特征包括用户行为统计特征、用户所选的每个课程的差分特征、课程相似度特征、课程属性特征、视频属性特征和课程难度特征。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种在线课程学习监督方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种在线课程学习监督方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种在线课程学习监督方法,其特征在于,包括:
采集待监督用户的退课预测数据;
对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;所述退课特征包括用户行为统计特征、用户所选的每个课程的差分特征、课程相似度特征、课程属性特征、视频属性特征和课程难度特征;
所述课程属性特征的获取方法为:
采用词向量模型将用户的课程序列进行编码后,得到特征向量;将所述特征向量与特征矩阵做注意力运算,计算得到注意力权重向量;所述注意力权重向量与所述特征向量相乘,得到用户的课程属性特征;
所述课程难度特征采用元学习策略模型得到;
所述元学习策略模型由基学习器和元学习器两层架构组成;
所述元学***均退课率,基于平均退课率构建拼接特征,基学习器学习拼接特征,建立非线性回归模型,预测初步课程难度值;
所述元学习器,学习基学习器预测的初步课程难度值,建立多元线性回归模型,由多元线性回归模型得到课程难度特征;
若退课概率超出设定值,则向待监督用户发送提醒信息;
其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
2.如权利要求1所述的一种在线课程学习监督方法,其特征在于,所述用户行为统计特征包括用户对每门课程的总观看时长、用户观看每门课程的时长占总时长的比例和用户观看的不同视频间的观看间隔时长。
3.如权利要求1所述的一种在线课程学习监督方法,其特征在于,所述遗传算法以各基分类器的预测值的加权和与真实值的均方误差作为适应度函数,并以权重之和等于1为约束条件。
4.一种在线课程学习监督***,其特征在于,包括:
数据采集模块,其被配置为:采集待监督用户的退课预测数据;
退课预测模块,其被配置为:对所述退课预测数据进行预处理和特征提取后,得到退课特征,输入加权软投票集成分类模型,得到待监督用户对所选课程的退课概率;所述退课特征包括用户行为统计特征、用户所选的每个课程的差分特征、课程相似度特征、课程属性特征、视频属性特征和课程难度特征;所述课程属性特征的获取方法为:采用词向量模型将用户的课程序列进行编码后,得到特征向量;将所述特征向量与特征矩阵做注意力运算,计算得到注意力权重向量;所述注意力权重向量与所述特征向量相乘,得到用户的课程属性特征;所述课程难度特征采用元学***均退课率,基于平均退课率构建拼接特征,基学习器学习拼接特征,建立非线性回归模型,预测初步课程难度值;所述元学习器,学习基学习器预测的初步课程难度值,建立多元线性回归模型,由多元线性回归模型得到课程难度特征;
用户提醒模块,其被配置为:若退课概率超出设定值,则向待监督用户发送提醒信息;
其中,加权软投票集成分类模型集成若干个基分类器,并由遗传算法确定每个基分类器的权重,各基分类器的结果经过加权求和得到模型输出的退课概率。
5.如权利要求4所述的一种在线课程学习监督***,其特征在于,所述遗传算法以各基分类器的预测值的加权和与真实值的均方误差作为适应度函数,并以权重之和等于1为约束条件。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的一种在线课程学习监督方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一项所述的一种在线课程学习监督方法中的步骤。
CN202210535724.0A 2022-05-17 2022-05-17 一种在线课程学习监督方法及*** Active CN114863341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535724.0A CN114863341B (zh) 2022-05-17 2022-05-17 一种在线课程学习监督方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535724.0A CN114863341B (zh) 2022-05-17 2022-05-17 一种在线课程学习监督方法及***

Publications (2)

Publication Number Publication Date
CN114863341A CN114863341A (zh) 2022-08-05
CN114863341B true CN114863341B (zh) 2024-05-31

Family

ID=82637219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535724.0A Active CN114863341B (zh) 2022-05-17 2022-05-17 一种在线课程学习监督方法及***

Country Status (1)

Country Link
CN (1) CN114863341B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493566B (zh) * 2023-11-02 2024-05-24 浙江尚云物联科技有限公司 用于智慧校园的数据处理***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209816A (zh) * 2019-05-24 2019-09-06 中国科学院自动化研究所 基于对抗模仿学习的事件识别及分类方法、***、装置
CN110414554A (zh) * 2019-06-18 2019-11-05 浙江大学 一种基于多模型改进的Stacking集成学习鱼类识别方法
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN112926397A (zh) * 2021-01-28 2021-06-08 中国石油大学(华东) 基于两轮投票策略集成学习的sar图像海冰类型分类方法
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209816A (zh) * 2019-05-24 2019-09-06 中国科学院自动化研究所 基于对抗模仿学习的事件识别及分类方法、***、装置
CN110414554A (zh) * 2019-06-18 2019-11-05 浙江大学 一种基于多模型改进的Stacking集成学习鱼类识别方法
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN112926397A (zh) * 2021-01-28 2021-06-08 中国石油大学(华东) 基于两轮投票策略集成学习的sar图像海冰类型分类方法
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

Also Published As

Publication number Publication date
CN114863341A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111460249B (zh) 一种基于学习者偏好建模的个性化学习资源推荐方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及***
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN113344053A (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114385801A (zh) 一种基于分层细化lstm网络的知识追踪方法及***
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114863341B (zh) 一种在线课程学习监督方法及***
CN113591971A (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN112416358A (zh) 一种基于结构化词嵌入网络的智能合约代码缺陷检测方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、***、设备及介质
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和***
CN117473041A (zh) 一种基于认知策略的编程知识追踪方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN115795015A (zh) 一种试题难度增强的综合知识追踪方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN113158577A (zh) 基于层次化耦合关系的离散数据表征学习方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant