CN116049557A - 一种基于多模态预训练模型的教育资源推荐方法 - Google Patents

一种基于多模态预训练模型的教育资源推荐方法 Download PDF

Info

Publication number
CN116049557A
CN116049557A CN202310097847.5A CN202310097847A CN116049557A CN 116049557 A CN116049557 A CN 116049557A CN 202310097847 A CN202310097847 A CN 202310097847A CN 116049557 A CN116049557 A CN 116049557A
Authority
CN
China
Prior art keywords
data
mode
text
training
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310097847.5A
Other languages
English (en)
Inventor
王海艳
唐瞻
骆健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310097847.5A priority Critical patent/CN116049557A/zh
Publication of CN116049557A publication Critical patent/CN116049557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多模态预训练模型的教育资源推荐方法,包括:收集用户在线学习的多模态数据,根据不同模态的数据做相应的预处理,获取文本类数据、图片类数据、音频类数据和数值类数据,分别输入多模态预训练模型的单模态接收网络,进行单模态的单独训练和多模态交叉训练,掩码预测预训练通过遮蔽一定比例的原输入对原始输入遮蔽部分进行预测,交叉对齐训练任务通过一个模态的特定特征预测另一个模态的特征。预训练的多模态模型可直接接收多模态输入,并输入长短记忆网络学习多模态表示向量,并通过全连接网络进行投影,输出结果为用户需要资源的概率,作为推荐排行依据展示给用户。本发明提高了在线教育资源推荐的全面性和准确性。

Description

一种基于多模态预训练模型的教育资源推荐方法
技术领域
本发明涉及一种基于多模态预训练模型的教育资源推荐方法能够学习用户多种模态的信息为用户推荐合适的教育资源,属于教育推荐技术领域。
背景技术
互联网的快速发展催生出新的数据模态和产业形态,各式各样的数据信息呈现出几何级别增长,使得用户难以获得满足自身需求的特定数据。推荐***,旨在通过用户的画像信息并结合用户的历史交互记录,通过各种方式挖掘用户偏好并为用户提供可能感兴趣的项目或服务,帮助用户从大型内容库中检索相关项目。推荐***已经成为解决在线信息过载、消除信息孤岛的关键技术,是提高信息服务质量的重要途径。
随着在线课程技术和互联网技术的快速发展,大规模开放在线课程(MOOC)近年来发展迅速,吸引了数百万的在线用户。但MOOC仍然面临许多新的挑战,高辍学率是MOOC面临的最严重的挑战之一。据统计,MOOC平台的课程完成率往往低于5%。对于用户来说,当大量的学习资源和活动同时呈现在互联网上时,学习者难免会被过多的信息资源所迷惑,很难快速找到适合自己的学习资源。因此,如何降低辍学率,实现对用户的个性化推荐是在线学习推荐领域的主要研究问题。
据发明人调研,国内外学者针对推荐方法开展了很多研究,并取得了一定的研究成果。从推荐对象分类,有群组推荐和个性化推荐;从技术上分类,有基于协同过滤(Collaborative Filtering,CF)的推荐方法、基于机器学***台一般只有学生的隐式交互行为数据(比如学生对课程的点击、观看时长、收藏评论等),缺乏显式评分,主流推荐算法难以直接发挥作用.因此,如何充分利用多种非评分的多模态交互数据来构建用户学习画像,是实现智能化课程推荐***的一个关键。
有大量研究工作表明,通过海量无标注语料来预训练神经网络模型可以学习到有益于下游NLP任务的通用语言表示,并可避免从零训练新模型。预训练模型一直被视为一种训练深度神经网络模型的高效策略。
发明内容
为了解决以上问题,本发明的主要目的在于提供一种面向在线教育基于多模态预训练模型的教育资源推荐方法,通过对多种模态不同交互行为数据的建模,方便后续用户向量和课程向量的学习和表示,以改善在线教育资源的推荐服务质量。
为达到上述目的,本发明的技术方案实现如下:
第一方面,本发明提供一种基于多模态预训练模型的教育资源推荐方法,包括:
步骤1、获取在线教育***中的多模态数据;其中所述多模态数据包括数值类数据、文本类数据、非文本用户交互类数据、视频类数据、图片类数据和音频类数据;
步骤2、对多模态数据进行数据预处理,得到预处理后的文本类数据、图片类数据、音频类数据和数值类数据;
步骤3、多模态预训练模型包括基于Transformer模块的文本类编码器、图片类编码器、音频类编码器和基于共同注意力Transformer的多模态交叉编码器;
将预处理后的文本类数据输入文本类编码器进行遮掩预训练,得到文本向量;将预处理后的图片类数据输入图片类编码器进行遮掩预训练,得到图片向量;将预处理后的音频类数据输入音频类编码器进行遮掩预训练,得到音频向量;
将文本向量、图片向量和音频向量输入多模态交叉编码器进行多模态对齐预训练,得到多模态的表示向量;
步骤4、将多模态的表示向量和预处理后的数值类数据输入长短记忆网络进行学习,得到用户偏好向量;
步骤5、将用户偏好向量输入全连接网络,进行投影输出,得到教育资源推荐概率;
步骤6、根据教育资源推荐概率,确定教育资源推荐结果。
在一些实施例中,步骤1中,多模态数据为用户在学习某个学习资源时产生的一系列多模态组合,一个多模态组合包括在某一时刻用户的操作、视频、图片、音频、文本,以及显式的数值。
在一些实施例中,数值类数据的预处理方法包括:
数值类数据分为离散型和连续型,离散型数值评分R,为五分制、十分制或百分制,直接保留;对于用户学习时长Tu,需要基于阈值进行映射处理,Tmiddle为学习时长的中位数,利用公式
Figure BDA0004072245390000031
进行映射;连续性数值用户积分Su,通过归一化进行处理,映射到[0,1]区间,利用公式
Figure BDA0004072245390000041
Smax为全体用户积分最大值。
在一些实施例中,文本类数据的预处理方法包括:文本类数据:习题、答案、评论和弹幕,利用开源工具nltk对文本进行分句,先将所有文件读入到内存中,用list分文章储存,之后利用segmenter分句,然后将句子分片到文件中;将语料处理为tokens,首先是BasicTokenizer,主要操作为unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号操作,最后返回的是关于词的数组;其次是WordpieceTokenizer将上一步处理得到的各个词进行wordpiece划分,wordpiece利用词的前缀后缀词根进行分词。
在一些实施例中,非文本用户交互类数据的预处理方法包括:
非文本用户交互类数据先按照学习时间,统计频次,把各种行为进行独热编码,将行为的发生记为1,未发生记为0,然后通过划分时间段进行累加,组合为一个三元组,即<时间段,行为,数量>,然后将这样的三元组进行词元化,转换成文本类数据。
在一些实施例中,视频类数据、图片类数据的预处理方法包括:
视频类数据会先处理为图片,为了按帧提取视觉特征,将视频流视为一系列图像并提取一个视频每秒帧数,转换为图片类数据进行处理;
图片类数据的预处理方法为:利用预训练的ResNeXt-50模型对图片进行缩放和正则化,并准备好每幅图像作为RGB的三个通道;通过初始化ImageNet数据集上预训练的权重,将三个通道转换为2048维向量。
在一些实施例中,音频类数据的预处理方法包括:
音频类数据利用Librosa进行音频信号的预处理;在对语音信号进行分析和处理之前,先进行预加重、分帧、加窗预处理操作:
语音信号s(n)进行预加重利用数字滤波器实现,预加重网络的输入输出关系为
Figure BDA0004072245390000051
其中a为预加重系数;对于语音信号的分帧取30ms为一帧;利用汉明窗进行加窗,具体公式如下:
Figure BDA0004072245390000052
其中w(n)为汉明窗加窗处理后的语音信号,n为滤波器的阶数,N表示窗函数的总长度;对每一个短时分析窗,通过FFT得到对应的频谱;将上面的频谱通过Mel滤波器组得到Mel频谱;在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,即该帧语音的特征。
在一些实施例中,步骤6、根据教育资源推荐概率,确定教育资源推荐结果,包括:
将多个教育资源按照预测概率从大到小进行排序,并从中选择排在前面的预设个数的教育资源推荐给用户。
第二方面,本发明提供了一种基于多模态预训练模型的教育资源推荐装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
有益效果:本发明提供的基于多模态预训练模型的教育资源推荐方法及装置,具有以下优点:通过对多种模态不同交互行为数据的建模,方便后续用户向量和课程向量的学习和表示,以改善在线教育资源的推荐服务质量。
附图说明
图1是本发明基于多模态预训练模型的教育资源推荐方法的较佳实施例的流程图;
图2是本发明基于多模态预训练模型的教育资源推荐方法的较佳实施例中整个推荐过程的流程示意图;
图3是本发明基于多模态预训练模型的教育资源推荐方法的较佳实施例的原理示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种基于多模态预训练模型的教育资源推荐方法,包括:
步骤1、获取在线教育***中的多模态数据;其中所述多模态数据包括数值类数据、文本类数据、非文本用户交互类数据、视频类数据、图片类数据和音频类数据;
步骤2、对多模态数据进行数据预处理,得到预处理后的文本类数据、图片类数据、音频类数据和数值类数据;
步骤3、多模态预训练模型包括基于Transformer模块的文本类编码器、图片类编码器、音频类编码器和基于共同注意力Transformer的多模态交叉编码器;
将预处理后的文本类数据输入文本类编码器进行遮掩预训练,得到文本向量;将预处理后的图片类数据输入图片类编码器进行遮掩预训练,得到图片向量;将预处理后的音频类数据输入音频类编码器进行遮掩预训练,得到音频向量;
将文本向量、图片向量和音频向量输入多模态交叉编码器进行多模态对齐预训练,得到多模态的表示向量;
步骤4、将多模态的表示向量和预处理后的数值类数据输入长短记忆网络进行学习,得到用户偏好向量;
步骤5、将用户偏好向量输入全连接网络,进行投影输出,得到教育资源推荐概率;
步骤6、根据教育资源推荐概率,确定教育资源推荐结果。
基于多模态预训练模型的教育资源推荐方法基本步骤如下:
获取原始数据,在某一时刻用户的操作、视频、图片、音频、文本,以及显式的数值为一个多模态组合,当用户在学习某个学习资源时,会产生一系列多模态组合,即一个多模态组合队列。
基础数据预处理:针对原始输入数据中的各种多模态数据和交互记录,通过多种方法对其进行规范化处理。其中多模态数据包括数值类数据、文本类数据、非文本交互类数据、图片类数据和音频类数据。
数值类型数据一般为显式评分等,分为离散性数值和连续性数值,非连续性数值定义域明确,直接保留即可,特定课程的学习时长,需要基于阈值进行映射处理,使其反映用户对课程的学习偏好度。连续性数值,如学习的积分,通过数据归一化进行处理,将其映射到[0,1]区间。
非数值文本类如课程知识点等复杂的文本信息,则需要进行更精细的编码处理,即统计到全部的知识点文字数据,将其转换为后续神经网络处理能够输入的向量类型数据,先进行词元化,然后输入多模态预训练模块中的文本预训练模块。
交互类数据需要进行数值化的转换,如评论、收藏等“用户-课程”交互行为,可以直接将行为的发生记为1,未发生记为0。然后通过划分时间段进行累加,组合为一个三元组,即<时间段,行为,数量>。然后将这样的三元组进行词元化,输入到多模态与训练模型的交互类预训练模块。
视频类会被处理为图片帧,然后转换为图片类数据进行处理。
图片类数据首先要进行读取transform,transform包括随即改变图片的亮度、对比度、饱和度、扩大目标和随机裁剪。并对图像进行大小重置,重新映射数据类型,最后归一化方便输入神经网络。对图片视频用预训练的ResNeXt-50模型。对每一帧进行缩放和正则化,并准备好每幅图像作为RGB的三个通道。通过初始化ImageNet数据集上预训练的权重,这个预训练的模型可以将三个通道转换为2048维向量。
语音类的数据使用Librosa处理,主要提取声学特征,包括过零率、频谱形心、频谱衰减、Mayer频率倒谱系数和色度频率用于音频评估。
通过以上处理,原始的输入数据能够转换为后续神经网络可接收的数据格式,便于进行预训练模型的训练,既有效消除了原始数据的噪声信息,降低模态差异,获得模型训练的有效表示。
针对文本交互类,图片视频类,语音类进行分别预训练,在不同的单模态编码器编码然后再输入到交叉Transformer进行多模态特征的融合。
经过编码器编码后的多模态数据遵循标准BERT中的掩码语言建模任务——遮盖大约15%的单词、图像区域和音频输入,并在给定剩余输入的情况下让模型重建它们。然后交叉预训练主要采用模态对齐的方法,通过一个模态预测另一个模态的内容。
预训练后通过模型融合,输出的多模态表示向量融合了用户对于教育资源中某一部分的偏好,使用LSTM进行学习,最后通过全连接网络进行输出分类得到评分,展示结果。
在一些实施例中,本发明较佳实施例所述的基于多模态预训练模型的教育资源推荐方法,如图1和图2所示,所述基于多模态预训练模型的教育资源推荐方法包括以下步骤:
步骤1:在在线教育***中,数据收集模块收集各种模态数据,并划分各种单模态数据,如课程截图、评论、弹幕、课程评分、笔记、音频讲解、文本材料等。
用户在一个资源中的学习记录如表1所示:
表1
2022-12-01 8:00 打开视频(极限教学) 视频地址
2022-12-01 8:10 暂停 视频帧
2022-12-01 8:22 退出
2022-12-01 8:25 打开极限练习题 练习题文本
2022-12-01 8:40 打开练习题答案 答案文本
2022-12-01 8:45 上传问题 问题图片
2022-12-01 8:47 论坛评论 评论文本
…… …… ……
其他类型的数据格式如表2所示:
表2
视频评分 4.5
习题难度 3
用户观看时长 6:20:00
用户学习积分 65
在数据收集之后制作训练数据集,进行数据预处理,对不同模态的数据进行数据预处理。
步骤2:对于显式数值型.数据划分为离散型和连续型,离散型数值评分R,一般为五分制、十分制或百分制,可以直接保留。对于用户学习时长Tu,需要基于阈值进行映射处理,Tmiddle为学习时长的中位数。利用公式
Figure BDA0004072245390000101
进行映射。连续性数值如用户积分Su,通过归一化进行处理,利用公式
Figure BDA0004072245390000102
Smax为全体用户积分最大值。
步骤3:文本类数据如习题、答案、评论和弹幕,利用开源工具nltk对文本进行分句,先将所有文件读入到内存中,用list分文章储存,之后利用segmenter分句,然后按train和loss的比例将句子分片到文件中。将语料处理为tokens,首先是BasicTokenizer,主要操作为unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号等操作,最后返回的是关于词的数组;其次是WordpieceTokenizer将上一步处理得到的各个词进行wordpiece划分,wordpiece利用词的前缀后缀等更常用的词根进行分词,例如将"洛必达法则"分解成["洛必达","法则"]这样做使得词典的大小变得可接受。
步骤4:用户交互类数据如表1所示需要先按照学习时间,统计频次,把各种行为进行独热编码,然后按总的学习时长来划分小的学习时间段,按周作为小的学习时长,然后进行累加即可得到如<第一周,打开视频,40>,<第一周,快进,68>,<第一周,暂停,20>,<第一周,退出,52>……<第八周,查看例题,18>这样的序列,序列只需要按照三元组进行分词来进行词元化,将对应的此转换为词典中的token id。
视频类数据会先处理为图片,为了按帧提取视觉特征,将视频流视为一系列图像并提取一个视频每秒帧数。为了保持每个框架的有效性和完整性,利用预训练的ResNeXt-50模型。对每一帧进行缩放和正则化,并准备好每幅图像作为RGB的三个通道。通过初始化ImageNet数据集上预训练的权重,这个预训练的模型可以将三个通道转换为2048维向量。提取后通过ResNeXt-50模型,视频帧序列被转换为2048帧序列-尺寸框架特征。使用这些特征向量的平均值来表示整个视频的视觉信息。因此,可以将具有不同帧数的视频转换为相同2048维的特征向量。
步骤5:音频类数据利用Librosa进行音频信号的预处理,在对语音信号进行分析和处理之前,必须对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。语音信号s(n)进行预加重利用数字滤波器实现,预加重网络的输入输出关系为
Figure BDA0004072245390000111
其中a为预加重系数,本方法取a=0.9375;对于语音信号的分帧取30ms为一帧;紧接着要对其进行加窗处理,利用汉明窗进行加窗,具体公式如下:
Figure BDA0004072245390000112
其中w(n)为汉明窗加窗处理后的语音信号,n为滤波器的阶数,N表示窗函数的总长度;对每一个短时分析窗,通过FFT得到对应的频谱;将上面的频谱通过Mel滤波器组得到Mel频谱;在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
对各个单模态数据进行预处理后就输入多模态预训练模型进行预训练。
步骤6:预训练的输入由三个并行的BERT风格的模型组成,分别在图像区域、文本段和音频上运行。每个流都是由一系列Transformer块(TRM)和新型的共同注意力Transformer层(Co-TRM)构成,以实现模态之间的信息交换。给定一个图像I表示为一组区域特征v1,v2,...vτ,文本输入w1,w2,...wt和音频输入s1,s2,...sn,模型输出最终表示为hv1,hv2,...h,hw1,hw2,...hwT和hs1,hs2,...hsn。模态流之间的交换仅限于特定层之间,并且各个模态特征交互之前有更多的处理,即与句子中的单词相比,选择的视觉特征已经相当高级并且需要比较有限的上下文聚合。在联合注意力TRM层给定中间视觉、语言和音频表示
Figure BDA0004072245390000121
Figure BDA0004072245390000122
该模块像在标准Transformer块中一样计算Q、K和V矩阵。但是,每个模态的K和V作为输入传递给另一个模态的多头注意力块。
步骤7:输入预训练模型后进行第一个预训练任务即掩码语言建模任务,该任务遵循标准BERT中的掩码语言建模任务——遮盖15%的单词和图像区域输入,并在给定剩余输入的情况下让模型重建它们。整个过程中,遮盖的图像区域的图像特征90%的概率被遮挡,10%的概率保持不变。屏蔽文本输入的处理方式与BERT相同。该模型不是直接回归掩码特征值,而是预测相应图像区域的语义类分布。使用预训练的目标检测模型的输出作为真实标签。以最小化这两个分布之间的KL散度作为目标。
步骤8:第二个预训练任务为多模态对齐任务,模型呈现为图像-文本-音频对:并且必须预测图像、文本和音频是否对齐,即:文字是否描述了图像,音频是否解说的图像的内容。将输出hIMG、hCLS和hAUD作为视觉、文本和语言输入的整体表示。利用交叉Transformer结构,将整体表示计算为hIMG、hCLS和hAUD之间的元素逐个相乘,并增加一个全连接层来预测图像、文本和音频是否对齐因为数据集仅包括对齐的图像-文本-音频对,因此为了生成负样本对,随机将图像或文本替换为另一个,使用交叉熵作为损失函数。
步骤9:经过预训练后得到多模态预训练模型,可以直接获得多模态数据的特征表示,输入LSTM网络进行学习,然后输入全连接神经网络并输出该知识点资源的评分。获得预训练模型的输出后输入神经网络进行分类,获得评分进行推荐。
实施例2
第二方面,本实施例提供了一种基于多模态预训练模型的教育资源推荐装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于多模态预训练模型的教育资源推荐方法,其特征在于,包括:
步骤1、获取在线教育***中的多模态数据;其中所述多模态数据包括数值类数据、文本类数据、非文本用户交互类数据、视频类数据、图片类数据和音频类数据;
步骤2、对多模态数据进行数据预处理,得到预处理后的文本类数据、图片类数据、音频类数据和数值类数据;
步骤3、多模态预训练模型包括基于Transformer模块的文本类编码器、图片类编码器、音频类编码器和基于共同注意力Transformer的多模态交叉编码器;
将预处理后的文本类数据输入文本类编码器进行遮掩预训练,得到文本向量;将预处理后的图片类数据输入图片类编码器进行遮掩预训练,得到图片向量;将预处理后的音频类数据输入音频类编码器进行遮掩预训练,得到音频向量;
将文本向量、图片向量和音频向量输入多模态交叉编码器进行多模态对齐预训练,得到多模态的表示向量;
步骤4、将多模态的表示向量和预处理后的数值类数据输入长短记忆网络进行学习,得到用户偏好向量;
步骤5、将用户偏好向量输入全连接网络,进行投影输出,得到教育资源推荐概率;
步骤6、根据教育资源推荐概率,确定教育资源推荐结果。
2.根据权利要求1所述的方法,其特征在于,步骤1中,多模态数据为用户在学习某个学习资源时产生的一系列多模态组合,一个多模态组合包括在某一时刻用户的操作、视频、图片、音频、文本,以及显式的数值。
3.根据权利要求1所述的方法,其特征在于,数值类数据的预处理方法包括:
数值类数据分为离散型和连续型,离散型数值评分R,为五分制、十分制或百分制,直接保留;对于用户学习时长Tu,需要基于阈值进行映射处理,Tmiddle为学习时长的中位数,利用公式
Figure FDA0004072245380000021
进行映射;连续性数值用户积分Su,通过归一化进行处理,映射到[0,1]区间,利用公式
Figure FDA0004072245380000022
Smax为全体用户积分最大值。
4.根据权利要求1所述的方法,其特征在于,文本类数据的预处理方法包括:文本类数据:习题、答案、评论和弹幕,利用开源工具nltk对文本进行分句,先将所有文件读入到内存中,用list分文章储存,之后利用segmenter分句,然后将句子分片到文件中;将语料处理为tokens,首先是BasicTokenizer,主要操作为unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号操作,最后返回的是关于词的数组;其次是WordpieceTokenizer将上一步处理得到的各个词进行wordpiece划分,wordpiece利用词的前缀后缀词根进行分词。
5.根据权利要求1所述的方法,其特征在于,非文本用户交互类数据的预处理方法包括:
非文本用户交互类数据先按照学习时间,统计频次,把各种行为进行独热编码,将行为的发生记为1,未发生记为0,然后通过划分时间段进行累加,组合为一个三元组,即<时间段,行为,数量>,然后将这样的三元组进行词元化,转换成文本类数据。
6.根据权利要求1所述的方法,其特征在于,视频类数据、图片类数据的预处理方法包括:
视频类数据会先处理为图片,为了按帧提取视觉特征,将视频流视为一系列图像并提取一个视频每秒帧数,转换为图片类数据进行处理;
图片类数据的预处理方法为:利用预训练的ResNeXt-50模型对图片进行缩放和正则化,并准备好每幅图像作为RGB的三个通道;通过初始化ImageNet数据集上预训练的权重,将三个通道转换为2048维向量。
7.根据权利要求1所述的方法,其特征在于,音频类数据的预处理方法包括:音频类数据利用Librosa进行音频信号的预处理;
在对语音信号进行分析和处理之前,先进行预加重、分帧、加窗预处理操作:
语音信号s(n)进行预加重利用数字滤波器实现,预加重网络的输入输出关系为
Figure FDA0004072245380000031
其中a为预加重系数;对于语音信号的分帧取30ms为一帧;利用汉明窗进行加窗,具体公式如下:
Figure FDA0004072245380000032
其中w(n)为汉明窗加窗处理后的语音信号,n为滤波器的阶数,N表示窗函数的总长度;对每一个短时分析窗,通过FFT得到对应的频谱;将上面的频谱通过Mel滤波器组得到Mel频谱;在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,即该帧语音的特征。
8.根据权利要求1所述的方法,其特征在于,步骤6、根据教育资源推荐概率,确定教育资源推荐结果,包括:
将多个教育资源按照预测概率从大到小进行排序,并从中选择排在前面的预设个数的教育资源推荐给用户。
9.一种基于多模态预训练模型的教育资源推荐装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202310097847.5A 2023-02-10 2023-02-10 一种基于多模态预训练模型的教育资源推荐方法 Pending CN116049557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310097847.5A CN116049557A (zh) 2023-02-10 2023-02-10 一种基于多模态预训练模型的教育资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310097847.5A CN116049557A (zh) 2023-02-10 2023-02-10 一种基于多模态预训练模型的教育资源推荐方法

Publications (1)

Publication Number Publication Date
CN116049557A true CN116049557A (zh) 2023-05-02

Family

ID=86125456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310097847.5A Pending CN116049557A (zh) 2023-02-10 2023-02-10 一种基于多模态预训练模型的教育资源推荐方法

Country Status (1)

Country Link
CN (1) CN116049557A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702094A (zh) * 2023-08-01 2023-09-05 国家计算机网络与信息安全管理中心 一种群体应用偏好特征表示方法
CN117350409A (zh) * 2023-12-04 2024-01-05 环球数科集团有限公司 一种基于机器学习的人机对话模型训练***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702094A (zh) * 2023-08-01 2023-09-05 国家计算机网络与信息安全管理中心 一种群体应用偏好特征表示方法
CN116702094B (zh) * 2023-08-01 2023-12-22 国家计算机网络与信息安全管理中心 一种群体应用偏好特征表示方法
CN117350409A (zh) * 2023-12-04 2024-01-05 环球数科集团有限公司 一种基于机器学习的人机对话模型训练***
CN117350409B (zh) * 2023-12-04 2024-03-01 环球数科集团有限公司 一种基于机器学习的人机对话模型训练***

Similar Documents

Publication Publication Date Title
Zhu et al. Uncovering the temporal context for video question answering
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
Lippi et al. Argument mining from speech: Detecting claims in political debates
Kafle et al. Evaluating the usability of automatically generated captions for people who are deaf or hard of hearing
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
US20170213469A1 (en) Digital media content extraction and natural language processing system
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Ameisen Building Machine Learning Powered Applications: Going from Idea to Product
CN116049557A (zh) 一种基于多模态预训练模型的教育资源推荐方法
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
Dinkov et al. Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information
CN113380271B (zh) 情绪识别方法、***、设备及介质
US10083219B2 (en) Enhanced knowledge delivery and attainment using a question answering system
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及***
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN117252259A (zh) 基于深度学习的自然语言理解方法及ai助教***
CN110334204A (zh) 一种基于用户记录的习题相似度计算推荐方法
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Tsujimura et al. Automatic Explanation Spot Estimation Method Targeted at Text and Figures in Lecture Slides.
CN112507115B (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
CN111340329B (zh) 演员评估方法、装置及电子设备
CN112347786A (zh) 人工智能评分训练方法和装置
Gala et al. Real-time cognitive evaluation of online learners through automatically generated questions
Shah COMPUTATIONAL INFERENCE OF TRUSTWORTHINESS IN SOCIAL FIGURES THROUGH ANALYSIS OF SPEECH ACOUSTIC, TEXTUAL, AND VISUAL SIGNALS
HEMALATHA Deep Learning Models based Approaches to Video Captioning using Multimodal Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination