CN111177419A - 数字学习内容的标注检索方法 - Google Patents

数字学习内容的标注检索方法 Download PDF

Info

Publication number
CN111177419A
CN111177419A CN201811334726.3A CN201811334726A CN111177419A CN 111177419 A CN111177419 A CN 111177419A CN 201811334726 A CN201811334726 A CN 201811334726A CN 111177419 A CN111177419 A CN 111177419A
Authority
CN
China
Prior art keywords
feature
digital learning
learning content
digital
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811334726.3A
Other languages
English (en)
Inventor
柳其敖
曹新龙
王蔷
陈玉秀
李学民
陶鹏
张东梅
王珠泉
刘化雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiwai Online Beijing Education Technology Co Ltd
Original Assignee
Beiwai Online Beijing Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiwai Online Beijing Education Technology Co Ltd filed Critical Beiwai Online Beijing Education Technology Co Ltd
Priority to CN201811334726.3A priority Critical patent/CN111177419A/zh
Publication of CN111177419A publication Critical patent/CN111177419A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了数字学习内容的标注检索方法,包括以下步骤:将数字学习内容的图像、音频、视频和文字进行领域的分类,获取用于训练模型的数字内容数据集,对所述数字内容数据集中的样本信息的结构进行序列特征建模得到数字学习内容的特征合集,形成特征矩阵库,输入需要检索的内容,根据输入的内容在模型中形成特征索引,通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析,做特征相似度对比,对抽取出来的文本信息进行关键字提取、计算权值,并将特征位置信息和权值保存到存储***中。有益效果在于:本发明通过将数字学习内容模型化进行相似性计算,使得出的结果更加接近用户需求,挺高了检索的效率和知识的重用。

Description

数字学习内容的标注检索方法
技术领域
本发明属于检索领域,具体涉及数字学习内容的标注检索方法。
背景技术
数字学士包括数字学***台也因此应运而生,学***台上的数字化内容。但是对数字内容的提供者而言,却因为学习平台的多样化特性而衍生出数字内容无法兼容及再利用的问题。许多研究机构为了解决数字内容规格分歧的问题,发展出许多数字学习标准,但是数字学习内容包含种类过多,虽然脱离了传统教育中时间与空间的限制,学习者能自主主导学习进度并且所需成本较低,但是其检索不方便,多种格式难以检索到满意的结果。
发明内容
本发明的目的就在于为了解决上述问题而提供数字学习内容的标注检索方法。
本发明通过以下技术方案来实现上述目的:
数字学习内容的标注检索方法,包括以下步骤:
步骤一、将数字学习内容的图像、音频、视频和文字进行领域的分类,获取用于训练模型的数字内容数据集,对所述数字内容数据集中的样本信息的结构进行序列特征建模,得到序列特征模型并定义算法目标建立数字学习内容模型;
步骤二、提取数字学习内容模型的视频特征向量、文本特征向量和音频特征向量,得到数字学习内容的特征合集,形成特征矩阵库;
步骤三、输入需要检索的内容,将检索的内容输入步骤一中的数字学习内容模型,根据输入的内容在模型中形成特征索引;
步骤四、通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析,做特征相似度对比,对对比结果按照相似度高低进行排列;
步骤五、对抽取出来的文本信息进行关键字提取、计算权值,并将特征位置信息和权值保存到存储***中。
作为优选,所述数字内容数据集包括多个样本文字文件、样本音频文件、样本视频文件和样本图像文件。
作为优选,步骤三中通过扫描仪、键入工具或存储器中的存储信息输入检索内容。
作为优选,步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析,将视频片段的每一帧图像分别输入分析算法进行特征提取,其分析算法为:
Figure BDA0001860900600000021
其中,Cxy为每一帧图像的相互关矩阵,
Figure BDA0001860900600000022
Figure BDA0001860900600000023
为图像特征矩阵与文本特征矩阵,i为矩阵的第i列,λ为帧数。
作为优选,步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求。
作为优选,步骤四中的图像基于点集对比的方法进行图像相似度对比,其中点集对比的计算公式为:
Figure BDA0001860900600000031
其中
Figure BDA0001860900600000032
表示第i对图配对点群之间的相似度,
Figure BDA0001860900600000033
为灰度相似度,
Figure BDA0001860900600000034
为距离相似度。
作为优选,特征提取基于AMD中央处理器对数据进行计算。
有益效果在于:本发明通过将数字学习内容模型化进行相似性计算,使得出的结果更加接近用户需求,挺高了检索的效率和知识的重用。
具体实施方式
下面对本发明作进一步说明:
数字学习内容的标注检索方法,包括以下步骤:
步骤一、将数字学习内容的图像、音频、视频和文字进行领域的分类,获取用于训练模型的数字内容数据集,对所述数字内容数据集中的样本信息的结构进行序列特征建模,得到序列特征模型并定义算法目标建立数字学习内容模型;
步骤二、提取数字学习内容模型的视频特征向量、文本特征向量和音频特征向量,得到数字学习内容的特征合集,形成特征矩阵库;
步骤三、输入需要检索的内容,将检索的内容输入步骤一中的数字学习内容模型,根据输入的内容在模型中形成特征索引;
步骤四、通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析,做特征相似度对比,对对比结果按照相似度高低进行排列;
步骤五、对抽取出来的文本信息进行关键字提取、计算权值,并将特征位置信息和权值保存到存储***中。
作为优选,所述数字内容数据集包括多个样本文字文件、样本音频文件、样本视频文件和样本图像文件。
作为优选,步骤三中通过扫描仪、键入工具或存储器中的存储信息输入检索内容。
作为优选,步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析,将视频片段的每一帧图像分别输入分析算法进行特征提取,其分析算法为:
Figure BDA0001860900600000041
其中,Cxy为每一帧图像的相互关矩阵,
Figure BDA0001860900600000042
Figure BDA0001860900600000043
为图像特征矩阵与文本特征矩阵,i为矩阵的第i列,λ为帧数。
作为优选,步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求。
作为优选,步骤四中的图像基于点集对比的方法进行图像相似度对比,其中点集对比的计算公式为:
Figure BDA0001860900600000044
其中
Figure BDA0001860900600000045
表示第i对图配对点群之间的相似度,
Figure BDA0001860900600000046
为灰度相似度,
Figure BDA0001860900600000047
为距离相似度。
作为优选,特征提取基于AMD中央处理器对数据进行计算。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims (7)

1.数字学习内容的标注检索方法,其特征在于:包括以下步骤:
步骤一、将数字学习内容的图像、音频、视频和文字进行领域的分类,获取用于训练模型的数字内容数据集,对所述数字内容数据集中的样本信息的结构进行序列特征建模,得到序列特征模型并定义算法目标建立数字学习内容模型;
步骤二、提取数字学习内容模型的视频特征向量、文本特征向量和音频特征向量,得到数字学习内容的特征合集,形成特征矩阵库;
步骤三、输入需要检索的内容,将检索的内容输入步骤一中的数字学习内容模型,根据输入的内容在模型中形成特征索引;
步骤四、通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析,做特征相似度对比,对对比结果按照相似度高低进行排列;
步骤五、对抽取出来的文本信息进行关键字提取、计算权值,并将特征位置信息和权值保存到存储***中。
2.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:所述数字内容数据集包括多个样本文字文件、样本音频文件、样本视频文件和样本图像文件。
3.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:步骤三中通过扫描仪、键入工具或存储器中的存储信息输入检索内容。
4.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析,将视频片段的每一帧图像分别输入分析算法进行特征提取,其分析算法为:
Figure FDA0001860900590000011
其中,Cxy为每一帧图像的相互关矩阵,
Figure FDA0001860900590000021
Figure FDA0001860900590000022
为图像特征矩阵与文本特征矩阵,i为矩阵的第i列,λ为帧数。
根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析,将视频片段的每一帧图像分别输入分析算法进行特征提取,其分析算法为:
Figure FDA0001860900590000023
其中,Cxy为每一帧图像的相互关矩阵,
Figure FDA0001860900590000024
Figure FDA0001860900590000025
为图像特征矩阵与文本特征矩阵,i为矩阵的第i列,λ为帧数。
5.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求。
6.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求。
作为优选,步骤四中的图像基于点集对比的方法进行图像相似度对比,其中点集对比的计算公式为:
Figure FDA0001860900590000026
其中
Figure FDA0001860900590000027
表示第i对图配对点群之间的相似度,
Figure FDA0001860900590000028
为灰度相似度,
Figure FDA0001860900590000029
为距离相似度。
7.根据权利要求1所述的数字学习内容的标注检索方法,其特征在于:特征提取基于AMD中央处理器对数据进行计算。
CN201811334726.3A 2018-11-10 2018-11-10 数字学习内容的标注检索方法 Pending CN111177419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811334726.3A CN111177419A (zh) 2018-11-10 2018-11-10 数字学习内容的标注检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811334726.3A CN111177419A (zh) 2018-11-10 2018-11-10 数字学习内容的标注检索方法

Publications (1)

Publication Number Publication Date
CN111177419A true CN111177419A (zh) 2020-05-19

Family

ID=70653545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811334726.3A Pending CN111177419A (zh) 2018-11-10 2018-11-10 数字学习内容的标注检索方法

Country Status (1)

Country Link
CN (1) CN111177419A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN116208824A (zh) * 2023-02-07 2023-06-02 腾讯音乐娱乐科技(深圳)有限公司 标题生成方法、计算机设备、存储介质和计算机程序产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN116208824A (zh) * 2023-02-07 2023-06-02 腾讯音乐娱乐科技(深圳)有限公司 标题生成方法、计算机设备、存储介质和计算机程序产品

Similar Documents

Publication Publication Date Title
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
US9087271B2 (en) Learning semantic image similarity
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110083729B (zh) 一种图像搜索的方法及***
US20170262478A1 (en) Method and apparatus for image retrieval with feature learning
CN112395420A (zh) 视频内容检索方法、装置、计算机设备及存储介质
US9569698B2 (en) Method of classifying a multimodal object
CN110990597B (zh) 基于文本语义映射的跨模态数据检索***及其检索方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN116363212A (zh) 一种基于语义匹配知识蒸馏的3d视觉定位方法和***
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及***
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和***
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN116822515B (zh) 一种基于实体跨度定位视觉区域的多模态命名实体识别方法及***
CN111177419A (zh) 数字学习内容的标注检索方法
CN116975255A (zh) 文本摘要生成方法、装置、电子设备及可读存储介质
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN114943203A (zh) 汉字相似度的获得方法、装置、电子设备和存储设备
CN107943972A (zh) 一种智能应答方法及其***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200519

WD01 Invention patent application deemed withdrawn after publication