CN111177419A

CN111177419A - 数字学习内容的标注检索方法

Info

Publication number: CN111177419A
Application number: CN201811334726.3A
Authority: CN
Inventors: 柳其敖; 曹新龙; 王蔷; 陈玉秀; 李学民; 陶鹏; 张东梅; 王珠泉; 刘化雨
Original assignee: Beiwai Online Beijing Education Technology Co Ltd
Current assignee: Beiwai Online Beijing Education Technology Co Ltd
Priority date: 2018-11-10
Filing date: 2018-11-10
Publication date: 2020-05-19

Abstract

本发明公开了数字学习内容的标注检索方法，包括以下步骤：将数字学习内容的图像、音频、视频和文字进行领域的分类，获取用于训练模型的数字内容数据集，对所述数字内容数据集中的样本信息的结构进行序列特征建模得到数字学习内容的特征合集，形成特征矩阵库，输入需要检索的内容，根据输入的内容在模型中形成特征索引，通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析，做特征相似度对比，对抽取出来的文本信息进行关键字提取、计算权值，并将特征位置信息和权值保存到存储***中。有益效果在于：本发明通过将数字学习内容模型化进行相似性计算，使得出的结果更加接近用户需求，挺高了检索的效率和知识的重用。

Description

数字学习内容的标注检索方法

技术领域

本发明属于检索领域，具体涉及数字学习内容的标注检索方法。

背景技术

数字学士包括数字学***台也因此应运而生，学***台上的数字化内容。但是对数字内容的提供者而言，却因为学习平台的多样化特性而衍生出数字内容无法兼容及再利用的问题。许多研究机构为了解决数字内容规格分歧的问题，发展出许多数字学习标准，但是数字学习内容包含种类过多，虽然脱离了传统教育中时间与空间的限制，学习者能自主主导学习进度并且所需成本较低，但是其检索不方便，多种格式难以检索到满意的结果。

发明内容

本发明的目的就在于为了解决上述问题而提供数字学习内容的标注检索方法。

本发明通过以下技术方案来实现上述目的：

数字学习内容的标注检索方法，包括以下步骤：

步骤一、将数字学习内容的图像、音频、视频和文字进行领域的分类，获取用于训练模型的数字内容数据集，对所述数字内容数据集中的样本信息的结构进行序列特征建模，得到序列特征模型并定义算法目标建立数字学习内容模型；

步骤二、提取数字学习内容模型的视频特征向量、文本特征向量和音频特征向量，得到数字学习内容的特征合集，形成特征矩阵库；

步骤三、输入需要检索的内容，将检索的内容输入步骤一中的数字学习内容模型，根据输入的内容在模型中形成特征索引；

步骤四、通过索引工具对比步骤三中的特征索引对特征矩阵库进行关联对比分析，做特征相似度对比，对对比结果按照相似度高低进行排列；

步骤五、对抽取出来的文本信息进行关键字提取、计算权值，并将特征位置信息和权值保存到存储***中。

作为优选，所述数字内容数据集包括多个样本文字文件、样本音频文件、样本视频文件和样本图像文件。

作为优选，步骤三中通过扫描仪、键入工具或存储器中的存储信息输入检索内容。

作为优选，步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析，将视频片段的每一帧图像分别输入分析算法进行特征提取，其分析算法为：

其中，C_xy为每一帧图像的相互关矩阵，

为图像特征矩阵与文本特征矩阵，i为矩阵的第i列，λ为帧数。

作为优选，步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引，创建的索引域粒度越细，那么在文本被搜索的过程中获取的文本集信息就接近需求。

作为优选，步骤四中的图像基于点集对比的方法进行图像相似度对比，其中点集对比的计算公式为：

其中

表示第i对图配对点群之间的相似度，

为灰度相似度，

为距离相似度。

作为优选，特征提取基于AMD中央处理器对数据进行计算。

有益效果在于：本发明通过将数字学习内容模型化进行相似性计算，使得出的结果更加接近用户需求，挺高了检索的效率和知识的重用。

具体实施方式

下面对本发明作进一步说明：

数字学习内容的标注检索方法，包括以下步骤：

其中，C_xy为每一帧图像的相互关矩阵，

其中

表示第i对图配对点群之间的相似度，

为灰度相似度，

为距离相似度。

作为优选，特征提取基于AMD中央处理器对数据进行计算。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims

1.数字学习内容的标注检索方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：所述数字内容数据集包括多个样本文字文件、样本音频文件、样本视频文件和样本图像文件。

3.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：步骤三中通过扫描仪、键入工具或存储器中的存储信息输入检索内容。

4.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析，将视频片段的每一帧图像分别输入分析算法进行特征提取，其分析算法为：

其中，C_xy为每一帧图像的相互关矩阵，

根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：步骤四中做视频的相似度特征对比时需要使用逐帧分析预测对视频片段进行所有帧的分析，将视频片段的每一帧图像分别输入分析算法进行特征提取，其分析算法为：

其中，C_xy为每一帧图像的相互关矩阵，

5.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引，创建的索引域粒度越细，那么在文本被搜索的过程中获取的文本集信息就接近需求。

6.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：步骤四中的文字文本信息通过Luke lucene索引工具配合分词器对抽取出来的文本建索引，创建的索引域粒度越细，那么在文本被搜索的过程中获取的文本集信息就接近需求。

其中

表示第i对图配对点群之间的相似度，

为灰度相似度，

为距离相似度。

7.根据权利要求1所述的数字学习内容的标注检索方法，其特征在于：特征提取基于AMD中央处理器对数据进行计算。