CN112418088B

CN112418088B - 一种基于众智的视频学习资源提取及知识标注方法及***

Info

Publication number: CN112418088B
Application number: CN202011319851.4A
Authority: CN
Inventors: 杜旭; 李�浩; 班倩茹; 杨娟
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-04-29
Anticipated expiration: 2040-11-23
Also published as: CN112418088A

Abstract

本发明公开了一种基于众智的视频学习资源提取及知识标注方法及***。该方法包括步骤：S1，获取多个用户对视频学习资源中知识点的标注信息，标注信息包括知识点在视频学习资源中的位置标注信息和内容标注信息；S2，根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息。本发明通过判断标注信息集合的置信度，降低了某些用户随意标注视频对标注结果的影响，提高了众智标注的质量和可信度。

Description

一种基于众智的视频学习资源提取及知识标注方法及***

技术领域

本发明属于教育信息技术领域，更具体地，涉及一种基于众智的视频学习资源提取及知识标注方法及***。

背景技术

随着互联网技术的发展，互联网上视频资源也呈知识增长趋势，其中越来越多的视频资源包含有大量的知识价值，这些具有知识价值的视频片段都可应用到教育教学过程中，既能直观展示教学内容，又可吸引学生的注意力。对于这些具有知识价值的视频片段，如何挖掘其中所包含的隐性知识点，并将视频片段与知识点关联起来，使学习者快速高效地获取个性化的学习资源是当前研究的热点。

目前进行视频学习资源提取的方法分为专家手动标注和机器自动标注，依靠少数不同领域中的专家对视频片段进行手动标记，则需要耗费巨大的人力、财力和时间成本；使用机器学习的方法可实现自动标注，但是对于具有隐性知识点的视频片段的提取，机器学习难以实现自动处理，单纯靠机器学习来实现具有隐性知识点的视频片段的提取比较困难。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于众智的视频学习资源提取及知识标注方法及***，一种基于众智的视频学习资源提取及知识标注方法，可以提升提高了众智标注的质量和可信度。

为实现上述目的，按照本发明的第一方面，提供了一种基于众智的视频学习资源提取及知识标注方法，包括步骤：

S1，获取多个用户对视频学习资源中知识点的标注信息，标注信息包括知识点在视频学习资源中的位置标注信息和内容标注信息；

S2，根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息。

优选的，所述S2包括步骤：

S21，初始化片段分割位置容差和用户学科领域置信度，根据位置标注信息和片段分割位置容差将标注信息分类，构建标注信息集合，根据用户学科领域置信度和标注信息，计算标注信息集合的综合置信度；

S22，对于综合置信度达到预设阈值的标注信息集合，根据用户学科领域置信度和位置标注信息进行视频片段提取，获得标注信息集合对应的视频片段；

S23，对于综合置信度达到预设阈值的标注信息集合，基于用户学科置信度对标注信息集合的多个标注信息进行融合和标准化处理，获得标注信息集合对应的视频片段的融合标注信息，融合标注信息包括融合内容标注信息和融合位置标注信息；

S24，计算每个内容标注信息和融合标注信息的内容标注相似度，更新每条标注信息对应的用户学科领域置信度；

S25，计算每个内容标注信息和融合内容标注信息的内容标注差异，计算每个位置标注信息和融合位置标注信息的位置差，根据标注差异与位置差的关系，更新片段分割位置容差。

优选的，所述步骤S24中，若标注信息和融合标注信息的相似度大，则增加用户学科领域置信度，否则，则减小用户学科领域置信度，更新用户学科领域置信度的计算公式为：

subjectCredit′_K表示更新后的用户在第K个学科的用户学科领域置信度，subjectCredit_K表示更新前的用户在第K个学科的用户学科领域置信度，Sim()表示内容标注相似度，SIM₀表示预设调整阈值，η表示预设调整步长，

表示融合标注信息，Mark_i为第i个标注信息。

优选的，所述步骤S25中包括步骤：设置片段分割位置容差更新周期，根据上一更新周期

平均值，调整片段分割位置容差，并且若标注与最后融合结果差异度不随位置差变化，调大片段分割位置容差，否则减小片段分割位置容差，更新片段分割位置容差的计算公式为：

E_f,k为第k个视频片段的标注差异与位置差的关系，N为第k个视频片段的标注信息总数量,，M为上一更新周期的融合标注信息的数量，

为M个E_f,k的平均值，Cov()表示相关性，Difference()表示内容标注差异，Distance()表示位置差，Mark_i,k表示第k个视频片段的第i个标注信息，

表示融合汇聚最终得到的第k个视频片段，E_f0为预设的片段分割位置容差调整参考值，Δ′_P为更新后的片段分割位置容差值，Δ_P为更新前的片段分割位置容差值。

优选的，所述S21包括步骤：

S211，初始化片段分割位置容差和用户学科领域置信度；

S212，遍历标注信息，根据位置标注信息和片段分割位置容差将标注信息分类，将位置标注信息间的位置差在片段分割位置容差内的所有标注信息归为一个集合内，获得标注信息集合；

S213，根据标注信息集合中的所有标注信息，获得标注信息集合的所属学科领域；

S214，获取标注信息集合中每个标注信息对应用户在该标注信息集合所属学科领域的用户学科领域置信度，计算标注信息集合的综合置信度，综合置信度的计算公式为：

其中，SetCredit为标注信息集合的综合置信度，SubjectCredit_K,i表示标注信息集合中第i个标注信息对应用户在该标注信息集合所属学科领域的用户学科领域置信度，N为标注信息集合中标注信息的总数量。

优选的，所述S22中，所述视频片段提取采用基于用户置信度的加权投票方法实现。

优选的，内容标注信息中包括知识点，所述S23包括步骤：

S231，根据标注信息集合中标注信息的知识点，将一个标注信息集合中的标注信息进行分类，获得视频片段中每个知识点的所有标注信息；

S231，将视频片段中每个知识点的所有标注信息进行融合和标准化，获得视频片段中每个知识点的融合标注信息。

优选的，所述步骤S231包括步骤：

获取视频片段中每个知识点的所有标注信息、每个知识点的每条标注信息对应的用户标识和用户学科领域置信度，将视频片段中每个知识点的每条标注信息进行向量化处理，获得向量化文本数据；

将向量化文本数据输入第一长短期记忆人工神经网络中，获得文本分布式表达数据；

将文本分布式表达数据输入第二长短期记忆人工神经网络中，输出预测的摘要分布式表达数据，并且基于用户学科置信度使用注意力机制，调整输入值对输出预测值的影响程度；

将摘要分布式表达数据转换成文本形式，获得视频片段中每个知识点的融合标注信息。

优选的，基于众智的视频学习资源提取及知识标注方法还包括步骤S3：将标记前的视频学习资源作为父视频，获取提取的视频片段相对于父视频的位置偏移量，根据父视频和位置偏移量生成视频头文件，采用父视频和视频头文件的方式进行视频片段管理。

按照本发明的第二方面，提供了一种基于众智的视频学习资源提取及知识标注***，包括：

标注信息采集模块，用于获取多个用户对视频学习资源中知识点的标注信息，标注信息包括知识点在视频学习资源中的位置标注信息和内容标注信息；

标注模块，用于根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息。

总体而言，本发明与现有技术相比，具有有益效果：

(1)该基于众智的视频学习资源提取及知识标注方法及***，通过遍历用户标注信息，根据位置标注信息进行分类，构建标注信息集合，进而计算该类标注信息集合的综合置信度，如置信度达到阈值则进行标准化处理。达到阈值的标注信息集合，综合所有位置标注信息来提取视频片段，并基于用户置信度对标注信息融合。该方法基于用户置信度，判断标注信息集合的置信度，降低了某些用户随意标注视频对标注结果的影响，提高了众智标注的质量和可信度。

(2)该基于众智的视频学习资源提取及知识标注方法及***，在标注信息融合以后，计算用户标注信息与标注结果的相似程度，动态的计算用户在此学科领域的置信度；计算标注信息与视频片段位置的关系，动态确定视频片段标注信息位置容差。此方法能够动态确定用户置信度和标注信息位置容差，提高标注数据的精准度和可信度。

(3)该基于众智的视频学习资源提取及知识标注方法及***，通过采用基于数据块、文件头、知识信息分离存储的虚拟分割策略机制来管理用户分割后的子视频，该方法还可动态的将数据块与文件头进行按需组合，可对虚拟视频进行提取。该方法采用虚拟分割的方式，提高存储空间利用率，提高应用处理能力，降低视频播放延迟。

本发明通过发挥大众智慧的力量，综合考虑用户的置信度，对视频学习资源进行提取，特别适用于自动提取视频中具有隐性知识点的视频片段，进而为各大教育视频资源库提供数据，帮助教育者和学习者获取更多高质量、多维度、多粒度的教育资源。

附图说明

图1是本发明实施例的基于众智的视频学习资源提取及知识标注方法原理示意图；

图2是本发明实施例提供的视频片段提取及标注信息融合的流程图；

图3是本发明实施例提供的基于用户置信度的标注信息融合的原理示意图；

图4是本发明实施例提供的视频片段的资源管理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为本发明实施例的一种基于众智的视频学习资源提取及知识标注方法原理示意图，该方法包括步骤S1至S3。

在S1中，获取多个用户对视频学习资源中知识点的标注信息，标注信息包括知识点在视频学习资源中的位置标注信息和内容标注信息。

若干用户观看视频，根据自己的理解对视频中蕴含某知识点或有助于学习某知识点的片段进行标识，优选的，标识信息包括片段起点和终点位置、标题、知识点、描述信息等，如用户观看视频，发现5:50-8:20处讲述了是小孔成像的原理，即可拖动标记点到相应的位置，然后填写标题：“小孔成像的原理”，知识点：“初中-二年级-物理-小孔成像、光的直线传播”，描述信息：“用一个带有小孔的板遮挡在墙体与物之间，墙体上就会形成物的倒影”。

在S2中，如图2，根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息。

S22，对于综合置信度达到预设阈值的标注信息集合，根据用户学科领域置信度和位置标注信息进行视频片段提取，获得标注信息集合对应的视频片段。

对所标注的片段头尾位置采用基于用户置信度的加权投票的方法进行片段提取，将标注信集合内的头位置和尾位置分别分成头位置组和尾位置组，可对标记点以用户置信度权重计算加权投票数，加权投票数得分最高的标记点作为集合内的节点，即该集合所标记视频片段的头尾位置。

S24，计算每个内容标注信息和融合标注信息的内容标注相似度，更新每条标注信息对应的用户学科领域置信度subjectCredit_K。用户标注与最后融合结果相似度大，则增加用户置信度，否则减小用户置信度。具体算法为：

表示融合标注信息，Mark_i为第i个标注信息。

在进行S21视频片段规整到一个集合时，其片段分割位置范围会根据用户标注信息与融合结果的差异进行动态调整，保证同一视频片段集合尽可能为相似的内容。计算集合内各标注与最终融合结果差异，考察差异与片段头尾位置的关系E_f，更新容差值。如果位置容差Δ_P调整周期到，则根据Δ_P上一调整周期

平均值，调整Δ_P。若标注与最后融合结果差异度不随位置差变化，调大位置容差Δ_P，否则减小位置容差Δ_P。具体算法为：

表示融合汇聚最终得到的第k个视频片段，E_f0为预设的片段分割位置容差调整参考值，可根据实际统计得到Δ′_P为更新后的片段分割位置容差值，Δ_P为更新前的片段分割位置容差值。

S21包括步骤：

(1)初始化片段分割位置容差Δ_P和用户学科领域置信度SubjectCreditK,K为学科领域号。

(2)周期性遍历用户标注信息，根据位置标注信息和片段分割位置容差将标注信息分类，对于头尾位置差都在容差范围内的片段，说明两视频片段非常相似，即可视为同一片段，所标注的标注信息也可视为同一片段的标注，即可归为一个标注信息集合内。

(3)对标注信息集合，根据标注信息进行学科领域分类，确定标注信息所属学科，具体包括将标注信息预处理，采用TF-IDF算法计算标注信息的关键词及权重，然后采用SVM算法获得标注信息所属学科领域。也可集成其他基于机器学习、深度学习的算法模型进行学科领域分类。

(4)根据标注信息所属学科领域，获取该用户在该学科领域下的置信度，进而计算该集合的标注信息综合置信度。标注信息集合的综合置信度计算模型如下：

在S23中，如图3，对于标注信息综合置信度达到阈值的集合，基于用户学科置信度对众人标注信息融合并标准化。

(1)根据标注信息集合中标注信息的知识点，将一个标注信息集合中的标注信息进行分类，获得视频片段中每个知识点的所有标注信息；

(2)将视频片段中每个知识点的所有标注信息进行融合和标准化，获得视频片段中每个知识点的融合标注信息。具体包括：

获取视频片段中每个知识点的所有标注信息、每个知识点的每条标注信息对应的用户标识和用户学科领域置信度，将视频片段中每个知识点的每条标注信息进行向量化处理，获得向量化文本数据。具体地，对标注信息形成三元组，{用户ID、用户学科置信度、[标题、知识点、描述]}，将同一知识点下的标注信息形成语料，并对其进行向量化表示；

将向量化的文本数据传入LSTM模型中，获取文本的分布式表达数据；

基于用户学科置信度使用Attention机制，调整每个输入值对预测值的影响程度；

将文本的分布式表达数据传输到LSTM模型中，进行预测输出摘要的分布式表达。

将摘要的分布式表达转换成文本形式，获得视频片段中每个知识点的融合标注信息，包括标题、知识点、描述信息等数据。

在S3中，如图4，采用基于数据块、文件头、知识信息分离存储的虚拟分割策略机制组织管理视频片段。

特别说明的是，步骤S3并不是必须的步骤，步骤S3这种资源管理是一种优选的资源管理实现方式。

(1)确定视频片段首末点后，我们发现子视频片段是父视频片段的部分数据，所以本方法并未对其产生一个真实的视频片段存储到数据库中，而是按照相关视频文件编码规范，将父视频ID、片段相对于父视频的偏移量生成视频头文件，并存入视频片段头文件数据库中；视频标注信息融合之后，将融合后的视频片段头文件ID和标注信息存储到视频资源数据库中。基于父视频数据块、片段头文件库、资源列表构建符合操作***规范的虚拟文件，支持视频片段在文件操作层面的透明访问，支持视频片段透明进一步标注和分割或合并提取。此方法采用虚拟分割的方式可大大降低生成的众多子视频对存储空间的消耗。

(2)当用户需要浏览、下载或分割虚拟视频片段时，只需动态地将对应的数据库、文件头进行按需组合。其中，涉及到多次分割的数据，根据与距离父视频相对偏移量，逐层递归找到实际数据块位置。

(3)当某一虚拟视频片段被访问频次较高或被分割成的子片段较多时，为了提高应用处理能力，降低视频播放延迟，则将该虚拟视频的头文件与对于视频数据进行拼合形成独立的视频，并更新视频片段数据库相关条目信息。

本发明实施例还提供了一种基于众智的视频学习资源提取及知识标注***，包括：

优选的，基于众智的视频学习资源提取及知识标注***还包括存储模块，存储模块用于将标记前的视频学习资源作为父视频，获取提取的视频片段相对于父视频的位置偏移量，根据父视频和位置偏移量生成视频头文件，采用父视频和视频头文件的方式进行视频片段存储和管理。

***的实现原理、技术效果与上述方法向相同，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于众智的视频学习资源提取及知识标注方法，其特征在于，包括步骤：

S2，根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息；

所述S2包括步骤：

S25，计算每个内容标注信息和融合内容标注信息的内容标注差异，计算每个位置标注信息和融合位置标注信息的位置差，根据标注差异与位置差的关系，更新片段分割位置容差；

所述步骤S24中，若标注信息和融合标注信息的相似度大，则增加用户学科领域置信度，否则，则减小用户学科领域置信度，更新用户学科领域置信度的计算公式为：

表示融合标注信息，Mark_i为第i个标注信息；

所述步骤S25中包括步骤：设置片段分割位置容差更新周期，根据上一更新周期

E_f，k为第k个视频片段的标注差异与位置差的关系，N为第k个视频片段的标注信息总数量，M为上一更新周期的融合标注信息的数量，

为M个E_f，k的平均值，Cov()表示相关性，Difference()表示内容标注差异，Distance()表示位置差，Mark_i，k表示第k个视频片段的第i个标注信息，

2.如权利要求1所述的基于众智的视频学习资源提取及知识标注方法，其特征在于，所述S21包括步骤：

S211，初始化片段分割位置容差和用户学科领域置信度；

其中，SetCredit为标注信息集合的综合置信度，SubjectCredit_K，i表示标注信息集合中第i个标注信息对应用户在该标注信息集合所属学科领域的用户学科领域置信度，N为标注信息集合中标注信息的总数量。

3.如权利要求1所述的基于众智的视频学习资源提取及知识标注方法，其特征在于，所述S22中，所述视频片段提取采用基于用户置信度的加权投票方法实现。

4.如权利要求1所述的基于众智的视频学习资源提取及知识标注方法，其特征在于，内容标注信息中包括知识点，所述S23包括步骤：

S232，将视频片段中每个知识点的所有标注信息进行融合和标准化，获得视频片段中每个知识点的融合标注信息。

5.如权利要求4所述的基于众智的视频学习资源提取及知识标注方法，其特征在于，所述步骤S232包括步骤：

6.如权利要求1所述的基于众智的视频学习资源提取及知识标注方法，其特征在于，还包括步骤S3：将标记前的视频学习资源作为父视频，获取提取的视频片段相对于父视频的位置偏移量，根据父视频和位置偏移量生成视频头文件，采用父视频和视频头文件的方式进行视频片段存储和管理。

7.一种基于众智的视频学习资源提取及知识标注***，其特征在于，包括：

标注模块，用于根据位置标注信息将标注信息分类，构建标注信息集合，计算标注信息集合的综合置信度，若标注信息集合的综合置信度达到预设阈值，则根据标注信息集合从视频学习资源中提取视频片段，并且对标注信息集合的标注信息进行融合处理，获得视频片段的融合标注信息；

所述标注模块的具体实现包括步骤：

表示融合标注信息，Mark_i为第i个标注信息；