CN114357206A

CN114357206A - 基于语义分析的教育类视频彩色字幕生成方法及***

Info

Publication number: CN114357206A
Application number: CN202210037173.5A
Authority: CN
Inventors: 邵增珍; 董树霞; 孙中志; 肖建新; 韩帅; 李壮壮; 徐卫志
Original assignee: Shandong Womens University
Current assignee: Shandong Womens University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-15

Abstract

本发明公开了基于语义分析的教育类视频彩色字幕生成方法及***，包括：获取待处理的教育类视频；对待处理的教育类视频进行采样，提取出若干个有文本帧；对待处理的教育类视频进行采样，提取出若干个无文本帧；对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；对所有关键帧中的每一帧提取出内容文本和语音文本；根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕。通过获取关键帧来降低存储负担，还可有效提高视频检索速度，对获取所讲述视频的主要内容也很有帮助。

Description

基于语义分析的教育类视频彩色字幕生成方法及***

技术领域

本发明涉及视频摘要和关键帧提取技术领域，特别是涉及基于语义分析的教育类视频彩色字幕生成方法及***。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

彩色字幕是在关键帧的基础上所实现的，视频关键帧提取主要体现视频中各个镜头的显著特征，通过视频关键帧提取能够有效减少视频检索所需要花费的时间，并能够增强视频检索的精确度。近年来短视频迅速崛起，预计未来几年视频数量还将持续高速攀升，其中不可忽视的一部分就是教育类视频。相对于传统的图文数据，视频数据内容更丰富，结构也更为复杂。海量视频数据给学生学习带来便利，但如何快速准确地发现感兴趣的视频成为了一个亟待解决的问题。同时，视频数据一般包括视频序列、场景、镜头、图像帧等，所需存储空间巨大。因此，对视频数据进行摘要处理，仅保留那些信息含有量大、代表性强的视频帧，可在一定程度上解决视频存储和传输中存在的低效问题。

一般来说，关键帧提取研究方法主要包括以下几种：基于镜头边界的关键帧提取算法、基于视频内容的关键帧提取算法和基于聚类的关键帧提取算法。基于镜头边界的关键帧提取算法主要通过现有镜头检测技术对视频进行镜头分割，并从每个镜头中提取固定数量的关键帧。基于视频内容的关键帧提取算法主要通过提取帧的底层特征来获得关键帧，常用特征包括像素。颜色直方图、MPEG-7视觉描述符和纹理等，该类算法往往将第一帧作为关键帧，并依次与后序帧进行相似性比较，当相似度小于设定阈值时将其加入关键帧集，直到检测完毕。基于聚类的关键帧提取算法主要通过考虑镜头内及镜头间的相关性，将具有相似特征的视频帧划分为一类，后依次从每类中选取最具代表性的帧作为关键帧。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：

基于镜头边界方法适合那些视频内容相对简单、场景变化不大或镜头活动较少的视频，对于那些变化方式多样的视频，在提取关键帧是将会导致较大偏差，甚至产生较为严重错误。

基于视频内容的关键帧提取算法具有较强的自适应性性会根据镜头内容自适应在不同位置，提取不同数量的关键帧，但当镜头内容变化较大是，该方法自动生成的关键帧数目往往会很多，算法的冗余性较大。

基于聚类的关键帧提取算法可以很好的表达视频中内容变化，但该算法需要提前对整个视频进行预处理分析，以确定聚类的数量，聚类阈值的选择也会影响关键帧的选取质量，导致冗余或者漏帧。

发明内容

为了解决现有技术的不足，本发明提供了基于语义分析的教育类视频彩色字幕生成方法及***；可以通过获取关键帧来降低存储负担，还可有效提高视频检索速度，这对获取所讲述视频的主要内容也很有帮助。

第一方面，本发明提供了基于语义分析的教育类视频彩色字幕生成方法；

基于语义分析的教育类视频彩色字幕生成方法，包括：

获取待处理的教育类视频；对待处理的教育类视频进行采样，提取出若干个有文本帧；对待处理的教育类视频进行采样，提取出若干个无文本帧；

对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；

对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；

对所有关键帧中的每一帧提取出内容文本和语音文本；根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕。

第二方面，本发明提供了基于语义分析的教育类视频彩色字幕生成***；

基于语义分析的教育类视频彩色字幕生成***，包括：

获取模块，其被配置为：获取待处理的教育类视频；对待处理的教育类视频进行采样，提取出若干个有文本帧；对待处理的教育类视频进行采样，提取出若干个无文本帧；

关键帧提取模块，其被配置为：对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；

汇总模块，其被配置为：对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；

字幕生成模块，其被配置为：对所有关键帧中的每一帧提取出内容文本和语音文本；根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

(1)可以通过获取关键帧来降低存储负担，还可有效提高视频检索速度，这对获取所讲述视频的主要内容也很有帮助。

(2)可以通过获取关键帧来标记彩色字幕。老师在授课过程中，为了更加清楚明白的讲授某个知识点，会通过语言描述方式不断重复强调知识点，通过添加彩色标注来更加直观的突出老师授课重点。

(3)通过在一组由多名用户共同创建的教育类视频摘要基准数据集上进行试验对比发现，本发明方法同传统方法相比，生成的关键字幕不仅能够准确描述视频内容，而且能够较少生成冗余项。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图；

图2为实施例一的字幕提取流程图；

图3为实施例一的语音信号处理流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

结合教育类视频的特殊性状，教育类视频一般是讲课，授课老师会在一定时间内围绕一个或几个知识点展开讲解，因此，相对于其他类视频，教育类视频的内容比较集中，教育视频具有语言重复性、中心思想集中性以及人物单一的特点，无需分辨多声道语音。更容易发现可代表主要内容的关键词。将教育视频帧中的文本作为主要特征，使用文本相似度比较算法和感知哈希算法分别对两部分处理后的帧集进行比对分析取出关键帧，最终按照时间先后顺序生成视频摘要。关键字幕提取是在关键帧提取和音频文本提取的基础上所实现的。

实施例一

本实施例提供了基于语义分析的教育类视频彩色字幕生成方法；

基于语义分析的教育类视频彩色字幕生成方法，包括：

S101：获取待处理的教育类视频；对待处理的教育类视频进行采样，提取出若干个有文本帧；对待处理的教育类视频进行采样，提取出若干个无文本帧；

S102：对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；

S103：对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；

S104：对所有关键帧中的每一帧提取出内容文本和语音文本；根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕。

进一步地，所述S101：对待处理的教育类视频进行采样，提取出若干个有文本帧；具体包括：

对待处理的教育类视频按照设定频率进行采样，提取出若干个有文本帧。

进一步地，所述S101：对待处理的教育类视频进行采样，提取出若干个无文本帧；具体包括：

对待处理的教育类视频按照设定频率进行采样，提取出若干个无文本帧。

进一步地，所述S102：对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；具体包括：

S102a1：采用文本识别方式，对所有的有文本帧进行文本识别；

S102a2：基于TF-IDF权重计算方式，将每一帧识别出来的文本进行向量表示；

S102a3：将首帧视为关键帧；对于非首帧，通过余弦相似度，衡量当前帧与前一帧之间的向量相似度，如果相邻两帧向量相似度小于设定阈值，则将当前帧不作为关键帧；如果相邻两帧向量相似度大于等于设定阈值，则将当前帧作为关键帧。

进一步地，所述S102：对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；具体包括：

S102b1：将每一个无文本帧缩小到设定尺寸；

S102b2：将缩小后的图像灰度化处理；

S102b3：采用离散余弦变换，对灰度化处理后的图像进行分解，得到离散余弦变换矩阵；计算出离散余弦变换矩阵的均值；

S102b4：将离散余弦变换矩阵的每一个元素的像素值与离散余弦变换矩阵均值进行比较，将大于均值的元素设置为1，将小于均值的元素设置为0；得到变换后的离散余弦变换矩阵；

S102b5：基于变换后的离散余弦变换矩阵，生成哈希值，将哈希值作为当前帧的指纹；

S102b6：将首个无文本帧视为关键帧；对于非首个无文本帧，通过汉明距离，衡量当前帧与前一帧之间的相似度，如果汉明距离小于设定阈值，则将当前无文本帧不作为关键帧；如果汉明距离大于等于设定阈值，则将当前无文本帧作为关键帧。

进一步地，所述S103：对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；具体包括：

对有文本帧的关键帧集合和无文本帧的关键帧集合，按照时间顺序对所有关键帧进行排序汇总，得到待处理教育类视频的所有关键帧。

进一步地，所述S104：对所有关键帧中的每一帧提取出内容文本和语音文本；具体包括：

采用光学字符识别(Optical Character Recognition，OCR)算法，对每一个关键帧提取出内容文本；

采用自动语音识别(Automatic Speech Recognition，ASR)，对每一个关键帧所对应时间点的前后设定时间范围内的音频提取出语音文本。

进一步地，所述根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕；具体包括：

如果内容文本与语音文本的相似度大于设定阈值，则给出当前关键帧的彩色字幕；

如果内容文本与语音文本的相似度小于等于设定阈值，则不给出当前关键帧的彩色字幕。

本发明提出一种新的基于帧间文本语义分析的教育类视频关键帧提取算法--KFEVSA(KeyFrame Education Video Semantic Analysis)来实现彩色字幕的标注。首先基于OCR技术进行文本识别，并按照文本帧集和非文本帧集分别存储；然后通过计算文本相似度对文本帧集内的帧文本进行比对，按照先后顺序保留相似度差别较大的帧并生成关键帧集，对非文本帧集应用感知哈希算法度量其相似性并发现代表帧；最后按时间顺序将以上两组帧合并成最终关键帧集。通过关键帧来提取语音文本和图像文本进行相似度比较来获取关键字幕。

KFEVSA算法主要分为三个阶段：首先采用OCR(Optical Character Recognition)文本识别将采样帧分为文本帧集和空文本帧集，其次分别使用文本相似度和感知哈希算法对两帧集进行处理生成各自关键帧集，最后将两组关键帧集按照时间先后顺序依次进行组合生成最终的视频摘要集合。

KFEVSA算法详细过程如图1所示。首先对视频进行3帧/秒采样，以减少视频数据中的冗余，对于给定视频，将采样帧存入集合F＝{f₁,f₂,f₃,…f_i…f_n,}中,其中n为采样帧总数，表示第i帧采样帧。接着采用OCR文本识别技术对F中帧依次进行文本识别，将识别出有文本的帧顺次存入数据库，对识别为空文本的帧也按照顺序并进行标记存入。其次使用向量空间模型中基于TF-IDF权重计算方法，将帧文本以向量的形式进行表示，通过余弦相似度来衡量两帧文本之间的相似性，对极其相似的帧进行过滤，保留下那些差别较大的帧作为关键帧，接着对标记帧，使用感知哈希算法生成帧的指纹，通过汉明距离来度量帧间相似性，取出关键帧。最后对两部分取出的关键帧按照时间先后顺序进行融合，以生成最终的视频静态摘要集合。

第一阶段首先将预处理后的帧文本通过向量空间模型(Vector Space Model,VSM)把文本映射成向量，常用的是TF-IDF(Term Frequency-inverse DocumentFrequency)权重函数计算法，该方法通过计算词频(TF)和逆文本频率(IDF)乘积来计算特征项权重，其中词频(TF)可以通过以下公式进行计算：

其中i表示单词的索引，j表示文本索引，n_i,j表示第i个单词在第j个文本中出现的次数，∑_kn_k,j表示j文本中拥有单词的总数。由此可知，指的是一个给定的单词i在j文件中出现的频率。

逆文本频率(IDF)可通过下式进行计算：

其中|D|表示语料库中文件的总数，分母表示包含词语的文件数目，如果t_i不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|来避免分母为0的情况。接着通过以下公式计算出每个文本向量特征项对应的TF-IDF权重：

TF-IDF_i,j＝TF_i,j×IDF_i (3)

利用上述公式可以较好区分文本中具有代表性的词，并给予较高权重，通过向量空间模型(Vector Space Model,VSM)在计算出各个特征权重之后，将帧文本通过向量进行有效表示。接着通过向量之间的距离来度量相邻帧文本之间的相似性，距离越近表示两帧越相似，反之则越不相似。常用度量文本之间距离的方法有余弦相似度、欧氏距离、马哈顿距离等，相较下本发明选用余弦相似度，通过计算两帧文本向量间余弦值大小来衡量相邻帧相似性，将相邻帧的余弦值依次存入集合C＝{c₁,c₂,c₃,…,c_i,…,c_m}，其中m是余弦值的总个数，为第i个余弦值，余弦值可以通过以下公式进行计算：

其中，X_i、Y_i分别表示相邻两帧文本X和Y经过TF-IDF处理过后词频向量，n表示两文本经过分词和停用词过滤后提取出所有关键词的总和，因为词频不会为负数，所以的取值区间为[0,1]，当距离越接近1时表明两文本越相似，反之则越不相似。

第二阶段，使用感知哈希算法来处理空文本帧，从中选取可代表这一序列的关键帧，利用帧的低频信息来为其生成具有代表性的指纹，具体步骤如下：

(1)将帧缩小到32*32的尺寸，快速去处高频和细节，以此来提高算法的效率；

(2)将缩小后的图片进行灰度化处理，进一步简化其计算量；

(3)通过离散余弦变换(DCT)，将图片分解频率聚集和梯状形，只保留其左上角8*8的矩阵，这部分为图片中最低的频率区块。

(4)将8*8矩阵中64个值取平均，得到DCT均值，并将8*8的DCT矩阵与均值进行比较，大于均值的设置为1，小于均值设置为0；生成一个只含0或1的64位哈希值。

(5)将哈希值视为帧的指纹。

在得到两帧图片哈希指纹后通过汉明距离来度量两帧之间的相似性，通常情况下，如果两帧之间汉明距离小于10，则认为两帧较为相似，反之汉明距离大于10，则认为这两帧不相似，汉明距离具体计算公式如下：

其中p¹ _i,j和p² _i,j分别为两帧图片指纹所对应的哈希位值，i和j为保留的8*8的DCT矩阵的横纵坐标值。

空文本帧提取关键帧，包括：将首帧作为关键帧，后面帧依次与其前一帧进行汉明距离计算，当值小于10时，认为两帧相似，去除前一帧保留该帧，继续和后一帧进行比较，直到找到与之汉明距离大于10的帧，将保留帧作为前一镜头的关键帧，后一帧作为下一镜头的起始关键帧，重复以上操作，直至所有标记帧读取完毕，将所有取出的关键帧按时间先后顺序进行保留。

对生成的两组关键帧集合进行合并处理，以生成最终的教育视频摘要存入SA_f＝{sa_f1,sa_f2,…sa_fi…sa_ft}，其中sa_fi为KFEEVSA生成的第i个关键帧，t为生成关键帧总数。在对两组帧进行存储时按照取帧的时间先后顺序对其进行命名标记，以便于这一步骤的帧合并操作。

如图2所示，本发明在提取到关键帧后使用OCR算法获取关键帧中的内容文本，使用ASR(Automated Speech Recognition)算法获取关键帧时间点前后设定时间范围内的音频对应的语音文本。

上式中W表示文字序列，Y表示语音输入。公式首行表示语音识别的目标是在给定语音输入的情况下，找到可能性最大的文字序列。根据Baye Rule，可以得到公式(6)的第二行，其中分母表示出现这条语音的概率，它相比于求解的文字序列没有参数关系，可以在求解时忽略，进而得到最终公式。公式(6)中的第一行表示给定一个文字序列出现这条音频的概率，它就是语音识别中的声学模型；公式(6)中的第二行表示出现这个文字序列的概率。

如图3所示，ASR(Automated Speech Recognition)算法的工作原理：给音频进行信号处理后，便要按帧拆分，并对拆分出的小段波形按照人耳特征变成多维向量信息将这些帧信息识别成状态再将状态组合形成音素最后将音素组成字词并串连成句。

再获取关键帧中的文本内容与获取每一镜头的时间区间(t_i,t_j)，以镜头的时间区间(t_i,t_j)为参照对语音文本进行片段截取。以某一关键帧文本f_i为参照文本与该语音片段文本v_i使用TF-IDF算法进行文本相似度比较，对重合度高于80％以上的语音文本进行重点标注显示，并在该片段中对那些高频出现的可充当视频标签的词汇w_j也进行标注显示；考虑到书面语和口语化讲述的差异性，本发明在文本相似度比较中进行了语义相似度的考虑，以期望提高关键字幕的提取准确率，最后将获取的关键字幕进行标注。

实施例二

本实施例提供了基于语义分析的教育类视频彩色字幕生成***；

基于语义分析的教育类视频彩色字幕生成***，包括：

此处需要说明的是，上述获取模块、关键帧提取模块、汇总模块和字幕生成模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的***，可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个***，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于语义分析的教育类视频彩色字幕生成方法，其特征是，包括：

2.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，对待处理的教育类视频进行采样，提取出若干个有文本帧；具体包括：

对待处理的教育类视频按照设定频率进行采样，提取出若干个有文本帧；

对待处理的教育类视频进行采样，提取出若干个无文本帧；具体包括：

3.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，对所有的有文本帧进行关键帧提取，得到有文本帧的关键帧集合；具体包括：

采用文本识别方式，对所有的有文本帧进行文本识别；

基于TF-IDF权重计算方式，将每一帧识别出来的文本进行向量表示；

将首帧视为关键帧；对于非首帧，通过余弦相似度，衡量当前帧与前一帧之间的向量相似度，如果相邻两帧向量相似度小于设定阈值，则将当前帧不作为关键帧；如果相邻两帧向量相似度大于等于设定阈值，则将当前帧作为关键帧。

4.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，对所有的无文本帧进行关键帧提取，得到无文本帧的关键帧集合；具体包括：

将每一个无文本帧缩小到设定尺寸；

将缩小后的图像灰度化处理；

采用离散余弦变换，对灰度化处理后的图像进行分解，得到离散余弦变换矩阵；计算出离散余弦变换矩阵的均值；

将离散余弦变换矩阵的每一个元素的像素值与离散余弦变换矩阵均值进行比较，将大于均值的元素设置为1，将小于均值的元素设置为0；得到变换后的离散余弦变换矩阵；

基于变换后的离散余弦变换矩阵，生成哈希值，将哈希值作为当前帧的指纹；

将首个无文本帧视为关键帧；对于非首个无文本帧，通过汉明距离，衡量当前帧与前一帧之间的相似度，如果汉明距离小于设定阈值，则将当前无文本帧不作为关键帧；如果汉明距离大于等于设定阈值，则将当前无文本帧作为关键帧。

5.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，对有文本帧的关键帧集合和无文本帧的关键帧集合进行汇总，得到待处理教育类视频的所有关键帧；具体包括：

6.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，对所有关键帧中的每一帧提取出内容文本和语音文本；具体包括：

采用光学字符识别算法，对每一个关键帧提取出内容文本；

采用自动语音识别，对每一个关键帧所对应时间点的前后设定时间范围内的音频提取出语音文本。

7.如权利要求1所述的基于语义分析的教育类视频彩色字幕生成方法，其特征是，所述根据内容文本和语音文本的相似度，给出对应关键帧的彩色字幕；具体包括：

8.基于语义分析的教育类视频彩色字幕生成***，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。