CN113435438B

CN113435438B - 一种图像和字幕融合的视频报幕板提取及视频切分方法

Info

Publication number: CN113435438B
Application number: CN202110721675.5A
Authority: CN
Inventors: 牟骏杰; 王鑫; 谭媛媛; 沈谦; 李小兰; 李锐
Original assignee: China South Industries Group Automation Research Institute
Current assignee: China South Industries Group Automation Research Institute
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-05-05
Anticipated expiration: 2041-06-28
Also published as: CN113435438A

Abstract

本发明公开了一种图像和字幕融合的视频报幕板提取及视频切分方法及***首先利用Focus结构和CSP结构作为Backbone提取图像特征，再利用FPN和PAN结构作为检测的Neck对特征进行融合，最后利用GIOU_Loss函数进行视频中的报幕板检测工作，根据检测结果，利用Craft对报幕板检测框中文字进行检测，利用Crnn进行识别，利用Ner方式文本识别内容进行实体抽取，根据实体抽取内容和检测到的报幕板信息进行聚类，根据聚类结果，对视频中的各个节目完成切分工作。可以利用报幕板中包含的文本字幕信息配合报幕板检测框进行聚类，在时序的维度上对节目切分点进行确定，保证视频节目切分的准确性。

Description

一种图像和字幕融合的视频报幕板提取及视频切分方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于图像和字幕融合的视频报幕板提取及视频切分方法。

背景技术

目前，人们获取信息的途径多种多样，其中，观看各类视频（如综艺、新闻、体育、电影、电视剧等）成为人们获取信息最直观、最生动的方式之一。但是，随着媒体技术的发展，网络及其他载体上存储的视频越来越多，且一些视频时间较长、信息容量较大，导致人们不易从海量视频中检索到目标视频，即使检索到目标视频，也会因某些视频容量较大，难以从中获取关键信息。因此，对视频的重要信息进行提取，以及对长视频的各个部分进行切分成为热门的研究方向，其中，对上述类型视频的报幕板信息进行识别是提取视频重要信息的基础。

传统的采用人工对视频报幕板的信息进行提取，再利用提取到的报幕板信息进行视频切分，此方式不但费时费力，而且单一地利用提取到的报幕板信息来对视频进行切分容易出现误识别和漏识别等问题，最终导致视频切分效果不理想。此外，通过人工方式提取的信息不可更新。

发明内容

本发明所要解决的技术问题是：传统的采用人工方式对视频报幕板信息进行提取，并单一地利用提取到的报幕板信息进行视频切分的方式效果不理想。目的在于，提供一种基于图像和字幕融合的视频报幕板提取及视频切分方法，解决传统的通过人工进行视频报幕板提取，并单一地利用提取的报幕板信息进行视频切分的方法，其效果不理想的问题。

本发明通过下述技术方案实现：一种图像和字幕融合的视频报幕板提取及视频切分方法，包括以下步骤：

步骤1：建立地标分类的自建数据集；地标分类的自建数据集包括带有地理标志字样的自建数据集；

步骤2：对所述自建数据集进行迭代训练，得到报幕板检测模型；

步骤3：获取待测视频，对所述待测视频按照每隔10帧解码一次的方式，将所述待测视频解码成为多张待测图片；

步骤4：利用所述报幕板检测模型对所述多张待测图片进行检测，得到多个报幕板信息和多个报幕板类别信息；

步骤5：根据所述多个报幕板信息提取多个报幕框，对单个报幕框进行文本检测，获取报幕框的多个整行文本框的位置信息，根据多个整行文本框的位置信息，获取单个报幕框的完整文本框；重复获取每一个报幕框的完整文本框，得到完整文本框信息集合；

步骤6：对所述完整文本框集合进行文本识别，得到文本内容数据集；

步骤7：根据所述完整文本框信息集合和所述文本内容数据集，分别对每个报幕板的文本内容进行实体提取，获取每个报幕框中的关键文本信息，得到关键文本信息数据集；所关键文本信息包括节目名称、演员名字和节目单位；

步骤8：利用所述多个报幕框和所述关键文本信息数据集进行文本聚类，得到文本聚类结果，根据所述文本聚类结果进行视频切分；

所述文本聚类的方法包括：

步骤8.1：获取所述多个报幕框在视频时序上的位置信息，建立位置信息数据集；

步骤8.2：根据所述位置信息数据集，筛选出位置连续的多个报幕框，并对筛选出的多个报幕框进行聚类操作，得到多个报幕框类，每一个报幕框类包括多个位置连续的报幕框；

步骤8.3：针对每一个报幕框类，获取每一个报幕框的时间信息，所述时间信息包括出现时间和消失时间；

步骤8.4：针对聚类后每一个报幕框，获取报幕框中的关键文本信息的出入点信息，将所述出入点信息与每一个报幕框的时间信息取交集，得到每一个报幕框出现的时间点信息；

步骤8.5：根据每一个报幕框出现的时间点信息确定每个视频的切分位置；根据每个视频的切分位置对视频进行切分。

与现有技术相比，本发明通过步骤1至步骤7对待测视频进行报幕板识别、报幕框识别、文本识别和文本提取，先后得到报幕框的位置信息和报幕板的文本字幕信息，并通过步骤8实现文本字幕信息配合报幕板检测框进行聚类。区别于单一地利用报幕板检测结果来对视频进行切分的方式，本发明利用了报幕板在视频中的时序特征，不仅根据报幕板的检测结果确定了报幕框在视频时序中的位置，而且将提取的报幕板文本字幕信息与报幕框信息相融合，共同确定视频的切分点，可进一步提升视频节目的切分点的准确性，增强视频切分效果的鲁棒性，还可获取字幕文本信息。

作为对本发明的进一步描述，所述自建数据集的建立方法为：

步骤1.1：获取多个不同节目类型的带有地理标志字样的报幕板的样例视频，得到视频样本；

步骤1.2：针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本；

步骤1.3：从所述图片样本中筛选出所有带有地理标志字样的报幕板的样例图片，形成报幕板图片样本；

步骤1.4：利用自建标记工具对所述报幕板图片样本中的每一张样例图片进行标记，得到自建数据集。

作为对本发明的进一步描述，所述步骤1.2具体为：针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本；所述步骤1.4具体为：利用自建标记工具，采用COCO数据集的标准标注格式，对所述报幕板图片样本中的每一张样例图片进行标记，得到自建数据集。

作为对本发明的进一步描述，在所述步骤2之前，对所述自建数据集进行数据增强操作；所述数据增强操作包括：

S1：针对所述自建数据集中所有标记的样例图片，采用随机缩放、随机裁剪和随机排布的方式对标记的样例图片进行随机拼接，得到多张随机拼接图片；

S2：复制所述多张随机拼接图片中所有标记的报幕板，并将复制的所有报幕板随机粘贴至提前准备的多张备选图片中，得到重组的自建数据集；

S3：对所述重组的自建数据集进行图片自适应缩放处理和黑白边缩小处理，得到增强的自建数据集。

作为对本发明的进一步描述，所述步骤2具体包括：

步骤2.1：利用Focus结构对增强的自建数据集中所有样例图片进行切片，得到多张大小为320*320*12的特征图；

步骤2.2：对所有大小为320*320*12的特征图进行卷积核为32的卷积操作，得到多张320*320*32的特征图；

步骤2.3：利用CSP结构对所有320*320*32的特征图进行特征提取，得到特征向量集合；

步骤2.4：利用FAN结构和PAN结构对所述特征向量集合进行特征融合，得到显著特征向量集合；

步骤2.5：利用CIOU_Loss函数模型对所述显著特征向量集合进行迭代训练，得到报幕板检测模型。

作为对本发明的进一步描述，所述CIOU_Loss函数模型的数学表达式为：

，其中v是衡量长宽比的参数，。

作为对本发明的进一步描述，对待测视频进行处理的方法为：对所述待测视频按照每隔10帧解码一次的方式，将所述待测视频解码成为多张待测图片。

作为对本发明的进一步描述，所述步骤5具体包括：

步骤5.1：根据所述多个报幕板信息，分别对所述多张待测图片进行crop切分，得到多个报幕框；

步骤5.2：针对单个报幕框，利用Craft模型的U-net结构将报幕框切分为多个整行文本框；

步骤5.3：在所述U-net结构之后增加3个卷积核分别为32，32，16的3*3的卷积层和一个卷积核为16的1*1的卷积输出层；

步骤5.4：针对单个整行文本框，将单个整行文本框依次输入3个卷积核分别为32，32，16的3*3的卷积层和卷积核为16的1*1的卷积输出层，得到多个单字符的中心位置概率和多个字符之间的间隙概率；获取整行文本框中多个单字符的位置信息，根据所述多个单字符的中心位置概率、所述多个字符之间的间隙概率和所述多个单字符的位置信息，得到整行文本框的位置信息；

步骤5.5：针对所述单个报幕框中的多个整行文本框，分别执行步骤5.4，得到单个报幕框中多个整行文本框的位置信息，根据所述多个整行文本框的位置信息，得到单个报幕框的完整文本框；

步骤5.6：对所述多个报幕框，分别执行步骤5.5，获取每个报幕框的完整文本框，得到完整文本框信息集合。

作为对本发明的进一步描述，所述文本识别方法包括：

步骤6.1：利用CNN结构对完整文本框进行特征提取，得到文本特征向量；

步骤6.2：利用双向LSTM模型对所述文本特征向量进行序列预测，得到预测结果；

步骤6.3：利用CTC翻译层对所述预测结果进行翻译，得到完整文本框的文本内容。

作为对本发明的进一步描述，在所述步骤6之前，对完整文本框中的每个整行文本框进行位置修正，所述位置修正的方法为：根据获取整行文本框中多个单字符之间的间距，利用整行文本框中多个单字符的位置信息和多个单字符之间的间距，获取整行文本框的宽度，当宽度阈值ds＜25时，将整行文本框的宽带扩大。

作为对本发明的进一步描述，所述实体提取的方法包括：

步骤7.1：根据所述完整文本框信息集合和所述文本内容数据集，生成待识别文本数据集；

步骤7.2：利用词向量模型将所述待识别文本数据集进行字符分割，得到多个分词；

步骤7.3：利用Lex-BERT模型将所述多个分词转化为多个分词向量；

步骤7.4：利用LSTM网络分别获取每个分词的含义对应于节目名称的概率值、演员名字的概率值和节目单位的概率值，得到概率值集合；

步骤7.5：利用CRF模型对所述多个分词向量进行分析，获取每个分词对应的标签，得到标签数据集，所述标签为节目名称、演员名字和节目单位中的一个；

步骤7.6：根据所述标签数据集、所述概率值集合和预设的概率阈值，对各报幕板中的关键文本信息进行实体提取。

提取的实体为切分好的样本打上标签后，有利于后续的信息整理，内容检索。

作为对本发明的进一步描述，在步骤7之前，对所述多个文本框中的文本内容进行去重归类，具体方法为：根据所述完整文本框信息集合，获取每个完整文本框包含的多个整行文本框的左上角坐标和右下角坐标，得到坐标数据集；根据所述坐标数据集，筛选出左上角坐标和右下角坐标相差10个像素以内的多个整行文本框；根据所述文本内容数据集，利用相似度检测模型，对筛选出的多个整行文本框中的整句字符进行相似度检测，并将相似度＞80%的多个整行文本框中的整句字符进行合并，得到更新的文本内容数据集。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种图像和字幕融合的视频报幕板提取及视频切分方法，可提升确定视频切分点的精确度，从而增强视频切分效果的鲁棒性；

2、本发明一种图像和字幕融合的视频报幕板提取及视频切分方法，确定视频切分点的同时也可获取视频字幕的文本信息；

3、本发明一种图像和字幕融合的视频报幕板提取及视频切分方法，适用于不同类型的节目具有泛化能力；

4、本发明一种图像和字幕融合的视频报幕板提取及视频切分方法，将提取的关键信息作为切分后视频节目的标签，有助于后续的数据入库和快速检索操作。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的Focus结构示意图。

图2为本发明实施例的CSP结构示意图。

图3为本发明实施例的CSP结构中CBL结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本本发明。在其他实施例中，为了避免混淆本本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例

图1为本实施例的视频报幕板提取及视频切分方法流程图。如图所示，本发明一种图像和字幕融合的视频报幕板提取及视频切分方法，通过如下步骤实现：

步骤1：建立地标分类的自建数据集；地标分类的自建数据集包括带有地理标志字样的自建数据集。具体通过以下方式实现：

步骤1.2：对所述视频样本进行处理，得到图片样本。针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本

步骤1.4：利用自建标记工具对所述报幕板图片样本中的每一张样例图片进行标记，得到自建数据集。利用自建标记工具，采用COCO数据集的标准标注格式，对所述报幕板图片样本中的每一张样例图片进行标记，得到自建数据集。

对所述自建数据集进行数据增强操作，所述数据增强操作包括：

步骤2：对所述自建数据集进行迭代训练，得到报幕板检测模型。具体通过以下方式实现：

步骤2.1：利用Focus结构对增强的自建数据集中所有样例图片进行切片，得到多张大小为320*320*12的特征图；其中，Focus结构如图1所示。

步骤2.3：利用CSP结构对所有320*320*32的特征图进行特征提取，得到特征向量集合；CSP结构参考图2，CSP结构中的CBL结构参照图3.

步骤2.5：利用CIOU_Loss函数模型对所述显著特征向量集合进行迭代训练，得到报幕板检测模型。其中CIOU_Loss函数模型的数学表达式为：

，其中v是衡量长宽比的参数，。

步骤3：获取待测视频，对所述待测视频进行处理，得到多张待测图片。对待测视频进行处理的方法为：对所述待测视频按照每隔10帧解码一次的方式，将所述待测视频解码成为多张待测图片。

步骤5：根据所述多个报幕板信息提取多个报幕框，对单个报幕框进行文本检测，获取报幕框的多个整行文本框的位置信息，根据多个整行文本框的位置信息，获取单个报幕框的完整文本框；重复获取每一个报幕框的完整文本框，得到完整文本框信息集合。具体通过以下方式实现：

对完整文本框中的每个整行文本框进行位置修正，所述位置修正的方法为：根据获取整行文本框中多个单字符之间的间距，利用整行文本框中多个单字符的位置信息和多个单字符之间的间距，获取整行文本框的宽度，当宽度阈值ds＜25时，将整行文本框的宽带扩大。

步骤6：对所述完整文本框集合进行文本识别，得到文本内容数据集。具体通过以下方式实现：

对所述多个文本框中的文本内容进行去重归类，具体方法为：

根据所述完整文本框信息集合，获取每个完整文本框包含的多个整行文本框的左上角坐标和右下角坐标，得到坐标数据集；

根据所述坐标数据集，筛选出左上角坐标和右下角坐标相差10个像素以内的多个整行文本框；

根据所述文本内容数据集，利用相似度检测模型，对筛选出的多个整行文本框中的整句字符进行相似度检测，并将相似度＞80%的多个整行文本框中的整句字符进行合并，得到更新的文本内容数据集。

步骤7：根据所述完整文本框信息集合和所述文本内容数据集，分别对每个报幕板的文本内容进行实体提取，获取每个报幕框中的关键文本信息，得到关键文本信息数据集；所关键文本信息包括节目名称、演员名字和节目单位。具体通过下方式实现：

步骤8：利用所述多个报幕框和所述关键文本信息数据集进行文本聚类，得到文本聚类结果，根据所述文本聚类结果进行视频切分。其中，文本聚类的方法包括：

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，包括以下步骤：

所述文本聚类的方法包括：

2.根据权利要求1所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，所述自建数据集的建立方法为：

步骤1.4：利用自建标记工具，采用COCO数据集的标准标注格式，对所述报幕板图片样本中每一张样例图片的报幕板进行标记，得到自建数据集。

3.根据权利要求2所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，在所述步骤2之前，对所述自建数据集进行数据增强操作；所述数据增强操作包括：

S2：采用copy-paste的方式将所有标记的报幕板放入提前准备的数据集中，得到重组的自建数据集；

4.根据权利要求3所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，所述步骤2具体包括：

步骤2.4：利用FPN结构和PAN结构对所述特征向量集合进行特征融合，得到显著特征向量集合；

步骤2.5：利用CIOU_Loss函数模型对所述显著特征向量集合进行迭代训练，得到报幕板检测模型，所述CIOU_Loss函数模型的数学表达式为：

，其中v是衡量长宽比的参数，。

5.根据权利要求1所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，所述步骤5包括：

6.根据权利要求1所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，所述文本识别方法包括：

7.根据权利要求1所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，所述实体提取的方法包括：

8.根据权利要求5所述的一种图像和字幕融合的视频报幕板提取及视频切分方法，其特征在于，在步骤7之前，对所述多个文本框中的文本内容进行去重归类，具体方法为：