CN111414908B

CN111414908B - 一种视频中字幕字符的识别方法及装置

Info

Publication number: CN111414908B
Application number: CN202010182005.6A
Authority: CN
Inventors: 杨杰; 宋施恩; 金义彬; 肖恺吟; 卢海波
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-08-29
Anticipated expiration: 2040-03-16
Also published as: CN111414908A

Abstract

本发明提供了一种视频中字幕字符的识别方法及装置，方法包括：获取原始视频帧，裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；将待识别视频帧输入字幕位置检测模型中进行处理，得到字幕在待识别视频帧中的位置；根据字幕在待识别视频帧中的位置，对待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸得到字幕图像；将字幕图像输入字符识别模型中进行处理，由于字符识别模型是对改进后的CRNN模型训练得到的，利用改进后的CRNN模型中的densenet对字幕图像进行特征提取，提高特征提取的准确性，然后将提取的特征输入1*1卷积层，1*1卷积层相对于耗时较长的循环层处理速度较快，提高了字符识别的处理速度。

Description

一种视频中字幕字符的识别方法及装置

技术领域

本发明涉及字符识别技术领域，更具体的，涉及一种视频中字幕字符的识别方法及装置。

背景技术

视频中的字幕字符是视频内容的重要载体之一，反映了视频内容的语义信息，为海量视频信息的管理和检索提供了重要的线索，因此，识别视频中字幕字符具有重大意义。

目前视频绝大多数都嵌入硬字幕，即字幕与视频片源融合，无法直接对字幕字符进行识别，需要对视频帧中的背景与字幕字符整体作为对象进行识别，然而视频帧中背景复杂，字幕字体效果繁多，字幕字符识别速度慢、准确率低，字幕字符识别效率低下。

发明内容

有鉴于此，本发明提供了一种视频中字幕字符的识别方法，提高了视频中字幕字符的识别效率。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种视频中字幕字符的识别方法，包括：

获取原始视频帧，并裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；

将所述待识别视频帧输入到字幕位置检测模型中进行处理，得到字幕在所述待识别视频帧中的位置，所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的；

根据字幕在所述待识别视频帧中的位置，对所述待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸，得到字幕图像；

将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone。

可选的，生成所述第一预设尺寸的训练样本，包括：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域，得到背景图集合；

在预设字符库中随机提取所述预设数量的字符，所述预设数量的字符的长度在预设长度范围内；

在预设字体库中随机提取所述预设数量的字体；

分别将所述预设数量的字体叠加到所述预设数量的字符中，得到所述预设数量的字幕；

分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中，并记录每个字幕在相应背景图中的位置，得到包含字幕的图像集合；

将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸，得到所述第一预设尺寸的训练样本。

可选的，生成所述第二预设尺寸的训练样本，包括：

在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后，记录每个背景图中相应字幕的字符标签；

将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸，得到所述第二预设尺寸的训练样本，所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。

可选的，所述预设字符库包括中文字符、英文字符、数字字符和符号。

可选的，所述将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，包括：

将所述字幕图像输入到所述字符识别模型中的所述卷积层，使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取，并将提取到的特征发送到所述1*1卷积层，使所述1*1卷积层进行特征融合得到特征图，将特征图的尺寸调整为CRNN模型中循环层的输出尺寸，并将调整后的特征图发送到所述转录层，使所述转录层对特征图进行处理，得到所述字幕图像的字符识别结果。

一种视频中字幕字符的识别装置，包括：

视频帧裁剪单元，用于获取原始视频帧，并裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；

字幕位置检测单元，用于将所述待识别视频帧输入到字幕位置检测模型中进行处理，得到字幕在所述待识别视频帧中的位置，所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的；

视频帧裁剪单元，用于根据字幕在所述待识别视频帧中的位置，对所述待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸，得到字幕图像；

字符识别单元，用于将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone。

可选的，所述装置还包括第一训练样本生成单元，用于：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

在预设字体库中随机提取所述预设数量的字体；

可选的，所述装置还包括第二训练样本生成单元，用于：

可选的，所述字符识别单元，具体用于：

相对于现有技术，本发明的有益效果如下：

本发明公开的一种视频中字幕字符的识别方法，字符识别模型是对改进后的CRNN模型训练得到的，改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构，并将循环层替换为1*1卷积层，因此，在利用字符识别模型对字幕图像的识别过程中，先将字幕图像利用densenet网络结构进行特征提取，从而提高特征提取的准确性，然后将提取的特征输入到1*1卷积层，1*1卷积层相对于耗时较长的循环层处理速度较快，进一步提高了字符识别的处理速度。

进一步，通过将裁剪后的视频帧输入到字幕位置检测模型，降低了字幕位置检测模型的数据处理量，提高了字幕位置检测模型的处理速度。根据字幕位置检测模型检测得到的字幕在待识别视频帧中的位置，对待识别视频帧进行裁剪，将裁剪后得到的字幕图像输入到字符识别模型中进行处理，相对于直接对待识别视频帧进行字符识别，降低了字符识别模型的数据处理量，大幅度的提高了字符的识别速度。可见，本发明公开的视频中字幕字符的识别方法，在提高了识别速度的同时，提高了识别的准确性，进而提高了字幕字符的识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为现有CRNN模型的结构示意图；

图2为本发明实施例公开的一种视频中字幕字符的识别方法的流程示意图；

图3为本发明实施例公开的改进后的CRNN模型的结构示意图；

图4为本发明实施例公开的生成第一预设尺寸的训练样本和第二预设尺寸的训练样本的方法的流程示意图；

图5为本发明实施例公开的一种视频中字幕字符的识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人通过研究发现：传统的光学字符识别技术最为关键的一步是二值化，而在复杂背景下限制了二值化的处理效果，字符识别准确率较低。相对于传统的光学字符识别技术，基于深度学习的字符识别技术的识别准确率较高，现有主要的深度学习的字符识别模型CRNN模型，其结构如图1所示，将视频帧输入到CRNN模型中进行处理，CRNN模型的卷积层中的基础网络结构backbone对视频帧进行初步处理，初步处理后发送至循环层进行处理，循环层将处理结果发送至转录层进行处理，转录层输出最终处理结果。但是，现有的CRNN模型存在以下缺点，导致目前利用CRNN模型进行视频中字幕字符识别的处理速度慢、识别准确率低，识别效率低下：

1、卷积层中的基础网络结构backbone特征提取能力较差；

2、循环层训练和推理的速度较慢，耗时较长。

为了解决上述技术问题，本发明提供了一种视频中字幕字符的识别方法，首先利用字幕位置检测模型对待识别视频帧中的字幕位置进行检测，根据字幕位置检测模型检测得到的字幕在待识别视频帧中的位置，对待识别视频帧进行裁剪，将裁剪后得到的字幕图像输入到字符识别模型中进行处理，相对于直接对待识别视频帧进行字符识别，降低了字符识别模型的数据处理量，大幅度的提高了字符的识别速度。字符识别模型是对改进后的CRNN模型训练得到的，改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构，并将循环层替换为1*1卷积层，因此，在利用字符识别模型对字幕图像的识别过程中，先将字幕图像利用densenet网络结构进行特征提取，从而提高特征提取的准确性，然后将提取的特征输入到1*1卷积层，1*1卷积层相对于耗时较长的循环层处理速度较快，进一步提高了字符识别的处理速度。

具体的，请参阅图2，本实施例公开的视频中字幕字符的识别方法包括以下步骤：

S101：获取原始视频帧，并裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；

可以理解的是，字幕一般在原始视频帧的底部，为了降低字幕位置检测模型的数据处理量，对原始视频帧进行裁剪，如裁剪掉位于原始视频帧上部的3/4部分，得到位于原始视频帧底部的1/4部分，再将裁剪得到的视频帧的尺寸调整为第一预设尺寸，即第一预设尺寸的待识别视频帧。

需要说明的是，待识别视频帧的尺寸与字幕位置检测模型所需的输入图像的尺寸相同。

S102：将待识别视频帧输入到字幕位置检测模型中进行处理，得到字幕在待识别视频帧中的位置，字幕位置检测模型是利用第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的；

第一预设尺寸可以为604*180，由于第一预设尺寸小于原始视频帧的尺寸，因此，缩小了训练样本的尺寸，降低了yolov3 tiny网络模型的处理数据量，缩短了yolov3 tiny网络模型的训练时间，同时，由于对yolov3 tiny网络模型训练完成后得到的字幕位置检测模型所需输入的图像的尺寸也是第一预设尺寸，也缩短了字幕位置检测模型的处理时间。

调整tiny yolov3模型的输入尺寸为608*180，在tiny yolov3模型中根据此尺寸利用kmeans算法从第一预设尺寸的训练样本中获得anchor锚点值：70,52,111,51,145,52,170,51,202,48,188,55,232,50,215,54,296,51。经过上述优化，相比tiny yolov3模型原输入能更快速检测字幕位置，并且字幕位置更为准确；另外，也避免了其他特效产生的字符对字幕字符检测的影响。

S103：根据字幕在待识别视频帧中的位置，对待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸，得到字幕图像；

由于字幕图像为通过字幕位置检测模型检测后得到的精确的字幕区域图像，仅包括字幕的图像，大幅度降低了字符识别模型的数据处理量，第二预设尺寸为字符识别模型所需输入的图像尺寸。

S104：将字幕图像输入到字符识别模型中进行处理，得到字幕图像的字符识别结果，字符识别模型是利用第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone。

首先，字符识别模型的训练样本为第二预设尺寸，如208*32，第二预设尺寸小于原始视频帧的尺寸，缩小了改进后的CRNN模型的训练样本的尺寸，降低了改进后的CRNN模型的数据处理量，提高了改进后的CRNN模型的训练速度。

更重要的是，改进后的CRNN模型对CRNN模型进行了改进，改进后的CRNN模型的结构如图3所示，改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone，1*1卷积层替换了CRNN模型中的循环层。

将字幕图像输入到字符识别模型中的卷积层，使卷积层中的densenet网络结构对字幕图像进行特征提取，并将提取到的特征发送到1*1卷积层，使1*1卷积层进行特征融合得到特征图(feature map)，将特征图(feature map)的尺寸调整为CRNN模型中循环层的输出尺寸，并将调整后的特征图(feature map)发送到所述转录层，使所述转录层对特征图(feature map)进行处理，得到所述字幕图像的字符识别结果。

可见，在利用字符识别模型对字幕图像的识别过程中，先将字幕图像利用densenet网络结构进行特征提取，从而提高特征提取的准确性，然后将提取的特征输入到1*1卷积层，1*1卷积层相对于耗时较长的循环层处理速度较快，进一步提高了字符识别的处理速度。

发明人还研究发现，目前利用字符识别模型进行字符识别之前，需要预先训练CRNN模型，而训练CRNN模型需要海量和真实场景一致的样本，并对样本进行标注，标注海量样本非常困难。

为了解决上述技术问题，本发明提供了一种自动生成训练样本的方法，上述实施例中，可以自动生成第一预设尺寸的训练样本和第二预设尺寸的训练样本，请参阅图4，生成第一预设尺寸的训练样本和第二预设尺寸的训练样本的方法包括以下步骤：

S201：获取视频帧集合，视频帧集合包括预设数量的视频帧；

若对影视综艺剧集视频的字母字符识别，可以从真实的影视综艺剧集视频中随机抽取预设数量的视频帧，得到视频帧集合，预设数量如100000。

S202：裁剪掉视频帧集合中每个视频帧的顶部预设区域和底部预设区域，得到背景图集合；

利用字幕所处视频帧的位置为视频帧底部区域内，以及台标一般处于视频帧顶部区域内的特点，裁剪掉视频帧集合中每个视频帧的顶部预设区域和底部预设区域，留取中间区域，得到背景图集合。

其中，顶部预设区域可以为上部1/4区域，底部预设区域可以为下部1/4区域。

S203：在预设字符库中随机提取预设数量的字符，预设数量的字符的长度在预设长度范围内；

字符库包括中文字符、英文字符、数字字符和符号等，其中，中文字符可以来自《现代汉语常用字表》，总计3500个中文字符，26个英文字符，10个数字字符，以及包括标点符号在内的符号。

预设长度范围为1～20个字符，提取出来的字符只要在此范围内即可。

S204：在预设字体库中随机提取预设数量的字体；

字体库包括字幕常用字体，如粗体、斜体、颜色、边框、阴影等。

S205：分别将预设数量的字体叠加到预设数量的字符中，得到预设数量的字幕；

S206：分别将预设数量的字幕绘制到背景图集合中的每个背景图中，并记录每个字幕在相应背景图中的位置以及每个背景图中相应字幕的字符标签，得到包含字幕的图像集合；

具体的，可以利用opencv工具将字幕绘制到背景图中。

字幕在相应背景图中的位置可以用x1y1x2y2表示，即字幕在背景图中的左上角点坐标和右下角坐标。

S207：将包含字幕的图像集合中的每个图像的尺寸调整为第一预设尺寸，得到第一预设尺寸的训练样本；

第一预设尺寸的训练样本包括第一预设尺寸的包含字幕的图像和图像中字幕的位置。

S208：将包含字幕的图像集合中的每个图像的尺寸调整为第二预设尺寸，得到第二预设尺寸的训练样本，第二预设尺寸为预设数量的字幕尺寸的平均尺寸。

第二预设尺寸的训练样本包括第二预设尺寸的包含字幕的图像和图像中的字幕标签。

本实施例公开的自动生成训练样本的方法，通过自动生成的方式，节约大量人力标注成本；并且具备灵活的扩展性，可以很方便的增加对字体及变化(包括颜色、阴影、倾斜、描边等等变化)的兼容支持。

基于上述实施例公开的一种视频中字幕字符的识别方法，本实施例对应公开了一种视频中字幕字符的识别装置，请参阅图5，该装置包括：

视频帧裁剪单元501，用于获取原始视频帧，并裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；

字幕位置检测单元502，用于将所述待识别视频帧输入到字幕位置检测模型中进行处理，得到字幕在所述待识别视频帧中的位置，所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的；

视频帧裁剪单元503，用于根据字幕在所述待识别视频帧中的位置，对所述待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸，得到字幕图像；

字符识别单元504，用于将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone。

可选的，所述装置还包括第一训练样本生成单元，用于：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

在预设字体库中随机提取所述预设数量的字体；

可选的，所述装置还包括第二训练样本生成单元，用于：

可选的，所述字符识别单元，具体用于：

本发明公开的一种视频中字幕字符的识别装置，字符识别模型是对改进后的CRNN模型训练得到的，改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构，并将循环层替换为1*1卷积层，因此，在利用字符识别模型对字幕图像的识别过程中，先将字幕图像利用densenet网络结构进行特征提取，从而提高特征提取的准确性，然后将提取的特征输入到1*1卷积层，1*1卷积层相对于耗时较长的循环层处理速度较快，进一步提高了字符识别的处理速度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频中字幕字符的识别方法，其特征在于，包括：

将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone，1*1卷积层替换CRNN模型中的循环层；

其中，所述将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，包括：

2.根据权利要求1所述的方法，其特征在于，生成所述第一预设尺寸的训练样本，包括：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

在预设字体库中随机提取所述预设数量的字体；

3.根据权利要求2所述的方法，其特征在于，生成所述第二预设尺寸的训练样本，包括：

4.根据权利要求2所述的方法，其特征在于，所述预设字符库包括中文字符、英文字符、数字字符和符号。

5.一种视频中字幕字符的识别装置，其特征在于，包括：

字符识别单元，用于将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone，1*1卷积层替换CRNN模型中的循环层；

其中，所述字符识别单元，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括第一训练样本生成单元，用于：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

在预设字体库中随机提取所述预设数量的字体；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括第二训练样本生成单元，用于：

8.根据权利要求6所述的装置，其特征在于，所述预设字符库包括中文字符、英文字符、数字字符和符号。