CN111414908B - 一种视频中字幕字符的识别方法及装置 - Google Patents
一种视频中字幕字符的识别方法及装置 Download PDFInfo
- Publication number
- CN111414908B CN111414908B CN202010182005.6A CN202010182005A CN111414908B CN 111414908 B CN111414908 B CN 111414908B CN 202010182005 A CN202010182005 A CN 202010182005A CN 111414908 B CN111414908 B CN 111414908B
- Authority
- CN
- China
- Prior art keywords
- preset
- video frame
- size
- image
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 68
- 102100032202 Cornulin Human genes 0.000 claims abstract description 54
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000013518 transcription Methods 0.000 claims description 21
- 230000035897 transcription Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 6
- 210000000988 bone and bone Anatomy 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种视频中字幕字符的识别方法及装置,方法包括:获取原始视频帧,裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;将待识别视频帧输入字幕位置检测模型中进行处理,得到字幕在待识别视频帧中的位置;根据字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸得到字幕图像;将字幕图像输入字符识别模型中进行处理,由于字符识别模型是对改进后的CRNN模型训练得到的,利用改进后的CRNN模型中的densenet对字幕图像进行特征提取,提高特征提取的准确性,然后将提取的特征输入1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,提高了字符识别的处理速度。
Description
技术领域
本发明涉及字符识别技术领域,更具体的,涉及一种视频中字幕字符的识别方法及装置。
背景技术
视频中的字幕字符是视频内容的重要载体之一,反映了视频内容的语义信息,为海量视频信息的管理和检索提供了重要的线索,因此,识别视频中字幕字符具有重大意义。
目前视频绝大多数都嵌入硬字幕,即字幕与视频片源融合,无法直接对字幕字符进行识别,需要对视频帧中的背景与字幕字符整体作为对象进行识别,然而视频帧中背景复杂,字幕字体效果繁多,字幕字符识别速度慢、准确率低,字幕字符识别效率低下。
发明内容
有鉴于此,本发明提供了一种视频中字幕字符的识别方法,提高了视频中字幕字符的识别效率。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种视频中字幕字符的识别方法,包括:
获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;
根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。
可选的,生成所述第一预设尺寸的训练样本,包括:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
可选的,生成所述第二预设尺寸的训练样本,包括:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
可选的,所述预设字符库包括中文字符、英文字符、数字字符和符号。
可选的,所述将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,包括:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
一种视频中字幕字符的识别装置,包括:
视频帧裁剪单元,用于获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
字幕位置检测单元,用于将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的;
视频帧裁剪单元,用于根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
字符识别单元,用于将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。
可选的,所述装置还包括第一训练样本生成单元,用于:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
可选的,所述装置还包括第二训练样本生成单元,用于:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
可选的,所述预设字符库包括中文字符、英文字符、数字字符和符号。
可选的,所述字符识别单元,具体用于:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种视频中字幕字符的识别方法,字符识别模型是对改进后的CRNN模型训练得到的,改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构,并将循环层替换为1*1卷积层,因此,在利用字符识别模型对字幕图像的识别过程中,先将字幕图像利用densenet网络结构进行特征提取,从而提高特征提取的准确性,然后将提取的特征输入到1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,进一步提高了字符识别的处理速度。
进一步,通过将裁剪后的视频帧输入到字幕位置检测模型,降低了字幕位置检测模型的数据处理量,提高了字幕位置检测模型的处理速度。根据字幕位置检测模型检测得到的字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,将裁剪后得到的字幕图像输入到字符识别模型中进行处理,相对于直接对待识别视频帧进行字符识别,降低了字符识别模型的数据处理量,大幅度的提高了字符的识别速度。可见,本发明公开的视频中字幕字符的识别方法,在提高了识别速度的同时,提高了识别的准确性,进而提高了字幕字符的识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有CRNN模型的结构示意图;
图2为本发明实施例公开的一种视频中字幕字符的识别方法的流程示意图;
图3为本发明实施例公开的改进后的CRNN模型的结构示意图;
图4为本发明实施例公开的生成第一预设尺寸的训练样本和第二预设尺寸的训练样本的方法的流程示意图;
图5为本发明实施例公开的一种视频中字幕字符的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人通过研究发现:传统的光学字符识别技术最为关键的一步是二值化,而在复杂背景下限制了二值化的处理效果,字符识别准确率较低。相对于传统的光学字符识别技术,基于深度学习的字符识别技术的识别准确率较高,现有主要的深度学习的字符识别模型CRNN模型,其结构如图1所示,将视频帧输入到CRNN模型中进行处理,CRNN模型的卷积层中的基础网络结构backbone对视频帧进行初步处理,初步处理后发送至循环层进行处理,循环层将处理结果发送至转录层进行处理,转录层输出最终处理结果。但是,现有的CRNN模型存在以下缺点,导致目前利用CRNN模型进行视频中字幕字符识别的处理速度慢、识别准确率低,识别效率低下:
1、卷积层中的基础网络结构backbone特征提取能力较差;
2、循环层训练和推理的速度较慢,耗时较长。
为了解决上述技术问题,本发明提供了一种视频中字幕字符的识别方法,首先利用字幕位置检测模型对待识别视频帧中的字幕位置进行检测,根据字幕位置检测模型检测得到的字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,将裁剪后得到的字幕图像输入到字符识别模型中进行处理,相对于直接对待识别视频帧进行字符识别,降低了字符识别模型的数据处理量,大幅度的提高了字符的识别速度。字符识别模型是对改进后的CRNN模型训练得到的,改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构,并将循环层替换为1*1卷积层,因此,在利用字符识别模型对字幕图像的识别过程中,先将字幕图像利用densenet网络结构进行特征提取,从而提高特征提取的准确性,然后将提取的特征输入到1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,进一步提高了字符识别的处理速度。
具体的,请参阅图2,本实施例公开的视频中字幕字符的识别方法包括以下步骤:
S101:获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
可以理解的是,字幕一般在原始视频帧的底部,为了降低字幕位置检测模型的数据处理量,对原始视频帧进行裁剪,如裁剪掉位于原始视频帧上部的3/4部分,得到位于原始视频帧底部的1/4部分,再将裁剪得到的视频帧的尺寸调整为第一预设尺寸,即第一预设尺寸的待识别视频帧。
需要说明的是,待识别视频帧的尺寸与字幕位置检测模型所需的输入图像的尺寸相同。
S102:将待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在待识别视频帧中的位置,字幕位置检测模型是利用第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的;
第一预设尺寸可以为604*180,由于第一预设尺寸小于原始视频帧的尺寸,因此,缩小了训练样本的尺寸,降低了yolov3 tiny网络模型的处理数据量,缩短了yolov3 tiny网络模型的训练时间,同时,由于对yolov3 tiny网络模型训练完成后得到的字幕位置检测模型所需输入的图像的尺寸也是第一预设尺寸,也缩短了字幕位置检测模型的处理时间。
调整tiny yolov3模型的输入尺寸为608*180,在tiny yolov3模型中根据此尺寸利用kmeans算法从第一预设尺寸的训练样本中获得anchor锚点值:70,52,111,51,145,52,170,51,202,48,188,55,232,50,215,54,296,51。经过上述优化,相比tiny yolov3模型原输入能更快速检测字幕位置,并且字幕位置更为准确;另外,也避免了其他特效产生的字符对字幕字符检测的影响。
S103:根据字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
由于字幕图像为通过字幕位置检测模型检测后得到的精确的字幕区域图像,仅包括字幕的图像,大幅度降低了字符识别模型的数据处理量,第二预设尺寸为字符识别模型所需输入的图像尺寸。
S104:将字幕图像输入到字符识别模型中进行处理,得到字幕图像的字符识别结果,字符识别模型是利用第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。
首先,字符识别模型的训练样本为第二预设尺寸,如208*32,第二预设尺寸小于原始视频帧的尺寸,缩小了改进后的CRNN模型的训练样本的尺寸,降低了改进后的CRNN模型的数据处理量,提高了改进后的CRNN模型的训练速度。
更重要的是,改进后的CRNN模型对CRNN模型进行了改进,改进后的CRNN模型的结构如图3所示,改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone,1*1卷积层替换了CRNN模型中的循环层。
将字幕图像输入到字符识别模型中的卷积层,使卷积层中的densenet网络结构对字幕图像进行特征提取,并将提取到的特征发送到1*1卷积层,使1*1卷积层进行特征融合得到特征图(feature map),将特征图(feature map)的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图(feature map)发送到所述转录层,使所述转录层对特征图(feature map)进行处理,得到所述字幕图像的字符识别结果。
可见,在利用字符识别模型对字幕图像的识别过程中,先将字幕图像利用densenet网络结构进行特征提取,从而提高特征提取的准确性,然后将提取的特征输入到1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,进一步提高了字符识别的处理速度。
发明人还研究发现,目前利用字符识别模型进行字符识别之前,需要预先训练CRNN模型,而训练CRNN模型需要海量和真实场景一致的样本,并对样本进行标注,标注海量样本非常困难。
为了解决上述技术问题,本发明提供了一种自动生成训练样本的方法,上述实施例中,可以自动生成第一预设尺寸的训练样本和第二预设尺寸的训练样本,请参阅图4,生成第一预设尺寸的训练样本和第二预设尺寸的训练样本的方法包括以下步骤:
S201:获取视频帧集合,视频帧集合包括预设数量的视频帧;
若对影视综艺剧集视频的字母字符识别,可以从真实的影视综艺剧集视频中随机抽取预设数量的视频帧,得到视频帧集合,预设数量如100000。
S202:裁剪掉视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
利用字幕所处视频帧的位置为视频帧底部区域内,以及台标一般处于视频帧顶部区域内的特点,裁剪掉视频帧集合中每个视频帧的顶部预设区域和底部预设区域,留取中间区域,得到背景图集合。
其中,顶部预设区域可以为上部1/4区域,底部预设区域可以为下部1/4区域。
S203:在预设字符库中随机提取预设数量的字符,预设数量的字符的长度在预设长度范围内;
字符库包括中文字符、英文字符、数字字符和符号等,其中,中文字符可以来自《现代汉语常用字表》,总计3500个中文字符,26个英文字符,10个数字字符,以及包括标点符号在内的符号。
预设长度范围为1~20个字符,提取出来的字符只要在此范围内即可。
S204:在预设字体库中随机提取预设数量的字体;
字体库包括字幕常用字体,如粗体、斜体、颜色、边框、阴影等。
S205:分别将预设数量的字体叠加到预设数量的字符中,得到预设数量的字幕;
S206:分别将预设数量的字幕绘制到背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置以及每个背景图中相应字幕的字符标签,得到包含字幕的图像集合;
具体的,可以利用opencv工具将字幕绘制到背景图中。
字幕在相应背景图中的位置可以用x1y1x2y2表示,即字幕在背景图中的左上角点坐标和右下角坐标。
S207:将包含字幕的图像集合中的每个图像的尺寸调整为第一预设尺寸,得到第一预设尺寸的训练样本;
第一预设尺寸的训练样本包括第一预设尺寸的包含字幕的图像和图像中字幕的位置。
S208:将包含字幕的图像集合中的每个图像的尺寸调整为第二预设尺寸,得到第二预设尺寸的训练样本,第二预设尺寸为预设数量的字幕尺寸的平均尺寸。
第二预设尺寸的训练样本包括第二预设尺寸的包含字幕的图像和图像中的字幕标签。
本实施例公开的自动生成训练样本的方法,通过自动生成的方式,节约大量人力标注成本;并且具备灵活的扩展性,可以很方便的增加对字体及变化(包括颜色、阴影、倾斜、描边等等变化)的兼容支持。
基于上述实施例公开的一种视频中字幕字符的识别方法,本实施例对应公开了一种视频中字幕字符的识别装置,请参阅图5,该装置包括:
视频帧裁剪单元501,用于获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
字幕位置检测单元502,用于将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的;
视频帧裁剪单元503,用于根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
字符识别单元504,用于将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。
可选的,所述装置还包括第一训练样本生成单元,用于:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
可选的,所述装置还包括第二训练样本生成单元,用于:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
可选的,所述预设字符库包括中文字符、英文字符、数字字符和符号。
可选的,所述字符识别单元,具体用于:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
本发明公开的一种视频中字幕字符的识别装置,字符识别模型是对改进后的CRNN模型训练得到的,改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构,并将循环层替换为1*1卷积层,因此,在利用字符识别模型对字幕图像的识别过程中,先将字幕图像利用densenet网络结构进行特征提取,从而提高特征提取的准确性,然后将提取的特征输入到1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,进一步提高了字符识别的处理速度。
进一步,通过将裁剪后的视频帧输入到字幕位置检测模型,降低了字幕位置检测模型的数据处理量,提高了字幕位置检测模型的处理速度。根据字幕位置检测模型检测得到的字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,将裁剪后得到的字幕图像输入到字符识别模型中进行处理,相对于直接对待识别视频帧进行字符识别,降低了字符识别模型的数据处理量,大幅度的提高了字符的识别速度。可见,本发明公开的视频中字幕字符的识别方法,在提高了识别速度的同时,提高了识别的准确性,进而提高了字幕字符的识别效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种视频中字幕字符的识别方法,其特征在于,包括:
获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;
根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone,1*1卷积层替换CRNN模型中的循环层;
其中,所述将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,包括:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
2.根据权利要求1所述的方法,其特征在于,生成所述第一预设尺寸的训练样本,包括:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
3.根据权利要求2所述的方法,其特征在于,生成所述第二预设尺寸的训练样本,包括:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
4.根据权利要求2所述的方法,其特征在于,所述预设字符库包括中文字符、英文字符、数字字符和符号。
5.一种视频中字幕字符的识别装置,其特征在于,包括:
视频帧裁剪单元,用于获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
字幕位置检测单元,用于将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3 tiny网络模型进行训练得到的;
视频帧裁剪单元,用于根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
字符识别单元,用于将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone,1*1卷积层替换CRNN模型中的循环层;
其中,所述字符识别单元,具体用于:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括第一训练样本生成单元,用于:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括第二训练样本生成单元,用于:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
8.根据权利要求6所述的装置,其特征在于,所述预设字符库包括中文字符、英文字符、数字字符和符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182005.6A CN111414908B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中字幕字符的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182005.6A CN111414908B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中字幕字符的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414908A CN111414908A (zh) | 2020-07-14 |
CN111414908B true CN111414908B (zh) | 2023-08-29 |
Family
ID=71492956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182005.6A Active CN111414908B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中字幕字符的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414908B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418215A (zh) * | 2020-11-17 | 2021-02-26 | 峰米(北京)科技有限公司 | 一种视频分类识别方法、装置、存储介质和设备 |
CN112633168B (zh) * | 2020-12-23 | 2023-10-31 | 长沙中联重科环境产业有限公司 | 一种垃圾车翻桶动作识别方法、装置及垃圾车 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688784A (zh) * | 2017-08-23 | 2018-02-13 | 福建六壬网安股份有限公司 | 一种基于深层特征和浅层特征融合的字符识别方法及存储介质 |
CN107862315A (zh) * | 2017-11-02 | 2018-03-30 | 腾讯科技(深圳)有限公司 | 字幕提取方法、视频搜索方法、字幕分享方法及装置 |
WO2018099194A1 (zh) * | 2016-11-30 | 2018-06-07 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109753914A (zh) * | 2018-12-28 | 2019-05-14 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌字符识别方法 |
CN109766883A (zh) * | 2018-12-24 | 2019-05-17 | 北京科技大学 | 基于深度神经网络的网络视频字幕的快速提取方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
WO2019232873A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 文字模型训练方法、文字识别方法、装置、设备及介质 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN110728321A (zh) * | 2019-10-11 | 2020-01-24 | 北京一起教育信息咨询有限责任公司 | 识别分式图像的训练方法与装置、识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417788B2 (en) * | 2016-09-21 | 2019-09-17 | Realize, Inc. | Anomaly detection in volumetric medical images using sequential convolutional and recurrent neural networks |
-
2020
- 2020-03-16 CN CN202010182005.6A patent/CN111414908B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018099194A1 (zh) * | 2016-11-30 | 2018-06-07 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN107688784A (zh) * | 2017-08-23 | 2018-02-13 | 福建六壬网安股份有限公司 | 一种基于深层特征和浅层特征融合的字符识别方法及存储介质 |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN107862315A (zh) * | 2017-11-02 | 2018-03-30 | 腾讯科技(深圳)有限公司 | 字幕提取方法、视频搜索方法、字幕分享方法及装置 |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
WO2019232873A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 文字模型训练方法、文字识别方法、装置、设备及介质 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109766883A (zh) * | 2018-12-24 | 2019-05-17 | 北京科技大学 | 基于深度神经网络的网络视频字幕的快速提取方法 |
CN109753914A (zh) * | 2018-12-28 | 2019-05-14 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌字符识别方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN110728321A (zh) * | 2019-10-11 | 2020-01-24 | 北京一起教育信息咨询有限责任公司 | 识别分式图像的训练方法与装置、识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于Trans former编码器的金融文本情感分析方法;李福鹏;付东翔;;电子科技(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111414908A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7403657B2 (en) | Method and apparatus for character string search in image | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
CN111931775B (zh) | 自动获取新闻标题方法、***、计算机设备及存储介质 | |
US7298900B2 (en) | Image processing method, image processing apparatus and image processing program | |
Yang et al. | Lecture video indexing and analysis using video ocr technology | |
CN111414908B (zh) | 一种视频中字幕字符的识别方法及装置 | |
CN110796140B (zh) | 一种字幕检测方法和装置 | |
CN105761201A (zh) | 一种翻译图片中文字的方法 | |
JP2006067585A (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
CN107689070B (zh) | 图表数据结构化提取方法、电子设备及计算机可读存储介质 | |
CN103065146A (zh) | 用于电力通信机房哑设备标识牌的文字识别方法 | |
CN102779276B (zh) | 文本图像识别方法和装置 | |
CN108052955B (zh) | 一种高精度盲文识别方法及*** | |
WO2013152682A1 (zh) | 一种新闻视频字幕标注方法 | |
CN113435438B (zh) | 一种图像和字幕融合的视频报幕板提取及视频切分方法 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN111798542B (zh) | 模型训练方法、数据处理方法及装置、设备、存储介质 | |
CN113434727A (zh) | 一种新闻类长视频描述数据集构建方法 | |
CN113743159A (zh) | 一种应用于电力企业的ocr方法 | |
CN115019310B (zh) | 图文识别方法及设备 | |
CN111611986B (zh) | 一种基于手指交互的焦点文本提取和识别方法及*** | |
KR101911613B1 (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 | |
CN112906693B (zh) | 一种上下标字符识别的方法 | |
Kefali et al. | Localization of scores and average in Algerian baccalaureate transcripts | |
CN117935245A (zh) | 文字识别方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |