CN108805102A - 一种基于深度学习的视频字幕检测与识别方法及*** - Google Patents

一种基于深度学习的视频字幕检测与识别方法及*** Download PDF

Info

Publication number
CN108805102A
CN108805102A CN201810690120.7A CN201810690120A CN108805102A CN 108805102 A CN108805102 A CN 108805102A CN 201810690120 A CN201810690120 A CN 201810690120A CN 108805102 A CN108805102 A CN 108805102A
Authority
CN
China
Prior art keywords
image
video
deep learning
text
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810690120.7A
Other languages
English (en)
Inventor
孙宏亮
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810690120.7A priority Critical patent/CN108805102A/zh
Publication of CN108805102A publication Critical patent/CN108805102A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种基于深度学习的视频字幕检测与识别方法及***,将深度学习算法理论应用于视频文本区域定位与识别过程,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;将纹理特征作为训练样本,利用受限玻尔兹曼机逐层对纹理图像进行增量学习,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像。本发明采用2D‑Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并优化了基于形态学的视频图像去噪方法,再通过OCR***实现字符的识别,提高了OCR***字符识别的准确率。

Description

一种基于深度学习的视频字幕检测与识别方法及***
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于深度学习的视频字幕检测与识别方法及***。
背景技术
目前,业内常用的现有技术是这样的:
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远程教学等大量的多媒体应用,如何在海量视频中检索出所需要的资料显得至关重要。
传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足海量视频检索的需求。因此从20世纪90年代开始,基于内容的视频检索技术成为研究的热点问题,而字幕识别技术正是实现视频检索的关键技术,如果能够自动识别视频中的字幕,则可以得到反映视频内容的文本信息,通过这些文本信息就可以实现基于查询的视频检索。所以,该技术是下一代搜索引擎的关键技术,具有十分重要的研究和应用价值。
视频字幕的检测和识别是视频文本处理的关键技术,尤其是在外语视频翻译处理的过程,字幕检测与识别对于繁杂的翻译工作有极大的促进作用,翻译人员不必对着视频进行查看并手动提取字幕工作,从而极大的解放了翻译人员,使翻译人员工作效率得到质的提升。
本方案采用基于深度学习的识别方法,可以解决复杂高速场景下的文字定位准确度低,文字定位与识别速度慢等问题,具有高效,高速,可迭代,识别率高等特点。
综上所述,现有技术存在的问题是:
(1)传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足海量视频检索的需求。
(2)现有技术在字幕检测上,没有运用基于边缘的检测和分割算法,不能充分利用视频在时间上的冗余信息进行二次过滤以提高准确率。在字幕识别上,现有技术没有用基于连通区域统计的方法来判断视频字幕的颜色,基于局部扫描窗口进行灰度图片的二值化,通过人工智能深度学习的方法将图像中的文字识别出来,不能在视频字幕的检测和识别上取得好的效果。
(3)传统的基于模式识别的技术,由于技术原因,无法满足多场景,高复杂度情况下的正确识别,不同的场景就需要切换不同的算法方式,人力投入成本巨大,效果也不好。
解决上述技术问题的难度和意义:
视频中的文本能够给视频检索和索引提供重要的辅助信息,有时视频中的文本包含了其它地方没有的信息,例如电影片头的字幕,有时视频中的文本是一种重要而简洁的辅助信息,例如体育比赛中的得分、股票价格。如果视频中的文本能够被有效地提取和识别,那么许多高层次的应用,例如视频摘要,人工智能识别就可以更好地实现
由于复杂视频图象中文字的大小,风格,颜色,字体等复杂多变,目前还没有一种算法在各种应用中均能达到令人们满意的效果,往往需要把几种方法结合起来使用。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的视频字幕检测与识别方法及***。
本发明是这样实现的,一种基于深度学习的视频字幕检测与识别方法,所述于深度学习的视频字幕检测与识别方法包括:
将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
接着,将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
之后,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,
最后,再将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别。
进一步,将视频图像通过Gabor滤波器滤波中,利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,二维Gabor函数为
g(x,y)=Kexp{-π[p2(x-x0)2+q2(y-y0)2]}
·exp{-2πj[u0(x-x0)+v0(y-y0)]}
傅里叶变换形式
式中K为Gauss核函数的幅度;(x0,y0)为高斯核函数的中心位置;(u0,v0)为调制频率的中心;(p,q)为Gauss核函数的尺度参数;
设Gauss包络函数的峰值位置(x0,y0)为(0,0),通过计算滤波参数p和q来选择Gabor滤波器;
滤波器的滤波参数p和q通过下公式计算:
Uh和UI分别为纹理图像区域的高频率中心和低频率中心;T为方向数;M为尺度数;λ为Gabor滤波器的周期。
进一步,深度学习网络DBN学习方法包括:无监督学习用于每一层网络的预训练;每次用无监督学习只训练其中一层,将训练结果作为高一层的输入二用自顶而下的监督算法去调整所有层;
假设RBM模型中所有的节点都是随机二值(0,1)变量节点,同时假设全概率分布P(v,h)满足Boltzmann分布,在已知v的情况下,θ={W,a,b}为参数集合,可视节点和隐藏节点的偏置向量用a和b表示,则RBM在状态θ下的概率为
式中Z(θ)为归一化因子,-E(v,h;θ)为分配函数,在给定隐藏层的基础上,可视层的概率为P(v|h),通过自底向上将多个受限玻尔兹曼机组合构建一个。
进一步,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习中,包括:
DBN网络需要进行训练以获得最佳权值,先对纹理特征图像采用RBM进行逐层增量学***衡,再用监督数据,对整个DBN网络进行微调;在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为1的概率值,而H0层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采样后,作为DBN网络的输入。
进一步,将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别,包括:
视频图像文本区域定位从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果;
通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。
本发明的另一目的在于提供一种实现所述基于深度学习的视频字幕检测与识别方法XXX方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于深度学习的视频字幕检测与识别方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于深度学习的视频字幕检测与识别方法。
本发明的另一目的在于提供一种实现所述基于深度学习的视频字幕检测与识别方法的基于深度学习的视频字幕检测与识别***,包括:
纹理特征获取模块,用于将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
深度学习网络DBN构成模块,用于将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
文本图像获取模块,用于利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,
字符识别模块,用于将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别。
本发明的另一目的在于提供一种实现所述基于深度学习的视频字幕检测与识别方法的视频检索***。
综上所述,本发明的优点及积极效果为:
在字幕检测上,本发明运用了基于边缘的检测和分割算法,并充分利用视频在时间上的冗余信息进行二次过滤以提高准确率,准确率提高到了98.5%,在从多场景中定位准确率比较稳定,相较原有的基于模式识别的老方法性能提升了百分之30。
在字幕识别上,首先用基于连通区域统计的方法来判断视频字幕的颜色,然后基于局部扫描窗口进行灰度图片的二值化,最后通过人工智能深度学习的方法将图像中的文字识别出来,并在视频字幕的检测和识别上取得了非常好的效果。
测试数据表明,随着网络层数的增加,DBN网络的正确率逐步提高,网络的逼近能力逐步增强,但是,随着网络层数的增加,网络的复杂度也会不断的增加,网络的泛化力会逐步降低,所以并不是网络层数越多越好。经测试表明4-DBN网络能够满足文本区域的需求。
通过选用100幅不同背景的视频帧图像、字体大小、字体颜色、单行或者多行等情况下,采用如上4种不同方法对文本区域进行定位和对比,测试结果如表
附图说明
图1是本发明实施例提供的基于深度学习的视频字幕检测与识别方法流程图。
图2是本发明实施例提供的循环网络模型示意图。
图3是本发明实施例提供的DBN网络训练流程图。
图4是本发明实施例提供的基于深度学习的视频字幕检测与识别***示意图。
图中:1、纹理特征获取模块;2、深度学习网络DBN构成模块;3、文本图像获取模块;4、字符识别模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的基于深度学习的视频字幕检测与识别方法,采用2D-Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并优化了基于形态学的视频图像去噪方法,再通过OCR***实现字符的识别,以提高OCR***字符识别的准确率。
如图1,本发明将深度学习算法理论应用于视频文本区域定位与识别过程,设计了一种基于纹理特征的逐层增量深度学习算法。首先,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;接着,将纹理特征作为训练样本,利用受限玻尔兹曼机(restrictedboltzmannmachine,RBM)逐层对纹理图像进行增量学习,在学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络(deepbeliefnetwork,DBN),并标记文本区域和背景区域的二值图像;之后,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,最后,再将图像进行二值化、灰度等后续处理,送入到OCR字符识别***进行字符识别。
下面结合具体分析对本发明作进一步描述。
(一)字幕区域检测
在字幕检测和识别的整个过程中,检测是第一步也是比较困难的一步,主要体现在:视频字幕的大小,颜色和风格变化很大,视频字幕背景很复杂,文字和背景的对比度有时候并不明显。而字幕要被正确识别就必须和背景有区分,也就是需要呈现一定的边缘特征和强度带,所以通过对视频帧边缘强度进行分析来检测字幕是一个有效的方法。
(1)逐层增量深度学习视频文本定位算法
字符的纹理具有周期性,并且在一定的频率范围内能量相对集中,所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,Gabor滤波器理论能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息二维Gabor函数定义
其傅里叶变换形式
式中K为Gauss核函数的幅度;(x0,y0)为高斯核函数的中心位置;(u0,v0)为调制频率的中心;(p,q)为Gauss核函数的尺度参数。设Gauss包络函数的峰值位置(x0,y0)为(0,0),通过计算滤波参数p和q来选择Gabor滤波器。
滤波器的滤波参数p和q可通过下图公式计算:
Uh和UI分别为纹理图像区域的高频率中心和低频率中心;T为方向数;M为尺度数;λ为Gabor滤波器的周期。鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成,所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征,并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。
(2)深度学习网络(DBN)的构建
深度学习是机器学习研究领域中的一个新问题,其目的在于建立、模拟人脑进行分析学习的神经网络。深度学习算法是由深信度网络(depthbeliefnetwork,DBN)上的一系列受限玻尔兹曼机(restrictedboltzmannmachine,RBM)的概率模型组成。深度学习算法一般描述过程如下:假设有一个***S,它有n层S1,S2,…,Sn,设输入为I,输出为O,学习的一般过程表示为:I S1 S2,…,Sn O,如果输出O等于输入I,即输入I经过这个***变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,这意味着输入I经过每一层Si,都几乎没有信息的损失,即任何一层Si,都是原有信息(即输入I)的另外一种表示。深度学习算法的核心思路有:①无监督学习用于每一层网络的预训练;②每次用无监督学习只训练其中一层,将其训练结果作为其高一层的输入;③用自顶而下的监督算法去调整所有层。
如图2,假设RBM模型中所有的节点都是随机二值(0,1)变量节点,同时假设全概率分布P(v,h)满足Boltzmann分布,在已知v的情况下,所有的隐藏节点之间是条件独立的Boltzmann机的联合组态的能量可以表示为
(3)网络训练与权值调整
DBN网络需要进行训练以获得最佳权值,通常DBN网络训练包括自底向上非监督学习和自顶向下的监督学习两个部分。
如图3,其过程为先对纹理特征图像采用RBM进行逐层增量学***衡,再用监督数据,对整个DBN网络进行微调.在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为“1”的概率值,而H0层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采样后,作为DBN网络的输入。设深度学习网络结构包含n个隐藏层,每层的节点数分别是L1,L2,…,Ln.纹理特征图像送入到DBN网络中的输入层H0层,不断的调整H0和H1之间权值W0,调整得到的权值W0与初始数据计算出一组新的概率送入H1层,作为H1层的输入数据。重复上述计算过程得到W1,W2,…,Wn-1,最终得到DBN网络的初始权值Wi={W0,W1,W2,…,Wn-1},DBN网络包含n+2层,即H0,H1,H2,…,Hn层和样本标签数据层,其中H0作为输入层,其节点数为64,标签样本层为输出层,中间n层的节点数分别是L1,L2,…,Ln.采用无标注的训练样本构建DBN网络,以H0和H1之间的训练为例,H0和H1层构成了一个RBM,H0与可见层v的节点数相同,H1与隐藏层h的节点数相同,利用交替的吉布斯抽样来调整权值W0,直到RBM收敛。在非监督学习过程中,保存RBM调整得到的权值,并作为自顶向下的监督学习的初始权值。与监督学习过程一样,根据样本的标注,采用梯度下降法再次微调权值,这里,RBM网络和DBN网络采用同样的网络结构,都具有相同的输入层和隐藏层,包括每层的节点数目也都相同,只是DBN网络最后还有一个输出层。
(二)OCR识别
视频图像文本区域定位都是从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果。
通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。
将本发明提出的逐层增量深度学习算法与神经网络、经典Kim方法以及SVM方法对文本区域的定位作对比。采用式中的查全率(RR)、查准率(PR)以及系数F来综合评价这几种方法的使用效果。
其中:c为图像中正确检测到的文本区域个数;m为图像中检测到的文本区域总数;n为图像中实际存在的文本区域总数;F系数用来对各个算法性能进行综合排名,是将查全率和查准率这两个性能的指标线性合并而成。
下面结合效果对本发明作进一步描述。
为分析不同DBN网络结构对算法性能的影响,故测试了不同DBN网络层数的性能。测试数据表明,随着网络层数的增加,DBN网络的正确率逐步提高,网络的逼近能力逐步增强,但是,随着网络层数的增加,网络的复杂度也会不断的增加,网络的泛化力会逐步降低,所以并不是网络层数越多越好。经测试表明4-DBN网络能够满足文本区域的需求。
通过选用100幅不同背景的视频帧图像、字体大小、字体颜色、单行或者多行等情况下,采用如上4种不同方法对文本区域进行定位和对比,测试结果如表
下面结合基于深度学习的视频字幕检测与识别***对本发明作进一步描述。
本发明实施例提供基于深度学习的视频字幕检测与识别***,包括:
纹理特征获取模块1,用于将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
深度学习网络DBN构成模块2,用于将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
文本图像获取模块3,用于利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,
字符识别模块4,用于将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的视频字幕检测与识别方法,其特征在于,所述于深度学习的视频字幕检测与识别方法包括:
(1)将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
(2)将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
(3)利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像;
(4)再将文本图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别。
2.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,将视频图像通过Gabor滤波器滤波中,利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,二维Gabor函数为:
g(x,y)=Kexp{-π[p2(x-x0)2+q2(y-y0)2]}
·exp{-2πj[u0(x-x0)+v0(y-y0)]}
傅里叶变换形式
式中K为Gauss核函数的幅度;(x0,y0)为高斯核函数的中心位置;(u0,v0)为调制频率的中心;(p,q)为Gauss核函数的尺度参数;
设Gauss包络函数的峰值位置(x0,y0)为(0,0),通过计算滤波参数p和q来选择Gabor滤波器;滤波器的滤波参数p和q通过下公式计算:
Uh和UI分别为纹理图像区域的高频率中心和低频率中心;T为方向数;M为尺度数;λ为Gabor滤波器的周期。
3.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,深度学习网络DBN学习方法包括:非监督学习用于每一层网络的预训练;每次用非监督学习只训练其中一层,将训练结果作为高一层的输入;用自顶而下的监督算法去调整所有层;
假设RBM模型中所有的节点都是随机二值(0,1)变量节点,同时假设全概率分布P(v,h)满足Boltzmann分布,在已知v的情况下,θ={W,a,b}为参数集合,可视节点和隐藏节点的偏置向量用a和b表示,则RBM在状态θ下的概率为
式中Z(θ)为归一化因子,-E(v,h;θ)为分配函数,在给定隐藏层的基础上,可视层的概率为P(v|h),通过自底向上将多个受限玻尔兹曼机组合构建。
4.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习中,包括:
DBN网络需要进行训练以获得最佳权值,先对纹理特征图像采用RBM进行逐层增量学***衡,再用监督数据,对整个DBN网络进行微调;在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为1的概率值,而H0层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采样后,作为DBN网络的输入。
5.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别,包括:
视频图像文本区域定位从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果;
通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。
6.一种实现权利要求1~5任意一项所述基于深度学习的视频字幕检测与识别方法的计算机程序。
7.一种实现权利要求1~5任意一项所述基于深度学习的视频字幕检测与识别方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的基于深度学习的视频字幕检测与识别方法。
9.一种实现权利要求1所述基于深度学习的视频字幕检测与识别方法的基于深度学习的视频字幕检测与识别***,其特征在于,基于深度学习的视频字幕检测与识别***包括:
纹理特征获取模块,用于将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
深度学习网络DBN构成模块,用于将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
文本图像获取模块,用于利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,
字符识别模块,用于将图像进行二值化、灰度后续处理,送入到OCR字符识别***进行字符识别。
10.一种实现权利要求1所述基于深度学习的视频字幕检测与识别方法的视频检索***。
CN201810690120.7A 2018-06-28 2018-06-28 一种基于深度学习的视频字幕检测与识别方法及*** Pending CN108805102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810690120.7A CN108805102A (zh) 2018-06-28 2018-06-28 一种基于深度学习的视频字幕检测与识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810690120.7A CN108805102A (zh) 2018-06-28 2018-06-28 一种基于深度学习的视频字幕检测与识别方法及***

Publications (1)

Publication Number Publication Date
CN108805102A true CN108805102A (zh) 2018-11-13

Family

ID=64072283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810690120.7A Pending CN108805102A (zh) 2018-06-28 2018-06-28 一种基于深度学习的视频字幕检测与识别方法及***

Country Status (1)

Country Link
CN (1) CN108805102A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840492A (zh) * 2019-01-25 2019-06-04 厦门商集网络科技有限责任公司 基于深度学习网络的文档识别方法和终端
CN109857906A (zh) * 2019-01-10 2019-06-07 天津大学 基于查询的无监督深度学习的多视频摘要方法
CN109975308A (zh) * 2019-03-15 2019-07-05 维库(厦门)信息技术有限公司 一种基于深度学习的表面检测方法
CN111860472A (zh) * 2020-09-24 2020-10-30 成都索贝数码科技股份有限公司 电视台标检测方法、***、计算机设备及存储介质
CN112135108A (zh) * 2020-09-27 2020-12-25 苏州科达科技股份有限公司 视频流字幕检测方法、***、设备及存储介质
CN112560866A (zh) * 2021-02-25 2021-03-26 江苏东大集成电路***工程技术有限公司 一种基于背景抑制的ocr识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778732A (zh) * 2017-01-16 2017-05-31 哈尔滨理工大学 基于Gabor滤波器的文字信息特征提取与识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778732A (zh) * 2017-01-16 2017-05-31 哈尔滨理工大学 基于Gabor滤波器的文字信息特征提取与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘明珠等: "基于深度学习法的视频文本区域定位与识别", 《哈尔滨理工大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857906A (zh) * 2019-01-10 2019-06-07 天津大学 基于查询的无监督深度学习的多视频摘要方法
CN109857906B (zh) * 2019-01-10 2023-04-07 天津大学 基于查询的无监督深度学习的多视频摘要方法
CN109840492A (zh) * 2019-01-25 2019-06-04 厦门商集网络科技有限责任公司 基于深度学习网络的文档识别方法和终端
CN109975308A (zh) * 2019-03-15 2019-07-05 维库(厦门)信息技术有限公司 一种基于深度学习的表面检测方法
CN111860472A (zh) * 2020-09-24 2020-10-30 成都索贝数码科技股份有限公司 电视台标检测方法、***、计算机设备及存储介质
CN112135108A (zh) * 2020-09-27 2020-12-25 苏州科达科技股份有限公司 视频流字幕检测方法、***、设备及存储介质
CN112560866A (zh) * 2021-02-25 2021-03-26 江苏东大集成电路***工程技术有限公司 一种基于背景抑制的ocr识别方法

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Zhiqiang et al. A review of object detection based on convolutional neural network
CN108805102A (zh) 一种基于深度学习的视频字幕检测与识别方法及***
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN115019123B (zh) 一种遥感图像场景分类的自蒸馏对比学习方法
Liu et al. Subtler mixed attention network on fine-grained image classification
Sumbul et al. Informative and representative triplet selection for multilabel remote sensing image retrieval
CN109299305A (zh) 一种基于多特征融合的空间图像检索***及检索方法
Feng et al. Bag of visual words model with deep spatial features for geographical scene classification
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN114360038B (zh) 基于深度学习的弱监督rpa元素识别方法及***
Fang et al. Detecting Uyghur text in complex background images with convolutional neural network
Liu et al. A new patch selection method based on parsing and saliency detection for person re-identification
CN111461067A (zh) 基于先验知识映射及修正的零样本遥感影像场景识别方法
Naiemi et al. Scene text detection using enhanced extremal region and convolutional neural network
Li et al. Performance comparison of saliency detection
Kumar et al. A technique for human upper body parts movement tracking
CN112613474A (zh) 一种行人重识别的方法和装置
CN110363164A (zh) 一种基于lstm时间一致性视频分析的统一方法
Goswami et al. A comprehensive review on real time object detection using deep learing model
Sun et al. Sample hardness guided softmax loss for face recognition
Pan et al. Leukocyte image segmentation using novel saliency detection based on positive feedback of visual perception
Yong Research on Painting Image Classification Based on Transfer Learning and Feature Fusion
Ji et al. Influence of embedded microprocessor wireless communication and computer vision in Wushu competition referees’ decision support

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication