CN106682669A - 一种图像处理方法及移动终端 - Google Patents

一种图像处理方法及移动终端 Download PDF

Info

Publication number
CN106682669A
CN106682669A CN201611161577.6A CN201611161577A CN106682669A CN 106682669 A CN106682669 A CN 106682669A CN 201611161577 A CN201611161577 A CN 201611161577A CN 106682669 A CN106682669 A CN 106682669A
Authority
CN
China
Prior art keywords
character
image
width
target
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611161577.6A
Other languages
English (en)
Inventor
廖振生
何其佳
姚金银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN HARZONE TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN HARZONE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN HARZONE TECHNOLOGY Co Ltd filed Critical SHENZHEN HARZONE TECHNOLOGY Co Ltd
Priority to CN201611161577.6A priority Critical patent/CN106682669A/zh
Publication of CN106682669A publication Critical patent/CN106682669A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了一种图像处理方法及移动终端,所述方法包括:获取目标图像;对所述目标图像进行文本检测,得到至少一个文本区域图像;对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;采用目标分类器对所述K个字符进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述Q的正整数;根据所述Q个字符的宽度确定目标字符宽度;以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。通过本发明实施例可在移动终端处于单机状态下,快速地提取图像的时间戳。

Description

一种图像处理方法及移动终端
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像处理方法及移动终端。
背景技术
通常情况下,在安防工作中,往往需要对监控视频感兴趣的场景进行标注时间,以便回溯,以及计算两个事件的时间差。目前,对感兴趣的场景标注时间往往通过人工,根据监控视频的标注的日期进行手动录入,较为麻烦。
现有技术中,由于字幕文字非常明显,其文字区域不难找出。文本区域的检测往往基于一些较为成熟的方法,如角点检测、边缘检测、连通域、提取纹理特征等,在移动终端(如手机、平板电脑等)的情况下达不到现实要求。此外,文本背景复杂多样,对分割和识别字符也造成了一定的不良影响。通常情况下,需要先找出文本区域,再对文本区域的字符进行分割,最后通过机器学习的方法来识别分割出的字。目前来看,移动终端在单机状态下,不能较快地提取图像中的时间戳。
发明内容
本发明实施例提供了一种图像处理方法及移动终端,以期快速地提取图像中的时间戳。
本发明实施例第一方面提供了一种图像处理方法,包括:
获取目标图像;
对所述目标图像进行文本检测,得到至少一个文本区域图像;
对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
根据所述Q个字符的宽度确定目标字符宽度;
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
可选地,所述获取目标图像,包括:
获取待处理图像;
采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
可选地,所述对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
计算所述多个差分平方值的差分平方和;
根据所述差分平方和确定目标阈值;
采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
对所述M个候选框进行水平投影,得到所述M个投影矩阵;
将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
可选地,所述对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
确定所述目标图像的积分图;
根据所述积分图确定掩码图;
对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
确定出所述K个编号中的最大值集和最小值集;
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
可选地,所述根据所述Q个字符的宽度确定目标字符宽度,包括:
将所述Q个字符的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
本发明实施例第二方面提供了一种移动终端,包括:
获取单元,用于获取目标图像;
检测单元,用于对所述目标图像进行文本检测,得到至少文本区域图像;
分割单元,用于对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
识别单元,用于采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
确定单元,用于根据所述Q个字符的宽度确定目标字符宽度;
所述识别单元,还具体用于:
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
可选地,所述获取单元包括:
获取模块,用于获取待处理图像;
处理模块,用于采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
可选地,所述检测单元包括:
计算模块,用于计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
所述计算模块,还具体用于:
计算所述多个差分平方值的差分平方和;
第一确定模块,用于根据所述差分平方和确定目标阈值;
检测模块,用于采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
投影模块,用于对所述M个候选框进行水平投影,得到所述M个投影矩阵;
第二确定模块,用于将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
可选地,所述检测单元包括:
第三确定模块,用于确定所述目标图像的积分图;
所述第三确定模块,还具体用于:
根据所述积分图确定掩码图;
编号模块,用于对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
第四确定模块,用于确定出所述K个编号中的最大值集和最小值集;
所述第四确定模块,还具体用于:
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
可选地,所述确定单元具体用于:
将所述Q个字符的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
实施本发明实施例,具有如下有益效果:
通过本发明实施例,获取目标图像,对目标图像进行文本检测,得到至少一个文本区域图像,对该至少一个文本区域图像进行字符分割,得到P个字符区域,P为正整数,采用目标分类器对K个字符进行识别,得到Q个字符和Q个字符中每一字符的宽度,Q为小于K的正整数,根据Q个字符的宽度确定目标字符宽度,以目标字符宽度的滑块对P个字符区域进行识别,得到目标图像的时间戳。如此,移动终端可在单机状态下,快速地提取图像的时间戳。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像处理方法的第二实施例流程示意图;
图1a是本发明实施例提供的时间戳的演示示意图;
图1b是本发明实施例提供的平滑模板的演示示意图;
图2a是本发明实施例提供的一种移动终端的第一实施例结构示意图;
图2b是本发明实施例提供的图2a所描述的移动终端的获取单元的结构示意图;
图2c是本发明实施例提供的图2a所描述的移动终端的检测单元的结构示意图;
图2d是本发明实施例提供的图2a所描述的移动终端的检测单元的又一结构示意图;
图3是本发明实施例提供的一种移动终端的第二实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例所描述移动终端可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID,MobileInternet Devices)或穿戴式设备等,上述仅是举例,而非穷举,包含但不限于上述移动终端。
深度学习作为机器学习研究中的一个新领域,这两年在图像识别、语音识别以及自然语言处理方面取得了巨大的成功。深度学习是通过构建多层神经网络模型来训练数据,可以学习出有用的特征,通过对大量样本学习可以得到很高的识别正确率。但是在同时需要识别多个属性时,已有的深度学习方法往往是通过将各个属性独立出来,为每一个属性训练一个模型,这无疑大大增加了复杂度。因此,如何将各个属性联系起来,通过设计一个模型即可对多个属性进行识别成为当下继续解决的问题。
请参阅图1,为本发明实施例提供的一种图像处理方法的第一实施例流程示意图。本实施例中所描述的图像处理方法,包括以下步骤:
101、获取目标图像。
其中,目标图像可为包含时间戳的图像,如图1a所示。
可选地,上述步骤101中,获取目标图像,可包括如下步骤:
11)、获取待处理图像;
12)、采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
上述步骤11中的待处理图像可为某一视频文件中的一帧,也可以为任一图像。可采用高斯平滑算法对待处理图像进行高斯平滑处理,当然,也可以采用预设模板对待处理图像进行高斯平滑处理。
例如,用移动终端(如手机)进行拍照或者录制视频时,得到的待处理图像(图像或者视频帧)中会出现莫尔条纹,因此,可对待处理图像平滑处理,可以减轻这种干扰。通常情况下,高斯平滑是一种常用的方法,然而,耗时较高,因而,上述预设模板采用了如图2的平滑模板,与现有技术中的平滑模板相比较,本发明实施例的高斯平滑算法,在实际计算中,就不需要与一些浮点数进行相乘了,因而,可加快高斯平滑算法的处理速度更快。如下,上述的预设模板m可表示为:
102、对所述目标图像进行文本检测,得到至少一个文本区域图像。
可选地,上述步骤102中,对所述目标图像进行文本检测,得到至少一个文本区域图像,可包括如下步骤:
21)、计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
22)、计算所述多个差分平方值的差分平方和;
23)、根据所述差分平方和确定目标阈值;
24)、采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
25)、对所述M个候选框进行水平投影,得到所述M个投影矩阵;
26)、将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
具体地,假设目标图像为I,宽为w,高为h,本发明实施例中的文本区域图像可理为感兴趣区域(ROI),其基本步骤可如下:
1、计算水平方向的差分平方d,除第一个像素外,每个像素可以得到一个对应的值,如上可知,该目标图像可定义为I。计算d的总和s;
2、根据总和获得一个用于判断是否为ROI的目标阈值T=λ×s,其中,λ是一个经验值。
3、设置一个宽度w1,w1=w×λ2,λ2的取值范围为(0,1),例如,λ2的取值范围为0.1到0.2之间。
4.设置一个滑动窗口,高度为h,宽度为w,按预设步长在目标图像I内滑动。
5.对滑动窗口内的矩阵做水平方向的投影,得到长度为h的数组(a1,a2,a3,...,ah),若a(i)>T×w1,则该滑动窗口内的第i行被认为是ROI,i为0~h之间符合要求的区域。
其中,在上述处理过程中,由于需要计算投影,该操作为累加操作,而且每次滑窗都要运算,并且要获得感兴趣区域的掩码图,后续还用于分别计算起始及终点的坐标,这意味着需要对连通域编号。因而,对于较大的图像,这些操作比较耗时。
可选地,上述步骤102中,对所述目标图像进行文本检测,得到至少一个文本区域图像,可包括如下步骤:
A)、确定所述目标图像的积分图;
B)、根据所述积分图确定掩码图;
C)、对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
D)、确定出所述K个编号中的最大值集和最小值集;
E)、根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
具体地,假设目标图像为I,宽为w,高为h,本发明实施例中的文本区域图像可理为感兴趣区域(ROI),以下仅以简单示例加以说明,例如,如下:
1.设置一个掩码,其宽为高为
2.对于目标图像I,可按照如下公式计算一个水平方向的积分图:
3.滑窗计算投影过程中,可按照如下公式计算每行的投影大小:
ay=Is(x,y)-Is(x,y-w)
4.目标图像中4×4的区域中,若有大于目标阈值的,则在掩码图对应坐标上标1,掩码图坐标为原图相应坐标的四分之一,向下取整。通过图3可以看出,仅采用四分之一大小的掩码图,也能很好的标出文本区域的候选区域。
因而,得到掩码图后,则可返回各个感兴趣区域的起始坐标和长宽。采用的方法步骤如下:
1.采用4-连通区域的方法,对掩码的每个连通区域进行编号。
2.找出连通区域每个编号的最大值及最小值,由所有最大值组成的集合为最大值集,由所有最小值组成的集合为最小值集,然后,乘以之前掩码缩小的倍数(即扩大4倍),即为目标图像的对应区域。
如此,为ROI区域获取的全部过程,在实际应用中,速度非常快,该部分几乎感觉不到卡顿。
103、对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数。
其中,在提取出文本区域图像以后,其中,有些区域是干扰,有些区域是文本区域。上述文本区域也有各种情况,有些是汉字类的说明,有些是场景文字,如广告牌,车牌等本来就存在的文字。由于仅识别日期,日期的书写格式也比较复杂,有的是XXXX年XX月XX日,有的是XXXX-XX-XX,有的则是XXXX/XX/XX,对采用模分割的方法,造成了一定的困难,所以还需要一些较为复杂的操作。
104、采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数。
105、根据所述Q个字符的宽度确定目标字符宽度。
可选地,上述步骤105中,根据所述Q个字符区域宽度确定目标字符宽度,可包括如下步骤:
将所述Q个字符中宽度中出现次数最多的字符宽度作为所述目标字符宽度。
106、以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
可采用目标分类器对上述P个字符区域进行识别,如此,可得到Q个字符及该Q个字符中每一字符对应的字符宽度,上述Q为小于P的正整数。
可选地,在步骤101之前,可包括如下步骤:
110)、确定正样本集和负样本集;
120)、可采用卷积神经网络对所述正样本集和所述负样本集进行训练,得到目标分类器。
其中,上述步骤104中的目标分类器可对日期的数字进行识别,其主要基于卷积神经网络(CNN)。具体地,可参照如下过程获取正样本集:
第一步:获得一些背景复杂的数字,从网上随机找几个场景丰富的视频帧,然后用加字幕的方法,在任意的位置增加纯数字的字幕;
第二步:从第一步的视频帧中截取出数字,越多越好。
对此,可以先用少量数字训练一个SVM分类器,对这些连通区域分类,保存到对应的类别下,再次挑选的时候,把错误的移动到相应的类别下,这样能大幅度减少工作量。获得了很多复杂背景的数字后,再用这些数字来训练。
另外,还需要挑选一定量的杂质,作为负样本集,然后设置CNN每层参数,实验不同的参数找出较好的层数和每层卷积大小,训练出目标分类器,测试的时候直接用这个目标分类器。得到目标分类器以后,对每一帧图像的操作具体步骤如下:
1.依次获取每个步骤103中得到的至少一个文本区域图像(ROI),令其为R1,若R1长宽满足预设条件,进行下一步操作,否则取下一个ROI。
2.对R1进行二值化获得R2,为克服光照不均,可将区域分成很多小块,每个小块用大津法找出分割阈值,然后对每个小块进行二值化。
3.用4-连通域的方法对R2的连通区域标号。
4.基于当前ROI的起始点,根据R2各连通区域横纵坐标最小值、最大值为xmin,ymin,xmax,ymax,依次从R1截取出每个连通区域最最小横纵坐标和最大横纵坐标所围城的区域D,其宽高为(md,nd)。将D大小重置为(m,n),并做灰度标准化,输入目标分类器识别得出结果r,若r为数字,则记录其md,以及xmin
5.如果该ROI有较多的识别结果为数字,则该ROI可能是日期的字段。直方图统计该集合所有的md
6、统计出最多的那个值,则为可能的宽度。取最常见的宽度,以及该宽度所在直条的前一个,后一个直条内存在的宽度,取均值作为本ROI的数字可能宽度,设这个值为
7、重新对R1宽度大于的连通域,用一个宽度为的滑块进行识别。如果识别出数字,记录结果,坐标,并且使滑块移动否则移动一个较小的步长识别。
8、最后对本ROI的所有结果根据横坐标排序,如果有一模一样的坐标出现,则用第7步的结果覆盖第4步的结果。
每一帧图像的输出往往是一些数字,但是不一定所有的数字都被正确的识别出来,可能被识别成杂质或者其他的数字。这时候,将多张图像的数字串记录下来。
可选地,在视频处理过程中,在步骤106之后,还可以包含如下步骤:
1、首先找到一些时间区域可能的字段,比如“20”,或者,“19”。
2、对于每帧图像,将数字可能字段后面的若干位数排列起来,位数可设置一个预设阈值,比如14个,也可以用户输入,表示时间字符的位数。
3、如果每帧图后面的位数都小于预设阈值,则识别失败,重新获取视频帧。
4、如果有大于一帧的图像后面的位数超过了预设阈值,则可以开始进行投票的方法,除掉最后一位以外(往往是秒,会不停变化)统计各个位的每帧图像每位的值,取出现最多的为这一位的真正预测值
5、如果失败(如投票相等),则重新采集下一个视频帧。
可以看出,通过本发明实施例,获取目标图像,对目标图像进行文本检测,得到至少一个文本区域图像,对至少一个文本区域图像进行字符分割,得到P个字符区域,P为正整数,采用目标分类器对P个字符区域进行识别,得到Q个字符和Q个字符中每一字符的宽度,Q为小于P的正整数,根据Q个字符的宽度确定目标字符宽度,以目标字符宽度的滑块对P个字符区域进行识别,得到目标图像的时间戳。如此,移动终端可在单机状态下,快速地提取图像的时间戳。
与上述一致地,以下为实施上述图像处理方法的装置,具体如下:
请参阅图2a,为本发明实施例提供的一种移动终端的第一实施例结构示意图。本实施例中所描述的移动终端,包括:获取单元201、检测单元202、分割单元203、识别单元204和确定单元205,具体如下:
获取单元201,用于获取目标图像;
检测单元202,用于对所述目标图像进行文本检测,得到至少一个文本区域图像;
分割单元203,用于对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
识别单元204,用于采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
确定单元205,用于根据所述Q个字符的宽度确定目标字符宽度;
所述识别单元204,还具体用于:
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
可选地,如图2b所示,图2b为图2a所描述的移动终端的获取单元201的具体细化结构,所述获取单元201可包括:获取模块2011和处理模块2012,具体如下:
获取模块,用于获取待处理图像;
处理模块,用于采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
可选地,如图2c所示,图2c为图2a所描述的移动终端的检测单元202的具体细化结构,所述检测单元202可包括:计算模块2021、第一确定模块2022、检测模块2023、投影模块2024和第二确定模块2025,具体如下:
计算模块2021,用于计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
所述计算模块2021,还具体用于:
计算所述多个差分平方值的差分平方和;
第一确定模块2022,用于根据所述差分平方和确定目标阈值;
检测模块2023,用于采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
投影模块2024,用于对所述M个候选框进行水平投影,得到所述M个投影矩阵;
第二确定模块,用于将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
可选地,如图2d所示,图2d为图2a所描述的移动终端的检测单元202的又一具体细化结构,所述检测单元202可包括:第三确定模块2026、编号模块2027和第四确定模块2028,具体如下:
第三确定模块2026,用于确定所述目标图像的积分图;
所述第三确定模块2026,还具体用于:
根据所述积分图确定掩码图;
编号模块2027,用于对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
第四确定模块2028,用于确定出所述K个编号中的最大值集和最小值集;
所述第四确定模块2028,还具体用于:
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
可选地,上述确定单元205具体用于:
将所述Q个字符区域的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
可以看出,通过本发明实施例所描述的移动终端,可获取目标图像,对目标图像进行文本检测,得到至少一个文本区域图像,对至少一个文本区域图像进行字符分割,得到P个字符区域,P为正整数,采用目标分类器对P个字符区域进行识别,得到Q个字符区域和Q个字符中每一字符的宽度,Q为小于P的正整数,根据Q个字符的宽度确定目标字符宽度,以目标字符宽度的滑块对P个字符区域进行识别,得到目标图像的时间戳。如此,移动终端可在单机状态下,快速地提取图像的时间戳。
与上述一致地,请参阅图3,为本发明实施例提供的一种移动终端的第二实施例结构示意图。本实施例中所描述的移动终端,包括:至少一个输入设备1000;至少一个输出设备2000;至少一个处理器3000,例如CPU;和存储器4000,上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。
其中,上述输入设备1000具体可为触控面板、物理按键或者鼠标。
上述输出设备2000具体可为显示屏。
上述存储器4000可以是高速RAM存储器,也可为非易失存储器(non-volatilememory),例如磁盘存储器。上述存储器4000用于存储一组程序代码,上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码,执行如下操作:
上述处理器3000,用于:
获取目标图像;
对所述目标图像进行文本检测,得到至少一个文本区域图像;
对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
根据所述Q个字符的宽度确定目标字符宽度;
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
可选地,上述处理器3000获取目标图像,包括:
获取待处理图像;
采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
可选地,上述处理器3000对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
计算所述多个差分平方值的差分平方和;
根据所述差分平方和确定目标阈值;
采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
对所述M个候选框进行水平投影,得到所述M个投影矩阵;
将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
可选地,上述处理器3000对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
确定所述目标图像的积分图;
根据所述积分图确定掩码图;
对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
确定出所述K个编号中的最大值集和最小值集;
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
可选地,上述处理器3000根据所述Q个字符的宽度确定目标字符宽度,包括:
将所述Q个字符的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种图像处理方法的部分或全部步骤。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信***。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种图像处理方法,其特征在于,包括:
获取目标图像;
对所述目标图像进行文本检测,得到至少一个文本区域图像;
对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
根据所述Q个字符的宽度确定目标字符宽度;
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
2.根据权利要求1所述的方法,其特征在于,所述获取目标图像,包括:
获取待处理图像;
采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
计算所述多个差分平方值的差分平方和;
根据所述差分平方和确定目标阈值;
采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
对所述M个候选框进行水平投影,得到所述M个投影矩阵;
将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述目标图像进行文本检测,得到至少一个文本区域图像,包括:
确定所述目标图像的积分图;
根据所述积分图确定掩码图;
对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
确定出所述K个编号中的最大值集和最小值集;
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述Q个字符的宽度确定目标字符宽度,包括:
将所述Q个字符的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
6.一种移动终端,其特征在于,包括:
获取单元,用于获取目标图像;
检测单元,用于对所述目标图像进行文本检测,得到至少一个文本区域图像;
分割单元,用于对所述至少一个文本区域图像进行字符分割,得到P个字符区域,所述P为正整数;
识别单元,用于采用目标分类器对所述P个字符区域进行识别,得到Q个字符和所述Q个字符中每一字符的宽度,所述Q为小于所述P的正整数;
确定单元,用于根据所述Q个字符的宽度确定目标字符宽度;
所述识别单元,还具体用于:
以所述目标字符宽度的滑块对所述P个字符区域进行识别,得到所述目标图像的时间戳。
7.根据权利要求6所述的移动终端,其特征在于,所述获取单元包括:
获取模块,用于获取待处理图像;
处理模块,用于采用预设模板对所述待处理图像进行高斯平滑处理,得到所述目标图像。
8.根据权利要求6所述的移动终端,其特征在于,所述检测单元包括:
计算模块,用于计算所述目标图像的水平方向的差分平方,得到多个差分平方值;
所述计算模块,还具体用于:
计算所述多个差分平方值的差分平方和;
第一确定模块,用于根据所述差分平方和确定目标阈值;
检测模块,用于采用预设滑动窗口对所述目标图像进行检测,得到M个候选框,所述M为大于1的整数;
投影模块,用于对所述M个候选框进行水平投影,得到所述M个投影矩阵;
第二确定模块,用于将所述M个投影矩阵中大于所述目标阈值的N个投影矩阵对应的候选框的区域作为所述至少一个文本区域图像,所述N为小于所述M的正整数。
9.根据权利要求6至8任一项所述的移动终端,其特征在于,所述检测单元包括:
第三确定模块,用于确定所述目标图像的积分图;
所述第三确定模块,还具体用于:
根据所述积分图确定掩码图;
编号模块,用于对所述掩码图中的连通区域进行编号,得到所述K个编号,所述K为正整数;
第四确定模块,用于确定出所述K个编号中的最大值集和最小值集;
所述第四确定模块,还具体用于:
根据所述最小值集和所述最小值集确定所述至少一个文本区域图像。
10.根据权利要求6至8任一项所述的移动终端,其特征在于,所述确定单元具体用于:
将所述Q个字符的宽度中出现次数最多的字符宽度作为所述目标字符宽度。
CN201611161577.6A 2016-12-15 2016-12-15 一种图像处理方法及移动终端 Pending CN106682669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611161577.6A CN106682669A (zh) 2016-12-15 2016-12-15 一种图像处理方法及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611161577.6A CN106682669A (zh) 2016-12-15 2016-12-15 一种图像处理方法及移动终端

Publications (1)

Publication Number Publication Date
CN106682669A true CN106682669A (zh) 2017-05-17

Family

ID=58869038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611161577.6A Pending CN106682669A (zh) 2016-12-15 2016-12-15 一种图像处理方法及移动终端

Country Status (1)

Country Link
CN (1) CN106682669A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460198A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN111652204A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 目标文本区域选择的方法、装置、电子设备和存储介质
CN112418109A (zh) * 2020-11-26 2021-02-26 复旦大学附属中山医院 一种图像处理方法、装置
CN112668573A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 目标检测定位置信度确定方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982331A (zh) * 2012-12-05 2013-03-20 曙光信息产业(北京)有限公司 在图像中识别字符的方法
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982331A (zh) * 2012-12-05 2013-03-20 曙光信息产业(北京)有限公司 在图像中识别字符的方法
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460198A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN111460198B (zh) * 2019-01-18 2023-06-20 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN111652204A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 目标文本区域选择的方法、装置、电子设备和存储介质
CN112418109A (zh) * 2020-11-26 2021-02-26 复旦大学附属中山医院 一种图像处理方法、装置
CN112418109B (zh) * 2020-11-26 2024-05-14 复旦大学附属中山医院 一种图像处理方法、装置
CN112668573A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 目标检测定位置信度确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
EP3916627A1 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN108108732B (zh) 字符辨识***及其字符辨识方法
CN106650740B (zh) 一种车牌识别方法及终端
US8750573B2 (en) Hand gesture detection
CN109583449A (zh) 字符识别方法及相关产品
CN106295502B (zh) 一种人脸检测方法及装置
CN106845331B (zh) 一种图像处理方法及终端
CN106650615B (zh) 一种图像处理方法及终端
CN112784810B (zh) 手势识别方法、装置、计算机设备和存储介质
CN112001932B (zh) 人脸识别方法、装置、计算机设备和存储介质
CN104952083B (zh) 一种基于显著性目标背景建模的视频显著性检测方法
CN106682669A (zh) 一种图像处理方法及移动终端
EP4047509A1 (en) Facial parsing method and related devices
CN110287862B (zh) 基于深度学习的防偷拍检测方法
CN112633313B (zh) 一种网络终端的不良信息识别方法及局域网终端设备
CN108710893A (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN111626163A (zh) 一种人脸活体检测方法、装置及计算机设备
CN111062854A (zh) 检测水印的方法、装置、终端及存储介质
CN111368682A (zh) 一种基于faster RCNN台标检测与识别的方法及***
CN116311214B (zh) 车牌识别方法和装置
CN111696080A (zh) 一种基于静态纹理的人脸欺诈检测方法、***及存储介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及***
CN111160107B (zh) 一种基于特征匹配的动态区域检测方法
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN106295620A (zh) 发型识别方法及发型识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517

RJ01 Rejection of invention patent application after publication