CN104834891A - 一种中文图像型垃圾邮件过滤方法及*** - Google Patents

一种中文图像型垃圾邮件过滤方法及*** Download PDF

Info

Publication number
CN104834891A
CN104834891A CN201510083460.XA CN201510083460A CN104834891A CN 104834891 A CN104834891 A CN 104834891A CN 201510083460 A CN201510083460 A CN 201510083460A CN 104834891 A CN104834891 A CN 104834891A
Authority
CN
China
Prior art keywords
image
character
spam
chinese
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510083460.XA
Other languages
English (en)
Inventor
刘亚姝
徐彬
严寒冰
张洪刚
李思远
徐原
胡俊
高胜
何世平
饶毓
徐晓燕
刘婧
党向磊
李世淙
赵宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Beijing University of Civil Engineering and Architecture
National Computer Network and Information Security Management Center
Original Assignee
Beijing University of Posts and Telecommunications
Beijing University of Civil Engineering and Architecture
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Beijing University of Civil Engineering and Architecture, National Computer Network and Information Security Management Center filed Critical Beijing University of Posts and Telecommunications
Priority to CN201510083460.XA priority Critical patent/CN104834891A/zh
Publication of CN104834891A publication Critical patent/CN104834891A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种中文图像型垃圾邮件过滤方法,包括:在图像背景下提取得到图像中的汉字;使用汉字的关键点对汉字的字符特征进行表示;将字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;对垃圾邮件进行过滤。本发明还公开了一种中文图像型垃圾邮件过滤***。本发明在中文图像型垃圾邮件过滤中既能保留一定程度的语义信息,又能快速准确的进行识别,本发明可以在只使用很小的特征库下,得到极低的误识别率和很高的准确率。本发明具有更宽松的字符识别要求,能够适应更多变,背景更复杂的图像;对较广泛的图片都能到达较好的效果;在对中文的过滤应用中,本发明从实际垃圾邮件图像中提取少量关键字样本库,使得算法效率大大提高。

Description

一种中文图像型垃圾邮件过滤方法及***
技术领域
本发明涉及字符识别技术领域,特别是涉及一种中文图像型垃圾邮件过滤方法及***。
背景技术
随着互联网的发展,使用图像作为载体来传递信息已经越来越常见了,很多正常邮件图像常常也含有大量的文本内容。在这样的情况,为了正确区分出垃圾邮件图像就需要一定程度的图像语义信息。
目前,对图像型垃圾邮件的过滤主要有以下四类:
一、基于图像近似特征的过滤技术
这种技术主要利用了垃圾邮件图像的产生机制,即大量的垃圾邮件图像实际上是由很少的图像模板增加一定的随机干扰产生的。因此,可以在邮件服务器端对接收的邮件图像进行聚类分析,从而获取更多的有益信息。美国阿拉巴马大学伯明翰分校的提出利用聚类识别来自相同源的垃圾邮件图像的方法。相同聚类中的图像来自相同源地址的可能性较高,这样有利于对这些地址进行进一步的跟踪分析。利用邮件批量发送的特征,可以通过聚类对来自相同源的批量图像型垃圾邮件进行监测,有利于实时发现可疑的发送者,聚类结果可以作为后续判断的基础依据。这种方式对于降低计算开销,提高***吞吐量具有较好作用,但却很难避免对于正常图像的误判。
二、基于图像文本区域的过滤技术
为了克服具有图像文本内容过滤技术的缺点,一些学者提出利用图像中的文字区域特征进行过滤的方法,从而避免进行文本内容识别。如美国SRI研究所提出定位图像中的文本区域,再将文字区域在整幅图像中所占的面积比值、颜色饱和度、颜色散度等特征送入支持向量机训练后用于判断垃圾邮件图像。美国加州大学的则提出利用图像中内嵌的文字区域特征,标题或者计算机自动生成图像的特征,图像的位置信息特征则构成邮件的特征向量,再同样借助支持向量机进行分类判断。
三、基于图像文本内容的过滤技术
实际上就是基于OCR(Optical Character Recognition,光学字符识别)技术的方法,该类方法首先利用OCR技术将图像中的文字进行识别,然后再使用成熟的文本过滤器进行判决。基于OCR技术的方法因为能够得到图像本身的语义信息,同时能够借用各种成熟的文本过滤技术,往往能够得到在准确率等性能上表现良好。但是其性能受OCR技术限制太大,对含有复杂背景或是中文内容的垃圾邮件图像往往不能准确识别文本并且效率太低。
四、基于图像本身特征的过滤技术
这种方法类似于图像分类,通过提取图像特征,并将其归类为正常图像和垃圾邮件图像。目前,这类方法的区别主要在于提取的图像特征和使用的分类器不同。如美国宾夕法尼亚大学提出利用图像类型、大小、图像高、宽、高宽比、颜色均值、色饱和度、边缘特征、主色调覆盖范围等特征构成图像属性,并利用最大熵和贝叶斯分类器进行判别。美国安全计算公司提出利用图像像素位宽度、高度、图像类型、文件大小、图像面积、压缩比等九个特征用于描述图像的属性再结合决策树和支持向量机来进行判断。电子科技大学的万明成等则提出利用垃圾邮件图像的颜色数量、方差、连续出现的颜色数、主色覆盖范围、色饱和度表示图像的颜色特征,再利用图像特征点的主方向分布特征表示文字分布特征,同时使用支持向量机进行判断。
发明人在发明过程中发现,上面的方法除了基于OCR技术的方法,在本质上都很难抽取图像的语义信息。然而使用OCR技术过滤垃圾邮件图像,一方面识别全部文本信息可能是冗余的,因为对垃圾邮件图像的识别或者类别的判定往往只需要少量的关键字即可。另一方面则受制于OCR技术本身,如效率太低等。其中,OCR技术的效率问题在中文OCR识别中表现的更加严重,因为在中文OCR中识别单位是汉字而并非像英文中少量的字母,而常用的汉字就有3755个。
发明内容
本发明要解决的技术问题是提供一种中文图像型垃圾邮件过滤方法及***,用以解决现有技术对中文图像型垃圾邮件识别效率低的问题。
为解决上述技术问题,本发明提供一种中文图像型垃圾邮件过滤方法,所述方法包括以下步骤:在图像背景下提取得到图像中的汉字;使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点;将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;对所述垃圾邮件进行过滤。
进一步,所述在图像背景下提取得到图像中的汉字的过程具体包括:利用Haar小波变换提取文本区域;将所述文本区域切分为一系列单字符子图。
进一步,所述提取文本区域的过程具体包括:
使用二维离散Harr小波变换,将图像信息变换至4个小波域;
对3个高频域使用最大类间方差法进行二值化,其中根据公式
t=Max{w0(t)×[u0(t)-u]2+w1(t)×[u1(t)-u]2}
选择阈值,其中u代表图像整体的平均灰度;u0(t)和u1(t)分别代表在阈值t下进行分割时背景和前景区域的平均灰度;w0(t)和w1(t)分别代表背景和前景区域
在整体中的比例;
对得到的高频域进行图像闭操作;
对经过闭操作后的高频域进行二维离散Harr小波逆变换,并与原图进行与操作,得到文本区域。
进一步,所述将文本区域切分为一系列单字符子图的过程具体包括:利用2*1的矩形窗对图像进行闭操作;通过使用大小和宽高比条件进行筛选,得到图像中的汉字字符;所述大小条件为在14*14到40*40之间;所述宽高比条件为宽高比在0.7到1.1之间。
进一步,所述使用汉字的关键点对汉字的字符特征进行表示的过程具体包括:提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵;从所述关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
进一步,所述得到关键点邻接矩阵的过程具体包括:
通过Sun-Zhang并行算法对图像进行骨架抽取,得到骨架图;
使用图像邻接矩阵 1 w 1 k . . . w k 1 K w kn . . . w nk N 表示骨架化的汉字,其中N为骨架点的数量;矩阵的对角线元素k表示第k个骨架点;wij表示第j个骨架点相对于第i个骨架点的连接权重;
随机选取一个初始点进行深度优先遍历,在遍历的过程通过公式
W ‾ ( v ) = Σ i N ( v ) w ( i ) N ( v )
分别计算当前点和在遍历方向上下一点在八邻域连接点的数量和连接关系权重,其中N(v)代表当前骨架点v周围的邻接点数量;w(i)则代表第i个邻接点相对于当前点的连接权重。
提取只保留关键点及其连接关系的邻接矩阵 n 1 a 1 k . . . a ij a k 1 n k a kn . . . a nk n m
其中m表示关键点数量;nk代表第k个关键点的编号;aij表示第i个关键点和第j个关键点是相互连接,取值为0或1。
进一步,所述抽取夹角直方图特征的过程具体包括:根据所述关键点邻接矩阵中的连接关系和关键点在骨架图中的位置,得到汉字字形本身所形成的所有夹角;以15度为单位区间,将所有的夹角信息映射成一个12维的特征向量。
进一步,所述抽取相对位置直方图特征的过程具体包括:对汉字的每一个关键点,计算其他所有关键点相对于所述关键点的八卦限分布,得到一个8维的特征向量,所述八卦限以45度为单位划分。
进一步,所述识别出垃圾邮件的过程具体包括:使用最近邻匹配算法,将字符特征与样本库进行匹配,得到最接近的匹配字符特征作为潜在匹配;判断当前字符特征和所述潜在匹配的距离是否大于预先设定的阈值,如果所述距离小于阈值,则将所述潜在匹配的类别标记赋给当前字符特征,否则将当前字符特征标记为其他;重复上述两个步骤,得到图像中所有字符的类别信息;根据所述类别信息,使用分类器对图像的类别进行判定。
进一步,所述方法还包括使用已知的垃圾邮件图像中的字符特征构建样本库,并通过对构建样本库的垃圾邮件图像进行训练,选取所述阈值。
进一步,在识别出垃圾邮件之后,所述方法还包括:将所述垃圾邮件图像中的字符特征加入所述样本库。
本发明还提供一种中文图像型垃圾邮件过滤***,包括检测子***,检测子***包括:字符提取模块,用于在图像背景下提取得到图像中的汉字;汉字特征表示模块,用于使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点;垃圾邮件识别模块,用于将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;过滤模块,用于对所述垃圾邮件进行过滤。
进一步,所述字符提取模块包括:文本区域提取子模块,用于利用Haar小波变换提取文本区域;字符切分子模块,用于将所述文本区域切分为一系列单字符子图。
进一步,所述汉字特征表示模块包括:汉字关键点提取子模块,用于提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵;关键点特征表示子模块,用于从所述关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
进一步,所述***还包括特征训练子***,用于使用已知的垃圾邮件图像中的字符特征构建样本库,并通过对构建样本库的垃圾邮件图像进行训练,选取阈值。
进一步,所述***还包括反馈子***,用于在识别出垃圾邮件之后,将所述垃圾邮件图像中的字符特征加入所述样本库。
本发明有益效果如下:
本发明在中文图像型垃圾邮件过滤中既能保留一定程度的语义信息,又能快速准确的进行识别,本发明可以在只使用很小的特征库下,得到极低的误识别率和很高的准确率。
本发明具有更宽松的字符识别要求,能够适应更多变,背景更复杂的图像;对较广泛的图片都能到达较好的效果;在对中文的过滤应用中,本发明从实际垃圾邮件图像中提取少量关键字样本库,使得算法效率大大提高。
附图说明
图1是本发明实施例的一种中文图像型垃圾邮件过滤方法的流程图;
图2是本发明实施例将图像信息变换至4个小波域的示意图;
图3是本发明实施例的汉字提取的效果图;
图4是本发明实施例在八邻域内权重选取方式的示意图;
图5是本发明实施例的一种中文图像型垃圾邮件过滤***的结构示意图。
具体实施方式
为了解决现有技术很难精确定位具体车辆位置的问题,本发明提供了一种中文图像型垃圾邮件过滤方法,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
为了保留一定程度的语义信息,本发明继承了传统OCR技术的基本框架,依然以图像中出现的字符作为识别单位,对字符进行抽取、特征表示和识别。然而针对垃圾邮件过滤的特点,本发明首先提出了弱化了传统OCR识别要求,更加鲁棒的伪OCR理念,即不需要识别具体字符是什么,只需要“识别”出该字符最可能所属的类别即可。其次,结合汉字的特点,既笔画是其基本组成单位,提出更高效的汉字特征表示方法。最后考虑将近似匹配的理念移植到伪OCR中,如果图像是近似匹配的,那么构成他们的字符也应该是近似匹配的,从而实现基于少量关键特征字符的伪OCR过滤技术原型。
本发明实施例的一种中文图像型垃圾邮件过滤方法如图1所示,所述方法包括以下步骤:
步骤s101,在图像背景下提取得到图像中的汉字。
本实施例中,该步骤具体包括利用Haar小波变换提取文本区域和将所述文本区域切分为一系列单字符子图两个过程。
1.提取文本区域的过程具体包括:
(1)使用二维离散Harr小波变换,将图像信息变换至4个小波域,如图2所示;
(2)对3个高频域HH、LH、HL使用最大类间方差法(OTSU)进行二值化,其中根据公式
t=Max{w0(t)×[u0(t)-u]2+w1(t)×[u1(t)-u]2}
选择OTSU阈值,其中u代表图像整体的平均灰度;u0(t)和u1(t)分别代表在阈值t下进行分割时背景和前景区域的平均灰度;w0(t)和w1(t)分别代表背景和前景区域在整体中的比例。
(3)对得到的高频域进行图像闭操作,其中对HL、LH、HH域分别使用3*5、5*3和5*5的矩形模板;
(4)对经过闭操作后的高频域进行二维离散Harr小波逆变换,并与原图进行与操作,得到文本区域。经过上述文本区域抽取后基本上得到了比较干净的文本区域。
2.将文本区域切分为一系列单字符子图的过程具体包括:
(1)利用2*1的矩形窗对图像进行闭操作,使得图像中汉字间的连通性得到加强,此时可以将图像中的连通区域都视为潜在的汉字字符;
(2)通过使用大小和宽高比条件进行筛选,得到图像中的汉字字符;所述大小条件为在14*14到40*40之间;所述宽高比条件为宽高比在0.7到1.1之间。这样即可切分得到图像中的绝大部分汉字字符了,如图3所示,展示了使用上述算法对汉字进行提取的效果。
步骤s102,使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点。
中文OCR虽然不能像英文那样只识别少量字母,但是汉字同样也是由为数不多的笔画构成的,找到了一个字符的笔画构成,实际上就很大程度上确定了汉字。然而直接对汉字的笔画进行抽取比较困难,本发明使用汉字的关键点对汉字表示和特征提取。
本实施例中,所述使用汉字的关键点对汉字的字符特征进行表示的过程具体包括:
1.提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵。
本实施例中,将汉字的关键点提取看作是汉字字符图像中寻找角点的问题。传统的角点检测算法一方面不能准确的定位关键点,另一方面很难通过这些关键点进一步抽取连接关系。通过分析汉字的结构,发明人发现汉字的骨架实际上刚刚好保存了这两类信息,而且如果能够把骨架上的点进一步分成关键点和连接点,抽取汉字关键点和之间连接关系的问题就被大大简化了。因此本发明提出了一种基于汉字骨架图的深度优先遍历的关键点检测算法,该算法通过在遍历的过程中比较当前点和遍历方向上下一个点的一些邻域特征,不仅能够准确地对关键点进行区分,而且能够唯一的确定关键点之间的连接关系。该算法的具体流程包括:
(1)通过Sun-Zhang并行算法对图像进行骨架抽取,得到骨架图;Sun-Zhang并行算法是现在经常使用的图像细化、骨架抽取技术。
(2)使用图像邻接矩阵 1 w 1 k . . . w k 1 K w kn . . . w nk N 表示骨架化的汉字,其中N为骨架点的数量;矩阵的对角线元素k表示第k个骨架点;wij表示第j个骨架点相对于第i个骨架点的连接权重。
在本发明中对骨架点进行编号的顺序采取从上到下,从左到右的顺序进行。在八邻域内按对相对当前点的连接关系方向选取权重,选取方式如图4所示,其中5代表当前点。
(3)随机选取一个初始点进行深度优先遍历,在遍历的过程通过公式
W ‾ ( v ) = Σ i N ( v ) w ( i ) N ( v )
分别计算当前点和在遍历方向上下一点在八邻域连接点的数量和连接关系权重,其中N(v)代表当前骨架点v周围的邻接点数量;w(i)代表第i个邻接点相对于当前点的连接权重。
此时记c表示当前骨架点,a表示遍历方向上下一个骨架点。通过表1中定义的规则,即可以判定当前点c是属于汉字关键点还是连接点,同时对判定为连接点的骨架点删除多余的连接关系,以保证连接关系的一致性。
表1
(4)提取只保留关键点及其连接关系的邻接矩阵
n 1 a 1 k . . . a ij a k 1 n k a kn . . . a nk n m
其中m表示关键点数量。nk代表第k个关键点的编号;aij表示第i个关键点和第j个关键点是相互连接,取值为0或1。
本实施例中,经过步骤(3)的遍历操作,汉字的连接矩阵中除了关键点以外,所有的连接点都被修剪至只有两个连接关系。选取矩阵中所有关键点作为起点,沿着连接点进行搜素,直到达到另一个关键点结束,就能够提取出只保留了关键点以及它们之间连接关系的邻接矩阵。
2.从关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
一般情况下,不同的汉字往往具有不同数量的关键点,这导致了提取出的关键点邻接矩阵通常具有不同的维度,而且由于矩阵本身的操作难度,使得上面提取的邻接矩阵难以直接作为描述汉字的特征向量。因此在本发明中,从关键点邻接矩阵中二次抽取的夹角直方图特征和相对位置直方图特征被用来作为最终的特征表示方式。
抽取夹角直方图特征的过程具体包括:关键点之间的夹角在很大程度上保留了它们之间的连接关系信息,根据所述关键点邻接矩阵中的连接关系和关键点在骨架图中的位置,得到汉字字形本身所形成的所有夹角;再以15度为单位区间,将所有的夹角信息映射成一个12维的特征向量。
虽然可以认为夹角特征保留了绝大部分的关键点连接信息,然而单单只提取夹角特征往往是不够的,比如对“口”和“十”来说,它们虽然字形相差很多,但是却都具备了相同的夹角特征。因此,在汉字的关键点描述上我们还增加了抽取相对位置直方图特征的过程,该过程具体包括:对汉字的每一个关键点,计算其他所有关键点相对于所述关键点的八卦限分布,得到一个8维的特征向量,所述八卦限以45度为单位划分。
因此最后的汉字关键特征表示实际上就是一个包含了夹角直方图特征和相对位置直方图特征的20维特征向量。
步骤s103,将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件。
该步骤实际上是本发明伪OCR理念的核心,对得到的每一个字符并不去识别对应的文本,而是根据需求的不同,得到字符最可能的类别信息即可。比如在一个只需要对是否为垃圾邮件图像进行判别的***中,得到当前字符是否很可能是垃圾邮件图像字符即可。而在一个要求更高的***中,可能需要知道当前字符是否为***、色情等具体类别。
本实施例中,所述识别出垃圾邮件的过程具体包括:
(1)使用已知的垃圾邮件图像中的字符特征构建样本库,作为分类的实例基础;并通过对构建样本库的垃圾邮件图像进行训练,选取阈值。
(2)使用最近邻匹配算法,将字符特征与样本库进行匹配,得到最接近的匹配字符特征作为潜在匹配,其中使用L1距离作为匹配算法的距离计算公式其中x1i和x2i分别代表两个向量X1和X2在第i个维度上的值。
(3)判断当前字符特征和所述潜在匹配的距离是否大于所述阈值,如果所述距离小于阈值,则将所述潜在匹配的类别标记赋给当前字符特征,否则将当前字符特征标记为其他;
(4)重复步骤(2)和(3),得到图像中所有字符的类别信息;
(5)根据所述类别信息,使用分类器对图像的类别进行判定。现有技术中有各种成熟的分类器,再次不再赘述。
步骤s104,对所述垃圾邮件进行过滤。
本实施例中,在识别出垃圾邮件之后,本发明还包括:将所述垃圾邮件图像中的字符特征加入所述样本库。
本发明实施例的一种中文图像型垃圾邮件过滤***如图5所示,包括检测子***、特征训练子***和反馈子***。
所述特征训练子***用于使用已知的垃圾邮件图像中的字符特征构建样本库,并通过对构建样本库的垃圾邮件图像进行训练,选取阈值。
所述反馈子***用于在识别出垃圾邮件之后,将所述垃圾邮件图像中的字符特征加入所述样本库。
所述检测子***包括字符提取模块、汉字特征表示模块、垃圾邮件识别模块和过滤模块。
所述字符提取模块用于在图像背景下提取得到图像中的汉字;所述字符提取模块包括:用于利用Haar小波变换提取文本区域的文本区域提取子模块,和用于将所述文本区域切分为一系列单字符子图的字符切分子模块。
所述汉字特征表示模块用于使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点。所述汉字特征表示模块包括汉字关键点提取子模块和关键点特征表示子模块;所述汉字关键点提取子模块用于提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵;所述关键点特征表示子模块用于从所述关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
所述垃圾邮件识别模块用于将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;
所述过滤模块用于对所述垃圾邮件进行过滤。
本实施例中,特征训练子***主要负责从少量的样本中生成关键字模板库,解决整个***的启动问题。检测子***主要负责垃圾邮件图像检测,能够使用Pesudo-OCR技术对一副图像进行判定是否为垃圾邮件图像,是本发明的核心部分。而反馈子***则保证了***具有一定的学习能力,能够随着垃圾邮件的演变来更新关键字模板库,从而具有持续的过滤性能。
本发明在中文图像型垃圾邮件过滤中既能保留一定程度的语义信息,又能快速准确的进行识别,本发明可以在只使用很小的特征库下,得到极低的误识别率和很高的准确率。本发明具有更宽松的字符识别要求,能够适应更多变,背景更复杂的图像;对较广泛的图片都能到达较好的效果;在对中文的过滤应用中,本发明从实际垃圾邮件图像中提取少量关键字样本库,使得算法效率大大提高。
本发明降低了传统基于OCR技术的识别需求,使得本发明的伪OCR技术能够适应更多变,背景更复杂的图像。同时因为只需要对少量关键字符特征进行匹配,大大改进了处理中文的OCR效率。
本发明保留了OCR技术的框架,能够保留一定程度的语义信息,对于不仅仅要求判别结果的应用来说具有先天的优势。同时因为只是识别字符的类别信息,而不同的类别可以根据需求的不同灵活调整,因此本发明的伪OCR技术具有更好的适应能力。
本发明将汉字抽象为汉字关键点以及它们之间的连接关系,原理上来说,对于描述汉字具有旋转不变、缩放不变和平移不变等特点,受字体的影响也相对更小,因此更加适合描述汉字。同时因为本发明使用了直方图的统计特征,更加适合在精准度要求不高的情形下进行近似匹配。将特征点的提取考虑成在骨架图像上检测角点的问题,本发明提出的基于图深度遍历的方法因为不仅仅考虑了邻域关系,还考虑了像素点之间连接关系带来的影响,因此具有更好的效果。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (8)

1.一种中文图像型垃圾邮件过滤方法,其特征在于,所述方法包括以下步骤:
在图像背景下提取得到图像中的汉字;
使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点;
将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;
对所述垃圾邮件进行过滤。
2.如权利要求1所述的中文图像型垃圾邮件过滤方法,其特征在于,所述使用汉字的关键点对汉字的字符特征进行表示的过程具体包括:
提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵;
从所述关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
3.如权利要求2所述的中文图像型垃圾邮件过滤方法,其特征在于,所述得到关键点邻接矩阵的过程具体包括:
通过Sun-Zhang并行算法对图像进行骨架抽取,得到骨架图;
使用图像邻接矩阵 1 w 1 k . . . w k 1 K w kn . . . w nk N 表示骨架化的汉字,其中N为骨架点的数量;矩阵的对角线元素k表示第k个骨架点;wij表示第j个骨架点相对于第i个骨架点的连接权重;
随机选取一个初始点进行深度优先遍历,在遍历的过程通过公式
W ‾ ( v ) = Σ i N ( v ) w ( i ) N ( v )
分别计算当前点和在遍历方向上下一点在八邻域连接点的数量和连接关系权重,其中N(v)代表当前骨架点v周围的邻接点数量;w(i)代表第i个邻接点相对于当前点的连接权重;
提取只保留关键点及其连接关系的邻接矩阵 n 1 a 1 k . . . a ij a k 1 n k a kn . . . a nk n m
其中m表示关键点数量;nk代表第k个关键点的编号;aij表示第i个关键点和第j个关键点是相互连接,aij取值为0或1。
4.如权利要求3所述的中文图像型垃圾邮件过滤方法,其特征在于,所述抽取夹角直方图特征的过程具体包括:
根据所述关键点邻接矩阵中的连接关系和关键点在骨架图中的位置,得到汉字字形本身所形成的所有夹角;
以15度为单位区间,将所有的夹角信息映射成一个12维的特征向量。
5.如权利要求3所述的中文图像型垃圾邮件过滤方法,其特征在于,所述抽取相对位置直方图特征的过程具体包括:
对汉字的每一个关键点,计算其他所有关键点相对于所述关键点的八卦限分布,得到一个8维的特征向量,所述八卦限以45度为单位划分。
6.如权利要求1至5任一项所述的中文图像型垃圾邮件过滤方法,其特征在于,所述识别出垃圾邮件的过程具体包括:
使用最近邻匹配算法,将字符特征与样本库进行匹配,得到最接近的匹配字符特征作为潜在匹配;
判断当前字符特征和所述潜在匹配的距离是否大于预先设定的阈值,如果所述距离小于阈值,则将所述潜在匹配的类别标记赋给当前字符特征,否则将当前字符特征标记为其他;
重复上述两个步骤,得到图像中所有字符的类别信息;
根据所述类别信息,使用分类器对图像的类别进行判定。
7.如权利要求6所述的中文图像型垃圾邮件过滤方法,其特征在于,所述方法还包括使用已知的垃圾邮件图像中的字符特征构建样本库,并通过对构建样本库的垃圾邮件图像进行训练,选取所述阈值。
8.如权利要求7所述的中文图像型垃圾邮件过滤方法,其特征在于,在识别出垃圾邮件之后,所述方法还包括:将所述垃圾邮件图像中的字符特征加入所述样本库。
CN201510083460.XA 2015-02-16 2015-02-16 一种中文图像型垃圾邮件过滤方法及*** Pending CN104834891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510083460.XA CN104834891A (zh) 2015-02-16 2015-02-16 一种中文图像型垃圾邮件过滤方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510083460.XA CN104834891A (zh) 2015-02-16 2015-02-16 一种中文图像型垃圾邮件过滤方法及***

Publications (1)

Publication Number Publication Date
CN104834891A true CN104834891A (zh) 2015-08-12

Family

ID=53812769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510083460.XA Pending CN104834891A (zh) 2015-02-16 2015-02-16 一种中文图像型垃圾邮件过滤方法及***

Country Status (1)

Country Link
CN (1) CN104834891A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN108769140A (zh) * 2018-05-09 2018-11-06 国家计算机网络与信息安全管理中心 一种实时图像文字识别缓存加速***
CN110048936A (zh) * 2019-04-18 2019-07-23 合肥天毅网络传媒有限公司 一种语义关联词判断垃圾邮件的方法
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
CN110533018A (zh) * 2018-05-23 2019-12-03 北京国双科技有限公司 一种图像的分类方法及装置
CN111461199A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156678A1 (en) * 2008-12-31 2014-06-05 Sonicwall, Inc. Image based spam blocking
CN104270304A (zh) * 2014-10-14 2015-01-07 四川神琥科技有限公司 一种图像邮件的检测分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156678A1 (en) * 2008-12-31 2014-06-05 Sonicwall, Inc. Image based spam blocking
CN104270304A (zh) * 2014-10-14 2015-01-07 四川神琥科技有限公司 一种图像邮件的检测分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU BIN等: "Filtering Chinese Image Spam Using Pseudo-OCR", 《CHINESE JOURNAL OF ELECTRONICS》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN106529380B (zh) * 2015-09-15 2019-12-10 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN108769140A (zh) * 2018-05-09 2018-11-06 国家计算机网络与信息安全管理中心 一种实时图像文字识别缓存加速***
CN110533018A (zh) * 2018-05-23 2019-12-03 北京国双科技有限公司 一种图像的分类方法及装置
CN110533018B (zh) * 2018-05-23 2022-02-25 北京国双科技有限公司 一种图像的分类方法及装置
CN110048936A (zh) * 2019-04-18 2019-07-23 合肥天毅网络传媒有限公司 一种语义关联词判断垃圾邮件的方法
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
CN110399798B (zh) * 2019-06-25 2021-07-20 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
CN111461199A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法
CN111461199B (zh) * 2020-03-30 2023-04-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法

Similar Documents

Publication Publication Date Title
CN106022300B (zh) 基于级联深度学习的交通标志识别方法和***
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及***
CN102968637B (zh) 一种复杂背景图像文字分割方法
CN100440250C (zh) 印刷体蒙古文字符识别方法
Ray Choudhury et al. An architecture for information extraction from figures in digital libraries
CN111401353B (zh) 一种数学公式的识别方法、装置及设备
CN105868700A (zh) 一种基于监控视频的车型识别与跟踪方法及***
CN101777124A (zh) 一种提取视频文本信息的方法及装置
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和***
CN105469047A (zh) 基于无监督学习深度学习网络的中文检测方法及***
CN105447522A (zh) 一种复杂图像文字识别***
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
WO2010019804A2 (en) Segmenting printed media pages into articles
CN104778470A (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN103106265A (zh) 相似图像分类方法及***
CN104156730A (zh) 一种基于骨架的抗噪声汉字特征提取方法
CN100485711C (zh) 手写字体的计算机识别与自动输入方法
CN104573683A (zh) 字符串识别方法和装置
Almazán et al. A coarse-to-fine approach for handwritten word spotting in large scale historical documents collection
Sharma et al. Pincode detection using deep CNN for postal automation
Ghosh et al. R-phoc: segmentation-free word spotting using cnn
Sarkar et al. Suppression of non-text components in handwritten document images
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
US9811726B2 (en) Chinese, Japanese, or Korean language detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812