CN112784850A - 一种笔记透印去除方法及装置 - Google Patents

一种笔记透印去除方法及装置 Download PDF

Info

Publication number
CN112784850A
CN112784850A CN201911065009.XA CN201911065009A CN112784850A CN 112784850 A CN112784850 A CN 112784850A CN 201911065009 A CN201911065009 A CN 201911065009A CN 112784850 A CN112784850 A CN 112784850A
Authority
CN
China
Prior art keywords
text image
pixel
clustering
color category
pixel points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911065009.XA
Other languages
English (en)
Inventor
陈晓念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201911065009.XA priority Critical patent/CN112784850A/zh
Publication of CN112784850A publication Critical patent/CN112784850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种笔记透印去除方法及装置,获取文本图像,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用背景色彩类别的聚类中心点的像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。本发明实施例能够实现自动化地、高效地去除文本图像中的笔记透印。

Description

一种笔记透印去除方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种笔记透印去除方法及装置。
背景技术
纸质文档的电子化是保存文档的一种重要手段,通过扫描的方式将纸质文档扫描为更易在电子设备上存储和拷贝的文本图像。纸质文档包括打印的纸质文档和手写的纸质文档,手写的纸质文档可能会出现笔记透印的现象,纸质文档背面的笔记透印会造成文档模糊,对有笔记透印的纸质文档进行扫描,扫描得到的文本图像也会因为有笔记透印而显得杂乱。
目前,去除文本图像中的笔记透印主要是通过人工的方式,利用图像处理软件对文本图像中的笔记透印进行擦除操作。图像处理软件的专业性较强,必须是专业的技术人员才可以对去除笔记透印,并且,如果文本图像中笔记透印的部分较多,则需要经过复杂的操作才可以去除笔记透印,去除笔记透印的效率较低。因此,如何自动化地、高效地去除文本图像中的笔记透印成为亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种笔记透印去除方法及装置,以实现自动化地、高效地去除文本图像中的笔记透印。具体技术方案如下:
为达到上述目的,本发明公开了一种笔记透印去除方法,该方法包括:
获取文本图像;
对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别;
提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
在本发明的一种实施方式中,在对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别之前,该方法还包括:
对文本图像中的像素点进行采样,获得预设数目个像素点;
对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,包括:
对采样获得的预设数目个像素点进行聚类,确定预设数目个像素点分别所属的色彩类别。
在本发明的一种实施方式中,在对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别之前,该方法还包括:
减少文本图像中各像素点的存储位深,得到第一文本图像;
对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,包括:
对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点所属色彩类别。
在本发明的一种实施方式中,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别的步骤,包括:
确定文本图像中各色彩类别的聚类中心点;
针对文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
在本发明的一种实施方式中,该方法还包括:
针对背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
为达到上述目的,本发明还公开了一种笔记透印去除装置,该装置包括:
获取模块,用于获取文本图像;
聚类模块,用于对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别;
提取模块,用于提取背景色彩类别的聚类中心点的像素值;
替换模块,用于利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
在本发明的一种实施方式中,该装置还包括:
采样模块,用于对文本图像中的像素点进行采样,获得预设数目个像素点;
聚类模块,具体用于:
对采样获得的预设数目个像素点进行聚类,确定预设数目个像素点分别所属的色彩类别。
在本发明的一种实施方式中,该装置还包括:
压缩模块,用于减少文本图像中各像素点的存储位深,得到第一文本图像;
聚类模块,具体用于:
对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点所属色彩类别。
在本发明的一种实施方式中,聚类模块,具体用于:
确定文本图像中各色彩类别的聚类中心点;
针对文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
在本发明的一种实施方式中,替换模块,还用于:
针对背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
为达到上述目的,本发明实施例还公开了一种电子设备,包括处理器、存储器、显示器、通信接口和通信总线,其中,
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,实现本发明实施例第一方面所提供的方法。
为达到上述目的,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,执行本发明实施例第一方面所提供的方法。
本发明实施例提供的一种笔记透印去除方法及装置,获取文本图像,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。对文本图像像素点进行像素聚类,可以确定出文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的笔记透印去除方法的一种流程示意图;
图2a为本发明实施例的实施笔记透印去除前的原图;
图2b为本发明实施例的实施笔记透印去除方法后的效果图;
图3为本发明实施例的笔记透印去除方法的另一种流程示意图;
图4为本发明实施例的笔记透印去除方法的另一种流程示意图;
图5为本发明实施例的笔记透印去除方法的另一种流程示意图;
图6为本发明实施例的笔记透印去除方法的另一种流程示意图;
图7为本发明实施例的笔记透印去除装置的一种结构示意图;
图8为本发明实施例的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种笔记透印去除方法及装置,以下分别进行详细说明。
参见图1,图1为本发明实施例的笔记透印去除方法的一种流程示意图,包括如下步骤:
S101,获取文本图像。
文本图像可以为手机、照相机等摄影设备所拍摄的文档图片,可以如图2a所示的文本图像,该文本图像存在明显的笔记透印现象。出现笔记透印现象的原因可能是人们在书写的过程中,用手握笔的力度太重,或者,纸张的厚度太薄,或者,书写所用的笔出墨水太重。
S102,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别。
聚类是为在物理或抽象对象上将类似的对象划分为同一类的过程,例如,在房间中有一群人,可以通过年龄、性别、体重或其他共有的特征将这群人分为不同的类别,将这群人进行分类的过程可以称为聚类。
文本图像是一个个像素点的集合,众多的像素点组成了一幅文本图像,将文本图像中的像素点进行聚类处理,可以通过相关聚类算法确定文本图像中各像素点所属色彩类别。
像素聚类处理可以有K-means(k-means clustering algorithm,K均值聚类算法)、层次聚类和GMM(Gaussian Mixture Model,高斯混合模型)等聚类方法。
可选的,S102具体可以通过如下步骤实现:
使用K-means聚类算法确定文本图像的聚类中心和类别,可以先随机选取K个对象作为初始聚类中心,然后计算每个像素点与每个初始聚类中心之间的距离,把每个像素点分配给距离最近的初始聚类中心,初始聚类中心以及分配给初始聚类中心的像素点代表一个聚类。当文本图像中的像素点全部被确认给相应的初始聚类中心,新的聚类中心会根据聚类后的像素点和初始聚类中心求平均值,将得到的平均值作为下一次聚类计算的类中心。如此迭代计算,直到迭代次数达到事先设置的迭代次数或误差后可停止计算。并以最后一次计算出来的聚类结果作为最终的聚类结果。
例如,设置K的值为5,相当于在文本图像中随机选择5个点作为该文本图像的初始聚类中心,将文本图像中的每个像素点与5个初始聚类中心的距离进行计算,把每个像素点分配给距离最近的初始聚类中心,如分别计算文本图像中的A像素点与B初始聚类中心、C初始聚类中心、D初始聚类中心、E初始聚类中心以及F初始聚类中心的距离。其中,A像素点与C初始聚类中心的距离最小,即认为A像素点属于C初始聚类中心。通过这种算法,每个初始聚类中心与其归属该初始聚类中心的像素点形成一个簇,对聚类后的像素点和初始聚类中心求平均值,将得到的平均值作为的新的聚类中心。如B初始聚类中心周围有10个像素点,则计算这个11个像素点的均值作为新的聚类中心。重复上述步骤,进行迭代,可以设置迭代次数,比如设置迭代次数为10,即认为上述步骤重复10次即停止,或者,聚类结果与实际的输出值误差小于阈值,则迭代结束,否则继续迭代。
其中,文本图像每个像素点与每个初始聚类中心的距离,通过欧式距离公式确定:
Figure BDA0002259049390000061
d(p,q)表示像素p(x,y)、q(x1,y1)之间的距离。
当所述像素点与某个类中心的距离最小时,所述像素便归属于该类。
S103,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
确定背景色彩类别可以采用颜色直方图计算所采样的像素点的色彩分布,并将色彩频率最高的一项色彩作为背景色彩,也可以将预设的颜色作为背景色彩。
色彩填充是将原有属于该像素点的色彩替换聚类结果的色彩,比如,A像素点表示的色彩为粉红色,将A像素点原有的粉红色色彩替换为聚类结果中距离最近的类别颜色,如与聚类结果中的红色类别距离最近,则使用红色替代粉红色去进行色彩替换。
利用聚类中心的像素值替换属于该色彩类别的所有像素点的像素值,即为利用聚类中心的像素颜色替换属于该色彩类别的所有像素点的像素颜色。
比如人用红笔在一张白纸上书写文字,在白纸的后面出现了笔记透印现象,在进行像素聚类的时候,背景彩色类别的聚类中心的像素颜色将为白色,使用背景色彩类别的聚类中心的像素点的像素颜色对属于该类别的所有像素点的像素颜色进行替换,即用白色替换笔记透印所表现出的颜色,达到去除笔记透印的效果,如图2b所示。
可见,应用本发明实施例方法,获取文本图像后,对文本图像像素点进行像素聚类,可以确定出文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
基于图1所示实施例,本发明实施例还提供了笔记透印去除方法的另一种流程示意图,如图3所示,包括如下步骤:
S301,获取文本图像。
S302,对文本图像中的像素点进行采样,获得预设数目个像素点。
S303,对采样获得的预设数目个像素点进行聚类,确定预设数目个像素点分别所属的色彩类别。
S304,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
其中,步骤S301所描述的内容与图1中的S101所描述的内容相同,步骤S304所描述的内容与图1中的S103所描述的内容相同,在此不再进行赘述。
通常来说,通过手机、照相机等摄影设备所获取文本图像清晰度会比较高,直接对所有图像像素进行聚类将会带来巨大的计算量,故在对文本图像中的各像素点进行聚类之前,为减少计算量,可以随机采样预定数目的像素点进行聚类,确定文本图像中各像素点所属色彩类别。
当文本图像的清晰度不高,质量不大时,可不需要进行随机采样。
对文本图像的像素点进行采样时,可以获得预设若干个像素点。比如,在对用手机等摄影设备拍摄获得的图像进行采样时,预设采样点为5个,就可以获得5个像素点。然后对这5个像素点进行聚类,获得5个像素点分别所属的色彩类别。
基于图1所示实施例,本发明实施例还提供了笔记透印去除方法的另一种流程示意图,如图4所示,包括如下步骤:
S401,获取文本图像。
S402,减少文本图像中各像素点的存储位深,得到第一文本图像。
S403,对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点所属色彩类别。
S404,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
其中,步骤S401所描述的内容与图1中的S101所描述的内容相同,步骤S404所描述的内容与图1中的S103所描述的内容相同,在此不再进行赘述。
通常来说,通过手机、照相机等摄影设备所获取文本图像清晰度会比较高,所占用的内存会比较多,故在对文本图像中的各像素点进行聚类之前,需要对文本图像进行判断,当文本图像的质量太高,或者分辨率太大,可以减少文本图像中各像素点的存储位深,以使得每个像素点的内存变小,降低文本图像的质量,减少后续的计算量。
当文本图像质量不高,或者分辨率太小时,可不需要减少文本图像各像素点的存储位深。
位深度是计算机通过每个像素记录彩色图像的颜色的时候所使用的单位,图像的色彩越丰富,“位”就越多。每一个像素在计算机中所使用的这种位数就是“位深度”。位深度越深,颜色深度越高,可用的颜色就越多。
现如今手机拍照图像分辨率较高,能够表达的色彩较丰富,包括文本图像。RGB色彩图像均以二进制位存储每个像素点三个通道的颜色,当二进制位越多时,每个像素点能够表示出的不同色彩的可能性就越大,对于同样大小的文本图像来说,每个像素点所占的存储空间就越大。在24位RGB三通道里,文本图像一个像素点的一个通道通常用8位字节表示,现在在不影响视觉效果的前提下可以将目标图像每一个像素点的通道减少到6位。
减少文本图像的存储位深,不仅可以压缩文本图像大小,同时减少笔记透印的程度。
当对文本图像进行减少存储位深的操作,得到第一文本图像后,需要对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点的色彩类别。
可见,应用本发明实施例方法,获取文本图像,减少文本图像中各像素点的存储位深,得到第一文本图像,对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。减小文本图像的存储位深,可以使文本图像中每个像素点的内存变小,减轻文本图像的颜色,减少笔记透印的程度,对第一文本图像像素点进行像素聚类,可以确定出第一文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
基于图1所示实施例,本发明实施例还提供了笔记透印去除方法的另一种流程示意图,如图5所示,包括如下步骤:
S501,获取文本图像。
S502,对文本图像中的像素点进行采样,获得预设数目个像素点,得到第一文本图像。
S503,减少第一文本图像中各像素点的存储位深,得到第二文本图像。
S504,对第二文本图像中采样获得的预设数目个像素点进行聚类,确定第二文本图像中预设数目个像素点分别所属色彩类别。
S505,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
其中,步骤S501所描述的内容与图1中的S101所描述的内容相同,S502所描述的内容与图3中的S302所描述的内容相同,S503所描述的内容与图4中的S402所描述的内容相同,S504所描述的内容与图4中的S403所描述的内容相同,步骤S505所描述的内容与图1中的S103所描述的内容相同,在此不再进行赘述。
当通过手机、照相机等摄影设备所获取文本图像清晰度比较高,或者分辨率大时,需要对文本图像进行随机采样和减小存储位深的处理,以减小计算量。
本流程示意图是先将文本图像进行随机采样处理,然后减小文本图像的存储位深,最后通过对经过减小存储位深的文本图像的各像素点进行聚类,确定各像素点所属色彩类别。
另外,在本发明实施例的另一种可实现方式中,可以先减小文本图像的存储位深,然后再将文本图像进行随机采样处理,最后对经过处理的文本图像的各像素点进行聚类,确定各像素点所属色彩类别。
两种方式都可以对文本图像进行处理,减小后续的计算量,确定文本图像的各像素的色彩类别。
基于图1所示实施例,本发明实施例还提供了笔记透印去除方法的另一种流程示意图,如图6所示,包括如下步骤:
S601,获取文本图像。
S602,确定文本图像中各色彩类别的聚类中心点。
S603,针对文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
S604,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
其中,步骤S601所描述的内容与图1中的S101所描述的内容相同,步骤S604所描述的内容与图1中的S103所描述的内容相同,在此不再进行赘述。
通过对文本图像中各像素点进行聚类处理,使用K-means等相关算法,可以获得聚类中心的像素点。在获得最终的聚类中心的像素点后,针对文本图像中的任一像素点,分别计算该像素点与各最终的聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
其中,计算文本图像每个像素点与每个聚类中心的距离可以通过欧式距离、曼哈顿距离、马氏距离、余弦距离、汉明距离等公式。具体的,每个像素点有RGB三个通道,每个通道分别计算与聚类中心像素RGB的三个通道的差值后再计算整个像素的欧氏距离。
例如,通过计算分别得到文本图像中的A像素点与B聚类中心、C聚类中心、D聚类中心的距离。其中,A像素点与C聚类中心的距离最小,即认为A像素点属于C聚类中心。
确定每个像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
同时,图1、图3、图4和图5所叙述的方法还可以包括针对背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
使用背景色彩类别的聚类中心点的像素替换属于该色彩类别的所有像素点的像素值,可以达到去除笔记透印的现象,而使用除背景色彩类别以外的其他色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,可以增强正面笔迹的效果。
比如,在使用红笔在白色纸张上写字的时候,背景彩色类别的聚类中心的像素颜色将为白色,其他各色彩类别的聚类中心的像素颜色为其他颜色,如红色,使用各聚类中心的像素点的像素颜色对属于该类别的所有像素点的像素颜色进行替换,即用白色替换笔记透印所表现出的颜色,红色替换文字所表现出的颜色,不仅可以达到去除笔记透印的效果,同时得到更清晰的文本图像,如图2b所示,不仅去除了笔记透印,同时文本图像的字迹变得更加清晰。
参见图7,图7为本发明实施例的笔记透印去除装置的结构示意图。包括:获取模块701、聚类模块702、提取模块703以及替换模块704。
其中:
获取模块701,用于获取文本图像;
聚类模块702,用于对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别;
提取模块703,用于提取背景色彩类别的聚类中心点的像素值;
替换模块704,用于利用背景色彩类别的聚类中心点的像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。
进一步的,该装置,还可以包括采样模块。
采样模块,用于对文本图像中的各像素点进行随机采样,随机采样预定数目的像素点进行聚类。
进一步的,该装置,还可以包括压缩模块。
压缩模块,用于减少文本图像中各像素点的存储位深,得到第一文本图像。
聚类模块702,具体用于:
对第一文本图像中的各像素点进行聚类,确定第一文本图像中各像素点所属色彩类别。
进一步的,聚类模块702,具体用于:
确定文本图像中各色彩类别的聚类中心点;
针对文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
进一步的,替换模块704,还用于:
针对背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
可见,应用本发明实施例,获取文本图像,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。对文本图像像素点进行像素聚类,可以确定出文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
参见图8,图8为本发明实施例的电子设备的结构示意图。包括存储器801、处理器802、显示器803、通信接口804和通信总线805,其中,处理器802、通信接口804、存储器801和显示器803通过通信总线805完成相互间的通信。
存储器801,用于存放计算机程序;
处理器802,用于执行存储器801上所存放的计算机程序时,执行上述的笔记透印去除方法。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(ApplicationSpecific Integrated Circuit,专用集成电路)、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
显示器可以CRT(Cathode Ray Tube,阴极射线显像管)显示器、LCD(LiquidCrystal Display,液晶显示器)、PDP(Plasma Display Panel,等离子显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)显示器等。
本发明实施例中,处理器通过读取存储器中存储的机器可执行指令,并通过加载和执行机器可执行指令,能够实现:获取文本图像,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。对文本图像像素点进行像素聚类,可以确定出文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,执行上述的TCP性能监控方法。所述计算机可读存储介质可以是光盘、固态硬盘、机械硬盘等。
本发明实施例中,机器可读存储介质存储有在运行时执行本发明实施例所提供的方法的指令,因此能够实现:获取文本图像,对文本图像中的各像素点进行聚类,确定文本图像中各像素点所属色彩类别,提取背景色彩类别的聚类中心点的像素值,并利用像素值替换属于背景色彩类别的所有像素点的像素值,得到更新的文本图像。对文本图像像素点进行像素聚类,可以确定出文本图像中各个像素点所属的色彩类别,由于笔记透印区域的色彩普遍较浅,在进行聚类后,一般会将笔记透印的像素点聚类为背景色彩类别,利用背景色彩类别的聚类中心点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,背景色彩类别的聚类中心点是实际背景中的一个像素点,利用该像素点的像素值对属于背景色彩类别的所有像素点的像素值进行替换,使得是笔记透印的像素点的像素值被替换为实际背景的像素值,从而达到了去除笔记透印的效果,通过上述方法,无需复杂的人工操作,能够自动地、高效地去除文本图像中的笔记透印。
对于电子设备及机器可读存储介质实施例而言,由于其涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及机器可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种笔记透印去除方法,其特征在于,所述方法包括:
获取文本图像;
对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别;
提取背景色彩类别的聚类中心点的像素值,并利用所述像素值替换属于所述背景色彩类别的所有像素点的像素值,得到更新的文本图像。
2.根据权利要求1所述的方法,其特征在于,在所述对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别之前,所述方法还包括:
对所述文本图像中的像素点进行采样,获得预设数目个像素点;
所述对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别,包括:
对采样获得的所述预设数目个像素点进行聚类,确定所述预设数目个像素点分别所属的色彩类别。
3.根据权利要求1所述的方法,其特征在于,在所述对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别之前,所述方法还包括:
减少所述文本图像中各像素点的存储位深,得到第一文本图像;
所述对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别,包括:
对所述第一文本图像中的各像素点进行聚类,确定所述第一文本图像中各像素点所属色彩类别。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别,包括:
确定所述文本图像中各色彩类别的聚类中心点;
针对所述文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
6.一种笔记透印去除装置,其特征在于,所述装置包括:
获取模块,用于获取文本图像;
聚类模块,用于对所述文本图像中的各像素点进行聚类,确定所述文本图像中各像素点所属色彩类别;
提取模块,用于提取背景色彩类别的聚类中心点的像素值;
替换模块,用于利用所述像素值替换属于所述背景色彩类别的所有像素点的像素值,得到更新的文本图像。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
采样模块,用于对所述文本图像中的像素点进行采样,获得预设数目个像素点;
所述聚类模块,具体用于:
对采样获得的所述预设数目个像素点进行聚类,确定所述预设数目个像素点分别所属的色彩类别。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
压缩模块,用于减少所述文本图像中各像素点的存储位深,得到第一文本图像;
所述聚类模块,具体用于:
对所述第一文本图像中的各像素点进行聚类,确定所述第一文本图像中各像素点所属色彩类别。
9.根据权利要求6所述的装置,其特征在于,所述聚类模块,具体用于:
确定所述文本图像中各色彩类别的聚类中心点;
针对所述文本图像中的任一像素点,分别计算该像素点与各聚类中心点的距离,并确定该像素点所属色彩类别为该像素点与各聚类中心点的距离中的最小距离对应的聚类中心点的色彩类别。
10.根据权利要求6所述的装置,其特征在于,所述替换模块,还用于:
针对所述背景色彩类别以外的其他各色彩类别,提取并利用该色彩类别的聚类中心点的像素值替换属于该色彩类别的所有像素点的像素值,得到更新的文本图像。
11.一种电子设备,其特征在于,包括处理器、存储器、显示器、通信接口和通信总线,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得所述计算机执行权利要求1-5任一项所述的方法。
CN201911065009.XA 2019-11-04 2019-11-04 一种笔记透印去除方法及装置 Pending CN112784850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911065009.XA CN112784850A (zh) 2019-11-04 2019-11-04 一种笔记透印去除方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911065009.XA CN112784850A (zh) 2019-11-04 2019-11-04 一种笔记透印去除方法及装置

Publications (1)

Publication Number Publication Date
CN112784850A true CN112784850A (zh) 2021-05-11

Family

ID=75747255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911065009.XA Pending CN112784850A (zh) 2019-11-04 2019-11-04 一种笔记透印去除方法及装置

Country Status (1)

Country Link
CN (1) CN112784850A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336282A (ja) * 2003-05-06 2004-11-25 Ricoh Co Ltd 画像処理装置、画像処理プログラム及び該プログラムを記録した記録媒体
US20100104163A1 (en) * 2008-10-28 2010-04-29 Ruiping Li Orientation detection for chest radiographic images
CN102523364A (zh) * 2011-12-02 2012-06-27 方正国际软件有限公司 一种文档图像透印清除方法及***
CN109509196A (zh) * 2018-12-24 2019-03-22 广东工业大学 一种基于改进的蚁群算法的模糊聚类的舌诊图像分割方法
CN109903210A (zh) * 2019-01-04 2019-06-18 阿里巴巴集团控股有限公司 水印的去除方法、装置和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336282A (ja) * 2003-05-06 2004-11-25 Ricoh Co Ltd 画像処理装置、画像処理プログラム及び該プログラムを記録した記録媒体
US20100104163A1 (en) * 2008-10-28 2010-04-29 Ruiping Li Orientation detection for chest radiographic images
CN102523364A (zh) * 2011-12-02 2012-06-27 方正国际软件有限公司 一种文档图像透印清除方法及***
CN109509196A (zh) * 2018-12-24 2019-03-22 广东工业大学 一种基于改进的蚁群算法的模糊聚类的舌诊图像分割方法
CN109903210A (zh) * 2019-01-04 2019-06-18 阿里巴巴集团控股有限公司 水印的去除方法、装置和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郏宣耀 等: "一种基于聚类的彩色图像分色算法", 《计算技术与自动化》, vol. 25, no. 1, pages 110 - 113 *

Similar Documents

Publication Publication Date Title
US6411730B1 (en) Histogram for generating a palette of colors
US8280175B2 (en) Document processing apparatus, document processing method, and computer readable medium
EP2657902B1 (en) Watermarking image block division method and device for western language watermarking processing
CN104462381A (zh) 商标图像检索方法
CN108491845B (zh) 字符分割位置的确定、字符分割方法、装置及设备
CN106202086B (zh) 一种图片处理、获取方法、装置及***
WO2021175040A1 (zh) 视频处理方法及相关装置
CN110990617B (zh) 一种图片标记方法、装置、设备及存储介质
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
EP3316173B1 (en) System and method for cheque image data masking
CN111027533B (zh) 一种点读坐标的变换方法、***、终端设备及存储介质
CN112784850A (zh) 一种笔记透印去除方法及装置
CN104850819B (zh) 信息处理方法及电子设备
CN111414728A (zh) 数值数据展示方法、装置、计算机设备和存储介质
CN110399867B (zh) 一种文本类图像区域的识别方法、***及相关装置
CN113038184B (zh) 数据处理方法、装置、设备及存储介质
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN111062377B (zh) 一种题号检测方法、***、存储介质及电子设备
CN115083024A (zh) 基于区域划分的签名识别方法、装置、介质及设备
CN109242763B (zh) 图片处理方法、图片处理装置、终端设备
CN113269102A (zh) 一种***信息识别方法、装置、计算机设备和存储介质
CN114677319A (zh) 干细胞分布确定方法、装置、电子设备及存储介质
CN106776489B (zh) 显示设备的电子文档显示方法和***
CN104020847A (zh) 字符输入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination