CN106815561A - 营业执照版面分析方法及装置 - Google Patents

营业执照版面分析方法及装置 Download PDF

Info

Publication number
CN106815561A
CN106815561A CN201611200465.7A CN201611200465A CN106815561A CN 106815561 A CN106815561 A CN 106815561A CN 201611200465 A CN201611200465 A CN 201611200465A CN 106815561 A CN106815561 A CN 106815561A
Authority
CN
China
Prior art keywords
boundary rectangle
business license
character
connected domain
locating shaft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611200465.7A
Other languages
English (en)
Inventor
杨羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201611200465.7A priority Critical patent/CN106815561A/zh
Publication of CN106815561A publication Critical patent/CN106815561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本申请提供一种营业执照版面分析方法及装置,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。

Description

营业执照版面分析方法及装置
技术领域
本申请实施例涉及图像分析技术,尤其涉及一种营业执照版面分析方法及装置。
背景技术
营业执照是企业或组织合法经营权的凭证,用于证明企业或组织的经济实力、资质及信誉等。一般由企业或组织向工商行政管理机构提出申请,经过一系复杂的手续,由工商行政管理机构颁发。由于营业执照的申请过程复杂,而且申请人必须符合一定的条件,因此,很多不法分子通过伪造营业执照进行非法经营。
为防止不法分子伪造营业执照,需要对营业执照进行版面分析,从而对营业执照进行审核。然而,目前市面上的文字识别软件仅针对普通便携式文档格式(PortableDocument Format,PDF)或文档进行结构分析,并没有针对营业执照进行版面分析的方法。若采用分析PDF或文档的文字识别软件对营业执照进行分析,则分析准确率低。
发明内容
本申请实施例提供一种营业执照版面分析方法及装置,通过提取营业执照的连通域,实现对营业执照版面分析的目的。
第一方面,本申请实施例提供一种营业执照版面分析方法,包括:
确定营业执照中的至少一个连通域;
确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;
根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;
根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;
根据所述至少一个字符,对所述营业执照进行版面分析。
在一种可行的实现方式中,所述确定营业执照中的至少一个连通域之前,还包括:
获取所述营业执照的二值化图像;
所述确定营业执照中的至少一个连通域,包括:
确定所述二值化图像中的至少一个连通域。
在一种可行的实现方式中,所述根据所述至少一个外接矩形,确定预设字符的定位轴之前,还包括:
过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。
在一种可行的实现方式中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。
在一种可行的实现方式中,所述根据所述至少一个外接矩形,确定预设字符的定位轴,包括:对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。
在一种可行的实现方式中,所述根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符,包括:根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。
第二方面,本申请实施例提供一种营业执照版面分析装置,包括:
处理模块,用于确定营业执照中的至少一个连通域;
外接矩形确定模块,用于确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;
定位轴确定模块,用于根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;
分割模块,用于根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;
分析模块,用于根据所述至少一个字符,对所述营业执照进行版面分析。
在一种可行的实现方式中,所述处理模块,用于获取所述营业执照的二值化图像,确定所述二值化图像中的至少一个连通域。
在一种可行的实现方式中,所述外接矩形确定模块,还用于在所述定位轴确定模块根据所述至少一个外接矩形,确定预设字符的定位轴之前,过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。
在一种可行的实现方式中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。
在一种可行的实现方式中,所述定位轴确定模块,具体用于对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。
在一种可行的实现方式中,所述分割模块,具体用于根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。
本申请实施例提供的营业执照版面分析方法及装置,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。
附图说明
图1为本申请营业执照版面分析方法实施例一的流程图;
图2为本申请营业执照版面分析方法中预处理过程的流程图;
图3为本申请营业执照版面分析方法中二值化图像的示意图;
图4为本申请营业执照版面分析方法中连通域的外接矩形的示意图;
图5为本申请营业执照版面分析方法中预处理过程的流程图;
图6为本申请营业执照版面分析装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下内容为结合附图及较佳实施例,对依据本申请的具体实施方式、结构、特征及其功效的详细说明。
图1为本申请营业执照版面分析方法实施例一的流程图,包括:
101、确定营业执照中的至少一个连通域。
营业执照版面上具有国徽、标题、内容、***、二维码等信息,其中,标题包括注册号、名称、类型、住所、法定代表人、注册资本、成立日期等,相应的,内容包括具体的注册号、具体的名称、具体类型(如合伙制或有限制等)、具体的地址、法定代表人的姓名、注册资本的金额、成立的具体日期等。该些信息中,相互连通的多个点构成一个区域,该区域称之为连通域。例如,名称的“名”构成一个连通域,营业执照四个字分别构成四个连通域。本步骤中,通过软件算法从营业执照版面中确定出连通域。确定连通域的过程中,相邻的特征点被划分到同一个区域从而形成连通域。
102、确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形。
在确定出营业执照版面上的连通域后,对于每一个连通域,求取该连通域的外接矩形,从而得到每个连通域的外接矩形。
103、根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符。
本步骤中,预先设置预设字符,将预设字符的图像特征与每个外接矩形的图像特征进行比对,从至少一个外接矩形中确定出与预设字符的图像特征的接近度最高的外接矩形,将该外接矩形作为预设字符的定位轴。
104、根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符。
在确定出定位轴后,对营业执照中的内容进行一系列的分割,从而将营业执照的内容分割成一个个的字符。
105、根据所述至少一个字符,对所述营业执照进行版面分析。
在将营业执照版面上的内容分割成一个个的字符后,营业执照版面审核人员根据该些字符,对营业执照的版面进行分析。分析过程中,营业执照版面审核人员根据分割得到的至少一个字符,对营业执照整体内容进行查看,再将内容项目分类(分名称、类型、住所),对每一项进行审核。
本申请实施例提供的营业执照版面分析方法,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。
本申请实施例中,对营业执照版面分析大致分为三个过程,下面,对该三个过程分别进行详细说明。
首先、第一过程:预处理过程。
具体的,可参见图2,图2为本申请营业执照版面分析方法中预处理过程的流程图,包括:
201、过滤边缘信息。
本步骤中,对于一个具体的营业执照,向将营业执照按照原始比例进行归一化,通过图像处理算法将归一化的营业执照的边缘信息过滤掉。其中,图像处理算法例如为纵向投影与横向投影;边缘信息例如为营业执照左右两侧与上下两侧的空白区域等。
202、获取营业执照的二值化图像。
本步骤中,采用LMM二值化等方法对过滤掉边缘信息的营业执照进行二值化,从而获得营业执照的二值化图像。具体的,可参加图3,图3为本申请营业执照版面分析方法中二值化图像的示意图。
请参照图3,左边的图像为原始的营业执照,右边的图像为经过二值化得到的二值化图像。其中,省略了过滤掉边缘信息的营业执照。
203、确定二值化图像中的至少一个连通域,确定至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形。
本步骤中,求取二值化图像中的连通域,并得出所有连通域的外接矩形。其中,外接矩形包括文字连通域的外接矩形以及非文字连通域的外接矩形。具体的,可参见图4,图4为本申请营业执照版面分析方法中连通域的外接矩形的示意图。
请参照图4,二值化图像中的连通域为多个,相应的,连通域的外接矩形为多个。
204、过滤至少一个外接矩形,以得到至少一个外接矩形中符合条件的外接矩形。
本步骤中,根据大量文本处理经验,将包含的像素点过少的外接矩形、横纵比过大的外接矩形、包含连通域过多以及其他不符合条件的外接矩形过滤掉,只剩余符合条件的外接矩形。其中,像素点过少指外接矩形中的像素点少于第一阈值,第一阈值例如为6个;横纵比过大指外接矩形的长宽比大于第二阈值,第二阈值例如为4;包含的连通域过多指外接矩形内包含的连通域的数量大于第三阈值,第三阈值例如为4个。另外,不符合条件的外接矩形还可以是外接矩形的横纵比小于第四阈值,如0.3的外接矩形等,本申请实施例并不以此为限制。
本步骤中,通过连通域得到外接矩形,矩形的角度,即为文字行的角度。
其次、第二过程:分割过程。
具体的,可参见图5,图5为本申请营业执照版面分析方法中预处理过程的流程图,包括:
301、根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符。
本步骤中,根据各个连通域的外接矩形,采用knn算法等寻找预设字符的定位轴。通常情况下,预设字符为营业执照中包括的字符。具体的,将营业桌子中包括的若干个字符作为预设字符,对预设字符提取图像特征,如方向梯度直方图(Histogram of OrientedGradient,HOG)特征,对至少一个外接矩形中的每个外接矩形提取图像特征,如HOG特征,以得到图像特征集。然后,将预设字符的图像特征与图像特征集中每个图像特征进行比对,从图像特征集中确定出与预设字符的图像特征的接近度最高的图像特征,将该图像特征对应的外接矩形作为预设字符的定位轴。
302、根据定位轴,将营业执照的内容分割成至少一个字符串。
本步骤中,根据营业执照中文字间空白间隙,对符合文字要求的外接矩形的宽度、高度等进行统计,并结合定位轴的位置,将营业执照中,标题、内容两大板块分割开来。然后,分别在板块内进行文字间纵向间隙、横向间隙的统计,并结合第一过程中归一化后的营业执照,将板块内的内容分割成以行为单位的字符串。
303、将至少一个字符串中的每个字符串映射到营业执照中,以得到映射字符串后的营业执照。
本步骤中,将分割得到的字符串映射到归一化之前的营业执照,即原始营业执照中。
304、以行为单位从映射字符串后的营业执照中提取至少一个行字符串,对至少一个行字符串中的每个行字符串进行分割,以得到至少一个字符。
本步骤中,根据文本字符块的相对位置,将营业执照中各项目标题,内容均成功分割开来。具体的,以行为单位再次进行背景提取,并结合全局文字大小进行横向分割,最终将字符串分割为一个个的汉字。
305、对分割得到的汉字进行处理。
本步骤中,对分割后的汉字进行处理,以过滤掉不符合先验条件的非文本内容。例如,通常情况下,汉字的横纵比为1:1,数字的横纵比为1:2。经过过滤,将至少一个字符中横纵比不为1:1或1:2的字符过滤掉。其中,横纵比为1:1或1:2即为先验条件。
最后、第三过程:版面分析过程。
该过程中,根据处理后的汉字等,对营业执照的版面进行分析。分析过程中,营业执照版面审核人员根据分割得到的至少一个字符,对营业执照整体内容进行查看,再将内容项目分类(分名称、类型、住所),对每一项进行审核。该过程中,若需要光学字符识别(Optical Character Recognition,OCR),则可以直接调用分割得到的每个字符。
图6为本申请营业执照版面分析装置的结构示意图,包括:
处理模块11,用于确定营业执照中的至少一个连通域;
外接矩形确定模块12,用于确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;
定位轴确定模块13,用于根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;
分割模块14,用于根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;
分析模块15,用于根据所述至少一个字符,对所述营业执照进行版面分析。
本申请实施例提供的营业执照版面分析装置,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。
可选的,在本申请一实施例中,所述处理模块11,用于获取所述营业执照的二值化图像,确定所述二值化图像中的至少一个连通域。
可选的,在本申请一实施例中,所述外接矩形确定模块12,还用于在所述定位轴确定模块13根据所述至少一个外接矩形,确定预设字符的定位轴之前,过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。
可选的,在本申请一实施例中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。
可选的,在本申请一实施例中,所述定位轴确定模块13,具体用于对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。
可选的,在本申请一实施例中,所述分割模块14,具体用于根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种营业执照版面分析方法,其特征在于,包括:
确定营业执照中的至少一个连通域;
确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;
根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;
根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;
根据所述至少一个字符,对所述营业执照进行版面分析。
2.根据权利要求1所述的方法,其特征在于,所述确定营业执照中的至少一个连通域之前,还包括:
获取所述营业执照的二值化图像;
所述确定营业执照中的至少一个连通域,包括:
确定所述二值化图像中的至少一个连通域。
3.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个外接矩形,确定预设字符的定位轴之前,还包括:
过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。
4.根据权利要求3所述的方法,其特征在于,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述根据所述至少一个外接矩形,确定预设字符的定位轴,包括:
对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;
提取所述预设字符的图像特征;
从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符,包括:
根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;
将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;
以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;
对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。
7.一种营业执照版面分析装置,其特征在于,包括:
处理模块,用于确定营业执照中的至少一个连通域;
外接矩形确定模块,用于确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;
定位轴确定模块,用于根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;
分割模块,用于根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;
分析模块,用于根据所述至少一个字符,对所述营业执照进行版面分析。
8.根据权利要求7所述的装置,其特征在于,
所述处理模块,用于获取所述营业执照的二值化图像,确定所述二值化图像中的至少一个连通域。
9.根据权利要求7所述的装置,其特征在于,
所述外接矩形确定模块,还用于在所述定位轴确定模块根据所述至少一个外接矩形,确定预设字符的定位轴之前,过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。
10.根据权利要求9所述的装置,其特征在于,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。
CN201611200465.7A 2016-12-22 2016-12-22 营业执照版面分析方法及装置 Pending CN106815561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611200465.7A CN106815561A (zh) 2016-12-22 2016-12-22 营业执照版面分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611200465.7A CN106815561A (zh) 2016-12-22 2016-12-22 营业执照版面分析方法及装置

Publications (1)

Publication Number Publication Date
CN106815561A true CN106815561A (zh) 2017-06-09

Family

ID=59110398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611200465.7A Pending CN106815561A (zh) 2016-12-22 2016-12-22 营业执照版面分析方法及装置

Country Status (1)

Country Link
CN (1) CN106815561A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN110135431A (zh) * 2019-05-16 2019-08-16 深圳市信联征信有限公司 营业执照的自动识别方法及***
CN111507813A (zh) * 2020-04-21 2020-08-07 江西省机电设备招标有限公司 一种投标人身份的认定方法及招投标方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339618A (zh) * 2007-07-06 2009-01-07 上海思必得通讯技术有限公司 手机名片识别装置
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
CN102955941A (zh) * 2011-08-31 2013-03-06 汉王科技股份有限公司 身份信息录入方法和装置
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN105261110A (zh) * 2015-10-26 2016-01-20 江苏国光信息产业股份有限公司 一种高效dsp纸币冠字号识别方法
CN105701488A (zh) * 2016-01-01 2016-06-22 广州恒巨信息科技有限公司 一种身份证识别方法
CN106056114A (zh) * 2016-05-24 2016-10-26 腾讯科技(深圳)有限公司 名片内容识别方法和装置
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339618A (zh) * 2007-07-06 2009-01-07 上海思必得通讯技术有限公司 手机名片识别装置
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
CN102955941A (zh) * 2011-08-31 2013-03-06 汉王科技股份有限公司 身份信息录入方法和装置
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN105261110A (zh) * 2015-10-26 2016-01-20 江苏国光信息产业股份有限公司 一种高效dsp纸币冠字号识别方法
CN105701488A (zh) * 2016-01-01 2016-06-22 广州恒巨信息科技有限公司 一种身份证识别方法
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端
CN106056114A (zh) * 2016-05-24 2016-10-26 腾讯科技(深圳)有限公司 名片内容识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN110135431A (zh) * 2019-05-16 2019-08-16 深圳市信联征信有限公司 营业执照的自动识别方法及***
CN111507813A (zh) * 2020-04-21 2020-08-07 江西省机电设备招标有限公司 一种投标人身份的认定方法及招投标方法
CN111507813B (zh) * 2020-04-21 2023-05-12 江西省机电设备招标有限公司 一种投标人身份的认定方法及招投标方法

Similar Documents

Publication Publication Date Title
AU2020200251B2 (en) Label and field identification without optical character recognition (OCR)
US9626555B2 (en) Content-based document image classification
CN103995904B (zh) 一种影像档案电子资料的识别***
US20200184210A1 (en) Multi-modal document feature extraction
CA3117374C (en) Sensitive data detection and replacement
AU2013379775A1 (en) Systems and methods for tax data capture and use
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN104182722B (zh) 文本检测方法和装置以及文本信息提取方法和***
CN111695453B (zh) 绘本识别方法、装置及机器人
CN108154132A (zh) 一种身份证文字提取方法、***及设备和存储介质
CN106815561A (zh) 营业执照版面分析方法及装置
Abramova et al. Detecting copy–move forgeries in scanned text documents
Baechler et al. Text line extraction using DMLP classifiers for historical manuscripts
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN114821725A (zh) 一种基于神经网络的矿工人脸识别***
CN110197140A (zh) 基于文字识别的材料审核方法及设备
WO2017069741A1 (en) Digitized document classification
CN104182744A (zh) 文本检测方法和装置以及文本信息提取方法和***
CN113033562A (zh) 一种图像处理方法、装置、设备及存储介质
CN114005131A (zh) 一种证件文字识别方法及装置
CN205670326U (zh) 具有伪造币类型统计功能的纸币检伪设备
CN111931229B (zh) 一种数据识别方法、装置和存储介质
JP6896260B1 (ja) レイアウト解析装置、その解析プログラムおよびその解析方法
CN113111882A (zh) 一种卡证识别方法、装置、电子设备及存储介质
Vasilopoulos et al. Automatic text extraction from arabic newspapers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609

RJ01 Rejection of invention patent application after publication