CN106845323A - 一种打标数据的收集方法、装置以及证件识别*** - Google Patents

一种打标数据的收集方法、装置以及证件识别*** Download PDF

Info

Publication number
CN106845323A
CN106845323A CN201510883300.3A CN201510883300A CN106845323A CN 106845323 A CN106845323 A CN 106845323A CN 201510883300 A CN201510883300 A CN 201510883300A CN 106845323 A CN106845323 A CN 106845323A
Authority
CN
China
Prior art keywords
unit
picture
marking data
information
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510883300.3A
Other languages
English (en)
Other versions
CN106845323B (zh
Inventor
方涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510883300.3A priority Critical patent/CN106845323B/zh
Publication of CN106845323A publication Critical patent/CN106845323A/zh
Application granted granted Critical
Publication of CN106845323B publication Critical patent/CN106845323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种打标数据的收集方法、装置及证件识别***,其中,方法包括:利用图像字符识别***识别图片上的文本信息;验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,对所述图片进行切割,得到至少一个包含单个字符的单元图片;针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。因此,本发明是基于图像字符识别***和可信数据源验证图片的真实性,通过对真实图片进行切割、标记以得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进***性能的改进和优化。

Description

一种打标数据的收集方法、装置以及证件识别***
技术领域
本申请涉及计算机应用领域,特别是涉及一种打标数据的收集方法、装置以及证件识别***。
背景技术
字符识别***是指用于识别字符信息真假的***,如身份证字符识别***、营业执照字符识别***、护照字符识别***等。以身份证字符识别***为例,该***识别用户身份证图像中的关键信息,如姓名、身份证号码等字符,以验证用户身份证图像的真实性。
字符识别***主要依赖于字符识别算法来实现身份识别,因此字符识别算法的性能好坏直接影响到该***的识别性能的高低,在实际操作中,常通过人工打标的方式来收集打标数据,利用打标数据训练得到更加准确的字符识别模型,优化该字符识别算法,使字符识别***的性能更优。在训练过程中,打标数据越多、越真实,训练得到的字符识别模型的准确性越高、可靠性越高。
目前,这种人工打标的方式,需要投入大量的人工成本和时间成本,打标数据的收集效率较低,从而限制了字符识别***性能的优化。
发明内容
为了解决上述技术问题,本发明提供了一种打标数据的收集方法和装置,提供了线上、自动收集打标数据的方式,这种自动收集方式,能够节省人力成本和时间成本,能够促进字符识别***的优化。
另外,本发明还提供了一种证件识别***,既能够实现对证件的识别,又能够实现打标数据的自动收集。
本发明第一方面提供了一种打标数据的收集方法,所述方法包括:
利用图像字符识别***识别图片上的文本信息;
验证识别到的所述文本信息是否与可信数据源的信息一致;
如果一致,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;
针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
可选的,所述方法还包括:
如果不一致,则计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;
如果是,则转入执行所述步骤:对所述图片进行切割,得到至少一个包含单个字符的单元图片。
可选的,所述方法还包括:
保存所述打标数据,所述打标数据用作所述图像字符识别***的机器识别模型的训练样本。
可选的,在保存所述打标数据之前,所述方法还包括:
对所述打标数据进行脱敏处理。
可选的,对所述图片进行切割,得到至少一个包含单个字符的单元图片,包括:
采用文本行定位算法定位所述图片中的文本区域;
采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
本发明第二方面提供了一种打标数据的收集装置,所述装置包括:
识别单元,用于识别图片上的文本信息;
验证单元,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元;
所述分割单元,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
可选的,所述装置还包括:
计算单元;则所述验证单元在验证结果不一致时,触发所述计算单元;
所述计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元。
可选的,所述装置还包括:
保存单元,用于保存所述打标数据,所述打标数据用作所述识别单元的机器识别模型的训练样本。
可选的,所述装置还包括:
脱敏单元,用于对所述打标数据进行脱敏处理;
则所述保存单元,具体用于保存所述脱敏单元脱敏处理后的打标数据。
可选的,所述分割单元,包括:
定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;
切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
本发明第三方面提供了一种证件识别***,所述***包括:
图像字符识别单元,用于识别待识别图片中的文本信息;
信息验证单元,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;
分割单元,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。
本发明提供的技术方案与现有技术相比,其具有如下有益效果:
本发明提供的技术方案,利用图像字符识别***识别图片上的文本信息;验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,表明图片上的文本信息是真实的,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;这样,图像字符识别***可以实时的、不间断的为后续打标数据的收集提供可靠的数据基础。然后针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。因此,本发明提供的技术方案基于图像字符识别***和可信数据源验证图片的真实性,通过对这些真实图片进行切割、标记得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进***性能的改进和优化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种打标数据的收集方法实施例1的流程图;
图2是本发明提供的打标数据的示意图;
图3是本发明提供的一种打标数据的收集方法实施例2的流程图;
图4是本发明提供的一种打标数据的收集装置实施例1的流程图;
图5是本发明提供的一种打标数据的收集装置实施例2的结构图;
图6是本发明提供的一种证件识别***的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。
方法实施例
请参阅图1,图1是本发明提供的一种打标数据的收集方法实施例1的流程图,该方法可以由用户机器来执行,例如个人的PC机,也可以由各种类型的网站服务器来执行,例如Web服务器,或者APP服务器。如图1所示该方法包括:
步骤101:利用图像字符识别***识别图片上的文本信息。
步骤102:验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,执行步骤103-105。
在本发明实施例中,图像字符识别***是指用于识别图像上文本信息的***,如身份证字符识别***、营业执照字符识别***、护照字符识别***等。
在本发明实施例中,可信数据源是指存储真实数据信息或已经过校验的数据信息的数据库,例如公安网等官方数据。如公安系网内储存用户身份证信息的数据库,或者,用于储存用户护照信息的数据库,或者,用于储存企业营业执照信息的数据库。
为了便于解释说明,下文仅以身份证字符识别***为例对本发明实施例进行示例性说明。
举例说明:身份证字符识别***根据不同的业务需求,可以识别用户身份证图片中不同的文本信息,如可以识别身份证图片上的姓名、身份证号、出生、民族、性别、住址、签发机关、有效期限等文本信息。
一般情况下,身份证字符识别***接收用户上传的图片,先验证图片种类,如验证图片是否为指定的身份证种类,如验证图片是否为身份证的人脸面;在验证通过之后,身份证字符识别***基于文字识别算法采用的文字识别模型,提取图片上的文本信息。在得到文本信息之后,验证识别到的所述文本信息是否与可信数据源的信息一致。
例如:验证身份证图片上的姓名、身份证号与公安网的信息是否一致,具体是:验证身份证图片上的姓名、身份证号与公安网的信息的字符个数是否一致且多数字符是否一致,如果是,则认定身份证图片上的文本信息与公安网的信息是一致的,验证结果是一致的,说明身份证图片是真实图片,该图片上的文本信息是真实可靠的;如果否,则认定身份证图片上的文本信息与公安网的信息是不一致的,验证结果是不一致的,说明身份证图片是虚假图片,该图片上的文本信息是不真实、不可信的。
通过图像字符识别***和可信数据源能够验证出图片上文本信息是否是真实可靠的,这样就会后续打标数据的收集打好数据基础,接下来对真实的图片进行处理。
步骤103:则对所述图片进行切割,得到至少一个包含单个字符的单元图片。
在具体实现时,步骤103可以包括:
采用文本行定位算法定位所述图片中的文本区域;
采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
下面以身份证字符识别***识别身份证图片中的姓名、身份证号为例,对步骤103的具体实现过程进行说明。
先采用文本行定位算法定位身份证图片中的姓名、身份证号的文本区域;然后采用切字算法将这些文本区域切割成至少一个包含单个字符的单元图片。
例如,用户上传的身份证图片中姓名是“张三”,则先定位到姓名文本区域,然后将“张三”文本区域切割成“张”和“三”两个包含字符的单元图片。
再例如,用户上传的身份证图片中身份证号是“110123201510100334”则先定位到身份证文本区域,然后将“110123201510100334”文本区域切割成18个包含单个数字的单元图片。
步骤104:针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
以上文示例中的单元图片“张”、“三”为例,对步骤104进行示例性说明。
请参阅图2,图2示出的灰色底的携带“张”的单元图片1和灰色底的携带“三”的单元图片2;单元图片1右侧的文字“张”和单元图片2右侧的文字“三”都是可信数据源中信息;利用文字“张”、“三”分别对单元图片1和单元图片2进行标记,得到打标数据。从上述方法实施例1可以看出,本发明通过图像字符识别***和可信数据源来识别图片上文本信息的真实性;如果真实,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。则对该图片进行切割得到包含字符的小图片;因此,本发明提供的技术方案基于图像字符识别***和可信数据源验证图片的真实性,通过对这些真实图片进行切割、标记以得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进***性能的改进和优化。
为了进一步提高打标数据的收集效率,本发明还提供了另一种收集方法。下面结合图3对该方法进行解释说明。
请参阅图3,图3是本发明提供的一种打标数据的收集方法实施例2的流程图,该方法包括:
步骤301:利用图像字符识别***识别图片上的文本信息;
步骤302:验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,执行步骤303和304;如果不一致,执行步骤305。
步骤303:对所述图片进行切割,得到至少一个包含单个字符的单元图片;
步骤304:针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
步骤305:计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,执行步骤303和304。
其中,步骤301-304与上述实施例中步骤101-104相同,可以参照上文描述,此处不再赘述。
其中,在步骤301中,图像字符识别***可能因为用户上传的图片格式无法识别、图片不清楚等原因,导致识别出的文本信息与可信数据源的信息不一致,但这些图片却很有可能就是真实可靠的。基于此,本发明进一步的利用步骤305来进一步衡量图片的真实性和可信度。
其中,在步骤305中,通过所述文本信息与可信数据源的信息之间的相似度来衡量图片的可靠性;如果,相似度落入了预设的置信度区间,表明该该图片是可信的。那么该图片就可以作为后续打标数据的数据基础,进而通过步骤303和304来收集打标数据。
本发明方法实施例2与方法实施例1相比,其在方法实施例1的基础上,增加了通过相似度进一步衡量验证结果不一致的图片的可信度,将可信度满足需求的图片也作为打标数据的数据基础,这样就扩展了打标数据的数据源,能够进一步提高打标数据的收集效率和质量。另外,在上述方法实施例1或方法实施例2的基础上,还可以增加如下步骤:
保存所述打标数据,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。
另外,还考虑到图像字符识别***识别的图片会涉及到用户私密信息,如用户身份证图片携带有用户姓名、身份证号等私密信息等;为了保证这些私密信息在打标数据收集过程中安全性,防止私密信息的泄露。基于此,在上述保存所述打标数据之前,还可以对所述打标数据进行脱敏处理,则保存脱敏处理后的打标数据。脱敏处理可以采取对所述打标数据进行随机命名等方式。
针对“对打标数据进行脱敏处理”步骤,下面给出两种可实现的方式。
一种实现方式是,对所述打标数据中的多个所述单元图片和所述单元图片的标记文本信息进行随机排序。
一般情况下,针对一个图片收集到的打标数据都是按照顺序排序的。例如,针对身份证图片收集到的打标数据是姓名、身份证号中各个字符的单元图片和单元图片的标记文本信息。如姓名“张”、“三”这些打标数据都是顺序排列的。这样,非法份子窃取这些打标数据后,可以直接恢复出特定用户的私密信息,如用户姓名“张三”。为了防止在打标数据收集过程中泄露私密信息。则对打标数据中多个单元图片和单元图片的标记文本信息进行随机排序,尤其是在打标数据量比较大的情况,就很难从这些打标数据中恢复出特定用户的私密信息,从而保证了用户私密信息的安全性。
另一种实现方式是,对打标数据进行加密。
采用这种方式对打标数据进行脱敏处理,最终保存的是打标数据的密文,这样,防止非法份子直接从数据库中窃取用户私密信息,增加了破解难度。当然,在本发明中脱敏处理并不局限于以上两种方式,还可以采用其他脱敏方式进行处理。
装置实施例
与上述一种打标数据的收集方法相对应,本申请实施例还提供了一种打标数据的收集装置。
请参阅图4,图4是本发明提供的一种打标数据的收集装置实施例1的结构图。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。该装置包括:
识别单元401,用于识别图片上的文本信息;
其中识别单元可以是利用图像字符识别***识别图片上的文本信息。
验证单元402,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元403;
所述分割单元403,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元404,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
另外,本发明还提供了另一种打标数据的收集装置,具体请参阅图5示出的一种打标数据的收集装置实施例2的结构图。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。该装置包括:
识别单元501,用于识别图片上的文本信息;
验证单元502,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元503;如果不一致,触发计算单元505;
所述分割单元503,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元504,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
计算单元505,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元503和标记单元504。
在上述图4或图5所示装置的基础上,所述装置还可以包括:
保存单元,用于保存所述打标数据,所述打标数据用作识别单元501的机器识别模型的训练样本。
更进一步的,在上述图4或图5所示装置的基础上,所述装置还可以包括:
脱敏单元,用于对所述打标数据进行脱敏处理;
则所述保存单元,具体用于保存脱敏处理后的打标数据。
可选的,所述脱敏单元具体用于:对所述打标数据中的多个所述单元图片和所述单元图片的标记文本信息进行随机排序。
在上述图4或图5所示装置中,所述分割单元,可以包括:
定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;
切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
本发明提供的装置,基于图像字符识别***和可信数据源验证图片的真实性,通过对这些真实图片进行切割、标记以得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进***性能的改进和优化。
本发明还提供了一种证件识别***,下面结合图6对该***进行解释说明。
请参阅图6,图6是本发明提供的一种证件识别***的结构图,如图6所示,该***可以包括:
图像字符识别单元601,用于识别待识别图片中的文本信息;
信息验证单元602,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;
分割单元603,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元604,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。
在图6所示***的基础上,还可以包括:
计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元和标记单元。这样,能够进一步地将一些可信度较高的图片作为打标数据的基础,从而提高打标数据的收集效率。
本发明提供的证件识别***,一方面利用图像字符识别单元和信息验证单元对图片进行验证;另一方面,利用分割单元和标记单元对验证的真实图片进行切割、标记以得到打标数据,该打标数据能够用作图像字符识别单元的机器识别模型的训练样本,以对图像字符识别单元进行进一步优化。因此,该证据识别***既能够验证图片的真实性,又能够自动收集打标数据,为***的自优化打好基础。
所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述到的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,可以采用软件功能单元的形式实现。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上对本申请所提供的一种打标数据的收集方法、装置以及证件识别***进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种打标数据的收集方法,其特征在于,所述方法包括:
利用图像字符识别***识别图片上的文本信息;
验证识别到的所述文本信息是否与可信数据源的信息一致;
如果一致,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;
针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果不一致,则计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;
如果是,则转入执行所述步骤:对所述图片进行切割,得到至少一个包含单个字符的单元图片。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存所述打标数据,所述打标数据用作所述图像字符识别***的机器识别模型的训练样本。
4.根据权利要求3所述的方法,其特征在于,在保存所述打标数据之前,所述方法还包括:
对所述打标数据进行脱敏处理。
5.根据权利要求1所述的方法,其特征在于,对所述图片进行切割,得到至少一个包含单个字符的单元图片,包括:
采用文本行定位算法定位所述图片中的文本区域;
采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
6.一种打标数据的收集装置,其特征在于,所述装置包括:
识别单元,用于识别图片上的文本信息;
验证单元,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元;
所述分割单元,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
计算单元;则所述验证单元在验证结果不一致时,触发所述计算单元;
所述计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
保存单元,用于保存所述打标数据,所述打标数据用作所述识别单元的机器识别模型的训练样本。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
脱敏单元,用于对所述打标数据进行脱敏处理;
则所述保存单元,具体用于保存所述脱敏单元脱敏处理后的打标数据。
10.根据权利要求6所述的装置,其特征在于,所述分割单元,包括:
定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;
切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。
11.一种证件识别***,其特征在于,所述***包括:
图像字符识别单元,用于识别待识别图片中的文本信息;
信息验证单元,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;
分割单元,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;
标记单元,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。
CN201510883300.3A 2015-12-03 2015-12-03 一种打标数据的收集方法、装置以及证件识别*** Active CN106845323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510883300.3A CN106845323B (zh) 2015-12-03 2015-12-03 一种打标数据的收集方法、装置以及证件识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510883300.3A CN106845323B (zh) 2015-12-03 2015-12-03 一种打标数据的收集方法、装置以及证件识别***

Publications (2)

Publication Number Publication Date
CN106845323A true CN106845323A (zh) 2017-06-13
CN106845323B CN106845323B (zh) 2020-04-28

Family

ID=59148927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510883300.3A Active CN106845323B (zh) 2015-12-03 2015-12-03 一种打标数据的收集方法、装置以及证件识别***

Country Status (1)

Country Link
CN (1) CN106845323B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273698A (zh) * 2017-07-06 2017-10-20 武靖 人工智能训练标准库的处理与检测方法、***
CN108053545A (zh) * 2017-12-29 2018-05-18 百度在线网络技术(北京)有限公司 证件验真方法和装置、服务器、存储介质
CN109635805A (zh) * 2018-12-11 2019-04-16 上海智臻智能网络科技股份有限公司 图像文本定位方法及装置、图像文本识别方法及装置
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110188619A (zh) * 2019-05-07 2019-08-30 上海上湖信息技术有限公司 证件真伪鉴定方法、装置以及计算机可读存储介质
CN110991270A (zh) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 文本识别的方法、装置、电子设备和存储介质
CN111160357A (zh) * 2020-04-02 2020-05-15 支付宝(杭州)信息技术有限公司 一种基于对抗学习的模型训练、图片输出方法及装置
CN111339556A (zh) * 2020-02-17 2020-06-26 深圳前海微众银行股份有限公司 数据脱敏方法、终端、装置及存储介质
CN111460198A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0539158A2 (en) * 1991-10-21 1993-04-28 Canon Kabushiki Kaisha Method and apparatus for character recognition
CN101196994A (zh) * 2007-12-26 2008-06-11 腾讯科技(深圳)有限公司 图片内容识别方法及识别***
CN101589389A (zh) * 2006-11-29 2009-11-25 谷歌公司 使用移动设备***的数字图像存档和检索
WO2011061442A1 (fr) * 2009-11-17 2011-05-26 Hologram Industries Procede et systeme de controle automatique de l'authenticite d'un document d'identite.
CN103608826A (zh) * 2011-04-12 2014-02-26 新加坡国立大学 利用网络信息挖掘的视频内产品注释
CN103679221A (zh) * 2012-09-04 2014-03-26 苏州华兴致远电子科技有限公司 车号识别方法和***
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0539158A2 (en) * 1991-10-21 1993-04-28 Canon Kabushiki Kaisha Method and apparatus for character recognition
CN101589389A (zh) * 2006-11-29 2009-11-25 谷歌公司 使用移动设备***的数字图像存档和检索
CN101196994A (zh) * 2007-12-26 2008-06-11 腾讯科技(深圳)有限公司 图片内容识别方法及识别***
WO2011061442A1 (fr) * 2009-11-17 2011-05-26 Hologram Industries Procede et systeme de controle automatique de l'authenticite d'un document d'identite.
CN103608826A (zh) * 2011-04-12 2014-02-26 新加坡国立大学 利用网络信息挖掘的视频内产品注释
CN103679221A (zh) * 2012-09-04 2014-03-26 苏州华兴致远电子科技有限公司 车号识别方法和***
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273698A (zh) * 2017-07-06 2017-10-20 武靖 人工智能训练标准库的处理与检测方法、***
CN108053545A (zh) * 2017-12-29 2018-05-18 百度在线网络技术(北京)有限公司 证件验真方法和装置、服务器、存储介质
CN109635805A (zh) * 2018-12-11 2019-04-16 上海智臻智能网络科技股份有限公司 图像文本定位方法及装置、图像文本识别方法及装置
CN111460198A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN111460198B (zh) * 2019-01-18 2023-06-20 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN110188619A (zh) * 2019-05-07 2019-08-30 上海上湖信息技术有限公司 证件真伪鉴定方法、装置以及计算机可读存储介质
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110135414B (zh) * 2019-05-16 2021-07-09 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110991270A (zh) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 文本识别的方法、装置、电子设备和存储介质
CN110991270B (zh) * 2019-11-15 2023-10-20 泰康保险集团股份有限公司 文本识别的方法、装置、电子设备和存储介质
CN111339556A (zh) * 2020-02-17 2020-06-26 深圳前海微众银行股份有限公司 数据脱敏方法、终端、装置及存储介质
CN111160357B (zh) * 2020-04-02 2020-06-30 支付宝(杭州)信息技术有限公司 一种基于对抗学习的模型训练、图片输出方法及装置
CN111160357A (zh) * 2020-04-02 2020-05-15 支付宝(杭州)信息技术有限公司 一种基于对抗学习的模型训练、图片输出方法及装置

Also Published As

Publication number Publication date
CN106845323B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN106845323A (zh) 一种打标数据的收集方法、装置以及证件识别***
CN109598509B (zh) 风险团伙的识别方法和装置
EP3522072A1 (en) Method and apparatus for verifying documents and identity
US9495586B1 (en) Identity verification using biometric data
CN110086608A (zh) 用户认证方法、装置、计算机设备及计算机可读存储介质
JP2020511059A (ja) 情報認証方法及びシステム
CN110008428B (zh) 新闻数据处理方法、装置、区块链节点设备及存储介质
US9665754B2 (en) Identification verification using a device with embedded radio-frequency identification functionality
CN109583230A (zh) 基于区块链的数据存证方法及装置、电子设备
CN106503589A (zh) 区块链交易信息正确性的校验方法、装置及***
CN104301119B (zh) 数据签名方法、签名验证方法、数据签名设备及验证服务器
CN108540470B (zh) 基于电子认证标记的认证***及方法
CN105975839A (zh) 一种生物特征识别装置和方法以及生物特征模板注册方法
US20220141252A1 (en) System and method for data filtering in machine learning model to detect impersonation attacks
CN108235122A (zh) 视频广告的监测方法及装置
CN108241880A (zh) 一种实时发卡***
US20230410222A1 (en) Information processing apparatus, control method, and program
CN108234454B (zh) 一种身份认证方法、服务器及客户端设备
CN110647895A (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN106503519A (zh) 一种身份核查的方法
CN106780951B (zh) 单据校验方法及装置
CN112434506A (zh) 电子协议签订处理方法、装置、计算机设备及介质
CN114710468B (zh) 一种域名生成和识别方法、装置、设备及介质
WO2023172190A1 (en) Method and apparatus for accessing data in a plurality of machine readable medium
CN110287699B (zh) 应用程序的特征提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right