CN110020640A - 一种纠正身份证信息的方法及终端 - Google Patents
一种纠正身份证信息的方法及终端 Download PDFInfo
- Publication number
- CN110020640A CN110020640A CN201910316776.7A CN201910316776A CN110020640A CN 110020640 A CN110020640 A CN 110020640A CN 201910316776 A CN201910316776 A CN 201910316776A CN 110020640 A CN110020640 A CN 110020640A
- Authority
- CN
- China
- Prior art keywords
- address
- information
- level
- card
- address information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种纠正身份证信息的方法及终端,属于数据处理领域。本发明通过调用OCR引擎识别身份证的号码,得到身份证号码;调用OCR引擎识别身份证的地址,得到身份证地址;获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;根据预设的地址信息库纠正所述身份证地址的第二部分。实现缩短纠正身份证信息的时间。
Description
技术领域
本发明涉及一种纠正身份证信息的方法及终端,属于数据处理领域。
背景技术
OCR引擎扫描身份证后,识别身份证信息以便为后续的业务处理提供数据。由于OCR引擎的识别准确率尚不能达到100%,因此,在OCR引擎识别身份证信息后,需要对身份证信息进行纠正以提高身份证信息的准确性。其中,身份证地址的修复一般通过经验值进行纠正,如字符“厦”和“廈”特别相似,容易混淆,“厦门市”容易被OCR识别引擎误识别为“廈门市”时。由于地址一般只能出现“厦门市”,所以在纠正过程中直接使用“厦门市”替换“廈门市”。这种直接替换纠正的方法,纠正量作用有限且在实际算法应用中,容易过于主观导致替换过度,纠正后信息的正确率较低。
申请号为201880000142.4的专利文献提供一种地址纠错方法及终端。上述专利文献通过获取待纠错地址;根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。实现减少地址纠错过程中所占用的空间。
但是,上述专利文献在纠正OCR识别得到的身份证信息的过程中反复调用存储有正确地址信息的字典树,时间成本高。
发明内容
本发明所要解决的技术问题是:如何缩短纠正身份证信息的时间。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种纠正身份证信息的方法,包括:
调用OCR引擎识别身份证,得到身份证信息;所述身份证信息包括身份证号码和身份证地址;
从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息;
根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;
根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
优选地,根据所述三级地址信息纠正所述身份证地址的第一部分,具体为:
当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
优选地,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置;
设置所述身份证地址的第一个字符的位置为省级地址开始位置;
使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符;
设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置;
获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置;
设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置;
使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
优选地,获取与所述身份证号码的前六位对应的三级地址信息,具体为:
校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确;
若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
优选地,包括:
调用OCR引擎识别身份证的性别,得到性别识别结果;
判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数;
若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
本发明还提供一种纠正身份证信息的终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
调用OCR引擎识别身份证的号码,得到身份证号码;
调用OCR引擎识别身份证的地址,得到身份证地址;
获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;
根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;
根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
优选地,根据所述三级地址信息纠正所述身份证地址的第一部分,具体为:
当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
优选地,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置;
设置所述身份证地址的第一个字符的位置为省级地址开始位置;
使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符;
设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置;
获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置;
设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置;
使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
优选地,获取与所述身份证号码的前六位对应的三级地址信息,具体为:
校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确;
若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
优选地,包括:
调用OCR引擎识别身份证的性别,得到性别识别结果;
判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数;
若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
本发明具有如下有益效果:
1、区别于现有技术在纠正OCR识别得到的身份证地址的过程中需要反复调用存储有正确地址信息的字典树,时间成本高。本发明提供一种纠正身份证信息的方法及终端,利用身份证号码前六位纠正OCR识别得到的身份证地址。由于身份证号码的第一位至第二位是省级地址信息的编码,第三位至第四位是市级地址信息的编码,第五位至第六位是县级地址信息的编码,因此,本发明利用身份证号码的前六位能够直接地、有效地纠正身份证地址中的省级地址信息、市级地址信息和县级地址信息,身份证地址中除省级地址信息、市级地址信息和县级地址信息之外的部分通过与地址信息库中的地址进行比较以达到纠正的目的。本发明利用身份证号码前六位对身份证地址中的省级地址信息、市级地址信息和县级地址信息进行纠错,有效地减少了对OCR识别得到的身份证地址纠错过程中调用地址信息库进行比较的次数,极大程度上缩短了身份证地址纠正的时间。同时,地址信息库中无需存储省级地址信息、市级地址信息和县级地址信息,能够减少地址信息库的容量,从而进一步缩短通过将身份证地址与地址信息库中的地址进行比较以纠正身份证地址的时间。
2、进一步地,为避免有些身份证地址由于改签户口地址导致的身份地址与身份证号码对应的地址不一致而导致纠正错误,本发明先在OCR引擎识别到的身份证地址中搜索是否存在与身份证号码对应的县级地址信息,若存在,说明身份证号码的县级地址与识别得到的身份证地址是一致的,那么它们对应的省级地址和市级地址也应该要一致。所以可以通过身份证号码对应的省级地址和市级地址纠正OCR引擎识别得到的身份证地址。本发明只有当OCR识别得到的身份证地址中存在与身份证号码对应的县级地址信息时,才使用身份证号码对应的省级地址信息和市级地址信息纠正身份证地址,避免了误纠正的情况。
3、进一步地,采用县级地址信息作为定位基准,能够精确定位到省级地址和市级地址,有利于提高纠正身份证信息的效率和准确性。
4、进一步地,只有当身份证号码的校验结果准确时,才根据身份证号码的前六位修正身份证地址,有利于提高纠正身份证信息的准确性。
5、进一步地,实现根据身份证号码纠正OCR引擎的性别识别结果。
附图说明
图1为本发明提供的一种纠正身份证信息的方法的具体实施方式的流程框图;
图2为本发明提供的一种纠正身份证信息的终端的具体实施方式的结构框图;
标号说明:
1、处理器;2、存储器。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
请参照图1至图2,
本发明的实施例一为:
如图1所示,本实施例提供一种纠正身份证信息的方法,包括:
S1、调用OCR引擎识别身份证,得到身份证信息;所述身份证信息包括身份证号码和身份证地址。
例如,扫描仪扫描身份证,并对扫描到的图像进行识别,得到身份证号码“360222198610060711”,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”。其中,上述身份证号是由程序随机生成,非现实身份中的身份证号码。
S2、校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确。
其中,按照GB11643-1999《公民身份号码》中“5.1.4.1效验公式”和”5.1.4.2效验码字符集的计算”判断身份证号码准确性。
S3、若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
其中,只有当身份证号码的校验结果准确时,才根据身份证号码的前六位修正身份证地址。身份证号码的前六位为地址码,地址码为编码对象户口所在县(市、区)的行政区划代码。
S4、从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息。
例如,身份证号码“360222198610060711”的前六位为“360222”,其中“36”代表省级地址信息“江西省”,“02”代表市级地址信息“景德镇市”,“22”代表县级地址信息“浮梁县”。
S5、根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息。具体为:
S51、判断所述身份证地址中是否存在所述三级地址信息中的县级地址信息。
例如,遍历身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”,该身份证地址中存在与身份证号码“360222198610060711”对应的县级地址信息“浮梁县”。
S52、当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
其中,为避免有些身份证地址由于改签户口地址导致的身份地址与身份证号码对应的地址不一致,本实施例先在OCR引擎识别到的身份证地址中搜索是否存在与身份证号码对应的县级地址信息,若存在,说明身份证号码的县级地址与识别得到的身份证地址是一致的,那么它们对应的省级地址和市级地址也应该要一致。所以可以通过身份证号码对应的省级地址和市级地址纠正OCR引擎识别得到的身份证地址。
优选地,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
S521、获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置。
S522、设置所述身份证地址的第一个字符的位置为省级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中“汪”字符的位置为省级地址开始位置。
S523、使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符。
例如,所述省级地址开始位置至所述省级地址结束位置的字符为“汪西省”,与身份证号码对应的三级地址信息中的省级地址信息为“江西省”。因此,OCR引擎识别得到的身份证地址中的省级地址为“汪西省”存在错误,需使用“江西省”替换“汪西省”以纠正OCR引擎的识别结果。
S524、设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“省”字符所在位置为省级地址结束位置,“景”字符所在位置为市级地址开始位置。
S525、获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“浮”字符所在位置为县级地址开始位置。
S526、设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“市”字符所在位置为市级地址结束位置。
S527、使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
例如,所述市级地址开始位置至所述市级地址结束位置的字符为“影德镇市”,与身份证号码对应的三级地址信息中的市级地址信息为“景德镇市”。因此,OCR引擎识别得到的身份证地址中的市级地址为“影德镇市”存在错误,需使用“景德镇市”替换“影德镇市”以纠正OCR引擎的识别结果。
S6、根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
其中,可以使用现有的身份证地址纠正方法对身份证地址的第二部分进行纠正。
优选地,计算所述身份证地址的第二部分与所述地址信息库中每一地址信息的相似度;使用所述地址信息库中具有最大相似度的地址信息替换所述身份证地址的第二部分。
例如,本实施例中,身份证地址的第二部分为“经公桥镇鸦桥村鸦乔组136号”,预设的地址信息库中存储有大量的不包含省级地址、市级地址和县级地址的地址信息,预设的地址信息库中具有最大相似度的地址信息为“经公桥镇鸦桥村鸦桥组136号”。因此,使用“经公桥镇鸦桥村鸦桥组136号”替换身份证地址的第二部分“经分桥镇鸦桥村鸦乔组136号”。
经过上述步骤对OCR引擎识别得到的身份证地址进行纠错,最终得到的身份证地址为“江西省景德镇市浮梁县经公桥镇鸦桥村鸦桥组136号”。
其中,本实施例利用身份证号码前六位纠正OCR识别得到的身份证地址。由于身份证号码的第一位至第二位是省级地址信息的编码,第三位至第四位是市级地址信息的编码,第五位至第六位是县级地址信息的编码,因此,本实施例利用身份证号码的前六位能够直接地、有效地纠正身份证地址中的省级地址信息、市级地址信息和县级地址信息,身份证地址中除省级地址信息、市级地址信息和县级地址信息之外的部分通过与地址信息库中的地址进行比较以达到纠正的目的。本实施例利用身份证号码前六位对身份证地址中的省级地址信息、市级地址信息和县级地址信息进行纠错,有效地减少了对OCR识别得到的身份证地址纠错过程中调用地址信息库进行比较的次数,极大程度上缩短了身份证地址纠正的时间。同时,地址信息库中无需存储省级地址信息、市级地址信息和县级地址信息,能够减少地址信息库的容量,从而进一步缩短通过将身份证地址与地址信息库中的地址进行比较以纠正身份证地址的时间。
S7、调用OCR引擎识别身份证的性别,得到性别识别结果。
S8、判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数。
S9、若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
其中,身份证号码的第15位至第17位为顺序码,男性的顺序码为奇数,女性的顺序码为偶数。因此,可以根据顺序码的奇偶性纠正OCR引擎得到的性别识别结果。
本发明的实施例二为:
如图2所示,本实施例提供一种纠正身份信息的终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:
S1、调用OCR引擎识别身份证,得到身份证信息;所述身份证信息包括身份证号码和身份证地址。
例如,扫描仪扫描身份证,并对扫描到的图像进行识别,得到身份证号码“360222198610060711”,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”。其中,上述身份证号是由程序随机生成,非现实身份中的身份证号码。
S2、校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确。
其中,按照GB11643-1999《公民身份号码》中“5.1.4.1效验公式”和”5.1.4.2效验码字符集的计算”判断身份证号码准确性。
S3、若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
其中,只有当身份证号码的校验结果准确时,才根据身份证号码的前六位修正身份证地址。身份证号码的前六位为地址码,地址码为编码对象户口所在县(市、区)的行政区划代码。
S4、从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息。
例如,身份证号码“360222198610060711”的前六位为“360222”,其中“36”代表省级地址信息“江西省”,“02”代表市级地址信息“景德镇市”,“22”代表县级地址信息“浮梁县”。
S5、根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息。具体为:
S51、判断所述身份证地址中是否存在所述三级地址信息中的县级地址信息。
例如,遍历身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”,该身份证地址中存在与身份证号码“360222198610060711”对应的县级地址信息“浮梁县”。
S52、当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
其中,为避免有些身份证地址由于改签户口地址导致的身份地址与身份证号码对应的地址不一致,本实施例先在OCR引擎识别到的身份证地址中搜索是否存在与身份证号码对应的县级地址信息,若存在,说明身份证号码的县级地址与识别得到的身份证地址是一致的,那么它们对应的省级地址和市级地址也应该要一致。所以可以通过身份证号码对应的省级地址和市级地址纠正OCR引擎识别得到的身份证地址。
优选地,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
S521、获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置。
S522、设置所述身份证地址的第一个字符的位置为省级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中“汪”字符的位置为省级地址开始位置。
S523、使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符。
例如,所述省级地址开始位置至所述省级地址结束位置的字符为“汪西省”,与身份证号码对应的三级地址信息中的省级地址信息为“江西省”。因此,OCR引擎识别得到的身份证地址中的省级地址为“汪西省”存在错误,需使用“江西省”替换“汪西省”以纠正OCR引擎的识别结果。
S524、设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“省”字符所在位置为省级地址结束位置,“景”字符所在位置为市级地址开始位置。
S525、获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“浮”字符所在位置为县级地址开始位置。
S526、设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置。
例如,身份证地址“汪西省影德镇市浮梁县经公桥镇鸦桥村鸦乔组136号”中,“市”字符所在位置为市级地址结束位置。
S527、使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
例如,所述市级地址开始位置至所述市级地址结束位置的字符为“影德镇市”,与身份证号码对应的三级地址信息中的市级地址信息为“景德镇市”。因此,OCR引擎识别得到的身份证地址中的市级地址为“影德镇市”存在错误,需使用“景德镇市”替换“影德镇市”以纠正OCR引擎的识别结果。
S6、根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
其中,可以使用现有的身份证地址纠正方法对身份证地址的第二部分进行纠正。
优选地,计算所述身份证地址的第二部分与所述地址信息库中每一地址信息的相似度;使用所述地址信息库中具有最大相似度的地址信息替换所述身份证地址的第二部分。
例如,本实施例中,身份证地址的第二部分为“经公桥镇鸦桥村鸦乔组136号”,预设的地址信息库中存储有大量的不包含省级地址、市级地址和县级地址的地址信息,预设的地址信息库中具有最大相似度的地址信息为“经公桥镇鸦桥村鸦桥组136号”。因此,使用“经公桥镇鸦桥村鸦桥组136号”替换身份证地址的第二部分“经分桥镇鸦桥村鸦乔组136号”。
经过上述步骤对OCR引擎识别得到的身份证地址进行纠错,最终得到的身份证地址为“江西省景德镇市浮梁县经公桥镇鸦桥村鸦桥组136号”。
其中,本实施例利用身份证号码前六位纠正OCR识别得到的身份证地址。由于身份证号码的第一位至第二位是省级地址信息的编码,第三位至第四位是市级地址信息的编码,第五位至第六位是县级地址信息的编码,因此,本实施例利用身份证号码的前六位能够直接地、有效地纠正身份证地址中的省级地址信息、市级地址信息和县级地址信息,身份证地址中除省级地址信息、市级地址信息和县级地址信息之外的部分通过与地址信息库中的地址进行比较以达到纠正的目的。本实施例利用身份证号码前六位对身份证地址中的省级地址信息、市级地址信息和县级地址信息进行纠错,有效地减少了对OCR识别得到的身份证地址纠错过程中调用地址信息库进行比较的次数,极大程度上缩短了身份证地址纠正的时间。同时,地址信息库中无需存储省级地址信息、市级地址信息和县级地址信息,能够减少地址信息库的容量,从而进一步缩短通过将身份证地址与地址信息库中的地址进行比较以纠正身份证地址的时间。
S7、调用OCR引擎识别身份证的性别,得到性别识别结果。
S8、判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数。
S9、若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
其中,身份证号码的第15位至第17位为顺序码,男性的顺序码为奇数,女性的顺序码为偶数。因此,可以根据顺序码的奇偶性纠正OCR引擎得到的性别识别结果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种纠正身份证信息的方法,其特征在于,包括:
调用OCR引擎识别身份证,得到身份证信息;所述身份证信息包括身份证号码和身份证地址;
从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息;
根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;
根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
2.根据权利要求1所述的纠正身份证信息的方法,其特征在于,根据所述三级地址信息纠正所述身份证地址的第一部分,具体为:
当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
3.根据权利要求1所述的纠正身份证信息的方法,其特征在于,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置;
设置所述身份证地址的第一个字符的位置为省级地址开始位置;
使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符;
设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置;
获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置;
设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置;
使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
4.根据权利要求1所述的纠正身份证信息的方法,其特征在于,获取与所述身份证号码的前六位对应的三级地址信息,具体为:
校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确;
若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
5.根据权利要求1所述的纠正身份证信息的方法,其特征在于,包括:
调用OCR引擎识别身份证的性别,得到性别识别结果;
判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数;
若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
6.一种纠正身份证信息的终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
调用OCR引擎识别身份证的号码,得到身份证号码;
调用OCR引擎识别身份证的地址,得到身份证地址;
获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;
根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;
根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。
7.根据权利要求6所述的纠正身份证信息的终端,其特征在于,根据所述三级地址信息纠正所述身份证地址的第一部分,具体为:
当所述身份证地址中存在所述三级地址信息中的县级地址信息时,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分。
8.根据权利要求6所述的纠正身份证信息的终端,其特征在于,根据所述三级地址信息中的省级地址信息和市级地址信息纠正所述身份证地址的第一部分,具体为:
获取所述身份证地址中字符“省”的位置信息,得到省级地址结束位置;
设置所述身份证地址的第一个字符的位置为省级地址开始位置;
使用所述三级地址信息中的省级地址信息替换所述省级地址开始位置至所述省级地址结束位置的字符;
设置所述省级地址结束位置的后一个字符在所述身份证地址中的位置信息为市级地址开始位置;
获取所述三级地址信息的县级地址信息中的第一个字符在所述身份证地址中的位置信息,得到县级地址开始位置;
设置所述县级地址开始位置的前一个字符在所述身份证地址中的位置信息为市级地址结束位置;
使用所述三级地址信息中的市级地址信息替换所述市级地址开始位置至所述市级地址结束位置的字符。
9.根据权利要求6所述的纠正身份证信息的终端,其特征在于,获取与所述身份证号码的前六位对应的三级地址信息,具体为:
校验所述身份证号码的准确性,得到校验结果;所述校验结果包括准确和不准确;
若所述校验结果为准确,则获取与所述身份证号码的前六位对应的三级地址信息。
10.根据权利要求6所述的纠正身份证信息的终端,其特征在于,包括:
调用OCR引擎识别身份证的性别,得到性别识别结果;
判断所述身份证号码第15位至第17位的奇偶性,得到判断结果;所述判断结果包括奇数和偶数;
若所述判断结果为奇数,则纠正所述性别识别结果为男性;否则,纠正所述性别识别结果为女性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316776.7A CN110020640B (zh) | 2019-04-19 | 2019-04-19 | 一种纠正身份证信息的方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316776.7A CN110020640B (zh) | 2019-04-19 | 2019-04-19 | 一种纠正身份证信息的方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020640A true CN110020640A (zh) | 2019-07-16 |
CN110020640B CN110020640B (zh) | 2021-08-24 |
Family
ID=67191879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910316776.7A Active CN110020640B (zh) | 2019-04-19 | 2019-04-19 | 一种纠正身份证信息的方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020640B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990133A (zh) * | 2021-04-28 | 2021-06-18 | 杭州金线连科技有限公司 | 一种基于多任务的深度卷积神经网络身份证信息识别方法 |
CN114661688A (zh) * | 2022-03-25 | 2022-06-24 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111932A (zh) * | 2013-04-17 | 2014-10-22 | 北京启明星辰信息技术股份有限公司 | 一种身份证号码的识别方法及装置 |
CN104750852A (zh) * | 2015-04-14 | 2015-07-01 | 海量云图(北京)数据技术有限公司 | 中文地址数据的发现与分类方法 |
CN105069056A (zh) * | 2015-07-24 | 2015-11-18 | 湖北文理学院 | 基于字符串匹配的身份证住址信息解析方法及*** |
CN105589885A (zh) * | 2014-10-24 | 2016-05-18 | 阿里巴巴集团控股有限公司 | 一种数据一致性校验的方法及*** |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
CN106790061A (zh) * | 2016-12-20 | 2017-05-31 | 财付通支付科技有限公司 | 用户信息验证方法和装置 |
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
CN109284593A (zh) * | 2018-09-06 | 2019-01-29 | 北京旷视科技有限公司 | 身份验证方法、装置及电子设备 |
CN109376510A (zh) * | 2018-08-28 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 前端信息验证方法、装置、存储介质和计算机设备 |
CN109635628A (zh) * | 2018-10-23 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 身份证信息验证方法、装置、设备及计算机可读存储介质 |
-
2019
- 2019-04-19 CN CN201910316776.7A patent/CN110020640B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111932A (zh) * | 2013-04-17 | 2014-10-22 | 北京启明星辰信息技术股份有限公司 | 一种身份证号码的识别方法及装置 |
CN105589885A (zh) * | 2014-10-24 | 2016-05-18 | 阿里巴巴集团控股有限公司 | 一种数据一致性校验的方法及*** |
CN104750852A (zh) * | 2015-04-14 | 2015-07-01 | 海量云图(北京)数据技术有限公司 | 中文地址数据的发现与分类方法 |
CN105069056A (zh) * | 2015-07-24 | 2015-11-18 | 湖北文理学院 | 基于字符串匹配的身份证住址信息解析方法及*** |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
CN106790061A (zh) * | 2016-12-20 | 2017-05-31 | 财付通支付科技有限公司 | 用户信息验证方法和装置 |
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
CN109376510A (zh) * | 2018-08-28 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 前端信息验证方法、装置、存储介质和计算机设备 |
CN109284593A (zh) * | 2018-09-06 | 2019-01-29 | 北京旷视科技有限公司 | 身份验证方法、装置及电子设备 |
CN109635628A (zh) * | 2018-10-23 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 身份证信息验证方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
杨卓: "《巧用Excel 函数提取身份证信息》", 《福建电脑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990133A (zh) * | 2021-04-28 | 2021-06-18 | 杭州金线连科技有限公司 | 一种基于多任务的深度卷积神经网络身份证信息识别方法 |
CN114661688A (zh) * | 2022-03-25 | 2022-06-24 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
CN114661688B (zh) * | 2022-03-25 | 2023-09-19 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110020640B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5850480A (en) | OCR error correction methods and apparatus utilizing contextual comparison | |
JPH11505052A (ja) | 語彙辞書の検索範囲を削減するシステム及び方法 | |
CN109299269A (zh) | 一种文本分类方法和装置 | |
US8140533B1 (en) | Harvesting relational tables from lists on the web | |
CN111090990A (zh) | 一种医疗体检报告单文字识别及纠正方法 | |
CN110020640A (zh) | 一种纠正身份证信息的方法及终端 | |
CN111340020A (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN109299470B (zh) | 文本公告中触发词的抽取方法及*** | |
CN111008625B (zh) | 一种地址校正方法、装置、设备及存储介质 | |
CN1121605A (zh) | 信息处理方法和设备 | |
CN116524527A (zh) | 一种表格图像文本识别方法及*** | |
CN111860524A (zh) | 一种数字档案智能分类的装置及方法 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN112364857A (zh) | 基于数值抽取的图像识别方法、装置及存储介质 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及*** | |
CN116229484A (zh) | 文字识别方法、名单扫描方法和装置 | |
CN115759055A (zh) | 一种顾及多维字符特征的英文地名校对方法 | |
CN114970490A (zh) | 一种文本标注数据的质检方法、装置、电子设备以及存储介质 | |
CN111985208B (zh) | 一种实现标点符号填充的方法、装置及设备 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN113449504A (zh) | 一种标书智能评分方法及*** | |
CN110457695B (zh) | 一种在线文字纠错方法及*** | |
CN113420564A (zh) | 一种基于混合匹配的电力铭牌语义结构化方法及*** | |
CN113111651A (zh) | 一种中文分词方法、装置以及搜索词库读取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |