CN109635807A

CN109635807A - 信息录入方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109635807A
Application number: CN201811207882.3A
Authority: CN
Inventors: 吴静平
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-04-16

Abstract

本发明提供一种基于大数据的信息录入方法，包括：基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。本发明还提供一种信息录入装置、设备及计算机可读存储介质。本发明可提高信息录入效率，减少信息录入错误。

Description

信息录入方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种信息录入方法、装置、设备及计算机可读存储介质。

背景技术

身份证作为人口信息行之有效的管理工具，已经运用到了社会生活的方方面面，身份证的信息获取具有十分重要的作用。在各种业务帐号或者业务办理申请的过程中，一般需要输入身份证信息，特别是用户身份证上的地址信息。目前，身份证中的个人信息录入大多采用人工录入，人工录入方式不但耗时，效率低下，并且容易因为人工输入原因录入错误的信息，造成不必要的损失。

发明内容

本发明的主要目的在于提供一种信息录入方法、装置、设备及计算机可读存储介质，旨在实现提高信息录入效率，减少信息录入错误。

为实现上述目的，本发明提供一种信息录入方法，所述信息录入方法包括以下步骤：

基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；

对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；

将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；

从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。

可选地，所述将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路的步骤包括：

利用网络爬虫在所述预设地址数据库中抓取与所述地址词集中的地址词语匹配的目标词语；

根据抓取的目标词语确定所述预设地址数据库中与所述地址词集所有的地址词语均匹配的地址从属关系支路，并将确定的地址从属关系支路作为目标地址从属关系支路。

基于所述地址文字信息中的文字排列顺序分别对所述地址词集中的地址词语进行排列，获得所述地址词集的对应的排序地址词集；

根据所述排序地址词集中地址词语的排列顺序以及排列顺序与从属关系的关联关系确定所述排序地址词集中地址词语的从属关系；

利用网络爬虫按地址词语的排列顺序，从所述预设地址数据库中基于地址词语的从属关系逐个抓取地址词语的目标词语，直至目标词语抓取失败或排序地址词集中最后一个地址词语的目标词语抓取完成；

当排序地址词集中最后一个地址词语的目标词语抓取完成时，则将所有抓取的目标词语组成的地址从属关系支路作为目标地址从属关系支路。

可选地，所述对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集的步骤包括：

基于预设地址等级标识库识别所述地址文字信息中的地址等级标识；

将识别的地址等级标识作为地址文字信息的分割符对所述地址文字信息进行分割，提取分割得到的地址词语；

基于所有提取的地址词语构建地址词集。

将所述地址文字信息与预设地址名称库进行匹配，提取所述地址文字信息中与预设地址名称库中的地址名称一致的字符串；

基于提取的字符串构建地址词集。

可选地，所述将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路的步骤之前还包括：

利用网络爬虫在所述预设地址数据库中抓取与所述地址词语匹配的目标词语，并提取所述目标词语的目标地址编码；

根据所述预设地址数据库中的地址名称更新数据确定所述目标地址编码是否存在对应的地址名称更新记录；

若存在，则根据所述目标地址编码的地址名称更新记录中的所有地址名称构建地址词集。

可选地，所述将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置的步骤之后包括：

将各个子地址项信息分别显示在信息录入界面中对应信息项的编辑框中，以供用户查看确认。

此外，为实现上述目的，本发明还提供一种信息录入装置，所述信息录入装置包括：

第一提取模块，用于基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；

切词模块，用于对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；

匹配模块，用于将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；

第二提取模块，用于从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。

此外，为实现上述目的，本发明还提供一种信息录入设备，所述信息录入设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的信息录入程序，其中所述信息录入程序被所述处理器执行时，实现如上述的信息录入方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息录入程序，其中所述信息录入程序被处理器执行时，实现如上述的信息录入方法的步骤。

本发明提供一种信息录入方法、装置、设备以及计算机可读存储介质，所述信息录入方法包括：基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。通过上述方式，利用OCR光学字符识别技术可以准确地提取地址文字信息，将对地址文字信息切词处理后得到的地址词集与预设地址数据库进行匹配获得地址词集的目标从属地址关系支路，保证切词得到的词语具有实际的地理位置意义以及切词，获得包含用户实际地址信息的目标地址从属关系支路，从目标地址从属关系支路提取需要的预设子地址项的信息并分别存储至对应的存储位置，实现地址信息的录入。在此过程中，用户无需将身份证的各项地址信息分别手动输入到对应的地址项编辑框，简化用户操作，同时避免用户对需求子地址项需要输入的内容判断错误或者手动操作失误而录入错误的信息，提高地址信息的录入效率。

附图说明

图1为本发明实施例方案中涉及的信息录入设备的硬件结构示意图；

图2为本发明信息录入方法第一实施例的流程示意图；

图3为本发明信息录入方法第二实施例的流程示意图；

图4为本发明信息录入方法第三实施例的流程示意图；

图5为本发明信息录入方法第四实施例的流程示意图；

图6为本发明信息录入方法第五实施例的流程示意图；

图7为本发明信息录入方法第六实施例的流程示意图；

图8为本发明信息录入方法第七实施例的流程示意图；

图9为本发明信息录入装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例涉及的信息录入方法主要应用于信息录入设备，该信息录入设备可以是个人计算机(personal computer，PC)、便携计算机、移动终端等具有数据处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的信息录入设备的硬件结构示意图。本发明实施例中，信息录入设备可以包括处理器1001(例如中央处理器Central ProcessingUnit，CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘 (Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WI-FI接口)；存储器1005可以是高速随机存取存储器(randomaccess memory，RAM)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器 1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本发明的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作***、网络通信模块以及信息录入程序。在图1中，网络通信模块可用于连接分析***，与分析***进行数据通信；而处理器1001可以调用存储器1005中存储的信息录入程序，并执行本发明实施例提供的信息录入方法。

本发明实施例提供了一种信息录入方法。

参照图2，图2为本发明信息录入方法第一实施例的流程示意图。

本实施例中，所述信息录入方法包括以下步骤：

步骤S10，基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；

本实施例可以应用于数据录入技术领域。身份证作为人口信息行之有效的管理工具，已经运用到了社会生活的方方面面，身份证的信息获取具有十分重要的作用。在各种业务帐号或者业务办理申请的过程中，一般需要输入身份证信息，特别是用户身份证上的地址信息。目前，身份证中的个人信息录入大多采用人工录入，人工录入方式不但耗时，效率低下，并且容易因为人工输入原因录入错误的信息，造成不必要的损失。本实施例提供一种基于OCR光学字符识别技术来识别用户的身份证上的地址文字，基于识别的地址文字来确定用户的地址信息并将地址信息录入***的方法。在本实施例中， OCR即光学字符识别技术，基于文字的图像数据提取出图像中的文字的技术。图像采集设备可以包括光学仪器、影像扫描仪或传真机等。可以在用户信息的录入界面中的身份证地址信息选项附近的预设位置设置一个地址图像数据的获取按钮，用户可以通过该按钮触发启动摄像头来拍摄身份证地址信息区域图像的指令，用户可以将身份证放到合适的位置，利用终端的图像采集设备来采集身份证上的地址文字数据或者携带地址文字的身份证完整图像的数据，然后将地址文字数据发送至本实施例的执行主体数据录入***，数据录入***在接收到图像采集设备采集的身份证图像数据时，基于OCR技术通过二值化和噪声去除等预处理后，通过文字特征抽取，与比对数据库进行对比识别和人工校正，获得地址栏的文字信息，即地址文字信息。

步骤S20，对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；

在获得地址文字信息后，采取一种或者多种切词方式对文字进行切词处理，获得地址文字信息的地址词语，并以获得的地址词语为集合的元素构建对应切词方式的地址词集。在本实施例中切词的方式可以包括：方式1)，将各个地址行政等级的名称作为地址等级标识，构建地址等级标识库，其中，地址标识库至少包括省、市、区、街道、路、巷、胡同或里弄等地址等级标识。在获得地址文字信息后，将地址文字信息与预设地址等级标识库进行匹配，识别地址文字信息中与预设地址等级标识库中的地址等级标识一致的字符串，从而识别地址文字信息中的地址等级标识，将地址等级标识作为地址文字信息的分割符对地址文字信息进行分割，提取分割得到的地址词语。具体地，若地址文字信息为“广东省深圳市宝安区新安街道……”时，可以识别的地址等级标识包括“省”、“市”以及“街道”等，则分割后得到的地址词语包括“广东”、“深圳”、“宝安”以及“新安”等。方式2)，预先采集全国不同行政等级的所有地址名称，例如，省级的地址名称“广东”以及市级名称“广州”等，构建包括所有不同行政等级的地址名称的地址名称库。在获得地址文字信息时，将地址文字信息与预设地址名称库进行匹配，在地址文字信息中与预设地址名称库中的地址名称一致的字符串，将提取的字符串作为地址词语，基于提取的字符串构建地址词集。基于预设地址名称库的切词方法包括正向最大匹配法和逆向最大匹配法等。在本实施例中，在切词处理获得地址词语后，将每种切词方式获得的所有地址词语作为地址元素，构建包括所有地址词语的地址词集。

步骤S30，将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；

本实施例中，预设地址数据库指的是包括全国或者更大区域中不同行政等级的地址名称信息以及各个地址名称之间的从属关系信息，还可以包括地址名称的更新记录信息，预设地址数据库可以是向公众公开的国家地理数据库。地址从属关系支路指的是基于地址的从属关系确定的地址路径，同个地址名称可以对应多个不同的地址路径，例如，广东省可以对应“广东省深圳市宝安区……”或“广东省广州市越秀区……”等不同路径，广州市可以对应“广东省广州市越秀区……”或“广东省广州市白云区……”等不同的路径。目标从属路径指的是与地址词集匹配的地址从属关系支路。将获得的地址词集与预设地址数据库中的预存地址信息匹配过程中，可以利用网络爬虫在预设地址数据库中抓取与地址词集中的各个地址词语匹配的目标词语，基于各个目标词语的地址从属关系支路定一个包含所有地址词语的目标词语的地址从属关系支路，将该地址从属关系支路作为目标地址从属关系支路。当然，在本实施例中，在获得地址词集时，将地址词集合中的地址词语按照地址文字信息中文字的排列顺序进行排序，获得排序地址词集，例如对于“上海市长宁区江苏路……”这一地址文字信息，获得的地址词语可能为上海、长宁以及江苏等，则排序地址词集为(上海、长宁、江苏……)，本实施例中的地址词集按照从左到右的顺序排列，并确定地址词语的从属关系为“江苏”属于“长宁”，“长宁”属于“上海”，获得排序地址词集后，将排序地址词集按照地址词语的排列顺序逐个提取地址词语基于地址词语的从属关系与预设地址数据库中的地址数据进行匹配，确定每个地址词语是否能找到对应的目标词语。具体地，从左往右的顺序提取第一个地址词语时，利用网络爬虫从预设地址数据库中抓取与第一个地址词语匹配的目标词语，在预设地址数据库中可能存在多个目标词语与第一个地址词语匹配，而且这几个与第一个目标词语各自对应的地址从属关系支路并不相交，例如，若地址词语为“江苏”网络爬虫在预设地址数据库中会从“江苏省”和“江苏路”等名称中抓取目标词语“江苏”。在本实施例中，预设地址数据库中的地址名称可以根据从属关系进行关联存储，将下级归属地址的名称存储在上级地址名称的关联的下级归属存储位置，例如将“广州市”和“深圳市”等归属地址名称存储在上级地址名称“广东省”关联的下级归属存储位置。在本实施例中，在抓取了第一个地址词语的第一目标词语后，基于第一个地址词语与第二个地址词语的从属关系在预设数据库中查找与第一目标词语具有相同关联关系并且与第二目标词语匹配的词语。具体地，若排序地址词集中的地址词语按照地址信息文字从左到右的顺序排列，则地址词语按照从左到右的顺序后一个词语从属于前一个词语，即第二地址词语从属于第一地址词语，则在抓取了第一地址词语的第一目标词语后，基于第二地址词语从属于第一地址词语的从属关系在各个第一目标词语关联的下级归属地址的存储位置抓取第二地址词语的第二目标词语。若在特定的第一目标词语的下属归属地址的存储位置中不存在与第二地址词语匹配的第二目标词语，则舍弃对应的第一目标词语，保留存在与第二地址词语匹配的第二目标词语对应的第一目标词语，若所有的第一目标词语的下级归属地址存储位置都不存在与第二目标词语，则停止对对后续地址词语的目标词语的抓取，舍弃当前的地址词集，基于预设的其他切词方法进行重新切词，获得新的地址词集，基于新的地址词集重新在预设地址数据库中进行目标词语的抓取。抓取了第二地址词语的目标词语后，基于上述方法继续抓取第三地址词语以及其之后的地址词语的目标词语直至地址词集中所有地址词语的目标词语的抓取或者其中一个地址词语在预设数据库中不存在对应的目标词语。在对排序地址词集中所有的地址词语完成了目标词语的抓取时，将所有保留的目标词语构成的地址从属关系支路作为目标地址从属关系支路。

步骤S40，从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。

本实施例的预设地址项指的是根据数据录入需求设置的需要录入的数据项目，数据项目可以根据地址行政等级来设置，具体地，预设地址项可以包括省级地址项、市级地址项以及区级地址项等子地址项目。在本实施例中，可以在预设地址数据库中对所有的地址名称添加对应的行政等级标识或者将地址名称按照行政等级进行分类存储，例如，将广东省存储在对应的省级行政等级存储位置。在获得目标从属关系支路时，基于目标从属关系支路的中各个地址名称的行政等级信息提取各个预设子地址项的子地址信息，例如省级地址名称信息、市级地址名称信息或区级地址名称信息，并将对应的子地址项目信息存储在各个预设子地址项对应的存储位置。

在本实施例中，基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。通过上述方式，利用OCR光学字符识别技术可以准确地提取地址文字信息，将对地址文字信息切词处理后得到的地址词集与预设地址数据库进行匹配获得地址词集的目标从属地址关系支路，保证切词得到的词语具有实际的地理位置意义以及切词，获得包含用户实际地址信息的目标地址从属关系支路，从目标地址从属关系支路提取需要的预设子地址项的信息并分别存储至对应的存储位置，实现地址信息的录入。在此过程中，用户无需将身份证的各项地址信息分别手动输入到对应的地址项编辑框，简化用户操作，同时避免用户对需求子地址项需要输入的内容判断错误或者手动操作失误而录入错误的信息，提高地址信息的录入效率。

参照图3，图3为本发明信息录入方法第二实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S30包括：

步骤S50，利用网络爬虫在所述预设地址数据库中抓取与所述地址词集中的地址词语匹配的目标词语；

基于上述实施例，在本实施例中，网络爬虫指的是网页蜘蛛或网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。预设地址数据库指的是包括全国或者更大区域中不同行政等级的地址名称信息以及各个地址名称之间的从属关系信息，还可以包括地址名称的更新记录信息，预设地址数据库可以是向公众公开的国家地理数据库。将获得的地址词集与预设地址数据库中的预存地址信息匹配过程中，可以利用网络爬虫在预设地址数据库中抓取与地址词集中的各个地址词语匹配的目标词语，

步骤S60，根据抓取的目标词语确定所述预设地址数据库中与所述地址词集所有的地址词语均匹配的地址从属关系支路，并将确定的地址从属关系支路作为目标地址从属关系支路。

地址从属关系支路指的是基于地址的从属关系确定的地址路径，同个地址名称可以对应多个不同的地址路径，例如，广东省可以对应“广东省深圳市宝安区……”或“广东省广州市越秀区……”等不同路径，广州市可以对应“广东省广州市越秀区……”或“广东省广州市白云区……”等不同的路径。目标从属路径指的是与地址词集匹配的地址从属关系支路。在本实施例中，对地址词集中所有的地址词语抓取了对应的目标词语后，基于各个目标词语的地址从属关系支路定一个包含所有地址词语的目标词语的地址从属关系支路，将该地址从属关系支路作为目标地址从属关系支路。若地址词集中存在一个地址词语在预设地址数据库中无法抓取到对应匹配的目标词语，或不存在包含所有地址词语的目标词语的地址从属关系支路，则舍弃对应的地址词集，重新构建新的地址词集，并基于新的地址词集进行目标词语的抓取。在本实施例中，在获得目标地址从属关系支路后，基于上述实施例的方法从目标地址从属关系支路提取预设子地址项的信息并存储，实现地址信息的录入。

在本实施例中，利用网络爬虫在所述预设地址数据库中抓取与所述地址词集中的地址词语匹配的目标词语；根据抓取的目标词语确定所述预设地址数据库中与所述地址词集所有的地址词语均匹配的地址从属关系支路，并将确定的地址从属关系支路作为目标地址从属关系支路。通过上述方式，实现通过网络爬虫来抓取地址词语的目标词语，基于目标词语确定目标从属关系支路。

进一步地，图4为本发明信息录入方法第三实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S30包括：

步骤S70，基于所述地址文字信息中的文字排列顺序分别对所述地址词集中的地址词语进行排列，获得所述地址词集的对应的排序地址词集；

在本实施例中，在获得地址词集时，将地址词集合中的地址词语按照地址文字信息中文字的排列顺序进行排序，获得排序地址词集，例如，对于“上海市长宁区江苏路……”这一地址文字信息，获得的地址词语可能为上海、长宁以及江苏等，则排序地址词集为(上海、长宁、江苏……)，本实施例中的地址词集按照从左到右的顺序排列，并确定地址词语的从属关系为“江苏”属于“长宁”，“长宁”属于“上海”，获得排序地址词集并确定地址词集中的地址词语的从属关系后，将排序地址词集按照地址词语的排列顺序逐个提取地址词语基于地址词语的从属关系与预设地址数据库中的地址数据进行匹配，确定每个地址词语是否能找到对应的目标词语。具体地，从左往右的顺序提取第一个地址词语时，利用网络爬虫从预设地址数据库中抓取与第一个地址词语匹配的目标词语，在预设地址数据库中可能存在多个目标词语与第一个地址词语匹配，而且这几个与第一个目标词语各自对应的地址从属关系支路并不相交，例如，若地址词语为“江苏”网络爬虫在预设地址数据库中会从“江苏省”和“江苏路”等名称中抓取目标词语“江苏”。在本实施例中，预设地址数据库中的地址名称可以根据从属关系进行关联存储，将下级归属地址的名称存储在上级地址名称的关联的下级归属存储位置，例如将“广州市”和“深圳市”等归属地址名称存储在上级地址名称“广东省”关联的下级归属存储位置。在本实施例中，在抓取了第一个地址词语的第一目标词语后，基于第一个地址词语与第二个地址词语的从属关系在预设数据库中查找与第一目标词语具有相同关联关系并且与第二目标词语匹配的词语。具体地，若排序地址词集中的地址词语按照地址信息文字从左到右的顺序排列，则地址词语按照从左到右的顺序后一个词语从属于前一个词语，即第二地址词语从属于第一地址词语，则在抓取了第一地址词语的第一目标词语后，基于第二地址词语从属于第一地址词语的从属关系在各个第一目标词语关联的下级归属地址的存储位置抓取第二地址词语的第二目标词语。若在特定的第一目标词语的下属归属地址的存储位置中不存在与第二地址词语匹配的第二目标词语，则舍弃对应的第一目标词语，保留存在与第二地址词语匹配的第二目标词语对应的第一目标词语，若所有的第一目标词语的下级归属地址存储位置都不存在与第二目标词语，则停止对对后续地址词语的目标词语的抓取，舍弃当前的地址词集，基于预设的其他切词方法进行重新切词，获得新的地址词集，基于新的地址词集重新在预设地址数据库中进行目标词语的抓取。抓取了第二地址词语的目标词语后，基于上述方法继续抓取第三地址词语以及其之后的地址词语的目标词语直至地址词集中所有地址词语的目标词语的抓取或者其中一个地址词语在预设数据库中不存在对应的目标词语。在对排序地址词集中所有的地址词语完成了目标词语的抓取时，将所有保留的目标词语构成的地址从属关系支路作为目标地址从属关系支路。

步骤S80，根据所述排序地址词集中地址词语的排列顺序以及排列顺序与从属关系的关联关系确定所述排序地址词集中地址词语的从属关系；

在本实施例中，排序地址词集中地址词语的排列方式包括但不限于以下两种：按照地址文字信息从左到右的顺序将对应的地址词语按照从先到后的顺序进行排列，排序地址词集中的排在后面的地址词语归属于排在前面的地址词语；按照地址文字信息从右到左的顺序将对应的地址词语按照从先到后的顺序进行排列，排序地址词集中的排在前面的地址词语归属于排在后面的地址词语。在本实施例中，可以基于关联关系信息存储在预设位置，在信息录入的过程中基于上述关联关系以及地址词语的排序确定地址排序地址词集中地址词语的从属关系。具体地，对于“上海市长宁区江苏路……”这一地址文字信息，获得的地址词语可能为上海、长宁以及江苏等，则排序地址词集为(上海、长宁、江苏……)，本实施例中的地址词集按照从左到右的顺序排列，并确定地址词语的从属关系为“江苏”属于“长宁”，“长宁”属于“上海”。

步骤S90，利用网络爬虫按地址词语的排列顺序，从所述预设地址数据库中基于地址词语的从属关系逐个抓取地址词语的目标词语，直至目标词语抓取失败或排序地址词集中最后一个地址词语的目标词语抓取完成；

在确定地址词语的从属关系后，按照先后顺序抓取地址词语的目标词语。提取第一个地址词语时，利用网络爬虫从预设地址数据库中抓取与第一个地址词语匹配的目标词语，在预设地址数据库中可能存在多个目标词语与第一个地址词语匹配，而且这几个与第一个目标词语各自对应的地址从属关系支路并不相交，例如，若地址词语为“江苏”网络爬虫在预设地址数据库中会从“江苏省”和“江苏路”等名称中抓取目标词语“江苏”。在本实施例中，预设地址数据库中的地址名称可以根据从属关系进行关联存储，将下级归属地址的名称存储在上级地址名称的关联的下级归属存储位置，例如将“广州市”和“深圳市”等归属地址名称存储在上级地址名称“广东省”关联的下级归属存储位置。在本实施例中，在抓取了第一个地址词语的第一目标词语后，基于第一个地址词语与第二个地址词语的从属关系在预设数据库中查找与第一目标词语具有相同关联关系并且与第二目标词语匹配的词语。具体地，若排序地址词集中的地址词语按照地址信息文字从左到右的顺序排列，则地址词语按照从左到右的顺序后一个词语从属于前一个词语，即第二地址词语从属于第一地址词语，则在抓取了第一地址词语的第一目标词语后，基于第二地址词语从属于第一地址词语的从属关系在各个第一目标词语关联的下级归属地址的存储位置抓取第二地址词语的第二目标词语。若在特定的第一目标词语的下属归属地址的存储位置中不存在与第二地址词语匹配的第二目标词语，则舍弃对应的第一目标词语，保留存在与第二地址词语匹配的第二目标词语对应的第一目标词语，若所有的第一目标词语的下级归属地址存储位置都不存在与第二目标词语，则停止对对后续地址词语的目标词语的抓取，舍弃当前的地址词集，基于预设的其他切词方法进行重新切词，获得新的地址词集，基于新的地址词集重新在预设地址数据库中进行目标词语的抓取。抓取了第二地址词语的目标词语后，基于上述方法继续抓取第三地址词语以及其之后的地址词语的目标词语直至地址词集中所有地址词语的目标词语的抓取或者其中一个地址词语在预设数据库中不存在对应的目标词语

步骤S100，当排序地址词集中最后一个地址词语的目标词语抓取完成时，则将所有抓取的目标词语组成的地址从属关系支路作为目标地址从属关系支路；

在对排序地址词集中所有的地址词语完成了目标词语的抓取时，将所有保留的目标词语构成的地址从属关系支路作为目标地址从属关系支路。在本实施例中，在获得目标地址从属关系支路后，基于上述实施例的方法从目标地址从属关系支路提取预设子地址项的信息并存储，实现地址信息的录入。

在本实施例中，基于所述地址文字信息中的文字排列顺序分别对所述地址词集中的地址词语进行排列，获得所述地址词集的对应的排序地址词集；根据所述排序地址词集中地址词语的排列顺序以及排列顺序与从属关系的关联关系确定所述排序地址词集中地址词语的从属关系；利用网络爬虫按地址词语的排列顺序，从所述预设地址数据库中基于地址词语的从属关系逐个抓取地址词语的目标词语，直至目标词语抓取失败或排序地址词集中最后一个地址词语的目标词语抓取完成；当排序地址词集中最后一个地址词语的目标词语抓取完成时，则将所有抓取的目标词语组成的地址从属关系支路作为目标地址从属关系支路。通过上述方式，对地址词集进行排序，对排序地址词集利用网络爬虫在预设地址数据库中抓取目标词语，获得与词集中地址词语从属关系匹配的目标地址从属关系支路。

进一步地，图5为本发明信息录入方法第四实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S20包括：

步骤S110，基于预设地址等级标识库识别所述地址文字信息中的地址等级标识；

基于上述实施例，在本实施例中，将各个地址行政等级的名称作为地址等级标识，构建地址等级标识库，其中，地址标识库至少包括省、市、区、街道、路、巷、胡同或里弄等地址等级标识。在获得地址文字信息后，将地址文字信息与预设地址等级标识库进行匹配，识别地址文字信息中与预设地址等级标识库中的地址等级标识一致的字符串，从而识别地址文字信息中的地址等级标识。

步骤S120，将识别的地址等级标识作为地址文字信息的分割符对所述地址文字信息进行分割，提取分割得到的地址词语；

将地址等级标识作为地址文字信息的分割符对地址文字信息进行分割，提取分割得到的地址词语。具体地，若地址文字信息为“广东省深圳市宝安区新安街道……”时，可以识别的地址等级标识包括“省”、“市”以及“街道”等，则分割后得到的地址词语包括“广东”、“深圳”、“宝安”以及“新安”等。

步骤S130，基于所有提取的地址词语构建地址词集。

提取地址文字信息中的地址词语后，将提取的地址词语作为集合的元素，构建包含基于地址等级标识切割地址文字信息的地址词集。

在本实施例中，基于预设地址等级标识库识别所述地址文字信息中的地址等级标识；将识别的地址等级标识作为地址文字信息的分割符对所述地址文字信息进行分割，提取分割得到的地址词语；基于所有提取的地址词语构建地址词集。通过上述方式，实现基于地址等级标识对地址文字信息进行切割，基于切割得到的地址词语构建地址词集，简化切词运算量，提高切词效率。

进一步地，图6为本发明信息录入方法第五实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S20包括：

步骤S140，将所述地址文字信息与预设地址名称库进行匹配，提取所述地址文字信息中与预设地址名称库中的地址名称一致的字符串；

基于上述实施例，在本实施例中，可以预先采集全国不同行政等级的所有地址名称，例如，省级的地址名称“广东”以及市级名称“广州”等，构建包括所有不同行政等级的地址名称的地址名称库。在获得地址文字信息时，将地址文字信息与预设地址名称库进行匹配，在地址文字信息中与预设地址名称库中的地址名称一致的字符串，将提取的字符串作为地址词语，基于提取的字符串构建地址词集。基于预设地址名称库的切词方法包括正向最大匹配法和逆向最大匹配法等。

步骤S150，基于提取的字符串构建地址词集。

在切词处理获得地址词语后，将每种切词方式获得的所有地址词语作为地址元素，构建包括所有地址词语的地址词集。

进一步地，图7为本发明信息录入方法第六实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S40之前还包括：

步骤S160，利用网络爬虫在所述预设地址数据库中抓取与所述地址词语匹配的目标词语，并提取所述目标词语的目标地址编码；

基于上述实施例，在本实施例中，预设地址数据库中还存储着地址名称的更新记录信息，地址的名称更新信息包括地址名称的所有曾用名信息以及当前用名名称信息，地址的所有名称信息关联着一个固定不变的地址编码。在本实施例中，在切词获得地址词语后，可以先在预设地址数据库查找是否存在与切词得到的地址词语匹配的目标词语，若存在，则提取该目标词语的固定地址编码，即目标地址编码。

步骤S170，根据所述预设地址数据库中的地址名称更新数据确定所述目标地址编码是否存在对应的地址名称更新记录；

获得目标地址编码后，在存储所有地址名称更新记录信息的存储位置中查找是否存在该目标地址编码从而确定是否存在该目标地址编码对应的地址名称更新记录。若地址名称更新记录的存储位置中存在该目标地址编码，则存在该目标地址编码的地址名称更新记录。若地址名称更新记录的存储位置中不存在该目标地址编码，则不存在该目标地址编码的地址名称更新记录。

步骤S180，若存在，则根据所述目标地址编码的地址名称更新记录中的所有地址名称构建地址词集。

当目标地址编码存在对应的地址名称更新记录信息时，从存储位置中提取该目标地址编码对应的地址名称，可以分别基于各个地址名称的不同组合方式构建地址词。具体地，若一个地址词集中切词后得到(A，B，C，D)，若A的地址编码对应着A和A1两个地址名称，B、C以及D无地址更新记录，则可以构建(A，B，C，D)以及(A1，B，C，D)两个地址词集。在构建完成多个词集后再分别对各个地址词集分别与预设地址数据库匹配，确定目标地址从属关系支路，进而提取预设子地址项的地址信息。

在本实施例中，利用网络爬虫在所述预设地址数据库中抓取与所述地址词语匹配的目标词语，并提取所述目标词语的目标地址编码；根据所述预设地址数据库中的地址名称更新数据确定所述目标地址编码是否存在对应的地址名称更新记录；若存在，则根据所述目标地址编码的地址名称更新记录中的所有地址名称构建地址词集。通过上述方式，基于目标地址编码确定切割后的地址词语对应的地址名称更新记录信息，基于地址名称更新记录构建更加全面的地址词集，避免由于地址名称的更改历史无法进行有效匹配的情况。

进一步地，图8为本发明信息录入方法第七实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S40之后包括：

步骤S190，将各个子地址项信息分别显示在信息录入界面中对应信息项的编辑框中，以供用户查看确认。

基于上述实施例，在本实施例中，可以预先将信息录入界面的各个预设子地址项的信息与对应的存储位置进行关联，在将各个子地址项的信息存储在对应的存储位置时，将存储位置中的信息显示在对应的编辑框中，以供用户查看确认地址信息是否正确，以在地址信息存在错误情况下进行人工修改。

在本实施例中，将各个子地址项信息分别显示在信息录入界面中对应信息项的编辑框中，以供用户查看确认。通过上述方式，提取地址项信息后将地址项信息显示在对应的编辑框，以供用户查看确认。

此外，本发明实施例还提供一种信息录入装置。

参照图9，图9为本发明信息录入装置第一实施例的功能模块示意图。

本实施例中，所述信息录入装置包括：

第一提取模块10，用于基于OCR光学字符识别技术从图像采集设备采集的身份证图像数据中提取身份证中的地址文字信息；

切词模块20，用于对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集；

匹配模块30，用于将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路；

第二提取模块40，用于从所述目标地址从属关系支路中提取各个预设子地址项对应的子地址项信息，将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置。

其中，上述信息录入装置的各虚拟功能模块存储于图1所示信息录入设备的存储器1005中，用于实现信息录入程序的所有功能；各模块被处理器1001 执行时，可提高信息录入效率，避免录入错误信息。

进一步的，所述匹配模块还用于：

进一步的，所述切词模块还用于：

基于所有提取的地址词语构建地址词集。

进一步的，所述切词模块还用于：

基于提取的字符串构建地址词集。

进一步的，所述信息录入装置还包括第二构建模块，所述第二构建模块用于：

进一步的，所述信息录入装置还包括显示模块，所述显示模块用于：

此外，本发明实施例还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有信息录入程序，其中所述信息录入程序被处理器执行时，实现如上述的信息录入方法的步骤。

其中，信息录入程序被执行时所实现的方法可参照本发明信息录入方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息录入方法，其特征在于，所述信息录入方法包括：

2.如权利要求1所述的信息录入方法，其特征在于，所述将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路的步骤包括：

3.如权利要求1所述的信息录入方法，其特征在于，所述将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路的步骤包括：

4.如权利要求1所述的信息录入方法，其特征在于，所述对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集的步骤包括：

基于所有提取的地址词语构建地址词集。

5.如权利要求1所述的信息录入方法，其特征在于，所述对所述地址文字信息进行切词处理，基于切词处理得到的地址词语构建地址词集的步骤包括：

基于提取的字符串构建地址词集。

6.如权利要求1所述的信息录入方法，其特征在于，所述将获得的地址词集与预设地址数据库中的预存地址信息进行匹配，确定所述预设地址数据库中与所述地址词集匹配的目标地址从属关系支路的步骤之前还包括：

7.如权利要求1所述的信息录入方法，其特征在于，所述将获得的子地址项信息分别存储在各个预设子地址项对应的存储位置的步骤之后包括：

8.一种信息录入装置，其特征在于，所述信息录入装置包括：

9.一种信息录入设备，其特征在于，所述信息录入设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的信息录入程序，其中所述信息录入程序被所述处理器执行时，实现如权利要求1至7中任一项所述的信息录入方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息录入程序，其中所述信息录入程序被处理器执行时，实现如权利要求1至7中任一项所述的信息录入方法的步骤。