CN114241485A - 房产证的信息识别方法、装置、设备及存储介质 - Google Patents

房产证的信息识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114241485A
CN114241485A CN202210168516.1A CN202210168516A CN114241485A CN 114241485 A CN114241485 A CN 114241485A CN 202210168516 A CN202210168516 A CN 202210168516A CN 114241485 A CN114241485 A CN 114241485A
Authority
CN
China
Prior art keywords
property certificate
property
certificate
subgraph
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210168516.1A
Other languages
English (en)
Inventor
杨志
陈耀麟
刘昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dadaoyun Technology Co ltd
Original Assignee
Shenzhen Dadaoyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dadaoyun Technology Co ltd filed Critical Shenzhen Dadaoyun Technology Co ltd
Priority to CN202210168516.1A priority Critical patent/CN114241485A/zh
Publication of CN114241485A publication Critical patent/CN114241485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及图像识别领域,公开了一种房产证的信息识别方法、装置、设备及存储介质。该方法包括:获取待识别的房产证图片,其中,房产证图片包括:房产证子图;根据预置识别提取算法,对房产证图片的房产证子图进行识别提取处理,得到房产证子图;根据预置文字识别算法,对房产证子图进行字符识别处理,得到房产证字符集,其中,房产证字符集包括:项目名称、项目名称对应的项目内容;基于房产证字符集,判断房产证子图是否属于预置文本种类;若属于预置文本种类,则对房产证字符集进行字符替换处理,得到字符替换的房产证字符集;对字符替换的房产证字符集中项目名称和项目内容进行提取处理,生成识别结果数据。

Description

房产证的信息识别方法、装置、设备及存储介质
技术领域
本发明涉及图像识别领域,尤其涉及一种房产证的信息识别方法、装置、设备及存储介质。
背景技术
房产证是个人拥有房屋所有权的证明证件,主要是起到了登记行为的完成证明,在国家的相关部门对房屋完成登记之后,会将房产证发放给所有权人,有房产证的权利人能够凭借着所有权证行使居住、买卖、转让等多种权利。随着我国房地产市场化、商品化的持续高速发展,房产及附着物是居民家庭资产的重要组成部分,其对应的房产证用途也同样愈加广泛,除却传统的房产证明、登记过户等,更是作为金融服务场景中的个人资信证明的常用证件。
但是房产证在使用过程中除了传统的查验原件、提供纸质复印件、拍摄原件照片等使用方式外,在当今企业办公计算机化完全普及,大数据的采集应用已经十分广泛的时代下,更多的使用方式是针对房产证电子数据的信息传递、信息处理和信息分析,因此,结合房产证的用途以及信息化深度使用的背景下将房产证文本上的信息转换为结构化的电子数据具有十分广阔的应用场景。
房产证具有种类样式多,单证信息要素复杂的特点,传统的人工录入房产证信息方式存在效率低下、耗时长的显著问题,极大的影响用户的使用体验,更对企业数据转接、数据分析带来困难,因此在当今大数据时代,科技日新月异,特别是图像识别技术广泛运用于生活工作的方方面面,给人们带来很大便利和效率的今天。因此需要针对不同房产证具有种类样式多的图像识别困难和人工录入效率低下的技术问题,给出一个新的技术解决该问题。
发明内容
本发明的主要目的在于解决不同房产证具有种类样式多的图像识别困难和人工录入效率低下的技术问题。
本发明第一方面提供了一种房产证的信息识别方法,包括步骤:
获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图包括:
对所述房产证图片进行二值化处理,得到二值化图片;
根据预置kernel相似算法,对所述二值化图片进行相似度计算,得到房产证边缘线,以及根据预置线性分析算法,对所述房产证边缘线进行回归计算,得到所述房产证边缘线相对于所述房产证图片的斜率;
基于所述斜率,对所述房产证图片进行修正旋转处理,得到修正的房产证图片;
根据所述房产证边缘线,对所述修正的房产证图片进行裁剪处理,得到房产证子图。
可选的,在本发明第一方面的第二种实现方式中,所述根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集包括:
根据预置Craft算法,分析出所述房产证子图的字符坐标数据;
根据预置labelme标记组件和所述字符坐标数据,对所述房产证子图的字符串进行标记处理,得到所述房产证子图的项目名称标签和项目内容标签;
根据预置识别算法,对所述房产证子图进行识别处理,得到带有所述项目名称标签和所述项目内容标签的房产证字符集。
可选的,在本发明第一方面的第三种实现方式中,所述根据预置识别算法,对所述房产证子图进行识别处理,得到带有所述项目名称标签和所述项目内容标签的房产证字符集包括:
根据预置CNN算法,对所述房产证子图进行图像提取处理,得到图像字符串特征;
根据预置RNN算法,对所述房产证子图进行序列识别处理,得到文字序列特征;
根据所述文字序列特征,对所述图像字符串特征进行排序处理,得到房产证字符集。
可选的,在本发明第一方面的第四种实现方式中,所述基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类包括:
将所述房产证字符集中项目名称设置key标签,将所述房产证字符集中项目内容设置value标签;
基于所述key标签和所述value标签,将所述房产证字符集转换为JSON数据;
分析所述JSON数据,判断所述房产证子图是否属于预置文本种类。
可选的,在本发明第一方面的第五种实现方式中,所述分析所述JSON数据,判断所述房产证子图是否属于预置文本种类包括:
读取预置名称命中分析表,将所述JSON数据中所述key标签对应的数据与所述名称命中分析表进行匹配处理,得到匹配名称集;
根据所述匹配名称集,计算不同预置文本种类的匹配率,得到匹配率集;
判断所述匹配率集是否存在超过预置匹配阈值的匹配率;
若存在超过预置匹配阈值的匹配率,则将所述匹配率集中最高匹配率对应的文本种类确定为所述房产证子图的文本种类;
若不存在超过预置匹配阈值的匹配率,则将所述房产证子图确定为未定义种类。
可选的,在本发明第一方面的第六种实现方式中,在所述基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类之后,还包括:
若不属于预置文本种类,则对所述房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
本发明第二方面提供了一种房产证的信息识别装置,所述房产证的信息识别装置包括:
获取模块,用于获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
图片提取模块,用于根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
字符识别模块,用于根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
判断模块,用于基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
字符替换模块,用于若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
识别提取模块,用于对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
本发明第三方面提供了一种房产证的信息识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述房产证的信息识别设备执行上述的房产证的信息识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的房产证的信息识别方法。
在本发明实施例中,通过在数据处理上能够覆盖全国各类型房产证,具备快速易用、识别精准、支持不同终端特点的房产证OCR识别技术会给相关行业和使用人群带来极大的效率提升,有效降低用户输入成本,大幅度提升用户使用体验。
附图说明
图1为本发明实施例中房产证的信息识别方法的一个实施例示意图;
图2为本发明实施例中房产证的信息识别装置的一个实施例示意图;
图3为本发明实施例中房产证的信息识别装置的另一个实施例示意图;
图4为本发明实施例中房产证的信息识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种房产证的信息识别方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中房产证的信息识别方法的一个实施例包括:
101、获取待识别的房产证图片,其中,房产证图片包括:房产证子图;
在本实施例中,待识别的房产证图片是由客户拍摄的,拍摄的照片是存在角度偏移和背景内容,包含非房产证图片的视图,如桌面、书本等背景,图片摆放位置倾斜,而且图片空白区域较大。
102、根据预置识别提取算法,对房产证图片的房产证子图进行识别提取处理,得到房产证子图;
在本实施例中,因为房产证图片本身存在大量不需要的信息会干扰文本解析的情况,因此需要先对房产证图片的偏移进行纠正,使得房产证图片是以左右边缘90度垂直的角度展示,并将房地产边缘的图像裁剪掉,只留下房产证子图。
进一步的,在102可以执行以下步骤:
1021、对房产证图片进行二值化处理,得到二值化图片;
1022、根据预置kernel相似算法,对二值化图片进行相似度计算,得到房产证边缘线,以及根据预置线性分析算法,对房产证边缘线进行回归计算,得到房产证边缘线相对于房产证图片的斜率;
1023、基于斜率,对房产证图片进行修正旋转处理,得到修正的房产证图片;
1024、根据房产证边缘线,对修正的房产证图片进行裁剪处理,得到房产证子图。
在1021-1024步骤中,可以先用百度提供的通用文字识别接口返回文字坐标信息,确定房产证的具***置。再对图像进行二值化,将二维图片降维成一维线段,通过确定kernel相似度算法确定房产证的边界。用户上传的房产证可能存在倾斜等问题,因此需要通过调整倾斜度,修饰图像的部分细节对图片二值化以后,搜集图片左侧及右侧的黑色像素点,通过线性回归获得直线的斜率,最后根据斜率对图片进行旋转。最后在依据之前已经获得的边缘线,切除房产证两侧的空白区域,以便更好的聚焦到房产证文字内容。
103、根据预置文字识别算法,对房产证子图进行字符识别处理,得到房产证字符集,其中,房产证字符集包括:项目名称、项目名称对应的项目内容;
在本实施例中,房产证字符集中项目名称和项目内容是房地产本身的信息,对于房产证项目名称,如“房产所有权人”、“房屋坐落”等文本,项目内容如“张三”、“XX区某某街道001号”等文本进行标注。标注步骤就是将上述文本框出来,标上对应的分类。采用开源工具labelme进行标注处理。
进一步的,在103可以执行以下步骤:
1031、根据预置Craft算法,分析出房产证子图的字符坐标数据;
1032、根据预置labelme标记组件和字符坐标数据,对房产证子图的字符串进行标记处理,得到房产证子图的项目名称标签和项目内容标签;
1033、根据预置识别算法,对房产证子图进行识别处理,得到带有项目名称标签和项目内容标签的房产证字符集。
在1031-1033步骤中,先利用Craft算法,分析出房产证子图的字符坐标数据,以确定每个文字框的位置,以便标签标记。再使用labelme标记组件和已经拿到的坐标数据对项目名称和项目内容进行标签标记。将标注的文本经过一系列的卷积操作,充分提取样本特征,输出 Region score 特征图和像素 Affinity score 特征图。然后,采用高斯热图对提取的字符中心的概率进行编码,把分类问题转化为回归问题。采用CRNN(端到端识别网络)算法进行文本识别,CNN提取图像特征,RNN提取文字的序列特征,最后得到带有项目名称标签和项目内容标签的房产证字符集。
进一步的,在1033可以执行以下步骤:
10331、根据预置CNN算法,对房产证子图进行图像提取处理,得到图像字符串特征;
10332、根据预置RNN算法,对房产证子图进行序列识别处理,得到文字序列特征;
10333、根据文字序列特征,对图像字符串特征进行排序处理,得到房产证字符集。
在10331-10333步骤中,CNN算法对图像字符串特征进行提取,RNN算法对文字的序列特征进行提取,保证文字排序和文字识别两个特征都在模型中获取,最后将图像文字识别特征根据文字序列排序,并附带之前已经有的标签,生成房产证字符集。
104、基于房产证字符集,判断房产证子图是否属于预置文本种类;
在本实施例中,房产证字符集的项目名称存在很多,可以在统计相关的项目名称命中情况,划分成不同类型房产证文本种类。根据房产证类型不同,可分类如下:单页不动产权证、双页不动产权证、单页土地权利证、双页土地权利证、单页房地产权证、双页房地产权证、未定义的类型。
进一步的,在104还可以执行以下步骤:
1041、将房产证字符集中项目名称设置key标签,将房产证字符集中项目内容设置value标签;
1042、基于key标签和value标签,将房产证字符集转换为JSON数据;
1043、分析JSON数据,判断房产证子图是否属于预置文本种类。
在1041-1043步骤中,JSON数据结构存在key和value,key与value是对应的两个字符在JSON数据中,key标签和value标签,结合项目名称和项目内容之间对应关系,将key与value对应关系将房产证字符集转换为JSON数据。
这里项目名称“房产所有权人”为key,项目内容“张三”为value,对应的JSON数据结构{“房产所有权人”:“张三”}。
进一步的,在1043可以执行以下步骤:
10431、读取预置名称命中分析表,将JSON数据中key标签对应的数据与名称命中分析表进行匹配处理,得到匹配名称集;
10432、根据匹配名称集,计算不同预置文本种类的匹配率,得到匹配率集;
10433、判断匹配率集是否存在超过预置匹配阈值的匹配率;
10434、若存在超过预置匹配阈值的匹配率,则将匹配率集中最高匹配率对应的文本种类确定为房产证子图的文本种类;
10435、若不存在超过预置匹配阈值的匹配率,则将房产证子图确定为未定义种类。
在10431-10435步骤中,命中分析表可以有以下项目名称:不动产单元号、层数、登记价、登记时间、地号、地类(用途)、独用面积、房地产名称、房地产权属人、房地坐落、房屋编号、房屋结构、房屋情况、房屋所有权取得方式、房屋所有权人、房屋性质、房屋状况、房屋坐落、分摊面积、共用面积、共用面积(m)、共有情况、规划用途、建筑结构、建筑类型、建筑面积、建筑面积(m)、建筑物及其附着物、竣工日期、面积、批准房屋用途、批准使用期限、批准土地用途、其他、其中、取得价格、权利类型、权利其他状况、权利人、权利性质、权属性质、身份证明号、身份证号、使用面积、使用年限、使用期限、使用权类型、使用权面积、使用权取得方式、室号或部位、所在区、他项权利摘要及附记、套内建筑面积、套内建筑面积(m)、套内面积、图号、土地、土地情况、土地使用年限、土地使用权获取方式、土地使用权取得方式、土地使用权人、土地位置、土地性质、土地用途、土地状况、用途、证件号码、终止日期、幢数、幢号、类型、结构、自用面积、自用面积(m)、宗地号、宗地(丘)面积、宗地面积、总层数、总用地面积、坐落、座落、土地等级、所有权性质、备注事项、房地产权利人、身份证明名称、身份证明号码、取得方式、使用权面积(m)、独用面积(m)、分摊面积(m)、共用使用权面积(m)。
命中分析表中的项目名称是将不同的房地产类型的项目名称统计,然后在对匹配名称集进行命中判断,基于命中的情况,对匹配名称集的类型进行判断。
而不同的单页不动产权证、双页不动产权证、单页土地权利证、双页土地权利证、单页房地产权证、双页房地产权证是不一样的,根据对不同房产证类型所包含字段的归纳,提取出公共字段如下:权利人名称、权利人性质、权利人份额、权利人身份证号码、房产证编号、房屋坐落、土地用途、房屋用途、用地面积、房屋建筑面积、竣工日期、共有情况。
在基于识别匹配名称集在双页不动产权证的项目名称判断上达到96%,则匹配率集存在超过预置匹配阈值90%的匹配率。
将匹配率集中单页不动产权证97%、双页不动产权证96%、单页土地权利证56%、双页土地权利证76%、单页房地产权证51%、双页房地产权证66%中最高的单页不动产权证确定为房产证子图的文本种类。
而如果将匹配率集没有一个超过90%的匹配率,则认为房产证子图是为未定义种类的情况。
105、若属于预置文本种类,则对房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
在本实施例中,提取的数据内容中存在空格、换行、特殊字符时,对提取的数据内容进行校验,如果存在上述内容,则进行替换处理。而提取的数据内容存在数字识别为字母,对字母内容进行数字转换。
106、对字符替换的房产证字符集中项目名称和项目内容进行提取处理,生成识别结果数据。
在本实施例中,对房产证字符集的内容进行处理,对已经获得文本类型和识别的数据组合提取,得到识别结果数据。
进一步的,在106之后,还可以执行以下步骤:
107、若不属于预置文本种类,则对房产证字符集中项目名称和项目内容进行提取处理,生成识别结果数据。
在本实施例中,无法识别出房产证字符集的文本类型,由于不清楚是否为规范文本无法进行替换修复处理,因此直接将项目名称、项目内容提取,得到识别结果数据。
在本发明实施例中,通过在数据处理上能够覆盖全国各类型房产证,具备快速易用、识别精准、支持不同终端特点的房产证OCR识别技术会给相关行业和使用人群带来极大的效率提升,有效降低用户输入成本,大幅度提升用户使用体验。
上面对本发明实施例中房产证的信息识别方法进行了描述,下面对本发明实施例中房产证的信息识别装置进行描述,请参阅图2,本发明实施例中房产证的信息识别装置一个实施例包括:
获取模块201,用于获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
图片提取模块202,用于根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
字符识别模块203,用于根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
判断模块204,用于基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
字符替换模块205,用于若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
识别提取模块206,用于对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
在本发明实施例中,通过在数据处理上能够覆盖全国各类型房产证,具备快速易用、识别精准、支持不同终端特点的房产证OCR识别技术会给相关行业和使用人群带来极大的效率提升,有效降低用户输入成本,大幅度提升用户使用体验。
请参阅图3,本发明实施例中房产证的信息识别装置的另一个实施例包括:
获取模块201,用于获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
图片提取模块202,用于根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
字符识别模块203,用于根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
判断模块204,用于基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
字符替换模块205,用于若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
识别提取模块206,用于对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
其中,所述图片提取模块202具体用于:
对所述房产证图片进行二值化处理,得到二值化图片;
根据预置kernel相似算法,对所述二值化图片进行相似度计算,得到房产证边缘线,以及根据预置线性分析算法,对所述房产证边缘线进行回归计算,得到所述房产证边缘线相对于所述房产证图片的斜率;
基于所述斜率,对所述房产证图片进行修正旋转处理,得到修正的房产证图片;
根据所述房产证边缘线,对所述修正的房产证图片进行裁剪处理,得到房产证子图。
其中,所述字符识别模块203包括:
坐标识别单元2031,用于根据预置Craft算法,分析出所述房产证子图的字符坐标数据;
标记单元2032,用于根据预置labelme标记组件和所述字符坐标数据,对所述房产证子图的字符串进行标记处理,得到所述房产证子图的项目名称标签和项目内容标签;
识别单元2033,用于根据预置识别算法,对所述房产证子图进行识别处理,得到带有所述项目名称标签和所述项目内容标签的房产证字符集。
其中,所述识别单元2033具体用于:
根据预置CNN算法,对所述房产证子图进行图像提取处理,得到图像字符串特征;
根据预置RNN算法,对所述房产证子图进行序列识别处理,得到文字序列特征;
根据所述文字序列特征,对所述图像字符串特征进行排序处理,得到房产证字符集。
其中,所述判断模块204具体用于:
将所述房产证字符集中项目名称设置key标签,将所述房产证字符集中项目内容设置value标签;
基于所述key标签和所述value标签,将所述房产证字符集转换为JSON数据;
分析所述JSON数据,判断所述房产证子图是否属于预置文本种类。
其中,所述字符替换模块205还具体用于:
读取预置名称命中分析表,将所述JSON数据中所述key标签对应的数据与所述名称命中分析表进行匹配处理,得到匹配名称集;
根据所述匹配名称集,计算不同预置文本种类的匹配率,得到匹配率集;
判断所述匹配率集是否存在超过预置匹配阈值的匹配率;
若存在超过预置匹配阈值的匹配率,则将所述匹配率集中最高匹配率对应的文本种类确定为所述房产证子图的文本种类;
若不存在超过预置匹配阈值的匹配率,则将所述房产证子图确定为未定义种类。
其中,所述房产证的信息识别装置还包括未定义文本提取模块207,所述未定义文本提取模块207具体用于:
若不属于预置文本种类,则对所述房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
实施例中,通过在数据处理上能够覆盖全国各类型房产证,具备快速易用、识别精准、支持不同终端特点的房产证OCR识别技术会给相关行业和使用人群带来极大的效率提升,有效降低用户输入成本,大幅度提升用户使用体验。
上面图2和图3从模块化功能实体的角度对本发明实施例中的房产证的信息识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中房产证的信息识别设备进行详细描述。
图4是本发明实施例提供的一种房产证的信息识别设备的结构示意图,该房产证的信息识别设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对房产证的信息识别设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在房产证的信息识别设备400上执行存储介质430中的一系列指令操作。
基于房产证的信息识别设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口560,和/或,一个或一个以上操作***431,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4展示的房产证的信息识别设备结构并不构成对基于房产证的信息识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述房产证的信息识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种房产证的信息识别方法,其特征在于,包括步骤:
获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
2.根据权利要求1所述的房产证的信息识别方法,其特征在于,所述根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图包括:
对所述房产证图片进行二值化处理,得到二值化图片;
根据预置kernel相似算法,对所述二值化图片进行相似度计算,得到房产证边缘线,以及根据预置线性分析算法,对所述房产证边缘线进行回归计算,得到所述房产证边缘线相对于所述房产证图片的斜率;
基于所述斜率,对所述房产证图片进行修正旋转处理,得到修正的房产证图片;
根据所述房产证边缘线,对所述修正的房产证图片进行裁剪处理,得到房产证子图。
3.根据权利要求1所述的房产证的信息识别方法,其特征在于,所述根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集包括:
根据预置Craft算法,分析出所述房产证子图的字符坐标数据;
根据预置labelme标记组件和所述字符坐标数据,对所述房产证子图的字符串进行标记处理,得到所述房产证子图的项目名称标签和项目内容标签;
根据预置识别算法,对所述房产证子图进行识别处理,得到带有所述项目名称标签和所述项目内容标签的房产证字符集。
4.根据权利要求3所述的房产证的信息识别方法,其特征在于,所述根据预置识别算法,对所述房产证子图进行识别处理,得到带有所述项目名称标签和所述项目内容标签的房产证字符集包括:
根据预置CNN算法,对所述房产证子图进行图像提取处理,得到图像字符串特征;
根据预置RNN算法,对所述房产证子图进行序列识别处理,得到文字序列特征;
根据所述文字序列特征,对所述图像字符串特征进行排序处理,得到房产证字符集。
5.根据权利要求1所述的房产证的信息识别方法,其特征在于,所述基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类包括:
将所述房产证字符集中项目名称设置key标签,将所述房产证字符集中项目内容设置value标签;
基于所述key标签和所述value标签,将所述房产证字符集转换为JSON数据;
分析所述JSON数据,判断所述房产证子图是否属于预置文本种类。
6.根据权利要求5所述的房产证的信息识别方法,其特征在于,所述分析所述JSON数据,判断所述房产证子图是否属于预置文本种类包括:
读取预置名称命中分析表,将所述JSON数据中所述key标签对应的数据与所述名称命中分析表进行匹配处理,得到匹配名称集;
根据所述匹配名称集,计算不同预置文本种类的匹配率,得到匹配率集;
判断所述匹配率集是否存在超过预置匹配阈值的匹配率;
若存在超过预置匹配阈值的匹配率,则将所述匹配率集中最高匹配率对应的文本种类确定为所述房产证子图的文本种类;
若不存在超过预置匹配阈值的匹配率,则将所述房产证子图确定为未定义种类。
7.根据权利要求1所述的房产证的信息识别方法,其特征在于,在所述基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类之后,还包括:
若不属于预置文本种类,则对所述房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
8.一种房产证的信息识别装置,其特征在于,所述房产证的信息识别装置包括:
获取模块,用于获取待识别的房产证图片,其中,所述房产证图片包括:房产证子图;
图片提取模块,用于根据预置识别提取算法,对所述房产证图片的房产证子图进行识别提取处理,得到房产证子图;
字符识别模块,用于根据预置文字识别算法,对所述房产证子图进行字符识别处理,得到房产证字符集,其中,所述房产证字符集包括:项目名称、所述项目名称对应的项目内容;
判断模块,用于基于所述房产证字符集,判断所述房产证子图是否属于预置文本种类;
字符替换模块,用于若属于预置文本种类,则对所述房产证字符集进行字符替换处理,得到字符替换的房产证字符集;
识别提取模块,用于对所述字符替换的房产证字符集中项目名称和所述项目内容进行提取处理,生成识别结果数据。
9.一种房产证的信息识别设备,其特征在于,所述房产证的信息识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述房产证的信息识别设备执行如权利要求1-7中任一项所述的房产证的信息识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的房产证的信息识别方法。
CN202210168516.1A 2022-02-24 2022-02-24 房产证的信息识别方法、装置、设备及存储介质 Pending CN114241485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210168516.1A CN114241485A (zh) 2022-02-24 2022-02-24 房产证的信息识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210168516.1A CN114241485A (zh) 2022-02-24 2022-02-24 房产证的信息识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114241485A true CN114241485A (zh) 2022-03-25

Family

ID=80748013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210168516.1A Pending CN114241485A (zh) 2022-02-24 2022-02-24 房产证的信息识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114241485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663903A (zh) * 2022-05-25 2022-06-24 深圳大道云科技有限公司 文本资料的分类方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038504A (zh) * 2017-12-11 2018-05-15 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN109871770A (zh) * 2019-01-17 2019-06-11 平安城市建设科技(深圳)有限公司 房产证识别方法、装置、设备及存储介质
CN111464716A (zh) * 2020-04-09 2020-07-28 腾讯科技(深圳)有限公司 一种证件扫描方法、装置、设备及存储介质
CN113989806A (zh) * 2021-10-11 2022-01-28 浙江康旭科技有限公司 一种可扩展的crnn银行***识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038504A (zh) * 2017-12-11 2018-05-15 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN109871770A (zh) * 2019-01-17 2019-06-11 平安城市建设科技(深圳)有限公司 房产证识别方法、装置、设备及存储介质
CN111464716A (zh) * 2020-04-09 2020-07-28 腾讯科技(深圳)有限公司 一种证件扫描方法、装置、设备及存储介质
CN113989806A (zh) * 2021-10-11 2022-01-28 浙江康旭科技有限公司 一种可扩展的crnn银行***识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663903A (zh) * 2022-05-25 2022-06-24 深圳大道云科技有限公司 文本资料的分类方法、装置、设备及存储介质
CN114663903B (zh) * 2022-05-25 2022-08-19 深圳大道云科技有限公司 文本资料的分类方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Huang et al. Icdar2019 competition on scanned receipt ocr and information extraction
CN110766014B (zh) 票据信息定位方法、***及计算机可读存储介质
Cliche et al. Scatteract: Automated extraction of data from scatter plots
CN111476227B (zh) 基于ocr的目标字段识别方法、装置及存储介质
US9552516B2 (en) Document information extraction using geometric models
JP5522408B2 (ja) パターン認識装置
CN107590491B (zh) 一种图像处理方法及装置
CN105023340A (zh) 基于扫描仪的云智能***识别查验***及方法
CN110298340A (zh) 图像处理装置、图像处理方法以及计算机可读存储介质
CN105046553A (zh) 基于手机的云智能***识别查验***及方法
GB2519838A (en) Image identification system and method
EP2220590A1 (en) A method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
US9710769B2 (en) Methods and systems for crowdsourcing a task
CN112580108B (zh) 签名和***完整性验证方法及计算机设备
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112395995A (zh) 一种根据移动财务票据自动填单及审核的方法及***
Diem et al. Text classification and document layout analysis of paper fragments
Diem et al. Skew estimation of sparsely inscribed document fragments
CN114241485A (zh) 房产证的信息识别方法、装置、设备及存储介质
O***llah et al. Structural feature based approach for script identification from printed Indian document
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
Shweka et al. Automatic extraction of catalog data from digital images of historical manuscripts
CN116563876A (zh) 一种***识别方法
CA3103322C (en) Data extraction from short business documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220325