CN117290351A - 一种基于大数据的数据质量评估方法及*** - Google Patents

一种基于大数据的数据质量评估方法及*** Download PDF

Info

Publication number
CN117290351A
CN117290351A CN202311578578.0A CN202311578578A CN117290351A CN 117290351 A CN117290351 A CN 117290351A CN 202311578578 A CN202311578578 A CN 202311578578A CN 117290351 A CN117290351 A CN 117290351A
Authority
CN
China
Prior art keywords
information
evaluation
data
cadastral
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311578578.0A
Other languages
English (en)
Inventor
冯永玉
史辉
薛秀荣
张妍
王燕
高洁
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute Of Land And Spatial Data And Remote Sensing Technology Shandong Sea Area Dynamic Monitoring And Monitoring Center
Original Assignee
Shandong Institute Of Land And Spatial Data And Remote Sensing Technology Shandong Sea Area Dynamic Monitoring And Monitoring Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute Of Land And Spatial Data And Remote Sensing Technology Shandong Sea Area Dynamic Monitoring And Monitoring Center filed Critical Shandong Institute Of Land And Spatial Data And Remote Sensing Technology Shandong Sea Area Dynamic Monitoring And Monitoring Center
Priority to CN202311578578.0A priority Critical patent/CN117290351A/zh
Publication of CN117290351A publication Critical patent/CN117290351A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据质量评估技术领域,具体为一种基于大数据的数据质量评估方法及***。通过随机提取不动产信息作为评估信息,并对评估信息对应的信息数据进行获取,进而从评估信息对应的信息数据中提取基本信息,从而分别分析得到评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数,由此分析得到评估信息对应数据的质量评估系数,不仅降低了评估信息数据存在重复记录的可能性,避免了因评估信息内容不一致而导致的信息混淆的现象,同时还能够及时地反映评估信息对应数据的质量,保障了评估信息的可信度。

Description

一种基于大数据的数据质量评估方法及***
技术领域
本发明涉及数据质量评估技术领域,具体为一种基于大数据的数据质量评估方法及***。
背景技术
随着数据量的增加,数据治理和质量管理变得更加关键,其中不动产登记的数据质量直接关系到产权的准确性和可靠性。高质量的数据有助于确保产权的合法性,防止不动产争议,提高产权保障水平,而目前的不动产登记数据的质量评估还存在一定的缺陷,其具体体现在以下方面:
由于目前不动产信息数据登记往往是通过人工进行登记,不仅存在一定的主观性,同时还易因为错填或遗漏而导致不动产信息数据的缺失以及不动产信息数据不准确,进一步增加了不动产产权的争议性。
当前不动产的信息数据更新可能存在延时的情况,导致无法及时更新不动产的信息数据,不仅容易造成不动产信息的混淆,同时还易对不动产的产权所有人造成误解,造成了不动产信息的不对称和不公正的现象。
发明内容
针对上述存在的技术不足,本发明的目的在于提供一种基于大数据的数据质量评估方法及***。
本发明的目的可以通过以下技术方案实现:本发明一方面提供一种基于大数据的数据质量评估方法,包括以下步骤:
步骤一、完整性验证:从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,其中,评估信息对应的信息数据包括评估信息对应的基本信息和状态信息。进而基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数。
优选地,基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数,具体分析方式为:
从评估信息对应的基本信息中提取评估信息对应的产权信息,并从评估信息对应的产权信息中提取各子产权信息的类型,进而将评估信息对应各子产权信息的类型与云存储库中存储的必填产权信息的类型集合进行匹配,若某子产权信息的类型与设定的必填产权信息的类型集合匹配成功,则将该子产权信息记为主要产权信息,反之,则将该子产权信息记为次要产权信息,由此得到评估信息对应的各主要产权信息和各次要产权信息,统计评估信息对应主要产权信息的数量和次要产权信息的数量,将评估信息对应主要产权信息的数量和次要产权信息的数量进行归一化处理并取其数值后分别记为ZQ和CQ,将存储的必填产权信息的类型数量记为BC,依据公式CW=(ZQ/BC)×a1+CQ×a2计算出评估信息对应产权信息的填报完整率CW,a1、a2分别表示为设定的主要产权信息数量、次要产权信息数量对应的权值因子,其中a1+a2=1。
从评估信息对应的基本信息中提取评估信息对应的地籍信息,并从评估信息对应的地籍信息中提取各子地籍信息的类型,进而将评估信息对应各子地籍信息的类型与云存储库中存储的必填地籍信息的类型集合进行匹配,若某子地籍信息的类型与设定的必填地籍信息的类型集合匹配成功,则将该子地籍信息记为主要地籍信息,反之,则将该子地籍信息记为次要地籍信息,由此得到评估信息对应的各主要地籍信息和各次要地籍信息,统计评估信息对应主要地籍信息的数量和次要地籍信息的数量,进而通过分析得到评估信息对应地籍信息的填报完整率DW;
同理,分析得到评估信息对应建筑信息的填报完整率JW;
依据公式SW=CW×b1+DW×b2+JW×b3计算出评估信息对应数据的完整评估指数SW,b1、b2、b3分别表示为设定的产权信息的填报完整率、地籍信息的填报完整率、建筑信息的填报完整率对应的影响因子,其中,b1+b2+b3=1。
步骤二、重复性验证:将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数。
优选地,将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,具体分析方式为:
从各不动产信息对应的基本信息中提取各不动产信息对应的产权信息、地籍信息、建筑信息,并从评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息;
将评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息分别与各不动产信息对应的产权信息、地籍信息、建筑信息进行一一对比,若某不动产信息对应的产权信息中存在与评估信息对应的产权信息一致的信息,则将该不动产信息对应产权信息中该子产权信息记为相似子信息,由此分析得到各不动产信息对应产权信息的各相似子信息,并统计各不动产信息对应产权信息的相似子信息数量,对其进行归一化处理并取其数值,记为QNi,i表示为各不动产信息的编号,i=1,2,...,n,i为正整数,n表示为不动产信息编号的总数;
同理分析得到各不动产信息对应地籍信息的相似子信息数量和建筑信息的相似子信息数量,均进行归一化处理并取其数值,分别记为DNi和JNi
依据公式XSi=QNi×b4+DNi×b5+JNi×b6计算出评估信息对应各不动产信息的相似率XSi,b4、b5、b6分别表示为设定的产权信息的相似子信息数量、地籍信息的相似子信息数量、建筑信息的相似子信息数量对应的权值因子,b4+b5+b6=1。
优选地,将评估信息对应各不动产信息的相似率与设定的相似率阈值进行对比,若某不动产信息的相似率大于设定的相似率阈值,则将该不动产信息记为重复信息,由此统计评估信息对应重复信息的数量,并记为CF,同时统计不动产信息的数量,记为BD;
依据公式SC=(CF/BD)×CX计算出评估信息对应数据的重复评估指数SC,CX表示为设定的修正因子,CX大于0小于1。
步骤三、一致性验证:从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数。
优选地,基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数,具体分析方式为:
统计评估信息对应查询渠道的数量,将评估信息对应的状态信息与评估信息对应各查询渠道的查询状态信息进行对比,若某查询渠道的查询状态信息与评估信息对应的状态信息的对比结果存在不一致,则该查询渠道记为标记渠道,并获取该标记渠道对应查询状态信息的评估状态,进而由此统计得到评估信息对应标记渠道的数量,进而通过分析得到评估信息对应数据的一致评估指数SY。
步骤四、准确性验证:从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数。
优选地,将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数,具体分析过程为:
将评估信息对应各信息源的地籍信息与评估信息对应的地籍信息进行对比,若某信息源的地籍信息中某子地籍信息与评估信息对应地籍信息中某子地籍信息匹配成成功,则将该信息源的地籍信息中该子地籍信息记为匹配地籍信息,由此统计得到评估信息对应各信息源中匹配地籍信息的数量,记为XDf,f表示为各信息源的编号,f=1,2,...,g,f取值为正整数,g表示为信息源编号的总数,同时统计评估信息对应地籍信息中子地籍信息的数量PD;
同理,得到评估信息对应各信息源中匹配建筑信息的数量XJf,同时统计评估信息对应建筑信息中子建筑信息的数量PJ;
依据公式计算出评估信息对应数据的准确评估指数SZ,c1、c2分别表示为设定的匹配地籍信息数量、匹配建筑信息数量对应的权值因子,c1+c2=1,ZX表示为设定的修正因子,其中ZX大于0小于1。
步骤五、数据质量评估:基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数。
优选地,基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数,具体分析公式为:
依据公式ZP=SW×E+(1/SC)×U+SY×V+SZ×R计算出评估信息对应数据的质量评估系数ZP,E、U、V、R分别表示为完整评估指数、重复评估指数、一致评估指数和准确评估指数对应的权值因子,E+U+V+R=1。
本发明一方面提供一种基于大数据的数据质量评估***,包括:
完整性验证模块,用于从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,进而基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数;
重复性验证模块,用于将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数;
一致性验证模块,用于从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数;
准确性验证模块,用于从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数;
数据质量评估模块,用于基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数;
显示终端,用于对评估信息对应数据的质量评估系数进行相应的显示。
云存储库,用于存储必填产权信息的类型集合和类型数量,存储必填地籍信息的类型集合和类型数量,存储必填建筑信息的类型集合和类型数量。
本发明的有益效果:
本发明通过随机提取不动产信息作为评估信息,并对评估信息对应的信息数据进行获取,进而从评估信息对应的信息数据中提取基本信息,从而分析得到评估信息对应数据的完整评估指数,避免了因人工登记而导致的错填、漏填等情况,大幅度提升了评估信息的完整性,为后续评估信息的质量验证提供了可靠的基础。
本发明通过对评估信息与其他不动产信息的基本信息进行相似度筛查和分析,得到评估信息对应数据的重复评估指数,进一步降低了评估信息数据存在重复记录的可能性,大幅度提升了评估信息的真实性和有效性。
本发明将评估信息对应各查询渠道的查询状态信息与评估信息对应状态信息的一致性进行验证和分析,在很大程度上避免了因评估信息内容不一致而导致的信息混淆的现象。
本发明从多信息源中提取评估信息对应的地籍信息和建筑信息,并将其与评估信息对应的地籍信息和建筑信息进行对比验证,以此判定评估信息对应的地籍信息和建筑信息的准确性,进一步得到评估信息对应数据的准确评估指数,不仅能够及时的了解建筑信息与地籍信息发送的变化,避免了造成不动产信息的不对称和不公正的现象,同时还提升了评估信息的准确性。
本发明基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数分析得到评估信息对应数据的质量评估系数,大幅度提升了评估信息对应数据质量评估系数的精准性和全面性,能够及时地反映评估信息对应数据的质量,保障了评估信息的可信度。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的方法步骤流程示意图。
图2是本发明的***模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明一方面提供一种基于大数据的数据质量评估方法,包括以下步骤:
步骤一、完整性验证:从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,评估信息对应的信息数据包括评估信息对应的基本信息和状态信息。
在一个具体的实施例中,评估信息对应的基本信息包括评估信息对应的产权信息、地籍信息、建筑信息;评估信息对应的产权信息包括所有权人的姓名、身份证明、联系方式等。评估信息对应的地籍信息包括土地的行政区划、地理位置、地界等。评估信息对应的建筑信息包括建筑结构、用途、面积、楼层等。评估信息对应的状态信息包括不动产是否存在抵押、租赁、查封等。
基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数,具体分析过程为:
从评估信息对应的基本信息中提取评估信息对应的产权信息,并从评估信息对应的产权信息中提取各子产权信息的类型,进而将评估信息对应各子产权信息的类型与云存储库中存储的必填产权信息的类型集合进行匹配,若某子产权信息的类型与设定的必填产权信息的类型集合匹配成功,则将该子产权信息记为主要产权信息,反之,则将该子产权信息记为次要产权信息,由此得到评估信息对应的各主要产权信息和各次要产权信息,统计评估信息对应主要产权信息的数量和次要产权信息的数量,将评估信息对应主要产权信息的数量和次要产权信息的数量进行归一化处理并取其数值后分别记为ZQ和CQ,将存储的必填产权信息的类型数量记为BC,依据公式CW=(ZQ/BC)×a1+CQ×a2计算出评估信息对应产权信息的填报完整率CW,a1、a2分别表示为设定的主要产权信息数量、次要产权信息数量对应的权值因子,其中a1+a2=1。
需要说明的是,必要产权信息的类型集合包括但不限于:所有权人员姓名、所有权人员身份证明、所有权人员联系方式。
从评估信息对应的基本信息中提取评估信息对应的地籍信息,并从评估信息对应的地籍信息中提取各子地籍信息的类型,进而将评估信息对应各子地籍信息的类型与云存储库中存储的必填地籍信息的类型集合进行匹配,若某子地籍信息的类型与设定的必填地籍信息的类型集合匹配成功,则将该子地籍信息记为主要地籍信息,反之,则将该子地籍信息记为次要地籍信息,由此得到评估信息对应的各主要地籍信息和各次要地籍信息,统计评估信息对应主要地籍信息的数量和次要地籍信息的数量,将评估信息对应主要地籍信息的数量和次要地籍信息的数量进行归一化处理并取其数值后分别记为ZD和CD,将存储的必填地籍信息的类型数量记为BD,依据公式DW=(ZD/BD)×a3+CD×a4计算出评估信息对应地籍信息的填报完整率DW,a3、a4分别表示为设定的主要地籍信息数量、次要地籍信息数量对应的权值因子,其中a3+a4=1。
需要说明的是,必要地籍信息的类型集合包括但不限于:行政区划、地理位置、地界。
从评估信息对应的基本信息中提取评估信息对应的建筑信息,并从评估信息对应的建筑信息中提取各子建筑信息的类型,进而将评估信息对应各子建筑信息的类型与云存储库中存储的必填建筑信息的类型集合进行匹配,若某子建筑信息的类型与设定的必填建筑信息的类型集合匹配成功,则将该子建筑信息记为主要建筑信息,反之,则将该子建筑信息记为次要建筑信息,由此得到评估信息对应的各主要建筑信息和各次要建筑信息,统计评估信息对应主要建筑信息的数量和次要建筑信息的数量,并将其进行归一化处理后取其数值后分别记为ZJ和CJ,将存储的必填建筑信息的类型数量记为BJ,依据公式JW=(ZJ/BJ)×a5+CJ×a6计算出评估信息对应建筑信息的填报完整率JW,a5、a6分别表示为设定的主要建筑信息数量、次要建筑信息数量对应的权值因子,其中a5+a6=1。
需要说明的是,必要建筑信息的类型集合包括但不限于:用途、面积、楼层。
依据公式SW=CW×b1+DW×b2+JW×b3计算出评估信息对应数据的完整评估指数SW,b1、b2、b3分别表示为设定的产权信息的填报完整率、地籍信息的填报完整率、建筑信息的填报完整率对应的影响因子,其中,b1+b2+b3=1。
步骤二、重复性验证:将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数,具体分析步骤如下:
从各不动产信息对应的基本信息中提取各不动产信息对应的产权信息、地籍信息、建筑信息,并从评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息;
将评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息分别与各不动产信息对应的产权信息、地籍信息、建筑信息进行一一对比,若某不动产信息对应的产权信息中存在与评估信息对应的产权信息一致的信息,则将该不动产信息对应产权信息中该子产权信息记为相似子信息,由此分析得到各不动产信息对应产权信息的各相似子信息,并统计各不动产信息对应产权信息的相似子信息数量,对其进行归一化处理并取其数值,记为QNi,i表示为各不动产信息的编号,i=1,2,...,n,i为正整数,n表示为不动产信息编号的总数;
若某不动产信息对应的地籍信息中存在与评估信息对应的地籍信息一致的信息,则将该不动产信息对应地籍信息中该子地籍信息记为相似子信息,由此分析得到各不动产信息对应地籍信息的各相似子信息,并统计各不动产信息对应地籍信息的相似子信息数量,对其进行归一化处理并取其数值,记为DNi
若某不动产信息对应的建筑信息中存在与评估信息对应的建筑信息一致的信息,则将该不动产信息对应建筑信息中该子建筑信息记为相似子信息,由此分析得到各不动产信息对应建筑信息的各相似子信息,并统计各不动产信息对应建筑信息的相似子信息数量,对其进行归一化处理并取其数值,记为JNi
依据公式XSi=QNi×b4+DNi×b5+JNi×b6计算出评估信息对应各不动产信息的相似率XSi,b4、b5、b6分别表示为设定的产权信息的相似子信息数量、地籍信息的相似子信息数量、建筑信息的相似子信息数量对应的权值因子,b4+b5+b6=1。
将评估信息对应各不动产信息的相似率与设定的相似率阈值进行对比,若某不动产信息的相似率大于设定的相似率阈值,则将该不动产信息记为重复信息,由此统计评估信息对应重复信息的数量,并记为CF,同时统计不动产信息的数量,记为BD;
依据公式SC=(CF/BD)×CX计算出评估信息对应数据的重复评估指数SC,CX表示为设定的修正因子,CX大于0小于1。
步骤三、一致性验证:从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数,具体分析步骤为:
在一个具体的实施例中,各查询渠道包括但不限于:相关部门查询,官网通道查询,咨询律师查询。
统计评估信息对应查询渠道的数量,记为M,将评估信息对应的状态信息与评估信息对应各查询渠道的查询状态信息进行对比,若某查询渠道的查询状态信息与评估信息对应的状态信息的对比结果存在不一致,则该查询渠道记为标记渠道,并获取该标记渠道对应查询状态信息的评估状态,进而由此统计得到评估信息对应标记渠道的数量BM。
需要说明的是,评估状态为:查封、租赁、正常、抵押等。
依据公式SY=(1/(BM/M))×BY计算得到评估信息对应数据的一致评估指数SY,BY表示为设定的修正因子,BY大于0小于1。
步骤四、准确性验证:从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数,具体分析过程为:
需要说明的是,各信息源包括:不动产登记部门、在线***、地籍档案等。
将评估信息对应各信息源的地籍信息与评估信息对应的地籍信息进行对比,若某信息源的地籍信息中某子地籍信息与评估信息对应地籍信息中某子地籍信息匹配成成功,则将该信息源的地籍信息中该子地籍信息记为匹配地籍信息,由此统计得到评估信息对应各信息源中匹配地籍信息的数量,记为XDf,f表示为各信息源的编号,f=1,2,...,g,f取值为正整数,g表示为信息源编号的总数,同时统计评估信息对应地籍信息中子地籍信息的数量PD;
将评估信息对应各信息源的建筑信息与评估信息对应的建筑信息进行对比,若某信息源的建筑信息中某子建筑信息与评估信息对应建筑信息中某子建筑信息匹配成成功,则将该信息源的建筑信息中该子建筑信息记为匹配建筑信息,由此统计得到评估信息对应各信息源中匹配建筑信息的数量XJf,同时统计评估信息对应建筑信息中子建筑信息的数量PJ。
依据公式计算出评估信息对应数据的准确评估指数SZ,c1、c2分别表示为设定的匹配地籍信息数量、匹配建筑信息数量对应的权值因子,c1+c2=1,ZX表示为设定的修正因子,其中ZX大于0小于1。
步骤五、数据质量评估:基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数,具体分析公式为:依据公式ZP=SW×E+(1/SC)×U+SY×V+SZ×R计算出评估信息对应数据的质量评估系数ZP,E、U、V、R分别表示为完整评估指数、重复评估指数、一致评估指数和准确评估指数对应的权值因子,E+U+V+R=1。
本发明一方面提供一种基于大数据的数据质量评估***,包括:完整性验证模块、重复性验证模块、一致性验证模块、准确性验证模块、数据质量评估模块、显示终端和云存储库。
完整性验证模块,用于从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,进而基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数;
重复性验证模块,用于将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数;
一致性验证模块,用于从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数;
准确性验证模块,用于从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数;
数据质量评估模块,用于基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数;
显示终端,用于对评估信息对应数据的质量评估系数进行相应的显示。
云存储库,用于存储必填产权信息的类型集合和类型数量,存储必填地籍信息的类型集合和类型数量,存储必填建筑信息的类型集合和类型数量。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修该或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本发明提交文件所定义的范围,均应属于本发明的保护范围。

Claims (9)

1.一种基于大数据的数据质量评估方法,其特征在于,包括以下步骤:
步骤一、完整性验证:从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,进而基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数;
步骤二、重复性验证:将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数;
步骤三、一致性验证:从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数;
步骤四、准确性验证:从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数;
步骤五、数据质量评估:基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数。
2.根据权利要求1所述的一种基于大数据的数据质量评估方法,其特征在于,所述评估信息对应的信息数据包括评估信息对应的基本信息和状态信息。
3.根据权利要求1所述的一种基于大数据的数据质量评估方法,其特征在于,所述基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数,具体分析方式为:
从评估信息对应的基本信息中提取评估信息对应的产权信息,并从评估信息对应的产权信息中提取各子产权信息的类型,进而将评估信息对应各子产权信息的类型与云存储库中存储的必填产权信息的类型集合进行匹配,若某子产权信息的类型与设定的必填产权信息的类型集合匹配成功,则将该子产权信息记为主要产权信息,反之,则将该子产权信息记为次要产权信息,由此得到评估信息对应的各主要产权信息和各次要产权信息,统计评估信息对应主要产权信息的数量和次要产权信息的数量,进而通过分析得到评估信息对应产权信息的填报完整率CW;
同理,分析得到评估信息对应地籍信息的填报完整率DW和建筑信息的填报完整率JW;
依据公式SW=CW×b1+DW×b2+JW×b3计算出评估信息对应数据的完整评估指数SW,b1、b2、b3分别表示为设定的产权信息的填报完整率、地籍信息的填报完整率、建筑信息的填报完整率对应的影响因子,其中,b1+b2+b3=1。
4.根据权利要求1所述的一种基于大数据的数据质量评估方法,其特征在于,所述将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,具体分析方式为:
从各不动产信息对应的基本信息中提取各不动产信息对应的产权信息、地籍信息、建筑信息,并从评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息;
将评估信息对应的基本信息中提取评估信息对应的产权信息、地籍信息、建筑信息分别与各不动产信息对应的产权信息、地籍信息、建筑信息进行一一对比,若某不动产信息对应的产权信息中存在与评估信息对应的产权信息一致的信息,则将该不动产信息对应产权信息中该子产权信息记为相似子信息,由此分析得到各不动产信息对应产权信息的各相似子信息,并统计各不动产信息对应产权信息的相似子信息数量,对其进行归一化处理并取其数值,记为QNi,i表示为各不动产信息的编号,i=1,2,...,n,i为正整数,n表示为不动产信息编号的总数;
同理分析得到各不动产信息对应地籍信息的相似子信息数量和建筑信息的相似子信息数量,均进行归一化处理并取其数值,分别记为DNi和JNi
依据公式XSi=QNi×b4+DNi×b5+JNi×b6计算出评估信息对应各不动产信息的相似率XSi,b4、b5、b6分别表示为设定的产权信息的相似子信息数量、地籍信息的相似子信息数量、建筑信息的相似子信息数量对应的权值因子,b4+b5+b6=1。
5.根据权利要求3所述的一种基于大数据的数据质量评估方法,其特征在于,所述评估信息对应数据的重复评估指数具体分析方式为:
将评估信息对应各不动产信息的相似率与设定的相似率阈值进行对比,若某不动产信息的相似率大于设定的相似率阈值,则将该不动产信息记为重复信息,由此统计评估信息对应重复信息的数量,并记为CF,同时统计不动产信息的数量,记为BD;
依据公式SC=(CF/BD)×CX计算出评估信息对应数据的重复评估指数SC,CX表示为设定的修正因子,CX大于0小于1。
6.根据权利要求5所述的一种基于大数据的数据质量评估方法,其特征在于,所述基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数,具体分析方式为:
统计评估信息对应查询渠道的数量,将评估信息对应的状态信息与评估信息对应各查询渠道的查询状态信息进行对比,若某查询渠道的查询状态信息与评估信息对应的状态信息的对比结果存在不一致,则该查询渠道记为标记渠道,并获取该标记渠道对应查询状态信息的评估状态,进而由此统计得到评估信息对应标记渠道的数量,进而通过分析得到评估信息对应数据的一致评估指数SY。
7.根据权利要求6所述的一种基于大数据的数据质量评估方法,其特征在于,所述将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数,具体分析过程为:
将评估信息对应各信息源的地籍信息与评估信息对应的地籍信息进行对比,若某信息源的地籍信息中某子地籍信息与评估信息对应地籍信息中某子地籍信息匹配成成功,则将该信息源的地籍信息中该子地籍信息记为匹配地籍信息,由此统计得到评估信息对应各信息源中匹配地籍信息的数量,记为XDf,f表示为各信息源的编号,f=1,2,...,g,f取值为正整数,g表示为信息源编号的总数,同时统计评估信息对应地籍信息中子地籍信息的数量PD;
同理,得到评估信息对应各信息源中匹配建筑信息的数量XJf,同时统计评估信息对应建筑信息中子建筑信息的数量PJ;
依据公式计算出评估信息对应数据的准确评估指数SZ,c1、c2分别表示为设定的匹配地籍信息数量、匹配建筑信息数量对应的权值因子,c1+c2=1,ZX表示为设定的修正因子,其中ZX大于0小于1。
8.根据权利要求7所述的一种基于大数据的数据质量评估方法,其特征在于,所述基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数,具体分析公式为:
依据公式ZP=SW×E+(1/SC)×U+SY×V+SZ×R计算出评估信息对应数据的质量评估系数ZP,E、U、V、R分别表示为完整评估指数、重复评估指数、一致评估指数和准确评估指数对应的权值因子,E+U+V+R=1。
9.一种基于大数据的数据质量评估***,其特征在于,包括:
完整性验证模块,用于从大数据***中随机提取不动产信息,作为评估信息,并从大数据***中提取得到评估信息对应的信息数据,从评估信息对应的信息数据中提取评估信息对应的基本信息,进而基于评估信息对应的基本信息对评估信息对应数据的完整评估指数进行分析,得到评估信息对应数据的完整评估指数;
重复性验证模块,用于将评估信息对应的基本信息与大数据***中的各不动产信息对应的基本信息进行相似度筛查和分析,得到评估信息对应各不动产信息的相似率,并由此分析得到评估信息对应数据的重复评估指数;
一致性验证模块,用于从大数据***中获取评估信息对应各查询渠道的查询状态信息,同时从评估信息对应的信息数据中提取评估信息对应的状态信息,并基于评估信息对应的状态信息和各查询渠道的状态信息对评估信息对应数据的一致性进行验证和分析,得到评估信息对应数据的一致评估指数;
准确性验证模块,用于从评估信息对应的基本信息中提取评估信息对应的地籍信息和建筑信息,并从大数据平台中获取评估信息对应各信息源的地籍信息和建筑信息,进而将评估信息对应的地籍信息和建筑信息分别与评估信息对应各信息源的地籍信息和建筑信息进行对比验证,由此得到评估信息对应数据的准确评估指数;
数据质量评估模块,用于基于评估信息对应数据的完整评估指数、重复评估指数、一致评估指数和准确评估指数对评估信息对应数据的质量评估系数进行分析,得到评估信息对应数据的质量评估系数;
显示终端,用于对评估信息对应数据的质量评估系数进行相应的显示;
云存储库,用于存储必填产权信息的类型集合和类型数量,存储必填地籍信息的类型集合和类型数量,存储必填建筑信息的类型集合和类型数量。
CN202311578578.0A 2023-11-24 2023-11-24 一种基于大数据的数据质量评估方法及*** Pending CN117290351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311578578.0A CN117290351A (zh) 2023-11-24 2023-11-24 一种基于大数据的数据质量评估方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311578578.0A CN117290351A (zh) 2023-11-24 2023-11-24 一种基于大数据的数据质量评估方法及***

Publications (1)

Publication Number Publication Date
CN117290351A true CN117290351A (zh) 2023-12-26

Family

ID=89241126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311578578.0A Pending CN117290351A (zh) 2023-11-24 2023-11-24 一种基于大数据的数据质量评估方法及***

Country Status (1)

Country Link
CN (1) CN117290351A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898311A (zh) * 2018-06-28 2018-11-27 国网湖南省电力有限公司 一种面向智能配电网抢修调度平台的数据质量检测方法
CN110728437A (zh) * 2019-09-26 2020-01-24 华南师范大学 一种开放数据的质量评估方法及***
KR20230030771A (ko) * 2021-08-26 2023-03-07 가톨릭대학교 산학협력단 다기관 데이터 품질 평가 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898311A (zh) * 2018-06-28 2018-11-27 国网湖南省电力有限公司 一种面向智能配电网抢修调度平台的数据质量检测方法
CN110728437A (zh) * 2019-09-26 2020-01-24 华南师范大学 一种开放数据的质量评估方法及***
KR20230030771A (ko) * 2021-08-26 2023-03-07 가톨릭대학교 산학협력단 다기관 데이터 품질 평가 시스템 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
代龙昌 等: "不动产登记数据整合质量控制的关键方法", 地矿测绘, pages 26 - 28 *

Similar Documents

Publication Publication Date Title
US20080004893A1 (en) Method and apparatus for validating an appraisal report and providing an appraisal score
CN113435841A (zh) 一种基于大数据的人才智能匹配招聘***
US20100274708A1 (en) Apparatus and method for creating a collateral risk score and value tolerance for loan applications
CN113487275B (zh) 一种基于区块链的实验室检测报告管理***
CN111177743B (zh) 一种面向信用大数据的风险控制方法及其***
Bogus et al. Rank correlation method for evaluating manual pavement distress data variability
CN111524017A (zh) 理赔数据的审核方法、装置及介质
Hughes et al. Comparing Success Rates for General and Credit Recovery Courses Online and Face to Face: Results for Florida High School Courses. REL 2015-095.
CN115330569A (zh) 用于儿童肿瘤疾病的负担差异与医疗资源的自动平衡方法
CN117290351A (zh) 一种基于大数据的数据质量评估方法及***
Herraiz et al. Impact of installation counts on perceived quality: A case study on debian
CN116797105B (zh) 基于工程标准化编码的量价指标统计方法及***
CN117252305A (zh) 一种房屋风险评估方法、装置、设备及介质
CN108734393A (zh) 房源信息的匹配方法、用户设备、存储介质及装置
CN116596395A (zh) 用于工程项目测评单位指导及检测的运行质控平台
CN105824871B (zh) 一种图片检测方法与设备
US8782025B2 (en) Systems and methods for address intelligence
CN106682154B (zh) 一种首页幻灯管理方法及管理***
CN107895251A (zh) 数据纠错方法及装置
CN113052415B (zh) 一种基于案件分析的法官审判预警监控方法、装置、电子设备和存储介质
Klein et al. Evaluating the Reproducibility of Tree Risk Assessment Ratings Across Commonly Used Methods
Miles et al. Anesthesia resident training experience minimally impacts emergence time, making correlation of resident competency with this operational metric difficult
CN104217093A (zh) 利用不良样本的缺陷地图判定问题设备的方法及其装置
CN117275644B (zh) 基于深度学习的检测结果互认方法、***及存储介质
CN117495188A (zh) 电磁数据产品的质量评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination