CN113392096A - 一种房地产数据质量分析方法、装置、设备及存储介质 - Google Patents

一种房地产数据质量分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113392096A
CN113392096A CN202110618734.6A CN202110618734A CN113392096A CN 113392096 A CN113392096 A CN 113392096A CN 202110618734 A CN202110618734 A CN 202110618734A CN 113392096 A CN113392096 A CN 113392096A
Authority
CN
China
Prior art keywords
data
real estate
quality
rate
estate data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110618734.6A
Other languages
English (en)
Inventor
李琦
宋卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Ruiyun Technology Co ltd
Original Assignee
Chongqing Ruiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Ruiyun Technology Co ltd filed Critical Chongqing Ruiyun Technology Co ltd
Priority to CN202110618734.6A priority Critical patent/CN113392096A/zh
Publication of CN113392096A publication Critical patent/CN113392096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种房地产数据质量分析方法、装置、设备及存储介质,其中,方法包括:提取数据库中的房地产数据,所述房地产数据携带有数据来源;对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;根据所述房地产数据的质量等级对所述房地产数据打上等级标签。本发明能够对房地产数据的质量进行快速判断,并对根据质量等级对房地产数据打上等级标签,便于后续使用房地产数据时直观地认定数据质量。

Description

一种房地产数据质量分析方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种房地产数据质量分析方法、装置、设备及存储介质。
背景技术
在房地产交易市场中,客户会通过各种渠道在房地产企业中留下相关数据,房地产企业获取相关数据后,能够根据相关数据对后续客户服务质量等进行提升和改进,从而给客户提供更好的服务。但是在数据量迅猛增长,数据的表现形式也***的当今社会,如何从大量的房地产数据中提取出有价值的信息是一大挑战。而数据质量分析是提取有价值的数据的必经之路,根据质量分析结果能够对海量的数据进行筛选,从而获取有价值的数据信息。
现有技术中通常需要业务人员对数据逐条比对,判断数据质量,并通过人工修改的方式进行清洗,从而保证数据质量,但是人为的进行质量分析,容易错判漏判,且工作量过大,效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种房地产数据质量分析方法、装置、设备及存储介质。
一种房地产数据质量分析方法,包括以下步骤:提取数据库中的房地产数据,所述房地产数据携带有数据来源;对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;根据所述房地产数据的质量等级对所述房地产数据打上等级标签。
在其中一个实施例中,所述对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率,具体包括:所述房地产数据由若干子数据组成,子数据携带有对应的子数据来源;根据所述子数据来源判断所述房地产数据中的脏数据,若子数据来源不合法,则认定对应的子数据为脏数据;计算所述脏数据占所述房地产数据的比例,获取房地产数据的脏数据率;检测所述房地产数据中是否存在子数据缺失,若存在子数据缺失,则认定对应的子数据为缺失数据;计算所述缺失数据占所述房地产数据的比例,获取房地产数据的缺失数据率。
在其中一个实施例中,所述通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级,具体包括:所述数据来源包括有产品使用记录和基于第三方建立的数据;在所述数据来源为产品使用记录时,对所述房地产数据进行缺失率和脏数据率识别,根据所述缺失率和脏数据率判断所述房地产数据的质量等级;所述数据来源为基于第三方建立的数据时,对所述房地产数据进行缺失率识别,根据所述缺失率判断所述房地产数据的质量等级。
在其中一个实施例中,所述在所述数据来源为产品使用记录时,对所述房地产数据进行缺失率和脏数据率识别,根据所述缺失率和脏数据率判断所述房地产数据的质量等级,具体包括:在所述房地产数据的缺失率大于50%,且脏数据率大于20%时,认定所述房地产数据的质量等级为低等质量;在所述房地产数据的缺失率处于30%~50%之间,且脏数据率大于20%,或缺失率大于50%,且脏数据率处于10%~20%之间时,认定所述房地产数据的质量等级为为中等质量;在所述房地产数据的缺失率处于10%~30%,且脏数据率处于10%~20%之间,或缺失率处于30%~50%,且脏数据率小于10%,或缺失率大于50%,且脏数据率小于10%时,认定所述房地产数据的质量等级为高等质量;在所述房地产数据的缺失率小于10%,且脏数据率小于10%时,认定所述房地产数据的质量等级为可靠。
在其中一个实施例中,所述在所述数据来源为基于第三方建立的数据时,对所述房地产数据进行缺失率识别,根据所述缺失率判断所述房地产数据的质量等级,具体包括:在所述房地产数据的缺失率大于50%时,认定所述房地产数据的质量等级为低等质量;在所述房地产数据的缺失率处于30%~50%之间时,认定所述房地产数据的质量等级为为中等质量;在所述房地产数据的缺失率处于10%~30%之间时,认定所述房地产数据的质量等级为高等质量;在所述房地产数据的缺失率小于10%时,认定所述房地产数据的质量等级为可靠。
在其中一个实施例中,在所述根据所述房地产数据的质量等级对所述房地产数据打上等级标签之后,还包括:将所述房地产数据和对应的等级标签存入数据库中,根据所述房地产数据的等级标签,对所述房地产数据进行清洗。
在其中一个实施例中,在所述根据所述房地产数据的质量等级对所述房地产数据打上等级标签之后,还包括:统计所有房地产数据中的低等质量、中等质量、高等质量和可靠的房地产数据分别所占比重,获取统计结果;根据统计结果将所述房地产数据分为三类,低等质量和中等质量的房地产数据组成的低中质量数据、中等质量和高等质量的房地产数据数据组成的中高质量数据以及高等质量和可靠的房地产数据组成的高可靠数据,获取房地产数据的质量正态分布图。
一种房地产数据质量分析装置,包括:数据提取模块,用于提取数据库中的房地产数据,所述房地产数据携带有数据来源;数据判定模块,用于对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;质量分析模块,用于通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;等级获取模块,用于根据所述房地产数据的质量等级对所述房地产数据打上等级标签。
一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各个实施例中所述的一种房地产数据质量分析方法的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各个实施例中所述的一种房地产数据质量分析方法的步骤。
相比于现有技术,本发明的优点及有益效果在于:本发明能够对房地产数据的质量进行快速判断,并对根据质量等级对房地产数据打上等级标签,便于后续使用房地产数据时直观地认定数据质量,且能够根据等级标签对数据进行快速清洗,获取高价值数据,提升房地产数据的整体质量。
附图说明
图1为一个实施例中一种房地产数据质量分析方法的流程示意图;
图2为一个实施例中一种房地产数据质量分析装置的结构示意图;
图3为一个实施例中设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在一个实施例中,如图1所示,提供了一种房地产数据质量分析方法,包括以下步骤:
步骤S101,提取数据库中的房地产数据,房地产数据携带有数据来源。
具体地,数据库中存储若干用户的房地产数据,提取数据库中的房地产数据,房地产数据携带有数据来源。数据来源可以是用户使用产品获取的房地产数据,以及根据第三方置业顾问获取的房地产数据等。
步骤S102,对房地产数据进行识别,根据预设规则对房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出房地产数据中的脏数据率和缺失率。
具体地,对房地产数据进行识别,根据预设规则对房地产数据中的脏数据和缺失数据进行判定。其中,脏数据为数据来源不合法的数据,缺失数据为房地产数据中缺失的子数据,本实施例中,缺失数据不被定义为脏数据。根据脏数据和缺失数据占房地产数据中的比例,获取脏数据率和缺失率。
步骤S103,通过数据来源对房地产数据进行分源,并根据脏数据率和缺失率对房地产数据进行质量分析,获取房地产数据的质量等级。
具体地,通过数据来源对房地产数据进行分源,根据不同的数据来源分别对房地产数据进行质量分析。根据脏数据率和缺失数据率确定房地产数据的质量等级,若脏数据率和缺失数据率高,则认定房地产数据质量低;反之,房地产数据质量高,从而获取房地产数据的质量等级。
步骤S104,根据房地产数据的质量等级对房地产数据打上等级标签。
具体地,根据房地产数据的质量等级对房地产数据打上等级标签,便于查看房地产数据的质量等级。
在本实施例中,提取数据库中的房地产数据,房地产数据中携带有数据来源,对房地产数据进行识别,根据预设规则对房地产数据中的脏数据和缺失数据进行判定,并计算出房地产数据的脏数据率和缺失率,通过数据来源对房地产数据进行分源,并根据脏数据率和缺失率对房地产数据进行质量分析,获取房地产数据的质量等级,根据房地产数据的质量等级对房地产数据打上等级标签,从而能够对房地产数据的质量进行快速判断,便于后续使用房地产数据时直观地认定数据质量,且能够根据等级标签对数据进行快速清洗,获取高价值数据,提升房地产数据的整体质量。
其中,步骤S102具体包括:房地产数据由若干子数据组成,子数据携带有对应的子数据来源;根据子数据来源判断房地产数据中的脏数据,若子数据来源不合法,则认定对应的子数据为脏数据;计算脏数据占房地产数据的比例,获取房地产数据的脏数据率;检测房地产数据中是否存在子数据缺失,若存在子数据缺失,则认定对应的子数据为缺失数据;计算缺失数据占房地产数据的比例,获取房地产数据的缺失数据率。
具体地,房地产数据可以是包括某位客户的所有相关信息,子数据为该客户的具体信息,例如姓名、年龄、需求等等,子数据携带有对应的子数据来源,而这些子数据的来源可以是用于使用产品获取的信息,也可以是根据置业顾问等获取信息。
具体地,根据合法性检查机制对子数据来源进行检测,若子数据来源不合法,则认定该子数据为脏数据,计算该条房地产数据中脏数据所占的比例,获取脏数据率;同时检测该条房地产数据中是否存在缺失的子数据,若存在子数据缺失,则认定对应的子数据为缺失数据,计算该条房地产数据中缺失数据所占的比例,从而获取缺失数据率。根据缺失数据率和脏数据率判断房地产数据的质量,若缺失数据率和脏数据率高,则该条房地产数据的质量低;反之,则质量高。此外,还可以根据缺失数据率和脏数据率给出房地产数据的清洗参考,便于对低质量的房地产数据进行过滤,提取高质量的房地产数据。
其中,步骤S103具体包括:数据来源包括有产品使用记录和基于第三方建立的数据;在数据来源为产品使用记录时,对房地产数据进行缺失率和脏数据率进行识别,根据缺失率和脏数据率判断房地产数据的质量等级;在数据来源为基于第三方建立的数据时,对房地产数据进行缺失率识别,根据缺失率判断房地产数据的质量等级。
具体地,数据来源包括但不限于产品使用记录和基于第三方建立的数据;在数据来源为产品使用记录时,对房地产数据进行缺失率和脏数据率进行识别,根据缺失率和脏数据率判断房地产数据的质量等级;而在数据来源为基于第三方建立的数据时,由于基于第三方建立的数据通常是置业顾问从客户处获取的信息,因此默认所有基于第三方建立的数据均合法,而不存在脏数据,因此仅需对此种来源的房地产数据进行缺失率的识别,根据缺失率判断房地产数据的质量等级。
具体地,在数据来源为产品使用记录时,在房地产数据的缺失率大于50%,且脏数据率大于20%时,认定房地产数据的质量等级为低等质量;在房地产数据的缺失率处于30%~50%之间,且脏数据率大于20%,或缺失率大于50%,且脏数据率处于10%~20%之间时,认定房地产数据的质量等级为中等质量;在房地产数据的缺失率处于10%~30%,且脏数据率处于10%~20%之间,或缺失率处于30%~50%,且脏数据率小于10%,或缺失率大于50%,且脏数据率小于10%时,认定房地产数据的质量等级为高等质量;在房地产数据的缺失率小于10%,且脏数据率小于10%时,认定房地产数据的质量等级为可靠。
具体地,在数据来源为基于第三方建立的数据时,在房地产数据的缺失率大于50%时,认定房地产数据的质量等级为低等质量;在房地产数据的缺失率处于30%~50%之间时,认定房地产数据的质量等级为为中等质量;在房地产数据的缺失率处于10%~30%之间时,认定房地产数据的质量等级为高等质量;在房地产数据的缺失率小于10%时,认定房地产数据的质量等级为可靠。
在认定房地产数据的质量等级后,对相应的房地产数据分别打上低等质量、中等质量、高等质量和可靠的标签,便于直观地查看房地产数据的质量等级。
其中,在步骤S104之后,还包括:将房地产数据和对应的等级标签存入数据库中,根据等级标签对房地产数据进行清洗。
具体地,在对房地产数据打上等级标签后,将携带有等级标签的房地产数据存入数据库中,根据房地产数据的等级标签给出数据清洗的参考,例如清洗等级标签为低等质量的所有数据,从而提升房地产数据的置信度,更为精准的对客户需求进行分析。
其中,在步骤S104之后,还包括:统计所有房地产数据中的低等质量、中等质量、高等质量和可靠的房地产数据分别所占比重,获取统计结果;根据统计结果将房地产数据分为三类,低等质量和中等质量的房地产数据组成的低中质量数据、中等质量和高等质量的房地产数据数据组成的中高质量数据以及高等质量和可靠的房地产数据组成的高可靠数据,获取房地产数据的质量正态分布图。
具体地,根据房地产数据的质量等级,对各个质量等级的房地产数据进行统计,并分为低中质量数据、中高质量数据和高可靠数据三类,并基于则三类房地产数据,获取对应的质量正态分布图。在使用数据库中的部分房地产数据时,可以根据质量正态分布图使用三西格玛准则对房地产数据的质量进行判定,并对判定结果进行展示,从而获取使用的房地产数据的置信度,确保分析结果的准确性。
如图2所示,提供了一种房地产数据质量分析装置20,包括:数据提取模块21、数据判定模块22、等级获取模块23和标签模块24,其中:
数据提取模块21,用于提取数据库中的房地产数据,所述房地产数据携带有数据来源;
数据判定模块22,用于对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;
等级获取模块23,用于通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;
标签模块24,用于根据所述房地产数据的质量等级对所述房地产数据打上等级标签。
在一个实施例中,数据判定模块22具体用于:房地产数据由若干子数据组成,子数据携带有对应的子数据来源;根据子数据来源判断房地产数据中的脏数据,若子数据来源不合法,则认定对应的子数据为脏数据;计算脏数据占房地产数据的比例,获取房地产数据的脏数据率;检测房地产数据中是否存在子数据缺失,若存在子数据缺失,则认定对应的子数据为缺失数据;计算缺失数据占房地产数据的比例,获取房地产数据的缺失数据率。
在一个实施例中,等级获取模块23具体用于:数据来源包括有产品使用记录和基于第三方建立的数据;在数据来源为产品使用记录时,对房地产数据进行缺失率和脏数据率识别,根据缺失率和脏数据率判断房地产数据的质量等级;在数据来源为基于第三方建立的数据时,对房地产数据进行缺失率识别,根据缺失率判断房地产数据的质量等级。
在一个实施例中,一种房地产数据质量分析装置20还用于:将房地产数据和对应的等级标签存入数据库中,根据房地产数据的等级标签,对房地产数据进行清洗。
在一个实施例中,一种房地产数据质量分析装置20还用于:统计所有房地产数据中的低等质量、中等质量、高等质量和可靠的房地产数据分别所占比重,获取统计结果;根据统计结果将房地产数据分为三类,低等质量和中等质量的房地产数据组成的低中质量数据、中等质量和高等质量的房地产数据数据组成的中高质量数据以及高等质量和可靠的房地产数据组成的高可靠数据,获取房地产数据的质量正态分布图。
在一个实施例中,提供了一种设备,该设备可以是服务器,其内部结构图可以如图3所示。该设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该设备的数据库用于存储配置模板,还可用于存储目标网页数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现房地产数据质量分析方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还可以提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的房地产数据质量分析装置的一部分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种房地产数据质量分析方法,其特征在于,包括以下步骤:
提取数据库中的房地产数据,所述房地产数据携带有数据来源;
对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;
通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;
根据所述房地产数据的质量等级对所述房地产数据打上等级标签。
2.根据权利要求1所述的一种房地产数据质量分析方法,其特征在于,所述对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率,具体包括:
所述房地产数据由若干子数据组成,子数据携带有对应的子数据来源;
根据所述子数据来源判断所述房地产数据中的脏数据,若子数据来源不合法,则认定对应的子数据为脏数据;
计算所述脏数据占所述房地产数据的比例,获取房地产数据的脏数据率;
检测所述房地产数据中是否存在子数据缺失,若存在子数据缺失,则认定对应的子数据为缺失数据;
计算所述缺失数据占所述房地产数据的比例,获取房地产数据的缺失数据率。
3.根据权利要求1所述的一种房地产数据质量分析方法,其特征在于,所述通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级,具体包括:
所述数据来源包括有产品使用记录和基于第三方建立的数据;
在所述数据来源为产品使用记录时,对所述房地产数据进行缺失率和脏数据率识别,根据所述缺失率和脏数据率判断所述房地产数据的质量等级;
在所述数据来源为基于第三方建立的数据时,对所述房地产数据进行缺失率识别,根据所述缺失率判断所述房地产数据的质量等级。
4.根据权利要求3所述的一种房地产数据质量分析方法,其特征在于,所述在所述数据来源为产品使用记录时,对所述房地产数据进行缺失率和脏数据率识别,根据所述缺失率和脏数据率判断所述房地产数据的质量等级,具体包括:
在所述房地产数据的缺失率大于50%,且脏数据率大于20%时,认定所述房地产数据的质量等级为低等质量;
在所述房地产数据的缺失率处于30%~50%之间,且脏数据率大于20%,或缺失率大于50%,且脏数据率处于10%~20%之间时,认定所述房地产数据的质量等级为为中等质量;
在所述房地产数据的缺失率处于10%~30%,且脏数据率处于10%~20%之间,或缺失率处于30%~50%,且脏数据率小于10%,或缺失率大于50%,且脏数据率小于10%时,认定所述房地产数据的质量等级为高等质量;
在所述房地产数据的缺失率小于10%,且脏数据率小于10%时,认定所述房地产数据的质量等级为可靠。
5.根据权利要求3所述的一种房地产数据质量分析方法,其特征在于,所述在所述数据来源为基于第三方建立的数据时,对所述房地产数据进行缺失率识别,根据所述缺失率判断所述房地产数据的质量等级,具体包括:
在所述房地产数据的缺失率大于50%时,认定所述房地产数据的质量等级为低等质量;
在所述房地产数据的缺失率处于30%~50%之间时,认定所述房地产数据的质量等级为为中等质量;
在所述房地产数据的缺失率处于10%~30%之间时,认定所述房地产数据的质量等级为高等质量;
在所述房地产数据的缺失率小于10%时,认定所述房地产数据的质量等级为可靠。
6.根据权利要求1所述的一种房地产数据质量分析方法,其特征在于,在所述根据所述房地产数据的质量等级对所述房地产数据打上等级标签之后,还包括:
将所述房地产数据和对应的等级标签存入数据库中,根据所述房地产数据的等级标签,对所述房地产数据进行清洗。
7.根据权利要求4或5所述的一种房地产数据质量分析方法,其特征在于,在所述根据所述房地产数据的质量等级对所述房地产数据打上等级标签之后,还包括:
统计所有房地产数据中的低等质量、中等质量、高等质量和可靠的房地产数据分别所占比重,获取统计结果;
根据统计结果将所述房地产数据分为三类,低等质量和中等质量的房地产数据组成的低中质量数据、中等质量和高等质量的房地产数据数据组成的中高质量数据以及高等质量和可靠的房地产数据组成的高可靠数据,获取房地产数据的质量正态分布图。
8.一种房地产数据质量分析装置,其特征在于,包括:
数据提取模块,用于提取数据库中的房地产数据,所述房地产数据携带有数据来源;
数据判定模块,用于对所述房地产数据进行识别,根据预设规则对所述房地产数据中的脏数据和缺失数据进行判定,根据脏数据和缺失数据计算出所述房地产数据中的脏数据率和缺失率;
质量分析模块,用于通过数据来源对所述房地产数据进行分源,并根据所述脏数据率和缺失率对所述房地产数据进行质量分析,获取房地产数据的质量等级;
等级获取模块,用于根据所述房地产数据的质量等级对所述房地产数据打上等级标签。
9.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110618734.6A 2021-06-03 2021-06-03 一种房地产数据质量分析方法、装置、设备及存储介质 Pending CN113392096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618734.6A CN113392096A (zh) 2021-06-03 2021-06-03 一种房地产数据质量分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618734.6A CN113392096A (zh) 2021-06-03 2021-06-03 一种房地产数据质量分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113392096A true CN113392096A (zh) 2021-09-14

Family

ID=77618071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618734.6A Pending CN113392096A (zh) 2021-06-03 2021-06-03 一种房地产数据质量分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392096A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN108876481A (zh) * 2018-07-19 2018-11-23 万翼科技有限公司 房地产信息的统计方法、服务器及计算机可读存储介质
CN109285092A (zh) * 2017-07-20 2019-01-29 金东珉 网上房地产信息提供***,房地产放心交易服务提供***
CN110232061A (zh) * 2019-06-20 2019-09-13 国网上海市电力公司 一种配电网多源数据质量控制方法
KR102041621B1 (ko) * 2019-02-25 2019-11-06 (주)미디어코퍼스 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN110472109A (zh) * 2019-07-30 2019-11-19 深圳中科保泰科技有限公司 动态化数据质量分析方法及平台***
CN110727665A (zh) * 2019-09-23 2020-01-24 江河瑞通(北京)技术有限公司 物联网设备上报数据质量分析方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN109285092A (zh) * 2017-07-20 2019-01-29 金东珉 网上房地产信息提供***,房地产放心交易服务提供***
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN108876481A (zh) * 2018-07-19 2018-11-23 万翼科技有限公司 房地产信息的统计方法、服务器及计算机可读存储介质
KR102041621B1 (ko) * 2019-02-25 2019-11-06 (주)미디어코퍼스 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN110232061A (zh) * 2019-06-20 2019-09-13 国网上海市电力公司 一种配电网多源数据质量控制方法
CN110472109A (zh) * 2019-07-30 2019-11-19 深圳中科保泰科技有限公司 动态化数据质量分析方法及平台***
CN110727665A (zh) * 2019-09-23 2020-01-24 江河瑞通(北京)技术有限公司 物联网设备上报数据质量分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞东进: "基于服务的决策支持***研究", 《中国优秀博硕士学位论文全文数据库(博士)经济与管理科学辑》 *

Similar Documents

Publication Publication Date Title
CN110765770B (zh) 一种合同自动生成方法及装置
CN112491611B (zh) 故障定位***、方法、装置、电子设备和计算机可读介质
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
WO2019169760A1 (zh) 测试用例范围确定方法、装置及存储介质
CN107633433B (zh) 广告的审核方法及装置
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
CN109495291B (zh) 调用异常的定位方法、装置和服务器
CN107016298B (zh) 一种网页篡改监测方法及装置
CN112163072A (zh) 基于多数据源的数据处理方法以及装置
US20170249731A1 (en) Monitoring system based on image analysis of photos
CN112434178A (zh) 图像分类方法、装置、电子设备和存储介质
CN115205766A (zh) 基于区块链的网络安全异常视频大数据检测方法及***
CN112819476A (zh) 风险识别方法、装置、非易失性存储介质和处理器
CN113448834A (zh) 埋点测试方法、装置、电子设备及存储介质
CN113205130B (zh) 一种数据审核方法、装置、电子设备及存储介质
CN114840286A (zh) 基于大数据的业务处理方法及服务器
CN112231272B (zh) 基于远程在线办公的信息处理方法及计算机设备
CN116051185B (zh) 广告位数据的异常检测与筛选方法
CN117240527A (zh) 一种网络安全风险防范***及方法
CN113392096A (zh) 一种房地产数据质量分析方法、装置、设备及存储介质
CN112445687A (zh) 一种计算设备的卡顿检测方法及相关装置
CN114817518B (zh) 基于大数据档案识别的证照办理方法、***及介质
CN115391224A (zh) 一种流量回放方法、装置、计算机设备及可读存储介质
CN114971887A (zh) 信贷***的作业监控方法及装置、存储介质、电子设备
CN112866295B (zh) 一种大数据防爬虫处理方法及云平台***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914