CN110618982A - 一种多源异构数据的处理方法、装置、介质及电子设备 - Google Patents

一种多源异构数据的处理方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110618982A
CN110618982A CN201811603354.XA CN201811603354A CN110618982A CN 110618982 A CN110618982 A CN 110618982A CN 201811603354 A CN201811603354 A CN 201811603354A CN 110618982 A CN110618982 A CN 110618982A
Authority
CN
China
Prior art keywords
house source
data
original
source data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811603354.XA
Other languages
English (en)
Other versions
CN110618982B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Time Business Technology Co Ltd
Original Assignee
Beijing Time Business Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Time Business Technology Co Ltd filed Critical Beijing Time Business Technology Co Ltd
Priority to CN201811603354.XA priority Critical patent/CN110618982B/zh
Publication of CN110618982A publication Critical patent/CN110618982A/zh
Application granted granted Critical
Publication of CN110618982B publication Critical patent/CN110618982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种多源异构数据的处理方法、装置、介质及电子设备。该方法包括:确定原始房源数据中的原始房源特征;基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据;将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据,实现对不同来源的房源数据进行去重、校验和标准化处理,以统一的格式向用户展示处理后的房源数据。

Description

一种多源异构数据的处理方法、装置、介质及电子设备
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种多源异构数据的处理方法、装置、介质及电子设备。
背景技术
随着互联网技术的发展,网络提供给用户的信息越来越丰富。例如,用户可以通过网络平台浏览房产信息,从而满足租房或买房的需求。
以二手房交易领域为例,存在多个提供二手房源信息的房产中介,每个房产中介可能有自己的房源***用于展示房源信息。由于每个房产中介的房源***可能采用不同的数据存储格式进行数据存储,因此,如何联合不同数据来源的房源数据,并且向用户提供统一格式的二手房的房源数据,是目前亟待解决的技术问题。
发明内容
本公开实施例提供一种多源异构数据的处理方法、装置、介质及电子设备,可以将不同来源且不同格式的房源数据以统一的格式向用户展示。
第一方面,本公开实施例提供了一种多源异构数据的处理方法,包括:
确定原始房源数据中的原始房源特征;
基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
上述方案中,可选的是,基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据,包括:
确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合;
根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。
进一步的,确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合,包括:
将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量;
计算所述特征向量之间的距离;
若所述距离不超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于同一房源集合;
若所述距离超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于不同房源集合。
上述方案中,可选的是,基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,包括:
将每个所述第一真实房源数据的所述原始房源特征与预设数据清洗规则进行匹配;
根据匹配结果确定所述原始房源特征符合所述预设数据清洗规则的第二真实房源数据。
上述方案中,可选的是,该处理方法还包括:
在基于所述标准房源特征得到第一标准房源数据之后,基于标准房源特征对所述第一标准房源数据进行数据聚合处理,根据聚合结果确定所述第一标准房源数据中的第二标准房源数据。
上述方案中,可选的是,该处理方法还包括:
在根据聚合结果确定所述第一标准房源数据中的第二标准房源数据之后,基于所述标准房源特征对所述第二标准房源数据进行数据清洗处理,根据清洗结果确定第三标准房源数据,展示所述第三标准房源数据。
进一步的,该处理方法还包括:
在展示所述第三标准房源数据之后,获取针对所述第三标准房源数据的用户反馈信息,根据所述用户反馈信息确定所述第三标准房源数据中的虚假房源数据;
删除所述第三标准房源数据中的所述虚假房源数据,得到第四标准房源数据,展示所述第四标准房源数据。
上述方案中,可选的是,该处理方法还包括:
在基于所述标准房源特征得到第一标准房源数据之后,获取所述原始房源数据的原始数据标识,其中,所述原始数据标识为所述原始房源数据在原始数据源中的标识信息;
获取所述第一标准房源数据的标准数据标识,关联存储所述标准数据标识和所述原始数据标识。
第二方面,本公开实施例还提供了一种多源异构数据的处理装置,该装置包括:
特征确定模块,用于确定原始房源数据中的原始房源特征;
数据聚合模块,用于基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
数据清洗模块,用于基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
特征映射模块,用于将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
上述方案中,可选的是,数据聚合模块包括:
房源分组子模块,用于确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合;
房源聚合子模块,用于根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。
进一步的,房源分组子模块具体用于:
将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量;
计算所述特征向量之间的距离;
若所述距离不超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于同一房源集合;
若所述距离超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于不同房源集合。
上述方案中,可选的是,数据清洗模块具体用于:
将每个所述第一真实房源数据的所述原始房源特征与预设数据清洗规则进行匹配;
根据匹配结果确定所述原始房源特征符合所述预设数据清洗规则的第二真实房源数据。
上述方案中,可选的是,该处理装置还包括:
在基于所述标准房源特征得到第一标准房源数据之后,基于标准房源特征对所述第一标准房源数据进行数据聚合处理,根据聚合结果确定所述第一标准房源数据中的第二标准房源数据。
上述方案中,可选的是,该处理装置还包括:
在根据聚合结果确定所述第一标准房源数据中的第二标准房源数据之后,基于所述标准房源特征对所述第二标准房源数据进行数据清洗处理,根据清洗结果确定第三标准房源数据,展示所述第三标准房源数据。
进一步的,该处理装置还包括:
在展示所述第三标准房源数据之后,获取针对所述第三标准房源数据的用户反馈信息,根据所述用户反馈信息确定所述第三标准房源数据中的虚假房源数据;
删除所述第三标准房源数据中的所述虚假房源数据,得到第四标准房源数据,展示所述第四标准房源数据。
上述方案中,可选的是,该处理装置还包括:
在基于所述标准房源特征得到第一标准房源数据之后,获取所述原始房源数据的原始数据标识,其中,所述原始数据标识为所述原始房源数据在原始数据源中的标识信息;
获取所述第一标准房源数据的标准数据标识,关联存储所述标准数据标识和所述原始数据标识。
第三方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的多源异构数据的处理方法。
第四方面,本公开实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例所述的多源异构数据的处理方法。
本公开实施例提供一种多源异构数据的处理方案,通过提取由多个数据来源获取的不同格式的原始房源数据的原始房源特征,基于该原始房源特征对原始房源数据进行数据聚合处理,基于聚合结果得到第一真实房源数据;基于原始房源特征对第一真实房源数据进行数据清洗处理,基于清洗结果得到第二真实房源数据;将第二真实房源数据中的原始房源特征映射为标准房源特征,基于标准房源特征得到第一标准房源数据,从而,实现对不同来源的房源数据进行去重、校验和标准化处理,以统一的格式向用户展示处理后的房源数据,避免出现将多源异构数据直接整合而存在大量重复房源数据和虚假房源数据的问题发生,可以提高向用户展示的房源数据的准确度,提升了该网络平台的用户黏度。
附图说明
图1为本公开实施例提供的一种多源异构数据的处理方法的流程图;
图2为本公开实施例提供的另一种多源异构数据的处理方法的流程图;
图3为本公开实施例提供的一种多源异构数据的处理装置的结构框图;
图4为本公开实施例提供的一种多源异构数据的处理流程示意图;
图5为本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
图1为本公开实施例提供的一种多源异构数据的处理方法的流程图,本实施例可适用于对不同来源及不同格式的房源数据进行整合并显示的情况,该方法可以由多源异构数据的处理装置来执行,该装置可由硬件和/或软件组成,并一般可集成在电子设备中。如图1所示,该方法可以包括如下步骤:
步骤110、确定原始房源数据中的原始房源特征。
需要说明的是,原始房源数据是来源于不同原始数据源的不同数据格式的房源数据。其中,原始数据源可以是互联网(网上展示的房源数据)和房产中介等等。由于原始数据由不同原始数据源获取,可能存在数据重复的问题。例如,由原始数据源M获取的原始房源数据是A市B区幸福里一期区z单元5楼的二手房。由房源N获取的原始房源数据是A市B区幸福里小区z单元5楼二手房。由上述两个原始数据源获取的原始房源数据实际上是同一房源的房源数据。
房源特征是对房源进行特征描述的数据,包括但不限于城市、市辖区、商圈、房源所属小区、户型、面积、楼层、朝向及价格等字段。可以通过上述房源特征表示一条房源数据。原始房源特征是原始房源数据中用于描述房源特征的数据项。
示例性的,可以由不同数据来源获取原始房源数据,存储于本地数据库。由本地数据库中顺序获取原始房源数据,由所获取的原始房源数据中抽取与设定字段对应的数据项,其中,设定字段是设定字段表内规定的字段。将该数据项标记为设定字段对应的原始房源特征。例如,假设原始房源数据为A市B区幸福里小区z单元5楼二手房,且设定字段包括城市、市辖区、房源所属小区、楼层、户型等等,则基于设定字段可以提取原始房源特征包括“A市”、“B区”、“幸福里小区”及“5楼”。
步骤120、基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据。
需要说明的是,数据聚合处理是将具有相同或相似房源特征的房源数据聚集到一起的处理。可以基于预设数据聚合规则确定原始房源数据中的第一真实房源数据。其中,预设数据聚合规则可以根据实际情况设定,且被预置于设定规则引擎。数据聚合规则可以有很多种,并可以依据实际使用情况而动态调整,对于具体的数据聚合规则本公开并不作具体限定。例如,假设不同房产中介均上传了同一套房源,则可能出现多个相同的原始房源数据。另外,假设同一房产中介中的多名房产经纪人均上传了同一套房源,也可能出现多个相同的原始房源数据。另外,假设同一房产中介中的同一房产经纪人多次上传同一套房源,也可能出现多个相同的原始房源数据。为了有效地去除重复房源,数据聚合规则可以是规定同一房产中介对于同一房源仅能上传一次。又如,规定若多个房源数据中相同房源特征占比超过80%,则确定上述多个房源中存在重复房源,将公开房源特征最多的房源数据确定为真实房源数据等等。其中,假设第一房源数据中户型和朝向两项房源特征为空,第二房源数据中各个房源特征均被公开,则可以确定第二房源数据公开的房源特征比第一房源数据多。
示例性的,确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合。例如,将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量;计算所述特征向量之间的距离;若所述距离不超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于同一房源集合;若所述距离超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于不同房源集合。
其中,可以采用设定规则将原始房源特征映射至设定数字区间内,得到原始房源特征对应的特征向量。通过计算各个特征向量之间的距离的方式对原始房源数据进行分组处理。其中,计算特征向量之间的距离可以是计算两个特征向量的差值。
例如,由各个原始房源数据中获取一个原始房源数据对应的特征向量,记为参考向量。分别计算剩余的原始房源数据对应的特征向量与该参考向量之间的距离,确定该距离小于设定第一阈值的至少一个目标原始房源数据,将至少一个目标原始房源数据与该参考向量对应的原始房源数据归入同一房源集合,得到第一个房源集合。对于不属于该第一房源集合的剩余原始房源数据,任意获取一个原始房源数据对应的特征向量,作为新的参考向量。分别计算显得剩余的原始房源数据对应的特征向量与新的参考向量之间的距离,确定该距离小于设定第一预知的至少一个新的目标原始房源数据,将至少一个新的目标原始房源数据与该新的参考向量对应的原始房源数据归入同一房源集合,得到第二个房源集合。对于不属于上述两个房源集合的剩余的原始房源数据,采用相似的方式基于距离为其分组。
在对原始房源数据进行分组处理后,根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。例如,由于采用上述方式为原始房源进行分组后,同一房源集合内的原始房源数据具有相同或相似的原始房源特征。若预设数据聚合规则是同一房源集合内公开房源特征最多的原始房源数据为真实房源数据,则比较每个房源集合中各个原始房源数据公开的房源特征的数量。对于某些原始房源数据中的某些字段为空,则认为该原始房源数据未公开空字段对应的房源特征。根据比较结果,将公开房源特征最多的原始房源数据作为第一真实房源数据。需要说明的是,第一真实房源数据的数量可以是多个。
步骤130、基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据。
需要说明的是,数据清洗处理是确定并删除异常房源数据的过程,其中,该异常房源数据的至少一个房源特征不符合预设数据清洗规则,该房源特征可以是上述原始房源特征或标准房源特征。其中,预设数据清洗规则可以根据实际情况设定,且被预置于设定规则引擎。数据清洗规则可以有很多种,并可以依据实际使用情况而动态调整,对于具体的数据清洗规则本公开并不作具体限定。例如,预设数据清洗规则可以是某个市辖区内不会出现价格高于a万元的二手房的房源。又如,预设数据清洗规则可以是某个房源所属小区内不会出现面积高于v平方米的二手房的房源。
在聚合处理后,第一真实房源数据中可能存在一些虚假房源数据。可以基于原始房源特征对第一真实房源数据进行数据清洗处理,以排除其中的异常房源数据。
本公开实施例中,对第一真实房源数据进行数据清洗处理可以是根据预设数据清洗规则,基于所述原始房源特征对第一真实房源数据进行数据清洗处理。
例如,将每个第一真实房源数据的原始房源特征与预设数据清洗规则进行匹配。根据匹配结果确定原始房源特征符合预设数据清洗规则的第二真实房源数据,从而,可以确定出原始房源特征不符合预设数据清洗规则的异常房源数据。删除第一真实房源数据中原始房源特征不符合预设数据清洗规则的异常房源数据,其中,异常房源数据包括原始房源特征缺失的第一真实房源数据或者原始房源特征错误的第一真实房源数据等等。
步骤140、将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
示例性的,提取每个第二真实房源数据中的原始房源特征,根据设定字段表将原始房源特征映射为标准房源特征。将标准房源特征按照设定顺序进行组合得到第一标准房源数据。其中,设定字段表是房源特征的标准格式的表格,该标准格式可以由研发人员定义,在设定字段表中存储原始房源特征与标准房源特征的映射规则。
本公开实施例的技术方案,通过提取由多个数据来源获取的不同格式的原始房源数据的原始房源特征,基于该原始房源特征对原始房源数据进行数据聚合处理,基于聚合结果得到第一真实房源数据;基于原始房源特征对第一真实房源数据进行数据清洗处理,基于清洗结果得到第二真实房源数据;根据设定字段表将第二真实房源数据中的原始房源特征映射为标准房源特征,基于标准房源特征得到第一标准房源数据,从而,实现对不同来源的房源数据进行去重、校验和标准化处理,以统一的格式向用户展示处理后的房源数据,避免出现将多源异构数据直接整合而存在大量重复房源数据和虚假房源数据的问题发生,可以提高向用户展示的房源数据的准确度,提升了该网络平台的用户黏度。
图2为本公开实施例提供的另一种多源异构数据的处理方法的流程图,本实施例以上述实施例中各个可选方案为基础进行具体优化。如图2所示,该方法包括如下步骤:
步骤201、确定原始房源数据中的原始房源特征。
步骤202、将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量。
示例性的,规定将地理位置在北京的二手房的地理位置中的区域信息映射为1,将地理位置在上海的二手房的地理位置中的区域信息映射为2,将地理位置在广州的二手房的地理位置中的区域信息映射为3,将地理位置在深圳的二手房的地理位置中的区域信息映射为4,以此类推,采用上述设定规则将二手房的描述信息中的地理位置中的区域信息映射至设定数字区间内。
另外,对于北京市内的二手房的房源,可以根据行政区域不同进行映射处理。例如,规定位于海淀区的二手房的地理位置中的行政区域映射为1,将朝阳区的二手房的房源的地理位置中的行政区域映射为2,将西城区的二手房的房源地理位置中的行政区域映射为3,以此类推,采用上述设定规则将二手房的描述信息中的地理位置中的行政区域映射至设定数字区间内。
另外,根据小区名为二手房的房源所在的小区进行编号,将小区编号作为将二手房的描述信息中的所属小区映射后的数值。另外,根据户型信息将二手房的描述信息中户型映射至设定数字区间。例如,可以规定一室一厅的二手房的描述信息中的户型映射为11,将一室两厅的二手房的描述信息中的户型映射为12,将二室一厅的二手房的描述信息中的户型映射为21,将三室一厅的二手房的描述信息中的户型映射为31,将三室两厅的二手房的描述信息中的户型映射为32等等。
另外,根据二手房的描述信息中的楼层确定楼层映射后的数值。例如,假设二手房的房源位于一楼,则将二手房的描述信息中的楼层映射为1。
另外,预先赋予东、南、西、北、东南、东北、西南及西北8个方向为1至8中的任意数值,从而,实现二手房的描述信息中的朝向映射至设定数字区间。例如,二手房的朝向是南,则将二手房的描述信息中的朝向映射为1。
另外,根据价格区间将二手房中的描述信息中的价格映射至设定数字区间。例如,预先设置价格区间是0到100万,101万到200万,201万到300万,…,对应的映射值分别为1,2,3,4,…,从而,实现将二手房的描述信息中的价格映射至设定数字区间。经过上述映射处理,可以采用一维向量表示二手房的房源信息,该一维向量即为房源信息对应的特征向量。可选的,可以采用数组的形式分别存储各个房源信息。
需要说明的是,在房源信息中的某项描述信息为空时,将该项描述信息映射至0,例如,房源信***向信息为空,则将朝向信息映射为0。另外,本公开实施例中所列举的映射操作的数值是示例而非限定。
步骤203、计算所述特征向量之间的距离。
步骤204、判断所述房源信息对应的特征向量之间的距离是否超过设定第一阈值,若是,则执行步骤205,否则,执行步骤206。
步骤205、确定参与距离计算的特征向量属于不同房源集合。
若上述距离超过设定第一阈值,则确定参与距离计算的特征向量属于不同房源集合。
步骤206、确定参与距离计算的特征向量属于同一房源集合。
若上述距离不超过设定第一阈值,则确定参与距离计算的特征向量属于同一房源集合。
步骤207、根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。
示例性的,根据预设数据聚合规则由每个房源集合中筛选出符合该预设数据聚合规则的至少一个第一真实房源数据。
步骤208、基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据。
步骤209、将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
步骤210、根据预设数据聚合规则,基于标准房源特征对所述第一标准房源数据进行数据聚合处理,根据聚合结果确定所述第一标准房源数据中的第二标准房源数据。
示例性的,将每个第一标准房源数据的标准房源特征与预设聚合规则进行匹配,根据匹配结果确定标准房源特征符合该预设聚合规则匹配的第二标准房源数据。
步骤211、根据预设数据清洗规则,基于所述标准房源特征对所述第二标准房源数据进行数据清洗处理,根据清洗结果确定第三标准房源数据,展示所述第三标准房源数据。
本公开实施例中,基于标准房源特征对第二标准房源数据进行数据清洗处理可以是确定并删除第二标准房源数据中异常房源数据的过程,其中,异常房源数据的至少一个标准房源特征不符合预设数据清洗规则。
示例性的,将每个第二标准房源数据的标准房源特征与预设数据清洗规则进行匹配,根据匹配结果确定标准房源特征符合该预设数据清洗规则的第三标准房源数据。在房源展示***上展示该第三标准房源数据,以使用户通过互联网访问该房源展示***时,可以浏览到具有统一格式的第三标准房源数据。
步骤212、获取针对所述第三标准房源数据的用户反馈信息,根据所述用户反馈信息确定所述第三标准房源数据中的虚假房源数据。
本公开中,用户反馈信息可以是对于虚假房源的反馈信息。可以根据该用户反馈信息将集中反馈为虚假房源的目标第三标准房源数据标记为虚假房源数据。
步骤213、删除所述第三标准房源数据中的所述虚假房源数据,得到第四标准房源数据,展示所述第四标准房源数据。
本公开实施例的技术方案,对于在房源展示***上展示之前的原始房源数据,基于原始房源特征对其进行数据聚合处理和数据清洗处理,在原始房源特征映射为标准房源特征之后,基于标准房源特征对标准房源数据进行数据聚合处理和数据清洗处理,并且在房源展示***上展示标准房源数据之后,可以基于用户反馈信息删除所展示的标准房源数据中的虚假房源数据,有效地提高了在房源展示***上展示的房源的真实性,避免发生将虚假房源及重复房源上传至房源展示***的情况。
在上述各个可选方案的基础上,进一步在基于所述标准房源特征得到第一标准房源数据之后附加了获取所述原始房源数据的原始数据标识,其中,所述原始数据标识为所述原始房源数据在原始数据源中的标识信息,原始数据源可以理解为原始数据的来源,包括互联网或者房产中介等等;获取所述第一标准房源数据的标准数据标识,关联存储所述标准数据标识和所述原始数据标识。由于原始数据标识是原始房源数据在原始数据源中的标识信息,可以用来唯一的表示一条原始房源数据。将至少一个原始房源数据的原始数据标识与第一标准房源数据的标准数据标识关联存储,可以实现数据的同步修改。例如,假设有多个原始房源数据的原始数据标识均关联至某一标准数据标识,则在检测到其中一个原始房源数据的原始房源特征的修改操作时,获取与该第一标准房源数据的标准数据标识关联的至少一个原始房源数据的原始数据标识。修改原始数据标识对应的原始房源数据中相应地原始房源特征。
图3为本公开实施例提供的一种多源异构数据的处理装置的结构框图,该装置可由软件和/或硬件实现,一般集成在电子设备中,可通过执行多源异构数据的处理方法将不同来源且不同格式的房源数据以统一的格式向用户展示。如图3所示,该装置包括:
特征确定模块310,用于确定原始房源数据中的原始房源特征;
数据聚合模块320,用于基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
数据清洗模块330,用于基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
特征映射模块340,用于将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
本公开实施例提供的多源异构数据的处理装置,通过提取由多个数据来源获取的不同格式的原始房源数据的原始房源特征,基于该原始房源特征对原始房源数据进行数据聚合处理,基于聚合结果得到第一真实房源数据;基于原始房源特征对第一真实房源数据进行数据清洗处理,基于清洗结果得到第二真实房源数据;根据设定字段表将第二真实房源数据中的原始房源特征映射为标准房源特征,基于标准房源特征得到第一标准房源数据,从而,实现对不同来源的房源数据进行去重、校验和标准化处理,以统一的格式向用户展示处理后的房源数据,避免出现将多源异构数据直接整合存在大量重复房源数据和虚假房源数据的问题发生,可以提高向用户展示的房源数据的准确度,提升了该网络平台的用户黏度。
上述方案中,可选的是,数据聚合模块320包括:
房源分组子模块,用于确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合;
房源聚合子模块,用于根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。
进一步的,房源分组子模块具体用于:
将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量;
计算所述特征向量之间的距离;
若所述距离不超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于同一房源集合;
若所述距离超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于不同房源集合。
上述方案中,可选的是,数据清洗模块330具体用于:
将每个所述第一真实房源数据的所述原始房源特征与预设数据清洗规则进行匹配;
根据匹配结果确定所述原始房源特征符合所述预设数据清洗规则的第二真实房源数据。
上述方案中,可选的是,该处理装置还包括:
在基于所述标准房源特征得到第一标准房源数据之后,基于标准房源特征对所述第一标准房源数据进行数据聚合处理,根据聚合结果确定所述第一标准房源数据中的第二标准房源数据。
上述方案中,可选的是,该处理装置还包括:
在根据聚合结果确定所述第一标准房源数据中的第二标准房源数据之后,基于所述标准房源特征对所述第二标准房源数据进行数据清洗处理,根据清洗结果确定第三标准房源数据,展示所述第三标准房源数据。
进一步的,该处理装置还包括:
在展示所述第三标准房源数据之后,获取针对所述第三标准房源数据的用户反馈信息,根据所述用户反馈信息确定所述第三标准房源数据中的虚假房源数据;
删除所述第三标准房源数据中的所述虚假房源数据,得到第四标准房源数据,展示所述第四标准房源数据。
上述方案中,可选的是,该处理装置还包括:
在基于所述标准房源特征得到第一标准房源数据之后,获取所述原始房源数据的原始数据标识,其中,所述原始数据标识为所述原始房源数据在原始数据源中的标识信息;
获取所述第一标准房源数据的标准数据标识,关联存储所述标准数据标识和所述原始数据标识。
可选的,该多源异构数据的处理装置还包括抓取模块,用于由不同原始数据源获取原始房源数据,并存储于本地数据库。
本公开通过如下框图具体说明多源异构数据的处理装置的工作流程。图4为本公开实施例提供的一种多源异构数据的处理流程的框图。如图4所示,在数据获取事件被触发后,抓取模块410由不同原始数据源获取原始房源数据,并将原始房源数据存入本地数据库。例如,可以定时触发数据获取事件,以由原始数据源获取原始房源数据。又如,可以按照设定周期触发数据获取事件,以由原始数据源获取原始房源数据。又如,可以在检测到原始数据源发布原始房源数据时触发数据获取事件,以由原始数据源获取原始房源数据。需要说明的是,触发数据获取事件的方式有很多种,本公开并不作具体限定。特征确定模块420顺序由本地数据库中读取原始房源数据,抽取该原始房源数据的原始房源标识和原始房源特征。至于抽取哪些原始房源特征,可以根据展示模块460中维护的设定字段表确定。数据聚合模块430,基于原始房源特征对原始房源数据进行数据聚合处理,以由原始房源数据中确定第一真实房源数据。数据清洗模块440,基于原始房源特征对第一真实房源数据进行数据清洗处理,以由第一真实房源数据中确定第二真实房源数据。特征映射模块450,根据设定字段表将第二真实房源数据中的原始房源特征映射为标准房源特征,并基于标准房源特征得到第一标准房源数据。通过展示模块460展示第一标准房源数据。由于一条标准房源数据可能对应多条原始房源数据,即多个原始房源标识均映射到一个标准房源标识,因此,为了便于数据同步,采用同步模块470关联存储标准数据标识和原始数据标识。
为了提高展示数据的准确度,对于在将原始房源特征映射为标准房源特征之后,可以通过数据聚合模块430,根据预设数据聚合规则,基于标准房源特征对标准房源数据进行数据聚合处理,得到第二标准房源数据。可选的,通过数据清洗模块440,根据预设数据清洗规则,基于标准房源特征对第二标准房源数据进行数据清洗处理,得到第三标准房源数据。通过展示模块460展示第三标准房源数据。
本公开实施例还提供了一种电子设备,该电子设备中可集成本公开实施例提供的多源异构数据的处理装置。本公开实施例电子设备包括终端设备或服务器,其中,的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图5为本公开实施例提供的一种电子设备的结构框图。该电子设备可以包括:一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个存储器执行,使得所述一个或多个处理器实现如下方法:
确定原始房源数据中的原始房源特征;
基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
应该理解的是,图示电子设备500仅仅是一个范例,并且电子设备500可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的集成有多源异构数据的处理装置的电子设备进行详细的描述。
如图5所示,电子设备500可以包括处理器(例如中央处理器、图形处理器等)520,其可以根据存储在只读存储器(ROM)530中的程序或者从存储器510加载到随机访问存储器(RAM)540中的程序而执行各种适当的动作和处理。在RAM540中,还存储有电子设备500操作所需的各种程序和数据。处理器520、ROM530以及RAM540通过总线550彼此相连。输入/输出(I/O)接口560也连接至总线550。
通常,以下装置可以连接至I/O接口560:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置580;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置590;包括例如磁带、硬盘等的存储器510;电子设备500还可以包括通信装置570。通信装置570可以允许电子设备500与其它设备进行无线或有线通信以交换数据。
特别地,根据本公开实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行本公开实施例提供的多源异构数据的处理方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储器被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本公开实施例的多源异构数据的处理方法中限定的上述功能。
需要说明的是,本公开实施例中计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备实现如下方法:
确定原始房源数据中的原始房源特征;
基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据;
将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
当然,本公开实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的虚假房源识别的操作,还可以执行本公开任意实施例所提供的多源异构数据的处理方法中的相关操作。
上述实施例中提供的多源异构数据的处理装置、存储介质及电子设备可执行本公开任意实施例所提供的多源异构数据的处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本公开任意实施例所提供的多源异构数据的处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、单元的名称在某种情况下并不构成对该模块或单元本身的限定。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种多源异构数据的处理方法,其特征在于,包括:
确定原始房源数据中的原始房源特征;
基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
2.根据权利要求1所述的方法,其特征在于,基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据,包括:
确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合;
根据预设数据聚合规则确定每个所述房源集合包含的原始房源数据中的第一真实房源数据。
3.根据权利要求2所述的方法,其特征在于,确定所述原始房源数据的特征向量,根据所述特征向量之间的距离对所述原始房源数据进行分组处理,得到房源集合,包括:
将所述原始房源特征映射至设定数字区间,得到所述原始房源特征的特征向量;
计算所述特征向量之间的距离;
若所述距离不超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于同一房源集合;
若所述距离超过设定第一阈值,则确定参与距离计算的特征向量对应的原始房源数据属于不同房源集合。
4.根据权利要求1所述的方法,其特征在于,基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,包括:
将每个所述第一真实房源数据的所述原始房源特征与预设数据清洗规则进行匹配;
根据匹配结果确定所述原始房源特征符合所述预设数据清洗规则的第二真实房源数据。
5.根据权利要求1所述的方法,其特征在于,在基于所述标准房源特征得到第一标准房源数据之后,还包括:
基于标准房源特征对所述第一标准房源数据进行数据聚合处理,根据聚合结果确定所述第一标准房源数据中的第二标准房源数据。
6.根据权利要求5所述的方法,其特征在于,在根据聚合结果确定所述第一标准房源数据中的第二标准房源数据之后,还包括:
基于所述标准房源特征对所述第二标准房源数据进行数据清洗处理,根据清洗结果确定第三标准房源数据,展示所述第三标准房源数据。
7.根据权利要求6所述的方法,其特征在于,在展示所述第三标准房源数据之后,还包括:
获取针对所述第三标准房源数据的用户反馈信息,根据所述用户反馈信息确定所述第三标准房源数据中的虚假房源数据;
删除所述第三标准房源数据中的所述虚假房源数据,得到第四标准房源数据,展示所述第四标准房源数据。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在基于所述标准房源特征得到第一标准房源数据之后,还包括:
获取所述原始房源数据的原始数据标识,其中,所述原始数据标识为所述原始房源数据在原始数据源中的标识信息;
获取所述第一标准房源数据的标准数据标识,关联存储所述标准数据标识和所述原始数据标识。
9.一种多源异构数据的处理装置,其特征在于,包括:
特征确定模块,用于确定原始房源数据中的原始房源特征;
数据聚合模块,用于基于所述原始房源特征对所述原始房源数据进行数据聚合处理,根据聚合结果确定所述原始房源数据中的第一真实房源数据;
数据清洗模块,用于基于所述原始房源特征对所述第一真实房源数据进行数据清洗处理,根据清洗结果确定所述第一真实房源数据中的第二真实房源数据,其中,所述数据清洗处理是确定并删除异常房源数据的过程,所述异常房源数据的至少一个房源特征不符合预设数据清洗规则,所述房源特征是所述原始房源特征或标准房源特征;
特征映射模块,用于将所述第二真实房源数据中的原始房源特征映射为标准房源特征,基于所述标准房源特征得到第一标准房源数据。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的多源异构数据的处理方法。
11.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8中任一所述的多源异构数据的处理方法。
CN201811603354.XA 2018-12-26 2018-12-26 一种多源异构数据的处理方法、装置、介质及电子设备 Active CN110618982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811603354.XA CN110618982B (zh) 2018-12-26 2018-12-26 一种多源异构数据的处理方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811603354.XA CN110618982B (zh) 2018-12-26 2018-12-26 一种多源异构数据的处理方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN110618982A true CN110618982A (zh) 2019-12-27
CN110618982B CN110618982B (zh) 2022-09-30

Family

ID=68920302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811603354.XA Active CN110618982B (zh) 2018-12-26 2018-12-26 一种多源异构数据的处理方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110618982B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552869A (zh) * 2020-03-31 2020-08-18 北京城市网邻信息技术有限公司 一种房源信息显示方法和装置
CN111581182A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种数据清洗方法和装置
CN111798251A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 房源数据的验证方法、装置和电子设备
CN112699289A (zh) * 2020-12-30 2021-04-23 上海瑞家信息技术有限公司 房源信息聚合展示方法、装置、电子设备和计算机可读介质
CN113192178A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 房源信息处理方法、装置及***
CN113450163A (zh) * 2021-08-30 2021-09-28 贝壳找房(北京)科技有限公司 房源呈现情况分析方法及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183378A (zh) * 2006-11-14 2008-05-21 国际商业机器公司 用于在查询时间清洗基于序列的数据的方法和***
US20110186633A1 (en) * 2008-08-21 2011-08-04 Akihiro Okabe Electronic shelf label system, commodity price management device, portable terminal device, electronic shelf label device, commodity price management method, commodity price update method, commodity price management program, and commodity price update program
CN106484774A (zh) * 2016-09-12 2017-03-08 北京歌华有线电视网络股份有限公司 一种多源视频元数据的关联方法及***
CN106874381A (zh) * 2017-01-09 2017-06-20 重庆邮电大学 一种基于Hadoop的无线电环境地图数据处理***
CN107329852A (zh) * 2017-06-09 2017-11-07 广州虎牙信息科技有限公司 基于Hive的数据处理的方法、***及终端设备
CN108197312A (zh) * 2018-01-31 2018-06-22 平安好房(上海)电子商务有限公司 获取房源数据方法、装置、设备及可读存储介质
CN108197311A (zh) * 2018-01-31 2018-06-22 平安好房(上海)电子商务有限公司 房源数据聚合展示方法、装置、设备及可读存储介质
CN108536825A (zh) * 2018-04-10 2018-09-14 苏州市中地行信息技术有限公司 一种识别房源数据是否重复的方法
CN108763570A (zh) * 2018-06-05 2018-11-06 北京拓世寰宇网络技术有限公司 一种识别相同房源的方法及装置
CN109035078A (zh) * 2018-08-31 2018-12-18 北京诸葛找房信息技术有限公司 一种基于多维度信息相似计算的房源聚合方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183378A (zh) * 2006-11-14 2008-05-21 国际商业机器公司 用于在查询时间清洗基于序列的数据的方法和***
US20110186633A1 (en) * 2008-08-21 2011-08-04 Akihiro Okabe Electronic shelf label system, commodity price management device, portable terminal device, electronic shelf label device, commodity price management method, commodity price update method, commodity price management program, and commodity price update program
CN106484774A (zh) * 2016-09-12 2017-03-08 北京歌华有线电视网络股份有限公司 一种多源视频元数据的关联方法及***
CN106874381A (zh) * 2017-01-09 2017-06-20 重庆邮电大学 一种基于Hadoop的无线电环境地图数据处理***
CN107329852A (zh) * 2017-06-09 2017-11-07 广州虎牙信息科技有限公司 基于Hive的数据处理的方法、***及终端设备
CN108197312A (zh) * 2018-01-31 2018-06-22 平安好房(上海)电子商务有限公司 获取房源数据方法、装置、设备及可读存储介质
CN108197311A (zh) * 2018-01-31 2018-06-22 平安好房(上海)电子商务有限公司 房源数据聚合展示方法、装置、设备及可读存储介质
CN108536825A (zh) * 2018-04-10 2018-09-14 苏州市中地行信息技术有限公司 一种识别房源数据是否重复的方法
CN108763570A (zh) * 2018-06-05 2018-11-06 北京拓世寰宇网络技术有限公司 一种识别相同房源的方法及装置
CN109035078A (zh) * 2018-08-31 2018-12-18 北京诸葛找房信息技术有限公司 一种基于多维度信息相似计算的房源聚合方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552869A (zh) * 2020-03-31 2020-08-18 北京城市网邻信息技术有限公司 一种房源信息显示方法和装置
CN111581182A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种数据清洗方法和装置
CN111798251A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 房源数据的验证方法、装置和电子设备
CN112699289A (zh) * 2020-12-30 2021-04-23 上海瑞家信息技术有限公司 房源信息聚合展示方法、装置、电子设备和计算机可读介质
CN113192178A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 房源信息处理方法、装置及***
CN113192178B (zh) * 2021-04-20 2024-02-09 北京异乡旅行网络科技有限公司 房源信息处理方法、装置及***
CN113450163A (zh) * 2021-08-30 2021-09-28 贝壳找房(北京)科技有限公司 房源呈现情况分析方法及存储介质

Also Published As

Publication number Publication date
CN110618982B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN110618982B (zh) 一种多源异构数据的处理方法、装置、介质及电子设备
KR102121361B1 (ko) 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스
CN107315824B (zh) 用于生成热力图的方法和装置
CN110633381B (zh) 一种识别虚假房源的方法、装置、存储介质及电子设备
CN110633726A (zh) 一种房源识别方法、装置、存储介质及电子设备
CN110619039A (zh) 一种房产信息的校验方法、装置、存储介质及电子设备
CN107908637B (zh) 一种基于知识库的实体更新方法及***
CN110515968B (zh) 用于输出信息的方法和装置
CN110619553B (zh) 一种商品信息展示方法、装置、电子设备及存储介质
CN111522927A (zh) 基于知识图谱的实体查询方法和装置
US20190095536A1 (en) Method and device for content recommendation and computer readable storage medium
CN109446384B (zh) 用于生成人员组织架构信息的方法和***
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN114661811A (zh) 数据展示方法、装置、电子设备及存储介质
CN111311305A (zh) 基于用户轨迹解析用户公共流量带的方法及***
CN111143408A (zh) 一种基于业务规则的事件处理方法和装置
JP7218827B2 (ja) 情報処理装置、ハザードマップ生成方法およびプログラム
CN110458743B (zh) 基于大数据分析的社区治理方法、装置、设备及存储介质
CN112035581B (zh) 基于模型的任务处理方法、装置、设备和介质
CN111241368B (zh) 数据处理方法、装置、介质和设备
CN109785178B (zh) 用于生成信息的方法和装置
CN113239889A (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品
CN112699289A (zh) 房源信息聚合展示方法、装置、电子设备和计算机可读介质
CN111563797A (zh) 房源信息的处理方法、装置、可读介质及电子设备
CN111222048A (zh) 用户数量的查询计算方法、装置、电子设备、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant