CN108427714A - 基于机器学习的房源重复记录识别方法及*** - Google Patents
基于机器学习的房源重复记录识别方法及*** Download PDFInfo
- Publication number
- CN108427714A CN108427714A CN201810107829.XA CN201810107829A CN108427714A CN 108427714 A CN108427714 A CN 108427714A CN 201810107829 A CN201810107829 A CN 201810107829A CN 108427714 A CN108427714 A CN 108427714A
- Authority
- CN
- China
- Prior art keywords
- source
- houses
- record
- repeats
- likelihood estimator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 title claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的房源重复记录识别方法及***,其中,方法包括以下步骤:采集房源的房源数据;将房源数据输入算法相似度估算器中,以提取房源的房源特征;将房源特征输入房源重复记录识别模型,以判定房源是否重复记录。该方法通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于机器学习的房源重复记录识别方法及***。
背景技术
重复记录是指描述现实世界中同一实体的不同形式的记录信息,如来自不同数据源的描述同一套挂牌房源的记录信息。从不同Deep Web数据源抽取出的记录信息可能存在很多重复数据,需要对冗余的数据进行清理,确保数据存储“独有的”的存在,解决了“容量膨胀”所带来的效率问题并为用户提供了高质量的结果记录。从各个网站中抽取出的房源数据信息主要是用XML(Extensible Markup Language,可扩展标记语言)或HTML(HyperText Markup Language,超级文本标记语言)标签描述的半结构化数据以及文本、图像等非结构化数据。因此,传统的基于关系数据的重复记录识别方法并不适用,需要针对不同类型的数据制定相应的相似度计算策略和选择不同的相似度计算方法,进而识别重复记录。
现在重复记录识别研究大多基于相似度进行重复记录识别,先计算字段相似度,然后再依据字段的权重进行加权和计算,之后根据计算所得的记录相似度,把两条记录的相似度和设定的阀值比较或通过模型得出识别结果,但还没有针对挂牌房源的重复识别解决方案。
相关技术公开了一种基于RBF(Radial Basis Function,径向基函数网络)神经网络的重复记录检测方法和***。该***将多条记录进行聚类、分类;字符串相似度算法计算每个记录类中对应字段之间的相似度,得到字段之间相似度的特征向量;对记录进行标签标注;建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,实现RBF神经网络模型的优化。另外相关技术还公开了一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法,该方法包括定义了基于属性类型的相似度函数计算公式,方法通过应用属性权重和检测阈值综合考虑的同步优化策略,将基于相对权重的特征选择方案,属性权重归一化的约束转换策略,以及蚁群算法求解过程中在不同变量间启发式信息的作用平衡策略。
然而,相关技术的重复记录识别方法大都只使用单一的相似度计算方法计算记录相似度,没有根据不同数据类型的数据特性而采用不同的比较方法,不能计算房源数据中大段文本和图片等重要非结构化数据的相似度。而且合适的阈值设定在目前看来仍是一个非常棘手的难题,若阈值设定的过大,就有可能遗漏相似重复的记录,从而降低了算法的匹配率;若阈值设定过小,则有可能将某些非相似重复的记录判断为相似重复记录,导致算法的正确率下降。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于机器学习的房源重复记录识别方法,该方法可以有效提高房源重复记录识别的准确性。
本发明的另一个目的在于提出一种基于机器学习的房源重复记录识别***。
为达到上述目的,本发明一方面实施例提出了一种基于机器学习的房源重复记录识别方法,包括以下步骤:采集房源的房源数据;将所述房源数据输入算法相似度估算器中,以提取所述房源的房源特征;将所述房源特征输入房源重复记录识别模型,以判定所述房源是否重复记录。
本发明实施例的基于机器学习的房源重复记录识别方法,通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
另外,根据本发明上述实施例的基于机器学习的房源重复记录识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
进一步地,在本发明的一个实施例中,所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
进一步地,在本发明的一个实施例中,其中,所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;所述图片相似度估算器通过基于卷积神经网络CNN(Convolutional NeuralNetwork,卷积神经网络)的siamese模型计算图片类型数据的相似度值。
进一步地,在本发明的一个实施例中,所述房源重复记录识别模型通过迭代的决策树算法GBDT(Gradient Boosting Decision Tree,迭代的决策树算法)模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定所述房源是否重复记录。
为达到上述目的,本发明另一方面实施例提出了一种基于机器学习的房源重复记录识别***,包括:房源数据采集模块,用于采集房源的房源数据;相似度估算器模块,用于将所述房源数据输入算法相似度估算器中,以提取所述房源的房源特征;房源重复记录识别模块,用于将所述房源特征输入房源重复记录识别模型,以判定所述房源是否重复记录。
本发明实施例的基于机器学习的房源重复记录识别***,通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
另外,根据本发明上述实施例的基于机器学习的房源重复记录识别***还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
进一步地,在本发明的一个实施例中,所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
进一步地,在本发明的一个实施例中,其中,所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;所述图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。
进一步地,在本发明的一个实施例中,所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定所述房源是否重复记录。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于机器学习的房源重复记录识别方法的流程图;
图2为根据本发明一个具体实施例的基于机器学习的房源重复记录识别方法的流程图;
图3为根据本发明一个具体实施例的基于机器学习的房源重复记录识别方法的功能示意图;
图4为根据本发明一个实施例的基于机器学习的房源重复记录识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别方法及***,首先将参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别方法。
图1是本发明一个实施例的基于机器学习的房源重复记录识别方法的流程图。
如图1所示,该基于机器学习的房源重复记录识别方法包括以下步骤:
在步骤S101中,采集房源的房源数据。
可以理解的是,如图2所示,本发明实施例首先进行房源数据的采集,进行房源数据的训练。
进一步地,在本发明的一个实施例中,房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
具体而言,如图2和图3所示,字符类型的数据包括房源的标题、地址、描述等;数字类型的数据包括房源的面积、楼层、价格、户型等;日期类型的数据包括房源的挂牌时间;图片类型的数据包括房源图片。
在步骤S102中,将房源数据输入算法相似度估算器中,以提取房源的房源特征。
可以理解的是,如图3所示,本发明实施例将房源数据输入到多相似度估算器模块中对应的算法相似度估算器中,从而实现房源的房源特征的提取。本发明实施例考虑本项目业务场景中来自不同数据源挂牌房源的记录信息既包含半结构化数据,也包含大段文本、图片等非结构化数据,从而提出多种相似度算法,针对性地选择最优策略。
在本发明的一个实施例中,算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
进一步地,在本发明的一个实施例中,其中,文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。
具体而言,如图2所示,算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器,下面分别进行详细介绍:
1、文本相似度估算器
文本型相似度估算器主要计算字符类型的数据间的相似度值,在该估算器中我们主要采用了三种匹配算法:编辑距离算法、Jaro距离算法、语义相似度算法。对于房源标题、地址等短文本可以采用编辑距离和Jaro距离匹配算法,对于房源描述等长文本可以采用语义相似度匹配算法。
(1)编辑距离算法
编辑距离又称Levenshtein距离,指利用字符操作,把字符串A转换成字符串B所需要的最少操作数,许可的编辑操作包括将一个字符替换成另一个字符、***一个字符和删除一个字符。
其中distance指字符串1和字符串2的编辑距离,len1和len2分别表示字符串1和字符串2的长度。
(2)Jaro距离算法
Jaro距离是一种基于公共子串的字符串比较方法,两个给定字符串S1和S2的相似度为:
其中m为匹配的字符数,t为换位的数目。
(3)语义相似度算法
本文利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。
word2vec主要采用CBOW(Continuous Bag of Words)和Skip-Gram两种模型。CBOW的目标是根据上下文来预测当前词语的概率,而Skip-Gram恰好相反,它是根据当前词语来预测上下文的概率,这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量,经过训练之后,利用CBOW或者Skip-Gram方法获得每个单词的最优向量,再根据词向量计算两个句子的语义相似度。
2、数值相似度估算器
数值相似度估算器主要计算数字类型数据间的相似度,在该估算器中我们主要采用了三种匹配算法:精确距离算法、范围距离算法、差值距离算法。对于建筑类型、房屋装修情况等编码后的类别数据可以使用精确距离算法,对于房屋面积、价格等基本不同但很贴近的数据可以使用范围距离算法,对于楼层,户型结构等数据可以使用差值距离算法。
(1)精确距离算法
若两个数值型数据完全相同,则相似度为1,否则为0
(2)范围距离算法
对于两个数值数据n1和n2:
其中,指n1和n2的平均数。
(3)差值距离算法
对于两个数值数据n1和n2:
相似度=|n1-n2|。
3、日期相似度估算器
日期相似度估算器用来计算日期类型数据的相似度值,比如挂牌时间等。首先将所有的日期型数据都转换成统一的Unix时间戳形式,对于两个时间戳数据t1和t2:
相似度=|t1-t2|。
4、图片相似度估算器
图片相似度估算器用来计算图片类型数据的相似度值,比如房屋图片等。本文使用基于CNN的siamese模型识别相似图片,siamese曾被用于字迹和人脸识别。Siamese模型利用两个卷积神经网络分别提取两张图片的描述算子,得到特征向量,然后利用两个图片的特征向量判断相似度。
在步骤S103中,将房源特征输入房源重复记录识别模型,以判定房源是否重复记录。
可以理解的是,本发明实施例将相似度估算器提取到的特征输入到房源重复记录识别模型中,从而得到房源是否是重复记录的预测结果。
进一步地,在本发明的一个实施例中,房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定房源是否重复记录。
具体而言,本发明实施例通过使用GBDT模型来整合不同相似度估算器得出的房源各属性值间的相似度,不用人工设定相似度阈值。
其中,GBDT是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案,它具有可以发现多种有区分性的特征以及特征组合的天然优势,在被提出之初就和SVM(Support Vector Machine,支持向量机)一起被认为是泛化能力较强的算法。
如图3所示,基于GBDT的房源重复记录识别模型的输入是两套房源记录的各个属性通过对应相似度估算器计算的相似度值组成的特征向量,输出是是否是重复房源的识别结果。
根据本发明实施例提出的基于机器学习的房源重复记录识别方法,通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
其次参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别***。
图4是本发明一个实施例的基于机器学习的房源重复记录识别***的结构示意图。
如图4所示,该基于机器学习的房源重复记录识别***10包括:房源数据采集模块100、相似度估算器模块200和房源重复记录识别模块300。
其中,房源数据采集模块100用于采集房源的房源数据。相似度估算器模块200用于将房源数据输入算法相似度估算器中,以提取房源的房源特征。房源重复记录识别模块300用于将房源特征输入房源重复记录识别模型,以判定房源是否重复记录。本发明实施例的***10通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
进一步地,在本发明的一个实施例中,房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
进一步地,在本发明的一个实施例中,算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
进一步地,在本发明的一个实施例中,其中,文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。
进一步地,在本发明的一个实施例中,房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定房源是否重复记录。
需要说明的是,前述对基于机器学习的房源重复记录识别方法实施例的解释说明也适用于该实施例的基于机器学习的房源重复记录识别***,此处不再赘述。
根据本发明实施例提出的基于机器学习的房源重复记录识别***,通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度,并通过房源重复记录识别模型自动识别房源重复记录,从而有效提高房源重复记录识别的准确性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于机器学习的房源重复记录识别方法,其特征在于,包括以下步骤:
采集房源的房源数据;
将所述房源数据输入算法相似度估算器中,以提取所述房源的房源特征;以及
将所述房源特征输入房源重复记录识别模型,以判定所述房源是否重复记录。
2.根据权利要求1所述的基于机器学习的房源重复记录识别方法,其特征在于,所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
3.根据权利要求1所述的基于机器学习的房源重复记录识别方法,其特征在于,所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
4.根据权利要求3所述的基于机器学习的房源重复记录识别方法,其特征在于,其中,
所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;
所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;
所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;
所述图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。
5.根据权利要求1所述的基于机器学习的房源重复记录识别方法,其特征在于,所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定所述房源是否重复记录。
6.一种基于机器学习的房源重复记录识别***,其特征在于,包括:
房源数据采集模块,用于采集房源的房源数据;
相似度估算器模块,用于将所述房源数据输入算法相似度估算器中,以提取所述房源的房源特征;以及
房源重复记录识别模块,用于将所述房源特征输入房源重复记录识别模型,以判定所述房源是否重复记录。
7.根据权利要求6所述的基于机器学习的房源重复记录识别***,其特征在于,所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。
8.根据权利要求6所述的基于机器学习的房源重复记录识别***,其特征在于,所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。
9.根据权利要求8所述的基于机器学习的房源重复记录识别***,其特征在于,其中,
所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值;
所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度;
所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值;
所述图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。
10.根据权利要求1所述的基于机器学习的房源重复记录识别***,其特征在于,所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度,以自动判定所述房源是否重复记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810107829.XA CN108427714A (zh) | 2018-02-02 | 2018-02-02 | 基于机器学习的房源重复记录识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810107829.XA CN108427714A (zh) | 2018-02-02 | 2018-02-02 | 基于机器学习的房源重复记录识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108427714A true CN108427714A (zh) | 2018-08-21 |
Family
ID=63156442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810107829.XA Pending CN108427714A (zh) | 2018-02-02 | 2018-02-02 | 基于机器学习的房源重复记录识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427714A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189963A (zh) * | 2018-08-31 | 2019-01-11 | 北京诸葛找房信息技术有限公司 | 一种基于房源信息相似度与图片识别的房源去重方法 |
CN109858024A (zh) * | 2019-01-04 | 2019-06-07 | 中山大学 | 一种基于word2vec的房源词向量训练方法及装置 |
CN110096634A (zh) * | 2019-04-29 | 2019-08-06 | 成都理工大学 | 一种基于粒子群优化的房产数据向量对齐方法 |
CN110222621A (zh) * | 2019-05-30 | 2019-09-10 | 贝壳技术有限公司 | 相似户型检测方法、电子设备及存储介质 |
CN110618888A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 对***错误进行重复识别的方法和相关装置 |
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110807482A (zh) * | 2019-10-30 | 2020-02-18 | 北京创鑫旅程网络技术有限公司 | 相同房源检测方法、装置和存储介质 |
CN111274476A (zh) * | 2020-01-16 | 2020-06-12 | 长春每房科技有限公司 | 基于人脸识别的房源匹配方法、装置、设备和存储介质 |
CN111625549A (zh) * | 2020-04-29 | 2020-09-04 | 中国地质大学(武汉) | 一种不动产登记空间数据户落幢快速模糊匹配方法 |
CN112148945A (zh) * | 2020-09-25 | 2020-12-29 | 一起住好房(北京)网络科技有限公司 | 一种异常房源信息的识别方法 |
CN112232131A (zh) * | 2020-09-18 | 2021-01-15 | 云南省设计院集团有限公司 | 基于计算机视觉的户型特征指标自动提取方法及*** |
CN113326267A (zh) * | 2021-06-24 | 2021-08-31 | 中国科学技术大学智慧城市研究院(芜湖) | 基于倒排索引和神经网络算法的地址匹配方法 |
FR3108195A1 (fr) * | 2020-03-16 | 2021-09-17 | Surfyn | Procédé de classification d’annonces immobilières à l’aide d’apprentissage machine |
CN114781471A (zh) * | 2021-06-02 | 2022-07-22 | 清华大学 | 一种实体记录匹配方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831198A (zh) * | 2012-08-07 | 2012-12-19 | 人民搜索网络股份公司 | 一种基于文档签名技术的相似文档识别装置及方法 |
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
CN105808738A (zh) * | 2016-03-10 | 2016-07-27 | 哈尔滨工程大学 | 基于元搜索引擎搜索结果的去重方法 |
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查***及方法 |
-
2018
- 2018-02-02 CN CN201810107829.XA patent/CN108427714A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831198A (zh) * | 2012-08-07 | 2012-12-19 | 人民搜索网络股份公司 | 一种基于文档签名技术的相似文档识别装置及方法 |
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查***及方法 |
CN105808738A (zh) * | 2016-03-10 | 2016-07-27 | 哈尔滨工程大学 | 基于元搜索引擎搜索结果的去重方法 |
Non-Patent Citations (1)
Title |
---|
刘丽楠: ""Deep_web数据源下重复记录识别模型的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189963A (zh) * | 2018-08-31 | 2019-01-11 | 北京诸葛找房信息技术有限公司 | 一种基于房源信息相似度与图片识别的房源去重方法 |
CN110633381B (zh) * | 2018-12-25 | 2023-04-07 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN109858024A (zh) * | 2019-01-04 | 2019-06-07 | 中山大学 | 一种基于word2vec的房源词向量训练方法及装置 |
CN110096634A (zh) * | 2019-04-29 | 2019-08-06 | 成都理工大学 | 一种基于粒子群优化的房产数据向量对齐方法 |
CN110096634B (zh) * | 2019-04-29 | 2023-02-24 | 成都理工大学 | 一种基于粒子群优化的房产数据向量对齐方法 |
CN110222621A (zh) * | 2019-05-30 | 2019-09-10 | 贝壳技术有限公司 | 相似户型检测方法、电子设备及存储介质 |
CN110222621B (zh) * | 2019-05-30 | 2021-06-11 | 贝壳找房(北京)科技有限公司 | 相似户型检测方法、电子设备及存储介质 |
CN110618888A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 对***错误进行重复识别的方法和相关装置 |
CN110807482A (zh) * | 2019-10-30 | 2020-02-18 | 北京创鑫旅程网络技术有限公司 | 相同房源检测方法、装置和存储介质 |
CN111274476A (zh) * | 2020-01-16 | 2020-06-12 | 长春每房科技有限公司 | 基于人脸识别的房源匹配方法、装置、设备和存储介质 |
FR3108195A1 (fr) * | 2020-03-16 | 2021-09-17 | Surfyn | Procédé de classification d’annonces immobilières à l’aide d’apprentissage machine |
CN111625549A (zh) * | 2020-04-29 | 2020-09-04 | 中国地质大学(武汉) | 一种不动产登记空间数据户落幢快速模糊匹配方法 |
CN111625549B (zh) * | 2020-04-29 | 2023-09-22 | 中国地质大学(武汉) | 一种不动产登记空间数据户落幢快速模糊匹配方法 |
CN112232131B (zh) * | 2020-09-18 | 2021-12-24 | 云南省设计院集团有限公司 | 基于计算机视觉的户型特征指标自动提取方法及*** |
CN112232131A (zh) * | 2020-09-18 | 2021-01-15 | 云南省设计院集团有限公司 | 基于计算机视觉的户型特征指标自动提取方法及*** |
CN112148945A (zh) * | 2020-09-25 | 2020-12-29 | 一起住好房(北京)网络科技有限公司 | 一种异常房源信息的识别方法 |
CN114781471A (zh) * | 2021-06-02 | 2022-07-22 | 清华大学 | 一种实体记录匹配方法及*** |
CN114781471B (zh) * | 2021-06-02 | 2022-12-27 | 清华大学 | 一种实体记录匹配方法及*** |
CN113326267A (zh) * | 2021-06-24 | 2021-08-31 | 中国科学技术大学智慧城市研究院(芜湖) | 基于倒排索引和神经网络算法的地址匹配方法 |
CN113326267B (zh) * | 2021-06-24 | 2023-08-08 | 长三角信息智能创新研究院 | 基于倒排索引和神经网络算法的地址匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427714A (zh) | 基于机器学习的房源重复记录识别方法及*** | |
CN110263180B (zh) | 意图知识图谱生成方法、意图识别方法及装置 | |
CN106250412B (zh) | 基于多源实体融合的知识图谱构建方法 | |
Gatterbauer et al. | Towards domain-independent information extraction from web tables | |
CN104850633B (zh) | 一种基于手绘草图部件分割的三维模型检索***及方法 | |
CN110502621A (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
US20090049062A1 (en) | Method for Organizing Structurally Similar Web Pages from a Web Site | |
CN104834679B (zh) | 一种行为轨迹的表示、查询方法及装置 | |
CN101620615B (zh) | 一种基于决策树学习的自动图像标注与翻译的方法 | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及*** | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
JP3873135B2 (ja) | データ処理方法、これを用いた情報処理システム及びプログラム | |
CN109726274A (zh) | 问题生成方法、装置及存储介质 | |
CN108897778A (zh) | 一种基于多源大数据分析的图像标注方法 | |
CN107436955B (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN102629275A (zh) | 面向跨媒体新闻检索的人脸-人名对齐方法及*** | |
CN102955848A (zh) | 一种基于语义的三维模型检索***和方法 | |
CN108268600A (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和*** | |
CN105677638B (zh) | Web信息抽取方法 | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN107391678A (zh) | 基于聚类的网页内容信息提取方法 | |
CN109885693A (zh) | 基于知识图谱的快速知识对比方法及*** | |
CN104008177B (zh) | 面向图像语义标注的规则库结构优化与生成方法及*** | |
CN114741519A (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180821 |