CN108427714A

CN108427714A - 基于机器学习的房源重复记录识别方法及***

Info

Publication number: CN108427714A
Application number: CN201810107829.XA
Authority: CN
Inventors: 鄂海红; 宋美娜; 王昕睿; 王宁; 詹泽诚; 赵文骏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-21

Abstract

本发明公开了一种基于机器学习的房源重复记录识别方法及***，其中，方法包括以下步骤：采集房源的房源数据；将房源数据输入算法相似度估算器中，以提取房源的房源特征；将房源特征输入房源重复记录识别模型，以判定房源是否重复记录。该方法通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

Description

基于机器学习的房源重复记录识别方法及***

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于机器学习的房源重复记录识别方法及***。

背景技术

重复记录是指描述现实世界中同一实体的不同形式的记录信息,如来自不同数据源的描述同一套挂牌房源的记录信息。从不同Deep Web数据源抽取出的记录信息可能存在很多重复数据,需要对冗余的数据进行清理,确保数据存储“独有的”的存在，解决了“容量膨胀”所带来的效率问题并为用户提供了高质量的结果记录。从各个网站中抽取出的房源数据信息主要是用XML(Extensible Markup Language，可扩展标记语言)或HTML(HyperText Markup Language，超级文本标记语言)标签描述的半结构化数据以及文本、图像等非结构化数据。因此，传统的基于关系数据的重复记录识别方法并不适用，需要针对不同类型的数据制定相应的相似度计算策略和选择不同的相似度计算方法,进而识别重复记录。

现在重复记录识别研究大多基于相似度进行重复记录识别，先计算字段相似度，然后再依据字段的权重进行加权和计算，之后根据计算所得的记录相似度，把两条记录的相似度和设定的阀值比较或通过模型得出识别结果，但还没有针对挂牌房源的重复识别解决方案。

相关技术公开了一种基于RBF(Radial Basis Function，径向基函数网络)神经网络的重复记录检测方法和***。该***将多条记录进行聚类、分类；字符串相似度算法计算每个记录类中对应字段之间的相似度，得到字段之间相似度的特征向量；对记录进行标签标注；建立RBF神经网络模型，并根据减聚类算法对特征向量进行聚类，得到的聚类中心个数，将聚类中心个数作为RBF神经网络模型的隐层节点个数；对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点，实现RBF神经网络模型的优化。另外相关技术还公开了一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，该方法包括定义了基于属性类型的相似度函数计算公式,方法通过应用属性权重和检测阈值综合考虑的同步优化策略,将基于相对权重的特征选择方案,属性权重归一化的约束转换策略,以及蚁群算法求解过程中在不同变量间启发式信息的作用平衡策略。

然而，相关技术的重复记录识别方法大都只使用单一的相似度计算方法计算记录相似度,没有根据不同数据类型的数据特性而采用不同的比较方法，不能计算房源数据中大段文本和图片等重要非结构化数据的相似度。而且合适的阈值设定在目前看来仍是一个非常棘手的难题，若阈值设定的过大，就有可能遗漏相似重复的记录，从而降低了算法的匹配率；若阈值设定过小，则有可能将某些非相似重复的记录判断为相似重复记录，导致算法的正确率下降。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于机器学习的房源重复记录识别方法，该方法可以有效提高房源重复记录识别的准确性。

本发明的另一个目的在于提出一种基于机器学习的房源重复记录识别***。

为达到上述目的，本发明一方面实施例提出了一种基于机器学习的房源重复记录识别方法，包括以下步骤：采集房源的房源数据；将所述房源数据输入算法相似度估算器中，以提取所述房源的房源特征；将所述房源特征输入房源重复记录识别模型，以判定所述房源是否重复记录。

本发明实施例的基于机器学习的房源重复记录识别方法，通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

另外，根据本发明上述实施例的基于机器学习的房源重复记录识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。

进一步地，在本发明的一个实施例中，所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。

进一步地，在本发明的一个实施例中，其中，所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值；所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度；所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值；所述图片相似度估算器通过基于卷积神经网络CNN(Convolutional NeuralNetwork，卷积神经网络)的siamese模型计算图片类型数据的相似度值。

进一步地，在本发明的一个实施例中，所述房源重复记录识别模型通过迭代的决策树算法GBDT(Gradient Boosting Decision Tree，迭代的决策树算法)模型整合不同相似度估算器得出的房源各属性值间的相似度，以自动判定所述房源是否重复记录。

为达到上述目的，本发明另一方面实施例提出了一种基于机器学习的房源重复记录识别***，包括：房源数据采集模块，用于采集房源的房源数据；相似度估算器模块，用于将所述房源数据输入算法相似度估算器中，以提取所述房源的房源特征；房源重复记录识别模块，用于将所述房源特征输入房源重复记录识别模型，以判定所述房源是否重复记录。

本发明实施例的基于机器学习的房源重复记录识别***，通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

另外，根据本发明上述实施例的基于机器学习的房源重复记录识别***还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，其中，所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值；所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度；所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值；所述图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。

进一步地，在本发明的一个实施例中，所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度，以自动判定所述房源是否重复记录。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于机器学习的房源重复记录识别方法的流程图；

图2为根据本发明一个具体实施例的基于机器学习的房源重复记录识别方法的流程图；

图3为根据本发明一个具体实施例的基于机器学习的房源重复记录识别方法的功能示意图；

图4为根据本发明一个实施例的基于机器学习的房源重复记录识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别方法及***，首先将参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别方法。

图1是本发明一个实施例的基于机器学习的房源重复记录识别方法的流程图。

如图1所示，该基于机器学习的房源重复记录识别方法包括以下步骤：

在步骤S101中，采集房源的房源数据。

可以理解的是，如图2所示，本发明实施例首先进行房源数据的采集，进行房源数据的训练。

进一步地，在本发明的一个实施例中，房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。

具体而言，如图2和图3所示，字符类型的数据包括房源的标题、地址、描述等；数字类型的数据包括房源的面积、楼层、价格、户型等；日期类型的数据包括房源的挂牌时间；图片类型的数据包括房源图片。

在步骤S102中，将房源数据输入算法相似度估算器中，以提取房源的房源特征。

可以理解的是，如图3所示，本发明实施例将房源数据输入到多相似度估算器模块中对应的算法相似度估算器中，从而实现房源的房源特征的提取。本发明实施例考虑本项目业务场景中来自不同数据源挂牌房源的记录信息既包含半结构化数据，也包含大段文本、图片等非结构化数据，从而提出多种相似度算法，针对性地选择最优策略。

在本发明的一个实施例中，算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。

进一步地，在本发明的一个实施例中，其中，文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值；数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度；日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值；图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。

具体而言，如图2所示，算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器，下面分别进行详细介绍：

1、文本相似度估算器

文本型相似度估算器主要计算字符类型的数据间的相似度值，在该估算器中我们主要采用了三种匹配算法：编辑距离算法、Jaro距离算法、语义相似度算法。对于房源标题、地址等短文本可以采用编辑距离和Jaro距离匹配算法，对于房源描述等长文本可以采用语义相似度匹配算法。

(1)编辑距离算法

编辑距离又称Levenshtein距离，指利用字符操作，把字符串A转换成字符串B所需要的最少操作数，许可的编辑操作包括将一个字符替换成另一个字符、***一个字符和删除一个字符。

其中distance指字符串1和字符串2的编辑距离，len1和len2分别表示字符串1和字符串2的长度。

(2)Jaro距离算法

Jaro距离是一种基于公共子串的字符串比较方法，两个给定字符串S1和S2的相似度为:

其中m为匹配的字符数，t为换位的数目。

(3)语义相似度算法

本文利用word2vec模型将对句子的处理简化为向量空间中的向量运算，采用向量空间上的相似度表示句子语义上的相似度。

word2vec主要采用CBOW(Continuous Bag of Words)和Skip-Gram两种模型。CBOW的目标是根据上下文来预测当前词语的概率，而Skip-Gram恰好相反，它是根据当前词语来预测上下文的概率，这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个随机N维向量，经过训练之后，利用CBOW或者Skip-Gram方法获得每个单词的最优向量，再根据词向量计算两个句子的语义相似度。

2、数值相似度估算器

数值相似度估算器主要计算数字类型数据间的相似度，在该估算器中我们主要采用了三种匹配算法：精确距离算法、范围距离算法、差值距离算法。对于建筑类型、房屋装修情况等编码后的类别数据可以使用精确距离算法，对于房屋面积、价格等基本不同但很贴近的数据可以使用范围距离算法，对于楼层，户型结构等数据可以使用差值距离算法。

(1)精确距离算法

若两个数值型数据完全相同，则相似度为1，否则为0

(2)范围距离算法

对于两个数值数据n1和n2：

其中，指n1和n2的平均数。

(3)差值距离算法

对于两个数值数据n1和n2：

相似度＝|n1-n2|。

3、日期相似度估算器

日期相似度估算器用来计算日期类型数据的相似度值，比如挂牌时间等。首先将所有的日期型数据都转换成统一的Unix时间戳形式，对于两个时间戳数据t1和t2：

相似度＝|t1-t2|。

4、图片相似度估算器

图片相似度估算器用来计算图片类型数据的相似度值，比如房屋图片等。本文使用基于CNN的siamese模型识别相似图片，siamese曾被用于字迹和人脸识别。Siamese模型利用两个卷积神经网络分别提取两张图片的描述算子，得到特征向量，然后利用两个图片的特征向量判断相似度。

在步骤S103中，将房源特征输入房源重复记录识别模型，以判定房源是否重复记录。

可以理解的是，本发明实施例将相似度估算器提取到的特征输入到房源重复记录识别模型中，从而得到房源是否是重复记录的预测结果。

进一步地，在本发明的一个实施例中，房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度，以自动判定房源是否重复记录。

具体而言，本发明实施例通过使用GBDT模型来整合不同相似度估算器得出的房源各属性值间的相似度，不用人工设定相似度阈值。

其中，GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案，它具有可以发现多种有区分性的特征以及特征组合的天然优势，在被提出之初就和SVM(Support Vector Machine，支持向量机)一起被认为是泛化能力较强的算法。

如图3所示，基于GBDT的房源重复记录识别模型的输入是两套房源记录的各个属性通过对应相似度估算器计算的相似度值组成的特征向量，输出是是否是重复房源的识别结果。

根据本发明实施例提出的基于机器学习的房源重复记录识别方法，通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

其次参照附图描述根据本发明实施例提出的基于机器学习的房源重复记录识别***。

图4是本发明一个实施例的基于机器学习的房源重复记录识别***的结构示意图。

如图4所示，该基于机器学习的房源重复记录识别***10包括：房源数据采集模块100、相似度估算器模块200和房源重复记录识别模块300。

其中，房源数据采集模块100用于采集房源的房源数据。相似度估算器模块200用于将房源数据输入算法相似度估算器中，以提取房源的房源特征。房源重复记录识别模块300用于将房源特征输入房源重复记录识别模型，以判定房源是否重复记录。本发明实施例的***10通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

进一步地，在本发明的一个实施例中，算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。

需要说明的是，前述对基于机器学习的房源重复记录识别方法实施例的解释说明也适用于该实施例的基于机器学习的房源重复记录识别***，此处不再赘述。

根据本发明实施例提出的基于机器学习的房源重复记录识别***，通过结合多种相似度估算器和多种算法计算记录间各种类型数据的相似度，并通过房源重复记录识别模型自动识别房源重复记录，从而有效提高房源重复记录识别的准确性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于机器学习的房源重复记录识别方法，其特征在于，包括以下步骤：

采集房源的房源数据；

将所述房源数据输入算法相似度估算器中，以提取所述房源的房源特征；以及

将所述房源特征输入房源重复记录识别模型，以判定所述房源是否重复记录。

2.根据权利要求1所述的基于机器学习的房源重复记录识别方法，其特征在于，所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。

3.根据权利要求1所述的基于机器学习的房源重复记录识别方法，其特征在于，所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。

4.根据权利要求3所述的基于机器学习的房源重复记录识别方法，其特征在于，其中，

所述文本型相似度估算器通过编辑距离算法、Jaro距离算法、语义相似度算法中的任一种计算字符类型的数据间的相似度值；

所述数值相似度估算器通过精确距离算法、范围距离算法、差值距离算法的任一种计算数字类型数据间的相似度；

所述日期相似度估算器通过日期相似度公式计算日期类型数据的相似度值；

所述图片相似度估算器通过基于卷积神经网络CNN的siamese模型计算图片类型数据的相似度值。

5.根据权利要求1所述的基于机器学习的房源重复记录识别方法，其特征在于，所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度，以自动判定所述房源是否重复记录。

6.一种基于机器学习的房源重复记录识别***，其特征在于，包括：

房源数据采集模块，用于采集房源的房源数据；

相似度估算器模块，用于将所述房源数据输入算法相似度估算器中，以提取所述房源的房源特征；以及

房源重复记录识别模块，用于将所述房源特征输入房源重复记录识别模型，以判定所述房源是否重复记录。

7.根据权利要求6所述的基于机器学习的房源重复记录识别***，其特征在于，所述房源数据包括房源的标题、地址、描述、面积、楼层、价格、户型、挂牌时间、房源图片的一种或多种。

8.根据权利要求6所述的基于机器学习的房源重复记录识别***，其特征在于，所述算法相似度估算器包括文本型相似度估算器、数值相似度估算器、日期相似度估算器和图片相似度估算器的一种或多种。

9.根据权利要求8所述的基于机器学习的房源重复记录识别***，其特征在于，其中，

10.根据权利要求1所述的基于机器学习的房源重复记录识别***，其特征在于，所述房源重复记录识别模型通过迭代的决策树算法GBDT模型整合不同相似度估算器得出的房源各属性值间的相似度，以自动判定所述房源是否重复记录。