CN108763570A - 一种识别相同房源的方法及装置 - Google Patents
一种识别相同房源的方法及装置 Download PDFInfo
- Publication number
- CN108763570A CN108763570A CN201810570338.9A CN201810570338A CN108763570A CN 108763570 A CN108763570 A CN 108763570A CN 201810570338 A CN201810570338 A CN 201810570338A CN 108763570 A CN108763570 A CN 108763570A
- Authority
- CN
- China
- Prior art keywords
- houses
- source
- pictures
- characteristic value
- picture set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种识别相同房源的方法及装置,包括:获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片,然后,可以确定该第一图片集合中相似图片的数量,每张相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,如果相似图片的数量大于预设的第一阈值,则可以确定第一房源与第二房源为相同房源。可见,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否相同,这样可以在房源网站上对房源进行去重,从而使得房源网站中不存在具有相同房源信息的房源,进而提高了用户的使用体验。
Description
技术领域
本发明涉及识别技术领域,特别是涉及一种识别相同房源的方法及装置。
背景技术
目前,越来越多的用户选择在房源网站上搜索自己需要购买或者租赁的房源。而房产经纪人(以下简称为经纪人)为了加大宣传其已掌握的房源,经常在房源网站上发布大量的房源信息,并且,不同的经纪人可能会该房源网站上发布同一房源的房源信息,甚至同一经纪人也可能会在该房源网站上多次发布同一房源的房源信息。这样,在用户搜索房源信息时,房源网站向用户呈现的搜索结果中可能会包含大量具有相同房源信息的房源,从而降低了用户在该房源网站上搜索房源的使用体验。
发明内容
本发明解决的技术问题在于提供一种识别相同房源的方法及装置,以去重房源网站上具有相同房源信息的房源,从而提高了用户在房源网站上搜索房源的使用体验。
为此,第一方面,本发明实施例提供了一种识别相同房源的方法,该方法包括:
获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
在一些可能的实施方式中,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
在一些可能的实施方式中,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算得到所述第一图片集合中已下载图片的特征值;
从房源信息库中读取所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述方法还包括:
当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
在一些可能的实施方式中,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述方法还包括:
获取所述第一房源的标识;
根据所述标识,从房源信息库中确定出所述第二房源。
在一些可能的实施方式中,所述方法还包括:
获取第一房源的文字描述信息以及第二房源的文字描述信息;
所述若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源,包括:
若所述相似图片的数量大于预设的第一阈值,且所述第一房源的文字描述信息与所述第二房源的文字描述信息相同,则确定所述第一房源与所述第二房源为相同房源。
第二方面,本发明实施例还提供了一种识别相同房源的装置,该装置包括:
获取单元,用于获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
第一确定单元,用于确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
第二确定单元,用于若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
在一些可能的实施方式中,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
在一些可能的实施方式中,所述获取单元,包括:
下载子单元,用于根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算子单元,用于计算得到所述第一图片集合中已下载图片的特征值;
读取子单元,用于从房源信息库中读取所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述装置还包括:
添加单元,用于当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
在一些可能的实施方式中,所述获取单元,具体用于从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述装置还包括:
标识获取单元,用于获取所述第一房源的标识;
第三确定单元,用于根据所述标识,从房源信息库中确定出所述第二房源。
在一些可能的实施方式中,所述装置还包括:
信息获取单元,用于获取第一房源的文字描述信息以及第二房源的文字描述信息;
所述第二确定单元,具体用于若所述相似图片的数量大于预设的第一阈值,且所述第一房源的文字描述信息与所述第二房源的文字描述信息相同,则确定所述第一房源与所述第二房源为相同房源。
通过上述技术方案可知,本发明有如下有益效果:
本发明实施例中,可以获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,其中,第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片,然后,可以确定该第一图片集合中相似图片的数量,其中,每张相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,如果相似图片的数量大于预设的第一阈值,则可以确定第一房源与第二房源为相同房源。可见,如果两个房源为相同房源,则与这两个房源相关联的图片中相似图片的数量也会很多,因此,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否为相同房源,这样,可以确定经纪人发布某一房源的房源信息,在房源网站上是否已经存在相同房源的房源信息,或者可以用来清理房源网站上已经发布的相同房源的房源信息,从而可以实现去重房源网站上具有相同房源信息的房源,这样使得当用户在该房源网站上搜索房源时,该房源网站所呈现的搜索结果中通常不会存在具有相同房源信息的房源,用户可以在一个显示界面上查看到更多的不同房源的房源信息,进而提高了用户在该房源网站上搜索房源的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种示例性场景示意图;
图2为本发明实施例中一种识别相同房源的方法流程示意图;
图3为本发明实施例中另一种识别相同房源的方法流程示意图;
图4为本发明实施例中一种识别相同房源的装置结构示意图。
具体实施方式
为了给出提高用户在房源网站上搜索房源的使用体验的实现方案,本发明实施例提供了一种识别相同房源的方法及装置,以下结合说明书附图对本发明的部分实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
发明人经研究发现,经纪人通常会在房源网站上发布大量的房源信息,不仅包括有房源的图片信息,如该房源的室内图片、室外图片、户型图片等,还包括该房源的文字描述信息,如该房源所在楼层、窗门朝向、建筑面积等。对于同一房源,不同经纪人可能会在同一房源网站上发布该房源的房源信息,甚至是同一经纪人可能在该房源网站上多次发布该房源的房源信息,这就导致了该房源网站上存在大量相同房源的房源信息。当用户在该房源网站上进行房源搜索时,房源网站所呈现的搜索结果中可能会存在大量具有相同房源信息的房源,这就降低了用户在该房源网站上的使用体验。比如,房源网站在向用户呈现搜索结果时,显示页面上可能全部都是同一房源的房源信息,即,一个显示页面实际上只向用户提供了一个房源的房源信息,而用户如果想要获得其它房源的房源信息,则需要执行诸如点击“下一页”等其它操作来获取更多房源的房源信息,这样不仅降低了用户获取房源信息的效率,而且,用户的使用体验也很差。
为了解决上述问题,本发明实施例提供了一种识别相同房源的方法,以剔除房源网站上具有相同房源信息的房源,从而提高了用户在房源网站上搜索房源的使用体验。具体的,可以获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,其中,第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片,然后,可以确定该第一图片集合中相似图片的数量,其中,每张相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,如果相似图片的数量大于预设的第一阈值,则可以确定第一房源与第二房源为相同房源。
可见,如果两个房源为相同房源,则与这两个房源相关联的图片中相似图片的数量也会很多,因此,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否为相同房源,这样,可以确定经纪人发布某一房源的房源信息,在房源网站上是否已经存在相同房源的房源信息,或者可以用来清理房源网站上已经发布的相同房源的房源信息,从而可以实现去重房源网站上具有相同房源信息的房源,这样使得当用户在该房源网站上搜索房源时,该房源网站所呈现的搜索结果中通常不会存在具有相同房源信息的房源,用户可以在一个显示界面上查看到更多的不同房源的房源信息,进而提高了用户在该房源网站上搜索房源的使用体验。
举例来说,本发明实施例可以应用于如图1所述的示例性场景中。在该场景中,服务器102可以对两个房源是否为相同房源进行判断。具体的,当经纪人想要通过终端101在房源网站上发布待审核房源的房源信息时,终端101可以基于该待审核房源的房源信息生成识别请求,该识别请求中包括与带审核房源相关联的图片,然后,终端101可以将该识别请求发送给服务器102;服务器102响应接收到的识别请求,可以根据该识别请求确定出该房源网站上与待审核房源属于同一类别的参考房源,然后,服务器102可以获取与该参考房源的相关联的图片,并确定与待审核房源相关联的图片中相似图片的数量,该相似图片的特征值和与参考房源相关联的图片中至少一张图片的特征值之间的相似程度达到预设条件,若该相似图片的数量大于预设的第一阈值,则服务器102可以确定该待审核房源与参考房源属于相同房源,并向终端101返回房源网站上存在与待审核房源具有相同房源的识别结果,以使得终端101根据该识别结果,拒绝经纪人在该房源网站上发布该待审核房源的房源信息;若该相似图片的数量不大于预设的第一阈值,则服务器102可以确定该待审核房源与参考房源属于不同房源,并向终端101返回房源网站上不存在与待审核房源具有相同房源的识别结果,以使得终端101根据该识别结果,允许经纪人在该房源网站上发布该待审核房源的房源信息。
可以理解,上述场景仅用于示例性说明,并不用于限定本发明实施例的应用场景,事实上,本发明实施例还可以应用于其它场景,比如,可以在对房源网站上已存在的房源进行查重,剔除房源网站上具有相同房源信息的房源,该查重处理过程可以在服务器上进行实施等。
参阅图2,图2示出了本发明实施例中一种识别相同房源的方法流程示意图,该方法具体可以包括:
S201:获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,该第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片。
可以理解,对于经纪人待发布房源的房源信息或者是房源网站上已发布房源的房源信息,通常都会发布与该房源相关联的图片,比如,可以是该房源客厅、主卧、次卧、储物室等室内图片,也可以是该房源外型、所在小区等室外图片,还可以是表征该房源户型结构的户型图片等。则,可以将这些已发布或者待发布的图片,作为与该房源相关联的图片,进而可以根据与第一房源相关联的图片可以得到第一图片集合,根据与第二房源相关联的图片可以得到第二图片集合。
作为一种获取特征值的示例性具体实现方式,可以预先在本地设置房源信息库,该房源信息库中存储了与房源相关联的每张图片的特征值,这样,当需要获取第一图片集合以及第二图片集合中每张图片的特征值时,可以直接从房源信息库中进行读取即可。
比如,服务器可以针对于房源网站上的每一个房源,预先将与该房源相关联的图片的特征值存储于房源信息库中,当需要对房源网站上已发布的房源进行查重时,如果确定是对第一房源以及第二房源进行识别,则可以直接从房源信息库中读取与第一房源相关联的图片的特征值,以及与第二房源相关联的图片的特征值。
作为另一种获取特征值的示例性具体实施方式,第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,可以是通过不同的路径获取得到。具体的,可以根据第一图片集合中每张图片的网址,从网上下载与该网址对应的图片,然后通过对下载的每张图片进行计算,得到第一图片集合中已下载图片的特征值;并且,可以从预先在本地设置的房源信息库中读取第二图片集合中每张图片的特征值,该房源信息库中存储了与第二房源相关联的每张图片的特征值。
比如,当服务器对经纪人待发布的第一房源的房源信息进行审核时,可以获取与第一房源相关联的每张图片的URL(Uniform Resource Locator,统一资源定位符),然后根据该URL从网上下载该URL对应的图片,然后,通过OpenCV(Open Source Computer VisionLibrary,开源计算机视觉库)来对所下载的图片进行计算,得到每张图片的特征值;而对于房源网站上已发布的第二房源,可以从直接从预先在本地设置的房源信息库中读取与第二房源相关联的每张图片的特征值。
进一步的,当第一房源与第二房源为不同房源时,由于与第一房源相关联的图片和与第二房源相关联的图片通常存在较大差异,因此,其图片的特征值之间也存在较大差异,为了节省计算资源,实际应用中可以将第一图片集合中每张图片的特征值添加至房源信息库中,这样,当再次需要第一图片集合中每张图片的特征值时,就可以不用再次下载第一图片集合中的每张图片,更不用计算出每张图片的特征值,而可以直接从房源信息库中进行读取即可,这样不仅可以避免与第一房源相关联的图片的重复下载,以及对该图片的特征值的重复计算,而且,也可以缩短该图片特征值的获取时间,从而缩短响应时间。
当然,结合上述两种获取特征值的示例性具体实施方式,在又一种获取特征值的示例性具体实施方式中,还可以是查询预先设置的房源信息库中是否存在第一图片集合以及第二图片集合中每张图片的特征值,对于存在特征值的图片,直接从预先设置的房源信息库中进行读取,对于不存在特征值的图片,则可以根据该图片的URL从网上下载该图片,并计算出该图片的特征值。
实际应用中,在识别第一房源与第二房源是否为相同房源时,通常是已知第一房源的情况下,先确定出是否存在与第一房源属于同一类别的第二房源,进而再确定该两个房源是否相同。因此,在一种示例中,可以根据第一房源的标识确定出第二房源。具体的,可以获取第一房源的标识,该标识可以用于标识出第一房源的类别,比如可以是将第一房源的所处地理位置,作为第一房源的标识等,根据获取的第一房源的标识,从房源信息库中查找出具有该标识对应的第二房源,以便于后续确定出第一房源与第二房源是否为相同房源。
S202:确定第一图片集合中相似图片的数量,该相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件。
具体实现时,针对于第一图片集合中每一张图片,可以将该图片的特征值与第二图片集合中每一张图片的特征值进行比对,并判断两张图片的特征值之间的相似程度是否达到预设条件,如果是,则表明这两张图片的特征值相似度很高,也即表明了这两张图片的相似度很高,进而可以将该图片作为相似图片,表示第二图片集合中存在某张图片,与第一图片集合中的该图片相似程度很高;如果第二图片集合中没有一张图片的特征值与该图片的特征值之间的相似程度达到预设条件,则可以确定第二图片集合中不存在与第一图片集合中的该图片相似程度很高的图片。
作为一种示例,可以利用海明距离来确定两张图片之间的特征值的相似程度。具体的,如果两张图片的特征值之间的海明距离没有超过预设的第二阈值,则可以确定这两个特征值之间的差异较小,相似程度较高,也表明了这两张图片的相似程度较高;而如果两张图片的特征值之间的海明距离超过预设的第二阈值,则可以确定这两个特征值之间的差异较大,相似程度较低,也表明了这两张图片的相似程度较低。其中,预设的第二阈值可以根据实际情况的需要进行设定,在此不做限定。
S203:若相似图片的数量大于预设的第一阈值,则确定第一房源与第二房源为相同房源。
可以理解,与第一房源或者第二房源相关联的图片通常不止一张,而如果第一房源与第二房源是相同房源,则与第一房源相关联的图片中,通常会存在较多张图片和与第二房源相关联的图片相同或者相似程度很高,而如果第一房源与第二房源不是同一房源,则这两个房源所对应的图片之间的相似程度较低或者是没有相同的图片。因此,本实施例中可以根据第一图片集合中相似图片的数量判定第一房源与第二房源是否为相同房源,如果相似图片的数量大于预设的第一阈值,则可以确定这两个房源为相同房源,如果相似图片的数量不大于预设的第一阈值,则可以确定这两个房源不是同一房源。其中,预设的第一阈值可以预先根据实际情况进行设定,在此不做限定。
举例来说,假设预设的第一阈值为4,并且,存在6张与第一房源相关联的图片,分别是第一房源的客厅、主卧、次卧、厨房这4张室内图片,1张户型图片,以及1张房源外型的图片,同时,存在7张与第二房源相关联的图片,分别是第一房源的客厅、主卧、次卧、厨房、卫生间这5张室内图片,1张户型图片,以及1张房源外型的图片。如果与第一房源相关联的图片中,存在客厅、主卧、次卧、厨房以及户型这5张图片为相似图片,则表明第一房源与第二房源的客厅、主卧、次卧、厨房以及户型均相同,则此时可以判定第一房源与第二房源为相同房源;而如果与第一房源相同的关联图片中,存在客厅、主卧这2张图片为相似图片,则表明第一房源第二房源之间只有客厅和主卧相同,而诸如次卧、厨房、户型、外型等均不同,则此时可以判定第一房源与第二房源不是同一房源。
需要说明的是,预设的第一阈值可以是预先设定的固定值,但是实际应用中,也可以是根据实际情况进行设定。在一种示例中,预设的第一阈值可以是根据与第一房源相关联的图片的数量进行确定,例如,如果与第一房源的相关联的图片共8张,则预设的第一阈值可以是7、6、5、4等值,而如果与第一房源相关联的图片共有5张,则预设的第一阈值可以是4或者3等;在另一种示例中,预设的第一阈值可以是根据预先设定的比例系数,和与第一房源和第二房源相关联的图片平均值的乘积进行确定。例如,假设预先设定的比例系数为0.5,如果与第一房源相关联的图片数量为12张,与第二房源相关联的图片数量为8张,则预设的第一阈值为0.5*((12+8)/2),即为5。
本实施例中,可以获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,其中,第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片,然后,可以确定该第一图片集合中相似图片的数量,其中,每张相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,如果相似图片的数量大于预设的第一阈值,则可以确定第一房源与第二房源为相同房源。可见,如果两个房源为相同房源,则与这两个房源相关联的图片中相似图片的数量也会很多,因此,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否为相同房源,这样,可以确定经纪人所述发布某一房源的房源信息,在房源网站上是否已经存在相同房源的房源信息,或者可以用来清理房源网站上已经发布的相同房源的房源信息,从而可以实现去重房源网站上具有相同房源信息的房源,这样使得当用户在该房源网站上搜索房源时,该房源网站所呈现的搜索结果中通常不会存在具有相同房源信息的房源,用户可以在一个显示界面上查看到更多的不同房源的房源信息,进而提高了用户在该房源网站上搜索房源的使用体验。
实际应用中,不仅仅可以根据与房源相关联的图片判断两个房源是否为相同房源,还可以结合房源的文字描述信息作进一步判定。具体的,参阅图3,图3示出了本发明实施例中一种识别相同房源的方法流程示意图,该方法可以包括:
S301:获取第一房源的文字描述信息以及第二房源的文字描述信息。
可以理解,经纪人在房源网站上所发布的房源信息中,通常会包括该房源的文字描述信息,比如包括该房源的建筑面积、地理位置、朝向、售价、小区名称等文字描述信息,如果第一房源与第二房源为相同房源,则这两个房源的文字描述信息通常也相同,而如果第一房源与第二房源不是同一房源,则这两个房源的文字描述信息通常也会存在差异,因此,根据该第一房源的文字描述信息以及第二房源的文字描述信息,也可以用于确定第一房源与第二房源是否为相同房源。
S302:获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,该第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片。
S303:确定第一图片集合中相似图片的数量,该相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件。
本实施例中,步骤S302与步骤S303的实施方式,与上一实施例中步骤S201与S202的实施方式类似,具体实现时可参照上一实施例中的相关之处描述即可,在此不做赘述。
S304:若相似图片的数量大于预设的第一阈值,并且第一房源的文字描述信息与第二房源的文字描述信息相同,则确定第一房源与第二房源为相同房源。
可以理解,如果第一房源与第二房源为相同房源,则不仅与这两个房源相关联的图片中相同或者相似程度较高的图片数量较高,而且,这两个房源的文字描述信息通常也会相同,因此,本实施例中,可以是在相似图片的数量大于预设的第一阈值,并且,这两个房源的文字描述信息也相同时,才确定第一房源与第二房源为相同房源,从而可以增加判定两个房源是否为相同房源的准确性。
本实施例中,通过结合相似图片的数量以及两个房源的文字描述信息,来判定第一房源与第二房源是否为相同房源,这样,可以确定经纪人所要发布某一房源的房源信息,在房源网站上是否已经存在相同房源的房源信息,或者可以用来清理房源网站上已经发布的相同房源的房源信息,从而可以实现去重房源网站上具有相同房源信息的房源,这样使得当用户在该房源网站上搜索房源时,该房源网站所呈现的搜索结果中通常不会存在具有相同房源信息的房源,用户可以在一个显示界面上查看到更多的不同房源的房源信息,进而提高了用户在该房源网站上搜索房源的使用体验。
此外,本发明实施例还提供了一种识别相同房源的装置实施例。参阅图4,图4示出了本发明实施例中一种识别相同房源的装置结构示意图,该装置400具体可以包括:
获取单元401,用于获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
第一确定单元402,用于确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
第二确定单元403,用于若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
在一些可能的实施方式中,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
在一些可能的实施方式中,所述获取单元401,包括:
下载子单元,用于根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算子单元,用于计算得到所述第一图片集合中已下载图片的特征值;
读取子单元,用于从房源信息库中读取所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述装置400还包括:
添加单元,用于当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
在一些可能的实施方式中,所述获取单元401,具体用于从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述装置400还包括:
标识获取单元,用于获取所述第一房源的标识;
第三确定单元,用于根据所述标识,从房源信息库中确定出所述第二房源。
在一些可能的实施方式中,所述装置400还包括:
信息获取单元,用于获取第一房源的文字描述信息以及第二房源的文字描述信息;
所述第二确定单元402,具体用于若所述相似图片的数量大于预设的第一阈值,且所述第一房源的文字描述信息与所述第二房源的文字描述信息相同,则确定所述第一房源与所述第二房源为相同房源。
本实施例中,如果两个房源为相同房源,则与这两个房源相关联的图片中相似图片的数量也会很多,因此,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否为相同房源,这样,可以确定经纪人所要发布某一房源的房源信息,在房源网站上是否已经存在相同房源的房源信息,或者可以用来清理房源网站上已经发布的相同房源的房源信息,从而可以实现去重房源网站上具有相同房源信息的房源,这样使得当用户在该房源网站上搜索房源时,该房源网站所呈现的搜索结果中通常不会存在具有相同房源信息的房源,用户可以在一个显示界面上查看到更多的不同房源的房源信息,进而提高了用户在该房源网站上搜索房源的使用体验。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每张实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种识别相同房源的方法,其特征在于,所述方法包括:
获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
2.根据权利要求1所述的方法,其特征在于,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
3.根据权利要求1所述的方法,其特征在于,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算得到所述第一图片集合中已下载图片的特征值;
从房源信息库中读取所述第二图片集合中每张图片的特征值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
5.根据权利要求1所述的方法,其特征在于,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一房源的标识;
根据所述标识,从房源信息库中确定出所述第二房源。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一房源的文字描述信息以及第二房源的文字描述信息;
所述若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源,包括:
若所述相似图片的数量大于预设的第一阈值,且所述第一房源的文字描述信息与所述第二房源的文字描述信息相同,则确定所述第一房源与所述第二房源为相同房源。
8.一种识别相同房源的装置,其特征在于,所述装置包括:
获取单元,用于获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
第一确定单元,用于确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
第二确定单元,用于若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
9.根据权利要求8所述的装置,其特征在于,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
10.根据权利要求8述的装置,其特征在于,所述获取单元,包括:
下载子单元,用于根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算子单元,用于计算得到所述第一图片集合中已下载图片的特征值;
读取子单元,用于从房源信息库中读取所述第二图片集合中每张图片的特征值。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
添加单元,用于当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
12.根据权利要求8所述的装置,其特征在于,所述获取单元,具体用于从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
标识获取单元,用于获取所述第一房源的标识;
第三确定单元,用于根据所述标识,从房源信息库中确定出所述第二房源。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
信息获取单元,用于获取第一房源的文字描述信息以及第二房源的文字描述信息;
所述第二确定单元,具体用于若所述相似图片的数量大于预设的第一阈值,且所述第一房源的文字描述信息与所述第二房源的文字描述信息相同,则确定所述第一房源与所述第二房源为相同房源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810570338.9A CN108763570A (zh) | 2018-06-05 | 2018-06-05 | 一种识别相同房源的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810570338.9A CN108763570A (zh) | 2018-06-05 | 2018-06-05 | 一种识别相同房源的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763570A true CN108763570A (zh) | 2018-11-06 |
Family
ID=63999981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810570338.9A Pending CN108763570A (zh) | 2018-06-05 | 2018-06-05 | 一种识别相同房源的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763570A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948644A (zh) * | 2019-01-21 | 2019-06-28 | 深圳壹账通智能科技有限公司 | 一种相似房源数据检测方法、装置及终端设备 |
CN109977287A (zh) * | 2019-03-28 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 一种不同信息源的房产数据同一性判别方法 |
CN110083733A (zh) * | 2019-03-16 | 2019-08-02 | 平安城市建设科技(深圳)有限公司 | 图片审核方法、装置、设备及计算机可读存储介质 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110633383A (zh) * | 2019-09-12 | 2019-12-31 | 北京无限光场科技有限公司 | 一种重复房源的识别方法、装置、电子设备及可读介质 |
CN110807482A (zh) * | 2019-10-30 | 2020-02-18 | 北京创鑫旅程网络技术有限公司 | 相同房源检测方法、装置和存储介质 |
CN111259966A (zh) * | 2020-01-17 | 2020-06-09 | 青梧桐有限责任公司 | 多特征融合的同名小区辨别方法及*** |
CN111260445A (zh) * | 2020-01-20 | 2020-06-09 | 北京无限光场科技有限公司 | 房源信息展示方法、装置、终端及存储介质 |
CN111383032A (zh) * | 2020-02-12 | 2020-07-07 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
CN111552869A (zh) * | 2020-03-31 | 2020-08-18 | 北京城市网邻信息技术有限公司 | 一种房源信息显示方法和装置 |
CN111737599A (zh) * | 2020-05-07 | 2020-10-02 | 北京城市网邻信息技术有限公司 | 一种房源对象的验证方法和装置 |
CN112699289A (zh) * | 2020-12-30 | 2021-04-23 | 上海瑞家信息技术有限公司 | 房源信息聚合展示方法、装置、电子设备和计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919591A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 网站的产品展示方法及装置 |
CN107480203A (zh) * | 2017-07-23 | 2017-12-15 | 北京中科火眼科技有限公司 | 一种针对相同及相似图片去重的图像数据清洗方法 |
CN107516105A (zh) * | 2017-07-20 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 图像处理方法及装置 |
-
2018
- 2018-06-05 CN CN201810570338.9A patent/CN108763570A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919591A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 网站的产品展示方法及装置 |
CN107516105A (zh) * | 2017-07-20 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 图像处理方法及装置 |
CN107480203A (zh) * | 2017-07-23 | 2017-12-15 | 北京中科火眼科技有限公司 | 一种针对相同及相似图片去重的图像数据清洗方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110633381B (zh) * | 2018-12-25 | 2023-04-07 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110618982B (zh) * | 2018-12-26 | 2022-09-30 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN109948644A (zh) * | 2019-01-21 | 2019-06-28 | 深圳壹账通智能科技有限公司 | 一种相似房源数据检测方法、装置及终端设备 |
CN110083733A (zh) * | 2019-03-16 | 2019-08-02 | 平安城市建设科技(深圳)有限公司 | 图片审核方法、装置、设备及计算机可读存储介质 |
CN109977287A (zh) * | 2019-03-28 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 一种不同信息源的房产数据同一性判别方法 |
CN110633383A (zh) * | 2019-09-12 | 2019-12-31 | 北京无限光场科技有限公司 | 一种重复房源的识别方法、装置、电子设备及可读介质 |
CN110807482A (zh) * | 2019-10-30 | 2020-02-18 | 北京创鑫旅程网络技术有限公司 | 相同房源检测方法、装置和存储介质 |
CN111259966A (zh) * | 2020-01-17 | 2020-06-09 | 青梧桐有限责任公司 | 多特征融合的同名小区辨别方法及*** |
CN111260445A (zh) * | 2020-01-20 | 2020-06-09 | 北京无限光场科技有限公司 | 房源信息展示方法、装置、终端及存储介质 |
CN111383032A (zh) * | 2020-02-12 | 2020-07-07 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
CN111383032B (zh) * | 2020-02-12 | 2023-11-14 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
CN111552869A (zh) * | 2020-03-31 | 2020-08-18 | 北京城市网邻信息技术有限公司 | 一种房源信息显示方法和装置 |
CN111737599A (zh) * | 2020-05-07 | 2020-10-02 | 北京城市网邻信息技术有限公司 | 一种房源对象的验证方法和装置 |
CN112699289A (zh) * | 2020-12-30 | 2021-04-23 | 上海瑞家信息技术有限公司 | 房源信息聚合展示方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763570A (zh) | 一种识别相同房源的方法及装置 | |
CN107968818B (zh) | 数据的存储方法、装置及服务器集群 | |
JP2002527806A (ja) | デジタル化された製品を条件付きで配信するためのワイド・エリア・ネットワーク内でリモート・コンピュータを配置する領域の決定 | |
CN109087163A (zh) | 信用评估的方法及装置 | |
CN105302845A (zh) | 数据信息交易方法和*** | |
JP2019512806A5 (zh) | ||
JP2005135071A (ja) | 商品購入における信頼値の算出方法及び装置 | |
KR101762888B1 (ko) | 유사가격권 및 실거래가격을 이용한 부동산 시세 산정 시스템 및 방법 | |
CN108416630A (zh) | 一种目标受众的确定方法及装置 | |
CN110083762A (zh) | 房源搜索方法、装置、设备及计算机可读存储介质 | |
WO2010096986A1 (zh) | 移动搜索方法及装置 | |
US20150154228A1 (en) | Hierarchical spatial clustering of photographs | |
CN106682146B (zh) | 一种根据关键词检索景区评价的方法及*** | |
WO2018227931A1 (zh) | 信息判断方法及装置 | |
US20170236224A1 (en) | Identifying Points of Interest | |
CN110750238B (zh) | 确定产品需求的方法及装置和电子设备 | |
CN106997340A (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
CN108255874A (zh) | 一种用于提供开放api搜索结果的方法与设备 | |
CN113849731B (zh) | 基于自然语言处理的信息推送方法、装置、设备及介质 | |
CN111915679B (zh) | 一种基于楼层的目标点位确定方法、装置和设备 | |
CN112395486A (zh) | 一种宽带业务推荐方法、***、服务器和存储介质 | |
CA3036869A1 (en) | View scores | |
CN113706222B (zh) | 一种门店选址的方法、装置 | |
JPWO2004027668A1 (ja) | 不動産共同購入マッチングシステム | |
CN106157193A (zh) | 房屋物件的快售服务*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |