CN108304482A - 经纪人的识别方法及装置、电子设备和可读存储介质 - Google Patents
经纪人的识别方法及装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN108304482A CN108304482A CN201711478995.2A CN201711478995A CN108304482A CN 108304482 A CN108304482 A CN 108304482A CN 201711478995 A CN201711478995 A CN 201711478995A CN 108304482 A CN108304482 A CN 108304482A
- Authority
- CN
- China
- Prior art keywords
- community
- user
- customer relationship
- broker
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 239000004744 fabric Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种经纪人的识别方法及装置、电子设备和可读存储介质。该方法包括:获取在预设时间内的用户发帖日志和每一个日志的实体信息,根据所有日志的实体信息构建用户关系网络,用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识;根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。从而提高了识别准确率和识别效率。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种经纪人的识别方法及装置、电子设备和可读存储介质。
背景技术
现如今,房屋出租信息、二手房信息和二手车信息等被发布在各类网页或相关应用程序(APP)上,房屋出租信息或二手房信息等可以是私人发布的,也可以是经纪人(即中介)发布的。
以房屋出租信息为例,如何从发布的房屋出租信息中识别出该房屋出租信息的发布用户是经纪人,现有的一种经纪人的识别方法是:若一用户发布房源数量大于预设阈值且该用户在超过N个区域发布房屋出租信息,N为预设值,则判定该用户是经纪人。然而,在用户发布房屋出租信息时需要用户填写用户身份,会有一部分私人用户随机填写身份导致信息不准确,也有一部分经纪人故意隐瞒经纪人身份以吸引流量。
因此,根据上述识别方法会漏掉一部分使用多个账户发布房源的经纪人,同时,由于房源分布区域的设定值N难以合理设定,使得对于经纪人的识别准确性不高。
发明内容
本发明实施例提供一种经纪人的识别方法及装置、电子设备和可读存储介质,以提高经纪人识别的准确性。
第一方面,本发明实施例提供一种经纪人的识别方法,包括:
获取在预设时间内的用户发帖日志和每一个日志的实体信息;
根据所有日志的实体信息构建用户关系网络,所述用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;
使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为所述用户关系网络中每一个顶点的社区标识;
根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
可选的,所述根据所有日志的实体信息构建用户关系网络,包括:
根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;
以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
可选的,所述使用社区发现算法对用户关系网络进行划分,得到社区发现结果,包括:
以所述用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
可选的,所述根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,包括:
根据社区发现结果确定出满足预设条件的目标社区;
若所述目标社区中发布房产信息的用户数目大于N,则判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
可选的,所述确定出满足预设条件的目标社区,包括:
统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区;
确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区;
或者,
统计属于同一社区的所有用户所发布的房源数目总和;
确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为所述目标社区。
第二方面,本发明实施例提供一种经纪人的识别装置,包括:
获取模块,用于获取在预设时间内的用户发帖日志和每一个日志的实体信息;
构建模块,用于根据所有日志的实体信息构建用户关系网络,所述用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;
划分模块,用于使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为所述用户关系网络中每一个顶点的社区标识;
识别模块,用于根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
可选的,所述构建模块用于:
根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;
以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
可选的,所述划分模块用于:
以所述用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
可选的,所述识别模块包括:
确定单元,用于根据社区发现结果确定出满足预设条件的目标社区;
判定单元,用于在所述目标社区中发布房产信息的用户数目大于N时,判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
可选的,所述确定单元用于:
统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区;
确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区;
或者,
统计属于同一社区的所有用户所发布的房源数目总和;
确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为所述目标社区。
第三方面,本发明实施例提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面的经纪人的识别方法。
第四方面,本发明实施例提供一种可读存储介质,可读存储介质中存储有计算机程序,当经纪人的识别装置的至少一个处理器执行该计算机程序时,经纪人的识别装置执行第一方面的经纪人的识别方法。
第五方面,本发明实施例提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。经纪人的识别装置的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得经纪人的识别装置实施第一方面的经纪人的识别方法。
本发明实施例提供的经纪人的识别方法及装置、电子设备和可读存储介质,通过获取在预设时间内的用户发帖日志和每一个日志的实体信息,对用户标识、电话号码和发日志所使用的电子设备等多个维度的用户实体信息进行整合,使用实体信息(顶点表)和用户标识与实体信息之间的关联关系(边表)对用户关系网络进行建模,可以利用多个维度的数据进行分析,最后使用社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,可以准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种经纪人的识别方法的流程图;
图2为本发明实施例提供的另一种经纪人的识别方法的流程图;
图3为本发明实施例提供的另一种经纪人的识别方法的流程图;
图4为本发明实施例提供的一种经纪人的识别装置的结构示意图;
图5为本发明实施例提供的另一种经纪人的识别装置的结构示意图;
图6为本发明实施例提供的另一种经纪人的识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
现有的经纪人的识别方法是通过判定用户发布房源数量大于预设阈值且用户在超过N个区域发布房屋出租信息,则判定该用户是经纪人,但是上述识别方法会漏掉一部分使用多个账户发布房源的经纪人,同时房源分布区域的设定值N难以合理设定,识别的准确性不高。为提高经纪人识别的准确性,本申请中通过获取预设时间段内的用户发帖日志和每一个日志的实体信息,根据每一个日志的实体信息构建用户关系网络,利用SparkGraphX和社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。下面结合附图详细说明本申请的技术方案。
首先,下面对本发明实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、社区发现:社区反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系,研究网络中的社区对理解整个网络的结构和功能起到至关重要的作用,并且可帮助分析及预测整个网络各元素间的交互关系。
2、Fast-unfolding算法:是一种社区发现算法,其基于模块度优化的理论,将输入的图数据划分为大量的社区,同一个社区中的用户相互之间密切关联,社区发现算法对图中的每一个节点赋予一个标识(ID),相同的ID表明其在同一个社区。
3、Spark GraphX:Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了对分布式图处理的需求。众所周知,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博、微信,这些都是大数据产生的地方,都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理,Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理***。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对图进行并行计算。
图1为本发明实施例提供的一种经纪人的识别方法的流程图,本实施例的执行主体可以为任一具有执行经纪人的识别方法的功能的设备,可选的,该设备可以是处理器,如图1所示,本实施例的方法可以包括:
S101、获取在预设时间内的用户发帖日志和每一个日志的实体信息。
具体来说,预设时间例如为一个月、三个月或半年等。实体信息例如包括用户标识、电话号码和发日志所使用的电子设备标识,用户标识、电话号码和发日志所使用的电子设备标识均为一实体信息,实体信息还可以为其他与用户相关的信息,例如支付信息,支付信息为使用微信支付、支付宝支付或银行卡支付等。其中的用户标识用于表示用户身份,发日志所使用的电子设备包括手机、电脑、手持电脑等电子设备。
S102、根据所有日志的实体信息构建用户关系网络,用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系。
具体地,每一日志对应有用户标识、电话号码和发日志所使用的电子设备等实体信息,每一实体信息为一顶点,用户标识与其它实体信息之间的关联关系为边,根据所有日志的实体信息得到的边的集合(即边表)和顶点的集合(即顶点表),根据顶点表和边表构建用户关系网络。
S103、使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识。
其中,社区发现算法即为Fast-unfolding算法,Fast-unfolding算法将输入的图数据划分为大量的社区,本实施例中,用户关系网络即为输入的图数据,输出为划分后的多个社区和社区发现结果,同一个社区中的用户相互之间密切关联,Fast-unfolding算法对用户关系网络中的每一个顶点赋予一个社区标识(ID),社区发现结果为用户关系网络中每一个顶点的社区标识,相同ID的用户在同一个社区。
可选的,得到社区发现结果后,将社区发现结果存入分布式文件***(HadoopDistributed File System,HDFS),通过存入HDFS,可将社区发现结果持久化,方便后续分析处理。
S104、根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
具体来说,预设规则可以根据实际需要设定,本实施例中,S104具体可以包括:
S1041、根据社区发现结果确定出满足预设条件的目标社区。
其中,可选的,根据社区发现结果确定出满足预设条件的目标社区有两种可实施的方式:
作为一种可实施的方式,统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区,确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区。例如,第一预设阈值为5,统计的属于同一社区的用户数目为7,则该社区为目标社区。
作为另一种可实施的方式,统计属于同一社区的所有用户所发布的房源数目总和,确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为所述目标社区。例如,用户A、用户B和用户C属于同一社区,用户A所发布的房源为3套,用户B所发布的房源为5套,用户C所发布的房源为5套,用户A、用户B和用户C的房源数目总和为3+5+5=13套,第二预设阈值为10,则该社区为目标社区。
S1042、若所述目标社区中发布房产信息的用户数目大于N,则判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
本实施例提供的经纪人的识别方法,通过获取在预设时间内的用户发帖日志和每一个日志的实体信息,根据所有日志的实体信息构建用户关系网络,其中的用户关系网络由顶点表和边表构成,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系,使用社区发现算法对用户关系网络进行划分,得到社区发现结果,最后根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。通过对用户标识、电话号码和发日志所使用的电子设备等多个维度的用户实体信息进行整合,使用实体信息(顶点表)和用户标识与实体信息之间的关联关系(边表)对用户关系网络进行建模,可以利用多个维度的数据进行分析,最后使用社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,可以准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。
图2为本发明实施例提供的另一种经纪人的识别方法的流程图,如图2所示,本实施例的方法可以包括:
S201、获取在预设时间内的用户发帖日志和每一个日志的实体信息。
具体来说,预设时间例如为一个月、三个月或半年等。用户标识、电话号码和发日志所使用的电子设备标识均为一实体信息,实体信息还可以为其他与用户相关的信息,其中的用户标识用于表示用户身份,发日志所使用的电子设备包括手机、电脑、手持电脑等电子设备。
S202、根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS。
其中,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系。顶点表和边表所占内存较大,将顶点表和边表存入HDFS,以便后续进行处理。
S203、以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
S204、以用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识。
S205、根据社区发现结果确定出满足预设条件的目标社区。
具体地,有两种可实施的方式:
一、统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区,确定属于同一社区的用户数目大于第一预设阈值的社区为目标社区。
二、统计属于同一社区的所有用户所发布的房源数目总和,确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为目标社区。
S206、若目标社区中发布房产信息的用户数目大于N,则判定目标社区中发布房产信息的用户为经纪人,N为预设正整数。
本实施例提供的经纪人的识别方法,通过获取在预设时间内的用户发帖日志和每一个日志的实体信息,根据所有日志的实体信息确定出顶点表和边表,以顶点表和边表作为输入通过Spark GraphX构建用户关系网络,在Spark GraphX上运行社区发现算法对用户关系网络进行划分,得到社区发现结果,最后确定出满足预设条件的目标社区,若目标社区中发布房产信息的用户数目大于N,则判定目标社区中发布房产信息的用户为经纪人。通过对用户标识、电话号码和发日志所使用的电子设备等多个维度的用户实体信息进行整合,使用顶点表和边表对用户关系网络进行建模,可以利用多个维度的数据进行分析,最后使用社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据社区发现结果确定出满足预设条件的目标社区,从目标社区中识别出经纪人用户,可以准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。
下面采用一个具体的实施例,对图1和图2所示方法实施例的技术方案进行详细说明。
图3为本发明实施例提供的另一种经纪人的识别方法的流程图,如图3所示,本实施例的方法可以包括:
S301、获取在预设时间内的用户发帖日志和每一个日志的实体信息,实体信息包括用户标识、电话号码和发日志所使用的电子设备标识。
S302、根据所有日志的实体信息确定出顶点表和边表。
S303、将顶点表和边表存入HDFS。
S304、以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
S305、以用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识。
S306、将社区发现结果存入HDFS。
S307、根据社区发现结果确定出满足预设条件的目标社区。
具体地,有两种可实施的方式:
一、统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区,确定属于同一社区的用户数目大于第一预设阈值的社区为目标社区。
二、统计属于同一社区的所有用户所发布的房源数目总和,确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为目标社区。
S308、目标社区中发布房产信息的用户数目大于N,则判定目标社区中发布房产信息的用户为经纪人,N为预设正整数。
图4为本发明实施例提供的一种经纪人的识别装置的结构示意图,如图4所示,本实施例的装置可以包括:获取模块11、构建模块12、划分模块13和识别模块14,其中,
获取模块11用于获取在预设时间内的用户发帖日志和每一个日志的实体信息。
构建模块12用于根据所有日志的实体信息构建用户关系网络,用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系。
划分模块13用于使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识。
识别模块14用于根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
可选的,构建模块12用于:根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
可选的,划分模块13用于:以用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
本实施例的装置,可以用于执行图1或图2所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的经纪人的识别装置,通过获取在预设时间内的用户发帖日志和每一个日志的实体信息,对用户标识、电话号码和发日志所使用的电子设备等多个维度的用户实体信息进行整合,使用实体信息(顶点表)和用户标识与实体信息之间的关联关系(边表)对用户关系网络进行建模,可以利用多个维度的数据进行分析,最后使用社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,可以准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。
图5为本发明实施例提供的另一种经纪人的识别装置的结构示意图,如图5所示,本实施例的装置在图4所示装置的基础上,进一步地,识别模块14包括:确定单元141和判定单元142,确定单元141用于根据社区发现结果确定出满足预设条件的目标社区;判定单元142用于在目标社区中发布房产信息的用户数目大于N时,判定目标社区中发布房产信息的用户为经纪人,N为预设正整数。
进一步地,确定单元141用于:统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区,确定属于同一社区的用户数目大于第一预设阈值的社区为目标社区。
或者,统计属于同一社区的所有用户所发布的房源数目总和,确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为目标社区。
本实施例的装置,可以用于执行图1或图2所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的经纪人的识别装置,通过获取在预设时间内的用户发帖日志和每一个日志的实体信息,根据所有日志的实体信息确定出顶点表和边表,以顶点表和边表作为输入通过Spark GraphX构建用户关系网络,在Spark GraphX上运行社区发现算法对用户关系网络进行划分,得到社区发现结果,最后确定出满足预设条件的目标社区,若目标社区中发布房产信息的用户数目大于N,则判定目标社区中发布房产信息的用户为经纪人。通过对用户标识、电话号码和发日志所使用的电子设备等多个维度的用户实体信息进行整合,使用顶点表和边表对用户关系网络进行建模,可以利用多个维度的数据进行分析,最后使用社区发现算法对用户关系网络进行划分,得到社区发现结果,进而根据社区发现结果确定出满足预设条件的目标社区,从目标社区中识别出经纪人用户,可以准确地发现一人多账号发布房源的经纪人,提高了识别准确率和识别效率。
本发明实施例中可以根据上述方法示例对经纪人的识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6为本发明实施例提供的一种电子设备的结构示意图,如图6所示,本实施例的电子设备可以包括:存储器21和处理器22,
存储器21,用于存储程序指令,该存储器可以是flash(闪存)。
处理器22,用于调用并执行存储器中的程序指令,以实现图1或图2所示的经纪人的识别方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器21既可以是独立的,也可以是存储器21跟处理器22集成在一起。
本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当经纪人的识别装置的至少一个处理器执行该计算机程序时,经纪人的识别装置执行上述方法实施例中的经纪人的识别方法。
本发明实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。经纪人的识别装置的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得经纪人的识别装置实施上述方法实施例中的经纪人的识别方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。
Claims (12)
1.一种经纪人的识别方法,其特征在于,包括:
获取在预设时间内的用户发帖日志和每一个日志的实体信息;
根据所有日志的实体信息构建用户关系网络,所述用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;
使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为所述用户关系网络中每一个顶点的社区标识;
根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
2.根据权利要求1所述的方法,其特征在于,所述根据所有日志的实体信息构建用户关系网络,包括:
根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;
以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
3.根据权利要求1或2所述的方法,其特征在于,所述使用社区发现算法对用户关系网络进行划分,得到社区发现结果,包括:
以所述用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
4.根据权利要求1或2所述的方法,其特征在于,所述根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,包括:
根据社区发现结果确定出满足预设条件的目标社区;
若所述目标社区中发布房产信息的用户数目大于N,则判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
5.根据权利要求4所述的方法,其特征在于,所述根据社区发现结果确定出满足预设条件的目标社区,包括:
统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区;
确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区;
或者,
统计属于同一社区的所有用户所发布的房源数目总和;
确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为所述目标社区。
6.一种经纪人的识别装置,其特征在于,包括:
获取模块,用于获取在预设时间内的用户发帖日志和每一个日志的实体信息;
构建模块,用于根据所有日志的实体信息构建用户关系网络,所述用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;
划分模块,用于使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为所述用户关系网络中每一个顶点的社区标识;
识别模块,用于根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
7.根据权利要求6所述的装置,其特征在于,所述构建模块用于:
根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;
以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
8.根据权利要求6或7所述的装置,其特征在于,所述划分模块用于:
以所述用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
9.根据权利要求6或7所述的装置,其特征在于,所述识别模块包括:
确定单元,用于根据社区发现结果确定出满足预设条件的目标社区;
判定单元,用于在所述目标社区中发布房产信息的用户数目大于N时,判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
10.根据权利要求9所述的装置,其特征在于,所述确定单元用于:
统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区;
确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区;
或者,
统计属于同一社区的所有用户所发布的房源数目总和;
确定属于同一社区的所有用户所发布的房源数目总和大于第二预设阈值的社区为所述目标社区。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1~5任一项所述的经纪人的识别方法。
12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当经纪人的识别装置的至少一个处理器执行所述计算机程序时,经纪人的识别装置执行权利要求1~5任一项所述的经纪人的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711478995.2A CN108304482A (zh) | 2017-12-29 | 2017-12-29 | 经纪人的识别方法及装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711478995.2A CN108304482A (zh) | 2017-12-29 | 2017-12-29 | 经纪人的识别方法及装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304482A true CN108304482A (zh) | 2018-07-20 |
Family
ID=62868233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711478995.2A Pending CN108304482A (zh) | 2017-12-29 | 2017-12-29 | 经纪人的识别方法及装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304482A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110990727A (zh) * | 2019-11-01 | 2020-04-10 | 贝壳技术有限公司 | 经纪人信息展示方法、装置、存储介质及设备 |
CN111209512A (zh) * | 2020-01-03 | 2020-05-29 | 北京同邦卓益科技有限公司 | 用户识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103731284A (zh) * | 2012-10-11 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 关联多个网络帐号的方法和*** |
CN106874931A (zh) * | 2016-12-30 | 2017-06-20 | 东软集团股份有限公司 | 用户画像分群方法和装置 |
CN106960143A (zh) * | 2017-03-23 | 2017-07-18 | 网易(杭州)网络有限公司 | 用户账号的识别方法及装置、存储介质、电子设备 |
CN107404408A (zh) * | 2017-08-30 | 2017-11-28 | 北京邮电大学 | 一种虚拟身份关联识别方法及装置 |
CN107438050A (zh) * | 2016-05-26 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 识别网站的潜在恶意用户的方法和*** |
-
2017
- 2017-12-29 CN CN201711478995.2A patent/CN108304482A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103731284A (zh) * | 2012-10-11 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 关联多个网络帐号的方法和*** |
CN107438050A (zh) * | 2016-05-26 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 识别网站的潜在恶意用户的方法和*** |
CN106874931A (zh) * | 2016-12-30 | 2017-06-20 | 东软集团股份有限公司 | 用户画像分群方法和装置 |
CN106960143A (zh) * | 2017-03-23 | 2017-07-18 | 网易(杭州)网络有限公司 | 用户账号的识别方法及装置、存储介质、电子设备 |
CN107404408A (zh) * | 2017-08-30 | 2017-11-28 | 北京邮电大学 | 一种虚拟身份关联识别方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633381A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110633381B (zh) * | 2018-12-25 | 2023-04-07 | 北京时光荏苒科技有限公司 | 一种识别虚假房源的方法、装置、存储介质及电子设备 |
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110222484B (zh) * | 2019-04-28 | 2023-05-23 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110990727A (zh) * | 2019-11-01 | 2020-04-10 | 贝壳技术有限公司 | 经纪人信息展示方法、装置、存储介质及设备 |
CN110990727B (zh) * | 2019-11-01 | 2024-05-10 | 贝壳技术有限公司 | 经纪人信息展示方法、装置、存储介质及设备 |
CN111209512A (zh) * | 2020-01-03 | 2020-05-29 | 北京同邦卓益科技有限公司 | 用户识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304482A (zh) | 经纪人的识别方法及装置、电子设备和可读存储介质 | |
CN107766376A (zh) | 数据对齐方法及装置 | |
CN107515890A (zh) | 一种识别常驻点的方法及终端 | |
CN108289121A (zh) | 营销信息的推送方法及装置 | |
CN109388674A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN106570014A (zh) | 用于确定用户的家庭属性信息的方法与设备 | |
CN111148018B (zh) | 基于通信数据识别定位区域价值的方法和装置 | |
CN109690571A (zh) | 基于学习的组标记***和方法 | |
CN108648093A (zh) | 数据处理方法、装置及设备 | |
CN108875048A (zh) | 报表生成方法、装置、电子设备及可读存储介质 | |
CN109858735A (zh) | 用户风险评分评定方法、装置、计算机设备及存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Spichkova et al. | Easy mobile meter reading for non-smart meters: Comparison of aws rekognition and *** cloud vision approaches | |
WO2016025224A1 (en) | Methods and systems for identifying merchant and atm demand | |
CN109344173B (zh) | 数据管理方法和装置、数据结构 | |
CN106257507A (zh) | 用户行为的风险评估方法及装置 | |
CN107067276A (zh) | 确定对象影响力的方法及装置 | |
CN110516713A (zh) | 一种目标群体识别方法、装置及设备 | |
CN106815062A (zh) | 一种业务流水数据处理方法及装置 | |
CN110348983B (zh) | 交易信息管理方法及装置、电子设备和非暂态存储介质 | |
CN110059097A (zh) | 数据处理方法和装置 | |
CN115545088A (zh) | 模型构建方法、分类方法、装置和电子设备 | |
CN113743791A (zh) | 一种业务工单的业务考评方法、装置、电子设备和介质 | |
CN112418654B (zh) | 一种资源分配方法、装置、电子设备及存储介质 | |
CN114238777A (zh) | 基于行为分析的负反馈流量分配方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |
|
RJ01 | Rejection of invention patent application after publication |