CN109600344A - 识别风险群体的方法、装置及电子设备 - Google Patents

识别风险群体的方法、装置及电子设备 Download PDF

Info

Publication number
CN109600344A
CN109600344A CN201710937630.5A CN201710937630A CN109600344A CN 109600344 A CN109600344 A CN 109600344A CN 201710937630 A CN201710937630 A CN 201710937630A CN 109600344 A CN109600344 A CN 109600344A
Authority
CN
China
Prior art keywords
communicating
number combination
group
combination
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710937630.5A
Other languages
English (en)
Other versions
CN109600344B (zh
Inventor
刘站奇
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710937630.5A priority Critical patent/CN109600344B/zh
Publication of CN109600344A publication Critical patent/CN109600344A/zh
Application granted granted Critical
Publication of CN109600344B publication Critical patent/CN109600344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种识别风险群体的方法、装置及电子设备。该方法包括:获取通信号码对应的历史行为数据;将历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合;分别计算各个号码组合对应的关联权重;根据各个号码组合分别对应的关联权重,对各个号码组合中所有通信号码进行聚类得到至少一个群体;根据群体中风险号码的数量识别风险群体。在本发明实施例中,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据来确定群体,并进一步根据上述群体中风险号码的数量识别风险群体,因此本发明实施例确定群体的准确率较高,识别出风险群体的准确率也较高。

Description

识别风险群体的方法、装置及电子设备
技术领域
本发明实施例涉及数据分析技术领域,特别涉及一种识别风险群体的方法、装置及电子设备。
背景技术
目前,互联网平台通过推出营销活动的方式吸引***,部分不法分子通过批量注册会员的方式参与上述营销活动,上述批量注册的会员可以称之为风险群体,也称之为“羊毛党”。为避免推出营销活动所需的资源被浪费,通常需要识别出风险群体。
相关技术中,识别风险群体的方法如下:通过统计某一维度下(比如同一IP(Internet Protocol,互联网协议)地址、同一时间段)注册的会员数量来识别风险群体。例如,若同一个IP地址下注册的会员数量超过第一阈值,则确定上述同一个IP地址下注册的会员属于同一风险群体。再例如,若同一时间段内注册的会员数量超过第二阈值,则确定上述同一个时间段内注册的会员属于同一风险群体。
相关技术提供的识别风险群体的方法,识别风险群体的准确率较低。
发明内容
本发明实施例提供了一种识别风险群体的方法、装置及电子设备,用以解决相关技术中所存在的识别风险群体准确率较低的问题。所述技术方案如下:
第一方面,提供了一种识别风险群体的方法,所述方法包括:
获取通信号码对应的历史行为数据,所述历史行为数据包括多条历史行为记录,每一历史行为记录包括:所述通信号码在执行网络行为时使用的互联网协议IP地址、所述通信号码执行所述网络行为的请求时刻;
将所述历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,所述相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为;
分别计算各个所述号码组合对应的关联权重,其中,所述号码组合对应的关联权重用于表征所述号码组合中通信号码之间的关联程度;
根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体;
根据所述群体中风险号码的数量识别风险群体。
可选地,所述分别计算各个所述号码组合对应的关联权重,包括:
分别计算所述各个号码组合对应的特征值,所述特征值包括第一特征值、第二特征值和第三特征值中的至少一项;其中,所述号码组合对应的第一特征值用于表征所述号码组合中通信号码具有的所述相似网络行为的次数,所述号码组合对应的第二特征值用于表征所述号码组合中通信号码之间的相似度,所述号码组合对应的第三特征值用于表征所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型信息;
根据所述各个号码组合分别对应的特征值,确定所述各个号码组合对应的关联权重。
可选地,当所述特征值包括所述第二特征值时,所述分别计算所述各个号码组合对应的特征值,包括:
对于每一号码组合,获取所述号码组合中通信号码分别对应的号码特征值,所述号码特征值包括通话特征值、绑定特征值和活跃特征值中的至少一项;其中,所述通话特征值是根据通信号码对应的通话行为量化得到的,所述绑定特征值是根据通信号码对应的绑定行为量化得到的,所述活跃特征值是根据通信号码所绑定的应用程序对应的活跃度量化得到的;
根据所述号码组合中通信号码分别对应的号码特征值,计算所述号码组合对应的第二特征值。
可选地,当所述特征值包括所述第三特征值时,所述分别计算所述各个号码组合对应的特征值,包括:
对于每一号码组合,获取所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型;
根据指定类型的IP地址的使用数量,确定所述号码组合对应的第三特征值。
可选地,当所述号码组合包括两个通信号码时,所述根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体,包括:
构建群体特征图,所述群体特征图中的一个节点表示所述各个号码组合所包括的一个通信号码,所述群体特征图中相连的两个节点之间的连线表示所述两个节点分别对应的通信号码组成的号码组合对应的关联权重;
为所述群体特征图中的各个节点添加不同的标签;
对所述群体特征图中的各个节点的标签执行至少一轮更新过程,在每一轮更新过程中,对于所述群体特征图的每一个节点,根据与所述节点相连的其它节点的标签更新所述节点的标签;
当所述至少一轮更新过程执行完成时,将所述群体特征图中具有相同标签的节点对应的通信号码添加至同一群体。
可选地,当所述号码组合中通信号码的数量大于2时,所述根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体,包括:
当一个号码组合对应的关联权重大于第一门限,则将所述一个号码组合中通信号码添加至同一群体;
和/或,
若多个号码组合分别对应的关联权重均大于第二门限,且所述多个号码组合中的任意两个号码组合具有的相同通信号码的数量均大于第三门限,则将所述多个号码组合中通信号码添加至同一群体。
可选地,所述根据所述群体中风险号码的数量确定所述群体是否为风险群体之后,还包括:
将所述风险群体中未被所述黑名单记录的通信号码添加至所述黑名单中。
第二方面,提供了一种识别风险群体的装置,所述装置包括:
数据获取模块,用于获取通信号码对应的历史行为数据,所述历史行为数据包括多条历史行为记录,每条历史行为记录包括:所述通信号码在执行所述网络行为时使用的互联网协议IP地址以及所述通信号码执行所述网络行为的请求时刻;
组合提取模块,用于将所述历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,所述相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为;
权重计算模块,用于分别计算各个所述号码组合对应的关联权重,其中,所述号码组合对应的关联权重用于表征所述号码组合中通信号码之间的关联程度;
聚类模块,用于根据所述各个号码组合对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体;
群体确定模块,用于根据所述群体中风险号码的数量识别风险群体。
可选地,所述权重计算模块,包括:
第一计算单元,用于分别计算所述各个号码组合对应的特征值,所述特征值包括第一特征值、第二特征值和第三特征值中的至少一项;其中,所述号码组合对应的第一特征值用于表征所述号码组合中通信号码具有的所述相似网络行为的次数,所述号码组合对应的第二特征值用于表征所述号码组合中通信号码之间的相似度,所述号码组合对应的第三特征值用于表征所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型信息;
第二计算单元,用于根据所述各个号码组合分别对应的特征值,确定所述各个号码组合对应的关联权重。
可选地,当所述特征值包括所述第二特征值时,所述第一计算单元,用于:
对于每一号码组合,获取所述号码组合中通信号码分别对应的号码特征值,所述号码特征值包括通话特征值、绑定特征值和活跃特征值中的至少一项;其中,所述通话特征值是根据通信号码对应的通话行为量化得到的,所述绑定特征值是根据通信号码对应的绑定行为量化得到的,所述活跃特征值是根据通信号码所绑定的应用程序对应的活跃度量化得到的;
根据所述号码组合中通信号码分别对应的号码特征值,计算所述号码组合对应的第二特征值。
可选地,当所述特征值包括所述第三特征值时,所述第一计算单元,用于:
对于每一号码组合,获取所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型;
根据指定类型的IP地址的使用数量,确定所述号码组合对应的第三特征值。
可选地,当所述号码组合包括两个通信号码时,所述聚类模块,包括:
特征图构建单元,用于构建群体特征图,所述群体特征图中的一个节点表示所述各个号码组合所包括的一个通信号码,所述群体特征图中相连的两个节点之间的连线表示所述两个节点分别对应的通信号码组成的号码组合对应的关联权重;
标签添加单元,用于为所述群体特征图中的各个节点添加不同的标签;
标签更新单元,用于对所述群体特征图中的各个节点的标签执行至少一轮更新过程,在每一轮更新过程中,对于所述群体特征图的每一个节点,根据与所述节点相连的其它节点的标签更新所述节点的标签;
第一聚类单元,用于当所述至少一轮更新过程执行完成时,将所述群体特征图中具有相同标签的节点对应的通信号码添加至同一群体。
可选地,当所述号码组合中通信号码的数量大于2时,所述聚类模块,包括:
第二聚类单元,用于当一个号码组合对应的关联权重大于第一门限,则将所述一个号码组合中通信号码添加至同一群体;
和/或,
第三聚类单元,用于当多个号码组合分别对应的关联权重均大于第二门限,且所述多个号码组合中的任意两个号码组合具有的相同通信号码的数量均大于第三门限时,将所述多个号码组合中通信号码添加至同一群体。
可选地,所述装置还包括:
号码添加模块,用于将所述风险群体中未被所述黑名单记录的通信号码添加至所述黑名单中。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的识别风险群体的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的识别风险群体的方法。
第五方面,提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于执行上述第一方面所述的识别风险群体的方法。
本发明实施例提供的技术方案可以带来如下有益效果:
通过计算在同一时段、并且采用同一IP地址执行网络行为的通信号码之间的关联权重,并根据上述关联权重进行聚类,进而确定出群体,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据确定群体,并进一步根据上述群体中风险号码的数量识别风险群体,因此本发明实施例确定群体的准确率较高,识别出风险群体的准确率也较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的识别风险群体的方法的流程图;
图2是图1所示实施例涉及的示意图;
图3是本发明另一个实施例提供的识别风险群体的方法的流程图;
图4是本发明一个实施例提供的群体特征图的示意图;
图5是图3所示实施例涉及的示意图;
图6是本发明一个实施例提供的识别风险群体的装置的框图;
图7是本发明一个实施例提供的电子设备的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供一种识别风险群体的方法、装置及电子设备,通过计算在同一时段、并且采用同一IP地址执行网络行为的通信号码之间的关联权重,并根据上述关联权重进行聚类,进而确定出群体,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据来确定群体,并进一步根据上述群体中风险号码的数量识别风险群体,确定群体的准确率较高,识别出风险群体的准确率也较高,有利于后续营销活动的精准投放。
本发明实施例提供的方法,各步骤的执行主体可以是具备数据分析及处理能力的电子设备。可选地,上述电子设备为服务器。服务器可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
请参考图1,其示出了本发明一个实施例示出的识别风险群体的方法的流程图。该方法可以包括如下步骤:
步骤101,获取通信号码对应的历史行为数据。
历史行为数据包括多条历史行为记录。历史行为数据可以由与移动终端建立有通信连接的电子设备采集得到。例如,若需要识别出指定应用对应的全部通信号码中是否存在风险群体或风险号码,上述电子设备可以是指定应用对应的后台服务器。可选地,历史行为数据是预设时间段内的行为数据,上述预设时间段可以根据实际需求设定,例如,历史行为数据是最近7天内的行为数据。
每一历史行为记录包括:通信号码在执行网络行为时使用的IP地址以及通信号码执行网络行为的请求时刻。网络行为由该通信号码对应的移动终端执行。可选地,网络行为包括注册行为和交易行为的至少一种。其中,注册行为是指采用通信号码注册应用程序的相关帐号,交易行为是通过上述注册的帐号完成交易,比如,领取优惠券,领取红包等等,本发明实施例对此不作限定。
在本发明实施例中,所涉及的通信号码是指运营商为用户分配的识别用户身份和移动终端身份的标识号。在通常情况下,通信号码是指移动电话号码,也即手机号码。在其它可能的示例中,通信号码是即时通讯(Instant Messaging)应用中的号码。
历史行为数据可以参考下述表-1。
表-1
时间 IP地址 手机号码
2017-06-01 10.10.10.10 13600000001
2017-06-01 10.10.10.10 13600000002
2017-06-01 10.10.10.10 13600000003
2017-06-02 11.11.11.11 13600000001
2017-06-02 11.11.11.11 13600000002
2017-06-02 11.11.11.11 13600000004
步骤102,将历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合。
相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为。
电子设备先从历史行为数据中检测出具有相似网络行为的通信号码,然后从上述具有相似网络行为的通信号码中提取出号码组合。号码组合所包括的通信号码可以是具有相似网络行为的全部或部分通信号码,本发明实施例对号码组合所包括的通信号码的数量不作限定。
以上述表-1为例,当号码组合所包括的通信号码为具有相似网络行为的全部通信号码时,电子设备提取的号码组合包括(13600000001,13600000002,13600000003)和(13600000001,13600000002,13600000004)。当号码组合所包括的通信号码为具有相似网络行为的部分通信号码时,电子设备提取的号码组合包括(13600000001,13600000002)、(13600000001,13600000003)、(13600000002,13600000003)和(13600000001,13600000004)。
步骤103,分别计算各个号码组合对应的关联权重。
号码组合对应的关联权重用于表征号码组合中通信号码之间的关联程度。号码组合对应的关联权重与号码组合中通信号码之间的关联程度呈正相关关系。也即,号码组合对应的关联权重越大,该号码组合中通信号码之间的关联程度越强;号码组合对应的关联权重越小,该号码组合中通信号码之间的关联程度越弱。计算各个号码组合对应的关联权重的具体过程,将在下文实施例中进行介绍。
步骤104,根据各个号码组合分别对应的关联权重,对各个号码组合中所有通信号码进行聚类得到至少一个群体。
聚类是指将物理对象或抽象对象的集合分成由类似的对象组成的多个类的过程。在本发明实施例中,聚类是指将各个号码组合包括的所有通信号码分成多个群体的过程,每个群体包括多个通信号码,且各个通信号码之间的关联程度较高。在本发明实施例中,对n个号码组合包括的所有通信号码进行聚类所采用的算法可以是标签传播算法(labelpropagation algorithm,LPA)、也可以是改进的标签传播算法(Speaker labelpropagation algorithm,SLPA)、还可以是HANP算法,本发明实施例对此不作限定。
步骤105,根据所述群体中风险号码的数量识别风险群体。
风险号码是指黑名单中已记录的通信号码。可选地,风险号码是指通话行为较少甚至没有通话行为的通信号码,该通信号码可以称之为“猫池号码”。可选地,风险号码是指执行网络行为时所使用的IP地址均为风险IP的通信号码。
可选地,若群体中风险号码的数量超过预设阈值,则将群体确定为风险群体。预设阈值可以根据第一群体所包括的通信号码的数量实际确定。可选地,电子设备将预设阈值确定为第一群体所包括的通信号码的数量的60%。在其它可能的示例中,预设阈值可以人为设定。若第一群体所包括的通信号码中属于风险号码的数量小于或等于预设阈值时,则将第一群体确定为安全群体。确定出风险群体之后,后续互联网平台推出营销活动时,可以禁止风险群体中通信号码参与,从而避免营销活动所需的资源被浪费。
在其它可能的示例中,若群体中安全号码的数量少于指定阈值,则将群体确定为风险群体。安全号码可以是白名单中已记录的通信号码。
结合参考图2,其示出了图1所示实施例涉及的示意图。电子设备获取最近7天内的历史行为数据,并根据预设算法(例如标签传播算法)对在7天内执行网络行为的手机号码及该手机号码执行网络行为所使用的IP地址进行分析,确定出群体。后续电子设备可以进一步根据黑名单中所记录的风险号码确定该群体所包括的手机号码是否全部为风险号码,并更新用于记录风险号码的黑名单和用于记录风险IP的黑名单,以供查询。其中,k为零或正整数。
综上所述,本发明实施例提供的方法,通过计算在同一时段、并且采用同一IP地址执行网络行为的通信号码之间的关联权重,并根据上述关联权重进行聚类,进而确定出群体,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据来确定群体,并进一步根据该群体中风险号码的数量识别风险群体,因此本发明实施例确定群体的准确率较高,识别出风险群体的准确率也较高。
请参考图3,其示出了本发明一个实施例示出的识别风险群体的方法的流程图。该方法可以包括如下几个步骤。
步骤301,获取通信号码对应的历史行为数据。
历史行为数据包括多条历史行为记录。多条历史行为记录中的每一条历史行为记录包括:通信号码在执行网络行为时使用的IP地址、通信号码执行网络行为的请求时刻。
步骤302,将历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,。
相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为。
步骤303,分别计算各个号码组合对应的特征值,特征值包括第一特征值、第二特征值和第三特征值中的至少一项。
号码组合对应的第一特征值用于表征号码组合中通信号码具有的相似网络行为的次数。
以表-1为例,号码组合(13600000001,13600000002)具有的相似网络行为的次数为2,则号码组合(13600000001,13600000002)对应的第一特征值为2;号码组合(13600000001,13600000003)具有的相似网络行为的次数为1,则号码组合(13600000001,13600000003)对应的第一特征值为1;号码组合(13600000002,136000000003)具有的相似网络行为的次数为1,则号码组合(13600000002,136000000003)对应的第一特征值为1;号码组合(13600000001,13600000004)具有的相似网络行为的次数为1,则号码组合(13600000001,13600000004)对应的第一特征值为1。
号码组合对应的第二特征值用于表征号码组合中通信号码之间的相似度。号码组合对应的第二特征值与号码组合中通信号码之间的相似度呈正相关关系。也即,号码组合对应的第二特征值越大,该号码组合中通信号码之间的相似度越高;号码组合对应的第二特征值越小,该号码组合中通信号码之间的相似度越低。
可选地号码组合对应的第二特征值可以通过如下子步骤计算得到:
步骤303a,对于每一号码组合,获取号码组合中通信号码分别对应的号码特征值,号码特征值包括通话特征值、绑定特征值和活跃特征值中的至少一项;
通话特征值是根据通信号码对应的通话行为量化得到的。通信号码对应的通话行为包括通话次数、通话时长等等。通信号码对应的通话特征值与通信号码的通话次数、通话时长均呈正相关关系。通信号码对应的通话次数越多,通信号码对应的通话特征值越高;通信号码对应的通话次数越少,通信号码对应的通话特征值越低。通信号码对应的通话时长越长,通信号码对应的通话特征值越高;通信号码对应的通话次数越短,通信号码对应的通话特征值越低。
具体地,对于每一号码组合,电子设备获取号码组合中通话号码分别对应的通话次数、通话时长等数据,并根据上述数据进行量化,进而得到号码组合中通话号码分别对应的通话特征值。例如,号码13600000001的通话次数为6次,总通话时长为31分钟,电子设备为号码13600000001量化的通话特征值为0.8。再例如,号码13600000002的通话次数为2次,总通话时长为3分钟,电子设备为号码13600000002量化的通话特征值为0.1。
绑定特征值是根据通信号码对应的绑定行为量化得到的。通信号码对应的绑定行为包括通信号码是否绑定应用程序,通信号码所绑定的应用程序的数量等等。未绑定应用程序的通信号码对应的绑定特征值,应当小于已绑定应用程序的通信号码对应的通话特征值。对于均绑定了应用程序的通信号码,通信号码对应的绑定特征值与通信号码绑定的应用程序的数量呈正相关关系。通信号码绑定的应用程序的数量越多,通信号码对应的绑定特征值越低;通信号码绑定的应用程序的数量越少,通信号码对应的绑定特征值越高。
具体地,对于每一号码组合,电子设备获取号码组合中通话号码是否绑定应用程序,以及绑定应用程序的数量等数据,并根据上述数据进行量化,进而得到号码组合中通话号码分别对应的绑定特征值。例如,号码13600000001绑定了13个应用程序,电子设备为号码13600000001量化的绑定特征值为0.7。再例如,号码13600000002绑定了2个应用程序,电子设备为号码13600000002量化的绑定特征值为0.1。
活跃特征值是根据通信号码所绑定的应用程序对应的活跃度量化得到的。通信号码所绑定的应用程序对应的活跃度与活跃特征值呈正相关关系。也即,通信号码所绑定的应用程序对应的活跃度越大,该通信号码对应的活跃特征值越大,通信号码所绑定的应用程序对应的活跃度越小,该通信号码对应的活跃特征值越小。
通信号码所绑定的应用程序对应的活跃度可以通过用户登录该应用程序的客户端的次数来衡量,用户登录该应用程序的客户端的次数越多,通信号码所绑定的应用程序对应的活跃度越大。当应用程序为社交类应用程序时,上述活跃度还可以通过用户通过该应用程序的客户端与其它用户之间会话的次数来衡量,用户通过该应用程序的客户端与其它用户之间会话的次数越多,通信号码所绑定的应用程序对应的活跃度越大。当应用程序为购物类应用程序时,上述活跃度还可以通过用户通过该应用程序的客户端购物的次数来衡量,用户通过该应用程序的客户端购物的次数越多,通信号码所绑定的应用程序对应的活跃度越大。本发明实施例对衡量通信号码所绑定的应用程序对应的活跃度的方式不作限定。
具体地,对于每一号码组合,电子设备获取号码组合中通话号码分别对应的绑定的应用程序的活跃度等数据,并根据上述数据进行量化,进而得到号码组合中通话号码分别对应的活跃特征值。例如,电子设备为号码13600000001量化的活跃特征值为0.9。再例如,电子设备为号码13600000002量化的绑定特征值为0.2。
步骤303b,根据号码组合中通信号码分别对应的号码特征值,计算号码组合对应的第二特征值。
可选地,电子设备根据号码组合中通信号码分别对应的号码特征值,计算号码组合中通信号码之间的相似度,得到号码组合对应的第二特征值。其中,计算号码组合中通信号码之间的相似度所采用的算法可以是欧式距离(euclidean metric)、杰卡德距离(Jaccard Distance)、余弦相似度等等,本发明实施例对此不作限定。
以算法为余弦相似度,号码组合(13600000001,13600000002)为例,号码13600000001对应的通话特征值、绑定特征值和活跃特征值分别为0.8、0.7和0.9,号码13600000002对应的通话特征值、绑定特征值和活跃特征值分别为0.1、0.1和0.2,则号码组合(13600000001,13600000002)对应的第二特征值为:
号码组合对应的第三特征值用于表征号码组合中通信号码在每一次执行相似网络行为时所使用的IP地址的类型信息。可选地,IP地址的类型信息包括上述IP地址是否为指定类型的IP地址,指定类型的IP地址的使用数量等等。指定类型的IP地址可以预先设定,例如,指定类型的IP地址为风险IP。风险IP可以是代理IP或者涉黑IP。
可选地,号码组合对应的第三特征值可以通过如下子步骤计算得到。
步骤303c,对于每一号码组合,获取号码组合中通信号码在每一次执行相似网络行为时所使用的IP地址的类型;
步骤303d,根据指定类型的IP地址的使用数量,确定号码组合对应的第三特征值。
可选地,电子设备将指定类型的IP地址的使用数量,直接确定为号码组合对应的第三特征值。例如,号码组合(13600000001,13600000002)执行相似网络行为时所使用的IP地址分别为IP地址1和IP地址2,其中,IP地址1为代理IP,IP2为涉黑IP,IP1和IP2均为风险IP,则电子设备将号码组合(13600000001,13600000002)确定为2。
步骤304,根据各个号码组合分别对应的特征值,确定各个号码组合对应的关联权重。
可选地,将每一个号码组合对应的第一特征值、第二特征值和第三特征值进行求和,得到每一个号码组合对应的关联权重。以号码组合(1360000001,13600000002)为例,号码组合(1360000001,13600000002)对应的第一特征值、第二特征值和第三特征值分别为2、0.46和2,则号码组合(1360000001,13600000002)对应的关联权重=2+0.46+2=4.46。
步骤305,当号码组合包括两个通信号码时,构建群体特征图。
群体特征图中的一个节点表示各个号码组合所包括的一个通信号码。群体特征图中相连的两个节点之间的连线表示两个节点分别对应的通信号码组成的号码组合对应的关联权重;
结合参考图4,其示出了本发明一个实施例提供的群体特征图的示意图。节点1至节点6分别代表手机号码1至手机号码6,节点1和节点2之间的连线表示手机号1和手机号码2组成的号码组合对应的关联权重为4.46,其它节点之间的连线所表示的含义可以以此类推。
步骤306,为群体特征图中的各个节点添加不同的标签。
以图4所示的群体特征图为例,电子设备为节点1至节点6添加的标签分别为群体1至群体6。
步骤307,对群体特征图中的各个节点的标签执行至少一轮更新过程,在每一轮更新过程中,对于群体特征图的每一个节点,根据与节点相连的其它节点的标签更新节点的标签。
更新过程的轮数可以根据群体特征图所包括的节点的数量实际确定。群体特征图所包括的节点的数量越多,则更新过程的轮数越多;群体特征图所包括的节点的数量越少,则更新过程的轮数也越少。与节点相连的其它节点是与节点之间存在连线的节点。
上述步骤307的过程可以称之为“标签传播”。可选地,对于群体特征图的每一个节点,根据与节点相邻的各个节点和该节点分别对应的通信号码组成的号码组合对应的关联权重更新该节点的标签。具体地,电子设备选择任意一个节点作为标签传播的起点,之后获取与该节点相邻的各个节点和该节点分别对应的通信号码组成的号码组合对应的关联权重,将该节点的标签更新为关联权重最大的号码组合所包括的另外一个节点的标签。
以图4所示群体特征图为例,节点1与节点2分别对应的通信号码组成的号码组合对应的关联权重为4.46,节点1与节点3分别对应的通信号码组成的号码组合对应的关联权重为2.15,节点1与节点2分别对应的通信号码组成的号码组合对应的关联权重为1.75。其中,节点1与节点2分别对应的通信号码组成的号码组合对应的关联权重最大,则电子设备将节点1的标签由群体1更新为群体2。
步骤308,当至少一轮更新过程执行完成时,将群体特征图中具有相同标签的节点对应的通信号码添加至同一群体。
可选地,当群体特征图中的各个节点的标签不再发生变化时,至少一轮更新过程执行完成,此时电子设备将具有相同标签的节点对应的通信号码添加至同一群体。
以图4所示群体特征图为例,至少一轮更新过程执行完成时,节点1、节点2、节点4和节点5的标签均为群体5,节点3和节点6的标签均为群体6,则电子设备将节点1、节点2、节点4和节点5分别对应的手机号码1、手机号码2、手机号码4和手机号码5添加至同一群体,将节点3和节点6分别对应的手机号码3和手机号码6添加至同一群体。
步骤309,根据群体中风险号码的数量识别风险群体
风险号码是指黑名单中已记录的通信号码。
步骤310,将风险群体中未被黑名单记录的通信号码添加至黑名单中。
由于群体是由关联程度较高的通信号码组成,当该群体中的通信号码大多数为风险号码时,则认为该群体中的通信号码全部为风险号码,则电子设备将风险群体中未被黑名单记录的通信号码也添加至黑名单中。
可选地,电子设备将该群体中的通信号码执行相似网络行为所使用的IP地址确定为风险IP,并将上述风险IP添加至用于记录风险IP的黑名单中。
结合参考图5,其示出了图3所示实施例涉及的示意图。其中,手机号码1、手机号码2和手机号码3均使用IP地址1执行过网络行为,手机号码1、手机号码2和手机号码4均使用IP地址2执行过网络行为,根据上述历史行为记录提取出号码组合(手机号码1,手机号码2),之后分别计算手机号码1和手机号码2具有的相似网络行为的次数(也即第一特征值),手机号码1和手机号码2之间的相似度(也即第二特征值),IP地址1和IP地址2分别对应的IP特征(也即第三特征值),综合上述第一特征值、第二特征值和第三特征值得到号码组合(手机号码1,手机号码2)对应的关联权重,然后采用预设算法(比如标签传播算法)进行聚类,得到至少一个群体,之后根据黑名单记录的风险号码,最终确定出风险群体,并进一步将风险群体中未标记为风险号码的通信号码添加至上述黑名单,将风险号码执行相似网络行为所使用的IP地址也添加至用于记录风险IP的黑名单。
此外,当号码组合包括的通信号码的数量大于2时,根据各个号码组合分别对应的关联权重,对各个号码组合中所有通信号码进行聚类得到至少一个群体,可以包括如下两种可能的实现方式。
在一种可能的实现方式中,若一个号码组合对应的关联权重大于第一门限,则将一个号码组合所包括的通信号码添加至同一群体。上述第一门限可以根据确定群体的精度要求实际确定。若群定群体的精度要求较高,则第一门限较大;若确定群体的精度要求较低,则第一门限较低。例如,第一门限为7,也即,若某个号码组合对应的关联权重大于7,则电子设备将该号码组合所包括的通信号码添加至同一群体。
在另一种可能的实现方式中,若多个号码组合分别对应的关联权重均大于第二门限,且多个号码组合中的任意两个号码组合具有的相同通信号码的数量均大于第三门限,则将多个号码组合所包括的通信号码添加至同一群体。上述第二门限和第三门限也可以根据确定群体的精度要求实际确定。例如,第二门限为5,第三门限为6,号码组合1和号码组合2对应的关联权重分别为5.16和5.27,且号码组合1和号码组合2具有9个相同的通信号码,则电子设备将号码组合1所包括的通信号码和号码组合2所包括的通信号码添加至同一群体。
综上所述,本发明实施例提供的方法,通过计算在同一时段、并且采用同一IP地址执行网络行为的通信号码之间的关联权重,并根据上述关联权重进行聚类,进而确定出群体,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据来确定群体,并进一步根据该群体中风险号码的数量识别风险群体,因此本发明实施例确定群体的准确率较高,识别出风险群体的准确率也较高。
还通过将风险群体中未被标记为风险号码更新至黑名单,能提高后续确定风险群体的准确率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参考图6,其示出了本发明一个实施例提供的识别风险群体的装置的框图。该装置具有实现上述方法示例中的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:数据获取模块601、组合提取模块602、权重计算模块603、聚类模块604和群体确定模块605。
数据获取模块601,用于获取通信号码对应的历史行为数据,所述历史行为数据包括多条历史行为记录,每条历史行为记录包括:所述通信号码在执行网络行为时使用的IP地址以及所述通信号码执行所述网络行为时的请求时刻。
组合提取模块602,用于将所述历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,所述相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为。
权重计算模块603,用于分别计算各个所述号码组合对应的关联权重,所述号码组合对应的关联权重用于表征所述号码组合中通信号码之间的关联程度。
聚类模块604,用于根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体。
群体确定模块605,用于根据所述群体中风险号码的数量识别风险群体。
在基于图6所示实施例提供的一个可选实施例中,所述权重计算模块603,包括:第一计算单元和第二计算单元(图中未示出)。
第一计算单元,用于分别计算所述各个号码组合对应的特征值,所述特征值包括第一特征值、第二特征值和第三特征值中的至少一项;其中,所述号码组合对应的第一特征值用于表征所述号码组合中通信号码具有的所述相似网络行为的次数,所述号码组合对应的第二特征值用于表征所述号码组合中通信号码之间的相似度,所述号码组合对应的第三特征值用于表征所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型信息。
第二计算单元,用于根据所述各个号码组合分别对应的特征值,确定所述各个号码组合对应的关联权重。
在基于图6所示实施例提供的另一个可选实施例中,当所述特征值包括所述第二特征值时,所述第一计算单元,用于:
对于每一号码组合,获取所述号码组合中通信号码分别对应的号码特征值,所述号码特征值包括通话特征值、绑定特征值和活跃特征值中的至少一项;其中,所述通话特征值是根据通信号码对应的通话行为量化得到的,所述绑定特征值是根据通信号码对应的绑定行为量化得到的,所述活跃特征值是根据通信号码所绑定的应用程序对应的活跃度量化得到的;
根据所述号码组合中通信号码分别对应的号码特征值,计算所述号码组合对应的第二特征值。
在基于图6所示实施例提供的另一个可选实施例中,当所述特征值包括所述第三特征值时,所述第一计算单元,用于:
对于每一号码组合,获取所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型;
根据指定类型的IP地址的使用数量,确定所述号码组合对应的第三特征值。
在基于图6所示实施例提供的另一个可选实施例中,当所述号码组合包括两个通信号码时,所述聚类模块604,包括:特征图构建单元、标签添加单元、标签更新单元和第一聚类单元(图中未示出)。
特征图构建单元,用于构建群体特征图,所述群体特征图中的一个节点表示所述各个号码组合所包括的一个通信号码,所述群体特征图中相连的两个节点之间的连线表示所述两个节点分别对应的通信号码组成的号码组合对应的关联权重。
标签添加单元,用于为所述群体特征图中的各个节点添加不同的标签。
标签更新单元,用于对所述群体特征图中的各个节点的标签执行至少一轮更新过程,在每一轮更新过程中,对于所述群体特征图的每一个节点,根据与所述节点相连的其它节点的标签更新所述节点的标签。
第一聚类单元,用于当所述至少一轮更新过程执行完成时,将所述群体特征图中具有相同标签的节点对应的通信号码添加至同一群体。
在基于图6所示实施例提供的另一个可选实施例中,当所述号码组合中通信号码的数量大于2时,所述聚类模块,包括:第二聚类单元,和/或,第三聚类单元(图中未示出)。
第二聚类单元,用于当一个号码组合对应的关联权重大于第一门限,则将所述一个号码组合所包括的通信号码添加至同一群体。
第三聚类单元,用于若多个号码组合分别对应的关联权重均大于第二门限,且所述多个号码组合中的任意两个号码组合具有的相同通信号码的数量均大于第三门限,则将所述多个号码组合中通信号码添加至同一群体。
在基于图6所示实施例提供的另一个可选实施例中,所述装置还包括:号码添加模块(图中未示出)。
号码添加模块,用于将所述风险群体中未被所述黑名单记录的通信号码添加至所述黑名单中。
综上所述,本发明实施例提供的装置,通过计算在同一时段、并且采用同一IP地址执行网络行为的通信号码之间的关联权重,并根据上述关联权重进行聚类,进而确定出群体,由于综合考量IP地址、请求时刻以及号码特征等多个维度的数据来确定群体,并进一步根据该群体中风险号码的数量识别风险群体,因此本发明实施例确定群体的准确率较高,识别出风险群体的准确率也较高。
请参考图7,其示出了本发明另一个实施例提供的电子设备700的结构方框图。该电子设备700用于实施上述实施例中提供的识别风险群体的方法。
所述电子设备700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的***存储器704,以及连接***存储器704和中央处理单元701的***总线705。所述电子设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)706,和用于存储操作***713、应用程序714和其他程序模块715的大容量存储电子设备707。
所述基本输入/输出***706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入电子设备709。其中所述显示器708和输入电子设备709都通过连接到***总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出***706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他电子设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出电子设备。
所述大容量存储电子设备707通过连接到***总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储电子设备707及其相关联的计算机可读介质为电子设备700提供非易失性存储。也就是说,所述大容量存储电子设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储电子设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器704和大容量存储电子设备707可以统称为存储器。
根据本发明的各种实施例,所述电子设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即电子设备700可以通过连接在所述***总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述识别风险群体的方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由电子设备的处理器加载并执行以实现上述方法实施例中的识别风险群体的方法。
可选地,上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的示例性实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种识别风险群体的方法,其特征在于,所述方法包括:
获取通信号码对应的历史行为数据,所述历史行为数据包括多条历史行为记录,每条历史行为记录包括:所述通信号码在执行网络行为时使用的互联网协议IP地址以及所述通信号码执行所述网络行为时的请求时刻;
将所述历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,所述相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为;
分别计算各个所述号码组合对应的关联权重,所述号码组合对应的关联权重用于表征所述号码组合中通信号码之间的关联程度;
根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体;
根据所述群体中风险号码的数量识别风险群体。
2.根据权利要求1所述的方法,其特征在于,所述分别计算各个所述号码组合对应的关联权重,包括:
分别计算所述各个号码组合对应的特征值,所述特征值包括第一特征值、第二特征值和第三特征值中的至少一项;其中,所述号码组合对应的第一特征值用于表征所述号码组合中通信号码具有的所述相似网络行为的次数,所述号码组合对应的第二特征值用于表征所述号码组合中通信号码之间的相似度,所述号码组合对应的第三特征值用于表征所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型信息;
根据所述各个号码组合分别对应的特征值,确定所述各个号码组合对应的关联权重。
3.根据权利要求2所述的方法,其特征在于,当所述特征值包括所述第二特征值时,所述分别计算所述各个号码组合对应的特征值,包括:
对于每一号码组合,获取所述号码组合中通信号码分别对应的号码特征值,所述号码特征值包括通话特征值、绑定特征值和活跃特征值中的至少一项;其中,所述通话特征值是根据通信号码对应的通话行为量化得到的,所述绑定特征值是根据通信号码对应的绑定行为量化得到的,所述活跃特征值是根据通信号码所绑定的应用程序对应的活跃度量化得到的;
根据所述号码组合中通信号码分别对应的号码特征值,计算所述号码组合对应的第二特征值。
4.根据权利要求2所述的方法,其特征在于,当所述特征值包括所述第三特征值时,所述分别计算所述各个号码组合对应的特征值,包括:
对于每一号码组合,获取所述号码组合中通信号码在每一次执行所述相似网络行为时所使用的IP地址的类型;
根据指定类型的IP地址的使用数量,确定所述号码组合对应的第三特征值。
5.根据权利要求1至4任一项所述的方法,其特征在于,当所述号码组合包括两个通信号码时,所述根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体,包括:
构建群体特征图,所述群体特征图中的一个节点表示所述各个号码组合所包括的一个通信号码,所述群体特征图中相连的两个节点之间的连线表示所述两个节点分别对应的通信号码组成的号码组合对应的关联权重;
为所述群体特征图中的各个节点添加不同的标签;
对所述群体特征图中的各个节点的标签执行至少一轮更新过程,在每一轮更新过程中,对于所述群体特征图的每一个节点,根据与所述节点相连的其它节点的标签更新所述节点的标签;
当所述至少一轮更新过程执行完成时,将所述群体特征图中具有相同标签的节点对应的通信号码添加至同一群体。
6.根据权利要求1至4任一项所述的方法,其特征在于,当所述号码组合中通信号码的数量大于2时,所述根据所述各个号码组合分别对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体,包括:
若一个号码组合对应的关联权重大于第一门限,则将所述一个号码组合中通信号码添加至同一群体;
和/或,
若多个号码组合分别对应的关联权重均大于第二门限,且所述多个号码组合中的任意两个号码组合具有的相同通信号码的数量均大于第三门限,则将所述多个号码组合中通信号码添加至同一群体。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述群体中风险号码的数量识别风险群体之后,还包括:
将所述风险群体中未被所述黑名单记录的通信号码添加至所述黑名单中。
8.一种识别风险群体的装置,其特征在于,所述装置包括:
数据获取模块,用于获取通信号码对应的历史行为数据,所述历史行为数据包括多条历史行为记录,每条历史行为记录包括:所述通信号码在执行所述网络行为时使用的IP地址以及所述通信号码执行所述网络行为的请求时刻;
组合提取模块,用于将所述历史行为数据中具有至少一次相似网络行为的至少两个通信号码添加至一个号码组合,所述相似网络行为是指使用同一IP地址且请求时刻处于同一时段的网络行为;
权重计算模块,用于分别计算各个所述号码组合对应的关联权重,其中,所述号码组合对应的关联权重用于表征所述号码组合中通信号码之间的关联程度;
聚类模块,用于根据所述各个号码组合对应的关联权重,对所述各个号码组合中所有通信号码进行聚类得到至少一个群体;
群体确定模块,用于根据所述群体中风险号码的数量识别风险群体。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的识别风险群体的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的识别风险群体的方法。
CN201710937630.5A 2017-09-30 2017-09-30 识别风险群体的方法、装置及电子设备 Active CN109600344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710937630.5A CN109600344B (zh) 2017-09-30 2017-09-30 识别风险群体的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710937630.5A CN109600344B (zh) 2017-09-30 2017-09-30 识别风险群体的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109600344A true CN109600344A (zh) 2019-04-09
CN109600344B CN109600344B (zh) 2021-03-23

Family

ID=65956849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710937630.5A Active CN109600344B (zh) 2017-09-30 2017-09-30 识别风险群体的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109600344B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166635A (zh) * 2019-07-11 2019-08-23 中国联合网络通信集团有限公司 可疑终端识别方法和可疑终端识别***
CN110225036A (zh) * 2019-06-12 2019-09-10 北京奇艺世纪科技有限公司 一种账号检测方法、装置、服务器及存储介质
CN111245815A (zh) * 2020-01-07 2020-06-05 同盾控股有限公司 数据处理方法、装置、存储介质及电子设备
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
CN112351441A (zh) * 2019-08-06 2021-02-09 ***通信集团广东有限公司 一种数据处理方法、装置及电子设备
CN112615966A (zh) * 2020-12-14 2021-04-06 南方电网海南数字电网研究院有限公司 一种猫池终端识别方法
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN114221807A (zh) * 2021-12-14 2022-03-22 平安付科技服务有限公司 访问请求处理方法、装置、监控设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413013A (zh) * 2011-11-21 2012-04-11 北京神州绿盟信息安全科技股份有限公司 网络异常行为检测方法及装置
CN103577991A (zh) * 2012-08-03 2014-02-12 阿里巴巴集团控股有限公司 一种用户的识别方法和装置
CN104933570A (zh) * 2014-03-20 2015-09-23 阿里巴巴集团控股有限公司 用户侦测方法及装置
CN106157326A (zh) * 2015-04-07 2016-11-23 中国科学院深圳先进技术研究院 群体异常行为检测方法及***
CN106339615A (zh) * 2016-08-29 2017-01-18 北京红马传媒文化发展有限公司 一种异常注册行为的识别方法、***及设备
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法
US20170244735A1 (en) * 2014-12-22 2017-08-24 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413013A (zh) * 2011-11-21 2012-04-11 北京神州绿盟信息安全科技股份有限公司 网络异常行为检测方法及装置
CN103577991A (zh) * 2012-08-03 2014-02-12 阿里巴巴集团控股有限公司 一种用户的识别方法和装置
CN104933570A (zh) * 2014-03-20 2015-09-23 阿里巴巴集团控股有限公司 用户侦测方法及装置
US20170244735A1 (en) * 2014-12-22 2017-08-24 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
CN106157326A (zh) * 2015-04-07 2016-11-23 中国科学院深圳先进技术研究院 群体异常行为检测方法及***
CN106339615A (zh) * 2016-08-29 2017-01-18 北京红马传媒文化发展有限公司 一种异常注册行为的识别方法、***及设备
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110225036A (zh) * 2019-06-12 2019-09-10 北京奇艺世纪科技有限公司 一种账号检测方法、装置、服务器及存储介质
CN110166635A (zh) * 2019-07-11 2019-08-23 中国联合网络通信集团有限公司 可疑终端识别方法和可疑终端识别***
CN110166635B (zh) * 2019-07-11 2021-06-08 中国联合网络通信集团有限公司 可疑终端识别方法和可疑终端识别***
CN112351441A (zh) * 2019-08-06 2021-02-09 ***通信集团广东有限公司 一种数据处理方法、装置及电子设备
CN112351441B (zh) * 2019-08-06 2023-08-15 ***通信集团广东有限公司 一种数据处理方法、装置及电子设备
CN111245815A (zh) * 2020-01-07 2020-06-05 同盾控股有限公司 数据处理方法、装置、存储介质及电子设备
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
CN112615966A (zh) * 2020-12-14 2021-04-06 南方电网海南数字电网研究院有限公司 一种猫池终端识别方法
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113641970B (zh) * 2021-08-16 2022-08-26 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN114221807A (zh) * 2021-12-14 2022-03-22 平安付科技服务有限公司 访问请求处理方法、装置、监控设备及存储介质

Also Published As

Publication number Publication date
CN109600344B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109600344A (zh) 识别风险群体的方法、装置及电子设备
CN102300012B (zh) 呼叫中心中的一对一匹配
CN102223453B (zh) 高性能无队列呼叫中心
CN110163474A (zh) 一种任务分配的方法及设备
CN106875110A (zh) 业务指标分层计算方法及装置、分布式计算方法及***
CN105630977B (zh) 应用程序推荐方法、装置及***
US10637990B1 (en) Call center load balancing and routing management
US20190303709A1 (en) Feature information extraction method, apparatus, server cluster, and storage medium
CN106469413B (zh) 一种虚拟资源的数据处理方法及装置
CN110210883A (zh) 群控账号识别方法、装置、服务器及存储介质
CN102300009A (zh) 用于无队列呼叫中心的视图及衡量标准
CN106648688A (zh) 一种信息展示方法和装置
CN107294974A (zh) 识别目标团伙的方法和装置
CN102300011A (zh) 在无队列呼叫中心中用于填充及维护数据结构的自动机制
CN109274639A (zh) 开放平台异常数据访问的识别方法和装置
CN108549965A (zh) 数据处理方法及数据处理平台、服务器
CN107886361A (zh) 一种评估广告转化率预估模型的方法及服务器
CN110213071A (zh) 数据核对方法、装置、***、计算机设备和存储介质
CN110490416A (zh) 任务管理方法及终端设备
CN109377633A (zh) 一种排队号码生成方法及终端设备
US10757263B1 (en) Dynamic resource allocation
CN107679980A (zh) 用户信用的确定方法和装置
CN109635969B (zh) 推送资源转移要约的方法及装置
CN114363179B (zh) 针对云产品的成本优化方法及装置
CN107515816A (zh) 一种数据统计的方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant