具体实施方式
如前所述的异常行为(例如,“养卡”行为)需要在形成一定规模的情况下才能有效控制成本,以实现有利可图。经过长期的数据分析、打击养卡斗争中,逐渐摸清本地市场上渠道养卡行为特征,其主要表现在渠道月底冲量、集中发展、活跃度低等方面。相应地,根据本发明的实施例,通过“集中发展、通信行为、用户低质”三大维度,将识别异常用户(例如,养卡用户)的诸多条件细分为前提条件、必备条件和附加条件三个级别,来实现有层次的、灵活的异常用户识别,以便有效、准确且详尽地识别出各种行为特征的异常用户。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1A,是本发明实施例所涉及的一种云服务***示意图。该***包括云服务器101、用户终端102、运营商服务器103、服务网点设备104。可以理解的是,图中的用户终端102、运营商服务器103、服务网点设备104仅为示意,在实际应用场景中,包括大量的用户终端102、运营商服务器103、以及用户终端102、运营商服务器103、服务网点设备104。云服务器101通过与用户终端102、运营商服务器103、服务网点设备104通过各种网络(例如计算机网络、移动通信网络)等建立连接后,可以在相关用户同意的情况下,例如通过提示界面提示用户需要搜集界面所列各种信息,相应用户在界面上同意可以搜集的情况下,搜集相应的用户信息以供执行本申请相应的移动通信中异常用户识别的方法。
对于云服务器101而言,能够提供云服务器,云服务可以实现基于网络的相关服务的增加、使用和交互,可通过互联网来提供动态易扩展且是虚拟化的资源,云服务器101搭载的云计算环境可以包括云管理功能、软件即服务(SaaS)层、平台即服务(PaaS)层、基础设施即服务(IaaS)层等组件。这些组件协同工作以实现由云计算环境经由云或联网环境提供各种服务,例如,用于提供根据本发明实施例的异常用户识别的方法的结果(即,识别出的异常用户集合)。
云管理功能可以提供对于各种云服务(包括但不限于SaaS层、PaaS层、IaaS层)的综合管理。例如,云管理功能可以包括供应、管理和跟踪用户订阅的各种云服务。
SaaS层可以例如通过用户界面与用户直接交互而提供软件层级的云服务。例如,SaaS层可以提供在集成的开发和部署平台上构建和交付一套按需应用的能力。由SaaS层提供的云服务便于用户利用云计算环境上执行的应用,例如,利用图1B-图4C所示的方法和/或图6所示的装置获得识别出的异常用户集合。
PaaS层可以例如提供平台级别的开发和分发应用的解决方案。例如,PaaS层可以为有开发需求的用户提供分布式操作***,以实现用户的协作开发和资源的弹性扩展。由PaaS层提供的服务便于用户利用由云计算环境支持的编程语言和工具和控制所部署的服务,从而能够实现例如针对图1B-图4C所示的方法和/或图6所示的装置的各个特征的改进或训练。
IaaS层可以例如提供基础设施级别的各种底层的硬件资源。例如,IaaS层可以提供服务器、存储装置和其他网络硬件,以便节省用户的硬件维护成本和改善办公场地限制。IaaS层便于用户对硬件资源的管理和控制,例如,可以用于在硬件上实施如上所述的智能设备。
根据本发明实施例,图1B-图4C所示的方法和/或图6所示的装置和/或图7所示的智能设备可以在如上所述的SaaS层、PaaS层、IaaS层中的一个或多个上单独或组合地实施,并且可以以硬件、软件、或软件和硬件的组合来实施。换句话说,根据本发明实施例的各方面的方法、装置、设备和/或计算机可读存储介质等都可以转到云计算环境中实施,例如,本领域技术人员可以根据需要将各个特征布置在相应的层级单独地或组合地实施。例如,用户可以订阅由云计算环境提供的一个或多个服务。然后,云计算环境可以执行处理,以提供用户所订阅的一个或多个服务,例如提供通过实施图1B-图4C所示的方法和/或图6所示的装置而识别出的异常用户集合,和/或相关的开发功能。
图1B是示出根据本发明实施例的用于异常用户识别的示例方法100的流程图。
根据本发明的实施例,异常用户通常包括通信行为异常的用户,诸如养卡用户、低质客户。在以下本发明的实施例中用养卡用户作为异常用户的示例来说明本发明,但本发明不限于此。养卡用户一般是指用于养卡的SIM卡所对应的用户,并且一个养卡用户对应于一个用户标识,诸如SIM卡的标识。通常,与养卡关联的数据包括但不限于用户的通话时长、流量大小、短信数量、出账收入等。这样的数据通常是由运营商为进行日常运营而记录的,可以在运营商侧(例如,由运营商设置的服务器)的运营数据中直接获取,而不会涉及用户个人的隐私(例如,在人工分析用户个人数据的情况下)。
如图1B所示,用于异常用户识别的示例方法100可以由一个智能设备来执行,该智能设备例如可以是运营商在后台设置的一个专用服务器。该方法包括以下步骤:
步骤S101:获得第一用户集合。
第一用户集合可以包括多个用户标识(例如,SIM卡的标识)。用户标识可以映射到来自运营商的运营数据中相应用户的运营数据,例如,以用于异常用户识别相关的分析。第一用户集合可以是任何待筛选的、可能包含异常用户(例如,养卡用户)的用户标识的用户标识集合,即疑似异常用户(例如,养卡用户)集合。例如,第一用户集合可以是根据某种预定条件或任意地从运营商处或其他数据源获取的用户集合,本发明对此不作任何限制。
步骤S102:获得第一用户集合中的每个用户标识所指示用户的活跃度关联数据。
如前所述,类似地,用户标识可以映射到相应用户的活跃度关联数据(例如,存储在运营商的服务器中)。相应地,可以由此获得用户集合的每个用户的活跃度关联数据。通常,活跃度关联数据包括用户标识所指示用户的通话时长(例如,以分钟为单位)、流量大小(例如,以M为单位)、短信数量以及任何其他能够反映出用户在有限时间内(例如,使用相应SIM卡)进行通信行为的频次高低的数据,本发明对此不作任何限制。
步骤S103:根据活跃度关联数据从第一用户集合中确定第二用户集合。
可以根据活跃度关联数据来确定用户进行通信行为(例如,短信、通话等)的频次高低,并且据此来判断该用户是否有可能为异常用户(例如,养卡用户)。例如,使用频次越高(即活跃度越高),该用户越可能是正常用户,而使用频次越低(即活跃度越低),该用户越可能是异常用户(例如,养卡用户)。为此,可以为每种活跃度关联数据设置相应的活跃度阈值,也可以为多种活跃度关联数据设置单个总活跃度阈值,以便于所述确定操作,这将在下文中具体描述。因此,根据活跃度关联数据和相应设置的阈值,可以衡量第一用户集合中的每个用户标识所指示用户的活跃度高低,并且据此从第一用户集合中筛选出满足活跃度阈值(例如,低于某一活跃度阈值)的一个或多个用户所对应的用户标识,作为第二用户集合(例如,以作为缩小范围的疑似异常用户(例如,养卡用户)集合)。
根据本发明的实施例,根据活跃度关联数据进行的确定(或筛选)可以用作异常用户(例如,养卡用户)识别的必备条件,因为通常活跃度低才能够为异常行为(例如,养卡行为)节约成本,所以当活跃度足够高时,异常行为(例如,养卡行为)本身也失去了牟利的意义。
步骤S104:获得第二用户集合中的每个用户标识所指示用户的行为特征数据。
如前所述,类似地,用户标识可以映射到相应用户的行为特征数据(例如,存储在运营商的服务器中)。相应地,可以由此获得用户集合的每个用户的行为特征数据。通常,除了如上所述的通话时长、流量大小和短信数量之外,行为特征数据还包括用户标识所指示用户的出账收入(例如,以元为单位)、联系号码、用户身份(例如,用户注册所使用的证件号码、IMEI等)、接入基站、激活时间、离网时间以及任何其他能够表征用户通信行为的数据,本发明对此不作任何限制。容易想到的是,行为特征数据与活跃度关联数据可以有重叠的部分,例如,通话时长、流量大小和短信数量等。
步骤S105:根据行为特征数据从第二用户集合中确定第三用户集合。
可以根据行为特征数据来分析用户标识所指示用户的通信行为特征(例如,分类的通信行为特征),并且据此来判断该用户是否有可能为异常用户(例如,养卡用户)。行为特征的分类可以包括联系号码集中、开机时间短、开户身份集中、接入基站集中、IMEI集中、短期离网以及任何其他能够指示一个或多个用户可能为异常用户(例如,养卡用户)的行为特征,本发明对此不作任何限制。
例如,行为特征“IMEI集中”可以指大于或等于某一阈值(例如,5个)的用户使用同一IMEI的终端激活或拨打电话。例如,行为特征“短期离网”可以指新发展用户在某一时间阈值(例如,三个月,例如可以是将入网当月计算在内的三个月时间)内离网,或在该时间阈值之后不再出账。
当对用户的行为特征数据进行分析之后,可以将满足某一特定分类(例如,短期离网)的用户的用户标识记录到第三用户集合中,或者可以将满足特定分类(例如,IMEI集中)的多个用户的用户标识记录到第三用户集合中。例如,如果从行为特征数据中分析出某用户在三个月内离网或三个月后不出账,则可以将该用户的用户标识记录到第三用户集合中。例如,可以在满足特定分类(例如,IMEI集中)的多个用户的数量大于某一阈值(例如,5个)时才将这些用户的用户标识记录到第三用户集合中。可以理解的是,如果从行为特征数据中分析出多个用户(尤其是在大于某一阈值的话)使用同一IMEI的终端激活或拨打电话,则这很有可能是使用“猫池”进行养卡的情况。更多的行为特征数据以及相关分析将在下文中描述。
因此,根据行为特征数据和相应设置的分类,可以将第二用户集合中的一个或多个用户标识的行为进行分类,并且从第二用户集合中选择满足某一分类条件的一个用户标识或者满足某一分类条件的(大于某一阈值的)多个用户标识,作为第三用户集合,即将筛选出的用户标识记录到第三用户集合中,以作为进一步缩小范围的疑似异常用户(例如,养卡用户)集合。
根据本发明的实施例,根据行为特征数据进行的确定(或筛选)可以用作异常用户(例如,养卡用户)识别的附加条件,以在确定满足必备条件的基础上对较大范围的用户集合进行进一步确定(或筛选),以便更准确地定位到一个或多个异常用户(例如,养卡用户)。因为既满足活跃度低又满足某一特定异常行为特征的用户更有可能是异常用户(例如,养卡用户),或者既满足活跃度低又满足某一特定异常行为特征的多个呈现行为集中特征的用户更有可能是异常用户(例如,养卡用户),所以这种活跃度分析+行为特征分析的两级确定(或筛选)能够比单独无序地进行多个筛选更有效地识别出异常用户(例如,养卡用户),并且能够降低数据处理量。
图2A-图2B是示出根据本发明实施例的用于确定第一用户集合的示例方法的流程图,其中,如前所述的第一用户集合通常可以基于多个目标网点的新增用户数量来获得。
如图2A所示,用于确定第一用户集合的示例方法200可以实施如图1B所示的步骤S101(即获得第一用户集合),并且可以包括以下步骤:
步骤S201:从运营商数据库获得多个目标网点的运营数据。运营数据可以包括多个目标网点中的每个目标网点在预定时间段内的每日新增用户数量。
例如,预定时间段通常可以是某一月份或指定的多日。
步骤S202:对于每个目标网点,基于每日新增用户数量确定目标网点是否满足预定条件。
这里的预定条件可以是如前在步骤S101中提及的预定条件。例如,预定条件可以用于确定某个渠道(例如,可以是新发展的渠道或者其他有必要检查以考核其是否存在异常用户(例如,养卡用户)的渠道)内多个网点中的一个网点,以作为疑似异常用户(例如,养卡用户)集合。预定条件的具体示例将在下面进行描述。
步骤S203:如果确定目标网点满足预定条件,则将与目标网点对应的多个用户标识确定为第一用户集合。反之,则可以回到步骤S202前,以对下一个目标网点执行步骤S202。
如图2B所示,用于确定第一用户集合的示例方法200'并且可以包括以下步骤:
步骤S201和步骤S203与图2A相同,此处省略其描述。
步骤S2021至S2024可以实施如图2A所示的步骤S202,具体包括:
步骤S2021:基于目标网点在预定时间段内的每日新增用户数量,计算目标网点在预定时间段的第一子时间段内的第一日均新增用户数量以及目标网点在预定时间段的第二子时间段内的第二日均新增用户数量,并且将第一日均新增用户数量与第二日均新增用户数量的比值同第一阈值进行比较。
例如,预定时间段可以是指定月份(例如,指定年份的1-12月的任一月份),第一子时间段可以是指定月份的指定最后几日(例如,最后五日),并且第二子时间段可以是指定月份除指定最后几日(例如,最后五日)之外的其他日。在一个示例中,取第一子时间段为某年一月的最后五日,第二子时间段为该月的前二十六日,并且每日新增用户数量记为X
i,其中X指新增用户数量,角标i指该月的第几日,例如该月第六日的新增用户数量记为X
6。在该示例中,最后五日的日均新增用户(即第一日均新增用户数量)计算为
(i=27,28,…31);前二十六日的日均新增用户(即第二日均新增用户数量)计算为
(i=1,2,…26)。那么,第一日均新增用户数量与第二日均新增用户数量的比值计算为
在这种情况下,比值
可以指示该网点月末日均用户发展量是否超过该月其他时段的日均发展量达到“可疑”水平,因为为达到更好的业绩进行月末“冲量”,某些养卡用户的发展可能倾向于出现在月末。例如,第一阈值可以设置为1.4,即指示超过40%的水平。可替代地,也可以用第一日均新增用户数量与第二日均新增用户数量之间的差值来替换所述比值,本发明不限于此。
步骤S2022:计算目标网点在预定时间段的第三子时间段内的累计新增用户数量,并且将累计新增用户数量同第二阈值进行比较。
例如,第三子时间段可以是预定时间段内任意选择的连续三日。在一个示例中,取第三子时间段为某年一月的第二十日至第二十二日,则第三子时间段内的累计新增用户数量计算为Ni=20~22=∑Xi,其中,N指示累计新增用户数量,角标i=20~22指示所对应的连续时间为该月第二十日至第二十二日。在这种情况下,可以指示在该连续三日内集中发展用户数量(即累计新增用户数量)是否明显超出正常水平。例如,第二阈值可以设置为50或100或其他数量,本发明不限于此。
如图所示,步骤S2021和S2022可以并行地执行,并且相应地,随后的步骤S2023和S2024也可以分别并行地执行。如下:
步骤S2023:判断计算出的比值是否大于或等于第一阈值。
步骤S2024:判断累计新增用户数量是否大于或等于第二阈值。
如图所示,步骤S2023和S2024汇聚到一个箭头指向步骤S203,这意味着两个判断之间是逻辑OR的关系。也就是说,如果步骤S2021和S2023的比较的结果指示差值大于或等于第一阈值和累计新增用户数量大于或等于第二阈值中的至少一项,则确定目标网点满足预定条件。即,确定该目标网点是疑似存在异常用户(例如,养卡用户)的网点,值得对其进一步筛选(确定为第一用户集合)。
这里,方法200和200'可以用于从多个网点中确定一个网点作为待筛选的用户集合。进一步地,方法200和200'可以用作“前提条件”,以便与如前所述的“必备条件”和“附加条件”相结合,实现有层次的、灵活的异常用户(例如,养卡用户)识别,更有利于提高识别的效率。
图3是示出根据本发明实施例的用于确定第二用户集合的示例方法300的流程图。
如图3所示,用于确定第二用户集合的示例方法300可以实施如图1B所示的步骤S103(即根据活跃度关联数据从第一用户集合中确定第二用户集合),在根据本发明的实施例中,活跃度关联数据至少包括用户标识所指示用户的通话时长、流量大小和短信数量,并且方法300可以在如前所述的步骤S102之后包括以下步骤:
S1031:针对第一用户集合中的每个用户标识:计算用户标识所指示用户的通话时长、流量大小和短信数量的加权和。
例如,所选取的用户标识所指示用户的通话时长、流量大小和短信数量可以是某一时间段(例如,某一月份)的数据。并且,由于各个指标的单位通常不同,因此可以在计算加权和之前对各个指标进行标准化。此外,各个指标的权重可以默认为1,或者可以根据需要来不同地设置。在该示例中,如此计算的加权和可以指示用户在当月的活跃度高低,即加权和越高,活跃度越高,而加权和越低,活跃度越低。
S1032:将计算出的加权和与第三阈值进行比较,例如,以判断加权和是否小于或等于第三阈值。
第三阈值可以是任意能够反应活跃度高低的加权和阈值,在此仅作为示例术语示出,本发明对此不作任何限制。
S1033:如果计算出的加权和小于或等于所述第三阈值,则将用户标识记录到第二用户集合中。反之,则可以回到步骤S1031前,以对下一个用户标识执行步骤S1031至S1032。
可选的,方法300还可以在如前所述的步骤S1033之后包括以下步骤:
S1034:将第二用户集合中的各个用户标识所指示用户的通话时长、流量大小和短信数量分别与低通话时长阈值、低流量大小阈值和低短信数量阈值进行比较,例如,以确定通话时长、流量大小和短信数量是否分别小于或等于相应的阈值。如果是,则在步骤S1035中,将通话时长小于或等于低通话时长阈值、流量大小小于或等于低流量大小阈值、并且短信数量小于或等于低短信数量阈值的对应的用户标识作为目标用户标识,并且将其从第二用户集合中删除。如果不是,则对第二用户集合中的下一用户标识重复步骤1304。
在这种情况下,可以不为各种指标进行标准化。例如,低通话时长阈值可以设置为5分钟,低流量大小阈值可以设置为3M,并且低短信数量阈值可以设置为4条。当通话时长、流量大小和短信数量分别小于或等于相应的阈值时,可以将该用户确定为“极低使用用户”。当通话时长、流量大小和短信数量都为零时,可以将该用户确定为“三无用户(即无通话、无流量、无短信)”。
S1035:如前所述,将通话时长、流量大小和短信数量同时满足阈值条件(例如,小于或等于相应的阈值)的对应的用户标识确定为目标用户标识,并且将其从第二用户集合中删除。也就是说,将第二用户集合中的各个目标用户标识删除。
通过步骤S1034至S1035,可以过滤掉第二用户集合中活跃度明显过低的用户(即明显的低质用户)所对应的用户标识。这种低质用户无论是否为养卡用户,可能都不值得运营商再为其提供服务。例如,可以接着分析这种低质用户的通信行为(“三无”和“极低使用”)的用户的持续时间是否超过某一时间(例如,三个月),以便进一步判断是否应当停止为该用户提供服务。
在一个实施例中,可以将S1034放在S1031之前执行,以从第二用户集合中删除“三无”和“极低使用”的用户所对应的用户标识。
图4A-图4C是示出根据本发明实施例的用于确定第三用户集合的示例方法的流程图。
在根据本发明的实施例中,行为特征数据可以包括用户标识所指示用户的出账收入、短信数量、通话时长、流量大小、联系号码、用户身份中的一个或多个。并且,除了如前所述的IMEI集中和短期离网之外,行为特征分类还可以包括联系号码集中、开机时间短、开户身份集中和接入基站集中等。
例如,联系号码集中可以指用户在指定时间(例如,指定月份)内联系号码数(主叫付费号码+被叫)小于或等于某一阈值(例如,3个),其中,联系号码通常不含诸如10000之类的客服电话。
例如,开机时间短可以指用户在指定时间(例如,指定月份)内开机时间小于或等于某一阈值(例如,3天),其中,在开机时间按天计算的情况下,自然日内开机超过某一阈值(例如,2小时)的行为可以被判定为当日开机。
例如,开户身份集中可以指在指定时间(例如,指定月份)内大于某一阈值(例如,3个)的用户使用相同的证件开户。
例如,接入基站集中可以指用户在指定时间(例如,指定月份)内所接入的基站的数量小于或等于某一阈值(例如,3个)。
如图4A所示,用于确定第三用户集合的示例方法400可以实施如图1B所示的步骤S105(即根据行为特征数据从所述第二用户集合中确定第三用户集合),方法400可以包括以下步骤:
步骤S401:分析第二用户集合中的每个用户标识所指示用户的行为特征数据。
如前所述,这里的分析可以是分析用户标识所指示用户的通信行为特征(例如,将用户的通信行为特征进行分类),以确定满足某一特定异常行为特征(即特定分类的通信行为特征)的一个或多个用户标识作为分析的结果。
步骤S402:根述分析的结果从第二用户集合中确定第三用户集合。
如前所述,可以将在步骤S402中确定的某一特定异常行为特征的一个或多个用户标识纳入第三用户集合,作为疑似异常用户(例如,养卡用户)集合。在另一示例中,还可以在所确定的某一特定异常行为特征的多个用户标识的数量大于或等于某一阈值(例如,特定养卡行为特征具有集中性的表现)时,才将所述多个用户标识纳入第三用户集合。这里,纳入第三用户集合是指将所确定的用户标识记录到第三用户集合中。
在更具体的实施例中,步骤S401和S402可以有不同的实施方法。
如图4B所示,步骤S401和S402可以用示例方法400'来实施。方法400'包括以下步骤:
步骤S4011至S4013可以实施如图4A所示的步骤S401。
步骤S4011:计算第二用户集合中的每个用户标识所指示用户的行为特征分数。
根据本发明的实施例,行为特征分数可以基于行为特征数据来计算,以用于对行为特征进行评估、分析或分类等。例如,行为特征分数S可以是一种行为特征数据的标准化表示,诸如(S-μ)/σ,其中μ是该行为特征数据的平均值(例如,相对于某个月份的特定时间段),σ是该行为特征数据的方差。然而,本发明对行为特征分数的计算方法不作任何限制,其他衡量行为特征数据的标准化方法也是可以的。
步骤S4012:从计算出的每个用户标识所指示用户的行为特征分数中推导出每两个用户标识所指示用户之间的行为特征相似度。
根据本发明的实施例,行为特征相似度是基于每两个用户的行为特征分数来计算的,以用于表征两个用户之间行为相似的程度。在一个示例中,可以直接用相似度距离(例如,欧几里得距离)来描述行为特征相似度。在这种情况下,用户a与用户b之间的距离d可以表示为:
其中,j为指示行为特征分数的类型的索引。例如,j=1指示该行为特征分数为出账分数,j=2指示该行为特征分数为短信分数,可以根据需要进行设置。此外,在这种情况下,所计算的行为特征相似度A(即表征相似度的距离)越低,两个用户之间的选定行为特征的相似性越高。在另一示例中,也可以用1与归一化的相似度距离值之间的差值来表示两个用户之间的选定行为特征的相似性。在这种情况下,从数值上更直接地反映出,所计算的行为特征相似度A(即(1-距离值))越高,两个用户之间的选定行为特征的相似性越高。
步骤S4013:对于第二用户集合中的选定用户标识,将与选定用户标识所指示用户的行为特征相似度在行为特征相似度阈值范围内的其他用户的用户标识作为选定用户标识的关联用户标识。
根据本发明的实施例,对于选定用户标识,执行步骤S4013来计算该选定用户标识与同一用户集合内其他用户标识之间的针对某一行为特征数据/分数的相位特征相似度。例如,对于用户标识a的短信分数(例如,用j=2表示),可以计算第二用户集合内其他用户标识b-z的短信分数,并且逐一计算出短信分数相似度A2(a,b)、A2(a,c)、……、A2(a,z)(例如,用(1-归一化的相似度距离值)来计算)。然后,例如,将短信分数的行为特征相似度阈值设置为0.97,那么A2(a,b)-A2(a,z)中大于或等于0.97的相似度所对应的用户标识即为需要记录的关联用户标识。例如,如果其中A2(a,c)、A2(a,f)、A2(a,g)、A2(a,m)、A2(a,n)和A2(a,r)大于或等于0.97,则将用户标识c、f、g、m、n和r记录为关联用户标识。根据本发明的实施例,还可以选择多种行为特征数据/分数以计算(例如,加权的)整体相似度。
步骤S4021至S4023可以实施如图4A所示的步骤S402。
步骤S4021:计算关联用户标识的数量。
在如上示例中,针对短信分数,用户标识c、f、g、m、n和r被累计为6个。
步骤S4022:将计算出的关联用户标识的数量加一的和与预定数量阈值进行比较,例如,以判定关联用户标识的数量加一是否大于或等于数量阈值。
步骤S4023:如果确定计算出的关联用户标识的数量加一的和大于或等于预定数量阈值,则将选定用户标识及其关联用户标识一起记录到第三用户集合中。
在预定数量阈值为5的情况下,将如上累计的关联用户标识的数量6+1=7与5进行比较。由于7>5,因此,将相应的用户标识c、f、g、m、n和r以及a记录到第三用户集合中。
这里,另外再给出一个与养卡用户识别相关联的示例相似度算法以用于实施步骤S4012至S4013和步骤S4022至S4023:根据新入网用户入网次月出帐费用、呼叫次数、使用流量、短信发送次数,同一用户集合中相似用户大于或等于5个即将所有相似用户(包括选定用户)确定为疑似养卡用户。具体的示例计算流程可以如下:
步骤1:指标选择和标准化(相当于步骤S4011)。例如,按照业务类型,选择并计算新发展用户的出账收入、呼叫次数、使用流量、短信数量的平均值和标准差。然后,分别计算出账收入、呼叫次数、使用高流量和短信数量的分数。例如,出账收入分数=(出账收入-出账收入平均值)/出账收入标准差。
步骤2:计算同一用户集合(例如,同一渠道或同一网点或其他范围内的用户)中针对选定用户与其他用户之间的用户相似度(相当于步骤S4012至S4013)。例如,针对用户a,他与用户b之间的整体相似度可以计算如下:
在该示例中,计算出的整体相似度越高,说明用户之间的收入、呼叫、流量、短信等常见通信行为十分接近,有可能是用在硬件上执行的算法批量模拟出通信行为的养卡用户。
步骤3:确定行为相似用户(即关联用户标识)(相当于步骤S4021至S4023)。例如,如果两个用户之间的相似度大于或等于某一阈值(例如,0.97,在这种情况下,其间的距离小于0.03),则确定这两个用户是相似的。然后,如果同一用户集合中累计与选定用户相似的用户加上选定用户(即,针对该行为特征数据/分数的所有相似用户)超过阈值数量(例如,5个),则判定选定用户以及与其行为特征相似的用户为疑似养卡用户。
相似度的算法和相关的确定(筛选)出第三用户集合的方法可以因所选的行为特征数据或行为特征数据的组合而异,本发明不限于此。
如图4C所示,步骤S401和S402可以用示例方法400”来实施。方法400”包括以下步骤:
步骤S4014至S4015可以实施如图4A所示的步骤S401。
步骤S4014:提取第二用户集合中的每个用户标识所指示用户的IMEI。
在这个示例中是将用户标识所指示用户的行为特征数据定义为IMEI,并且可以从行为特征数据中以用户标识为索引来进行搜索以提取相应的IMEI集合(例如,从运营商的服务器搜索并提取)。由于IMEI是标识类型的数据,因此对用户之间的相似度比较可以针对IMEI按位进行,并且在一个示例中,仅通过比较来确定用户之间的IMEI是相同还是不同。
步骤S4015:对于第二用户集合中的选定用户标识,将与选定用户标识所指示用户具有相同IMEI的其他用户的用户标识作为关联用户标识。
这里,相同IMEI的多个用户说明这些用户是在同一硬件中激活和通信的。当相同IMEI的用户数量(这里是选定用户标识加上与其IMEI相同的其他用户标识的数量)大于或等于某一阈值(例如,5个)时,则说明所述“同一硬件”很有可能是“猫池”,而不是一般用户常用的“双卡双待型手机”。这种情况可以称为“IMEI集中”。
步骤S4021至S4023可以实施如图4A所示的步骤S402,这与图4B相同,因此省略其描述。
通过确定针对某一特定异常行为特征的用户数量达到阈值(例如,IMEI集中)来进一步确定出疑似异常用户(例如,养卡用户)集合。由于图4A-图4C的方法可以在图3的方法(可选的还有图2A-图2B的方法)之后进行(如图1B所示),因此可以实现有层次的、灵活的异常用户(例如,养卡用户)识别,以按照“前提条件”、“必备条件”、“附加条件”(其中,“前提条件”可以是可选的)的次序有序地进行层层递进的筛选,有利于减少所处理的数据量,加快处理速度并提高识别的准确度。
图5是示出根据本发明实施例的行为相似度的示意图,其中,行为相似度用使用流量和通话次数来描述,并且用距离来衡量。
如图5所示,横轴指示的通话次数在正方向上递增,纵轴指示的使用流量在正方向上递增。图中的每个散落的点指示一个用户,并且点的位置指示该用户的使用流量和通话次数两者的特征。相应地,点与点之间的距离越近,则点所指示的用户之间的相似程度越高。如图中所圈出的7个用户为相似度高的用户(例如,彼此之间的相似度距离小于某一阈值),并且在该区域内(即行为特征相似度阈值范围内)的用户的数量大于某一阈值(例如,5个),则可以将这7个用户判定为疑似异常用户(例如,养卡用户)。
可选的,还可以用三维空间甚至更多维的空间(3个或更多个行为特征数据用于指示行为特征相似度时)来指示相似度,本发明对此不作任何限制。
图6是示出根据本发明实施例的用于异常用户(例如,养卡用户)识别的示例装置600的框图。
如图6所示,示例装置600可以包括第一筛选单元601、第二筛选单元602和第三筛选单元603,用于对输入的数据进行三轮筛选,以实现分层次的筛选,从而提高识别效率和准确率并且降低处理数据量。
具体地,第一筛选单元601可以将运营数据作为输入,实施如图1B所示的步骤S101或如图2A-图2B所示的步骤S201至S203,以产生第一用户集合给第二筛选单元602。第二筛选单元602可以将第一用户集合作为输入,实施如图1B所示的步骤S102至S103或如图3所示的步骤S1031至S1035,以产生第二用户集合给第三筛选单元603。第三筛选单元603可以将第二用户集合作为输入,实施如图1B所示的步骤S104至S105或如图4A-图4C所示的步骤S401至S402,以产生第三用户集合作为最终识别的异常用户(例如,养卡用户)集合。
此外,根据本发明的实施例,如上所述的各种方法和装置可以使用神经网络来实施,以便进行机器学习和训练来优化参数。然而,本发明不限制神经网络的类型,通常可以是递归神经网络。例如,可以基于最小化第一用户集合所包括的实际异常用户数量与第一用户集合的总用户数量之间的差值、第二用户集合所包括的实际异常用户数量与第二用户集合的总用户数量之间的差值、以及第三用户集合所包括的实际异常用户数量与第三用户集合的总用户数量之间的差值中的一个或多个,来训练神经网络的各个阈值参数或参数组合。也就是说,可以基于每一轮次筛选的集合包含更多的实际异常用户数量(即提高每一个筛选的效率)来训练神经网络。可替代地,还可以基于筛选速度(输入结果与输出结果之间的时间差)来进行训练。并且,示例装置的各个单元可以分别用神经网络来实施,或者可以作为整体用一个神经网络来实施。
图7是示出根据本发明实施例的智能设备700的框图。
如图7所示,智能设备700可以包括存储装置701和处理器702。存储装置701用于存储计算机程序。处理器702运行所存储的计算机程序,用于实现如上所述的各种方法。
所述存储装置701可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储装置还可以包括上述种类的存储器的组合。
所述处理器702可以是中央处理器(central processing unit,CPU)。所述处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。
可选地,所述存储装置还用于存储程序指令。所述处理器可以调用所述程序指令,实现如本申请图1B-图4C的实施例中所示的方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述实施例提供的方法。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。