CN115099832A

CN115099832A - 异常用户检测方法及其装置、设备、介质、产品

Info

Publication number: CN115099832A
Application number: CN202210760963.6A
Authority: CN
Inventors: 吴智东
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-23
Anticipated expiration: 2042-06-29
Also published as: CN115099832B

Abstract

本申请涉及异常用户检测方法及其装置、设备、介质、产品，所述方法包括：获取独立站的用户集群中各个用户的邮箱；对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。本申请基于统计的方式，根据用户之间邮箱的相似性识别出用户群体中的异常用户，效率高，成本低，适于电商平台的独立站使用。

Description

异常用户检测方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种异常用户检测方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着信息技术的不断发展，许多自营电商企业或独立站商铺，会在自身的官方网站开设用户管理***，用户如果需要在其官网上购买商品，需要先注册一个账号。一般为了方便记忆，同一个人注册的多个账号相对于其他人注册的账号，相似性会比较高。根据这种相似性识别出这些异常用户，对维护独立站乃至整个电商平台的信息安全而言，至关重要。

识别异常用户的常见方式，是根据用户在注册时所提供的昵称、性别、其他文本等信息提取特征，构造相应的图谱，再根据图聚类算法对用户是否属于异常用户进行识别。这种方式能够识别大部分的用户，但难免也有漏网之鱼。此外这种方式并不适用于基于独立站的电商平台中为各个独立站提供服务，其原因在于各个独立站运行的是独立的线上店铺，每个线上店铺自有的用户相对较少，无法获得海量的样本数据用于对图聚类算法相对应的聚类模型实施有效的训练，即使勉强实施，其训练成本也较高。

另一种传统方式可以通过检测注册用户的邮箱是否相似来识别异常用户，常见的方法是直接将邮箱按照字符切分，然后进行集合相似度计算；另外，还有些方案会考虑到域名的影响，剔除域名后，结合字符切分，然后再计算集合相似度。这种方法中，仅仅考虑了邮箱的字符信息，所起作用非常有限，往往无法有效识别出异常用户群。特别是不法用户容易归纳总结出其中的检测规则，然后轻而易举地绕开检测***。

因而，针对基于独立站的电商场景，如何综合成本因素和效率因素，提供有效识别异常用户的解决方案，仍有探索的空间。

发明内容

本申请的目的在于解决上述问题而提供一种异常用户检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、

适应本申请的各个目的，采用如下技术方案：

一个方面，适应本申请的目的之一而提供一种异常用户检测方法，包括：

获取独立站的用户集群中各个用户的邮箱；

对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；

结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；

根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。

可选的，获取独立站的用户集群中各个用户的邮箱，包括：

从电商平台的独立站中抽取出预设的同个时期注册的用户，构成用户集群；

获取用户集群中各个用户注册登记的邮箱。

可选的，结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他邮箱的相似总分，包括：

基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值；

基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值；

以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。

可选的，基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值，包括：

针对各个邮箱的前缀分别获取其序列标注信息，根据序列标注信息进行关键词提取，获得各个邮箱的前缀相对应的关键词集；

以每个邮箱为目标邮箱，以目标邮箱之外的各个邮箱逐一确定出参考邮箱，统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度；

根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分；

将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的关键词相似分值，将前缀相对应的距离得分归一化为关键词位置相似分值。

可选的，基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值，包括：

对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作，获得前缀和后缀各自对应的分词集；

基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值；

基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。

可选的，以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分，包括：

从用户集群中确定一个目标邮箱，将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱，由目标邮箱和参考邮箱构成邮箱对；

根据预设加权公式，将所述邮箱对中，与目标邮箱相对应的关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和，将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分；

迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。

可选的，根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户，包括：

针对用户集群中的每一目标邮箱，确定出与其相似总分达到预设阈值的其他邮箱，将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱；

将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。

另一方面，适应本申请的目的之一而提供一种异常用户检测装置，包括：邮箱获取模块、文本处理模块、总分确定模块，以及用户识别模块，其中，所述邮箱获取模块，用于获取独立站的用户集群中各个用户的邮箱；所述文本处理模块，用于对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；所述总分确定模块，用于结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；所述用户识别模块，用于根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。

可选的，所述邮箱获取模块，包括：用户抽取单元，用于从电商平台的独立站中抽取出预设的同个时期注册的用户，构成用户集群；邮箱抽取单元，用于获取用户集群中各个用户注册登记的邮箱。

可选的，所述总分确定模块，包括：关键词计分子模块，用于基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值；分词计分子模块，用于基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值；分值汇总子模块，用于以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。

可选的，所述关键词计分子模块，包括：关键词提取单元，用于针对各个邮箱的前缀分别获取其序列标注信息，根据序列标注信息进行关键词提取，获得各个邮箱的前缀相对应的关键词集；集合相似计算单元，用于以每个邮箱为目标邮箱，以目标邮箱之外的各个邮箱逐一确定出参考邮箱，统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度；距离得分计算单元，用于根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分；归一化处理单元，用于将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的关键词相似分值，将前缀相对应的距离得分归一化为关键词位置相似分值。

可选的，所述分词计分子模块，包括：分词执行单元，用于对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作，获得前缀和后缀各自对应的分词集；前缀分词计分单元，用于基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值；后缀分词计分单元，用于基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。

可选的，所述分值汇总子模块，包括：邮箱对确定单元，用于从用户集群中确定一个目标邮箱，将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱，由目标邮箱和参考邮箱构成邮箱对；总分汇总单元，用于根据预设加权公式，将所述邮箱对中，与目标邮箱相对应的关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和，将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分；迭代处理单元，用于迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。

可选的，所述用户识别模块，包括：同簇判定子模块，用于针对用户集群中的每一目标邮箱，确定出与其相似总分达到预设阈值的其他邮箱，将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱；异常处理子模块，用于将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的异常用户检测方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的异常用户检测方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述异常用户检测方法的步骤。

相对于现有技术，本申请具有多方面优势，包括但不限于：

首先，本申请先将邮箱区分为前缀和后缀两部分，然后，针对一个邮箱确定该邮箱相对应于用户集群中的其他每一个邮箱的相似总分，在确定相似总分时，主要基于两个邮箱之间的前缀相对应的关键词重合程度确定出两个邮箱之间的相似总分，当然，在确定相似总分过程中也采用后缀提供参考信息，再根据相似总分确定用户集群中的同簇邮箱。这个过程中，由于在确定一个邮箱相对于另一个邮箱的相似总分时，主要参考的是前缀相对应的关键词之间的重合关系，在对两个邮箱进行相似识别时，拔高了所识别的语义层次，按照这种方式识别两个邮箱是否构成相似，能够更有效地识别出邮箱相对应的用户是否属于异常用户。

其次，本申请计算相似总分所依赖的数据的结构特点中，涉及到邮箱的前缀和后缀，前缀和后缀一起采用，可以避免对域名所能提供的信息的遗漏，而前缀部分基于关键词进行计算相似总分，则可以深化识别所依赖的语义，因而，符合前缀一般是用户自定义内容的特点，以这样的结构特征来获得相似得分，所获得的相似总分必然可以更精准地表征两个邮箱之间的相似关系，从而，为异常用户的识别提供有效的参考信息。

此外，本申请主要服务于电商平台中的独立站，其计算相似总分的过程主要是基于统计的方式确定，既不依赖于字符层面的正则匹配，也无需依赖基于深度学习的图聚类算法，基于对用户集群中的邮箱相对应的文本进行适度的统计处理，便可实现对异常用户的识别，无需依赖大数据训练样本，实现成本低，运算效率高，特别适合部署于独立站中，为独立站快速准确地识别出异常用户。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的异常用户检测方法的典型实施例的流程示意图。

图2为本申请实施例中计算相似总分的流程示意图。

图3为本申请实施例中计算前缀相对应的各个分值的流程示意图。

图4为本申请实施例中计算前缀和后缀的分词相似分值的流程示意图。

图5为本申请实施例中迭代计算全量邮箱的相似总分的流程示意图。

图6为本申请的异常用户检测装置的原理框图；

图7为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种异常用户检测方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的异常用户检测方法在其典型实施例中，包括如下步骤：

步骤S1100、获取独立站的用户集群中各个用户的邮箱；

本申请的示例性的应用场景是跨境电商平台中的独立站，每个独立站部署一个线上店铺，从外部引流进入该独立站的消费者，可以在所述独立站中注册用户身份，成为该独立站的一个用户，在注册时提供必要的注册信息，例如用户名称、邮箱、电话等。由此可知，每个独立站均可以有自己的用户数据库，其中多个用户相对应的注册信息。

针对一个独立站的用户数据库中的用户集群，可以基于独立站安全的需求而进行相应的识别，以便识别出其中是否存在异常用户，根据识别结果再做相应的后续处理。

一种实施例中，可以按照如下过程确定出独立站的用户集群以及其中各个用户的邮箱，包括：

步骤S1110、从电商平台的独立站中抽取出预设的同个时期注册的用户，构成用户集群；

异常用户的用户行为通常具有共性，常出于某一目的，在特定的时间段，在独立站中进行批量注册，针对这一特点，预设一个表征同一个时期的时间范围，例如当天起回溯最近七天，将该时间段中注册的所有用户的的注册信息抽取出来，不难理解，这些抽取出来的用户，即构成用户集群，后续可针对用户集群识别其中是否包含异常用户。

步骤S1120、获取用户集群中各个用户注册登记的邮箱。

对于用户集群中的各个用户，由于后续主要是针对各个用户的注册信息中的邮箱进行相似识别，因而，可以进一步获得各个用户的用户ID与邮箱之间的映射关系数据，构成邮箱集，以方便调用和数据处理。

不难理解，所述的用户集群的最小用户数量可以只有两个用户，这种情况下，对各个用户的邮箱的相似识别，便被简化为两个邮箱之间的相似识别，更方便理解。但是，当用户集群中的用户仅为一个时，便失去本申请基于邮箱进行相似匹配的意义，因而，所述用户集群中的用户数量应为两个或两个以上。当然，用户集群的用户数量的上限可以无需设限。

步骤S1200、对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；

用户注册信息中的邮箱，其对应的文本通常在注册录入的阶段已经通过校验，因而，通常是符合邮箱地址的规则的定义的，也即，包括前缀、符号“@”，以及后缀，其中后缀是域名，遵守域名规则，前缀则通常可由用户自定义。异常用户的共性特征主要体现在可以自定义的前缀中，当然，也不排除异常用户均在同一域名注册，因而，其后缀在识别异常用户时也具有一定的参考价值。基于这样的考虑，本申请先将用户集群中的每个邮箱进行文本切分，主要是基于规则匹配，识别出符号“@”，取其在前的文本作为前缀相对应的文本，取其在后的文本作为后缀相对应的文本。由此，每个邮箱均被分为前缀和后缀。

步骤S1300、结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；

考虑到同一现实用户在命名多个邮箱的前缀时，常会设置一些关联特征，例如相同的关键词，因而，可以针对这样的关联特征，对不同邮箱的前缀之间的相似性进行识别。

有鉴于此，一种实施例中，针对用户集群中的每个用户的邮箱(称为目标邮箱)的前缀，要确定其与另一邮箱(称为参考邮箱)的前缀的相似程度时，可以先确定其各自的前缀相对应的关键词，获得其各自的关键词集，然后利用统计原理计算两个邮箱的关键词集的集合相似度以表征两个邮箱的前缀之间的关键词重合程度，然后根据关键词重合程度确定该两个邮箱的前缀之间的集合相似分数。最后，构造一个关联于所述集合相似分数的相似总分，使该相似总分关联于两个邮箱的前缀的关键词重合程度，实现对两个邮箱的前缀之间的关键词重合程度的有效表征。据此不难理解，在统计确定相似总分时，由于所参考的基础信息主要是前缀中的关键词，关键词顾名思义，是具有独立表意单元的词汇，因而，关键词有语义表示作用，能够最大程度地还原出现实用户在命名邮箱前缀时的思维特征，因而，所确定的相似总分更具对不同邮箱前缀之间语义共性进行量化的作用。

在统计确定所述相似总分时，计算两个关键词集的集合相似度的一种推荐方式可以是采用交并比公式来计算，也即，确定出两个关键词集中相同的关键词的数量作为分子，再确定出两个关键词集中的关键词的总量作为分母，将分子除以分母获得的商作为关键词重合程度即可。由此可见，关键词重合程度表示两个关键词集中，相同关键词数量占两个关键词集所有关键词总量的比例，可以有效表征两个邮箱的前缀之间的信息重叠程度。

邮箱的前缀的关键词集中的关键词，一种实施例中，可以通过将前缀匹配预设词表来提取，即，预备一个包含大量关键词的词表，针对给定的任意一个前缀，在其中查询是否包含词表中的某个关键词，若存在，则将该关键词确定为给定的前缀的关键词，最终将所有关键词构造为给定的前缀相对应的关键词集。

另一实施例中，可以采用预训练的序列标注模型来对给定的前缀执行序列标注任务，通过序列标注任务获得序列标注信息，根据序列标注信息识别出给定的前缀中的各个关键词，构成关键词集。所述序列标注模型可以采用足量的训练样本预先训练至收敛状态，所述训练样本可以按照预定的词性结构进行词性标注，在训练过程中，采用相应的标注信息监督所述训练样本的预测结果，对模型实施梯度更新，使模型通过迭代训练达至收敛状态。

一种实施例中，根据邮箱的文本内容通常包含英文单词、中文拼音、英文姓名、连续数字、杂散表达式等不同类别的信息的特点，可按照这些类别确定序列标注任务相对应的词性结构，然后根据这一词性结构，对所述训练样本进行词性标注。由此，当序列标注模型被训练至收敛状态后，获得词性标注能力，便能按照所述的词性结构，根据给定的前缀的各个关键词的实际类别进行相应的标注，从而获得相应的序列标注信息，根据所述序列标注信息，对应地从给定的前缀的文本中提取出相应的关键词，便可用于构造关键词集。

一种实施例中，所述序列标注模型所采用的神经网络架构，可以是 LSTM+CRF，其中，LSTM为长短期记忆网络，CRF为条件随机场网络，LSTM对输入的文本进行序列化的特征提取和编码获得序列化的向量表示，CRF则根据序列化的向量表示执行相应的标注任务，从而获得所述的序列标注信息。不难理解，其中LSTM也可以是其他适于处理序列信息的基于循环神经网络(RNN， Recurrent Neural Network)的基础模型，例如Bert、Transformer编码器等。

针对用户集群中仅存在两个用户相对应的邮箱的实施例，两个邮箱的相似得分经过以上过程便可快速确定。但是，针对用户集群中存在三个或三个以上的用户的实施例，则可先确定其中一个邮箱作为目标邮箱，将其他各个邮箱逐一作为该目标邮箱的参考邮箱(甚至为方便矩阵运算的目的，也可将目标邮箱本身也作为参考邮箱)，由目标邮箱和每个参考邮箱构成一个邮箱对，针对每个邮箱对，按照以上过程，统计确定目标邮箱相对应于其中的参考邮箱的相似总分。由此可见，每个目标邮箱，其相对于其他各个参考邮箱，均有一个对应的相似总分，一个实施例中，可将该目标邮箱对应各个参考邮箱的相似总分表示为行向量的形式。

进一步的实施例中，用户集群中的每个邮箱，均可作为所述的目标邮箱，与其他任意参考邮箱确定相应的相似总分，因而，用户集群中的每个邮箱，实际上均可获得前文所述的行向量，将用户集群中的每个邮箱的行向量构造为一个相似矩阵，相似矩阵中的每个行向量，即是其行所在的邮箱与用户集群中各个邮箱对应的相似总分，而行向量中的每个元素，则存储其所在行的邮箱与其所在列的邮箱相对应的相似总分。可见，将用户集群内邮箱与邮箱两两之间的相似总分以相似矩阵的形式进行表示，存储量低，访问效率更高，方便运算。

在其他实施例中，在确定所述的相似总分时，还可结合两个邮箱的前缀之间和/或后缀之间的分词集相对应的集合相似度来进一步调节相似总分，使相似总分的构成不仅关联于基于关键词确定的因素，也关联于基于分词确定的因素。同理，再进一步，还可以基于一个邮箱的关键词相对于另一个邮箱的关键词的位置关系信息，来量化出基于关键词位置的分数，合并到相似总分中实现对两个邮箱的相似总分的调节。不难理解，无论是基于分词量化调节两个邮箱之间的相似总分，还是基于关键词位置信息量化调节两个邮箱之间的相似总分，其本质是为两个邮箱之间的相似总分的量化引入多维度评价因子，使得对两个邮箱的相似程度的刻画更为细腻和全面，使所确定的相似总更具实际意义，能够有效地量化两个邮箱之间的相似程度。

步骤S1400、根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。

在获得用户集群中每个邮箱与其他邮箱的相似总分后，便可根据相似总分确定用户集群中的同簇邮箱。

一个实施例中，可按照如下过程识别异常用户，包括：

步骤S1410、针对用户集群中的每一目标邮箱，确定出与其相似总分达到预设阈值的其他邮箱，将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱；

取任意一个邮箱相对应的相似总分相对应行向量，根据预设阈值对行向量中的各个元素进行筛选，将其中高于预设阈值的其他邮箱筛选出来，这些其他邮箱与行向量对应的邮箱便构成了同簇邮箱，由此实现对同簇邮箱的统计聚类。所述的预设阈值，可以是经验阈值或者实测阈值，由本领域技术人员按需设定即可。

步骤S1420、将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。

被识别为同簇邮箱的用户，便是本申请的异常用户，因而可进一步根据用户与邮箱之间的映射关系数据，确定出同簇邮箱相对应的用户，获得这些用户的注册信息，将其添加到异常用户列表中。

另一实施例中，考虑到用户集群中每个邮箱都相对其他邮箱计算获得相似总分，两个邮箱之间，互为目标邮箱和参考邮箱的情况下，可能出现不同的相似总分，这种情况下，也可逐一以用户集群中的每个邮箱对为单位，获得邮箱对中两个邮箱互为目标邮箱的情况下的相似总分，对两个相似总分求均值，确定为该邮箱对所对应的均值相似总分，由此，每个邮箱对均有一个对应的均值相似总分，再根据预设阈值对均值相似总分进行筛选，将均值相似总分高于预设阈值的邮箱对筛选出来，将所有筛选出来的邮箱对相对应的所有邮箱作为同簇邮箱，由此实现对同簇邮箱的统计聚类。后续则同理，可将同簇邮箱相对应的异常用户添加到异常用户列表以供进一步处理。

可见，同簇邮箱中的各个邮箱相对应的用户便可以直接识别为异常用户，后续允许针对这些异常用户的用户权限做进一步的处理，例如禁止登录本独立站、禁止评论、禁止评价商品交易等。

根据以上实施例，不难理解，本申请具有多方面优势，包括但不限于：

在本申请任意实施例的基础上，请参阅图2，结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他邮箱的相似总分，包括：

步骤S1210、基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值；

为便于理解，以一个目标邮箱相对于一个参考邮箱确定相似总分为例，将目标邮箱的前缀的关键词集称为第一关键词集，将参考邮箱的前缀的关键词集称为第二关键词集。

在本步骤中，主要基于第一关键词集和第二关键词集中的关键词，确定目标邮箱相对于参考邮箱的两个分值，即关键词相似分值和关键词位置相似分值。

关键词相似分值，顾名思义，是用于量化表征第一关键词集和第二关键词集两者之间的关键词的重合程度，即两者之间重叠的关键词的占比的多寡。不难理解，关键词相似分值越高，则表征两个邮箱的前缀的相同内容越多，反之则差异性越大。关键词相似分值从语义维度表征了两个邮箱前缀之间的相近性，从一个方面衡量了两个邮箱之间的相似度。

关键词位置相似分值，则用于表征第一关键词集中的各个关键词在第二关键词集中的出现位置是否与在第一关键词集中的出现位置相接近。不难理解，关键词位置相似分值越高，则表征两个邮箱的前缀的关键词排列方式越相似，反之则关键词排列方式差异性越大。同理，关键词位置相似分值从前缀的构词顺序的角度表征了两个邮箱前缀之间的相近性，从另一个方面衡量了两个邮箱之间的相似度。

通过关键词相似分值和关键词位置相似分值，可以实现对任意两个邮箱的前缀之间的相似性的衡量，构成确定两个邮箱之间的相似总分的关键部分。

步骤S1220、基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值；

仍以两个邮箱构成的邮箱对为例，为了在更细的粒度考察两个邮箱之间的相似性，可以引入基于分词进行量化两个邮箱的前缀和后缀的差异性的维度，因而，在获得邮箱对中的两个邮箱的前缀和后缀各自相对应的分词集的基础上，采用与关键词集中计算集合相似度的相同方式，计算获得两个邮箱的前缀之间、后缀之间相对应的分词相似分值。不难理解，前缀之间、后缀之间，均基于分词之间的重合程度实现量化，分词的信息粒度相对于关键词的信息粒度更为细腻，可以提供前缀和后缀中文本内容的精细化信息，以最大程度地挖掘出用户的构词习惯。以前缀和后缀各自相对应的分词相似分值构成相似总分的另一部分调节因子，可使相似总分更全面有效地表征两个邮箱之间的文本差异。

步骤S1230、以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。

对于每个邮箱对中的目标邮箱和参考邮箱而言，针对目标邮箱确定其相对于参考邮箱所应获得的相似总分时，可将以上确定的基于前缀的关键词相似分值Score_key、关键词位置相似分值Score_pos、分词相似分值Score_pre，以及基于后缀确定的分词相似分值Score_lst进行加和，将和值作为该目标邮箱相对于参考邮箱的相似总分Score_total即可。

一个实施例中，在加和获取所述的相似总分时，可为以上各个分值匹配预设权重，事先对以上各个分值进行归一化处理，通过归一化将各个分值调整至 [0,1]的数值区间，然后，在汇总以上各个分值以求取相似总分时，为以上各分值匹配权重，各个权重之和为1，使最终所获得的相似总分仍被归一化至[0,1]的数值区间，以使结果更具可读性。

示例性的公式如下所示：

Score_total＝α₁Score_key+α₂Score_pos+α₃Score_pre+α₄Score_lst

其中：

α₁+α₂+α₃+α₄＝1

如前所述，针对每个邮箱均可作为目标邮箱求取其相对于另一参考邮箱的相似总分，其过程与本实施例中基于邮箱对展开的示例性说明相同，恕不赘述。不难理解，同一邮箱对的，将第一邮箱确定为目标邮箱所获得的第一相似总分未必与将第二邮箱确定为目标邮箱所获得的第二相似总分相同，因而，在一些实施例中，可以取第一相似总分与第二相似总分的均值相似总分，用来表征整个邮箱对的邮箱文本之间的相似程度，后续也可据此进行同簇邮箱的判定。

根据以上实施例可知，本申请在量化一个邮箱对中的目标邮箱相对于参考邮箱的相似总分的过程中，分别引用了基于前缀的关键词确定的关键词相似分值、关键词位置相似分值，以及引用了基于前缀和后缀的分词确定的两个分词相似分值，从关键词的词汇层面的语义、关键词位置构造的语义，以及细节分词层面的语义等多个维度提供多个方面的调节因子，使所获得的相似总分能够从不同维度不同方面实现对目标邮箱相对于参考邮箱的相似程度的刻画，使所获得的相似总分更能精准全面地表示出目标邮箱相对于参考邮箱的相近程度，以高效的统计处理的方式，为后续进行异常用户识别提供了科学有效的量化信息。

在本申请任意实施例的基础上，请参阅图3，基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值，包括：

步骤S1211、针对各个邮箱的前缀分别获取其序列标注信息，根据序列标注信息进行关键词提取，获得各个邮箱的前缀相对应的关键词集；

采用本申请前文本所示例的序列标注模型，可以针对用户集群中的各个邮箱的前缀获得其序列标注信息，即将每个邮箱的前缀依次输入所述序列标注模型中，便可获得其相应的序列标注信息，然后再根据序列标注信息从相应的前缀中取词，便可获得相应的关键词集，完成关键词提取的过程。

所述序列标注模型预先被训练至收敛状态，其数据集可以直接采集邮箱数据，例如独立站内部的用户注册邮箱，获得数据集D。

在数据集的基础上进行数据标注。本实施例中，根据邮箱地址的构成特点，设定五类标签，分别是：中文拼音、英文单词、英文姓名、连续数字、杂散表达式。使用BIO的标注方法对数据集中的各个邮箱地址进行标注。其中B表示该标签的起始位置，I表示该标签的中间以及结束位置。O表示杂散表达式中的字符。据此，标签与其所指定的类别的对应关系如下表所示：

类别	标签
		正常	O
中文拼音	B-PY/I-PY
		英文单词	B-TOKEN/I-TOKEN
英文姓名	B-NAME/I-NAME
		连续数字	B-NUM/I-NUM

根据上表，以邮箱为例“[email protected]”，经过切分后，得“hoewlihaohmWhatJohn”。那么标注结果：

由此可见，根据以上方法，可以完成对数据集中的各个邮箱地址的标注，从而完成对训练样本的构造。

进一步，可以对所述序列标注模型实施迭代训练，每次调用一个所述的邮箱地址的前缀作为训练样本x_1,pre输入序列标注模型，由其中的文本特征提取网络例如LSTM或GRU将前缀表示为语义向量，完成输入编码。示例性公式表示如下：

V_gru＝GRU(x_1,pre)

之后，借助条件随机场网络CRF，经过Viterbi算法解码后得到文本序列得分，即序列标注信息。示例性公式表示如下：

P_seq＝CRF(V_gru)

获得序列标注信息后，使用训练样本相对应的标签，采用应用极小化负对数似然函数的思想所构造的损失函数计算模型损失，损失函数的示例性公式表示如下：

Loss_seq＝-log(P_seq)

根据模型损失值，使用Adam或AdamW算法对模型实施梯度更新，直至完成对数据集的遍历训练或者直至根据该损失值判定模型达到预设阈值为止，表示模型收敛，可终止训练。由此，序列标注模型便获得为给定的邮箱前缀获得序列标注信息的能力。

根据序列标注模型为每个邮箱的前缀获得的序列标注信息，查询序列标注模型相对应的预设词表，便可提取出前缀中的各个关键词，将各个关键词按序排序构造为一个关键词集以备后用。

步骤S1212、以每个邮箱为目标邮箱，以目标邮箱之外的各个邮箱逐一确定出参考邮箱，统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度；

在针对用户集群的每个邮箱确定其相对于其他参考邮箱的关键词重合程度时，首先确定其中一个邮箱作为目标邮箱，然后逐一取其中另一邮箱作为参考邮箱，逐一构造为邮箱对，针对每个邮箱对确定邮箱对中两个邮箱之间基于关键词集的关键词重合程度即可，因此，仍可以一个邮箱对中的目标邮箱和参考邮箱为例，来了解关于关键词重合程度的确定过程。

如前所述，关键词重合程度是基于目标邮箱的关键词集Seq_1,pre和参考邮箱的关键词集Seq_2,pre之间求集合相似度确定的，具体中应用交并比公式，可确定出关键词重合程度Score_ele。示例性的公式表示如下：

由此可知，针对每个邮箱对中的目标邮箱，均可套用以上公式计算出其关键词集相对于参考邮箱的关键词集的关键词重合程度。

步骤S1213、根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分；

同一邮箱对的两个邮箱中，即使存在部分相同的关键词，但关键词在彼此前缀中的排列可能存在不同，主要表现为所处位序的不同，因而，可以量化目标邮箱中的各个关键词在参考邮箱的关键词集中所处索引位置相对应的距离得分，来实现对两者之间关键词位置关系信息的量化。

一个实施例中，按照如下过程确定目标邮箱中的各个关键词e相对应的个别得分：

首先，针对目标邮箱的关键词集Seq_1,pre中的关键词e，遍历参考邮箱的关键词集Seq_2,pre是否存在关键词e，若不存在，则跳过当前关键词e，继续判断下一关键词是否存在。

然后，对于参考邮箱的关键词集Seq_2,pre中存在当前关键词e的情况，分别获取关键词e分别在两个关键词集中的索引位置index_1,e和index_2,e，按照以下方式，计算关键词e的个别得分Score_dist,e：

其中，

表示目标邮箱的前缀的字符长度。

根据以上公式不难理解，其中个别得分越接近1，说明关键词e在两个前缀中出现的位置越接近。

最后，当对目标邮箱的关键词集中的关键词遍历完毕，得到每个关键词相应的个别得分，于是，可以将这些个别得分按照如下公式汇总为目标邮箱前缀相对应的距离得分Score_dist：

其中，

表示关键词集Seq_1,pre的序列长度。

根据以上过程不难理解，本申请以目标邮箱的前缀的关键词集中各个关键词相对于参考邮箱的关键词集的索引位置关系，确定出前者的距离得分，实现对各个关键词的相对位置关系所包含的语义信息的综合表示，能为相似总分的计算提供有效的参考信息，实现对用户命名邮箱的构词习惯的深度挖掘。

步骤S1214、将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的关键词相似分值，将前缀相对应的距离得分归一化为关键词位置相似分值。

最后，为了统一量纲，可对前缀相对应的所述关键词重合程度和距离得分进行归一化，以便将其数值调节到诸如[0,1]的置信区间，使后续确定相似总分更为便利。经归一化后，所述关键词重合程度Score_ele转换为关键词相似分值Score_key，所述距离得分Score_dist相应转化为关键词位置相似分值Score_pos。

根据以上实施例，不难发现，本实施以邮箱前缀的关键词集为基础，对每个邮箱对中的两个邮箱的关键词集之间的关联关系信息进行深度挖掘，实现在词汇层面，词汇排列位置信息层面中挖掘出用户的表达和构思习惯，将其中蕴含的命名习惯转换为数值化信息，实现对邮箱前缀信息间关联关系的量化处理，为确保相似总分的关键因子提供了有效的解决方案。

在本申请任意实施例的基础上，请参阅图4，基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值，包括：

步骤S1221、对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作，获得前缀和后缀各自对应的分词集；

考虑到邮箱的前缀和后缀具有更细粒度的蕴含信息，因而，本申请允许在确定相似总分时，基于更细粒度的分词信息，确定同一邮箱对中两个邮箱之间的关联信息。

具体而言，可应用基于统计的N-Gram算法，基于滑动窗口对同一邮箱对中的前缀、后缀分别进行分词获取分词集。为此，可以预设多个不同的滑动长度，例如2、3、4，表示分别以2个、3个、4个字符为滑动窗口长度，分别对每个前缀、后缀执行滑动取词，获得不同滑动窗口长度相对应的分词子集，并将同一前缀/后缀相对应的分词子集合并为该前缀/后缀相对应的分词集。

步骤S1222、基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值；

仍以同一邮箱对为例，其中目标邮箱与参考邮箱之间基于前缀的分词集Ngram_1,pre、Ngram_2,pre进行分词的重合程度的计算，仍可借鉴前文关于关键词重合程度所采用集合相似度算法，以交并比公式，计算目标邮箱相对于参考邮箱的关于前缀的重合程度Score_ngram，公式示例如：

同理，可将所述关于前缀的分词的重合程度归一化调节至[0,1]的数值区间，作为相应的分词相似分值Score_pre。

步骤S1223、基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。

与前一步骤同理，目标邮箱与参考邮箱之间基于后缀的分词集Ngram_1,post、Ngram_2,post进行分词的重合程度的计算，仍可借鉴前文关于关键词重合程度所采用集合相似度算法，以交并比公式，计算目标邮箱相对于参考邮箱的关于前缀的重合程度Score_post，公式示例如：

同理，可将所述关于后缀的分词的重合程度Score_post归一化调节至[0,1] 的数值区间，作为相应的分词相似分值Score_lst。

根据本实施例可以知晓，基于分词进行量化确定出前缀、后缀相对应的分词相似分值，实现更细粒度的信息挖掘，可确保所获得的相似总分包含了对邮箱地址的细节信息相似性的挖掘成份，从而确保基于相似总分进行异常用户识别更有意义。另一方面，尽管本申请重点以前缀为相似邮箱地址识别的判据，但适当参考分词维度的相似特性，也可避免对邮箱地址中域名部分信息的关注，从而确保更为全面地考察邮箱地址之间的相似特性，提升通过邮箱相似性识别异常用户的准确率。

在本申请任意实施例的基础上，请参阅图5，以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分，包括：

步骤S1231、从用户集群中确定一个目标邮箱，将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱，由目标邮箱和参考邮箱构成邮箱对；

如前所述，作为对用户集群中相似总分计算的一个基础单元，每次针对一个目标邮箱，获得用户集群中，除该目标邮箱之外的其他任意一个邮箱确定为参考邮箱，将该目标邮箱与该参考邮箱视为邮箱对，从而构成一个基础单元，针对这个基础单元即邮箱对，以便计算目标邮箱相对于参考邮箱的相似总分。

步骤S1232、根据预设加权公式，将所述邮箱对中，与目标邮箱相对应的关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和，将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分；

参阅前文的实施例可知，应用公式：

Score_total＝α₁Score_key+α₂Score_pos+α₃Score_pre+α₄Score_lst

根据该公式对本申请各个实施例所获得的基于前缀的关键词相似分值、关键词位置相似分值、分词相似分值，以及基于后缀的分词相似分值进行加权求和，便可获得邮箱对中目标邮箱相对于参考邮箱的相似总分Score_total。

步骤S1233、迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。

由于用户集群中一般多个用户相对应的邮箱，因而，针对每个用户所确定的目标邮箱，其与其他用户的邮箱之间，是一对多的关系，设用户集群中存在 N个用户，如果考虑本用户在内，对于本用户相对应的目标邮箱而言，则相应会有N个邮箱对。而对全量用户的全量邮箱而言，则会有N²个邮箱对。一个实施例中，可以仅确定其中一个用户的邮箱为目标邮箱，进行复杂度为N个邮箱对的相似总分的计算，获得该目标邮箱相对应的相似总分的行向量，后续根据这个行向量进行异常用户筛选识别。另一实施例中，可以针对全量用户相对应的全量邮箱进行复杂度为N²个邮箱对的相似总分的计算，获得如前文所述的相似矩阵，然后再进行异常用户筛选识别。无论针对多少个邮箱对进行以上过程的识别，均可逐一调用各个邮箱对进行迭代以上过程，实现各个邮箱对的相似总分的计算，最终，用户集群中每个邮箱相对于其他任意一个邮箱的相似总分均可获得。

根据本实施例可知，本申请在针对用户集群进行异常用户识别时，在复杂度方面具有弹性，可根据实际需要调节在何种运算规模上实施相似总分的计算，以便获得不同精度上的异常用户识别效果，对于独立站而言，能够匹配不同独立站的不同深度的服务需求。

请参阅图6，适应本申请的目的之一而提供一种异常用户检测装置，是对本申请的异常用户检测方法的功能化体现，该装置包括：邮箱获取模块1100、文本处理模块1200、总分确定模块1300，以及用户识别模块1400，其中，所述邮箱获取模块1100，用于获取独立站的用户集群中各个用户的邮箱；所述文本处理模块1200，用于对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；所述总分确定模块1300，用于结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；所述用户识别模块1400，用于根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。

在本申请任意实施例的基础上，所述邮箱获取模块1100，包括：用户抽取单元，用于从电商平台的独立站中抽取出预设的同个时期注册的用户，构成用户集群；邮箱抽取单元，用于获取用户集群中各个用户注册登记的邮箱。

在本申请任意实施例的基础上，所述总分确定模块1300，包括：关键词计分子模块，用于基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值；分词计分子模块，用于基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值；分值汇总子模块，用于以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。

在本申请任意实施例的基础上，所述关键词计分子模块，包括：关键词提取单元，用于针对各个邮箱的前缀分别获取其序列标注信息，根据序列标注信息进行关键词提取，获得各个邮箱的前缀相对应的关键词集；集合相似计算单元，用于以每个邮箱为目标邮箱，以目标邮箱之外的各个邮箱逐一确定出参考邮箱，统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度；距离得分计算单元，用于根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分；归一化处理单元，用于将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的关键词相似分值，将前缀相对应的距离得分归一化为关键词位置相似分值。

在本申请任意实施例的基础上，所述分词计分子模块，包括：分词执行单元，用于对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作，获得前缀和后缀各自对应的分词集；前缀分词计分单元，用于基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值；后缀分词计分单元，用于基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度，确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。

在本申请任意实施例的基础上，所述分值汇总子模块，包括：邮箱对确定单元，用于从用户集群中确定一个目标邮箱，将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱，由目标邮箱和参考邮箱构成邮箱对；总分汇总单元，用于根据预设加权公式，将所述邮箱对中，与目标邮箱相对应的关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和，将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分；迭代处理单元，用于迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。

在本申请任意实施例的基础上，所述用户识别模块1400，包括：同簇判定子模块，用于针对用户集群中的每一目标邮箱，确定出与其相似总分达到预设阈值的其他邮箱，将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱；异常处理子模块，用于将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。

为解决上述技术问题，本申请实施例还提供计算机设备。如图7所示，该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的异常用户检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的异常用户检测装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的异常用户检测方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read- Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请基于统计的方式，根据用户之间邮箱的相似性识别出用户群体中的异常用户，效率高，成本低，适于电商平台的独立站使用。

Claims

1.一种异常用户检测方法，其特征在于，包括：

获取独立站的用户集群中各个用户的邮箱；

2.根据权利要求1所述的异常用户检测方法，其特征在于，获取独立站的用户集群中各个用户的邮箱，包括：

获取用户集群中各个用户注册登记的邮箱。

3.根据权利要求1所述的异常用户检测方法，其特征在于，结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他邮箱的相似总分，包括：

4.根据权利要求3所述的异常用户检测方法，其特征在于，基于各个邮箱的前缀相对应的关键词集，统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值，以及关于前缀的关键词位置相似分值，包括：

5.根据权利要求3所述的异常用户检测方法，其特征在于，基于各个邮箱的前缀和后缀相对应的分词集，统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值，包括：

6.根据权利要求3所述的异常用户检测方法，其特征在于，以每个邮箱与其他任意一个邮箱组成的邮箱对为单位，汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值，确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分，包括：

7.根据权利要求1所述的异常用户检测方法，其特征在于，根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户，包括：

8.一种异常用户检测装置，其特征在于，包括：

邮箱获取模块，用于获取独立站的用户集群中各个用户的邮箱；

文本处理模块，用于对每个邮箱进行文本切分，获得其前缀和后缀相对应的文本；

总分确定模块，用于结合每个邮箱的前缀和后缀，统计确定每个邮箱相对于其他各个邮箱的相似总分，相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度；

用户识别模块，用于根据相似总分确定用户集群中的同簇邮箱，将同簇邮箱相对应的用户识别为异常用户。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。