CN110135566A

CN110135566A - 基于lstm二分类神经网络模型的注册用户名检测方法

Info

Publication number: CN110135566A
Application number: CN201910425791.5A
Authority: CN
Inventors: 普雪飞
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-16

Abstract

本发明公开了一种基于LSTM二分类神经网络模型的注册用户名检测方法，包括以下步骤：对训练数据和测试数据进行预处理，其中训练数据包括正常用户名数据与随机生成的用户名数据；对预处理后的用户名数据进行编码，统一每个数据的长度；对编码后的数据进行字符级的序列化；通过预处理、编码及序列化后的训练数据搭建LSTM二分类神经网络模型，形成注册用户名的检测模型；将经过预处理、编码及序列化后测试数据输入检测模型中，检测模型将测试数据识别为异常样本的概率为P，当P大于等于异常概率阈值时，将该测试数据识别为异常样本，否则识别为正常样本。本发明对平台注册用户名是否为随机生成的有很好的检测效果。

Description

基于LSTM二分类神经网络模型的注册用户名检测方法

技术领域

本发明涉及web应用、深度学习技术领域，特别是一种基于LSTM二分类神经网络模型的注册用户名检测方法。

背景技术

近年来，web应用日益普及，为了提供更好的服务以及留住用户，很多平台提供用户注册功能，并对用户开放注册，一些问题也随之而来，一方面开放注册，会让一些别有用心的用户大批量的恶意注册账户，可能引发网络安全问题。另一方面，平台中存在海量的用户，用户质量参差不齐，势必会影响后续进行相关运营活动的效率。

发明内容

随机或者随意生成的用户名是批量恶意注册和低质量的注册用户共有的特征，这些用户名的命名规则往往不符合拼音和英文的命名规律；为解决现有技术中存在的问题，本发明的目的是为了检测平台注册用户中疑似随机生成用户名的恶意用户和低质量用户，给批量注册识别、低质量用户识别提供参考，提出一种基于LSTM二分类神经网络模型的注册用户名检测方法。

为实现上述目的，本发明采用的技术方案是：一种基于LSTM二分类神经网络模型的注册用户名检测方法，包括以下步骤：

步骤一、对训练数据和测试数据进行预处理，其中训练数据包括正常用户名数据与随机生成的用户名数据；

步骤二、对预处理后的用户名数据进行编码，统一每个数据的长度；

步骤三、对编码后的数据进行字符级的序列化；

步骤四、通过预处理、编码及序列化后的训练数据搭建LSTM二分类神经网络模型，形成注册用户名的检测模型；

步骤五、将经过预处理、编码及序列化后测试数据输入检测模型中，检测模型将测试数据识别为异常样本的概率为P，当P大于等于异常概率阈值时，将该测试数据识别为异常样本，否则识别为正常样本。

作为一种优选的实施方式，所述步骤一中，对训练数据和测试数据进行预处理具体包括：去除训练数据和测试数据中所有非英文单词的字符，以及将大写的英文字符转换为小写的英文字符，如果数据中的用户名是邮箱名，则去除邮箱类型的后缀。

作为另一种优选的实施方式，所述步骤二中对数据进行编码具体如下：经预处理后的数据中只包含英文字母，26个英文字母对应26个编码，统一每个数据的编码序列的长度，长度不够的补零，长度超过的进行截断。

作为另一种优选的实施方式，所述步骤三中对编码后的数据进行序列化具体包括：利用词向量技术对每个字母进行特征映射，每个字母对应一个固定长度的向量，具体地通过Embedding词嵌入将数据映射为嵌入矩阵，如果输出32维，则每个字母的编码被映射成一个32维的向量，每个用户名样本变为一个1*20*32的矩阵。

作为另一种优选的实施方式，所述步骤四中，搭建的LSTM二分类神经网络模型如下：

第一层为embedding层，输入的样本为序列长度等于20的字符序列，经过embedding层的编码映射后，每个输出为20*32的矩阵，n个样本表示为n*20*32；

第二层为LSTM层，输入维度为n*20*132的矩阵，其中n表示用户名样本条数，输出维度为64维，并输出每个时间步的结果维度为n*20*64；

第三层为flatten层，将数据转换为n*1280的维度；

第四层为全连接层，输出维度为64，数据经过该层后变为n*64的维度，该层中激活函数为ReLU；

第五层为输出层，输出维度为2，该层中激活函数为Softmax，模型的损失函数为交叉熵损失函数，优化方式为adam优化算法。

作为另一种优选的实施方式，通过增大异常概率阈值来减小检测模型对测试数据的误报。

本发明的有益效果是：通过使用正常用户名数据与随机生成的用户名数据训练模型，在对新数据的预测结果中，作为二分类模型，每一类数据的准确率和召回率在95％左右，能够较为有效的区分正常用户名与随机生成的用户名。由于实际使用场景中要求将正常样本识别为异常样本的比例(误报率)尽可能的小，通过设定判别为异常样本的概率阈值可以控制误报率，相应将异常样本判定为正常的概率会增加。

附图说明

图1为本发明实施例的方法流程框图；

图2为本发明实施例中LSTM二分类神经网络模型结构图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例：

如图1所示，一种基于LSTM二分类神经网络模型的注册用户名检测方法，包括以下步骤：

1、对训练数据和测试数据中的用户名进行预处理，包括去除所有非英文单词的字符、大写转小写,如果用户名是邮箱名,去除邮箱类型的后缀；如：[email protected]预处理后的输出为goodname。

2、对预处理后的用户名数据中的字母进行编码，统一每个样本数据的长度；处理后的用户名只包含英文字母，有26个字母对应26个编码，例如a:1,b:2,c:3以此类推，最后统一用户名的编码序列的长度为15，不够的补零，超过的进行截断；如：用户名“Goodname123”编码统一长度后变为序列[0，0，0，0，0，0，0，7，15，15，4，14，1，13，5]。

3、利用词向量技术对每个字母进行特征映射，每个字母对应一个固定长度的向量；

通过Embedding词嵌入将数据映射为嵌入矩阵，如果输出32维，则每个字母的编码被映射成一个32维的向量，每个用户名样本变为一个1*20*32的矩阵。

4、搭建如图2所示的LSTM二分类神经网络模型：

第二层为一个LSTM层，输入维度为n*20*132的矩阵(n表示用户名样本条数)输出维度为64维，并输出每个时间步的结果维度为n*20*64；

第三层为flatten层，将数据转换为n*1280的维度；

第四层为一个全连接层，输出维度为64，数据经过该层后变为n*64的维度，激活函数为ReLU；

第五层为输出层，输出维度为2，激活函数为Softmax，模型的损失函数为交叉熵损失函数，优化方式为adam优化算法。

5、模型误报修正：

检测模型把正常样板判定为异常样本或把异常样本判定为正常样本称为误报，在实际使用场景中，误报带来的损失远大于漏报，所以设定一种设定概率阈值的机制来控制误报。可以增大阈值来减小误报，相应的，漏报会有一定程度增加。

下面对本实施例作进一步的说明：

在平台发生批量注册行为时，恶意注册的用户有可能随机生成大量的用户名，可以结合一些适当规则，判断这些用户发生批量注册可能性。

有些用户如果只是随便试用一下平台，注册时可能会随便填写一个注册名，检测出类似这样的用户名，可以将其标记起来，后续平台在进行用户运营的时候可以降低这些用户的优先级，减少运营成本，提高运营效率。

利用随机用户名检测的方法，检测出疑似随机生成的用户名，可以在一定程度上为恶意注册行为提供参考，并能基于用户名的命名规律筛选出一部分的低质量用户。

该方法将用户名进行预处理，并进行字符级的序列化，利用LSTM在时序序列表达方面的优势，使用正常用户名和随机生成的用户名进行模型训练，学***台注册用户名是否为随机生成的有很好的检测效果。

随机用户名检测模型是一个二分类的模型，现有分类算法都支持二分类，但是利用LSTM可以处理时序问题，因为不管汉字的拼音，还是英文单词的拼写，都遵循特定的字符组合规律，字符的前后搭配顺序对最终形成的单词语义是有影响的，利用LSTM就可以很好的捕捉到这种关系，进而学习到正常用户和异常的随机生成的用户名命名上的区别。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，包括以下步骤：

步骤三、对编码后的数据进行字符级的序列化；

2.根据权利要求1所述的基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，所述步骤一中，对训练数据和测试数据进行预处理具体包括：去除训练数据和测试数据中所有非英文单词的字符，以及将大写的英文字符转换为小写的英文字符，如果数据中的用户名是邮箱名，则去除邮箱类型的后缀。

3.根据权利要求2所述的基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，所述步骤二中对数据进行编码具体如下：经预处理后的数据中只包含英文字母，26个英文字母对应26个编码，统一每个数据的编码序列的长度，长度不够的补零，长度超过的进行截断。

4.根据权利要求3所述的基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，所述步骤三中对编码后的数据进行序列化具体包括：利用词向量技术对每个字母进行特征映射，每个字母对应一个固定长度的向量，具体地通过Embedding词嵌入将数据映射为嵌入矩阵，如果输出32维，则每个字母的编码被映射成一个32维的向量，每个用户名样本变为一个1*20*32的矩阵。

5.根据权利要求4所述的基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，所述步骤四中，搭建的LSTM二分类神经网络模型如下：

第三层为flatten层，将数据转换为n*1280的维度；

6.根据权利要求1或5所述的基于LSTM二分类神经网络模型的注册用户名检测方法，其特征在于，通过增大异常概率阈值来减小检测模型对测试数据的误报。