CN108647225A

CN108647225A - 一种电商黑灰产舆情自动挖掘方法和***

Info

Publication number: CN108647225A
Application number: CN201810249344.4A
Authority: CN
Inventors: 纪守领; 刘倩君; 陈建海; 伍鸣; 伍一鸣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-10-12

Abstract

本发明公开了一种电商黑灰产舆情自动挖掘方法和***，该方法包括以下步骤：(1)以种子黑词为关键词通过搜索引擎进行搜索，爬取搜索结果中网站的文本数据和网站信息数据；(2)对所述文本数据进行预处理，从预处理后的文本数据中识别获取黑词；(3)对网站信息数据进行分析，识别获取黑灰产网站；(4)将获取的黑词扩充到黑词库中；将获取的黑灰产网站扩充到黑灰产网站库中；(5)将步骤(2)获取的黑词作为种子黑词，重复步骤(1)～(4)。本发明的方法可及时发现、预警和治理电商作弊事件，实现对电商黑灰产进行实时多维度监控。

Description

一种电商黑灰产舆情自动挖掘方法和***

技术领域

本发明涉及网络黑灰产中的安全技术领域，尤其涉及一种电商黑灰产舆情自动挖掘方法和***。

背景技术

网络黑灰产是危害互联网生态安全的重大问题之一。传统技术能够对black-hatSEO、虚假评论、人工流量、社交网络炒信等作弊行为进行检测，但随着作弊行为不断变化和转移，现有的模型和方法很快就失去适用性。因此利用海量安全相关的外部舆情文本，对网络黑灰产进行实时的分析和监控，有利于从源头上发现和打击黑灰产。

不同于传统的网络黑灰产，电商黑灰产是最近10年才兴起的一种新型黑灰产，通常是指虚假交易、刷单、刷流量等违反电商平台相关规范的作弊行为。从账号购买到刷单等黑灰产平台，再到快递空包等基础服务，电商黑灰产已经形成完整的产业链，且随着电商领域反作弊机制的完善，电商作弊行为也趋向于专业化，然而企业内部对黑灰产的分布和现状大部分靠人工分析，无法应对日益扩大的黑灰产规模。

发明内容

针对电商黑灰产的产业化、专业化、规模化的特点和黑灰产语料库、知识库几乎空白的现状，本发明提供一种电商黑灰产舆情自动挖掘方法和***，可及时发现、预警和治理电商作弊事件，实现对电商黑灰产进行实时多维度监控。

本发明提供了如下技术方案：

一种电商黑灰产舆情自动挖掘方法，包括以下步骤：

(1)以种子黑词为关键词通过搜索引擎进行搜索，爬取搜索结果中网站的文本数据和网站信息数据；

(2)对所述文本数据进行预处理，从预处理后的文本数据中识别获取黑词；

(3)对网站信息数据进行分析，识别获取黑灰产网站；

(4)将获取的黑词扩充到黑词库中；将获取的黑灰产网站扩充到黑灰产网站库中；

(5)将步骤(2)获取的黑词作为种子黑词，重复步骤(1)～(4)。

优选的，所述种子黑词的数量不少于10个。

种子黑词数量越多，获取的分析数据越多，步骤(2)中获取的黑词和黑灰产网站越多，但是种子黑词数量过多时，获取的分析数据量过于庞大，后续的分析计算量过大，使得黑词的获取效率降低，优选的，所述种子黑词的数量为10～50个。

种子黑词为人工识别出的与电商黑灰产相关的词语。

步骤(2)中，所述的预处理包括对文本数据进行去重、分句、分词、词性标注和筛选；包括以下步骤：

通过文本相关性计算对所述文本数据进行去重；

以中文形式或英文形式的逗号(，)、句号(。)、问号(？)、感叹号(！)、冒号(：)或分号(；)为分隔符，将去重后的文本数据分割成独立的句子；

对每个句子进行中文分词，将句子分割成词语序列；

对每个词语进行词性标注，剔除其中的虚词。

经过以上预处理后，爬取的文本数据转化为噪声较小(即去除了无意义虚词)的句子，每个句子是由带有词性标注的词语序列表示的，以减少后续词汇处理量。

步骤(2)中，从预处理后的文本数据中识别获取黑词，包括：

(i)从预处理后的文本数据中获取部分语料，人工标注词语类型后作为训练样本和验证样本；

(ii)初始化训练样本中每个词语的词向量；将训练样本输入双向长短期记忆网络(Bi-LSTM)中进行向量计算，得到输出向量；

(iii)将输出向量作为条件随机场(CRF)的输入，计算每个词语对应每个词语类型的概率；

(iv)使用随机梯度下降算法更新双向长短期记忆网络和条件随机场的网络参数；

(v)采用验证集测试双向长短期记忆网络和条件随机场的精确率，若所述精确率达到要求，则结束训练，否则继续训练；

(vi)双向长短期记忆网络和条件随机场对预处理后的文本数据进行预测，识别获取黑词。

双向长短期记忆网络(Bi-LSTM)是一种双向的长短期记忆网络。LSTM(Long-Shortterm memory)将基本RNN中的神经元替换为3个相互作用的门(输入门，输出门，遗忘门)和1个记忆单元(memory cell)，输入门打开时新的输入才会改变网络中保存的历史状态，输出门打开时保存的历史状态会被访问到，并影响之后的输出，遗忘门用于清空之前保存的历史信息。LSTM可以使之前输入的信息一直向前传递，因而能够学习长期的依赖关系，已经在词性标注、命名实体识别等领域取得了非常好的应用效果。LSTM的输入是单方向的，只考虑的前文对后文的影响，Bi-LSTM的基本思想是对序列数据向前向后各训练一个LSTM模型，再将两个模型的输出进行组合，以达到序列中每一个节点都能完整的依赖所有上下文信息。

步骤(i)中，词语类型包括以下几类：

(a)电商上下文名词(ecn)；

(b)电商上下文动词(ecv)；

(c)电商黑灰产人物(ECP)；

(d)电商黑灰产事物(ECI)；

(e)电商黑灰产平台(ECL)；

(f)电商黑灰产行为(ECA)；

(g)其他黑词(OB)；

(h)其他词语(other)；

其中，(c)、(d)、(e)、(f)、(g)类型的词语为黑词。

所述训练集和验证集的样本总量比为2～9∶1；最优选的，所述训练集和验证集的样本总量比为9∶1。

步骤(iv)中，使用随机梯度下降(Stochastic Gradient Descent，SGD)更新网络参数，学习率(learning rate)初始时为0.002，每5次训练后通过验证集上计算一下模型的损失，如果损失值没有减小，就将学习率减小十分之一，防止过拟合。

步骤(3)中，识别获取黑灰产网站包括：

(3-1)对部分搜索结果中的网站进行人工标注，构建训练集和验证集；

(3-2)提取训练样本的url特征、文本特征及html特征；

(3-3)将非数值特征的编号作为其数值特征，对训练样本和验证样本进行归一化；

(3-4)将归一化后的训练样本作为SVM模型的输入，对SVM模型进行训练；

(3-5)通过训练好的SVM模型对可疑网站进行预测，识别获取黑灰产网站。

步骤(3-1)对网站进行人工标注是指人工区分网站是正常网站还是黑灰产网站(电商黑灰产的活动平台、连接网络、软件工具等)，并进行标注。

步骤(3-2)中，所述的url特征包括URL深度、URL长度和域名长度；所述的文本特征包括网页内容的关键词、网页平均词数和网页数，其中网页内容的关键词采用TF-IDF值最大的前10个词语；所述的html特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量。

将步骤(2)和步骤(3)获取的黑词和黑灰产网站分别扩充到黑词库和黑灰产网站库中。用户可根据需要，以新获取的黑词作为种子黑词，继续重复步骤(1)～(4)，重复次数根据用户的需要而定，从而可实现对电商黑灰产舆情的自动挖掘。

用户可根据黑词库中的黑词分析电商黑灰产的作弊方式，从而设计相应的反作弊测量；可将黑灰产网站库中的网站反馈给相关部门进行处理。

本发明同时还提供了一种电商黑灰产舆情自动挖掘***，包括：

数据采集模块，以种子黑词为关键词通过搜索引擎进行搜索，爬取搜索结果中网站的文本数据和网站信息数据；

分析模块，对所述文本数据进行预处理，从预处理后的文本数据中识别获取黑词；对网站信息数据进行分析，识别获取黑灰产网站；

扩充模块，包括黑词库和黑灰产网站库，将获取的黑词扩充到黑词库中并发送给数据采集模块作为种子黑词；将黑灰产网站扩充到黑灰产网站库中。

与现有技术相比，本发明的有益效果为：

(1)能够实时获取多渠道的外部信息，构建电商黑灰产的最新语料库；

(2)能够识别电商黑灰产相关的黑词和黑灰产网站，构建电商黑灰产信息库，有利于后续对电商作弊行为的检测和对黑灰产的根治；

(3)能够实现对电商黑灰产的自动挖掘，节约了人工分析成本，有利于大规模部署和实施。

附图说明

图1为电商黑灰产舆情自动挖掘***的架构示意图；

图2为电商黑灰产舆情自动挖掘方法的流程示意图；

图3为黑词识别流程示意图；

图4为基于自然语言序列标注的黑词识别模型的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

电商黑灰产舆情自动挖掘***的架构如图1所示，主要包括爬虫模块、黑词识别模块、黑产网站识别模块和黑灰产扩充模块。

爬虫模块爬取互联网中包含种子黑词的文本，通过文本相关性计算和文本去重，得到电商黑灰产舆情语料库；爬取包含种子黑词的可疑网站的网站信息；

其中舆情信息源包括：微博、新闻、论坛、贴吧、微信、政府网站、视频网站及其他；

黑词识别模块用自然语言序列标注技术，识别电商黑灰产舆情语料中的黑词；

黑产网站识别模块提取可疑网站的特征，利用训练好的分类模型，识别黑灰产网站；

黑产扩充模块将获取的黑词作为查询关键词，自动化向搜索引擎发送查询请求，由爬虫模块爬取搜索结果中的文本信息、相关搜索以及相关推荐，扩充黑词库；爬取搜索结果中网站的URL(统一资源定位符)和html信息，扩充黑灰产网站名单。

基于电商黑灰产舆情自动挖掘***的电商黑灰产舆情自动挖掘方法，包括以下步骤，如图2所示：

(1)根据黑词库中已有的黑词作为种子黑词，以种子黑词为关键词通过搜索引擎(如百度)搜索，爬取搜索结果网站的网站信息和文本信息；

(2)对爬取的文本进行预处理，包括进行去重、分句、分词和词性标注，具体如下：

以中文形式或英文形式的“，。？！：；”等标点符号为分隔符，将文本分割成独立的句子。

对每个独立的句子，采用语言技术平台(Language Technology Platform，LTP)提供的中文分词功能，将句子分为词语序列，如“刷手完成任务后就可以赚取佣金”被分为“刷手，完成，任务，后，就，可以，赚取，佣金”。

词性标注是给句子中的每个词标注词性类别，词性类别包括名词、动词、形容词、连词、副词、介词、助词、叹词、人名、地名、前缀、后缀等28类，对句子分词之后，再利用语言技术平台的词性标注功能，对句子中的词语进行词性标注，例如“刷手/n，完成/v，任务/n，后/dn，就/d，可以/v，赚取/v，佣金/n”，其中n表示一般名词，v表示一般动词，d表示副词，dn表示方向名词。

词性标注后，将连词、副词、介词、助词、叹词这五类虚词剔除，仅保留具有实际意义的实词，以减少词汇处理量。

经过以上预处理，所有文本转化为噪声较小(即去除了无意义虚词)的句子，每个句子是由带有词性标注的词语序列表示的，例如“淘宝/ni刷单/v赚取/v佣金/n”，其中，n表示名词，v表示动词，ni表示组织机构名。

(3)使用自然语言序列标注的方法识别文本中的黑词，包括以下步骤(见图3)：

(3-1)对预处理后的文本语料中的词语人工标注词语类型，构建训练集和验证集；训练集中包含2700条语句，验证集中包含300条语句；

词语分为以下类型：

(a)电商上下文名词(ecn)；

(b)电商上下文动词(ecv)；

(c)电商黑灰产人物(ECP)；

(d)电商黑灰产事物(ECI)；

(e)电商黑灰产平台(ECL)；

(f)电商黑灰产行为(ECA)；

(g)其他黑词(OB)；

(h)其他词语(other)；

其中，(c)、(d)、(e)、(f)、(g)类型的词语为黑词；

(3-2)将训练集中的句子作为双向长短期记忆网络(Bi-LSTM)的输入序列输入；Bi-LSTM网络包含4层双向LSTM，如图4所示；

(3-3)使用word2vec初始化句子中每个词语的词向量，词向量维度为200；

(3-4)前向LSTM层和后向LSTM层进行状态传递和向量计算；将Bi-LSTM的输出向量作为条件随机场(CRF)的输入，计算每个词语对应每个类型的概率；

更新网络参数：使用随机梯度下降(Stochastic Gradient Descent，SGD)更新参数，学习率(learning rate)初始时为0.002，每5次训练后在验证集上计算一下模型的损失，如果损失值没有减小，就使学习率减小十分之一，防止过拟合；

(3-5)通过验证集验证模型，若模型精确率达到要求，则结束训练，否则转到(3-4)继续训练；

(3-6)结束训练后，使用训练好的模型对未标注的文本提取对应黑词类型的词语。

(4)识别黑产网站，包括以下步骤：

(4-1)对根据种子黑词爬取网站信息进行人工打标，即注明该网站是黑词网站还是正常的网站，构造训练集和验证集，训练集包括576个黑产网站和2424个正常网站，验证集包括126个黑产网站和374个正常网站；

(4-2)对训练集中的网站提取url特征、文本特征及html特征。提取的特征包括：

①文本特征包括网页内容的关键词、网页平均词数和网页数，其中网页内容关键词采用TF-IDF值最大的前10个词语；

②HTML特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量；

③URL特征包括URL深度、URL长度和域名长度。

(4-3)对特征的数值进行归一化，对于非数值特征，将该特征的编号作为其数值；

(4-4)将归一化后的特征数值作为SVM模型的输入，对SVM模型进行训练；

(4-5)通过训练好的SVM模型对可疑网站进行预测，识别获取黑灰产网站。

(5)将识别的黑词和黑产网站扩充到黑词库和黑产网站库中。用户可根据需要，将新识别出的黑词作为种子黑词，急需爬取包含种子黑词的文本信息和网站信息，继续识别黑词和黑产网站。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种电商黑灰产舆情自动挖掘方法，其特征在于，包括以下步骤：

(3)对网站信息数据进行分析，识别获取黑灰产网站；

(5)将步骤(2)获取的黑词作为种子黑词，重复步骤(1)～(4)。

2.根据权利要求1所述的电商黑灰产舆情自动挖掘方法，其特征在于，所述种子黑词的数量不少于10个。

3.根据权利要求1所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(2)中，所述的预处理包括：

通过文本相关性计算对所述文本数据进行去重；

以中文形式或英文形式的逗号、句号、问号、感叹号、冒号或分号为分隔符，将去重后的文本数据分割成独立的句子；

对每个句子进行中文分词，将句子分割成词语序列；

对每个词语进行词性标注，剔除其中的虚词。

4.根据权利要求1或3所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(2)中，从预处理后的文本数据中识别获取黑词，包括：

5.根据权利要求4所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(i)中，词语类型包括以下几类：

(a)电商上下文名词(ecn)；

(b)电商上下文动词(ecv)；

(c)电商黑灰产人物(ECP)；

(d)电商黑灰产事物(ECI)；

(e)电商黑灰产平台(ECL)；

(f)电商黑灰产行为(ECA)；

(g)其他黑词(OB)；

(h)其他词语(other)；

其中，(c)、(d)、(e)、(f)、(g)类型的词语为黑词。

6.根据权利要求4所述的电商黑灰产舆情自动挖掘方法，其特征在于，所述训练集和验证集的样本总量比为2～9∶1。

7.根据权利要求4所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(iv)中，使用随机梯度下降更新网络参数，学习率初始时为0.002，每5次训练后通过验证集上计算模型的损失，如果损失值没有减小，就将学习率减小十分之一。

8.根据权利要求1所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(3)中，识别获取黑灰产网站包括：

(3-2)提取训练样本的url特征、文本特征及html特征；

9.根据权利要求8所述的电商黑灰产舆情自动挖掘方法，其特征在于，步骤(3-2)中，所述的url特征包括URL深度、URL长度和域名长度；所述的文本特征包括网页内容的关键词、网页平均词数和网页数；所述的html特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量。

10.一种电商黑灰产舆情自动挖掘***，其特征在于，包括：