CN110704715B

CN110704715B - 一种网络霸凌的检测方法及***

Info

Publication number: CN110704715B
Application number: CN201910992761.2A
Authority: CN
Inventors: 李博涵; 张安曼; 万朔; 王文幻; 王学良; 李雪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-05-17
Anticipated expiration: 2039-10-18
Also published as: CN110704715A; US20210117619A1

Abstract

本发明公开一种网络霸凌的检测方法及***。该检测方法包括：获取待检测的数据集；所述待检测的数据集包括多个用户的多个句子文本；采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率；获取属于网络霸凌的概率大于设定概率的句子文本，得到第一句子文本集合；获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值；根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况。本发明在文本分类和识别效果上表现良好，准确率高且损失率低。

Description

一种网络霸凌的检测方法及***

技术领域

本发明涉及网络信息检测领域，特别是涉及一种网络霸凌的检测方法及***。

背景技术

社交网络给人们的生活带来诸多便利，但同时也带来一系列严重的问题，包括网络霸凌。网络霸凌是一种激进的、有意为之的行为，由一个团体或个人在互联网上攻击受害者。现有的网络霸凌检测工作大多集中在利用侮辱性词汇对文本或者带有短标题的图像进行分类。例如，SVM和Logistic回归等方法。此类检测方法虽然在检测准确性上有一定的优势，但是无法捕捉到非侮辱性词汇隐含的语义信息。

网络霸凌不仅仅包括侮辱性词汇，还包括非侮辱性词汇的攻击，而这些非侮辱性词汇的信息采用现有的检测方法无法检测，因此，采用现有方法检测网络霸凌行为的结果不准确。

发明内容

本发明的目的是提供一种网络霸凌的检测方法及***，以提高网络霸凌的检测结果准确度。

为实现上述目的，本发明提供了如下方案：

一种网络霸凌的检测方法，包括：

获取待检测的数据集；所述待检测的数据集包括多个用户的多个句子文本；

采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率；

获取属于网络霸凌的概率大于设定概率的句子文本，得到第一句子文本集合；

获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值；

根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况。

可选的，所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率，之前还包括：

对所述待检测的数据集中每个所述句子文本进行清洗，去除非字母字符，得到预处理后的文本序列。

可选的，所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率，具体包括：

将所述待检测的数据集输入所述分类模型的嵌入层，对每个所述句子文本进行分词处理，将每个单词转换为词向量，得到每个所述句子文本对应的向量矩阵；

将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层，得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量；

将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层，得到每个单词的注意力值；

根据每个单词的注意力值，采用归一化处理方法，得到每个句子文本属于网络霸凌的概率。

可选的，所述将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层，得到每个单词的注意力值，具体包括：

利用公式

计算得到每个单词的注意力值；其中，u_w为随机初始化的文本上下文向量，u_in为词向量w_in对应的输出向量，u_ik为词向量w_ik对应的输出向量，T为向量的转置符号。

可选的，所述获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，具体包括：

将所述句子文本中的所有单词的注意力值取平均，得到所述句子文本的注意力值；每个单词的注意力值由所述基于双向循环神经网络的分类模型对所述待检测的数据集进行分类过程中得到；

将所述用户对应的所有句子文本的注意力值取平均，得到所述用户的注意力值。

可选的，所述根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况，之后还包括：

获取存在网络霸凌情况的所有句子文本，得到第二句子文本集合；

利用公式

确定所述第二句子文本集合中每个句子文本的霸凌程度；其中，severity为所述句子文本的霸凌程度值，b_att表示所述句子文本的注意力值，p_b表示所述句子文本的用户撰写的所有句子文本的数量，asst_i,att表示所述用户第i个辅助者的句子文本的注意力值，

表示所述用户第i个辅助者撰写的所有句子文本的数量。

本发明还提供一种网络霸凌的检测***，包括：

待检测数据集获取模块，用于获取待检测的数据集；所述待检测的数据集包括多个用户的多个句子文本；

分类模块，用于采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率；

第一句子文本集合获取模块，用于获取属于网络霸凌的概率大于设定概率的句子文本，得到第一句子文本集合；

注意力值获取模块，用于获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值；

网络霸凌检测模块，用于根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况。

可选的，所述分类模块具体包括：

嵌入层处理单元，用于将所述待检测的数据集输入所述分类模型的嵌入层，对每个所述句子文本进行分词处理，将每个单词转换为词向量，得到每个所述句子文本对应的向量矩阵；

双向循环神经网络层处理单元，用于将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层，得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量；

注意力层处理单元，用于将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层，得到每个单词的注意力值；

归一化处理单元，用于根据每个单词的注意力值，采用归一化处理方法，得到每个句子文本属于网络霸凌的概率。

可选的，所述注意力层处理单元利用公式

可选的，还包括：

第二句子文本集合获取模块，用于在根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况之后，获取存在网络霸凌情况的所有句子文本，得到第二句子文本集合；

霸凌程度确定模块，用于利用公式

表示所述用户第i个辅助者撰写的所有句子文本的数量。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明采用双向循环神经网络层和注意力层的注意力模型来识别网络霸凌问题中的主要霸凌者。注意力模型形象地展示了句子中每个英文单词对最终类别判断的影响，可以准确识别非侮辱性词汇或者其他词汇的网络霸凌情况，且对于网络霸凌检测的准确率高、损失率低。

此外，使用注意力层的权重值可以进一步衡量网络霸凌的程度，在后续网络霸凌的控制过程中，可以根据网络霸凌的程度制定管控策略，为网络霸凌的控制与治理提供决策基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明网络霸凌的检测方法的流程示意图；

图2为本发明网络霸凌的检测***的结构示意图；

图3为本发明具体实施案例的流程示意图；

图4为本发明具体实施案例中文本分类过程的示意图；

图5为本发明具体实施案例中某一话题所有单词注意力值分布示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明网络霸凌的检测方法的流程示意图。如图1所示，所述网络霸凌的检测方法包括以下步骤：

步骤100：获取待检测的数据集。所述待检测的数据集包括多个用户的多个句子文本。本发明主要针对社交网站上的网络霸凌进行检测，因此，待检测的数据集通常都是源于社交网站，例如，可以获取社交网站MySpace的数据集，包括多个话题的多条英文帖子，每一条帖子都对应一个用户，每一条帖子可能包括多个句子文本，也可能包括一条句子文本。

步骤200：采用基于双向循环神经网络的分类模型对待检测的数据集进行分类，得到每个句子文本属于网络霸凌的概率。

对待检测的数据集进行分类之前需要构建基于双向循环神经网络的分类模型，本发明的基于双向循环神经网络的分类模型包括嵌入层、双向循环神经网络层、注意力层和全连接层四个层次。构建完分类模型后，选取三分之二的样本数据，对构建的分类模型进行训练；然后选取剩余三分之一的样本数据，检验所构建的分类模型的有效性和准确性。根据实际需求，可以展示部分检测结果，例如，展示文本中对最终类别判断影响较大的单词，并考虑将这些单词保存为一个词库，以更好的训练分类模型。

对待检测的数据集进行分类之前，可以先对待检测的数据集进行预处理，例如，对待检测的数据集中每个句子文本进行清洗，去除非字母字符，进而得到预处理后的文本序列。然后采用训练好的分类模型对预处理后的文本序列进行分类，这样可以进一步提高分类的准确度。如果没有进行文本数据的预处理，可以直接采用训练好的分类模型对待检测的数据集进行分类。分类的具体过程如下：

(1)将所述待检测的数据集输入所述分类模型的嵌入层，对每个所述句子文本进行分词处理，将每个单词转换为词向量，得到每个所述句子文本对应的向量矩阵。例如，对句子文本S_i进行分词处理，将每个单词转换成词向量，得到所有的词向量序列w_i1,w_i2,...,w_in，进而得到句子文本S_i对应的向量矩阵W＝(w_i1,w_i2,...,w_in)。

(2)将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层，得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的状态向量

然后利用公式

得到每个词向量在所述双向循环神经网络层中隐含层的输出向量u_in。其中，tanh(·)表示双曲正切函数，W_w为注意力层的权重，b_w为所述注意力层的偏差，

为词向量w_in在所述双向循环神经网络层中隐含层的状态向量，u_in是

在双向循环神经网络层的状态向量经过前向层和后向层之后的输出表示向量。双向循环神经网络层的输入是词向量，分别送给双向循环神经网络的前向层和后向层，这两层连接着同一个输出层，输出层的每一个神经元包含输入序列过去和未来的上下文信息，用更新(综合前向和后向隐含层神经元)后的

表示。横向来看，每一个时刻的

是由上一时刻的

输出和当前的词向量决定的。

(3)将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层，得到每个单词的注意力值。具体的利用公式

(4)根据每个单词的注意力值，采用归一化处理方法，得到每个句子文本属于网络霸凌的概率。注意力值的函数为归一化指数函数(softmax函数)，将得分映射到(0，1)区间，以此得到每个注意力值的概率。然后利用公式

得到句子文本属于网络霸凌的概率，C为融合了上下文信息的向量，对其进行归一化处理得到的分类概率，即每个句子文本属于网络霸凌的概率。

步骤300：获取属于网络霸凌的概率大于设定概率的句子文本，得到第一句子文本集合。对于概率大于设定概率的句子文本，属于网络霸凌的几率更大，因此，此部分句子文本需要进一步确定是否属于网络霸凌情况。

步骤400：获取第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值。具体的，句子文本的注意力值由所述句子文本中的所有单词的注意力值取平均得到；用户的注意力值由所述用户对应的所有句子文本的注意力值取平均得到。采用基于双向循环神经网络的分类模型对待检测的数据集进行分类的过程中可以得到每个单词的注意力值。

步骤500：根据第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值，检测每个句子文本是否存在网络霸凌情况。例如，若某个用户某条句子文本的注意力值高于设定的阈值，则可判断网络霸凌情况的发生。对于设定的阈值，根据实际需求进行设定即可，例如，可以结合第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值综合设定，也可以根据待检测的数据集的敏感程度或者其他因素设定。

作为另一实施例，在得到每个句子文本是否存在网络霸凌情况之后，可以进一步对存在网络霸凌情况的句子文本的霸凌程度进行检测，以便于后续对于网络安全的管理或社交平台的管理提供决策基础。对霸凌程度进行检测时，首先获取存在网络霸凌情况的所有句子文本，得到第二句子文本集合；然后利用公式

表示所述用户第i个辅助者撰写的所有句子文本的数量。

对应于图1所示的网络霸凌的检测方法，图2为本发明网络霸凌的检测***的结构示意图。如图2所示，所述网络霸凌的检测***包括以下结构：

待检测数据集获取模块201，用于获取待检测的数据集；所述待检测的数据集包括多个用户的多个句子文本。

分类模块202，用于采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类，得到每个所述句子文本属于网络霸凌的概率。

第一句子文本集合获取模块203，用于获取属于网络霸凌的概率大于设定概率的句子文本，得到第一句子文本集合。

注意力值获取模块204，用于获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值。

网络霸凌检测模块205，用于根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况。

作为另一实施例，所述网络霸凌的检测***中的分类模块202具体包括：

嵌入层处理单元，用于将所述待检测的数据集输入所述分类模型的嵌入层，对每个所述句子文本进行分词处理，将每个单词转换为词向量，得到每个所述句子文本对应的向量矩阵。

双向循环神经网络层处理单元，用于将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层，得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量。

注意力层处理单元，用于将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层，得到每个单词的注意力值。

作为另一实施例，所述网络霸凌的检测***中的注意力层处理单元利用公式

作为另一实施例，所述网络霸凌的检测***中还包括：

第二句子文本集合获取模块，用于在根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值，检测每个所述句子文本是否存在网络霸凌情况之后，获取存在网络霸凌情况的所有句子文本，得到第二句子文本集合。

霸凌程度确定模块，用于利用公式

表示所述用户第i个辅助者撰写的所有句子文本的数量。

下面提供一个具体实施案例进一步说明本发明的方案。

本具体实施案例在一台拥有英特尔的core i7CPU，16GB RAM机器上进行。基于双向循环神经网络的注意力检测算法以Python语言编码，旨在通过文本信息发现潜在的网络霸凌问题。最终结果取重复5次实验之后的平均值。

本具体实施案例对社交网络的三个数据集采用图3所示的方式进行网络霸凌的检测，图3为本发明具体实施案例的流程示意图。三个数据集分别为：Formspring、Twitter和MySpace。Formspring是2009年推出的问答平台。Twitter提供微博服务，允许用户在140个字符内更新消息。MySpace是一个社交网站，为全球用户提供了一个集社交网络、个人信息共享、即时通讯等功能于一体的互动平台。

Formspring：该数据集包含来自Formspring中50个id的40952个帖子。每个帖子都被众包给AMT公司的三名员工，他们为网络霸凌内容贴上“是”或“不是”的标签。至少有一名员工认为，大约3469个帖子属于霸凌类型，37349个帖子被视为非网络霸凌类。其余的数据没有给出一个明确的判断。

Twitter：这个数据集从Twitter流API中收集，有7321条推文，包括2102条标签为“是”的推文和5219条标签为“否”的推文。所有数据都由经验丰富的网络霸凌研究者标注。

MySpace：选取的数据集含有属于16345个话题的381557个帖子。首先，保存一个名为SwearWord List&Curse Filter的网站上的脏话和咒骂词。其他包含粗话的俚语和缩写词组成的网络俚语和英国俚语也进行保存。然后，将这些单词与所有帖子的内容相匹配，自动给每个帖子进行标注。如果一个帖子包含霸凌内容，被标记为1，否则标记为0。在所有的话题中，有10629个标签为1和5716个标签为0。除了自动标记的数据集之外，还引入了一个事实数据集来检查标签的可靠性。事实数据集包括3104条文本数据，分成11个包。三名独立专家对包含霸凌内容的数据进行手动标记。如果一个文件包含霸凌内容，被标记为1，否则被标记为0。对于一个被贴上“网络霸凌”标签的文件，至少需要2个专家标记为1。

然后，采用图4所示的分类过程对三个数据集进行分类，图4为本发明具体实施案例中文本分类过程的示意图。对于神经网络来说，丢弃率和学习率是影响训练效果的两个主要因素。设置丢弃率的目的是通过丢弃隐藏层的一些神经元来避免过度拟合的情况。学习率，即参数到达最优值过程的速度快慢，通过选择合适的学习率，可以使梯度下降法得到更好的性能。保持学习率不变，调整丢弃率，使得神经元的保留率在60％、70％和80％。保持丢弃率不变，调整学习率，使得学习率为1e-3、1e-4和1e-5。

计算每个帖子的平均注意力值和每个用户的平均注意力值，如图5所示，图5为本发明具体实施案例中某一话题所有单词注意力值分布示意图。然后确定阈值。若某个用户某条帖子内容的平均注意力值高于设定的阈值，则可判断网络霸凌情况的发生。

最后，综合考虑一个话题中的主要霸凌者及其他辅助者，根据严重性程度计算公式，以注意力值衡量某一话题对受害者造成的潜在不良影响。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。