CN110704715B - 一种网络霸凌的检测方法及*** - Google Patents

一种网络霸凌的检测方法及*** Download PDF

Info

Publication number
CN110704715B
CN110704715B CN201910992761.2A CN201910992761A CN110704715B CN 110704715 B CN110704715 B CN 110704715B CN 201910992761 A CN201910992761 A CN 201910992761A CN 110704715 B CN110704715 B CN 110704715B
Authority
CN
China
Prior art keywords
sentence text
sentence
text
network
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910992761.2A
Other languages
English (en)
Other versions
CN110704715A (zh
Inventor
李博涵
张安曼
万朔
王文幻
王学良
李雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910992761.2A priority Critical patent/CN110704715B/zh
Publication of CN110704715A publication Critical patent/CN110704715A/zh
Priority to US17/072,292 priority patent/US20210117619A1/en
Application granted granted Critical
Publication of CN110704715B publication Critical patent/CN110704715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种网络霸凌的检测方法及***。该检测方法包括:获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况。本发明在文本分类和识别效果上表现良好,准确率高且损失率低。

Description

一种网络霸凌的检测方法及***
技术领域
本发明涉及网络信息检测领域,特别是涉及一种网络霸凌的检测方法及***。
背景技术
社交网络给人们的生活带来诸多便利,但同时也带来一系列严重的问题,包括网络霸凌。网络霸凌是一种激进的、有意为之的行为,由一个团体或个人在互联网上攻击受害者。现有的网络霸凌检测工作大多集中在利用侮辱性词汇对文本或者带有短标题的图像进行分类。例如,SVM和Logistic回归等方法。此类检测方法虽然在检测准确性上有一定的优势,但是无法捕捉到非侮辱性词汇隐含的语义信息。
网络霸凌不仅仅包括侮辱性词汇,还包括非侮辱性词汇的攻击,而这些非侮辱性词汇的信息采用现有的检测方法无法检测,因此,采用现有方法检测网络霸凌行为的结果不准确。
发明内容
本发明的目的是提供一种网络霸凌的检测方法及***,以提高网络霸凌的检测结果准确度。
为实现上述目的,本发明提供了如下方案:
一种网络霸凌的检测方法,包括:
获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;
采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;
获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;
获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;
根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况。
可选的,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,之前还包括:
对所述待检测的数据集中每个所述句子文本进行清洗,去除非字母字符,得到预处理后的文本序列。
可选的,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,具体包括:
将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵;
将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量;
将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值;
根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
可选的,所述将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值,具体包括:
利用公式
Figure BDA0002238781710000021
计算得到每个单词的注意力值;其中,uw为随机初始化的文本上下文向量,uin为词向量win对应的输出向量,uik为词向量wik对应的输出向量,T为向量的转置符号。
可选的,所述获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,具体包括:
将所述句子文本中的所有单词的注意力值取平均,得到所述句子文本的注意力值;每个单词的注意力值由所述基于双向循环神经网络的分类模型对所述待检测的数据集进行分类过程中得到;
将所述用户对应的所有句子文本的注意力值取平均,得到所述用户的注意力值。
可选的,所述根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况,之后还包括:
获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;
利用公式
Figure BDA0002238781710000031
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure BDA0002238781710000032
表示所述用户第i个辅助者撰写的所有句子文本的数量。
本发明还提供一种网络霸凌的检测***,包括:
待检测数据集获取模块,用于获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;
分类模块,用于采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;
第一句子文本集合获取模块,用于获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;
注意力值获取模块,用于获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;
网络霸凌检测模块,用于根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况。
可选的,所述分类模块具体包括:
嵌入层处理单元,用于将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵;
双向循环神经网络层处理单元,用于将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量;
注意力层处理单元,用于将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值;
归一化处理单元,用于根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
可选的,所述注意力层处理单元利用公式
Figure BDA0002238781710000041
计算得到每个单词的注意力值;其中,uw为随机初始化的文本上下文向量,uin为词向量win对应的输出向量,uik为词向量wik对应的输出向量,T为向量的转置符号。
可选的,还包括:
第二句子文本集合获取模块,用于在根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况之后,获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;
霸凌程度确定模块,用于利用公式
Figure BDA0002238781710000042
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure BDA0002238781710000051
表示所述用户第i个辅助者撰写的所有句子文本的数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明采用双向循环神经网络层和注意力层的注意力模型来识别网络霸凌问题中的主要霸凌者。注意力模型形象地展示了句子中每个英文单词对最终类别判断的影响,可以准确识别非侮辱性词汇或者其他词汇的网络霸凌情况,且对于网络霸凌检测的准确率高、损失率低。
此外,使用注意力层的权重值可以进一步衡量网络霸凌的程度,在后续网络霸凌的控制过程中,可以根据网络霸凌的程度制定管控策略,为网络霸凌的控制与治理提供决策基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网络霸凌的检测方法的流程示意图;
图2为本发明网络霸凌的检测***的结构示意图;
图3为本发明具体实施案例的流程示意图;
图4为本发明具体实施案例中文本分类过程的示意图;
图5为本发明具体实施案例中某一话题所有单词注意力值分布示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明网络霸凌的检测方法的流程示意图。如图1所示,所述网络霸凌的检测方法包括以下步骤:
步骤100:获取待检测的数据集。所述待检测的数据集包括多个用户的多个句子文本。本发明主要针对社交网站上的网络霸凌进行检测,因此,待检测的数据集通常都是源于社交网站,例如,可以获取社交网站MySpace的数据集,包括多个话题的多条英文帖子,每一条帖子都对应一个用户,每一条帖子可能包括多个句子文本,也可能包括一条句子文本。
步骤200:采用基于双向循环神经网络的分类模型对待检测的数据集进行分类,得到每个句子文本属于网络霸凌的概率。
对待检测的数据集进行分类之前需要构建基于双向循环神经网络的分类模型,本发明的基于双向循环神经网络的分类模型包括嵌入层、双向循环神经网络层、注意力层和全连接层四个层次。构建完分类模型后,选取三分之二的样本数据,对构建的分类模型进行训练;然后选取剩余三分之一的样本数据,检验所构建的分类模型的有效性和准确性。根据实际需求,可以展示部分检测结果,例如,展示文本中对最终类别判断影响较大的单词,并考虑将这些单词保存为一个词库,以更好的训练分类模型。
对待检测的数据集进行分类之前,可以先对待检测的数据集进行预处理,例如,对待检测的数据集中每个句子文本进行清洗,去除非字母字符,进而得到预处理后的文本序列。然后采用训练好的分类模型对预处理后的文本序列进行分类,这样可以进一步提高分类的准确度。如果没有进行文本数据的预处理,可以直接采用训练好的分类模型对待检测的数据集进行分类。分类的具体过程如下:
(1)将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵。例如,对句子文本Si进行分词处理,将每个单词转换成词向量,得到所有的词向量序列wi1,wi2,...,win,进而得到句子文本Si对应的向量矩阵W=(wi1,wi2,...,win)。
(2)将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的状态向量
Figure BDA0002238781710000071
然后利用公式
Figure BDA0002238781710000072
得到每个词向量在所述双向循环神经网络层中隐含层的输出向量uin。其中,tanh(·)表示双曲正切函数,Ww为注意力层的权重,bw为所述注意力层的偏差,
Figure BDA0002238781710000073
为词向量win在所述双向循环神经网络层中隐含层的状态向量,uin
Figure BDA0002238781710000074
在双向循环神经网络层的状态向量经过前向层和后向层之后的输出表示向量。双向循环神经网络层的输入是词向量,分别送给双向循环神经网络的前向层和后向层,这两层连接着同一个输出层,输出层的每一个神经元包含输入序列过去和未来的上下文信息,用更新(综合前向和后向隐含层神经元)后的
Figure BDA0002238781710000075
表示。横向来看,每一个时刻的
Figure BDA0002238781710000076
是由上一时刻的
Figure BDA0002238781710000077
输出和当前的词向量决定的。
(3)将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值。具体的利用公式
Figure BDA0002238781710000078
计算得到每个单词的注意力值;其中,uw为随机初始化的文本上下文向量,uin为词向量win对应的输出向量,uik为词向量wik对应的输出向量,T为向量的转置符号。
(4)根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。注意力值的函数为归一化指数函数(softmax函数),将得分映射到(0,1)区间,以此得到每个注意力值的概率。然后利用公式
Figure BDA0002238781710000079
得到句子文本属于网络霸凌的概率,C为融合了上下文信息的向量,对其进行归一化处理得到的分类概率,即每个句子文本属于网络霸凌的概率。
步骤300:获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合。对于概率大于设定概率的句子文本,属于网络霸凌的几率更大,因此,此部分句子文本需要进一步确定是否属于网络霸凌情况。
步骤400:获取第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值。具体的,句子文本的注意力值由所述句子文本中的所有单词的注意力值取平均得到;用户的注意力值由所述用户对应的所有句子文本的注意力值取平均得到。采用基于双向循环神经网络的分类模型对待检测的数据集进行分类的过程中可以得到每个单词的注意力值。
步骤500:根据第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值,检测每个句子文本是否存在网络霸凌情况。例如,若某个用户某条句子文本的注意力值高于设定的阈值,则可判断网络霸凌情况的发生。对于设定的阈值,根据实际需求进行设定即可,例如,可以结合第一句子文本集合中每个句子文本的注意力值和每个用户的注意力值综合设定,也可以根据待检测的数据集的敏感程度或者其他因素设定。
作为另一实施例,在得到每个句子文本是否存在网络霸凌情况之后,可以进一步对存在网络霸凌情况的句子文本的霸凌程度进行检测,以便于后续对于网络安全的管理或社交平台的管理提供决策基础。对霸凌程度进行检测时,首先获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;然后利用公式
Figure BDA0002238781710000081
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure BDA0002238781710000082
表示所述用户第i个辅助者撰写的所有句子文本的数量。
对应于图1所示的网络霸凌的检测方法,图2为本发明网络霸凌的检测***的结构示意图。如图2所示,所述网络霸凌的检测***包括以下结构:
待检测数据集获取模块201,用于获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本。
分类模块202,用于采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率。
第一句子文本集合获取模块203,用于获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合。
注意力值获取模块204,用于获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值。
网络霸凌检测模块205,用于根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况。
作为另一实施例,所述网络霸凌的检测***中的分类模块202具体包括:
嵌入层处理单元,用于将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵。
双向循环神经网络层处理单元,用于将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量。
注意力层处理单元,用于将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值。
归一化处理单元,用于根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
作为另一实施例,所述网络霸凌的检测***中的注意力层处理单元利用公式
Figure BDA0002238781710000091
计算得到每个单词的注意力值;其中,uw为随机初始化的文本上下文向量,uin为词向量win对应的输出向量,uik为词向量wik对应的输出向量,T为向量的转置符号。
作为另一实施例,所述网络霸凌的检测***中还包括:
第二句子文本集合获取模块,用于在根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况之后,获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合。
霸凌程度确定模块,用于利用公式
Figure BDA0002238781710000101
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure BDA0002238781710000102
表示所述用户第i个辅助者撰写的所有句子文本的数量。
下面提供一个具体实施案例进一步说明本发明的方案。
本具体实施案例在一台拥有英特尔的core i7CPU,16GB RAM机器上进行。基于双向循环神经网络的注意力检测算法以Python语言编码,旨在通过文本信息发现潜在的网络霸凌问题。最终结果取重复5次实验之后的平均值。
本具体实施案例对社交网络的三个数据集采用图3所示的方式进行网络霸凌的检测,图3为本发明具体实施案例的流程示意图。三个数据集分别为:Formspring、Twitter和MySpace。Formspring是2009年推出的问答平台。Twitter提供微博服务,允许用户在140个字符内更新消息。MySpace是一个社交网站,为全球用户提供了一个集社交网络、个人信息共享、即时通讯等功能于一体的互动平台。
Formspring:该数据集包含来自Formspring中50个id的40952个帖子。每个帖子都被众包给AMT公司的三名员工,他们为网络霸凌内容贴上“是”或“不是”的标签。至少有一名员工认为,大约3469个帖子属于霸凌类型,37349个帖子被视为非网络霸凌类。其余的数据没有给出一个明确的判断。
Twitter:这个数据集从Twitter流API中收集,有7321条推文,包括2102条标签为“是”的推文和5219条标签为“否”的推文。所有数据都由经验丰富的网络霸凌研究者标注。
MySpace:选取的数据集含有属于16345个话题的381557个帖子。首先,保存一个名为SwearWord List&Curse Filter的网站上的脏话和咒骂词。其他包含粗话的俚语和缩写词组成的网络俚语和英国俚语也进行保存。然后,将这些单词与所有帖子的内容相匹配,自动给每个帖子进行标注。如果一个帖子包含霸凌内容,被标记为1,否则标记为0。在所有的话题中,有10629个标签为1和5716个标签为0。除了自动标记的数据集之外,还引入了一个事实数据集来检查标签的可靠性。事实数据集包括3104条文本数据,分成11个包。三名独立专家对包含霸凌内容的数据进行手动标记。如果一个文件包含霸凌内容,被标记为1,否则被标记为0。对于一个被贴上“网络霸凌”标签的文件,至少需要2个专家标记为1。
然后,采用图4所示的分类过程对三个数据集进行分类,图4为本发明具体实施案例中文本分类过程的示意图。对于神经网络来说,丢弃率和学习率是影响训练效果的两个主要因素。设置丢弃率的目的是通过丢弃隐藏层的一些神经元来避免过度拟合的情况。学习率,即参数到达最优值过程的速度快慢,通过选择合适的学习率,可以使梯度下降法得到更好的性能。保持学习率不变,调整丢弃率,使得神经元的保留率在60%、70%和80%。保持丢弃率不变,调整学习率,使得学习率为1e-3、1e-4和1e-5。
计算每个帖子的平均注意力值和每个用户的平均注意力值,如图5所示,图5为本发明具体实施案例中某一话题所有单词注意力值分布示意图。然后确定阈值。若某个用户某条帖子内容的平均注意力值高于设定的阈值,则可判断网络霸凌情况的发生。
最后,综合考虑一个话题中的主要霸凌者及其他辅助者,根据严重性程度计算公式,以注意力值衡量某一话题对受害者造成的潜在不良影响。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种网络霸凌的检测方法,其特征在于,包括:
获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;
采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;
获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;
获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;
根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况;之后还包括:
获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;
利用公式
Figure DEST_PATH_IMAGE002
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure DEST_PATH_IMAGE004
表示所述用户第i个辅助者撰写的所有句子文本的数量。
2.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,之前还包括:
对所述待检测的数据集中每个所述句子文本进行清洗,去除非字母字符,得到预处理后的文本序列。
3.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,具体包括:
将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵;
将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量;
将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值;
根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
4.根据权利要求3所述的网络霸凌的检测方法,其特征在于,所述将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值,具体包括:
利用公式
Figure DEST_PATH_IMAGE006
计算得到每个单词的注意力值;其中,
Figure DEST_PATH_IMAGE008
为随机初始化的文本上下文向量,对句子文本Si进行分词处理,将每个单词转换成词向量,得到所有的词向量序列wi1,wi2,…,win
Figure DEST_PATH_IMAGE010
为词向量
Figure DEST_PATH_IMAGE012
对应的输出向量,
Figure DEST_PATH_IMAGE014
为词向量
Figure DEST_PATH_IMAGE016
对应的输出向量,T为向量的转置符号。
5.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,具体包括:
将所述句子文本中的所有单词的注意力值取平均,得到所述句子文本的注意力值;每个单词的注意力值由所述基于双向循环神经网络的分类模型对所述待检测的数据集进行分类过程中得到;
将所述用户对应的所有句子文本的注意力值取平均,得到所述用户的注意力值。
6.一种网络霸凌的检测***,其特征在于,包括:
待检测数据集获取模块,用于获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;
分类模块,用于采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;
第一句子文本集合获取模块,用于获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;
注意力值获取模块,用于获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;
网络霸凌检测模块,用于根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况;
第二句子文本集合获取模块,用于在根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况之后,获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;
霸凌程度确定模块,用于利用公式
Figure DEST_PATH_IMAGE002A
确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,
Figure DEST_PATH_IMAGE004A
表示所述用户第i个辅助者撰写的所有句子文本的数量。
7.根据权利要求6所述的网络霸凌的检测***,其特征在于,所述分类模块具体包括:
嵌入层处理单元,用于将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵;
双向循环神经网络层处理单元,用于将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量;
注意力层处理单元,用于将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值;
归一化处理单元,用于根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
8.根据权利要求7所述的网络霸凌的检测***,其特征在于,所述注意力层处理单元利用公式
Figure DEST_PATH_IMAGE006A
计算得到每个单词的注意力值;其中,
Figure DEST_PATH_IMAGE008A
为随机初始化的文本上下文向量,对句子文本Si进行分词处理,将每个单词转换成词向量,得到所有的词向量序列wi1,wi2,…,win
Figure DEST_PATH_IMAGE010A
为词向量
Figure DEST_PATH_IMAGE012A
对应的输出向量,
Figure DEST_PATH_IMAGE014A
为词向量
Figure DEST_PATH_IMAGE016A
对应的输出向量,T为向量的转置符号。
CN201910992761.2A 2019-10-18 2019-10-18 一种网络霸凌的检测方法及*** Active CN110704715B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910992761.2A CN110704715B (zh) 2019-10-18 2019-10-18 一种网络霸凌的检测方法及***
US17/072,292 US20210117619A1 (en) 2019-10-18 2020-10-16 Cyberbullying detection method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910992761.2A CN110704715B (zh) 2019-10-18 2019-10-18 一种网络霸凌的检测方法及***

Publications (2)

Publication Number Publication Date
CN110704715A CN110704715A (zh) 2020-01-17
CN110704715B true CN110704715B (zh) 2022-05-17

Family

ID=69201624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910992761.2A Active CN110704715B (zh) 2019-10-18 2019-10-18 一种网络霸凌的检测方法及***

Country Status (2)

Country Link
US (1) US20210117619A1 (zh)
CN (1) CN110704715B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274403B (zh) * 2020-02-09 2023-04-25 重庆大学 一种网络欺凌检测方法
CN113094596A (zh) * 2021-04-26 2021-07-09 东南大学 一种基于双向传播图的多任务谣言检测方法
CN113779249B (zh) * 2021-08-31 2022-08-16 华南师范大学 跨领域文本情感分类方法、装置、存储介质以及电子设备
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测***
CN114329229B (zh) * 2021-12-16 2024-07-23 三峡大学 融合用户信息和文本信息的谣言检测方法及装置
CN114330556A (zh) * 2021-12-29 2022-04-12 绍兴兰红智能科技有限公司 一种基于注意力和有效程度的bert模型打分方法
CN114706977A (zh) * 2022-02-25 2022-07-05 福州大学 基于动态多跳图注意力网络的谣言检测方法及***
CN115840844B (zh) * 2022-12-17 2023-08-15 深圳市新联鑫网络科技有限公司 一种基于大数据的互联网络平台用户行为分析***
CN117828479B (zh) * 2024-02-29 2024-06-11 浙江鹏信信息科技股份有限公司 诈骗网站识别检测方法、***及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的***、设备和方法
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测***
CN108630230A (zh) * 2018-05-14 2018-10-09 哈尔滨工业大学 一种基于动作语音数据联合识别的校园霸凌检测方法
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016151827A (ja) * 2015-02-16 2016-08-22 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US9923914B2 (en) * 2015-06-30 2018-03-20 Norse Networks, Inc. Systems and platforms for intelligently monitoring risky network activities
US10956670B2 (en) * 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
CN109325120A (zh) * 2018-09-14 2019-02-12 江苏师范大学 一种分离用户和产品注意力机制的文本情感分类方法
CN109522548A (zh) * 2018-10-26 2019-03-26 天津大学 一种基于双向交互神经网络的文本情感分析方法
CN109446331B (zh) * 2018-12-07 2021-03-26 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN110210037B (zh) * 2019-06-12 2020-04-07 四川大学 面向循证医学领域的类别检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的***、设备和方法
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测***
CN108630230A (zh) * 2018-05-14 2018-10-09 哈尔滨工业大学 一种基于动作语音数据联合识别的校园霸凌检测方法
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hierarchical Attention Networks for Cyberbullying Detection on the Instagram Social Network;Lu Cheng 等;《Proceedings of the 2019 SIAM International Conference on Data Mining》;20190506;第1-10页 *
联合分层注意力网络和独立循环神经网络的地域欺凌识别;孟曌 等;《计算机应用》;20190911;第2450-2455页 *

Also Published As

Publication number Publication date
CN110704715A (zh) 2020-01-17
US20210117619A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
CN110704715B (zh) 一种网络霸凌的检测方法及***
Girgis et al. Deep learning algorithms for detecting fake news in online text
CN108737406B (zh) 一种异常流量数据的检测方法及***
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN106294590B (zh) 一种基于半监督学习的社交网络垃圾用户过滤方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
Butnaru et al. Moroco: The moldavian and romanian dialectal corpus
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和***
CN103942191B (zh) 一种基于内容的恐怖文本识别方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
El Ballouli et al. Cat: Credibility analysis of arabic content on twitter
CN108345587A (zh) 一种评论的真实性检测方法与***
Barua et al. F-NAD: An application for fake news article detection using machine learning techniques
Ashcroft et al. A Step Towards Detecting Online Grooming--Identifying Adults Pretending to be Children
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Mestry et al. Automation in social networking comments with the help of robust fasttext and cnn
Kumar et al. An analysis on sarcasm detection over twitter during COVID-19
Luo et al. Multi-aspect feature based neural network model in detecting fake reviews
CN114357167B (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和***
Shang et al. KnowMeme: A knowledge-enriched graph neural network solution to offensive meme detection
CN109062905B (zh) 一种弹幕文本价值评价方法、装置、设备及介质
Zhu et al. Learn to not link: Exploring NIL prediction in entity linking
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN112052869B (zh) 一种用户心理状态识别方法及***
CN111797194B (zh) 文本风险检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant