CN114861082A - 一种基于多维度语义表示的攻击性评论检测方法 - Google Patents
一种基于多维度语义表示的攻击性评论检测方法 Download PDFInfo
- Publication number
- CN114861082A CN114861082A CN202210571526.XA CN202210571526A CN114861082A CN 114861082 A CN114861082 A CN 114861082A CN 202210571526 A CN202210571526 A CN 202210571526A CN 114861082 A CN114861082 A CN 114861082A
- Authority
- CN
- China
- Prior art keywords
- semantic
- vector
- text
- target
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 206010001488 Aggression Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000016571 aggressive behavior Effects 0.000 description 1
- 208000012761 aggressive behavior Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多维度语义表示的攻击性评论检测方法,所述方法包括以下步骤:步骤1:评论文本数据采集及预处理;步骤2:文本多维度语义向量生成;步骤3:多维度语义向量交叉编码;步骤4:层级融合分类器预测攻击性检测结果。本发明可以有效解决攻击性评论检测中存在的现有文本表示方法难以深入挖掘语义信息,信息表示维度单一且关联信息较弱等问题。
Description
技术领域
本发明涉及一种基于多维度语义表示的攻击性评论检测方法,该方法可用于互联网社交平台攻击性语言检测中,属于互联网与人工智能技术领域。
背景技术
随着社交媒体平台的蓬勃发展,网络社交已为人们沟通的主流方式,便捷的交流平台能够丰富用户的思想市场,社交媒体的多样性和普及性也使得不同行业和不同知识基础的用户自由发声。但是由于社交平台的用户身份可匿名性、现实世界的情绪堵塞以及社交网络的媒介效应等诸多因素,社交网络上的语言暴力等攻击性行为屡见不鲜,严重影响网络空间的公序良俗。因此,检测社交用户发表的攻击性评论,是网络空间内容治理的一项重要工作。
对于从社交媒体采集的用户评论数据,研究者们首先对文本数据进行简单清洗;接着使用语言表征模型对预处理后的文本数据进行文本表示,即将文本数据转换为计算机可理解的形式,并在此过程中提取分类数据的特征;然后构造分类器选择最优的分类匹配,从而分类。目前社交媒体上攻击性语言检测的常用方法大多使用机器学习、深度学习和预训练模型。传统的机器学习方法处理社交媒体上复杂的攻击性语言,不仅十分消耗计算机的算力和内存,且算法准确率上升空间有限。此外,传统的机器学习方法不能对单词之间的远程依赖关系进行建模,且存在数据稀疏性问题。而基于深度学习的方法能够有效识别却很难对攻击性语言进行准确分类,并且没有从多维度分析不同的词嵌入信息对检测攻击性语言的正面影响,也未挖掘出社交用户的历史信息关联和文体特征。
本发明针对攻击性评论检测中存在的信息表示维度单一、关联信息较弱以及暗讽性评论检测效果不佳等问题,提出一种基于多维度语义表示的攻击性评论检测方法(User-Offensive Comment Detection based on Multi-dimensional SemanticRepresentation,UOCD-MSR)。首先,本发明提出文本多维度语义向量生成模块对输入评论文本从针对目标和语义内容两个维度生成字面层级的文本向量,并挖掘用户的历史关联信息实现隐喻层级的语义信息表示;接着,根据多维度语义向量交叉编码机制增强字面层级和隐喻层级语义信息之间的关联程度;最后,使用层级融合分类器充分保障编码后的目标和内容之间的潜在交互信息以及语义保留度,提高攻击性评论的检测结果。
发明内容
针对现有技术存在的问题与不足,本发明提出一种基于多维度语义表示的攻击性评论检测方法UOCD-MSR,该方法能够准确检测社交媒体中用户发表的攻击性评论文本。
为了实现上述目的,本发明的技术方案如下:一种基于多维度语义表示的攻击性评论检测方法,该方法主要包括评论文本数据采集与预处理、文本多维度语义向量生成、多维度语义向量交叉编码和层级融合分类器预测检测结果等过程,能够对文本进行多维度语义分析,准确检测出社交媒体中的攻击性评论。该方法主要包括四个步骤,具体如下:
步骤1:评论文本数据采集及预处理。首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除等操作;
步骤2:文本多维度语义向量生成。对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。
步骤3:多维度语义向量交叉编码。根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。
步骤4:层级融合分类器预测检测结果。根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。
相对于现有技术,本发明的有益效果如下:
1.该方法提出的UOCD-MSR模型能够对评论文本进行多维度语义分析,深入挖掘隐喻层级的语义信息,提高了社交媒体中攻击性评论的检测效果。
2.UOCD-MSR模型采用多维度语义向量编码机制,准确识别句子中的指向性目标并综合考虑字面层级和隐喻层级的语义信息,达到两者之间的关联性增强效果,最大化利用各个维度的文本向量所表达的语义信息。
3.该方法引入各社交媒体用户攻击性评论检测场景,能够有效提升模型的泛化能力,同时提高攻击性评论检测的评价标准值,达到较高水平。
附图说明
图1为本发明实施例的方法总体框架图。
图2为本发明实施例的方法流程图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。实施例:本发明的整体框架和具体流程分别如图1和图2所示,具体实施步骤如下:
步骤1,评论文本数据采集及预处理。具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。然后,针对评论数据集进行预处理,采取Python中的表情库,将每条评论中的表情转换为对应的含义文本;使用Python中的第三方库词段通过识别大写字符来分割标签;将所有@USER的字段全部替换为一个@USER令牌,以在保留必要信息的同时去除冗余词;根据社交媒体平台上经常使用的侮辱性词汇列表将大量攻击性词汇常见的拼写变体映射为规范形式;删除尾随空格和无用的标点符号。
步骤2,文本多维度语义向量生成。假设某社交平台上的用户评论数据集为Ds={s1,s2,…,sL},其中si是数据集中第i个句子,L是数据集的长度。给定一个单词序列W={w1,w2,…,wn}表示文本句子。攻击性语言检测可以定义成为每个句子分配标签以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签指示句子是具有针对性的攻击还是非针对性的攻击。该步骤实施过程分为4个子步骤:
子步骤2-1,特定目标攻击向量表示。目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示。对于输入的文本序列W={w1,w2,…,wn},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,…,xn}。针对标注后的序列,文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征。CNN主要提取字符级别的特征,ELMO则提取词语的动态特征。最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起,形成新向量x′={x′1,x′2,…,x′n}送入到BiLSTM中,BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数,并输出最优标注序列作为特定目标攻击向量表示ST,如公式(1)所示,其中为文本序列W中对应的第i个词的特定目标向量表示。
子步骤2-2,广义目标攻击向量表示。广义目标攻击一般针对属于一小部分类别的人,研究发现主要是性别。通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示GT,如公式(2)所示,其中为文本序列W中对应的第i个词的广义目标向量表示。
子步骤2-3,显式语义攻击向量表示。对于显性攻击,无论目标是特定的还是广义的,显性攻击通常由侮辱性词汇中的特定关键词表示。使用dict2vec定义给定文本中单词的强对和弱对,每个单词都由一个向量表示。强配对的词比弱配对的词有更多的相似向量,弱配对的词比不相关的词有更多的相似向量。如果两个词的k近邻在某个弱对之间,那么弱对可以被提升为强对。根据与预训练的词嵌入的余弦距离选择最接近的K个词,发现使用K=5可以很好地权衡语义和句法提取信息。在这种机制下,即可学习到一条文本的显式语义攻击向量表示即ES,如公式(3)所示,其中为文本序列W中对应的第i个词的显式语义向量表示。
子步骤2-4,隐式语义攻击向量表示。隐式攻击性语言并不直接表示辱骂,需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺。首先收集用户的所有注释以及历史评论数据,并通过使用特殊的分隔符附加它们来创建文档。每个用户文档及其中的所有单词首先被映射成唯一的向量,每个向量分别由矩阵和中的一列表示。这里,ds表示嵌入大小,|V|表示词汇表的大小。然后采用段落向量的无监督表示学习方法进行训练,经过训练文档D学习用户的文档向量,这些文档向量代表用户的文体特征和偏好特征。接着采用预训练的CNN提取用户的个性特征,并将个性特征包含在用户嵌入中。通过提取CNN的最后一个隐藏层向量的激活,即个性特征然后将用户对所有评论的个性特征的期望定义为总体个性特征向量通过多视角融合器CCA将用户的文体特征和个性特征融合起来,最后得到根据本文数据集训练的内在语义讽刺向量表示IS,如公式(4)所示,其中为文本序列W中对应的第i个词的显式语义向量表示。
步骤3,多维度语义向量交叉编码。对于步骤2从目标维度和语义维度得到的四种文本表示{ST,GT,ES,IS},首先使用连接函数将{ST,GT}拼接成目标向量表示XT;同理,{ES,IS}被拼接成内容向量表示XS。拼接完成后,XT和XS作为输入发送到Transformer机制。为了实现目标和语义两个维度之间的关联性增强作用,将目标和语义进行交叉计算,得到文本的编码表示ZT和ZS,如公式(5)和(6)所示。
其中,dk表示注意力机制里K值的维度,VS和VT分别表示语义和目标维度的V值。
经过多头注意力之后,将目标维度的结果ZT和语义内容的编码结果ZS送到残差连接和归一化层(Add&Norm),进行残差连接计算和层归一化处理。在多维度语义向量交叉编码机制里,目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示:
OT=LayerNorm(FNN(ZS)+ZT) (7)
OS=LayerNorm(FNN(ZT)+ZS) (8)
步骤4,层级融合分类器预测检测结果。为最大程度地还原文本的初始意义,融合维度不一致的目标向量和语义内容向量,提出层级融合分类器算法。具体来说,首先分别将步骤3中获得的目标向量OT和语义内容向量OS从多维压缩成一维,如公式(9)和(10),然后通过一个Dense层并应用Softmax函数得到对应的目标角度和内容角度的d维的概率向量,即VT和VS,这里d为类别数量。具体计算公式(11)和(12)如下:
从目标角度看,使用连接函数将V′T和OS拼接起来,生成增扩的语义内容状态并再次经过Flatten层进行压缩和Dense层进行计算,最终得到目标角度的输出矩阵PS;同理,从语义内容维度也能得到一个输出矩阵PT,如公式(15)和(16)所示。
最后,将从目标角度和语义角度得到的两个输出矩阵PT和PS拼接起来得到P,并将拼接后的矩阵进行压缩,压缩后的结果送入到层级融合分类器里,得到要预测的每个类别的概率C,层级融合分类器的计算如公式(17)、(18)和公式(19)所示。
L1=ReLU(PW1+b1) (17)
L2=ReLU(L1W2+b2) (18)
C=Softmax(L2W3+b3) (19)
基于相同的发明构思,本发明实施例公开的一种基于多维度语义表示的攻击性评论检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于多维度语义表示的攻击性评论检测方法与装置。
需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
Claims (7)
1.一种基于多维度语义表示的攻击性评论检测方法,其特征在于,所述方法包括以下步骤:
步骤1:评论文本数据采集及预处理;
步骤2:文本多维度语义向量生成;
步骤3:多维度语义向量交叉编码;
步骤4:层级融合分类器预测攻击性检测结果。
2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤1:评论文本数据采集及预处理,具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID,接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除操作。
3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2:文本多维度语义向量生成,对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。
4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤3:多维度语义向量交叉编码,根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。
5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤4:层级融合分类器预测检测结果,根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。
6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2,文本多维度语义向量生成,具体如下:假设某社交平台上的用户评论数据集为Ds={s1,s2,…,sL},其中si是数据集中第i个句子,L是数据集的长度,给定一个单词序列W={w1,w2,…,wn}表示文本句子,攻击性语言检测定义成为每个句子分配标签以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签指示句子是具有针对性的攻击还是非针对性的攻击,该步骤实施过程分为4个子步骤:
子步骤2-1,特定目标攻击向量表示,目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示,对于输入的文本序列W={w1,w2,…,wn},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,…,xn},针对标注后的序列,文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征,CNN主要提取字符级别的特征,ELMO则提取词语的动态特征,最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起,形成新向量x′={x′1,x′2,…,x′n}送入到BiLSTM中,BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数,并输出最优标注序列作为特定目标攻击向量表示ST,如公式(1)所示,其中为文本序列W中对应的第i个词的特定目标向量表示:
子步骤2-3,显式语义攻击向量表示,对于显性攻击,使用dict2vec定义给定文本中单词的强对和弱对,每个单词都由一个向量表示,如果两个词的k近邻在某个弱对之间,那么弱对可以被提升为强对,根据与预训练的词嵌入的余弦距离选择最接近的K个词,发现使用K=5很好地权衡语义和句法提取信息,在这种机制下,即可学习到一条文本的显式语义攻击向量表示即ES,如公式(3)所示,其中为文本序列W中对应的第i个词的显式语义向量表示,
子步骤2-4,隐式语义攻击向量表示,隐式攻击性语言并不直接表示辱骂,需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺,首先收集用户的所有注释以及历史评论数据,并通过使用特殊的分隔符附加它们来创建文档,每个用户文档及其中的所有单词首先被映射成唯一的向量,每个向量分别由矩阵和中的一列表示,这里,ds表示嵌入大小,|V|表示词汇表的大小,然后采用段落向量的无监督表示学习方法进行训练,经过训练文档D学习用户的文档向量,这些文档向量代表用户的文体特征和偏好特征,接着采用预训练的CNN提取用户的个性特征,并将个性特征包含在用户嵌入中,通过提取CNN的最后一个隐藏层向量的激活,即个性特征然后将用户对所有评论的个性特征的期望定义为总体个性特征向量通过多视角融合器CCA将用户的文体特征和个性特征融合起来,最后得到根据本文数据集训练的内在语义讽刺向量表示IS,如公式(4)所示,其中为文本序列W中对应的第i个词的显式语义向量表示,
7.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤3,多维度语义向量交叉编码,对于步骤2从目标维度和语义维度得到的四种文本表示{ST,GT,ES,IS},首先使用连接函数将{ST,GT}拼接成目标向量表示XT;同理,{ES,IS}被拼接成内容向量表示XS,拼接完成后,XT和XS作为输入发送到Transformer机制,为了实现目标和语义两个维度之间的关联性增强作用,将目标和语义进行交叉计算,得到文本的编码表示,如公式(5)和(6)所示,
其中,dk表示注意力机制里K值的维度,VS和VT分别表示语义和目标维度的V值;
经过多头注意力之后,将目标维度的结果ZT和语义内容的编码结果ZS送到残差连接和归一化层(Add&Norm),进行残差连接计算和层归一化处理,在多维度语义向量交叉编码机制里,目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示:
OT=LayerNorm(FNN(ZS)+ZT) (7)
OS=LayerNorm(FNN(ZT)+ZS) (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210571526.XA CN114861082A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多维度语义表示的攻击性评论检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210571526.XA CN114861082A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多维度语义表示的攻击性评论检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861082A true CN114861082A (zh) | 2022-08-05 |
Family
ID=82640011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210571526.XA Pending CN114861082A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多维度语义表示的攻击性评论检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861082A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361242A (zh) * | 2022-10-24 | 2022-11-18 | 长沙市智为信息技术有限公司 | 一种基于多维特征网络的Web攻击检测方法 |
CN116882414A (zh) * | 2023-09-05 | 2023-10-13 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
-
2022
- 2022-05-24 CN CN202210571526.XA patent/CN114861082A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361242A (zh) * | 2022-10-24 | 2022-11-18 | 长沙市智为信息技术有限公司 | 一种基于多维特征网络的Web攻击检测方法 |
CN116882414A (zh) * | 2023-09-05 | 2023-10-13 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
CN116882414B (zh) * | 2023-09-05 | 2023-11-07 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
Sommerschield et al. | Machine learning for ancient languages: A survey | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN111581964A (zh) | 一种汉语古籍的主题分析方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN110750646A (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及*** | |
Heo et al. | Multimodal neural machine translation with weakly labeled images | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
Al-Tameemi et al. | Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN117851871A (zh) | 一种境外互联网社交阵地多模态数据识别方法 | |
CN115017884A (zh) | 基于图文多模态门控增强的文本平行句对抽取方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
Vijayaraju | Image retrieval using image captioning | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及*** | |
CN114492425B (zh) | 采用一套领域标签体系将多维度数据打通的方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN113792143A (zh) | 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |