CN110188194A - 一种基于多任务学习模型的假新闻检测方法及*** - Google Patents

一种基于多任务学习模型的假新闻检测方法及*** Download PDF

Info

Publication number
CN110188194A
CN110188194A CN201910354263.5A CN201910354263A CN110188194A CN 110188194 A CN110188194 A CN 110188194A CN 201910354263 A CN201910354263 A CN 201910354263A CN 110188194 A CN110188194 A CN 110188194A
Authority
CN
China
Prior art keywords
news
feature
layer
text
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354263.5A
Other languages
English (en)
Other versions
CN110188194B (zh
Inventor
廖清
韩浩
丁烨
漆舒汉
蒋琳
王轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201910354263.5A priority Critical patent/CN110188194B/zh
Publication of CN110188194A publication Critical patent/CN110188194A/zh
Priority to US16/749,160 priority patent/US11494648B2/en
Application granted granted Critical
Publication of CN110188194B publication Critical patent/CN110188194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多任务学习模型的假新闻检测方法及***。在一个实施例中:采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。本发明实施例的教导,能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。

Description

一种基于多任务学习模型的假新闻检测方法及***
技术领域
本发明涉及新闻检测技术领域,尤其涉及一种基于多任务学习模型的假新闻检测方法及***。
背景技术
社交媒体对新闻传播是一把双刃剑。一方面,它成本低廉,容易获取,而且通过快速的传播,它允许用户消费和分享新闻。另一方面,它可以产生有害的假新闻,即一些有意含有错误信息的低质量新闻。假新闻的快速传播对社会和个人有着巨大的潜在危害。举个例子,在2016年美国总统大选中,最受欢迎的假新闻在Facebook上的传播范围要比主流媒体的新闻还要大。
因此,社交媒体中的假新闻检测引起了研究者和政治家们的注意。但是社交媒体的假新闻检测有着独特的特性而且呈现出新的挑战。
首先,假新闻的内容是被有意制造用来误导读者,这使得我们很难根据其新闻的内容来判断是否是假新闻。因此,我们需要类似用户在社交媒体上的活跃度等辅助信息来将假新闻从真新闻中区分出来。
第二,用户基于假新闻的社交活动产生了大量不完整、非结构化和充满噪声的数据,这使得利用这些数据变得非常困难。
在对现有技术的研究过程中,本发明的发明人发现,现有的假新闻检测方法主要集中在从新闻文本内容中提取词汇特征来对其真实性进行预判,当新闻文本内容较短时,其准确性难以令人满意。
为了全面并准确地检测假新闻,许多事实核查机构和社交媒体平台投入了大量的人力物力,推动了假新闻检测检测的相关算法改进和技术发展,但也没有能够很好地解决上述问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于多任务学习模型的假新闻检测方法及***,能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。
为解决上述问题,本发明实施例提供一种基于多任务学习模型的假新闻检测方法,包括:
采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
优选地,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
优选地,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
优选地,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
本发明实施例还提供一种基于多任务学习模型的假新闻检测***,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
优选地,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,用于根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
优选地,所述嵌入层,具体用于将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
优选地,所述表示层,具体用于使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
实施本发明实施例,具有如下有益效果:
在本发明一个实施例的教导中,通过采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题,上述方案能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。
附图说明
图1是本发明一个实施例提供的一种基于多任务学习模型的假新闻检测方法的流程示意图;
图2是本发明一个实施例提供的不同主题和不同作者的新闻的可信度分布示意图;
图3是本发明一个实施例提供的多任务学习模型(FDML模型)的示意图;
图4是本发明一个实施例提供的用于提取文本特征的Text-CNN模型的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1。
一种基于多任务学习模型的假新闻检测方法,包括:
S101、采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
如图2所示,图2为不同主题和不同作者的新闻的可信度分布示意图,由图2可以看出,某些特定主题的新闻,被归类为假新闻的概率较高;同样的,某些作者也可能会被归类为有很高的意图发表假新闻。
对于新闻真实性与新闻主题之间的存在着某些不可忽略的关系,本实施例采用多任务学习模型(Integrated Multi-Task Model,即用于假新闻检测的多任务学习模型(fake news detection multi-task learning(FDML)),对待检测新闻的真实性检测和主题分类进行联合训练,以提高假新闻检测的准确性。
需要强调的是,本实施例在FDML模型中,假新闻检测任务和新闻主题分类任务是以统一的方式,进行同步训练学习的。
在一优选实施例中,为了便于后续技术方案的描述,先定义FDML模型中一些术语,具体如下:
1)新闻。
设D={d1,d2,...,d|D|}集合为包含|D|新闻,对于每一条新闻d={x,c},x表示新闻的文本内容,c表示与新闻的文本内容对应的上下文信息。
2)新闻标签。
每一条新闻都与之相关标签y={ym=1,ym=2},其中ym=1表示新闻的主题标签,ym=2表示相应的新闻的真实性标签。为了便于后面的描述,我们将索引标记出来,即m=1表示主题分类任务,m=2表示假新闻检测任务。在FDML模型中,假新闻检测任务与主题分类任务是同时进行的联合训练。
3)主题分类。
给定一组新闻D={d1,d2,...,d|D|},找到为每一条未标记的新闻,这样
4)假新闻检测。
给定一组新闻D={d1,d2,...,d|D|},找到为每一条未标记的新闻,这样请注意,对于假新闻检测的问题,新闻的主题标签并不一定是与新闻d={x,c}必需有关的消息。
5)多任务假新闻检测。
给定一组D={d1,d2,...,d|D|},找到一个能够同时预测新闻d={x,c}的主题标签和真实性标签的模型F,其中,
请参阅图3。
所述多任务学习模型包括嵌入层、表示层和多任务层。
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层。
具体的,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征。
所述表示层可以对假新闻检测任务和主题分类任务同时执行训练学习。
对于新闻的文本特征向量,FDML模型首先使用GRU层作为特征提取器,对文本内容进行编码,获得更高阶的表示。同时对GRU层的输出进一步应用最大池化和CNN模型以捕捉高阶特征。最后,FDML模型将提取的文本特征分别表示为后续的假新闻检测器和主题分类器的输入。
同时,所述表示层使用另一个CNN模型和上下文特征向量层来捕捉新闻的上下文信息的特征表示。最后,FDML模型将提取的上下文信息的特征表示分别表示为后续的假新闻检测器和主题分类器的输入。
最后将所提取出来的文本特征和上下文特征,根据其表示形式组合成完整特征,并输入多任务层进行下一步处理。
需要强调的是,在表示层的应用的两个CNN模型,一个适用于对新闻的文本内容进行文本特征提取,另一个适用于对新闻上下文信息进行上下文特征提取,两者是不同的设计。
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
可以理解的是,对于多任务层,由于对待检测新闻的真实性检测和主题分类进行联合训练,即两个任务是同时执行的,所以输出主题标签和真实性标签是相互影响的。
请参阅图4。
在一优选实施例中,一条新闻由文本内容和上下文信息两部分组成。文本内容,指新闻文本,例如:“Virginia governor Ralph Northam defies calls to resign overracist photo”,即标题、摘要、简报或声明等文本。上下文信息,是指新闻的元数据,例如,由“Jonathan Martin”于“Feb.2,2019”在“New York Times”上发表,即作者、时间、地点或期刊等元数据。
文本内容可以看作是一个列表,因此,现有的词汇嵌入方法,如word2vec、fastText、GloVe均可直接使用。将每个词汇表示为一个低维向量,因为它可以有效地编码语义信息。考虑包含T个词汇{x1,x2,...,xT},词汇嵌入的目的是生成一个固定长度的向量,由变长序列x表示并通过一些深度神经网络进行训练,如RNN或CNN。
与文本内容不同,语境内容是范畴性的,在退出时无法在语义上匹配上下文信息。因此,对于上下文信息,嵌入模型必须在学习过程中接受训练。此外,由于每个类别不同,如作者、出版商、时间,以及领域和词汇分布,需要按类别分开如{c1,c2,...,cN},对嵌入特征向量进行训练,如图3所示。
在一优选实施例中,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
当新闻的文本内容很短的时候,对其真实性的检测难度变得很大,对于这个问题,传统的假新闻检测手段并不能给出一个较为满意的解决方案。
为了解决这个问题,本实施例在文本内容上附加了上下文信息,以协助完成假新闻的侦查任务。因为上下文信息对主题分类也很有用,所以它也用于主题分类。
在FDML模型中,将所提取出来的文本特征和上下文特征组合成完整特征输入到假新闻检测器和主题分类器。
传统的RNN在无法有效的捕获长期依赖,因此,本实施例使用GRU作为文本特征提取器。对于每一个时间步长t,计算GRU的过程描述如下:
x′t=Ex′t
rt=σ(Wrx′t+Urht-1)
zt=σ(Wzx′t+Uzht-1)
h′t=tanh(Whx′t+Uh(ht-1·rt))
ht=(1-zt)·ht-1+zt·h′t
其中,x′t表示词汇xt的词汇嵌入向量,E为词汇嵌入矩阵,rt为重置门,zt为更新门,并且(W,U)是GRU中的参数。
如图3所示,在GRU层计算得到对文本内容(主题信息)进行有效编码的隐状态表示{h1,h2,...,hT},使用多个卷积核对GRU的隐状态进行特征提取。卷积运算采用卷积核w∈Rpk,其中k为隐状态的参数,使用多个卷积核对GRU的隐状态进行特征提取。
给定长度为r的一个隐藏状态区域hi:i+p-1,则,ui=f(w·hi:i+p-1+b),其中b是偏置项,f是非线性函数。根据每个区域的GRU隐状态,我们可以得到特征映射
u=[u1,u2,...,uT-r+1]。
如图4所示,展示了Text-CNN具有2/3/4滤波区域,每个滤波区域配置2个滤波器。
为了捕获上下文信息之间的依赖关系,本实施例使用另一个CNN执行类似的操作。但输入是上下文信息的嵌入向量,而不是GRU层的隐状态{h1,h2,...,hT}。
考虑到作者的信用历史代表了作者的可信度,并且已经作为载体呈现,它没有参与在上述计算过程中,而是与上下文信息进行串联运算,组成上下文信息的最终表示形式用于假新闻检测。在形式上,
其中Ch为信用记录。
对于主题分类任务,本实施例只需连接N个嵌入向量表示上下文信息。在形式上,
在一优选实施例中,得到完整特征,即实现了全连接层用于融合文本特征和上下文特征。多任务层的执行描述如下:
其中,为全连接层的权重,为对应的偏置,f为激活函数, 表示串联运算。
损失函数为假新闻检测与主题分类的线性组合:
其中,Θ代表模型参数,λ是权衡模型参数的正则化系数。
基于上述任一实施例的教导,根据以下现象:
1)新闻设计的某些话题被归类为假新闻的概率很高;
2)一些作者有很高的意图发布假新闻。
FDML模型有效地融合了文本内容和上下文信息,并利用了新闻主题、作者的可信度分布与新闻的真实性之间的相关性,进行多任务学习,提高了假新闻检测的准确性。
本发明实施例还提供一种基于多任务学习模型的假新闻检测***,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
如图2所示,图2为不同主题和不同作者的新闻的可信度分布示意图,由图2可以看出,某些特定主题的新闻,被归类为假新闻的概率较高;同样的,某些作者也可能会被归类为有很高的意图发表假新闻。
对于新闻真实性与新闻主题之间的存在着某些不可忽略的关系,本实施例采用多任务学习模型(Integrated Multi-Task Model,即用于假新闻检测的多任务学习模型(fake news detection multi-task learning(FDML)),对待检测新闻的真实性检测和主题分类进行联合训练,以提高假新闻检测的准确性。
需要强调的是,本实施例在FDML模型中,假新闻检测任务和新闻主题分类任务是以统一的方式,进行同步训练学习的。
请参阅图3。
所述多任务学习模型包括嵌入层、表示层和多任务层。
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层。
具体的,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征。
所述表示层可以对假新闻检测任务和主题分类任务同时执行训练学习。
对于新闻的文本特征向量,FDML模型首先使用GRU层作为特征提取器,对文本内容进行编码,获得更高阶的表示。同时对GRU层的输出进一步应用最大池化和CNN模型以捕捉高阶特征。最后,FDML模型将提取的文本特征分别表示为后续的假新闻检测器和主题分类器的输入。
同时,所述表示层使用另一个CNN模型和上下文特征向量层来捕捉新闻的上下文信息的特征表示。最后,FDML模型将提取的上下文信息的特征表示分别表示为后续的假新闻检测器和主题分类器的输入。
最后将所提取出来的文本特征和上下文特征,根据其表示形式组合成完整特征,并输入多任务层进行下一步处理。
需要强调的是,在表示层的应用的两个CNN模型,一个适用于对新闻的文本内容进行文本特征提取,另一个适用于对新闻上下文信息进行上下文特征提取,两者是不同的设计。
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
可以理解的是,对于多任务层,由于对待检测新闻的真实性检测和主题分类进行联合训练,即两个任务是同时执行的,所以输出主题标签和真实性标签是相互影响的。
请参阅图4。
在一优选实施例中,一条新闻由文本内容和上下文信息两部分组成。文本内容,指新闻文本,例如:“Virginia governor Ralph Northam defies calls to resign overracist photo”,即标题、摘要、简报或声明等文本。上下文信息,是指新闻的元数据,例如,由“Jonathan Martin”于“Feb.2,2019”在“New York Times”上发表,即作者、时间、地点或期刊等元数据。
文本内容可以看作是一个列表,因此,现有的词汇嵌入方法,如word2vec、fastText、GloVe均可直接使用。将每个词汇表示为一个低维向量,因为它可以有效地编码语义信息。考虑包含T个词汇{x1,x2,...,xT},词汇嵌入的目的是生成一个固定长度的向量,由变长序列x表示并通过一些深度神经网络进行训练,如RNN或CNN。
与文本内容不同,语境内容是范畴性的,在退出时无法在语义上匹配上下文信息。因此,对于上下文信息,嵌入模型必须在学习过程中接受训练。此外,由于每个类别不同,如作者、出版商、时间,以及领域和词汇分布,需要按类别分开如{c1,c2,...,cN},对嵌入特征向量进行训练,如图3所示。
在一优选实施例中,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
当新闻的文本内容很短的时候,对其真实性的检测难度变得很大,对于这个问题,传统的假新闻检测手段并不能给出一个较为满意的解决方案。
为了解决这个问题,本实施例在文本内容上附加了上下文信息,以协助完成假新闻的侦查任务。因为上下文信息对主题分类也很有用,所以它也用于主题分类。
在FDML模型中,将所提取出来的文本特征和上下文特征组合成完整特征输入到假新闻检测器和主题分类器。
传统的RNN在无法有效的捕获长期依赖,因此,本实施例使用GRU作为文本特征提取器。对于每一个时间步长t,计算GRU的过程描述如下:
x′t=Ex′t
rt=σ(Wrx′t+Urht-1)
zt=σ(Wzx′t+Uzht-1)
h′t=tanh(Whx′t+Uh(ht-1·rt))
ht=(1-zt)·ht-1+zt·h′t
其中,x′t表示词汇xt的词汇嵌入向量,E为词汇嵌入矩阵,rt为重置门,zt为更新门,并且(W,U)是GRU中的参数。
如图3所示,在GRU层计算得到对文本内容(主题信息)进行有效编码的隐状态表示{h1,h2,...,hT},使用多个卷积核对GRU的隐状态进行特征提取。卷积运算采用卷积核w∈Rpk,其中k为隐状态的参数,使用多个卷积核对GRU的隐状态进行特征提取。
给定长度为r的一个隐藏状态区域hi:i+p-1,则,ui=f(w·hi:i+p-1+b),其中b是偏置项,f是非线性函数。根据每个区域的GRU隐状态,我们可以得到特征映射
u=[u1,u2,...,uT-r+1]。
如图4所示,展示了Text-CNN具有2/3/4滤波区域,每个滤波区域配置2个滤波器。
为了捕获上下文信息之间的依赖关系,本实施例使用另一个CNN执行类似的操作。但输入是上下文信息的嵌入向量,而不是GRU层的隐状态{h1,h2,...,hT}。
考虑到作者的信用历史代表了作者的可信度,并且已经作为载体呈现,它没有参与在上述计算过程中,而是与上下文信息进行串联运算,组成上下文信息的最终表示形式用于假新闻检测。在形式上,
其中Ch为信用记录。
对于主题分类任务,本实施例只需连接N个嵌入向量表示上下文信息。在形式上,
在一优选实施例中,得到完整特征,即实现了全连接层用于融合文本特征和上下文特征。多任务层的执行描述如下:
其中,为全连接层的权重,为对应的偏置,f为激活函数, 表示串联运算。
损失函数为假新闻检测与主题分类的线性组合:
其中,Θ代表模型参数,λ是权衡模型参数的正则化系数。
基于上述任一实施例的教导,根据以下现象:
1)新闻设计的某些话题被归类为假新闻的概率很高;
2)一些作者有很高的意图发布假新闻。
FDML模型有效地融合了文本内容和上下文信息,并利用了新闻主题、作者的可信度分布与新闻的真实性之间的相关性,进行多任务学习,提高了假新闻检测的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种基于多任务学习模型的假新闻检测方法,其特征在于,包括:
采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
2.如权利要求1所述的假新闻检测方法,其特征在于,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
3.如权利要求2所述的假新闻检测方法,其特征在于,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
4.如权利要求3所述的假新闻检测方法,其特征在于,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
5.一种基于多任务学习模型的假新闻检测***,其特征在于,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
6.如权利要求5所述的假新闻检测***,其特征在于,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,用于根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
7.如权利要求6所述的假新闻检测方法,其特征在于,所述嵌入层,具体用于将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
8.如权利要求7所述的假新闻检测***,其特征在于,所述表示层,具体用于使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
CN201910354263.5A 2019-04-26 2019-04-26 一种基于多任务学习模型的假新闻检测方法及*** Active CN110188194B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910354263.5A CN110188194B (zh) 2019-04-26 2019-04-26 一种基于多任务学习模型的假新闻检测方法及***
US16/749,160 US11494648B2 (en) 2019-04-26 2020-01-22 Method and system for detecting fake news based on multi-task learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354263.5A CN110188194B (zh) 2019-04-26 2019-04-26 一种基于多任务学习模型的假新闻检测方法及***

Publications (2)

Publication Number Publication Date
CN110188194A true CN110188194A (zh) 2019-08-30
CN110188194B CN110188194B (zh) 2020-12-01

Family

ID=67715279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354263.5A Active CN110188194B (zh) 2019-04-26 2019-04-26 一种基于多任务学习模型的假新闻检测方法及***

Country Status (2)

Country Link
US (1) US11494648B2 (zh)
CN (1) CN110188194B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765108A (zh) * 2019-10-24 2020-02-07 西北工业大学 一种基于群智数据融合的假消息早期检测方法
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及***
CN111160040A (zh) * 2019-12-26 2020-05-15 西安交通大学 一种基于多尺度门控均衡交互融合网络的信息可信度评估***及方法
CN111177554A (zh) * 2019-12-27 2020-05-19 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别***及方法
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测***及方法
CN111611981A (zh) * 2020-06-28 2020-09-01 腾讯科技(深圳)有限公司 信息识别方法和装置及信息识别神经网络训练方法和装置
CN111680120A (zh) * 2020-04-30 2020-09-18 中国科学院信息工程研究所 新闻类别检测方法及***
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、***、终端及介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
US20220036011A1 (en) * 2020-07-30 2022-02-03 InfoAuthN AI Inc. Systems and Methods for Explainable Fake News Detection
CN112183670B (zh) * 2020-11-05 2022-08-09 南开大学 一种基于知识蒸馏的少样本虚假新闻检测方法
CN112329444B (zh) * 2020-11-10 2022-09-02 南开大学 融合文本和传播结构的早期谣言检测方法
CN112527959B (zh) * 2020-12-11 2023-05-30 重庆邮电大学 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN113158646B (zh) * 2021-01-12 2023-10-27 北京工商大学 一种基于区块链的自动合成新闻的检测方法及***
CN112966069B (zh) * 2021-01-13 2023-05-19 西安交通大学 一种基于普遍认知与个体认知的虚假新闻检测***及方法
CN113076754A (zh) * 2021-03-23 2021-07-06 山东师范大学 一种基于知识集成的虚假评论检测方法及***
CN113434684B (zh) * 2021-07-01 2022-03-08 北京中科研究院 自监督学习的谣言检测方法、***、设备及存储介质
CN113609292B (zh) * 2021-08-09 2023-10-13 上海交通大学 基于图结构的已知虚假新闻智能检测方法
CN113849599B (zh) * 2021-09-03 2023-01-24 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113869431B (zh) * 2021-09-30 2024-05-07 平安科技(深圳)有限公司 虚假信息检测方法、***、计算机设备及可读存储介质
CN114912026B (zh) * 2022-05-30 2023-11-07 贵州梦动科技有限公司 一种网络舆情监测分析处理方法、设备及计算机存储介质
CN115130613B (zh) * 2022-07-26 2024-03-15 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN116028627B (zh) * 2023-02-13 2023-06-13 特斯联科技集团有限公司 新闻分类方法及装置、电子设备、计算机可读存储介质
CN117034905B (zh) * 2023-08-07 2024-05-14 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117574261B (zh) * 2023-10-19 2024-06-21 重庆理工大学 一种多领域虚假新闻读者认知检测方法
CN117669530A (zh) * 2024-02-02 2024-03-08 中国传媒大学 基于提示学习的虚假信息检测方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747837B2 (en) * 2013-03-11 2020-08-18 Creopoint, Inc. Containing disinformation spread using customizable intelligence channels

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG LIU, YI-FANG BROOK WU: "Early Detection of Fake News on Social Media Through Propagation Path Classification with Recurrent and Convolutional Networks", 《IN THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YAQING WANG ET AL.: "EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection", 《IN PROCEEDINGS OF THE 24TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765108A (zh) * 2019-10-24 2020-02-07 西北工业大学 一种基于群智数据融合的假消息早期检测方法
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及***
CN111160040A (zh) * 2019-12-26 2020-05-15 西安交通大学 一种基于多尺度门控均衡交互融合网络的信息可信度评估***及方法
CN111177554A (zh) * 2019-12-27 2020-05-19 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别***及方法
CN111177554B (zh) * 2019-12-27 2022-12-09 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别***及方法
CN111680120A (zh) * 2020-04-30 2020-09-18 中国科学院信息工程研究所 新闻类别检测方法及***
CN111680120B (zh) * 2020-04-30 2022-06-03 中国科学院信息工程研究所 新闻类别检测方法及***
CN111581980B (zh) * 2020-05-06 2022-08-16 西安交通大学 基于决策树与共同注意力协作的假新闻检测***及方法
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测***及方法
CN111611981A (zh) * 2020-06-28 2020-09-01 腾讯科技(深圳)有限公司 信息识别方法和装置及信息识别神经网络训练方法和装置
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、***、终端及介质

Also Published As

Publication number Publication date
US11494648B2 (en) 2022-11-08
US20200342314A1 (en) 2020-10-29
CN110188194B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN110188194A (zh) 一种基于多任务学习模型的假新闻检测方法及***
CN111274405B (zh) 一种基于gcn的文本分类方法
Chen et al. A long-text classification method of Chinese news based on BERT and CNN
Ratkiewicz et al. Detecting and tracking the spread of astroturf memes in microblog streams
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Bu et al. A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
CN108345587A (zh) 一种评论的真实性检测方法与***
Zhao et al. ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN
Ratnawati et al. Sentiment Analysis of Movie Opinion in Twitter Using Dynamic Convolutional Neural Network Algorithm
Islam et al. Review analysis of ride-sharing applications using machine learning approaches: Bangladesh perspective
Smitha et al. Meme classification using textual and visual features
CN106599824A (zh) 一种基于情感对的gif动画情感识别方法
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
Asian et al. Sentiment analysis for the Brazilian anesthesiologist using multi-layer perceptron classifier and random forest methods
CN114817541A (zh) 基于双重情感感知的谣言检测方法及装置
Yao et al. Online deception detection refueled by real world data collection
Dutta et al. Multi-modal sarcasm detection in social networks: A comparative review
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
Patil et al. Detecting and categorization of click baits
Doğan et al. Text summarization in social networks by using deep learning
Gu et al. Development and Classification of a Chinese Humor Corpus
Sarkar et al. Text Summarization
Zhang et al. Sentiment analysis on Chinese health forums: a preliminary study of different language models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant