CN115588122A - 一种基于多模态特征融合的新闻分类方法 - Google Patents

一种基于多模态特征融合的新闻分类方法 Download PDF

Info

Publication number
CN115588122A
CN115588122A CN202211383002.4A CN202211383002A CN115588122A CN 115588122 A CN115588122 A CN 115588122A CN 202211383002 A CN202211383002 A CN 202211383002A CN 115588122 A CN115588122 A CN 115588122A
Authority
CN
China
Prior art keywords
vector
news
time step
current time
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211383002.4A
Other languages
English (en)
Inventor
王进
向严
邓龙行
彭云曦
刘彬
朴昌浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211383002.4A priority Critical patent/CN115588122A/zh
Publication of CN115588122A publication Critical patent/CN115588122A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本分类领域,具体涉及一种基于多模态特征融合的新闻分类方法,包括:获取原始新闻样本数据;对原始新闻文本进行特征提取得到原始新闻文本向量,对每个原始新闻配图进行特征提取得到每个原始新闻配图的图片序列向量;将原始新闻文本向量和所有原始新闻配图的图片序列向量输入新闻分类模型进行训练;获取目标新闻样本数据,得到目标新闻文本向量和多个目标新闻配图的图片序列向量,将目标新闻文本向量和多个目标新闻配图的图片序列向量输入新闻分类模型得到目标新闻样本数据的分类结果,本发明通过对新闻文本和新闻中的配图进行特征提取从而对用户上传至社交平台的新闻进行分类,使分类的结果具有更高的准确性和可信度。

Description

一种基于多模态特征融合的新闻分类方法
技术领域
本发明涉及文本分类领域,具体涉及一种基于多模态特征融合的新闻分类方法。
背景技术
随着互联网技术的发展,越来越多的社交平台被广泛使用,用户往往会通过这些平台对当下的实时新闻进行浏览,由于用户的喜好社交平台往往会将新闻分为多个类别,对于不同用户的喜好,方便社交平台向用户推送对应类别的新闻,而如何对用户在社交平台中上传的新闻分类,已成为当下的一个研究热点。
现有的针对新闻文本分类的模型,目前大部分工作是针对单一的文本模态进行建模,如基于卷积神经网络的TextCNN、TextGCN模型,基于循环神经网络的Bi-LSTM、Bi-LSTM-Attention模型,以及近些年来各种基于预训练加微调的BERT模型,其主要针对的是新闻的文本进行特征提取,依据文本的特征对新闻进行分类,然而这些模型忽略了新闻当中的视觉模态所蕴含的信息量,当文本中没有出现明显的关键词信息,对于只基于文本模态的模型则很难进行分类。近年来已出现一定的基于多模态的新闻分类模型,其主要通过Attention机制将标题、段落和图像信息进行注意力融合后再拼接作为融合结果,但是这种方法未能充分利用新闻当中所有的图片信息,以及提取图片信息的视觉提取器没有在大规模的多模态数据集上进行预训练,导致在下游的交互过程中容易导致信息的偏差,从而影响新闻分类的准确性。
发明内容
为了解决现有技术中存在未能充分利用新闻当中所有的图片信息,以及提取图片信息的视觉提取器没有在大规模的多模态数据集上进行预训练,导致在下游的交互过程中容易导致信息的偏差,从而影响新闻分类的准确性的问题,本发明提供一种基于多模态特征融合的新闻分类方法,包括:
S1:获取原始新闻样本数据;所述原始新闻样本数据包括:原始新闻文本和多个原始新闻配图;对原始新闻样本数据打上标签信息;并将每个原始新闻配图划分为p个尺度相同的图像块得到每个原始新闻配图的图像集;
S2:对原始新闻文本进行特征提取得到原始新闻文本向量,对每个原始新闻配图的图像集进行特征提取得到每个原始新闻配图的图片序列向量;
S3:构建新闻分类模型,所述新闻分类模型包括:LSTM、注意力网络、门控记忆网络、跨注意力网络、softmax函数;
S4:将原始新闻文本向量和所有原始新闻配图的图片序列向量作为训练样本对新闻分类模型进行训练;
S5:获取目标新闻样本数据,对目标新闻样本数据进行特征提取得到目标新闻文本向量和多个目标新闻配图的图片序列向量,将目标新闻文本向量和多个目标新闻配图的图片序列向量输入新闻分类模型得到目标新闻样本数据的分类结果。
本发明至少具有以下有益效果
本发明对新闻中的文本进行特征提取,提取到的新闻文本向量具有新闻的文本信息,通过将新闻的每张配图划分为P个图像块,对每个原始新闻配图的图像块进行特征取得到每张新闻配图的图片序列向量,将新闻图片序列向量和新闻文本向量作为训练样本对新闻分类模型进行训练,使提取图片信息和文本信息均在大规模的多模态数据集上进行预训练,避免了下游的交互过程中容易导致信息的偏差,提高了新闻分类的准确性,本发明在新闻分类模型中采用LSTM算法计算配图中隐藏的信息,通过注意力网络对每张配图附加权重信息,能够体现每张配图的重要程度,通过将跨注意力网络将新闻的文本信息和配图信息相结合输入softmax函数进行分类,得到的新闻分类结果具有更高的可信度和准确性。
附图说明
图1为本发明的方法流程图;
图2为本发明新闻分类模型的***框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1和图2,本发明提供一种基于多模态特征融合的新闻分类方法,包括:
S1:获取原始新闻样本数据(T,{a1,...am,...,aM});所述原始新闻样本数据包括:原始新闻文本T和多个原始新闻配图{a1,...am,...,aM};对原始新闻样本数据打上标签信息;并将每个原始新闻配图划分为p个R度相同的图像块得到每个原始新闻配图的图像集Bm={bm1,...,bmn,...,bmp},其中,am表示原始新闻样本数据中的第m个原始新闻配图;M表示原始新闻样本数据中原始新闻配图的数量;bmn表示原始新闻配图am的第n个图像块;
所述标签信息为原始新闻样本数据的类别,所述原始新闻文本T和每个原始新闻配图均携带有标签信息,例如,原始新闻样本数据的类别包括:军事、娱乐、教育、时政、天气、防疫等,本发明中通过社交APP提供的API接口从社交平台获取各类别的原始新闻样本数据;每个类别的原始新闻样本数据数量相同,在本发明中每个类别的原始新闻样本数据数量为1000个。
S2:对原始新闻文本T进行特征提取得到原始新闻文本向量T′∈Rs×d;对每个原始新闻配图的图像集Bm进行特征提取得到每个原始新闻配图的图片序列向量em∈Rp×d;s表示原始新闻文本中的token数;p表示第m个原始新闻配图中的patch数;em表示第m个原始新闻配图的图片序列向量。
通过Deberta模型对原始新闻文本T进行特征提取得到原始新闻文本向量T′∈Rs ×d
通过中文CLIP模型对原始新闻配图的图像集B进行特征提取得到原始新闻配图的图片序列向量em∈Rp×d
Deberta模型在BERT模型的基础上主要提出了两大改进,分别是DisentangledAttention解码注意力和Decoding-enhanced解码增强,进一步增强了编码效果。
中文CLIP模型采用了英文CLIP模型的Dual Encoder的方式分开对图像和文本进行编码,通过相似度的计算进行大规模的无监督预训练,区别在于文本的数据换成了中文。
S3:构建新闻分类模型,所述新闻分类模型包括:长短期记忆网络(LSTM)、注意力网络、门控记忆网络、跨注意力网络和softmax函数;本发明对新闻中的文本进行特征提取,提取到的新闻文本向量具有新闻的文本信息,通过将新闻的每张配图划分为P个图像块,对每个原始新闻配图的图像块进行特征取得到每张新闻配图的图片序列向量,将新闻图片序列向量和新闻文本向量作为训练样本对新闻分类模型进行训练,使提取图片信息和文本信息均在大规模的多模态数据集上进行预训练,避免了下游的交互过程中容易导致信息的偏差,提高了新闻分类的准确性。
S4:将原始新闻文本向量T∈Rs×d和所有原始新闻配图的图片序列向量作为训练样本对新闻分类模型进行训练;
S41:将所有原始新闻配图的图片序列向量输入LSTM计算得到当前时刻每个图片序列向量的隐层状态向量
Figure BDA0003929332680000041
所述LSTM中的神经元cell的结构包括细胞状态、遗忘门、输入门和输出门,在整个循环周期内定义和维护一个内部记忆单元状态,即细胞状态;通过遗忘门、输入门和输出门三个门结构对细胞状态更新,神经元中每个时间步不同门的计算公式如下:;
遗忘门用于实现当前输入和上一个时间步隐藏层输出的信息筛选,所述遗忘门如下所示:
Figure BDA0003929332680000051
其中,
Figure BDA0003929332680000052
是指隐藏层输出,σ是指门激活函数,通常是Sigmoid函数,确保遗忘门输出值位于一定区间;Wf是与当前时刻输入值
Figure BDA0003929332680000053
相关联的遗忘门权重值;
Figure BDA0003929332680000054
表示上一时间步输出的隐层状态向量,bf是遗忘门的偏置权重向量;
输入门里主要需要做两项工作,一是决定哪些信息需要被存储起来,进行第二轮信息更新,二是由tanh函数生成一个新的候选记忆单元
Figure BDA0003929332680000055
加入到状态中,如下所示:
Figure BDA0003929332680000056
Figure BDA0003929332680000057
Figure BDA0003929332680000058
其中,
Figure BDA0003929332680000059
是输入门输出;Wi、Wc分别是输入门的权重值;
Figure BDA00039293326800000510
表示上一时间步输出的隐层状态向量;
Figure BDA00039293326800000511
是新的细胞状态候选值向量;bc是新的细胞状态候选值向量的权重,
Figure BDA00039293326800000512
是新的细胞状态;
Figure BDA00039293326800000513
是上一时间步的细胞状态;
输出门用来确定最终输出,控制当前记忆单元状态对输出的影响力大小。sigmoid函数决定状态的输出部分,tanh函数保持输出在-1到1之间。两者相乘,得到最终结果,所述输出门如下所示:
Figure BDA00039293326800000514
Figure BDA00039293326800000515
其中,
Figure BDA00039293326800000516
为当前时间步的输出门输出;Wo是与当前时间步输入值
Figure BDA00039293326800000517
相关联的输出门权重值;bo是输出门的偏置权重向量;
Figure BDA00039293326800000518
为当前时间步第m个原始新闻配图的图片序列向量的隐层状态向量,
Figure BDA00039293326800000519
表示0;em表示第m个原始新闻配图的图片序列向量,当t=0时,
Figure BDA00039293326800000520
S42:将当前时刻所有图片序列向量的隐层状态向量进行拼接得到当前时间步的第一组合向量ct
所述第一组合向量包括:
Figure BDA0003929332680000061
其中,ct表示当前时间步的第一组合向量,
Figure BDA0003929332680000062
为当前时间步第m个原始新闻配图的图片序列向量的隐层状态向量;
Figure BDA0003929332680000063
表示上一时间步第m个原始新闻配图的图片序列向量的隐层状态向量。
S43:将当前时间步的第一组合向量和上一时间步的第一组合向量进行特征拼接得到当前时间步的第二组合向量c[t-1;t]
c[t-1;t]=[ct-1,ct]
其中,c[t-1;t]表示当前时间步的第二组合向量,ct-1表示上一时间步的第一组合向量,ct表示当前时间步的第一组合向量。
S44:将当前时间步的第二组合向量输入自注意力网络通过注意力机制得到当前时间步第二组合向量的重要性分数矩阵;
Figure BDA0003929332680000064
其中,a[t-1;t]表示当前时间步第二组合向量的重要性分数矩阵,c[t-1;t]表示当前时间步的第二组合向量,
Figure BDA0003929332680000065
是计算注意力分数的函数;
所述自注意力网络包括:第一全连接层和第二全连接层;
将当前时间步的第二组合向量分别输入第一全连接层和第二全连接层计算得到第一全连接特征和第二全连接特征,最后将第一全连接特征和第二全连接特征输入softmax函数计算得到当前时间步第二组合向量的重要性分数矩阵;
自注意力网络在本领域中是一个常规的网络因此发本明用
Figure BDA0003929332680000066
表示自注意力网络的计算过程。
S45:将当前时间步的第二组合向量与当前时间步第二组合向量的重要性分数矩阵做哈达玛积计算得到当前时间步的第三组合向量;
Figure BDA0003929332680000067
其中,a[t-1;t]表示当前时间步第二组合向量的重要性分数矩阵,c[t-1;t]表示当前时间步的第二组合向量,
Figure BDA0003929332680000068
表示当前时间步的第三组合向量。
S46:将当前时间步的第三组合向量输入门控记忆网络计算得到当前时间步的第四组合向量,在每一个时间步第一组合向量、第二组合向量、第三组合向量和第四组合向量都会进行更新;当LSTM收敛时即在最后一个时间步时,门控记忆网络计算得到的第四组合向量为最终组合向量;
所述门控记忆网络包括:第一MLP多层感知机、第二MLP多层感知机、σ(sigmod)激活函数、τ(tanh)激活函数;
所述将当前时间步的第三组合向量输入门控记忆网络计算得到当前时间步的第四组合向量包括:
S461:将当前时间步的第三组合向量输入第一MLP多层感知机后再输入σ(sigmod)激活函数得到当前时间步的第一权重值γt
Figure BDA0003929332680000071
其中,g1表示第一MLP多层感知机,σ表示(sigmod)激活函数,
Figure BDA00039293326800000710
表示第一MLP多层感知机的权重和偏置参数;γt表示当前时间步的第一权重值,MLP多层感知机为现有常规技术,本发明不对MLP多层感知机做进一步的介绍。
S462:将当前时间步的第三组合向量输入第二MLP多层感知机后再输入τ(tanh)激活函数得到当前时间步的更新建议向量
Figure BDA0003929332680000072
优选地,所述的MLP多层感知机包括一个输入输出神经元分别为768、768的全连接层、一个Dropout层、一个批归一化层;
Figure BDA0003929332680000073
其中,g2表示第二MLP多层感知机,
Figure BDA0003929332680000074
表示当前时间步的第三组合向量,
Figure BDA0003929332680000075
表示第二MLP多层感知机的权重和偏置参数;MLP多层感知机为现有常规技术,本发明不对MLP多层感知机做进一步的介绍,τ表示(tanh)激活函数,,
Figure BDA0003929332680000076
表示当前时间步的更新建议向量。
S463:根据当前时间步的更新建议向量
Figure BDA0003929332680000077
和第一权重值γt计算当前时间步的第四组合向量:
Figure BDA0003929332680000078
其中,ut表示当前时间步t的第四组合向量,γt表示当前时间步的第一权重值,
Figure BDA0003929332680000079
表示当前时间步的更新建议向量,ut-1表示前一时间步t-1的第四组合向量。
S47:将最终组合向量和原始新闻文本向量输入跨注意力网络计算得到多模态融合向量;
所述跨注意力网络包括:第一子MLP层(多层感知机)、第二子多层感知机MLP层(多层感知机)、第三子多层感知机MLP层(多层感知机);
在MLP网络中提取特征信息具体如下:在MLP输入层将之前的输出展开为x1,x2,x3...化为向量X[1],MLP输入层到下一层之间权重为w1,w2,w3...化为向量W[1],其中1表示MLP第一层的权重,偏置b[1]同理,则第一层的计算为Z[1]=W[1]X+b[1],之后A[1]=Sigmoid(Z[1]),其中Z[1]为输入的线性组合,A[1]为Z[1]通过激活函数Sigmoid得到的值,对于MLP第一层的输入为X[1],输出为A[1],也就是下一层的输入值,即X[2]=A[1],依次类推到下一层,本发明MLP网络由五层全连接网络堆叠而成。为了避免出现过拟合,加强模型泛化性能,在每两层全连接层之间加入随机丢弃层,同时在每一个全连接层中加入L2正则化,并且采用he_normal作为权重的初始化方法。
所述将最终组合向量和原始新闻文本向量输入跨注意力网络计算得到多模态融合向量包括:
S471:将最终状态向量分别输入第一子MLP层和第二子MLP层计算得到键K和值V;
S472:将原始新闻文本向量输入第三子MLP层计算得到查询Q;
S473:将键K和查询Q进行矩阵相乘得到注意力分数;
S474:将注意力分数和值V进行矩阵相乘得到多模态融合向量。
S48:将多模态融合向量输入softmax函数计算得到原始新闻样本数据的类别预测结果;
通过Softmax分类器进行故障类别的分类具体如下:选择Softmax用于计算样本属于不同类别的概率,对于给定的输入x,利用函数针对于每一类别j估算出概率值p,并最终输出诊断结果。
S49:根据原始新闻样本数据的类别预测结果和原始新闻样本数据的标签信息利用交叉熵损失函数通过反向传播机制更新新闻分类模型的参数;
随后Softmax的输出向量[y1,y2,y3...]和样本的实际标签做交叉熵计算,公式如下:
Figure BDA0003929332680000091
其中y’i是原始新闻样本数据的标签,yi为新闻分类模型对原始新闻样本数据的诊断结果,Hy‘(y)表示损失函数,之后对输出向量求均值,得到想要的损失函数值,在定义好损失函数后,利用反向传播算法将损失函数最小化。
S5:获取目标新闻样本数据,对目标新闻样本数据中新闻的文本和新闻的配图进行特征提取得到目标新闻文本向量和目标新闻图片向量集,将目标新闻文本向量和目标新闻图片向量集输入新闻分类模型得到目标新闻样本数据的分类结果。
本发明在新闻分类模型中采用LSTM算法计算配图中隐藏的信息,通过注意力网络对每张配图附加权重信息,能够体现每张配图的重要程度,通过将跨注意力网络将新闻的文本信息和配图信息相结合输入softmax函数进行分类,得到的新闻分类结果具有更高的可信度和准确性。
根据目标新闻样本数据的分类结果匹配对应的用户,将目标新闻数据通过社交平台向用户进行推荐。
本发明可以将本发明中所述的一种新闻分类方法设计为计算机程序,存储在存手机、电脑、计算器、平叛等智能设备的储器里,通过机、电脑、计算器、平叛等智能设备获取新闻数据,运行计算机程序进行实现。
以上优选实施例仅用以说明本发明的技术方案而非限制,本领域技术人员应当理解,可以在形式上和细节上对其各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (6)

1.一种基于多模态特征融合的新闻分类方法,其特征在于,包括以下步骤:
S1:获取原始新闻样本数据;所述原始新闻样本数据包括:原始新闻文本和多个原始新闻配图;对原始新闻样本数据打上标签信息;并将每个原始新闻配图划分为p个尺度相同的图像块得到每个原始新闻配图的图像集;
S2:对原始新闻文本进行特征提取得到原始新闻文本向量,对每个原始新闻配图的图像集进行特征提取得到每个原始新闻配图的图片序列向量;
S3:构建新闻分类模型,所述新闻分类模型包括:LSTM、注意力网络、门控记忆网络、跨注意力网络、softmax函数;
S4:将原始新闻文本向量和所有原始新闻配图的图片序列向量作为训练样本对新闻分类模型进行训练;
S5:获取目标新闻样本数据,对目标新闻样本数据进行特征提取得到目标新闻文本向量和多个目标新闻配图的图片序列向量,将目标新闻文本向量和多个目标新闻配图的图片序列向量输入新闻分类模型得到目标新闻样本数据的分类结果。
2.根据权利要求1所述的一种基于多模态特征融合的新闻分类方法,其特征在于,所述将原始新闻文本向量和原始新闻图片向量序列作为训练样本对新闻分类模型进行训练包括:
S41:将所有原始新闻配图的图片序列向量输入LSTM计算得到当前时间步每个图片序列向量的隐层状态向量;
S42:将当前时间步所有图片序列向量的隐层状态向量进行拼接得到当前时间步的第一组合向量;
S43:将当前时间步的第一组合向量和上一时间步的第一组合向量进行特征拼接得到当前时间步的第二组合向量;
S44:将当前时间步的第二组合向量输入自注意力网络通过注意力机制得到当前时间步第二组合向量的重要性分数矩阵;
S45:将当前时间步的第二组合向量与当前时间步第二组合向量的重要性分数矩阵做哈达玛积计算得到当前时间步的第三组合向量;
S46:将当前时间步的第三组合向量输入门控记忆网络计算得到当前时间步的第四组合向量,在每一个时间步第一组合向量、第二组合向量、第三组合向量和第四组合向量都会进行更新;当LSTM收敛时即在最后一个时间步时,门控记忆网络计算得到的第四组合向量为最终组合向量;
S47:将最终组合向量和原始新闻文本向量输入跨注意力网络计算得到多模态融合向量;
S48:将多模态融合向量输入softmax函数计算得到原始新闻样本数据的类别预测结果;
S49:根据原始新闻样本数据的类别预测结果和原始新闻样本数据的标签信息利用交叉熵损失函数通过反向传播机制更新新闻分类模型的参数。
3.根据权利要求2所述的一种基于多模态特征融合的新闻分类方法,其特征在于,所述门控记忆网络包括:第一MLP多层感知机、第二MLP多层感知机、σ激活函数、tanh激活函数;
所述将当前时间步的第三组合向量输入门控记忆网络计算得到当前时间步的第四组合向量包括:
S461:将当前时间步的第三组合向量输入第一MLP多层感知机后再输入σ激活函数得到当前时间步的第一权重值;
S462:将当前时间步的第三组合向量输入第二MLP多层感知机后再输入τ激活函数得到当前时间步的更新建议向量;
S463:根据当前时间步的更新建议向量和第一权重值计算在当前时间步的第四组合向量。
4.根据权利要求4所述的一种基于多模态特征融合的新闻分类方法,其特征在于,所述当前时间步的第四组合向量包括:
Figure FDA0003929332670000021
其中,ut表示当前时间步t的第四组合向量,γt表示当前时间步的第一权重值,
Figure FDA0003929332670000031
表示当前时间步的更新建议向量,ut-1表示前一时间步t-1的第四组合向量。
5.根据权利要求2所述的一种基于多模态特征融合的新闻分类方法,其特征在于,所述跨注意力网络包括:第一子MLP层、第二子MLP层、第三子MLP层;
所述将最终组合向量和原始新闻文本向量输入跨注意力网络计算得到多模态融合向量包括:
S471:将最终状态向量分别输入第一子MLP层和第二子MLP层计算得到键K和值V;
S472:将原始新闻文本向量输入第三子MLP层计算得到查询Q;
S473:将键K和查询Q进行矩阵相乘得到注意力分数;
S474:将注意力分数和值V进行矩阵相乘得到多模态融合向量。
6.根据权利要求2所述的一种基于多模态特征融合的新闻分类方法,其特征在于,所述交叉熵损失函数包括:
Figure FDA0003929332670000032
其中y’i是原始新闻样本数据的标签,yi为新闻分类模型对原始新闻样本数据的诊断结果,Hy‘(y)表示损失函数。
CN202211383002.4A 2022-11-07 2022-11-07 一种基于多模态特征融合的新闻分类方法 Pending CN115588122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211383002.4A CN115588122A (zh) 2022-11-07 2022-11-07 一种基于多模态特征融合的新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211383002.4A CN115588122A (zh) 2022-11-07 2022-11-07 一种基于多模态特征融合的新闻分类方法

Publications (1)

Publication Number Publication Date
CN115588122A true CN115588122A (zh) 2023-01-10

Family

ID=84782522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211383002.4A Pending CN115588122A (zh) 2022-11-07 2022-11-07 一种基于多模态特征融合的新闻分类方法

Country Status (1)

Country Link
CN (1) CN115588122A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN117421641A (zh) * 2023-12-13 2024-01-19 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN116523914B (zh) * 2023-07-03 2023-09-19 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN117421641A (zh) * 2023-12-13 2024-01-19 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质
CN117421641B (zh) * 2023-12-13 2024-04-16 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11514305B1 (en) Intelligent control with hierarchical stacked neural networks
CN110717017B (zh) 一种处理语料的方法
CN110555112B (zh) 一种基于用户正负偏好学习的兴趣点推荐方法
US11381651B2 (en) Interpretable user modeling from unstructured user data
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN115588122A (zh) 一种基于多模态特征融合的新闻分类方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN111985520B (zh) 一种基于图卷积神经网络的多模态分类方法
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN112597296A (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113254675A (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
US11941360B2 (en) Acronym definition network
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Xia An overview of deep learning
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination