CN111259666A - 一种结合多头自注意力机制的cnn文本分类方法 - Google Patents
一种结合多头自注意力机制的cnn文本分类方法 Download PDFInfo
- Publication number
- CN111259666A CN111259666A CN202010040278.7A CN202010040278A CN111259666A CN 111259666 A CN111259666 A CN 111259666A CN 202010040278 A CN202010040278 A CN 202010040278A CN 111259666 A CN111259666 A CN 111259666A
- Authority
- CN
- China
- Prior art keywords
- matrix
- word
- self
- attention
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 128
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 24
- 230000006872 improvement Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种结合多头自注意力机制的CNN文本分类方法,包括:获取待分类文本的分词序列,并进行特殊符号和停止词过滤等预处理;查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵,矩阵的每一行为各分词的嵌入向量;针对所得嵌入矩阵的各行向量,叠加该向量对应分词的位置编码向量;对叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵;重复若干次自注意力矩阵的生成,将生成的多个矩阵在列的维度上进行拼接;将词序列拼接后的自注意力矩阵与加权矩阵相乘,实现降维和融合;将降维和融合后的自注意力矩阵输入CNN,进行训练或者预测。
Description
【技术领域】
本发明涉及一种结合多头自注意力机制的CNN文本分类方法,尤其涉及一个或多个实施例涉及自然语言处理(natural language processing,NLP)技术领域。
【背景技术】
文本分类是NLP中常见的下游任务之一,深度学习算法在文本分类中应用广泛且性能优异。当前,基于深度学习的文本分类多采用RNN、CNN和Transformer模型,其中RNN和Transformer可学习文本的全局语义信息,但是由于计算量过大,应用受限。CNN计算量小且方便并行加速,在工业应用中有不可比拟的优势,但受感受野宽度的限制只能学习文本局部语义信息,分类性能不如RNN和Transformer模型。本优化方案,将多头注意力机制应用于CNN模型的输入,使其包含文本的全局语义信息,从而提升CNN模型的分类性能。
【发明内容】
本发明提供了一种结合多头自注意制的CNN文本分类方法,多头自注意力机制作用于输入CNN的词序列嵌入矩阵,以获取词序列对应原始文本的全局语义信息,从而提高CNN的输入精度,满足实际应用需求。
为实现上述目的,本发明提供一种结合多头自注意力机制的CNN文本分类方法,所述方法如下:
S1:获取待分类文本的分词序列,并进行特殊符号和停止词过滤等预处理;
S2:查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S3:针对所得嵌入矩阵的各行向量,获取并叠加该向量对应分词的位置编码向量;
S4:对叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵;
S5:重复若干次自注意力矩阵的生成,将生成的多个矩阵在列的维度上进行拼接;
S6:将词序列拼接后的自注意力矩阵与加权矩阵相乘,实现降维和融合;
S7:将降维和融合后的自注意力矩阵输入CNN,进行训练或者预测。
作为上述技术方案的改进,上述分词序列中的每个词,由待分类文本分词处理,并进行特殊符号和停止词过滤等预处理所得。
作为上述技术方案的改进,所述分词序列的词嵌入矩阵为:通过预设或随机初始化的词嵌入模型映射获得。
作为上述技术方案的改进,所述获取的分词序列词嵌入矩阵维度为m×d:m和d分别表示分词序列的长度和词向量维度。
作为上述技术方案的改进,所述针对所得嵌入矩阵的各行向量,获取并叠加该向量对应分词的位置编码向量,包括:根据公式(1)获取位置编码向量:
其中pos为分词所在位置,i为编码向量元素的索引,生成的PE(pos,2i)和PE(pos,2i+1编码维度均为d/2,拼接两者形成维度为d的位置编码向量,将词序列嵌入矩阵中的各行向量与相应的位置编码向量进行叠加。
作为上述技术方案的改进,所述对叠加位置编码后的嵌入矩阵通过自注意力(self-attention)机制生成自注意力矩阵,包括:将词序列的嵌入矩阵X={x1,x2,...,xm}T分别与查询映射矩阵WQ,键映射矩阵WK和值映射矩阵WV相乘,输出三种矩阵:查询矩阵Q,键矩阵K和值矩阵V;三者通过公式(2)变换获得词序列的自注意力矩阵A={a1,a2,...,am}T,其中向量ai为第i个词的自注意力向量,它包含了该词本身和该词与词序列中其它词的关联信息。
作为上述技术方案的改进,所述对词序列的嵌入矩阵重复若干次自注意力变换,即多头自注意力机制,多次变换生成的自注意力矩阵在列维度上进行拼接,包括:利用多组映射矩阵将词序列的嵌入矩阵转换为三组矩阵:Q={Q1,Q2,...,Qh},K={K1,K2,...,Kh}和V={V1,V2,...,Vh};将三组矩阵中的元素按序组合,并分别根据公式(2)进行自注意力变换,得到词序列的多个自注意力矩阵,将多个矩阵在列的维度上进行拼接,如公式(3)所示:
作为上述技术方案的改进,所述将词序列拼接后的自注意力矩阵M与加权矩阵相乘,实现降维和融合,加权矩阵WO列的维度小于M列的维度,故相乘所得矩阵M′相较于M行维度不变,列维度减小。
作为上述技术方案的改进,所述将降维和融合后的自注意力矩阵输入CNN,进行训练或预测,包括:将训练或者预测的文本经分词,特殊符号和停止词过滤,词嵌入矩阵映射,叠加位置编码向量,多头自注意力机制转换、拼接和降维,将处理所得矩阵输入CNN模型;CNN采用一维卷积神经网络,输入矩阵的列和行维度分别为特征图的宽度和通道数。
本发明的有益效果:
本发明提出一种结合多头自注意力机制的CNN文本分类方法,CNN模型通过自注意力机制获取包含全局语义信息的特征输入,在保证较低计算量的前提下,提升CNN模型的分类性能。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明具体实施方式提供的一种结合多头自注意力机制的CNN文本分类方法的流程示意图;
图2是本发明具体实施方式提供的词向量获取和叠加位置编码向量方法;
图3是本发明专利具体实施方式提供的分词序列词嵌入矩阵获取自注意力矩阵的方法。
【具体实施方式】
文本分类是一种常见的NLP下游应用,CNN模型由于计算量较小和便于并行加速的特性,在文本分类落地应用中具有无可比拟的优势,但是受限于卷积核宽度,CNN模型无法学习文本的全局语义信息,导致分类性能受限。
本发明提出一种结合多头自注意力机制的CNN文本分类方法,CNN模型通过自注意力机制获取包含全局语义信息的特征输入,在保证较低计算量的前提下,提升CNN模型的分类性能。
以下结合具体实施方式和附图对本发明技术方案作进一步说明。图1示出本发明提供一种结合多头自注意力机制的CNN文本分类方法的流程示意图,具体步骤如下:
S1:获取待分类文本的分词序列,并进行特殊符号和停止词过滤等预处理;
S2:查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S3:针对所得嵌入矩阵的各行向量,获取并叠加该向量对应分词的位置编码向量;
S4:对叠加位置编码后嵌入矩阵通过自注意力机制生成自注意力矩阵;
S5:重复若干次自注意力矩阵的生成,将生成的多个矩阵在列的维度上进行拼接;
S6:将词序列拼接后自注意力矩阵与加权矩阵相乘,实现降维和融合;
S7:将降维和融合后的自注意力矩阵输入CNN,进行训练或者预测。
具体地,S1中,获取待分类文本分词序列,并进行特殊符号和停止词过来等预处理。具体而言,首先对文本进行分词处理获得分词序列,在分词序列中,可能存在一些停止词或者特征符号等无用的信息,需要对这些无效词或符号进行过滤处理。例如,对于一个待分词的文本“【12**57】这是一个样例。”将其分词可能得到“【”、“12**57”、“】”、“这”“是”、“一个”、“样例”和“。”共8个元素,其中“【”、“12**57”、“】”和“。”作为特殊符号或者数字需要去除,同时去除不包含有效信息的停用词“是”,剩余的3个词按序作为最终分词序列。
S2中,查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵。具体而言,对S1步骤中得到的分词序列每一个词,通过词嵌入模型映射得到一个维度为d的向量,其中词嵌入模型可以为预训练或者随机初始化,例如采用word2vec预训练或者均匀分布U(0,1)随机初始化。分词序列的各词向量按词序作为矩阵中的一行,所得矩阵即为分词序列的词嵌入矩阵。例如对S1例中分词序列的“这”、“一个”和“样例”利用word2vec预训练词嵌入模型,假设词向量的维度为4,则可分别获得三个词向量x1=[x11,x12,x13,x14],x2=[x21,x22,x23,x24]和x3=[x31,x32,x33,x34],则分词序列的词嵌入矩阵为X={x1,x2,x3}T,其维度为3×4。
S3中,针对所得嵌入矩阵的各行向量,获取并叠加该向量对应分词的位置编码向量。具体而言,嵌入矩阵中的行向量在矩阵中的行索引即为对应分词在分词序列中的位置,根据行向量的行索引pos、维度d和公式(1),获得两个维度为d/2的位置编码PE(pos,2i)和PE(pos,2i+1),将两个位置编码拼接成维度为d的位置编码,与原始行向量叠加,叠加后矩阵的维度保持不变。图2说明了针对S2示例中分词序列“这”、“一个”和“样例”的词嵌入向量进行位置编码向量叠加的过程,叠加后词嵌入矩阵的维度仍为3×4。
S4中,对叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵。具体而言,将词序列的嵌入矩阵X={x1,x2,...,xm}T分别与查询映射矩阵WQ,键映射矩阵WK和值映射矩阵WV相乘,输出三种矩阵:查询矩阵Q,键矩阵K和值矩阵V,其中WQ、WK和WV的权重通过训练获得,查询矩阵Q包含分词序列各分词的查询向量,键矩阵K和值矩阵V同理。进一步地,根据公式(2)和矩阵Q、K、V获取分词序列的自注意矩阵A={a1,a2,...,am}T,其中ai向量为第i个词的自注意力向量,它是分词序列所有分词值向量的加权和,权值通过第i个分词的查询向量与所有分词的键向量的点积,再经Softmax函数计算得出,故ai向量包含了该词本身和该词与其他词的关联信息。图3说明了针对S3示例中分词序列“这”、“一个”和“样例”的叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵的过程,假设WQ、WK和WV的维度均为4×3,则生成的自注意力矩阵的维度为3×3。
S5中,重复若干次注意力矩阵的生成,将生成的多个矩阵在列的维度上进行拼接。具体而言,利用多组映射矩阵 将词序列的嵌入矩阵转换为三组矩阵:Q={Q1,Q2,...,Qh},K={K1,K2,...,Kh}和V={V1,V2,...,Vh},其中多组映射矩阵之间的权重不共享,均通过训练获取,故通过这种多头注意力机制可获取词序列中的不同关联信息。进一步地,利用三组矩阵Q、K和V进行S4所述的自注意矩阵的生成,得到多个自注意力矩阵并进行列维度上的拼接。举例而言,针对分词序列“这”、“一个”和“样例”利用3组映射矩阵,假设重复3次S4所述的自注意力矩阵生成,则拼接后的自注意矩阵维度为3×9。
S6中,将词序列拼接后的自注意力矩阵与加权矩阵相乘,实现降维和融合。具体而言,加权矩阵WO列的维度小于拼接后的自注意力矩阵M,故相乘所得矩阵M′行维度不变,列维度较原拼接后的自注意力矩阵减小,从而起到降维的左右。举例而言,针对S5中获取的分词序列“这”、“一个”和“样例”的矩阵M(维度为3×9),与维度为9×5的加权矩阵WO相乘,则相乘所得的矩阵维度为3×5。
S7中,将降维和融合后的自注意力矩阵输入CNN,进行训练或者预测。具体而言,将文本输入CNN进行训练或者预测之间,对文本进行相同的处理:特殊符号和停止词过滤,词嵌入矩阵映射,叠加位置编码向量,多头自注意力机制转换、拼接和降维。对于训练而言,模型的学习目标为文本对应类别的one-hot编码。CNN采用一维卷积神经网络,输入矩阵列和行的维度分别为特征图的宽度和通道数。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种结合多头自注意力机制的CNN文本分类方法,其特征在于:所述方法如下:
S1:获取待分类文本的分词序列,并进行特殊符号和停止词过滤等预处理;
S2:查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S3:针对所得嵌入矩阵的各行向量,获取并叠加该向量对应分词的位置编码向量;
S4:对叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵;
S5:重复若干次自注意力矩阵的生成,将生成的多个矩阵在列的维度上进行拼接;
S6:将词序列拼接后的自注意力矩阵与加权矩阵相乘,实现降维和融合;
S7:将降维和融合后的自注意力矩阵输入CNN,进行训练或者预测。
2.根据权利要求1所述结合多头自注意力机制的CNN文本分类方法,其特征在于:上述分词序列中的每个词,由待分类文本分词处理,并进行特殊符号和停止词过滤等预处理所得。
3.根据权利要求1所述结合多头自注意力机制的CNN文本分类方法,其特征在于:所述分词序列的词嵌入矩阵为:通过预设或随机初始化的词嵌入模型映射获得。
4.根据权利要求1所述结合多头自注意力机制的CNN文本分类方法,其特征在于:所述获取的分词序列词嵌入矩阵维度为m×d:m和d分别表示分词序列的长度和词向量维度。
8.根据权利要求1所述结合多头自注意力机制的CNN文本分类方法,其特征在于:所述将词序列拼接后的自注意力矩阵M与加权矩阵相乘,实现降维和融合,加权矩阵WO列的维度小于M列的维度,故相乘所得矩阵M′相较于M行维度不变,列维度减小。
9.根据权利要求1所述结合多头自注意力机制的CNN文本分类方法,其特征在于:所述将降维和融合后的自注意力矩阵输入CNN,进行训练或预测,包括:将训练或者预测的文本经分词,特殊符号和停止词过滤,词嵌入矩阵映射,叠加位置编码向量,多头自注意力机制转换、拼接和降维,将处理所得矩阵输入CNN模型;CNN采用一维卷积神经网络,输入矩阵的列和行维度分别为特征图的宽度和通道数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040278.7A CN111259666A (zh) | 2020-01-15 | 2020-01-15 | 一种结合多头自注意力机制的cnn文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040278.7A CN111259666A (zh) | 2020-01-15 | 2020-01-15 | 一种结合多头自注意力机制的cnn文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259666A true CN111259666A (zh) | 2020-06-09 |
Family
ID=70946934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040278.7A Pending CN111259666A (zh) | 2020-01-15 | 2020-01-15 | 一种结合多头自注意力机制的cnn文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259666A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112597298A (zh) * | 2020-10-14 | 2021-04-02 | 上海勃池信息技术有限公司 | 融合知识图谱的深度学习文本分类方法 |
CN112712489A (zh) * | 2020-12-31 | 2021-04-27 | 北京澎思科技有限公司 | 图像处理的方法、***及计算机可读存储介质 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN113297380A (zh) * | 2021-05-27 | 2021-08-24 | 长春工业大学 | 基于自注意力机制和卷积神经网络的文本分类算法 |
CN113378791A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN113468867A (zh) * | 2021-06-04 | 2021-10-01 | 淮阴工学院 | 一种基于Attention机制的参考文献引用合法性预测方法 |
CN113627193A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 中文文本中指代关系的确定方法、装置、设备及介质 |
CN113674844A (zh) * | 2021-08-19 | 2021-11-19 | 浙江远图互联科技股份有限公司 | 基于多头cnn网络的医院门诊人流量预测及分诊*** |
CN113806471A (zh) * | 2020-06-17 | 2021-12-17 | 广东博智林机器人有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
CN114745155A (zh) * | 2022-03-14 | 2022-07-12 | 河海大学 | 一种网络异常流量检测方法、装置及存储介质 |
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
-
2020
- 2020-01-15 CN CN202010040278.7A patent/CN111259666A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Non-Patent Citations (1)
Title |
---|
邵清等: "《融合self-attention机制的卷积神经网络文本分类模型》" * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806471A (zh) * | 2020-06-17 | 2021-12-17 | 广东博智林机器人有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112597298A (zh) * | 2020-10-14 | 2021-04-02 | 上海勃池信息技术有限公司 | 融合知识图谱的深度学习文本分类方法 |
CN112712489A (zh) * | 2020-12-31 | 2021-04-27 | 北京澎思科技有限公司 | 图像处理的方法、***及计算机可读存储介质 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN113297380A (zh) * | 2021-05-27 | 2021-08-24 | 长春工业大学 | 基于自注意力机制和卷积神经网络的文本分类算法 |
CN113468867A (zh) * | 2021-06-04 | 2021-10-01 | 淮阴工学院 | 一种基于Attention机制的参考文献引用合法性预测方法 |
CN113468867B (zh) * | 2021-06-04 | 2024-06-11 | 淮阴工学院 | 一种基于Attention机制的参考文献引用合法性预测方法 |
CN113378791B (zh) * | 2021-07-09 | 2022-08-05 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN113378791A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN113627193A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 中文文本中指代关系的确定方法、装置、设备及介质 |
CN113627193B (zh) * | 2021-08-12 | 2024-03-29 | 达观数据有限公司 | 中文文本中指代关系的确定方法、装置、设备及介质 |
CN113674844A (zh) * | 2021-08-19 | 2021-11-19 | 浙江远图互联科技股份有限公司 | 基于多头cnn网络的医院门诊人流量预测及分诊*** |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
CN114745155B (zh) * | 2022-03-14 | 2023-04-07 | 河海大学 | 一种网络异常流量检测方法、装置及存储介质 |
CN114745155A (zh) * | 2022-03-14 | 2022-07-12 | 河海大学 | 一种网络异常流量检测方法、装置及存储介质 |
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN114818721B (zh) * | 2022-06-30 | 2022-11-01 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259666A (zh) | 一种结合多头自注意力机制的cnn文本分类方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
Gao et al. | Global second-order pooling convolutional networks | |
Zhang et al. | Context encoding for semantic segmentation | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
Sharma et al. | Era of deep neural networks: A review | |
CN113887610A (zh) | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 | |
CN112801280B (zh) | 视觉深度自适应神经网络的一维卷积位置编码方法 | |
CN110727824B (zh) | 利用多重交互注意力机制解决视频中对象关系问答任务的方法 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及*** | |
Kleyko et al. | Modification of holographic graph neuron using sparse distributed representations | |
CN110728297B (zh) | 一种基于gan的低代价对抗性网络攻击样本生成方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN112633378A (zh) | 一种多模态影像胎儿胼胝体智能检测方法及*** | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及*** | |
CN114818889A (zh) | 一种基于线性自注意力Transformer的图像分类方法 | |
CN113298235A (zh) | 一种多分支深度自注意力变换网络的神经网络架构及实现方法 | |
Li et al. | Can vision transformers perform convolution? | |
CN113221852A (zh) | 一种目标识别方法及装置 | |
Pal et al. | AdamR-GRUs: Adaptive momentum-based Regularized GRU for HMER problems | |
CN117011943A (zh) | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 | |
CN113743315B (zh) | 一种基于结构增强的手写体初等数学公式识别方法 | |
Roy | Denoising sequence-to-sequence modeling for removing spelling mistakes | |
CN114550159A (zh) | 一种图像字幕生成方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |