CN109299246A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN109299246A CN109299246A CN201811475663.3A CN201811475663A CN109299246A CN 109299246 A CN109299246 A CN 109299246A CN 201811475663 A CN201811475663 A CN 201811475663A CN 109299246 A CN109299246 A CN 109299246A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- weight
- linear
- linear transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本分类方法及装置,其中,该方法包括:获取目标文本的文本向量;对所述文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同;对所述第一文本向量和所述第二文本向量进行运算,得到权重向量;根据所述权重向量和所述文本向量,得到目标特征向量;依据全连接层的类别映射,将所述目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应;根据所述一维向量中的最大值的维度,确定目标文本的文本类别。本申请实施例提高了提取特征的全面性,进而提高了文本分类的准确性。
Description
技术领域
本申请涉及文本分类技术领域,具体而言,涉及一种文本分类方法及装置。
背景技术
文本分类在实际生活中应用广泛,可用于鉴别邮箱收的邮件是否为垃圾邮件,辨别文本的情感倾向,获取投资情报等诸多问题。随着文本数据量的急剧增长,传统的文本分类方法已经无法满足需求。深度学习算法应运而生,在应对大规模文本分类问题上取得了良好的成效。
现有技术中,CNN(Convolutional Neural Network,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络)是常用的深度学习网络。在进行文本分类时,CNN是将所输入文本分解成若干小范围文字序列,再提取小范围文字序列中的重要信息,采用这种方法极易损失文字之间的关联信息。另外,由于RNN只能处理特定长度的句子,在输入的句子超过设定长度时,会自动省略超出范围的文字。因此,单独采用CNN或者RNN都会损失大量文本信息,所提取到重要信息完整性差,导致文本分类的准确性降低。
发明内容
有鉴于此,本申请的目的在于提供文本分类的方法和装置,以提高提取特征的全面性,进而提高文本分类的准确性。
第一方面,本申请实施例提供了一种文本分类方法,包括:
获取目标文本的文本向量;
对所述文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同;
对所述第一文本向量和所述第二文本向量进行运算,得到权重向量;
根据所述权重向量和所述文本向量,得到目标特征向量;
依据全连接层的类别映射,将所述目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应;
根据所述一维向量中的最大值的维度,确定目标文本的文本类别。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,对所述文本向量分别进行第一线性变换和第二线性变换,包括:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,所述第一线性权重与所述第二线性权重不同、和/或,所述第一偏移量与所述第二偏移量不同;
将所述文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取所述第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取所述第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据所述第一优化线性权重和所述第一优化偏移量的第一全连接层,以及,所述第二优化线性权重和所述第二优化偏移量的第二全连接层,分别对所述文本向量进行线性变换。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,对所述第一文本向量和所述第二文本向量进行运算,得到权重向量,包括:
对所述第二文本向量进行转置处理,得到转置向量;
获取所述第一文本向量与所述转置向量的乘积,得到初始权重向量;
利用回归算法运算所述初始权重向量,得到权重向量。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,根据所述权重向量和所述文本向量,得到目标特征向量,包括:
对所述文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同;
获取所述权重矩阵与所述第三文本向量的乘积,得到特征向量;
对所述特征向量进行特征提取,得到目标特征向量。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,根据所述一维向量中的最大值的维度,确定目标文本的文本类别,包括:
将一维向量通过输出层进行归一化,获得归一化后的一维向量;
将归一化后的一维向量中的最大值对应的类别,确定为所述目标文本的文本类别。
结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式、第一方面的第三种可能的实施方式或者第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,在所述得到目标特征向量之后,依据全连接层的类别映射,将所述目标特征向量映射成一维向量之前,所述方法还包括:
判断得到所述目标特征向量的次数是否达到预设的次数阈值,如果不是,利用所述目标特征向量对所述文本向量进行更新,得到更新文本向量,利用所述更新文本向量替换所述文本向量;
执行对所述文本向量分别进行第一线性变换和第二线性变换的步骤,直至得到所述目标特征向量的次数达到预设的次数阈值。
第二方面,本申请实施例提供了一种文本分类装置,包括:
文本表示模块:用于获取目标文本的文本向量;
特征提取模块:用于对所述文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同,对所述第一文本向量和所述第二文本向量进行运算,得到权重向量,根据所述权重向量和所述文本向量,得到目标特征向量;
文本分类模块,用于依据全连接层的类别映射,将所述目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应,根据所述一维向量中的最大值的维度,确定目标文本的文本类别。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述特征提取模块按照以下方式获得所述第一文本向量和所述第二文本向量:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,所述第一线性权重与所述第二线性权重不同、和/或,所述第一偏移量与所述第二偏移量不同;
将所述文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取所述第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取所述第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据所述第一优化线性权重和所述第一优化偏移量的第一全连接层,以及,所述第二优化线性权重和所述第二优化偏移量的第二全连接层,分别对所述文本向量进行线性变换。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述特征提取模块按照以下方式根据对所述第一文本向量和所述第二文本向量进行运算,得到权重向量:
对所述第二文本向量进行转置处理,得到转置向量;
获取所述第一文本向量与所述转置向量的乘积,得到初始权重向量;
利用回归算法运算所述初始权重向量,得到权重向量。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述特征提取模块按照以下方式根据所述权重向量和所述文本向量,得到目标特征向量:
对所述文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同;
获取所述权重矩阵与所述第三文本向量的乘积,得到特征向量;
对所述特征向量进行特征提取,得到目标特征向量。
本申请实施例提供的文本分类的方法及装置,采用自注意力机制,选择性关注用户输入内容,再提取重要内容的特征,最后根据所提取到特征对文本进行分类,与现有技术中单独采用CNN或者RNN进行文本分类,丧失大量文本信息,提取到特征不全面,导致文本分类的准确性低相比,其保留了大量文本信息,提高提取特征的全面性,进而提高文本分类的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供一种文本分类方法的流程图;
图2示出了本申请实施例所提供的一种文本向量的示意图;
图3示出了本申请实施例所提供的一种文本分类方法的流程图;
图4示出了本申请实施例所提供的一种全连接层的运算过程的示意图。
图示说明:目标特征向量1;全连接层的卷积核2;一维向量3。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中单独采用CNN或者RNN进行文本分类,丧失大量文本信息,提取到特征不全面,导致文本分类的准确性低,基于此,本申请实施例提供了一种文本分类的方法和装置,下面通过实施例进行描述。
为了解决由于文本信息不完整导致的分类准确性低的问题,本申请实施例所提供一种文本分类的方法,如图1所示,该方法包括如下步骤:
步骤S101,获取目标文本的文本向量。
本申请实施例中,目标文本指用户输入的一个或者若干句子,文本向量指用户输入的句子的文本表示。可选地,步骤S101包括:
(1)根据预训练的字与词向量的对应关系,获取目标文本中每一个字对应的词向量。
具体而言,词向量是d维实数列向量,每一字对应一词向量。其中,d可以是大于1的整数。在用户输入句子后,自动根据对应关系,获取句子的每一个字对应的词向量。
(2)将获取的每一个字对应的词向量,按照目标文本中字的输入顺序构建向量矩阵,得到文本向量。
具体而言,将获取得到的词向量按照目标文本中字的输入顺序,每一个字对应的词向量作为向量矩阵的一行,向量矩阵的行数为目标文本中字的个数,向量矩阵的列数为词向量的维度。最终形成目标文本的词向量表示,即文本向量。文本向量与句子的长度和词向量的维度的关系,如图2所示,n为句子的长度(句子包含的字的个数),d为词向量的维度,文本向量的维度为n*d。例如,词向量的维度为10,用户输入一个长度为8个字的句子,最后得到的文本向量是一个维度为8*10的向量矩阵。
步骤S102,对文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同。
其中,权值包括线性权重和偏移量,权值不同指线性变换的线性权重和偏移量中,至少有一个值不同。
本申请实施例中,作为一可选实施例,可通过全连接层对文本向量进行线性变换。
具体而言,对文本向量分别进行第一线性变换和第二线性变换包括:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,第一线性权重与第二线性权重不同、和/或,第一偏移量与第二偏移量不同;
将文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据第一优化线性权重和第一优化偏移量的第一全连接层,以及,第二优化线性权重和第二优化偏移量的第二全连接层,分别对文本向量进行线性变换。
本申请实施例中,依据第一优化线性权重和第一优化偏移量的第一全连接层,对文本向量进行线性变换,得到第一文本向量;依据第二优化线性权重和第二优化偏移量的第二全连接层,对文本向量进行线性变换,得到第二文本向量。
本申请实施例中,全连接层对文本向量进行线性变换的处理过程如下:设输入的文本向量为x,初始化全连接层的线性变换公式中的线性权重w和偏移量b,即初始化线性变换公式:y=wx+b。其中,y为线性变换后的文本向量,x为文本向量。全连接层的优化器通过梯度下降算法,不断调整线性权重和偏移量的大小,得到使损失函数最小的线性权重和偏移量,其中,损失函数指预测值与真实值的不一致程度,这里指线性变换后的文本向量与目标文本的不一致程度。
本申请实施例中,通过初始化两个全连接层的线性权重和偏移量,设置两组不同的线性权重和偏移量。通过初始化的两个全连接层分别对文本向量进行线性变换,假设两个全连接层使损失函数最小的线性权重和偏移量分别为(w1,b1)和(w2,b2),得到的包括第一优化线性权重和第一优化偏移量的第一全连接层的第一线性变换公式,以及,包括第二优化线性权重和第二优化偏移量的第二全连接层的第二线性变换公式可以分别表示为公式(1)和公式(2)。
y1=w1x+b1 (1)
y2=w2x+b2 (2)
其中,y1代表第一线性变化后的文本向量,y2代表第二线性变化后的文本向量。
将文本向量分别输入至公式(1)和公式(2),得到第一文本向量和第二文本向量。
步骤S103,对第一文本向量和第二文本向量进行运算,得到权重向量。
权重向量表示用户输入的句子中字或者词的重要程度,重要程度是指对文本分类影响的大小程度。权重向量的计算方法有点积(Dot product)、General(权值网络映射)以及concat(拼接映射),其中,点积运算最为简单、常见。
可选地,根据第一文本向量和第二文本向量,按照公式(3),得到初始权重向量:
M=Q*KT (3),
其中,Q为第一文本向量,K为第二文本向量,M为初始权重向量。
利用回归算法运算初始权重向量,得到权重向量。
具体而言,回归算法具体指softmax回归算法,softmax回归算法的作用是使初始权重向量归一化。
步骤S104,根据权重向量和文本向量,得到目标特征向量。
其中,注意力机制算法模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的算法。而自注意力机制算法是注意力机制算法的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。自注意力机制算法可实现选择性关注用户输入的句子。
本申请实施例中,依据权重向量中的数值,对文本向量赋予不同的权重,从而基于自注意力机制实现了选择性关注用户输入的句子。
本申请实施例中,可选地,根据权重向量和文本向量,得到目标特征向量,包括步骤S1041-S1043,如图3所示,具体如下:
步骤S1041,对文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同。
本申请实施例中,系数包括权值和偏移量。具体而言,初始化第三全连接层,用于第三全连接层的第三线性变换的第三权值与第一权值和第二权值不同、和/或,用于第三全连接层的第三线性变换的第三偏移量与第一偏移量和第二偏移量不同。
步骤S1042,根据权重矩阵和第三文本向量,得到特征向量。
本申请实施例中,按照公式(4)计算特征向量:
T=S*V (4)
其中,S为权重向量,V为第三文本向量,T为特征向量。
其中,特征向量是得到目标特征向量的中间结果。
步骤S1043,对特征向量进行特征提取,得到目标特征向量。
可选地,步骤S1043具体包括:
(1)对特征向量进行标准化,得到标准化后的特征向量。
具体而言,标准化可通过layer normalization(层规范化)实现,其基本原理是通过固定一层的输入均值和方差,根据这个固定的均值和方差调整输入数据。标准化能加速损失降到最小。
(2)对标准化后的特征向量进行特征提取,得到目标特征向量。
具体而言,通过position-wise feed forward network(位置前馈网络)对标准化后的特征向量进行特征提取。位置前馈网络的运算相当于用两个连续的一维卷积层进行运算,其中这两个一维卷积层的卷积核尺寸都为1*1,前一个一维卷积层的输入连接后一个一维卷积层的输入。前一个一维卷积层的作用是提取目标特征向量的特征,后一个一维卷积层的作用是把前一个一维卷积层的输出结果转化成与特征向量维度相同的矩阵。后一个一维卷积层的输出结果经过layer normalization(层规范化)进行标准化,标准化后的结果为目标特征向量。
本申请实施例中,为了能够尽可能保留目标文本中包含的信息,在得到目标特征向量之后,该方法还包括:
A11,判断得到目标特征向量的次数是否达到预设的次数阈值,如果不是,利用目标特征向量对文本向量进行更新,得到更新文本向量,利用更新文本向量替换文本向量;
本申请实施例中,按照公式(5)对文本向量进行更新:
X'=X+N (5)
其中,X'为更新文本向量,X为文本向量,N为目标特征向量。
本申请实施例中,如果得到目标特征向量的次数达到预设的次数阈值,则依据得到的目标特征向量执行后续步骤105。
A12,执行对文本向量分别进行第一线性变换和第二线性变换的步骤,直至得到目标特征向量的次数达到预设的次数阈值。
具体而言,将更新文本向量作为目标文本的文本向量,按照步骤S102-S104的方法再次计算目标特征向量。上述过程可以重复多次,优选地,预设的次数阈值为6次。这种方法能够保留原始文本信息,在提取特征的过程中,不丢失原始文本信息,不断在提取过程中不断加强重要程度大的字或者词的重要程度。
步骤S105,依据全连接层的类别映射,将目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应;
其中,类别的数目和内容可根据需要设定。将目标特征向量映射成一维向量,具体而言,将目标特征向量输入全连接层的类别映射子层后,全连接层输出一维向量。全连接层的作用是将目标特征向量映射到类别空间。一维向量就是将目标特征向量映射到类别空间的结果,一维向量的每一个维度对应唯一的类别。
全连接层的运算过程,如图4所示,具体过程下:假设目标特征向量的维度为n*d,预设类别的数目为m全连接层上应设置m个尺寸为n*d的卷积核,每一个卷积核中的数值不同,目标特征向量与每个卷积核进行卷积运算得到一个数值,m个卷积核得到m个数值,这个m个数值组成一维列向量。目标特征向量通过全连接层的卷积计算,可以得到维度为1*m的一维列向量。
步骤S106,根据一维向量中的最大值的维度,确定目标文本的文本类别。
可选地,步骤S106包括:
(1)将一维向量通过输出层进行归一化,获得归一化后的一维向量。
(2)将归一化后的一维向量中的最大值对应的类别,确定为目标文本的文本类别。
具体而言,将一维向量输入到输出层,输出层可以是softmax层,利用softmax函数对一维向量进行归一化,使一维向量的各元素之和为1,此时,各个元素表示的是所在维度对应的类别的概率值。概率值最大的类别就是目标文本的类别。
本申请实施例还提供了一种文本分类装置,包括:
文本表示模块:用于获取目标文本的文本向量;
特征提取模块:用于对文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同,对第一文本向量和第二文本向量进行运算,得到权重向量,根据权重向量和文本向量,得到目标特征向量;
文本分类模块,用于依据全连接层的类别映射,将目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应,根据一维向量中的最大值的维度,确定目标文本的文本类别。
本申请实施例中,目标文本指用户输入的一个或者若干句子,文本向量指用户输入的句子的文本表示。
可选地,文本表示模块具体用于:(1)根据预训练的字与词向量的对应关系,获取目标文本中每一个字对应的词向量。(2)将获取的每一个字对应的词向量,按照目标文本中字的输入顺序构建向量矩阵,得到文本向量。
具体而言,词向量是d维实数列向量,每一字对应一词向量。其中,d可以是大于1的整数。最终形成目标文本的词向量表示,即文本向量。
可选地,特征提取模块按照以下方式获得第一文本向量和第二文本向量:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,第一线性权重与第二线性权重不同、和/或,第一偏移量与第二偏移量不同;
将文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据第一优化线性权重和第一优化偏移量的第一全连接层,以及,第二优化线性权重和第二优化偏移量的第二全连接层,分别对文本向量进行线性变换。
具体而言,损失函数指预测值与真实值的不一致程度,这里指线性变换后的文本向量与目标文本的不一致程度。
可选地,特征提取模块按照以下方式根据对第一文本向量和第二文本向量进行运算,得到权重向量:
对第二文本向量进行转置处理,得到转置向量;
获取第一文本向量与转置向量的乘积,得到初始权重向量;
利用回归算法运算初始权重向量,得到权重向量。
具体而言,回归算法具体指softmax回归算法,softmax回归算法的作用是使初始权重向量归一化。
可选地,特征提取模块按照以下方式根据权重向量和文本向量,得到目标特征向量:
对文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同;
获取权重矩阵与第三文本向量的乘积,得到特征向量;
对特征向量进行特征提取,得到目标特征向量。
本申请实施例中,系数包括权值和偏移量。具体而言,初始化第三全连接层,用于第三全连接层的第三线性变换的第三权值与第一权值和第二权值不同、和/或,用于第三全连接层的第三线性变换的第三偏移量与第一偏移量和第二偏移量不同。
可选地,特征提取模块按照以下方式对特征向量进行特征提取,得到目标特征向量:对特征向量进行标准化,得到标准化后的特征向量;对标准化后的特征向量进行特征提取,得到目标特征向量。
具体而言,标准化可通过layer normalization(层规范化)实现。标准化能加速损失降到最小。通过position-wise feed forward network(位置前馈网络)对标准化后的特征向量进行特征提取。位置前馈网络的输出结果经过layer normalization(层规范化)进行标准化,标准化后的结果为目标特征向量。
本申请实施例中,为了能够尽可能保留目标文本中包含的信息,在特征提取模块得到目标特征向量之后,还用于:
A11,判断得到目标特征向量的次数是否达到预设的次数阈值,如果不是,利用目标特征向量对文本向量进行更新,得到更新文本向量,利用更新文本向量替换文本向量;
本申请实施例中,按照公式(5)对文本向量进行更新:
X'=X+N (5)
其中,X'为更新文本向量,X为文本向量,N为目标特征向量。
A12,执行对文本向量分别进行第一线性变换和第二线性变换的步骤,直至得到目标特征向量的次数达到预设的次数阈值。
具体而言,将更新文本向量作为目标文本的文本向量,特征提取模块再次计算目标特征向量。上述过程可以重复多次,优选地,预设的次数阈值为6次。
可选地,特征提取模块按照以下方式根据一维向量中的最大值的维度,确定目标文本的文本类别:将一维向量通过输出层进行归一化,获得归一化后的一维向量;将归一化后的一维向量中的最大值对应的类别,确定为目标文本的文本类别。
具体而言,将一维向量输入到输出层,输出层可以是softmax层,利用softmax函数对一维向量进行归一化,使一维向量的各元素之和为1,此时,各个元素表示的是所在维度对应的类别的概率值。概率值最大的类别就是目标文本的类别。
基于上述分析可知,与相关技术中单独采用CNN或者RNN进行文本分类,丧失大量文本信息,提取到特征不全面,导致文本分类的准确性低方法相比,本申请实施例提供的文本分类方法利用自注意力机制,选择性关注用户输入内容,再提取重要内容的特征,最后根据所提取到特征对文本进行分类。
本申请实施例所提供的进行文本分类的方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的文本分类的的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
获取目标文本的文本向量;
对所述文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同;
对所述第一文本向量和所述第二文本向量进行运算,得到权重向量;
根据所述权重向量和所述文本向量,得到目标特征向量;
依据全连接层的类别映射,将所述目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应;
根据所述一维向量中的最大值的维度,确定目标文本的文本类别。
2.根据权利要求1所述的方法,其特征在于,对所述文本向量分别进行第一线性变换和第二线性变换,包括:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,所述第一线性权重与所述第二线性权重不同、和/或,所述第一偏移量与所述第二偏移量不同;
将所述文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取所述第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取所述第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据所述第一优化线性权重和所述第一优化偏移量的第一全连接层,以及,所述第二优化线性权重和所述第二优化偏移量的第二全连接层,分别对所述文本向量进行线性变换。
3.根据权利要求1所述的方法,其特征在于,对所述第一文本向量和所述第二文本向量进行运算,得到权重向量,包括:
对所述第二文本向量进行转置处理,得到转置向量;
获取所述第一文本向量与所述转置向量的乘积,得到初始权重向量;
利用回归算法运算所述初始权重向量,得到权重向量。
4.根据权利要求1所述的方法,其特征在于,根据所述权重向量和所述文本向量,得到目标特征向量,包括:
对所述文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同;
获取所述权重矩阵与所述第三文本向量的乘积,得到特征向量;
对所述特征向量进行特征提取,得到目标特征向量。
5.根据权利要求1所述的方法,其特征在于,根据所述一维向量中的最大值的维度,确定目标文本的文本类别,包括:
将一维向量通过输出层进行归一化,获得归一化后的一维向量;
将归一化后的一维向量中的最大值对应的类别,确定为所述目标文本的文本类别。
6.根据权利要求1-5任意一项权利要求所述的方法,其特征在于,在所述得到目标特征向量之后,依据全连接层的类别映射,将所述目标特征向量映射成一维向量之前,所述方法还包括:
判断得到所述目标特征向量的次数是否达到预设的次数阈值,如果不是,利用所述目标特征向量对所述文本向量进行更新,得到更新文本向量,利用所述更新文本向量替换所述文本向量;
执行对所述文本向量分别进行第一线性变换和第二线性变换的步骤,直至得到所述目标特征向量的次数达到预设的次数阈值。
7.一种文本分类装置,其特征在于,所述装置包括:
文本表示模块:用于获取目标文本的文本向量;
特征提取模块:用于对所述文本向量分别进行第一线性变换和第二线性变换,获得第一线性变换后的第一文本向量和第二线性变换后的第二文本向量,其中,第一线性变换和第二线性变换的权值不同,对所述第一文本向量和所述第二文本向量进行运算,得到权重向量,根据所述权重向量和所述文本向量,得到目标特征向量;
文本分类模块,用于依据全连接层的类别映射,将所述目标特征向量映射成一维向量,其中,一维向量的维度与预设类别一一对应,根据所述一维向量中的最大值的维度,确定目标文本的文本类别。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块按照以下方式获得所述第一文本向量和所述第二文本向量:
初始化第一全连接层的第一线性权重和第一偏移量,以及第二全连接层的第二线性权重和第二偏移量,其中,所述第一线性权重与所述第二线性权重不同、和/或,所述第一偏移量与所述第二偏移量不同;
将所述文本向量分别输入初始化的第一全连接层和第二全连接层进行线性变换,获取所述第一全连接层使损失函数最小的第一优化线性权重和第一优化偏移量,以及,获取所述第二全连接层使损失函数最小的第二优化线性权重和第二优化偏移量;
依据所述第一优化线性权重和所述第一优化偏移量的第一全连接层,以及,所述第二优化线性权重和所述第二优化偏移量的第二全连接层,分别对所述文本向量进行线性变换。
9.根据权利要求7所述的装置,其特征在于,所述特征提取模块按照以下方式根据对所述第一文本向量和所述第二文本向量进行运算,得到权重向量:
对所述第二文本向量进行转置处理,得到转置向量;
获取所述第一文本向量与所述转置向量的乘积,得到初始权重向量;
利用回归算法运算所述初始权重向量,得到权重向量。
10.根据权利要求7所述的装置,其特征在于,所述特征提取模块按照以下方式根据所述权重向量和所述文本向量,得到目标特征向量:
对所述文本向量进行第三线性变换,获得第三线性变换后的第三文本向量,其中,第三线性变换的系数与第一线性变换和第二线性变换的系数均不同;
获取所述权重矩阵与所述第三文本向量的乘积,得到特征向量;
对所述特征向量进行特征提取,得到目标特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475663.3A CN109299246B (zh) | 2018-12-04 | 2018-12-04 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475663.3A CN109299246B (zh) | 2018-12-04 | 2018-12-04 | 一种文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299246A true CN109299246A (zh) | 2019-02-01 |
CN109299246B CN109299246B (zh) | 2021-08-03 |
Family
ID=65142453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811475663.3A Active CN109299246B (zh) | 2018-12-04 | 2018-12-04 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299246B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160016A (zh) * | 2019-04-15 | 2020-05-15 | 深圳碳云智能数字生命健康管理有限公司 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
CN111241263A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 文本生成方法、装置和电子设备 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
WO2021051586A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897268A (zh) * | 2017-02-28 | 2017-06-27 | 科大讯飞股份有限公司 | 文本语义理解方法、装置和*** |
CN107665248A (zh) * | 2017-09-22 | 2018-02-06 | 齐鲁工业大学 | 基于深度学习混合模型的文本分类方法和装置 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108108462A (zh) * | 2017-12-29 | 2018-06-01 | 河南科技大学 | 一种基于特征分类的文本情感分析方法 |
CN108763216A (zh) * | 2018-06-01 | 2018-11-06 | 河南理工大学 | 一种基于中文数据集的文本情感分析方法 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
-
2018
- 2018-12-04 CN CN201811475663.3A patent/CN109299246B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897268A (zh) * | 2017-02-28 | 2017-06-27 | 科大讯飞股份有限公司 | 文本语义理解方法、装置和*** |
CN107665248A (zh) * | 2017-09-22 | 2018-02-06 | 齐鲁工业大学 | 基于深度学习混合模型的文本分类方法和装置 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108108462A (zh) * | 2017-12-29 | 2018-06-01 | 河南科技大学 | 一种基于特征分类的文本情感分析方法 |
CN108763216A (zh) * | 2018-06-01 | 2018-11-06 | 河南理工大学 | 一种基于中文数据集的文本情感分析方法 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
Non-Patent Citations (3)
Title |
---|
PRATEEK JAIN 等: ""Metric and kernel learning using a linear transformation"", 《THE JOURNAL OF MACHINE LEARNING RESEARCH》 * |
何建英 等: ""基于类别特征向量表示的中文文本分类算法"", 《计算机应用研究》 * |
谢铁 等: ""基于并行化递归神经网络的中文短文本情感分类"", 《计算机应用与软件》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160016A (zh) * | 2019-04-15 | 2020-05-15 | 深圳碳云智能数字生命健康管理有限公司 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
CN111160016B (zh) * | 2019-04-15 | 2022-05-03 | 深圳碳云智能数字生命健康管理有限公司 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
WO2021051586A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
CN111241263A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 文本生成方法、装置和电子设备 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112528016B (zh) * | 2020-11-19 | 2024-05-07 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109299246B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299246A (zh) | 一种文本分类方法及装置 | |
CN111241304B (zh) | 基于深度学习的答案生成方法、电子装置及可读存储介质 | |
CN109325547A (zh) | 非机动车图像多标签分类方法、***、设备及存储介质 | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN111291165B (zh) | 训练词向量嵌入模型的方法及装置 | |
CN111753081A (zh) | 基于深度skip-gram网络的文本分类的***和方法 | |
CN109766469A (zh) | 一种基于深度哈希学习优化的图像检索方法 | |
KR102667737B1 (ko) | 특징점 포지셔닝 방법 및 장치 | |
CN112199536A (zh) | 一种基于跨模态的快速多标签图像分类方法和*** | |
CN110717013B (zh) | 文档的矢量化 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及*** | |
CN107644051A (zh) | 用于同类实体分组的***和方法 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN115700515A (zh) | 文本多标签分类方法及装置 | |
CN112836502A (zh) | 一种金融领域事件隐式因果关系抽取方法 | |
CN108496174B (zh) | 用于面部识别的方法和*** | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN116226357A (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
EP4044054A1 (en) | Execution behavior analysis text-based ensemble malware detector | |
CN113326833B (zh) | 一种基于中心损失的文字识别改进训练方法 | |
CN116124448A (zh) | 用于风电齿轮箱的故障诊断***及其方法 | |
CN115906861A (zh) | 基于交互方面信息融合的语句情感分析方法以及装置 | |
CN110705331B (zh) | 一种手语识别方法及装置 | |
CN114724167A (zh) | 一种营销文本识别方法及*** | |
CN112989801B (zh) | 一种序列标注方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |