CN112364160A - 一种结合ALBERT和BiGRU的专利文本分类方法 - Google Patents

一种结合ALBERT和BiGRU的专利文本分类方法 Download PDF

Info

Publication number
CN112364160A
CN112364160A CN202010497459.2A CN202010497459A CN112364160A CN 112364160 A CN112364160 A CN 112364160A CN 202010497459 A CN202010497459 A CN 202010497459A CN 112364160 A CN112364160 A CN 112364160A
Authority
CN
China
Prior art keywords
albert
text
patent text
bigru
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010497459.2A
Other languages
English (en)
Inventor
曾诚
温超东
任俊伟
张*
何鹏
马传香
肖奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Original Assignee
Hubei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University filed Critical Hubei University
Priority to CN202010497459.2A priority Critical patent/CN112364160A/zh
Publication of CN112364160A publication Critical patent/CN112364160A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于专利文献的计算机分析技术领域,尤其是一种结合ALBERT和BiGRU的专利文本分类方法。现有的专利文本分类算法大都采用Word2vec等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对此问题,现提出一种结合ALBERT和BiGRU的专利文本分类方法,使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大程度保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。

Description

一种结合ALBERT和BiGRU的专利文本分类方法
技术领域
本发明属于专利文献的计算机分析技术领域,具体涉及一种结合ALBERT和BiGRU的专利文本分类方法。
背景技术
随着科学与信息技术的飞速发展,专利申请数量逐年递增。2018年全球创新者共提交了330万件发明专利申请,连续九年实现增长,涨幅为5.2%。其中,中国国家知识产权局受理的专利申请数量最多,达到154万件,占全球总量的46.7%。为便于专利文献的检索与管理,需要对专利文献按照专业技术领域进行分类。现阶段专利分类的任务仍主要由专利审查员完成,不仅耗费大量人力和时间,且无法有效保证准确率。因此,需对专利文本进行自动化预分类,以实现专利文本的快速分类及快速审查。
与一般文本相比,专利文本具有结构特殊、专业性强、领域词汇较多等特点,需要采用更加针对的分类方法。专利文本分类属于自然语言处理领域,一般包括数据预处理、文本特征表示、分类器选择及效果评价等步骤,其中文本特征表示与分类器选择最为重要,将直接影响分类结果的准确性。
现有的专利文本分类算法大都采用Word2Vec等传统的词向量方式获取文本的特征表示,舍弃了大量的位置信息且不能表示出文本的完整语义。Devlin等提出了BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型,该模型通过使用双向Transformer编码器对语料库进行训练得到文本的双向编码表示,且训练出的词向量为动态词向量,提升了词向量的表征能力。增大BERT预训练模型的规模对下游任务的效果有一定的提升,但受计算资源的限制,所需的训练时间较长,且进一步提升模型的规模将导致显存或内存不足。为此,Lan等提出ALBERT(A Lite BERT)模型,该模型是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示,且大大减少了模型中的参数,并在多项NLP任务中取得最佳效果。
近年来,随着深度学习的发展,研究人员开始尝试使用神经网络构建分类模型。Kim提出文本卷积神经网络(TextCNN)用于文本分类,但基于卷积神经网络的文本分类算法无法考虑到文本中长距离词之间的语义关联。为此,Mikolov等利用RNN进行文本分类,较好地利用了当前词上下文信息。然而,传统的RNN存在梯度***和消失问题,处理长序列文本的效果并不理想。Hochreiter等提出长短期记忆网络(LSTM),解决了传统RNN梯度***和消失的问题。之后,Dey等提出了门控循环单元(Gated Recurrent Unit,GRU),在保持LSTM的效果的同时使得模型结构更加简单。
发明内容
本发明所要解决的技术问题是提供一种结合ALBERT和BiGRU的专利文本分类方法,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。
为解决上述技术问题,本发明结合ALBERT和BiGRU的专利文本分类方法,包含以下步骤:
步骤一,对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。IPC分类法是国际上通用的专利文献分类法,包含部、大类、小类、大组和小组五个层级。本发明在部级别对专利文本进行分类,数据集包含A、B、C、D、E、F、G、H八个部的专利数据。
步骤二,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。其中ALBERT模型是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。
在Transformer编码器中,最主要的模块是多头自注意力机制(Multi-HeadAttention),其计算公式见式(1),其中WO是附加权重矩阵,使得拼接后的矩阵维度压缩成序列长度大小。
MultiHead(Q,K,V)=Concat(head1,…,heads)WO (1)
上式中headi的计算公式见式(2),其中Wi Q,Wi K,Wi V分别Q,K,V的权重矩阵。
headi=Attention(QWi Q,KWi K,VWi V) (2)
Attention的计算公式见式(3),其中Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度。Softmax(·)为归一化激活函数,其计算公式见式(4),z为N维的行向量。
Figure BDA0002521120220000041
Figure BDA0002521120220000042
ALBERT在BERT的基础上进行了两大改进:一是减少BERT模型的参数,二是使用SOP任务代替NSP任务。其中,减少BERT模型的参数是通过嵌入层参数因式分解和跨层参数共享来完成的。进行嵌入层参数因式分解后的时间复杂度变化见式(5),其中V表示词表的大小,E表示嵌入层大小,H表示隐藏层大小,由于H>>E,可知通过该因式分解能有效减少模型的参数;跨层参数共享则为在不同层的Transformer编码器之间共享所有的参数。SOP任务的核心为对句子间的连贯性进行评估,并产生句子间连贯损失。对于多句子输入的下游任务,SOP相对NSP能够提升约2%的准确率。
O(V×H)→O(V×E+E×H) (5)
步骤三,将ALBERT层输出的专利文本特征作为BiGRU层的输入,分别传给BiGRU的前向GRU层和后向GRU层,经过多个GRU隐藏单元的训练,最终得到两个文本向量表示,分别记作
Figure BDA0002521120220000043
Figure BDA0002521120220000044
其中,GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,只由zt和rt两个门控单元组成。其中zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多,GRU的前向传播计算公式如式(6)到式(9)所示。
zt=σ(Wzxxt+Wzhht-1+bz) (6)
rt=σ(Wrxxt+Wrhht-1+br) (7)
Figure BDA0002521120220000051
Figure BDA0002521120220000052
其中,σ表示sigmoid激活函数;xt表示当前时刻的输入,在文本分类中表示第t个单词的词向量;ht-1和ht分别表示前一时刻隐藏层状态和当前时刻隐藏层状态,
Figure BDA0002521120220000053
表示当前时刻新的记忆;⊙表示向量的点乘。Wzx、Wrx
Figure BDA0002521120220000054
分别表示在更新门、重置门和新的记忆中对于xt的权重矩阵,Wzh、Wrh
Figure BDA0002521120220000055
分别表示在更新门、重置门和新的记忆中对于ht-1的权重矩阵,bz、br
Figure BDA0002521120220000056
分别表示在更新门、重置门和新的记忆中的偏置值。
步骤四,将
Figure BDA0002521120220000058
Figure BDA0002521120220000059
在第一个维度进行叠加,得到向量Fg,Fg的维度为2h,h为隐藏单元个数。通过全连接层对Fg进行两次全连接,其中第一次全连接的输出维度为h,第二次全连接的输出维度为n,n表示标签的个数。
步骤五,对全连接层的输出结果进行Softmax归一化,得到专利文本属于每一类的概率分布矩阵L。其中,
Figure BDA0002521120220000057
z为N维的向量。对L按行取最大值的索引,即得到最终的专利文本分类标签。
本发明中的有益效果为:
本方法使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大程度保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。
附图说明
图1为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的结合ALBERT和BiGRU的专利文本分类算法工作流程图;
图2为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的TransformerEncoder部分的模型结构图;
图3为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的注意力机制结构图;
图4为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的GRU的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
图1示出了本发明的一种结合ALBERT和BiGRU的专利文本分类算法工作的流程图。
如图1所示,对专利文本进行分类的方法包括如下步骤:
步骤一、对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。经过数据清洗,原始数据剩余约232万,包含IPC的所有部(从A到H),共有124个大类,数据详情如表1所示。
表1专利文本分类数据集信息表
Figure BDA0002521120220000071
步骤二、对文本数据进行特征提取,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。ALBERT是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。
Transformer编码器是一个基于Self-Attention的Seq2Seq模型,该模型的结构为Encoder-Decoder。ALBERT使用的是Transformer模型中的Encoder部分,TransformerEncoder部分的模型结构如图2所示。Encoder由N个相同的网络层堆叠而成,每个网络层包含两个子网络层:第一层为多头自注意力机制层,第二层为普通的前馈网络层,用于融入词语的位置信息。每个子网络层都含有一个“Add&Norm”层,用于将本层的输入与输出相加并进行归一化处理,随后两个子网络层之间使用残差连接。
在Transformer编码器中,最主要的模块是多头自注意力机制(Multi-HeadAttention),由多个自注意力机制(Self-Attention)拼接而成,自注意力机制的结构如图3所示。由图可知,注意力的计算公式为
Figure BDA0002521120220000081
其中Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度,Softmax(·)为归一化激活函数。
步骤三、将ALBERT层输出的专利文本特征作为BiGRU层的输入,分别传给BiGRU的前向GRU层和后向GRU层。经过多个GRU隐藏单元的训练,最终得到两个文本向量表示,分别记作
Figure BDA0002521120220000083
Figure BDA0002521120220000084
其中,GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,其模型结构如图4所示。其中zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多
步骤四、将
Figure BDA0002521120220000085
Figure BDA0002521120220000086
在第一个维度进行叠加,得到向量Fg,Fg的维度为2h,h为隐藏单元个数。通过全连接层对Fg进行两次全连接,其中第一次全连接的输出维度为h,第二次全连接的输出维度为n,n表示标签的个数。
步骤五、对全连接层的输出结果进行Softmax归一化,得到专利文本属于每一类的概率分布矩阵L。其中,
Figure BDA0002521120220000082
z为N维的向量。对L按行取最大值的索引,即得到最终的专利文本分类标签。
本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的实验参数主要包括ALBERT模型和BiGRU模型的参数,在固定其他参数的前提下,依次改变可变参数的数值,以得到模型的最优参数。其中ALBERT采用Google发布的预训练中文模型“ALBERT-Base”,其模型参数如表2所示。BiGRU模型参数如表3所示,ALBERT-BiGRU综合模型的训练参数如表4所示。
表2 ALBERT模型参数表
Figure BDA0002521120220000091
表3 BiGRU模型参数表
Figure BDA0002521120220000092
表4综合模型训练参数表
Figure BDA0002521120220000093
为评价模型的分类效果,采用精确率P与召回率R的调和平均值F1和准确率Acc来对模型效果进行评价。使用TP表示实际为正例且预测为正例,FP表示实际为负例但预测为正例,TN表示实际为负例且预测为负例,FN表示实际为正例但预测为负例。则精确率
Figure BDA0002521120220000101
召回率
Figure BDA0002521120220000102
两者的调和平均值
Figure BDA0002521120220000103
准确率
Figure BDA0002521120220000104
在专利数据集中的部级别进行实验,各模型对每个部进行分类的F1值如表5所示,总体准确率Acc如表6所示。
表5各模型8个部F1值
Figure BDA0002521120220000105
表6各模型总体准确率Acc
Figure BDA0002521120220000106
Figure BDA0002521120220000111
由表5和表6可知,本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法在多项评价指标中均有着较好的表现,能有效提升专利文本分类的效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种结合ALBERT和BiGRU的专利文本分类方法,其特征在于本方法包括如下步骤:
步骤一、对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。
步骤二、对文本数据进行特征提取,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。
步骤三、将ALBERT层输出的专利文本特征作为BiGRU层的输入,分别传给前向GRU层和后向GRU层。经过多个GRU隐藏单元的训练,最终得到两个文本向量表示,分别记作
Figure FDA0002521120210000012
Figure FDA0002521120210000013
步骤四、将
Figure FDA0002521120210000014
Figure FDA0002521120210000015
在第一个维度进行叠加,得到向量Fg,Fg的维度为2h,h为隐藏单元个数。通过全连接层对Fg进行两次全连接,其中第一次全连接的输出维度为h,第二次全连接的输出维度为n,n表示标签的个数。
步骤五、对全连接层的输出结果进行Softmax归一化,得到专利文本属于每一类的概率分布矩阵L。其中,
Figure FDA0002521120210000011
z为N维的向量。对L按行取最大值的索引,即得到最终的专利文本分类标签。
2.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤一中IPC分类法是国际上通用的专利文献分类法,包含部、大类、小类、大组和小组五个层级。
3.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤二中的ALBERT是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。Transformer中最主要的模块是多头自注意力机制(Multi-Head Attention),其计算公式为MultiHead(Q,K,V)=Concat(head1,…,heads)WO,WO是附加权重矩阵,使得拼接后的矩阵维度压缩成序列长度大小。headi=Attention(QWi Q,KWi K,VWi V),
Figure FDA0002521120210000021
其中,Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度,Wi Q,Wi K,Wi V分别为Q,K,V的权重矩阵,Softmax为归一化激活函数。
4.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤三中的GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,只由zt和rt两个门控单元组成。其中,zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多。
CN202010497459.2A 2020-06-02 2020-06-02 一种结合ALBERT和BiGRU的专利文本分类方法 Withdrawn CN112364160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497459.2A CN112364160A (zh) 2020-06-02 2020-06-02 一种结合ALBERT和BiGRU的专利文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497459.2A CN112364160A (zh) 2020-06-02 2020-06-02 一种结合ALBERT和BiGRU的专利文本分类方法

Publications (1)

Publication Number Publication Date
CN112364160A true CN112364160A (zh) 2021-02-12

Family

ID=74516432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497459.2A Withdrawn CN112364160A (zh) 2020-06-02 2020-06-02 一种结合ALBERT和BiGRU的专利文本分类方法

Country Status (1)

Country Link
CN (1) CN112364160A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113033801A (zh) * 2021-03-04 2021-06-25 北京百度网讯科技有限公司 神经网络模型的预训练方法、装置、电子设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN112926303B (zh) * 2021-02-23 2023-06-27 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113033801A (zh) * 2021-03-04 2021-06-25 北京百度网讯科技有限公司 神经网络模型的预训练方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
AU2020100710A4 (en) A method for sentiment analysis of film reviews based on deep learning and natural language processing
Long et al. Sentiment analysis of text based on bidirectional LSTM with multi-head attention
CN109992783B (zh) 中文词向量建模方法
CN111414481B (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN113312452B (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN111985205A (zh) 一种方面级情感分类模型
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN114048295A (zh) 一种用于数据处理的跨模态检索方法及***
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN112364160A (zh) 一种结合ALBERT和BiGRU的专利文本分类方法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN109308316A (zh) 一种基于主题聚类的自适应对话生成***
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN116822504A (zh) 基于情感知识和方面交互的方面级情感分析方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN112613316B (zh) 一种生成古汉语标注模型的方法和***
Guo et al. Ernie-bilstm based Chinese text sentiment classification method
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
Yu et al. Sentence semantic matching with hierarchical CNN based on dimension-augmented representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210212

WW01 Invention patent application withdrawn after publication