CN115587184A - 一种关键信息抽取模型的训练方法、装置及其存储介质 - Google Patents

一种关键信息抽取模型的训练方法、装置及其存储介质 Download PDF

Info

Publication number
CN115587184A
CN115587184A CN202211264236.7A CN202211264236A CN115587184A CN 115587184 A CN115587184 A CN 115587184A CN 202211264236 A CN202211264236 A CN 202211264236A CN 115587184 A CN115587184 A CN 115587184A
Authority
CN
China
Prior art keywords
sequence
key information
text
information extraction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211264236.7A
Other languages
English (en)
Inventor
付西娜
翟飞飞
史桂华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202211264236.7A priority Critical patent/CN115587184A/zh
Publication of CN115587184A publication Critical patent/CN115587184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种关键信息抽取模型的训练方法、装置及其存储介质,属于自然语言处理技术领域。该关键信息抽取模型的训练方法,包括以下步骤:S1、对隐私政策文本语义进行标注;S2、利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;S3、将第一隐状态序列和第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;S4、通过维特比解码所述预测序列的分数得到最大分数的输出序列;S5、根据所述损失值优化所述关键信息抽取模型。该方法实现了对隐私政策文本的自动分析。

Description

一种关键信息抽取模型的训练方法、装置及其存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种关键信息抽取模型的训练方法、装置及其存储介质。
背景技术
隐私政策是公司和组织提供的法律文件,隐私政策文本是以文字的形式告知用户其个人数据是如何移动应用程序和可能的其他平台上使用或者收集。然而由于隐私政策篇幅较长,术语较多,用户很难理解且需要较长时间才能读完,而且用户也不擅长读懂隐私政策文件。
由于缺乏相关的语料库,导致抽取的关键信息类型较少,主要为信息收集/使用/共享相关的接收方、提供方、信息类型以及收集目的(传输原则);另一方面能利用的方法或模型也有限,模型的识别率不高,难以实现对隐私政策文本的自动分析。
发明内容
本发明的目的在于克服上述技术不足,提供一种关键信息抽取模型的训练方法、装置及其存储介质,解决现有技术中如何实现对隐私政策文本的自动分析的技术问题。
为达到上述技术目的,本发明的技术方案提供一种关键信息抽取模型的训练方法,包括以下步骤:
S1、对隐私政策文本语义进行标注;
S2、利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
S3、将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
S4、通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
S5、通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
进一步地,在步骤S1中,所述标注的信息包括:段落文本序列、文本包含的关键信息标签序列对应的关键信息标签序列以及文本所在段落的位置索引。
进一步地,在步骤S4之前还包括:搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax函数计算得到主题类别标签的概率分布主题类别标签的概率分布。
进一步地,所述段落文本的特征表示向量由以下步骤得到:将语义特征的词向量矩阵、关键信息的嵌入向量、位置信息的嵌入向量进行拼接,得到段落文本的特征表示向量;进一步地,所述段落文本的特征表示向量的计算公式为:
Figure BDA0003891409170000021
其中,W1表示权重,b0表示偏置因子。
进一步地,所述位置信息的嵌入向量通过对文本所在段落的位置信息编码生成,具体包括:构建段落位置信息词典向量矩阵,对于输入的文本,根据段落行数,通过位置信息编码层查询位置信息词典向量矩阵,获取位置信息向量,计算公式为:
Figure BDA0003891409170000031
hID=ELoc(ID)
其中,idxj表示段落j的索引,K为常数,L为整个文本的段落数量,hID为段落的位置表征。
进一步地,在步骤S3中,所述标签的概率分布矩阵P的计算公式为:
Figure BDA0003891409170000032
Figure BDA0003891409170000033
Figure BDA0003891409170000034
其中,
Figure BDA0003891409170000035
Figure BDA0003891409170000036
分别表示BiLSTM前向和后向两个方向的输出向量,之后将两个方向的向量拼接后乘权重矩阵W0,得到预测标签的概率分布矩阵P;其中P∈Rm×n,m为序列长度,n为关键信息类别数量。
进一步地,在步骤S4中,所述最大分数的输出序列的表达式为:
Figure BDA0003891409170000037
式中
Figure BDA0003891409170000038
表示真实的标注序列,YX表示所有可能的标签序列,
Figure BDA0003891409170000039
表示对应的预测序列的分数。
进一步地,在步骤S5中,每一个正确的标签序列Y的所述最大概率P(Y|X)的最大后验概率的计算式如下:
Figure BDA0003891409170000041
Figure BDA0003891409170000042
所述关键信息抽取任务的损失Loss_ner和所述主题分类任务的交叉熵损失Loss_cls的计算式为:
Figure BDA0003891409170000043
Figure BDA0003891409170000044
N为样本数量,
Figure BDA0003891409170000045
为主题分类任务中样本的实际标签的one-hot向量表示,pcls(yi|Xi)为样本的预测标签向量;logP(Yi|Xi)为关键信息抽取任务中样本在CRF层的输出概率,α和β为加权因子;
所述损失值Loss的计算公式为:
Loss=α*Loss_ner+β*Loss_cls。
此外,本发明还提出一种关键信息抽取模型的训练装置,包括:
标注单元,用于对隐私政策文本语义进行标注;
提取单元,用于利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
拼接单元,用于将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
分数单元,用于通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
优化单元,用于通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
进一步地,本发明提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的关键信息抽取模型的训练方法的步骤。
与现有技术相比,本发明的有益效果包括:本发明提出关键信息抽取模型的训练方法,引入多任务学习机制,采用参数共享的方式构建多任务微调联合学习模型,同时具有关键信息抽取和段落分类功能,实现对隐私政策文本的自动分析。
附图说明
图1是本发明实施例1的一种关键信息抽取模型的训练方法;
图2是本发明实施例1的一种关键信息抽取模型的训练装置。
具体实施方式
本具体实施方式提供了一种关键信息抽取模型的训练方法,包括以下步骤:
T1、对隐私政策文本语义进行标注;所述标注的信息包括:段落文本序列、文本包含的关键信息标签序列对应的关键信息标签序列以及文本所在段落的位置索引;
T2、利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
T3、将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
T4、搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax函数计算得到主题类别标签的概率分布主题类别标签的概率分布;所述段落文本的特征表示向量由以下步骤得到:将语义特征的词向量矩阵、关键信息的嵌入向量、位置信息的嵌入向量进行拼接,得到段落文本的特征表示向量,所述段落文本的特征表示向量的计算公式为:
Figure BDA0003891409170000061
其中,W1表示权重,b0表示偏置因子;所述位置信息的嵌入向量通过对文本所在段落的位置信息编码生成,具体包括:构建段落位置信息词典向量矩阵,对于输入的文本,根据段落行数,通过位置信息编码层查询位置信息词典向量矩阵,获取位置信息向量,计算公式为:
Figure BDA0003891409170000062
hID=ELoc(ID)
其中,idxj表示段落j的索引,K为常数,L为整个文本的段落数量,hID为段落的位置表征;
所述标签的概率分布矩阵P的计算公式为:
Figure BDA0003891409170000063
Figure BDA0003891409170000064
Figure BDA0003891409170000065
其中,
Figure BDA0003891409170000066
Figure BDA0003891409170000067
分别表示BiLSTM前向和后向两个方向的输出向量,之后将两个方向的向量拼接后乘权重矩阵W0,得到预测标签的概率分布矩阵P;其中P∈Rm×n,m为序列长度,n为关键信息类别数量;
T5、通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;所述最大分数的输出序列的表达式为:
Figure BDA0003891409170000071
式中
Figure BDA0003891409170000072
表示真实的标注序列,YX表示所有可能的标签序列,
Figure BDA0003891409170000073
表示对应的预测序列的分数;
T6、通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型;
每一个正确的标签序列Y的所述最大概率P(Y|X)的最大后验概率的计算式如下:
Figure BDA0003891409170000074
Figure BDA0003891409170000075
所述关键信息抽取任务的损失Loss_ner和所述主题分类任务的交叉熵损失Loss_cls的计算式为:
Figure BDA0003891409170000076
Figure BDA0003891409170000077
N为样本数量,
Figure BDA0003891409170000078
为主题分类任务中样本的实际标签的one-hot向量表示,pcls(yi|Xi)为样本的预测标签向量;logP(Yi|Xi)为关键信息抽取任务中样本在CRF层的输出概率,α和β为加权因子;
所述损失值Loss的计算公式为:
Loss=α*Loss_ner+β*Loss_cls。
本具体实施方式还提出一种关键信息抽取模型的训练装置,包括:
标注单元,用于对隐私政策文本语义进行标注;
提取单元,用于利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
拼接单元,用于将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
分数单元,用于通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
优化单元,用于通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
在某些实施例中,还包括搭建单元,用于搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax函数计算得到主题类别标签的概率分布主题类别标签的概率分布。
此外,本具体实施方式还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的关键信息抽取模型的训练方法的步骤。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
结合图1,一种关键信息抽取模型的训练方法,包括以下步骤:
D1、对隐私政策文本语义进行标注;所述标注的信息包括:段落文本序列(x1,x2,...,xm)、文本包含的关键信息标签序列对应的关键信息标签序列[e1,e2,...ek]以及文本所在段落的位置索引idxj
D2、利用BERT预训练模型提取文本语义特征,获得语义特征的词向量矩阵
Figure BDA0003891409170000091
BERT预训练模型对中文是以字为单位进行编码,并且在开头添加[CLS]符号,用于在下游任务中表征整句话的信息。对于包含m个字符的段落文本序列X=(x1,x2,...,xm)经过BERT层映射得到包含整个句子语义信息的向量表征
Figure BDA0003891409170000092
以及文本的向量表征序列
Figure BDA0003891409170000093
D3、对关键信息标签序列编码,生成关键信息的嵌入向量;对文本段落位置信息编码,生成位置信息的嵌入向量;对于任意一段输入文本,获取包含的关键信息列表[e1,e2,...ek],若文本不包含任何关键信息,则其关键信息列表为[′0′];根据获取的关键信息列表,通过关键信息编码层获取各关键信息类别的向量表征Eentity(ei);
Figure BDA0003891409170000094
对文本所在段落的位置信息编码,生成位置信息的嵌入向量;包括:
D31、构建的段落位置信息词典向量M*P矩阵,M取值100,P取值300,该向量矩阵在模型训练当中进行参数更新;
D32、对于任意一段输入文本,根据段落行数j,通过位置信息编码层查询位置信息词典向量矩阵,获取位置信息向量Eloc;
Figure BDA0003891409170000101
hID=ELoc(ID)
其中,idxj表示段落j的索引,K为常数,一般取100,L为整个文本的段落数量,hID为段落的位置表征;
将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
将语义特征的词向量矩阵、关键信息的嵌入向量、位置信息的嵌入向量进行拼接,得到段落文本的特征表示向量;
Figure BDA0003891409170000102
其中,W1表示权重,b0表示偏置因子;
D4、搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax计算得到主题类别标签的概率分布;
pcls(y|X)=Softmax(W2*h+b1),其中,W2表示权重矩阵,b1表示矩阵偏置向量。
将文本语义特征输入BiSLTM-CRF网络,BiLSTM包括正向长短时记忆网络LSTM和反向LSTM,将文本向量表征序列
Figure BDA0003891409170000103
输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将第一隐状态序列和第二隐状态序列在各个位置输出的隐状态进行按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵,应当说明的是,位置是指每个字在待识别文本中的位置,计算式如下:
Figure BDA0003891409170000111
Figure BDA0003891409170000112
Figure BDA0003891409170000113
Figure BDA0003891409170000114
Figure BDA0003891409170000115
分别表示BiLSTM前向和后向两个方向的输出向量,之后将两个方向的向量拼接后乘一个权重矩阵W0,得到预测标签的概率分布矩阵P,其中P∈Rm×n,m为序列长度,n为关键信息类别数量;
D5、通过CRF层获得邻近标签之间的依赖关系,生成一个最优的预测序列。Pij表示第i个字为第j个标签的概率。对于预测序列通过CRF层计算它的分数:
Figure BDA0003891409170000116
其中A为转移分数矩阵,P为发射矩阵,
Figure BDA0003891409170000117
代表标签yi转移为yi+1的分数,
Figure BDA0003891409170000118
表示字符i的第yi个标签的分数;
通过维特比解码所述预测序列的分数得到最大分数的输出序列;所述最大分数的输出序列的表达式为:
Figure BDA0003891409170000119
式中
Figure BDA00038914091700001110
表示真实的标注序列,YX表示所有可能的标签序列,
Figure BDA00038914091700001111
表示对应的预测序列的分数;
D6、根据步骤D5的结果,更新模型参数,包括:
D61、通过Softmax函数计算每一个正确的标签序列Y的最大概率P(Y|X),采用最大似然估计求解P(Y|X)的最大后验概率,
Figure BDA0003891409170000121
Figure BDA0003891409170000122
D61、计算关键信息抽取任务的损失Loss_ner、计算主题分类任务的交叉熵损失Loss_cls
Figure BDA0003891409170000123
Figure BDA0003891409170000124
N为样本数量,
Figure BDA0003891409170000125
为主题分类任务中样本的实际标签的one-hot向量表示,pcls(yi|Xi)为样本的预测标签向量;logP(Yi|Xi)为关键信息抽取任务中样本在CRF层的输出概率,α和β为加权因子;
所述损失值Loss的计算公式为:
Loss=α*Loss_ner+β*Loss_cls。
本发明提出的关键信息抽取模型的训练方法,引入多任务学习机制,采用参数共享的方式构建多任务微调联合学习模型,抽取隐私政策中的关键信息的同时,对段落进行主题分类,实现对隐私政策文本的自动分析。
结合图2,本实施例还提出一种关键信息抽取模型的训练装置,包括:
标注单元,用于对隐私政策文本语义进行标注;
提取单元,用于利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
拼接单元,用于将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
搭建单元,用于搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax函数计算得到主题类别标签的概率分布主题类别标签的概率分布;
分数单元,用于通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
优化单元,用于通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
本实施例还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的关键信息抽取模型的训练方法的步骤。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (10)

1.一种关键信息抽取模型的训练方法,其特征在于,包括以下步骤:
S1、对隐私政策文本语义进行标注;
S2、利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
S3、将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
S4、通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
S5、通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
2.根据权利要求1所述的关键信息抽取模型的训练方法,其特征在于,在步骤S1中,所述标注的信息包括:段落文本序列、文本包含的关键信息标签序列对应的关键信息标签序列以及文本所在段落的位置索引。
3.根据权利要求1所述的关键信息抽取模型的训练方法,其特征在于,在步骤S4之前还包括:搭建分类器,将段落文本的特征表示向量传入全连接层,经过softmax函数计算得到主题类别标签的概率分布主题类别标签的概率分布。
4.根据权利要求3所述的关键信息抽取模型的训练方法,其特征在于,所述段落文本的特征表示向量由以下步骤得到:将语义特征的词向量矩阵、关键信息的嵌入向量、位置信息的嵌入向量进行拼接,得到段落文本的特征表示向量。
5.根据权利要求4所述的关键信息抽取模型的训练方法,其特征在于,所述位置信息的嵌入向量通过对文本所在段落的位置信息编码生成,具体包括:构建段落位置信息词典向量矩阵,对于输入的文本,根据段落行数,通过位置信息编码层查询位置信息词典向量矩阵,获取位置信息向量,计算公式为:
Figure FDA0003891409160000021
hID=ELoc(ID)
其中,idxj表示段落j的索引,K为常数,L为整个文本的段落数量,hID为段落的位置表征。
6.根据权利要求1所述的关键信息抽取模型的训练方法,其特征在于,在步骤S3中,所述标签的概率分布矩阵P的计算公式为:
Figure FDA0003891409160000022
Figure FDA0003891409160000023
Figure FDA0003891409160000024
其中,
Figure FDA0003891409160000025
Figure FDA0003891409160000026
分别表示BiLSTM前向和后向两个方向的输出向量,之后将两个方向的向量拼接后乘权重矩阵W0,得到预测标签的概率分布矩阵P;其中P∈Rm×n,m为序列长度,n为关键信息类别数量。
7.根据权利要求1所述的关键信息抽取模型的训练方法,其特征在于,在步骤S4中,所述最大分数的输出序列的表达式为:
Figure FDA0003891409160000031
式中
Figure FDA0003891409160000032
表示真实的标注序列,YX表示所有可能的标签序列,
Figure FDA0003891409160000033
表示对应的预测序列的分数。
8.根据权利要求1所述的关键信息抽取模型的训练方法,其特征在于,在步骤S5中,每一个正确的标签序列Y的所述最大概率P(Y|X)的最大后验概率的计算式如下:
Figure FDA0003891409160000034
Figure FDA0003891409160000035
所述关键信息抽取任务的损失Loss_ner和所述主题分类任务的交叉熵损失Loss_cls的计算式为:
Figure FDA0003891409160000036
Figure FDA0003891409160000037
N为样本数量,
Figure FDA0003891409160000038
为主题分类任务中样本的实际标签的one-hot向量表示,Pcls(yi|Xi)为样本的预测标签向量;log P(Yi|Xi)为关键信息抽取任务中样本在CRF层的输出概率,α和β为加权因子;
所述损失值Loss的计算公式为:
Loss=α*Loss_ner+β*Loss_cls。
9.一种关键信息抽取模型的训练装置,其特征在于,包括:
标注单元,用于对隐私政策文本语义进行标注;
提取单元,用于利用BERT预训练模型提取文本语义特征,利用BERT预训练模型中的BERT层映射得到文本的向量表征序列;
拼接单元,用于将文本的向量表征序列输入BiLSTM之后,正向LSTM对该序列进行运算,获得第一隐状态序列,反向LSTM对该序列进行运算,获得第二隐状态序列,将所述第一隐状态序列和所述第二隐状态序列在各个位置输出的隐状态按位置拼接后乘一个权重矩阵,得到预测标签的概率分布矩阵;
分数单元,用于通过CRF层获得邻近标签之间的依赖关系,生成预测序列,并通过所述CRF层计算所述预测序列的分数,通过维特比解码所述预测序列的分数得到最大分数的输出序列;
优化单元,用于通过Softmax函数计算每一个正确的标签序列的最大概率,采用最大似然估计求解最大概率的最大后验概率,计算得到关键信息抽取任务的损失和题分类任务的交叉熵损失,将所述关键信息抽取任务的损失和所述题分类任务的交叉熵损失加权计算得到损失值,根据所述损失值优化所述关键信息抽取模型。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的关键信息抽取模型的训练方法的步骤。
CN202211264236.7A 2022-10-14 2022-10-14 一种关键信息抽取模型的训练方法、装置及其存储介质 Pending CN115587184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211264236.7A CN115587184A (zh) 2022-10-14 2022-10-14 一种关键信息抽取模型的训练方法、装置及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211264236.7A CN115587184A (zh) 2022-10-14 2022-10-14 一种关键信息抽取模型的训练方法、装置及其存储介质

Publications (1)

Publication Number Publication Date
CN115587184A true CN115587184A (zh) 2023-01-10

Family

ID=84780139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211264236.7A Pending CN115587184A (zh) 2022-10-14 2022-10-14 一种关键信息抽取模型的训练方法、装置及其存储介质

Country Status (1)

Country Link
CN (1) CN115587184A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473561A (zh) * 2023-12-28 2024-01-30 天津光电聚能通信股份有限公司 基于人工智能的隐私信息识别***、方法、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473561A (zh) * 2023-12-28 2024-01-30 天津光电聚能通信股份有限公司 基于人工智能的隐私信息识别***、方法、设备及介质

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN111639175B (zh) 一种自监督的对话文本摘要方法及***
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
CN109062901B (zh) 神经网络训练方法和装置及命名实体识别方法和装置
CN109190120B (zh) 神经网络训练方法和装置及命名实体识别方法和装置
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及***
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN113255294B (zh) 命名实体识别模型训练方法、识别方法及装置
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN113947095B (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN111680512A (zh) 命名实体识别模型、电话总机转接分机方法及***
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN115587184A (zh) 一种关键信息抽取模型的训练方法、装置及其存储介质
CN113761895A (zh) 文本摘要的生成方法、装置、电子设备及存储介质
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination