CN114238524B - 基于增强样本模型的卫星频轨数据信息抽取方法 - Google Patents
基于增强样本模型的卫星频轨数据信息抽取方法 Download PDFInfo
- Publication number
- CN114238524B CN114238524B CN202111570758.5A CN202111570758A CN114238524B CN 114238524 B CN114238524 B CN 114238524B CN 202111570758 A CN202111570758 A CN 202111570758A CN 114238524 B CN114238524 B CN 114238524B
- Authority
- CN
- China
- Prior art keywords
- entity
- sentence
- data
- satellite
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,包括以下步骤:定义实体类型与关系集合;结构化频轨数据关系抽取阶段,从数据库中选取所需数据信息,匹配出相关实体;将实体对及其关系以三元组表示;非结构化频轨数据关系抽取阶段,将分词后的文本数据进行标注,训练实体识别模型,完成实体识别;增强样本模型,用结构化数据生成文本补充训练语句库,解决长尾问题,利用强化学习分类句袋中正确标签句子和噪声句子;训练分段卷积神经网络模型完成实体关系的分类抽取。本发明充分利用结构化数据和噪声句子,可以高效完成卫星频轨数据的知识抽取,丰富卫星频轨知识库;本发明具有方案灵活性高和关系抽取正确率高的优点。
Description
技术领域
本发明涉及卫星数据处理技术领域,尤其涉及一种基于增强样本模型的卫星频轨数据信息抽取方法。
背景技术
目前,随着航天技术的飞速发展,世界上不同国家往太空中发射了很多卫星,产生了大量的频轨资源数据记录,这些数据中蕴含着很多有用的信息。传统的数据库存储的方法虽然记录着大量的结构化数据,但是其数据信息不够完整,不足以构建一个完整的频轨数据图谱。建立一种频轨图谱知识模型可以直观的展现这些数据之间的关系,可为这些数据的挖掘与利用打下技术基础。网络上有很多有用的非结构化卫星频轨数据,其数据量往往更加庞大,可以作为结构化数据的补充。
如何从非结构化的频轨数据中识别出需要的实体以及其关系,是构建一个完整的频轨数据图谱需要解决的基本问题。对于一个完整的频轨数据图谱的构建,主要包括了命名实体识别和关系抽取两个关键环节。根据对这两个环节任务是否进行统一建模,进行命名实体识别和关系抽取的方法可以分为联合抽取和Pipeline方法。
联合抽取是将两个任务统一建模为一个模型,该种抽取方案可以进一步利用两个任务之间存在的潜在的关联信息,减少错误累计的传播。但是由于两个任务的统一建模,用同样的特征表示进行两项任务,可能会对模型的学习造成误解。如何加强实体模型与关系模型的交互也是一个难题。Pipeline方法先进行命名实体识别,再进行关系抽取,该方案灵活性高,实体模型和关系模型可以分别使用独立的数据集。
对于命名实体识别而言,现有方法分为基于规则的方法、基于统计模型的方法和基于神经网络的方法。基于规则的方法要构建大量的是实体识别规则,与输入字符串进行匹配识别命名实体。这种方法需要专家构建规则,应用时具有一定的限制。基于统计模型的方法将命名实体识别视为序列标注问题,但仍需要人工进行特征的定义。定义的特征对最终的识别结果具有较大的影响。基于神经网络的方法不用人工定义特征,解决了上述问题。并且由于神经网络具有更强的特征表达能力,能充分的学习到实体上下文的特征。
对于卫星频轨实体关系抽取而言,现有方法分为基于模板的关系抽取、基于监督学习的关系抽取和基于远程监督的方法。当数据规模较大时,手工构建模板工作量大。基于监督学习的关系抽取方法,需要大量人工标注的数据,成为其制约因素。基于远程监督的方法避免了人工大量标注数据,但是会引入噪声。现有研究主要考虑选择出一个包含正确标签的句子或者识别并去除噪声,没有考虑到噪声对于模型训练具有的重要意义。同时,基于远程监督的方法存在长尾问题。以上两点导致现有方法训练的关系抽取模型是有偏的,准确度有限。
中国专利CN108304911中提出了一种基于记忆神经网络的知识抽取方法以及***和设备,可用于预定义关系类型的知识抽取任务,能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息;中国专利CN109359297提出了一种关系抽取方法及***,该方法引入关系的层次结构信息构建一套层级结构的注意力机制,提高了关系抽取模型的稳定性。上述专利能够完成知识的抽取,但是以上专利的技术方案所使用的数据均为非结构化数据,未能充分利用已有结构化数据所含有的信息。第一个专利方案需要大量的人工标签,第二个专利方案采用了远程监督的思想,但是均未充分考虑噪声数据的作用,导致知识抽取准确率受限。
发明内容
针对传统卫星数据库数据记录不够完整,数据量不足以建立频轨图谱知识模型的问题,本发明公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,以从非结构化数据中提取出有用的知识信息,作为结构化数据的补充。
本发明公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,其具体步骤包括:
S1,根据卫星频轨数据知识抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;
S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示,其具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合;
S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;
S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体-关系表格中;
S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体-关系表格中匹配得到对应的数据,选出相关实体;
S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;
S34,对每两个实体之间,利用其对应关系,建立三元组集合T;
S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类;
S41,对非结构化卫星频轨数据进行爬取和分词;将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6;使用BIO标注方法为分词后语句标注上述标签,得到训练语句库;
S42,对基于BERT的预训练模型的序列标注层进行微调,即使用全连接层替换BERT的隐含层表示,形成基于BERT的命名实体识别模型;使用训练语句库训练基于BERT的命名实体识别模型;输入层的输入向量v经过多层编码层后,得到非结构化卫星频轨数据中的句子的语义关联表示为h;
S43,序列标注层的输出在BIO标注模式下,分词序列的每个时刻的概率分布Pt的表达式为:
Pt=softmax(htW0+b0),t=1,2,...,N
其中ht表示h在t时刻的分量,W0表示全连接层的权重矩阵,b0表示全连接层的偏置,softmax表示激活函数;
S44,得到分词序列的每个时刻的概率分布后,基于BERT的命名实体识别模型采用交叉熵损失函数,对基于BERT的命名实体识别模型的参数进行训练,以提高该模型的分类预测能力;使用训练完成的模型对分词序列中的每个字进行正确的分类,得到分类结果BIO标签,根据分类结果BIO标签得到完整的实体名称及类型,最终完成卫星频轨数据的实体识别。
S5,根据步骤S4的分类结果,筛选出含有步骤S1中定义的实体类型的句子;在筛选出的句子中,对于包含相同实体类型的实体的句子,把这些句子打包作为一个句袋,并把这些句子中实体之间的实体关系标记为句袋标签;
S6,利用步骤S3中抽取的实体类型及其关系,对步骤S5中句袋数据进行补充,增加句袋数量,对不同实体关系下的句袋数量进行均衡;
所述的步骤S6,其具体包括:
S61,计算每个实体关系下句袋数量,找出所有实体关系下句袋数量的中位值;
S62,对于句袋数量小于中位值的实体关系,增加该实体关系下的句袋数量;把需要增加句袋数量的实体关系的现有句袋中句子包含的实体删除,再在这些句袋中的删除位置填入步骤S3所抽取的该实体类型的对应数据,作为该实体关系下新的句袋,从而增加句袋数量小于中位值的实体关系下的句袋数量,达到不同实体关系下句袋数量的均衡。
S7,构建实体关系抽取模型,首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选,然后利用正确标签句子和噪声句子训练实体关系抽取模型;实体关系抽取模型通过分段卷积神经网络来实现;
所述的步骤S7,其具体步骤包括:
S71,如果句袋中句子所包含的实体之间的关系就是该句袋的句袋标签,定义该句子是正确标签句子;如果句袋中句子所包含的实体之间的关系不是该句袋的句袋标签,定义该句子是噪声句子;将句袋中的句子及句袋标签作为强化学习算法的输入;
S72,设定强化学习算法的智能体为正确标签句子或噪声句子的筛选器,设定智能体对第i个句子的动作Ai包括两种,第一种为判定该句子为正确标签句子,标记该句子为1,第二种为判定该句子为噪声句子,标记该句子为-1;其中,i为输入句袋中句子的序号,Ai∈{1,-1},Ai的动作选择策略函数的表达式为:
其中,π(Ai|Si;θ)表示状态Si下选择动作Ai的概率,Si表示第i次选择时智能体的状态,θ表示智能体的待学习参数,σ(·)表示sigmoid函数,W,b分别表示待学习的权值矩阵和偏置;
S73,定义智能体的状态S表示为由已选的关系标签正确的句子的向量表示的平均值、已选的噪声句子的向量表示平均值、当前句子的向量表示和当前句子对应实体对的向量表示拼接而成的向量;
S74,智能体对句袋中的每个句子做出相应动作后,根据所做动作得到相应的奖励,将智能体在做出最后一个动作之前的动作的奖励值设置为0,最后一个智能体动作的奖励设定为:
其中,B表示某一个句袋;Bsel+为当前标签正确的句子集合,r+为标签正确的句子对应的关系;Bsel-当前噪声句子集合,r-表示没有关系,即NA关系;|·|表示该集合中所包含的句子总数,xj表示句子集合中的第j个句子;
S75,强化学习算法的优化目标是最大化智能体得到的总奖励的期望值,根据该优化目标,构建优化函数为:
S76,根据句子中每个词离实体的文字距离,对句子文本进行位置编码,得到句子文本的位置编码;
S77,对句子中的词使用word2vec工具得到其词向量,然后将位置编码和词向量拼接,得到实体关系抽取模型的输入矩阵,通过卷积操作提取句子特征,卷积操作的公式为:
cij=wiqj-m+1:j,1≤i≤n
其中,wi表示实体关系抽取模型的第i个卷积核的向量,n表示卷积核数,m表示卷积核长度,j表示输入矩阵的行索引值,qi:j表示从该输入矩阵的第i行到第j行元素构成的矩阵,cij表示第i个卷积核对输入矩阵的第j-m+1行到第j行的元素构成的矩阵进行卷积操作后得到的结果,将所有卷积操作的结果构成的向量,根据输入矩阵中实体对应的向量所在的行序号,将该结果向量分为若个部分,然后分段进行最大化池化,得到分段池化的结果向量;
S78,对分段池化后得到的结果向量进行拼接,将拼接结果送到实体关系抽取模型的softmax层,其输出为所有关系类别的概率,关系类别包括定义的六种实体关系以及没有关系(NA类)共七类,最大概率的对应关系类别是最终抽取得到的卫星频轨数据的实体的关系分类结果。
S8,将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型,得到句子中实体的正确关系分类结果,完成卫星频轨数据命名实体的关系抽取。
S9,非结构化数据中抽取的实体及其关系用三元组表示,比较该三元组与三元组集合T中数据,若三元组集合T中已存在该三元组的数据,则不添加该三元组的数据;若三元组集合T中不存在该三元组的数据,则将该抽取出的实体及其关系三元组数据加入到集合T中,实现以三元组形式表示的结构化卫星频轨数据集的扩充。
本发明的有益效果为:
本发明实现了一种基于增强样本模型的卫星频轨数据信息抽取方法,可以方便的完成卫星频轨数据的关系抽取,丰富卫星频轨知识库。本发明采用Pipeline的方式,方案灵活性高。本发明充分使用已有结构化数据,解决了数据长尾问题,提高了关系抽取的正确率。
附图说明
图1为本发明的基于增强样本模型的卫星频轨数据信息抽取方法实现流程;
图2为本发明中BIO标注模式标注文本示例;
图3为本发明中的基于BERT的命名实体识别模型的组成示意图。
具体实施方式
为了更好的了解本发明内容,这里给出两个实施例。
下面结合附图,对本发明进行详细描述。
针对传统远程监督引入的噪声问题与数据长尾问题,本发明公开了一种基于强化学习的远程监督卫星频轨数据关系抽取技术方案。该方案有以下特点:1.使用强化学习的方式识别出正确标签句子和噪声句子,把噪声作为训练数据的一部分训练关系抽取模型;2.引入结构化数据,根据需要补充数据的句袋类别的文本生成对应类的语料,补充非结构化训练数据集,解决语料非均衡的长尾问题。卫星频轨数据是指卫星频率轨道数据。
实施例1:
本发明公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,其实现流程如图1所示,其基本步骤包括:
101、定义实体类型与实体间关系集合;
102、从SRS数据库数据抽取预定义类型的实体及其关系,建立三元组集合T;
103、BIO标注非结构化文本数据,训练序列标注预测模型,完成卫星频轨命名实体识别;
104、包含相同实体对的句子组成一个句袋,其对应实体对类型的关系标记为句袋标签,利用结构化数据生成语料补充非结构化数据,均衡数据;
105、选出包中正确类别和噪声类别,训练关系分类模型;
106、将抽取的非结构化数据中实体及其关系,用三元组表示,与集合T融合。
本方法的具体步骤包括:
S1,根据卫星频轨数据知识抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;
S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示,其具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合;
S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;
S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体-关系表格中;
S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体-关系表格中匹配得到对应的数据,选出相关实体;
S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;
S34,对每两个实体之间,利用其对应关系,建立三元组集合T;
S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;
S41,对非结构化卫星频轨数据进行爬取和分词;将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6;使用BIO标注方法为分词后语句标注上述标签,得到训练语句库;
S42,对基于BERT的预训练模型的序列标注层进行微调,即使用全连接层替换BERT的隐含层表示,形成基于BERT的命名实体识别模型;使用训练语句库训练基于BERT的命名实体识别模型;输入层的输入向量v经过多层编码层后,得到非结构化卫星频轨数据中的句子的语义关联表示为h;
S43,序列标注层的输出在BIO标注模式下,分词序列的每个时刻的概率分布Pt的表达式为:
Pt=softmax(htW0+b0),t=1,2,...,N
其中ht表示h在t时刻的分量,W0表示全连接层的权重矩阵,b0表示全连接层的偏置,softmax表示激活函数;
S44,得到分词序列的每个时刻的概率分布后,基于BERT的命名实体识别模型采用交叉熵损失函数,对基于BERT的命名实体识别模型的参数进行训练,以提高该模型的分类预测能力;使用训练完成的模型对分词序列中的每个字进行正确的分类,得到分类结果BIO标签,根据分类结果BIO标签得到完整的实体名称及类型,最终完成卫星频轨数据的实体识别。
S5,根据步骤S44的分类结果,筛选出含有步骤S1中定义的实体类型的句子;在筛选出的句子中,对于包含相同实体类型的实体的句子,把这些句子打包作为一个句袋,并把这些句子中实体之间的实体关系标记为句袋标签;
S6,利用步骤S3中抽取的实体类型及其关系,对步骤S5中句袋数据进行补充,增加句袋数量,对不同实体关系下的句袋数量进行均衡,解决数据集长尾问题引起的实体关系抽取模型的有偏性;
所述的步骤S6,其具体包括:
S61,计算每个实体关系下句袋数量,找出所有实体关系下句袋数量的中位值;
S62,对于句袋数量小于中位值的实体关系,增加该实体关系下的句袋数量;把需要增加句袋数量的实体关系的现有句袋中句子包含的实体删除,再在这些句袋中的删除位置填入步骤S3所抽取的该实体类型的对应数据,作为该实体关系下新的句袋,从而增加句袋数量小于中位值的实体关系下的句袋数量,达到不同关系类别下数据量的均衡。
S7,构建实体关系抽取模型,首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选,然后利用正确标签句子和噪声句子训练实体关系抽取模型;实体关系抽取模型通过分段卷积神经网络来实现;
所述的步骤S7,其具体步骤包括:
S71,如果句袋中句子所包含的实体之间的关系就是该句袋的句袋标签,定义该句子是正确标签句子;如果句袋中句子所包含的实体之间的关系不是该句袋的句袋标签,定义该句子是噪声句子;将句袋中的句子及句袋标签作为强化学习算法的输入;
S72,设定强化学习算法的智能体为正确标签句子或噪声句子的筛选器,设定智能体对第i个句子的动作Ai包括两种,第一种为判定该句子为正确标签句子,标记该句子为1,第二种为判定该句子为噪声句子,标记该句子为-1;其中,i为输入句袋中句子的序号,Ai∈{1,-1},Ai的动作选择策略函数的表达式为:
其中,π(Ai|Si;θ)表示状态Si下选择动作Ai的概率,Si表示第i次选择时智能体的状态,θ表示智能体的待学习参数,σ(·)表示sigmoid函数,W,b分别表示待学习的权值矩阵和偏置;
S73,定义智能体的状态S表示为由已选的关系标签正确的句子的向量表示的平均值、已选的噪声句子的向量表示平均值、当前句子的向量表示和当前句子对应实体对的向量表示拼接而成的向量;
S74,智能体对句袋中的每个句子做出相应动作后,根据所做动作得到相应的奖励,将智能体在做出最后一个动作之前的动作的奖励值设置为0,最后一个智能体动作的奖励设定为:
其中,B表示某一个句袋;Bsel+为当前标签正确的句子集合,r+为标签正确的句子对应的关系;Bsel-当前噪声句子集合,r-表示没有关系,即NA关系;|·|表示该集合中所包含的句子总数;
S75,强化学习算法的优化目标是最大化智能体得到的总奖励的期望值,根据该优化目标,构建优化函数为:
S76,根据句子中每个词离实体的文字距离,对句子文本进行位置编码,得到句子文本的位置编码;
S77,对句子中的词使用word2vec工具得到其词向量,然后将位置编码和词向量拼接,得到实体关系抽取模型的输入矩阵,通过卷积操作提取句子特征,卷积操作的公式为:
cij=wiqj-m+1:j,1≤i≤n
其中,wi表示实体关系抽取模型的第i个卷积核的向量,n表示卷积核数,m表示卷积核长度,j表示输入矩阵的行索引值,qi:j表示从该输入矩阵的第i行到第j行元素构成的矩阵,cij表示第i个卷积核对输入矩阵的第j-m+1行到第j行的元素构成的矩阵进行卷积操作后得到的结果,将所有卷积操作的结果构成的向量,根据输入矩阵中实体对应的向量所在的行序号,将该结果向量分为三个部分[ci1,ci2,ci3],然后分段进行最大化池化,得到分段池化的结果向量,
pij=max(cij)1≤i≤n,1≤j≤3,
其中,pij表示最大池化后的结果;
S78,对分段池化后得到的结果向量进行拼接,将拼接结果送到实体关系抽取模型的softmax层,其输出为所有关系类别的概率,关系类别包括定义的六种实体关系以及没有关系(NA类)共七类,最大概率的对应关系类别是最终抽取得到的卫星频轨数据的实体的关系分类结果。
S8,将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型,得到句子中实体的正确关系分类结果,完成卫星频轨数据命名实体的关系抽取。
S9,非结构化数据中抽取的实体及其关系用三元组表示,比较该三元组与三元组集合T中数据,若三元组集合T中已存在该三元组的数据,则不添加该三元组的数据;若三元组集合T中不存在该三元组的数据,则将该抽取出的实体及其关系三元组数据加入到集合T中,实现以三元组形式表示的结构化卫星频轨数据集的扩充。
实施例2:
如图1所示,本发明描述了一种卫星频轨信息抽取方法,其具体步骤如下:
S1,定义实体类型,根据任务需求,定义六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;
S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义的实体间关系包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)、(主管部门,拥有网络,卫星网络ID);
S3,结构化卫星频轨数据知识抽取,主要包括结构化数据预处理、实体识别、实体关系抽取;
S3-1,数据预处理是按照预定义的实体类型,从SRS数据库中选出对应实体类型数据,存入Excel文档中;
S3-2,频轨数据实体识别方法具体而言是首先针对定义的实体类型及其属性,从上述Excel中匹配出对应的行和列数据,选出相关实体节点;
S3-3,实体关系抽取方法是将从数据库中选出的实体节点,根据其所在的对应列表示的实体类型和步骤S2中定义的关系集合,匹配对应实体之间的关系;
S3-4,对每个实体对,利用其对应关系,建立三元组集合T;
S4,非结构化卫星频轨数据知识抽取阶段,首先进行非结构化文本数据的爬取,分词后,用BIO标注方法对爬取分词后的数据进行标注,将标注后的文本作为训练语句库,利用训练语句库训练基于BERT的命名实体识别模型,最终完成卫星频轨数据命名实体识别:
S4-1,首先爬取关于卫星频轨知识的非结构化数据并进行分词;将定义命名实体的类别“卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段”分别标记为A1、A2、A3、A4、A5、A6六类;使用BIO标注方法为训练数据集中语句标注标签,作为我们的训练语句库,如图2所示;
S4-2,BERT预训练模型可以学习到文本的语义关联,通过模型微调适应实体识别任务。整体结构包括输入层、编码层、序列标注层;使用自建训练语句库进行训练;输入层表示v为输入词向量、块向量、位置向量叠加;v经过多层Transformer,学习得到句子的语义关联表示为h;
S4-3,序列标注层输出在BIO标注方法下,输入序列的每个时刻的概率分布Pt;
Pt=softmax(htW0+b0),t=1,2,...,N
其中ht表示h在t时刻的分量,W0表示全连接的权重,b0表示全连接层的偏置;
S4-4,得到每个字对应的分类概率分布后,通过交叉熵损失函数学习模型参数,提高模型分类预测能力;训练好的模型可以将每个字完成正确的分类,根据分类的结果BIO标签可得到完整的实体名称及类型;最终达到卫星频轨数据命名实体识别的目标。
图3为本发明中的基于BERT的命名实体识别模型的组成示意图。
S5,选择含有预定义实体类型的句子,并将含有相同的命名实体对的句子打包作为一个句袋,并把其对应实体对类型的关系标记为句袋标签。
S6,利用S3中抽取的实体及其关系知识补充S5中句袋数据,增加句袋数量,均衡数据,解决数据集长尾问题引起的模型的有偏性,具体步骤如下:
S6-1,计算每个关系类别下句袋数量,找出数量的中位值;
S6-2,对于句袋数量小于中位值的关系类别,增加该关系类别下的句袋数量;对需要增加句袋数量的关系,按照其已有句袋中文本实***置填入S3中抽取的该类关系的实体,达到不同关系类别下数据量的均衡。
S7,利用强化学习实现句袋中噪声句子和正确标签句子的筛选,利用正确标签句子和噪声句子同时训练分段卷积神经网络,降低远程监督引起的噪声的影响,增加实体关系抽取模型的准确性,具体步骤如下:
S7-1,句袋中句子中实际实体关系与句袋标签不同的,定义为噪声句子;反之定义为正确标签数据,将句袋中的句子及句袋关系标签输入到强化学习算法;
S7-2,设定智能体为正确标签句子或噪声句子筛选器,智能体的动作Ai包括两种,第一种为判定该句子的关系标签正确,标记该句子为1,第二种为判定该句子的关系标签不正确,认为其为噪声句子,标记该句为-1;其中,i为输入句袋中句子的序号,Ai∈{1,-1},Ai的动作选择策略函数πθ为:
其中,σ(·)表示sigmoid函数,其参数为(W,b);
S7-3,定义智能体的状态S表示为:已选正确标签句子的向量平均、已选噪声句子向量平均、当前句子向量表示、对应实体对向量拼接而成的向量S7-4,智能体对每个句袋中句子均做出动作后,才会得到奖励;智能体之前动作的奖励值为0,最后一个动作的奖励设定为:
其中,B表示某一个句袋;Bsel+为当前正确标签句子集合,r+为标签正确的句子对应的关系;Bsel-为当前噪声句子集合,r-为NA关系;|·|表示该集合句子总数;该奖励设定综合考虑了正确标签句子和噪声句子的影响,能够更有效地指导模型训练;
S7-5,强化学习算法的优化目标是最大化智能体得到的总奖励的期望值,根据该优化目标,优化函数定义为:
S7-6,根据句子中每个词离实体的距离,对文本数据进行位置编码,如句子“风云四号01星的轨位为东经99.5度”的实体为风云四号01星和东经99.5度;则该句文本的位置编码为:[0,1,2,3,4]和[-4,-3,-2,-1,0];
S7-7,对句子中的词使用word2vec得到词向量,然后将位置编码和词向量拼接,通过卷积提取特征;卷积操作公式为:
cij=wiqj-m+1:j 1≤i≤n
其中,w表示卷积核,n表示卷积核数,m表示卷积核长度,j表示输入向量的行索引,qi:j表示从序列qi到qj的元素,cij表示卷积后的结果。将卷积后的结果分为三个部分[ci1,ci2,ci3],然后进行分段池化;
pij=max(cij)1≤i≤n,1≤j≤3
S7-8,池化后的向量拼接后送到softmax层,该层输出为所有关系类别的概率,包括预定义的六种关系以及没有关系(NA类)共七类,对应最大概率的类别是最终抽取的卫星频轨数据实体的关系分类。
S8,将S4得到的命名实体信息及其对应的句子输入到S7训练的关系抽取模型,得到其正确的关系分类,完成卫星频轨数据命名实体的关系抽取。
S9,对于新抽取出的实体及其关系三元组,比较其与三元组集合T中数据,若原集合有该三元组,则不添加;若原有集合没有该三元组,则将该三元组加入到集合T中,实现以三元组形式表示的结构化数据集的扩充。
前述内容仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (6)
1.一种基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,其具体步骤包括:
S1,根据卫星频轨数据信息抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;
S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示;
S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;
S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类;
S5,根据步骤S4的分类结果,筛选出含有步骤S1中定义的实体类型的句子;在筛选出的句子中,对于包含相同实体类型的实体的句子,把这些句子打包作为一个句袋,并把这些句子中实体之间的实体关系标记为句袋标签;
S6,利用步骤S3中抽取的实体类型及其关系,对步骤S5中句袋数据进行补充,增加句袋数量,对不同实体关系下的句袋数量进行均衡;
S7,构建实体关系抽取模型,首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选,然后利用正确标签句子和噪声句子训练实体关系抽取模型;
S8,将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型,得到句子中实体的正确关系分类结果,完成卫星频轨数据命名实体的关系抽取;
S9,非结构化数据中抽取的实体及其关系用三元组表示,比较该三元组与三元组集合T中数据,若三元组集合T中已存在该三元组的数据,则不添加该三元组的数据;若三元组集合T中不存在该三元组的数据,则将该抽取出的实体及其关系三元组数据加入到集合T中,实现以三元组形式表示的结构化卫星频轨数据集的扩充。
2.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体与实体间关系具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合。
3.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体关系抽取模型通过分段卷积神经网络来实现。
4.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,
所述的步骤S3,其具体包括:
S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体-关系表格中;
S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体-关系表格中匹配得到对应的数据,选出相关实体;
S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;
S34,对每两个实体之间,利用其对应关系,建立三元组集合T。
5.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,
所述的步骤S4,其具体包括:
S41,对非结构化卫星频轨数据进行爬取和分词;将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6;使用BIO标注方法为分词后语句标注上述标签,得到训练语句库;
S42,对基于BERT的预训练模型的序列标注层进行微调,即使用全连接层替换BERT的隐含层表示,形成基于BERT的命名实体识别模型;使用训练语句库训练基于BERT的命名实体识别模型;输入层的输入向量v经过多层编码层后,得到非结构化卫星频轨数据中的句子的语义关联表示为h;
S43,序列标注层的输出在BIO标注模式下,分词序列的每个时刻的概率分布Pt的表达式为:
Pt=softmax(htW0+b0),t=1,2,...,N
其中ht表示h在t时刻的分量,W0表示全连接层的权重矩阵,b0表示全连接层的偏置,softmax表示激活函数;
S44,得到分词序列的每个时刻的概率分布后,基于BERT的命名实体识别模型采用交叉熵损失函数,对基于BERT的命名实体识别模型的参数进行训练,以提高该模型的分类预测能力;使用训练完成的模型对分词序列中的每个字进行正确的分类,得到分类结果BIO标签,根据分类结果BIO标签得到完整的实体名称及类型,最终完成卫星频轨数据的实体识别。
6.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,
所述的步骤S6,其具体包括:
S61,计算每个实体关系下句袋数量,找出所有实体关系下句袋数量的中位值;
S62,对于句袋数量小于中位值的实体关系,增加该实体关系下的句袋数量;把需要增加句袋数量的实体关系的现有句袋中句子包含的实体删除,再在这些句袋中的删除位置填入步骤S3所抽取的该实体类型的对应数据,作为该实体关系下新的句袋,从而增加句袋数量小于中位值的实体关系下的句袋数量,达到不同实体关系下句袋数量的均衡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111570758.5A CN114238524B (zh) | 2021-12-21 | 2021-12-21 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111570758.5A CN114238524B (zh) | 2021-12-21 | 2021-12-21 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238524A CN114238524A (zh) | 2022-03-25 |
CN114238524B true CN114238524B (zh) | 2022-05-31 |
Family
ID=80760213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111570758.5A Active CN114238524B (zh) | 2021-12-21 | 2021-12-21 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238524B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625880B (zh) * | 2022-05-13 | 2022-08-19 | 上海帜讯信息技术股份有限公司 | 人物关系抽取方法、装置、终端及存储介质 |
CN116384385B (zh) * | 2023-04-14 | 2023-09-26 | 中国人民解放军军事科学院***工程研究院 | 一种基于动态集成学习的卫星频轨实体关系抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124561A (zh) * | 2003-12-08 | 2008-02-13 | Divx公司 | 多媒体分发*** |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和*** |
CN110807069A (zh) * | 2019-10-23 | 2020-02-18 | 华侨大学 | 一种基于强化学习算法的实体关系联合抽取模型构建方法 |
CN111241294A (zh) * | 2019-12-31 | 2020-06-05 | 中国地质大学(武汉) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815339B (zh) * | 2019-01-02 | 2022-02-08 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN109992629B (zh) * | 2019-02-28 | 2021-08-06 | 中国科学院计算技术研究所 | 一种融合实体类型约束的神经网络关系抽取方法及*** |
CN111291554B (zh) * | 2020-02-27 | 2024-01-12 | 京东方科技集团股份有限公司 | 标注方法、关系抽取方法、存储介质和运算装置 |
CN111428036B (zh) * | 2020-03-23 | 2022-05-27 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN111859912B (zh) * | 2020-07-28 | 2021-10-01 | 广西师范大学 | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 |
CN111914558B (zh) * | 2020-07-31 | 2024-04-16 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及*** |
CN112084790B (zh) * | 2020-09-24 | 2022-07-05 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及*** |
CN112347268B (zh) * | 2020-11-06 | 2024-03-19 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN113591478B (zh) * | 2021-06-08 | 2023-04-18 | 电子科技大学 | 一种基于深度强化学习的远程监督文本实体关系抽取方法 |
CN113392216B (zh) * | 2021-06-23 | 2022-06-17 | 武汉大学 | 基于一致性文本增强的远程监督关系抽取方法及装置 |
-
2021
- 2021-12-21 CN CN202111570758.5A patent/CN114238524B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124561A (zh) * | 2003-12-08 | 2008-02-13 | Divx公司 | 多媒体分发*** |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和*** |
CN110807069A (zh) * | 2019-10-23 | 2020-02-18 | 华侨大学 | 一种基于强化学习算法的实体关系联合抽取模型构建方法 |
CN111241294A (zh) * | 2019-12-31 | 2020-06-05 | 中国地质大学(武汉) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于远程监督的藏文实体关系抽取;王丽客等;《中文信息学报》;20200315(第03期);72-79 * |
Also Published As
Publication number | Publication date |
---|---|
CN114238524A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN112559766B (zh) | 一种法律知识图谱构建*** | |
CN111522965A (zh) | 一种基于迁移学习的实体关系抽取的问答方法及*** | |
CN113255321B (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空***知识图谱构建方法 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN114065702A (zh) | 一种融合实体关系和事件要素的事件检测方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及*** | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN113962224A (zh) | 命名实体识别方法及其装置、设备、介质、产品 | |
CN115470232A (zh) | 模型训练和数据查询方法、装置、电子设备和存储介质 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN112966057A (zh) | 知识图谱构建方法、***、信息处理***、终端及介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN115859989A (zh) | 基于远程监督的实体识别方法及*** | |
CN116226371A (zh) | 一种数字经济专利分类方法 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN115423105A (zh) | 一种预训练语言模型构建方法、***及装置 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |