CN116991983B - 一种面向公司资讯文本的事件抽取方法及*** - Google Patents
一种面向公司资讯文本的事件抽取方法及*** Download PDFInfo
- Publication number
- CN116991983B CN116991983B CN202311259460.1A CN202311259460A CN116991983B CN 116991983 B CN116991983 B CN 116991983B CN 202311259460 A CN202311259460 A CN 202311259460A CN 116991983 B CN116991983 B CN 116991983B
- Authority
- CN
- China
- Prior art keywords
- company name
- text
- event
- company
- information text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 55
- 238000002372 labelling Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012886 linear function Methods 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000009223 counseling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 239000010410 layer Substances 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向公司资讯文本的事件抽取方法及***,该发明在面向公司资讯文本的事件抽取任务中,面对噪声公司名对模型性能干扰的难题,提出一种新的标注规则,将噪声公司名纳入实体识别的标注体系中,并设定噪声公司名对应的事件类别;将需要同时抽取公司名字段和判定公司名对应事件类型的噪音难题转换为简单的分类问题,极大地缓解了模型的压力,降低了任务的难度;并构建一种公司名及事件类型的两阶段抽取模型,提高了模型抽取公司名字段和判定公司名对应事件类别的精度。
Description
技术领域
本发明涉及自然语言处理、金融两个交叉领域,具体是一种面向公司资讯文本的事件抽取方法及***。
背景技术
面向公司资讯文本的事件抽取的任务模式是:从给定资讯文本中抽取出某某公司(事件主体)发生了什么事(事件类型);然而该任务给定的文本中常常存在噪声公司名,即该公司名字段在给定的文本中仅被提及或出现在文本中,而未发生任何事情,在该任务常用的标注体系中,该部分公司名是不被标注的,且面向该任务的模型结构也常常收到该部分噪声公司名的影响;目前,该任务的模型结构主要分为两种:1、两段式抽取,先抽取文本中的公司名字段,在判定该公司名在文本中发生了什么事情;该任务模式中公司名字段抽取时不仅需要准确抽取文本中的公司名字段,还要判断该公司名字段在上下文中是否发生了标注体系中设定的事件类型,使得模型识别和抽取的精度较低,尤其在少样本的情况下无法达到令人满意的应用性能;2、联合抽取,同时抽取文本中的公司名字段并判断该公司名在给定文本中发生的事件类型,一定程度上,模型对事件类型的判断给予了公司名抽取任务一定的信息,有助于模型判断文本中待抽取的公司名字段在给定文本中是否发生了设定的事件类型,然而,该模型结构并没有并源头上解决文本中公司名噪声的难题,该部分噪音仍对模型存在大量的干扰。因此,关于如何优化和缓解给定文本中未发生设定事件类型的公司名字段噪声对模型性能的干扰的技术难题是亟需解决的。
发明内容
针对现有技术的不足,本发明的目的在于提供一种面向公司资讯文本的事件抽取方法及***。
本发明解决其技术问题所采用的技术方案是:
一种面向公司资讯文本的事件抽取方法,包括以下步骤:
(1)获取面向公司的资讯文本,构建资讯文本的语料库;清洗并预处理语料库中资讯文本;
(2)按照预设的规则对清洗后的资讯文本进行标注;对标注后的资讯文本进行文本向量化及标签数字化的操作;
(3)构建公司名及事件类型的两阶段事件抽取模型并训练,使用训练好的模型抽取公司名及对应的事件类型;
(4)最后筛选并输出抽取出的公司名及对应的事件类型;
具体地,所述步骤(1)中清洗并预处理语料库中资讯文本具体为:依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作。
进一步地,所述步骤(2)中按照预设的规则对清洗后的资讯文本进行标注,包括如下子步骤:
(2.1)标注出资讯文本中所有的公司名及其简称的字段[com1,com2,com3,…];
(2.2)按照预设的事件类型[EventType1,EventType2,EventType3,…,EventTypen,None,Out],标注出公司名字段在给定资讯文本中发生的所有事件类型,[EventType1,EventType2,EventType3,…,EventTypen]表示待抽取的事件类型,n表示一共有n种事件类型,None表示公司名字段在给定的资讯文本中没有发生任何事情,Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型。
进一步地,所述步骤(2.1)中标注出资讯文本中所有的公司名及其简称的字段的具体为:
(2.1.1)获取公司名强标注的开源数据集,并以CLUENER细粒度命名实体识别数据集,并单独筛选出数据集中包含公司名标注的样本;所述强标注是指样本上的标注的正确率大于98%;
(2.1.2)构建BERT+Softmax公司名实体抽取模型并训练,使用训练好的公司名实体抽取模型自动标注资讯文本;
(2.1.3)获取开源公司名词表,使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注;
(2.1.4)最后进行人工验证,检查并改正错误标注的公司名字段,对未标注出的公司名字段进行补充标注。
进一步地,所述步骤(2)中对标注后的资讯文本进行文本向量化及标签数字化的操作,具体为:将输入的资讯文本Ti进行向量化得到Xi=[xi1,xi2,xi3,...];使用BIO编码规则对公司名在描述文本中位置进行编码得到Tagi,使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[comi1,comi2,comi3,...comik]相对于资讯文本Ti的遮掩向量生成每个事件主体对应的事件类别标签Labi=[labi1,labi2,labi3...,labik],k表示咨询文本Ti中共存在k个公司名字段,每个公司名字段comij存在对应的遮掩向量mij和事件类别标签labij。
进一步地,所述步骤(3)中构建公司名及事件类型的两阶段事件抽取模型并训练,具体为:将资讯文本的向量化表示Xi输入预训练模型BERT1得到资讯文本的语义表示Xembed,i,1;将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值Ptag,i,使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值losscom,进行反向传播和参数优化后得到训练好的公司名预测模型;将资讯文本的向量化表示Xi输入预训练模型BERT2得到资讯文本的语义表示Xembed,i,2;遍历每个资讯文本的遮掩向量mij,使用遮掩向量mij筛选文本i中公司名j对应的表征向量Xembed,ij,并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布ptype,ij,使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值losstype,进行反向传播和模型参数优化得到训练好的事件类型预测模型。
进一步地,所述步骤(3)中使用训练好的模型抽取公司名及对应的事件类型,具体为:依据构建公司名及事件类型的两阶段事件抽取模型并训练能够得到输入资讯文本中的字符是否为公司名字段的概率值Pta,g,并依此抽取出输入资讯文本中的公司名字段[comi1,comi2,comi3,...comik];使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik];按照构建公司名及事件类型的两阶段事件抽取模型并训练中得到每个公司名字段在资讯文本中发生不同事件的概率分布ptype,ij,并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型,若某个公司名字段发生的事件类型为空,即概率分布ptype,ij中每个类别的概率均小于0.5,则选取概率值最大的事件类型为预测出的事件类型。
进一步地,所述步骤(4)所述的筛选并输出模型抽取的公司名及事件类型,具体为:判定公司名对应的事件类型是否包含Out和None,若包含,则删除该事件类型,若删除后该公司名对应的事件类型不为空,则输出该公司名及其对应的事件类型,若为空,则删除该公司名及其对应的事件类型。
本发明的另一个方面:一种面向公司资讯文本的事件抽取***,包括:文本数据库模块、文本预处理模块、文本标注模块、文本建模模块及输出模块;
文本数据库模块:获取面向公司的资讯文本并存储;所述文本预处理模块用于清洗并预处理语料库中资讯文本;
文本标注模块:按照预设的规则对清洗后的资讯文本进行标注;
文本建模模块:用于文本向量化和标签数字化的操作,并构建公司名及事件类型的联合抽取模型和训练;
输出模块:用于输出模型抽取的公司名及事件类型;
一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如所述的面向公司资讯文本的事件抽取方法。
本发明的有益效果是:
1、本发明提出的面向公司资讯文本地事件抽取方法中,面对噪声公司名对模型的干扰问题,提出一种新的标注规则,将噪声公司名纳入实体识别的标注规则中,并附上对应的噪声公司名的标签,将需要同时判定公司名类型和公司名边界的公司名抽取噪音转换为简单的分类问题,极大地缓解了模型地压力,降低了任务地难度,提高了识别和抽取地精度;
2、本发明提出的面向公司资讯文本地事件抽取方法中,提出了一种三段式标注方法,依次进行深度学习模型自动标注,外部词表自动标注,人工标注与纠错地流程,将机器学习的方法充分地利用在标注任务中,缓解了标注人员的工作量和压力,提高了标注的精确度。
3、本发明提出的面向公司资讯文本地事件抽取方法中,面对提出的标注规则,采用一种公司名及事件类型的两阶段事件抽取模型,提高了面向公司资讯文本中事件抽取的精确度。
附图说明
图1一种面向公司资讯文本的事件抽取方法;
图2一种面向公司资讯文本的事件抽取方法中资讯文本的标注流程图;
图3一种面向公司资讯文本的事件抽取方法中模型结构及训练流程图;
图4一种面向公司资讯文本的事件抽取***流程图;
图5为本发明的电子设备示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
下面根据附图进一步地对本发明进行说明:
实施例1
参考图1,一种面向公司资讯文本的事件抽取方法,包括以下步骤:
步骤S1:获取面向公司的资讯文本,构建资讯文本的语料库;
步骤S2:清洗并预处理语料库中资讯文本;
步骤S3:按照预设的规则对清洗后的资讯文本进行标注;
步骤S4:对标注后的资讯文本进行文本向量化及标签数字化的操作;
步骤S5:构建公司名及事件类型的两阶段事件抽取模型并训练,使用训练好的模型抽取公司名及对应的事件类型;
步骤S6:筛选并输出模型抽取的公司名及事件类型
进一步地,所述步骤S2主要包括:依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作;
进一步地,所述步骤S3包括以下步骤:
步骤S31:标注出资讯文本中所有的公司名及其简称的字段[com1,com2,com3,…];按照预设的事件类型[EventType1,EventType2,EventType3,…,EventTypen,None,Out],标注出公司名字段在给定资讯文本中发生的所有事件类型,[EventType1,EventType2,EventType3,…,EventTypen]表示待抽取的事件类型,n表示一共有n种事件类型,None表示公司名字段在给定的资讯文本中没有发生任何事情,Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型;
步骤S32:以实例文本“A公司今日快讯:某人出任某部门总裁,从B公司离职;若干股东某富控股拟减持不超6%股份。”为例,标注出的公司名字段为“A公司”、“某部门”、“B公司”、“若干”、“某富控股”,A公司某部门B公司A公司某部门B公司其事件类型分别为None、高层变更、Out、股东减持、Out;
进一步地,参考图2,所述步骤S31中标注出资讯文本中所有的公司名及其简称的字段[com1,com2,com3,…]具体包括以下步骤:
步骤S311:获取公司名强标注的开源数据集,构建BERT+Softmax公司名实体抽取模型并训练,使用构建的公司名实体抽取模型自动标注资讯文本;
步骤S312:获取开源公司名词表,使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注;
步骤S313:最后进行人工验证,并改正错误标注的公司名字段;
进一步地,所述步骤S4主要包括:
S41:将输入的资讯文本Ti进行向量化得到Xi=[xi1,xi2,xi3,...];使用BIO编码规则对公司名在描述文本中位置进行编码得到Tagi;使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[comi1,comi2,comi3,...comik]相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik];生成每个事件主体对应的事件类别标签Labi=[labi1,labi2,labi3...,labik],k表示咨询文本Ti中共存在k个公司名字段,每个公司名字段comij存在对应的遮掩向量mij和事件类别标签labij;
S42:以实例文本“A公司今日快讯:某人出任某部门总裁,从B公司离职;若干股东某富控股拟减持不超6%股份。”为例,文本向量化后得到长度为46的一维向量[101,4567,…,102],公司名com1=“A公司”对应的遮掩向量为m1=[0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],对应的事件类型为lab1=[1,0,0…,0],lab1的维度为预设事件类型的数量。
进一步地,参考图3,所述步骤S5中构建公司名及事件类型的两阶段事件抽取模型并训练包括以下步骤:
步骤S51:将资讯文本的向量化表示Xi输入预训练模型BERT1得到资讯文本的语义表示Xembed,i,1;
步骤S52:将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值Ptag,i,
步骤S53:使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值losscom,进行反向传播和参数优化后得到训练好的公司名预测模型;
步骤S54:将资讯文本的向量化表示Xi输入预训练模型BERT2得到资讯文本的语义表示Xembed,i,2;
步骤S55:遍历每个资讯文本的遮掩向量mij,使用遮掩向量mij筛选文本i中公司名j对应的表征向量Xembed,ij,并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布ptype,ij;
步骤S56:使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值losstype,进行反向传播和模型参数优化得到训练好的事件类型预测模型;
进一步地,参考图3,所述步骤S5中使用训练好的模型抽取公司名及对应的事件类型包括以下步骤:
步骤S57:依据步骤S51,S52得到输入资讯文本中的字符是否为公司名字段的概率值Ptag,i,并依此抽取出输入资讯文本中的公司名字段[comi1,comi2,comi3,...comik];依据步骤S41使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik];依据步骤S54,S55得到每个公司名字段在资讯文本中发生不同事件的概率分布ptype,ij,并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型,若某个公司名字段发生的事件类型为空,即概率分布ptype,ij中每个类别的概率均小于0.5,则选取概率值最大的事件类型为预测出的事件类型;
进一步地,所述步骤S6筛选并输出模型抽取的公司名及事件类型包括:判定公司名对应的事件类型是否包含Out和None,若包含,则删除该事件类型,若删除后该公司名对应的事件类型不为空,则输出该公司名及其对应的事件类型,若为空,则删除该公司名及其对应的事件类型;
实施例二
参考图4,一种面向公司资讯文本的事件抽取***,包括:文本数据库模块、文本预处理模块、文本标注模块、文本建模模块;
所述文本数据库模块用于获取面向公司的资讯文本并存储;
所述文本预处理模块用于清洗并预处理语料库中资讯文本;
所述文本标注模块用于按照预设的规则对清洗后的资讯文本进行标注;
所述文本建模模块用于文本向量化和标签数字化的操作,并构建公司名及事件类型的联合抽取模型和训练;
所述输出模块用于输出模型抽取的公司名及事件类型。
关于上述实施例中的***,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于***实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的、一种面向公司资讯文本的事件抽取方法。如图5所示,为本发明实施例提供的该装***所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存以及网络接口之外,实施例中***所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的一种面向公司资讯文本的事件抽取方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
应当理解的是,以上所述仅是本发明的一种实施方案,本发明并不局限于上面已经描述并在附图中示出的结构,在不脱离本发明原理的前提下,可以做出若干改进和润饰。本发明的范围仅由所附的权利要求来限制。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (3)
1.一种面向公司资讯文本的事件抽取方法,其特征在于,包括以下步骤:
(1)获取面向公司的资讯文本,构建资讯文本的语料库;清洗并预处理语料库中资讯文本;所述清洗并预处理语料库中资讯文本具体为:依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作;
(2)按照预设的规则对清洗后的资讯文本进行标注;对标注后的资讯文本进行文本向量化及标签数字化的操作;所述按照预设的规则对清洗后的资讯文本进行标注,包括如下子步骤:
(2.1)标注出资讯文本中所有的公司名及其简称的字段[com1,com2,com3,…];
(2.2)按照预设的事件类型[EventType1,EventType2,EventType3,…,EventTypen,None,Out],标注出公司名字段在给定资讯文本中发生的所有事件类型,[EventType1,EventType2,EventType3,…,EventTypen]表示待抽取的事件类型,n表示一共有n种事件类型,None表示公司名字段在给定的资讯文本中没有发生任何事情,Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型;
所述步骤(2.1)中标注出资讯文本中所有的公司名及其简称的字段的具体为:
(2.1.1)获取公司名强标注的开源数据集,并以CLUENER细粒度命名实体识别数据集,并单独筛选出数据集中包含公司名标注的样本;
(2.1.2)构建BERT+Softmax公司名实体抽取模型并训练,使用训练好的公司名实体抽取模型自动标注资讯文本;
(2.1.3)获取开源公司名词表,使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注;
(2.1.4)最后进行人工验证,检查并改正错误标注的公司名字段,对未标注出的公司名字段进行补充标注;
所述对标注后的资讯文本进行文本向量化及标签数字化的操作,具体为:将输入的资讯文本Ti进行向量化得到Xi=[xi1,xi2,xi3,...];使用BIO编码规则对公司名在描述文本中位置进行编码得到Tagi,使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[comi1,comi2,comi3,...comik]相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik],生成每个事件主体对应的事件类别标签Labi=[labi1,labi2,labi3...,labik],k表示咨询文本Ti中共存在k个公司名字段,每个公司名字段comij存在对应的遮掩向量mij和事件类别标签labij;
(3)构建公司名及事件类型的两阶段事件抽取模型并训练,使用训练好的模型抽取公司名及对应的事件类型;所述构建公司名及事件类型的两阶段事件抽取模型并训练,具体包括如下子步骤:
(3.1)将资讯文本的向量化表示Xi输入预训练模型BERT1得到资讯文本的语义表示Xembed,i,1;
(3.2)将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值Ptag,i,使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值losscom,进行反向传播和参数优化后得到训练好的公司名预测模型;
(3.3)将资讯文本的向量化表示Xi输入预训练模型BERT2得到资讯文本的语义表示Xembed,i,2;
(3.4)遍历每个资讯文本的遮掩向量mij,使用遮掩向量mij筛选文本i中公司名j对应的表征向量Xembed,ij,并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布ptype,ij,使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值losstype,进行反向传播和模型参数优化得到训练好的事件类型预测模型;
所述使用训练好的模型抽取公司名及对应的事件类型,具体为:依据构建公司名及事件类型的两阶段事件抽取模型并训练能够得到输入资讯文本中的字符是否为公司名字段的概率值Ptag,i,并依此抽取出输入资讯文本中的公司名字段[comi1,comi2,comi3,...comik];使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik];按照构建公司名及事件类型的两阶段事件抽取模型并训练中得到每个公司名字段在资讯文本中发生不同事件的概率分布ptype,ij,并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型,若某个公司名字段发生的事件类型为空,即概率分布ptype,ij中每个类别的概率均小于0.5,则选取概率值最大的事件类型为预测出的事件类型;
(4)最后筛选并输出抽取出的公司名及对应的事件类型;所述筛选并输出模型抽取的公司名及事件类型,具体为:判定公司名对应的事件类型是否包含Out和None,若包含,则删除该事件类型,若删除后该公司名对应的事件类型不为空,则输出该公司名及其对应的事件类型,若为空,则删除该公司名及其对应的事件类型。
2.一种面向公司资讯文本的事件抽取***,其特征在于,包括:文本数据库模块、文本预处理模块、文本标注模块、文本建模模块及输出模块;
文本数据库模块:获取面向公司的资讯文本,构建资讯文本的语料库;清洗并预处理语料库中资讯文本;所述清洗并预处理语料库中资讯文本具体为:依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作;
文本标注模块:按照预设的规则对清洗后的资讯文本进行标注;对标注后的资讯文本进行文本向量化及标签数字化的操作;所述按照预设的规则对清洗后的资讯文本进行标注,包括如下子步骤:
(2.1)标注出资讯文本中所有的公司名及其简称的字段[com1,com2,com3,…];
(2.2)按照预设的事件类型[EventType1,EventType2,EventType3,…,EventTypen,None,Out],标注出公司名字段在给定资讯文本中发生的所有事件类型,[EventType1,EventType2,EventType3,…,EventTypen]表示待抽取的事件类型,n表示一共有n种事件类型,None表示公司名字段在给定的资讯文本中没有发生任何事情,Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型;
所述步骤(2.1)中标注出资讯文本中所有的公司名及其简称的字段的具体为:
(2.1.1)获取公司名强标注的开源数据集,并以CLUENER细粒度命名实体识别数据集,并单独筛选出数据集中包含公司名标注的样本;
(2.1.2)构建BERT+Softmax公司名实体抽取模型并训练,使用训练好的公司名实体抽取模型自动标注资讯文本;
(2.1.3)获取开源公司名词表,使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注;
(2.1.4)最后进行人工验证,检查并改正错误标注的公司名字段,对未标注出的公司名字段进行补充标注;
所述对标注后的资讯文本进行文本向量化及标签数字化的操作,具体为:将输入的资讯文本Ti进行向量化得到Xi=[xi1,xi2,xi3,...];使用BIO编码规则对公司名在描述文本中位置进行编码得到Tagi,使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[comi1,comi2,comi3,...comik]相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik],生成每个事件主体对应的事件类别标签Labi=[labi1,labi2,labi3...,labik],k表示咨询文本Ti中共存在k个公司名字段,每个公司名字段comij存在对应的遮掩向量mij和事件类别标签labij;
文本建模模块:构建公司名及事件类型的两阶段事件抽取模型并训练,使用训练好的模型抽取公司名及对应的事件类型;所述构建公司名及事件类型的两阶段事件抽取模型并训练,具体包括如下子步骤:
(3.1)将资讯文本的向量化表示Xi输入预训练模型BERT1得到资讯文本的语义表示Xembed,i,1;
(3.2)将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值Ptag,i,使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值losscom,进行反向传播和参数优化后得到训练好的公司名预测模型;
(3.3)将资讯文本的向量化表示Xi输入预训练模型BERT2得到资讯文本的语义表示Xembed,i,2;
(3.4)遍历每个资讯文本的遮掩向量mij,使用遮掩向量mij筛选文本i中公司名j对应的表征向量Xembed,ij,并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布ptype,ij,使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值losstype,进行反向传播和模型参数优化得到训练好的事件类型预测模型;
所述使用训练好的模型抽取公司名及对应的事件类型,具体为:依据构建公司名及事件类型的两阶段事件抽取模型并训练能够得到输入资讯文本中的字符是否为公司名字段的概率值Ptag,i,并依此抽取出输入资讯文本中的公司名字段[comi1,comi2,comi3,...comik];使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本Ti的遮掩向量Mi=[mi1,mi2,mi3,...mik];按照构建公司名及事件类型的两阶段事件抽取模型并训练中得到每个公司名字段在资讯文本中发生不同事件的概率分布ptype,ij,并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型,若某个公司名字段发生的事件类型为空,即概率分布ptype,ij中每个类别的概率均小于0.5,则选取概率值最大的事件类型为预测出的事件类型;
输出模块:最后筛选并输出抽取出的公司名及对应的事件类型;所述筛选并输出模型抽取的公司名及事件类型,具体为:判定公司名对应的事件类型是否包含Out和None,若包含,则删除该事件类型,若删除后该公司名对应的事件类型不为空,则输出该公司名及其对应的事件类型,若为空,则删除该公司名及其对应的事件类型。
3.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1所述的面向公司资讯文本的事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311259460.1A CN116991983B (zh) | 2023-09-27 | 2023-09-27 | 一种面向公司资讯文本的事件抽取方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311259460.1A CN116991983B (zh) | 2023-09-27 | 2023-09-27 | 一种面向公司资讯文本的事件抽取方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116991983A CN116991983A (zh) | 2023-11-03 |
CN116991983B true CN116991983B (zh) | 2024-02-02 |
Family
ID=88534216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311259460.1A Active CN116991983B (zh) | 2023-09-27 | 2023-09-27 | 一种面向公司资讯文本的事件抽取方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116991983B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
CN111985229A (zh) * | 2019-05-21 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 一种序列标注方法、装置及计算机设备 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、***、设备及存储介质 |
CN113159363A (zh) * | 2020-12-30 | 2021-07-23 | 成都信息工程大学 | 一种基于历史新闻报道的事件趋势预测方法 |
CN113886601A (zh) * | 2021-09-30 | 2022-01-04 | 武汉大学 | 电子文本事件抽取方法、装置、设备及存储介质 |
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN116127087A (zh) * | 2022-12-06 | 2023-05-16 | 平安健康保险股份有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026551B2 (en) * | 2013-06-25 | 2015-05-05 | Hartford Fire Insurance Company | System and method for evaluating text to support multiple insurance applications |
-
2023
- 2023-09-27 CN CN202311259460.1A patent/CN116991983B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
CN111985229A (zh) * | 2019-05-21 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 一种序列标注方法、装置及计算机设备 |
CN113159363A (zh) * | 2020-12-30 | 2021-07-23 | 成都信息工程大学 | 一种基于历史新闻报道的事件趋势预测方法 |
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、***、设备及存储介质 |
CN113886601A (zh) * | 2021-09-30 | 2022-01-04 | 武汉大学 | 电子文本事件抽取方法、装置、设备及存储介质 |
CN116127087A (zh) * | 2022-12-06 | 2023-05-16 | 平安健康保险股份有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于LDA模型和AP聚类的主题事件抽取技术;张建恒;黄蔚;胡国超;;计算机与现代化(第12期);全文 * |
民航突发事件实体识别方法研究;王红;李浩飞;邸帅;;计算机应用与软件(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116991983A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
US10402163B2 (en) | Intelligent data extraction | |
CN109344830B (zh) | 语句输出、模型训练方法、装置、计算机设备及存储介质 | |
EP3136262A1 (en) | Method and system for entity relationship model generation | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
US11880435B2 (en) | Determination of intermediate representations of discovered document structures | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112862024A (zh) | 一种文本识别方法及*** | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、***及存储介质 | |
CN111767390A (zh) | 技能词评估方法及装置、电子设备、计算机可读介质 | |
CN116991983B (zh) | 一种面向公司资讯文本的事件抽取方法及*** | |
Doughman et al. | Time-aware word embeddings for three Lebanese news archives | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN114860873A (zh) | 一种生成文本摘要的方法、装置及存储介质 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
EP4085343A1 (en) | Domain based text extraction | |
Guralnick et al. | Humans in the loop: Community science and machine learning synergies for overcoming herbarium digitization bottlenecks | |
CN118013963B (zh) | 敏感词的识别和替换方法及其装置 | |
US20240233430A9 (en) | System to extract checkbox symbol and checkbox option pertaining to checkbox question from a document | |
CN114492419B (zh) | 基于标注中新增关键词语的文本标注方法、***及装置 | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 | |
Pandey et al. | A Robust Approach to Plagiarism Detection in Handwritten Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |