CN113033204A - 信息实体抽取方法、装置、电子设备和存储介质 - Google Patents
信息实体抽取方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113033204A CN113033204A CN202110313303.9A CN202110313303A CN113033204A CN 113033204 A CN113033204 A CN 113033204A CN 202110313303 A CN202110313303 A CN 202110313303A CN 113033204 A CN113033204 A CN 113033204A
- Authority
- CN
- China
- Prior art keywords
- text
- information entity
- original data
- text block
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 90
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 238000002372 labelling Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 26
- 230000000903 blocking effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 20
- 239000000523 sample Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003306 harvesting Methods 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质,通过获取原始数据文本,对原始数据文本进行有序分块,得到至少一个文本块,根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体,根据预设规则进行类别推断,确定至少一个信息实体的类别,实现了对信息实体的自动化抽取,由于信息实体抽取过程中,采用了对原始数据文本有序分块和“合并‑预测‑还原”的策略,在降低了模型的复杂度和工作量的同时,还提高了信息实体的抽取效率和抽取精度。
Description
技术领域
本申请实施例涉及数据分析技术领域,尤其涉及一种信息实体抽取方法、装置、电子设备和存储介质。
背景技术
作为自然语言处理领域的一个重要分支,信息抽取的主要功能是从自然语言文本中抽取出特定的事实信息,以通过自动化的方式帮助人们在海量的信息中迅速找到自己真正需要的信息,应对信息***带来的挑战。其中,信息实体抽取作为信息抽取中最有实用价值的一项技术,其主要任务是识别出文本中出现的专有名称和有意义的数量短语并加以归类。
目前,用于信息实体抽取的业界主流方法是序列标注法,即对于文本中每个词可以有若干个候选的类别标签,每个标签对应于其在各类信息实体中所处的位置,通过对文本中的每个词进行序列化的自动标注(也即分类),再将自动标注的标签进行整合,最终获得有若干个词构成的信息实体及其类别。
然而,对于较长的文本,可能的序列模式会变得很多,导致序列标法存在识别效果差和识别效率低的问题。
发明内容
本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质,以解决现有技术中存在的识别效率和准确率不高的问题。
第一方面,本申请实施例提供一种信息实体抽取方法,包括:
获取原始数据文本;
对所述原始数据文本进行有序分块,得到至少一个文本块;
根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;
根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
可选地,所述对所述原始数据文本进行分块,得到有序且语义连续的至少一个文本块,包括:
对所述原始数据文本进行分段和/或分句处理,得到至少一个短文本;
对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块。
可选地,所述对所述原始数据文本进行有序分块,得到至少一个文本块,包括:
根据段落项目符号,对所述原始数据文本进行分段,得到至少一个段落文本;
根据句尾标识符,对字符长度大于设定阈值的段落文本进行拆分,得到所述至少一个短文本。
可选地,所述对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块,包括:
根据所述至少一个短文本在原始数据文本中出现的先后顺序,对所述至少一个短文本进行排序;
确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将目标短文本与下一个短文本进行合并,得到所述至少一个文本块。
可选地,所述方法还包括:
在每个文本块的首尾添加特殊标识符。
可选地,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体,包括:
对所述至少一个文本块进行特征编码,得到每个文本块的二维词典列表;
根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列;
根据所述目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。
可选地,所述根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列,包括:
根据条件随机场CRF算法,计算所述二维词典列表中每个词序列被标记为候选标注的条件概率;
根据所述条件概率,通过维特比算法,从所述候选标注中寻找最优的标注,得到所述目标标注序列。
可选地,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体之前,所述方法还包括:
获取样本数据文本;
根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,所述目标信息实体是对同类属性的信息实体进行合并后得到的;
根据所述训练数据集进行模型训练,得到至少一个信息实体抽取模型。
可选地,所述根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,包括:
在所述样本数据文本中,分别标注出所述目标信息实体和所述目标信息实体的前缀关键词,得到所述训练数据集。
第二方面,本申请实施例提供一种信息实体抽取装置,包括:
获取模块,用于获取原始数据文本;
处理模块,用于对所述原始数据文本进行有序分块,得到至少一个文本块;根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的信息实体抽取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的信息实体抽取方法。
本申请实施例提供的信息实体抽取方法、装置、电子设备和存储介质,通过获取原始数据文本,对原始数据文本进行有序分块,得到至少一个文本块,根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体,根据预设规则进行类别推断,确定至少一个信息实体的类别,实现了对信息实体的自动化抽取,由于信息实体抽取的过程中,采用了对原始数据文本有序分块和“合并-预测-还原”的策略,在降低了模型的复杂度和工作量的同时,还提高了信息实体的抽取效率和抽取精度。
附图说明
图1为本申请实施例一提供的信息实体抽取方法的流程示意图;
图2为本申请实施例一提供的CRF算法计算条件概率的原理示意图;
图3为本申请实施例一提供的基于CRF算法和Viterbi算法的标注序列预测的原理示意图;
图4为本申请实施例二提供的信息实体抽取装置的结构示意图;
图5为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
本申请技术方案的主要思路:基于现有技术中存在的技术问题,本申请实施例提供一种信息实体抽取的技术方案,将信息实体抽取问题转化为序列标注预测问题,首先,对原始信息文本进行有序分块,然后,利用由条件随机场(conditional random field,CRF)算法和Viterbi(中文:维特比)算法预先构建的信息实体抽取模型,为每个文本块找出其最优的序列标注,最后,经过规则的后处理确定出正确的信息实体,通过文本有序分块将长文本拆分为文本块,进而利用模型对文本块进行信息实体抽取,有效降低了模型复杂度,也提高了模型预测精度和运行效率。另外,在模型策略的选择上,本申请实施例采用了“合并-预测-还原”的做法,即先将多个同类属性合并为粗粒度属性,通过预测模型,抽取出粗粒度属性的所有信息实体,然后对这些信息实体进行类别推断,进而将粗粒度属性拆分还原为细粒度的属性,并且,采取了先抽取前缀+属性信息实体,然后通过规则去除前缀的做法,提升了模型的预测精度,降低了模型复杂度和工作量。
下面将以从招投标数据中抽取出相关属性信息为例,对本申请的技术方案加以说明,可以理解的是,本申请实施例的技术方案也可以用于其他场景中。
实施例一
图1为本申请实施例一提供的信息实体抽取方法的流程示意图,本实施例的方法可以由本申请实施例所提供的信息实体抽取装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于服务器以及智能终端等电子设备中。如图1所示,本实施例的信息实体抽取方法,包括:
S101、获取原始数据文本。
本实施例中,原始数据文本是指待进行信息实体抽取的文本,是进行信息实体抽取的数据基础。为实现原始数据的获取,本实施例中,可以预先在相关平台或网站上设置数据采集探针,通过对数据采集探针传回的数据进行收集和整理,得到原始数据文本。
可选地,在对收集和整理的基础上,本实施例中,还可以对数据采集探针传回的数据做一些简单的预处理,包括去掉空格、tab符、换行符等特殊符号、英文符号转中文符号、全角符号转半角符号,等等,以使得到的原始数据文本能够满足后续的分析和使用需求。
S102、对原始数据文本进行有序分块,得到至少一个文本块。
由于CRF算法对长文本的训练和预测效果较差,因此,本实施例中,对获取到的原始数据文本进行有序分块,即在不影响其语义连续性的情况下,将原始数据文本依序逐步拆分为一些较短的文本块。
可选地,本步骤中,可先根据段落标识符或句尾标识符,对原始数据文本进行分段和/或分句处理,得到至少一个短文本,再对拆分得到的至少一个短文本进行排序和语义连续性处理,得到至少一个文本块。
在一种可能的实施方式中,可通过如下具体步骤,实现原始数据文本的有序分块:
(1)以段落项目符号(如“一、”、“(一)”、“1.”、“1.1”、“(1)”等)将招投标信息内容拆分为几大部分的文本,为便于区分,将本步骤拆分得到的文本叫做段落文本;
(2)对于每一个段落文本,依次判断其字符长度是否大于设定阈值,如100个字符,对于字符长度大于设定阈值的段落文本,以段落文本中句尾标识符(如句号)为分割符号,对该段落文本做进一步拆分;对于字符长度小于或等于设定阈值的段落文本,则不做进一步拆分,为便于区分,将本步骤拆分得到的文本叫做短文本;
(3)先将(2)拆分得到的短文本,按其在原始数据文本中出现的先后顺序进行排序,再通过语义判断,确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将该短文本与下一个短文本进行合并,得到有序的且不影响语义连续性的短文本,为便于区分,将本步骤中得到的短文本叫做文本块。
其中,目标短文本是指当前进行主义判断的短文本,可以是任意一个短文本。目标信息实体是指待抽取的信息实体,可以是事先根据需求确定的,如项目名称、项目编号、单位名称、地址、联系人、联系方式、采购金额、采购方式、品名、数量、金额等。
示例性地,若某个短文本的末尾关键词为“采购预算:”,而下一短文本为“30万元整”,则需要将这两个短文本合并为“采购预算:30万元整”,这样就保证了其语义连续性。
为便于后续处理方便,本步骤中,还可以按照排列的先后顺序,为得到的至少一个文本块标注上序号。
可选地,由于CRF算法对于信息实体出现在文本的头部或尾部的情况预测效果较差,为提高CRF算法的预测精度,本实施例中,还可以在每个文本块的首尾添加特殊文本标识符,使信息实体出现在文本块的中间(而不是头部或尾部)。例如,在句首前添加“条件随机场条件随机场条件随机场条件随机场条件随机场@”,在句尾后添加“@条件随机场条件随机场条件随机场条件随机场条件随机场”。
S103、根据预先构建的信息实体抽取模型对至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体。
本实施例中,为实现从原始数据文本中抽取出需要的数据,预先根据CRF算法和Viterbi算法进行各类信息实体抽取模型的构建。
由于原始数据文本中通常包括很多属性信息,如招投标信息文本中,通常包括项目编号、项目名称、招标单位名称、招标单位地址、招标单位联系人、招标单位联系方式、代理机构名称、代理机构地址、代理机构联系人、代理机构联系方式、中标单位名称、中标单位地址、中标单位联系人、中标单位联系方式、采购金额、采购方式、采购品名、规格、数量、单价、报价、品牌、厂家、等等。如果通过一个模型把所有属性的信息实体同时抽取出来,模型复杂度会增加,预测精度也会降低;如果为每个属性单独建立特定的模型,N个属性就有N种模型,每个模型都是对最细粒度的属性进行抽取,这会增加模型训练工作量,预测精度可能也不高。例如,属性“招标单位联系方式”一般只出现在招投标信息某一个地方,但“联系方式”却可能出现在招投标信息中的多个地方,这会给属性“招标单位联系方式”的抽取带来很多干扰。
为解决这个问题,本实施例中,在构建信息实体抽取模型时,通过合并同类属性,例如,将属性——招标单位联系方式、代理机构联系方式、中标单位联系方式,合并为粗粒度属性——联系方式,然后为每一个粗粒度属性建立模型,在进行信息实体抽取时,通过模型将粗粒度属性对应的所有的信息实体抽取出来,不仅降低了模型复杂度的,还兼顾了信息实体抽取模型的预测精度。
在一种可能的实施方式中,本实施例中,通过获取样本数据文本,根据目标信息实体,对样本数据文本进行标记,得到训练数据集,根据训练数据集进行模型训练,得到至少一个信息实体抽取模型。
其中,目标信息实体是对同类属性的信息实体进行合并后得到的,即前述提到的粗粒度属性,如联系方式。
由于大多数原始数据文本的内容格式相对固定,且所要抽取的属性的前缀字符串的书写格式也比较固定,例如,招标单位名称前面一般会写“招标单位:”之类的前缀关键词。如果能把这样的前缀关键词连同信息实体一起作为信息实体,可有效降低模型的复杂度以及预测的误差,为此,在对样本数据文本进行标注,可以分别标注出目标信息实体和目标信息实体的前缀关键词,得到所述训练数据集。
示例性地,通过在项目名称、项目编号、单位名称、地址、联系人、联系方式、采购金额、采购方式、品名、数量、金额等属性信息实体抽取模型训练数据的标注上,均将相关的前缀关键词加上,一同标注出来,得到对应模型的训练数据集。
可以理解的是,本实施例中,经上述方法训练信息实体抽取模型的数量与粗粒度属性的数量一致,每一个信息实体抽取模型用于对一种粗粒度属性进行信息实体抽取。
本实施例中,根据功能的不同,可以将信息实体抽取模型分为特征编码模块、序列标注预测模块和信息实体抽取模块,其中,特征编码模块用于对文本块进行特征编码,得到各文本块对应的二维词典列表,序列标注预测模块用于对二维词典列表进行序列标注预测,得到每个文本块的目标标注序列(最优标注序列),信息实体抽取模块用于根据目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。下面将分别对各个模块的具体实施原理加以说明:
(1)特征编码模块
由于CRF算法在对序列标注预测中会用到上下文信息,因此,需要将每个文本块进行特征编码,使其转换为二维词典列表的形式,为文本块中的每个字符提前确定其前一个字符和后一个字符。
在一种可能的实施方式中,本实施例中,对于每个文本块中,假设文本块中的字符用si(i取1,2,本块,n,其中,n为输入文本块的长度)表示,可通过如下规则进行特征编码:
(a)如果当前字符是文本块的中间字符,即1<i<n,则可以通过如下规则对该字符编码进行编码:
当前字符→[当前字符,前一个字符+当前字符,当前字符+后一个字符],即,si,[si,si-1si,sisi+1];
(b)如果当前字符是文本的第一个字符,即i=1,将其前一个字符表示为<start>,则可通过如下规则该字符进行编码:
当前字符→[当前字符,<start>,当前字符+后一个字符],即,s1,[s1,<start>,s1s2];
(c)如果当前字符是文本的最后一个字符,即i=n,将其后一个字符表示为<end>,则可通过如下规则该字符进行编码:
当前字符→[当前字符,前一个字符+当前字符,<end>],即,sn,[sn,sn-1sn,<end>]。
示例性地,如表1所示,以文本块“项目采购单位:人民医院”为例,特征编码后的,可以转换为“[[项,<start>,项目],[目,项目,目采],[采,目采,采购],……,[院,医院,<end>]]”的二维词典列表。
表1
文本块 | 项目采购单位:人民医院 |
特征编码 | [[项,<start>,项目],[目,项目,目采],……,[院,医院,<end>]] |
需要说明的是,本实施例中,文本块中的标点符号,如冒号(:)也参与特征编码。
经过特征编码之后,每一个文本块都被转换为一个与之对应的二维词典列表,假设每个字符si经编码后得到的词序列用xi表示,则文本块S=[s1,s2,…,sn]经特征编码后得到的二维词典列表可记为X=[x1,x2,…,xn]。
(2)序列标注预测模块
示例性地,本实施例中,采用BIEO(全称:begin,intermediate,end,other)标注方法来对二维词典列表中的每个字符进行标注。其中,B表示信息实体的首部,I表示信息实体的内部,E表示信息实体的尾部,O表示不为信息实体的任何字符。二维词典列表经过这样标注后,就转为由B、I、E、O四个字母标注的标注序列,如[O,O,B,I,I,…,E],为便于区分,本实施例中将这样的标注序列记为Y=[y1,y2,…,yn]。
如表2所示,同样地,以文本块“项目采购单位名称:人民医院”为例,假设当前模型为用于对采购单位进行抽取的模型,则对该文本块进行标注后,得到的标注序列可以表示为“[O,O,B,I,I,…,E]”。
表2
文本块 | 项目采购单位:人民医院 |
特征编码 | [[项,<start>,项目],[目,项目,目采],……,[院,医院,<end>]] |
标注序列 | [O,O,B,I,I,…,E] |
由于需要利用上下文信息作为特征,且对于一个长度为n的文本块,一般有种标注序列(m指标注种类数,对于采用BIEO标注方法的情况,m=4),在一种可能的实施方式中,本实施例中实例,采用CRF算法,计算二维词典列表中每个词序列被标记为候选标注(即可能的标注中的一种,如B、I、E、O中的任一种)的条件概率,并采用Viterbi算法根据条件概率找出最优的标注,得到二维词典列表对应的最优标注序列,即目标标注序列,以有效降低计算复杂度。下面将分别对CRF算法和Viterbi算法的实现原理加以说明:
a.CRF算法
对于二维词典中的每一个词序列xi,CRF算法通过两种特征函数计算出xi的标注为yi的概率,分别为转移函数tk1(yi-1,yi,i)和状态函数sk2(yi,X,i),示例性地,图2为本申请实施例一提供的CRF算法计算条件概率的原理示意图,如图2所示,转移函数tk1(yi-1,yi,i)依赖于当前位置和前一个位置,表示上一个词序列xi-1对应的标注yi-1转移到当前词序列xi对应的标注yi的概率,即转移概率;状态函数sk2(yi,X,i)仅依赖于当前位置,表示该词序列xi的标注为yi的概率,即状态概率。
CRF计算条件概率参数化形式如下:
其中,P(y|x)表示x的标注为y的条件概率,i为词序列的编号(i=1,2,…,n,n为二维词典列表的长度),k为特征函数的编号(k=1,2,…,K,K为特征函数的数量),fk(yi-1,yi,X,i)为特征函数,是转移函数tk1(yi-1,yi,i)和状态函数sk2(yi,X,i)的统一符号表示,ωk为特征函数的权重,是转移函数tk1(yi-1,yi,i)的权重和状态函数sk2(yi,X,i)的权重统一符号表示,Z(x)是规范化因子,可以用公式表示为:
通过上述公式(1)和(2)就可以计算出二维词典列表中的当前的词序列被标记为候选标注的条件概率。
b.Viterbi算法
本实施例中,Viterbi算法用于求解每个词序列的条件概率的最优值,得到每个词序列最优的标注,进而找出最优的标注序列Y*=[y1 *,y2 *,y3 *,…,yn *]。Viterbi算法基于这样的假定:最优路径的子路径也一定是最优的。其算法思路是,从根节点出发,每走一步,比较根节点到上层节点的最短路径+上层节点到当前节点的最短距离,递归计算到达该点的最短路径,一直走到终点。
记δi(l)为二维词典列表中第i个词序列xi标注为l(可能取值1,2,…,m)的条件概率的最大值。根据Viterbi算法,在第i+1个词序列xi+1标注为l的条件概率的最大值δi+1(l)表示为:
记φi+1(l)为使δi+1(l)达到最大值的第i个字符的标注取值,则φi+1(l)表示为:
由此可见,基于CRF算法和Viterbi算法的标注序列预测原理为:从二维词典列表中的第一个词序列开始,对于第一个词序列,先根据CRF算法根据公式(1)计算当前词序列的被标记为各候选标注的条件概率,再将计算得到的条件概率代入公式(4)中计算当前词序列的最优标注,对于后面的词序列,均以前一个词序列的最优标注为基础,根据CRF算法和Viterbi算法得到最优的标序列,最后通过对各个词序列的最优序列进行组合,得到目标标注序列。
例性地,以文本块“项目采购单位:人民医院示”为例,图3为本申请实施例一提供的基于CRF算法和Viterbi算法的标注序列预测的原理示意图,如图3所示,在第1次迭代时,假设通过CRF算法对第一个字符“项”的词序列进行条件概率计算,得到其被标记为O(设l=1)、B(设l=2)、I(设l=3)、E(设l=4)的条件概率分别为0.75、0.1、0.1和0.05,则可确定“项”的最优标注为“O”,在第2次迭代,由Viterbi算法可知,只需要计算以O为起点的O—>O、O—>B、O—>I、O—>E的4个条件概率,从而确定第二个字符“目”的,依次迭代,直到完成最后一个字符“院”的最优标注的选取,最后,对各个字符的最优标注进行组合,即可得到该文本块对应的目标标注序列。
示例性地,对于输入为X=x1,x2,…,xn的二维词典列表,模型内部基于CRF算法和Viterbi算法的标注序列预测流程如下:
1)初始化:
f1(l)=start,l=1,2,L,m (6)
2)对于i=1,2,…,n-1,通过公式(3)和(4)依次递推计算;
可以理解的是,本实施例中,在模型训练阶段可以先定义出各模型需要的CRF特征函数,然后通过对已知标注序列的数据(即训练数据集)进行训练,确定出各模型的所有的特征函数fk(yi-1,yi,X,i)及其权重ωk,即可。
(3)信息实体抽取模块
信息实体抽取模块主要用于根据目标标注序列,从二维词典列表中抽取出标注为B、I、E的字符,示例性地,假设文本块S=[s1,s2,s3,……,sn]对应的目标标注序列为Y*=[y1 *,y2 *,y3 *,…,yn *],则可通过如下工作流程,抽取出目标信息实体T:
依次判断二维词典列表中的每一个字词序列si及其标注yi *
For i=1to n(n为二维词典列表的长度){
If标注yi *为B,且下一个字符的标注yi-1 *为I,then
将标注yi *对应的字符si写入T,即T←si;
Else if标注yi *为B,且下一个字符的标注yi-1 *为E,then
将标注yi *对应的字符si写入T,即T←si;
Else if标注yi *为I,且上一个字符的标注yi+1 *为B,then
将标注yi *对应的字符si写入T,即T←si;
Else if标注yi *为E,且上一个字符的标注yi+1 *为B或I,then
将标注yi *对应的字符si写入T,即T←si;
Else
标注yi *对应的字符si不写入T
}
可以理解的是,由于特征提取模块、序列标注预测模块和信息实体抽取模块的功能和原理各不相同,因此,本申请实施例中在信息实体抽取模型的训练过程中,可以分别对信息实体抽取模型中的特征提取模块、序列标注预测模块和信息实体抽取模块进行训练。
S104、根据预设规则进行类别推断,确定至少一个信息实体的类别。
由于S103中信息实体抽取模型是基于粗粒度属性进行信息实体抽取的,因此,还需要进行类别推断,得到细粒度属性,从而保证信息实体抽取的准确性。例如,对于招投标数据文本的信息实体抽取结果中,如单位名称、地址、联系人、联系方式等属性,本步骤中还需要进一步进行类别推断,以判断是采购单位还是代理机构的单位名称、地址、联系人、联系方式等。进行类别推断的具体规则可以根据实际情况进行设定,此处不做限制。
以联系方式为例,假设招投标数据文本(原始数据文本)的文本块集合为S0=[S1,S2,S3,…,Sn]及其联系方式的信息实体集合T0=[T1,T2,T3,…,Tn],可通过如下流程判断该信息实体集合中的信息实体的类别(采购单位或代理机构):
依次判断每个文本块Si及其抽取出来的信息实体Ti,记h为信息实体Ti在文本块Si中首次出现的位置,采购单位信息实体集合为C=[c1,c2,c3,……,cn],代理机构信息实体集合为D=[d1,d2,d3,……,dn]。
For i=1to n(n为招投标信息拆分的文本块数目){
If信息实体Ti含有“代理”等与代理机构相关的关键词,then
信息实体Ti属于代理机构,即ci=“”,di=Ti;
Else if信息实体Ti含有“采购单位”等与采购单位相关的关键词,then
信息实体Ti属于采购单位,即ci=Ti,di=“”;
Else if信息实体Ti对应的文本块Si的前部(Si的前h-1个字符)含有“代理”等与代理机构相关的关键词,then
信息实体Ti属于代理机构,即ci=“”,di=Ti;
Else if信息实体Ti对应的文本块Si的前部(Si的前h-1个字符)含有“采购单位”等与采购单位相关的关键词,then
信息实体Ti属于采购单位,即ci=Ti,di=“”;
Else if信息实体Ti对应的文本块Si的上一个文本块Si-1含有“代理”等与代理机构相关的关键词,then
信息实体Ti属于代理机构,即ci=“”,di=Ti;
Else if信息实体Ti对应的文本块Si的上一个文本块Si-1含有“采购单位”等与采购单位相关的关键词,then
信息实体Ti属于采购单位,即ci=Ti,di=“”;
Else if信息实体Ti对应的文本块Si的上两个文本块Si-2含有“代理”等与代理机构相关的关键词,then
信息实体Ti属于代理机构,即ci=“”,di=Ti;
Else if信息实体Ti对应的文本块Si的上两个文本块Si-2含有“采购单位”等与采购单位相关的关键词,then
信息实体Ti属于采购单位,即ci=Ti,di=“”;
Else
ci=“”,di=“”
}
此外,经过信息实体类别推断之后,可能会出现从同一原始数据文本的多个文本块中分别抽取出某属性的不同信息实体,例如采购单位联系方式在招投标信息的头部和尾部均有出现。针对这种情况,本实施例中,可以根据预先设置的规则选取其中一个信息实体即可,示例性地,选择在原始数据文本中最先出现的信息实体作为该属性的信息实体,以去除重复的信息。
另外,由于不同来源的原始数据文本的书写格式不一样,因此抽取出来的信息实体格式也需要进行统一。为此,本实施例,也根据通过相关的规则来对信息实体进行规范化,例如金额统一转换为元、采购方式取值的标准化等,以使输出结果更加规范化,便于进一步进行决策分析时使用。
本实施例中,通过获取原始数据文本,对原始数据文本进行有序分块,得到至少一个文本块,根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体,根据预设规则进行类别推断,确定至少一个信息实体的类别,实现了对信息实体的自动化抽取,由于信息实体抽取的过程中,采用了对原始数据文本有序分块和“合并-预测-还原”的策略,在降低了模型的复杂度和工作量的同时,还提高了信息实体的抽取效率和抽取精度。
实施例二
图4为本申请实施例二提供的信息实体抽取装置的结构示意图,如图4所示,本实施例中信息实体抽取装置10包括:
获取模块11和处理模块12。
获取模块11,用于获取原始数据文本;
处理模块12,用于对所述原始数据文本进行有序分块,得到至少一个文本块;根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
可选地,处理模块12具体用于:
对所述原始数据文本进行分段和/或分句处理,得到至少一个短文本;
对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块。
可选地,处理模块12具体用于:
根据段落项目符号,对所述原始数据文本进行分段,得到至少一个段落文本;
根据句尾标识符,对字符长度大于设定阈值的段落文本进行拆分,得到所述至少一个短文本。
可选地,处理模块12具体用于:
根据所述至少一个短文本在原始数据文本中出现的先后顺序,对所述至少一个短文本进行排序;
确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将目标短文本与下一个短文本进行合并,得到所述至少一个文本块。
可选地,处理模块12还用于:
在每个文本块的首尾添加特殊标识符。
可选地,处理模块12具体用于:
对所述至少一个文本块进行特征编码,得到每个文本块的二维词典列表;
根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列;
根据所述目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。
可选地,处理模块12具体用于:
根据条件随机场CRF算法,计算所述二维词典列表中每个词序列被标记为候选标注的条件概率;
根据所述条件概率,通过维特比算法,从所述候选标注中寻找最优的标注,得到所述目标标注序列。
可选地,获取模块11还用于:
获取样本数据文本;
处理模块12还用于:
根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,所述目标信息实体是对同类属性的信息实体进行合并后得到的;根据所述训练数据集进行模型训练,得到至少一个信息实体抽取模型。
可选地,处理模块12具体用于:
在所述样本数据文本中,分别标注出所述目标信息实体和所述目标信息实体的前缀关键词,得到所述训练数据集。
本实施例所提供的信息实体抽取装置可执行上述方法实施例所提供的信息实体抽取方法,具备执行方法相应的功能模块和有益效果。本实施例的实现原理和技术效果与上述方法实施例类似,此处不再一一赘述。
实施例三
图5为本申请实施例三提供的一种电子设备的结构示意图,如图5所示,该电子设备20包括存储器21、处理器22及存储在存储器上并可在处理器上运行的计算机程序;电子设备20处理器22的数量可以是一个或多个,图5中以一个处理器22为例;电子设备20中的处理器22、存储器21可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器21作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的获取模块11和处理模块12对应的程序指令/模块。处理器22通过运行存储在存储器21中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的信息实体抽取方法。
存储器21可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器21可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器21可进一步包括相对于处理器22远程设置的存储器,这些远程存储器可以通过网格连接至设备/终端/服务器。上述网格的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本申请实施例四还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由计算机处理器执行时用于执行一种信息实体抽取方法,该方法包括:
获取原始数据文本;
对所述原始数据文本进行有序分块,得到至少一个文本块;
根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;
根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
当然,本申请实施例所提供的一种包计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的信息实体抽取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述信息实体抽取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (12)
1.一种信息实体抽取方法,其特征在于,包括:
获取原始数据文本;
对所述原始数据文本进行有序分块,得到至少一个文本块;
根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;
根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
2.根据权利要求1所述的方法,其特征在于,对所述原始数据文本进行分块,得到有序且语义连续的至少一个文本块,包括:
对所述原始数据文本进行分段和/或分句处理,得到至少一个短文本;
对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块。
3.根据权利要求2所述的方法,其特征在于,对所述原始数据文本进行有序分块,得到至少一个文本块,包括:
根据段落项目符号,对所述原始数据文本进行分段,得到至少一个段落文本;
根据句尾标识符,对字符长度大于设定阈值的段落文本进行拆分,得到所述至少一个短文本。
4.根据权利要求2所述的方法,其特征在于,对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块,包括:
根据所述至少一个短文本在原始数据文本中出现的先后顺序,对所述至少一个短文本进行排序;
确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将目标短文本与下一个短文本进行合并,得到所述至少一个文本块。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在每个文本块的首尾添加特殊标识符。
6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体,包括:
对所述至少一个文本块进行特征编码,得到每个文本块的二维词典列表;
根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列;
根据所述目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。
7.根据权利要求6所述的方法,其特征在于,所述根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列,包括:
根据条件随机场CRF算法,计算所述二维词典列表中每个词序列被标记为候选标注的条件概率;
根据所述条件概率,通过维特比算法,从所述候选标注中寻找最优的标注,得到所述目标标注序列。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体之前,所述方法还包括:
获取样本数据文本;
根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,所述目标信息实体是对同类属性的信息实体进行合并后得到的;
根据所述训练数据集进行模型训练,得到至少一个信息实体抽取模型。
9.根据权利要求8所述的方法,其特征在于,所述根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,包括:
在所述样本数据文本中,分别标注出所述目标信息实体和所述目标信息实体的前缀关键词,得到所述训练数据集。
10.一种信息实体抽取装置,其特征在于,包括:
获取模块,用于获取原始数据文本;
处理模块,用于对所述原始数据文本进行有序分块,得到至少一个文本块;根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的信息实体抽取方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的信息实体抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313303.9A CN113033204A (zh) | 2021-03-24 | 2021-03-24 | 信息实体抽取方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313303.9A CN113033204A (zh) | 2021-03-24 | 2021-03-24 | 信息实体抽取方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033204A true CN113033204A (zh) | 2021-06-25 |
Family
ID=76473685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110313303.9A Pending CN113033204A (zh) | 2021-03-24 | 2021-03-24 | 信息实体抽取方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033204A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090776A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文档解析方法、***及装置 |
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
CN108388556A (zh) * | 2018-02-02 | 2018-08-10 | 北京云知声信息技术有限公司 | 同类实体的挖掘方法及*** |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件***有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110276054A (zh) * | 2019-05-16 | 2019-09-24 | 湖南大学 | 一种保险文本结构化实现方法 |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
-
2021
- 2021-03-24 CN CN202110313303.9A patent/CN113033204A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
CN108388556A (zh) * | 2018-02-02 | 2018-08-10 | 北京云知声信息技术有限公司 | 同类实体的挖掘方法及*** |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件***有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110276054A (zh) * | 2019-05-16 | 2019-09-24 | 湖南大学 | 一种保险文本结构化实现方法 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090776A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文档解析方法、***及装置 |
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
CN116663549B (zh) * | 2023-05-18 | 2024-03-19 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
CN117034942B (zh) * | 2023-10-07 | 2024-01-09 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN107168955B (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN110516247B (zh) | 基于神经网络的命名实体识别方法及计算机存储介质 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和*** | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN113157918B (zh) | 一种基于注意力机制的商品名称短文本分类方法和*** | |
CN108984159B (zh) | 一种基于马尔可夫语言模型的缩略词组扩展方法 | |
CN113033183A (zh) | 一种基于统计量与相似性的网络新词发现方法及*** | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN110751234A (zh) | Ocr识别纠错方法、装置及设备 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、***及存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |