CN113408296A - 一种文本信息提取方法、装置及设备 - Google Patents

一种文本信息提取方法、装置及设备 Download PDF

Info

Publication number
CN113408296A
CN113408296A CN202110707811.5A CN202110707811A CN113408296A CN 113408296 A CN113408296 A CN 113408296A CN 202110707811 A CN202110707811 A CN 202110707811A CN 113408296 A CN113408296 A CN 113408296A
Authority
CN
China
Prior art keywords
text
processed
sequence
model
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110707811.5A
Other languages
English (en)
Other versions
CN113408296B (zh
Inventor
刘禄
廖锐
刘志伟
王海永
杨雪
张春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN202110707811.5A priority Critical patent/CN113408296B/zh
Publication of CN113408296A publication Critical patent/CN113408296A/zh
Application granted granted Critical
Publication of CN113408296B publication Critical patent/CN113408296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本信息提取方法、装置及设备,通过提取待处理文本的文本特征和词性特征并融合,得到文本融合特征,将其输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过对所述各个层次的序列标注模型输出的待处理文本的标注结果进行解析,获得待处理文本包括的不同层次的待抽取信息项的信息抽取内容。可以实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。

Description

一种文本信息提取方法、装置及设备
技术领域
本申请涉及数据处理领域,具体涉及一种文本信息提取方法、装置及设备。
背景技术
文本中包括大量的文本信息。在对文本中的文本信息进行提取时,部分文本的结构不规则或者不完整,缺乏预定的结构模型,难以直接对文本中的文本信息进行提取。其中文本例如,在医疗领域中,医生撰写生成的病历文本。
目前,针对此类文本通常需要进行文本处理来实现文本信息的提取。但是,提取文本信息的过程较为复杂,并且得到的文本信息的准确率较低。因此,如何实现高效、准确地进行文本信息的提取是亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种文本信息提取方法、装置及设备,能够通过多层次序列标注模型对待处理文本进行标注,并利用标注结果获取较为准确的文本信息,实现高效和准确地文本信息提取。
为解决上述问题,本申请实施例提供的技术方案如下:
一种文本信息提取方法,所述方法包括:
提取预设长度的待处理文本的文本特征以及词性特征;
将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
将第一层次的序列标注模型确定为当前层次的序列标注模型;
将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
判断是否存在下一层次的序列标注模型;
如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
在一种可能的实现方式中,在提取预设长度的待处理文本的文本特征以及词性特征之前,所述方法还包括:
对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本;
如果所述第一目标文本的长度大于预设长度,将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本,将所述第二目标文本的长度补齐到所述预设长度,生成待处理文本;
如果所述第一目标文本的长度小于预设长度,将所述第一目标文本的长度补齐到所述预设长度,生成待处理文本;
如果所述第一目标文本的长度等于预设长度,将所述第一目标文本确定为待处理文本。
在一种可能的实现方式中,在获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后,所述方法还包括:
获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,所述目标信息抽取内容为所述信息抽取内容中的任一项,所述目标术语文本为预先确定的术语文本中的任一项;
将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配;
如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配,将所述目标信息抽取内容替换为所述目标术语文本。
在一种可能的实现方式中,所述方法还包括:
初始化各个层次的序列标注模型;
将第一层次的序列标注模型确定为当前层次的序列标注模型;
将训练文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述训练文本的标注结果;
根据所述训练文本中针对所述当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果,得到所述当前层次的序列标注模型的损失值;
判断是否存在下一层次的序列标注模型;
如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合,重新得到所述训练文本的文本融合特征;
将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值;
将所述各个层次的序列标注模型的损失值加权相加得到综合损失值,根据所述综合损失值调整所述各个层次的序列标注模型;
重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型以及后续步骤,直到达到预设停止条件,得到训练生成的各个层次的序列标注模型。
在一种可能的实现方式中,所述序列标注模型的层数以及各个层次的序列标注模型对应的待抽取信息项是根据待抽取信息项的层次预先确定的。
在一种可能的实现方式中,所述提取预设长度的待处理文本的文本特征以及词性特征,包括:
将预设长度的待处理文本输入ERNIE模型,得到所述待处理文本的文本特征;所述待处理文本的文本特征表征所述待处理文本的语法、语义以及所述待处理文本中各字符的位置;所述待处理文本的文本特征为m*n维的文本特征向量,其中,m为所述预设长度,n为正整数;
将所述待处理文本输入词性识别模型,得到所述待处理文本的词性特征,所述待处理文本的词性特征为m*1维的词性特征向量。
在一种可能的实现方式中,所述将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征,包括:
将所述m*1维的词性特征向量映射为m*n维的词性特征向量;
将所述m*n维的词性特征向量与所述m*n维的文本特征向量进行融合,得到所述待处理文本的文本融合特征,所述待处理文本的文本融合特征为m*n维的文本融合特征向量。
在一种可能的实现方式中,所述当前层次的序列标注模型输出的所述待处理文本的标注结果为m*1维的标注结果向量;
所述将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征,包括:
将所述m*1维的标注结果向量映射为m*n维的标注结果向量;
将所述m*n维的标注结果向量与所述m*n维的文本融合特征向量进行融合,重新得到所述待处理文本的文本融合特征。
一种文本信息提取装置,所述装置包括:
提取单元,用于提取预设长度的待处理文本的文本特征以及词性特征;
第一融合单元,用于将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
第一确定单元,用于将第一层次的序列标注模型确定为当前层次的序列标注模型;
第一标注单元,用于将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
第一判断单元,用于判断是否存在下一层次的序列标注模型;
第二融合单元,用于如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
第二确定单元,用于将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
第一获取单元,用于如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
解析单元,用于对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
一种文本信息提取设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的文本信息提取方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的文本信息提取方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的一种文本信息提取方法、装置及设备,通过提取待处理文本的文本特征和词性特征,实现对待处理文本两个方面的特征的提取,可以获取待处理文本更为全面的特征信息。其中,词性特征有助于更为准确地确定信息抽取内容,可以提高获得的信息抽取内容的准确性。再通过将文本特征和词性特征融合后得到的文本融合特征输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过将各个层次的序列标注模型的标注结果与文本融合特征进行融合,作为下一层次的序列标注模型的输入,使得序列标注模型可以基于上一层次的序列标注模型的标注结果进行标注,提高序列标注模型的标注结果的准确性。根据各个层次的序列标注模型的标注结果可以获取待处理文本中的不同层次的待抽取信息项的信息抽取内容,能够实现多层次的信息抽取内容的提取,兼顾信息抽取内容和信息抽取内容之间关系的双重提取。此外,通过获取多层次的信息抽取内容,可以实现针对具有多种含义的信息抽取内容的提取。从而实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。
附图说明
图1为本申请实施例提供的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种文本信息提取方法的流程图;
图3为本申请实施例提供的另一种文本信息提取方法的流程图;
图4为本申请实施例提供的另一种文本信息提取方法的流程图;
图5为本申请实施例提供的一种利用目标信息抽取内容的文本特征与目标术语文本的文本特征进行匹配的示意图;
图6为本申请实施例提供的另一种文本信息提取方法的流程图;
图7为本申请实施例提供的一种提取预设长度的待处理文本的文本特征以及词性特征的流程图;
图8为本申请实施例提供的一种文本信息提取装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
在对传统的文本信息进行研究后发现,日常生成的文本中包含大量的文本信息。基于文本中提取的文本信息,可以实现后续对文本信息的处理和利用。比如,对医生撰写的病历文本进行文本信息的提取,可以得到与疾病和药品相关的信息。再对得到的疾病和药品的相关信息进行分析,可以实现对医疗信息的整理和利用。但是部分文本,例如非结构化的文本,文本信息的提取较为复杂。对于此类文本,可以通过影响文本的生成方式直接生成结构化的文本。但是此类方式会对生成文本的过程造成不便,难以广泛应用。或者是对文本进行处理,提取文本信息,实现对文本的结构化处理。但是,目前的文本信息提取方法实现过程较为复杂,准确率较低,难以满足文本信息提取的需要。
基于此,本申请实施例提供了一种文本信息提取方法、装置及设备,通过提取待处理文本的文本特征和词性特征,实现对待处理文本两个方面的特征的提取,可以获取待处理文本更为全面的特征信息。其中,词性特征有助于更为准确地确定信息抽取内容,可以提高获得的信息抽取内容的准确性。再通过将文本特征和词性特征融合后得到的文本融合特征输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过将各个层次的序列标注模型的标注结果与文本融合特征进行融合,作为下一层次的序列标注模型的输入,使得序列标注模型可以基于上一层次的序列标注模型的标注结果进行标注,提高序列标注模型的标注结果的准确性。根据各个层次的序列标注模型的标注结果可以获取待处理文本中的不同层次的待抽取信息项的信息抽取内容,能够实现多层次的信息抽取内容的提取,兼顾信息抽取内容和信息抽取内容之间关系的双重提取。此外,通过获取多层次的信息抽取内容,可以实现针对具有多种含义的信息抽取内容的提取。从而实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。
为了便于理解本申请实施例提供的一种文本信息提取方法,下面结合图1所示的场景示例进行说明。参见图1所示,该图为本申请实施例提供的示例性应用场景的框架示意图。
在实际应用时,先将需要进行文本信息提取的文本作为待处理文本,提取预设长度的待处理文本的文本特征以及词性特征,将文本特征和词性特征进行融合,得到待处理文本的文本融合特征。利用多层次的序列标注模型进行对待处理文本的标注。例如,具有三个层次的序列标注模型。先将第一层次的序列标注模型确定为当前层次的序列标注模型,将文本融合特征输入至当前层次的序列标注模型中,通过当前层次的序列标注模型对当前层次的序列标注模型对应的待抽取信息项进行标注,得到当前层次的序列标注模型,也就是第一层次的序列标注模型输出的待处理文本的标注结果。将得到的标注结果和文本融合特征进行融合,得到重新融合之后的待处理文本的文本融合特征。将第二层次的序列标注模型确定为当前层次的序列标注模型,将重新融合之后的文本融合特征输入至当前层次的序列标注模型中,得到对应的标注结果。再将由第二层次的序列标注模型输出的标注结果与文本融合特征进行融合。将第三层次的序列标注模型确定为当前层次的序列标注模型,将融合后的文本融合特征输入至当前层次的序列标注模型,也就是第三层次的序列标注模型中,得到由第三层次的序列标注模型标注输出的待处理文本的标注结果。三个层次的序列标注模型均标注完毕,获取三个层次的序列标注模型输出的待处理文本的标注结果,对三个层次的序列标注模型输出的待处理文本的标注结果进行解析,得到待处理文本中包括的不同层次的待抽取信息项的信息抽取内容。如此可以实现对待处理文本中不同层次的待抽取信息项的抽取,能够在自动文本信息提取的基础上提高文本信息的准确程度。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
基于上述说明,下面将结合附图对本申请提供的文本信息提取方法进行详细说明。
参见图2所示,该图为本申请实施例提供的一种文本信息提取方法的流程图,如图2所示,所述方法可以包括S201-S209:
S201:提取预设长度的待处理文本的文本特征以及词性特征。
待处理文本为需要进行文本信息提取的文本。待处理文本可以为非结构化的文本,例如,在医疗领域中,待处理文本可以是待处理医疗文本,如医生撰写得到的病历文本或者诊断文本等。
为了便于对待处理文本进行特征的提取,可以将待处理文本的长度设置为预设长度。预设长度具体可以表示待处理文本中包括的字符的数量。预设长度可以根据对待处理文本进行处理的需要进行设置。在一种可能的实现方式中,可以将预设长度具体设置512个字符。
针对预设长度的待处理文本进行文本特征以及词性特征的特征提取。其中,文本特征是指待处理文本中的各个字符在文本结构方面的特征,比如,文本位置、语法以及语义等特征。词性特征是指待处理文本中各个字符在词汇性质方面的特征。
通过对待处理文本进行文本结构方面和词汇特征方面的特征的提取,可以获取较为完整的待处理文本的特征,进而可以实现较为准确地提取待处理文本的文本信息。
在一种可能的实现方式中,本申请实施例提供一种提取预设长度的待处理文本的文本特征以及词性特征的具体实施方式,具体请参见下文。
S202:将待处理文本的文本特征以及词性特征进行融合,得到待处理文本的文本融合特征。
基于提取得到的待处理文本的文本特征和词性特征,对文本特征和词性特征进行融合,得到包括两个方面特征的待处理文本的文本融合特征。
具体的,待处理文本对应的文本特征可以表示为α,对应的词性特征可以表示为β,文本融合特征可以表示为α+β。
在一种可能的实现方式中,本申请实施例提供一种待处理文本的文本特征以及词性特征进行融合,得到待处理文本的文本融合特征的具体实现方式,具体请参见下文。
S203:将第一层次的序列标注模型确定为当前层次的序列标注模型。
序列标注模型是用于基于输入的文本融合特征进行该序列标注模型对应的待抽取信息项进行标注,生成该序列标注模型对应的待处理文本的标注结果。序列标注模型具体可以包括CRF(conditional random field,条件随机场)层。基于输入的文本融合特征,利用CRF层对待处理文本中的每一个字符进行标注获得对应的标签,随后结合标签规则解析待处理文本对应的标签信息,即可获得标注结果。具体的,标签规则可以为BIO规则。
需要说明的是,在本申请实施例中,序列标注模型具有多个层次,并且每个层次的序列标注模型对应的待抽取信息项不同。序列标注模型的层次和对应的待抽取信息项可以根据文本信息提取的需要进行设置。
在一种可能的实现方式中,序列标注模型的层数以及各个层次的序列标注模型对应的待抽取信息项是根据待抽取信息项的层次预先确定的。待抽取信息项的层次可以是指描述不同等级及类别的信息项,其中,同层次的待抽取信息项在文本中通常以并列关系出现,而不同层次的待抽取信息项很有可能以包含关系出现。比如有“疾病诊断”和“病变部位”、“病变大小”三种待抽取信息项,“疾病诊断”相比于“病变部位”和“病变大小”是不同层次的待抽取信息项,而“病变部位”和“病变大小”是同层次的待抽取信息项。具体的,例如在医疗文本中,可以根据待抽取信息项的范围由大到小对待抽取信息项进行不同等级的划分,比如,将待抽取信息项划分为疾病、疾病对应的治疗方法、治疗器械或药品、具体器械或药品的种类四个层次。又例如,待抽取信息项的层次也可以是按照信息项的不同含义进行划分的不同类型。比如针对具有多种含义的文本,可以将不同的含义对应设置为待抽取信息项的不同层次。
待抽取信息项的层次可以根据文本信息提取的需要进行设置。具体的,例如,如果需要对待处理文本进行5个层次的待抽取信息项的提取,对应的序列标注模型的层数设置为5个,5个层次的序列标注模型对应的待抽取信息项分别为对应的5个层次的待抽取信息项。
基于多个层次的序列标注模型,可以对待处理文本进行多个层次的待抽取信息项的标注实现多层次的文本信息提取。
各个层次的序列标注模型的标注过程为串行处理方式,需要依次将特征输入至各个层次的序列标注模型中进行标注。将第一层次的序列标注模型确定为当前层次的序列标注模型。
S204:将待处理文本的文本融合特征输入当前层次的序列标注模型,对当前层次的序列标注模型对应的待抽取信息项进行标注,得到当前层次的序列标注模型输出的待处理文本的标注结果。
将之前通过待处理文本的文本特征和词性特征融合后得到的待处理文本的文本融合特征输入至当前层次的序列标注模型中。利用当前层次的序列标注模型对当前层次的序列标注模型对应的待抽取信息项进行标注。若待处理文本的文本融合特征中具有当前层次的序列标注模型对应的待抽取信息项,则当前层次的序列标注模型对对应的待抽取信息项进行标注,进而得到当前层次的序列标注模型输出的待处理文本的标注结果。
S205:判断是否存在下一层次的序列标注模型。
在当前层次的序列标注模型标注完毕,得到对应的标注结果之后,判断是否存在下一层次的序列标注模型。由于本申请实施例中具有多个层次的序列标注模型,若当前层次的序列标注模型为第一层次的序列标注模型,则存在下一层次的序列标注模型,执行S206以及后续步骤。若当前层次的序列标注模型为第二层次以及第二层次之后的序列标注模型,则可能不存在下一层次的序列标注模型。若存在下一层的序列标注模型,则执行S206以及后续步骤;若不存在下一层的序列标注模型,则执行S208以及后续步骤。
S206:如果存在下一层次的序列标注模型,将当前层次的序列标注模型输出的待处理文本的标注结果与待处理文本的文本融合特征进行融合,重新得到待处理文本的文本融合特征。
在存在下一层次的序列标注模型时,需要利用下一层次的序列标注模型对待处理文本进行标注。
为了提高序列标注模型的准确性,考虑到不同层次的序列标注模型所对应的待抽取信息项之间具有相关性,将当前层次的序列标注模型输出的待处理文本的标注结果与待处理文本的文本融合特征进行融合,得到重新融合后的待处理文本的文本融合特征。
具体的,使用xn表示重新融合后的待处理文本的文本融合特征,在一种实现方式中,xn=α+β+γn,其中,n表示当前层次的序列标注模型所对应的层次数量,γn表示第n层次的序列标注模型的标注结果,xn表示将第n层次的序列标注模型的标注结果与待处理文本的文本融合特征进行融合后重新得到的待处理文本的文本融合特征。在另一种实现方式中,xn=concat(α+β,γn),concat(α+β,γn)表示将α+β与γn进行拼接,例如,α、β为m*n维度数组,γn为m*1维度数组,则α+β为m*n维度数组,xn为m*(n+1)维度数组。在一种可能的实现方式中,本申请实施例提供一种将当前层次的序列标注模型输出的待处理文本的标注结果与待处理文本的文本融合特征进行融合,重新得到待处理文本的文本融合特征的具体实施方式,具体请参见下文。
S207:将下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行将待处理文本的文本融合特征输入当前层次的序列标注模型以及后续步骤。
更换当前层次的序列标注模型所对应的序列标注模型的层次,将下一层次的序列标注模型确定为当前层次的序列标注模型。在重新确定当前层次的序列标注模型后,重新执行S204以及后续步骤,实现利用当前层次的序列标注模型对待处理文本的标注,以及待处理文本的文本融合特征的对应更新。
S208:如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的待处理文本的标注结果。
若当前层次的序列标注模型为最后一个层次的序列标注模型,则不存在下一层次的序列标注模型,序列标注模型的标注结束。获取各个层次的序列标注模型输出的待处理文本的标注结果,利用各个层次的序列标注模型输出的待处理文本的标注结果进行文本信息的提取。
S209:对各个层次的序列标注模型输出的待处理文本的标注结果进行解析,获得待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
各个层次的序列标注模型输出的待处理文本的标注结果中包括待处理文本中所要抽取的信息的相关内容。对得到的各个层次的序列标注模型输出的待处理文本的标注结果进行解析,进而可以获得待处理文本中包括与不同层次的待抽取信息项所对应的信息抽取内容,得到的信息抽取内容就是待处理文本中包括的文本信息,从而实现将待处理文本进行结构化。
基于上述S201-S209的相关内容可知,先通过提取待处理文本的文本特征和词性特征,实现对待处理文本两个方面的特征的提取,可以获取待处理文本更为全面的特征信息。再通过将文本特征和词性特征融合后得到的文本融合特征输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过将各个层次的序列标注模型的标注结果与文本融合特征进行融合,作为下一层次的序列标注模型的输入,使得序列标注模型可以基于上一层次的序列标注模型的标注结果进行标注,提高序列标注模型的标注结果的准确性。并且,根据各个层次的序列标注模型的标注结果确定待处理文本中的信息抽取内容,可以实现多层次的信息的提取,兼顾信息抽取内容和信息抽取内容之间关系的双重提取,也可以实现针对具有多种含义的信息抽取内容的提取,提高对待处理文本进行文本信息提取的准确性。从而实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。
可以理解的是,为了便于进行较为准确的特征的提取,需要对进行文本信息提取的原始文本先进行预处理,以得到符合后续处理要求的文本。
对应的,本申请实施例提供一种文本信息提取方法,参见图3所示,该图为本申请实施例提供的另一种文本信息提取方法的流程图。在提取预设长度的待处理文本的文本特征以及词性特征之前,方法还包括以下四个步骤。
S301:对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本。
原始文本为未经过预处理的需要进行文本信息提取的文本。原始文本中可能存在着冗余信息。其中,冗余信息可以是指具有重复含义的文本以及不具有特定含义的符号和词汇等。具有重复含义的文本可以是指原始文本中出现的由于书写错误导致的重复内容。例如,在针对模板文本进行填写时,写入的文本可能与模板内容重复,导致最终生成的文本中存在冗余信息。不具有特定含义的符号和词汇是指不具有语义含义的无用的符号和词汇,例如,停用词。
冗余信息会对文本信息提取产生干扰,需要对原始文本中的冗余信息进行过滤。本申请实施例不限定对冗余信息的过滤方式,在一种可能的实现方式中,可以在预设字典中预设冗余信息,再基于预设字典去除原始文本中的冗余信息。
原始文本中还具有敏感信息,敏感信息是指原始文本中存在的不便于公开的信息。比如,若原始文本为病历文本,则病历文本中的患者姓名、患者住址等隐私信息为敏感信息。原始文本中的敏感信息与文本信息的提取无关。
对原始文本中的敏感信息进行脱敏处理。得到经过冗余信息过滤和敏感信息脱敏的第一目标文本。
此外,还可以对原始文本中的部分特殊符号进行替换。具体的,也可以基于预先设置的预设字典进行常见的词汇、符号的替换,使得替换后的文本更符合特征提取的要求。
S302:如果第一目标文本的长度大于预设长度,将第一目标文本切分为多个小于或等于预设长度的第二目标文本,将第二目标文本的长度补齐到预设长度,生成待处理文本。
在得到第一目标文本之后,还需要对第一目标文本进行长度的处理,得到预设长度的待处理文本。
在当第一目标文本的长度大于预设长度时,需要减少第一目标文本的长度。将第一目标文本切分为多个小于或者等于预设长度的第二目标文本。具体的,可以使用特定的符号对第一目标文本进行切分。例如,可以使用句号、换行符号等特殊符号对第一目标文本进行切分。需要说明的是,对第一目标文本的切分是在满足不影响第一目标文本的内容的前提下实现的。具体的切分方式可以根据第一目标文本中文本的原始分隔方式确定。
对于长度为预设长度的第二目标文本,可以直接作为待处理文本。对于长度小于预设长度的第二目标文本,将第二目标文本的长度补齐至预设长度,生成待处理文本。在一种可能的实现方式中,可以采用占位符号对小于预设长度的第二目标文本进行预设长度的补齐。
S303:如果第一目标文本的长度小于预设长度,将第一目标文本的长度补齐到预设长度,生成待处理文本。
在当第一目标文本的长度小于预设长度时,需要将第一目标文本的长度进行补齐。在一种可能的实现方式中,可以采用占位符号对小于预设长度的第一目标文本进行补齐,生成待处理文本。
S304:如果第一目标文本的长度等于预设长度,将所第一目标文本确定为待处理文本。
在当第一目标文本的长度等于预设长度时,第一目标文本的长度满足作为待处理文本的长度,直接将第一目标文本确定为待处理文本。
在本申请实施例中,通过对原始文本进行预处理,并且将第一目标文本调整为预设长度的待处理文本,可以使得处理后得到的待处理文本满足后续文本信息提取的要求,便于后续进行对待处理文本的特征提取和标注。
在一种可能的情况中,待处理文本中可能存在着不规范的用语。得到的待处理文本包括的信息抽取内容可能为不规范的文本,不便于对信息抽取内容进行进一步的处理和使用。
针对上述问题,在一种可能的实现方式中,,本申请实施例提供一种文本信息提取方法。参见图4所示,该图为本申请实施例提供的另一种文本信息提取方法的流程图。在获得待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后,方法还包括以下三个步骤:
S401:获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,目标信息抽取内容为信息抽取内容中的任一项,目标术语文本为预先确定的术语文本中的任一项。
针对信息抽取内容的归一化处理,可以预先确定术语文本。术语文本为标准的,用于进行替换的文本。术语文本的具体类型可以根据信息抽取内容的类型进行确定。例如,若信息抽取内容为医疗方面的文本信息,则对应的术语文本可以为标准的医疗文本,比如,将ICD(international Classification of diseases,国际疾病分类)第10版以及疾病常见术语作为术语文本。
从信息抽取内容中任意选取一个信息抽取内容作为目标信息抽取内容。从预先确定的术语文本中任意选取一个术语文本作为目标术语文本。提取目标信息抽取内容的文本特征以及目标术语文本的文本特征。目标信息抽取内容的文本特征和目标术语文本的文本特征,可以是表征语义和语法方面的特征。
本申请实施例不限定提取目标信息抽取内容的文本特征和目标术语文本的文本特征的具体实现方式。在一种可能的实现方式中,可以在确定目标信息抽取内容和目标术语文本之后,采用ERNIE模型,对目标信息抽取内容和目标术语文本进行文本特征的提取。在另一种可能的实现方式中,对于目标信息抽取内容,可以利用ERNIE模型提取文本特征。对于术语文本,可以采用ERNIE模型预先对术语文本进行文本特征的提取,并与术语文本对应地储存在数据库中。在确定目标术语文本后直接获取对应的文本特征即可。
S402:将目标信息抽取内容的文本特征与目标术语文本的文本特征进行匹配。
提取得到的目标信息抽取内容的文本特征和目标术语文本的文本特征,可以体现目标信息抽取内容和目标术语文本之间的差距。利用目标信息抽取内容的文本特征与目标术语文本的文本特征进行匹配。
在一种可能的实现方式中,参见图5所示,该图为本申请实施例提供的一种利用目标信息抽取内容的文本特征与目标术语文本的文本特征进行匹配的示意图。
可以先采用PCA(Principal Component Analysis,主成分分析)技术对目标信息抽取内容的文本特征和目标术语文本的文本特征进行处理。
PCA技术是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后得到的变量叫主成分。PCA既可以实现将高维特征转换为低维特征,也使得降维之后的特征线性不相关。采用PCA技术分别对提取得到的目标信息抽取内容的文本特征和目标术语文本的文本特征进行降维处理,得到低维度的目标信息抽取内容的文本特征和低维度的目标术语文本的文本特征。再利用基于softmax的语义匹配算法,对低维度的目标信息抽取内容的文本特征和各个低维度的目标术语文本的文本特征进行二分类,得到分类结果。基于分类结果可以确定目标信息抽取内容和目标数据文本之间的相似性。
通过利用PCA技术和softmax的语义匹配算法对目标信息抽取内容的文本特征与目标术语文本的文本特征进行提取和匹配,可以在语义层面评估目标信息抽取内容和目标术语文本之间的相似性,有效提高了特征匹配的灵活性,以及特征匹配的准确率。
具体的,为了缩小匹配的范围,可以预先基于待抽取信息项的层次对术语文本进行分层,使得低维度的目标信息抽取内容的文本特征和同层次的各个低维度的目标术语文本的文本特征进行二分类,进一步提高分类效率和准确性。
S403:如果目标信息抽取内容的文本特征与目标术语文本的文本特征匹配,将目标信息抽取内容替换为目标术语文本。
如果具有相互匹配的目标信息抽取内容的文本特征和目标术语文本的文本特征,则说明目标信息抽取内容与目标术语文本相似,目标信息抽取内容需要被替换。将目标信息抽取内容替换为目标术语文本。
基于上述S401-S403的相关内容可知,通过对目标信息抽取内容的文本特征和目标术语文本的文本特征进行提取和匹配,可以确定目标信息抽取内容是否具有可被替换的目标术语文本。并基于匹配的目标术语文本对目标信息抽取内容进行替换,实现对信息抽取内容进行归一化处理,便于后续直接利用归一化后的信息抽取内容进行信息处理。
在一种可能的实现方式中,本申请实施例还提供了一种文本信息提取方法,参见图6所示,该图为本申请实施例提供的另一种文本信息提取方法的流程图,除上述S201-S209以外,还包括S601-S610:
S601:初始化各个层次的序列标注模型。
基于文本信息提取的需要,先对序列标注模型进行初始化。具体可以根据预先确定的各个层次的待抽取信息项,对应的对各个层次的序列标注模型进行初始化。
S602:将第一层次的序列标注模型确定为当前层次的序列标注模型。
在对序列标注模型进行训练时采用串行处理方式,先将第一层次的序列标注模型确定为当前层次的序列标注模型。
S603:将训练文本的文本融合特征输入当前层次的序列标注模型,对当前层次的序列标注模型对应的待抽取信息项进行标注,得到当前层次的序列标注模型输出的训练文本的标注结果。
训练文本是用于训练序列标注模型的文本,训练文本中包括针对各个层次的序列标注模型对应的待抽取信息项的标准标注结果。利用训练文本的文本融合特征,可以对各个层次的序列标注模型进行训练。
将训练文本的文本融合特征输入至当前层次的序列标注模型,利用当前层次的序列标注模型,对训练文本进行当前层次的序列标注模型对应的待抽取信息项的标注,得到当前层次的序列标注模型输出的训练文本的标注结果。
S604:根据训练文本中针对当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及当前层次的序列标注模型输出的训练文本的标注结果,得到当前层次的序列标注模型的损失值。
将输出的训练文本的标注结果,与训练文本中针对当前层次的序列标注模型对应的待抽取信息项的标准标注结果进行比较,可以确定序列标注模型的标注的准确程度。利用训练文本中针对当前层次的序列标注模型对应的待抽取信息项的标准标注结果和当前层次的序列标注模型输出的训练文本的标注结果,计算得到针对本次训练的当前层次的序列标注模型的损失值。基于得到的损失值可以进行对当前层次的序列标注模型的调整,实现对序列标注模型的训练。
S605:判断是否存在下一层次的序列标注模型。
在当前层次的序列标注模型标注结束,得到对应的标注结果以及损失值之后,判断是否存在下一层次的序列标注模型。由于本申请实施例中的序列标注模型为多个层次的序列标注模型,若当前层次的序列标注模型为第一层次的序列标注模型,则存在下一层次的序列标注模型,执行S606以及后续步骤。若当前层次的序列标注模型为第二层次以及第二层次之后的序列标注模型,则可能不存在下一层次的序列标注模型。若存在下一层的序列标注模型,则执行S606以及后续步骤;若不存在下一层的序列标注模型,则执行S608以及后续步骤。
S606:如果存在下一层次的序列标注模型,将当前层次的序列标注模型输出的训练文本的标注结果与训练文本的文本融合特征进行融合,重新得到训练文本的文本融合特征。
在存在下一层次的序列标注模型时,将得到的当前层次的序列标注模型输出的训练文本的标注结果与训练文本融合特征进行融合,得到更新后的训练文本的文本融合特征。
具体的,例如,使用yn表示重新融合后的训练文本的文本融合特征,则yn=μ+ωn,其中,n表示当前层次的序列标注模型所对应的层次数量,μ表示训练文本初始的文本融合特征,ωn表示第n层次的序列标注模型的标注结果,yn表示将第n层次的序列标注模型的标注结果与训练文本的文本融合特征进行融合后得到的训练文本的文本融合特征。
S607:将下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行将训练文本的文本融合特征输入当前层次的序列标注模型以及后续步骤。
更换当前层次的序列标注模型所对应的序列标注模型的层次,将下一层次的序列标注模型确定为当前层次的序列标注模型。在重新确定当前层次的序列标注模型后,重新执行S603以及后续步骤,实现利用当前层次的序列标注模型对训练文本的标注,以及训练文本的文本融合特征的对应更新。
S608:如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值。
若当前层次的序列标注模型为最后一个层次的序列标注模型,则不存在下一层次的序列标注模型,序列标注模型的标注结束,本次训练的标注过程结束。获取各个层次的序列标注模型的损失值。
S609:将各个层次的序列标注模型的损失值加权相加得到综合损失值,根据综合损失值调整各个层次的序列标注模型。
在本申请实施例中,考虑到各个层次的序列标注模型之间的相关性,可以对各个层次的训练标注模型进行集中训练。
将得到的各个层次的序列标注模型的损失值进行加权相加,得到综合损失值。其中,综合损失值可以是各个层次的序列标注模型的损失值与对应的权重参数相乘后再相加得到的。
基于得到的综合损失值,可以对各个层次的序列标注模型进行调整,实现本次对于序列标注模型的训练。
S610:重新执行将第一层次的序列标注模型确定为当前层次的序列标注模型以及后续步骤,直到达到预设停止条件,得到训练生成的各个层次的序列标注模型。
为了确保序列标注模型的准确性,需要对各个层次的序列标注模型进行多次训练。重新执行S602以及后续步骤,直到达到预设停止条件后,停止对各个层次的序列标注模型的训练,得到训练生成的各个层次的序列标注模型。预设停止条件具体可以是损失值满足预设的条件,也可以是训练达到预设测试,具体可以根据序列标注模型的训练需要进行设置。
基于上述S601-S610的相关内容可知,通过利用训练文本对各个层次的序列标注模型进行集中训练,可以得到标注结果较为准确的序列标注模型。并且,输入各个层次的序列标注模型的训练文本的文本融合特征中包括其他层次的序列标注模型的标注结果,可以使得训练得到的各个层次的序列标注模型具有更强的相关性,提高各个层次的序列标注模型的标注结果的准确性。
在一种可能的实现方式中,可以利用ERNIE模型对待处理文本的文本特征进行提取,利用词性识别模型对待处理文本的词性特征进行提取。
对应的,本申请实施例提供一种提取预设长度的待处理文本的文本特征以及词性特征的具体实施方式,参见图7所示,该图为本申请实施例提供的一种提取预设长度的待处理文本的文本特征以及词性特征的流程图,包括S701-S702:
S701:将待处理文本输入ERNIE模型,得到待处理文本的文本特征;待处理文本的文本特征表征待处理文本的语法、语义以及待处理文本中各字符的位置;待处理文本的文本特征为m*n维的文本特征向量,其中,m为预设长度,n为正整数。
ERNIE模型是一种基于自注意力机制的深度特征提取器,该模型经过了大量无标注数据进行预训练,使其具备理解通用领域内文字的位置、语法、语义等特征。在本申请实施例中,在使用ERNIE模型进行待处理文本的文本特征提取之前,可以先利用与待处理文本属于相同领域的标注文本对ERNIE模型进行针对特定领域的文本的特征提取的训练,使得ERNIE模型具备对特定领域内文本的特征提取能力。
将待处理文本输入至ERNIE模型中,得到对应的文本特征。待处理文本的文本特征可以表征待处理文本的语法、语义以及待处理文本中各字符的位置。待处理文本的文本特征可以表示为αm*n,其中,m*n表示待处理文本的文本特征为m*n维的文本特征向量,m为预设长度,n为正整数。
具体的,ERNIE模型可以处理的文本的长度为512,对应的m可以为512。待处理文本的文本特征可以表示为α512×76812,……,αi,……,α512],其中,αi表示待处理文本中第i个字符对应的文本特征,i为小于或者等于512的正整数,768为提取文本特征预先设置的维度参数,代表具有768个不同角度的特征,具体可以是由ERNIE模型的参数确定的。
S702:将待处理文本输入词性识别模型,得到待处理文本的词性特征,待处理文本的词性特征为m*1维的词性特征向量。
词性识别模型可以是具有词性识别功能的开源工具。具体的,词性识别模型可以为LTP(Language Technology Platform,语言技术平台)、Hanlp(Han LanguageProcessing汉语言处理包)等模型。
基于词性识别模型,可以确定待处理文本的词性特征。具体的,词性特征可以为m*1维。需要说明的是,各个字符的词性特征是与该字符所在的词汇相关的,属于同一个词汇的字符的词性特征一致。
在一种可能的实现方式中,可以先通过词性识别模型确定待处理文本中各个字符的词性识别结果。再基于各个字符的词性识别结果,确定对应的待处理文本的词性特征。例如,可以通过预先定义的词性编码字典,将各个字符的词性识别结果转换为各个字符对应的词性特征,再得到待处理文本的词性特征。
词性编码字典可以由表1所示:
词性 编码 举例
名词 1 “左臂”
动词 2 “骨折”
介词 3 “由于”
标点符号 4 “。”
…… …… ……
表1
其中,各个词性对应的编码可以为大于0的整数。
对应的词性特征可以表示为β512×112,……,βi,……,β512],其中,βi表示待处理文本中第i个字符对应的词性特征,i为小于或者等于512的正整数,1为提取词性特征的维度。
在本申请实施例中,通过利用ERNIE模型和词性识别模型分别对待处理文本进行文本特征和词性特征的提取,可以得到较为准确的文本融合特征,便于后续得到较为准确的文本信息。
进一步的,本申请实施例提供一种将待处理文本的文本特征以及词性特征进行融合,得到待处理文本的文本融合特征的具体实施方式,具体包括:
将m*1维的词性特征向量映射为m*n维的词性特征向量;
将m*n维的词性特征向量与m*n维的文本特征向量进行融合,得到待处理文本的文本融合特征,待处理文本的文本融合特征为m*n维的文本融合特征向量。
由于词性特征向量的维度与文本特征向量的维度不同,在对词性特征向量和文本特征向量进行融合之前,先需要统一词性特征向量和文本特征向量的维度。
将m*1维的词性特征向量映射为m*n维的词性特征向量。例如,将β512×112,……,βi,……,β512]映射为β512×76812,……,βi,……,β512]。
在一种可能的实现方式中,可以通过全连接层进行特征向量的映射。全连接层的激活函数可以为Relu函数。
在统一维度之后,将m*n维的词性特征向量与m*n维的文本特征向量进行融合,得到m*n维的待处理文本的文本融合特征向量。
以上述词性特征向量和文本特征向量为例,融合后的文本融合特征向量可以表示为α512×768512×768=[α11,……,αii,……,α512512]。
进一步的,当前层次的序列标注模型输出的待处理文本的标注结果可以为m*1维的标注结果向量。
针对此类情况,本申请实施例提供一种将当前层次的序列标注模型输出的待处理文本的标注结果与待处理文本的文本融合特征进行融合,重新得到待处理文本的文本融合特征的具体实施方式,具体包括:
将m*1维的标注结果向量映射为m*n维的标注结果向量;
将m*n维的标注结果向量与m*n维的文本融合特征向量进行融合,重新得到待处理文本的文本融合特征。
同样的,标注结果向量与文本融合特征向量的维度不同,先进行维度的统一。将m*1维的标注结果向量映射为m*n维的标注结果向量。
在一种可能的实现方式中,可以通过全连接层进行特征向量的映射。全连接层的激活函数可以为Relu函数。
具体的,以γn表示第n层次的序列标注模型的标注结果,n表示当前层次的序列标注模型所对应的层次数量,
Figure BDA0003132019940000201
其中,
Figure BDA0003132019940000202
表示对于当前层次的序列标注模型标注的待处理文本中第i个字符对应的标注结果,i为小于或者等于512的正整数。将
Figure BDA0003132019940000203
映射为
Figure BDA0003132019940000204
在统一维度之后,将m*n维的标注结果向量与m*n维的文本融合特征向量进行融合,重新得到m*n维的待处理文本的文本融合特征向量。
以上述标注结果向量和文本融合特征向量为例,融合后的文本融合特征向量(xn)512×768可以参见下式所示:
Figure BDA0003132019940000205
其中,γn表示第n层次的序列标注模型的标注结果向量,n表示当前层次的序列标注模型所对应的层次数量,i表示待处理文本中第i个字符,i为小于或者等于512的正整数。
在本申请实施例中,通过对标注结果向量和文本融合特征向量进行维度的统一和融合,可以实现文本融合特征向量的更新,便于后续利用更新后的文本融合特征向量进行序列标注模型的标注,得到更为准确的标注结果。
基于上述方法实施例提供的文本信息提取方法,本申请实施例还提供了一种文本信息提取装置,下面将结合附图对该文本信息提取装置进行说明。
参见图8,该图为本申请实施例提供的一种文本信息提取装置的结构示意图。如图8所示,该文本信息提取装置包括:
提取单元801,用于提取预设长度的待处理文本的文本特征以及词性特征;
第一融合单元802,用于将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
第一确定单元803,用于将第一层次的序列标注模型确定为当前层次的序列标注模型;
第一标注单元804,用于将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
第一判断单元805,用于判断是否存在下一层次的序列标注模型;
第二融合单元806,用于如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
第二确定单元807,用于将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
第一获取单元808,用于如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
解析单元809,用于对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
在一种可能的实现方式中,所述装置还包括:
处理单元,用于对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本;
切分单元,用于如果所述第一目标文本的长度大于预设长度,将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本,将所述第二目标文本的长度补齐到所述预设长度,生成待处理文本;
补齐单元,用于如果所述第一目标文本的长度小于预设长度,将所述第一目标文本的长度补齐到所述预设长度,生成待处理文本;
第三确定单元,用于如果所述第一目标文本的长度等于预设长度,将所第一目标文本确定为待处理文本。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,所述目标信息抽取内容为所述信息抽取内容中的任一项,所述目标术语文本为预先确定的术语文本中的任一项;
匹配单元,用于将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配;
替换单元,用于如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配,将所述目标信息抽取内容替换为所述目标术语文本。
在一种可能的实现方式中,所述装置还包括:
初始化单元,用于初始化各个层次的序列标注模型;
第四确定单元,用于将第一层次的序列标注模型确定为当前层次的序列标注模型;
第二标注单元,用于将训练文本的文本融合特征输入所述当前层次的序列标注模型,对当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述训练文本的标注结果;
第一执行单元,用于根据所述训练文本中针对当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果,得到所述当前层次的序列标注模型的损失值;
第二判断单元,用于判断是否存在下一层次的序列标注模型;
第三融合单元,用于如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合,重新得到所述训练文本的文本融合特征;
第二执行单元,用于将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
第三获取单元,用于如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值;
调整单元,用于将所述各个层次的序列标注模型的损失值加权相加得到综合损失值,根据所述综合损失值调整所述各个层次的序列标注模型;
第三执行单元,用于重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型以及后续步骤,直到达到预设停止条件,得到训练生成的各个层次的序列标注模型。
在一种可能的实现方式中,所述序列标注模型的层数以及各个层次的序列标注模型对应的待抽取信息项是根据待抽取信息项的层次预先确定的。
在一种可能的实现方式中,所述提取单元801,包括:
第一输入子单元,用于将预设长度的待处理文本输入ERNIE模型,得到所述待处理文本的文本特征;所述待处理文本的文本特征表征所述待处理文本的语法、语义以及所述待处理文本中各字符的位置;所述待处理文本的文本特征为m*n维的文本特征向量,其中,m为所述预设长度,n为正整数;
第二输入子单元,用于将所述待处理文本输入词性识别模型,得到所述待处理文本的词性特征,所述待处理文本的词性特征为m*1维的词性特征向量。
在一种可能的实现方式中,所述第一融合单元802,包括:
映射子单元,用于将所述m*1维的词性特征向量映射为m*n维的词性特征向量;
融合子单元,用于将所述m*n维的词性特征向量与所述m*n维的文本特征向量进行融合,得到所述待处理文本的文本融合特征,所述待处理文本的文本融合特征为m*n维的文本融合特征向量。
在一种可能的实现方式中,所述当前层次的序列标注模型输出的所述待处理文本的标注结果为m*1维的标注结果向量;
所述第二融合单元806,具体用于将所述m*1维的标注结果向量映射为m*n维的标注结果向量;将所述m*n维的标注结果向量与所述m*n维的文本融合特征向量进行融合,重新得到所述待处理文本的文本融合特征。
另外,本申请实施例还提供了一种文本信息提取设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述任一实施例所述的文本信息提取方法。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述任一实施例所述的文本信息提取方法。
本申请实施例提供的文本信息提取装置及设备,通过提取待处理文本的文本特征和词性特征,实现对待处理文本两个方面的特征的提取,可以获取待处理文本更为全面的特征信息。其中,词性特征有助于更为准确地确定信息抽取内容,可以提高获得的信息抽取内容的准确性。再通过将文本特征和词性特征融合后得到的文本融合特征输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过将各个层次的序列标注模型的标注结果与文本融合特征进行融合,作为下一层次的序列标注模型的输入,使得序列标注模型可以基于上一层次的序列标注模型的标注结果进行标注,提高序列标注模型的标注结果的准确性。根据各个层次的序列标注模型的标注结果可以获取待处理文本中的不同层次的待抽取信息项的信息抽取内容,能够实现多层次的信息抽取内容的提取,兼顾信息抽取内容和信息抽取内容之间关系的双重提取。此外,通过获取多层次的信息抽取内容,可以实现针对具有多种含义的信息抽取内容的提取。从而实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种文本信息提取方法,其特征在于,所述方法包括:
提取预设长度的待处理文本的文本特征以及词性特征;
将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
将第一层次的序列标注模型确定为当前层次的序列标注模型;
将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
判断是否存在下一层次的序列标注模型;
如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
2.根据权利要求1所述的方法,其特征在于,在提取预设长度的待处理文本的文本特征以及词性特征之前,所述方法还包括:
对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本;
如果所述第一目标文本的长度大于预设长度,将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本,将所述第二目标文本的长度补齐到所述预设长度,生成待处理文本;
如果所述第一目标文本的长度小于预设长度,将所述第一目标文本的长度补齐到所述预设长度,生成待处理文本;
如果所述第一目标文本的长度等于预设长度,将所述第一目标文本确定为待处理文本。
3.根据权利要求1所述的方法,其特征在于,在获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后,所述方法还包括:
获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,所述目标信息抽取内容为所述信息抽取内容中的任一项,所述目标术语文本为预先确定的术语文本中的任一项;
将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配;
如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配,将所述目标信息抽取内容替换为所述目标术语文本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
初始化各个层次的序列标注模型;
将第一层次的序列标注模型确定为当前层次的序列标注模型;
将训练文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述训练文本的标注结果;
根据所述训练文本中针对所述当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果,得到所述当前层次的序列标注模型的损失值;
判断是否存在下一层次的序列标注模型;
如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合,重新得到所述训练文本的文本融合特征;
将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值;
将所述各个层次的序列标注模型的损失值加权相加得到综合损失值,根据所述综合损失值调整所述各个层次的序列标注模型;
重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型以及后续步骤,直到达到预设停止条件,得到训练生成的各个层次的序列标注模型。
5.根据权利要求1或4所述的方法,其特征在于,所述序列标注模型的层数以及各个层次的序列标注模型对应的待抽取信息项是根据待抽取信息项的层次预先确定的。
6.根据权利要求1所述的方法,其特征在于,所述提取预设长度的待处理文本的文本特征以及词性特征,包括:
将预设长度的待处理文本输入ERNIE模型,得到所述待处理文本的文本特征;所述待处理文本的文本特征表征所述待处理文本的语法、语义以及所述待处理文本中各字符的位置;所述待处理文本的文本特征为m*n维的文本特征向量,其中,m为所述预设长度,n为正整数;
将所述待处理文本输入词性识别模型,得到所述待处理文本的词性特征,所述待处理文本的词性特征为m*1维的词性特征向量。
7.根据权利要求6所述的方法,其特征在于,所述将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征,包括:
将所述m*1维的词性特征向量映射为m*n维的词性特征向量;
将所述m*n维的词性特征向量与所述m*n维的文本特征向量进行融合,得到所述待处理文本的文本融合特征,所述待处理文本的文本融合特征为m*n维的文本融合特征向量。
8.根据权利要求7所述的方法,其特征在于,所述当前层次的序列标注模型输出的所述待处理文本的标注结果为m*1维的标注结果向量;
所述将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征,包括:
将所述m*1维的标注结果向量映射为m*n维的标注结果向量;
将所述m*n维的标注结果向量与所述m*n维的文本融合特征向量进行融合,重新得到所述待处理文本的文本融合特征。
9.一种文本信息提取装置,其特征在于,所述装置包括:
提取单元,用于提取预设长度的待处理文本的文本特征以及词性特征;
第一融合单元,用于将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
第一确定单元,用于将第一层次的序列标注模型确定为当前层次的序列标注模型;
第一标注单元,用于将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
第一判断单元,用于判断是否存在下一层次的序列标注模型;
第二融合单元,用于如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
第二确定单元,用于将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
第一获取单元,用于如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
解析单元,用于对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
10.一种文本信息提取设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8任一项所述的文本信息提取方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-8任一项所述的文本信息提取方法。
CN202110707811.5A 2021-06-24 2021-06-24 一种文本信息提取方法、装置及设备 Active CN113408296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707811.5A CN113408296B (zh) 2021-06-24 2021-06-24 一种文本信息提取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707811.5A CN113408296B (zh) 2021-06-24 2021-06-24 一种文本信息提取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113408296A true CN113408296A (zh) 2021-09-17
CN113408296B CN113408296B (zh) 2024-02-13

Family

ID=77683146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707811.5A Active CN113408296B (zh) 2021-06-24 2021-06-24 一种文本信息提取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113408296B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401381A (zh) * 2023-06-07 2023-07-07 神州医疗科技股份有限公司 一种加快医学关系抽取的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
WO2021051871A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
WO2021051871A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄胜;李伟;张剑;: "基于深度学习的简历信息实体抽取方法", 计算机工程与设计, no. 12, 16 December 2018 (2018-12-16), pages 1 - 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401381A (zh) * 2023-06-07 2023-07-07 神州医疗科技股份有限公司 一种加快医学关系抽取的方法和装置
CN116401381B (zh) * 2023-06-07 2023-08-04 神州医疗科技股份有限公司 一种加快医学关系抽取的方法和装置

Also Published As

Publication number Publication date
CN113408296B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
Lei et al. From natural language specifications to program input parsers
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
US9754083B2 (en) Automatic creation of clinical study reports
Khelif et al. An Ontology-based Approach to Support Text Mining and Information Retrieval in the Biological Domain.
US11170169B2 (en) System and method for language-independent contextual embedding
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
CN116304748B (zh) 一种文本相似度计算方法、***、设备及介质
CN114036955B (zh) 中心词跨句事件论元检测方法
Gildea et al. Human languages order information efficiently
De Felice et al. Automatically acquiring models of preposition use
CN112148862A (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN114021573B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN113408296B (zh) 一种文本信息提取方法、装置及设备
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
Sandillon-Rezer et al. Using tree transducers for grammatical inference
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
CN114201961A (zh) 一种注释预测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant