CN117035084A - 一种基于语法分析的医疗文本实体关系抽取方法和*** - Google Patents

一种基于语法分析的医疗文本实体关系抽取方法和*** Download PDF

Info

Publication number
CN117035084A
CN117035084A CN202310976181.0A CN202310976181A CN117035084A CN 117035084 A CN117035084 A CN 117035084A CN 202310976181 A CN202310976181 A CN 202310976181A CN 117035084 A CN117035084 A CN 117035084A
Authority
CN
China
Prior art keywords
sentence
entity
medical
relation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310976181.0A
Other languages
English (en)
Inventor
陈丽君
李敬灿
谢夏
黄小欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202310976181.0A priority Critical patent/CN117035084A/zh
Publication of CN117035084A publication Critical patent/CN117035084A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语法分析的医疗文本实体关系抽取方法和***,属于医疗数据处理技术领域。本发明考虑到医疗关系的复杂性,为了防止实体抽取的错误结果影响到关系抽取,特将关系抽取安排到实体抽取之前。在实体抽取过程中,采用cross attention融合关系和编码特征,增加关系和实体信息交互。在抽取出关系和实体之后,借助语法分析,引入语义信息,充分利用词性和语法信息,提高实体关系抽取准确度。采用端到端的模型,并构建句子级别的任务,有利于句子语义的表示和学习。

Description

一种基于语法分析的医疗文本实体关系抽取方法和***
技术领域
本发明属于医疗数据处理技术领域,更具体地,涉及一种基于语法分析的医疗文本实体关系抽取方法和***。
背景技术
医疗数据具有巨大的价值,尤其是在医疗文本关系方面。医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案,借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取***抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。
现有的关系抽取技术大都针对传统文本,很少针对医学文本。已有的医学数据抽取方法均存在以下缺陷和不足:语义信息利用不充分,关系和实体信息交互不充分,导致识别度较差。此外,采用BIO序列标记法,无法解决医学文本中的三元组重叠问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于语法分析的医疗文本实体关系抽取方法和***,旨在解决现有用于现有抽取方法语义信息利用不充分,关系和实体信息交互不充分的问题。
为实现上述目的,第一方面,本发明提供了一种基于语法分析的医疗文本实体关系抽取方法,包括:
将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果;
其中,
所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块;
所述编码器,用于对医疗文本进行向量编码,得到句子级特征向量集合;
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合;
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合;
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合;
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
优选地,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
需要说明的是,本发明优选上述指针标注方式提取实体,不同于序列标注,它只标注实体的头和尾,中间不标注,这样就可以解决实体重叠的问题。
优选地,所述编码器采用SciBERT。
优选地,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
优选地,所述标注具体如下:
将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
为实现上述目的,第二方面,本发明提供了一种基于语法分析的医疗文本实体关系抽取***,包括:处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得第一方面所述的方法被执行。
为实现上述目的,第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下
有益效果:
本发明提出一种基于语法分析的医疗文本实体关系抽取方法和***,考虑到医疗关系的复杂性,为了防止实体抽取的错误结果影响到关系抽取,特将关系抽取安排到实体抽取之前。在实体抽取过程中,采用cross attention融合关系和编码特征,增加关系和实体信息交互。在抽取出关系和实体之后,借助语法分析,引入语义信息,充分利用词性和语法信息,提高实体关系抽取准确度。采用端到端的模型,并构建句子级别的任务,有利于句子语义的表示和学习。
附图说明
图1是本发明提供的用于医疗文本实体关系抽取端到端模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于语法分析的医疗文本实体关系抽取方法,包括:将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果。
如图1所示,所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块。
编码器
所述编码器用于对医疗文本进行向量编码,得到句子级特征向量集合。
优选地,所述编码器采用SciBERT。
在网络结构上SciBERT完全双向,层数深,可表征的函数空间足够大,并且提出了self-attention克服了长距离依赖问题;预训练任务设计好,加了句子级别的任务,有利于句子语义的表示和学习,训练语料大,训练充分。
优选地,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
医疗文本是以段为单位的文本,字数在200-500左右,可以是中文或者外文,例如,中医古籍,以JSON格式保存。Key为text时,Value存放文本本身;Key为triple list时,Value存放文本中(医疗实体1,医疗关系,医疗实体2)。
在编码之前,可以先对所述待处理文本进行预处理,包括但不限于:对缺失数据进行删除或者插值,格式转化等。
医疗关系提取模块
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合。
将SciBERT的结果输入到第一线性神经网络,最终用Softmax函数进行分类,当结果大于阈值时,就表示存在着关系。
交叉注意力机制
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合。
本发明采用Cross Attention。Cross Attention通常作为Decoder模块,与SelfAttention作为Encoder共同使用。它输入的Query来自encoder(Self Attention)的输出,而Key和Value则来自初始的input。在这里Key和Value是bert的结果,Query是关系抽取的结果,从而增强关系和实体信息的交互效果。
医疗实体提取
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合。
优选地,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
语法分析模块
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
本发明对句子进行词性标注和依存句法分析。所述词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。
优选地,所述标注具体如下:将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
在一个实施例中,使用NLP工具对句子进行预处理,得到句子中的词性信息和依存句法信息,得到词性矩阵,与真值进行比对得到Loss函数。
表1为不同抽取模型在药物不良事件数据集的评价对比。表2为不同抽取模型在chemprot数据集上算法的评价对比。对比可知,本发明采用的SciBERT,识别正确率、召回率、F1值均高于其他模型。
表1
EVALUATION ON ADVERSE DRUG EVENTS DATASET.
表2
EVALUATION OF ALGORITHMS ON CHEMPROT DATASET.
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于语法分析的医疗文本实体关系抽取方法,其特征在于,包括:
将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果;
其中,
所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块;
所述编码器,用于对医疗文本进行向量编码,得到句子级特征向量集合;
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合;
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合;
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合;
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
2.如权利要求1所述的方法,其特征在于,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
3.如权利要求1所述的方法,其特征在于,所述编码器采用SciBERT。
4.如权利要求3所述的方法,其特征在于,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
5.如权利要求1所述的方法,其特征在于,所述标注具体如下:
将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
6.一种基于语法分析的医疗文本实体关系抽取***,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机执行指令;
所述处理器,用于执行所述计算机执行指令,使得权利要求1至5任一项所述的方法被执行。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行权利要求1至5任一项所述的方法。
CN202310976181.0A 2023-08-03 2023-08-03 一种基于语法分析的医疗文本实体关系抽取方法和*** Pending CN117035084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310976181.0A CN117035084A (zh) 2023-08-03 2023-08-03 一种基于语法分析的医疗文本实体关系抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310976181.0A CN117035084A (zh) 2023-08-03 2023-08-03 一种基于语法分析的医疗文本实体关系抽取方法和***

Publications (1)

Publication Number Publication Date
CN117035084A true CN117035084A (zh) 2023-11-10

Family

ID=88640639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310976181.0A Pending CN117035084A (zh) 2023-08-03 2023-08-03 一种基于语法分析的医疗文本实体关系抽取方法和***

Country Status (1)

Country Link
CN (1) CN117035084A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744657A (zh) * 2023-12-26 2024-03-22 广东外语外贸大学 一种基于神经网络模型的药品不良事件检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744657A (zh) * 2023-12-26 2024-03-22 广东外语外贸大学 一种基于神经网络模型的药品不良事件检测方法及***

Similar Documents

Publication Publication Date Title
US11449556B2 (en) Responding to user queries by context-based intelligent agents
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Zhang et al. SG-Net: Syntax guided transformer for language representation
CN111061882A (zh) 一种知识图谱构建方法
Li et al. Neural character-level dependency parsing for Chinese
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
Wang et al. Automatic paper writing based on a RNN and the TextRank algorithm
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN117035084A (zh) 一种基于语法分析的医疗文本实体关系抽取方法和***
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN114564912B (zh) 一种文档格式智能检查校正方法及***
Fayyaz et al. Accessibility of Tables in PDF Documents: Issues, Challenges and Future Directions
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
CN116484852A (zh) 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及***
Khoufi et al. Chunking Arabic texts using conditional random fields
Akdemir et al. A review on deep learning applications with semantics
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及***
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法
Priya et al. An Approach Of Information Extraction For Question Answering In Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination