CN111291568B

CN111291568B - 一种应用于医学文本的实体关系自动标注方法

Info

Publication number: CN111291568B
Application number: CN202010151091.4A
Authority: CN
Inventors: 滕飞; 白萌; 杜军
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2023-03-31
Anticipated expiration: 2040-03-06
Also published as: CN111291568A

Abstract

本发明公开了一种应用于医学文本的实体关系自动标注方法，其包括以下步骤：S1、构造医学术语词典和先验知识库；S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料；S3、采用先验知识库对基础语料进行预标注，得到预标注后的语料；S4、对预标注后的语料进行实体校正，得到实体校正后的语料；S5、通过关系标志词对实体校正后的语料进行过滤，完成医学文本的实体关系自动标注。本发明采用自动标注的形式，减少了研究人员在关系抽取中对人力的投入，拥有较快的标注速度，同时本方法不需要依赖专家的标注，解决了医学文本标注困难的问题，且本方法通过关系标志词对标注过的文本进行进一步过滤，可以明显提高标注的精度。

Description

一种应用于医学文本的实体关系自动标注方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种应用于医学文本的实体关系自动标注方法。

背景技术

随着精准医学领域的不断发展，每年与疾病基因等主题相关的论文呈现日益增长的趋势。论文作为精准医学关系知识的主要载体，从中自动提取出结构化信息是推动精准医学发展的主要因素。

将人类疾病与其涉及到的基因、药品等联系起来是精准医学的核心。这些联系可以通过各种不同类型的研究进行，包括孟德尔和复杂疾病的经典谱系遗传学研究，全基因组关联研究(GWAS)，人类在线孟德尔遗传，体细胞突变频率，转录组学和蛋白质组学研究，以及个别蛋白质的详细分子生物学研究。如此多的研究人员来自不同的学科与领域，相关数据也很分散，很难得到一个全面的概述哪些疾病哪些基因或药品。如何利用这些零散的先验知识，对报告、论文等文本信息进行自动标注，让医生快速获取信息，并且不受无关信息的干扰，一直以来都是业界研究的重要课题。

现有的实体关系自动标注方法大部分基于远程监督进行：陈岭，余小康提出了一种结合从句级远程监督和半监督集成学习的关系抽取方法。首先通过远程监督将知识库中的关系三元组对齐到语料库，构建关系实例集，然后使用基于句法分析的从句识别去除关系实例集中的噪声数据，构建特征数据集，最终使用半监督集成学习算法训练关系分类器。刘瑞，左源等提出了一种基于异常处理的海量文本自动标注方法，首先从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储，然后根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注。最终，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。

虽然现存的关系自动标注方法可以一定程度上避免对手工标注的依赖，但这些方法达到的精度有限。随着精准医学领域的不断发展，越来越多的相关论文在期刊杂志进行发表，精准医学领域的最新研究成果与知识大多蕴藏在论文中，论文的形式为半结构化数据。这些数据中包含了疾病与基因、药品、治疗方式的描述以及他们之间的关系，然而这些关系表达的形式多种多样，尤其是英文文献，其语法、时态等对最终关系的表述都会产生影响，又因为涉及医疗专业领域，这给计算机自动化抽取带来了很大的难度。

发明内容

针对现有技术中的上述不足，本发明提供的一种应用于医学文本的实体关系自动标注方法解决了现有医学文本实体关系自动抽取方法精度低的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种应用于医学文本的实体关系自动标注方法，其包括以下步骤：

S1、构造医学术语词典和先验知识库，获取目标医学文本；

S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料；

S3、采用先验知识库对基础语料进行预标注，得到预标注后的语料；

S4、对预标注后的语料进行实体校正，得到实体校正后的语料；

S5、通过关键词统计算法获取关系标志词，并通过关系标志词对实体校正后的语料进行过滤，得到过滤后的语料，完成医学文本的实体关系自动标注。

进一步地，步骤S1中构造医学术语词典的具体方法为：

通过医疗资源网站获取疾病实体词典和基因实体词典，并将其进行半结构化处理，得到结构形式为<标准ID，中文标准名称，英文标准名称，中文别名，英文别名>的若干条疾病实体和基因实体，将由所有疾病实体和基因实体组成的集合作为医学术语词典。

进一步地，步骤S1中构造先验知识库的具体方法为：

对于任一疾病实体A和任一基因实体B，通过公式：

获取疾病实体A和基因实体B的EI值EI_AB，并构建形式为<疾病实体A，基因实体B，EI_AB>的三元组，进而得到若干个三元组，并将由若干个三元组构成的集合作为先验知识库；其中

表示明确提出疾病实体A与基因实体B存在关系的出版物数量；/>

表示同时提及疾病实体A与基因实体B的出版物数量。

进一步地，步骤S2的具体方法为：

通过对目标医学文本进行半结构化处理，得到包含文章标准ID、摘要、作者列表和期刊名称的文本；采用分词工具对摘要文本进行按句切分，根据医学术语词典通过搜索工具获取按句切分后的文本中同时出现疾病实体与基因实体的语句，得到基础语料。

进一步地，步骤S3的具体方法为：

对于基础语料中的每一个语句，获取其中包含的疾病实体与基因实体，通过先验知识库获取该语句中所包含的疾病实体与基因实体所对应的EI值，若EI值为0，则将该语句预标注为Negative；若EI值大于等于0.8，则将该语句预标注为Positive。

进一步地，步骤S4的具体方法为：

采用BioBERT+BiLSTM+CRF结构的训练模型对预标注后的语料进行实体边界校正和实体大小写校正，判断校正后的实体与校正前的实体是否相同，若是则不修改该实体所在语句的标注，否则将该实体所在语句的标注修改为Negative；

对于采用缩写的实体，将医学术语词典中所有的别名在整篇摘要中进行遍历，若整篇摘要中包含两个以上同一缩写实体的标准名或别名，则认为其连接指向同一实体，并将该缩写修改为该实体的标准名或别名；否则认为该实体选取错误，并将其舍去，得到实体校正后的语料。

进一步地，步骤S5的具体方法包括以下子步骤：

S5-1、通过关键词统计算法获取医学文献中用于描述疾病实体与基因实体之间关系的词，并将其作为关系标志词；

S5-2、选取出现次数最多的前n个关系标志词作为过滤特征；

S5-3、对于实体校正后的语料，选出预标注为Negative的语句；

S5-4、在剩下的实体校正后的语料中，将存在过滤特征的语句的标注修改为Positive并选出，将不存在过滤特征的语句舍去；

S5-5、将选出的标注为Negative的语句和Positive的语句的集合作为过滤后的语料，完成医学文本的实体关系自动标注。

本发明的有益效果为：本发明采用自动标注的形式，减少了研究人员在关系抽取中对人力的投入，拥有较快的标注速度，同时本方法不需要依赖专家的标注，解决了医学文本标注困难的问题，且本方法通过关系标志词对标注过的文本进行进一步过滤，可以明显提高标注的精度。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该应用于医学文本的实体关系自动标注方法包括以下步骤：

S1、构造医学术语词典和先验知识库，获取目标医学文本；

步骤S1中构造医学术语词典的具体方法为：通过医疗资源网站获取疾病实体词典和基因实体词典，并将其进行半结构化处理，得到结构形式为<标准ID，中文标准名称，英文标准名称，中文别名，英文别名>的若干条疾病实体和基因实体，将由所有疾病实体和基因实体组成的集合作为医学术语词典。

步骤S1中构造先验知识库的具体方法为：对于任一疾病实体A和任一基因实体B，通过公式：

表示同时提及疾病实体A与基因实体B的出版物数量。/>

步骤S2的具体方法为：通过对目标医学文本进行半结构化处理，得到包含文章标准ID、摘要、作者列表和期刊名称的文本；采用分词工具对摘要文本进行按句切分，根据医学术语词典通过搜索工具获取按句切分后的文本中同时出现疾病实体与基因实体的语句，得到基础语料。

步骤S3的具体方法为：对于基础语料中的每一个语句，获取其中包含的疾病实体与基因实体，通过先验知识库获取该语句中所包含的疾病实体与基因实体所对应的EI值，若EI值为0，则将该语句预标注为Negative；若EI值大于等于0.8，则将该语句预标注为Positive。

步骤S4的具体方法为：采用BioBERT+BiLSTM+CRF结构的训练模型对预标注后的语料进行实体边界校正和实体大小写校正，判断校正后的实体与校正前的实体是否相同，若是则不修改该实体所在语句的标注，否则将该实体所在语句的标注修改为Negative；对于采用缩写的实体，将医学术语词典中所有的别名在整篇摘要中进行遍历，若整篇摘要中包含两个以上同一缩写实体的标准名或别名，则认为其连接指向同一实体，并将该缩写修改为该实体的标准名或别名；否则认为该实体选取错误，并将其舍去，得到实体校正后的语料。

步骤S5的具体方法包括以下子步骤：

S5-2、选取出现次数最多的前n个关系标志词作为过滤特征；

S5-3、对于实体校正后的语料，选出预标注为Negative的语句；

在本发明的一个实施例中，边界校正的例子如下：若基因a的名字为ABC123，医学文本中提及一个基因b的名字为ABC1234，则在匹配过程中存在将整体为ABC1234的基因b拆分为基因a+字符4，该情况即为边界错误。当基因a的名字匹配出来成abc123时，即为大小写识别错误。当abc123所对应的基因和ABC123所对应的基因相同时，则认为校正后的实体与校正前的实体相同。当ABC123和ABC1234所对应的基因不同时，则认为校正后的实体与校正前的实体不同。

综上所述，本发明采用自动标注的形式，减少了研究人员在关系抽取中对人力的投入，拥有较快的标注速度，同时本方法不需要依赖专家的标注，解决了医学文本标注困难的问题，且本方法通过关系标志词对标注过的文本进行进一步过滤，可以明显提高标注的精度。