CN108733837B - 一种病历文本的自然语言结构化方法及装置 - Google Patents

一种病历文本的自然语言结构化方法及装置 Download PDF

Info

Publication number
CN108733837B
CN108733837B CN201810524555.4A CN201810524555A CN108733837B CN 108733837 B CN108733837 B CN 108733837B CN 201810524555 A CN201810524555 A CN 201810524555A CN 108733837 B CN108733837 B CN 108733837B
Authority
CN
China
Prior art keywords
text
extracted
determining
item
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810524555.4A
Other languages
English (en)
Other versions
CN108733837A (zh
Inventor
李索恒
陈华官
梁平
张志齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shenrui Bolian Technology Co Ltd
Beijing Shenrui Bolian Technology Co Ltd
Original Assignee
Shanghai Yizhi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yizhi Medical Technology Co ltd filed Critical Shanghai Yizhi Medical Technology Co ltd
Priority to CN201810524555.4A priority Critical patent/CN108733837B/zh
Publication of CN108733837A publication Critical patent/CN108733837A/zh
Application granted granted Critical
Publication of CN108733837B publication Critical patent/CN108733837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及数据处理技术领域,尤其涉及一种病历文本的自然语言结构化方法及装置,用以灵活调整待提取项的内容而无需重新训练整个***。本发明实施例包括:确定病历文本中各文本元素的输入向量;针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。

Description

一种病历文本的自然语言结构化方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种病历文本的自然语言结构化方法及装置。
背景技术
自然语言结构化,指的是对于输入的一段自由文本,自动提取其关键信息,以表格/框图等结构化形式输出提取结果。例如对于“患者发热1日,无咳嗽,二便正常”,***可以提取出“发热:有”、“发热持续时长:<24小时”、“小便:正常”、“大便:正常”等信息,以<条目:取值>的结构化形式输出至下游算法,便于后续处理。由于自然语言结构化技术可以将算法难以处理的自由文本,转变为算法容易处理的键值对,使得其成为了机器理解人类语言的突破口,也是智能医疗、智能客服、智能问答***、智能搜索引擎的核心技术,被广泛应用于医疗、教育、电商等多个行业。
现有技术中,对于病历文本的自然语言结构化一般采用端到端的方式自动提取,对同类型训练文本数据进行标注,使用神经阅读器等技术,对输入文本进行理解,输出待提取项的取值。由于现有技术中的提取依赖标注,***只能处理经过标注的待提取项,而对于新增的待提取项,需要重新标注训练文本数据和训练整个***,导致***难以应对提取项的修改,而且维护成本高。
发明内容
本申请提供一种病历文本的自然语言结构化方法及装置,用以灵活调整待提取项的内容而无需重新训练整个***。
本发明实施例提供的一种病历文本的自然语言结构化方法,包括:
确定病历文本中各文本元素的输入向量;
针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
可选的,所述利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,包括:
利用长短期记忆模型,根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示;
所述确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,包括:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
可选的,所述病历文本中的文本元素包括所述病历文本中的单字;
所述确定病历文本中各文本元素的输入向量,包括:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
可选的,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
可选的,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
可选的,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容之后,还包括:
格式化所述待提取项的输出内容的表述形式。
本发明实施例还提供一种病历文本的自然语言结构化装置,包括:
输入单元,用于确定病历文本中各文本元素的输入向量;
计算单元,用于针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
目标单元,用于确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
输出单元,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
可选的,所述计算单元,具体用于:
利用长短期记忆模型,根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示;
所述目标单元,具体用于:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
可选的,所述病历文本中的文本元素包括所述病历文本中的单字;
所述输入单元,具体用于:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
可选的,所述输出单元,具体用于:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
可选的,所述输出单元,具体用于:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
可选的,还包括格式单元,用于:
格式化所述待提取项的输出内容的表述形式。
本发明实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例中任一所述的方法。
本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例中任一所述方法。
本发明实施例中,将获取待提取的病历文本后,确定病历文本中各文本元素的输入向量,即将病历文本中的各个文本元素用输入向量的形式表示。针对至少一个文本元素,利用神经网络,将病历文本中文本元素的输入向量转化为文本元素的隐层表示,其中,隐层表示包含了文本元素的上下文信息。由于是需要从病历文本中确定出待提取项的输出内容,本发明实施例中,确定病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据计算出的关联性从病历文本的所有文本元素中确定目标文本元素,这里的目标文本元素为与待提取项对应的文本元素。根据目标文本元素的隐层表示,即可确定待提取项的输出内容。本发明实施例中,对于待提取项的输出内容,不是直接从病历文本中找出对应的标注信息,而是通过计算文本元素与待提取项的关联性,确定与待提取项关联性较大的文本元素,从而确定待提取项的输出内容。这样,在用户添加新的待提取项后,本发明实施例中的模型无需重复训练,仍可以从病历文本中找到相应的输出内容。因此,本发明实施例中病历文本的自然语言结构化的模型部署后,用户仍然可以根据实际业务场景的变化,随时增加、修改待提取的条目,仍可以灵活调整待提取项的内容而无需重新训练。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种病历文本的自然语言结构化方法的流程示意图;
图2为本发明实施例一提供的病历文本的自然语言结构化方法的流程示意图;
图3为本发明实施例二提供的病历文本的自然语言结构化方法的流程示意图;
图4为本发明实施例提供的一种病历文本的自然语言结构化装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对病历文本的处理中,现有的自然语言结构化技术主要分为两大类:
1.基于中间态而构建的规则分类器
这类***分为两步:首先使用自然语言处理技术对输入的病历文本进行处理,得到病历文本的中间态表示,例如根据语法、依存关系等得到的语法树,以及基于SVM、神经网络提取的特征等。然后***根据人工设计的算法规则,例如有限状态机、决策树等,对于希望提取的每个条目,分别在中间态表示中进行搜索,根据搜索结果,逐个输出各个待条目的取值。
2.基于机器学习算法的端到端自动提取
端到端的***,直接使用神经阅读器等技术,对输入的病历文本进行理解,输出待提取的各个条目的取值。这类***需要使用训练数据进行预先的训练,训练数据一般通过对同类型输入数据进行标注而得到,即给定一批病历文本,由人工完成相同的结构化过程,将人工结果送入***,使用梯度下降等算法对端到端***进行训练。
上述传统的技术存在以下缺点:
基于中间态而构建的规则分类器,由于使用基于规则的算法,而规则由人工编写,因此很难包括所有的内容,不够客观,且不适应场景的变化。而基于机器学习算法的端到端自动提取的方式,由于训练数据依赖标注,***只能处理经过标注的待提取项,对于新增的待提取项,需要重新标注训练数据和训练整个***,导致***难以应对提取项的修改,且维护成本高。
为了解决上述现有技术中存在的问题,本发明实施例提供了一种病历文本的自然语言结构化方法。如图1所示,本发明实施例提供的病历文本的自然语言结构化方法,包括以下步骤:
步骤101、确定病历文本中各文本元素的输入向量。
步骤102、针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息。
步骤103、确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素。
步骤104、根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
本发明实施例中,将获取待提取的病历文本后,确定病历文本中各文本元素的输入向量,即将病历文本中的各个文本元素用输入向量的形式表示。针对至少一个文本元素,利用神经网络,将病历文本中文本元素的输入向量转化为文本元素的隐层表示,其中,隐层表示包含了文本元素的上下文信息。由于是需要从病历文本中确定出待提取项的输出内容,本发明实施例中,确定病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据计算出的关联性从病历文本的所有文本元素中确定目标文本元素,这里的目标文本元素为与待提取项对应的文本元素。根据目标文本元素的隐层表示,即可确定待提取项的输出内容。本发明实施例中,对于待提取项的输出内容,不是直接从病历文本中找出对应的标注信息,而是通过计算文本元素与待提取项的关联性,确定与待提取项关联性较大的文本元素,从而确定待提取项的输出内容。这样,在用户添加新的待提取项后,本发明实施例中的模型无需重复训练,仍可以从病历文本中找到相应的输出内容。因此,本发明实施例中病历文本的自然语言结构化的模型部署后,用户仍然可以根据实际业务场景的变化,随时增加、修改待提取的条目,仍可以灵活调整待提取项的内容而无需重新训练。
本发明实施例中包含一个可编辑的术语库,用于存储待提取项、待提取项类型、待提取项取值等,例如医学常用术语、对某种检查项目的取值范围等。其中,待提取项可以为“是否发热”、“发热温度”、“是否咳嗽”、“咳嗽时长”、“地址”、“性别”等;待提取项类型可以为是否类、数值类、字符串类等。当***部署后,用户可以通过编辑术语库、以及添加后处理规则,使得***可以处理新的内容。
上述步骤101,可以利用词嵌入方法来确定病历文本中各文本元素的输入向量。
词嵌入是自然语言处理中语言模型与表征学习技术的统称,是指把一个维数为所有词的数量的高维空间嵌入到一个维数低的多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
将每个词语都变成一个向量,目的是为了便于计算。因为对于计算机而言,所有的词都是用0或1表示成二进制的字符串,无法进行计算,而通过词嵌入将词语转变为相连,计算机即可对词语进行计算,甚至可以通过计算不同向量之间的夹角余弦值而得出单词之间的相似性。
例如,在一个病历文本中包含“发烧”、“咳嗽”、“女性”等若干单词,将这些单词映射到向量空间中,“发烧”对应的向量为(0.1,0.2,0.2),“咳嗽”对应的向量为(0.3,0.3,0.4),“女性”对应的向量为(-0.4,-0.6,-0.5)。这样,给病历文本中每一个词语分配一个固定长度的向量,这个长度可以自行设定,即可利用向量唯一标识该词语,计算机也可以利用向量对病历文本中的词语进行计算。
对于人类而言,我们知道“发烧”和“咳嗽”表示的都是生病的症状,而“女性”是一种性别,即“发烧”与“咳嗽”更相似,与“女性”的差异较大。计算机可以根据“发烧”、“咳嗽”、“女性”的向量计算出“发烧”和“咳嗽”较为相近。即通过简单的余弦函数,计算出两个词语之间的相关性:
Figure BDA0001675593440000091
其中,A和B分别为两个词语的向量表示,similarity为词语A和B之间的相关性。
词嵌入的方法需要大量的文本数据进行训练,从而确定每个词语对应的输入向量。
本发明实施例中,利用字嵌入技术,将病历文本中各单字映射为计算机可以计算的向量。这里的字嵌入技术与上述词嵌入技术类似,即将每个单字映射为实数域上的向量。
为了提升算法的准确性,利用混合字/词混合型嵌入技术进行编码。上述步骤101,确定病历文本中各文本元素的输入向量,包括:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
其中,病历文本中的文本元素包括所述病历文本中的单字。
具体来说,首先将每个单字映射到向量空间R中,得到字嵌入向量v。然后对病历文本进行分词,将每个词映射到另一向量空间S,得到词嵌入向量u。将词嵌入向量u连接至该词语对应的单字的字嵌入向量v后,同一个词语对应的词嵌入向量会被复制到其对应的每个单字的字嵌入向量后,作为该单字最终的输入向量。举例来说,对于“发烧”,将“发”字映射到向量空间R中,得到“发”的字嵌入向量,假设为(0.01,0.02,0.03),然后将词语“发烧”映射到向量空间S中,得到“发烧”的词嵌入向量,假设为(0.1,0.2,0.2),最后将词嵌入向量(0.1,0.2,0.2)连接至字嵌入向量(0.01,0.02,0.03)之后,则在这里单字“发”的输入向量即为(0.01,0.02,0.03,0.1,0.2,0.2)。假设“烧”的字嵌入向量为(0.03,0.04,0.05),则“烧”的输入向量为(0.03,0.04,0.05,0.1,0.2,0.2)。
通过上述方法,本发明实施例中将病历文本转换为一个输入矩阵,矩阵的宽为文本字符数,高为向量空间R与空间S的维度之和。字和词到嵌入空间的映射通过机器学习方法得到。
之后,本发明实施例根据文本元素的输入向量计算得出各文本元素的隐层表示。上述步骤102,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,包括:
利用长短期记忆模型,根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示。
在神经网络***中,一个神经网络包括有多个神经层,即输入层、隐藏层及输出层。输入层负责接收输入及分发到隐藏层,因为用户看不见这些层,所以叫做隐藏层。这些隐藏层负责所需的计算及输出结果给输出层,输出层将最终结果输出给用户,则用户可以看到最终结果。本发明实施例中,将隐藏层计算过程中得出的中间值叫做隐层表示,因为利用了长短期记忆模型,使得根据本发明实施例中文本元素的输入向量计算得到的隐层表示包含了文本元素的上下文信息。长短期记忆(LSTM,Long-Short Term Memory)模型是递归神经网络(RNN,Recurrent Neutral Network)的一种。长短期记忆模型模拟了人类思考的习惯,人类并不是每时每刻都从头开始思考,而是在理解前面词语的基础上来理解每个词,这样的思想具有持续性。递归神经网络与其他网络的不同之处在于它的隐藏层是能够跨越时间点的自连接隐藏层,隐藏层的输出不仅进入输出端,还进入了下一个时间步骤的隐藏层,所以它能够持续保留信息,能够根据之前状态推出后面的状态。递归神经网络也有缺点,跨时间步的反向传播扩展会有梯度消失问题,即后面时间步的错误信号不能回到足够早的时间步,这样递归神经网络就不能学习长时间度的问题。长短期记忆模型就被提出,该模型能够学习长期依赖关系。本发明实施例中,利用长短期记忆模型,根据文本元素的输入向量得出隐层表示,使得该隐层表示包含文本元素的上下文信息。
进一步地,本发明实施例通过注意力机制,从病历文本中找出与待提取项相关联的文本元素。即确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,包括:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
注意力机制借鉴了人类的视觉注意力机制,视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。也就是说,注意力机制是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上,权重越大越聚焦于其对应的内容上,即权重代表了信息的重要性。在本发明实施例中,利用注意力机制,从病历文本的所有文本元素中,聚焦到与待提取项相关的文本元素中,利用文本元素的隐层表示与待提取项的关联性,量化对于待提取项而言各个文本元素的重要性,将关联性大的文本元素作为待提取项对应的文本元素。
举例来说,术语库中的待提取项为“是否发烧”,通过对病历文本中各文本元素的处理,确定了病历文本中对应的文本元素为“发热39.2度”。因此,本发明实施例中,无需病历文本中的文本元素与术语库中待提取项的内容完全一致,可以仿照人类的理解,找出病历文本中与待提取项相关联的文本元素,作为待提取项的目标文本元素。此外,本发明实施例不仅学习到了待提取项的提取方式,还可以学会每一类提取项常见的句法、表述方式,并根据上下文来确定应该输出的文本。例如对于“有无发热”的数据的训练,使得模型也能处理“有无咳嗽”,学习过“永久住址”的算法,也可以处理“近期住址”。利用这种方式,在用户添加新提取项后,模型无需重复训练,仍然可以保持较高的性能。
本发明实施例中,待提取项的取值类型可以为有限取值类型,也可以为无限取值类型。其中,有限取值类型的待提取项可以如“是否发热”、“是否咳嗽”等,其取值可以为“是”、“否”、“未提及”三种,或者如“性别”,其取值可以为“男”、“女”两种。无限取值类型的待提取项可以如“地址”、“持续时间”、“发热温度”等,难以枚举所有可能的表述。针对这两种取值类型,下面分别说明其处理方式。
对于待提取项的取值类型为有限取值类型,本发明实施例中,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
举例来说,对于待提取项“是否发热”,其取值可为“是”、“否”、“未提及”三类。本发明实施例从术语库中获得了这三个可能的取值,又通过注意力机制从病历文本中找出了与“是否发热”相关的目标文本元素,例如为“发烧39.2度”。通过计算各个取值与目标文本元素的隐层表示的相关性,得到3个分值。从这3个分值中选取最大的,将其对应的取值作为输出。在这里,最终的输出可以为“是否发热-是”。
对于待提取项的取值类型为无限取值类型,本发明实施例中,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
对于无限取值类型的待提取项,例如病历文本中的患者地址,难以在术语库中枚举所有可能性,因此术语库中只存有此待提取项的类型,如“地址类”。算法在处理这类待提取项时,会利用注意力机制,从病历文本的隐层表示中,找到与待提取项,如“常驻地址”,相关的文本元素,再根据待提取项类型,如“地址类”,框选出一段满足类型要求的文本元素。算法的框选动作使用神经解码器技术完成。
最后,上述步骤104,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容之后,还包括:
格式化所述待提取项的输出内容的表述形式。
具体来说,本发明实施例对于从病历文本中提取的结果需进行结构化的后处理。例如,将“1.5日”转换为“36小时”,将性别表示中的“男”、“F”、“Female”等表述归一化为“男性”等。
为了更清楚地理解本发明,下面以具体的实施例对上述流程进行详细描述,实施例一的具体步骤如图2所示,包括:
步骤201、利用字嵌入技术,确定病历文本中各个单字的输入向量,将病历文本转化为输入矩阵。
步骤202、利用长短期记忆模型,根据各单字的输入向量,确定各单字的隐层表示。该隐层表示包含了对应单字的上下文信息。
步骤203、通过注意力机制,从病历文本的各文本元素中确定术语库中待提取项的目标文本元素。
步骤204、确定待提取项的取值类型为有限取值类型。
步骤205、从术语库中确定待提取项的多个可能取值。
步骤206、计算目标文本元素的隐层表示与每个可能取值的相关性。
步骤207、将相关性最大的可能取值作为待提取项的输出内容。
步骤208、将输出内容格式化。
实施例二的具体步骤如图3所示,包括:
步骤301、利用字嵌入技术,确定病历文本中各单字的第一向量。
步骤302、对病历文本进行分词,利用词嵌入技术,确定病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量。
步骤303、将第一向量与第二向量结合,得到单字的输入向量。
步骤304、利用长短期记忆模型,根据各单字的输入向量,确定单字的隐层表示。该隐层表示包含了对应单字的上下文信息。
步骤305、通过注意力机制,从病历文本的各单字中确定术语库中待提取项的目标文本元素。
步骤306、确定待提取项的取值类型为无限取值类型。
步骤307、从病历文本的目标文本元素中框选出一段文本元素作为待提取项的输出内容。
步骤308、将输出内容格式化。
本发明实施例还提供了一种病历文本的自然语言结构化装置,如图4所示,包括:
输入单元401,用于确定病历文本中各文本元素的输入向量;
计算单元402,用于针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
目标单元403,用于确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
输出单元404,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
所述计算单元402,具体用于:
利用长短期记忆模型,根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示;
所述目标单元403,具体用于:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
所述病历文本中的文本元素包括所述病历文本中的单字;
所述输入单元401,具体用于:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
所述输出单元404,具体用于:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
所述输出单元404,具体用于:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
还包括格式单元405,用于:
格式化所述待提取项的输出内容的表述形式。
基于相同的原理,本发明还提供一种电子设备,如图5所示,包括:
包括处理器501、存储器502、收发机503、总线接口504,其中处理器501、存储器502与收发机503之间通过总线接口504连接;
所述处理器501,用于读取所述存储器502中的程序,执行下列方法:
确定病历文本中各文本元素的输入向量;
针对至少一个文本元素,利用神经网络根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
进一步地,所述处理器501具体用于:
利用长短期记忆模型,根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示;
所述确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,包括:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
进一步地,所述处理器501具体用于:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
进一步地,所述处理器501具体用于:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
进一步地,所述处理器501具体用于:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
进一步地,所述处理器501具体用于:
格式化所述待提取项的输出内容的表述形式。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一一项文本标记的方法。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (14)

1.一种病历文本的自然语言结构化方法,其特征在于,包括:
确定病历文本中各文本元素的输入向量;
针对至少一个文本元素,利用长短期记忆模型根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
2.如权利要求1所述的方法,其特征在于,
所述确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,包括:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
3.如权利要求1所述的方法,其特征在于,所述病历文本中的文本元素包括所述病历文本中的单字;
所述确定病历文本中各文本元素的输入向量,包括:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
4.如权利要求1所述的方法,其特征在于,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
5.如权利要求1所述的方法,其特征在于,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容,包括:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
6.如权利要求1至5任一项所述的方法,其特征在于,所述根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容之后,还包括:
格式化所述待提取项的输出内容的表述形式。
7.一种病历文本的自然语言结构化装置,其特征在于,包括:
输入单元,用于确定病历文本中各文本元素的输入向量;
计算单元,用于针对至少一个文本元素,利用长短期记忆模型根据所述病历文本中文本元素的输入向量确定所述文本元素的隐层表示,所述隐层表示包含所述文本元素的上下文信息;
目标单元,用于确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性,根据关联性确定所述病历文本中的目标文本元素,所述目标文本元素为与所述待提取项对应的文本元素;
输出单元,根据所述目标文本元素的隐层表示,确定所述待提取项的输出内容。
8.如权利要求7所述的装置,其特征在于,所述目标单元,具体用于:
通过注意力机制,确定所述病历文本中各文本元素的隐层表示与术语库中待提取项的关联性;
将关联性大于第一阈值的文本元素作为所述待提取项的目标文本元素。
9.如权利要求7所述的装置,其特征在于,所述病历文本中的文本元素包括所述病历文本中的单字;
所述输入单元,具体用于:
利用字嵌入技术,确定所述病历文本中的每个单字的第一向量;
对所述病历文本进行分词,利用词嵌入技术,确定所述病历文本中的每个词的向量,并将每个词的向量作为对应的单字的第二向量;
根据所述第一向量和所述第二向量,确定所述病历文本中每个单字的输入向量。
10.如权利要求7所述的装置,其特征在于,所述输出单元,具体用于:
确定所述待提取项的取值类型为有限取值类型;
确定所述待提取项的多个可能取值;
计算所述目标文本元素的隐层表示与每个可能取值的相关性;
将相关性大于第二阈值的可能取值作为所述待提取项的输出内容。
11.如权利要求7所述的装置,其特征在于,所述输出单元,具体用于:
确定所述待提取项的取值类型为无限取值类型;
根据所述目标文本元素的隐层表示,从所述目标文本元素中选择出一段文本元素作为所述待提取项的输出内容。
12.如权利要求7至11任一项所述的装置,其特征在于,还包括格式单元,用于:
格式化所述待提取项的输出内容的表述形式。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任一所述的方法。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1~6任一所述方法。
CN201810524555.4A 2018-05-28 2018-05-28 一种病历文本的自然语言结构化方法及装置 Active CN108733837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810524555.4A CN108733837B (zh) 2018-05-28 2018-05-28 一种病历文本的自然语言结构化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810524555.4A CN108733837B (zh) 2018-05-28 2018-05-28 一种病历文本的自然语言结构化方法及装置

Publications (2)

Publication Number Publication Date
CN108733837A CN108733837A (zh) 2018-11-02
CN108733837B true CN108733837B (zh) 2021-04-27

Family

ID=63935467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810524555.4A Active CN108733837B (zh) 2018-05-28 2018-05-28 一种病历文本的自然语言结构化方法及装置

Country Status (1)

Country Link
CN (1) CN108733837B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180076B (zh) * 2018-11-13 2023-09-05 零氪科技(北京)有限公司 一种基于多层语义分析的医疗信息提取方法
CN109559788A (zh) * 2018-11-21 2019-04-02 上海依智医疗技术有限公司 一种病史采集方法及装置
CN109545350A (zh) * 2018-11-21 2019-03-29 上海依智医疗技术有限公司 一种导诊方法及装置
CN109830272B (zh) * 2019-01-07 2022-08-30 平安科技(深圳)有限公司 数据标准化方法、装置、计算机设备及存储介质
CN111415747B (zh) * 2019-01-07 2023-04-25 阿里巴巴集团控股有限公司 电子病历的构建方法及装置
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及***、电子设备、计算机可读介质
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN111126045A (zh) * 2019-11-25 2020-05-08 泰康保险集团股份有限公司 一种文本纠错方法和装置
CN112925876B (zh) * 2019-12-05 2023-11-10 金色熊猫有限公司 跨场地迁移的结构化病历的处理方法、装置、介质及设备
CN111916169B (zh) * 2020-06-29 2021-04-27 南京大经中医药信息技术有限公司 一种中医电子病历结构化方法和终端
US20220019741A1 (en) * 2020-07-16 2022-01-20 Optum Technology, Inc. An unsupervised approach to assignment of pre-defined labels to text documents
US11941357B2 (en) 2021-06-23 2024-03-26 Optum Technology, Inc. Machine learning techniques for word-based text similarity determinations
CN113761131A (zh) * 2021-09-07 2021-12-07 上海快确信息科技有限公司 一种将文本结构化为表格的深度学习模型装置
CN114861639B (zh) * 2022-05-26 2023-03-10 北京百度网讯科技有限公司 提问信息生成方法、装置、电子设备及存储介质
US11989240B2 (en) 2022-06-22 2024-05-21 Optum Services (Ireland) Limited Natural language processing machine learning frameworks trained using multi-task training routines

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、***和非易失性存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3510505A1 (en) * 2016-09-07 2019-07-17 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN107992937B (zh) * 2016-10-26 2021-12-03 北京大学深圳研究生院 基于深度学习的非结构化数据判决方法和装置
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN107832310A (zh) * 2017-11-27 2018-03-23 首都师范大学 基于seq2seq模型的结构化论点生成方法及***
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、***和非易失性存储介质

Also Published As

Publication number Publication date
CN108733837A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
US11501182B2 (en) Method and apparatus for generating model
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN110263325A (zh) 中文分词***
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN113095415A (zh) 一种基于多模态注意力机制的跨模态哈希方法及***
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、***和介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Thattinaphanich et al. Thai named entity recognition using Bi-LSTM-CRF with word and character representation
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架***及方法
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN112131879A (zh) 一种关系抽取***、方法和装置
Han et al. OnSum: Extractive Single Document Summarization Using Ordered Neuron LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190620

Address after: Units 06 and 07, 23rd Floor, 523 Loushanguan Road, Changning District, Shanghai, 2003

Applicant after: Shanghai Yizhi Medical Technology Co., Ltd.

Address before: 310000 Room 177, Building No. 16, Zhuantang Science and Technology Economic Zone, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: According to the Hangzhou Medical Technology Co., Ltd.

Applicant before: Hangzhou Yi chart Network Technology Co., Ltd.

Applicant before: Guangzhou Yi chart Medical Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220321

Address after: 100080 zone a, 21 / F, block a, No. 8, Haidian Street, Haidian District, Beijing

Patentee after: BEIJING SHENRUI BOLIAN TECHNOLOGY Co.,Ltd.

Patentee after: Hangzhou Shenrui Bolian Technology Co., Ltd

Address before: Units 06 and 07, 23rd Floor, 523 Loushanguan Road, Changning District, Shanghai, 2003

Patentee before: SHANGHAI YIZHI MEDICAL TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right