CN110019711A - 一种对医学文本数据结构化处理的控制方法及装置 - Google Patents

一种对医学文本数据结构化处理的控制方法及装置 Download PDF

Info

Publication number
CN110019711A
CN110019711A CN201711205811.5A CN201711205811A CN110019711A CN 110019711 A CN110019711 A CN 110019711A CN 201711205811 A CN201711205811 A CN 201711205811A CN 110019711 A CN110019711 A CN 110019711A
Authority
CN
China
Prior art keywords
medicine
text data
entity
sequence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711205811.5A
Other languages
English (en)
Inventor
罗震
吴谨准
贾虎
徐盛
顾春宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Basebit Shanghai Information Technology Co ltd
WU JINZHUN
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711205811.5A priority Critical patent/CN110019711A/zh
Publication of CN110019711A publication Critical patent/CN110019711A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种对医学文本数据结构化处理的控制方法,包括如下步骤:a.基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入;b.对多个所述医学实体映射进行组合得到所述结构化文本。本发明提供一种对医学文本数据结构化处理的控制装置,包括实体抽取装置和结构化装置。本发明采用实体抽取的方式避免了对匹配词库的依赖,抽取效果、泛化能力和扩展性得到了提高,降低了维护成本。

Description

一种对医学文本数据结构化处理的控制方法及装置
技术领域
本发明属于信息处理技术领域,特别涉及一种使用人工智能技术对医疗文本进行处理的方法,特别是一种对医学文本数据结构化处理的控制方法及装置。
背景技术
人工智能(英语:Artificial Intelligence,Al)指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑实现的智能。人工智能包括弱人工智能和强人工智能。一般认为,弱人工智能(也称狭义人工智能)指的是专注于解决某个特定领域问题的人工智能技术,也可以认为是应用于该领域的技术工具。
自然语言处理技术是狭义人工智能的一个重要分支,注重于对自然语言的处理和运用,在人机交互中已经得到了广泛的应用。自然语言处理的范畴包括信息检索、信息抽取、机器翻译、文本朗读、分词、词性标注、自动摘要等领域。
在健康医疗大数据领域的实际应用中,使用自然语言处理技术中的分词、标注,可以对于医生使用自然语言描述的病历进行分析,从中提取病人的症状、诊疗信息和事件等信息。这些信息的获得和标准化对于医生的临床科研研究以及人工智能辅助诊疗***等应用的搭建都起到重要的作用。
目前并不存在专门针对医疗大数据领域进行自然语言处理的控制方法,即,目前对医疗文本的分析仍然采用传统的分词、标注方法进行处理,传统的分词方法为:建立字典;根据相邻词出现的频率建立得分模型;对于不认识的新词辅助其他方法解决。这样带来的缺陷:一是处理过程较长,响应速度不够快;二是遇到新词时,匹配成功率低。对于医疗文本而言,其特点是语言结构相对简单,包含大量专业词汇,而且长词很多,因此如果利用现有的分词、标注方法对医疗文本进行识别,会进一步减慢响应速度,原因在于,现有的分词方法(即利用建立字典的方式)更多是针对传统的语言结构,对于专业术语则并非其强项,这样在识别医疗文本时,会导致频繁的出现的新词,与之而来的就是匹配成功率进一步降低。
发明内容
针对现有技术存在的技术缺陷,根据本发明的一个方面,一种对医学文本数据结构化处理的控制方法,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本,包括如下步骤:
a.基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入;
b.对多个所述医学实体映射进行组合得到所述结构化文本。
优选地,所述步骤a包括如下步骤:
a1.将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络;
a2.所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵;
a3.所述医学文本数据二维矩阵被传入条件随机域获得得分最大的标签序列所对应的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医学文本数据的全局信息基于所述结构模型确定,一个所述标签序列对应一个所述得分。
优选地,所述步骤a之前还执行如下步骤:
i.将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络;
ii.所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域;
iii.所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值;
iv.重复步骤i、ii、iii直至所述结构模型收敛。
优选地,所述步骤b包括如下步骤:
b1.对所述医学文本数据执行分词操作获得文本分词结果,对多个所述医学实体映射执行分词操作获得医学实体映射分词结果,所述分词操作通过分词模型完成,所述分词模型在人工标注的基础上通过模型训练的方式形成;
b2.将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射;
b3.对多个所述优选医学实体映射进行组合得到所述结构化文本。
优选地,所述步骤b之后包括如下步骤:
c.将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段;
d.将多个所述标准信息片段进行组合获得标准结构化文本。
根据本发明的另一方面,还提供一种对医学文本数据结构化处理的控制装置,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本,包括:
实体抽取装置,其用于基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入;
结构化装置,其用于对多个所述医学实体映射进行组合得到所述结构化文本。
优选地,所述实体抽取装置包括如下装置:
第一输入装置,其用于将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第一输出装置,其用于所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵;
第一获取装置,其用于所述医学文本数据二维矩阵被传入条件随机域获得得分最大的标签序列所对应的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医学文本数据的全局信息基于所述结构模型确定,一个所述标签序列对应一个所述得分。
优选地,所述控制装置还包括如下装置:
第二输入装置,其用于将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第二输出装置,其用于所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域;
第二获取装置,其用于所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值。
优选地,所述结构化装置包括如下装置:
分词装置,其用于对所述医学文本数据执行分词操作获得文本分词结果,以及对多个所述医学实体映射执行分词操作获得医学实体映射分词结果,所述分词操作通过分词模型完成,所述分词模型在人工标注的基础上通过模型训练的方式形成;
匹配装置,其用于将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射;
组合装置,其用于对多个所述优选医学实体映射进行组合得到所述结构化文本。
优选地,所述控制装置还包括如下装置:
转化装置,其用于将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段;
标准组合装置,将多个所述标准信息片段进行组合获得标准结构化文本。
本发明通过包含多个标签序列的结构模型对医学文本数据进行实体抽取获得医学实体映射,并基于医学实体映射形成最终的结构化文本。本发明采用实体抽取的方式避免了对匹配词库的依赖,抽取效果、泛化能力和扩展性得到了提高,降低了维护成本。同时,本发明还可以实现自动更新结构模型的目的,这样也更加符合医学行业专业词汇不断增加的特性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了本发明的一个具体实施方式的,一种对医学文本数据结构化处理的控制方法的流程图;
图2示出了本发明的一个具体实施例的,对多个所述医学实体映射进行组合得到所述结构化文本的流程;
图3示出了本发明的第一实施例的,一种对医学文本数据结构化处理的控制方法的流程图;
图4示出了本发明的第二实施例,用于训练结构模型的流程图;
图5示出了本发明的第四实施例的,一种对医学文本数据结构化处理获得标准结构化文本的控制方法的流程图;
图6示出了本发明的另一具体实施方式的,一种对医学文本数据结构化处理的控制装置的功能框图;以及
图7示出了本发明的第五实施例,一种训练结构模型的控制装置的功能框图。
具体实施方式
图1示出了本发明的一个具体实施方式的,一种对医学文本数据结构化处理的控制方法的流程图,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本。本领域技术人员理解,所述医学文本数据所对应的内容中既包括自然语言,也包括医疗专业术语,在执行以下步骤之前,所述医学文本数据会被转化为以单字符为单位的多个词嵌入,进而实现将每个单字符以定长向量表示,已备后续的数据处理使用。具体地,所述医学文本数据可以理解为一个字序列,例如所述医学文本数据包括“A、B、C、D、E、F”,而我们希望对其中的每个字符对应出一个向量(通常是低维的向量),假如A对应的向量为[0.30.7],B对应的向两位[-0.3 0.6],依次类推得到全部字符对应的向量,此即为该医学文本数据包括的全部词嵌入,在此基础上即可进行后续的运算。本领域技术人员理解,此处举例仅是为了说明,并不表示对本发明的限定。
首先执行步骤S101,基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入。具体地,所述标签序列可以理解为按照医学术语的专业分类人工设定而成,例如,标签序列可以对应为症状、症状修饰;检查项目、检查结果;疾病、疾病修饰;治疗、治疗修饰;药物、药物修饰;发病时间等等。本领域技术人员理解,相比于建立字典,设定多个标签序列更加快速,同时数据量也大大小于字典的数据量。所述词嵌入更为具体地,通过多个所述标签序列对所述医学文本数据的片段进行映射即可得到多个医学实体映射。例如,所述医学文本数据对应的文本内容为“患者上午9点就诊,患者反映昨日夜晚突然发热到 37度,但目前精神状态良好”,相应地,多个标签序列对应的内容包括“发病时间”、“症状”以及“症状描述”,则通过多个标签序列对该医学文本数据进行实体抽取后,得到“时间:昨日,症状:发热,症状描述:37度”,由此即可对该医学文本数据作出精炼,并最终归入医学大数据库。基于以上描述可以看出,本步骤中,并不需要对医疗文本所包含的每个字词的文义作出识别,因此其大大节省了医疗文本的处理时间,而本步骤的目的是基于结构模型对医疗文本进行筛选,进而为大数据的积累作出贡献。
进一步地,执行步骤S102,对多个所述医学实体映射进行组合得到所述结构化文本。具体地,本步骤可以理解为对上述步骤101的运行结果进行整理的步骤,所述结构化文本可以按照通常的自然语言逻辑进行排序,也可以不按照通常的自然语言逻辑进行排序,例如,通过所述步骤S101获得的多个所述医学实体映射直接被模块化编排,即,每个所述医学实体映射被划入到相应的模块中,而所述模块属于医学大数据的一部分。仍然以上述步骤101的具体实例为例,得到“时间:昨日,症状:发热,症状描述:37度”后,一种组合方式得到的结果为“昨日发热37度”,另一种组合方式为,分别将“昨日”、“发热”、“37度”划归到不同的模块,而相应的模块可以是对应某一个区域的人群,进而可以对该区域的人群的医学大数据进行统计。
具体地,图2示出了步骤S102的一个具体实现方式,对多个所述医学实体映射进行组合得到所述结构化文本的流程,包括如下步骤:
执行步骤S1021,对所述医学文本数据执行分词操作获得文本分词结果,对多个所述医学实体映射执行分词操作获得医学实体映射分词结果,所述分词操作通过分词模型完成,所述分词模型在人工标注的基础上通过模型训练的方式形成。具体地,为了减少实体提取所产生的误差,在完成实体提取蝴蝶医学实体映射后,还可以对医学实体映射进行优化处理,相应地,则首先需要对医学文本数据和医学实体映射进行分词操作,分词操作为现有技术常用的方案,一种方式是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配,一种方式是基于统计以及机器学习完成,本领域技术人员可以结合现有的分词算法予以实现。
进一步地,执行步骤S1022,将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射。具体地,本步骤的目的为基于医学文本数据校对医学实体映射,其原因在于医学文本数据系原始文本,其作为基准文本更为客观。优选地,除了基于医学文本数据校对后,还可以基于多个医学实体映射本身的逻辑结构进行校对,即,判断全部所述医学实体映射分词结果的逻辑连贯性,然后在此基础上获得优选医学实体映射。
进一步地,执行步骤S1023,对多个所述优选医学实体映射进行组合得到所述结构化文本。
图3示出了本发明的第一实施例的,一种对医学文本数据结构化处理的控制方法的流程图,具体包括如下步骤:
执行步骤S201,将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络。具体地,所述医学文本数据转换为词嵌入二维矩阵可以结合上述图1中关于词嵌入部分的描述,即所述医学文本数据以二维向量矩阵所表示,而要说明双向长短时记忆网络,首先需要介绍长短时记忆网络(简称“LSTM”),LSTM实际上是为了解决循环记忆网络(简称“RNN”)的问题而出现的,通过对RNN的隐藏层进行改进实现其功能,LSTM本质上还是一个RNN,我们可以将其理解为一个在RNN架构上进行改进的一个网络,其通过多层网络配合多层复用实现更好的人工智能运算效果,LSTM至少包括用于记忆的cell,用于参数输入输出的Input Gate和Output Gate,还有用于遗忘的 Forge Gate。在此基础上,双向长短时记忆网络(简称“BiLSTM”) 可以理解为对双向循环记忆网络的(简称“BiRNN”)的改进,而BiRNN区别于RNN之处在于,其既能够访问过去的上下文,还能够访问未来的上下文,其基本思想是提出每一个训练序列向前和向后分别是两个 RNN,而且这两个RNN都连接着一个输出层,这样才能够提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,相应地, BiLSTM也是对BiRNN的改进,也就是在BiRNN的基础上增加了一个双向的cell单元,具体可以结合本段前半部分的描述进行理解。本领域技术人员理解,上述网络架构在实际应用中还会对应具体的算法,但这并不属于本发明的重点,在此不予赘述。
进一步地,执行步骤S202,所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵。具体地,所述医学文本数据对应的序列长度基于所述医学文本数据所包括的多个词嵌入的长度而确定,所述指定长度是通过人工预先设定的一个长度值,其根据不同的算法基础可以设定不同的数值。更为具体地所述医学文本数据二维矩阵可以理解为通过BiLSTM 对全部词嵌入对应的向量进行处理后的得到的二维矩阵。
进一步地,执行步骤S203,所述医学文本数据二维矩阵被传入条件随机域获得得分最大的标签序列所对应的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医学文本数据的全局信息基于所述结构模型确定,一个所述标签序列对应一个所述得分。具体地,条件随机域(简称“CRF”)是自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等,其使用马尔科夫链作为隐含变量的得分转移模型,通过可观测状态判别隐含变量,其得分亦通过标注集统计得来,是一个判别模型。CRF本质上是隐含变量的马尔科夫链以及可观测状态到隐含变量的得分,在现有技术的应用中,以判断词性的得分为例,假设词性标签是满足马尔科夫性的,即当前词性仅和上一个词性有得分转移关系而与其它位置的词性无关,比如形容词后面跟形容词的得分是0.5,跟修饰性“的”的得分为0.5,跟动词的得分为0。
进一步地,基于以上对CRF的描述以及现有技术的应用,CRF的应用中,通常是对相邻关系的标的进行判断,例如上述词性判断中,其局限于当前词性与上一个或者下一个词性的得分转移关系。而将 CRF应用本步骤中,其用于判断词嵌入符合标签序列的得分,而不同于现有技术的是,本步骤中是进行全局判断而并非基于前后位置关系 (或者说相邻关系)进行判断,即,判断某一个词嵌入是否能够作为医学实体映射,需要综合考虑该标签序列与所述结构模型所包括的全部标签序列的关系进而得出该标签序列得分,具体的判断算法可以结合现有技术的实现,之所以采用这样的技术方案,其原因还是在于本发明中并不需要得到每个词嵌入对应的文本的确切涵义,而是通过 CRF筛选与标签序列相匹配的词嵌入,更为具体地,如果是现有技术判断,那么应该是全部词嵌入之间的判断,而本发明的转换为词嵌入与标签序列的判断,此即为“根据所述医疗文本数据的全局信息基于所述结构模型”进行判断的过程,本领域技术人员理解,标签序列的数据量是明显小于全部词嵌入的数据量的,通过避免采用前后位置关系(或者说相邻关系)的判断方式,可以大幅的提高运算效率。同时,采用实体抽取避免了对匹配词库的依赖,抽取效果、泛化能力和扩展性得到了提高,降低了维护成本。
进一步地,执行步骤S204,对多个所述医学实体映射进行组合得到所述结构化文本。本步骤可以结合步骤S102理解。
图4示出了本发明的第二实施例,用于训练结构模型的流程图,具体地,用于训练结构模型的流程可以在图1中示出的步骤S101执行之前进行,包括如下步骤:
首先执行步骤S301,将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络。具体地,可以将此处的“标准字序列”理解为步骤S201的“医学文本数据”,相应地,可以结合步骤S201的描述理解本步骤。
进一步地,执行步骤S302,所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域。具体地,可以将此处的“标准字序列”理解为步骤S202的“医学文本数据”,相应地,可以结合步骤S202的描述理解本步骤。
进一步地,执行步骤S303,所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值。具体地,步骤S301和步骤S302 所提及之所述标准字序列可以理解为训练样本,可以根据训练的实际情况做不同的变化,而所述条件随机域计算所述标签序列的条件概率可以理解为:在给定条件随机域P(Y|X),输入序列x和输出序列y,计算条件概率P(Yi=yi|x),P(Yi-1=yi-1,Yi=yi|x)以及相应数学期望的问题,其中的x,y即为所述标签序列对应的得分,其具体的算法公式可以结合现有技术予以实现。相应地的,在获得所述结构模型的全部标签序列的条件概率后,再计算全部所述标签序列的条件概率的均方误差,根据该均方误差即可获得所述结构模型的损失值,而损失值用于判断当前的结构模型是否足够完美。
更进一步地,在得到损失值后,还对损失值进行优化,以期提高判断当前结构模型的准确率。具体地,反向传播的算法是目前用来训练人工神经网络(简称“ANN”)的最常用且最有效的算法。其主要思想是:将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。
本领域技术人员理解,为了获得趋近完美的结构模型,需要不断重复步骤S301、S302和S303直至所述结构模型收敛,即,步骤S301 至步骤S303只是一个训练循环。
图5示出了本发明的第四实施例的,一种对医学文本数据结构化处理获得标准结构化文本的控制方法的流程图,具体包括如下步骤:
执行步骤S501,基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列通过人工标注的方式形成,所述医学文本数据包括多个词嵌入;执行步骤 S502,对多个所述医学实体映射进行组合得到所述结构化文本。所述步骤S501和步骤S502可以结合步骤S101和步骤S102予以理解。
进一步地,执行步骤S503,将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段。本领域技术人员理解,为了使最终生成结构化文本的格式内容更加规范统一,可以预先建立数据库,通过该数据库将医学实体映射转换为标准的信息,例如可以转换为[类型、描述、取值、时间、附加信息]的格式内容,从事实现对医疗文本各维度信息的标准表达。
进一步地,执行步骤S504,将多个所述标准信息片段进行组合获得标准结构化文本。具体地,组合方式可以按照自然语言的逻辑结构进行组合,也可以不按照逻辑结构进行组合,这都可以实现本发明的目的。
作为本发明的另一个具体实施方式,图6示出了一种对医学文本数据结构化处理的控制装置的功能框图,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本,包括:
实体抽取装置10,其用于其用于基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入。
结构化装置20,其用于对多个所述医学实体映射进行组合得到所述结构化文本。
转化装置30,其用于将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段。
标准组合装置40,将多个所述标准信息片段进行组合获得标准结构化文本。
优选地,所述实体抽取装置10包括如下装置:
第一输入装置101,其用于将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第一输出装置102,其用于所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵;
第一获取装置103,其用于所述医学文本数据二维矩阵被传入条件随机域获得得分大于第一得分阈值的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医疗文本数据的全局信息基于所述结构模型确定,所述得分对应所述词嵌入。
优选地,所述结构化装置20还包括如下装置:
分词装置201,其用于对所述医学文本数据执行分词操作获得文本分词结果,以及对多个所述医学实体映射执行分词操作获得医学实体映射分词结果;
匹配装置202,其用于将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射;
组合装置203203,其用于对多个所述优选医学实体映射进行组合得到所述结构化文本。
图7示出了本发明的第五实施例,一种训练结构模型的控制装置的功能框图,包括:
第二输入装置104,其用于将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第二输出装置105,其用于所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域;
第二获取装置106,其用于所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值。
本领域技术人员理解,以上图6至图7中各装置功能的实现可以是硬件、由处理器执行的软件或者二者的组合。具体地,如果通过软件模块实现,可将预先的程序烧录到所述处理器中,或者将软件安装到预置的***中;如果通过硬件实现,则可利用现场可编程门阵列 (FPGA)将对应的功能固定化实现。
进一步地,所述软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、硬盘、或本领域已知的任何其他形式的存储介质。通过将所述存储介质耦接至处理器,从而使所述处理器能够从所述存储介质中读取信息,并且可以向所述存储介质写入信息。作为一种变化,所述存储介质可以是处理器的组成部分,或者所述处理器和所述存储介质均位于专用集成电路(ASIC)上。
进一步地,所述硬件可以是能够实现具体功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或以上这些硬件的组合。作为一种变化,还可以通过计算设备的组合实现,例如,DSP和微处理器的组合、多个微处理器的组合、与DSP通信结合的一个或者多个微处理器的组合等。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种对医学文本数据结构化处理的控制方法,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本,其特征在于,包括如下步骤:
a.基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入;
b.对多个所述医学实体映射进行组合得到所述结构化文本。
2.根据权利要求1所述的控制方法,其特征在于,所述步骤a包括如下步骤:
a1.将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络;
a2.所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵;
a3.所述医学文本数据二维矩阵被传入条件随机域获得得分最大的标签序列所对应的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医学文本数据的全局信息基于所述结构模型确定,一个所述标签序列对应一个所述得分。
3.根据权利要求2所述的控制方法,其特征在于,所述步骤a之前还执行如下步骤:
i.将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络;
ii.所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域;
iii.所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值;
iv.重复步骤i、ii、iii直至所述结构模型收敛。
4.根据权利要求1至4中任一项所述的控制方法,其特征在于,所述步骤b包括如下步骤:
b1.对所述医学文本数据执行分词操作获得文本分词结果,对多个所述医学实体映射执行分词操作获得医学实体映射分词结果,所述分词操作通过分词模型完成,所述分词模型在人工标注的基础上通过模型训练的方式形成;
b2.将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射;
b3.对多个所述优选医学实体映射进行组合得到所述结构化文本。
5.根据权利要求1至5中任一项所述的控制方法,其特征在于,所述步骤b之后包括如下步骤:
c.将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段;
d.将多个所述标准信息片段进行组合获得标准结构化文本。
6.一种对医学文本数据结构化处理的控制装置,用于将对应于自然语言的医学文本数据进行结构化处理获得结构化文本,其特征在于,包括:
实体抽取装置,其用于基于结构模型对医学文本数据进行实体抽取得到多个医学实体映射,所述结构模型包括多个标签序列,所述标签序列在人工标注的基础上通过模型训练的方式形成,所述医学文本数据包括多个词嵌入;
结构化装置,其用于对多个所述医学实体映射进行组合得到所述结构化文本。
7.根据权利要求6所述的控制装置,其特征在于,所述实体抽取装置包括如下装置:
第一输入装置,其用于将所述医学文本数据转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第一输出装置,其用于所述双向长短时记忆网络输出长度为所述医学文本数据对应的序列长度以及宽度为指定长度的医学文本数据二维矩阵;
第一获取装置,其用于所述医学文本数据二维矩阵被传入条件随机域获得得分最大的标签序列所对应的词嵌入作为所述医学实体映射,所述得分由条件随机域根据所述医学文本数据的全局信息基于所述结构模型确定,一个所述标签序列对应一个所述得分。
8.根据权利要求7所述的控制装置,其特征在于,所述控制装置还包括如下装置:
第二输入装置,其用于将标准字序列转换为词嵌入二维矩阵后输入双向长短时记忆网络;
第二输出装置,其用于所述双向长短时记忆网络输出长度为所述标准字序列对应的序列长度以及宽度为指定长度的标准字序列二维矩阵,并将所述标准字序列二维矩阵被传入条件随机域;
第二获取装置,其用于所述条件随机域计算所述结构模型的条件概率并获得所述结构模型的损失值,使用反向传播的算法更新所述结构模型的各层权重并优化所述损失值。
9.根据权利要求6至8中任一项所述的控制装置,其特征在于,所述结构化装置包括如下装置:
分词装置,其用于对所述医学文本数据执行分词操作获得文本分词结果,以及对多个所述医学实体映射执行分词操作获得医学实体映射分词结果,所述分词操作通过分词模型完成,所述分词模型在人工标注的基础上通过模型训练的方式形成;
匹配装置,其用于将所述文本分词结果与所述医学实体映射分词结果进行匹配,并基于所述匹配结果从多个所述医学实体映射中筛选出多个优选医学实体映射;
组合装置,其用于对多个所述优选医学实体映射进行组合得到所述结构化文本。
10.根据权利要求6至9中任一项所述的控制装置,其特征在于,所述控制装置还包括如下装置:
转化装置,其用于将多个所述医学实体映射输入至数据库进行转化获取多个标准信息片段;
标准组合装置,将多个所述标准信息片段进行组合获得标准结构化文本。
CN201711205811.5A 2017-11-27 2017-11-27 一种对医学文本数据结构化处理的控制方法及装置 Pending CN110019711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711205811.5A CN110019711A (zh) 2017-11-27 2017-11-27 一种对医学文本数据结构化处理的控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711205811.5A CN110019711A (zh) 2017-11-27 2017-11-27 一种对医学文本数据结构化处理的控制方法及装置

Publications (1)

Publication Number Publication Date
CN110019711A true CN110019711A (zh) 2019-07-16

Family

ID=67186798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711205811.5A Pending CN110019711A (zh) 2017-11-27 2017-11-27 一种对医学文本数据结构化处理的控制方法及装置

Country Status (1)

Country Link
CN (1) CN110019711A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491519A (zh) * 2019-07-17 2019-11-22 上海明品医学数据科技有限公司 一种医学数据的检验方法
CN111326226A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 电子病历的解析处理及显示方法、装置、设备及存储介质
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN113689951A (zh) * 2021-08-04 2021-11-23 翼健(上海)信息科技有限公司 一种智能导诊方法、***和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及***
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491519A (zh) * 2019-07-17 2019-11-22 上海明品医学数据科技有限公司 一种医学数据的检验方法
CN110491519B (zh) * 2019-07-17 2024-01-02 上海明品医学数据科技有限公司 一种医学数据的检验方法
CN111326226A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 电子病历的解析处理及显示方法、装置、设备及存储介质
CN111326226B (zh) * 2020-02-14 2023-03-03 腾讯科技(深圳)有限公司 电子病历的解析处理及显示方法、装置、设备及存储介质
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN112507722B (zh) * 2020-11-30 2023-08-01 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN113689951A (zh) * 2021-08-04 2021-11-23 翼健(上海)信息科技有限公司 一种智能导诊方法、***和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110019711A (zh) 一种对医学文本数据结构化处理的控制方法及装置
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与***
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
CN106919793A (zh) 一种医疗大数据的数据标准化处理方法及装置
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及***
CN106611055A (zh) 基于层叠式神经网络的中文模糊限制信息范围检测方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、***及介质
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测***
CN112687388A (zh) 一种基于文本检索的可解释性智慧医疗辅助诊断***
CN111966825A (zh) 一种基于机器学习的电网设备缺陷文本分类方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN111950283A (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别***
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN114297986B (zh) 一种基于强化学习的icd自动合并编码***和方法
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN112861538A (zh) 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN116932762A (zh) 一种小样本金融文本分类方法、***、介质和设备
CN116595994A (zh) 基于提示学习的矛盾信息预测方法、装置、设备及介质
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200323

Address after: 361001 Department of Pediatrics, the First Affiliated Hospital of Xiamen University, No.55 Zhenhai Road, Siming District, Xiamen City, Fujian Province

Applicant after: Wu Jinzhun

Applicant after: BASEBIT (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 361003 Department of Pediatrics, First Affiliated Hospital of Xiamen University, No. 55 Zhenhai Road, Siming District, Xiamen City, Fujian Province

Applicant before: Wu Jinzhun

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716