CN107145511A

CN107145511A - 基于医学文本信息的结构化医学数据库生成方法及***

Info

Publication number: CN107145511A
Application number: CN201710208112.XA
Authority: CN
Inventors: 马汉东; 张少典
Original assignee: Shanghai Sen Sen Medical Technology Co Ltd
Current assignee: Shanghai Sen Sen Medical Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-09-08

Abstract

本发明公开了一种基于医学文本信息的结构化医学数据库生成方法，包括：获取输入的医学文本信息；确定所述医学文本信息对应的自然语义处理模型，并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，得到处理结果；确定所述处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库；该方法能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率；本发明公开了一种基于医学文本信息的结构化医学数据库生成***，具有上述有益效果。

Description

基于医学文本信息的结构化医学数据库生成方法及***

技术领域

本发明涉及医学数据处理技术领域，特别涉及一种基于医学文本信息的结构化医学数据库生成方法及***。

背景技术

非结构化医学文本信息的利用一直以来是技术领域的一大难点。现有技术一般使用人工或半人工方式处理医学文本信息。大部分有使用需求的医生或相关行业的从业人员采用人工阅读医学文本并做标准化录入的方式处理非结构化的历史医学数据(回顾性数据)。通用方法大致为，由相关人员自己或第三方技术提供商设计并编程实现电子化结构化表格(eCRF)，然后由相关人员逐份人工肉眼扫描文本数据，发现相关信息后手动输入到结构化表格中。少数技术可以实现基于关键词匹配和标准制定的半自动化信息摘取，即从文本中匹配相关词汇或表达，提供辅助性工具方便人工肉眼读取信息。

即现有解决方案大量依赖拥有专业知识的人工，其过程耗时并且花销巨大。整个过程少有智能化辅助工具，即便是人工录入信息也会因为劳动强度和内容的重复枯燥而效率低下。例如，需要从电子病历中挖掘所有癌症患者并构建数据库。现阶段做法是直接搜“癌”或者“癌症”。改进的做法是将所有癌症的相关名称列下来，从病例中关键词匹配，找出对应的病人。然而有些特殊情况下，如“肺癌”之于“右下肺小细胞癌”(注意此处用肺癌为关键词就无法找到)，或面对一种癌症的不标准表述方式，例如缩写或笔误等，现有方式就无法处理。这些技术的不足导致整个信息抽取的正确率和召回度都无法达到预计效果。即现有技术中均存在处理过程自动化、智能化不足，且人工成本极高。

发明内容

本发明的目的是提供一种基于医学文本信息的结构化医学数据库生成方法及***，能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率。

为解决上述技术问题，本发明提供一种基于医学文本信息的结构化医学数据库生成方法，所述方法包括：

获取输入的医学文本信息；

确定所述医学文本信息对应的自然语义处理模型，并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，得到处理结果；

确定所述处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库。

可选的，确定所述医学文本信息对应的自然语义处理模型，包括：

提取所述医学文本信息的关键信息点；

根据所述关键信息点确定所述医学文本信息对应的医学文本类别；

确定所述医学文本类别对应的自然语义处理模型。

可选的，利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，包括：

获取输入的颗粒度阈值；

使所述自然语义处理模型根据所述颗粒度阈值，对所述医学文本信息进行深度自然语义分析处理。

可选的，得到处理结果之后，还包括：

利用医学标准数据库对所述处理结果中包含的指定医学变量对应的处理结果进行标准化映射处理，得到标准化处理结果。

可选的，确定所述处理结果中各处理数据对应的医学变量，包括：

确定所述处理结果中各处理数据对应的初级医学变量；

利用人工规则整合修正逻辑对所述初级医学变量进行处理，得到初级医学变量处理结果；

当所述初级医学变量处理结果中存在高级医学变量时，根据对应处理数据以及所述高级医学变量对应的逻辑关系，生成高级医学变量处理数据。

可选的，获取输入的医学文本信息之后，还包括：

对所述医学文本信息进行数据脱敏处理。

本发明还提供一种基于医学文本信息的结构化医学数据库生成***，包括：

获取模块，用于获取输入的医学文本信息；

自然语义处理模块，用于确定所述医学文本信息对应的自然语义处理模型，并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，得到处理结果；

结构化医学数据库生成模块，用于确定所述处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库。

可选的，所述自然语义处理模块，包括：

颗粒度阈值获取单元，用于获取输入的颗粒度阈值；

自然语义处理单元，用于使所述自然语义处理模型根据所述颗粒度阈值，对所述医学文本信息进行深度自然语义分析处理。

可选的，本方案还包括：

标准化处理模块，用于利用医学标准数据库对所述处理结果中包含的指定医学变量对应的处理结果进行标准化映射处理，得到标准化处理结果。

可选的，所述结构化医学数据库生成模块，包括：

初级医学变量单元，用于确定所述处理结果中各处理数据对应的初级医学变量；

修正单元，用于利用人工规则整合修正逻辑对所述初级医学变量进行处理，得到初级医学变量处理结果；

高级医学变量单元，用于当所述初级医学变量处理结果中存在高级医学变量时，根据对应处理数据以及所述高级医学变量对应的逻辑关系，生成高级医学变量处理数据。

本发明所提供的一种基于医学文本信息的结构化医学数据库生成方法，包括：获取输入的医学文本信息；确定所述医学文本信息对应的自然语义处理模型，并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，得到处理结果；确定所述处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库；

可见，该方法利用自然语义处理模型自动抓取医学文本信息的医学变量形成结构化医学数据库，即能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率；本发明公开了一种基于医学文本信息的结构化医学数据库生成***，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的基于医学文本信息的结构化医学数据库生成方法的流程图；

图2为本发明实施例所提供的深度自然语义分析处理的示例图；

图3为本发明实施例所提供的基于医学文本信息的结构化医学数据库生成***的结构框图。

具体实施方式

本发明的核心是提供一种基于医学文本信息的结构化医学数据库生成方法及***，能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

医疗大数据是现今极热门及具有挑战性的领域。相比于其他众多领域，医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。然而，医疗大数据面对着诸多挑战。

首先，大量的临床数据以非结构化的文本记录形式存在，这给大数据分析提供了严峻的考验。例如医院临床数据中最大量的也是最具价值的是病人的电子病历数据。电子病历是指医务人员在医疗活动过程中形成的文字、符号、图表、影像、切片等资料的总和，包括门(急)诊病历和住院病历，电子病历不仅指静态病历信息，还包括提供的相关服务。是以电子化方式管理的有关个人终生健康状态和医疗保健行为的信息，涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。所以可见，电子病历包含的内容，是病患用户最完整、详细的临床信息资源。正由于其所包含信息的复杂程度，其极大程度上依赖大段的文本描述传达信息。这一类非结构化的文本信息如今几乎没有自动化的处理和分析方案。科研人员需通过关键字或组合条件来搜索电子病历数据。然而，常见的自然语言分词及句法树库在对医学专业的名词进行处理时，会破坏原有的专业词义，这样会严重影响搜索效果。因此，如何通过自然语言与医学专业术语相结合，形成科学合理的分词及句法分析算法显得尤为重要。

其次，是医学数据信息的缺乏标准。现今医院内部数据录入者众多，并且无体系化的数据录入标准。同时***模块众多，数据接口标准不统一。这些原因使数据在本院内都无法有效串联，成为信息孤岛。随着区域医疗资源信息平台，单个医院的数据价值仍然是十分有限，为实现区域医疗资源的优化配置，必须将区域医疗大数据互通互联。这一趋势同样被医院间的缺乏标准而严重阻碍。

因此，尽快将非结构化、非标准的医疗数据有机的识别、统一、利用将会是医学大数据领域极其重要的技术难题。本实施例即为解决该问题而设计的自动化、智能化解决方案。即本实施例可以通过自动化算法阅读、理解全科室的医学文本信息(包括电子病历、检测报告等)，使用自然语义处理模型(即人工智能算法)分析其句中的语义，并进一步结构化成为计算机可识别的结构化医学数据库。具体请参考图1，一种基于医学文本信息的结构化医学数据库生成方法，具体可以包括：

S100、获取输入的医学文本信息；

其中，本实施例并不限定具体的医学文本信息的种类。例如可以是电子病历(大病历文本)、手术记录、影像学报告以及检验报告等。即在一般应用场景下，电子病历等医学文本信息可以从医院信息***导出获取。其医学文本信息绝大多数在导出后为无格式的txt格式。

S110、确定医学文本信息对应的自然语义处理模型，并利用自然语义处理模型对医学文本信息进行深度自然语义分析处理，得到处理结果；

其中，本实施例中并不限定自然语义处理模型的种类，即可以仅仅有一个自然语义处理模型，对应的获取的全部的医学文本信息都由该自然语义处理模型进行深度自然语义分析处理。也可以是根据医学文本信息的种类，采用与医学文本信息的种类相对应的自然语义处理模型进行深度自然语义分析处理。前者训练的自然语义处理模型只有一个，因此训练过程简单。后者由于自然语义处理模型跟医学文本信息的种类相对应，因此训练的自然语义处理模型个数多，对应的其识别和提取的准确性也高。即例如医学文本有如下几大类别：大病历文本，手术记录，影像学报告，检验报告等。每个类别对应的书写标准和内容各异。因而，为达到较高的识别与抽取准确度，可以首先将不同的医学文本进行分类，并且针对不同的文本进行特异的自然语义处理模型训练。其中，自然语义处理模型获取过程可以是首先整合公开的所有医学词典，尽可能包含更多的标准医学词汇；然后收集各科室真实病例数据，寻找医学专业人士人工分词和标注病；然后使用机器学习算法，基于人工标注结果训练NLP模型。最后，并完全对应UMLS或SNOMEDCT等国际标准知识库。

即优选的，确定医学文本信息对应的自然语义处理模型可以包括：

提取医学文本信息的关键信息点；

根据关键信息点确定医学文本信息对应的医学文本类别；

确定医学文本类别对应的自然语义处理模型。

具体的，本优选实施例中关键信息点即为可以识别各类别医学文本信息的数据，例如各类关键医学概念。例如病历中一般会出现第一次病程记录，病历，首次病程等内容。而检验报告中一般会出现一些特定检验数据等关键信息内容。即本优选实施例并不限定各类型下医学文本的关键信息点，可以由用户根据各类型的医学文本的实际特点进行设置和修改。特别的本实施例中与几乎所有现有技术中最大的区别就在于本实施例使用的是机器学习加上自然语言处理的技术进行处理。因此不会使用关键词匹配作为识别重要信息的方法(因为关键词识别的准确度不足，例如一些写错字的情况、一些非标准表达就无法识别)而本实施例通过具有一定新词识别的能力，即使这个词没遇到过，也可以识别出来。即本实施例中通过关键信息点确定医学文本信息对应的医学文本类别更加可靠，准确，从而提高自然语义处理模型选择的准确性。

根据各类型的医学文本的特点，确定其对应的需要提取的医学变量，并根据此实现特定信息的识别和提取，因此根据各类型医学文本的特点训练对应的自然语义处理模型，即可以根据该自然语义处理模型提取得到对应的处理结果。

进一步，由于获取输入的医学文本信息其原有固定的格式可能无法被保留。这给相关的医学数据分析带来了极大的困难。因而可以识别医学文本中的不同片段。以病历为例进行说明：例如病历中会包含入院小结，病程记录，出院小结，手术记录等不同时期的片段。因此为了进一步提高提取精度和病历信息搜索精度可以使病历文本信息对应的自然语义处理模型能够病历文本信息中各片段，并对各片段进行深度自然语义分析处理得到各片段对应特有的医学变量的处理数据。例如采用模式匹配及深度学习结合的方法，来识别获取的病历文本的以下信息点：a、各类病历中出现的对应片段的标识词，如：“第一次病程记录”，“首次病程”，“首次病程记录”等；b、病历文本中出现特定片段的上下文，包括格式、常用语法、常用词汇等。所整合而成的算法可以精准地将一整段文本病历依据各个类别区分开，以辅助未来精确地病历筛选，例如“找出出院时患有癌症的病人”这类问题就需要通过筛选所有病人的出院小结得到结论。在实现对各片段分别进行深度自然语义分析处理，得到各片段对应的处理结果。

进一步，为了更加细致的提取获取医学文本信息的医学变量，还可以考虑不同科室或病种的内容区别，为每个科室或病种构建单独的自然语义处理模型也可以进一步提高准确度。即优选的，本实施例可以使用智能文本分类算法，可以将任意输入的文字识别成上述文本类别的某个类别并且针对性地选择适合该类别深度分析的自然语义处理模型进行处理，以期达到最好的处理效果。

其中，深度自然语义分析处理过程可以包括对医学文本信息依次进行分词处理、词性分析、实体识别、句法分析、语义分析等操作最终可以实现医学变量的提取。

进一步，为了保护医生、病人以及医院等的私人信息或者敏感信息不被公开。本优选实施例还可以对医学文本信息进行数据脱敏处理(去除病人隐私信息、医院等机构名称、医生等工作人员信息等)等。

请参考图2，为深度自然语义分析处理示例图，其采用通用的自然语义处理逻辑，并整合了医学方面关注的脱敏(去除病人隐私信息、医院等机构名称、医生等工作人员信息等)等步骤，实现了对于医学文本信息的深度客户化语义分析。该分析流程可以将病历中的专业词汇等且分开，进行相关的词性分析(例如，属于疾病、症状、指标等)，将其根据知识库进行表达方式归一化(例如“乳肿块”变为“***肿块”，“一年余”变为“>1年(>1year)”)。然后进行相关的关联分析，发现所提取的重要信息词汇间的关联性。举例来说，如病历中的一句话：“发现右乳肿块1年余”，经过本步骤后会将：“发现”，“右”，“乳”，“肿块”，“一年”，“余”等词汇切分，然后经过***发现“右“是属于“部位(方位)”，“***肿块”是一类疾病，“一年余”是个时间节点。并且***肿块的“部位”是右侧，***肿块的时间是“一年余”具体请参考图2。

S120、确定处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库。

具体的，该步骤具体将处理结果中包含的各个处理数据填入对应的医学变量中得到结构化医学数据库。即将输入的非结构化医学文本信息转化为以变量表示的结构化医学数据库。即该结构化医学数据库可以通过列表结构记录每个输入医学文本信息。这里的医学变量可以由用户进行预先设定。其设定过程可以考虑自然语义处理模型对应的医学文本信息的种类，甚至于其片段来确定需要提取的医学变量。其中医学变量可以包括时间，疾病、症状、指标等。

在形成该结构化医学数据库后，用户可以通过录入医学文本信息编号查询该医学文本信息，也可以通过输入想到搜索的医学变量的具体数值进行数据库数据查询，还可以通过输入文本类型进行对应医学文本数据查询，或者输入某一类型下的具体片段进行对应数据查询。

基于上述技术方案，本发明实施例提的基于医学文本信息的结构化医学数据库生成方法，利用自然语义处理模型自动抓取医学文本信息的医学变量形成结构化医学数据库，即能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率。

由人工及规则生成的数据库很难灵活改动，添加或修改医学变量后之前积累的变量无法自动补全。因而任何数据库的改动智能针对前瞻性数据，回顾性数据及先期收集的数据库经常被放弃。这个特征要求在设计数据库抽提模型时就必须周全完善，然而由于不同项目和人员的需求不同，此模型的客户化要求会相当复杂及频繁。因此，现有技术中得到的数据库灵活度不足，生成的结构化表格(数据库)很难进行修正与改动。因此，基于上述实施例，为了使利用自然语义处理模型对医学文本信息进行深度自然语义分析处理可以包括：

获取输入的颗粒度阈值；

使自然语义处理模型根据颗粒度阈值，对医学文本信息进行深度自然语义分析处理。

具体的，在各类不同用户的使用过程中，很多时候各类人对于医学变量的颗粒度的需求是不一致的，例如有些结构化录入的方面希望文本病历被完全打散，任何不是专业名词的词汇都被分开，以供其筛选。另外有些临床需求则是从病历中把所有查体内容抽出来，或者把代表MRI结果的一句话抽提出来。因此为满足这一类的需求，本实施例提供了调整抽取颗粒度(即颗粒度阈值)的可能。这样，通过颗粒度阈值的调整，不同用户可以将医学文本在不同尺度打散(碎成渣还是碎成几块)。例如，对于同一医学文本信息中名词的解读有很多种方式。如“右下腹痛”，首先可分为疼痛的一种，其位置在腹部，具体又在右下腹。这样“右下腹痛”在不同的医学工作者眼中就可以分为“痛”，“腹痛”，“下腹痛”，“右下腹痛”的类别。此类解读规则无法通过某个特定的标准进行统一，其可能随研究目的的改变而变化。

因此，本实施例提供可以让用户选择分词颗粒度的方法。基本实施例中使用的分词算法计算医学文本信息中每个字被切分开的概率，因而对应不同的颗粒度阈值可以将文本切分成块数各异，词长各异的片段。例如，用户如需将医学文本信息尽可能拆分开，其可以将颗粒度阈值设置较低，这样，一旦两个文字不是十分明确一定出现在一起，都会被分开(颗粒度阈值设置的最低及将文本完全切分成汉子组合)。反之，亦然。以此，通过对分词阈值的控制，用户可以控制片段的切分程度。

进一步，用户也可以通过更高级的切分方式进行限制。即优选的，为了使利用自然语义处理模型对医学文本信息进行深度自然语义分析处理可以包括：

获取输入的切分规则；

使自然语义处理模型根据所述切分规则，对医学文本信息进行深度自然语义分析处理。

具体的，如上例中的“右下腹痛”，其中“右下”被识别为修饰“腹”这个身体部位的方位词，“腹”进一步修饰症状“痛”。用户可以指定统一将身体部位与症状进行切分(右下、腹、痛)或合并(右下、腹痛)，或者可以将三者进行组合(右下腹痛)，以此更精确地控制分词的颗粒度。

由于中文临床非结构化文本数据的标准程度较低，写法表述方法各异，导致在没有知识库的状态下很难做标准化的信息抽取。现阶段，国内也并无普适的临床数据标准(知识库)以辅助信息抽取与标准化。广义来说每个科室都有不少的数据库。然而这些数据库之间如何交流与传承(时间维度与空间维度)就成了问题。很可能的是耗时耗力做的数据库就用在了一篇文章中就无法再次使用了。例如不同的医院、科室、录入员的参与过程中病历的书写表达***，由此产生的不规范特性为后期的数据统筹分析产生了极大的难度。本实施例可以解决数据库中数据标准化不足，数据交流与传承受限的问题。即基于上述任意实施例，本实施例中还可以包括：

利用医学标准数据库对处理结果中包含的指定医学变量对应的处理结果进行标准化映射处理，得到标准化处理结果。

具体的，为了解决输入数据的二义性和不规范用法，在医学文本结构化过程中，本实施例可以识别各类非标准的医学表达并将其统一到国际医学标准知识库。这一特征保证所有流经算法的医学数据，不管是否为同一人录入、是否来自同一***、是否来自同一医院，都可以互联互通。即将所有见到的词汇映射到医学标准数据库。这个映射的过程将所有医学文本信息中出现的、非标准的表达方式统一到某个特定的概念上或者将处理结果中出现的、非标准的表达方式统一到某个特定的概念上。从而在未来遇到类似表达的时候能够精准地将其统一成标准格式，并理解其表达的意思。其中医学标准数据库可以包括：SNOMED-CT，ICD，HPO，UMLS等，但并不限定于此。即可以将一种事物的多种习惯用法映射为统一的规范性用语即可。

例如，中文医学内容的表达形态各异，针对某个特定疾病可能有多种表达方式，例如：脑卒中、中风此类。其中可以大致分为以下及各类别：缩写(中/英)，不规范表达，错误书写等。而这些不同的表述在不同文本中可能代表着相同的意向。此时就需要将代表着同一个含义的词汇进行标准化处理，并且需要保证此标准化的结果符合国内国际被认可的医学知识标准，例如展示症状的SNOMED-CT或疾病分类的ICD或药物的RxNorm等。

基于上述任意实施例，确定处理结果中各处理数据对应的医学变量可以包括：

确定处理结果中各处理数据对应的初级医学变量；

利用人工规则整合修正逻辑对初级医学变量进行处理，得到初级医学变量处理结果；

当初级医学变量处理结果中存在高级医学变量时，根据对应处理数据以及高级医学变量对应的逻辑关系，生成高级医学变量处理数据。

具体的，在医学领域，存在最基础的可以被直接写在病历中的医学变量(此处称之为初级医学变量或者低级医学变量)。同时也存在一些需要整合低级变量才能得到结论的高级医学变量(例如，绝大多数的医学评分需要根据数个初级医学变量整合计算而成)。为满足用户计算此类高级医学变量的需求，本实施例提供了自然语言处理后人工规则整合修正的功能。使用此功能，用户可以基于前期自然语言处理得出的结论，将变量相互组合，添加逻辑关系，最后生成对应的高级医学变量。

针对医学文本信息中得到的初级医学变量，通过人工规则整合修正逻辑判断其是否能够得到高级医学变量；若存在高级医学变量，则根据得到该高级医学变量对应的初级医学变量的具体数据，确定该高级医学变量的处理数据。即针对多样的医学需求，有些医学信息需要通过特定的逻辑判断得到并且被进一步分析。例如，医学工作者希望知道是否手术病人在术中出现了一些特定呼吸***并发症症状，如呼吸暂停、肺不张等。如此，这个变量信息就无法直接通过病历文本得到。相反，其需要对病历中关键信息点进行识别后经过特定的逻辑判断得到。为得到此类变量，***首先通过自然语言处理引擎将病人手术的信息提取，以及手术记录中的“呼吸暂停”、“肺不张”。经过逻辑判断，可以找到在术中出现“呼吸暂停”AND/OR“肺不张”的症状的情况，以此生成新变量“术中并发症有无”。

进一步，为了提高结构化医学数据库的适应性，更好的满足各类用户的实际需求，用户可以填写结构化表单已生成与自身需求更加相符的结构化医学数据库。其中，这里的结构化表单主要是由用户填写一些结构化医学数据库生成处理规则。例如规定医学文本信息即数据源的来源，数量等，输出结果即医学变量的种类等，高级医学变量的抽取规则等，是否需要对数据进行标准化处理等，以及其他一些对最终结构化医学数据库形成有关的信息要求等。本实施例并不对具体的结构化表单的内容进行限定。

进一步，由于用户规模可以很大，例如用户为一个医院，那么其对应一个大的结构化医学数据库可能在各个科室部门的使用过程中会出现每次数据搜索均在全院范围内进行，会扩大数据搜索范围。为了进一步提高用户结构化医学数据库使用效率，可以在该结构化医学数据库中建立项目组，并规定项目组的数据源，变量数等，进而可以形成各个项目组对应的结构化医学数据库。用户也可以是随时对项目组进行管理，例如增加，删除或者修改项目组。从而提高结构化医学数据库的使用效率。

基于上述技术方案，本发明实施例提供的基于医学文本信息的结构化医学数据库生成方法，能够提升结构化医学数据库生成的自动化程度和智能化程度，大大降低人工成本，提高结构化医学数据库生成效率，提高方案灵活度，生成的结构化表格(数据库)易于修正与改动，将医学文本信息中变量数据进行标准化处理，以提高了数据交流与传承能力。

下面对本发明实施例提供的基于医学文本信息的结构化医学数据库生成***进行介绍，下文描述的基于医学文本信息的结构化医学数据库生成***与上文描述的基于医学文本信息的结构化医学数据库生成方法可相互对应参照。

请参考图3，图3为本发明实施例所提供的基于医学文本信息的结构化医学数据库生成***的结构框图；该***可以包括：

获取模块100，用于获取输入的医学文本信息；

自然语义处理模块200，用于确定医学文本信息对应的自然语义处理模型，并利用自然语义处理模型对医学文本信息进行深度自然语义分析处理，得到处理结果；

结构化医学数据库生成模块300，用于确定处理结果中各处理数据对应的医学变量，并将各处理数据输入到对应医学变量的对应位置，得到结构化医学数据库。

基于上述实施例，自然语义处理模块200可以包括：

颗粒度阈值获取单元，用于获取输入的颗粒度阈值；

自然语义处理单元，用于使自然语义处理模型根据颗粒度阈值，对医学文本信息进行深度自然语义分析处理。

基于上述任意实施例，该***还包括：

标准化处理模块，用于利用医学标准数据库对处理结果中包含的指定医学变量对应的处理结果进行标准化映射处理，得到标准化处理结果。

基于上述任意实施例，结构化医学数据库生成模块300可以包括：

初级医学变量单元，用于确定处理结果中各处理数据对应的初级医学变量；

修正单元，用于利用人工规则整合修正逻辑对初级医学变量进行处理，得到初级医学变量处理结果；

高级医学变量单元，用于当初级医学变量处理结果中存在高级医学变量时，根据对应处理数据以及高级医学变量对应的逻辑关系，生成高级医学变量处理数据。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于医学文本信息的结构化医学数据库生成方法及***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于医学文本信息的结构化医学数据库生成方法，其特征在于，所述方法包括：

获取输入的医学文本信息；

2.根据权利要求1所述的方法，其特征在于，确定所述医学文本信息对应的自然语义处理模型，包括：

提取所述医学文本信息的关键信息点；

确定所述医学文本类别对应的自然语义处理模型。

3.根据权利要求1或2所述的方法，其特征在于，利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理，包括：

获取输入的颗粒度阈值；

4.根据权利要求3所述的方法，其特征在于，得到处理结果之后，还包括：

5.根据权利要求4所述的方法，其特征在于，确定所述处理结果中各处理数据对应的医学变量，包括：

确定所述处理结果中各处理数据对应的初级医学变量；

6.根据权利要求5所述的方法，其特征在于，获取输入的医学文本信息之后，还包括：

对所述医学文本信息进行数据脱敏处理。

7.一种基于医学文本信息的结构化医学数据库生成***，其特征在于，包括：

获取模块，用于获取输入的医学文本信息；

8.根据权利要求7所述的***，其特征在于，所述自然语义处理模块，包括：

颗粒度阈值获取单元，用于获取输入的颗粒度阈值；

9.根据权利要求8所述的***，其特征在于，还包括：

10.根据权利要求9所述的***，其特征在于，所述结构化医学数据库生成模块，包括：