CN108831562A

CN108831562A - 一种疾病名称标准化规范数据库及其建立方法

Info

Publication number: CN108831562A
Application number: CN201810647291.1A
Authority: CN
Inventors: 华明; 陈欣然; 那日苏; 秦其昌; 范军
Original assignee: Beijing Haide Health Mdt Infotech Ltd
Current assignee: Beijing Haide Health Mdt Infotech Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-16

Abstract

本发明涉及一种疾病名称标准化规范数据库及其建立方法，该疾病名称标准化规范数据库包括单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称；分别与各单一疾病子库标签名称链接的多个单一疾病子库，各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，其中，疾病口语化名称存储区用于存储多个疾病口语化名称，疾病标准化名称存储区用于存储一个疾病标准化名称，每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联。本发明的疾病名称标准化规范数据库及其建立方法能够从疾病名称标准化规范数据库中将口语化名称转换成标准化描述，以提高对疾病名称的识别效率。

Description

一种疾病名称标准化规范数据库及其建立方法

技术领域

本发明涉及医疗信息化技术领域，尤其涉及一种疾病名称标准化规范数据库及其建立方法。

背景技术

目前，由于医疗人员的医疗任务繁重无法对诊断结果进行标准化描述或标准编码，而且不同的医疗人员由于个人习惯等原因对同一种疾病的描述不同甚至对诊断结果进行缩写等，导致同一种疾病的名称在不同的医疗机构或不同的医疗人员之间往往是不同的，这给需要使用诊断结果的人员带来了负担，若要求医疗人员对疾病标准化，这对于医疗人员也是一种负担。

国际疾病分类(international Classification of diseases，ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的***。然而，国际疾病分类是疾病的标准化描述与标准编码的对应关系表。对于疾病的口语化名称不适用。

随着信息技术的迅猛发展，互联网数据迸发、海量互联网小文件的实时存储与处理成为越来越多互联网应用所面临的难题。相对于大文件而言，海量小文件的实时存取会给文件***带来巨大的压力，传统的文件***很难快速地存取海量小文件，这严重影响到互联网应用的实时性。内存数据库技术凭借其在数据处理速度上的优势，为海量互联网小文件的实时存储与处理提供了新的方法。关系数据库的局限性导致其性能受到很大限制，并发性低，难以满足公众日益增长的需求。因此，提高矢量数据服务的实时响应速度，满足其高并发、高吞吐量要求是一个迫切需要解决的关键问题。

因此，需要一种疾病名称标准化规范数据库及其建立方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的疾病名称标准化规范数据库及其建立方法，能够从疾病名称标准化规范数据库中将口语化名称转换成标准化描述，以提高对疾病名称的识别效率。

根据本发明的一个方面，提供一种疾病名称标准化规范数据库，包括单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称；分别与各单一疾病子库标签名称链接的多个单一疾病子库，各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，其中，疾病口语化名称存储区用于存储多个疾病口语化名称，疾病标准化名称存储区用于存储一个疾病标准化名称，每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联。

疾病口语化名称存储区还用于实时接收新的疾病口语化名称；疾病名称标准化翻译区还用于在疾病名称标准化翻译区将新的疾病口语化名称与对应的疾病标准化名称关联。

在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称依据时间维度分片存储。

在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称格式是统一的。

在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称是不重复的。

根据本发明的一个方面，提供一种上述疾病名称标准化规范数据库的建立方法，包括：

根据疾病种类建立单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称，每一个单一疾病子库标签名称对应一个单一疾病子库；

分别建立疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，并聚合成单一疾病子库夹；

将多个疾病口语化名称填入疾病口语化名称存储区，将一个疾病标准化填入疾病标准化名称存储区，并将映射关联模型填入疾病名称标准化翻译区，以生成单一疾病子库。

上述疾病名称标准化规范数据库的建立方法，还包括：

实时接收新的疾病口语化名称并纳入疾病口语化名称存储区，在疾病名称标准化翻译区将新的疾病口语化名称与对应的疾病标准化名称关联。

上述疾病名称标准化规范数据库的建立方法，还包括：

对疾病口语化名称存储区中的疾病口语化名称进行垂直拆分，并依据时间维度对数据进行分片存储。

上述疾病名称标准化规范数据库的建立方法，还包括：

对疾病口语化名称存储区中的疾病口语化名称进行统一格式处理。

上述疾病名称标准化规范数据库的建立方法，还包括：

对疾病口语化名称存储区中的疾病口语化名称进行去重处理。

本发明与现有技术相比，具有以下优点：

1.本发明的疾病名称标准化规范数据库及其建立方法中，对同一单一疾病子库中的多个口语化名称和一个标准化描述进行训练，使得每个口语化名称均与该标准化描述形成关联，当输入单一疾病子库中预存的口语化名称时，能够直接输出对应的标准化描述，简单又高效。

2.本发明的疾病名称标准化规范数据库及其建立方法中，还实时接收新的口语化名称，并将该口语化名称纳入对应的单一疾病子库中，以实时更新单一疾病子库，以提高匹配概率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的设置。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明的疾病名称标准化规范数据库的结构示意图；

图2为本发明的疾病名称标准化规范数据库建立方法的步骤图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所设置。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明的疾病名称标准化规范数据库的结构示意图，如图1所示，本发明提供的疾病名称标准化规范数据库包括单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称；分别与各单一疾病子库标签名称链接的多个单一疾病子库，各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，其中，疾病口语化名称存储区用于存储多个疾病口语化名称，疾病标准化名称存储区用于存储一个疾病标准化名称，每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联。本发明的疾病名称标准化规范数据库中，对同一单一疾病子库中的多个口语化名称和一个标准化描述进行训练，使得每个口语化名称均与该标准化描述形成关联，当输入单一疾病子库中预存的口语化名称时，能够直接输出对应的标准化描述，简单又高效。

其中，单一疾病子库标签名称可以参考ICD-10中列出的疾病种类，同时，可以根据最新版本的ICD更新单一疾病标签总库中的疾病种类，即单一疾病子库标签名称。

疾病口语化名称存储区还用于实时接收新的疾病口语化名称；疾病名称标准化翻译区还用于在疾病名称标准化翻译区将新的疾病口语化名称与对应的疾病标准化名称关联。本发明的疾病名称标准化规范数据库建立方法中，还实时接收新的口语化名称，并将该口语化名称纳入对应的单一疾病子库中，以实时更新单一疾病子库，以提高匹配概率。

在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称依据时间维度分片存储。具体地，对各单一疾病子库中的描述数据进行垂直拆分，并依据时间维度使用Sqoop(Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL...)间进行数据的传递)工具对数据进行分片存储。其中，利用HivePartitioning(Hive分区)对数据进行分片存储。具体地，获取诊疗数据，并把该诊疗数据按照生成年份，拆分成年度数据块，存储到HDFS中。根据诊疗数据的特性，采用垂直拆分的原则。依据就诊日期作为Sharding的维度，按年拆分数据块，对拆分后的数据块进行标记，分别为block_1，block_2，block_3，block_4，block_5。使用Sqoop工具将数据库中的数据导入到Hive数据库中，把已拆分的block数据块进行分片存储，使用Hive Partitioning，分片名称为block_1，block_2，block_3，block_4，block_5。

在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称格式是统一的。在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称是不重复的。

通过本发明的疾病名称标准化规范数据库智能提取疾病名称的标准化描述，并且能够允许医疗人员从疾病名称标准化规范数据库自由选择标准化描述，以防止诊断结果有笔误或查看诊断结果的人员无法判断疾病的类型。

通过使用本发明的疾病名称标准化规范数据库极大的提高了诊断结果识别效率，例如一家保险公司，需要判断的疾病种类少则上千、多则上万，如果每次判断都需要把保险公司的工作人员通过人工查找疾病名称的标准化描述，会浪费很多时间，让疾病名称的标准化描述变成了复杂的劳动，而且由于是非专业人员，很容易出现判断错误的现象，但采用本发明的疾病名称标准化规范数据库查询疾病名称的标准化描述，极大提高了保险公司的工作人员的效率。

图2为本发明的疾病名称标准化规范数据库建立方法的步骤图，如图2所示，上述疾病名称标准化规范数据库的建立方法，包括：根据疾病种类建立单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称，每一个单一疾病子库标签名称对应一个单一疾病子库；分别建立疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，并聚合成单一疾病子库夹；将多个疾病口语化名称填入疾病口语化名称存储区，将一个疾病标准化填入疾病标准化名称存储区，并将映射关联模型填入疾病名称标准化翻译区，以生成单一疾病子库。其中，疾病种类可以参考ICD-10中列出的疾病种类。

上述疾病名称标准化规范数据库的建立方法，还包括：根据最新版本的ICD更新单一疾病标签总库中的疾病种类，即单一疾病子库标签名称。

单一疾病子库夹是指仅有空间无数据填入时的单一疾病子库。

上述疾病名称标准化规范数据库的建立方法，还包括：

获取的诊疗数据，即单一疾病子库中的描述数据中存在大量不规则数据，比如诊断字段内的重复、标点符号、全角半角、关键词之间的分隔符等。针对这种情况，本发明的疾病名称标准化规范数据库建立方法包括以下几种方法。

上述疾病名称标准化规范数据库的建立方法，还包括：

对疾病口语化名称存储区中的疾病口语化名称进行统一格式处理，以免重复存储。具体地，例如利用MapReduce程序，对不规则的诊疗数据做去重处理，诊疗数据为dm/dm/肥胖/、dm|dm|肥胖、dm\dm\肥胖，处理结果为dm,肥胖、dm,肥胖、dm,肥胖，全部统一成英文逗号分割字符串。使用MapReduce对诊疗数据进行统一格式处理后会生成新文件为block_clean_step1_1，block_clean_step1_2，block_clean_step1_3，block_clean_step1_4，block_clean_step1_5。

上述疾病名称标准化规范数据库的建立方法，还包括：

对疾病口语化名称存储区中的疾病口语化名称进行去重处理，以尽可能地缩小数据量，节省存储空间，并对分词、同义词和错别字分别进行标注，以免重复存储。

上述疾病名称标准化规范数据库建立方法，还包括：对各单一疾病子库中的描述数据进行半角化处理。其中，全角半角转换使用Unicode(统一码)值，全角空格和半角空格差值是12256，其他全角和半角Unicode差值为65248。使用MapReduce对诊疗数据进行半角化处理后会生成新文件为block_clean_step2_1，block_clean_step2_2，block_clean_step2_3，block_clean_step2_4，block_clean_step2_5。

MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。

MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个***在运行时只关心：如何分割输入数据，在大量计算机组成的集群上的调度，集群中计算机的错误处理，管理集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理***开发经验的程序员有效利用分布式***的丰富资源。

上述疾病名称标准化规范数据库建立方法，还包括：对口语化名称进行NLP训练，使得口语化名称与分词对应关联。本发明的疾病名称标准化规范数据库建立方法将口语化名称与分词建立连接，因此，分词能够通过口语化名称这一中间桥梁转换成标准化描述，简单又高效。

NLP(Natural Language Processing)，自然语言处理，又称NLU(NaturalLanguage Understanding)自然语言理解，是语言信息处理的分支，也是人工智能的核心课题，简单来说就是让计算机理解自然语言。

NLP研究的内容和范围都很多，主要研究如下的一些方面。

机器翻译(Machine Translation,MT)：用机器把一种语言的文字翻译成为另外一种语言；自动生成文摘((Automatic Summarizing)：对原来的文本的内容和含义先理解，然后总结和概括，最后用简短的话语表述出来；对相关信息进行检索(InformationRetrieval)：用计算机***从海量文本中找到符合用户需求的相关文本，如果面向两种及两种以上的语言则称为跨语言信息检索；文本分类(Document Categorization)：对于给定的一个文本，使用计算机对它按照一定的原则划分为相应的类别；回答问题***(Question-Answering System)：对于提出的问题，用计算机进行获取，理解问题的意思，再找到问题的答案，并进行回答；对信息进行过滤(Information Filtering)：主要对网络中的不良信息进行过滤和识别；信息抽取(information extraction)：从文本中抽取特定事件或事实信息，信息抽取***通常以信息检索***的输出为输入，而且能提高信息检索***的性能；文本挖掘(text mining)：也叫数据挖掘，是从文本中获得高质量信息的过程；舆情分析(public opinion analysis)：是群众在网络上围绕某个社会事件或言论对管理这所抱有的政治态度，是一项十分复杂，涉及面众多的综合性技术；隐喻计算(metaphoricalcomputation)：用某事物或其某些特征来描述另一事物的语言现象；自动纠错和自动校对(Automatic Proofreading)：进行文本内容的核对，以及纠正错误；作文自动评分:自动对作文的质量和写作的水平进行评价和打分；光读字符辨识(Opitical CharacterRecognition,OCR)：将手写的或印刷的文字进行识别，然后再将它们变换成电子文本；使用相应的技术转换为对应的书面语表示，也称自动语音识别(ASR)；文本-语言转换(Text-To-Speech Convension)：把文字的数据转换成为语音数据；语音的识别/验证/认证(SpeakerRecognition/Identification/Verification)：声学分析说话者的语音样本，从而对说话者的身份进行判断。

应用实施例一

当本发明的疾病名称标准化规范数据库用于对外API(Application ProgrammingInterface，应用程序编程接口)时，具体过程如下：

S11：获取用户输入，并处理关键词中的特殊符号、空格等不规范书写，生成keyword；

S12：对处理过的关键词进行纠正处理，将错别字纠正成正确拼写，例如将keywood修改成keyword。

S13：对纠正后的关键词进行分词，使用最大化分词，并对分词进行同义词关联，关联到的同义词生成同义词族，对关键词进行分词后，得到多个分词集，标记为keyword1，keywork2...keywordN。

S14：分好词之后，遍历分词集，在疾病名称标准化规范数据库中搜索，如果搜到疾病名称的标准化描述，则返回结果输出模块。分词结果标记成result1，result2...resultN。未搜到疾病名称的标准化描述，则保存到未命中的待处理集中，标记为NotHit1，NotHit2...NotHitN，待进入搜索模块。

S15：搜索模块，未命中的关键词在Elasticsearch中进行搜索，即对NotHit1，NotHit2...NotHitN进行遍历，得到结果result1，result2...resultN。

S16：将得到的结果集中的result1，result2...resultN进行遍历，缓存至redis中，并设置过期时间，以免缓存溢满。

应用实施例二

将DMⅡ输入名称查询模块，名称纠正模块将DMⅡ的格式统一成标准格式例如无空格半角格式，名称匹配模块将标准格式的DMⅡ与疾病名称标准化规范数据库中预存的疾病名称的口语化名称例如在各单一疾病子库中进行匹配，在包括糖尿病二型、NDM、DMⅡ等口语化名称和标准化名称E71.000的单一疾病子库中找到与查询元素DMⅡ匹配的口语化名称DMⅡ，名称提取模块将标准化名称E71.000提取出来发送至终端。

因此，在本发明的方法中，获取实时疾病诊断信息；应用层使用Redis作为应用层数据集缓存，然后基于最大正向匹配算法进行分词处理，基于Elasticsearch进行分词搜索来供前端应用程序使用，经过预设的单一疾病库的疾病识别模型对所获实时用户输入的关键词特征进行分析，以确定所获实时疾病名称的诊断内容是否为规范、标准化疾病名；若确认所获实时疾病名称的诊断内容不规范，则发送到第三方识别***进行再次识别及归类。本发明能够及时将检索的关键词通过分层处理，准确辨识及处理疾病诊断的规范化，数据相对独立，容错性高，数据可追溯性也比较强，可以兼顾高并发数据处理和前端应用的低延迟交互需求。

本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种疾病名称标准化规范数据库，其特征在于，包括单一疾病标签总库，该单一疾病标签总库包括多个单一疾病子库标签名称；分别与各单一疾病子库标签名称链接的多个单一疾病子库，各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区，其中，疾病口语化名称存储区用于存储多个疾病口语化名称，疾病标准化名称存储区用于存储一个疾病标准化名称，每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联。

2.根据权利要求1所述的疾病名称标准化规范数据库，其特征在于，

疾病口语化名称存储区还用于实时接收新的疾病口语化名称；

疾病名称标准化翻译区还用于在疾病名称标准化翻译区将新的疾病口语化名称与对应的疾病标准化名称关联。

3.根据权利要求2所述的疾病名称标准化规范数据库，其特征在于，

4.根据权利要求3所述的疾病名称标准化规范数据库，其特征在于，在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称格式是统一的。

5.根据权利要求4所述的疾病名称标准化规范数据库，其特征在于，在疾病口语化名称存储区中，疾病口语化名称存储区中的疾病口语化名称是不重复的。

6.一种根据权利要求1所述的疾病名称标准化规范数据库的建立方法，其特征在于，包括：

7.根据权利要求6所述的疾病名称标准化规范数据库的建立方法，其特征在于，还包括：

8.根据权利要求7所述的疾病名称标准化规范数据库的建立方法，其特征在于，还包括：

9.根据权利要求8所述的疾病名称标准化规范数据库的建立方法，其特征在于，还包括：

10.根据权利要求9所述的疾病名称标准化规范数据库的建立方法，其特征在于，还包括：