CN109637607A

CN109637607A - 医疗数据归类方法、装置、计算机设备和存储介质

Info

Publication number: CN109637607A
Application number: CN201811581118.2A
Authority: CN
Inventors: 李菁; 袁勇; 王新凤
Original assignee: Guangzhou Tian Peng Computer Science And Technology Co Ltd
Current assignee: Guangzhou Tian Peng Computer Science And Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-16

Abstract

本申请涉及一种医疗数据归类方法、装置、计算机设备和存储介质。所述方法包括：获取待归类医疗数据；获取所述待归类医疗数据的待归类特征点；所述待归类特征点根据所述待归类医疗数据的数据特征在特征向量空间的位置而确定；计算所述待归类特征点与已归类特征点的点间距离；所述已归类特征点根据已归类医疗数据的数据特征在特征向量空间的位置而确定；根据所述点间距离，确定所述待归类医疗数据的医疗数据类别。采用本方法能够提升了医疗数据归类的效率。

Description

医疗数据归类方法、装置、计算机设备和存储介质

技术领域

本申请涉及医疗数据处理技术领域，特别是涉及一种医疗数据归类方法、装置、计算机设备和存储介质。

背景技术

诊断、药品、医检、治疗方案等的医疗数据对于进行医疗数据分析具有极为重要的意义。为了进行有效的医疗数据分析，首先需要对医疗数据进行归一化处理，从而将医疗数据归类。例如，相同疾病可以具有不同的写法，但可以归类为同一个ICD((InternationalClassification of Diseases，国际疾病分类编码)。

然而，目前的医疗数据归一化依赖于人工操作，即，由人工对医疗数据进行归类。当医疗数据量庞大且结构复杂时，人工进行归类的方法耗费大量的人力物力，归类效率较低。

因此，现有技术的医疗数据归类方法存在着归类效率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种医疗数据归类方法、装置、计算机设备和存储介质。

一种医疗数据归类方法，包括：

获取待归类医疗数据；

获取所述待归类医疗数据的待归类特征点；所述待归类特征点根据所述待归类医疗数据的数据特征在特征向量空间的位置而确定；

计算所述待归类特征点与已归类特征点的点间距离；所述已归类特征点根据已归类医疗数据的数据特征在特征向量空间的位置而确定；

根据所述点间距离，确定所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述根据所述点间距离，确定所述待归类医疗数据的医疗数据类别，包括：

根据所述点间距离，在所述已归类特征点中，提取候选特征点；

确定所述候选特征点对应的医疗数据类别；

根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述已归类特征点具有M个，所述根据所述点间距离，在所述已归类特征点中，提取候选特征点，包括：

对M个已归类特征点的点间距离进行排序；

确定所述点间距离最小的K个已归类特征点，作为所述候选特征点；其中，M＞K＞0。

在一个实施例中，所述根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别，包括：

划分所述候选特征点，得到特征点集合；所述特征点集合中各候选特征点的医疗数据类别相同；

统计所述特征点集合中各候选特征点的数量，得到特征点总数；

确定最大特征点总数，并确定所述最大特征点总数对应的特征点集合，为目标集合；

将所述目标集合的医疗数据类别，作为所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述计算所述待归类特征点与已归类特征点的点间距离，包括：

获取所述待归类特征点在所述特征向量空间的第一空间坐标，以及，获取所述已归类特征点在所述特征向量空间的第二空间坐标；

计算所述第一空间坐标与所述第二空间坐标的距离，得到所述点间距离。

在一个实施例中，所述待归类医疗数据包括诊断数据、药品数据、医检数据中的至少一种。

在一个实施例中，当所述待归类医疗数据为所述诊断数据，所述医疗数据类别包括国际疾病分类编码和/或国际疾病分类名称；

当所述待归类医疗数据为所述药品数据，所述医疗数据类别包括药品名称、药品规格、药品使用方式中的至少一种；

当所述待归类医疗数据为所述医检数据，所述医疗数据类别包括检查方式编码、医检类别、医检编码中的至少一种。

一种医疗数据归类装置，包括：

数据获取模块，用于获取待归类医疗数据；

特征点获取模块，用于获取所述待归类医疗数据的待归类特征点；所述待归类特征点根据所述待归类医疗数据的数据特征在特征向量空间的位置而确定；

距离计算模块，用于计算所述待归类特征点与已归类特征点的点间距离；所述已归类特征点根据已归类医疗数据的数据特征在特征向量空间的位置而确定；

归类模块，用于根据所述点间距离，确定所述待归类医疗数据的医疗数据类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待归类医疗数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待归类医疗数据；

上述医疗数据归类方法、装置、计算机设备和存储介质，通过根据待归类医疗数据的数据特征在特征向量空间的位置而确定待归类特征点，然后计算待归类特征点与已归类特征点的点间距离，根据该点间距离确定待归类医疗数据的医疗数据类别，从而实现了对待归类医疗数据的自动归类，无须由人工对医疗数据进行归类，节省了人力物力，提升了医疗数据归类的效率。

而且，根据医疗数据的特征点计算点间距离，并根据点间距离进行医疗数据归类，相比起其他医疗数据归类方式，提升了归类的准确率。

附图说明

图1是一个实施例的一种医疗数据归类方法的流程示意图；

图2是一个实施例的一种医疗数据归类装置的结构框图；

图3是一个实施例的一种归类工具的流程框架示意图；

图4是一个实施例的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种医疗数据归类方法，包括以下步骤：

步骤S110，获取待归类医疗数据。

其中，待归类医疗数据可以为初始的、未进行归类的医疗数据。医疗数据可以具体包括诊断数据、药品数据、医检数据等的医疗数据。

具体实现中，可以从电子病历中提取待归类医疗数据，或者，由医护人员输入待归类医疗数据。例如，可以从电子病历中提取出麻疹、荨麻疹等的疾病诊断结果，作为待归类医疗数据。

步骤S120，获取所述待归类医疗数据的待归类特征点；所述待归类特征点根据所述待归类医疗数据的数据特征在特征向量空间的位置而确定。

其中，待归类特征点可以为记录待归类医疗数据的数据特征在特征向量空间的位置的空间坐标点。数据特征可以为待归类医疗数据的文本特征。例如，“麻疹”的文本特征。

具体实现中，可以提取待归类数据的数据特征，计算该数据特征在特征向量，确定该特征向量在特征向量空间的位置，得到数据特征在特征向量空间的坐标点，作为待归类特征点。

步骤S130，计算所述待归类特征点与已归类特征点的点间距离；所述已归类特征点根据已归类医疗数据的数据特征在特征向量空间的位置而确定。

其中，已归类特征点可以为记录已归类医疗数据的数据特征在特征向量空间的位置的空间坐标点。

其中，点间距离可以为特征点之间的坐标距离。

具体实现中，可以根据历史归类的医疗数据的数据特征，计算该数据特征在特征向量，确定该特征向量在特征空间的位置，得到数据特征在特征向量空间的坐标点，作为已归类特征点。针对大量的作为训练样本的已归类医疗数据的已归类特征点，可以形成一个训练集。然后，计算训练集中各个已归类特征点与待归类特征点之间的点间距离。

步骤S140，根据所述点间距离，确定所述待归类医疗数据的医疗数据类别。

其中，医疗数据类别可以为国际疾病分类编码、国际疾病分类名称、药品名称、药品规格、药品使用方式、检查方式编码、医检类别、医检编码中的一种或多种。

具体实现中，可以首先筛选出点间距离较小的若干个已归类特征点，确定该若干个已归类特征点所属的医疗数据类别，然后，统计属于同一医疗数据类别的已归类特征点，当属于某一医疗数据类别的已归类特征点的数量相对于其他医疗数据类别的已归类特征点的数量较多时，可以将数量较多的已归类特征点所属的医疗数据类别，作为待归类医疗数据的医疗数据类别。

在实际应用中，可以通过KNN分类算法(kNN，k-NearestNeighbor，近邻算法)对新的待归类医疗数据进行分类归一。KNN分类算法的原理是通过学习已归类医疗数据的数据特征，形成包含有多个已归类特征点的训练集，当有新的待归类医疗数据输入时，将待归类医疗数据的待归类特征点与训练集中的多个已归类特征点计算点间距离，然后，从训练集中挑选出点间距离最近的K个已归类特征点，根据已归类特征点所属的医疗数据类别，并根据少数服从多数的原则，对新的待归类医疗数据进行分类归一。

例如，通过kNN分类算法，可以将风疹块、麻疹、荨麻疹等的待归类的诊断数据归类为ICD-L50.9。

根据本申请实施例的技术方案，通过根据待归类医疗数据的数据特征在特征向量空间的位置而确定待归类特征点，然后计算待归类特征点与已归类特征点的点间距离，根据该点间距离确定待归类医疗数据的医疗数据类别，从而实现了对待归类医疗数据的自动归类，无须由人工对医疗数据进行归类，节省了人力物力，提升了医疗数据归类的效率。

在另一个实施例中，所述待归类医疗数据包括诊断数据、药品数据、医检数据中的至少一种。

当所述待归类医疗数据为所述诊断数据，所述医疗数据类别包括国际疾病分类编码和/或国际疾病分类名称；当所述待归类医疗数据为所述药品数据，所述医疗数据类别包括药品名称、药品规格、药品使用方式中的至少一种；当所述待归类医疗数据为所述医检数据，所述医疗数据类别包括检查方式编码、医检类别、医检编码中的至少一种。

在另一个实施例中，所述步骤S140，包括：

根据所述点间距离，在所述已归类特征点中，提取候选特征点；确定所述候选特征点对应的医疗数据类别；根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别。

具体实现中，可以将点间距离最近的若干个已归类特征点，作为候选特征点。确定各个候选特征点对应的医疗数据类别，将医疗数据类别相同的候选特征点分到同一个特征点集合，得到多个特征点集合。统计各个特征点集合中的特征点数量，将特征点数量最多的特征点集合，作为目标集合，将目标集合对应的医疗数据类别，作为待归类医疗数据的医疗数据类别。

在另一个实施例中，所述已归类特征点具有M个，所述根据所述点间距离，在所述已归类特征点中，提取候选特征点，包括：

对M个已归类特征点的点间距离进行排序；确定所述点间距离最小的K个已归类特征点，作为所述候选特征点；其中，M＞K＞0。

具体实现中，对于M个已归类特征点的点间距离进行升序排序，由此得到点间距离最小的K个已归类特征点，作为候选特征点。其中，K值可以根据实际需要设定。不同的K值可以对医疗数据归类的准确性有影响，本领域技术人员可以根据实际需要设定K值。

在另一个实施例中，所述根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别，包括：

划分所述候选特征点，得到特征点集合；所述特征点集合中各候选特征点的医疗数据类别相同；统计所述特征点集合中各候选特征点的数量，得到特征点总数；确定最大特征点总数，并确定所述最大特征点总数对应的特征点集合，为目标集合；将所述目标集合的医疗数据类别，作为所述待归类医疗数据的医疗数据类别。

具体实现中，可以根据候选特征点的医疗数据类别，将候选特征点划分为多个特征点集合，从而使得每个特征点集合中各候选特征点的医疗数据类别相同。然后，统计特征点集合中各候选特征点的数量，得到各个特征点集合的特征点总数。确定最大的特征点总数所对应的特征点集合，为目标集合。目标集合中各候选特征点的医疗数据类别，可以作为待归类医疗数据的医疗数据类别。

根据本申请实施例的技术方案，通过统计特征点集合中各候选特征点的数量并确定最大特征点总数，根据最大特征点总数对应的特征点集合，确定目标集合的医疗数据类别，利用少数服从多数的原则，对待归类医疗数据进行归类，提升了医疗数据归类的准确性。

在另一个实施例中，所述步骤S130，包括：

获取所述待归类特征点在所述特征向量空间的第一空间坐标，以及，获取所述已归类特征点在所述特征向量空间的第二空间坐标；计算所述第一空间坐标与所述第二空间坐标的距离，得到所述点间距离。

具体实现中，可以建立一个多维的特征向量空间，确定待归类特征点在该特征向量空间的空间坐标，作为第一空间坐标。相应地，已归类特征点在该特征向量空间的空间坐标，作为第二空间坐标。计算第一空间坐标与第二空间坐标的距离，得到点间距离。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种医疗数据归类装置，包括：数据获取模块210、特征点获取模块220、距离计算模块230和归类模块240，其中：

数据获取模块210，用于获取待归类医疗数据；

特征点获取模块220，用于获取所述待归类医疗数据的待归类特征点；所述待归类特征点根据所述待归类医疗数据的数据特征在特征向量空间的位置而确定；

距离计算模块230，用于计算所述待归类特征点与已归类特征点的点间距离；所述已归类特征点根据已归类医疗数据的数据特征在特征向量空间的位置而确定；

归类模块240，用于根据所述点间距离，确定所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述归类模块240，包括：

候选特征点子模块，用于根据所述点间距离，在所述已归类特征点中，提取候选特征点；

候选类别确定子模块，用于确定所述候选特征点对应的医疗数据类别；

数据类别确定子模块，用于根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述已归类特征点具有M个，所述候选特征点子模块，包括：

排序单元，用于对M个已归类特征点的点间距离进行排序；

候选特征点确定单元，用于确定所述点间距离最小的K个已归类特征点，作为所述候选特征点；其中，M＞K＞0。

在一个实施例中，所述数据类别确定子模块，包括：

集合划分单元，用于划分所述候选特征点，得到特征点集合；所述特征点集合中各候选特征点的医疗数据类别相同；

统计单元，用于统计所述特征点集合中各候选特征点的数量，得到特征点总数；

最大总数确定单元，用于确定最大特征点总数，并确定所述最大特征点总数对应的特征点集合，为目标集合；

归类单元，用于将所述目标集合的医疗数据类别，作为所述待归类医疗数据的医疗数据类别。

在一个实施例中，所述距离计算模块230，包括：

坐标获取子模块，用于获取所述待归类特征点在所述特征向量空间的第一空间坐标，以及，获取所述已归类特征点在所述特征向量空间的第二空间坐标；

距离计算子模块，用于计算所述第一空间坐标与所述第二空间坐标的距离，得到所述点间距离。

关于医疗数据归类装置的具体限定可以参见上文中对于医疗数据归类方法的限定，在此不再赘述。上述医疗数据归类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

上述提供的医疗数据归类装置可用于执行上述任意实施例提供的医疗数据归类方法，具备相应的功能和有益效果。

为了便于本领域技术人员深入理解本申请，以下将结合图3的具体示例进行说明。

图3是一个实施例的一种归类工具的流程框架示意图。如图所示，该归类工具可以包括诊断归类、药品归类、检查归类、检验归类等多个模块。

其中，可以针对诊断归类模块设定诊断归类规则，从原始数据识别出其在标准术语库中扩展编码和扩展名称，当诊断含有“待排”、“待查”等时，应识别为疑诊。通过学习历史已归一的诊断数据、扩展编码和扩展名称，将扩展编码和扩展名称作为分类标签，将原始诊断数据作为训练集，当有新的诊断数据输入时，利用KNN分类算法，度量其与训练集的最邻近距离，然后进行归类。

其中，可以针对药品归类模块设定药品归类规则为，通过药品名称、药品规格、药品使用方式，来判断新样本的药品通用名和用药方式，但是有时，新样本中药品名不一定是标准通用名，而是别名或者商品名，这时需预处理得到其通用名，然后利用KNN算法学习历史归一药品数据，以药品通用名和用药方式作为标签对新样本快速归类。

其中，可以针对检查归类模块设定检查归类规则，检查归类规则可以为根据原始数据中检查方式、检查项目归类其检查方式编码、检查类型、检查名编码，利用KNN算法学习历史归类结果来对新样本归类。

其中，可以针对校验归类模块，检验归类也是利用KNN学习历史已归一结果，对样本字段中的样本类型、组套项目、检验项目归类其校验一级、校验三级。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗数据归类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待归类医疗数据；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

确定所述候选特征点对应的医疗数据类别；

对M个已归类特征点的点间距离进行排序；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待归类医疗数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

确定所述候选特征点对应的医疗数据类别；

对M个已归类特征点的点间距离进行排序；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医疗数据归类方法，其特征在于，包括：

获取待归类医疗数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述点间距离，确定所述待归类医疗数据的医疗数据类别，包括：

确定所述候选特征点对应的医疗数据类别；

3.根据权利要求2所述的方法，其特征在于，所述已归类特征点具有M个，所述根据所述点间距离，在所述已归类特征点中，提取候选特征点，包括：

对M个已归类特征点的点间距离进行排序；

4.根据权利要求2所述的方法，其特征在于，所述根据所述候选特征点对应的医疗数据类别，确定所述待归类医疗数据的医疗数据类别，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算所述待归类特征点与已归类特征点的点间距离，包括：

6.根据权利要求1所述的方法，其特征在于，所述待归类医疗数据包括诊断数据、药品数据、医检数据中的至少一种。

7.根据权利要求6所述的方法，其特征在于，当所述待归类医疗数据为所述诊断数据，所述医疗数据类别包括国际疾病分类编码和/或国际疾病分类名称；

8.一种医疗数据归类装置，其特征在于，包括：

数据获取模块，用于获取待归类医疗数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的7方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。