CN110491519B

CN110491519B - 一种医学数据的检验方法

Info

Publication number: CN110491519B
Application number: CN201910644814.1A
Authority: CN
Inventors: 姚娟娟
Original assignee: Shanghai Mingping Medical Data Technology Co ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2024-01-02
Anticipated expiration: 2039-07-17
Also published as: US11449680B2; CN110491519A; JP7358612B2; DE112020003412T5; US20220207242A1; JP2022546192A; WO2021008601A1

Abstract

本发明提供一种医学数据的检验方法，医学数据包括多个信息元和多个分隔符，包括如下步骤：a.将医学数据与多个模式组成的标准库匹配，匹配表达式为：[\s|\S][number/sequence/relation]&[\b|\B]；b.基于步骤a的匹配结果判定医学数据的是否合格。本发明首先建设标准化的标准库，通过匹配医学数据与标准库的非起始边界、起始边界、信息数量、信息序列、语义关系数量、字符边界以及非字符边界获得匹配结果，进一步地，按照匹配后的结果判断医学数据是否符合要求。

Description

一种医学数据的检验方法

技术领域

本发明涉及大数据处理领域，尤其是针对医学数据质量控制的方法，具体地涉及一种医学数据的检验方法。

背景技术

随着大数据时代的到来，各种不同类型的数据被搜集和处理，医学数据作为最为特殊的一种数据，其所包含的变量众多，包括患者数据、医生数据、疾病数据、症状数据、检验数据、诊断数据、治疗数据、药物数据等等。从医学活动本身出发，其最大的区别点在于，医学行为之间存在着清晰的逻辑关系，因此医学数据之间也就存在着清晰的语义关系，同时，医学数据通常是由医生或者患者输入或者生成的，这些数据间的语义关系能够反应医生的决策和对应的治疗方法与疾病发展情况之间的相互关系。

医学数据交互的过程，其显著的特点在于参与交互的终端角色往往是多个，且每个终端均有自己独立的诉求，其对数据质量的要求，特别是数据结构的要求各不相同，基于传统的数据交互理论，要实现多终端交互的强逻辑性要求，首先需要统一医学数据的结构。

现有针对人工智能领域应用的医学数据，一种是通过深度挖掘HIS***病历数据生成，通常称之为结构化信息抽取，另一种是另行建模并通过医务工作者重新填写生成，两种方法都可以获得符合机器学习质量要求的基础数据，但两种方法均耗时较长，成本高昂。

从商业运营的角度考虑，上述两种基础数据的获得方法，均源自国际上在人工智能领域较为领先的公司，之所以采取该两种方法，其原因在于国外医学数据的稀缺性。而对我国而言，我们具备世界上最大的人口基数和医疗就诊人次，医学数据的基础数量是海量的，但整体质量却参差不齐，在此基础上，如果采用上述两种常用的方法处理医学数据，对于我国国情而言，其成本更加高昂，耗时将会更久。

为此，如果发掘一种算法，能够快速对海量医学数据进行预筛选，并在预筛选后的数据基础上按照行业通用手段进一步处理，将会为医学人工智能行业的发展奠定坚实的基础。

发明内容

本发明技术方案所解决的技术问题为，如何标准、快速的检验医学数据。

为了解决上述技术问题，本发明技术方案一种医学数据的检验方法，所述医学数据包括多个信息元和多个分隔符，包括如下步骤：

a.将所述医学数据与多个模式组成的标准库匹配，匹配表达式为：[\s|\S][number/sequence/relation]&[\b|\B]，其中，[]表示一次匹配流程，\s表示所述医学数据的非起始边界与所述标准库的非起始边界的相似度，\S表示所述医学数据的起始边界与所述标准库的起始边界的相似度，number表示所述医学数据所包含的信息元数量与所述标准库所包含的模式数量的相似度，sequence表示多个所述信息元的次序与多个所述模式的次序的相似度，relation表示多个所述信息元的语义关系与多个所述模式的语义关系的相似度，&表示进行一次或者多次匹配流程，\b表示所述医学数据的字符边界与所述标准库的字符边界的相似度，\B表示所述医学数据的非字符边界与所述标准库的非字符边界的相似度，|表示择一匹配，/表示同时匹配；

b.基于步骤a的匹配结果判定所述医学数据的是否合格。

优选地，所述信息元存在值域限制，所述值域限制根据所述信息元的种类进行设定，在执行步骤a时，所述医学数据未经过分词处理。

优选地，所述步骤a中的匹配表达式中，n₁表示所述医学数据的非起始边界数量，s_i表示所述医学数据的两个非起始边界的最远距离，s'_i表示所述医学数据的非起始边界到所述标准库的非起始边界的距离。

优选地，所述步骤a中的匹配表达式中，其中，n₂表示所述医学数据的起始边界数量，s_i表示所述医学数据的两个起始边界的最远距离，s'_i表示所述医学数据的起始边界到所述标准库的起始边界的距离。

优选地，所述步骤a中的匹配表达式中，其中，Num_a表示所述医学数据所包含的所述信息元的数量，Num_b表示所述标准库所包含的所述模式的数量。

优选地，所述步骤a中的匹配表达式中，其中，n₃＝Num_a-1，Num_a表示所述医学数据所包含的所述信息元的数量，seq_i表示相邻的两个所述信息元的距离，seq_i'表示相邻的两个所述模式的距离。

优选地，所述步骤a中的匹配表达式中，其中，Rel_a表示多个所述信息元所包含的语义关系的数量，Rel_b表示多个所述模式所包含的语义关系的数量。

优选地，所述步骤a中的匹配表达式中，其中，n₄表示所述医学数据的字符边界数量，b_i表示所述医学数据的两个字符边界的最远距离，/>表示所述医学数据的字符边界到所述标准库的字符边界的距离。

优选地，所述步骤a中的匹配表达式中，其其中，n₅表示所述医学数据的非字符边界数量，B_i表示所述医学数据的两个非字符边界的最远距离，B_i'表示所述医学数据的非字符边界到所述标准库的非字符边界的距离。

优选地，所述步骤b包括如下步骤：

b1.根据以下公式计算的所述医学数据与所述标准库的相似度，其中，C表示所述医学数据与所述标准库的相似度，c_j表示所述步骤a中每个匹配流程的相似度，m表示步骤a中匹配流程的数量，当m≠0时，C为m个c_j中的最小值；

b2.若所述C≤C_min，则判定所述医学数据合格，其中，C_min表示设定的最小相似度阈值。

本发明首先建设标准化的标准库，通过匹配医学数据与标准库的非起始边界、起始边界、信息数量、信息序列、语义关系数量、字符边界以及非字符边界获得匹配结果，进一步地，按照匹配后的结果判断医学数据是否符合要求。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的一种具体实施方式的，一种医学数据的检验方法的流程图；

图2为本发明的一个实施例的，多个不同匹配流程的示意图；

图3为本发明的一个实施例的，多个不同匹配流程的示意图；

图4为本发明的一个实施例的，多个不同匹配流程的示意图；

图5为本发明的一个实施例的，多个不同匹配流程的示意图；

图6为本发明的另一种具体实施方式的，一种医学数据的检验方法的流程图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

本领域技术人员理解，医学数据通常来自于用户终端，所述用户终端可以理解为一种终端设备，其可以通过人工输入或者与不同的检测设备连接采集数据。例如，可以是手机或者平板电脑，通过人工输入或者拍照自动识别的方式录入数据，又例如，可以是与体征传感器或者医疗检测装置共同数据的计算机，通过开放端口实时采集数据。更为具体地，基础医学数据是与个体相关联的数据，可以从多个维度进行理解：从医学数据的产生渠道来看，所述基础医学数据主要可分为医生端数据和患者端数据，医生端数据包括门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录等，患者端数据包括个人生活习惯、生活环境、家庭遗传、家庭环境等。从基础医学数据的组成结构来看，基础医学数据可分为：(1)检查手段产生的测量数值，如体温、血压、血氧饱和度、化验值等；(2)仪器记录的信号，如心电图、脑电图等；(3)医学影像设备生成的图像，如X线图像、CT图像和MRI图像等；(4)文本形式呈现的报告结果，例如医生结合自身医学知识给出的针对测量数值、信号、图像的解释和医生做出的病理诊断等；(5)叙述性的数据，如医生记录的主诉(患者口述的病情)、病人的病历；(6)元数据文本，例如关于器官、药物、疾病以及治疗方法的知识、医疗设备的参数等；(7)社会特征，例如医院的机构信息、医生和患者的个人信息等。这些不同种类的基础医学数据虽然结构和包含的语义各不相同，但它们能够相互印证相互补充，都从特定的角度表达了医学信息的内容和特点，构成了多样且互补的数据集合。

进一步地，在本发明中，所述医学数据的内容本身并不追求语言逻辑上的连贯性，而对于所述医学数据而言，则分隔符模块化记载，即。每个模块的内容则是每个医学数据的内容，但多个信息元之间应存在医学上的语义关系，结合我国医院历史病历现状，这一类的数据是HIS***存储量最大的，数据来源获取较为简便。当然，近两年来国家卫生管理部门在全国医院推行标准化电子病历，这样的电子病历数据质量本身已经相当结构化，并非本发明的重点处理的数据。更为具体地，本发明的检验对象，也就是医学数据具备以下特点：

1)数据可划分为若干结构(医学数据)，各结构之间功能相互支持，内容独立的离散模块；

2)各个医学数据具有清晰的语义信息，其内容为若干医学词组；

3)各医学数据之间被分隔符分割，常见的分隔符可以是标点符号，但优选的是非标点符号，包括回车、空格、编号序列、特殊字符等；

4)各医学数据的内容表达有值域限制，所述值域限制根据所述信息元的种类进行设定，即，所述医学数据的内容是因变量，所述信息元的种类为自变量。具体地，所述信息元的种类可以理解对所述医学数据的标签化设定，例如，所述医学数据的标签被设定为“神经内科”、“癫痫”、“症状”，相应的，所述医学数据的内容则是医学上与神经内科的癫痫疾病相对应的症状的集合，即，所述医学数据的内容的值域被限制在上述范围内，本领域技术人员理解，所述医学数据的标签的获得是非常容易得，根据历史病历形成的科室和对应的医生即可非常容易定位，不需要额外的复杂的算法进行预处理。又例如，所述医学数据的标签被设定为“神经内科”、“癫痫”、“用药”，相应的，所述医学数据的内容则是临床上与神经内科的癫痫疾病相对应的用药的集合。

进一步地，结合以上特点，所述医学数据在检验前，所述医学数据不需要进过分词处理。具体地，所述医学数据的表现形式通常有两种，文本形式和Web文档形式，文本形式是比较常见的形式，Web文档形式是以医学数据为单位拆分加载到Web所形成。在现有技术中，对医学数据进行处理前，通常需要调取对应的医学词库并对医学数据进行分词处理，常用的方法是以对应的医学词库为特征构造文本向量，这样形成文本向量相当庞大，计算量也较大。现有的技术改进方案中，为降低文本向量的维度，需要利用尽量少的医学词库来构建文本向量，如此就需要提高医学词库的关联度，随着关联度的提高，有需要引入重要性排序，这最终导致分词算法越来越复杂，效率提高的同时准确度缺不稳定的。本发明中，所述医学数据的内容简短、清晰，全部来自于临床医生，不含冗余的修饰成分，结合实际的应用情况，完全可以省略对医学数据的分词步骤，提高效率，这是现有技术所不曾用到的方案。

图1示出了本发明的具体实施方式的，一种医学数据检验方法的流程图，包括如下步骤：

首先，执行步骤S101，将所述医学数据与多个模式组成的标准库匹配，匹配表达式为：[\s|\S][number/sequence/relation]&[\b|\B]。具体地，[]表示一次匹配流程，\s表示所述医学数据的非起始边界与所述标准库的非起始边界的相似度，\S表示所述医学数据的起始边界与所述标准库的起始边界的相似度，number表示所述医学数据所包含的信息元数量与所述标准库所包含的模式数量的相似度，sequence表示多个所述信息元的次序与多个所述模式的次序的相似度，relation表示多个所述信息元的语义关系与多个所述模式的语义关系的相似度，&表示进行一次或者多次匹配流程，\b表示所述医学数据的字符边界与所述标准库的字符边界的相似度，\B表示所述医学数据的非字符边界与所述标准库的非字符边界的相似度，|表示择一匹配，/表示同时匹配。

进一步地，结合所述匹配表达式，[\s|\S]表示对所述医学数据的非起始边界与所述标准库的非起始边界的相似度进行匹配，或者对所述医学数据的起始边界与所述标准库的起始边界的相似度进行匹配，二者择一匹配即可。[number/sequence/relation]&[\b|\B]表示：对表示所述医学数据所包含的信息元数量与所述标准库所包含的模式数量的相似度进行匹配，或者对多个所述信息元的次序与多个所述模式的次序的相似度进行匹配，或者对多个所述信息元的语义关系与多个所述模式的语义关系的相似度进行匹配，三者择一匹配即可。[\b|\B]表示：对所述医学数据的字符边界与所述标准库的字符边界的相似度进行匹配，或者对所述医学数据的非字符边界与所述标准库的非字符边界的相似度进行匹配，二者择一匹配即可。

更进一步地，结合图2至图5所示，[\s|\S]和[number/sequence/relation]和[\b|\B]可以依次进行，也可以不按次序随机启动任一个流程，但每个流程均需执行，同时，对所述医学数据的字符边界与所述标准库的字符边界的相似度进行匹配或者对所述医学数据的非字符边界与所述标准库的非字符边界的相似度进行匹配可以执行多次。

本领域技术人员理解，本发明限定了所述医学数据与所述标准库的匹配范围，具体通过按照二元匹配法完成，其一是匹配所述医学数据和所述标准库的结构本身，包括信息元数量、模式数量、多个信息元次序、多个模式次序、多个信息元的语义关系数量、多个模式的语义关系数量；其二是匹配所述医学数据和所述标准库。具体地，所述标准库与所述医学数据的匹配重点在于结构，即，聚焦于非起始边界、起始边界、字符边界以及非字符边界，至于所述标准库的内容与所述医学数据的内容本身则并非匹配的重点。更为具体地，由于需要匹配语义关系数量，因此构成所述医学数据和所述标准库的字符边界以及非字符边界的对应词组的语义识别还是必要的。

进一步地，执行步骤S102，基于步骤S101的匹配结果判定所述医学数据是否合格。本领域技术人员理解，步骤S101是对所述医学数据和所述标准库的相似度进行匹配，具体地，计算所述相似度的算法有多种，例如欧几里得距离法，其通过判断医学数据和标准库的自然长度得到所述相似度，又例如，皮尔逊系数法，其通过协方差除以医学数据和标准库的标准差得到所述相似度，又例如余弦距离法，其通过计算医学数据和标准库夹角的余弦值得到所述相似度。优选地，采用余弦距离法判断所述医学数据和标准库的相似度，其原理在于，余弦距离法对数值本身不敏感，其更加聚焦于两个在方向上的一致性或者差异性，即，判断医学数据和标准库的相似性，更多的是在相同领域进行判断，其更适合用于判断医学数据的相似性。

进一步地，所述步骤S101所得出的匹配结果是一个绝对值，而判定所述医学数据是否合格，则是步骤S102所需要设定的标准。例如，可以设定一个阈值，将步骤S101得出的匹配结果与所述阈值进行比较，进而决定是否合格。又例如，还可以按照是或非的标准进行判定，即，步骤S101中的所述匹配表达式的各流程中，如果匹配一致，方可判定所述医学数据合格。本领域技术人员理解，本发明中的匹配并不涉及具体内容的匹配，每个匹配流程均是趋势性或者数量类的绝对匹配方法，更适合于后一种判定方法。

更进一步地，步骤S101中多个匹配流程会产生多个匹配结果，相应地，在步骤S102中，可以设定全部匹配流程匹配成功后方可确定所述医学数据合格，作为一种变化，也可以设定部分匹配流程匹配成功后即可确定所述医学数据合格。作为另一种变化，还可以对多个匹配结果运算后得出一个综合性的匹配值，进而与设定阈值比较，确定医学数据是否合格。本领域技术人员可以在此基础上变化出更多的实施例，在此不予赘述。

以下列举一个较为简单的实施例，方便理解。

所述医学数据表达为“20190321～消化科～发热腹痛～白细胞增加中性粒细胞增加～阑尾炎”，定义如下：分隔符为～，信息元为两个分隔符之间的词组，每个分隔符为非起始边界，则信息元数量为4，起始边界为“20190321”，相应地，所述标准库定义为“非汉字字符”“分隔符”“学科标准库”“分隔符”“症状标准库”“分隔符”“指标标准库”“分隔符”“疾病标准库”，在此基础上，按照步骤S101的匹配表达式，变化例如下：

例如，匹配起始边界时，根据标准库的起始边界的特征，可以变化出多种形式，以上述标准库为例，医学数据的起始边界全部为非汉字字符的数字，匹配成功；又例如，匹配起始边界时，医学数据的起始边界之后应当为学科信息，匹配成功；又例如，匹配起始边界时，医学数据的起始边界之后的首个汉字字符信息应当为学科信息，匹配成功；又例如，匹配起始边界时，医学数据的起始边界之后首个信息应当为汉字字符，匹配不成功。又例如，匹配医学数据起始边界所包含的非汉字字符与模式所包含的非汉字子字符的相似性，以上述时间为例，标准库的“非汉字字符”可以直接定义为一个具体时间“20190531”，如此可以直接筛选出时间较为接近的医学数据。本领域技术人员理解，可以在此基础上定义出多种判定方法,在此不予赘述。

例如，匹配非起始边界时，如果匹配医学数据的非起始边界数量与标准库的非起始边界数量相等，则匹配成功；又例如，匹配非起始边界时，确定医学数据每个非起始边界前后第一个字符的语义标签，判断标准库每个非起始边界前后连接的两个模式的标签，如果标签属性一致对应，则匹配成功；又例如，匹配非起始边界时，确定医学数据两个相邻非起始边界的字符数量与标准库两个相邻非起始边界的字符数量，如果相等则匹配成功。本领域技术人员理解，可以在此基础上定义出多种判定方法,在此不予赘述。

例如，匹配信息元数量和模式数量，二者数量相等，则匹配成功。具体地，影响本匹配流程的匹配结果的关键因素在于，所述信息元的定义方式以及模式的定义方式，以医学数据为例，上述定义方式为“两个分隔符之间的词组为信息元”，如果改变定义方式，按照医学分词的逻辑定义信息元，则“发热腹痛”就变为2个信息元，而非1个信息元。更为具体地，定义所述医学数据的信息元的方式是主动发生的，而所述医学数据的信息元的划分却是被动完成，需要按照既定的定义方式划分完毕，相比于信息元，模式的定义也是主动发生的，同时，由于模式可以理解为标准化的信息库，较所述信息元的识别少了被动化识别的步骤，其变化例方式更为多样，但模式定义的复杂程度直接决定了匹配的成功率。本领域技术人员理解，可以在此基础上定义出多种判定方法,在此不予赘述。

例如，匹配次序时，判断多个所述信息元所属的标签类型的排序，是否与多个所述模式的排序一致，以上述医学数据为例，其次序时按照时间、科室、症状、指标、诊断依次排序的，具体的识别方式可以首先对多个信息元进行语义分析得到大致的结果，然后再按照标签库分类标准将各个信息元进行标签化，最后再按照标签化后的信息元进行排序，而多个所述模式则是按照标签分类标准所生成的标准化次序，无须执行语义分析步骤。在实际的应用中，随着医学数据的规范性不同、信息元数量的增加以及模式数量的增加，其次序的匹配也会变得复杂，作为一种变化，可以对多个信息元次序与多个模式次序的相似性进行评定，比如，部分医学数据将症状和指标混杂在一起，鉴于本发明省略的分词步骤，于是，只要对信息元进行语义分析时得出该信息元混杂有症状信息和指标信息，则可以认定其与症状模式-指标模式的次序相似，匹配成功。本领域技术人员理解，可以在此基础上定义出多种判定方法,在此不予赘述。

例如，对于所述信息元而言，可以对每个信息元进行语义分析，根据语义分析结果，每跳转一次，则认为存在一次语义关系，如此可以得到多个所述信息元的语义关系数量，其中，跳转是指基于语义分析的词库，信息元每转换一次词库类型，则认为跳转一次。更具体地，对于多个所述模式而言，较为简单的，其语义关系数量可以设定为与模式数量相等，即，模式数量的定义直接关系到多个所述模式的语义关系的数量。本领域技术人员理解，匹配多个信息元语义关系数量和多个模式语义关系数量时，若二者数量相等或相近，均可以认定为匹配成功。

例如，匹配字符边界时，对于医学数据而言，其字符边界实际上是确定每个信息元首个字符和末尾字符的位置标识，所述标准库也是相同的，相应地，根据标准库的字符边界的特征，可以变化出多种方式，以上述标准库为例，医学数据第一个信息元的后一个字符边界存在分隔符，而前一个字符边界不存在分隔符，且两个字符边界之间的汉字数量为4个，相应地，则与标准库的第一个模式进行匹配，如果与第一个模式的分隔符位置相同，且汉字数量也相同或者相似，则可以认为匹配成功。更为具体地，针对两个字符边界之间的汉字数量的相似性，可以有多种匹配，一种情形为，如果第一个信息元的汉字数量为未超过第一个模式所限定的汉字数量上限，则认为匹配成功，又一种情形是，可以超过上限，但第一个信息元的汉字信息应当为第一个模式的子集。本领域技术人员理解，可以在此基础上定义出多种判定方法,在此不予赘述。

例如，匹配非字符边界时，结合上述匹配字符边界的描述，就是除了字符边界之外的，其余全部为非字符边界，对于本实施例而言，也就是每个汉字的位置标识全部为非字符边界，即，非字符边界所组成的集合表达了医学数据所包含的全部汉字的位置信息，相应地，所述标准库的非字符边界的定义也是相同的。在此基础上，对于非字符边界的匹配，并不涉及具体语义的匹配，其实际上是将所述医学数据的每个字符的位置信息与所述标准库的每个字符的位置信息依次序匹配，实际上匹配的二者的结构一致性或者结构相似性。从实际应用的角度来看，本匹配流程是用于衡量所述医学数据的精简性，是否属于过于冗余的流水账文本。本领域技术人员理解，可以在此基础上定义出多种判定方法，在此不予赘述。

基于以上描述，针对每个匹配流程，以下示出了更为具体的多个实施例，具体如下：

作为本发明的第一实施例，在匹配非起始边界流程中，其中，n₁表示所述医学数据的非起始边界数量，s_i表示所述医学数据的两个非起始边界的最远距离，s'_i表示所述医学数据的非起始边界到所述标准库的非起始边界的距离。具体地，本实施例中，是以所述医学数据的非起始边界数量为基准进行匹配的，也就是说，如果所述标准库的非起始边界数量大于所述医学数据，并不影响本实施例的实现。更为具体地，本实施例中，可以采用步骤S102中描述的余弦距离法计算，以i＝1为例，s1表示所述医学数据的第一个非起始边界以及与其相似度最低的所述医学数据的另一个非起始边界二者之间的余弦距离，s′1则是指所述医学数据的第一个非起始边界与所述标准库的第一个非起始边界的相似度，而非起始边界实际上是多个位置标识，如此，本实施例所计算的实际上是所述医学数据和所述标准库的非起始边界的位置相似性。

作为本发明的第二实施例，在匹配起始边界流程中，其中，n₂表示所述医学数据的起始边界数量，s_i表示所述医学数据的两个起始边界的最远距离，s'_i表示所述医学数据的起始边界到所述标准库的起始边界的距离。具体地，本实施例中，是以所述医学数据的起始边界数量为基准进行匹配的，也就是说，如果所述标准库的起始边界数量大于所述医学数据，并不影响本实施例的实现。更为具体地，本实施例中，可以采用步骤S102中描述的余弦距离法计算，以i＝1为例，s₁表示所述医学数据的第一个起始边界以及与其相似度最低的所述医学数据的另一个起始边界二者之间的余弦距离，以所述医学数据表达为“20190321～消化科～发热腹痛～白细胞增加中性粒细胞增加～阑尾炎”为例，其中，20190321全部为起始边界，第一个起始边界就是“2”所在的位置标识，而与其距离最远的起始边界就是最后一个“1”，二者之间的余弦距离就是s₁，同理，s₁'则是指所述医学数据的第一个起始边界与所述标准库的第一个起始边界的相似度，表达出来的就是余弦距离。本领域技术人员理解，起始边界实际上是位置标识，如此，本实施例所计算的实际上是所述医学数据和所述标准库的起始边界的位置相似性。

作为本发明的第三实施例，其中，Num_a表示所述医学数据所包含的所述信息元的数量，Num_b表示所述标准库所包含的所述模式的数量。本领域技术人员理解，本实施例是绝对数量的匹配，匹配结果只有两种：0或者1，结合前述内容，影响本实施例匹配结果的关键，是所述医学数据的分隔符的定义。

作为本发明的第四实施例，其中，n₃＝Num_a-1，Num_a表示所述医学数据所包含的所述信息元的数量，seq_i表示相邻的两个所述信息元的距离，seq_i'表示相邻的两个所述模式的距离。具体地，两个所述信息元的距离实际上就是两个所述信息元的相似度，两个所述模式的距离实际上就是两个所述模式的相似度，相应地，本实施例中的匹配流程，仍然不会涉及具体信息元内容或者模式内容的语义分析，只是判断趋势，如此可以降低技术难度并提高匹配效率。优选地，seq_i与seq_i'是相对应的，例如，i＝1，则表示第一个信息元与第二个信息元的距离以及相应的第一个模式与第二个模式的距离。更为具体地，本实施例中，是以所述医学数据的信息元数量为基准进行匹配的，也就是说，如果所述标准库的模式数量大于所述信息元的数量，并不影响本实施例的实现。

作为本发明的第五实施例，其中，Rel_a表示多个所述信息元所包含的语义关系的数量，Rel_b表示多个所述模式所包含的语义关系的数量。具体地，本实施例的匹配方式与第三实施例的匹配方式相近，不同的是，本实施例匹配的语义关系的数量，如前所述，可以对每个信息元进行语义分析，根据语义分析结果，每跳转一次，则认为存在一次语义关系，如此可以得到多个所述信息元的语义关系数量，其中，跳转是指基于语义分析的词库，信息元每转换一次词库类型，则认为跳转一次。更具体地，对于多个所述模式而言，较为简单的，其语义关系数量可以设定为与模式数量相等，即，模式数量的定义直接关系到多个所述模式的语义关系的数量。

作为本发明的第六实施例，其中，n₄表示所述医学数据的字符边界数量，b_i表示所述医学数据的两个字符边界的最远距离，/>表示所述医学数据的字符边界到所述标准库的字符边界的距离。具体地，本实施例中，是以所述医学数据的字符边界数量为基准进行匹配的，也就是说，如果所述标准库的字符边界数量大于所述医学数据，并不影响本实施例的实现。更为具体地，本实施例中，可以采用步骤S102中描述的余弦距离法计算，以i＝1为例，b₁表示所述医学数据的第一个字符边界以及与其相似度最低的所述医学数据的另一个字符边界二者之间的余弦距离，b₁'则是指所述医学数据的第一个字符边界与所述标准库的第一个字符边界的相似度，而字符边界实际上是多个位置标识，如此，本实施例所计算的实际上是所述医学数据和所述标准库的字符边界的位置相似性。

作为本发明的第七实施例，其中，n₅表示所述医学数据的非字符边界数量，B_i表示所述医学数据的两个非字符边界的最远距离，B_i'表示所述医学数据的非字符边界到所述标准库的非字符边界的距离。具体地，本实施例中，是以所述医学数据的非字符边界数量为基准进行匹配的，也就是说，如果所述标准库的非字符边界数量大于所述医学数据，并不影响本实施例的实现。更为具体地，本实施例中，可以采用步骤S102中描述的余弦距离法计算，以i＝1为例，B₁表示所述医学数据的第一个非字符边界以及与其相似度最低的所述医学数据的另一个非字符边界二者之间的余弦距离，B₁'则是指所述医学数据的第一个非字符边界与所述标准库的第一个非字符边界的相似度，而非字符边界实际上是多个位置标识，如此，本实施例所计算的实际上是所述医学数据和所述标准库的非字符边界的位置相似性。

图6示出了本发明的另一具体实施方式的，一种医学数据的检验方法，包括如下步骤：

首先，执行步骤S201，将所述医学数据与多个模式组成的标准库匹配，匹配表达式为：[\s|\S][number/sequence/relation]&[\b|\B]。具体地，本步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，执行步骤S202，根据以下公式计算的所述医学数据与所述标准库的相似度，其中，C表示所述医学数据与所述标准库的相似度，c_j表示所述步骤S201中每个匹配流程的相似度，m表示步骤a中匹配流程的数量，具体地，上述实施例一至实施例七列出了步骤S201中的每个匹配流程，本领域技术人员理解可以结合步骤S201中的匹配表达式予以理解，而所述C实际上就是步骤S201中所述匹配表达式最终的计算结果，即，结合本步骤所示之公式，未开始任何匹配流程时，m＝0，相应地，所述匹配表达式的计算结果也是0，即，C＝0，此时所述医学数据与所述标准库的相似度为0，但随着匹配流程的进行，m依次取值为1、2、3、4等，相应的每个匹配流程的运算结果c_j均表达为一定的数值，全部匹配流程结束后，取m个c_j中的最小值即为所述匹配表达式的计算结果C。

进一步地，执行步骤S203，判断所述C是否小于或者等于C_min，其中，C_min表示设定的最小相似度阈值。若所述C≤C_min，则执行步骤S204，判定所述医学数据合格。具体地，结合步骤S202的结果可知，步骤S202中筛选出了与所述标准库相似度最低的一个匹配流程结果，本步骤的目的就是比较该相似度最低的匹配流程是否仍然在***设定的最低阈值范围内，也就是是否小于或者等于C_min。更为具体地，如果相似度最低的匹配流程仍然是可接受的话，则可判定所述医学数据是合格。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种医学数据的检验方法，其特征在于，所述医学数据包括多个信息元和多个分隔符，包括如下步骤：

a.将所述医学数据与多个模式组成的标准库匹配，匹配表达式为：

[\s|\S][number/sequence/relation]&[\b|\B]，其中，[]表示一次匹配流程，\s表示所述医学数据的非起始边界与所述标准库的非起始边界的相似度，\S表示所述医学数据的起始边界与所述标准库的起始边界的相似度，number表示所述医学数据所包含的信息元数量与所述标准库所包含的模式数量的相似度，sequence表示多个所述信息元的次序与多个所述模式的次序的相似度，relation表示多个所述信息元的语义关系数量与多个所述模式的语义关系数量的相似度，&表示进行一次或者多次匹配流程，\b表示所述医学数据的字符边界与所述标准库的字符边界的相似度，\B表示所述医学数据的非字符边界与所述标准库的非字符边界的相似度，|表示择一匹配，/表示同时匹配；其中，所述\s、所述\S、所述number、所述sequence、所述relation、所述\b和所述\B利用相似度计算方法获取，所述相似度计算方法包括：欧几里得距离法、皮尔逊系数法或余弦距离法；所述标准库的起始边界的特征包括所述起始边界全部为非汉字字符的数字、所述起始边界之后的首个汉字字符信息为学科信息；所述标准库的非起始边界的特征包括非起始边界数量、与所述非起始边界相邻两个字符的语义标签和与所述非起始边界相邻两个模式的标签；匹配字符边界时，将所述医学数据的字符边界的分隔符位置与所述标准库的第一个模式的分隔符位置和汉字数量进行匹配，若所述分隔符位置相同，且所述汉字数量相同或相似，匹配成功；其中，若所述医学数据的第一个信息元的汉字数量未超过所述标准库的第一个模式的汉字数量上限或所述医学数据的第一个信息元的汉字信息为所述标准库的第一个模式的汉字信息的子集，则所述汉字数量相同的相似；匹配非字符边界时，将所述医学数据的每个字符的位置信息与所述标准库的每个字符的位置信息依次序进行匹配，若结构一致，则匹配成功；

所述步骤a中的匹配表达式中，其中，n₁表示所述医学数据的非起始边界数量，s_i表示所述医学数据的两个非起始边界的最远距离，s_i'表示所述医学数据的非起始边界到所述标准库的非起始边界的距离；

b.基于步骤a的匹配结果判定所述医学数据是否合格；基于所述匹配结果判定所述医学数据是否合格包括：根据各匹配流程的匹配结果判定所述医学数据是否合格。

2.根据权利要求1所述的检验方法，其特征在于：所述信息元存在值域限制，所述值域限制根据所述信息元的种类进行设定，在执行步骤a时，所述医学数据未经过分词处理。

3.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中，

其中，n₂表示所述医学数据的起始边界数量，S_i表示所述医学数据的两个起始边界的最远距离，S_i'表示所述医学数据的起始边界到所述标准库的起始边界的距离。

4.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中，

其中，Num_a表示所述医学数据所包含的所述信息元的数量，Num_b表示所述标准库所包含的所述模式的数量。

5.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中，

其中，n₃＝Num_a-1，Num_a表示所述医学数据所包含的所述信息元的数量，seq_i表示相邻的两个所述信息元的距离，seq_i'表示相邻的两个所述模式的距离。

6.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中，

其中，Rel_a表示多个所述信息元所包含的语义关系的数量，Rel_b表示多个所述模式所包含的语义关系的数量。

7.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中，

其中，n₄表示所述医学数据的字符边界数量，b_i表示所述医学数据的两个字符边界的最远距离，b_i'表示所述医学数据的字符边界到所述标准库的字符边界的距离。

8.根据权利要求1所述的检验方法，其特征在于，所述步骤a中的匹配表达式中其中，n₅表示所述医学数据的非字符边界数量，B_i表示所述医学数据的两个非字符边界的最远距离，B_i'表示所述医学数据的非字符边界到所述标准库的非字符边界的距离。

9.根据权利要求1至8中任一项所述的检验方法，其特征在于，所述步骤b包括如下步骤：