CN113032532A

CN113032532A - 基于健康医疗大数据标准库的多源数据处理方法与***

Info

Publication number: CN113032532A
Application number: CN202110561940.8A
Authority: CN
Inventors: 吴静依; 李鹏飞; 李青; 张路霞
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-06-25
Anticipated expiration: 2041-05-21
Also published as: CN113032532B

Abstract

本申请涉及数据处理技术领域，更为具体来说，本申请涉及基于健康医疗大数据标准库的多源数据处理方法与***，所述方法包括：获得大数据标准库和源数据模式库；计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系，基于第一相似度得到第二相似度，基于第一映射关系得到数据元映射关系库；计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系，基于第三相似度得到第四相似度，基于第二映射关系得到数据表映射关系库；基于第二相似度和第四相似度校正数据元映射关系库；获得数据元值域映射关系库。本方法与***可减少在数据处理时对人工操作的依赖，提升对健康医疗多源数据处理的效率。

Description

基于健康医疗大数据标准库的多源数据处理方法与***

技术领域

本申请涉及数据处理技术领域，更为具体来说，本申请涉及基于健康医疗大数据标准库的多源数据处理方法与***。

背景技术

医学是数据密集型行业，无论是公共卫生、临床医疗服务、以及医学研究都离不开基于数据进行循证的支撑。但我国医疗体系复杂庞大，健康医疗数据来源多样而复杂。健康医疗数据可能来源于医疗服务过程中实际医疗业务流程产生的临床数据，或是医学研究中严格设计并主动收集的医学研究数据，也可能是来源于政府发布的公共卫生数据或者互联网和社会媒体产生的健康数据信息。健康医疗数据具有多源、异构、非统一等数据特性，数据结构复杂，这些复杂的多源异构数据，在数据的质量、标准化、可用性等方面差异很大，这严重限制了健康医疗大数据的共享、整合和进一步的数据处理与利用。目前，国家已针对健康医疗大数据的整合利用出台过相关健康医疗大数据的数据标准规范，健康医疗数据在投入正式的医学研究与应用前需要根据不同的研究应用目的，对不同来源的数据进行标准化转换与整合。

现有的多源健康医疗大数据的数据处理主要依赖于人工识别数据结构并建立源数据与标准数据库之间的映射关系。这种标准化转换方式不仅处理效率低，不适用于大规模多源数据的整合，而且对标准化转换的人员有较高的要求，不仅需要有专业的医学背景可以准确判断源数据与标准数据库之间的映射关系，而且需要有专业的数据处理技术。减少对人工操作的依赖，提升对健康医疗多源数据处理的效率，是亟待解决的问题。

因此，本申请提出基于健康医疗大数据标准库的多源数据处理方法与***，以至少部分地解决上述技术问题。

发明内容

为实现上述技术目的，本申请提供了一种基于健康医疗大数据标准库的多源数据处理方法，包括以下步骤：

获得大数据标准库和源数据模式库，所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构；

计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系，基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度，基于所述第一映射关系得到数据元映射关系库；

计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系，基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度，基于所述第二映射关系得到数据表映射关系库；

基于第二相似度和第四相似度校正所述数据元映射关系库；

根据校正后的数据元映射关系库得到数据元值域映射关系库。

具体地，基于所述第一映射关系得到数据元映射关系库，具体包括：

对于源数据模式库内的每一个数据元，通过循环遍历算法，计算该数据元与大数据标准库内的每一个数据元的第一相似度；

将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元，将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系，得到数据元映射关系库。

具体地，所述第一相似度包括数据元类型相似度S₁、数据元名称相似度S₂、数据元描述相似度S₃、数据元值域相似度S₄和数据元单位相似度S₅，基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度具体包括：

基于第一相似度的最大值和最小值进行归一化处理，按照其重要性分别给予相应的权重，将5个相似度加权累加为所述第二相似度

其中，C₁至C₅表示不同的权重系数。

进一步地，对于数据元值域相似度，如果数据元值域为数组形式，数组内包含该数据元可能取值的上下限，数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度，其计算方法为：

其中，low和high分别代表下限和上限，a和b代表源数据模式库内数据元和标准库内数据元。

进一步地，所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度，基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括：

采用语义相似性度量算法计算数据表名称相似度；

计算数据表中含数据元的相似度，等于

，其中，

为涉及表t₁的数据元映射关系数量，

为涉及表t₂的数据元映射关系数量，

为同时涉及表t₁与表t₂的数据元映射关系数量；

将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。

优选地，基于第二相似度和第四相似度校正所述数据元映射关系库，包括：通过归一化处理与相似度加权累加获得最终值，再依所述最终值更新所述数据元映射关系库。

优选地，根据校正后的数据元映射关系库得到数据元值域映射关系库，包括：当大数据标准库内数据元存在枚举类值域时，采用显式语义分析算法首先将术语表示为高维向量，每个向量条目表示为TF-IDF权重形式，其中TF代表词频，IDF代表逆文档频率。

进一步地，所述高维向量之间的相似度采用向量之间的余弦测度，方法为：

其中，A和B分别表示高维向量A和高维向量B，

和

分别表示高维向量A的模和高维向量B的模。

本方明第二方面提供了一种基于健康医疗大数据标准库的多源数据处理***，所述***包括数据输入模块、数据处理模块和数据输出模块，所述输入模块用于输入数据；所述数据处理模块用于获取所述基于健康医疗大数据标准库的多源数据处理方法的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库；所述输出模块用于输出数据。

本方明第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如下步骤：

基于第二相似度和第四相似度校正所述数据元映射关系库；

本申请的有益效果为：本发明的基于健康医疗大数据标准库的多源数据处理方法与***，可减少在数据处理时对人工操作的依赖，提升对健康医疗多源数据处理的效率。改善现有的依赖专业人士进行人工数据结构识别与标准化转换的不足，有效降低多源健康医疗大数据的标准化转换门槛，提高大规模多源健康医疗大数据的标准化转换效率，从而推动健康医疗大数据的共享整合与深度利用。

附图说明

图1示出了本申请实施例1的方法流程示意图；

图2示出了本申请实施例2的方法流程示意图；

图3示出了本申请实施例3的***结构示意图；

图4示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解的是，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是，本申请可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本申请发生混淆，对于本领域公知的一些技术特征未进行描述。

应予以注意的是，这里所使用的术语仅是为了描述具体实施例，而非意图限制根据本申请的示例性实施例。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的，其中为了清楚表达的目的，可能放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例1：

本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法，如图1所示，包括以下步骤：

基于第二相似度和第四相似度校正所述数据元映射关系库；

其中，C₁至C₅表示不同的权重系数。

采用语义相似性度量算法计算数据表名称相似度；

计算数据表中含数据元的相似度，等于

，其中，

为涉及表t₁的数据元映射关系数量，

为涉及表t₂的数据元映射关系数量，

为同时涉及表t₁与表t₂的数据元映射关系数量；

其中，A和B分别表示高维向量A和高维向量B，

和

分别表示高维向量A的模和高维向量B的模。

实施例2：

本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法，如图2所示，包括以下步骤：

第一步，获得健康医疗大数据标准库和健康医疗数据源数据模式库，健康医疗大数据标准库和源数据模式库均为数据库-数据子表-数据元结构，并详细给定了每个数据元的所属数据子表、数据元名称、数据元类型、数据元描述、值域和单位等数据元信息。

第二步，源数据模式库数据元映射。

对于源数据模式库内的每一个数据元，通过循环遍历算法，计算该数据元与大数据标准库内的每一个数据元的相似度，相似度最高且超过一定限值的大数据标准库内的数据元为该源数据模式库内的数据元的匹配数据元，一个源数据模式库内的数据元与其匹配数据元建立一条映射关系，最终得到数据元映射关系库。源数据模式库内的数据元与大数据标准库内的数据元的相似度计算采用相似度加权累加算法，具体包括：

数据元类型相似度S₁计算时，采用分级排序法计算数据元类型相似度。具体地，将数据元按照其数据类型的相似度进行分级，第一级为数值、字符串和日期三大类，每两类之间相似度为1，第一级相似度权重为C₁₁，第一级相似度为C₁₁*S₁₁。第二级为按照数据存储长度进行再分类。以数值型数据为例，数据类型按照数据存储长度再分类及数据相似度进行排序后为int、long、float和double，两个小类之间的相似度为序列差，如int和long之间的相似度为1，int和double之间的相似度为3，第二级相似度权重为C₁₂，第二级相似度加权前归一化后为S₁₂=(S₁₂-min(S₁₂))/(max(S₁₂)-min(S₁₂))，加权后为C₁₂*S₁₂。字符串和日期以此类推。最后，两个数据元类型的相似度为数据元各级相似度之和，即S₁=C₁₁*S₁₁+ C₁₂*S₁₂。

数据元名称相似度S₂计算时，采用自然语言处理（natural languageprocessing，NLP）中语义相似性度量算法计算两个数据元名称的相似度。采用相似度的度量单位为Lin_similarity，两个概念的相似度定义为描述两个概念的共性所需的信息量（information content，IC）和完全描述两个概念所需信息量的比值，其计算公式为：

其中信息量IC(a)为概念a现概率的负log函数值：

，n(a)为概念a所包含的子概念数，N为本体中概念的总数。LCA(a, b)为概念a和b的最近共同祖先（the lowest common ancestors，LCA）概念。

数据元描述相似度S₃计算与数据元名称相似度计算类似，采用语义相似性度量算法计算两个数据元描述的相似度。

数据元值域相似度S₄计算时，对于两个string类型的数据元，同样采用语义相似性度量算法计算值域的相似度；对于两个数值类型的数据元，数据元值域为数组形式，数组内包含该数据元可能取值的上下限，数组形式数据元值域的相似度为两个数据元的值域范围的重叠程度，具体公式如下：

其中，low和high分别代表下限和上限。

对于两个date类型的数据元，数据元相似度的计算方式与两个数值类型的数据元的相似度计算方式类似。对于以上两种情况以外的数据元，其相似度按照0计算。

数据元单位相似度S₅计算：同样采用分级排序法计算数据元单位相似度。第一级为将数据元单位按照国家计量分类划分，包括长度、质量、物质的量、体积、压力和温度，在此基础上增加计数、百分比和上述单位的组合，每两类之间相似度为1，第一级相似度权重为C₅₁，第一级相似度为C₅₁*S₅₁。第二级为各个一级单位按照测量精度可再划分，如长度类别包含um、mm、cm、dm、m、km等二级类别，一级类别内各个二级类别按照测量精度进行排序，两个数据元单位的相似度为序列差，如um和mm之间的相似度为1，um和km之间的相似度为5。第二级相似度权重为C₁₂，第二级相似度加权前归一化后为S₅₂=(S₅₂-min(S₅₂))/(max(S₅₂)-min(S₅₂))，加权后为C₅₂*S₅₂。字符串和日期以此类推。最后，两个数据元类型的相似度为数据元各级相似度之和，即S₅=C₅₁*S₅₁+ C₅₂*S₅₂。

对数据元类型相似度S₁、数据元名称相似度S₂、数据元描述相似度S₃、数据元值域相似度S₄和数据元单位相似度S₅分别进行归一化处理，公式如下：

按照其重要性程度分别给予适当的权重C₁-C₅，将5个相似度加权累加后得到两个数据元相似度，

。

第三步，源数据模式库数据表映射。

对于源数据模式库内的每一个数据表，同样通过循环遍历算法计算该数据表与大数据标准库内的每一个数据表的相似度，相似度最高且超过一定限值的大数据标准库内的数据表为该源数据模式库内的数据表的匹配数据表，一个源数据模式库的数据表与其匹配数据表建立一条映射关系，最终得到数据表映射关系库。源数据模式库内的数据表与大数据标准库内的数据表的相似度计算同样采用相似度加权累加算法，包括数据表名称相似度和数据表中含数据元的相似度：

数据表名称相似度的计算，与数据元名称相似度计算方法类似，采用语义相似性度量算法计算两个数据表名称的相似度，相似度的度量单位为Lin_similarity（简写为S）。

数据表中含数据元的相似度计算：根据在第二步中得到的源数据模式库内的数据元与其匹配数据元建立的映射关系库，计算两个数据表包含数据元相似度，两个数据表共同涉及的数据元映射关系数越大，两个数据表的相似度越高，等于

，其中，N(t₁)为涉及表t₁的数据元映射关系数量，N(t₂)为涉及表t₂的数据元映射关系数量，N(t₁&t₂)为同时涉及表t₁与表t₂的数据元映射关系数量；然后将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为源数据模式库内的数据表与大数据标准库内的数据表的相似度。

第四步，数据元映射校正。

依据第二步中得到的源数据模式库内数据元与大数据标准库内数据元之间的相似度，及第三步中得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度，通过归一化处理与相似度加权累加获得最终值，再依所述最终值更新所述数据元映射关系库。

第五步，数据元值域映射。

在第四步更新过的数据元映射关系库的基础上，对于具有映射关系的源数据模式库数据元和标准数据库数据元，若标准数据库中该数据元存在枚举类值域，则采用NLP中显式语义分析算法(Explicit Semantic Analysis，ESA)，对两个数据元的枚举类值域进行相似度匹配，得到数据元值域映射关系库。例如：ESA相似度的计算基于***的技术将术语表示为高维向量，每个向量条目表示该术语和一篇***文章之间的TF-IDF权重，其中TF代表词频，IDF代表逆文档频率。TF-IDF（term frequency–inverse documentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文档频率(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF表示词条在文档中出现的频率，而IDF的主要思想是，如果包含词条t的文档越少，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。

所述TF-IDF权重的计算方法为：

其中，t_i代表关键词，d_j代表文章，

即表示关键词t_i在文章d_j中出现的频率，等于关键词t_i在整篇文章d_j中出现的次数count(t_i, d_j)除以该篇文章的总关键词数count(d_j)；N为词料库的文章总数，N(t_i)为包含该关键词的文章总数。两个术语之间即两个高维向量之间的相似度计算为对应向量之间的余弦测度，公式为：

其中，A和B分别表示高维向量A和高维向量B，

和

分别表示高维向量A的模和高维向量B的模。

实施例3：

本实施例实施了一种基于健康医疗大数据标准库的多源数据处理***，如图3所示，所述***包括：数据输入模块501、数据处理模块502和数据输出模块503，所述输入模块用于输入数据；所述数据处理模块用于获取前述实施方式中的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库；所述输出模块用于输出数据。进一步地，所述***可配置为健康医疗大数据标准库。

本申请实施方式还提供一种与前述实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法对应的计算机可读存储介质，请参考图4，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法。

所述计算机可读存储介质的例子还可以包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于健康医疗大数据标准库的多源数据处理方法，其特征在于，包括以下步骤：

基于第二相似度和第四相似度校正所述数据元映射关系库；

2.根据权利要求1所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，基于所述第一映射关系得到数据元映射关系库，具体包括：

3.根据权利要求2所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，所述第一相似度包括数据元类型相似度S₁、数据元名称相似度S₂、数据元描述相似度S₃、数据元值域相似度S₄和数据元单位相似度S₅，基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度具体包括：

其中，C₁至C₅表示不同的权重系数。

4.根据权利要求3所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，对于数据元值域相似度，如果数据元值域为数组形式，数组内包含该数据元可能取值的上下限，数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度，其计算方法为：

5.根据权利要求4所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度，基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括：

采用语义相似性度量算法计算数据表名称相似度；

计算数据表中含数据元的相似度，等于

，其中，

为涉及表t₁的数据元映射关系数量，

为涉及表t₂的数据元映射关系数量，

为同时涉及表t₁与表t₂的数据元映射关系数量；

6.根据权利要求5所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，基于第二相似度和第四相似度校正所述数据元映射关系库，包括：通过归一化处理与相似度加权累加获得最终值，再依所述最终值更新所述数据元映射关系库。

7.根据权利要求6所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，根据校正后的数据元映射关系库得到数据元值域映射关系库，包括：当大数据标准库内数据元存在枚举类值域时，采用显式语义分析算法首先将术语表示为高维向量，每个向量条目表示为TF-IDF权重形式，其中TF代表词频，IDF代表逆文档频率。

8.根据权利要求7所述的基于健康医疗大数据标准库的多源数据处理方法，其特征在于，所述高维向量之间的相似度采用向量之间的余弦测度，方法为：

其中，A和B分别表示高维向量A和高维向量B，

和

分别表示高维向量A的模和高维向量B的模。

9.一种基于健康医疗大数据标准库的多源数据处理***，其特征在于，所述***包括数据输入模块、数据处理模块和数据输出模块，所述输入模块用于输入数据；所述数据处理模块用于获取权利要求1至8任意一项中的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库；所述输出模块用于输出数据。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至8任意一项方法的步骤。