CN113032532A - 基于健康医疗大数据标准库的多源数据处理方法与*** - Google Patents

基于健康医疗大数据标准库的多源数据处理方法与*** Download PDF

Info

Publication number
CN113032532A
CN113032532A CN202110561940.8A CN202110561940A CN113032532A CN 113032532 A CN113032532 A CN 113032532A CN 202110561940 A CN202110561940 A CN 202110561940A CN 113032532 A CN113032532 A CN 113032532A
Authority
CN
China
Prior art keywords
data
similarity
library
mapping relation
data element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110561940.8A
Other languages
English (en)
Other versions
CN113032532B (zh
Inventor
吴静依
李鹏飞
李青
张路霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202110561940.8A priority Critical patent/CN113032532B/zh
Publication of CN113032532A publication Critical patent/CN113032532A/zh
Application granted granted Critical
Publication of CN113032532B publication Critical patent/CN113032532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理技术领域,更为具体来说,本申请涉及基于健康医疗大数据标准库的多源数据处理方法与***,所述方法包括:获得大数据标准库和源数据模式库;计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于第一相似度得到第二相似度,基于第一映射关系得到数据元映射关系库;计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于第三相似度得到第四相似度,基于第二映射关系得到数据表映射关系库;基于第二相似度和第四相似度校正数据元映射关系库;获得数据元值域映射关系库。本方法与***可减少在数据处理时对人工操作的依赖,提升对健康医疗多源数据处理的效率。

Description

基于健康医疗大数据标准库的多源数据处理方法与***
技术领域
本申请涉及数据处理技术领域,更为具体来说,本申请涉及基于健康医疗大数据标准库的多源数据处理方法与***。
背景技术
医学是数据密集型行业,无论是公共卫生、临床医疗服务、以及医学研究都离不开基于数据进行循证的支撑。但我国医疗体系复杂庞大,健康医疗数据来源多样而复杂。健康医疗数据可能来源于医疗服务过程中实际医疗业务流程产生的临床数据,或是医学研究中严格设计并主动收集的医学研究数据,也可能是来源于政府发布的公共卫生数据或者互联网和社会媒体产生的健康数据信息。健康医疗数据具有多源、异构、非统一等数据特性,数据结构复杂,这些复杂的多源异构数据,在数据的质量、标准化、可用性等方面差异很大,这严重限制了健康医疗大数据的共享、整合和进一步的数据处理与利用。目前,国家已针对健康医疗大数据的整合利用出台过相关健康医疗大数据的数据标准规范,健康医疗数据在投入正式的医学研究与应用前需要根据不同的研究应用目的,对不同来源的数据进行标准化转换与整合。
现有的多源健康医疗大数据的数据处理主要依赖于人工识别数据结构并建立源数据与标准数据库之间的映射关系。这种标准化转换方式不仅处理效率低,不适用于大规模多源数据的整合,而且对标准化转换的人员有较高的要求,不仅需要有专业的医学背景可以准确判断源数据与标准数据库之间的映射关系,而且需要有专业的数据处理技术。减少对人工操作的依赖,提升对健康医疗多源数据处理的效率,是亟待解决的问题。
因此,本申请提出基于健康医疗大数据标准库的多源数据处理方法与***,以至少部分地解决上述技术问题。
发明内容
为实现上述技术目的,本申请提供了一种基于健康医疗大数据标准库的多源数据处理方法,包括以下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
具体地,基于所述第一映射关系得到数据元映射关系库,具体包括:
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的第一相似度;
将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元,将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系,得到数据元映射关系库。
具体地,所述第一相似度包括数据元类型相似度S1、数据元名称相似度S2、数据元描述相似度S3、数据元值域相似度S4和数据元单位相似度S5,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度具体包括:
基于第一相似度的最大值和最小值进行归一化处理,按照其重要性分别给予相应的权重,将5个相似度加权累加为所述第二相似度
Figure 100002_DEST_PATH_IMAGE001
其中,C1至C5表示不同的权重系数。
进一步地,对于数据元值域相似度,如果数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度,其计算方法为:
Figure 100002_DEST_PATH_IMAGE002
其中,low和high分别代表下限和上限,a和b代表源数据模式库内数据元和标准库内数据元。
进一步地,所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括:
采用语义相似性度量算法计算数据表名称相似度;
计算数据表中含数据元的相似度,等于
Figure 100002_DEST_PATH_IMAGE003
,其中,
Figure 100002_DEST_PATH_IMAGE004
为涉及表t1的数据元映射关系数量,
Figure 100002_DEST_PATH_IMAGE005
为涉及表t2的数据元映射关系数量,
Figure 100002_DEST_PATH_IMAGE006
为同时涉及表t1与表t2的数据元映射关系数量;
将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。
优选地,基于第二相似度和第四相似度校正所述数据元映射关系库,包括:通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
优选地,根据校正后的数据元映射关系库得到数据元值域映射关系库,包括:当大数据标准库内数据元存在枚举类值域时,采用显式语义分析算法首先将术语表示为高维向量,每个向量条目表示为TF-IDF权重形式,其中TF代表词频,IDF代表逆文档频率。
进一步地,所述高维向量之间的相似度采用向量之间的余弦测度,方法为:
Figure 100002_DEST_PATH_IMAGE007
其中,A和B分别表示高维向量A和高维向量B,
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
分别表示高维向量A的模和高维向量B的模。
本方明第二方面提供了一种基于健康医疗大数据标准库的多源数据处理***,所述***包括数据输入模块、数据处理模块和数据输出模块,所述输入模块用于输入数据;所述数据处理模块用于获取所述基于健康医疗大数据标准库的多源数据处理方法的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库;所述输出模块用于输出数据。
本方明第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
本申请的有益效果为:本发明的基于健康医疗大数据标准库的多源数据处理方法与***,可减少在数据处理时对人工操作的依赖,提升对健康医疗多源数据处理的效率。改善现有的依赖专业人士进行人工数据结构识别与标准化转换的不足,有效降低多源健康医疗大数据的标准化转换门槛,提高大规模多源健康医疗大数据的标准化转换效率,从而推动健康医疗大数据的共享整合与深度利用。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例2的方法流程示意图;
图3示出了本申请实施例3的***结构示意图;
图4示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法,如图1所示,包括以下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
具体地,基于所述第一映射关系得到数据元映射关系库,具体包括:
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的第一相似度;
将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元,将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系,得到数据元映射关系库。
具体地,所述第一相似度包括数据元类型相似度S1、数据元名称相似度S2、数据元描述相似度S3、数据元值域相似度S4和数据元单位相似度S5,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度具体包括:
基于第一相似度的最大值和最小值进行归一化处理,按照其重要性分别给予相应的权重,将5个相似度加权累加为所述第二相似度
Figure DEST_PATH_IMAGE010
其中,C1至C5表示不同的权重系数。
进一步地,对于数据元值域相似度,如果数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度,其计算方法为:
Figure 359188DEST_PATH_IMAGE002
其中,low和high分别代表下限和上限,a和b代表源数据模式库内数据元和标准库内数据元。
进一步地,所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括:
采用语义相似性度量算法计算数据表名称相似度;
计算数据表中含数据元的相似度,等于
Figure DEST_PATH_IMAGE011
,其中,
Figure DEST_PATH_IMAGE012
为涉及表t1的数据元映射关系数量,
Figure 73066DEST_PATH_IMAGE005
为涉及表t2的数据元映射关系数量,
Figure 118383DEST_PATH_IMAGE006
为同时涉及表t1与表t2的数据元映射关系数量;
将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。
优选地,基于第二相似度和第四相似度校正所述数据元映射关系库,包括:通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
优选地,根据校正后的数据元映射关系库得到数据元值域映射关系库,包括:当大数据标准库内数据元存在枚举类值域时,采用显式语义分析算法首先将术语表示为高维向量,每个向量条目表示为TF-IDF权重形式,其中TF代表词频,IDF代表逆文档频率。
进一步地,所述高维向量之间的相似度采用向量之间的余弦测度,方法为:
Figure 779171DEST_PATH_IMAGE007
其中,A和B分别表示高维向量A和高维向量B,
Figure 859123DEST_PATH_IMAGE008
Figure 697897DEST_PATH_IMAGE009
分别表示高维向量A的模和高维向量B的模。
实施例2:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法,如图2所示,包括以下步骤:
第一步,获得健康医疗大数据标准库和健康医疗数据源数据模式库,健康医疗大数据标准库和源数据模式库均为数据库-数据子表-数据元结构,并详细给定了每个数据元的所属数据子表、数据元名称、数据元类型、数据元描述、值域和单位等数据元信息。
第二步,源数据模式库数据元映射。
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的相似度,相似度最高且超过一定限值的大数据标准库内的数据元为该源数据模式库内的数据元的匹配数据元,一个源数据模式库内的数据元与其匹配数据元建立一条映射关系,最终得到数据元映射关系库。源数据模式库内的数据元与大数据标准库内的数据元的相似度计算采用相似度加权累加算法,具体包括:
数据元类型相似度S1计算时,采用分级排序法计算数据元类型相似度。具体地,将数据元按照其数据类型的相似度进行分级,第一级为数值、字符串和日期三大类,每两类之间相似度为1,第一级相似度权重为C11,第一级相似度为C11*S11。第二级为按照数据存储长度进行再分类。以数值型数据为例,数据类型按照数据存储长度再分类及数据相似度进行排序后为int、long、float和double,两个小类之间的相似度为序列差,如int和long之间的相似度为1,int和double之间的相似度为3,第二级相似度权重为C12,第二级相似度加权前归一化后为S12=(S12-min(S12))/(max(S12)-min(S12)),加权后为C12*S12。字符串和日期以此类推。最后,两个数据元类型的相似度为数据元各级相似度之和,即S1=C11*S11+ C12*S12
数据元名称相似度S2计算时,采用自然语言处理(natural languageprocessing,NLP)中语义相似性度量算法计算两个数据元名称的相似度。采用相似度的度量单位为Lin_similarity,两个概念的相似度定义为描述两个概念的共性所需的信息量(information content,IC)和完全描述两个概念所需信息量的比值,其计算公式为:
Figure DEST_PATH_IMAGE013
其中信息量IC(a)为概念a现概率的负log函数值:
Figure DEST_PATH_IMAGE014
,n(a)为概念a所包含的子概念数,N为本体中概念的总数。LCA(a, b)为概念a和b的最近共同祖先(the lowest common ancestors,LCA)概念。
数据元描述相似度S3计算与数据元名称相似度计算类似,采用语义相似性度量算法计算两个数据元描述的相似度。
数据元值域相似度S4计算时,对于两个string类型的数据元,同样采用语义相似性度量算法计算值域的相似度;对于两个数值类型的数据元,数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式数据元值域的相似度为两个数据元的值域范围的重叠程度,具体公式如下:
Figure 761668DEST_PATH_IMAGE002
其中,low和high分别代表下限和上限。
对于两个date类型的数据元,数据元相似度的计算方式与两个数值类型的数据元的相似度计算方式类似。对于以上两种情况以外的数据元,其相似度按照0计算。
数据元单位相似度S5计算:同样采用分级排序法计算数据元单位相似度。第一级为将数据元单位按照国家计量分类划分,包括长度、质量、物质的量、体积、压力和温度,在此基础上增加计数、百分比和上述单位的组合,每两类之间相似度为1,第一级相似度权重为C51,第一级相似度为C51*S51。第二级为各个一级单位按照测量精度可再划分,如长度类别包含um、mm、cm、dm、m、km等二级类别,一级类别内各个二级类别按照测量精度进行排序,两个数据元单位的相似度为序列差,如um和mm之间的相似度为1,um和km之间的相似度为5。第二级相似度权重为C12,第二级相似度加权前归一化后为S52=(S52-min(S52))/(max(S52)-min(S52)),加权后为C52*S52。字符串和日期以此类推。最后,两个数据元类型的相似度为数据元各级相似度之和,即S5=C51*S51+ C52*S52
对数据元类型相似度S1、数据元名称相似度S2、数据元描述相似度S3、数据元值域相似度S4和数据元单位相似度S5分别进行归一化处理,公式如下:
Figure DEST_PATH_IMAGE015
按照其重要性程度分别给予适当的权重C1-C5,将5个相似度加权累加后得到两个数据元相似度,
Figure DEST_PATH_IMAGE016
第三步,源数据模式库数据表映射。
对于源数据模式库内的每一个数据表,同样通过循环遍历算法计算该数据表与大数据标准库内的每一个数据表的相似度,相似度最高且超过一定限值的大数据标准库内的数据表为该源数据模式库内的数据表的匹配数据表,一个源数据模式库的数据表与其匹配数据表建立一条映射关系,最终得到数据表映射关系库。源数据模式库内的数据表与大数据标准库内的数据表的相似度计算同样采用相似度加权累加算法,包括数据表名称相似度和数据表中含数据元的相似度:
数据表名称相似度的计算,与数据元名称相似度计算方法类似,采用语义相似性度量算法计算两个数据表名称的相似度,相似度的度量单位为Lin_similarity(简写为S)。
数据表中含数据元的相似度计算:根据在第二步中得到的源数据模式库内的数据元与其匹配数据元建立的映射关系库,计算两个数据表包含数据元相似度,两个数据表共同涉及的数据元映射关系数越大,两个数据表的相似度越高,等于
Figure DEST_PATH_IMAGE017
,其中,N(t1)为涉及表t1的数据元映射关系数量,N(t2)为涉及表t2的数据元映射关系数量,N(t1&t2)为同时涉及表t1与表t2的数据元映射关系数量;然后将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为源数据模式库内的数据表与大数据标准库内的数据表的相似度。
第四步,数据元映射校正。
依据第二步中得到的源数据模式库内数据元与大数据标准库内数据元之间的相似度,及第三步中得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
第五步,数据元值域映射。
在第四步更新过的数据元映射关系库的基础上,对于具有映射关系的源数据模式库数据元和标准数据库数据元,若标准数据库中该数据元存在枚举类值域,则采用NLP中显式语义分析算法(Explicit Semantic Analysis,ESA),对两个数据元的枚举类值域进行相似度匹配,得到数据元值域映射关系库。例如:ESA相似度的计算基于***的技术将术语表示为高维向量,每个向量条目表示该术语和一篇***文章之间的TF-IDF权重,其中TF代表词频,IDF代表逆文档频率。TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文档频率(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF表示词条在文档中出现的频率,而IDF的主要思想是,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
所述TF-IDF权重的计算方法为:
Figure DEST_PATH_IMAGE018
其中,ti代表关键词,dj代表文章,
Figure DEST_PATH_IMAGE019
即表示关键词ti在文章dj中出现的频率,等于关键词ti在整篇文章dj中出现的次数count(ti, dj)除以该篇文章的总关键词数count(dj);N为词料库的文章总数,N(ti)为包含该关键词的文章总数。两个术语之间即两个高维向量之间的相似度计算为对应向量之间的余弦测度,公式为:
Figure DEST_PATH_IMAGE020
其中,A和B分别表示高维向量A和高维向量B,
Figure 570355DEST_PATH_IMAGE008
Figure 504813DEST_PATH_IMAGE009
分别表示高维向量A的模和高维向量B的模。
实施例3:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理***,如图3所示,所述***包括:数据输入模块501、数据处理模块502和数据输出模块503,所述输入模块用于输入数据;所述数据处理模块用于获取前述实施方式中的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库;所述输出模块用于输出数据。进一步地,所述***可配置为健康医疗大数据标准库。
本申请实施方式还提供一种与前述实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法对应的计算机可读存储介质,请参考图4,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法。
所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于健康医疗大数据标准库的多源数据处理方法,其特征在于,包括以下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
2.根据权利要求1所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,基于所述第一映射关系得到数据元映射关系库,具体包括:
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的第一相似度;
将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元,将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系,得到数据元映射关系库。
3.根据权利要求2所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述第一相似度包括数据元类型相似度S1、数据元名称相似度S2、数据元描述相似度S3、数据元值域相似度S4和数据元单位相似度S5,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度具体包括:
基于第一相似度的最大值和最小值进行归一化处理,按照其重要性分别给予相应的权重,将5个相似度加权累加为所述第二相似度
Figure DEST_PATH_IMAGE001
其中,C1至C5表示不同的权重系数。
4.根据权利要求3所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,对于数据元值域相似度,如果数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度,其计算方法为:
Figure DEST_PATH_IMAGE002
其中,low和high分别代表下限和上限,a和b代表源数据模式库内数据元和标准库内数据元。
5.根据权利要求4所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括:
采用语义相似性度量算法计算数据表名称相似度;
计算数据表中含数据元的相似度,等于
Figure DEST_PATH_IMAGE003
,其中,
Figure DEST_PATH_IMAGE004
为涉及表t1的数据元映射关系数量,
Figure DEST_PATH_IMAGE005
为涉及表t2的数据元映射关系数量,
Figure DEST_PATH_IMAGE006
为同时涉及表t1与表t2的数据元映射关系数量;
将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。
6.根据权利要求5所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,基于第二相似度和第四相似度校正所述数据元映射关系库,包括:通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
7.根据权利要求6所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,根据校正后的数据元映射关系库得到数据元值域映射关系库,包括:当大数据标准库内数据元存在枚举类值域时,采用显式语义分析算法首先将术语表示为高维向量,每个向量条目表示为TF-IDF权重形式,其中TF代表词频,IDF代表逆文档频率。
8.根据权利要求7所述的基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述高维向量之间的相似度采用向量之间的余弦测度,方法为:
Figure DEST_PATH_IMAGE007
其中,A和B分别表示高维向量A和高维向量B,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别表示高维向量A的模和高维向量B的模。
9.一种基于健康医疗大数据标准库的多源数据处理***,其特征在于,所述***包括数据输入模块、数据处理模块和数据输出模块,所述输入模块用于输入数据;所述数据处理模块用于获取权利要求1至8任意一项中的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库;所述输出模块用于输出数据。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至8任意一项方法的步骤。
CN202110561940.8A 2021-05-21 2021-05-21 基于健康医疗大数据标准库的多源数据处理方法与*** Active CN113032532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110561940.8A CN113032532B (zh) 2021-05-21 2021-05-21 基于健康医疗大数据标准库的多源数据处理方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110561940.8A CN113032532B (zh) 2021-05-21 2021-05-21 基于健康医疗大数据标准库的多源数据处理方法与***

Publications (2)

Publication Number Publication Date
CN113032532A true CN113032532A (zh) 2021-06-25
CN113032532B CN113032532B (zh) 2021-08-17

Family

ID=76455523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110561940.8A Active CN113032532B (zh) 2021-05-21 2021-05-21 基于健康医疗大数据标准库的多源数据处理方法与***

Country Status (1)

Country Link
CN (1) CN113032532B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688126A (zh) * 2021-08-25 2021-11-23 云从科技集团股份有限公司 确定源数据与标准数据的映射关系的方法、***和介质
CN113986208A (zh) * 2021-09-27 2022-01-28 阿里云计算有限公司 数据的处理方法、计算设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理***及方法
US9600899B2 (en) * 2013-12-20 2017-03-21 Alcatel Lucent Methods and apparatuses for detecting anomalies in the compressed sensing domain
US20180239809A1 (en) * 2017-02-17 2018-08-23 International Business Machines Corporation Managing content creation of data sources
CN109408578A (zh) * 2018-10-30 2019-03-01 环境保护部华南环境科学研究所 一种针对异构环境监测数据融合方法
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN112233746A (zh) * 2020-11-05 2021-01-15 克拉玛依市中心医院 一种医疗数据自动标准化的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600899B2 (en) * 2013-12-20 2017-03-21 Alcatel Lucent Methods and apparatuses for detecting anomalies in the compressed sensing domain
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理***及方法
US20180239809A1 (en) * 2017-02-17 2018-08-23 International Business Machines Corporation Managing content creation of data sources
CN109408578A (zh) * 2018-10-30 2019-03-01 环境保护部华南环境科学研究所 一种针对异构环境监测数据融合方法
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN112233746A (zh) * 2020-11-05 2021-01-15 克拉玛依市中心医院 一种医疗数据自动标准化的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUNG-SHEN LIN ET AL: "A Similarity Measure for Text Classification and Clustering", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 》 *
文必龙 等: "基于数据元的数据模型语义映射技术研究", 《计算机技术与发展》 *
潘佳云: "基于本体的异构数据集成技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688126A (zh) * 2021-08-25 2021-11-23 云从科技集团股份有限公司 确定源数据与标准数据的映射关系的方法、***和介质
CN113986208A (zh) * 2021-09-27 2022-01-28 阿里云计算有限公司 数据的处理方法、计算设备及存储介质

Also Published As

Publication number Publication date
CN113032532B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
KR102564144B1 (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
US9971974B2 (en) Methods and systems for knowledge discovery
US9613024B1 (en) System and methods for creating datasets representing words and objects
CN102792298B (zh) 使用特征化匹配的规则来匹配元数据源
US9792277B2 (en) System and method for determining the meaning of a document with respect to a concept
CN104156415B (zh) 解决医疗数据标准编码对照问题的映射处理***及方法
US20210216576A1 (en) Systems and methods for providing answers to a query
CN113032532B (zh) 基于健康医疗大数据标准库的多源数据处理方法与***
US20240126801A9 (en) Semantic matching system and method
Chang et al. Generating contextual embeddings for emergency department chief complaints
Bustos et al. Learning eligibility in cancer clinical trials using deep neural networks
CN117236321A (zh) 科研成果的人名消歧与成果合并方法、***、终端及介质
Wijewickrema et al. Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora
Aljohani et al. A novel deep neural network-based approach to measure scholarly research dissemination using citations network
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
Gonçalves et al. A novel multi-view ensemble learning architecture to improve the structured text classification
Cho et al. A DATA-DRIVEN TEXT SIMILARITY MEASURE BASED ON CLASSIFICATION ALGORITHMS.
Giannaris et al. Artificial intelligence-driven structurization of diagnostic information in free-text pathology reports
Rizun et al. Improving the accuracy in sentiment classification in the light of modelling the latent semantic relations
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
Sangounpao et al. Ontology-based naive bayes short text classification method for a small dataset
CN112735584A (zh) 一种恶性肿瘤诊疗辅助决策生成方法及装置
Yang et al. Supervised fine tuning for word embedding with integrated knowledge
Kreuzthaler et al. EHR Text Categorization for Enhanced Patient-Based Document Navigation
WO2022244892A1 (ja) 企業評価装置及び企業評価方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant