CN108090068A - 医院数据库中的表的分类方法及装置 - Google Patents
医院数据库中的表的分类方法及装置 Download PDFInfo
- Publication number
- CN108090068A CN108090068A CN201611028597.6A CN201611028597A CN108090068A CN 108090068 A CN108090068 A CN 108090068A CN 201611028597 A CN201611028597 A CN 201611028597A CN 108090068 A CN108090068 A CN 108090068A
- Authority
- CN
- China
- Prior art keywords
- sample
- data content
- sample table
- field
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种医院数据库中的表的分类方法及装置。该方法包括:对医院数据库中的多个表进行聚类运算以生成多个类簇;在各类簇中分别选取一个或多个表作为样本表,并对样本表中的各列数据内容进行采样得到样本表的样本数据内容;根据样本表的各列样本数据内容识别出样本表所包含的字段;根据样本表中各字段在各标准表中是否出现和字段在各标准表中所对应的权重计算样本表的第一得分;根据样本表的表名与各标准表的表名之间的相似度计算样本表的第二得分;以及综合第一得分和第二得分判断样本表的分类,并根据样本表的分类确定样本表所在的类簇所包含的表的分类。本公开能够高效自动地对医院数据库中的表进行分类,有效降低人工处理成本。
Description
技术领域
本公开涉及医疗大数据领域,具体而言,涉及一种医院数据库中的表的分类方法及分类装置。
背景技术
随着医疗信息化的推进,各大医院已形成HIS(医院信息***)、EMR(电子病历)等医疗信息***,这极大地提高了医院管理以及病人看病的效率。
然而,由于各个医院使用不同的数据库如SQL Server、Oracle、DB2等,数据库设计人员建表、设计表的字段名称的习惯差异,且标准未完全推广的原因,随着数据库的数据及表的快速增长,造成了各个医院数据库***中存在大量不统一的表名和列名,这对医疗数据的标准化、数据共享、数据分析造成了很大困难。现在把医院数据库中的表映射到标准表上主要依赖人工猜测表的内容来对表进行分类。
人工对医院数据库中的表进行分类不仅效率低、人工成本高,而且经常会猜测不准确而造成分类错误。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医院数据库中的表的分类方法及分类装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一方面,提供了一种医院数据库中的表的分类方法,包括:
对医院数据库中的多个表进行聚类运算以生成多个类簇;
在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
在本公开的一种示例性实施例中,所述对医院数据库中的多个表进行聚类运算以生成多个类簇包括:
根据所述医院数据库中的所述多个表的视图获取各表的结构信息;
基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
在本公开的一种示例性实施例中,所述基于所获取的各表的结构信息对各表进行所述聚类运算包括:
基于所获取的各表的结构信息计算各表的指纹特征;
基于所述指纹特征计算各表的距离;以及
基于各表的所述距离来对各表进行所述聚类运算。
在本公开的一种示例性实施例中,所述根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段包括:
判断所述样本数据内容是否是文本型数据;
在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;以及
在所述样本数据内容是非文本型数据时,使用模糊匹配方式来识别所述样本数据内容所在的字段。
在本公开的一种示例性实施例中,所述计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度包括:
对所述样本数据内容进行分词,得到多个分词单元;
基于所述分词单元计算所述样本数据内容的特征向量;以及
计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
根据本公开的另一方面,还提供了一种医院数据库中的表的分类装置,包括:
类簇生成单元,用于对医院数据库中的多个表进行聚类运算以生成多个类簇;
采样单元,用于在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
字段识别单元,用于根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
第一得分计算单元,用于根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
第二得分计算单元,用于根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
分类单元,用于综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
在本公开的一种示例性实施例中,所述类簇生成单元包括:
结构信息获取单元,用于根据所述医院数据库中的所述多个表的视图获取各表的结构信息;
聚类运算单元,用于基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
在本公开的一种示例性实施例中,所述聚类运算单元包括:
指纹特征计算单元,用于基于所获取的各表的结构信息计算各表的指纹特征;
距离计算单元,用于基于所述指纹特征计算各表的距离;以及
运算单元,用于基于各表的所述距离来对各表进行所述聚类运算。
在本公开的一种示例性实施例中,所述字段识别单元包括:
判断单元,用于判断所述样本数据内容是否是文本型数据;
文本型数据识别单元,用于在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;
非文本型数据识别单元,用于在所述样本数据内容是非文本型数据时,使用模糊匹配方式识别所述样本数据内容所在的字段。
在本公开的一种示例性实施例中,所述文本型数据识别单元包括:
分词单元,用于对所述样本数据内容进行分词,得到多个分词单元;
向量计算单元,用于基于所述分词单元计算所述样本数据内容的特征向量;以及
相似度计算单元,用于计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
本公开的一种示例性实施例中的医院数据库中的表的分类方法及分类装置,对医院数据库中的多个表进行聚类以生成多个类簇,从各类簇中选取一个或多个表作为样本表,结合基于样本表的各列数据内容的第一得分和基于样本表的表名的第二得分来综合判断样本表的分类。一方面,对医院数据库中的多个表进行聚类,将具有相同或相似结构的表聚在一个类簇中之后,从各类簇中选取样本表并对样本表进行分类,可以显著减少计算量,提高分类效率;另一方面,结合基于样本表的各列数据内容的第一得分和基于样本表的表名的第二得分综合判断样本表的分类,提高了分类的准确性;再一方面,由于可以自动地对表进行分类,从而可以有效降低人工处理的成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。
图1示意性地示出了根据本公开一示例性实施例的医院数据库中的表的分类方法的流程图;
图2示意性地示出了根据本公开一示例性实施例对各表进行聚类运算的方法的流程图;
图3示意性地示出了根据本公开一示例性实施例根据样本数据内容识别出样本表所包含的字段的方法的流程图;以及
图4示意性地示出了根据本公开一示例性实施例的医院数据库中的表的分类装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施例中,首先提供了一种医院数据库中的表的分类方法。参考图1中所示,该分类方法包括以下步骤:
步骤S110.对医院数据库中的多个表进行聚类运算以生成多个类簇;
步骤S120.在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
步骤S130.根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
步骤S140.根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
步骤S150.根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
步骤S160.综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
根据本示例实施例的医院数据库中的表的分类方法,一方面,对医院数据库中的多个表进行聚类,将具有相同或相似结构的表聚在一个类簇中之后,从各类簇中选取样本表并对样本表进行分类,可以显著减少计算量,提高分类效率;另一方面,结合基于样本表的各列数据内容的第一得分和基于样本表的表名的第二得分综合判断样本表的分类,提高了分类的准确性;再一方面,由于可以自动地对表进行分类,从而可以有效降低人工处理的成本。
下面,将对本示例实施例的医院数据库中的表的分类方法进行进一步的说明。
在步骤S110中,对医院数据库中的多个表进行聚类运算以生成多个类簇。
在本示例性实施例中,可以对医院信息***中的不同类型数据库如SQL Server、Oracle、DB2等设计统一接口。通过该统一接口可以访问各数据库中的表,进而对各表进行聚类运算。图2示出了根据本公开一示例性实施例对各表进行聚类运算的方法的流程图,其中,对各表进行聚类运算可以包括步骤S210至步骤S240。下面对各步骤进行详细说明:
在步骤S210中,根据所述医院数据库中的所述多个表的视图获取各表的结构信息。
在本示例性实施例中,可以根据医院数据库中的表的视图获取各表的结构信息。表的视图是从一个或多个表中提取出来的数据的一种表现形式,可以当作虚拟的表。在本示例性实施例中,表的结构信息可以包括表的字段名称、字段描述、数据类型等。
接下来,在步骤S220中,基于所获取的各表的结构信息计算各表的指纹特征。
各表的指纹特征是指模仿生物学指纹的特点,对每个表构造一个指纹,来作为该表的标识。从形式上来看指纹特征一般为固定长度的较短的字符串。在本示例性实施例中,表的指纹特征可以包括表的MD5值或者SHA1哈希值,但是本公开的示例性实施例中的表的指纹特征不限于此,还可以是根据哈希算法计算的其他哈希值。
在本示例性实施例中,计算各表的指纹特征的指纹特征算法可以包括SimHash算法和MinHash算法,但是本公开的示例性实施例中的指纹特征算法不限于此,例如指纹特征算法还可以为Shingle算法。例如,经过SimHash指纹生成算法生成的指纹可以为一个二进制字符串,如一个32位的指纹,“101001111100011010100011011011”。
接下来,在步骤S230中,基于所述指纹特征计算各表的距离。
在本示例性实施例中,各表的距离可以包括:海明距离、欧式距离、余弦距离以及曼哈顿距离,但是本公开的示例性实施例中的表的距离不限于此,例如表的距离还可以为马氏距离。
在本示例性实施例中,在k均值算法或k中心点算法下,各表的距离可以是各表距簇中心的距离,但是本公开的示例性实施例中的各表的距离不限于此,例如在层次聚类算法下,各表的距离还可以是簇间的距离,这同样属于本公开的保护范围。
接下来,在步骤S240中,基于各表的所述距离来对各表进行所述聚类运算。
在本示例性实施例中,聚类运算可以包括k均值算法和层次聚类算法,但是本公开的示例实施例中的聚类运算不限于此,例如还可以为k中心点算法。
在本示例性实施例中,所述对医院数据库中的多个表进行聚类运算以生成多个类簇可以包括:根据所述医院数据库中的所述多个表的视图获取各表的结构信息;基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
返回参考图1继续进行描述,在生成多个类簇之后,在步骤S120中,在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容。
举例而言,在k均值算法或k中心点算法下,可以用均值或中心点代表簇中心;本示例性实施例中,可以在各类簇中选取距离簇中心最近的一个或多个表作为样本表。但是本公开的示例性实施例中的样本表不限于此,例如样本表还可以是数据量与标准表的数据量最接近的一个或多个表。
在本示例性实施例中,可以预先统计标准表的数据量、标准字段在标准表中的权重以及标准表的名称,生成数据量字典、字段字典以及别名字典,然后在后续步骤中可以直接从数据量字典、字段字典以及名称字典中查询所需要的数据量、字段的权重、表的名称等信息。
在本示例性实施例中,可以对样本表中的各列数据内容进行随机采样来得到所述样本表的样本数据内容。此外,在本示例性实施例中,还可以采用其他采样算法对样本表中的各列数据内容进行采样,例如***采样、分层采样等。
接下来,在步骤S130中,根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段。图3示出了根据本公开一示例性实施例根据样本数据内容识别出样本表所包含的字段的方法的流程图。其中,识别出所述样本表所包含的字段可以包括步骤S310至步骤S330。下面对各步骤进行详细说明:
在步骤S310中,判断所述样本数据内容是否是文本型数据。
在本示例性实施例中,在判断样本数据内容是否是文本型数据之前,可以对样本数据内容进行初步分类,例如将各列样本数据内容初步分为ID型、数值型、时间型、电话型、文本型等类别。
接下来,在步骤S320中,在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段。
在本示例性实施例中,所述计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度包括:对所述样本数据内容进行分词,得到多个分词单元;基于所述分词单元计算所述样本数据内容的特征向量;以及计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
在本示例性实施例中,分词方法可以包括基于字符串匹配的分词方法、基于词义的分词方法以及基于统计的分词方法。可以使用中文分词对文本型数据进行分词。进一步地,对样本数据内容进行分词之后得到多个分词单元,基于所得到的分词单元计算样本数据内容的特征向量。
在本示例性实施例中,特征向量的计算方法可以包括基于文本深度表示模型(Word2Vec)的方法、基于神经网络语言模型的方法、基于Log双线性语言模型的方法以及基于C&W模型的方法,但是本公开的示例性实施例中的特征向量的计算方法不限于此,例如还可以包括基于SCOW模型的方法和基于SG模型的方法,这也属于本公开的保护范围。
在本示例性实施例中,可以通过计算样本数据内容的特征向量与标准数据内容的特征向量之间的距离来得到两者之间的相似度。在本示例性实施例中,样本数据内容的特征向量与标准数据内容的特征向量之间的距离可以包括欧式距离、马氏距离以及余弦距离,但是本公开的示例性实施例中的距离不限于此,例如还可以是曼哈顿距离。
此外,在步骤S330中,在所述样本数据内容是非文本型数据时,使用模糊匹配方式来识别所述样本数据内容所在的字段。
在本示例性实施例中,可以采用正则表达式来对非文本型数据进行模糊匹配,但是本公开的示例性实施例中的模糊匹配方式不限于此,例如模糊匹配方式还可以是KMP字符串匹配算法。然后,根据模糊匹配的结果来识别样本数据内容所在的字段。例如,识别出样本数据内容为时间时,确定样本数据内容为时间字段。
在本示例性实施例中,所述根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段包括:判断所述样本数据内容是否是文本型数据;在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;以及在所述样本数据内容是非文本型数据时,使用模糊匹配方式来识别所述样本数据内容所在的字段。
返回参考图1继续进行描述,在步骤S140中,根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分。
在本示例性实施例中,所识别的字段在各标准表中所对应的权重可以为根据标准表中的各字段的重要程度预先设定的权重,但是标准表中各字段的权重不限于此,例如,标准表中各字段的权重还可以为各字段在多个标准表中出现的次数,这同样属于本公开的保护范围。
接下来,在步骤S150中,根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分。
在本示例性实施例中,可以通过样本表的表名与各标准表的表名之间的距离来表示样本表的表名与各标准表的表名之间的相似度。在本示例性实施例中,样本表的表名与各标准表的表名之间的距离可以包括马氏距离、欧式距离以及余弦距离,但是本公开的示例性实施例中的距离不限于此,例如还可以是曼哈顿距离等其他距离。
接下来,在步骤S160中,综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
举例而言,本示例实施方式中可以按照所述样本表相对于各所述标准表的综合得分对各所述标准表进行排序,排名最高的所述标准表所属的分类即为所述样本表的分类;由于所述样本表所在的类簇所包含的表与所述样本表结构相同,即属于同一类,因此也确定了所述样本表所在的类簇所包含的表的分类。在本示例性实施例中,结合基于样本表的各列数据内容的第一得分和基于样本表的表名的第二得分来综合判断样本表的分类,可以提高分类的准确性。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本示例性实施例中,还提供了一种医院数据库中的表的分类装置。参照图4所示,表分类装置400包括:类簇生成单元410、采样单元420、字段识别单元430、第一得分计算单元440、第二得分计算单元450以及分类单元460。其中:
类簇生成单元410用于对医院数据库中的多个表进行聚类运算以生成多个类簇;
采样单元420用于在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
字段识别单元430用于根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
第一得分计算单元440用于根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
第二得分计算单元450用于根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
分类单元460用于综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
在本示例性实施例中,所述类簇生成单元410包括:结构信息获取单元,用于根据所述医院数据库中的所述多个表的视图获取各表的结构信息;聚类运算单元,用于基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
在本示例性实施例中,所述聚类运算单元包括:指纹特征计算单元,用于基于所获取的各表的结构信息计算各表的指纹特征;距离计算单元,用于基于所述指纹特征计算各表的距离;以及运算单元,用于基于各表的所述距离来对各表进行所述聚类运算。
在本示例性实施例中,所述字段识别单元430包括:判断单元,用于判断所述样本数据内容是否是文本型数据;文本型数据识别单元,用于在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;非文本型数据识别单元,用于在所述样本数据内容是非文本型数据时,使用模糊匹配方式识别所述样本数据内容所在的字段。
在本示例性实施例中,所述文本型数据识别单元包括:分词单元,用于对所述样本数据内容进行分词,得到多个分词单元;向量计算单元,用于基于所述分词单元计算所述样本数据内容的特征向量;以及相似度计算单元,用于计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
由于本公开的示例实施例的医院数据库中的表的分类装置400的各个功能模块与上述医院数据库中的表的分类方法的示例实施例的步骤对应,因此在此不再赘述。
应当注意,尽管在上文详细描述中提及了医院数据库中的表的分类装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种医院数据库中的表的分类方法,其特征在于,包括:
对医院数据库中的多个表进行聚类运算以生成多个类簇;
在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
2.根据权利要求1所述的分类方法,其特征在于,所述对医院数据库中的多个表进行聚类运算以生成多个类簇包括:
根据所述医院数据库中的所述多个表的视图获取各表的结构信息;
基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
3.根据权利要求2所述的分类方法,其特征在于,所述基于所获取的各表的结构信息对各表进行所述聚类运算包括:
基于所获取的各表的结构信息计算各表的指纹特征;
基于所述指纹特征计算各表的距离;以及
基于各表的所述距离来对各表进行所述聚类运算。
4.根据权利要求1所述的分类方法,其特征在于,所述根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段包括:
判断所述样本数据内容是否是文本型数据;
在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;以及
在所述样本数据内容是非文本型数据时,使用模糊匹配方式来识别所述样本数据内容所在的字段。
5.根据权利要求4所述的分类方法,其特征在于,所述计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度包括:
对所述样本数据内容进行分词,得到多个分词单元;
基于所述分词单元计算所述样本数据内容的特征向量;以及
计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
6.一种医院数据库中的表的分类装置,其特征在于,包括:
类簇生成单元,用于对医院数据库中的多个表进行聚类运算以生成多个类簇;
采样单元,用于在各所述类簇中分别选取一个或多个表作为样本表,并对所述样本表中的各列数据内容进行采样得到所述样本表的样本数据内容;
字段识别单元,用于根据所述样本表的各列样本数据内容识别出所述样本表所包含的字段;
第一得分计算单元,用于根据所述样本表中各所述字段在各标准表中是否出现以及所述字段在各所述标准表中所对应的权重计算所述样本表的第一得分;
第二得分计算单元,用于根据所述样本表的表名与各所述标准表的表名之间的相似度计算所述样本表的第二得分;以及
分类单元,用于综合所述第一得分以及所述第二得分判断所述样本表的分类,并根据所述样本表的分类确定所述样本表所在的类簇所包含的表的分类。
7.根据权利要求6所述的分类装置,其特征在于,所述类簇生成单元包括:
结构信息获取单元,用于根据所述医院数据库中的所述多个表的视图获取各表的结构信息;
聚类运算单元,用于基于所获取的各表的结构信息对各表进行所述聚类运算来生成所述多个类簇。
8.根据权利要求7所述的分类装置,其特征在于,所述聚类运算单元包括:
指纹特征计算单元,用于基于所获取的各表的结构信息计算各表的指纹特征;
距离计算单元,用于基于所述指纹特征计算各表的距离;以及
运算单元,用于基于各表的所述距离来对各表进行所述聚类运算。
9.根据权利要求6所述的分类装置,其特征在于,所述字段识别单元包括:
判断单元,用于判断所述样本数据内容是否是文本型数据;
文本型数据识别单元,用于在所述样本数据内容是文本型数据时,计算所述样本数据内容与各所述标准表的标准数据内容之间的相似度来识别所述样本数据内容所在的字段;
非文本型数据识别单元,用于在所述样本数据内容是非文本型数据时,使用模糊匹配方式识别所述样本数据内容所在的字段。
10.根据权利要求9所述的分类装置,其特征在于,所述文本型数据识别单元包括:
分词单元,用于对所述样本数据内容进行分词,得到多个分词单元;
向量计算单元,用于基于所述分词单元计算所述样本数据内容的特征向量;以及
相似度计算单元,用于计算所述特征向量与各所述标准表中的标准数据内容的特征向量之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611028597.6A CN108090068B (zh) | 2016-11-21 | 2016-11-21 | 医院数据库中的表的分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611028597.6A CN108090068B (zh) | 2016-11-21 | 2016-11-21 | 医院数据库中的表的分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090068A true CN108090068A (zh) | 2018-05-29 |
CN108090068B CN108090068B (zh) | 2021-05-25 |
Family
ID=62168436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611028597.6A Active CN108090068B (zh) | 2016-11-21 | 2016-11-21 | 医院数据库中的表的分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090068B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344154A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109524069A (zh) * | 2018-11-09 | 2019-03-26 | 南京医渡云医学技术有限公司 | 医疗数据处理方法、装置、电子设备和存储介质 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件***有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109783483A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件***有限公司 | 一种数据整理的方法、装置、计算机存储介质及终端 |
CN109800215A (zh) * | 2018-12-26 | 2019-05-24 | 北京明略软件***有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN109871382A (zh) * | 2019-02-13 | 2019-06-11 | 北京明略软件***有限公司 | 一种数据表接入标准库的实现方法和装置 |
CN109902083A (zh) * | 2019-02-26 | 2019-06-18 | 北京明略软件***有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN110569289A (zh) * | 2019-09-11 | 2019-12-13 | 星环信息科技(上海)有限公司 | 基于大数据的列数据处理方法、设备及介质 |
CN111368073A (zh) * | 2020-02-06 | 2020-07-03 | 贝壳技术有限公司 | ***间数据交互方法、装置、存储介质及电子设备 |
CN113469255A (zh) * | 2021-07-05 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据项对标的方法及装置 |
CN116091253A (zh) * | 2023-04-07 | 2023-05-09 | 北京亚信数据有限公司 | 医保风控数据采集方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640224B1 (en) * | 1997-12-15 | 2003-10-28 | International Business Machines Corporation | System and method for dynamic index-probe optimizations for high-dimensional similarity search |
US20090110268A1 (en) * | 2007-10-25 | 2009-04-30 | Xerox Corporation | Table of contents extraction based on textual similarity and formal aspects |
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
CN103034848A (zh) * | 2012-12-19 | 2013-04-10 | 方正国际软件有限公司 | 一种表单类型的识别方法 |
JP2013152662A (ja) * | 2012-01-26 | 2013-08-08 | Nec Corp | 表分類装置、表分類方法、およびプログラム |
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及*** |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN103617429A (zh) * | 2013-12-16 | 2014-03-05 | 苏州大学 | 一种主动学习分类方法和*** |
-
2016
- 2016-11-21 CN CN201611028597.6A patent/CN108090068B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640224B1 (en) * | 1997-12-15 | 2003-10-28 | International Business Machines Corporation | System and method for dynamic index-probe optimizations for high-dimensional similarity search |
US20090110268A1 (en) * | 2007-10-25 | 2009-04-30 | Xerox Corporation | Table of contents extraction based on textual similarity and formal aspects |
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
JP2013152662A (ja) * | 2012-01-26 | 2013-08-08 | Nec Corp | 表分類装置、表分類方法、およびプログラム |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN103034848A (zh) * | 2012-12-19 | 2013-04-10 | 方正国际软件有限公司 | 一种表单类型的识别方法 |
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及*** |
CN103617429A (zh) * | 2013-12-16 | 2014-03-05 | 苏州大学 | 一种主动学习分类方法和*** |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344154B (zh) * | 2018-08-22 | 2023-05-30 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109344154A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109524069A (zh) * | 2018-11-09 | 2019-03-26 | 南京医渡云医学技术有限公司 | 医疗数据处理方法、装置、电子设备和存储介质 |
CN109524069B (zh) * | 2018-11-09 | 2021-09-10 | 南京医渡云医学技术有限公司 | 医疗数据处理方法、装置、电子设备和存储介质 |
CN109800215B (zh) * | 2018-12-26 | 2020-11-24 | 北京明略软件***有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN109800215A (zh) * | 2018-12-26 | 2019-05-24 | 北京明略软件***有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN109783483A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件***有限公司 | 一种数据整理的方法、装置、计算机存储介质及终端 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件***有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109871382A (zh) * | 2019-02-13 | 2019-06-11 | 北京明略软件***有限公司 | 一种数据表接入标准库的实现方法和装置 |
CN109902083A (zh) * | 2019-02-26 | 2019-06-18 | 北京明略软件***有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN110569289A (zh) * | 2019-09-11 | 2019-12-13 | 星环信息科技(上海)有限公司 | 基于大数据的列数据处理方法、设备及介质 |
CN111368073A (zh) * | 2020-02-06 | 2020-07-03 | 贝壳技术有限公司 | ***间数据交互方法、装置、存储介质及电子设备 |
CN113469255A (zh) * | 2021-07-05 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据项对标的方法及装置 |
CN116091253A (zh) * | 2023-04-07 | 2023-05-09 | 北京亚信数据有限公司 | 医保风控数据采集方法及装置 |
CN116091253B (zh) * | 2023-04-07 | 2023-08-08 | 北京亚信数据有限公司 | 医保风控数据采集方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108090068B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090068A (zh) | 医院数据库中的表的分类方法及装置 | |
Christen et al. | Febrl–a parallel open source data linkage system | |
CN106227880B (zh) | 医生搜索推荐的实现方法 | |
CN109906449B (zh) | 一种查找方法及装置 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN113761218B (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN111680094B (zh) | 文本结构化方法、装置、***和非易失性存储介质 | |
US7809718B2 (en) | Method and apparatus for incorporating metadata in data clustering | |
Chow et al. | Multilayer SOM with tree-structured data for efficient document retrieval and plagiarism detection | |
CN107209861A (zh) | 使用否定数据优化多类别多媒体数据分类 | |
CN112035620B (zh) | 医疗查询***的问答管理方法、装置、设备及存储介质 | |
CN111400493A (zh) | 基于槽位相似度的文本匹配方法、装置、设备及存储介质 | |
CN110910991B (zh) | 一种医用自动图像处理*** | |
CN111986792A (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
CN111326236A (zh) | 一种医疗图像自动处理*** | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
US20140365494A1 (en) | Search term clustering | |
CN112527981A (zh) | 开放式信息抽取方法、装置、电子设备及存储介质 | |
CN112307133A (zh) | 安全防护方法、装置、计算机设备及存储介质 | |
Liong et al. | Automatic traditional Chinese painting classification: A benchmarking analysis | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
Christen et al. | A probabilistic deduplication, record linkage and geocoding system | |
Loseu et al. | A mining technique using n-grams and motion transcripts for body sensor network data repository | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |