CN111104481B - 一种识别匹配字段的方法、装置及设备 - Google Patents

一种识别匹配字段的方法、装置及设备 Download PDF

Info

Publication number
CN111104481B
CN111104481B CN201911304454.7A CN201911304454A CN111104481B CN 111104481 B CN111104481 B CN 111104481B CN 201911304454 A CN201911304454 A CN 201911304454A CN 111104481 B CN111104481 B CN 111104481B
Authority
CN
China
Prior art keywords
field
identified
target
data item
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911304454.7A
Other languages
English (en)
Other versions
CN111104481A (zh
Inventor
冯仓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911304454.7A priority Critical patent/CN111104481B/zh
Publication of CN111104481A publication Critical patent/CN111104481A/zh
Application granted granted Critical
Publication of CN111104481B publication Critical patent/CN111104481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种识别匹配字段的方法、装置及设备,在识别匹配字段时,先确定待识别字段对应的数据项与目标字段是否匹配,再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一,无法直接进行匹配,而是利用可以表征待识别字段的数据项与目标字段进行匹配,从而实现匹配字段的识别。另外,针对不同的目标字段采用不同的识别方式,提高识别数据项的效率。

Description

一种识别匹配字段的方法、装置及设备
技术领域
本申请涉及信息技术处理领域,具体涉及一种识别匹配字段的方法、装置及设备。
背景技术
随着互联网技术的迅速普及和发展,各个应用领域会产生大量的数据。同一领域由于不同用户的配置不同,使得所产生的数据表现形式各不相同,例如对于同一事物存在多种描述方式,导致数据库中的数据存在个性化。在实际应用中,当从数据库中查找同一类数据时,由于数据的个性化表现导致无法查找到所需的数据。
发明内容
有鉴于此,本申请实施例提供一种识别匹配字段的方法、装置及设备,以实现匹配字段的精准查询。
为解决上述问题,本申请实施例提供的技术方案如下:
一种识别匹配字段的方法,所述方法包括:
确定目标字段的识别方式;
利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;
根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。
在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;
生成待识别字段的数据项的特征表示;
将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。
在一种可能的实现方式中,所述生成待识别字段的数据项的特征表示,包括:
提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;
计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;
将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。
在一种可能的实现方式中,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:
根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;
将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;
将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字段的数据项的词间位置特征,所述第一目标分词分别取所述待识别字段的数据项中的每个分词。
在一种可能的实现方式中,所述计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征,包括:
获取所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个所述训练文本集合包括与同一类别的数据项;
根据所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算所述待识别字段的数据项与第i个训练文本集合的匹配程度值;
将所述待识别字段的数据项与各个训练文本集合的匹配程度值确定为所述待识别字段的数据项与各个训练文本集合的匹配程度特征。
在一种可能的实现方式中,所述与所述目标字段对应的目标深度学习模型的训练过程包括:
获取与所述目标字段匹配的数据项,生成所述与目标字段匹配的数据项的特征表示,将所述与目标字段匹配的数据项的特征表示确定为正样本数据;
获取与所述目标字段不匹配的数据项,生成所述与目标字段不匹配的数据项的特征表示,将所述与目标字段不匹配的数据项的特征表示确定为负样本数据;
根据正样本数据与负样本数据训练得到所述目标字段对应的目标深度学习模型。
在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用字符匹配识别时,获取与所述目标字段对应的关键词;
将待识别字段的数据项与所述目标字段对应的关键词进行匹配;
如果所述待识别字段的数据项与所述目标字段对应的关键词匹配,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;
如果所述待识别字段的数据项与所述目标字段对应的关键词不匹配,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。
在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用正则规则匹配识别时,获取与所述目标字段对应的正则规则;
判断所述待识别字段的数据项是否满足所述目标字段对应的正则规则;
如果所述待识别字段的数据项满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;
如果所述待识别字段的数据项是否不满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。
在一种可能的实现方式中,所述根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配,包括:
在所述待识别字段中的随机选择的多个数据项与所述目标字段是否匹配的识别结果中,如果与所述目标字段匹配的识别结果多于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段匹配,如果与所述目标字段匹配的识别结果少于或等于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段不匹配。
在一种可能的实现方式中,所述方法还包括:
确定目标字段所在的目标数据表;
在待识别数据表中查找与所述目标数据表匹配的数据表;
将与所述目标数据表匹配的数据表中的字段确定为待识别字段。
一种识别匹配字段的装置,所述装置包括:
第一确定单元,用于确定目标字段的识别方式;
获取单元,用于利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;
第二确定单元,用于根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
第三确定单元,用于将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行所述的识别匹配字段的方法。
一种识别匹配字段的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的识别匹配字段的方法。
由此可见,本申请实施例具有如下有益效果:
本实施例中首先确定目标字段的识别方式,再利用识别方式对待识别字段的数据项进行识别,获得待识别字段的数据项与目标字段是否匹配的识别结果。然后,根据待识别字段的数据项与目标字段是否匹配的识别结果,确定待识别字段与目标字段是否匹配,以将与目标字段匹配的待识别字段确定为目标字段的匹配字段。
即,本申请实施例在识别匹配字段时,先确定待识别字段对应的数据项与目标字段是否匹配,再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一,无法直接进行匹配,而是利用可以表征待识别字段的数据项与目标字段进行匹配,从而实现匹配字段的识别。另外,针对不同的目标字段采用不同的识别方式,提高识别数据项的效率。
附图说明
图1为本申请实施例提供的一种识别匹配字段的方法流程图;
图2为本申请实施例提供的一种获得识别结果的方法流程图;
图3为本申请实施例提供的另一种获得识别结果的方法流程图;
图4为本申请实施例提供的又一种获得识别结果的方法流程图;
图5为本申请实施例提供的一种识别匹配字段的装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请实施例提供的技术方案,先对本申请实施例涉及的背景技术进行说明。
由于同一领域不同用户的配置不同,使得所生产的数据表现形式各不相同,例如对于同一事物存在多种描述方式,导致数据库中的数据存在个性化。在实际应用中,当从数据库中查找同一类数据时,由于数据的个性化表现导致无法查找到所需的数据。
具体地,在医疗领域,不同的卫生机构采用医院信息***(Hospital InformationSystem,HIS)管理本单位的医疗数据。然而,不同厂商的HIS***的配置格式不同,导致形成的医疗数据格式大相径庭。当卫生信息平台从各个机构的HIS***的数据表抽取所需要的医疗数据时,由于卫生信息平台中数据表的字段为标准字段,而各个HIS***的数据表中字段为差异化很大的非标准字段,导致无法从HIS***的数据表中快速查找到所需的字段。
基于此,本申请实施例提供了一种识别匹配字段方法,首先确定目标字段以及目标字段对应的识别方式,再利用该识别方式对待识别字段的数据项进行识别,获得待识别字段的数据项与目标字段是否匹配的识别结果。即,利用可以表征待识别字段的数据项与目标字段进行匹配获得识别结果。然后,根据待识别字段的数据项与目标字段是否匹配的识别结果,确定待识别字段与目标字段是否匹配,以将与目标字段匹配的待识别字段确定为目标字段的匹配字段。可见,尽管目标字段与待识别字段不统一,可以利用待识别字段对应的数据项与目标字段进行匹配,从而确定出与目标字段对应的匹配字段。
其中,字段可以理解为表征数据表中业务数据类别的信息,例如疾病字段、医保类别字段、医嘱字段,字段的数据项为HIS***中需要填写的具体信息,例如疾病字段对应的数据项为慢性支气管炎、阿尔兹海默症、哮喘等。
为便于理解本申请实施例提供的技术方案,下面将结合附图对本申请实施例提供的识别匹配字段的方法进行说明。
参见图1,该图为本申请实施例提供的一种识别匹配字段的方法流程图,如图1所示,该方法可以包括:
S101:确定目标字段的识别方式。
本实施例中,目标字段可以理解为需要进行字段匹配的字段,在实际应用中目标字段可以为卫生信息平台的数据表中的任一标准字段。在确定出目标字段时,确定该目标字段对应的识别方式,以便利用该识别方式进行后续待识别字段对应的数据项的识别。
可以理解的是,由于不同的字段具有不同的特点,为充分利用字段的特点进行后续数据项的识别,可以预先针对不同的字段设置不同的识别方式。具体地,对于专业性较强的字段可以设置采用深度学习模型识别方式,例如疾病字段、医学机构字段、药品字段等;对于字段中数据项的内容较为固定的字段可以设置采用字符匹配识别方式,例如医保类别字段、挂号类别字段等;对于字段中数据项具有特定规则例如具有数字信息等内容的字段可以设置采用正则规则识别方式,例如联系方式字段、出生日期字段、手术时间字段等。其中,关于每种识别方式的具体实现将在后续实施例进行说明。
S102:利用识别方式对待识别字段的数据项进行识别,获取待识别字段的数据项与目标字段是否匹配的识别结果。
S103:根据待识别字段的数据项与目标字段是否匹配的识别结果,确定待识别字段与目标字段是否匹配。
在确定出目标字段对应的识别方式后,利用该识别方式对待识别字段的数据项进行识别,以获取待识别字段的数据项与目标字段是否匹配的识别结果。然后,根据待识别字段的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。
可以理解的是,由于待识别字段的数据项可以表征该待识别字段的属性,因此,可以根据待识别字段的数据项与目标字段是否匹配的识别结果来确定待识别字段与目标字段是否匹配。
需要说明的是,其中,待识别字段可以为待识别数据表中的每个字段,在实际应用中,待识别数据表可以为HIS***中的数据表。待识别字段的数据项可以为多个,例如待识别字段的数据项为哮喘、支气管炎、心脏病等。在利用目标字段对应的识别方式对待识别字段的数据项进行识别时,既可以针对待识别字段的每一个数据项均进行识别,也可以从中选择多个数据项进行识别,以获得每个数据项与目标字段是否匹配的识别结果。然后,根据待识别字段对应的每个数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。
在具体实现时,在根据待识别字段的数据项与目标字段是否匹配的识别结果,确定待识别字段与目标字段是否匹配时,可以采用投票方式进行确定。具体地,在待识别字段中的随机选择的多个数据项与目标字段是否匹配的识别结果中,如果与目标字段匹配的识别结果多于与目标字段不匹配的识别结果,确定待识别字段与目标字段匹配,如果与目标字段匹配的识别结果少于或等于与目标字段不匹配的识别结果,确定待识别字段与所述目标字段不匹配。也就是,可以先从待识别字段对应的数据项中随机选择多个数据项,利用所选择的数据项与目标字段是否匹配的识别结果来确定待识别字段与目标字段是否匹配,具体地,通过采用“少数服从多数”方式确定待识别字段与目标字段是否匹配。
其中,关于利用识别方式对待识别字段的数据项进行识别,获得待识别字段的数据项与目标字段是否匹配的识别结果的具体实现将在后续实施例进行说明。
S104:将与目标字段匹配的待识别字段确定为目标字段的匹配字段。
当根据待识别字段的数据项与目标字段匹配的识别结果,确定出与目标字段匹配的待识别字段时,将该待识别字段确定为目标字段的匹配字段。具体地,当待识别字段的每个数据项与目标字段匹配或者待识别字段的预设数个数据项与目标字段匹配,则将确定待识别字段与目标字段匹配,该待识别字段为目标字段的匹配字段。
基于上述描述可知,在识别匹配字段时,先确定待识别字段对应的数据项与目标字段是否匹配,再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一,无法直接进行匹配,而是利用可以表征待识别字段的数据项与目标字段进行匹配,从而实现匹配字段的识别。另外,针对不同的目标字段采用不同的识别方式,提高识别数据项的效率。
通过上述实施例可知,本申请实施例提供了三种获取识别结果的方式,为更好地理解每种识别方式的实现过程,下面将结合附图分别进行说明。
参见图2,该图为本申请实施例提供的一种获取识别结果的方法流程图,如图2所示,该方法可以包括:
S201:当识别方式为采用深度学习模型识别时,获取与目标字段对应的目标深度学习模型。
对于一些专业性较强的字段,其数据项可能出现的内容很多,则这些字段的识别方式可以为采用深度学习模型识别。当确定目标字段的识别方式为采用深度学习模型识别时,则获取该目标字段对应的目标深度学习模型,以利用该目标深度学习模型对待识别字段的数据项进行识别。其中,在识别方式为深度学习模型识别的字段中,每一字段均可以对应有一个深度学习模型,则需要首先获取与目标字段对应的目标深度学习模型。目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,正样本数据为与目标字段匹配的数据项的特征表示,负样本数据为与目标字段不匹配的数据项的特征表示。即,目标深度学习模型可以识别输入的数据项是否与目标字段匹配。
S202:生成待识别字段的数据项的特征表示。
可以理解的是,由于在训练目标深度学习模型时,是利用数据项的特征表示训练生成目标深度学习模型,则在利用目标深度学习模型识别待识别字段的数据项时,需要先获得待识别字段的数据项的特征表示,以将待识别字段的数据项的特征表示输入目标深度学习模型获得识别结果。
在具体实现时,可以通过以下方式生成待识别字段的数据项的特征表示,具体为:
1)提取待识别字段的数据项的文本特征。
即,针对待识别字段的每个数据项,提起该数据项的文本特征。其中,文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项。
具体地,在提取待识别字段的数据项的文本特征时,可以提取以下任意一种或多种组合:
11)根据由医疗数据文本训练得到的字特征,将待识别字段的数据项的每个字转换为第一字特征值,将待识别字段的数据项的每个字的第一字特征值确定为待识别字段的数据项的字特征。
对于待识别字段的数据项中的每个字,根据医疗数据文本训练得到的字特征将待识别字段的数据项的每个字转换为第一字特征值,再将待识别字段的数据项的每个字的第一字特征值确定为待识别字段的数据项的字特征。其中,可以利用深度学习方法对医疗数据文本(例如常用医学名词、组织机构名称,药品名称、医保名称、疾病名称等)进行训练获得医疗领域中每个字的字特征。另外,还可以对医疗数据文本进行训练获得医疗领域中每个分词的词特征。字特征以及词特征的表现形式可以为特征向量。
12)提取与第一目标字相邻且在第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将第一字组转换为第一字组特征值,将第一字组特征值确定为第一目标字的位置特征,将各个第一目标字的位置特征确定为待识别字段的数据项的字间位置特征。
针对待识别字段的数据中每个字,将其作为第一目标字分别取所述待识别字段的数据项中的每个字,提取与第一目标字相邻且在第一目标字预设范围内的单字或多字组成的第一字组。根据由医疗数据文本训练得到的字特征,将第一字组转换为第一字组特征值,将该第一字组特征值确定为第一目标字的位置特征。当获取到待识别字段的数据项的每个第一目标字的位置特征后,将各个第一目标字对应的位置特征确定为待识别字段的数据项的字间位置特征。其中,预设范围内的单字或多字为设定提取字的窗口,其可以根据实际应用情况进行设定。例如,当窗口为1时,以第一目标字所在的位置为基础,向前提取1个字,向后提取1个字,分别作为2个第一字组;当窗口为2时,以第一目标字所在的位置为基础,向前提取2个字,向后提取2个字,分别作为2个第一字组。
例如,待识别字段对应的数据项为“老年痴呆症”,提取窗口为2,当“老”为第一目标字,则向前提取时为空,可以用预设表示空缺的符号如“——”标记,向后提取为“年痴”,则“——”、“年痴”分别作为第一字组,将每个第一字组转换为第一字组特征值,这两个第一字组特征值确定为“老”的位置特征;当“痴”为第一目标字时,则向前提取为“老年”,向后提取为“呆症”,则“老年”、“呆症”分别作为第一字组,将每个第一字组转换为第一字组特征值,将其确定为“痴”的位置特征。当获得了数据项“老年痴呆症”中每个字的位置特征后,将各个字的位置特征确定为“老年痴呆在”的字间位置特征。
13)将待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将待识别字段的数据项的每个分词转换为第一词特征值,将每个第一词特征值确定为待识别字段的数据项的词特征。
本实施例中,对待识别字段的数据项进行分词处理,获得每个分词,并根据由医疗训练文本训练得到的词特征,将每个分词转换为第一词特征值,将每个第一词特征值确定为待识别字段的数据项的词特征。其中,对待识别字段的数据项进行分词处理的具体实现可以采用传统的分词方法实现,本实施例在此不再赘述。
14)将待识别字段的数据项进行分词,提取与第一目标分词相邻且在第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将第二目标分词转换为第二词特征值,将第二词特征值确定为第一目标分词的位置特征,将各个第一目标分词的位置特征确定为待识别字段的数据项的词间位置特征。
本实施例中,先对待识别字段的数据项进行分词处理,获得每个分词,将没给分词作为第一目标分词,提取与第一目标分词相邻且在第一目标分词预设范围内的第二目标分词。然后,根据由医疗数据文本训练得到的词特征,将第二目标分词转换为第二词特征值,并将该第二词特征值确定为第一目标分词的位置特征,最后将各个第一目标分词的位置特征确定为待识别字段的数据项的词间位置特征。
其中,第一目标分词预设范围是指以第一目标分词为基础提取相邻分词的窗口,该窗口大小可以根据实际应用情况进行设定。例如,当窗口为1时,以第一目标分词所在的位置为基础,向前提取1个第二目标分词,向后提取1个第二目标分词,将提取的两个第二目标分词分别转换为第二词特征值,并将其确定为第一目标分词的位置特征;当窗口为2时,以第一目标分词所在的位置为基础,向前提取2个第二目标分词,向后提取2个第二目标分词,将提取的4个第二目标分词分别转换为第二词特征值,并将其确定为第二目标分词的位置特征。
例如,待识别字段的数据项为“老年痴呆症”,分词结果为“老年”、“痴呆”和“症”,提取窗口为1,当“老年”为第一目标分词,则向前提取时为空“——”,向后提取为“痴呆”,则“——”和“痴呆”作为第二目标分词,将这两个第二目标分词分别转换为第二词特征值,将这两个第二词特征值确定为第一目标分词“老年”的位置特征;当“痴呆”为第一目标分词时,则向前提取为第二目标分词“老年”,向后提取第二目标分词“症”,将该“老年”和“症”分别转换为第二词特征值,将其确定为“痴呆”的位置特征。同理,当第一目标分词为“症”时,向前提取的第二目标分词为“痴呆”,向后提取的第四目标分词为空“——”,则将“痴呆”和“——”分别转换为第二词特征值,将其作为“症”的位置特征。当获得了数据项“老年痴呆症”中每个分词的位置特征后,将各个分词的位置特征确定为“老年痴呆在”的词间位置特征。
通过上述描述可知,可以获取待识别字段的数据项的多种文本特征,即字特征、字间位置特征、词特征以及词间位置特征。其中,每种特征可以包括多个特征。例如,数据项可以对应多个分词,则词特征包括每个分词对应的词特征,同理,字特征可以包括每个字对应的词特征,字间位置特征可以包括每个字对应的字间位置特征等。
2)计算待识别字段的数据项与各个训练文本集合的匹配程度特征。
本实施例中,还可以计算待识别字段的数据项与每个训练文本集合的匹配程度特征,也就是待识别字段的数据项与每个训练文本集合的相关度特征。其中,训练文本集合是指不同字段对应的数据项集合,一个字段对应的数据项集合即为一训练文本集合。例如,药品字段对应的训练文本集合[艾司***片苄星青霉素长效西林]、医保字段对应的训练文本集合[农村合作医疗城镇医保商业保险]。
具体地,可以通过以下方式计算获得待识别字段的数据项与训练文本集合的匹配程序特征:
21)获取待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个训练文本集合包括与一种类别的数据项。
针对待识别字段的每个数据项,计算该数据项与训练文本集合中每个数据项之间的匹配值,从而获得该数据项与训练文本集合中每个数据项的匹配值。
22)根据待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算待识别字段的数据项与第i个训练文本集合的匹配程度值。
在获得待识别字段的数据项与某一训练文本集合中的每个数据项的匹配值后,利用上述匹配值计算待识别字段的数据项与该训练文本集合的匹配程度值。当存在多个训练文本集合时,计算获得待识别字段的每个数据项与每个训练文本集合的匹配程度值。例如,待识别字段对应3个数据项,存在20个训练文本集合,则计算每个数据项分别与20个训练文本集合的匹配程度值,共存在60个匹配程度值。
具体可以利用以下公式进行计算:
其中,qi表示待识别字段的数据项与第i个训练文本集合的匹配程度值,ui表示第i个训练文本集合对应的相关系数,wij表示待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,N表示该第i个训练文本集合包括N个数据项。
23)将待识别字段的数据项与各个训练文本集合的匹配程度值确定为待识别字段的数据项与各个训练文本集合的匹配程度特征。
当获得待识别字段的数据项与各个训练文本集合的匹配程度值后,将待识别字段的数据项与某个训练文本集合的匹配程度值确定为待识别字段的数据项与该训练文本集合的匹配程度特征。
3)将待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。
当获得待识别字段的数据项的每个文本特征以及待识别字段的数据项与每个训练文本集合的匹配程度特征后,将获得的所有文本特征和匹配程度特征组成该待识别字段的数据项的特征表示。
S203:将待识别字段的数据项的特征表示输入目标字段对应的目标深度学习模型,获得待识别字段的数据项是否与目标字段匹配的识别结果。
在获得待识别字段的数据项的特征表示后,将该特征表示输入目标深度学习模型,该目标深度学习模型通过对该特征表示进行识别输出该特征表示对应的数据项是否与目标字段匹配的识别结果。具体地,当待识别字段的数据项的特征表示与正样本数据达到预设的相似度时,则待识别字段的数据项与目标字段匹配的识别结果;当待识别字段的数据项的特征表示与负样本数据达到预设的相似度时,则待识别字段的数据项与目标字段不匹配的识别结果。
其中,目标深度学习模型的训练过程可以为:
1)获取与目标字段匹配的数据项,生成与目标字段匹配的数据项的特征表示,将与目标字段匹配的数据项的特征表示确定为正样本数据。
本实施例中,首先获取与目标字段匹配的数据项,并生成与目标字段匹配的数据项的特征表示,将该特征表示确定为正样本数据。其中,与目标字段匹配的数据项为该目标字段对应的数据项,例如,目标字段为挂号类别字段,挂号类别字段对应的数据项为内科、外科、妇科等,则将上述数据项作为挂号类别字段匹配的数据项;目标字段为疾病字段,则疾病字段对应的数据项为阿尔兹海默症、老年痴呆症、心脏病、哮喘等,则将上述数据项作为疾病字段匹配的数据项。
在具体实现时,首先提取与目标字段匹配的数据项的文本特征,该文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项。其中,关于字特征、字间位置特征、词特征以及词间位置特征的提取可以利用上述方法实现,本实施例在此不再赘述。其次,计算与目标字段匹配的数据项与各个训练文本集合的匹配程度特征,具体计算过程可以利用公式(1)。最后,将与目标字段匹配的数据项的文本特征、与目标字段匹配的数据向与各个训练文本集合的匹配程度特征组成与目标字段匹配的数据向的特征表示,该特征表示即为正样本数据。
2)获取与目标字段不匹配的数据项,生成与目标字段不匹配的数据项的特征表示,将与目标字段不匹配的数据项的特征表示确定为负样本数据。
本实施例中,首先获取与目标字段不匹配的数据项,并生成与目标字段不匹配的数据项的特征表示,将该特征表示确定为负样本数据。其中,与目标字段不匹配的数据项可以为非目标字段对应的数据项,例如,目标字段为挂号类别字段,则与挂号类别字段不匹配的数据项为除挂号类别字段之外的其他字段对应的数据项,其他字段例如为疾病字段,则疾病字段对应的数据项为阿尔兹海默症、老年痴呆症、心脏病、哮喘等,则将上述数据项作为挂号类别字段不匹配的数据项。
在具体实现时,首先提取与目标字段不匹配的数据项的文本特征,该文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项。其中,关于字特征、字间位置特征、词特征以及词间位置特征的提取可以利用上述方法实现,本实施例在此不再赘述。其次,计算与目标字段不匹配的数据项与各个训练文本集合的匹配程度特征,具体计算过程可以利用公式(1)。最后,将与目标字段不匹配的数据项的文本特征、与目标字段不匹配的数据项与各个训练文本集合的匹配程度特征组成与目标字段不匹配的数据向的特征表示,将该特征表示确定为负样本数据。
3)根据正样本数据与负样本数据训练得到目标字段对应的目标深度学习模型。
当获得正样本数据和负样本数据后,将其作为训练数据对初始学习模型进行训练,以获得目标字段对应的目标深度学习模型,使得该目标深度学习模型可以识别与正样本数据相近的数据项以及与负样本数据相近的数据项。
需要说明的是,为保证训练的深度学习模型可以准确识别与正样本数据属于同一类的数据项,正样本数据的数据量与负样本数据的数据量差值需在预设阈值范围内,并且负样本数据的对应的字段应尽量丰富。
参见图3,该图为本申请实施例提供的另一种获取识别结果的方法流程图,如图3所示,该方法可以包括:
S301:当识别方式为采用字符匹配识别时,获取与目标字段对应的关键词。
对于一些字段,其数据项可能出现的内容较为固定,则这些字段的识别方式可以为字符匹配识别。本实施例中,当目标字段对应的识别方式为采用字符匹配识别时,则获取与目标字段对应的关键词,该关键词表征该目标字段可能出现的数据项。例如,医保字段对应的关键词包括农村合作医疗、城镇医保、商业保险等。
S302:将待识别字段的数据项与目标字段对应的关键词进行匹配。
在确定出目标字段对应的关键词后,对于待识别字段的每个数据项,将每个数据项与目标字段对应的关键词一一进行匹配。
S303:如果所述待识别字段的数据项与所述目标字段对应的关键词匹配,获取所述待识别字段的数据项与所述目标字段匹配的识别结果。
S304:如果待识别字段的数据项与目标字段对应的关键词不匹配,获取待识别字段的数据项与目标字段不匹配的识别结果。
将待识别字段的每个数据项与目标字段对应的关键词进行匹配,如果待识别字段的某一数据项与目标字段对应的某一关键词匹配,则获取待识别字段的该数据项与目标字段匹配的识别结果。如果待识别字段的某一数据项与目标字段对应的某一关键词不匹配,获取待识别字段的该数据项与目标字段不匹配的识别结果。也就是,对于待识别字段的每个数据项,均与目标字段的关键词进行匹配,从而获得待识别字段的每个数据项与目标字段的关键词是否匹配的识别结果。
例如,待识别字段对应3个数据项,分别为数据项a、数据项b和数据项c,其中,数据项a与目标字段对应的关键词匹配,则识别结果为数据项a与目标字段匹配;数据项b与目标字段对应的关键词不匹配,则识别结果为数据项b与目标字段不匹配;数据项c与目标字段对应的关键词匹配,则识别结果为数据项c与目标字段匹配。
可见,当目标字段的识别方式为采用字符匹配识别时,可以通过上述过程获取待识别字段的数据项与目标字段是否匹配的识别结果。
参见图4,该图为本申请实施例提供的又一种获取识别结果的方法流程图,如图4所示,该方法可以包括:
S401:当识别方式为采用正则规则匹配识别时,获取与目标字段对应的正则规则。
对于一些字段,其数据项可能出现的内容一般满足某些特定规则,则这些字段的识别方式可以为正则规则匹配识别。本实施例中,当目标字段对应的识别方式为采用正则规则匹配识别时,获取该目标字段对应的正则规则,以利用该正则规则判断待识别字段的数据项是否与目标字段匹配的识别结果。
具体实现时,可以根据目标字段对应的数据项的特点生成该目标字段对应的正则规则。例如,对于目标字段为出生时间,其对应的数据项通常为xxxx年xx月xx日,则目标字段对应的正则规则可以为[xxxx-xx-xx 8],其中8表示包括的数字个数;对于目标字段为联系方式字段时,其对应的数据项通常为1xxxxxxxxx,则目标字段对应的正则规则可以为[1xxxxxxxxx 11],11表示数字位数。
S402:判断待识别字段的数据项是否满足目标字段对应的正则规则。
当确定出目标字段对应的正则规则后,对于待识别字段的每个数据项,判断该数据项是否满足目标字段对应的正则规则,从而获得每个数据项与目标字段是否匹配的识别结果。
具体地,当待识别字段的数据项满足目标字段对应的正则规则,执行S403;当待识别字段的数据项是否不满足目标字段对应的正则规则,执行S404。
S403:获取待识别字段的数据项与目标字段匹配的识别结果。
S404:获取待识别字段的数据项与目标字段不匹配的识别结果。
即,当待识别字段的数据项满足目标字段对应的正则规则时,表明该数据项与目标字段匹配,则获取该数据项与目标字段匹配的识别结果。当待识别字段的数据项不满足目标字段对应的正则规则时,表明该数据项与目标字段不匹配,则获取该数据项与目标字段不匹配的识别结果。
可见,当目标字段对应的识别方式为采用正则规则匹配识别时,可以通过上述过程确定待识别字段的每个数据项是否与目标字段匹配的识别结果。
另外,在一种可能的实现方式中,本实施例提供了一种确定待识别字段的实现方式具体为:确定目标字段所在的目标数据表;在待识别数据表中查找与目标数据表匹配的数据表;将与目标数据表匹配的数据表中的字段确定为待识别字段。即,先确定目标字段所在的目标数据表,然后在包括各类数据表的数据库中查找与目标数据表匹配的数据表,将该数据表中的每个字段确定为待识别字段。
例如,目标字段为出生日期字段,该目标字段即可以出现在挂号表、入院登记表等多个数据表,如果该出生日期字段为挂号表中的字段,则将挂号表确定为目标数据表。然后,在数据库中查找与挂号表匹配的数据表,如查找到挂号登记表、患者挂号登记表等数据表时,将上述两种数据表均确定为与目标数据表匹配的数据表,并将挂号登记表、患者挂号登记表中的每个字段确定待识别字段。
基于上述方法实施例,本申请实施例还提供了识别匹配字段的装置,下面将结合附图对该装置进行说明。
参见图5,该图为本申请实施例提供的一种识别匹配字段的装置结构图,如图5所示,该装置可以包括:
第一确定单元501,用于确定目标字段的识别方式;
获取单元502,用于利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;
第二确定单元503,用于根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
第三确定单元504,用于将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。
在一种可能的实现方式中,所述获取单元,包括:
第一获取子单元,用于当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;
生成子单元,用于生成待识别字段的数据项的特征表示;
第二获取子单元,用于将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。
在一种可能的实现方式中,所述生成子单元,包括:
提取子单元,用于提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;
计算子单元,用于计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;
组成子单元,用于将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。
在一种可能的实现方式中,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:
根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;
将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;
将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字段的数据项的词间位置特征,所述第一目标分词分别取所述待识别字段的数据项中的每个分词。
在一种可能的实现方式中,所述计算子单元,具体用于获取所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个所述训练文本集合包括与同一类别的数据项;
根据所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算所述待识别字段的数据项与第i个训练文本集合的匹配程度值;
将所述待识别字段的数据项与各个训练文本集合的匹配程度值确定为所述待识别字段的数据项与各个训练文本集合的匹配程度特征。
在一种可能的实现方式中,所述与所述目标字段对应的目标深度学习模型的训练过程包括:
获取与所述目标字段匹配的数据项,生成所述与目标字段匹配的数据项的特征表示,将所述与目标字段匹配的数据项的特征表示确定为正样本数据;
获取与所述目标字段不匹配的数据项,生成所述与目标字段不匹配的数据项的特征表示,将所述与目标字段不匹配的数据项的特征表示确定为负样本数据;
根据正样本数据与负样本数据训练得到所述目标字段对应的目标深度学习模型。
在一种可能的实现方式中,所述获取单元,包括:
第三获取子单元,用于当所述识别方式为采用字符匹配识别时,获取与所述目标字段对应的关键词;
匹配子单元,用于将待识别字段的数据项与所述目标字段对应的关键词进行匹配;
第四获取子单元,用于如果所述待识别字段的数据项与所述目标字段对应的关键词匹配,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;
第五获取子单元,用于如果所述待识别字段的数据项与所述目标字段对应的关键词不匹配,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。
在一种可能的实现方式中,所述获取单元,包括:
第六获取子单元,用于当所述识别方式为采用正则规则匹配识别时,获取与所述目标字段对应的正则规则;
判断子单元,用于判断所述待识别字段的数据项是否满足所述目标字段对应的正则规则;
第七获取子单元,用于当所述判断子单元的判断结果为所述待识别字段的数据项满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;
第八获取子单元,用于当所述判断子单元的判断结果为如果所述待识别字段的数据项是否不满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。
在一种可能的实现方式中,所述第二确定单元,具体用于在所述待识别字段中的随机选择的多个数据项与所述目标字段是否匹配的识别结果中,如果与所述目标字段匹配的识别结果多于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段匹配,如果与所述目标字段匹配的识别结果少于或等于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段不匹配。
在一种可能的实现方式中,所述装置还包括:
第四确定单元,用于确定目标字段所在的目标数据表;
查找单元,用于在待识别数据表中查找与所述目标数据表匹配的数据表;
第五确定单元,用于将与所述目标数据表匹配的数据表中的字段确定为待识别字段。
需要说明的是,本实施例中各个单元的实现可以参见上述方法实施例,本实施例在此不再赘述。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行所述的识别匹配字段的方法。
本申请实施例提供了一种识别匹配字段的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的识别匹配字段的方法。基于上述方法可知,在识别匹配字段时,先确定待识别字段对应的数据项与目标字段是否匹配,再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一,无法直接进行匹配,而是利用可以表征待识别字段的数据项与目标字段进行匹配,从而实现匹配字段的识别。另外,针对不同的目标字段采用不同的识别方式,提高识别数据项的效率。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种识别匹配字段的方法,其特征在于,所述方法包括:
确定目标字段的识别方式;
利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;所述识别方式包括采用深度学习模型识别或采用字符匹配识别;
根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段;
所述根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配,包括:
在所述待识别字段中的随机选择的多个数据项与所述目标字段是否匹配的识别结果中,如果与所述目标字段匹配的识别结果多于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段匹配,如果与所述目标字段匹配的识别结果少于或等于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段不匹配;
所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;生成待识别字段的数据项的特征表示;将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果;
所述生成待识别字段的数据项的特征表示,包括:
提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示;
所述计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征,包括:
获取所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个所述训练文本集合包括与同一类别的数据项;根据所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算所述待识别字段的数据项与第i个训练文本集合的匹配程度值;将所述待识别字段的数据项与各个训练文本集合的匹配程度值确定为所述待识别字段的数据项与各个训练文本集合的匹配程度特征。
2.根据权利要求1所述的方法,其特征在于,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:
根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;
将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;
将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字段的数据项的词间位置特征,所述第一目标分词分别取所述待识别字段的数据项中的每个分词。
3.根据权利要求1所述的方法,其特征在于,所述与所述目标字段对应的目标深度学习模型的训练过程包括:
获取与所述目标字段匹配的数据项,生成所述与目标字段匹配的数据项的特征表示,将所述与目标字段匹配的数据项的特征表示确定为正样本数据;
获取与所述目标字段不匹配的数据项,生成所述与目标字段不匹配的数据项的特征表示,将所述与目标字段不匹配的数据项的特征表示确定为负样本数据;
根据正样本数据与负样本数据训练得到所述目标字段对应的目标深度学习模型。
4.根据权利要求1所述的方法,其特征在于,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用字符匹配识别时,获取与所述目标字段对应的关键词;
将待识别字段的数据项与所述目标字段对应的关键词进行匹配;
如果所述待识别字段的数据项与所述目标字段对应的关键词匹配,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;
如果所述待识别字段的数据项与所述目标字段对应的关键词不匹配,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定目标字段所在的目标数据表;
在待识别数据表中查找与所述目标数据表匹配的数据表;
将与所述目标数据表匹配的数据表中的字段确定为待识别字段。
6.一种识别匹配字段的装置,其特征在于,所述装置包括:
第一确定单元,用于确定目标字段的识别方式;
获取单元,用于利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;所述识别方式包括采用深度学习模型识别或采用字符匹配识别;
第二确定单元,用于根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
第三确定单元,用于将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段;
所述第二确定单元,具体用于在所述待识别字段中的随机选择的多个数据项与所述目标字段是否匹配的识别结果中,如果与所述目标字段匹配的识别结果多于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段匹配,如果与所述目标字段匹配的识别结果少于或等于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段不匹配;
所述获取单元,包括:
第一获取子单元,用于当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;
生成子单元,用于生成待识别字段的数据项的特征表示;
第二获取子单元,用于将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果;
所述生成子单元,包括:
提取子单元,用于提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;
计算子单元,用于计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;
组成子单元,用于将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示;
所述计算子单元,具体用于获取所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个所述训练文本集合包括与同一类别的数据项;
根据所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算所述待识别字段的数据项与第i个训练文本集合的匹配程度值;
将所述待识别字段的数据项与各个训练文本集合的匹配程度值确定为所述待识别字段的数据项与各个训练文本集合的匹配程度特征。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-5任一项所述的识别匹配字段的方法。
8.一种识别匹配字段的设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一项所述的识别匹配字段的方法。
CN201911304454.7A 2019-12-17 2019-12-17 一种识别匹配字段的方法、装置及设备 Active CN111104481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304454.7A CN111104481B (zh) 2019-12-17 2019-12-17 一种识别匹配字段的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304454.7A CN111104481B (zh) 2019-12-17 2019-12-17 一种识别匹配字段的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111104481A CN111104481A (zh) 2020-05-05
CN111104481B true CN111104481B (zh) 2023-10-10

Family

ID=70422041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304454.7A Active CN111104481B (zh) 2019-12-17 2019-12-17 一种识别匹配字段的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111104481B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667923B (zh) * 2020-06-05 2022-11-18 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN115186650B (zh) * 2022-09-07 2022-12-09 中国中金财富证券有限公司 数据检测方法及相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN107798299A (zh) * 2017-10-09 2018-03-13 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN108091372A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医疗字段映射校验方法及装置
CN108595614A (zh) * 2018-04-20 2018-09-28 成都智信电子技术有限公司 应用于his***的数据表映射方法
CN108629046A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 一种字段匹配方法及终端设备
CN109829012A (zh) * 2018-12-13 2019-05-31 山东亚华电子股份有限公司 数据同步的方法和装置
CN109918678A (zh) * 2019-03-22 2019-06-21 阿里巴巴集团控股有限公司 一种字段含义识别方法和装置
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件***有限公司 字段类别的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740372B2 (en) * 2015-04-02 2020-08-11 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108091372A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医疗字段映射校验方法及装置
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN107798299A (zh) * 2017-10-09 2018-03-13 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置
CN108595614A (zh) * 2018-04-20 2018-09-28 成都智信电子技术有限公司 应用于his***的数据表映射方法
CN108629046A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 一种字段匹配方法及终端设备
CN109829012A (zh) * 2018-12-13 2019-05-31 山东亚华电子股份有限公司 数据同步的方法和装置
CN109918678A (zh) * 2019-03-22 2019-06-21 阿里巴巴集团控股有限公司 一种字段含义识别方法和装置
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件***有限公司 字段类别的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于关联token自适应字段匹配算法设计;陈波 等;计算机工程与设计;第32卷(第19期);第4238-4241页 *

Also Published As

Publication number Publication date
CN111104481A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111414393A (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
EP4026047A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN111986759A (zh) 电子病历的解析方法、***、计算机设备与可读存储介质
CN111797217B (zh) 基于faq匹配模型的信息查询方法、及其相关设备
CN111506595B (zh) 一种数据查询方法、***及相关设备
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN111785383A (zh) 数据处理方法及相关设备
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN112632106B (zh) 一种知识图谱查询方法、装置、设备及存储介质
CN113723056A (zh) Icd编码转化方法、装置、计算设备和存储介质
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN116468043A (zh) 嵌套实体识别方法、装置、设备及存储介质
M’rabet et al. TextFlow: a text similarity measure based on continuous sequences
CN115527195A (zh) 一种医疗设备铭牌信息识别抽取算法
CN114218378A (zh) 一种基于知识图谱的内容推送方法、装置、设备及介质
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN105989094B (zh) 基于隐层语义中层表达的图像检索方法
CN111985208A (zh) 一种实现标点符号填充的方法、装置及设备
CN112101021A (zh) 一种实现标准词映射的方法、装置及设备
CN112163082A (zh) 一种意图识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant