CN116861881A - 数据处理方法、装置、设备及介质 - Google Patents

数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN116861881A
CN116861881A CN202310798319.2A CN202310798319A CN116861881A CN 116861881 A CN116861881 A CN 116861881A CN 202310798319 A CN202310798319 A CN 202310798319A CN 116861881 A CN116861881 A CN 116861881A
Authority
CN
China
Prior art keywords
hospital
target
attribute
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310798319.2A
Other languages
English (en)
Inventor
付桂振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310798319.2A priority Critical patent/CN116861881A/zh
Publication of CN116861881A publication Critical patent/CN116861881A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理、数字医疗技术领域,公开了一种数据处理方法、装置、设备及介质,包括:获取第一目标医院的第一医院属性信息;根据第一医院属性信息确定第二目标医院集合;对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合;获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合;根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。采用本申请提供的方法,可有效提升医院实体对齐操作的效率,提高医院实体对齐操作的准确性。

Description

数据处理方法、装置、设备及介质
技术领域
本发明涉及数据处理、数字医疗技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
目前,在基于数字医疗技术构建医院知识库的过程中,为了补充或提升自身医院知识库的字段属性,通常会涉及到将不同的医院知识库进行融合的操作。例如,在构建A医院知识库的过程中,可以将医保局对应医院知识库与A医院知识库进行融合,以获取A医院是否具有医保定点特征,从而为A医院的知识库补充相关的特征。其中,将不同来源的医院实体进行融合的过程中,很重要的一个步骤便是医院实体的对齐操作,对医疗实体进行对齐的操作可以理解为获取与A医院相同的医院。但是,目前针对医院实体的对齐操作不仅准确度不够,需要大量的人工标注数据来支持该对齐操作,从而导致了在进行医院实体进行对齐时的效率较低。
发明内容
本发明提供一种数据处理方法、装置、设备及介质,以解决在进行医院实体进行对齐时的效率较低的技术问题。
第一方面,提供了一种数据处理方法,包括:
获取第一目标医院的第一医院属性信息;
根据第一医院属性信息确定第二目标医院集合;
对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应;
获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应;
根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。
第二方面,提供了一种数据处理装置,包括:
获取模块,用于获取第一目标医院的第一医院属性信息;
确定模块,用于根据第一医院属性信息确定第二目标医院集合;
处理模块,用于对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应;
获取模块,还用于获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应;
确定模块,还用于根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述数据处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法的步骤。
上述数据处理方法、装置、设备及介质所实现的方案中,通过获取第一目标医院的第一医院属性信息,可以根据该第一医院属性信息确定第二目标医院集合,以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院,进而有利于节省人工成本,提升了对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据处理方法的一应用环境示意图;
图2是本发明一实施例中数据处理方法的一流程示意图;
图3是本发明一实施例中数据处理装置的一结构示意图;
图4是本发明一实施例中计算机设备的一结构示意图;
图5是本发明一实施例中计算机设备的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据处理方法,可应用在如图1的应用环境中,其中,客户端可以通过网络与服务端进行通信。示例性的,以数字医疗场景为例,以第一目标医院需要构建医院知识库为例,目标用户可以通过客户端上传第一目标医院的第一医院属性信息。其中,目标用户可以为数据处理装置的操作人员,本申请对此不作限制。相应的,服务端可以通过客户端获取到第一目标医院的第一医院属性信息,以根据该第一医院属性信息确定第二目标医院集合;其中,第二目标医院集合中的第二目标医院可以为与第一目标医院具有相似性的医院。进一步的,服务端可以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院;其中,该第二目标医院可以为服务端从第二目标医院集合中确定出的与第一目标医院为同一家医院的第二目标医院。服务端可以将该第二目标医院反馈至客户端;相应的,客户端可以接收来自服务端的第二目标医院,并可以在客户端上显示该第二目标医院,以供目标用户可以进一步基于该第二目标医院的医院知识库,对第一目标医院的医院知识库进行信息的扩充,进而提升第一目标医院的医院知识库的字段属性。通过采取本申请提供的数据处理方法,不仅可以有利于节省人工成本,提升对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的数据处理方法的一个流程示意图,包括如下步骤:
S10:获取第一目标医院的第一医院属性信息。
需要说明的是,第一目标医院可以为需要构建医院知识库的医院。也就是说,该第一目标医院可以通过融合其他医院知识库,以补充或提升自身医院知识库的字段属性。可以理解的是,第一目标医院可以通过医院实体对齐操作,以将不同来源的医院实体与第一目标医院进行匹配对齐,从而在获取到其他来源中与第一目标医院成功匹配的医院(如下文即将提及的第二目标医院)时,可以与第二目标医院的医院知识库进行融合,从而实现对第一目标医院知识库的提升和扩充。
其中,第一医院属性信息可以为该第一目标医院对应的属性信息。可选的,该第一医院属性信息也可以理解为第一目标医院的特征信息,本申请对此不做限定。该第一医院属性信息中可以包括第一目标医院对应的医院名称、医院地址、医院简介、医院等级、医院性质等信息,本申请对此不作限定。
S20:根据第一医院属性信息确定第二目标医院集合。
其中,第二目标医院集合中可以包括与第一目标医院具有相似性的一个和多个第二目标医院。需要说明的是,第二目标医院集合中的每个第二目标医院虽然与第一目标医院具有相似性,但目前还无法判断第二目标医院集合中的第二目标医院是否与第一目标医院为同一家医院,因此服务端还需要通过后续的步骤,从第二目标医院集合中确定出与第一目标医院为同一家医院的第二目标医院。
需要理解的是,根据第一医院属性信息确定第二目标医院集合,指的是基于第一医院属性信息,确定与第一目标医院具有相似性的第二目标医院集合的过程。其中,步骤S20中,也即根据第一医院属性信息确定第二目标医院集合,包括如下步骤:
S21:获取第一医院属性信息中的第一医院名称、第一医院地址和第一医院简介;
S22:获取与第一医院名称匹配的M个第一参考医院,M为正整数;
S23:获取与第一医院地址匹配的N个第二参考医院,N为正整数;
S24:获取与第一医院简介匹配的Q个第三参考医院,Q为正整数;
S25:将M个第一参考医院、N个第二参考医院和Q个第三参考医院确定为第二目标医院集合中的元素,得到第二目标医院集合。
由前述内容可知,第一医院属性信息中可以包括第一目标医院的医院名称(即上述第一医院名称)、医院地址(即上述第一医院地址)和医院简介(即上述第一医院简介)等信息。可以理解的是,第一医院属性信息中包括的每一个信息,都可以表示第一目标医院对应的一个特征。因此,服务端可以基于第一医院属性信息中的每一个第一目标医院对应的特征,以获取到与该特征相匹配的医院(如称为参考医院),从而进一步基于参考医院确定第二目标医院集合。
换言之,服务端可以分别根据第一医院名称、第一医院地址和第一医院简介,以获取到与该第一医院名称相匹配的第一参考医院、第二参考医院和第三参考医院,从而进一步基于第一参考医院、第二参考医院和第三参考医院确定出第二目标医院集合。可选的,本申请中以第一参考医院的个数为M个、以第二参考医院的个数为N个、以第三参考医院的个数为Q个,进行举例说明,不对本申请造成限制。可以理解的是,M和/或N和/或Q可以为相同数值,也可以为不同数值,本申请对此不作限制。
需要理解的是,获取与第一医院名称匹配的M个第一参考医院,指的是服务端基于第一医院名称,获取相匹配的第一参考医院的过程。其中,步骤S22中,也即获取与第一医院名称匹配的M个第一参考医院,包括如下步骤:
S221:对第一医院名称进行关键字提取,以得到K个第一关键字;
S222:获取与K个第一关键字分别对应的第一参考医院名称,以得到第一参考医院名称集合;
S223:获取第一参考医院名称集合中的每个第一参考医院名称与第一医院名称之间的相似度,以得到第一相似度集合;
S224:根据第一相似度集合和第二预设相似度阈值从第一参考医院名称集合中确定出H个与第一医院名称对应的第一参考医院名称;
S225:获取与第一医院名称对应的第二参考医院名称,以得到第二参考医院名称集合;
S226:将H个与第一医院名称对应的第一参考医院名称分别对应的医院和第二参考医院名称集合中的第二参考医院名称分别对应的医院确定为与第一医院名称匹配的医院,以得到M个第一参考医院,M为大于或等于H的正整数。
需要说明的是,服务端可以对第一医院名称进行关键字提取,得到K个第一关键字,以基于该K个第一关键字对第一目标医院的医院名称进行匹配。例如,以第一医院名称为“复旦大学妇产科医院”为例,服务端可以对该第一医院名称进行关键字提取,得到K个第一关键字,如“复旦”、“复旦大学”、“妇产”、“妇产科”和“妇产科医院”等,从而可以进一步基于得到的K个第一关键字确定出第一参考医院名称集合。
可选的,服务端进行关键字提取的方法可参见目前现有的关键字提取方法,本申请在此不再赘述。可选的,服务端基于K个第一关键字,对第一目标医院的医院名称进行匹配的方法,也可以参见目前现有的关键字匹配方法,如语义相似度计算方法等,本申请在此不再赘述。
可以理解的是,服务端可以进一步获取第一参考医院名称集合中每个参考医院名称与第一医院名称之间的相似度,如第一医院名称与第一参考医院名称集合中的第一参考医院名称1之间的相似度为0.78,第一医院名称与第一参考医院名称集合中的第一参考医院名称2之间的相似度为0.21,以进一步得到第一相似度集合。
可选的,服务端可以基于相似度,对第一参考医院名称集合中的每个第一参考医院名称进行筛选,如设置相似度阈值(即上述第二预设相似度阈值),从而将相似度高于该第二预设相似度阈值的第一参考医院名称进行保留,进而得到筛选后的(如H个)与第一医院名称对应的第一参考医院名称。其中,H为小于或等于K的正整数。其中,第二预设相似度阈值可以用于指示第一医院名称与第一参考医院名称集合中每个第一参考医院名称之间的相似度对应的阈值。
进一步的,服务端还可以直接获取与第一医院名称对应的参考医院名称(如称为第二参考医院名称),从而得到第二参考医院名称集合。其中,第二参考医院名称集合中的各个第二参考医院名称是基于第一医院名称这个整体确定出的参考医院名称,与前述第一参考医院名称集合中的各个第一参考医院名称的确定方式不同。例如,服务端可以基于第一医院名称“复旦大学妇产科医院”,确定出与该第一医院名称对应的第二参考医院名称,如“复旦妇产科医院”。
可选的,服务端通过上述两种方式确定出的参考医院的名称可以相同,也可以不同,本申请对此不作限制。示例性的,第一参考医院名称集合中的第一参考医院名称(如称为第一参考医院名称1),可以与第二参考医院名称集合中的第二参考医院名称(如称为第二参考医院名称3)相同,本申请对此不作限制。
值得注意的是,服务端可以将通过上述两种方法确定出的参考医院名称对应的医院,即上述H个与第一医院名称对应的第一参考医院名称分别对应的医院和第二参考医院名称集合中的第二参考医院名称分别对应的医院,确定为与第一医院名称匹配的M个第一参考医院。
对于上述步骤S221-S226,服务端通过对第一医院名称进行关键字提取,以得到K个第一关键字,并获取与K个第一关键字分别对应的第一参考医院名称,以得到第一参考医院名称集合,并获取第一参考医院名称集合中的每个第一参考医院名称与第一医院名称之间的相似度,以得到第一相似度集合,以根据第一相似度集合和第二预设相似度阈值从第一参考医院名称集合中确定出H个与第一医院名称对应的第一参考医院名称,并进一步获取与第一医院名称对应的第二参考医院名称,以得到第二参考医院名称集合,从而将H个与第一医院名称对应的第一参考医院名称分别对应的医院和第二参考医院名称集合中的第二参考医院名称分别对应的医院,确定为与第一医院名称匹配的医院,以得到M个第一参考医院,进而得到更全面、更准确的M个第一参考医院。
可以理解的是,服务端通过第一医院地址确定出N个与该第一医院地址相匹配的第二参考医院的方式,以及服务端通过第一医院简介确定出Q个与该第一医院简介相匹配的第三参考医院的方式,可以参见上述两种方式,本申请在此不再赘述。可选的,服务端也可以采用其他方式以确定第二参考医院和/或第三参考医院,本申请对此不作限制。
在一个示例中,服务端可以利用大语言模型(Large language model,LLM),对较长的文本(如医院简介)进行提炼和总结,以进一步将较长的文本对应的特征也作为医院实体对齐过程中的一个参考。可选的,服务端通过LLM的文本处理能力,还可以缓解小模型输入字符受限的问题,从而进一步实现医院实体对齐性能的提升。
对于步骤S21-S25,服务端通过获取第一医院属性信息中的第一医院名称、第一医院地址和第一医院简介,可以获取与第一医院名称匹配的M个第一参考医院,获取与第一医院地址匹配的N个第二参考医院,并获取与第一医院简介匹配的Q个第三参考医院,从而进一步将M个第一参考医院、N个第二参考医院和Q个第三参考医院确定为第二目标医院集合中的元素,进而得到范围更广、更全面且更准确的第二目标医院集合,有利于进一步提升医院实体对齐的性能。
S30:对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合;第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应。
可以理解的是,服务端在获取到第二目标医院集合之后,可以对第二目标医院集合中的每个第二目标医院进行特征筛选,从而从该第二目标医院集合中选取出与第一目标医院对应的第二目标医院。
可选的,服务端可以通过对第一医院属性信息进行文本描述处理,以得到第一目标医院对应的特征;并对第二目标医院集合中的每个第二目标医院的第二医院属性信息进行文本描述处理,以得到每个第二目标医院对应的特征;从而进一步基于上述特征,从第二目标医院集合中筛选出与第一目标医院对应的第二目标医院。
需要理解的是,对第一医院属性信息进行文本描述处理,以得到第一属性文本,指的是将第一医院属性信息转化为属性文本,以进一步基于该属性文本进行匹配的过程。其中,步骤S30中,也即对第一医院属性信息进行文本描述处理,以得到第一属性文本,包括如下步骤:
S31:获取第一医院属性信息中的离散属性信息;
S32:对离散属性信息进行文本描述处理,以得到第一子属性文本;
S33:获取第一医院属性信息中的属性文本,以得到第二子属性文本;
S34:将第一子属性文本与第二子属性文本进行拼接处理,以得到第一属性文本。
其中,离散属性信息可以包括医院等级和医院性质等信息。也就是说,服务端可以将第一医院属性信息中的离散属性信息(如称为第一医院等级和第一医院性质)进行文本描述处理,即转化为文本描述,以得到第一子属性文本。
可选的,服务端可以基于第一医院属性信息中包括的其他信息,如前述第一医院名称、第一医院地址和第一医院简介,获取到第一目标医院对应的属性文本,以得到第二子属性文本。
进一步的,服务端可以通过将得到的第一子属性文本和第二子属性文本进行拼接处理,以得到第一属性文本。其中,服务端可以采用多模态的方式对上述第一子属性文本和第二子属性文本进行拼接;或者服务端也可以采用格式化字符串的方式对上述第一子属性文本和第二子属性文本进行拼接;可选的,服务端也可以采用其他方式进行上述拼接处理,本申请对此不作限制。
对于步骤S31-S34,服务端通过获取第一医院属性信息中的离散属性信息,并对离散属性信息进行文本描述处理,以得到第一子属性文本,获取第一医院属性信息中的属性文本,以得到第二子属性文本,以进一步将第一子属性文本与第二子属性文本进行拼接处理,以得到第一属性文本,从而更好地确定出第一目标医院对应的特征,进而可以基于该特征与第二目标医院集合中的每个第二目标医院进行筛选匹配,有利于在后续过程中确定出更准确的第二目标医院。
需要说明的是,服务端对第二目标医院集合中的每个第二目标医院的第二医院属性信息进行文本描述处理的相关内容,可以参见前述对第一医院属性信息进行文本描述处理的详细步骤,本申请在此不再赘述。
S40:获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合;目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应。
其中,目标相似度集合中可以包括第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,且该目标相似度集合中的每个目标相似度分别于第二文本集合中的第二属性文本一一对应。
需要理解的是,获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,指的是基于第一属性文本获取第一特征向量,基于第二属性文本获取第二特征向量,以进一步获取第一特征向量和第二特征向量之间相似度的过程。其中,步骤S40中,也即获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,包括如下步骤:
S41:对第一属性文本进行特征编码,以得到第一特征向量;
S42:对第二属性文本集合中每个第二属性文本进行特征编码,以得到与每个第二属性文本对应的第二特征向量;
S43:将第一特征向量与每个第二属性文本对应的第二特征向量进行特征比对,以得到第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度;
S44:将第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度确定为第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合。
其中,服务端可以通过编码器,对第一属性文本进行特征编码;可选的,服务端也可以采用其他方式对第一属性文本进行特征编码,本申请对此不作限制。可选的,服务端可以采用相同的方式对第二属性文本集合中的每个第二属性文本进行特征编码,本申请对此不作限制。
进一步的,在确定了第一特征向量和第二特征向量之后,服务端可以对该第一特征向量和第二特征向量进行特征比对,从而得到第一特征向量与每个第二特征向量之间的相似度,进而得到与每个第二属性文本一一对应的目标相似度集合。
对于步骤S41-S44,对第一属性文本进行特征编码,以得到第一特征向量,对第二属性文本集合中每个第二属性文本进行特征编码,以得到与每个第二属性文本对应的第二特征向量,以进一步将第一特征向量与每个第二属性文本对应的第二特征向量进行特征比对,以得到第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度,从而将第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度确定为第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,进而可以根据两个文本之间的相似度,对第二目标医院集合中的第二目标医院进行筛选。
可选的,服务端可以通过向量表征进行语义相似度计算的方式,以确定第一属性文本与每个第二目标医院对应的第二属性文本之间的相似度,仅用于举例说明,不对本申请构成限定。可选的,服务端也可以采用其他方式进行相似度计算,本申请对此不作限制。
S50:根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。
其中,第一预设相似度阈值可以用于指示第一属性文本与第二属性文本集合中每个第二属性文件之间的相似度对应的阈值。可选的,该第一预设相似度阈值可以与第二预设相似度阈值为相同数值,也可以为不同数值,本申请对此不作限制。
需要说明的是,服务端可以通过上述第一预设相似度阈值,对第二目标医院集合中相似度较低的第二目标医院进行筛选,从而对第二目标医院集合中相似度较高的第二目标医院进行保留,进而确定出与第一目标医院对应的第二目标医院。
可选的,服务端在根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院之后,还可以对确定出的第二目标医院进行校验,具体可以包括如下步骤:
S51:获取第一目标医院的第一科室信息和第一医疗数据信息,以及获取第二目标医院的第二科室信息和第二医疗数据信息;
S52:获取第一医疗数据信息与第二医疗数据信息之间的第一相似度;
S53:若第一科室信息与第二科室信息相同,以及第一相似度高于第三预设相似度阈值,则对第一医疗数据信息和第二医疗数据信息进行信息融合处理,以得到第一目标医院对应的目标医疗数据信息;
S54:展示目标医疗数据信息。
其中,第一科室信息可以为第一目标医院对应的一个科室的信息,如口腔科的信息。第二科室信息可以为第二目标医院对应的一个科室的信息。第一医疗数据信息可以为第一目标医院的第一科室对应的医疗数据。第二医疗数据信息可以为第二目标医院的第二科室对应的医疗数据。
在一个示例中,第一医疗数据可以为部分医疗数据,如第一医疗数据包括本周前三天的医疗数据;第二医疗数据可以为完整医疗数据,如第二医疗数据可以包括本周的全部医疗数据。可选的,服务端也可以设置第一医疗数据为完整医疗数据,第二医疗数据为部分医疗数据,本申请对此不作限制。
可选的,服务端确定第一医疗数据信息与第二医疗数据信息之间的第一相似度的相关内容,可以参见前述相似度的确定方式,本申请在此不再赘述。可选的,服务端可以通过设置第三预设相似度阈值,以确定第一医疗数据信息与第二医疗数据信息之间的相似度。可选的,该第三预设相似度阈值可以前述第一预设相似度阈值和/第二预设相似度阈值为相同的数值,也可以为不同数值,本申请对此不作限制。
可以理解的是,若服务端确定出的第一相似度高于第三预设相似度阈值,且第一科室信息与第二科室信息相同,则说明第一目标医院与第二目标医院之间的相似度很高,即验证出第二目标医院与第一目标医院为同一家医院。
需要说明的是,在验证出第二目标医院与第一目标医院为同一家医院的情况下,服务端可以将第一医疗数据信息和第二医疗数据信息进行信息融合处理,以得到第一目标医院对应的目标医疗数据信息,并对融合处理后的目标医疗数据信息进行展示。可选的,服务端还可以将第一目标医院对应的其他信息与第二目标医院相应的内容进行融合处理,从而实现扩充自身医院知识库的目的。
可选的,若服务端确定出的第一相似度低于第三预设相似度阈值,则说明第一目标医院与第二目标医院之间的相似度不高,即验证出第二目标医院与第一目标医院为不同医院。可选的,服务端可以将验证失败的第二目标医院进行删除,本申请对此不作限制。
可选的,服务端也可能无法根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出第一目标医院对应的第二目标医院。例如,服务端可能获取到目标相似度集合中的每个目标相似度均低于第一预设相似度阈值,从而无法从第二目标医院集合中确定出满足第一预设相似度阈值要求的第二目标医院,本申请对此不作限制。
具体的,在服务端根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中未能确定出与第一目标医院对应的第二目标医院的情况下,服务端对第一医院属性信息进行调整(如补全等),具体步骤如下:
S501:若根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中未能确定出与第一目标医院对应的第二目标医院,则对第一医院属性信息进行完整性判别,以得到完整性判别结果;
S502:若完整性判别结果指示第一医院属性信息为非完整数据,则获取第一医院属性信息中的第一变量;第一变量为数据缺失的变量;
S503:对第一变量进行数据补全处理,以得到补全处理后的第一医院属性信息;
S504:通过补全处理后的第一医院属性信息,确定与第一目标医院对应的第三目标医院。
其中,服务端可以通过判断第一医院属性信息中是否存在缺失值,如判断第一医院属性信息中的医院地址是否完整,从而对第一医院属性信息进行完整性判别,进而得到完整性判别结果。可以理解的是,该完整性判别结果可以用于指示该第一医院属性信息是否为完整数据。
可以理解的是,若上述完整性判别结果指示第一医院属性信息为非完整数据,说明该第一医院属性信息存在缺失值,则服务端可以从第一医院属性信息中获取缺失的变量(如称为第一变量),即上述缺失值。
进一步的,服务端可以针对存在缺失的第一变量进行数据补全处理,从而得到补全处理后的完整的第一医院属性信息。可选的,第一医院属性信息中可以存在一个或多个缺失的变量,即上述第一变量可以为一个或多个。需要说明的是,在第一变量为多个的情况下,服务端可以依次对每个第一变量进行数据补全处理,本申请对此不作限制。
具体的,服务端可以基于深度神经网络构建数据补全模型,以根据该数据补全模型对上述第一变量进行数据补全处理。可选的,服务端也可以采用其他方式进行数据补全处理,本申请对此不作限制。
可以理解的是,补全处理后的第一医院属性信息与补全处理之前的第一医院属性信息相比,可以包括更多的信息。也就是说,服务端基于该补全处理后的第一医院属性信息可以确定出更准确、更全面的目标医院集合(如称为第三目标医院集合),从而进一步从该第三目标医院集合中确定出与第一目标医院对应的第三目标医院。
需要说明的是,服务端基于补全处理后的第一医院属性信息确定第三目标医院集合的相关步骤,以及服务端从第三目标医院集合中确定出第三目标医院的相关步骤,可参见前述内容中的详细描述,本申请在此不再赘述。
对于步骤S501-S504,在服务端根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中未能确定出与第一目标医院对应的第二目标医院的情况下,通过对第一医院属性信息进行完整性判别,以得到完整性判别结果,并在完整性判别结果指示第一医院属性信息为非完整数据的情况下,通过获取第一医院属性信息中存在缺失的第一变量,以进一步对第一变量进行数据补全处理,以得到补全处理后的第一医院属性信息,从而可以通过补全处理后的第一医院属性信息,确定与第一目标医院对应的第三目标医院,进而实现更准确、更全面的医院实体对齐性能。
示例性的,服务端可以基于大语言模型(Large Language Model,LLM),构建医院实体对齐模型,以实施上述医院实体对齐的方法。具体的,该医院实体对齐模型的构建,可以包括如下步骤:
1、服务端可以基于搜索引擎(Elastic Search,ES),分别采用医院的名称、医院的地址、医院的简介等信息,对候选医院进行召回,以获得召回医院候选集。
例如,服务端可以通过医院的名称信息,召回名称相似度较高的候选医院;服务端还可以通过医院的地址可以召回医院的名称匹配度不高,但医院的地址相似度较高的候选医院。也就是说,通过上述方式,可以更全面地获取到相似度较高的候选医院,并保证召回的候选医院的质量。
2、将待匹配医院和候选医院的离散信息(比如医院的等级、医院的性质),转化为文本描述信息,并将该转化后的文本描述信息与医院的简介、医院的名称、医院的地址等文本信息进行拼接,以作为针对候选医院的判别特征。
3、基于中文语言的特性以及模型的开源性,选取复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型——莫斯模型(MOSS),作为医院实体对齐模型的模型基座。
4、通过添加医院实体对齐任务的具体指令,以及相应的医院实体对齐示例,为医院实体对齐模型增加适配能力。
其中,如图3所示,图3示例性地示出了医院实体对齐模型对应的一个显示界面。图3中示出的医院实体对齐模型的具体指令可以如下:“你是一个实体对齐助手,用于区分两家医院是否是同一家医院”,相应的医院实体对齐提示样例可以如下:“问:【A医院】,等级为三级甲等,医院性质为公立,医院简介为:A医院位于…,占地面积65亩,建筑面积84600余平方米,…,医院地址为:…。【B医院】,等级为三级甲等,医院性质为公立…。答:A医院和B医院是同一家医院”。
可以理解的是,服务端通过上述方式构建了医院实体对齐模型之后,可以按照医院实体对齐示例,通过输入(input)对待匹配医院的相关信息和候选医院的相关信息进行输入。例如,以图3中示出的输入为例,目标用户可以通过客户端输入:“问:【C医院】,等级为三级甲等,医院性质为公立,医院简介为:…;【D医院】,等级为三级甲等,医院性质为公立,医院简介为:…”。可选的,服务端通过医院实体对齐模型,可以通过输出(output)对待匹配医院和候选医院的对齐结果进行输出。例如,服务端可以输出:“答:C医院和D医院是同一家医院”。
需要说明的是,上述图3中示出的医院实体对齐模型的显示界面,仅用于举例说明,不对本申请构成限定。可选的,上述图3中的输入对应的内容和输出对应的内容,仅用于举例说明,不对本申请构成限定。可选的,医院实体对齐模型中也可以不包括医院实体对齐模型的具体指令和/或医院实体对齐示例,本申请对此不作限制。
可见,在上述方案中,服务端通过获取第一目标医院的第一医院属性信息,可以根据该第一医院属性信息确定第二目标医院集合,以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院,进而进而不仅有利于节省人工成本,提升了对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据处理装置,该数据处理装置与上述实施例中数据处理方法一一对应。如图3所示,该数据处理装置包括获取模块101、确定模块102、处理模块103和展示模块104。各功能模块详细说明如下:
获取模块101,用于获取模块,用于获取第一目标医院的第一医院属性信息;
确定模块102,用于根据第一医院属性信息确定第二目标医院集合;
处理模块103,用于对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应;
获取模块101,还用于获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应;
确定模块102,还用于根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院
在一实施例中,获取模块101,还用于获取第一医院属性信息中的第一医院名称、第一医院地址和第一医院简介;获取模块101,还用于获取与第一医院名称匹配的M个第一参考医院,M为正整数;获取模块101,还用于获取与第一医院地址匹配的N个第二参考医院,N为正整数;获取模块101,还用于获取与第一医院简介匹配的Q个第三参考医院,Q为正整数;确定模块102,还用于将M个第一参考医院、N个第二参考医院和Q个第三参考医院确定为第二目标医院集合中的元素,得到第二目标医院集合。
在一实施例中,处理模块103,还用于对第一医院名称进行关键字提取,以得到K个第一关键字;K为正整数;获取模块101,还用于获取与K个第一关键字分别对应的第一参考医院名称,以得到第一参考医院名称集合;获取模块101,还用于获取第一参考医院名称集合中的每个第一参考医院名称与第一医院名称之间的相似度,以得到第一相似度集合;确定模块102,还用于根据第一相似度集合和第二预设相似度阈值从第一参考医院名称集合中确定出H个与第一医院名称对应的第一参考医院名称;H为小于或等于K的正整数;获取模块101,还用于获取与第一医院名称对应的第二参考医院名称,以得到第二参考医院名称集合;确定模块102,还用于将H个与第一医院名称对应的第一参考医院名称分别对应的医院和第二参考医院名称集合中的第二参考医院名称分别对应的医院,确定为与第一医院名称匹配的医院,以得到M个第一参考医院;M为大于或等于H的正整数。
在一实施例中,获取模块101,还用于获取第一医院属性信息中的离散属性信息;处理模块103,还用于对离散属性信息进行文本描述处理,以得到第一子属性文本;获取模块101,还用于获取第一医院属性信息中的属性文本,以得到第二子属性文本;处理模块103,还用于将第一子属性文本与第二子属性文本进行拼接处理,以得到第一属性文本。
在一实施例中,处理模块103,还用于对第一属性文本进行特征编码,以得到第一特征向量;处理模块103,还用于对第二属性文本集合中每个第二属性文本进行特征编码,以得到与每个第二属性文本对应的第二特征向量;处理模块103,还用于将第一特征向量与每个第二属性文本对应的第二特征向量进行特征比对,以得到第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度;确定模块102,还用于将第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度确定为第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合。
在一实施例中,获取模块101,还用于获取第一目标医院的第一科室信息和第一医疗数据信息,以及获取第二目标医院的第二科室信息和第二医疗数据信息;获取模块101,还用于获取第一医疗数据信息与第二医疗数据信息之间的第一相似度;处理模块103,还用于若第一科室信息与第二科室信息相同,以及第一相似度高于第三预设相似度阈值,则对第一医疗数据信息和第二医疗数据信息进行信息融合处理,以得到第一目标医院对应的目标医疗数据信息;展示模块104,用于展示目标医疗数据信息。
在一实施例中,处理模块103,还用于若根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中未能确定出与第一目标医院对应的第二目标医院,则对第一医院属性信息进行完整性判别,以得到完整性判别结果;获取模块101,还用于若完整性判别结果指示第一医院属性信息为非完整数据,则获取第一医院属性信息中的第一变量;第一变量为数据缺失的变量;处理模块103,还用于对第一变量进行数据补全处理,以得到补全处理后的第一医院属性信息;确定模块102,还用于通过补全处理后的第一医院属性信息,确定与第一目标医院对应的第三目标医院。
本发明提供了一种信息处理装置,通过获取第一目标医院的第一医院属性信息,可以根据该第一医院属性信息确定第二目标医院集合,以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院,进而进而不仅有利于节省人工成本,提升了对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法客户端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取第一目标医院的第一医院属性信息;
根据第一医院属性信息确定第二目标医院集合;
对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应;
获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应;
根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。
本发明提供了一种计算机设备,通过获取第一目标医院的第一医院属性信息,可以根据该第一医院属性信息确定第二目标医院集合,以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院,进而进而不仅有利于节省人工成本,提升了对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一目标医院的第一医院属性信息;
根据第一医院属性信息确定第二目标医院集合;
对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,第二属性文本集合中的第二属性文本与第二目标医院集合中的第二目标医院一一对应;
获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,目标相似度集合中的目标相似度与第二属性文本集合中的第二属性文本一一对应;
根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院。
本发明提供了一种计算机可读存储介质,通过获取第一目标医院的第一医院属性信息,可以根据该第一医院属性信息确定第二目标医院集合,以对第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,从而获取第一属性文本与第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,以进一步根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与第一目标医院对应的第二目标医院,进而进而不仅有利于节省人工成本,提升了对医院实体进行对齐时的效率,还能有效地提高医院实体对齐操作的准确性。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一目标医院的第一医院属性信息;
根据所述第一医院属性信息确定第二目标医院集合;
对所述第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,所述第二属性文本集合中的第二属性文本与所述第二目标医院集合中的第二目标医院一一对应;
获取所述第一属性文本与所述第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,所述目标相似度集合中的目标相似度与所述第二属性文本集合中的第二属性文本一一对应;
根据所述目标相似度集合和第一预设相似度阈值,从所述第二目标医院集合中确定出与所述第一目标医院对应的第二目标医院。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述第一医院属性信息确定第二目标医院集合,包括:
获取所述第一医院属性信息中的第一医院名称、第一医院地址和第一医院简介;
获取与所述第一医院名称匹配的M个第一参考医院,M为正整数;
获取与所述第一医院地址匹配的N个第二参考医院,N为正整数;
获取与所述第一医院简介匹配的Q个第三参考医院,Q为正整数;
将M个所述第一参考医院、N个所述第二参考医院和Q个所述第三参考医院确定为第二目标医院集合中的元素,得到第二目标医院集合。
3.根据权利要求2所述的数据处理方法,其特征在于,所述获取与所述第一医院名称匹配的M个第一参考医院,包括:
对所述第一医院名称进行关键字提取,以得到K个第一关键字;K为正整数;
获取与K个所述第一关键字分别对应的第一参考医院名称,以得到第一参考医院名称集合;
获取所述第一参考医院名称集合中的每个第一参考医院名称与所述第一医院名称之间的相似度,以得到第一相似度集合;
根据所述第一相似度集合和第二预设相似度阈值从所述第一参考医院名称集合中确定出H个与所述第一医院名称对应的第一参考医院名称;H为小于或等于K的正整数;
获取与所述第一医院名称对应的第二参考医院名称,以得到第二参考医院名称集合;
将所述H个与所述第一医院名称对应的第一参考医院名称分别对应的医院和所述第二参考医院名称集合中的第二参考医院名称分别对应的医院,确定为与第一医院名称匹配的医院,以得到M个所述第一参考医院;M为大于或等于H的正整数。
4.根据权利要求1所述的数据处理方法,其特征在于,所述对所述第一医院属性信息进行文本描述处理,以得到第一属性文本,包括:
获取所述第一医院属性信息中的离散属性信息;
对所述离散属性信息进行文本描述处理,以得到第一子属性文本;
获取所述第一医院属性信息中的属性文本,以得到第二子属性文本;
将所述第一子属性文本与所述第二子属性文本进行拼接处理,以得到所述第一属性文本。
5.根据权利要求1-4任一项所述的数据处理方法,其特征在于,所述获取所述第一属性文本与所述第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,包括:
对所述第一属性文本进行特征编码,以得到第一特征向量;
对所述第二属性文本集合中每个第二属性文本进行特征编码,以得到与每个第二属性文本对应的第二特征向量;
将所述第一特征向量与每个第二属性文本对应的第二特征向量进行特征比对,以得到第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度;
将第一特征向量与每个第二属性文本对应的第二特征向量之间的相似度确定为第一属性文本与所述第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合。
6.根据权利要求5所述的数据处理方法,其特征在于,在所述根据目标相似度集合和第一预设相似度阈值,从第二目标医院集合中确定出与所述第一目标医院对应的第二目标医院之后,所述方法还包括:
获取第一目标医院的第一科室信息和第一医疗数据信息,以及获取所述第二目标医院的第二科室信息和第二医疗数据信息;
获取所述第一医疗数据信息与所述第二医疗数据信息之间的第一相似度;
若所述第一科室信息与所述第二科室信息相同,以及所述第一相似度高于第三预设相似度阈值,则对所述第一医疗数据信息和所述第二医疗数据信息进行信息融合处理,以得到所述第一目标医院对应的目标医疗数据信息;
展示所述目标医疗数据信息。
7.根据权利要求6所述的数据处理方法,其特征在于,所述方法还包括:
若根据所述目标相似度集合和所述第一预设相似度阈值,从所述第二目标医院集合中未能确定出与所述第一目标医院对应的第二目标医院,则对所述第一医院属性信息进行完整性判别,以得到完整性判别结果;
若所述完整性判别结果指示所述第一医院属性信息为非完整数据,则获取所述第一医院属性信息中的第一变量;所述第一变量为数据缺失的变量;
对所述第一变量进行数据补全处理,以得到补全处理后的第一医院属性信息;
通过所述补全处理后的第一医院属性信息,确定与所述第一目标医院对应的第三目标医院。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取模块,用于获取第一目标医院的第一医院属性信息;
确定模块,用于根据所述第一医院属性信息确定第二目标医院集合;
处理模块,用于对所述第一医院属性信息进行文本描述处理,以得到第一属性文本,以及对第二目标医院集合中的每个第二目标医院的第二医院属性信息分别进行文本描述处理,以得到第二属性文本集合,所述第二属性文本集合中的第二属性文本与所述第二目标医院集合中的第二目标医院一一对应;
所述获取模块,还用于获取所述第一属性文本与所述第二属性文本集合中每个第二属性文本之间的相似度,以得到目标相似度集合,所述目标相似度集合中的目标相似度与所述第二属性文本集合中的第二属性文本一一对应;
所述确定模块,还用于根据所述目标相似度集合和第一预设相似度阈值,从所述第二目标医院集合中确定出与所述第一目标医院对应的第二目标医院。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法。
CN202310798319.2A 2023-06-30 2023-06-30 数据处理方法、装置、设备及介质 Pending CN116861881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310798319.2A CN116861881A (zh) 2023-06-30 2023-06-30 数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310798319.2A CN116861881A (zh) 2023-06-30 2023-06-30 数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116861881A true CN116861881A (zh) 2023-10-10

Family

ID=88218328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310798319.2A Pending CN116861881A (zh) 2023-06-30 2023-06-30 数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116861881A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172792A (zh) * 2023-11-02 2023-12-05 赞塔(杭州)科技有限公司 客户信息管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172792A (zh) * 2023-11-02 2023-12-05 赞塔(杭州)科技有限公司 客户信息管理方法及装置

Similar Documents

Publication Publication Date Title
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN112181489B (zh) 代码迁移方法、装置、计算机设备及存储介质
CN113157863B (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN116861881A (zh) 数据处理方法、装置、设备及介质
CN112650529B (zh) 可配置生成移动端app代码的***及方法
CN111191079A (zh) 一种文档内容获取方法、装置、设备及存储介质
CN111984659B (zh) 数据更新方法、装置、计算机设备和存储介质
CN114491200A (zh) 基于图神经网络的异源兴趣点匹配方法和装置
CN113626468B (zh) 基于人工智能的sql语句生成方法、装置、设备及存储介质
CN117540811B (zh) 一种解决大型语言模型幻觉问题的***和方法
CN113705816B (zh) 流程图生成方法、电子装置、装置及可读存储介质
CN114238715A (zh) 基于社会救助的问答***、构建方法、计算机设备及介质
CN112699195B (zh) 地理空间数据处理方法、装置、计算机设备及存储介质
CN113283231B (zh) 获取签章位的方法、设置***、签章***及存储介质
CN114743204A (zh) 针对表格的自动问答方法、***、设备及存储介质
CN113868411A (zh) 合同比对方法、装置、存储介质及计算机设备
CN112732423A (zh) 流程迁移方法、装置、设备及介质
CN115859984B (zh) 医疗命名实体识别模型训练方法、装置、设备及介质
CN117057340A (zh) 报表解析方法、装置、计算机设备和存储介质
CN117852510A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN118095205A (zh) 版式文件的信息提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination