CN115497633A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115497633A
CN115497633A CN202211291571.6A CN202211291571A CN115497633A CN 115497633 A CN115497633 A CN 115497633A CN 202211291571 A CN202211291571 A CN 202211291571A CN 115497633 A CN115497633 A CN 115497633A
Authority
CN
China
Prior art keywords
data
similarity
users
health data
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211291571.6A
Other languages
English (en)
Other versions
CN115497633B (zh
Inventor
黄皓
李天一
朱靖源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianren Healthcare Big Data Technology Co Ltd
Original Assignee
Lianren Healthcare Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianren Healthcare Big Data Technology Co Ltd filed Critical Lianren Healthcare Big Data Technology Co Ltd
Priority to CN202211291571.6A priority Critical patent/CN115497633B/zh
Publication of CN115497633A publication Critical patent/CN115497633A/zh
Application granted granted Critical
Publication of CN115497633B publication Critical patent/CN115497633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质。该方法包括接收待处理数据;其中,待处理数据中包括两个用户的健康数据和用户基本信息;将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度;基于综合相似度,确定是否对两个用户的待处理数据合并处理。本发明实施方案,不仅构造出适用性更强的用户主索引匹配***,提升了健康大数据中心的数据关联度,还实现了各个***中相似用户信息的整合,为后续信息调取、使用提供了便利。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着医疗信息化程度的提高,在医疗健康大数据中心建设中,需要对多个医疗机构中保存的用户健康数据进行整合。
传统的数据处理方法,通过对比用户的基本信息,基于人为设置的规则训练相似度评价模型,进而对用户的数据进行整合。
上述方法,只考虑用户基本信息,考虑维度比较单一,结果准确度较低,对用户的适配度低。
发明内容
本发明提供了一种数据处理方法、装置、设备及存储介质,通过对两疑似匹配用户基本信息及健康数据的综合相似度对比分析,实现了对不同机构、不同业务、不同时间产生的健康数据的有机整合,提高了数据整合的准确度。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
接收待处理数据;
其中,待处理数据中包括两个用户的健康数据和用户基本信息;
将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;
将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度:
基于综合相似度,确定是否对两个用户的待处理数据合并处理。
第二方面,本发明实施例还提供了一种数据处理装置,应用于数据处理中,该数据处理装置包括:
数据接收模块,用于接收两组待处理数据。
其中,待处理数据中包括两个用户的健康数据和用户基本信息;
相似度计算模块,用于将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;
综合相似度计算模块,用于将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度。
决策模块,用于基于综合相似度,确定是否对两个用户的待处理数据合并处理。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明实施例任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明实施例任一所述的数据处理方法。
本发明实施例的技术方案,通过接收待处理数据;将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度;基于综合相似度,确定是否对两个用户的待处理数据合并处理。通过对用户基本信息及健康信息的综合处理分析,构造出适用性更强的用户主索引匹配***,实现了各个***中相似用户信息的整合,为后续信息调取、使用提供了便利。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据处理方法的流程图;
图2是根据本发明实施例二提供的一种数据处理方法的流程图;
图3是根据本发明实施例三提供的一种数据处理方法的流程图;
图4是根据本发明实施例提供的一种数据处理装置的结构示意图;
图5是实现本发明实施例数据处理方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于对两疑似匹配用户进行信息合并的情况,该方法可以由数据处理装置来执行,该数据处理装置可以采用硬件和/或软件的形式实现,该装置可配置于计算机中。如图1所示,该方法包括:
S110、接收待处理数据。
其中,待处理数据中包括两个用户的健康数据和用户基本信息。
其中,健康数据是指与用户健康有关的数据,如既往疾病、既往手术、既往用药等相关数据。基本信息可以是用来表征用户身份的基本信息,例如姓名、性别、地址等。健康数据和基本信息中具体包含的信息维度,本实施例在此不做限定,可以根据实际需求进行选择。
具体的,在需要确定两个用户是否为相似用户和/或需要进行用户信息整合的情况下,工作人员可以在***中进行待处理数据的编辑、调取以及上传工作,以便后续进行数据的接收。
S120、将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度。
其中,健康数据孪生网络模型可利用已知信息关联的用户数据进行训练得到。健康数据孪生网络模型可以是DNN网络,其模型参数都是预先训练得到的。基于健康数据孪生网络模型可以对待处理数据进行特征工程,以得到与用户的健康数据相匹配的特征向量。可选的,通过patient DNN网络,对用户特征进行降维,得到用户健康数据所对应的第一向量。第一向量是指包含用户健康数据特征,计算机能处理分析的特征向量。相似度是用于表征两用户健康数据的相似程度的概率值,相似度越接近1表示两用户相似度越高,越接近0则相似度越低。
具体的,将两个用户健康数据中的既往疾病、既往手术、既往用药等信息分别输入相应的健康数据孪生网络模型,经过模型对数据的预处理、特征选择、特征构造、特征降维等操作得到两个能分别代表两个用户健康数据特征的第一向量。然后,确定两个第一向量的相似度。在确定相似度时,可采用相应的算法,例如用余弦相似度算法,计算两个第一向量之间的距离值,以基于距离值来确定相似度,可选的,距离值越小,则表示用户相似度越高,反之,相似度越低。
需要说明的是,健康数据孪生网络模型为两个神经网络模型,其模型结构为相同的,可以基于一一对应的关系分别对两个用户的健康数据进行处理,以得到相应的第一向量。
S130、将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度。
其中,判别模型经预先训练得到,可选的,采用的模型结构可以是线性模型、支持向量机模型、树模型、深度网络模型等常见的机器学习模型。综合相似度是结合两用户的基本信息以及健康数据相似度得到的概率值,用来表征用户综合信息的相似程度。综合相似度越接近1表示两用户综合相似度越高,综合相似度越接近0,则两用户的综合相似度越低。
具体的,通过特征工程,获取两个用户的基本信息相似特征,将上述得到的两个第一向量的相似度与基本信息相似特征进行拼接,得到两个用户的相似综合特征向量,经判别模型的处理后得到综合相似度。
S140、基于综合相似度,确定是否对两个用户的待处理数据合并处理。
具体的,可以预先设置一个综合相似度阈值,当确定出的综合相似度在综合相似度阈值范围内,则可以认为两用户的信息可以进行合并处理;反之,则不进行信息合并处理。
本发明实施例,通过接收待处理数据;其中,待处理数据中包括两个用户的健康数据和用户基本信息;将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度;基于综合相似度,确定是否对两个用户的待处理数据合并处理。上述技术方案,通过对用户基本信息及健康数据的综合处理分析,解决了现有技术中只考虑用户基本信息,考虑维度比较单一的问题。实现了各个***中相似用户信息的整合,为后续信息调取、使用提供了便利,提高了数据整合的准确度,对用户的适配度更高。
实施例二
图2为本发明实施例二提供的一种数据处理方法的流程图,在前述实施例的基础上,可以先获取相应的训练样本,以基于训练样本来训练得到判别模型,进而基于判别模型确定两个用户之间的综合相似度。
如图2所示,该方法包括:
S210、确定训练样本集。
其中,训练样本集中包括多个训练样本,训练样本中包括正样本以及相应的正标签、负样本以及相应的负标签。
其中,正样本是经人工确定的两个相似用户的用户特征数据,将其标签设置为1。正标签是为正样本设置的标签。负样本是经人工确定的两个不相似用户的用户特征数据,将其标签设置为负标签。负标签是为负样本设置的标签。
示例性的,由人工对用户1和用户2的姓名特征、性别特征和年龄特征进行对比,若特征数据相似,则认为两个用户为相似用户,则把两用户的特征数据作为正样本,将正样本的标签设置为1;若特征数据不相似,则认为两个用户为非相似用户,则将两用户的特征数据作为负样本,将负样本的标签设置为0。
具体的,训练样本集中包括多个用户的基本信息数据特征,如姓名、年龄、地址等。若两个用户的基本信息经人工审核可确定为相似用户,则将两个用户的特征数据作为正样本,将其标签设置为正标签。若两个用户的基本信息经人工审核可确定为非相似用户,则将两个用户的数据特征作为负样本,将其标签设置为负标签。
S220、对于各训练样本,将当前训练样本输入至待训练判别模型中,得到相应的实际输出相似度值。
示例性的,将用户a和用户b的特征数据输入到待训练判别模型中,经过模型对两个用户特征数据的处理,计算出两个特征数据的实际输出相似度值。
需要说明的是,基于判别模型对各训练样本的处理方式都是相同的,在本实施例中,可以以对其中一个训练样本为例来进行说明。可以将当前介绍的训练样本作为当前训练样本。
其中,待训练判别模型中的模型参数为默认值,由于还是未经过训练的判别模型,因此基于待训练判别模型对当前训练样本处理后输出的内容,与当前训练样本中的标签内容可能并不是一致的,可以将待训练判别模型输出的内容作为实际输出相似度值。
S230、基于实际输出相似度值和当前训练样本的标签,确定损失值,以基于损失值对所述待训练判别模型中的模型参数进行修正。
S240、将所述待训练判别模型中的损失函数收敛作为训练目标,得到所述判别模型。
具体的,将待训练判别模型中的损失函数的训练误差,即损失参数作为检测损失函数是否达到收敛的条件,比如训练误差是否小于预设误差或误差变化趋势是否趋于稳定,或者当前的迭代次数是否等于预设次数。若检测达到收敛条件,比如损失函数的训练误差小于预设误差,或者误差变化趋势趋于稳定,表面待训练判别模型训练完成,此时可以停止迭代训练。若检测到当前未达到收敛条件,可以进一步获取其他样本数据以对模型继续进行训练,直至损失函数的训练误差在预设范围之内。
可以理解,当损失函数的训练误差达到收敛时,即可得到训练完成的判别模型。此时将用户健康数据和/或基本信息输入至模型后,即可得到更加准确的相似度。
S250、接收待处理数据。
其中,待处理数据中包括两个用户的健康数据和用户基本信息。
S260、将其中一个用户的健康数据输入至第一健康数据孪生模型中,得到待处理第一向量,将另一用户的健康数据输入至第二健康数据孪生模型中,得到待处理第二向量。
其中,健康数据可以包含是否患有某种疾病、是否血压值高于正常水平、白细胞水平是否高于或低于正常水平等特征。若是则在相应的标识位用1表示,若否则用0表示。
示例性的,将用户a的健康数据输入至第一健康数据孪生模型中,得到待处理第一向量。将用户b的健康数据输入至第二健康数据孪生模型中,得到待处理第二向量。其中,第一健康数据孪生模型和第二健康数据孪生模型对数据的分析处理逻辑相同。
S270、基于预设相似度算法确定待处理第一向量和待处理第二向量之间的相似度。
其中,预设相似度算法可以是余弦相似度算法、欧式距离算法等。可选的,本实施例中可采用余弦相似度算法计算待处理第一向量和待处理第二向量之间的距离值,距离值越小,则表示用户相似度越高,反之,相似度越低。
S280、将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度。
S290、基于综合相似度,确定是否对两个用户的待处理数据合并处理。
本发明实施例的技术方案,对待训练判别模型进行训练,然后接收待处理数据;其中,待处理数据中包括两个用户的健康数据和用户基本信息;将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度;基于综合相似度,确定是否对两个用户的待处理数据合并处理。上述技术方案,通过对用户基本信息及健康数据的综合处理分析,解决了现有技术中只考虑用户基本信息,考虑维度比较单一的问题。实现了各个***中相似用户信息的整合,为后续信息调取、使用提供了便利,提高了数据整合的准确度,对用户的适配度更高。
实施例三
图3为本发明实施例三提供的一种数据处理方法的流程图,在前述实施例的基础上,可以对将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度进行细化。其具体的实施方式可以参见本发明实施例的详细阐述,其中,与上述实施例相同或者相应的技术术语在此不再赘述。如图3所示,该方法包括:
S310、接收待处理数据。
其中,所述待处理数据中包括两个用户的健康数据和用户基本信息。
S320、将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度。
S330、对于两个用户的基本信息进行特征匹配处理,得到特征匹配向量。
其中,特征匹配是将两个用户基本信息中各个维度进行对比。例如,对基本信息中的a、b、c三个维度进行对比:用户a的基本信息为[a1,b1,c1],用户b的基本信息为[a2,b2,c2],以其中一个维度为例,a1和a2经特征匹配得到的输出值为0.8,则在对比结果相应标识位输入0.8,最后得到两个用户的特征匹配向量。特征匹配向量是对用户基本信息进行对比后,得到的能表示两用户基本信息相似程度的特征向量。
可选的,用户基本信息中包括多个字段所对应的字段内容,对两个用户的基本信息进行特征匹配处理,得到特征匹配向量,包括:通过对同一字段所对应的字段内容匹配处理,得到相应字段所对应的匹配特征;基于各字段所对应的匹配特征,确定特征匹配向量。
其中,字段可以是姓名、年龄等用户基本的信息。
具体的,各字段的操作方法相同,以其中一个字段为例,如对两个用户的姓名字段进行特征匹配处理,姓名相同或同音不同字则在匹配特征中的姓名标识位输入1或姓名相似度。对各字段进行相同操作后最终得到特征匹配向量。
S340、通过对特征匹配向量和相似度拼接处理,得到目标向量。
其中,目标向量是在特征匹配向量的基础上拼接相似度得到的特征向量。
S350、将目标向量输入至判别模型中,得到两个用户之间的综合相似度。
具体的,将目标向量输入至训练好的判别模型中,经过模型对向量的分析处理后,输入两个用户之间的综合相似度。
S360、基于综合相似度,确定是否对两个用户的待处理数据合并处理。
在本实施例中,可以是:若综合相似度高于第一预设相似度阈值,则将两个用户的待处理数据合并处理;若综合相似度小于第二预设相似度阈值,则拒绝将两个用户的待处理数据合并处理;若综合相似度大于第二预设相似度阈值,且小于第一预设相似度阈值,则将两个用户的待处理数据发送至目标设备,以使目标设备所对应的审核用户对待处理数据审核处理。
其中,预设相似度阈值是根据实际情况设置的相似度阈值,通过比较预设相似度阈值与综合相似度大小关系,决定是否将两用户健康数据及基本信息进行合并处理或转交人工审核***。
示例性的,当第一预设相似度阈值为95%,第二预设相似度阈值为60%:
若综合相似度高于95%,则可以认为两用户经判别模型的分析为相似用户,将两用户健康数据及基本信息进行合并;好处在于能够精准地对相似用户信息进行整合,以便后续对信息的调取、使用。
若综合相似度小于60%,则可以认为两用户为非相似用户,拒绝将两用户健康数据及基本信息进行合并;
若综合相似度在60%-90%之间,则需要将数据转交给人工审核***,最终根据人工审核结果确定是否对两个用户信息进行合并。
在本实施例中,为了使用最新训练得到的判别模型和健康数据孪生网络模型对数据进行处理,可以采取的措施是:周期性的获取相应的训练样本分别对判别模型以及健康数据孪生网络模型中的模型参数进行更新,以基于更新后的判别模型和健康数据孪生网络模型对数据进行处理。
其中,周期可以是一天、一周或者一个月。周期性的利用新获取的用户数据,对相关模型进行训练,更新模型参数。
具体的,利用在线学习对相关模型进行定期更新包括:定期重新用模型数据集重新划分训练集、测试集;更新健康数据孪生网络模型;更新判别模型;根据预设置信度,重新计算自动匹配预设相似度阈值。
其中,定期可以是每隔一小时、每隔一天或每日9点。定期对相关模型进行更新,根据数据变化不断调整模型参数。满足当前数据汇聚整合对数据处理办法提出的新要求,实现了对数据的灵活分析处理。
本实施例所提供的技术方案,通过接收待处理数据;将两个用户的健康数据输入健康数据孪生模型中,得到待处理第一向量和待处理第二向量。基于预设相似度算法确定待处理第一向量和待处理第二向量之间的相似度;对于两个用户的基本信息进行特征匹配处理,得到特征匹配向量;通过对特征匹配向量和相似度拼接处理,得到目标向量;将目标向量输入至判别模型中,得到两个用户之间的综合相似度。基于综合相似度,确定是否对两个用户的待处理数据合并处理。通过对用户健康数据与基本信息的综合处理分析以及对相关模型的定期更新,构造出适用性更强的用户主索引匹配***,实现了***对数据变化的灵活应对以及各个***中相似用户信息的有机整合,为后续信息调取、使用提供了便利。
实施例四
图4为本发明实施例四提供的一种数据处理装置的结构示意图。如图4所示,该装置包括,
数据接收模块410,用于接收两组待处理数据。其中,待处理数据中包括两个用户的健康数据和用户基本信息。相似度计算模块420,用于将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度。综合相似度计算模块430,用于将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度。决策模块440,基于综合相似度,确定是否对两个用户的待处理数据合并处理或交由人工审核***进行处理。
在上述各技术方案的基础上,相似度计算模块包括,
向量处理单元,用于将其中一个用户的健康数据输入至第一健康数据孪生模型中,得到待处理第一向量,将另一用户的健康数据输入至第二健康数据孪生模型中,得到待处理第二向量。相似度计算单元,用于基于预设相似度算法确定待处理第一向量和待处理第二向量之间的相似度。
其中,第一健康数据孪生模型和第二健康数据孪生模型的模型结构相同。
在上述各技术方案的基础上,综合相似度计算模块还包括,
特征匹配向量计算单元,用于对两个用户的基本信息进行特征匹配处理,得到特征匹配向量;
目标向量计算单元,通过对特征匹配向量和相似度拼接处理,得到目标向量;
综合相似度计算单元,将目标向量输入至判别模型中,得到两个用户之间的综合相似度。
在上述各技术方案的基础上,本发明实施例中的数据处理装置还包括判别模型训练模块,
该判别模型训练模块包括,
训练样本集确定单元,用于确定判别模型训练所需样本。其中,训练样本集中包括多个训练样本,训练样本中包括正样本以及相应的正标签、负样本以及相应的负标签;
实际输出相似度值计算单元,用于对于各训练样本,将当前训练样本输入至待训练判别模型中,得到相应的实际输出相似度值;
损失值确定单元,用于基于实际输出相似度值和当前训练样本的标签,确定损失值,以基于损失值对待训练判别模型中的模型参数进行修正;
判别模型确定单元,用于将待训练判别模型中的损失函数收敛作为训练目标,得到判别模型。
在上述各技术方案的基础上,本发明实施例中的数据处理装置还包括模型更新模块,
用于周期性的获取相应的训练样本分别对所述判别模型以及健康数据孪生网络模型中的模型参数进行更新,以基于更新后的判别模型和所述健康数据孪生网络模型对数据进行处理。
本发明实施例,通过接收待处理数据;其中,待处理数据中包括两个用户的健康数据和用户基本信息;将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;将两个用户的用户基本信息和相似度输入至预先训练得到的判别模型中,确定两个用户之间的综合相似度;基于综合相似度,确定是否对两个用户的待处理数据合并处理。上述技术方案,通过对用户基本信息及健康数据的综合处理分析,实现了对多家机构中医疗信息的整合,同时提高了数据整合的准确度,对用户的适配度更高。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的任一数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如本实施例中的数据处理方法。
在一些实施例中,数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本实施例中的数据处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收待处理数据;其中,所述待处理数据中包括两个用户的健康数据和用户基本信息;
将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;
将所述两个用户的用户基本信息和所述相似度输入至预先训练得到的判别模型中,确定所述两个用户之间的综合相似度;
基于所述综合相似度,确定是否对两个用户的待处理数据合并处理。
2.根据权利要求1所述的方法,其特征在于,所述将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度,包括:
将其中一个用户的健康数据输入至第一健康数据孪生模型中,得到待处理第一向量,将另一用户的健康数据输入至第二健康数据孪生模型中,得到待处理第二向量;
基于预设相似度算法确定所述待处理第一向量和所述待处理第二向量之间的相似度;
其中,所述第一健康数据孪生模型和所述第二健康数据孪生模型的模型结构相同。
3.根据权利要求1所述的方法,其特征在于,所述将各用户的用户基本信息和所述相似度输入至预先训练得到的判别模型中,确定所述两个用户之间的综合相似度,包括:
对于两个用户的基本信息进行特征匹配处理,得到特征匹配向量;
通过对所述特征匹配向量和所述相似度拼接处理,得到目标向量;
将所述目标向量输入至所述判别模型中,得到所述两个用户之间的综合相似度。
4.根据权利要求3所述的方法,其特征在于,所述用户基本信息中包括多个字段所对应的字段内容,所述对两个用户的基本信息进行特征匹配处理,得到特征匹配向量,包括:
通过对同一字段所对应的字段内容匹配处理,得到相应字段所对应的匹配特征;
基于各字段所对应的匹配特征,确定所述特征匹配向量。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定训练样本集,所述训练样本集中包括多个训练样本,所述训练样本中包括正样本以及相应的正标签、负样本以及相应的负标签;
对于各训练样本,将当前训练样本输入至待训练判别模型中,得到相应的实际输出相似度值;
基于所述实际输出相似度值和所述当前训练样本的标签,确定损失值,以基于所述损失值对所述待训练判别模型中的模型参数进行修正;
将所述待训练判别模型中的损失函数收敛作为训练目标,得到所述判别模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述综合相似度,确定是否对两个用户的待处理数据合并处理,包括:
若所述综合相似度高于第一预设相似度阈值,则将两个用户的待处理数据合并处理;
若所述综合相似度小于第二预设相似度阈值,则拒绝将两个用户的待处理数据合并处理;
若所述综合相似度大于所述第二预设相似度阈值,且小于所述第一预设相似度阈值,则将所述两个用户的待处理数据发送至目标设备,以使所述目标设备所对应的审核用户对所述待处理数据审核处理。
7.根据权利要求1所述的方法,其特征在于,还包括:
周期性的获取相应的训练样本分别对所述判别模型以及健康数据孪生网络模型中的模型参数进行更新,以基于更新后的判别模型和所述健康数据孪生网络模型对数据进行处理。
8.一种数据处理装置,其特征在于,所述装置包括:
数据接收模块:用于接收两组待处理数据。
其中,待处理数据中包括两个用户的健康数据和用户基本信息;
相似度计算模块:用于将各用户的健康数据输入至相应的健康数据孪生网络模型中,得到与各健康数据所对应的第一向量,并确定两个第一向量之间的相似度;
综合相似度计算模块:用于将所述两个用户的用户基本信息和所述相似度输入至预先训练得到的判别模型中,确定所述两个用户之间的综合相似度。
决策模块:用于基于所述综合相似度,确定是否对两个用户的待处理数据合并处理。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据处理方法。
CN202211291571.6A 2022-10-19 2022-10-19 一种数据处理方法、装置、设备及存储介质 Active CN115497633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211291571.6A CN115497633B (zh) 2022-10-19 2022-10-19 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211291571.6A CN115497633B (zh) 2022-10-19 2022-10-19 一种数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115497633A true CN115497633A (zh) 2022-12-20
CN115497633B CN115497633B (zh) 2024-01-30

Family

ID=84473866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211291571.6A Active CN115497633B (zh) 2022-10-19 2022-10-19 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115497633B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596277A (zh) * 2018-05-10 2018-09-28 腾讯科技(深圳)有限公司 一种车辆身份识别方法、装置和存储介质
WO2019015641A1 (zh) * 2017-07-19 2019-01-24 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN111143604A (zh) * 2019-12-25 2020-05-12 腾讯音乐娱乐科技(深圳)有限公司 一种音频的相似度匹配方法、装置及存储介质
CN111859986A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN112559578A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 数据处理方法、装置、电子设备和存储介质
CN113420847A (zh) * 2021-08-24 2021-09-21 平安科技(深圳)有限公司 基于人工智能的目标对象匹配方法及相关设备
US20210342634A1 (en) * 2020-05-01 2021-11-04 EMC IP Holding Company LLC Precomputed similarity index of files in data protection systems with neural network
WO2021253686A1 (zh) * 2020-06-16 2021-12-23 北京迈格威科技有限公司 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN114020906A (zh) * 2021-10-20 2022-02-08 杭州电子科技大学 基于孪生神经网络的中文医疗文本信息匹配方法及***
CN114490642A (zh) * 2021-12-31 2022-05-13 上海柯林布瑞信息技术有限公司 患者主索引生成方法、装置和介质
CN114547307A (zh) * 2022-02-25 2022-05-27 北京沃东天骏信息技术有限公司 文本向量模型训练方法、文本匹配方法、装置及设备
CN114625406A (zh) * 2022-03-22 2022-06-14 深圳壹账通智能科技有限公司 应用开发管控方法、计算机设备、存储介质
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、***、设备以及介质
CN114782714A (zh) * 2022-02-22 2022-07-22 北京深睿博联科技有限责任公司 一种基于上下文信息融合的图像匹配方法及装置
WO2022188584A1 (zh) * 2021-03-12 2022-09-15 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015641A1 (zh) * 2017-07-19 2019-01-24 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
CN108596277A (zh) * 2018-05-10 2018-09-28 腾讯科技(深圳)有限公司 一种车辆身份识别方法、装置和存储介质
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN111143604A (zh) * 2019-12-25 2020-05-12 腾讯音乐娱乐科技(深圳)有限公司 一种音频的相似度匹配方法、装置及存储介质
US20210342634A1 (en) * 2020-05-01 2021-11-04 EMC IP Holding Company LLC Precomputed similarity index of files in data protection systems with neural network
WO2021253686A1 (zh) * 2020-06-16 2021-12-23 北京迈格威科技有限公司 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN111859986A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN112559578A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 数据处理方法、装置、电子设备和存储介质
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、***、设备以及介质
WO2022188584A1 (zh) * 2021-03-12 2022-09-15 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置
CN113420847A (zh) * 2021-08-24 2021-09-21 平安科技(深圳)有限公司 基于人工智能的目标对象匹配方法及相关设备
CN114020906A (zh) * 2021-10-20 2022-02-08 杭州电子科技大学 基于孪生神经网络的中文医疗文本信息匹配方法及***
CN114490642A (zh) * 2021-12-31 2022-05-13 上海柯林布瑞信息技术有限公司 患者主索引生成方法、装置和介质
CN114782714A (zh) * 2022-02-22 2022-07-22 北京深睿博联科技有限责任公司 一种基于上下文信息融合的图像匹配方法及装置
CN114547307A (zh) * 2022-02-25 2022-05-27 北京沃东天骏信息技术有限公司 文本向量模型训练方法、文本匹配方法、装置及设备
CN114625406A (zh) * 2022-03-22 2022-06-14 深圳壹账通智能科技有限公司 应用开发管控方法、计算机设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢健;马成贤;周嫣然;李哲;: "双分支网络架构下的图像相似度学习", 测绘通报, no. 12, pages 54 - 59 *

Also Published As

Publication number Publication date
CN115497633B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN116167352B (zh) 数据处理方法、装置、电子设备及存储介质
CN115794916A (zh) 多源数据融合的数据处理方法、装置、设备和存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN117038099A (zh) 医疗类术语标准化方法以及装置
CN117076610A (zh) 一种数据敏感表的识别方法、装置、电子设备及存储介质
CN115497633B (zh) 一种数据处理方法、装置、设备及存储介质
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质
CN115439916A (zh) 面部识别方法、装置、设备及介质
CN114999665A (zh) 数据处理方法、装置、电子设备及存储介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN116089459B (zh) 数据检索方法、装置、电子设备及存储介质
CN111400126B (zh) 网络服务异常数据检测方法、装置、设备和介质
CN113807413B (zh) 对象的识别方法、装置、电子设备
CN116361460A (zh) 一种数据整合方法、装置、存储介质、电子设备及产品
CN117911135A (zh) 数据处理方法、装置、电子设备及存储介质
CN115935981A (zh) 一种分词处理方法、装置、电子设备及存储介质
CN118364179A (zh) 资源的推荐方法、资源推荐模型的训练方法、装置、电子设备和介质
CN116127948A (zh) 待标注文本数据的推荐方法、装置及电子设备
CN116431809A (zh) 基于银行客服场景下的文本标注方法、装置和存储介质
CN114692866A (zh) 用于辅助模型训练的方法、装置及计算机程序产品
CN116452915A (zh) 图像处理方法、装置、电子设备及存储介质
CN116739136A (zh) 数据预测方法、装置、电子设备和介质
CN117312288A (zh) 数据质检方法、装置、电子设备及存储介质
CN117609723A (zh) 一种对象识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant