CN117155402B - 基于rpa技术的公卫健康智能体检服务*** - Google Patents

基于rpa技术的公卫健康智能体检服务*** Download PDF

Info

Publication number
CN117155402B
CN117155402B CN202311424305.0A CN202311424305A CN117155402B CN 117155402 B CN117155402 B CN 117155402B CN 202311424305 A CN202311424305 A CN 202311424305A CN 117155402 B CN117155402 B CN 117155402B
Authority
CN
China
Prior art keywords
dimension
physical examination
data
examination data
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311424305.0A
Other languages
English (en)
Other versions
CN117155402A (zh
Inventor
李本然
姜兵
张洪辉
刘亚男
史云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Big Data Medical Technology Co ltd
Original Assignee
Shandong Big Data Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Big Data Medical Technology Co ltd filed Critical Shandong Big Data Medical Technology Co ltd
Priority to CN202311424305.0A priority Critical patent/CN117155402B/zh
Publication of CN117155402A publication Critical patent/CN117155402A/zh
Application granted granted Critical
Publication of CN117155402B publication Critical patent/CN117155402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及体检服务技术领域,具体涉及一种基于RPA技术的公卫健康智能体检服务***。该***包括:获取模块,用于获取多维的体检数据,根据体检数据的平均差和预设标准均方差,获得重要程度;第一处理模块,用于确定待测维度,通过皮尔逊相关系数获得待测维度的相关影响因子;根据体检数据中不同数值的概率,获得待测维度的冗余影响因子;第二处理模块,用于结合相关影响因子和冗余影响因子获得自适应权衡系数;进而确定主成分维度;压缩模块,用于对主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据。本发明能够在保证数据特征有效保留的同时,提升数据压缩率,降低服务器的存储压力。

Description

基于RPA技术的公卫健康智能体检服务***
技术领域
本发明涉及体检服务技术领域,具体涉及一种基于RPA技术的公卫健康智能体检服务***。
背景技术
公共卫生数据智能采集***是运用互联网、物联网和移动通信等技术,通过有线、蓝牙、无线等传输方式,将公共卫生数据采集所需要的硬件整合在一起,居民可以通过自主登记、自主测量身高体重、血压、体质等数据,经测量后将结果自动上传至“公共卫生数据采集平台”。利用机器人流程自动化(Robotic Process Automation,RPA)技术可以对公共卫生数据进行高效的整理和监管。
相关技术中,为降低服务器的存储压力,通常使用主成分分析法对所采集的体检数据进行主成分分析,RPA流程自动化相对死板,面对数据量较大的情况下压缩率较低,压缩效果较差,运行耗费较大,从而增加服务器的存储压力,使得RPA后续进行数据调取、整理时较为困难。
发明内容
为了解决压缩率较低,压缩效果较差,运行耗费和服务器的存储压力较大,使得RPA后续进行数据调取、整理时较为困难的技术问题,本发明提供一种基于RPA技术的公卫健康智能体检服务***,所采用的技术方案具体如下:
本发明提出了一种基于RPA技术的公卫健康智能体检服务***,***包括:
获取模块,用于获取多维的体检数据,根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度;
第一处理模块,用于任选某一维度作为待测维度,根据所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得所述待测维度的相关影响因子;根据所述待测维度下体检数据的数值和不同数值的概率,获得所述待测维度的冗余影响因子;
第二处理模块,用于根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数;根据所有维度下体检数据的重要程度和自适应权衡系数确定主成分系数;根据所有维度下体检数据的主成分系数选择主成分维度;
压缩模块,用于对所述主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,其中,所述体检服务记录数据用于表征所有用户的体检情况。
进一步地,所述根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度,包括:
将任一维度下所有用户体检数据的平均差的均值与预设标准均方差的比值作为该维度下体检数据的标准差异;
计算所述标准差异与1的差值的平方的归一化值,得到该维度下体检数据的重要程度。
进一步地,所述根据所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得所述待测维度的相关影响因子,包括:
将所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数的绝对值的均值归一化值,作为相关影响因子。
进一步地,所述根据所述待测维度下体检数据的数值和不同数值的概率,获得所述待测维度的冗余影响因子,包括:
基于信息熵公式,根据所述待测维度下体检数据的数值的类型和不同类型的概率获得所述待测维度下体检数据的信息熵;
对所述信息熵进行反比例的归一化处理得到冗余影响因子。
进一步地,所述根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数,包括:
计算所有维度的相关影响因子与预设常数系数的和值作为相关特征参数;计算所有维度的冗余影响因子与预设常数系数的和值作为冗余特征参数;
将任一维度的相关影响因子和相关特征参数的比值作为第一权衡因子;将任一维度的冗余影响因子和冗余特征参数的比值作为第二权衡因子;
将所述第一权衡因子与第二权衡因子的差值绝对值作为自适应权衡系数。
进一步地,所述重要程度与主成分系数呈正相关关系,所述自适应权衡系数与主成分系数呈负相关关系。
进一步地,所述根据所有维度下体检数据的主成分系数选择主成分维度,包括:
将所有维度下体检数据的主成分系数按照大小进行排序,选择数值最大的预设数量个主成分系数对应的维度作为主成分维度。
进一步地,所述对所述主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,包括:
基于霍夫曼编码算法对所述主成分维度的体检数据的进行霍夫曼编码压缩,得到体检服务记录数据。
本发明具有如下有益效果:
本发明通过每一维度下体检数据的平均差和预设标准均方差,从而获取对应维度下体检数据的重要程度,通过与标准数据进行对比,确定每一维度下体检数据的异常程度,在异常程度越高时,表明和对应的数据越重要,也即重要程度越高;通过待测维度与除待测维度之外所有其他维度下体检数据的皮尔逊相关系数和不同数值的概率,获得自适应权衡系数,能够有效结合不同维度数据本身的相关性特征和冗余性特征,提升自适应权衡系数的可靠性;通过自适应权衡系数和重要程度确定主成分系数,根据自适应权衡系数对重要程度进行调整,从而在重要程度中添加相关性和冗余性的影响因子,能够将不同维度的体检数据的实用性和压缩率作为主成分系数的影响因素,而后根据所有维度下体检数据的主成分系数选择主成分维度,并对主成分维度的体检数据进行数据压缩处理得到体检服务记录数据,相较于直接根据最大方差理论作为重要程度进行主成分分析并选择主成分数据进行压缩,得到体检服务记录数据,本方案通过设置自适应的权衡系数选择主成分数据,优化RPA流程自动化相对死板、数据处理的灵活性不足的问题,在保证体检服务记录数据可信度的同时,提升数据压缩率,有效降低体检服务记录数据的存储占用,便于后续在对体检服务记录数据进行数据分析与数据提取转移等处理时,提升处理效率。综上,本发明能够有效结合不同维度的数据的相关性、冗余性对重要程度进行调整,从而在保证数据特征有效保留的同时,提升数据压缩率,降低服务器的存储压力,优化RPA后续进行数据调取、整理的运行耗费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于RPA技术的公卫健康智能体检服务***结构图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于RPA技术的公卫健康智能体检服务***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于RPA技术的公卫健康智能体检服务***的具体方案。
可以理解的是,本发明针对现有的公卫健康智能体检数据由于种类繁多、数值分布区间较大,导致在进行压缩的过程中压缩效果较差,压缩率较低的问题,提出了一种基于RPA技术的公卫健康智能体检服务***。
请参阅图1,其示出了本发明一个实施例提供的一种基于RPA技术的公卫健康智能体检服务***结构图,该基于RPA技术的公卫健康智能体检服务***10包括:
获取模块101,用于获取多维的体检数据,根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度。
本发明实施例中,体检数据,为用户所测量并上传的身高、体重、血压、器官功能等数据,可以理解的是,本发明实施例在采集多维的体检数据时,均经过相关用户的同意,其过程不违反相关法律法规,且不违背公序良俗。
可以理解的是,本发明实施例中的体检数据可以包括多种体检项目,不同体检项目所对应的数据单位和标准数据值均不同,数据量和数据的复杂性较大,在进行统一压缩的过程中,复杂性较大会导致压缩使得压缩效果较差,表现在压缩后的数据即为压缩率较低。因此,本发明通过对数据进行分析和处理,以在保留数据特征的同时,提升数据的压缩效果,具体参见后续实施例。
其中,重要程度,为对应维度下体检数据的分布异常情况,可以理解的是,对体检数据进行分析的过程中,大部分情况下均需要着重分析体检数据中的异常情况,在体检数据表现较为正常时,该数据与历史数据差距较小,可用性较低,而在体检数据表现较为异常时,该数据越可能为需要特别关注的数据,也即其重要程度越大。
其中,预设标准均方差,为预设的标准情况下的均方差,可选地,预设标准均方差可以具体例如为0.1,可以根据历史记录的数据确定预设标准均方差的数值,对此不做限制。
进一步地,本发明的一些实施例中,根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度,包括:将任一维度下所有用户体检数据的平均差的均值与预设标准均方差的比值作为该维度下体检数据的标准差异;计算标准差异与1的差值的平方的归一化值,得到该维度下体检数据的重要程度。
本发明实施例中,可以对最大方差理论进行优化,对应的优化后的重要程度计算公式为:
式中,/>表示第v个维度的体检数据的重要程度,v表示体检数据中维度的索引,/>表示用户的索引,N表示体检数据中所对应用户的总数量,表示第i个用户第v个维度的体检数据的数值,/>表示第v个维度所有用户的体检数据的均值,/>表示第v个维度所有用户的体检数据的预设标准均方差,/>表示第i个用户第v个维度的体检数据的平均差,/>表示标准差异,Y()表示归一化处理。在本发明的一个实施例中,归一化处理可以具体例如为最大最小值归一化处理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的其他实施例中可以根据数值具体范围选择其他归一化方法,对此不再赘述。
则可以理解的是,同一维度下,所有用户体检数据的平均差的均值与预设标准均方差的比值越接近于1,也即是说,所有用户体检数据的平均差的均值与预设标准均方差的数值差异越小,则可以表征对应维度的数据越接近标准情况,重要程度越小,而在所有用户体检数据的平均差的均值与预设标准均方差的数值差异越大时,可以表征对应维度的数据与标准情况差距越大,重要程度越大,由此,通过设置标准差异,使用标准差异与1的差值的平方,用于消除正负符号对最终结果的影响,归一化后得到重要程度。
本发明实施例不仅可以统一各维度的体检数据的量纲,也可以根据预设标准的浮动情况表征所有维度的体检数据的重要性,重要程度值越大,代表该维度的体检数据中异常值较多,则该维度的体检数据重要性更高。
第一处理模块102,用于任选某一维度作为待测维度,根据待测维度与除待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得待测维度的相关影响因子;根据待测维度下体检数据的数值和不同数值的概率,获得待测维度的冗余影响因子。
本发明实施例中,可以任选某一维度作为待测维度,举例而言,可以将表征血压的维度作为待测维度,或者,也可以将表征身高的维度作为待测维度,对此不做限制。
进一步地,本发明的一些实施例中,根据待测维度与除待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得待测维度的相关影响因子,包括:将待测维度与除待测维度之外所有其他维度下体检数据的皮尔逊相关系数的绝对值的均值归一化值,作为相关影响因子,本发明实施例将第v个维度作为待测维度,则相关影响因子的计算公式可以具体例如为:
式中,/>表示第v个维度的相关影响因子,v表示体检数据中维度的索引,i表示用户的索引,N表示体检数据中所对应用户的总数量,u表示除待测维度外其他维度的索引,M表示维度的总数量,/>表示第i个用户第v个维度的体检数据的数值,/>表示第v个维度所有用户的体检数据的均值,/>表示第v个维度所有用户的体检数据的均方差,/>表示第i个用户第u个维度的体检数据的数值,/>表示第u个维度所有用户的体检数据的均值,/>表示第u个维度所有用户的体检数据的均方差,Y()表示归一化处理。
式中,表示第v个维度和第u个维度所有用户的体检数据的皮尔逊相关系数,对应的计算方式为皮尔逊相关系数的计算公式相同,皮尔逊相关系数的计算为本领域所熟知的技术,对此不再赘述,可以理解的是,皮尔逊相关系数越大,可以表示第v个维度和第u个维度所有用户的体检数据的相关性越强,由此,通过计算第v个维度,也即待测维度和其他所有维度的皮尔逊相关系数的均值归一化值得到第v个维度,也即待测维度的相关影响因子。
可以理解的是,在待测维度的体检数据与整体健康状态关联性越强时,相关影响因子越大,也即是说,在相关影响因子越大时待测维度所对应的数据类型为与体检健康关联性较强的数据类型,也即是说,相关影响因子可以表征对应待测维度的相关程度。
其中,冗余影响因子,表征对应待测维度中体检数据的冗余程度,数据冗余则表征重复数据较多,则本发明实施例中使用信息熵表征对应的冗余程度。
进一步地,本发明的一些实施例中,根据待测维度下体检数据的数值和不同数值的概率,获得待测维度的冗余影响因子,包括:基于信息熵公式,根据待测维度下体检数据的数值的类型和不同类型的概率获得待测维度下体检数据的信息熵;对信息熵进行反比例的归一化处理得到冗余影响因子,对应的计算公式可以具体例如为:
式中,/>表示第v个维度的冗余影响因子,v表示体检数据中维度的索引,N表示体检数据中所对应用户的总数量,B表示体检数据的数值类型的总数量,举例而言,在数据“0,1,1,3,2”中,由于包含“0”,“1”,“2”,“3”四种类型,则对应的数值类型的总数量为4,b表示数值类型的索引,/>表示第v个维度所对应体检数据中数值类型为b的数量,由于一个用户在同一项体检数据中有且仅有一个数据,则表示第v个维度所对应体检数据中数值类型为b的概率,Y()表示归一化处理。
本发明实施例中,表示信息熵的归一化值,可以理解的是,信息熵的值越大,代表第v个维度所对应体检数据分布越混乱,在熵极限情况下,各个数值类型的值均匀出现,那么其对应的压缩率最低,第v个维度下,各个数值类型均匀出现,代表数值分布较为均匀且稳定,对应压缩过程中每一类型的数据压缩率难以降低,因此,通过1减去信息熵的归一化值,作为信息熵的反比例归一化值,得到冗余影响因子,冗余影响因子越大,重复数据越少,压缩过程中压缩率较低。
第二处理模块103,用于根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数;根据所有维度下体检数据的重要程度和自适应权衡系数确定主成分系数;根据所有维度下体检数据的主成分系数选择主成分维度。
进一步地,本发明的一些实施例中,根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数,包括:计算所有维度的相关影响因子与预设常数系数的和值作为相关特征参数;计算所有维度的冗余影响因子与预设常数系数的和值作为冗余特征参数;将任一维度的相关影响因子和相关特征参数的比值作为第一权衡因子;将任一维度的冗余影响因子和冗余特征参数的比值作为第二权衡因子;将第一权衡因子与第二权衡因子的差值绝对值作为自适应权衡系数。
其中,自适应权衡系数,为根据相关影响因子和冗余影响因子进行数据处理所得到的数据,自适应权衡系数可以作为主成分维度选择时的参考数据。
其中,预设常数系数,为预设的常数值,其作用为防止分母为0所设置的安全值,可选地,预设常数系数可以具体为0.01,对此不做限制。
本发明实施例中,自适应权衡系数的计算公式可以具体例如为:式中,/>表示第v个维度的相关影响因子,/>表示第v个维度的冗余影响因子,v表示体检数据中维度的索引,M表示维度的总数量,/>表示预设常数系数,其中,预设常数系数可以具体为0.01,/>表示第v个维度的自适应权衡系数。
其中,表示第v个维度的相关特征参数,/>表示第v个维度的第一权衡因子,在第v个维度的相关影响因子越大时,可以表征对应维度的第一权衡因子越大,也即第v个维度的与其他维度的相关性较强,在保证相关性的同时,需要尽可能提高体检数据的冗余程度,则在选择过程中,将相关影响因子和冗余影响因子作差,差值越接近于0,则可以表征对应维度的数据在保留体检特征的同时越能够增加压缩率,也即在第v个维度的自适应权衡系数越小时,压缩效果越优。
进一步地,本发明还可以根据所有维度下体检数据的重要程度和自适应权衡系数确定主成分系数,其中,重要程度与主成分系数呈正相关关系,自适应权衡系数与主成分系数呈负相关关系。
其中,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体关系可以为相乘关系、相加关系、指数函数的幂等,由实际应用进行确定;负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,可以为相减关系、相除关系等,由实际应用进行确定。
也即是说,本发明实施例可以计算重要程度和自适应权衡系数的差值作为主成分系数,或者,也可以使用其他任意可能的实现方式,在满足重要程度与主成分系数呈正相关关系,自适应权衡系数与主成分系数呈负相关关系的基础上,计算得到主成分系数,对此不做限制。
进一步地,本发明的一些实施例中,根据所有维度下体检数据的主成分系数选择主成分维度,包括:将所有维度下体检数据的主成分系数按照大小进行排序,选择数值最大的预设数量个主成分系数对应的维度作为主成分维度。
其中,预设数量,为预先设置的待压缩的主成分数据的维度数量,可选地,预设数量可以具体例如为7,或者,也可以根据实际需求进行调整,对此不做限制。
则本发明实施例中,可以选择数值最大的预设数量个主成分系数对应的维度作为主成分维度,主成分系数的数值越大,可以表征数据重要程度越大,且压缩效果越优。
在本发明的另一些实施例中,还可以设置主成分系数的阈值,在主成分系数大于预设的阈值时,将该主成分系数对应的维度作为主成分维度,可选地,该阈值可以具体例如为0.8,对此不做限制。
压缩模块104,用于对主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,其中,体检服务记录数据用于表征所有用户的体检情况。
进一步地,本发明的一些实施例中,对主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,包括:基于霍夫曼编码算法对主成分维度的体检数据的进行霍夫曼编码压缩,得到体检服务记录数据。
其中,霍夫曼编码算法为本领域所熟知的数据压缩编码算法,对此不做赘述,在选取主成分维度的体检数据之后,对主成分维度的体检数据进行霍夫曼编码压缩处理,以得到体检服务记录数据。
其中,体检服务记录数据,为表征所有用户的体检情况的数据,可以理解的是,体检服务记录数据可以被用于统计所体检用户总体的体检情况,从而能够实现数据的有效筛选并压缩,以保证数据压缩率的同时增强数据的可用性,便于数据检索以及后续的数据分析。
当然,在本发明的另一些实施例中,还可以使用多种其他任意可能的压缩方式,如游程编码等,对此不做限制。
本发明通过每一维度下体检数据的平均差和预设标准均方差,从而获取对应维度下体检数据的重要程度,通过与标准数据进行对比,确定每一维度下体检数据的异常程度,在异常程度越高时,表明和对应的数据越重要,也即重要程度越高;通过待测维度与除待测维度之外所有其他维度下体检数据的皮尔逊相关系数和不同数值的概率,获得自适应权衡系数,能够有效结合不同维度数据本身的相关性特征和冗余性特征,提升自适应权衡系数的可靠性;通过自适应权衡系数和重要程度确定主成分系数,根据自适应权衡系数对重要程度进行调整,从而在重要程度中添加相关性和冗余性的影响因子,能够将不同维度的体检数据的实用性和压缩率作为主成分系数的影响因素,而后根据所有维度下体检数据的主成分系数选择主成分维度,并对主成分维度的体检数据进行数据压缩处理得到体检服务记录数据,相较于直接根据最大方差理论作为重要程度进行主成分分析并选择主成分数据进行压缩,得到体检服务记录数据,本方案通过设置自适应的权衡系数选择主成分数据,优化RPA流程自动化相对死板、数据处理的灵活性不足的问题,在保证体检服务记录数据可信度的同时,提升数据压缩率,有效降低体检服务记录数据的存储占用,便于后续在对体检服务记录数据进行数据分析与数据提取转移等处理时,提升处理效率。综上,本发明能够有效结合不同维度的数据的相关性、冗余性对重要程度进行调整,从而在保证数据特征有效保留的同时,提升数据压缩率,降低服务器的存储压力,优化RPA后续进行数据调取、整理的运行耗费。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (4)

1.一种基于RPA技术的公卫健康智能体检服务***,其特征在于,所述***包括:
获取模块,用于获取多维的体检数据,根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度;
第一处理模块,用于任选某一维度作为待测维度,根据所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得所述待测维度的相关影响因子;根据所述待测维度下体检数据的数值和不同数值的概率,获得所述待测维度的冗余影响因子;
第二处理模块,用于根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数;根据所有维度下体检数据的重要程度和自适应权衡系数确定主成分系数;根据所有维度下体检数据的主成分系数选择主成分维度;
压缩模块,用于对所述主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,其中,所述体检服务记录数据用于表征所有用户的体检情况;
所述根据所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数,获得所述待测维度的相关影响因子,包括:
将所述待测维度与除所述待测维度之外所有其他维度下体检数据的皮尔逊相关系数的绝对值的均值归一化值,作为相关影响因子;
所述根据所述待测维度下体检数据的数值和不同数值的概率,获得所述待测维度的冗余影响因子,包括:
基于信息熵公式,根据所述待测维度下体检数据的数值的类型和不同类型的概率获得所述待测维度下体检数据的信息熵;
对所述信息熵进行反比例的归一化处理得到冗余影响因子;
所述根据所有维度的相关影响因子和冗余影响因子,获得每一维度下体检数据的自适应权衡系数,包括:
计算所有维度的相关影响因子与预设常数系数的和值作为相关特征参数;计算所有维度的冗余影响因子与预设常数系数的和值作为冗余特征参数;
将任一维度的相关影响因子和相关特征参数的比值作为第一权衡因子;将任一维度的冗余影响因子和冗余特征参数的比值作为第二权衡因子;
将所述第一权衡因子与第二权衡因子的差值绝对值作为自适应权衡系数;
所述根据所有维度下体检数据的主成分系数选择主成分维度,包括:
将所有维度下体检数据的主成分系数按照大小进行排序,选择数值最大的预设数量个主成分系数对应的维度作为主成分维度。
2.如权利要求1所述的一种基于RPA技术的公卫健康智能体检服务***,其特征在于,所述根据所有用户在每一维度下体检数据的平均差和预设标准均方差,获得每一维度下体检数据的重要程度,包括:
将任一维度下所有用户体检数据的平均差的均值与预设标准均方差的比值作为该维度下体检数据的标准差异;
计算所述标准差异与1的差值的平方的归一化值,得到该维度下体检数据的重要程度。
3.如权利要求1所述的一种基于RPA技术的公卫健康智能体检服务***,其特征在于,所述重要程度与主成分系数呈正相关关系,所述自适应权衡系数与主成分系数呈负相关关系。
4.如权利要求1所述的一种基于RPA技术的公卫健康智能体检服务***,其特征在于,所述对所述主成分维度的体检数据的进行数据压缩处理,得到体检服务记录数据,包括:
基于霍夫曼编码算法对所述主成分维度的体检数据的进行霍夫曼编码压缩,得到体检服务记录数据。
CN202311424305.0A 2023-10-31 2023-10-31 基于rpa技术的公卫健康智能体检服务*** Active CN117155402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311424305.0A CN117155402B (zh) 2023-10-31 2023-10-31 基于rpa技术的公卫健康智能体检服务***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311424305.0A CN117155402B (zh) 2023-10-31 2023-10-31 基于rpa技术的公卫健康智能体检服务***

Publications (2)

Publication Number Publication Date
CN117155402A CN117155402A (zh) 2023-12-01
CN117155402B true CN117155402B (zh) 2024-02-09

Family

ID=88912412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311424305.0A Active CN117155402B (zh) 2023-10-31 2023-10-31 基于rpa技术的公卫健康智能体检服务***

Country Status (1)

Country Link
CN (1) CN117155402B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1195694A2 (en) * 2000-10-06 2002-04-10 International Business Machines Corporation Automatic determination of OLAP Cube dimensions
JP2013206085A (ja) * 2012-03-28 2013-10-07 Gifu Univ 健診データ処理装置、及び、プログラム
CN106959924A (zh) * 2017-04-14 2017-07-18 上海新炬网络技术有限公司 一种基于oracheck的Oracle数据库一键式体检***
CN110957016A (zh) * 2019-11-21 2020-04-03 山东鲁能软件技术有限公司 基于健康云管理平台的体检数据智能识别***及方法
CN112151174A (zh) * 2020-09-23 2020-12-29 四川长虹电器股份有限公司 一种基于体检数据的用户健康信息分析方法、***
WO2021218003A1 (zh) * 2020-04-27 2021-11-04 中国电子科技集团公司第十四研究所 一种雷达嵌入式健康管理***
CN115801901A (zh) * 2023-01-05 2023-03-14 安徽皖欣环境科技有限公司 一种企业生产排放数据压缩处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714940B2 (en) * 2001-11-15 2004-03-30 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
US7953613B2 (en) * 2007-01-03 2011-05-31 Gizewski Theodore M Health maintenance system
WO2018111116A2 (en) * 2016-12-13 2018-06-21 Idletechs As Method for handling multidimensional data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1195694A2 (en) * 2000-10-06 2002-04-10 International Business Machines Corporation Automatic determination of OLAP Cube dimensions
JP2013206085A (ja) * 2012-03-28 2013-10-07 Gifu Univ 健診データ処理装置、及び、プログラム
CN106959924A (zh) * 2017-04-14 2017-07-18 上海新炬网络技术有限公司 一种基于oracheck的Oracle数据库一键式体检***
CN110957016A (zh) * 2019-11-21 2020-04-03 山东鲁能软件技术有限公司 基于健康云管理平台的体检数据智能识别***及方法
WO2021218003A1 (zh) * 2020-04-27 2021-11-04 中国电子科技集团公司第十四研究所 一种雷达嵌入式健康管理***
CN112151174A (zh) * 2020-09-23 2020-12-29 四川长虹电器股份有限公司 一种基于体检数据的用户健康信息分析方法、***
CN115801901A (zh) * 2023-01-05 2023-03-14 安徽皖欣环境科技有限公司 一种企业生产排放数据压缩处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
医疗体检数据预处理方法研究;林予松;王培培;刘炜;李润知;王宗敏;;计算机应用研究;第34卷(第04期);全文 *

Also Published As

Publication number Publication date
CN117155402A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN115801901B (zh) 一种企业生产排放数据压缩处理方法
CN116828070B (zh) 一种智慧电网数据优化传输方法
CN116089846A (zh) 一种基于数据聚类的新能源结算数据异常检测与预警方法
CN116228176B (zh) 一种基于数据处理的污水处理数据高效管理***
CN117271987B (zh) 一种配电设备环境状态数据智能采集处理方法
CN115359807B (zh) 一种用于城市噪声污染的噪声在线监测***
CN116418882B (zh) 基于hplc双模载波通信的存储器数据压缩方法
CN114969060B (zh) 一种工业设备时序数据压缩存储方法、装置
CN113935535A (zh) 一种面向中长期预测模型的主成分分析方法
CN117459073A (zh) 一种热泵***运行数据的智能管理方法
CN117150217A (zh) 一种基于大数据的数据压缩处理方法
CN116915259A (zh) 基于物联网的仓配数据优化储存方法及***
CN117890815B (zh) 一种电池模组组装质量检测方法及***
CN117155402B (zh) 基于rpa技术的公卫健康智能体检服务***
CN117473351B (zh) 基于物联网的电源信息远程传输***
CN116631563B (zh) 一种医药行业大数据存储及智能匹配方法
CN116707538A (zh) 基于云边协同的田径运动员信息数据管理方法及***
CN114610234A (zh) 一种存储***参数推荐方法及相关装置
CN113052256A (zh) 一种风向聚类方法、装置及电子设备
CN117176178B (zh) 一种光电通信***的数据处理方法
CN107885791A (zh) 一种传感器数据层次化存储装置与方法
CN117331705B (zh) 一种基于大数据的数据预测分析方法及***
KR20200046911A (ko) 데이터 압축 방법 및 그 장치
CN116342168B (zh) 一种信息大数据智能采集管理***
CN117692012B (zh) 一种智能睡袋温度数据远程监测传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant