CN110688406A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110688406A
CN110688406A CN201910844454.XA CN201910844454A CN110688406A CN 110688406 A CN110688406 A CN 110688406A CN 201910844454 A CN201910844454 A CN 201910844454A CN 110688406 A CN110688406 A CN 110688406A
Authority
CN
China
Prior art keywords
bid
winning
data
target
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910844454.XA
Other languages
English (en)
Inventor
杜丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN201910844454.XA priority Critical patent/CN110688406A/zh
Publication of CN110688406A publication Critical patent/CN110688406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及数据分析技术,提供了一种数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的中标数据集;所述中标数据集包括多个中标数据;对所述中标数据进行哈希计算得到哈希值;获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;查询与所述目标中标数据相匹配的目标历史中标数据;根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。采用本方法能够提高数据处理的效率和准确性。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着科技的不断发展,药品种类越来越多,对各个药品对应的药品资源进行统一的管控调配是值得关注的问题。通常通过招标的形式对各个药品的药品资源进行管控调配,并将中标资源确定为相应药品的中标资源。由于影响中标资源的因素繁多,导致中标资源存在差异,由此需要对中标资源进行审核。目前,通常是服务器在获取到待处理的中标数据后,将所获取到的中标数据推送至终端进行人工审核,并根据终端反馈的审核结果进行相应的处理。但是,该种审核方式,需要耗费审核等待时间,由此降低了审核效率,且人工审核受限于审核人员的已有经验,存在审核的准确性和效率低的问题,由此导致数据处理的效率和准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据处理效率和准确性的数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:
获取待处理的中标数据集;所述中标数据集包括多个中标数据;
对所述中标数据进行哈希计算得到哈希值;
获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;
查询与所述目标中标数据相匹配的目标历史中标数据;
根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;
当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
在其中一个实施例中,所述对所述中标数据进行哈希计算得到哈希值,包括:
根据所述中标数据中的药品名称、剂型、规格和机构标识确定药品标识;
对所述药品标识进行哈希计算得到哈希值,并将所述哈希值确定为相应中标数据的哈希值。
在其中一个实施例中,所述目标中标数据包括中标区域标识和药品标识;所述查询与所述目标中标数据相匹配的目标历史中标数据,包括:
根据所述中标区域标识确定相邻区域所对应的相邻区域标识;
查询与所述相邻区域标识和所述药品标识相匹配的目标历史中标数据;
所述根据所述历史单位等价资源对所述目标中标数据进行审核,包括:
若所述历史单位等价资源符合正态分布,根据所述历史单位等价资源计算单位等价资源均值和单位等价资源均方差,并根据所述单位等价资源均值、所述单位等价资源均方差和预设置信度确定置信区间;
根据所述置信区间和所述目标中标数据中的中标资源对所述目标中标数据进行审核。
在其中一个实施例中,所述根据所述历史单位等价资源对所述目标中标数据进行审核之后,所述方法还包括:
当审核未通过时,根据所述历史单位等价资源所对应的单位等价资源中位值确定数值区间;
将所述目标中标数据中的中标资源与所述数值区间进行比较;
若所述中标资源属于所述数值区间,根据所述目标中标数据中的转换比和所述中标资源确定相应药品标识所对应的目标中标资源。
在其中一个实施例中,所述方法还包括:
获取产品申请请求,根据所述产品申请请求获取用户数据;
根据所述用户数据进行用户画像得到用户画像标签,并根据所述用户画像标签确定相应用户所属的用户群组;
根据所述用户群组确定所述用户所对应的疾病标识和相应的患病概率;
查询所述疾病标识所对应的基准资源和药品标识,以及所述药品标识所对应的目标中标资源;
根据所述患病概率、所述基准资源和所述目标中标资源计算所述用户相应的产品资源;
将所述产品资源发送至所述用户相应的终端。
在其中一个实施例中,所述用户群组的配置步骤,包括:
获取多个目标用户标识对应的历史用户数据,对所述历史用户数据进行聚类分析,得到多于一个的聚类类别,并将每个聚类类别确定为一个用户群组;
根据所述用户群组内的每个目标用户标识所对应的历史用户数据分别进行用户画像,得到所述每个目标用户标识相应的用户画像标签,并根据所述用户画像标签确定所述用户群组的群组画像标签;
对所述用户群组内的每个目标用户标识所对应的历史用户数据进行分析,得到所述用户群组对应的疾病标识和所述疾病标识相应的患病概率。
在其中一个实施例中,所述查询所述疾病标识所对应的基准资源和药品标识,以及所述药品标识所对应的目标中标资源,包括:
根据所述用户数据确定所述用户对应的区域标识;
查询与所述区域标识和所述疾病标识对应的基准资源;
查询所述疾病标识对应的药品标识,并查询与所述区域标识和所述药品标识对应的候选中标资源;
从所述候选中标资源中选取所述药品标识所对应的目标中标资源。
一种数据处理装置,所述装置包括:
获取模块,用于获取待处理的中标数据集;所述中标数据集包括多个中标数据;
计算模块,用于对所述中标数据进行哈希计算得到哈希值;
去重模块,用于获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;
查询模块,用于查询与所述目标中标数据相匹配的目标历史中标数据;
审核模块,用于根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;
确定模块,用于当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例中所述的数据处理方法的步骤。
上述数据处理方法、装置、计算机设备和存储介质,对于所获取到的中标数据集中的每个中标数据分别进行哈希计算得到相应的哈希值,基于历史中标数据的哈希值和中标数据集中各中标数据的哈希值,对该中标数据集中的中标数据进行去重处理得到目标中标数据。基于哈希值进行去重处理能够提高处理效率和准确性,且对去重处理后的目标中标数据进行后续处理,能够减少待处理的数据量,从而能够进一步提高数据处理效率。根据目标中标数据快速而准确的查询相匹配的目标历史中标数据,并根据由该目标历史中标数据确定的历史单位等价资源对目标中标数据进行审核,以根据审核结果快速而准确的确定相应药品标识对应的目标中标资源,由此,能够进一步提高数据处理的效率和准确性。
附图说明
图1为一个实施例中数据处理方法的应用场景图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中产品资源预测步骤的流程示意图;
图4为另一个实施例中产品资源预测步骤的流程示意图;
图5为一个实施例中数据处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取待处理的且包括多个中标数据的中标数据集,对中标数据集中的每个中标数据进行哈希计算得到哈希值,基于历史中标数据的哈希值对该中标数据的哈希值进行去重处理得到目标中标数据,查询与目标中标数据相匹配的目标历史中标数据,根据目标历史中标数据计算历史单位等价资源,根据计算的历史单位等价资源对目标中标数据进行审核,并当审核通过时,将目标中标数据中的中标资源确定为相应药品标识的目标中标资源。可以理解,服务器104可从终端102获取待处理的中标数据集,和/或,将从目标中标数据中提取出的目标中标资源和相应的药品标识发送至终端102进行审核。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取待处理的中标数据集;所述中标数据集包括多个中标数据。
其中,中标数据集是由多个待处理的中标数据组成的集合。中标数据是初始获取的且尚未处理的中标数据。
具体地,服务器实时检测指定触发条件,当检测到指定触发条件时,根据所检测到的指定触发条件获取待处理的、且包括多个中标数据的中标数据集。指定触发条件比如检测到当前时间与指定触发时间一致,或者,接收到终端发送的中标数据处理指令。
在一个实施例中,服务器根据所检测到的指定触发条件获取初始中标数据集,对初始中标数据集进行预处理得到待处理的中标数据集。预处理包括对初始中标数据集中的初始中标数据进行清洗,比如判断初始中标数据中药品名称、机构标识、中标资源、中标区域标识和中标时间等字段对应的字段值是否都存在,若缺失任一字段值,则从初始中标数据集中删除相应初始中标数据,或者,将缺失字段值的字段和相应的初始中标数据推送至终端进行修改,以补全缺失的字段值。预处理还包括当一条初始中标数据中包括相同药品名称对应的多个剂型和/或规格时,按照剂型和/或规格将初始中标数据拆分为多条中标数据。
在一个实施例中,服务器通过网络爬虫等工具实时爬取初始中标数据集或待处理的中标数据集。
在一个实施例中,服务器接收终端发送的中标数据处理指令,根据所接收到的中标数据处理指令从本地或者通过网络通信从其他设备获取初始中标数据集或中标数据集。其他设备比如用于存储中标数据的服务器,或者云服务器等。服务器可解析接收到的中标数据处理指令,得到初始中标数据集。服务器也可按照中标数据处理指令所指定的地址获取初始中标数据集。
S204,对所述中标数据进行哈希计算得到哈希值。
具体地,服务器对所获取到的中标数据集中的每个中标数据分别进行哈希计算,得到每个中标数据的哈希值。
在一个实施例中,服务器从中标数据中提取至少一个数据字段的字段值,根据所提取出的字段值得到相应的字段值序列,并对该字段值序列进行哈希计算得到相应的哈希值。可以理解,当从中标数据中提取出多个数据字段各自的字段值时,服务器将该多个字段值按照预设顺序进行拼接得到字段值序列。其中,预设顺序可自定义,对不同中标数据所对应的多个字段值按照相同的预设顺序进行拼接。
在一个实施例中,步骤S204包括:根据所述中标数据中的药品名称、剂型、规格和机构标识确定药品标识;对所述药品标识进行哈希计算得到哈希值,并将所述哈希值确定为相应中标数据的哈希值。
其中,剂型是指药品的物理实体的存在形式,比如片剂或胶囊剂。规格是指药品的物理实体的大小、体积或重量等,比如每片5毫克等。机构标识用于唯一标识机构,机构具体可以是生产药品的机构或厂家。药品标识用于唯一标识药品,具体可以是由数字、字母和符号等字符组成的字符串。
具体地,服务器从中标数据集中的每个中标数据中分别提取药品名称、剂型、规格和机构标识,并根据所提取出的药品名称、剂型、规格和机构标识确定每个中标数据所对应的药品标识。服务器对所确定的药品标识进行哈希计算得到相应的哈希值,并将哈希值确定为该药品标识所对应的中标数据的哈希值。
在一个实施例中,服务器根据所提取出的药品名称、剂型、规格和机构标识进行数据库对码,以确定每个中标数据所对应的药品标识。数据库对码可以是指服务器根据药品名称、剂型、规格和机构标识从预配置的对码数据库中查询相匹配的药品标识,也可以是指服务器将携带药品名称、剂型、规格和机构标识的对码请求发送至对码服务器,并接收对码服务器基于搜索匹配结果反馈的药品标识。药品标识可以是六级码。
服务器可借助于一个或多个线程从各中标数据中提取各数据字段和相应的字段值。数据库对码可以是指服务器根据药品名称、剂型、规格和厂家标识从预配置的对码数据库中查询相匹配的六级码,也可以是指服务器将携带药品名称、剂型、规格和厂家标识的对码请求发送至对码服务器,并接收对码服务器基于搜索匹配结果反馈的六级码。
在一个实施例中,服务器将从中标数据中提取出的药品名称、剂型、规格和机构标识进行拼接,得到该中标数据对应的药品标识。
在一个实施例中,服务器从中标数据库中查询与所确定的药品标识对应的历史中标数据,并根据该历史中标数据从中标数据集中筛选目标中标数据。具体地,服务器根据所确定的药品标识从中标数据库中查询相应的历史中标数据,并将各历史中标数据中的历史中标资源、历史中标省份和历史中标时间,分别与相应中标数据中的中标资源、中标省份和中标时间进行比较,以根据比较结果从中标数据集中筛选出目标中标数据。
S206,获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据。
具体地,服务器针对已存储至中标数据库中的每个历史中标数据预先计算相应的哈希值,并将计算得到的哈希值和相应历史中标数据关联存储,或者,将计算得到的哈希值和相应历史中标数据对应的数据标识关联存储。服务器根据各历史中标数据或历史中标数据的数据标识查询相应的哈希值。服务器将中标数据集中各个中标数据的哈希值进行相互比较,以及将每个中标数据的哈希值分别与所查询到的每个历史中标数据的哈希值进行比较,以根据比较结果对中标数据集中的中标数据进行去重处理,并将中标数据集中剔除重复的中标数据后的中标数据确定为待存储至中标数据库的目标中标数据。
在一个实施例中,若中标数据集中存在至少两个中标数据的哈希值一致,则表明该至少两个中标数据一致,也即表明该中标数据集中存在至少两个重复的中标数据,服务器则从该至少两个中标数据中保留任一个中标数据而删除其他的一个或多个重复的中标数据,以避免对相同的中标数据进行重复处理。类似地,若所查询到的历史中标数据中存在哈希值与中标数据集中的中标数据的哈希值一致的历史中标数据,则表明该中标数据已存储至中标数据库,服务器则从中标数据集中删除该已入库的中标数据,以避免重复入库。由此,服务器通过比较确定中标数据集中尚未入库、且互不重复的中标数据,并将所确定的中标数据作为待入库的目标中标数据。
在一个实施例中,服务器将指定时间段内的历史中标数据对应的数据标识和相应的哈希值关联存储至内存或缓存中,以便于在数据处理过程中直接从内存或缓存中获取各历史中标数据的哈希值,提高哈希值的获取效率,从而能够提高数据处理效率。可以理解,服务器也可将指定时间段内的历史中标数据和相应的哈希值关联存储至内存或缓存中。
在一个实施例中,在当次执行的数据处理过程中,服务器将审核通过的目标中标数据和从该目标中标数据中提取出的目标中标资源存储至中标数据库时,将该目标中标资源对应的哈希值与该目标中标资源关联存储。
在一个实施例中,服务器将根据药品标识所查询到的历史中标数据与该药品标识所对应的中标数据进行比较,若历史中标数据中的历史中标资源、历史中标区域标识和历史中标时间,分别与相应中标数据中的中标资源、中标区域标识和中标时间一致,则表明该中标数据已存储至中标数据库,服务器则从中标数据集中删除该已入库的中标数据,以避免重复入库。可以理解,服务器在确定每个中标数据对应的药品标识后,按照中标数据所对应的药品标识、中标资源、中标区域标识和中标时间遍历中标数据库中,以搜索中标数据库中是否已存在与该中标数据相匹配的历史中标数据,若存在,则从中标数据集中删除该中标数据,以达到去重的作用。当中标数据集中的中标数据有多个时,服务器可通过多个线程并行的执行上述步骤。这样,按照多个字段对中标数据集中的中标数据进行筛选,已筛选出符合入库条件的目标中标数据,由此能够保证存储至中标数据库中的目标中标数据的准确性。
在一个实施例中,服务器按照上述方式从中标数据集中剔除与历史中标数据重复的中标数据后,基于药品标识、中标资源和中标区域标识,从中标数据集中剩余的中标数据中筛选相匹配的一个或多个中标数据,并从筛选出的中标数据中选取中标时间最新的中标数据作为目标中标数据。也就是说,对于中标数据集中进行去重操作后剩余的中标数据,若存在药品标识、中标资源和中标区域标识均一致的多个中标数据,则从该多个中标数据中选取中标时间最新的中标数据作为目标中标数据。若特定的药品标识、中标资源和中标区域标识对应的中标数据为一个,则直接将该中标数据确定为目标中标数据。
S208,查询与所述目标中标数据相匹配的目标历史中标数据。
其中,目标历史中标数据是中标数据库中与目标中标数据相匹配的历史中标数据,历史中标数据是指当前时间之前已经存储至中标数据库的中标数据。
具体地,服务器根据目标中标数据确定药品标识和中标省份,并根据所确定的药品标识和中标省份从中标数据库中查询相匹配的目标历史中标数据。
在一个实施例中,服务器根据目标中标数据从中标数据库中筛选指定时间段内、且相匹配的目标历史中标数据。指定时间段比如以当前时间为结束时间、且时间长度为6个月的时间区间。这样,将近期的历史中标数据作为参考更具可比性。
S210,根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核。
其中,历史单位等价资源是基于目标历史中标数据中的历史中标资源和相应转换比计算得到的单位等价资源。历史中标资源是指等价交换目标历史中标数据中所指定的、且最小可交换单位的药品所需的资源,最小可交换单位是指药品进行交换时的最小计量单位或最小包装,比如一盒。转换比是指最小可交换单位的药品所包含的最小单位数量,最小单位是指药品的最小独立包装单位。单位等价资源是指单位药品份量的药品所能等价交换的资源,具体可以是指最小单位的药品的交换价格,即单价。单位等价资源、中标资源和转换比之间的映射关系可表示为:单位等价资源=中标资源/转换比。例如,一盒药品包括5支,则转换比为5,该一盒药品所能等价交换的资源为中标资源,每支药品所能等价交换的资源为单位等价资源。
具体地,服务器从所查询到的目标历史中标数据中提取历史中标资源和相应转换比,并根据历史中标资源和转换比计算得到历史单位等价资源。服务器根据目标中标数据中的中标资源和相应转换比计算得到相应单位等价资源,并根据历史单位等价资源对该单位等价资源进行审核,以实现对中标资源的审核,从而实现对目标中标数据的审核。
在一个实施例中,服务器根据目标中标数据从中标数据库中查询到多个目标历史中标数据,根据每个目标历史中标数据中的历史中标资源和相应转换比计算历史单位等价资源。服务器对计算得到的多个历史单位等价资源进行比较分析,确定该多个历史单位等价资源中的单位等价资源最高值、单位等价资源最低值和单位等价资源中位值。服务器根据计算得到的单位等价资源最高值、单位等价资源最低值和单位等价资源中位值,对根据目标中标数据计算得到的单位等价资源进行审核。
服务器根据单位等价资源最高值单位等价资源最低值确定第一数值区间,并根据单位等价资源中位值和预设浮动比例确定第二数值区间。服务器将单位等价资源与第一数值区间进行比较,若单位等价资源处于第一数值区间内,则将该单位等价资源与第二数值区间进行比较,若单位等价资源处于第二数值区间内,则判定单位等价资源审核通过,也即判定相应目标中标数据审核通过。若单位等价资源不属于第一数值区间或者第二数值区间,则直接判定审核未通过。预设浮动比例可以是相对于单位等价资源中位值的浮动比例,比如20%。
S212,当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
具体地,当中标资源和/或目标中标数据审核通过时,服务器从审核通过的目标中标资源数据中提取中标资源,并将所提取出的中标资源确定为相应药品标识所对应的目标中标资源。
在一个实施例中,当审核通过后,服务器将审核通过的目标中标资源存储至中标数据库中,且该目标中标资源中的中标数据作为目标中标数据。
上述数据处理方法,对于所获取到的中标数据集中的每个中标数据分别进行哈希计算得到相应的哈希值,基于历史中标数据的哈希值和中标数据集中各中标数据的哈希值,对该中标数据集中的中标数据进行去重处理得到目标中标数据。基于哈希值进行去重处理能够提高处理效率和准确性,且对去重处理后的目标中标数据进行后续处理,能够减少待处理的数据量,从而能够进一步提高数据处理效率。根据目标中标数据快速而准确的查询相匹配的目标历史中标数据,并根据由该目标历史中标数据确定的历史单位等价资源对目标中标数据进行审核,以根据审核结果快速而准确的确定相应药品标识对应的目标中标资源,由此,能够进一步提高数据处理的效率和准确性。
可以理解,基于中标数据库中的历史中标数据和中标数据集中的中标数据对该中标数据集中的中标数据进行去重处理,能够提高去重处理的准确性,也就是能够保证存储至中标数据库的目标中标数据的正确性和非重复性,从而能够降低所需的存储空间,进而能够提高服务器的处理性能。
在一个实施例中,目标中标数据包括中标区域标识和药品标识;步骤S208包括:根据中标区域标识确定相邻区域所对应的相邻区域标识;从中标数据库中查询与相邻区域标识和药品标识相匹配的目标历史中标数据;根据历史单位等价资源对目标中标数据进行审核,包括:若历史单位等价资源符合正态分布,根据历史单位等价资源计算单位等价资源均值和单位等价资源均方差,并根据单位等价资源均值、单位等价资源均方差和预设置信度确定置信区间;根据置信区间和目标中标数据中的中标资源对目标中标数据进行审核。
其中,相邻区域标识是中标区域的相邻区域所对应的标识。相邻区域是指地理位置上相邻的区域,相邻可以是地理位置直接邻接或间隔邻接,还可以是地理位置之间的间隔/距离小于预设阈值。直接相邻是指两个区域接壤,间隔邻接是指两个区域之间相隔另一个区域。单位等价资源均值是指多个历史单位等价资源的平均值。单位等价资源均方差是指对多个历史单位等价资源求均方差所得到的值。预设置信度是指预设的置信度,可理解为置信水平,用于表征可靠程度或概率。置信区间是有置信上限和置信下限确定的区间,历史单位等价资源处于置信区间的概率为预设置信度,相应的,若目标中标数据中的中标资源处于该置信区间内,则该中标数据的可靠程度为预设置信度。
具体地,服务器根据目标中标数据确定相应的药品标识和中标区域标识,将中标区域标识与预设区域标识列表进行比较,以确定中标区域标识所对应的相邻区域标识。中标区域标识所对应的区域与相邻区域标识所对应的区域为相邻区域。预设区域标识列表是由多个区域标识组成的标识列表。服务器根据所确定的相邻区域标识和相应的药品标识,从中标数据库中查询相匹配的目标历史中标数据,以根据所查询到的目标中标数据计算相应历史单位等价资源。服务器针对每个目标中标数据分别执行上述操作,得到每个目标中标数据所对应的多个历史单位等价资源。对于每个目标中标数据,服务器判定相应的多个历史单位等价资源是否符合正态分布,若符合,则基于该多个历史单位等价资源计算相应的单位等价资源均值和单位等价资源均方差,查询预配置的预设置信度,并根据单位等价资源均值、单位等价资源均方差和预设置信度,确定相应目标中标数据所对应的置信区间。服务器将每个目标中标数据与相应的置信区间进行匹配,若匹配成功,表明目标中标数据处于相应置信区间内,则判定该目标中标数据审核通过;若匹配失败,则判定该目标中标数据审核未通过。
在一个实施例中,若目标中标数据与相应置信区间匹配失败,服务器则将该目标中标数据推送至审核终端进行审核,并在接收到审核终端对应反馈的表示审核通过的提示信息时,将该目标中标数据中的中标数据确定为相应药品标识的目标中标数据,并将该目标中标数据存储至中标数据库中。
在一个实施例中,服务器根据目标中标数据中的药品标识和中标区域标识,在中标数据库中未查询到相匹配的目标历史中标数据时,根据药品标识和中标区域标识对应的相邻区域标识查询相匹配的目标历史中数据。
在一个实施例中,服务器根据药品标识和中标区域标识从中标数据库中查询相匹配的目标历史中标数据,以及根据药品标识和中标区域标识对应的相邻区域标识查询相匹配的目标历史中数据,并基于所查询到的目标历史中标数据对相应目标中标数据进行审核。
在一个实施例中,服务器可基于现有技术确定置信区间,在此不再赘述。
上述实施例中,基于相邻区域的目标历史中标数据对目标中标数据进行审核,能够获取到较多的目标历史中标数据,一定程度上能够提高审核准确性。
在一个实施例中,根据历史单位等价资源对目标中标数据进行审核之后,上述数据处理方法还包括:当审核未通过时,根据历史单位等价资源所对应的单位等价资源中位值确定数值区间;将目标中标数据中的中标资源与数值区间进行比较;若中标资源属于数值区间,根据目标中标数据中的转换比和中标资源确定相应药品标识所对应的目标中标资源。
具体地,当根据历史单位等价资源对目标中标数据进行审核的审核结果为审核未通过时,服务器计算该历史单位等价资源所对应的单位等价资源中位值,查询预配置的指定浮动比例,并根据单位等价资源中位值和指定浮动比例确定相应数值区间。服务器将目标中标数据中的中标资源与相应数值区间进行比较,若该中标资源属于相应数值区间,则表明目标中标数据中将药品标识对应的单位等价资源作为中标资源,也就是目标中标数据中的中标资源实质为单位等价资源,则根据目标中标数据中的中标资源和相应转换比计算得到修正后的中标资源,将该修正后的中标资源确定为相应药品标识所对应的目标中标资源,并将目标中标资源中的中标资源修正为该目标中标资源。
可以理解,指定浮动比例是相对于单位等价资源中位值的浮动比例,比如10%,也就是数值区间的区间端点值在单位等价资源中位值的上下10%浮动。
在一个实施例中,当中标资源不属于相应数值区间时,服务器则将相应目标中标数据推送至审核终端进行审核。
上述实施例中,若目标中标数据中的中标资源为相应单位等价资源,则基于该目标中标数据对该中标资源进行修正,以保证目标中标资源的准确性,从而能够保证基于该目标中标资源计算得到的产品资源的准确性。
如图3所示,在一个实施例中,上述数据处理方法还包括产品资源预测的步骤,具体包括以下步骤:
S302,获取产品申请请求,根据产品申请请求获取用户数据。
其中,产品申请请求是用于触发产品申请操作的请求。用户数据是用户所对应的数据,比如用户基本信息、用户对应的产品数据、历史行为数据和历史医疗数据等。产品申请请求具体可携带用户标识,用户标识用于唯一标识用户。
具体地,服务器检测预设触发条件,在检测到预设触发条件时,根据所检测到的预设触发条件获取相应的产品申请请求,并根据所获取到的产品申请请求获取相应的用户数据。预设触发条件比如接收终端发送的产品申请请求,或者,检测到当前时间与预设触发时间一致。
在一个实施例中,服务器接收终端发送的与用户标识对应的产品申请请求,解析产品申请请求得到用户数据,或者,根据用户标识从本地或其他设备查询相应的用户数据。其他设备比如用于存储产品数据的产品服务器,和/或,用于存储历史医疗数据的医疗服务器等。
在一个实施例中,服务器解析产品申请请求得到用户标识,并根据用户标识查询相应的用户数据。
S304,根据用户数据进行用户画像得到用户画像标签,并根据用户画像标签确定相应用户所属的用户群组。
其中,用户画像标签是用于描述用户特征的标签值。用户画像标签与标签相对应,用户画像标签是根据用户数据按照标签对用户进行用户画像得到的标签值。标签是对某项/某类特征的抽象概括或分类,比如性别、年龄、职业和生活习惯等。可以理解,一个标签可对应有至少一个用户画像标签。例如,标签性别对应的用户画像标签为男,标签生活习惯对应的用户画像标签为抽烟、喝酒和熬夜等。用户群组是由具有相同特征的用户组成的群组,具体可以是由对应有至少一个相同用户画像标签的用户组成的群组。
具体地,服务器根据产品申请请求获取到相应的用户数据后,查询预配置的标签,并根据所获取到的用户数据按照所查询到的标签进行用户画像,得到每个标签所对应的用户画像标签,并将所得到的用户画像标签确定为相应用户的用户画像标签,也就是根据各标签所对应的用户画像标签确定相应用户的用户画像标签。服务器针对各用户群组预配置有相应的群组画像标签。服务器将用户所对应的用户画像标签与预配置的群组画像标签进行匹配,以根据匹配结果从预配置的用户群组中筛选出用户所属的用户群组。
举例说明,假设用户数据是:年龄为29岁,性别为男性,职业为程序员,经常熬夜,经常抽烟、喝酒等。预配置的标签为年龄、性别、职业和生活习惯,则根据用户数据进行用户画像得到年龄对应的用户画像标签为29岁,性别对应的用户画像标签为男,职业对应的用户画像标签为程序员,生活习惯对应的用户画像标签为抽烟、喝酒和熬夜,由此用户所对应的用户画像标签为:29岁、男、程序员、抽烟、喝酒和熬夜。
在一个实施例中,服务器将用户所对应的用户画像标签与预配置的每个用户群组所对应的群组画像标签进行匹配,并将匹配成功的群组画像标签所对应的用户群组确定为用户所属的用户群组。
在一个实施例中,服务器针对各产品标识预配置有相应的标签。服务器根据所接收到的产品申请请求确定相应的产品标识,并根据所确定的产品标识查询预配置的标签,以根据用户数据按照所查询到的标签进行用户画像。
在一个实施例中,服务器将所获取到的用户数据输入已训练的预测模型进行预测,得到用户标识所对应的疾病标识和相应的患病概率。
S306,根据用户群组确定用户所对应的疾病标识和相应的患病概率。
具体地,服务器在确定用户所属的用户群组后,根据用户群组所对应的用户群组标识查询预配置的疾病标识和相应的患病概率,并根据用户群组所对应的疾病标识和患病概率确定用户所对应的疾病标识和相应的患病概率。
在一个实施例中,若根据用户群组标识查询到一个疾病标识和该疾病标识所对应的患病概率,服务器则将所查询到的疾病标识确定为相应用户所对应的疾病标识,并将所查询到的患病概率确定为相应用户所对应的患病概率。
在一个实施例中,若根据用户群组标识查询到多个疾病标识和每个疾病标识所对应的患病概率,服务器将该多个疾病标识中符合预设条件的疾病标识确定为相应用户所对应的疾病标识。预设条件比如患病概率最大,或者,患病概率达到概率阈值,或者,该多个疾病标识中的每个疾病标识。
S308,查询疾病标识所对应的基准资源和药品标识,以及药品标识所对应的目标中标资源。
其中,基准资源是指针对疾病标识预配置的固定的资源。每个用户标识所对应的基准资源一致,由此基准资源可理解为标准资源或统一资源。资源是可被交换成标的物或产品的资产。资源具体可以是资金、电子代金券或虚拟红包等,虚拟红包时具有一定资金数值属性的虚拟对象。资源可被交换成等值的产品,产品可以是真实产品或虚拟产品。真实产品是相对于虚拟产品而言,有物理实体占据控件的产品,比如生活用品或药品等。虚拟产品是没有物理实体的产品,比如保险或车险等金融产品。以产品为保险为例,基准资源可以是针对保险产品预配置的基准保费或基准价格。
药品标识用于唯一标识药品,是由数字、字母和符号等字符中的至少一种组成的字符串,具体可以是药品编码或代码等。目标中标资源是药品标识所对应的中标资源,具体可以是在针对药品进行资源招标和投标过程中所确定的中标的资源。目标中标资源是指等价交换最小可交换单位的药品所需的资源,最小可交换单位是指药品进行交换时的最小计量单位或最小包装。例如,目标中标资源是交换一盒药品所需的资源。目标中标资源比如中标价格。
具体地,服务器在确定用户所对应的疾病标识后,根据所确定的疾病标识从基准资源数据库中查询预配置的基准资源,并从预配置的药品数据库中查询与疾病标识对应的药品标识。药品数据库中预配置有疾病标识与药品标识之间的对应关系,一个疾病标识可对应有多个药品标识,一个药品标识也可对应有多个疾病标识,疾病标识对应的药品标识所对应的适应症包括该疾病标识所对应的疾病。服务器查询到疾病标识所对应的药品标识后,从中标数据库中查询与药品标识对应的目标中标数据,并根据目标中标数据确定目标中标资源。
在一个实施例中,服务器根据疾病标识查询到至少一个药品标识后,根据每个药品标识从中标数据库中查询相应的目标中标资源。当查询到的药品标识有多个时,服务器可通过一个线程依次从中标数据库中查询相应的目标中标资源,也可通过多个线程并行的从中标数据库中查询相应的目标中标资源。
在一个实施例中,服务器从药品数据管理服务器中查询疾病标识所对应的药品标识,并根据每个药品标识从中标数据管理服务器中查询相应的目标中标资源。
在一个实施例中,服务器根据每个药品标识查询最新的目标中标资源。服务器也可根据每个药品标识查询预设时间段或预设区域内的目标中标资源,对该预设时间段或预设区域内的目标中标资源求平均,将计算得到的中标资源均值确定为药品标识所对应的目标中标资源。预设时间段是有指定的起始时间和结束时间确定的时间区间。预设区域比如用户当前所处的区域。
S310,根据患病概率、基准资源和目标中标资源计算用户相应的产品资源。
其中,产品资源是指申请产品所需的资源。具体地,服务器根据所查询到的患病概率、基准资源和每个药品标识所对应的目标中标资源,按照预设计算方式计算相应用户所对应的产品资源。预设计算方式比如按照预设映射关系进行计算,或者,通过已训练的资源预测模型进行预测。
在一个实施例中,服务器查询预配置的预设映射关系,根据患病概率。基准资源和目标中标资源,按照预设映射关系计算得到产品资源。服务器可针对每个疾病标识预配置相应的预设映射关系,也可针对各个疾病标识预配置统一的预设映射关系。预设映射关系比如,产品资源=患病概率*基准资源+a*药品标识1的目标中标资源+b*药品标识2的目标中标资源,a和b是预设权重。可以理解,若用户标识对应的疾病标识多于一个,则预设映射关系中包括该多于一个的疾病标识各自的患病概率、基准资源和相应的各药品标识对应的中标资源。其中,预设映射关系中的患病概率可以是该多于一个的患病概率的算术平均或加权平均。
S312,将产品资源发送至用户相应的终端。
具体地,服务器基于用户数据确定用户所对应的产品资源后,根据用户确定相应的终端,并将所确定的产品资源发送至所确定的终端。
在一个实施例中,服务器根据用户对应的用户标识确定相应的用户账号,并将所确定的产品资源发送至以该用户账号所登录的终端。
在一个实施例中,终端将所接收到的产品资源通过用户操作界面展示给相应用户,并实时检测用户针对展示的产品资源触发的确认操作。终端在检测到确认操作时触发生成确认指令,并将确认指令发送至服务器。服务器在接收到确认指令后,根据相应产品申请请求和/或用户数据进行产品申请处理。
上述实施例中,根据用户数据进行用户画像确定用户画像标签,以根据用户画像标签确定用户所属的用户群组,并基于用户群组确定用户可能患的疾病所对应的疾病标识和相应的患病概率,能够提高疾病标识和患病概率的预测准确性。基于准确性较高的疾病标识查询基准资源和药品标识,以及药品标识所对应的目标中标资源,并基于所查询到的基准资源和目标中标资源,以及准确性较高的患病概率动态确定准确性较高的产品资源。这样,基于用户数据动态确定相适应的产品资源,能够提高产品资源的多样性。而且,基于预先审核通过的目标中标资源确定产品资源,能够提高产品资源的确定效率和准确性。
在一个实施例中,用户群组的配置步骤,包括:获取多个目标用户标识对应的历史用户数据,对历史用户数据进行聚类分析,得到多于一个的聚类类别,并将每个聚类类别确定为一个用户群组;根据用户群组内的每个目标用户标识所对应的历史用户数据分别进行用户画像,得到每个目标用户标识相应的用户画像标签,并根据用户画像标签确定用户群组的群组画像标签;对用户群组内的每个目标用户标识所对应的历史用户数据进行分析,得到用户群组对应的疾病标识和疾病标识相应的患病概率。
其中,聚类分析是一种无监督学习,是在缺乏分类标签的前提下的一种分类模型。对历史用户数据进行聚类分析得到多个聚类类别或簇,每个聚类类别或簇内的历史用户数据具有相同或相近的特征,通过对每个聚类类别或簇内的历史用户数据进行进一步分析,能够确定每个聚类类别或簇所对应的分类标签。可以理解,通过聚类分析使得每个聚类类别内的历史用户数据之间的相似度尽可能大,不同聚类类别内的历史用户数据之间的相似度尽可能小。群组画像标签是用于描述用户群组的特征的标签值,具体可以是用于描述用户群组内的各个用户所共有的用户特征的标签值。疾病标识用于唯一标识疾病,是由数字、字母和符号等字符中的至少一种组成的字符串,具体可以是疾病的名称、代码或编号等。患病概率是指用户可能患特定疾病的概率,用于表征用户患特定疾病的可能性大小,比如80%。
具体地,服务器预先获取多个目标用户标识各自对应的历史用户数据,对所获取到的多个历史用户数据进行聚类分析,得到多于一个的聚类类别,并将每个聚类类别确定为一个用户群组,得到多于一个的用户群组。服务器通过聚类分析将多个目标用户标识聚类到多于一个的用户群组,以确定每个目标用户标识所对应的用户群组,也就是确定每个目标用户标识所属的用户群组。对于聚类分析得到的每个用户群组,服务器根据用户群组内的每个目标用户标识所对应的历史用户数据分别进行用户画像,得到每个目标用户标识所对应的用户画像标签,并根据该用户群组内的每个目标用户标识所对应的用户画像标签,确定用户群组所对应的群组画像标签。对于聚类分析得到的每个用户群组,服务器对用户群组内的每个目标用户标识所对应的历史用户数据进行分析,得到该用户群组所对应的疾病标识和疾病标识所对应的患病概率。
在一个实施例中,服务器获取到用户群组内的每个目标用户标识各自对应的用户画像标签后,将该用户群组内的每个目标用户标识所共有的用户画像标签,确定为该用户群组所对应的群组画像标签。
在一个实施例中,服务器根据用户群组内每个目标用户标识所对应的用户画像标签,按照标签对相应的用户画像标签进行统计,得到各个标签下每个用户画像标签的数量,并根据统计的数量计算各个标签下每个用户画像标签的占比。对于每个标签,将占比最大或者占比达到预设占比的用户画像标签确定该为标签所对应的用户画像标签。由此,服务器分别确定每个标签所对应的用户画像标签,并根据每个标签所对应的用户画像标签确定群组画像标签。
在一个实施例中,服务器对每个用户群组内的每个目标用户标识所对应的历史用户数据分别进行分析,得到每个目标用户标识所对应的疾病标识。对于每个用户群组,服务器根据用户群组内的每个目标用户标识所对应的疾病标识,统计每个疾病标识的数量,并根据统计的数量和该用户群组内的目标用户标识的数量计算相应疾病标识的占比,作为相应疾病标识的患病概率。可以理解,服务器可将患病概率达到预设概率的疾病标识,或者将患病概率最大的疾病标识确定为相应用户群组所对应的疾病标识。
在一个实施例中,服务器将用户群组内的每个目标用户标识所对应的历史用户数据分别输入已训练的预测模型进行预测,得到每个目标用户标识所对应的疾病标识和相应的患病概率。对于每个用户群组,服务器根据用户群组内的每个目标用户标识所对应的疾病标识,统计每个疾病标识的数量,根据统计的数量和该用户群组内的目标用户标识的数量计算该疾病标识的占比。对于占比达到预设占比的疾病标识,服务器对相应用户群组内该疾病标识所对应的患病概率计算平均,得到平均患病概率,并将平均患病概率确定为该疾病标识对应的患病概率。可以理解,平均患病概率可以是用户群组内相同疾病标识对应的多个患病概率的算术平均或加权平均。
在一个实施例中,服务器得到每个用户群组所对应的群组画像标签、疾病标识和疾病标识所对应的患病概率后,将用户群组标识与群组画像标签、疾病标识和相应患病概率关联存储。可以理解,每个用户集群可对应有至少一个疾病标识。服务器获取足够多的目标用户标识各自对应的历史用户数据,以提高聚类分析结果的准确性。
在一个实施例中,服务器可采用K均值聚类、谱聚类或层次聚类等对历史用户数据进行聚类分析。
在一个实施例中,步骤S308包括:根据用户数据确定用户对应的区域标识;查询与区域标识和疾病标识对应的基准资源;查询疾病标识对应的药品标识,并查询与区域标识和药品标识对应的候选中标资源;从候选中标资源中选取药品标识所对应的目标中标资源。
其中,区域标识用于唯一标识区域,具体可以是区域的名称、代码或编号等。区域可理解为行政区域或地区,具体可以是省份或城市等。
具体地,服务器根据所获取到的用户数据确定用户当前所处的区域对应的区域标识,也就是确定相应用户标识当前所对应的区域标识。服务器根据用户/用户标识所对应的疾病标识和区域标识从基准资源数据库中查询相匹配的基准资源。服务器根据疾病标识从药品数据库中查询相应的药品标识,根据所查询到的药品标识和区域标识从中标数据库中查询相匹配的候选中标数据,并从候选中标数据中提取相应的候选中标资源。服务器根据所提取出的候选中标资源按照预设方式确定产品标识所对应的目标中标资源。预设方式比如选取最新的候选中标资源作为目标中标资源,或者,对候选中标资源求平均,并将计算得到的平均中标资源确定为目标中标资源。最新的候选中标资源通过比较相应候选中标数据中的中标时间确定。
在一个实施例中,服务器从中标数据库中查询与区域标识相匹配的中标数据,并从所查询到的中标数据中筛选与每个药品标识相匹配的候选中标数据。可以理解,疾病标识对应的药品标识可以为一个或多个。
在一个实施例中,当未查询到区域标识和疾病标识所对应的基准资源时,服务器根据区域标识所对应的相邻区域标识和疾病标识查询相应的基准资源。类似地,当未查询到区域标识和药品标识所对应的候选中标资源时,服务器根据区域标识所对应的相邻区域标识和药品标识查询相应的候选中标资源。
上述实施例中,针对不同区域分别预配置相应的基准资源,以便于在进行产品资源预测时,能够基于区域标识查询相应的基准资源,并基于区域标识查询相应的候选中标资源,能够提高产品资源的适应性和多样性。
如图4所示,在一个实施例中,上述数据处理方法还包括以下产品资源预测步骤:
S402,获取产品申请请求,根据产品申请请求获取用户数据。
S404,根据用户数据进行用户画像得到用户画像标签,并根据用户画像标签确定相应用户所属的用户群组。
S406,根据用户群组确定用户所对应的疾病标识和相应的患病概率。
S408,根据用户数据确定用户对应的区域标识。
S410,查询与区域标识和疾病标识对应的基准资源。
S412,查询疾病标识对应的药品标识,并查询与区域标识和药品标识对应的候选中标资源。
S414,从候选中标资源中选取药品标识所对应的目标中标资源。
S416,根据患病概率、基准资源和目标中标资源计算用户相应的产品资源。
S418,将产品资源发送至用户相应的终端。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据处理装置500,包括:获取模块502、计算模块504、去重模块506、查询模块508、审核模块510和确定模块512,其中:
获取模块502,用于获取待处理的中标数据集;所述中标数据集包括多个中标数据;
计算模块504,用于对所述中标数据进行哈希计算得到哈希值;
去重模块506,用于获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;
查询模块508,用于查询与所述目标中标数据相匹配的目标历史中标数据;
审核模块510,用于根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;
确定模块512,用于当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
在一个实施例中,计算模块504,还用于根据所述中标数据中的药品名称、剂型、规格和机构标识确定药品标识;对所述药品标识进行哈希计算得到哈希值,并将所述哈希值确定为相应中标数据的哈希值。
在一个实施例中,所述目标中标数据包括中标区域标识和药品标识;查询模块508,还用于根据所述中标区域标识确定相邻区域所对应的相邻区域标识;查询与所述相邻区域标识和所述药品标识相匹配的目标历史中标数据;审核模块510,还用于若所述历史单位等价资源符合正态分布,根据所述历史单位等价资源计算单位等价资源均值和单位等价资源均方差,并根据所述单位等价资源均值、所述单位等价资源均方差和预设置信度确定置信区间;根据所述置信区间和所述目标中标数据中的中标资源对所述目标中标数据进行审核。
在一个实施例中,确定模块512,还用于当审核未通过时,根据所述历史单位等价资源所对应的单位等价资源中位值确定数值区间;将所述目标中标数据中的中标资源与所述数值区间进行比较;若所述中标资源属于所述数值区间,根据所述目标中标数据中的转换比和所述中标资源确定相应药品标识所对应的目标中标资源。
在一个实施例中,数据处理装置500,还包括:预测模块;
预测模块,用于获取产品申请请求,根据所述产品申请请求获取用户数据;根据所述用户数据进行用户画像得到用户画像标签,并根据所述用户画像标签确定相应用户所属的用户群组;根据所述用户群组确定所述用户所对应的疾病标识和相应的患病概率;查询所述疾病标识所对应的基准资源和药品标识,以及所述药品标识所对应的目标中标资源;根据所述患病概率、所述基准资源和所述目标中标资源计算所述用户相应的产品资源;将所述产品资源发送至所述用户相应的终端。
在一个实施例中,上述数据处理装置500,还包括:配置模块;
配置模块,用于获取多个目标用户标识对应的历史用户数据,对所述历史用户数据进行聚类分析,得到多于一个的聚类类别,并将每个聚类类别确定为一个用户群组;根据所述用户群组内的每个目标用户标识所对应的历史用户数据分别进行用户画像,得到所述每个目标用户标识相应的用户画像标签,并根据所述用户画像标签确定所述用户群组的群组画像标签;对所述用户群组内的每个目标用户标识所对应的历史用户数据进行分析,得到所述用户群组对应的疾病标识和所述疾病标识相应的患病概率。
在一个实施例中,预测模块,还用于根据所述用户数据确定所述用户对应的区域标识;查询与所述区域标识和所述疾病标识对应的基准资源;查询所述疾病标识对应的药品标识,并查询与所述区域标识和所述药品标识对应的候选中标资源;从所述候选中标资源中选取所述药品标识所对应的目标中标资源。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史中标数据和相应的哈希值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的数据处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的数据处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据处理方法,所述方法包括:
获取待处理的中标数据集;所述中标数据集包括多个中标数据;
对所述中标数据进行哈希计算得到哈希值;
获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;
查询与所述目标中标数据相匹配的目标历史中标数据;
根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;
当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
2.根据权利要求1所述的方法,其特征在于,所述对所述中标数据进行哈希计算得到哈希值,包括:
根据所述中标数据中的药品名称、剂型、规格和机构标识确定药品标识;
对所述药品标识进行哈希计算得到哈希值,并将所述哈希值确定为相应中标数据的哈希值。
3.根据权利要求1所述的方法,其特征在于,所述目标中标数据包括中标区域标识和药品标识;所述查询与所述目标中标数据相匹配的目标历史中标数据,包括:
根据所述中标区域标识确定相邻区域所对应的相邻区域标识;
查询与所述相邻区域标识和所述药品标识相匹配的目标历史中标数据;
所述根据所述历史单位等价资源对所述目标中标数据进行审核,包括:
若所述历史单位等价资源符合正态分布,根据所述历史单位等价资源计算单位等价资源均值和单位等价资源均方差,并根据所述单位等价资源均值、所述单位等价资源均方差和预设置信度确定置信区间;
根据所述置信区间和所述目标中标数据中的中标资源对所述目标中标数据进行审核。
4.根据权利要求1所述的方法,其特征在于,所述根据所述历史单位等价资源对所述目标中标数据进行审核之后,所述方法还包括:
当审核未通过时,根据所述历史单位等价资源所对应的单位等价资源中位值确定数值区间;
将所述目标中标数据中的中标资源与所述数值区间进行比较;
若所述中标资源属于所述数值区间,根据所述目标中标数据中的转换比和所述中标资源确定相应药品标识所对应的目标中标资源。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取产品申请请求,根据所述产品申请请求获取用户数据;
根据所述用户数据进行用户画像得到用户画像标签,并根据所述用户画像标签确定相应用户所属的用户群组;
根据所述用户群组确定所述用户所对应的疾病标识和相应的患病概率;
查询所述疾病标识所对应的基准资源和药品标识,以及所述药品标识所对应的目标中标资源;
根据所述患病概率、所述基准资源和所述目标中标资源计算所述用户相应的产品资源;
将所述产品资源发送至所述用户相应的终端。
6.根据权利要求5所述的方法,其特征在于,所述用户群组的配置步骤,包括:
获取多个目标用户标识对应的历史用户数据,对所述历史用户数据进行聚类分析,得到多于一个的聚类类别,并将每个聚类类别确定为一个用户群组;
根据所述用户群组内的每个目标用户标识所对应的历史用户数据分别进行用户画像,得到所述每个目标用户标识相应的用户画像标签,并根据所述用户画像标签确定所述用户群组的群组画像标签;
对所述用户群组内的每个目标用户标识所对应的历史用户数据进行分析,得到所述用户群组对应的疾病标识和所述疾病标识相应的患病概率。
7.根据权利要求5所述的方法,其特征在于,所述查询所述疾病标识所对应的基准资源和药品标识,以及所述药品标识所对应的目标中标资源,包括:
根据所述用户数据确定所述用户对应的区域标识;
查询与所述区域标识和所述疾病标识对应的基准资源;
查询所述疾病标识对应的药品标识,并查询与所述区域标识和所述药品标识对应的候选中标资源;
从所述候选中标资源中选取所述药品标识所对应的目标中标资源。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的中标数据集;所述中标数据集包括多个中标数据;
计算模块,用于对所述中标数据进行哈希计算得到哈希值;
去重模块,用于获取历史中标数据的哈希值,并根据所述中标数据的哈希值和所述历史中标数据的哈希值,对所述中标数据进行去重处理得到目标中标数据;
查询模块,用于查询与所述目标中标数据相匹配的目标历史中标数据;
审核模块,用于根据所述目标历史中标数据计算历史单位等价资源,根据所述历史单位等价资源对所述目标中标数据进行审核;
确定模块,用于当审核通过时,将所述目标中标数据中的中标资源确定为相应药品标识所对应的目标中标资源。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910844454.XA 2019-09-06 2019-09-06 数据处理方法、装置、计算机设备和存储介质 Pending CN110688406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910844454.XA CN110688406A (zh) 2019-09-06 2019-09-06 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910844454.XA CN110688406A (zh) 2019-09-06 2019-09-06 数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110688406A true CN110688406A (zh) 2020-01-14

Family

ID=69107990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910844454.XA Pending CN110688406A (zh) 2019-09-06 2019-09-06 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110688406A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324786A (zh) * 2020-03-03 2020-06-23 北京京东振世信息技术有限公司 咨询问题信息的处理方法和装置
CN113140323A (zh) * 2020-12-31 2021-07-20 上海明品医学数据科技有限公司 一种健康画像生成方法、***、介质及服务器
CN113313590A (zh) * 2020-02-26 2021-08-27 京东数字科技控股股份有限公司 产品的获取方法和装置、存储介质和电子装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451204A (zh) * 2017-07-10 2017-12-08 阿里巴巴集团控股有限公司 一种数据查询方法、装置及设备
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108257027A (zh) * 2017-06-16 2018-07-06 平安科技(深圳)有限公司 保单数据审核方法、装置、计算机设备及存储介质
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN108377240A (zh) * 2018-02-07 2018-08-07 平安科技(深圳)有限公司 异常接口检测方法、装置、计算机设备和存储介质
CN108537586A (zh) * 2018-03-30 2018-09-14 杭州米趣网络科技有限公司 基于用户画像的数据处理方法及装置
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质
CN109086787A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 用户画像获取方法、装置、计算机设备以及存储介质
CN109636623A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常检测方法、装置、设备及存储介质
CN109657965A (zh) * 2018-12-13 2019-04-19 上海安吉星信息服务有限公司 一种服务资源分配方法、装置、存储介质及处理器
CN109784973A (zh) * 2018-12-14 2019-05-21 中国平安人寿保险股份有限公司 基于大数据分析的广告投放方法、装置及电子设备
CN109858210A (zh) * 2019-01-07 2019-06-07 平安科技(深圳)有限公司 信息验证方法、装置、计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257027A (zh) * 2017-06-16 2018-07-06 平安科技(深圳)有限公司 保单数据审核方法、装置、计算机设备及存储介质
CN107451204A (zh) * 2017-07-10 2017-12-08 阿里巴巴集团控股有限公司 一种数据查询方法、装置及设备
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108377240A (zh) * 2018-02-07 2018-08-07 平安科技(深圳)有限公司 异常接口检测方法、装置、计算机设备和存储介质
CN108537586A (zh) * 2018-03-30 2018-09-14 杭州米趣网络科技有限公司 基于用户画像的数据处理方法及装置
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN109086787A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 用户画像获取方法、装置、计算机设备以及存储介质
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质
CN109636623A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常检测方法、装置、设备及存储介质
CN109657965A (zh) * 2018-12-13 2019-04-19 上海安吉星信息服务有限公司 一种服务资源分配方法、装置、存储介质及处理器
CN109784973A (zh) * 2018-12-14 2019-05-21 中国平安人寿保险股份有限公司 基于大数据分析的广告投放方法、装置及电子设备
CN109858210A (zh) * 2019-01-07 2019-06-07 平安科技(深圳)有限公司 信息验证方法、装置、计算机设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313590A (zh) * 2020-02-26 2021-08-27 京东数字科技控股股份有限公司 产品的获取方法和装置、存储介质和电子装置
CN111324786A (zh) * 2020-03-03 2020-06-23 北京京东振世信息技术有限公司 咨询问题信息的处理方法和装置
CN111324786B (zh) * 2020-03-03 2023-11-07 北京京东振世信息技术有限公司 咨询问题信息的处理方法和装置
CN113140323A (zh) * 2020-12-31 2021-07-20 上海明品医学数据科技有限公司 一种健康画像生成方法、***、介质及服务器
CN113140323B (zh) * 2020-12-31 2023-01-13 上海明品医学数据科技有限公司 一种健康画像生成方法、***、介质及服务器

Similar Documents

Publication Publication Date Title
CN108876133B (zh) 基于业务信息的风险评估处理方法、装置、服务器和介质
WO2020000688A1 (zh) 财务风险验证处理方法、装置、计算机设备及存储介质
CN109522400B (zh) 核保方法、装置、计算机设备和存储介质
CN108769026B (zh) 用户账号检测***和方法
CN109766534B (zh) 报表生成方法、装置、计算机设备及可读存储介质
CN110688406A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111145910A (zh) 基于人工智能的异常案例识别方法、装置、计算机设备
CN110781379A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN109284353B (zh) 医案检索方法、装置、计算机设备和存储介质
CN112151141A (zh) 医疗数据处理方法、装置、计算机设备和存储介质
CN111178949B (zh) 服务资源匹配参考数据确定方法、装置、设备和存储介质
WO2020244152A1 (zh) 数据推送方法、装置、计算机设备和存储介质
US9652695B2 (en) Label consistency for image analysis
CN109492191B (zh) 计算投保概率的方法、装置、计算机设备和存储介质
CN112131277B (zh) 基于大数据的医疗数据异常分析方法、装置和计算机设备
CN110717650A (zh) 单据数据处理方法、装置、计算机设备和存储介质
CN109214904B (zh) 财务造假线索的获取方法、装置、计算机设备和存储介质
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN110135943B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN109271917B (zh) 人脸识别方法、装置、计算机设备和可读存储介质
CN109064343B (zh) 风险模型建立方法、风险匹配方法、装置、设备及介质
CN110751533A (zh) 产品画像生成方法、装置、计算机设备和存储介质
CN112035611B (zh) 目标用户推荐方法、装置、计算机设备和存储介质
US20210326995A1 (en) Claim settlement anti-fraud method, apparatus, device, and storage medium based on graph computation technology
CN112035614A (zh) 测试集生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220524

Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114