CN112634062A

CN112634062A - 基于Hadoop的数据处理方法、装置、设备及存储介质

Info

Publication number: CN112634062A
Application number: CN202011284193.XA
Authority: CN
Inventors: 王锷; 罗攀; 王鑫婕; 李春晓; 黄琳; 卢金金
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-04-09
Anticipated expiration: 2040-11-17
Also published as: CN112634062B; WO2022105127A1

Abstract

本发明涉及一种基于Hadoop的数据处理方法、装置、设备以及存储介质，所述方法根据输入险种类型对应的预报价因子，从Hadoop平台的HDFS***中存储的历史数据中筛选出与保险报价请求匹配的相似案例；若筛选出的相似案例数量小于或等于预设阈值，则利用两个LightGBM模型分别计算中位费率和最大费率，若筛选出的相似案例数大于预设阈值则采用相似性度量的方法进一步筛选相似度较大的案例的历史数据，最后根据筛选后的历史数据计算中位费率和最大费率。本发明的方法可以覆盖绝大部分预报价场景，可以确保有较高的准确率；提高了费率计算的效率；降低人为错误和风险因素的影响；随着数据累积，费率计算准确性也逐渐提升。

Description

基于Hadoop的数据处理方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于Hadoop的数据处理方法、装置、设备及存储介质。

背景技术

业务员在开展保险业务的过程中，经常遇到客户要求提供目标险种的保费，因团体险种投保标的的多样性和复杂性，不同标的风险会有很大不同，对应到价格上就是保费或费率的区别，如企财险，专业的核保人往往会从企业基本信息、建筑结构、货物数量、燃烧特性、电器线路、消防设施等多个风险因子的特征，加上过往经验，综合评判给出报价，这个过程时间往往较长。

目前各大产险公司可能会要求核保人基于经验整理出险种下主要标的类型的风险费率和保额系数，并基于历史数据，计算不同标的类型的利润率和费用率，最后利用精算公式计算出预估费率。

但这种方法也会因实际环境变化较大，实际报价与理论报价会存在很大差异，计算得到的费率准确率并不高，若业务员以这种单一费率作为参考，也有很大可能会产生较大误差。

鉴于此，亟需提供一种基于Hadoop的数据处理方法、装置、设备及存储介质以解决以上缺陷。

发明内容

基于此，本发明提供一种基于Hadoop的数据处理方法、装置、设备及存储介质，以解决目前由通过业务员根据经验给出报价花费长时间或者根据精算公式提供的单个费率引起的准确性低的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于Hadoop 的数据处理方法，所述方法包括：

获取历史数据的预报价因子和费率，将所述历史数据的预报价因子和费率存储于Hadoop平台的HDFS***，其中，所述预报价因子包括类别型因子和数值型因子；

接收前端发送的携带险种类型的保险报价请求，根据所述险种类型获取所述保险报价请求的预报价因子；

根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例；

当所述相似案例的数量大于预设阈值时，利用MapReduce计算框架计算每个所述相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离，按照所述欧式距离从小到大的顺序对所述相似案例进行排序，获取排序前第一预设数量的相似案例，根据获取的所述相似案例的费率确定中位费率和最大费率；

当所述相似案例的数量小于或等于所述预设阈值时，将所述预报价因子输入至预先训练好的第一目标模型中，根据所述第一目标模型的输出结果确定中位费率；将所述预报价因子输入至预先训练好的第二目标模型中，根据所述第二目标模型的输出结果确定最大费率；其中，所述第一目标模型是根据历史数据的预报价因子和中位费率对LightGBM模型训练得到的，所述第二目标模型是根据历史数据的预报价因子和最大费率对LightGBM模型训练得到的。

作为本申请的进一步改进，所述根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例，包括：

在所述历史数据中查找与所述保险报价请求的各类别型因子分别相同的第一数据；

计算所述第一数据的每个数值型因子与所述保险报价请求的对应数值型因子的比值或差值；

筛选每个所述比值或差值均在预设范围内的第一数据作为相似案例。

作为本申请的进一步改进，所述将所述预报价因子输入至预先训练好的第一目标模型中之前，还包括：

获取历史数据的预报价因子和对应的中位费率；

将所述历史数据的预报价因子作为训练样本输入至LightGBM模型中，得到模型输出结果；

根据所述模型输出结果和所述历史数据的中位费率对所述LightGBM模型中的模型参数进行调整，将训练好的所述LightGBM模型作为第一目标模型。

作为本申请的进一步改进，所述将所述预报价因子输入至预先训练好的第二目标模型中之前，还包括：

获取历史数据的预报价因子和对应的最大费率；

根据所述模型输出结果和所述历史数据的最大费率对所述LightGBM模型中的模型参数进行调整，将训练好的LightGBM模型作为第二目标模型。

作为本申请的进一步改进，所述预报价方法还包括：

将所述预报价因子输入至预先训练好的精算模型中，根据所述精算模型的输出结果确定预测费率，其中，所述精算模型用于进行费率精算；

根据所述中位费率和所述最大费率确定费率区间；

将所述预测费率和所述费率区间进行输出显示。

作为本申请的进一步改进，所述根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例之前，还包括：

剔除历史数据中的异常数据；

对剔除异常数据后的历史数据进行标准化处理。

作为本申请的进一步改进，所述险种类型包括企财险、责任险、团体意外险以及工程险。

为解决上述技术问题，本申请采用的另一个技术方案是：提供了一种基于 Hadoop的数据处理装置，所述基于Hadoop的数据处理装置包括：

存储模块，用于获取历史数据的预报价因子和费率，将所述历史数据的预报价因子和费率存储于Hadoop平台的HDFS***，其中，所述预报价因子包括类别型因子和数值型因子；

获取模块，用于接收前端发送的携带险种类型的保险报价请求，根据所述险种类型获取所述保险报价请求的预报价因子；

筛选模块，用于根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例；

第一计算模块，用于当所述相似案例的数量大于预设阈值时，利用 MapReduce计算框架计算每个所述相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离，按照所述欧式距离从小到大的顺序对所述相似案例进行排序，获取排序前第一预设数量的相似案例，根据获取的所述相似案例的费率确定中位费率和最大费率；

第二计算模块，用于当所述相似案例的数量小于或等于所述预设阈值时，将所述预报价因子输入至预先训练好的第一目标模型中，根据所述第一目标模型的输出结果确定中位费率；将所述预报价因子输入至预先训练好的第二目标模型中，根据所述第二目标模型的输出结果确定最大费率；其中，所述第一目标模型是根据历史数据的预报价因子和中位费率对LightGBM模型训练得到的，所述第二目标模型是根据历史数据的预报价因子和最大费率对LightGBM模型训练得到的。

为解决上述技术问题，本申请采用的另一个技术方案是：提供了一种基于 Hadoop的数据处理设备，所述基于Hadoop的数据处理设备包括处理器、与所述处理器耦合的存储器；

所述存储器用于存储程序文件；所述处理器用于执行所述程序文件以实现如以上所述的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供了一种存储介质，所述存储介质存储有程序文件，所述程序文件执行时能够实现如以上所述的方法。

本发明的有益效果在于提供了一种基于Hadoop的数据处理方法、装置、设备及存储介质，所述方法根据输入险种类型对应的预报价因子，从Hadoop平台的HDFS***中存储的历史数据中筛选出与保险报价请求匹配的相似案例；若筛选出的相似案例数量小于或等于预设阈值，则利用两个LightGBM模型分别计算中位费率和最大费率，若筛选出的相似案例数大于预设阈值则采用相似性度量的方法进一步筛选相似度较大的案例的历史数据，最后根据筛选后的历史数据计算中位费率和最大费率。本发明的方法可以覆盖绝大部分预报价场景，可以确保有较高的准确率；提高了费率计算的效率；降低人为错误和风险因素的影响；随着数据累积，费率计算准确性也逐渐提升。

附图说明

图1为本发明一个实施例中基于Hadoop的数据处理方法的流程示意图

图2为本发明一个实施例中从HDFS***中筛选相似案例的流程示意图；

图3为本发明一个实施例中第一目标模型的训练方法流程示意图；

图4为本发明一个实施例中从HDFS***筛选相似案例之前对历史数据处理的流程示意图；

图5为本发明一个实施例中基于Hadoop的数据处理装置的结构示意图；

图6为本发明一个实施例中基于Hadoop的数据处理设备的结构示意图；

图7为本发明一个实施例中存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……) 仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明一个实施例中的基于Hadoop的数据处理方法的流程示意图，需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：如图1所示，该方法包括以下步骤：

S101：获取历史数据的预报价因子和费率，将所述历史数据的预报价因子和费率存储于Hadoop平台的HDFS***，其中，所述预报价因子包括类别型因子和数值型因子。

具体的，Hadoop平台包括HDFS***和MapReduce引擎，用于对历史数据进行分布式存储以及预报价因子-费率映射关系建立，最终得到根据历史数据的预报价因子及其对应的费率的键值对。

S102：接收前端发送的携带险种类型的保险报价请求，根据所述险种类型获取所述保险报价请求的预报价因子。

具体的，业务员在基于Hadoop的数据处理***中点击预报价按键，选择所要预报价的团体险险种类型。团体险包括但不限于企财险、责任险、团体意外险、工程险等险种类型。选定团体险种后，预报价页面输入对应险种的预报价因子，生成保险报价请求，该保险报价请求中包括输入的险种类型和对应预报价因子。

各类型险种对应的预报价因子的具体内容也不一样。下面对以上几种类型团体险对应的预报价因子进行具体说明。

1.企财险的预报价因子包括：

1.1财产基本险、财产一切险和财产综合险：客户名称、业务员所在二级机构、是否银抵业务、标的行业、标的地址、房屋建筑保额、机器保额、存货保额、其他标的物保额；

1.2机器损坏险：客户名称、业务员所在二级机构、标的行业、机器设备金额。

2.责任险的预报价因子包括：

2.1雇主责任险：客户名称、行业类型、业务员所在二级机构、岗位名称、雇员人数、职业类别、每人死亡伤残限额、每人医疗费用限额；

2.2客运承运人责任险：客户名称、行业类型、业务员所在二级结构、车辆使用性质、核定座位数、核定载客数、每座限额；

2.3诉讼保全责任险：客户名称、行业类型、业务员所在二级结构、保全金额、保全标的类型、诉讼类型；

2.4产品责任险：客户名称、行业类型、业务员所在二级结构、产品名称、销售区域、销售额、累计赔偿限额、每次事故赔偿限额、每人事故赔偿限额。

3.团体意外险的预报价因子包括：

3.1常规团体意外险：客户名称、行业类型、业务员所在二级结构、职业类别、投保人数、年龄范围、险种名称(支持对多个险种的勾选)、意外伤害身故和残疾限额、意外伤害医疗限额、意外住院津贴限额、飞机意外伤害身故和残疾限额、火车意外伤害身故和残疾限额、轮船意外伤害身故和残疾限额、汽车意外伤害身故和残疾限额、交通意外伤害医疗限额、猝死限额；

3.2境外劳务：客户名称、行业类型、业务员所在二级结构、职业类别、投保人数、目的地、年龄范围、险种名称(支持对多个险种的勾选)、意外伤害身故和残疾限额、意外住院和门急诊限额、疾病住院和门急诊限额、意外和疾病住院津贴限额、急性病身故或全残限额。

4.工程险的预报价因子包括：

建筑工程一切险及第三者责任险、安装工程一切险及第三者责任险：客户名称、行业类型、业务员所在二级结构、保险期限、工程地址、物损限额、三者限额、项目名称、建筑安装类型。

总的来说，各类型的预报价因子均包括数值型因子和类别型因子。数值型因子指的是以上预报价因子中输入量为数值对应的预报价因子项，例如各种金额、保额、限额、人数、数量等等；类别型因子指的是以上预报价因子中输入量为各种特征描述信息对应的预报价因子项，例如名称、类型、业务员所在二级机构等文字信息。

S103：根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例。

具体的，团体险的历史数据分布式存储Hadoop平台，且历史数据的预报价因子-费率建立映射关系。历史数据中的各组预报价因子和对应的费率，与各组历史案例相对应。对于业务员来说，具有参考价值的为与本团体险具有相似性的历史数据，相似性体现在历史案例和输入的团体险的预报价因子上，具体表现为各类别型因子在风险等级上需要对应，各数值型因子要满足相近条件。其中相同风险等级的类别型因子可以归类，归类后相等，有些类别型因子可以映射成数值型因子参与后续数值型因子的计算。通过预置规则逻辑对历史数据进行筛选，筛选出与输入团体险相似案例，且将相似案例数量与预设阈值比较，如果相似案例数量过少(小于或等于预设阈值)，则执行步骤S105；如果相似案例数足够多(大于预设阈值),则执行步骤S104。

S104：当所述相似案例的数量大于预设阈值时，利用MapReduce计算框架计算每个所述相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离，按照所述欧式距离从小到大的顺序对所述相似案例进行排序，获取排序前第一预设数量的相似案例，根据获取的所述相似案例的费率确定中位费率和最大费率。

具体的，当根据预置逻辑规则在历史数据中筛选出与步骤S102中团体险的相似案例数量足够多，则利用相似性度量的方法从步骤S103中筛选出的历史数据中进一步筛选出相似性更高的前n个案例作为最终的相似案例，并获取对应的历史数据。其中n值为输入可调的第一预设数量。n个相似案例的历史数据中包括了这n个相似案例对应的费率，根据这n个费率计算的最大费率和中位费率作为步骤S102中输入的团体险可供参考的费率区间。

其中，本申请中相似性度量的方法为利用MapReduce计算框架计算每个经步骤S103筛选出的相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离。且在采用欧式距离进行筛选时，可以将案例的发生时间作为优先考虑因素，优选发生时间近的案例。

具体的，MapReduce主要完成以下工作：接收欧式距离计算请求向节点 JobClient发送指令，由其将应用配置参数打包成jar文件存储到HDFS***，并把相似案例存储路径提交到JobTracker节点；由JobTracker节点创建每一个Task即MapTask和ReduceTask，并将它们分发到各个TaskTracker服务中去执行，JobTracker监控每一个Task，如果发现有失败的Task就重新运行；TaskTracker再将欧式距离计算任务细分，调动多个Map任务，生成多个<相似案例u，欧式距离v>键值对，此键值对表示了相似案例与其欧式距离的一一对应的映射关系。

Shuffle过程是指Mapper产生的直接输出结果，经过一系列的处理，成为最终的Reducer直接输入数据为止的整个过程。这是mapreduce的核心过程。该过程可以分为两个阶段：Mapper端的Shuffle：由Mapper产生的结果并不会直接写入到磁盘中，而是先存储在内存中，当内存中的数据量达到设定的阀值时，一次性写入到本地磁盘中。并同时进行sort(排序)、combine(合并)、partition (分片)等操作。其中，sort是把Mapper产生的结果按照key值进行排序； combine是把key值相同的记录进行合并；partition是把数据均衡的分配给 Reducer。Reducer端的Shuffle：由于Mapper和Reducer往往不在同一个节点上运行，所以Reducer需要从多个节点上下载Mapper的结果数据，并对这些数据进行处理，然后才能被Reducer处理。

Reduce缩减：Reducer接收形式的数据流，形成形式的输出，具体的过程可以由用户自定义，最终结果直接写入HDFS***。

S105：当所述相似案例的数量小于或等于所述预设阈值时，将所述预报价因子输入至预先训练好的第一目标模型中，根据所述第一目标模型的输出结果确定中位费率；将所述预报价因子输入至预先训练好的第二目标模型中，根据所述第二目标模型的输出结果确定最大费率；其中，所述第一目标模型是根据历史数据的预报价因子和中位费率对LightGBM模型训练得到的，所述第二目标模型是根据历史数据的预报价因子和最大费率对LightGBM模型训练得到的。

具体的，当根据预置逻辑规则在历史数据中筛选出与步骤S102中团体险的相似案例数量较少，采用步骤S104的方法来计算步骤S102中输入的团体险费率区间不准确。此时，在数据量比较少的情况下通过模型利用机器学习的方法去计算步骤S101中输入团体险的最大费率和中位费率。根据输入团体险类型选择对应的两个模型，即第一目标模型和第二目标模型，获取两个模型的目标值分别为最大费率和中位费率。更具体的，将步骤S102中的预报价因子通过采用 LightGBM算法回归建模的第一目标模型和第二目标模型，提取输入预报价因子的特征，分别得到最大费率和中位费率，将中位费率到最大费率之间的范围作为步骤S102所要团体险的费率区间。

此外，需要说明的是，当经过步骤S103筛选出的相似案例数量足够多时，由于在步骤S103预置规则逻辑下的初步筛选和步骤S104中欧式距离度量的方法进一步筛选，可以从历史数据中筛选出相似度更高的前n组相似案例，而步骤S105的机器学习过程中是将该险种下的所有历史数据的特征作为参考建模的，并未区分相似案例，因此，在步骤S103筛选后的相似案例数量多的情况下采用步骤S104相似性度量进一步筛选方法会比直接将步骤S101中的预报价因子输入模型获得的数据更加准确。

本发明的基于Hadoop的数据处理方法，根据预置逻辑规则，筛选相似案例，若筛选出的相似案例数量小于或等于预设阈值，则利用两个LightGBM模型分别计算中位费率和最大费率，若筛选出的相似案例数大于预设阈值则采用相似性度量的方法进一步筛选相似度较大的案例的历史数据，最后根据筛选后的历史数据计算中位费率和最大费率。所述基于Hadoop的数据处理方法优先采用筛选相似案例和模型组合的方法，可以在预置逻辑规则输出数据量太少的情况下，由模型对费率区间进行预测，使每次预报价查询都有准确的输出结果；且随着数据的积累，该报价功能会越来越准确；以保证无论数据量多少计算得到的费率区间都是最准确的。本发明的方法可以覆盖绝大部分预报价场景，可以确保有较高的准确率；提高了费率计算的效率；降低人为错误和风险因素的影响；随着数据累积，费率计算准确性也逐渐提升。

本发明的方法可以覆盖绝大部分预报价场景，这种方式可以确保有较高的准确率；数据量不够时采用模型预测方法作为补充，保证准确率的同时还能使任意预报价查询都有输出结果；且提高了费率计算的效率；降低人为错误和风险因素的影响；随着数据累积，费率计算准确性也逐渐提升。

在一个优选的实施方式中，请参阅图2，图2是本发明一个实施例中从HDFS ***中筛选相似案例的流程示意图，需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，基于实施例一步骤S103 中从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例，具体包括：

S201：在所述历史数据中查找与所述保险报价请求的各类别型因子分别相同的第一数据。

具体的，在以上实施例的基础上，步骤S103中根据步骤S102输入险种类型获取到了对应险种下的历史数据。且为了筛选出相似案例，首先筛选出与输入报价因子中的类别型因子相同的案例对应的历史数据。由于每个险种对应的类别型因子也有多个，可以通过预设一些重要的类别型因子来作为筛选目标，去筛选这些重要的类别型因子相同的案例以实现类别型因子相同的历史数据筛选。

S202：计算所述第一数据的每个数值型因子与所述保险报价请求的对应数值型因子的比值或差值。

S203：筛选每个所述比值或差值均在预设范围内的第一数据作为相似案例。

具体的，在步骤S201通过类别型因子筛选历史数据后，再根据步骤S102中输入预报价因子中的数值型因子进一步筛选。与类别型因子一样，由于各险种类型对应的数值型因子也有多个，则可以通过预设一些重要的数值型因子来筛选目标，具体为根据这些重要的数值型因子去历史数据中筛选与其比值或差值在预设范围内作为相似案例。这里比值或差值是根据不同数值型因子来说，各案例中有多个不同数值型因子，对于比较两个案例的相似性来说同一种数值型因子的数值可能相差比较大，也可能相差小，这时候根据实际情况去采用比值或差值，若明显两个案例同一种数值型因子相差较大，则采用比值比较。采用比值比较的，要求预设范围在(0-2)，优选趋近于1的比值；采用差值比较的，要求预设范围在(-1，1)之间，优选趋近于0的差值。

在一个优选的实施方式中，请参阅图3，图3是本发明一个实施例中第一目标模型的训练方法建立方法流程图，需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。基于实施例一步骤S105中的将所述预报价因子输入至预先训练好的第一目标模型中，之前还包括对第一目标模型进行训练，具体包括：

S301,获取历史数据的预报价因子和对应的中位费率；

S302,将所述历史数据的预报价因子作为训练样本输入至LightGBM模型中，得到模型输出结果；

S303，根据所述模型输出结果和所述历史数据的中位费率对所述LightGBM 模型中的模型参数进行调整，将训练好的所述LightGBM模型作为第一目标模型。

具体的，不同险种类型都有相对应的一个第一目标模型，根据步骤S102输入险种选择对应第一目标模型，该第一目标模型都是将该险种类型对应历史数据中的预报价因子和对应中位费率的特征作为训练集，通过LightGBM算法回归建模。由于第一目标模型在建立过程中是将对应的所有历史数据的特征作为训练样本进行训练建模，因此，第一目标模型无法区别与输入险种是否为相似案例。

在一个优选的实施方式中，本发明一个实施例中第二目标模型的训练方法流程如下，需注意的是，若有实质上相同的结果，本发明的方法并不以如下所示的流程顺序为限。基于实施例一步骤S105中的将所述预报价因子输入至预先训练好的第二目标模型中之前，还包括对第二目标模型进行训练，具体包括：

S401，获取历史数据的预报价因子和对应的最大费率；

S402，将所述历史数据的预报价因子作为训练样本输入至LightGBM模型中，得到模型输出结果；

S403,根据所述模型输出结果和所述历史数据的最大费率对所述LightGBM 模型中的模型参数进行调整，将训练好的LightGBM模型作为第二目标模型。

具体的，不同险种类型都有相对应的一个第二目标模型，根据步骤S102输入险种选择对应第二目标模型，该第二目标模型都是将该险种类型对应历史数据中的预报价因子和最大费率的特征作为训练集，通过LightGBM算法回归建模。由于第二目标模型在建立过程中是将对应的所有历史数据的特征作为训练样本进行训练建模，因此，第二目标模型无法区别与输入险种是否为相似案例。

在一个优选的实施方式中，本发明一个实施例中利用精算模型获取预测费率的流程如下，需注意的是，若有实质上相同的结果，本发明的方法并不以如下所示的流程顺序为限。在实施例一步骤S101之后还包括：

S501,将所述预报价因子输入至预先训练好的精算模型中，根据所述精算模型的输出结果确定预测费率，其中，所述精算模型用于进行费率精算；

具体的，将步骤S102中输入的预报价因子采用现有的训练好的精算模型利用预置的精算公式去计算，得到一个基于该现有精算模型的预测费率。

S502,根据所述中位费率和所述最大费率确定费率区间；

具体的，以上实施例一的步骤S105和实施例二、实施例三和实施例四中对根据保险报价请求分别获取中位费率和最大费率进行了具体解释，这里不再赘述，将中位费率至最大费率之间的所有费率作为预报价可参考的费率区间。

S503,将所述预测费率和所述费率区间进行输出显示。

具体的，以上精算模型算得的预测费率可能在步骤S502的费率区间内，也可能在步骤S502获得的费率区间外，因为仅仅基于精算模型算的预测费率会有一些局限，可能会受到环境影响较大，因此，将预测费率和费率区间一同显示，以供最终参考，能够避免仅提供一个预测费率带来较大的误差。

在一个优选的实施方式中，请参阅图4，图4是本发明一个实施例中从HDFS ***筛选相似案例之前对历史数据处理的流程示意图，需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。在实施例一的步骤S103根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例之前还包括：

S601,剔除历史数据中的异常数据；

具体的，历史数据中可能存在一些异常数据，这些异常数据可能是案例本身具有特殊性或者由于输入误差带来的异常，导致这些数据都是不具备参考性的。因此，可以在***中设置业务规则来对这些异常数据进行剔除，这些业务规则可以是根据经验人工设置的一些范围，也可以经过大数据统计计算剔除异常历史数据(数值型因子或者费率)。另外，若输出的费率区间过宽,也可由业务定规则, 对中位数和最大值进行调整,以实现展示给业务员的费率区间在一个合理的范围之内。

S602,对剔除异常数据后的历史数据进行标准化处理。

具体的，在步骤S601对异常数据剔除后，标准化处理历史数据能剔除不同因子的量纲影响，使距离或模型计算不至于受数值大的因子影响。标准化处理可以采用归一化、min-max标准化、log函数转换以及Z-score标准化等方法处理数据。

本发明根据历史数据量的多少来选择合适的方法计算费率区间，优先采用预置逻辑规则+模型组合的方法，可以在预置逻辑规则输出数据量太少的情况下，由模型对费率区间进行预测，使每次预报价查询都有准确的输出结果；且随着数据的积累，该报价功能会越来越准确；以保证无论数据量多少计算得到的费率区间都是最准确的。

请参阅图5，图5为本发明一个实施例中一种基于Hadoop的数据处理装置 70的结构示意图。基于Hadoop的数据处理装置70包括：

存储模块71，用于获取历史数据的预报价因子和费率，将所述历史数据的预报价因子和费率存储于Hadoop平台的HDFS***，其中，所述预报价因子包括类别型因子和数值型因子；

获取模块72，用于接收前端发送的携带险种类型的保险报价请求，根据所述险种类型获取所述保险报价请求的预报价因子；

筛选模块73，用于根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例；

第一计算模块74，用于当所述相似案例的数量大于预设阈值时，利用 MapReduce计算框架计算每个所述相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离，按照所述欧式距离从小到大的顺序对所述相似案例进行排序，获取排序前第一预设数量的相似案例，根据获取的所述相似案例的费率确定中位费率和最大费率；

第二计算模块75，用于当所述相似案例的数量小于或等于所述预设阈值时，将所述预报价因子输入至预先训练好的第一目标模型中，根据所述第一目标模型的输出结果确定中位费率；将所述预报价因子输入至预先训练好的第二目标模型中，根据所述第二目标模型的输出结果确定最大费率；其中，所述第一目标模型是根据历史数据的预报价因子和中位费率对LightGBM模型训练得到的，所述第二目标模型是根据历史数据的预报价因子和最大费率对LightGBM模型训练得到的。

可选的，筛选模块73在根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例时，具体包括：在所述历史数据中查找与所述保险报价请求的各类别型因子分别相同的第一数据；计算所述第一数据的每个数值型因子与所述保险报价请求的对应数值型因子的比值或差值；筛选每个所述比值或差值均在预设范围内的第一数据作为相似案例。

可选的，所述基于Hadoop的数据处理装置70还包括建模模块76，在将所述预报价因子输入至预先训练好的第一目标模型中之前，用于获取历史数据的预报价因子和对应的中位费率；将所述历史数据的预报价因子作为训练样本输入至LightGBM模型中，得到模型输出结果；根据所述模型输出结果和所述历史数据的中位费率对所述LightGBM模型中的模型参数进行调整，将训练好的所述 LightGBM模型作为第一目标模型。

可选的，建模模块76在将所述预报价因子输入至预先训练好的第二目标模型中之前，还用于获取历史数据的预报价因子和对应的最大费率；将所述历史数据的预报价因子作为训练样本输入至LightGBM模型中，得到模型输出结果；根据所述模型输出结果和所述历史数据的最大费率对所述LightGBM模型中的模型参数进行调整，将训练好的LightGBM模型作为第二目标模型。

可选的，基于Hadoop的数据处理装置70还包括第三计算模块77，用于将所述预报价因子输入至预先训练好的精算模型中，根据所述精算模型的输出结果确定预测费率，其中，所述精算模型用于进行费率精算；根据所述中位费率和所述最大费率确定费率区间；将所述预测费率和所述费率区间进行输出显示。

可选的，基于Hadoop的数据处理装置70还包括数据处理模块78，所述根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例之前，用于剔除历史数据中的异常数据；对剔除异常数据后的历史数据进行标准化处理。

请参阅图6，图6为本发明实施例中一种基于Hadoop的数据处理设备80的结构示意图。如图6所示，基于Hadoop的数据处理设备80包括处理器81及和处理器81耦接的存储器82。

存储器82存储有用于实现上述任一实施例所述的方法的程序指令。

处理器81用于执行存储器82存储的程序指令以执行以上实施例的方法。

其中，处理器81还可以称为CPU(Central Processing Unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明实施例中的一种存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器 (processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，终端和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于Hadoop的数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述基于Hadoop的数据处理方法，其特征在于，所述根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例，包括：

3.如权利要求1所述基于Hadoop的数据处理方法，其特征在于，所述将所述预报价因子输入至预先训练好的第一目标模型中之前，还包括：

获取历史数据的预报价因子和对应的中位费率；

4.如权利要求1所述基于Hadoop的数据处理方法，其特征在于，所述将所述预报价因子输入至预先训练好的第二目标模型中之前，还包括：

获取历史数据的预报价因子和对应的最大费率；

5.如权利要求1-4任一所述基于Hadoop的数据处理方法，其特征在于，所述预报价方法还包括：

根据所述中位费率和所述最大费率确定费率区间；

将所述预测费率和所述费率区间进行输出显示。

6.如权利要求1所述基于Hadoop的数据处理方法，其特征在于，所述根据所述预报价因子，从HDFS***中存储的所述历史数据中筛选出与所述保险报价请求匹配的相似案例之前，还包括：

剔除历史数据中的异常数据；

对剔除异常数据后的历史数据进行标准化处理。

7.如权利要求1所述基于Hadoop的数据处理方法，其特征在于，

所述险种类型包括企财险、责任险、团体意外险以及工程险。

8.一种基于Hadoop的数据处理装置，其特征在于，所述基于Hadoop的数据处理装置包括：

第一计算模块，用于当所述相似案例的数量大于预设阈值时，利用MapReduce计算框架计算每个所述相似案例的数值型因子和所述保险报价请求的数值型因子的欧式距离，按照所述欧式距离从小到大的顺序对所述相似案例进行排序，获取排序前第一预设数量的相似案例，根据获取的所述相似案例的费率确定中位费率和最大费率；

9.一种基于Hadoop的数据处理设备，其特征在于，所述基于Hadoop的数据处理设备包括处理器、与所述处理器耦合的存储器；

所述存储器用于存储程序文件；所述处理器用于执行所述程序文件以实现如权利要求1-7任一所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有程序文件，所述程序文件执行时能够实现如权利要求1-7任一所述的方法。