CN111062750A

CN111062750A - 用户画像标签建模和分析方法、装置、设备及存储介质

Info

Publication number: CN111062750A
Application number: CN201911279395.2A
Authority: CN
Inventors: 陈明杰
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24

Abstract

本发明涉及大数据技术领域，公开了一种用户画像标签建模和分析方法、装置、设备及存储介质。用户画像标签建模和分析方法包括：通过预置方式从预置数据源中抽取数据，得到原始数据；对原始数据进行清洗和合并，得到样本数据；从样本数据中提取多维度的目标特征，并对多维度的目标特征进行处理，得到目标对象的属性标签，目标对象和目标对象的属性标签构成目标对象的标签体系；根据目标对象的标签体系构建目标模型；通过目标模型对目标业务进行数据挖掘分析，得到分析结果。本发明通过构建用户画像的标签体系，提高构建用户画像的效率，同时提高对目标用户打标签的准确率和效率。

Description

用户画像标签建模和分析方法、装置、设备及存储介质

技术领域

本发明涉及用户行为画像领域，尤其涉及用户画像标签建模和分析方法、装置、设备及存储介质。

背景技术

用户画像是当前比较流行的概念，对用户的线上线下行为进行分析，给用户打上各种标签及特征，形成多个典型的用户画像，通过用户画像对目标用户进行精准营销和推荐。用户画像是指根据用户的属性、偏好、生活习惯、行为等信息，抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

现有技术中，用户画像主要都是基于互联网行为对用户进行画像，例如，基于网上商城的浏览记录，购买记录等对用户进行行为分析和标签加工。对于某些传统行业，目前缺乏相关的标签体系，因此，通过业务核心数据及用户行为数据构建用户画像或者进行建模时，效率低下。

发明内容

本发明的主要目的在于解决了预置业务中缺少标签体系，构建用户画像效率低下的技术问题。

为实现上述目的，本发明第一方面提供了一种用户画像标签建模和分析方法，包括：通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式；对所述原始数据进行清洗和合并，得到样本数据；从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；通过所述目标模型对目标业务进行数据挖掘分析，得到分析结果，所述目标业务为预先根据实际业务需求确定的。

可选的，在本发明第一方面的第一种实现方式中，所述从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路包括：从预置数据表中读取目标对象的唯一标识，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；根据所述目标对象的唯一标识和面向对象的查询语言HQL语法规则从第二配置单元hive数据库中读取对应的样本数据；根据预置算法从所述读取的样本数据中提取多维度的目标特征；根据k均值聚类算法对所述多维度的目标特征进行聚类分析，得到所述目标对象的属性标签，所述属性标签按照预置标签规则进行命名；将所述目标对象和所述目标对象的属性标签设置为所述目标对象的标签体系，并将所述目标对象的标签体系存储到所述第二hive数据库中。

可选的，在本发明第一方面的第二种实现方式中，所述根据预置算法从所述读取的样本数据中提取多维度的目标特征包括：根据预置特征维度从所述读取的样本数据中提取第一特征；通过训练好的模型对所述读取的样本数据进行处理，得到第二特征；将所述第一特征和所述第二特征进行合并，得到多维度的目标特征。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象包括：根据预置目标业务从所述第二hive数据库中抽取所述目标对象的标签体系，得到属性标签，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；将所述属性标签划分为训练样本数据和参考样本数据；根据所述训练样本数据和所述参考样本数据对预置模型进行训练，得到目标模型，所述预置模型包括深度神经网络模型。

可选的，在本发明第一方面的第四种实现方式中，所述从预置数据源中抽取数据，得到原始数据，所述抽取数据的方式包括全量抽取方式和增量抽取方式包括：读取配置信息，所述配置信息用于指示预置数据源来源于业务数据库或者业务文件中；根据所述配置信息对所述业务数据库中的静态元数据或者所述业务文件中的数据进行全量抽取，并根据所述配置信息对所述业务数据库中的动态元数据进行增量抽取；根据预置数据格式对抽取的元数据进行数据校验；对校验后的数据进行冗余处理，并将冗余处理后的数据写入到第一hive数据库中，得到原始数据。

可选的，在本发明第一方面的第五种实现方式中，所述对所述原始数据进行清洗和合并，得到样本数据包括：当检测到所述原始数据中存在脏数据时，清洗所述脏数据；根据预置业务主题对清洗后具有相同数据结构的数据进行合并，得到样本数据；将所述样本数据存储到对应的主题宽表中，所述主题宽表为所述第二hive数据库的数据表。

可选的，在本发明第一方面的第六种实现方式中，所述将所述目标模型生成的标签按照目标对象的对应关系存储到所述第二hive数据库中之后，所述用户画像标签建模和分析方法还包括：当检测到存在新增的对象时，获取所述新增的对象对应的样本数据，根据所述新增的对象对应的样本数据提取标签，并将所述新增的对象增加到所述目标对象中；当检测到所述目标对象的样本数据中存在新增的字段，并且所述新增的字段值为待提取的标签数据时，对所述新增的字段进行聚类处理，得到所述目标对象新增的属性标签；通过预置定时任务对所述目标对象的属性标签进行优化处理，所述优化处理包括将所述目标对象的属性标签设置为空值或者删除所述目标对象的属性标签。

本发明第二方面提供了一种用户画像标签建模和分析装置，包括：抽取单元，用于通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式；清洗合并单元，用于对所述原始数据进行清洗和合并，得到样本数据；处理单元，用于从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到所述目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；构建单元，用于根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；分析单元，用于通过所述目标模型对目标业务进行数据挖掘分析，得到分析结果，所述目标业务为预先根据实际业务需求确定的。

可选的，在本发明第二方面的第一种实现方式中，所述处理单元还包括：确定子单元，用于从预置数据表中读取目标对象的唯一标识，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；读取子单元，用于根据所述目标对象的唯一标识和面向对象的查询语言HQL语法规则从配置单元第二hive数据库中读取对应的样本数据；第一提取子单元，用于根据预置算法从所述读取的样本数据中提取多维度的目标特征；第一聚类子单元，用于根据k均值聚类算法对所述多维度的目标特征进行聚类分析，得到所述目标对象的属性标签，所述属性标签按照预置标签规则进行命名；设置子单元，用于将所述目标对象和所述目标对象的属性标签设置为所述目标对象的标签体系，并将所述目标对象的标签体系存储到所述第二hive数据库中。

可选的，在本发明第二方面的第二种实现方式中，所述第一提取子单元具体用于：根据预置特征维度从所述读取的样本数据中提取第一特征；通过训练好的模型对所述读取的样本数据进行处理，得到第二特征；将所述第一特征和所述第二特征进行合并，得到多维度的目标特征。

可选的，在本发明第二方面的第三种实现方式中，所述构建单元具体用于：根据预置目标业务从所述第二hive数据库中抽取所述目标对象的标签体系，得到属性标签，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；将所述属性标签划分为训练样本数据和参考样本数据；根据所述训练样本数据和所述参考样本数据对预置模型进行训练，得到目标模型，所述预置模型包括深度神经网络模型。

可选的，在本发明第二方面的第四种实现方式中，所述抽取单元具体用于：读取配置信息，所述配置信息用于指示预置数据源来源于业务数据库或者业务文件中；根据所述配置信息对所述业务数据库中的静态元数据或者所述业务文件中的数据进行全量抽取；根据所述配置信息对所述业务数据库中的动态元数据进行增量抽取；根据预置数据格式对抽取的元数据进行数据校验；对校验后的数据进行冗余处理，并将冗余处理后的数据写入到第一hive数据库中，得到原始数据。

可选的，在本发明第二方面的第五种实现方式中，所述清洗合并单元具体用于：当检测到所述原始数据中存在脏数据时，清洗所述脏数据；根据预置业务主题对清洗后具有相同数据结构的数据进行合并，得到样本数据；将所述样本数据存储到对应的主题宽表中，所述主题宽表为所述第二hive数据库的数据表。

可选的，在本发明第二方面的第六种实现方式中，所述处理单元还包括：第二提取子单元，当检测到存在新增的对象时，用于获取所述新增的对象对应的样本数据，根据所述新增的对象对应的样本数据提取标签，并将所述新增的对象增加到所述目标对象中；第二聚类子单元，当检测到所述目标对象的样本数据中存在新增的字段，并且所述新增的字段值为待提取的标签数据时，用于对所述新增的字段进行聚类处理，得到所述目标对象新增的属性标签；优化子单元，用于通过预置定时任务对所述目标对象的属性标签进行优化处理，所述优化处理包括将所述目标对象的属性标签设置为空值或者删除所述目标对象的属性标签。

本发明第三方面提供了一种用户画像标签建模和分析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述用户画像标签建模和分析设备执行上述第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供的技术方案中，通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式；对所述原始数据进行清洗和合并，得到样本数据；从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；通过所述目标模型对目标业务进行数据挖掘分析，得到分析结果，所述目标业务为预先根据实际业务需求确定的。本发明实施例中，通过构建用户画像的标签体系和目标模型，提高构建用户画像的效率，同时提高对目标用户打标签的准确率和效率。

附图说明

图1为本发明实施例中用户画像标签建模和分析方法的一个实施例示意图；

图2为本发明实施例中用户画像标签建模和分析方法的另一个实施例示意图；

图3为本发明实施例中用户画像标签建模和分析装置的一个实施例示意图；

图4为本发明实施例中用户画像标签建模和分析装置的另一个实施例示意图；

图5为本发明实施例中用户画像标签建模和分析设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种用户画像标签建模和分析方法、装置、设备及存储介质，用于通过构建用户画像的标签体系和目标模型，提高构建用户画像的效率，同时提高对目标用户打标签的准确率和效率。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中用户画像标签建模和分析方法的一个实施例包括：

101、通过预置方式从预置数据源中抽取数据，得到原始数据，预置方式包括全量抽取方式和增量抽取方式；

服务器通过预置方式从预置数据源中抽取数据，得到原始数据，预置方式包括全量抽取方式和增量抽取方式，其中，预置数据源包括业务数据库和业务文件。具体的，服务器通过预置的数据收集任务从业务数据库和业务文件抽取元数据，并将抽取的元数据统一存储到第一hive数据库中，该第一hive数据库预先部署在Hadoop集群中，第一hive数据库中存储的数据是服务器按照对应的业务存储抽取到的元数据。

需要说明的是，Hadoop提供一个分布式存储***用于存储海量数据，同时在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载方面上的天然优势，Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务发送到多个节点上，之后再以单个数据集的形式加载到数据仓库里。

102、对原始数据进行清洗和合并，得到样本数据；

服务器对原始数据进行清洗和合并，得到样本数据。具体的，服务器确定预置业务主题；服务器根据预置业务主题对抽取到的原始数据进行清洗和合并，得到样本数据；服务器将样本数据入仓到第二hive数据库中。例如，预置业务主题包括承保主题和理赔主题，其中，承保主题划分为保单主题、投保单主题和报价单主题，理赔主题划分为查勘主题、定损主题和理赔主题，服务器根据承包主题和理赔主题抽取对应的原始数据，并对原始数据进行清洗和合并，按照预置业务主题存储样本数据。

需要说明的是，hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供面向对象的查询语言HQL查询功能。

103、从样本数据中提取多维度的目标特征，并对多维度的目标特征进行处理，得到目标对象的属性标签，目标对象和目标对象的属性标签构成目标对象的标签体系，目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

服务器从样本数据中提取多维度的目标特征，并对多维度的目标特征进行处理，得到目标对象的属性标签，目标对象和目标对象的属性标签构成目标对象的标签体系，目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路。具体的，服务器确定目标对象和预置维度特征；服务器根据目标对象和预置维度特征从样本数据中提取多维度的目标特征，并对多维度的目标特征进行聚类处理，得到目标对象的属性标签，属性标签按照预置标签规则进行命名；服务器将目标对象和目标对象的属性标签设置为目标对象的标签体系。

需要说明的是，车辆的基本属性及使用情况会影响到车辆的风险和价值评估；客户的基础属性和行为属性有助于为用户推荐服务；配件工时是从配件整体更换或维修工时两方面进行画像；赔案画像包括事故信息、风险、成本等；道路的属性及路况等对车辆行驶的风险评估具有重要意义。

104、根据目标对象的标签体系构建目标模型，标签体系用于指示根据多维度的目标特征描述对应的目标对象；

服务器根据目标对象的标签体系构建目标模型，标签体系用于指示根据多维度的目标特征描述对应的目标对象。具体的，服务器按照目标对象、主分类、从分类、次分类四级划分的原则对目标对象的属性标签进行管理和扩展，生成目标模型时根据具体的需求场景从对应的分类中选择目标对象的属性标签，例如，根据车辆和配件工时两个对象进行定价建模时，从车辆和配件工时两个对象的标签表中读取标签，再创建定价模型。

可以理解的是，主分类、从分类和次分类是根据实际业务需求预先设置的标签分类，具体此处不做限定，预置标签规则是根据目标对象、主分类、从分类、次分类和目标对象的属性标签进行命名的。

105、通过目标模型对目标业务进行数据挖掘分析，得到分析结果，目标业务为预先根据实际业务需求确定的。

服务器通过目标模型对目标业务进行数据挖掘分析，得到分析结果，目标业务为预先根据实际业务需求确定的，例如，对于到期进行续保的车辆和客户，服务器从车辆标签库及客户标签库中抽取续保标签并构建续保模型，服务器根据续保模型对待续保的用户计算续保难易度，得出续保评分，并根据续保评分为待续保的用户划分续保类型，并输出续保标签，其中，续保类型包括极易续保型、较易续保型、一般续保型、较难续保型和极难续保型，续保标签用于指示描述影响客户续保率的因子top5；服务器根据续保类型和续保标签向目标用户推荐相关业务，续保类型和续保标签为分析结果。

本发明实施例中，通过构建用户画像的标签体系和目标模型，提高构建用户画像的效率，同时提高对目标用户打标签的准确率和效率。

请参阅图2，本发明实施例中用户画像标签建模和分析方法的另一个实施例包括：

201、通过预置方式从预置数据源中抽取数据到第一hive数据库中，得到原始数据，预置方式包括全量抽取方式和增量抽取方式；

服务器通过预置方式从预置数据源中抽取数据到第一hive数据库中，得到原始数据，预置方式包括全量抽取方式和增量抽取方式。具体的，服务器读取配置信息，服务器配置信息用于指示预置数据源来源于业务数据库或者业务文件中；服务器根据配置信息对业务数据库中的静态元数据或者业务文件中的数据进行全量抽取；服务器根据配置信息对业务数据库中的动态元数据进行增量抽取，进一步地，服务器根据业务数据库中元数据更新的频度设定增量抽取周期，例如，对于每天存在交易的保单业务，服务器通过定时任务进行每天抽取动态元数据，而对于按月维护的汇率业务，服务器通过定时任务按月进行抽取动态元数据，具体此处不做限定；服务器根据预置数据格式对抽取的元数据进行数据校验，例如，当通过文件导入元数据进行全量抽取时，服务器校验导入文件的格式是否符合预置导入规则，或者服务器检测元数据的日期格式字段对应的实际数据是否为非日期字符串，具体此处不做限定；服务器对校验后的数据进行冗余处理，并将冗余处理后的数据写入到第一hive数据库中，得到原始数据，其中，冗余处理主要是指剔除重复数据，尤其在元数据增量更新时，对已经抽取过的元数据，并且已经将其作为历史数据存储在第一hive数据库中，则服务器首先删除对应的历史数据，再写入更新的元数据。

需要说明的是，全量抽取是指将预置数据源中的表或视图的静态元数据原封不动的抽取出来，并转换成预置格式的数据；增量抽取是指只抽取自要抽取的表中新增或者修改的动态元数据。

202、对原始数据进行清洗和合并，得到样本数据，并将样本数据入仓到第二hive数据库中；

服务器对原始数据进行清洗和合并，得到样本数据，并将样本数据入仓到第二hive数据库中。具体的，当检测到原始数据中存在脏数据时，服务器清洗脏数据，例如，对于通过文件导入的数据，服务器判断目标日期字段值是否大于预设阈值；若目标日期字段值大于预设阈值，则服务器确定抽取到的元数据中存在脏数据；服务器清洗脏数据；服务器根据预置业务主题对清洗后具有相同数据结构的数据进行合并，得到样本数据，进一步地，服务器对第一hive数据库中不同数据表的数据按照预置业务主题进行相同字段合并和处理，得到样本数据，其中，数据清洗和合并的过程可与数据抽取同时进行，将各种来源并且杂乱无章的数据按照预置业务主题进行字段提取，得到样本数据；服务器将样本数据存储到对应的主题宽表中，主题宽表为第二hive数据库的数据表，也就是服务器将第一hive数据库的数据进行组织形成对应预置业务主题的数据集市层，对于同一个主题宽表，数据可能来源于不同，例如，对于车辆信息，既包括投保成功记录在保单中的信息，也包括未投保成功记录在询价单中的信息，所以服务器将相同结构但来源不同的数据进行合并，并将合并后的数据写入到车辆信息主题宽表中，作为同一个数据源提供给下游业务使用。

需要说明的是，第一hive数据库和第二hive数据库预先部署在Hadoop集群中，Hadoop提供一个分布式存储***用于存储海量数据，同时Hadoop的MapReduce用于对海量数据计算并加载到数据仓库里，hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供面向对象的查询语言HQL查询功能。

203、根据预置画像体系的目标对象从第二hive数据库中读取对应的样本数据，目标对象包括车辆、交互对象、用户、配件工时、赔案和道路；

服务器根据预置画像体系的目标对象从第二hive数据库中读取对应的样本数据，目标对象包括车辆、交互对象、用户、配件工时、赔案和道路，具体的，服务器从预置数据表中读取目标对象的唯一标识，目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路，其中，预置数据表中存储目标对象的唯一标识以及目标对象的名称，例如，服务器从预置数据表中读取预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路对应的唯一标识和名称为(ID_1，vehicle)、(ID_2，inter_object)、(ID_3，user)、(ID_4，task_time)、(ID_5，claim_setting)和(ID_6，road)，唯一标识是标识目标对象的唯一标志，服务器可根据通用唯一标识码或者全局唯一递增的标识进行设置，具体此处不做限定，服务器预先设置目标对象的唯一标识和名称并存储在预置数据表中；服务器根据目标对象的唯一标识和面向对象的查询语言HQL语法规则从第二hive数据库中读取对应的样本数据。

可以理解的是，目标对象与主题宽表存在映射关系，服务器根据目标对象的唯一标识与相应的主题宽表进行关联，服务器根据目标对象的唯一标识查询得到各自对应的样本数据存储的主题宽表；服务器从各自对应的样本数据存储的主题宽表中读取对应的样本数据，例如，对于交互对象的唯一标识为ID_2，服务器从映射关系表中确定主题宽表名称为inter_object，服务器从inter_object表中读取交互对象的样本数据。

204、根据预置算法从读取的样本数据中提取多维度的目标特征；

服务器根据预置算法从读取的样本数据中提取多维度的目标特征。服务器根据预置特征维度从读取的样本数据中提取第一特征；服务器通过训练好的模型对读取的样本数据进行处理，得到第二特征；服务器将第一特征和第二特征进行合并，得到多维度的目标特征。其中，预置特征维度一方面从应用角度整合特征，例如，根据业务需求和业务经验提取影响续保率的特征；另一方面从场景触点中梳理特征，例如，通过对客户在询价环节产生的数据进行分析和提取特征。

需要说明的是，多维度的目标特征包括基本特征和行为特征，基础特征是目标对象的自然属性描述，例如，用户的性别和年龄；行为特征是目标对象的行为产生的特征，例如，投保或者理赔过程产生的特征。

205、根据k均值聚类算法对多维度的目标特征进行聚类分析，得到目标对象的属性标签，属性标签按照预置标签规则进行命名；

服务器根据k均值聚类算法对多维度的目标特征进行聚类分析，得到目标对象的属性标签，属性标签按照预置标签规则进行命名，其中，预置标签规则是指服务器根据目标对象、主分类、从分类、次分类和目标对象的属性标签进行命名，其中，主分类、从分类和次分类是根据实际业务需求预先设置的标签分类，具体此处不做限定。

需要说明的是，k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类；每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；这个过程将不断重复直到满足某个终止条件。其中，终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

206、将目标对象和目标对象的属性标签设置为目标对象的标签体系，并将目标对象的标签体系存储到第二hive数据库中；

服务器将目标对象和目标对象的属性标签设置为目标对象的标签体系，并将目标对象的标签体系存储到第二hive数据库中，具体的，服务器按照目标对象、主分类、从分类和次分类的原则对目标对象的属性标签进行管理和扩展；服务器将目标对象和目标对象的属性标签在逻辑上划分为单独的库，如车辆标签库、客户标签库等。对目标对象的属性标签进行存储时，服务器可以采用第一存储方式和第二存储方式，其中，第一存储方式是指服务器通过第二hive数据库的独立数据表对目标对象、主分类和从分类进行划分存储，并将次分类和目标对象的属性标签设置为具体的标签字段；第二存储方式是指服务器在第二hive数据库中设置为独立数据表存储目标对象、主分类、从分类和次分类，并将目标对象的属性标签设置为字段进行存储。需要说明的是，具体的存储原则需要服务器根据实际场景进行判断后进行选择，服务器判断目标对象分类下的属性标签数据是否大于预置值，若目标对象分类下的标签数据大于预置值，则采用第二存储方式；若分类下的标签数据不大于预置值，则采用第一存储方式。例如，“车辆—使用信息—用车”分类超过300个标签，则服务器使用第二存储方式，服务器采用根据细粒度的分类拆分数据表，属性标签分类和最终字段的对照关系可通过***进行管理。

举例说明，对于车辆的保费规模业务，其标签数据存储层级关系按照目标对象、主分类、从分类、次分类和目标对象的属性标签划分为车辆、使用信息、用车、承保和保费规模。当服务器采用第一存储方式进行存储时，将车辆、使用信息和用车命名为vechile_usetag_use_attr数据表，将承保和保费规模设置为最终字段，命名为ply_prem_tag；当服务器采用第二存储方式进行存储时，将车辆、使用信息、用车和承保命名为vechile_usetag_use_ply_attr数据表，并将保费规模设置为最终字段，命名为prem_tag。

可选的，当检测到存在新增的对象时，服务器确定新增的对象对应的样本数据，服务器根据新增对象对应的样本数据提取标签，并将新增的对象增加到目标对象中；当检测到目标对象的样本数据中存在新增的字段，并且新增的字段值为待提取的标签数据时，服务器对新增的字段进行聚类处理，得到目标对象新增的属性标签；服务器通过预置定时任务对目标对象的属性标签进行优化处理，优化包括将目标对象的属性标签设置为空值或者删除目标对象的属性标签。

207、根据目标对象的标签体系构建目标模型，标签体系用于指示根据多维度的目标特征描述对应的目标对象；

服务器根据目标对象的标签体系构建目标模型，标签体系用于指示根据多维度的目标特征描述对应的目标对象。具体的，服务器读根据预置目标业务从第二hive数据库中抽取目标对象的标签体系，得到属性标签，标签体系用于指示根据多维度的目标特征描述对应的目标对象；将属性标签划分为训练样本数据和参考样本数据；根据训练样本数据和参考样本数据对预置模型进行训练，得到目标模型，预置模型包括深度神经网络模型。

可以理解的是，服务器按照目标对象、主分类、从分类、次分类四级划分的原则对目标对象的属性标签进行管理和扩展，生成目标模型时根据具体的需求场景从对应的分类中选择目标对象的属性标签，例如，根据车辆和配件工时两个对象进行定价建模时，从车辆和配件工时两个对象的标签表中读取标签，再创建定价模型。

208、通过目标模型对目标业务进行数据挖掘分析，得到分析结果，目标业务为预先根据实际业务需求确定的。

服务器通过目标模型对目标业务进行数据挖掘分析，得到分析结果，目标业务为预先根据实际业务需求确定的，其中，数据挖掘分析包括预测，预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测，预测注重精度和不确定性，通常依靠预测方差来度量。例如，对于到期进行续保的车辆和客户，服务器从车辆标签库及客户标签库中抽取续保标签并构建续保模型，服务器根据续保模型对待续保的用户计算续保难易度，得出续保评分，并根据续保评分为待续保的用户划分续保类型，并输出续保标签，其中，续保类型包括极易续保型、较易续保型、一般续保型、较难续保型和极难续保型，续保标签用于指示描述影响客户续保率的因子top5；服务器根据续保类型和续保标签向目标用户推荐相关业务，续保类型和续保标签为分析结果。

上面对本发明实施例中用户画像标签建模和分析方法进行了描述，下面对本发明实施例中用户画像标签建模和分析装置进行描述，请参阅图3，本发明实施例中用户画像标签建模和分析装置的一个实施例包括：

抽取单元301，用于通过预置方式从预置数据源中抽取数据，得到原始数据，预置方式包括全量抽取方式和增量抽取方式；

清洗合并单元302，用于对原始数据进行清洗和合并，得到样本数据；

处理单元303，用于从样本数据中提取多维度的目标特征，并对多维度的目标特征进行处理，得到目标对象的属性标签，目标对象和目标对象的属性标签构成目标对象的标签体系，目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

构建单元304，用于根据目标对象的标签体系构建目标模型，标签体系用于指示根据多维度的目标特征描述对应的目标对象；

分析单元305，用于通过目标模型对目标业务进行数据挖掘分析，得到分析结果，目标业务为预先根据实际业务需求确定的。

请参阅图4，本发明实施例中用户画像标签建模和分析装置的另一个实施例包括：

可选的，处理单元303还可进一步包括：

确定子单元3031，用于从预置数据表中读取目标对象的唯一标识，目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

读取子单元3032，用于根据目标对象的唯一标识和面向对象的查询语言HQL语法规则从第二配置单元hive数据库中读取对应的样本数据；

第一提取子单元3033，用于根据预置算法从读取的样本数据中提取多维度的目标特征；

第一聚类子单元3034，用于根据k均值聚类算法对多维度的目标特征进行聚类分析，得到目标对象的属性标签，属性标签按照预置标签规则进行命名；

设置子单元3035，用于将目标对象和目标对象的属性标签设置为目标对象的标签体系，并将目标对象的标签体系存储到第二hive数据库中。

可选的，第一提取子单元3033还可以具体用于：

根据预置特征维度从读取的样本数据中提取第一特征；

通过训练好的模型对读取的样本数据进行处理，得到第二特征；

将第一特征和第二特征进行合并，得到多维度的目标特征。

可选的，构建单元304还可以具体用于：

根据预置目标业务从第二hive数据库中抽取目标对象的标签体系，得到属性标签，标签体系用于指示根据多维度的目标特征描述对应的目标对象；

将属性标签划分为训练样本数据和参考样本数据；

根据训练样本数据和参考样本数据对预置模型进行训练，得到目标模型，预置模型包括深度神经网络模型。

可选的，抽取单元301还可以具体用于：

读取配置信息，配置信息用于指示预置数据源来源于业务数据库或者业务文件中；

根据配置信息对业务数据库中的静态元数据或者业务文件中的数据进行全量抽取；

根据配置信息对业务数据库中的动态元数据进行增量抽取；

根据预置数据格式对抽取的元数据进行数据校验；

对校验后的数据进行冗余处理，并将冗余处理后的数据写入到第一hive数据库中，得到原始数据。

可选的，清洗合并单元302还可以具体用于：

当检测到原始数据中存在脏数据时，清洗脏数据；

根据预置业务主题对清洗后具有相同数据结构的数据进行合并，得到样本数据；

将样本数据存储到对应的主题宽表中，主题宽表为第二hive数据库的数据表。

可选的，处理单元303还可进一步包括：

第二提取子单元3036，当检测到存在新增的对象时，用于获取新增的对象对应的样本数据，根据新增的对象对应的样本数据提取标签，并将新增的对象增加到目标对象中；

第二聚类子单元3037，当检测到目标对象的样本数据中存在新增的字段，并且新增的字段值为待提取的标签数据时，用于对新增的字段进行聚类处理，得到目标对象新增的属性标签；

优化子单元3038，用于通过预置定时任务对目标对象的属性标签进行优化处理，优化处理包括将目标对象的属性标签设置为空值或者删除目标对象的属性标签。

上面图3和图4从模块化功能实体的角度对本发明实施例中的用户画像标签建模和分析装置进行详细描述，下面从硬件处理的角度对本发明实施例中用户画像标签建模和分析设备进行详细描述。

图5是本发明实施例提供的一种用户画像标签建模和分析设备的结构示意图，该用户画像标签建模和分析设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对用户画像标签建模和分析设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在用户画像标签建模和分析设备500上执行存储介质508中的一系列指令操作。

用户画像标签建模和分析设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作***505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的用户画像标签建模和分析设备结构并不构成对用户画像标签建模和分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户画像标签建模和分析方法，其特征在于，包括：

通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式；

对所述原始数据进行清洗和合并，得到样本数据；

从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；

通过所述目标模型对目标业务进行数据挖掘分析，得到分析结果，所述目标业务为预先根据实际业务需求确定的。

2.根据权利要求1所述的用户画像标签建模和分析方法，其特征在于，所述从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到所述目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路包括：

从预置数据表中读取目标对象的唯一标识，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

根据所述目标对象的唯一标识和面向对象的查询语言HQL语法规则从第二配置单元hive数据库中读取对应的样本数据；

根据预置算法从所述读取的样本数据中提取多维度的目标特征；

根据k均值聚类算法对所述多维度的目标特征进行聚类分析，得到所述目标对象的属性标签，所述属性标签按照预置标签规则进行命名；

将所述目标对象和所述目标对象的属性标签设置为所述目标对象的标签体系，并将所述目标对象的标签体系存储到所述第二hive数据库中。

3.根据权利要求2所述的用户画像标签建模和分析方法，其特征在于，所述根据预置算法从所述读取的样本数据中提取多维度的目标特征包括：

根据预置特征维度从所述读取的样本数据中提取第一特征；

通过训练好的模型对所述读取的样本数据进行处理，得到第二特征；

将所述第一特征和所述第二特征进行合并，得到多维度的目标特征。

4.根据权利要求2所述的用户画像标签建模和分析方法，其特征在于，所述根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象包括：

根据预置目标业务从所述第二hive数据库中抽取所述目标对象的标签体系，得到属性标签，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；

将所述属性标签划分为训练样本数据和参考样本数据；

根据所述训练样本数据和所述参考样本数据对预置模型进行训练，得到目标模型，所述预置模型包括深度神经网络模型。

5.根据权利要求1所述的用户画像标签建模和分析方法，其特征在于，所述通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式包括：

读取配置信息，所述配置信息用于指示预置数据源来源于业务数据库或者业务文件中；

根据所述配置信息对所述业务数据库中的静态元数据或者所述业务文件中的数据进行全量抽取；

根据所述配置信息对所述业务数据库中的动态元数据进行增量抽取；

根据预置数据格式对抽取的元数据进行数据校验；

6.根据权利要求1至5中任一项所述的用户画像标签建模和分析方法，其特征在于，所述对所述原始数据进行清洗和合并，得到样本数据包括：

当检测到所述原始数据中存在脏数据时，清洗所述脏数据；

将所述样本数据存储到对应的主题宽表中，所述主题宽表为所述第二hive数据库的数据表。

7.根据权利要求2所述的用户画像标签建模和分析方法，其特征在于，所述将所述目标对象和所述目标对象的属性标签设置为所述目标对象的标签体系，并将所述目标对象的标签体系存储到所述第二hive数据库中之后，所述用户画像标签建模和分析方法还包括：

当检测到存在新增的对象时，获取所述新增的对象对应的样本数据，根据所述新增的对象对应的样本数据提取标签，并将所述新增的对象增加到所述目标对象中；

当检测到所述目标对象的样本数据中存在新增的字段，并且所述新增的字段值为待提取的标签数据时，对所述新增的字段进行聚类处理，得到所述目标对象新增的属性标签；

通过预置定时任务对所述目标对象的属性标签进行优化处理，所述优化处理包括将所述目标对象的属性标签设置为空值或者删除所述目标对象的属性标签。

8.一种用户画像标签建模和分析装置，其特征在于，所述用户画像标签建模和分析装置包括：

抽取单元，用于通过预置方式从预置数据源中抽取数据，得到原始数据，所述预置方式包括全量抽取方式和增量抽取方式；

清洗合并单元，用于对所述原始数据进行清洗和合并，得到样本数据；

处理单元，用于从所述样本数据中提取多维度的目标特征，并对所述多维度的目标特征进行处理，得到所述目标对象的属性标签，所述目标对象和所述目标对象的属性标签构成所述目标对象的标签体系，所述目标对象包括预置画像体系中的车辆、交互对象、用户、配件工时、赔案和道路；

构建单元，用于根据所述目标对象的标签体系构建目标模型，所述标签体系用于指示根据所述多维度的目标特征描述对应的目标对象；

分析单元，用于通过所述目标模型对目标业务进行数据挖掘分析，得到分析结果，所述目标业务为预先根据实际业务需求确定的。

9.一种用户画像标签建模和分析设备，其特征在于，所述用户画像标签建模和分析设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述用户画像标签建模和分析设备执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。