CN115061994A

CN115061994A - 样本分组优化方法、装置、设备及存储介质

Info

Publication number: CN115061994A
Application number: CN202210585746.8A
Authority: CN
Inventors: 严正; 刘鹏; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-16

Abstract

本发明涉及数据处理技术领域，公开了一种样本分组优化方法、装置、设备及存储介质。本方法包括：通过构建的样本数据集，确定样本数据集中每个样本数据的分组数据；根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。本发明通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

Description

样本分组优化方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种样本分组优化方法、装置、设备及存储介质。

背景技术

在工程实践中，有时需要从一些分组中取组合，从含有N个元素的分组中取两两组合，总的组合数量与分组内的元素个数N大体呈二次方的关系。这种关系有时不是我们想要的，比如在深度学习中，期望的样本数量要兼顾不同分组和分组内的元素数量，即分组内的元素越多，所取的组合数量可以更多，但不能以二次方增多，否则元素数量少的分组在训练中所占的权重就太小了。

综上所述，若直接对每个分组取完全组合，则每个分组取出的组合数量与分组内的元素个数大体呈二次方的关系，有时不是我们想要的。如果对元素个数较多的分组取完全组合后，再随机抽取一部分，则会占用较多的存储和计算资源。比如一个分组内有10万个元素，则完全组合的数量是45亿对，会占用较多的存储和计算资源。且随机抽取的方法导致组合内的元素有较大的不确定性，不能充分利用元素的多样性。因此，如何对当前分组方式进行优化，等概率地使用所有元素，同时又占用较少存储和计算资源，成了本领域技术人员需要解决的技术问题。

发明内容

本发明的主要目的是通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

本发明第一方面提供了一种样本分组优化方法，包括：从预设数据库中获取预设字段对应的元素作为样本数据集；基于所述样本数据集，构建所述样本数据集中每个所述样本数据的分组数据；根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据；根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据；获取所述目标分组数据的特征值组合，并基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签；基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组。

可选地，在本发明第一方面的第一种实现方式中，所述构建所述样本数据集中每个所述样本数据的分组数据包括：根据所述样本数据确定对应的中心数据；基于所述中心数据和预设的浮动区间，构建所述样本数据集中每个所述样本数据的分组数据。

可选地，在本发明第一方面的第二种实现方式中，所述根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据包括：将所述分组数据中包含的元素的个数、所述样本数据和所述分组数据中的元素按照预设的方式进行排列组合，得到所述发散数据。

可选地，在本发明第一方面的第三种实现方式中，所述根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据包括：获取所述样本数据集的预设聚合条件；基于所述预设聚合条件对所述发散数据进行统计分析，得到所述样本数据集的目标分组数据。

可选地，在本发明第一方面的第四种实现方式中，所述获取所述目标分组数据的特征值组合包括：获取携带所述元素对应特征的预设特征组合模板；对所述特征组合模板中的各特征和所述属性数据，确定所述目标分组数据在所述特征上的表现数据；得到所述表现数据与对所述特征预设的基准数据的比值，并将所述比值确定为所述特征对应的特征值；将各所述特征值，按照对应特征在所述特征组合模板中的顺序进行排列，得到所述目标分组数据的特征值组合。

可选地，在本发明第一方面的第五种实现方式中，所述基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签包括：针对预定时间段内每一分组的特征值组合，确定其中每个特征值与所述目标分组的特征值组合中相应特征值的差的绝对值，并确定所有所述绝对值的平均值；确定预定时间段内每个分组的特征值组合中，所述平均值最小的特征值组合；将所述平均值最小的特征值组合对应的标签，作为所述目标分组数据的标签。

可选地，在本发明第一方面的第六种实现方式中，所述基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组包括：确定所述目标分组数据的标签与预设的分组标签集中标签相同的标签数；将所述相同的标签数除以所述目标分组数据的标签总数，得到所述目标分组数据的标签与所述预设的分组标签集的匹配值；如果所述匹配值大于或等于预定阈值，则将所述目标分组数据加入对应分组中。

本发明第二方面提供了一种样本分组优化装置，包括：获取模块，用于从预设数据库中获取预设字段对应的元素作为样本数据集；构建模块，用于基于所述样本数据集，构建所述样本数据集中每个所述样本数据的分组数据；拆解模块，用于根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据；计算模块，用于根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据；确定模块，用于获取所述目标分组数据的特征值组合，并基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签；匹配模块，用于基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组。

可选地，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：根据所述样本数据确定对应的中心数据；基于所述中心数据和预设的浮动区间，构建所述样本数据集中每个所述样本数据的分组数据。

可选地，在本发明第二方面的第二种实现方式中，所述拆解模块具体用于：将所述分组数据中包含的元素的个数、所述样本数据和所述分组数据中的元素按照预设的方式进行排列组合，得到所述发散数据。

可选地，在本发明第二方面的第三种实现方式中，所述计算模块包括：获取单元，用于获取所述样本数据集的预设聚合条件；分析单元，用于基于所述预设聚合条件对所述发散数据进行统计分析，得到所述样本数据集的目标分组数据。

可选地，在本发明第二方面的第四种实现方式中，所述确定模块具体用于：获取携带所述元素对应特征的预设特征组合模板；对所述特征组合模板中的各特征和所述属性数据，确定所述目标分组数据在所述特征上的表现数据；得到所述表现数据与对所述特征预设的基准数据的比值，并将所述比值确定为所述特征对应的特征值；将各所述特征值，按照对应特征在所述特征组合模板中的顺序进行排列，得到所述目标分组数据的特征值组合。

可选地，在本发明第二方面的第五种实现方式中，所述确定模块具体还用于：针对预定时间段内每一分组的特征值组合，确定其中每个特征值与所述目标分组的特征值组合中相应特征值的差的绝对值，并确定所有所述绝对值的平均值；确定预定时间段内每个分组的特征值组合中，所述平均值最小的特征值组合；将所述平均值最小的特征值组合对应的标签，作为所述目标分组数据的标签。

可选地，在本发明第二方面的第六种实现方式中，所述匹配模块具体用于：确定所述目标分组数据的标签与预设的分组标签集中标签相同的标签数；将所述相同的标签数除以所述目标分组数据的标签总数，得到所述目标分组数据的标签与所述预设的分组标签集的匹配值；如果所述匹配值大于或等于预定阈值，则将所述目标分组数据加入对应分组中。

本发明第三方面提供了一种样本分组优化设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述样本分组优化设备执行上述的样本分组优化方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的样本分组优化方法的各个步骤。

本发明提供的技术方案中，通过构建的样本数据集，确定样本数据集中每个样本数据的分组数据；根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。本发明通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

附图说明

图1为本发明提供的样本分组优化方法的第一个实施例示意图；

图2为本发明提供的样本分组优化方法的第二个实施例示意图；

图3为本发明提供的样本分组优化方法的第三个实施例示意图；

图4为本发明提供的样本分组优化方法的第四个实施例示意图；

图5为本发明提供的样本分组优化方法的第五个实施例示意图；

图6为本发明提供的样本分组优化装置的第一个实施例示意图；

图7为本发明提供的样本分组优化装置的第二个实施例示意图；

图8为本发明提供的样本分组优化设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种样本分组优化方法、装置、设备及存储介质，本发明的技术方案中，首先通过构建的样本数据集，确定样本数据集中每个样本数据的分组数据；根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。本发明通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中样本分组优化方法的第一个实施例包括：

101、从预设数据库中获取预设字段对应的元素作为样本数据集；

本实施例中，样本数据集是指用于作为数据分组依据的多个样本数据，且样本数据集由数据表中同一字段的记录组成，可以直接从数据仓库的数据表中根据预设字段的名称，采用结构查询语言(SQL)导出预设字段对应的记录，作为样本数据集。在一个实际应用场景中，企业为了预估潜在客户的商业价值，首先需要将潜在客户与存量客户进行匹配以确定潜在客户的所属组别，在确定了相应的组别的基础上，进行更为细致准确的商业价值预估。其中的用于作为数据分组依据的多个样本数据组成为样本数据集，示例性地，多个样本数据可以是城市，行业，类型，注册资本等预设字段对应的记录，需要说明的是，为了保证数据分组的准确性，本实施例中的样本数据集可以是多个预设字段对应的记录的组合，以保证用于作为数据分组依据的多个样本数据的全面完整性。

102、基于样本数据集，构建样本数据集中每个样本数据的分组数据；

本实施例中，分组数据是用于确定样本数据所属组别的区间范围内数据作为元素的数组，且分组数据为一维数组，即该数组为一行多列，例如，ΔP0为以预设区间长度，P0为任意常数，在实数轴上以P0为起点分别往正方向和负方向按ΔP0划分区间，形成分组数据I，I的表达式为：

I＝{arrayi＝[Pi,Pi+1],ΔP0＝Pi+1-Pi,i∈Z}

具体地，以步骤S101中的注册资本作为待分组数据为例，若每个样本数据为P0，若P0＝5.0，ΔP0为1，且分组数据中的元素个数为7，则分组数据中包含的元素对应的数值为：arrayi(P0-3,P0-2,P0-1,P0,P0+1,P0+2,P0+3)。

103、根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；

本实施例中，数据仓库工具是指Hive，是一种基于Hadoop构建的一套数据仓库分析***，用于将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，即将SQL或者HQL转换为MapReduce程序，以便后续基于MapReduce程序进行分析统计等处理。数据拆解是指将分组区间数组中的元素通过与分组区间数组中包含的元素的个数和样本数据进行组合后，再分散到分组区间数组的其它行中的数据处理过程，用于实现对样本数据和分组区间数组的发散映射，避免通过导入映射表进行关联操作。可以理解地，分组区间数组为一行多列的一维数组，通过对分组区间数组中的元素进行数据拆解后，形成多行多列数组，因此，拆解后得到发散数据为二维数组，以便后续基于该发散数据进行聚合计算。进一步地，该发散数据的获取是直接通过数据拆解得到，从而避免了传统的多表关联的复杂操作，提高了获取发散数据的效率。

具体地，可以通过数据仓库工具Hive中的LATERAL VIEW函数并结合explode函数，实现将一行数据即分组区间数据中的元素拆解成多行数据，以便后续可以对拆分后的数据进行聚合。以表一中的分组区间数据为例，数据拆解过程为：将arrayi列值与其他列值(如product class的列值、P0的列值)组合排列，由于explode函数不能和数据表的其他字段连接，因此需要将arrayi对应的列值与分组区间数组中包含的元素的个数以及样本数据(如分组区间数据中的其他任意一类数据)关联到一起。从而实现与其他字段关联组合进行统计分析。并且LATERAL VIEW函数可以解除explode不能和数据表的其他字段连接的使用限制，LATERAL VIEW函数首先将UDTF应用于分组区间数据的一行元素，然后将结果输出行连接到输入行，以形成具有提供的表别名的临时表，且临时表只对当前session有效，session退出后，临时表自动删除，通过临时表的方式，将需要手动的数据表隐藏到SQL代码自动运算过程中，避免了手动连接，优化了代码运行效率，简化了逻辑，同时减少了对分组区间数据的反复遍历。进一步地，对于本实施例中多个样本数据对应的多个区间分组，可以将多个LATERAL VIEW函数叠加使用，以便效减少代码量提升工作和计算效率。

104、根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；

本实施例中，目标分组数据是指样本数据集中各个分组对应的区间。具体地，将每个发散数据合并，通过聚合条件对应的聚合语句对合并后的发散数据进行count()，sum()等统计聚合运算，得到样本数据集的目标分组数据，例如通过聚合语句over(order bysalaryrange between 5preceding and 5following)表示为目标分组数据为当前行数据幅度减5加5后的范围内的聚合计算的结果。

105、获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；

本实施例中，目标分组的特征值组合是指，对预先定义的有关目标分组特征的组合，按照预定的规则，从相关数据中确定出每一特征对应的特征值，将所述特征值按照特征组合的顺序进行排列，所得到的数值组合。

由于特征值组合是从数值层面反映了对应分组，在属性、业务、事件上的表现，因此，可以通过特征值组合间的对比，确定与目标分组最为相似的分组，并将该分组的标签确定为目标分组的标签。

在一实施例中，预先对特定时间段内(例如，当前时间点上周的星期一)，日志中记录的每个分组，确定其特征值组合，并根据特征值组合为分组贴上对应的标签。将每个分组的特征值组合作为一个样本，预先贴好的标签作为对应的样本的标签。将样本输入机器学习模型，由机器学习模型输出对样本进行判定的标签，如果判定的标签与预先贴好的标签不一致，则调整机器学习模型的参数，再将标签输入机器学习模型，使机器学习模型输出对样本进行判定的标签，不断迭代，直到判定的标签与预先贴好的标签一致，这样，完成了机器学习模型的训练。需要确定目标分组的标签时，将目标分组的行为特征值组合输入训练完毕的机器学习模型，将机器学习模型输出的标签作为目标分组的标签。

106、基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。

本实施例中，基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。具体地，预先对特定时间段内(例如，当前时间点上周的星期一)，日志中记录的每个用户，确定其特征值组合，并根据特征值组合为用户贴上对应的标签。将每个用户的特征值组合作为一个样本，预先贴好的标签作为对应的样本的标签。将样本输入机器学习模型，由机器学习模型输出对样本进行判定的标签，如果判定的标签与预先贴好的标签不一致，则调整机器学习模型的参数，再将标签输入机器学习模型，使机器学习模型输出对样本进行判定的标签，不断迭代，直到判定的标签与预先贴好的标签一致，这样，完成了机器学习模型的训练。需要确定目标用户的标签时，将目标用户的行为特征值组合输入训练完毕的机器学习模型，将机器学习模型输出的标签作为目标用户的标签。

本发明实施例中，通过构建的样本数据集，确定样本数据集中每个样本数据的分组数据；根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。本发明通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

请参阅图2，本发明实施例中样本分组优化方法的第二个实施例包括：

201、从预设数据库中获取预设字段对应的元素作为样本数据集；

202、根据样本数据确定对应的中心数据；

本实施例中，中心数据是指区间范围大小位于中心位置的数据，可以根据样本的数据大小确定中心数据，如将样本数据取整后作为中心数据，或者直接将样本数据作为中心数据。预设的浮动区间是指包含有样本数据的变化的区间范围，例如，预设的浮动区间为正负5范围内的整数值，因此，分组区间数据由中心数据和中心数据与浮动区间的和值以及差值组成。具体地，分组区间数组可以通过自定义UDF函数来构建，也可以通过结构查询语句构建。通过构建分组区间数组，从而避免对数据表的导入操作，提升了对样本数据处理的效率。

203、基于中心数据和预设的浮动区间，构建样本数据集中每个样本数据的分组数据；

本实施例中，根据样本数据确定对应的中心数据；基于中心数据和预设的浮动区间，构建分组区间数组，避免对数据表的导入操作，提升了对样本数据处理的效率。

204、将分组数据中包含的元素的个数、样本数据和分组数据中的元素按照预设的方式进行排列组合，得到发散数据；

本实施例中，将分组区间数组中包含的元素的个数、样本数据和分组区间数组中的元素按照预设的方式进行排列组合，得到发散数据。其中，预设的方式是指预先设定的元素合并方式，例如根据元素的映射关系进行数组合并。具体地，将分组区间数组中包含的元素个数作为一列元素，样本数据作为另一列元素，分组区间数组中的元素作为又一列元素，将该三列元素合并为一个数组，得到发散数据，通过排列组合的方式，避免了数据表的连接，优化了代码运行效率，简化了逻辑，同时减少了对分组区间数据的反复遍历，减少了代码量并且提升了计算效率。

205、根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；

206、获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；

207、基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。

本实施例中步骤201、205-207与第一实施例中的步骤101、104-106类似，此处不再赘述。

请参阅图3，本发明实施例中样本分组优化方法的第三个实施例包括：

301、从预设数据库中获取预设字段对应的元素作为样本数据集；

302、基于样本数据集，构建样本数据集中每个样本数据的分组数据；

303、根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；

304、获取样本数据集的预设聚合条件；

本实施例中，预设的聚合条件是指对数据进行聚合分析的规则，如统计相同数据的个数，取平均值，求和等运算规则，可以是其中的一种运算规则，也可以是几种运算规则的组合，具体可根据聚合需求设定。

305、基于预设聚合条件对发散数据进行统计分析，得到样本数据集的目标分组数据；

本实施例中，具体地，按照预设聚合条件对发散数组进行统计分析，例如对发散数组中的相同元素进行统计后，并进行排序，根据排序结果确定样本数据集的目标分组数据。可以理解地，根据聚合条件对发散数组进行聚合计算，避免了对数据的冗余分析，快速地确定了目标分组数据。

本实施例中，获取样本数据集的预设聚合条件，按照预设聚合条件对发散数组进行统计分析，避免了对数据的冗余分析，快速地确定了目标分组数据。

306、获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；

307、基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。

本实施例中步骤301-302、306-307与第一实施例中的步骤101-103、105类似，此处不再赘述。

请参阅图4，本发明实施例中样本分组优化方法的第四个实施例包括：

401、从预设数据库中获取预设字段对应的元素作为样本数据集；

402、基于样本数据集，构建样本数据集中每个样本数据的分组数据；

403、根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；

404、根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；

405、获取携带元素对应特征的预设特征组合模板；

本实施例中，预设的特征组合模板为：【现居住地、购买产品金额、累计活跃时间长度】。对“现居住地”这一行为特征，预设的基准数据为“市中心半径5公里”。从分组的属性数据中得到，分组现居住地距市中心7公里，则将分组在“现居住地”上的表现数据确定为7公里。用表现数据除以基准数据，得到分组在“请求频率”上的特征值为1.4。同理，从分组的业务数据中得到分组在“购买产品金额”上的表现数据，并除以对“购买产品金额”预设的基准数据，得到分组在“购买产品金额”上的特征值为0.7；从分组的事件数据中得到分组在“累计活跃时间长度”上的表现数据，并除以对“累计活跃时间长度”预设的基准数据，得到分组在“累计活跃时间长度”上的特征值为2.1。则得到，目标分组的特征值组合为【1.4、0.7、2.1】。

406、对特征组合模板中的各特征和属性数据，确定目标分组数据在特征上的表现数据；

本实施例中，各特征对应的基准数据是预先设定好的，基准数据的作用在于作为数据分析的参考。由于各分组对同一特征的基准数据是一致的，因此，基准数据如何设定并不会影响对各分组数据的分析结果。

407、得到表现数据与对特征预设的基准数据的比值，并将比值确定为特征对应的特征值；

本实施例中，得到表现数据与对特征预设的基准数据的比值，并将比值确定为特征对应的特征值。从用户的业务数据中得到用户在“购买产品金额”上的表现数据，并除以对“购买产品金额”预设的基准数据，得到用户在“购买产品金额”上的特征值为0.7；从用户的事件数据中得到用户在“累计活跃时间长度”上的表现数据，并除以对“累计活跃时间长度”预设的基准数据，得到用户在“累计活跃时间长度”上的特征值为2.1。则得到，目标用户的特征值组合为【1.4、0.7、2.1】。

408、将各特征值，按照对应特征在特征组合模板中的顺序进行排列，得到目标分组数据的特征值组合；

本实施例中，将各特征值，按照对应特征在特征组合模板中的顺序进行排列，得到目标分组数据的特征值组合。具体地，各特征对应的基准数据是预先设定好的，基准数据的作用在于作为数据分析的参考。由于各用户对同一特征的基准数据是一致的，因此，基准数据如何设定并不会影响对各用户数据的分析结果。

该实施例的优点在于，通过预设作为标准参考的基准数据，能够对各用户的特征进行统一、精确的分析。

409、针对预定时间段内每一分组的特征值组合，确定其中每个特征值与目标分组的特征值组合中相应特征值的差的绝对值，并确定所有绝对值的平均值；

本实施例中，预先对特定时间段内(例如，当前时间点上周的星期一)，日志中记录的每个分组，按照上述实施例中确定特征值组合的方法，确定其特征值组合，并根据特征值组合为分组贴上对应的标签。例如：分组A的特征值组合为【0.8、1.9、1.7】，预先贴上的标签为“购买产品金额巨大”、“活跃”；分组B的特征值组合为【2.1、0.7、1.9】，预先贴上的标签为“远离市中心”、“活跃”；分组C的特征值组合为【0.7、1.1、1.4】，预先贴上的标签为“购买产品金额常规”、“轻微活跃”。目标分组的特征值组合为【1.1、2.1、1.5】，则其与分组A相应特征值的差的绝对值的平均值为：(|1.1-0.8|+|2.1-1.9|+|1.5-1.7|)/3＝0.23。同理，与分组B相应特征值的差的绝对值的平均值为0.93，与分组C相应特征值的差的绝对值的平均值为0.5。

410、确定预定时间段内每个分组的特征值组合中，平均值最小的特征值组合；

本实施例中，其中，平均值最小的特征值组合为【0.8、1.9、1.7】，对应的标签为“购买产品金额巨大”、“活跃”，则将标签“购买产品金额巨大”、“活跃”作为目标分组的标签。

411、将平均值最小的特征值组合对应的标签，作为目标分组数据的标签；

本实施例中，预先对特定时间段内(例如，当前时间点上周的星期一)，日志中记录的每个分组，按照上述实施例中确定特征值组合的方法，确定其特征值组合，并根据特征值组合为分组贴上对应的标签。例如：分组A的特征值组合为【0.8、1.9、1.7】，预先贴上的标签为“购买产品金额巨大”、“活跃”；分组B的特征值组合为【2.1、0.7、1.9】，预先贴上的标签为“远离市中心”、“活跃”；分组C的特征值组合为【0.7、1.1、1.4】，预先贴上的标签为“购买产品金额常规”、“轻微活跃”。目标分组的特征值组合为【1.1、2.1、1.5】，则其与分组A相应特征值的差的绝对值的平均值为：(|1.1-0.8|+|2.1-1.9|+|1.5-1.7|)/3＝0.23。同理，与分组B相应特征值的差的绝对值的平均值为0.93，与分组C相应特征值的差的绝对值的平均值为0.5。其中，平均值最小的特征值组合为【0.8、1.9、1.7】，对应的标签为“购买产品金额巨大”、“活跃”，则将标签“购买产品金额巨大”、“活跃”作为目标分组的标签。

该实施例的优点在于，能够快速匹配出与目标分组最接近的分组，进而将该分组的标签确定为目标分组的标签。

412、基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。

本实施例中步骤401-404、412与第一实施例中的步骤101-104、106类似，此处不再赘述。

请参阅图5，本发明实施例中样本分组优化方法的第五个实施例包括：

501、从预设数据库中获取预设字段对应的元素作为样本数据集；

502、基于样本数据集，构建样本数据集中每个样本数据的分组数据；

503、根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；

504、根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；

505、获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；

506、确定目标分组数据的标签与预设的分组标签集中标签相同的标签数；

本实施例中，，对分组A预设的匹配值阈值为70％。目标用户的标签有10个，其中有8个标签都在分组A的标签集中，由此得到的匹配值为80％，大于预定阈值，因此将该目标用户加入分组A中。

507、将相同的标签数除以目标分组数据的标签总数，得到目标分组数据的标签与预设的分组标签集的匹配值；

本实施例中，将相同的标签数除以目标分组数据的标签总数，得到目标分组数据的标签与预设的分组标签集的匹配值。

在一实施例中，基于所述目标用户的特征值组合、预定时间段内每个用户的特征值组合及对应的标签，确定所述目标用户的标签之后，包括：基于预设的标签转换表，对所述目标用户的标签进行通用化处理，其中，所述标签转换表描述了各标签对应的通用化标签。

该实施例中，主***从子***处获取目标用户的标签后，根据标签转换表，将目标用户的标签转换为通用化标签。例如，从子***出获取的目标用户的标签为：“居住地频发骗保事件”“购买自然险金额巨大”。主***根据标签对目标用户进行分组前，会根据标签转换表将标签进行通用化处理：“居住地频发骗保事件”转换为“高风险居住地”；“购买自然险金额巨大”转换为“购买产品金额巨大”。其中，对标签进行通用化处理并不仅限于单个标签的转换，还可以包括对多个标签的合并处理。

508、如果匹配值大于或等于预定阈值，则将目标分组数据加入对应分组中。

本实施例中步骤501-505与第一实施例中的101-105类似，此处不再赘述。

在本发明实施例中，通过构建的样本数据集，确定样本数据集中每个样本数据的分组数据；根据分组数据中包含的元素的个数和样本数据，对元素进行数据拆解，得到发散数据；根据发散数据，对样本数据进行聚合计算，得到样本数据集的目标分组数据；获取目标分组数据的特征值组合，并基于特征值组合和预设时间段内每个元素的特征值组合，确定目标分组数据的标签；基于目标分组数据的标签和预设分组标签的匹配结果，对目标分组数据进行分组。本发明通过对当前分组方式进行优化，解决了元素组合过程中无法等概率地使用所有元素，同时又占用较少存储和计算资源的技术问题。

上面对本发明实施例中样本分组优化方法进行了描述，下面对本发明实施例中样本分组优化装置进行描述，请参阅图6，本发明实施例中样本分组优化装置的第一个实施例包括：

获取模块601，用于从预设数据库中获取预设字段对应的元素作为样本数据集；

构建模块602，用于基于所述样本数据集，构建所述样本数据集中每个所述样本数据的分组数据；

拆解模块603，用于根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据；

计算模块604，用于根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据；

确定模块605，用于获取所述目标分组数据的特征值组合，并基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签；

匹配模块606，用于基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组。

请参阅图7，本发明实施例中样本分组优化装置的第二个实施例，该样本分组优化装置具体包括：

本实施例中，所述获取模块601具体用于：

根据所述样本数据确定对应的中心数据；

基于所述中心数据和预设的浮动区间，构建所述样本数据集中每个所述样本数据的分组数据。

本实施例中，所述拆解模块603具体用于：

将所述分组数据中包含的元素的个数、所述样本数据和所述分组数据中的元素按照预设的方式进行排列组合，得到所述发散数据。

本实施例中，所述计算模块604包括：

获取单元6041，用于获取所述样本数据集的预设聚合条件；

分析单元6042，用于基于所述预设聚合条件对所述发散数据进行统计分析，得到所述样本数据集的目标分组数据。

本实施例中，所述确定模块605具体用于：

获取携带所述元素对应特征的预设特征组合模板；

对所述特征组合模板中的各特征和所述属性数据，确定所述目标分组数据在所述特征上的表现数据；

得到所述表现数据与对所述特征预设的基准数据的比值，并将所述比值确定为所述特征对应的特征值；

将各所述特征值，按照对应特征在所述特征组合模板中的顺序进行排列，得到所述目标分组数据的特征值组合。

本实施例中，所述确定模块605具体还用于：

针对预定时间段内每一分组的特征值组合，确定其中每个特征值与所述目标分组的特征值组合中相应特征值的差的绝对值，并确定所有所述绝对值的平均值；

确定预定时间段内每个分组的特征值组合中，所述平均值最小的特征值组合；

将所述平均值最小的特征值组合对应的标签，作为所述目标分组数据的标签。

本实施例中，所述匹配模块606具体用于：

确定所述目标分组数据的标签与预设的分组标签集中标签相同的标签数；

将所述相同的标签数除以所述目标分组数据的标签总数，得到所述目标分组数据的标签与所述预设的分组标签集的匹配值；

如果所述匹配值大于或等于预定阈值，则将所述目标分组数据加入对应分组中。

上面图6和图7从模块化功能实体的角度对本发明实施例中的样本分组优化装置进行详细描述，下面从硬件处理的角度对本发明实施例中样本分组优化设备进行详细描述。

图8是本发明实施例提供的一种样本分组优化设备的结构示意图，该样本分组优化设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对样本分组优化设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在样本分组优化设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的样本分组优化方法的步骤。

样本分组优化设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作***831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的样本分组优化设备结构并不构成对本申请提供的样本分组优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述样本分组优化方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本分组优化方法，其特征在于，所述样本分组优化方法包括：

从预设数据库中获取预设字段对应的元素作为样本数据集；

基于所述样本数据集，构建所述样本数据集中每个所述样本数据的分组数据；

根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据；

根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据；

获取所述目标分组数据的特征值组合，并基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签；

基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组。

2.根据权利要求1所述的样本分组优化方法，其特征在于，所述构建所述样本数据集中每个所述样本数据的分组数据包括：

根据所述样本数据确定对应的中心数据；

3.根据权利要求1所述的样本分组优化方法，其特征在于，所述根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据包括：

4.根据权利要求1所述的样本分组优化方法，其特征在于，所述根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据包括：

获取所述样本数据集的预设聚合条件；

基于所述预设聚合条件对所述发散数据进行统计分析，得到所述样本数据集的目标分组数据。

5.根据权利要求1所述的样本分组优化方法，其特征在于，所述获取所述目标分组数据的特征值组合包括：

获取携带所述元素对应特征的预设特征组合模板；

6.根据权利要求1所述的样本分组优化方法，其特征在于，所述基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签包括：

7.根据权利要求1-6中任一项所述的样本分组优化方法，其特征在于，所述基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组包括：

8.一种样本分组优化装置，其特征在于，所述样本分组优化装置包括：

获取模块，用于从预设数据库中获取预设字段对应的元素作为样本数据集；

构建模块，用于基于所述样本数据集，构建所述样本数据集中每个所述样本数据的分组数据；

拆解模块，用于根据所述分组数据中包含的元素的个数和所述样本数据，对所述元素进行数据拆解，得到发散数据；

计算模块，用于根据所述发散数据，对所述样本数据进行聚合计算，得到所述样本数据集的目标分组数据；

确定模块，用于获取所述目标分组数据的特征值组合，并基于所述特征值组合和预设时间段内每个元素的特征值组合，确定所述目标分组数据的标签；

匹配模块，用于基于所述目标分组数据的标签和预设分组标签的匹配结果，对所述目标分组数据进行分组。

9.一种样本分组优化设备，其特征在于，所述样本分组优化设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述样本分组优化设备执行如权利要求1-7中任一项所述的样本分组优化方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的样本分组优化方法的各个步骤。