CN118132856B

CN118132856B - 一种基于大数据的智能分析方法及***

Info

Publication number: CN118132856B
Application number: CN202410552535.3A
Authority: CN
Inventors: 邱元; 张博玮; 赵诚诚
Original assignee: Nanjing Ziheng Digital Technology Co ltd
Current assignee: Nanjing Ziheng Digital Technology Co ltd
Priority date: 2024-05-07
Filing date: 2024-05-07
Publication date: 2024-07-02
Anticipated expiration: 2044-05-07
Also published as: CN118132856A

Abstract

本发明涉及大数据分析技术领域，公开了一种基于大数据的智能分析方法及***，方法包括：获取用户历史数据，进行用户特征提取以及特征融合，通过机器学***台上的浏览满意度和使用黏性。

Description

一种基于大数据的智能分析方法及***

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于大数据的智能分析方法及***。

背景技术

随着互联网技术的发展，内容推荐***在多个平台上得到广泛应用，如新闻、社交媒体和电子商务等。通过对用户的行为进行记录和分析，可以深入了解用户的偏好、习惯和需求，从而为用户提供更加个性化的服务和产品。数据分析是指通过适当的统计分析方法对采集来的大量数据进行分析，并提取有用信息和形成结论，加以详细分析的过程，通过对数据的观察和分析，可以帮助做出更明智的抉择、优化业务流程、识别趋势和机会，来提升绩效和效益。

然而，用户行为数据的维度多样、数量庞大且不断更新，现有的推荐***虽能处理简单的推荐任务，但往往缺乏足够的个性化处理能力，难以准确捕捉用户的多样化和深层次需求，从而影响用户体验和平台的用户粘性。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。因此，本发明提供了一种基于大数据的智能分析方法解决如何对用户进行个性化处理推荐，捕捉用户的多样化和深层次需求的问题。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明提供了一种基于大数据的智能分析方法，包括：

获取用户历史数据，并进行数据预处理；

基于所述预处理的用户历史数据，进行用户特征提取以及特征融合，通过机器学习算法构建用户偏好推荐模型并训练，得到用户偏好的初步推荐结果；

获取用户实际行为数据，与用户的初步推荐结果进行比较，并对用户偏好推荐模型进行评估与优化；

基于优化的推荐模型，输出用户实际推荐结果，对用户进行内容精准展示，并分析用户的转化率。

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：获取用户历史数据包括：

获取网络平台数据库中每个用户对象属性数据以及历史行为数据；

对所述历史行为数据进行数据清洗，包括，对数据进行缺失值的删除和填充，对异常值进行平滑处理，计算数据间的相似度识别重复记录，选择保留一个代表记录或合并重复项的信息，并进行标准化以及统一数据的格式，形成用户属性数据集以及用户行为数据集；

对所述用户行为数据集建立时间行为序列，并根据时间行为序列，对行为数据集划分为训练数据集以及测试数据集。

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：提取所述用户特征包括：

对所述用户属性数据集以及用户行为数据集提取用户关键特征；

提取所述用户对象属性数据集特征，包括：用户对象年龄、性别、地域、以及职业类型，并对用户属性进行分类，进行编码生成用户属性特征向量；

提取所述用户行为数据集特征，包括：用户对象的浏览记录、点击行为、页面停留时间、行为时间间隔、点赞评论行为、收藏行为以及分享行为；

所述行为数据集的每个浏览记录对应唯一的内容ID，每个内容ID包含多个内容标签集合，提取特征，包括内容关键词、内容类别以及内容热度，进行量化表示生成内容特征向量；

根据提取的所述行为数据集的特征，进行数据量化，获取用户行为特征向量，包括用户点击次数、页面停留时间、行为时间间隔、用户点赞评论次数、收藏动作以及分享次数；

根据所述用户属性特征向量与内容特征向量获得关联规则，并获取所述关联规则的支持度以及置信度的值，根据预设的支持度阈值和置信度阈值，将小于支持度阈值和置信度阈值的关联规则删除，得到最终的关联规则，并计算关联规则权重，表示为：

其中，表示用户和内容的关联规则集合，、分别是规则中的用户属性特征子集和内容特征子集，、分别表示规则对应的置信度、支持度，表示调整支持度影响的指数参数。

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：所述特征融合包括：

基于所述关联规则权重，对用户属性特征向量、内容特征向量以及用户行为特征向量生成交互特征，并进行特征融合，生成用户-内容特征矩阵；

其中，各特征向量表示为：

其中，表示用户数，表示用户属性值，表示内容数，表示内容特征值，表示行为特征值；

对于用户以及内容，从用户行为特征向量中提取对应的用户行为特征向量，生成交互特征;

根据用户属性特征向量、内容特征向量以及交互特征，进行特征融合，生成用户-内容特征矩阵，表示为：

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：构建用户偏好推荐模型包括：

基于所述用户-内容特征矩阵，通过机器学习算法构建用户偏好推荐模型并训练，对于用户以及内容，预测得分表示为：

其中，表示用户对所有内容的全局偏好，表示内容相对用户的吸引力，表示用户隐因子矩阵，表示内容隐因子矩阵，表示隐因子数，、分别为用户在第个隐因子上的值以及内容在第个隐因子上的值，为用户的邻居用户集合，为邻居用户在第个隐因子上的影响因子；

通过所述训练数据集对模型进行训练，优化模型参数；

根据用户的候选的内容中，按预测得分结果进行降序排列，选取前个内容生成推荐列表，得到用户偏好的初步推荐结果。

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：对用户偏好推荐模型进行评估与优化包括：

通过所述测试数据集，获取用户下一步实际行为动作数据，得到已知评分的用户-内容集合，并计算用户的实际评分；

定义损失函数，以优化用户偏好推荐模型，表示为：

其中，表示已知评分的用户-内容集合，表示实际评分，表示Frobenius范数，表示L2范数，为正则化系数；

通过梯度下降优化算法求解、、、，以最小化损失函数。

作为本发明所述的基于大数据的智能分析方法的一种优选方案，其中：输出所述用户实际推荐结果包括：

通过优化的用户偏好推荐模型，对目标用户群体进行预测，生成每位用户的个性化推荐内容；

根据推荐内容信息，设计并实现推荐界面，在用户访问时实时呈现个性化推荐内容，并判断推荐内容是否存在重复，若存在则进行删减；

实时收集对推荐内容的用户行为追踪，记录用户的行为数据，计算转化率并分析平台总体转化率趋势，所述转化率包括用户访问率以及转化增值率；

所述用户访问率通过用户对根据排序的推荐内容的点击次数、页面停留时间、用户点赞评论次数的数据进行加权计算获取。

所述转化增值率通过用户对根据排序的推荐内容的收藏动作以及分享次数的数据进行加权计算获取。

第二方面，本发明提供了一种基于大数据的智能分析***，包括，

收集模块，用于获取用户历史数据，并进行数据预处理；

模型构建模块，用于基于所述预处理的用户历史数据，进行用户特征提取以及特征融合，通过机器学习算法构建用户偏好推荐模型并训练，得到用户偏好的初步推荐结果；

优化模块，用于获取用户实际行为数据，与用户的初步推荐结果进行比较，并对用户偏好推荐模型进行评估与优化；

输出模块，用于基于优化的推荐模型，输出用户实际推荐结果，对用户进行内容精准展示，并分析用户的转化率。

第三方面，本发明提供了一种电子设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现所述基于大数据的智能分析方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现所述基于大数据的智能分析方法的步骤。

与现有技术相比，本发明的有益效果：本发明通过用户历史数据的深度挖掘、特征提取与融合，以及机器学***台上的浏览满意度和使用黏性，能够提高关键的转化增值率，降低无效推广成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一个实施例所述的基于大数据的智能分析方法的整体流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

参照图1，为本发明的一个实施例，提供了一种基于大数据的智能分析方法，如图1，包括：

S101，获取用户历史数据，并进行数据预处理。

在本实施例中，优选的，获取用户历史数据包括：

对历史行为数据进行数据清洗，包括，对数据进行缺失值的删除和填充，对异常值进行平滑处理，计算数据间的相似度识别重复记录，选择保留一个代表记录或合并重复项的信息，并进行标准化以及统一数据的格式，形成用户属性数据集以及用户行为数据集；

对用户行为数据集建立时间行为序列，并根据时间行为序列，对行为数据集划分为训练数据集以及测试数据集，其中按时间线排序，划分比例为8：2。

需要说明的是，数据清理和数据整合是数据预处理的重要环节，检查数据集的整体情况，识别数据质量问题，如缺失值、异常值、重复记录、格式不一致、逻辑错误等。其中，缺失值处理，如删除含有缺失值的记录、使用平均值、中位数、众数填充、插值法（如线性插值、多项式插值）、基于模型预测填充等，使用统计方法（如箱线图、Z-score、马氏距离等）或领域知识识别异常值，决定是否删除、替换或修正异常值，统一数据格式（如日期、数字、字符串），转换非标准格式为标准格式，确保数据的一致性。

S102，基于预处理的用户历史数据，进行用户特征提取以及特征融合，通过机器学习算法构建用户偏好推荐模型并训练，得到用户偏好的初步推荐结果。

进一步的，提取用户特征包括：

对用户属性数据集以及用户行为数据集提取用户关键特征；

提取用户对象属性数据集特征，包括：用户对象年龄、性别、地域、以及职业类型，并对用户属性进行分类，进行编码生成用户属性特征向量，优选的，年龄分段：将年龄划分为多个年龄段，如青少年、青年、中年、老年；性别编码：将性别映射为二元编码（0/1）；地域分类：依据行政级别、地理区域或文化特性对地域进行分类；职业类别：根据行业对职业进行分类。

提取用户行为数据集特征，包括：用户对象的浏览记录、点击行为、页面停留时间、行为时间间隔、点赞评论行为、收藏行为以及分享行为，优选的，从历史行为数据中提取用户访问偏好的各项指标作为特征；

行为数据集的每个浏览记录对应唯一的内容ID，每个内容ID包含多个内容标签集合，提取特征，包括内容关键词、内容类别以及内容热度，进行量化表示生成内容特征向量，优选的，针对每个内容ID，提取其内容关键词、内容类别及内容用户属性作为特征，使用TF-IDF方法对关键词进行量化表示，内容类别与用户属性同样进行编码处理；

根据提取的行为数据集的特征，进行数据量化，获取用户行为特征向量，三维张量，其中第一个维度代表用户，第二个维度代表内容，第三个维度代表行为特征，包括用户点击次数、页面停留时间、行为时间间隔、用户点赞评论次数、收藏动作以及分享次数等，每个用户-内容在中对应一个维向量；

根据用户属性特征向量与内容特征向量获得关联规则，并获取关联规则的支持度以及置信度的值，根据预设的支持度阈值和置信度阈值，将小于支持度阈值和置信度阈值的关联规则删除，得到最终的关联规则，并计算关联规则权重，表示为：

需要说明的是，通过使用关联规则在用户属性特征与内容特征之间寻找有意义的关联规则，关联规则通过支持度（Support）和置信度（Confidence）衡量指标进行计算，设置合适的最小支持度阈值与最小置信度阈值，分别为0.2和0.6。

更进一步的，基于关联规则权重，对用户属性特征向量、内容特征向量以及用户行为特征向量生成交互特征，并进行特征融合，生成用户-内容特征矩阵，其中，将提取的用户属性特征、内容特征与行为特征进行融合，构建用户-内容特征矩阵，特征矩阵的行代表用户，列代表特征，元素值为对应特征的量化值；

其中，各特征向量表示为：

其中，表示用户数，表示用户属性值，包括年龄、性别、地域、职业类型等编码后的特征维度，表示内容数，表示内容特征值，包括关键词权重、内容类别编码、内容热度，表示行为特征值；

根据用户属性特征向量、内容特征向量以及交互特征，进行特征融合，生成用户-内容特征矩阵，作为推荐模型的输入数据，记录用户对内容的历史交互信息，表示为：

其中，表示将用户的属性特征向量与内容的特征向量按列拼接，则进一步将用户-内容交互特征向量拼接到后。

进一步的，根据数据分布情况，可以进行特征缩放，对拼接后的特征向量进行标准化或归一化处理，以确保不同特征间的尺度一致性。

在本实施例中，构建用户偏好推荐模型并使用训练数据集进行训练，基于用户-内容特征矩阵，通过机器学习算法构建用户偏好推荐模型并训练，对于用户以及内容，预测得分表示为：

其中，表示用户对所有内容的全局偏好，表示内容相对用户的吸引力，表示用户隐因子矩阵，每一行代表一个用户，每一列代表一个隐因子，表示内容隐因子矩阵，每一行代表一个内容，每一列代表一个隐因子，表示隐因子数，、分别为用户在第个隐因子上的值以及内容在第个隐因子上的值，为用户的邻居用户集合，为邻居用户在第个隐因子上的影响因子；

通过训练数据集对模型进行训练，直至达到预定的训练轮数，优化模型参数；

需要说明的是，通过特征提取、关联规则挖掘以及模型构建等步骤，从预处理后的用户属性数据与历史行为数据中提炼关键信息，最终构建用户偏好推荐模型，能够提高推荐***的准确性与用户满意度。

S103，获取用户实际行为数据，与用户的初步推荐结果进行比较，并对用户偏好推荐模型进行评估与优化。

具体的，通过测试数据集，获取用户下一步实际行为动作数据，这些数据应与初步推荐结果中对应的内容进行匹配，得到已知评分的用户-内容集合，并计算用户的实际评分；

定义损失函数，以优化用户偏好推荐模型，表示为：

其中，表示已知评分的用户-内容集合，表示实际评分，表示Frobenius范数，表示L2范数，为正则化系数，通过引入正则化项以防止过拟合；

通过梯度下降优化算法求解、、、，以最小化损失函数，持续迭代优化推荐模型。

在测试集上应用训练好的模型，计算各项评估指标，如准确率、召回率、F1分数，全面评价模型性能。

优选的，根据业务需求，选择推荐准确度指标，包括Precision@K、Recall@K、NDCG@K等，定量评估推荐模型对用户实际行为的推荐预测能力，统计并分析指标值，找出推荐误差较大的情况及其特征，包括特定用户群体、特定内容类别、特定时间段等，影响因素包括但不限于：特征选择不当、模型参数不合理、用户行为动态变化等；

根据误差分析结果，调整或增加特征，优选的，加入更多用户属性、内容属性，或构造新的交互特征，并且进行模型参数调整以及模型的权重分配，以提高整体推荐效果。

通过优化后的模型在验证集上重新计算推荐准确度指标，若指标值提升，说明优化策略有效，将优化策略应用于整个模型。

S104，基于优化的推荐模型，输出用户实际推荐结果，对用户进行内容精准展示，并分析用户的转化率。

进一步的，通过优化的用户偏好推荐模型，对目标用户群体进行预测，生成每位用户的个性化推荐内容；

根据推荐内容信息，设计并实现推荐界面，在用户访问时实时呈现个性化推荐内容，展示方式根据用户体验和业务逻辑，优选的，包括滑动卡片、瀑布流、排行榜等形式，并判断推荐内容是否存在重复，若存在则进行删减；

实时收集对推荐内容的用户行为追踪，记录用户的行为数据，包括浏览记录、点击行为、页面停留时间、行为时间间隔、点赞评论行为、收藏行为以及分享行为，计算转化率并分析平台总体转化率趋势，转化率包括用户访问率以及转化增值率；

用户访问率通过用户对根据排序的推荐内容的点击次数、页面停留时间、用户点赞评论次数的数据进行加权计算获取。

转化增值率通过用户对根据排序的推荐内容的收藏动作以及分享次数的数据进行加权计算获取。

进一步的，根据转化率分析结果，建立数据反馈循环，定期评估转化率变化，监控推荐模型的长期效果，并及时调整优化策略。

需要说明的是，利用优化后的推荐模型生成个性化的推荐结果，并通过精准展示吸引用户进行互动，同时收集用户行为数据计算转化率，进行深度分析以识别优化点，最终通过持续优化提升内容推荐的整体效果。

本发明通过用户历史数据的深度挖掘、特征提取与融合，以及机器学***台上的浏览满意度和使用黏性，能够提高关键的转化增值率，降低无效推广成本，提升营销效率。

上述为本实施例的一种基于大数据的智能分析方法的示意性方案。需要说明的是，该基于大数据的智能分析***的技术方案与上述的基于大数据的智能分析方法的技术方案属于同一构思，本实施例中基于大数据的智能分析***的技术方案未详细描述的细节内容，均可以参见上述基于大数据的智能分析方法的技术方案的描述。

本实施例中基于大数据的智能分析***，包括：

收集模块，用于获取用户历史数据，并进行数据预处理；

模型构建模块，用于基于预处理的用户历史数据，进行用户特征提取以及特征融合，通过机器学习算法构建用户偏好推荐模型并训练，得到用户偏好的初步推荐结果；

本实施例还提供一种电子设备，适用于基于大数据的智能分析的情况，包括：

存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的实现基于大数据的智能分析方法。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现基于大数据的智能分析方法。

本实施例提出的存储介质与上述实施例提出的实现基于大数据的智能分析方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(ReadOnly ，Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

参照表1-表2，为本发明的一个实施例，提供了一种基于大数据的智能分析方法，为了验证其有益效果，提供了两种方案的对比结果。

通过本发明方法对网络平台用户进行内容推荐测试，比较应用本发明方法前后对比数据，见表1，对反馈转化结果进行数据对比参照，在实验前进行用户反馈数据收集，在实施本发明后，对同一批用户再次进行用户反馈数据收集。

表1：应用本发明方法前后对比数据表

反馈转化指标	应用前	应用后
			***响应时间/s	2.5	1.2
推荐更新周期/天	5	2
			用户访问率（%）	63	92
转化增值率（%）	57	85
			用户留存率（%）	71	95
用户内容匹配度（%）	62	91

通过表1可以看出，本发明在多个反馈转化性能指标上展现了显著的改善，包括推荐更新周期、用户访问率、转化增值率、用户留存率以及用户内容匹配度，根据对推荐内容产生的用户行为，包括点击次数、页面停留时间、用户点赞评论次数、是否收藏以及分享次数，进行加权计算得到效率值进行比较，同时根据用户平均行为时间间隔得到的用户留存率也明显提升，用户调查以及用户访问情况得到的用户内容匹配度明显更优，表明了本发明在提升推荐内容与用户实际需求的匹配度，使推荐更加精准，极大地提升用户在平台上的浏览满意度和使用黏性。

其次，通过本发明方法与传统大数据分析推荐方法进行实验模拟对比，得到两种方法的实验对比数据，见表2。

表2：两种方法的实验对比数据表

实验指标	传统方法	本发明方法
			***平均响应时间/s	1.78	1.2
维护成本/元/月	10000	4000
			内容平均点击次数	367	522
内容平均页面停留时间/min	2.4	4.8
			用户平均点赞评论次数	216	472
用户平均转发次数	158	315
			推荐排序与用户转化正向系数	0.62	0.83
用户留存率（%）	82	95
			用户内容匹配度（%）	74	91

从表2可以看出，其提供更全面更细化的数据来展示本发明相较于传统方法的改进。特别是在用户后期行为的用户粘性方面，本发明显示出显著的优势，这进一步证明了其在用户大数据偏好分析和推送的有效性。

应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据的智能分析方法，其特征在于，包括：

获取用户历史数据，并进行数据预处理；

基于优化的推荐模型，输出用户实际推荐结果，对用户进行内容精准展示，并分析用户的转化率；

其中，获取用户历史数据包括：

对所述用户行为数据集建立时间行为序列，并根据时间行为序列，对行为数据集划分为训练数据集以及测试数据集；

提取所述用户特征包括：

根据所述用户属性特征向量与内容特征向量获得关联规则，并获取所述关联规则的支持度以及置信度的值，根据预设的支持度阈值和置信度阈值，将小于支持度阈值和置信度阈值的关联规则删除，得到最终的关联规则，并计算关联规则权重，表示为：其中，表示用户和内容的关联规则集合，、分别是规则中的用户属性特征子集和内容特征子集，、分别表示规则对应的置信度、支持度，表示调整支持度影响的指数参数；

所述特征融合包括：

其中，各特征向量表示为：

；

构建用户偏好推荐模型包括：

其中，表示用户对所有内容的全局偏好，表示内容相对用户的吸引力，W表示用户隐因子矩阵，表示内容隐因子矩阵，表示隐因子数，、分别为用户在第个隐因子上的值以及内容在第个隐因子上的值，为用户的邻居用户集合，为邻居用户在第个隐因子上的影响因子；

通过所述训练数据集对模型进行训练，优化模型参数；

2.如权利要求1所述的基于大数据的智能分析方法，其特征在于，对用户偏好推荐模型进行评估与优化包括：

定义损失函数，以优化用户偏好推荐模型，表示为：

通过梯度下降优化算法求解、、、，以最小化损失函数。

3.如权利要求2所述的基于大数据的智能分析方法，其特征在于，输出所述用户实际推荐结果包括：

所述用户访问率通过用户对根据排序的推荐内容的点击次数、页面停留时间、用户点赞评论次数的数据进行加权计算获取；

4.一种基于大数据的智能分析***，基于如权利要求1-3任一所述的基于大数据的智能分析方法，其特征在于，包括，

收集模块，用于获取用户历史数据，并进行数据预处理；

5.一种电子设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至3任意一项所述基于大数据的智能分析方法的步骤。

6.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至3任意一项所述基于大数据的智能分析方法的步骤。