CN117314553A

CN117314553A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN117314553A
Application number: CN202311191654.2A
Authority: CN
Inventors: 张泽; 吉晶; 陈乐�; 陈卓; 尚晶
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-29

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质，属于产品推荐技术领域。本发明获取当前信令数据和当前用户属性数据；将当前信令数据进行融合，得到时空统计特征数据；将当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征；基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征；将目标时空信息特征和目标用户基础属性特征输入至成功率预测模型，得到用户属性；根据用户属性进行产品推荐，成功率预测模型为解码器结构更新后的结构，可以提取到不同模态特征深层的联系，从而更有效的对特征进行融合和提取，适用多种产品推荐场景，提高产品推荐的效果。

Description

数据处理方法、装置、设备及存储介质

技术领域

本发明涉及产品推荐技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着社会的发展，人们的生活水平不断提高，对于智能化的服务需求也趋于多元化，例如保险服务，社会通过提供各类养老保险服务，减轻养老压力，并促进社会稳定与经济发展，由此，为达到服务高效到位，高效地营销显得尤为重要。要实现高效推荐，就需要精准分配推荐资源，而精准分配推荐资源的关键就在于如何精准预测出潜在客户的推荐成功概率。要达到上述目标，就需要对相关的数据进行挖掘与分析，识别出潜在客户的推荐成功概率。

现有的数据处理方法中，对***分析的数据基础有限。现阶段，对于保险或银行等提供养老保险服务产品的重点行业，大都局限于各数据***内已有的用户基础，对于未接触的潜在市场用户则无法获取更多信息，导致预测模型的泛化性与准确性受到限制，产品推荐的效果较差。

发明内容

本发明的主要目的在于提供一种数据处理方法、装置、设备及存储介质，旨在解决现有技术中进行产品推荐准确性较低的技术问题。

为实现上述目的，本发明提供了一种数据处理方法，所述方法包括以下步骤：

获取当前信令数据和当前用户属性数据；

将所述当前信令数据进行融合，得到时空统计特征数据；

将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征；

基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征；

将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括多层编码器、多层解码器以及多层感知器，所述编码器和所述解码器中均包括多头注意力机制和前馈神经网络的组合；

根据所述用户属性进行产品推荐。

可选地，所述将所述目标时空信息特征和所述目标用户基础属性特征输入至预设保险营销成功率预测模型，得到用户属性之前，还包括：

获取样本时空信息特征数据和样本用户基础属性特征数据；

获取表征用户属性的可学习样本向量；

将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型。

可选地，所述将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型，包括：

将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征；

将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量；

将所述样本结果向量输入至多层感知器进行概率计算，得到样本用户属性概率结果；

计算所述样本用户属性概率结果的损失值，并在所述损失值小于预设损失阈值时，完成模型的训练，构建成功率预测模型。

可选地，所述将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征，包括：

对所述样本时空信息特征数据进行位置编码，得到位置编码后的样本时空信息特征数据；

将位置编码后的样本时空信息特征数据以及所述样本用户基础属性特征数据进行拼接，得到样本拼接矩阵；

将所述样本拼接矩阵输入至编码器的多头注意力机制进行融合处理，得到样本融合拼接矩阵；

将所述样本融合拼接矩阵输入至编码器的前馈神经网络进行特征提取，得到样本高层语义特征。

可选地，所述将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量，包括：

将所述样本高层语义特征和所述可学习样本向量进行拼接，得到第一样本输入矩阵；

将所述第一样本输入矩阵输入至解码器中解码器模块的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征；

将所述样本多模态特征进行向量提取，得到第一样本特征向量；

将所述第一样本特征向量和所述样本高层语义特征进行拼接，得到第二样本输入矩阵；

基于所述第二样本输入矩阵返回所述将所述第一样本输入矩阵输入至解码器中的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征的步骤，直至遍历所述解码器中的解码器模块，得到样本结果向量。

可选地，所述基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征，包括：

将所述时空统计特征数据划分为预设数量的时间段；

计算每个时间段的时空统计特征与前一时间段的时空统计特征之间的欧式距离，得到各统计特征的相似度的计算结果；

将所述相似度与预设相似度阈值进行比较，在所述相似度大于预设相似度阈值时，将对应的时空统计特征作为冗余时空特征；

将所述冗余时空特征从所述时空统计特征中剔除，得到目标时空信息特征。

可选地，所述根据所述用户属性进行产品推荐包括：

根据所述用户属性确定产品推荐成功率；

将所述产品推荐成功率进行排序，并根据排序结果将产品推荐成功率对应的用户划分为多个等级；

基于划分的等级制定不同的产品推荐策略，并根据产品推荐策略进行产品推荐。

此外，为实现上述目的，本发明还提出一种数据处理装置，所述数据处理装置包括：

获取模块，用于获取当前信令数据和当前用户属性数据；

融合模块，用于将所述当前信令数据进行融合，得到时空统计特征数据；

映射模块，用于将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征；

计算模块，用于基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征；

输入模块，用于将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括多层编码器、多层解码器以及多层感知器，所述编码器和所述解码器中均包括多头注意力机制和前馈神经网络的组合；

推荐模块，用于根据所述用户属性进行产品推荐。

此外，为实现上述目的，本发明还提出一种数据处理设备，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序配置为实现如上文所述的数据处理方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。

本发明获取当前信令数据和当前用户属性数据；将所述当前信令数据进行融合，得到时空统计特征数据；将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征；基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征；将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括编码器、解码器以及多层感知器，所述编码器由多层编码器模块组成，所述解码器由多层解码器模块组成，所述编码器模块和所述解码器模块中均包括多头注意力机制和前馈神经网络的组合；根据所述用户属性进行产品推荐。本发明中的成功率预测模型结构包括编码器、解码器以及多层感知器，解码器结构与原始解码器的序列输入输出不同，可更有效准确地输出预测结果，可以提取到不同模态特征深层的联系，从而更有效的对特征进行融合和提取，适用多种产品推荐场景，提高产品推荐的效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的数据处理设备的结构示意图；

图2为本发明数据处理方法第一实施例的流程示意图；

图3为本发明数据处理方法一实施例的整体流程示意图；

图4为本发明数据处理方法第二实施例的流程示意图；

图5为本发明数据处理方法一实施例的对信令数据和用户基础属性数据进行预处理的流程示意图；

图6为本发明数据处理方法第三实施例的流程示意图；

图7为本发明数据处理方法一实施例的进行模型训练的过程示意图；

图8为本发明数据处理方法第四实施例的流程示意图；

图9为本发明数据处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的数据处理设备结构示意图。

如图1所示，该数据处理设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据处理程序。

在图1所示的数据处理设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明数据处理设备中的处理器1001、存储器1005可以设置在数据处理设备中，所述数据处理设备通过处理器1001调用存储器1005中存储的数据处理程序，并执行本发明实施例提供的数据处理方法。

本发明实施例提供了一种数据处理方法，参照图2，图2为本发明数据处理方法第一实施例的流程示意图。

本实施例中，所述数据处理方法包括以下步骤：

步骤S10：获取当前信令数据和当前用户属性数据。

需要说明的是，本实施例的执行主体可为进行数据处理设备，还可为其他可实现相同或相似的设备，本实施例对此不作限制，本实施例以进行数据处理设备为例进行说明。

现有方案基于用户基础属性相似度来对用户进行分群。基于用户基础属性相似度只能在粗略地对用户群体进行分群，依照这种分群方法来判断用户营销成功率缺乏对多维信息的考虑，并且有着数据残缺不全的问题。无法在考虑多方面因素的前提下精准识别潜在客户的营销成功率。

因此，本申请通过引入多模态的数据，借助跨行业的大量信令数据与用户基础属性数据相结合，通过行业间在可靠可信、用户隐私保护的前提下进行融合应用。

可以理解的是，信令数据可为手机信令数据、电脑信令数据等，还可包括其他场景的无线信令数据，本实施例对此不作限制。例如当前信令数据为用户的手机信令数据，当前信令数据即通过手机用户在基站之间的信息交换来确定用户的空间位置，能相对准确的记录人流的时空轨迹。信令数据可以在时空维度上表征一个人的行为特征，对用户行为的分析具有积极意义。当前用户属性数据可包括用户基本信息，例如性别、年龄、星级、教育学历、入网时长等。

本实施例中当前信令数据为原始信令数据处理后的数据，原始的信令数据通常数据量庞大，并且可能掺杂部分冗余、重复以及缺失不全的数据。因此，需要首先对原始的信令数据进行数据清洗，数据清洗的步骤包括剔除重复值以及剔除缺失值。具体地，剔除重复值表现为对重复多条数据的数据保留最新时间的唯一数据，剔除缺失值表现为不保留缺失时间维度信息或者空间维度信息的数据，从而得到当前信令数据。

步骤S20：将所述当前信令数据进行融合，得到时空统计特征数据。

应理解的是，在进行数据清洗后得到的当前信令数据，数据量依然庞大，因此可将多条信令数据进行融合，从而形成高维信息的时空统计特征数据，可通过设置时间段对信令数据进行融合，例如每10min统计一次信令数据，将1h统计的信令数据进行融合。

对于某一个时间点t过去Δt时间段的信令统计特征s_Δt可以表示为下式1：

s_t-Δt～t＝{s₁,s₂,s₃,...,s_n} (式1)

式1中，s_n表示当前时段在i基站/区域活动的频率，然后，把当前时间t过去的n段Δt时间的信令统计特征表示为下式2：

A_n,Δt＝{s_{t-(n-1)Δt～t-(n-2)Δt},s_{t-(n-2)Δt～t-(n-3)Δt},...,s_t-Δt～t} (式2)

式2中，n与Δt的取值可以灵活设定，从而得到不同粒度与不同时间跨度的用户时空维度特征，一系列连续时间段的时空统计特征可以表示为下式3：

上式3中，t_i表示一系列连续时间段中的第i个时间段，表示这一时间段对应的统计特征。

步骤S30：将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征。

需要说明的是，当前用户属性数据多为年龄、性别与工作性质等离散变量，因此可按照预设编码策略对当前用户属性数据进行处理，预设编码策略可为One-hot编码形式，从而采用One-hot编码形式将当前用户属性数据映射为统一维度的特征，最终形成目标用户基础属性特征。

步骤S40：基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征。

需要说明的是，时空统计特征数据是按照连续的同等长度时间段均匀统计出来的，而通常情况下，按照这种方式得到的时空统计特征会有很多冗余信息，比如一个人很可能会在自己的工作地点与居住地点滞留较长时间。这种冗余信息会在一定程度上影响时空特征对人物行为的描述能力，因此需要对这种冗余信息进行处理，则可计算各统计特征的相似度，从而根据计算结果得到目标时空信息特征。

步骤S50：将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括多层编码器、多层解码器以及多层感知器，所述编码器和所述解码器中均包括多头注意力机制和前馈神经网络的组合。

在具体实施中，成功率预测模型可提前建立得到，成功预测率模型表征了时空信息特征和用户基础属性特征与用户属性之间的映射关系或关联关系，用户属性对应了对用户进行产品推荐的成功率。

本实施例的成功率预测模型中包括多层编码器、多层解码器以及多层感知器，多层编码器和多层解码器由多头注意力机制和前馈神经网络组合得到。

考虑到Transformer编解码器结构可以高效融合多模态的特征，成功预测率模型基于Transformer编解码器结构设计，其中，在编码器阶段对不同特征进行融合提取，在解码器阶段得到高层语义的属性输出。由于原本的Transformer解码器结构是一个需要多次顺序输入输出的seq2seq结构，因此本发明修改了原本的解码器结构，从而根据更新的解码器结构进行模块训练，得到成功预测率模型。

步骤S60：根据所述用户属性进行产品推荐。

需要说明的是，在得到用户属性后，可得到***的产品推荐成功的概率，例如***的养老保险推荐成功的概率，从而进行产品推荐，例如根据用户属性将各个用户的产品推荐成功概率进行对应的产品推荐。

可选地，在得到用户属性后，可根据用户属性制定不同的推荐策略，则步骤S60包括：根据所述用户属性确定产品推荐成功率；将所述产品推荐成功率进行排序，并根据排序结果将产品推荐成功率对应的用户划分为多个等级；基于划分的等级制定不同的产品推荐策略，并根据产品推荐策略进行产品推荐。

需要说明的是，用户属性表征了产品推荐成功率，则根据用户属性确定产品推荐成功率，并根据产品推荐成功率的高低，将产品推荐成功率进行排序，从而将对应的潜在客户划分为不同的等级，从而制定不同的产品推荐策略，例如针对高概率人群，适当节省营销资源，减轻优惠力度，针对中低概率人群适当增配营销资源，加大优惠力度，根据手机信令数据更新的特点，可以定时更新潜在客户的养老保险推荐成功概率，动态改变推荐产品资源配置策略，支撑业务部门合理分配与利用营销资源。

如图3所示，图3为数据处理方法的整体流程示意图，通过获取原始数据，即进行模型训练的数据，包括信令数据以及人物属性数据，分别对信令数据以及人物属性数据进行预处理，得到时空信息特征和任务基础属性信息特征，并将时空信息特征和任务基础属性信息特征以及收集的原始用户属性进行模型训练，将时空信息特征和任务基础属性信息特征输入编码器进行特征融合，将特征融合后的数据以及原始用户属性输入至解码器，从而构建成功率预测模型，并通过成功率预测模型进行预测以及资源分配，将实时信令数据输入至成功率预测模型进行预测。

本实施例通过获取当前信令数据和当前用户属性数据；将所述当前信令数据进行融合，得到时空统计特征数据；将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征；基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征；将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括多层编码器、多层解码器以及多层感知器，所述编码器和所述解码器中均包括多头注意力机制和前馈神经网络的组合；根据所述用户属性进行产品推荐。本实施例中的成功率预测模型结构包括多层编码器、多层解码器以及多层感知器，解码器结构与原始解码器的序列输入输出不同，可更有效准确地输出预测结果，可以提取到不同模态特征深层的联系，从而更有效的对特征进行融合和提取，适用多种产品推荐场景，提高产品推荐的效果。

参考图4，图4为本发明数据处理方法第二实施例的流程示意图。

基于上述第一实施例，本实施例数据处理方法在所述步骤S50之前，还包括：

步骤S41：获取样本时空信息特征数据和样本用户基础属性特征数据。

需要说明的是，可通过提前收集样本数据建立成功率预测模型，样本数据具体包括样本信令数据、样本用户基础属性数据以及样本用户属性数据。

可通过对样本信令数据和样本用户基础属性数据进行预处理得到样本时空信息特征数据和样本用户基础属性特征数据。

如图5所示，图5为对信令数据和用户基础属性数据进行预处理的流程示意图，通过将原始信令数据进行数据清洗，得到统计特征A，并将统计特征A进行自适应关键时间段选取，得到时空信息特征A，将用户属性数据进行One-hot编码，得到用户基础属性信息特征B。

步骤S42：获取表征用户属性的可学习样本向量。

表征用户属性的可学习样本向量即为样本用户属性数据，样本用户属性数据为对以往销售信息与市场调查信息得到的标签值，表征了历史的产品推荐成功率。每一个可学习样本向量都代表一个需要被预测的用户属性，例如养老保险推销成功概率。

步骤S43：将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型。

在收集到样本时空信息特征数据、样本用户基础属性特征数据以及可学习样本向量后，可通过样本时空信息特征数据、样本用户基础属性特征数据以及可学习样本向量进行模型训练，从而构建成功率预测模型。例如将样本时空信息特征数据、样本用户基础属性特征数据以及可学习样本向量输入至初始模型，通过对初始模型进行模型训练，直至训练结果满足要求，得到成功率预测模型。

本实施例通过获取样本时空信息特征数据和样本用户基础属性特征数据；获取表征用户属性的可学习样本向量；将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型，通过提前构建成功率预测模型，从而在进行产品推荐时，直接将获取的数据输入至成功率预测模型，快速输出用户属性，提高数据处理效率。

参考图6，图6为本发明数据处理方法第三实施例的流程示意图。

基于上述第一和第二实施例，本实施例数据处理方法所述步骤S43，具体包括：

步骤S431：将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征。

需要说明的是，初始模型中可设置有编码器、解码器以及多层感知器，从而可将样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征。

进一步地，将样本时空信息特征数据和样本用户基础属性特征数据输入值编码器进行特征融合提取的步骤具体包括：对所述样本时空信息特征数据进行位置编码，得到位置编码后的样本时空信息特征数据；将位置编码后的样本时空信息特征数据以及所述样本用户基础属性特征数据进行拼接，得到样本拼接矩阵；将所述样本拼接矩阵输入至编码器的多头注意力机制进行融合处理，得到样本融合拼接矩阵；将所述样本融合拼接矩阵输入至编码器的前馈神经网络进行特征提取，得到样本高层语义特征。

应理解的是，针对具有时序性质的样本时空信息特征数据，需要对其进行嵌入位置编码以便编码器结构可以成功提取出时空信息特征中的动态行为信息，因此可对样本时空信息特征数据进行位置编码，位置编码可如下式4：

式4中，表示位置t的位置编码，d表示编码的维度，即时空信息特征中向量的维度，/>通过对样本时空信息特征数据进行位置编码，得到位置编码后的样本时空信息特征数据A，A∈R^m×d。

在具体实施中，通过将样本时空信息特征数据A和样本用户基础属性特征数据B，B∈R^n×d进行拼接，得到样本拼接矩阵X，X∈R^(m+n)×d，将样本拼接矩阵X输入编码器结构的多模态特征，先令X经过编码器的多头注意力机制进行融合，从而得到样本融合拼接矩阵，并将样本融合拼接矩阵输入前馈神经网络FFN对特征进行进一步提取，多头注意力机制和前馈神经网络FFN组合为一个编码器模型，将若干个编码器模型进行堆叠形成编码器结构，针对样本拼接矩阵X，编码器阶段表示如下式5：

式5中，代表经过Transformer编码器特征融合与特征提取的样本高层语义特征。从而通过编码器对特征进行更有效的融合和提取。

步骤S432：将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量。

由于Transformer解码器本身是一个服务于自然语言处理任务的seq2seq结构，因此原始的Transformer解码器采用的是一种递归的输入输出结构，即每一次的输出会作为下一次计算的输入，循环这个过程来得到一串连贯的文本序列，而在本实施例中，构建的成功率预测模型的输出主要为预测出的用户属性，这种输出结构不需要严格的排列，结果与结果之间也没有严格的前后顺序，因此本发明提出一种可以并行计算的Transformer解码器结构。

初始模型中的解码器的输入为编码器输出的样本高层语义特征以及可学习样本向量，通过将可学习样本向量以及样本高层语义特征输入至解码器进行并行计算，从而得到样本结果向量。

在将样本高层语义特征输入至解码器前，可为Transformer解码器设置一组可学习样本向量P＝{p_i},i＝0,1,...n，其中，每一个query样本向量p_i∈R^d都代表一个需要被预测的用户属性，如养老保险推荐成功概率。

可选地，将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量的步骤具体包括：将所述样本高层语义特征和所述可学习样本向量进行拼接，得到第一样本输入矩阵；将所述第一样本输入矩阵输入至解码器中解码器模块的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征；将所述样本多模态特征进行向量提取，得到第一样本特征向量；将所述第一样本特征向量和所述样本高层语义特征进行拼接，得到第二样本输入矩阵；基于所述第二样本输入矩阵返回所述将所述第一样本输入矩阵输入至解码器中的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征的步骤，直至遍历所述解码器中的解码器模块，得到样本结果向量。

需要说明的是，将样本高层语义特征和可学习样本向量进行拼接融合，得到第一样本输入矩阵K∈R^(m+n+k)×d，其中k代表query向量的数量。

可为第一输入矩阵设置三组可学习的权重矩阵和一个融合矩阵，从而使第一输入矩阵在输入至解码器模块的多头注意力机制以及前馈神经网络进行特征提取和融合，权重矩阵包括：W^q＝{W_i ^q∈R^d×(m+n+k)}，i＝0,1,2,...,n，W^k＝{W_i ^k∈R^d×(m+n+k)}，i＝0,1,2,...,n，W^v＝{W_i ^v∈R^d×(m+n+k)}，i＝0,1,2,...,n，融合矩阵为W^o，通过权重可得到则通过权重矩阵和融合矩阵对第一样本输入矩阵进行特征提取和融合得到的样本多模态特征如下式6：

head_i为样本的一个模态特征，MultiHead为样本多模态特征。

在具体实施中，当得到样本多模态特征后，可对样本多模态特征进行向量提取，抽离出一组query向量P所对应的部分，即第一样本特征向量，标记为i表示当前输出的层数，当前i＝1，在送入下一层解码器模块前，将第一样本特征向量再次与样本高层语义特征进行拼接，得到下一层的输入矩阵即第二样本输入矩阵K_i∈R^(m+n+k)×d。通过不断将样本输入矩阵输入至解码器模块进行特征提取和融合，从而遍历解码器中的所有解码器模块，得到样本结果向量。

解码器阶段表示如下式7：

在这个阶段，Transformer解码器会融合所有特征，输出一组结果向量P。

如图7所示，图7为进行模型训练的过程示意图，通过将时空信息特征A进行位置编码，并将任务基础属性特征B进行处理，从而将位置编码后的A和B进行拼接，得到样本拼接矩阵X，即多模态特征X，并将多模态特征X输入至编码器，经过前馈神经网络以及多头注意力机制进行特征融合提取，得到经过融合的多模态特征X，即样本高层语义特征通过将样本高层语义特征和一组query样本向量P进行拼接，得到第一样本输入矩阵，并将第一样本输入矩阵输入至解码器模块进行特征提取和融合，输出样本结果向量，并将样本结果向量输入至多层告知其MLP，从而得到样本用户属性预测结果，并通过计算样本用户属性预测结果的损失值完成模型的训练。

步骤S433：将所述样本结果向量输入至多层感知器进行概率计算，得到样本用户属性概率结果。

可以理解的是，在得到样本结果向量后，可使用一个多层感知器对样本结果向量进行概率计算，从而得到样本用户属性概率结果，计算如下式8：

r_i代表第i个需要被预测的人物属性，该人物属性可以辅助于后续的养老保险营销资源分配，如用户对应的养老保险推销成功概率，为样本结果向量。

步骤S434：计算所述样本用户属性概率结果的损失值，并在所述损失值小于预设损失阈值时，完成模型的训练，构建成功率预测模型。

在具体实施中，当得到样本用户属性概率结果后，可计算样本用户属性概率结果的损失值，从而通过损失值检测模型训练是否达到要求，例如将损失值与预设损失阈值进行比较，在损失值小于预设损失阈值时，证明模型训练达到要求，完成模型训练，得到成功率预测模型。预设损失阈值为模型训练的标准值。

本实施例通过将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征；将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量；将所述样本结果向量输入至多层感知器进行概率计算，得到样本用户属性概率结果；计算所述样本用户属性概率结果的损失值，并在所述损失值小于预设损失阈值时，完成模型的训练，构建成功率预测模型，修改了原有的Transformer解码器结构，与原有解码器的输入输出不同，本发明中的解码器结构可以接收一组可学习的样本向量并进行并行计算，以更有效地输出预测结果，将编码器与修改过的解码器组合起来，形成了一个高效的端到端的多模态成功率预测模型。

参考图8，图8为本发明数据处理方法第四实施例的流程示意图。

基于上述第一实施例，本实施例数据处理方法所述步骤S40，具体包括：

步骤S401：将所述时空统计特征数据划分为预设数量的时间段。

需要说明的是，预设数量的时间段可根据时空统计特征数据的数量进行设置，例如将时空统计特征数据划分为8个时间段，每个时间段的时长为1h。

步骤S402：计算每个时间段的时空统计特征与前一时间段的时空统计特征之间的欧式距离，得到各统计特征的相似度的计算结果。

在具体实施中，可每个时间段的统计特征递归地与前一个时间段的统计特征计算相似度，具体地，不同时间段统计特征的相似度l可以使用欧式距离来计算，计算如下式9：

式9中，l(s^t1,s^t0)为当前时间段与前一个时间段的欧式距离，s^t1为当前时间段的位置，s^t0为前一个时间段的位置。

步骤S403：将所述相似度与预设相似度阈值进行比较，在所述相似度大于预设相似度阈值时，将对应的时空统计特征作为冗余时空特征。

应理解的是，预设相似度阈值可为0.8、0.9等，通过将相似度与预设相似度阈值进行比较，如果相似度大于预设相似度阈值，则把该时间段的统计特征视为冗余特征。

步骤S404：将所述冗余时空特征从所述时空统计特征中剔除，得到目标时空信息特征。

在具体实施中，冗余时空特征会在一定程度上影响时空特征对人物行为的描述能力，因此需要对这种冗余时空特征进行处理，则将冗余时空特征从时空统计特征中剔除，将剔除后的时空统计特征作为目标时空信息特征。

本实施例通过将所述时空统计特征数据划分为预设数量的时间段；计算每个时间段的时空统计特征与前一时间段的时空统计特征之间的欧式距离，得到各统计特征的相似度的计算结果；将所述相似度与预设相似度阈值进行比较，在所述相似度大于预设相似度阈值时，将对应的时空统计特征作为冗余时空特征；将所述冗余时空特征从所述时空统计特征中剔除，得到目标时空信息特征，提高收集的用户的时空统计特征的准确性。

参照图9，图9为本发明数据处理装置第一实施例的结构框图。

如图9所示，本发明实施例提出的数据处理装置包括：

获取模块10，用于获取当前信令数据和当前用户属性数据。

融合模块20，用于将所述当前信令数据进行融合，得到时空统计特征数据。

映射模块30，用于将所述当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征。

计算模块40，用于基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征。

输入模块50，用于将所述目标时空信息特征和所述目标用户基础属性特征输入至成功率预测模型，得到用户属性，所述成功率预测模型的结构依次包括多层编码器、多层解码器以及多层感知器，所述编码器和所述解码器中均包括多头注意力机制和前馈神经网络的组合。

推荐模块60，用于根据所述用户属性进行产品推荐。

在一实施例中，所述输入模块50，还用于获取样本时空信息特征数据和样本用户基础属性特征数据；获取表征用户属性的可学习样本向量；将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型。

在一实施例中，所述输入模块50，还用于将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征；将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量；将所述样本结果向量输入至多层感知器进行概率计算，得到样本用户属性概率结果；计算所述样本用户属性概率结果的损失值，并在所述损失值小于预设损失阈值时，完成模型的训练，构建成功率预测模型。

在一实施例中，所述输入模块50，还用于对所述样本时空信息特征数据进行位置编码，得到位置编码后的样本时空信息特征数据；将位置编码后的样本时空信息特征数据以及所述样本用户基础属性特征数据进行拼接，得到样本拼接矩阵；将所述样本拼接矩阵输入至编码器的多头注意力机制进行融合处理，得到样本融合拼接矩阵；将所述样本融合拼接矩阵输入至编码器的前馈神经网络进行特征提取，得到样本高层语义特征。

在一实施例中，所述输入模块50，还用于将所述样本高层语义特征和所述可学习样本向量进行拼接，得到第一样本输入矩阵；将所述第一样本输入矩阵输入至解码器中解码器模块的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征；将所述样本多模态特征进行向量提取，得到第一样本特征向量；将所述第一样本特征向量和所述样本高层语义特征进行拼接，得到第二样本输入矩阵；基于所述第二样本输入矩阵返回所述将所述第一样本输入矩阵输入至解码器中的多头注意力机制以及前馈神经网络进行特征提取和融合，得到样本多模态特征的步骤，直至遍历所述解码器中的解码器模块，得到样本结果向量。

在一实施例中，所述计算模块40，还用于将所述时空统计特征数据划分为预设数量的时间段；计算每个时间段的时空统计特征与前一时间段的时空统计特征之间的欧式距离，得到各统计特征的相似度的计算结果；将所述相似度与预设相似度阈值进行比较，在所述相似度大于预设相似度阈值时，将对应的时空统计特征作为冗余时空特征；将所述冗余时空特征从所述时空统计特征中剔除，得到目标时空信息特征。

在一实施例中，所述推荐模块60，还用于根据所述用户属性确定产品推荐成功率；将所述产品推荐成功率进行排序，并根据排序结果将产品推荐成功率对应的用户划分为多个等级；基于划分的等级制定不同的产品推荐策略，并根据产品推荐策略进行产品推荐。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的数据处理方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

获取当前信令数据和当前用户属性数据；

将所述当前信令数据进行融合，得到时空统计特征数据；

根据所述用户属性进行产品推荐。

2.如权利要求1所述的数据处理方法，其特征在于，所述将所述目标时空信息特征和所述目标用户基础属性特征输入至预设保险营销成功率预测模型，得到用户属性之前，还包括：

获取样本时空信息特征数据和样本用户基础属性特征数据；

获取表征用户属性的可学习样本向量；

3.如权利要求2所述的数据处理方法，其特征在于，所述将所述样本时空信息特征数据、所述样本用户基础属性特征数据以及所述可学习样本向量进行模型训练，构建成功率预测模型，包括：

4.如权利要求3所述的数据处理方法，其特征在于，所述将所述样本时空信息特征数据和所述样本用户基础属性特征数据输入至编码器进行特征融合提取，得到样本高层语义特征，包括：

5.如权利要求3所述的数据处理方法，其特征在于，所述将所述样本高层语义特征和所述可学习样本向量输入至解码器进行并行计算，得到样本结果向量，包括：

6.如权利要求1所述的数据处理方法，其特征在于，所述基于时空统计特征数据计算各统计特征的相似度，并根据计算结果得到目标时空信息特征，包括：

将所述时空统计特征数据划分为预设数量的时间段；

7.如权利要求1至6中任一项所述的数据处理方法，其特征在于，所述根据所述用户属性进行产品推荐包括：

根据所述用户属性确定产品推荐成功率；

8.一种数据处理装置，其特征在于，所述数据处理装置包括：

获取模块，用于获取当前信令数据和当前用户属性数据；

推荐模块，用于根据所述用户属性进行产品推荐。

9.一种数据处理设备，其特征在于，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序配置为实现如权利要求1至7中任一项所述的数据处理方法。

10.一种存储介质，其特征在于，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法。