CN113469450B

CN113469450B - 一种数据分类方法、装置、计算机设备及存储介质

Info

Publication number: CN113469450B
Application number: CN202110795644.4A
Authority: CN
Inventors: 陈娇娇; 杨华胜
Original assignee: China Resources Digital Technology Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2024-05-10
Anticipated expiration: 2041-07-14
Also published as: CN113469450A

Abstract

本发明公开了一种数据分类方法、装置、计算机设备及存储介质。该方法包括获取商品节点的特征向量；根据商品节点的特征向量获取其邻居节点，并构建商品节点和邻居节点之间的关联结构图；获取关联结构图中包含商品节点与其邻居节点的组合特征向量，将组合特征向量输入对数转换层，输出高阶交叉特征；将商品节点的高阶交叉特征输入分类模型，输出分类结果。本发明选取商品节点和其邻居节点的组合特征向量，在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征，并实现了不同交叉特征的权重分配，得到更复杂的高阶交叉特征，充分考虑了多个商品之间的关联影响，再基于得到高阶交叉特征来对商品进行分类，具有分类准确的优点。

Description

一种数据分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据分类方法、装置、计算机设备及存储介质。

背景技术

目前，在实际工程的数据分析过程中，对数据按照某种规则进行分类筛选是一种常用的技术手段；特别是在零售行业中，为了研究商品的销售情况、补货情况或者根据商品刻画消费用户形象，对商品进行分类筛选十分有必要；但是由于商品种类庞大，影响关系复杂等特点，欠缺高效解决手段，常常依赖人工，耗时耗力，效率不高。

现阶段常用的有效数据的筛选(分类)方法有XGBoost(极端梯度提升)、SVM(支持向量机)、随机森林、CNN(卷积神经网络)等方法，这些分类方法在小规模数据上有着不错的筛选效果且通常情况下分类对象之间大都无相关关系。但是在零售行业中，商品的销售数据具有数据规模大、特征维度多、相互影响关系复杂等特点，使用常规的机器学习分类算法并不能满足实际需求；一方面由于数据量大时，参数优化过程会比较繁琐、计算时间长；另一方面由于模型的输入没有考虑到商品之间的相互影响，分类准确率不高。

发明内容

本发明的目的是提供一种数据分类方法、装置、计算机设备及存储介质，旨在解决现有技术对商品进行分类是存在分类准确率不高的问题。

为解决上述技术问题，本发明的目的是通过以下技术方案实现的：提供一种数据分类方法，其包括：

获取商品节点的特征向量；

根据所述商品节点的特征向量获取其邻居节点，并构建所述商品节点和邻居节点之间的关联结构图；

获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，输出高阶交叉特征；

将所述商品节点的高阶交叉特征输入分类模型，输出分类结果。

另外，本发明要解决的技术问题是还在于提供一种数据分类装置，其包括：

获取单元，用于获取商品节点的特征向量；

构建单元，用于根据所述商品节点的特征向量获取其邻居节点，并构建所述商品节点和邻居节点之间的关联结构图；

转换单元，用于获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，输出高阶交叉特征；

输出单元，用于将所述商品节点的高阶交叉特征输入分类模型，输出分类结果。

另外，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的数据分类方法。

另外，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据分类方法。

本发明实施例公开了一种数据分类方法、装置、计算机设备及存储介质。该方法包括获取商品节点的特征向量；根据商品节点的特征向量获取其邻居节点，并构建商品节点和邻居节点之间的关联结构图；获取关联结构图中包含商品节点与其邻居节点的组合特征向量，将组合特征向量输入对数转换层，输出高阶交叉特征；将商品节点的高阶交叉特征输入分类模型，输出分类结果。本发明实施例选取商品节点和其邻居节点的组合特征向量，在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征，并实现了不同交叉特征的权重分配，得到更复杂的高阶交叉特征，充分考虑了多个商品之间的关联影响，再基于得到高阶交叉特征来对商品进行分类，具有分类准确的优点。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据分类方法的流程示意图；

图2为本发明实施例提供的步骤S101的子流程示意图；

图3为本发明实施例提供的步骤S102的子流程示意图；

图4为本发明实施例提供的步骤S103的子流程示意图；

图5为本发明实施例提供的步骤S104的子流程示意图；

图6为本发明实施例提供的关联结构图的示例图；

图7为本发明实施例提供的数据分类装置的示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的数据分类方法的流程示意图；

如图1所示，该方法包括步骤S101～S104。

S101、获取商品节点的特征向量。

本实施例中，每种商品的自身属性特征都不一样，将一种商品作为一个商品节点，可以先获取所述商品节点的基础的特征向量，以便后续在基础的特征向量上进行更高阶的特征提取。

在一实施例中，如图2所示，所述步骤S101包括：

S201、获取所述商品节点的类别特征和数值特征，并对所述类别特征进行编码；

S202、将编码后的所述类别特征与所述数值特征进行拼接得到所述商品节点的特征向量。

本实施例中，所述商品节点的类别特征可以是商品所在门店编号、商品所属大类、所属小类、畅销程度等特征中的一种或多种，所述商品节点的数值特征可以是商品的实际销量、日均销量、规格等特征中的一种或多种；获取所述商品节点的类别特征和数值特征，并对所述类别特征进行one-hot编码(分类变量作为二进制向量的表示)，编码后的类别特征可由原来的一列特征变成多列特征，将编码后的所述别特征和数值特征进行合并，即可得到所述商品节点的特征向量。

S102、根据所述商品节点的特征向量获取其邻居节点，并构建所述商品节点和邻居节点之间的关联结构图。

本实施例中，每一个商品的销售情况是会受其他商品影响的，可将相互影响关系比较大的多个商品之间用线连接起来，具体的，可将一个商品节点作为中心节点，跟中心节点直接相连的其他商品节点作为邻居节点，从而构建出关联结构图，参考图6所示，以四个商品为例，将商品一作为中心节点，商品二、商品三和商品四是与商品一相互影响关系比较大的邻居节点。

在一实施例中，如图3所示，所述步骤S102包括：

S301、选取任一商品节点作为中心节点，按如下公式计算其他商品节点与中心节点之间的相关系数Corr：

其中，x和y分别为两个商品节点的特征向量，为x的向量均值，/>为y的向量均值，x_i和y_i分别为x和y的第i个特征分量；

该步骤中，通过商品节点与中心节点的相似度来确定邻居节点，即选取与中心节点相似度大的商品节点为邻居节点，具体可使用相关系数来衡量相似度的大小，上述公式为皮尔森相关系数公式，将x_i、y_i以及/>代入中间的等式或者将x、/>y以及/>代入右边的等式，均可以计算出商品节点与中心节点之间的相关系数。

S302、选取相关系数大于预设阈值的商品节点作为所述中心节点的邻居节点，并构建出关联结构图。

本实施例中，所述预设阈值可以设置为0.6或者其他数值，以所述预设阈值为0.6为例，根据上述公式计算得到多个商品节点分别与中心节点的相关系数后，选取相关系数大于0.6的商品节点作为邻居节点，将各个邻居节点连接于中心节点，即可构建出如图6形式的关联结构图。

S103、获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，输出高阶交叉特征。

本实施例中，每一个商品节点或者邻居节点中，自身的特征向量都是由所述类别特征和数值特征构成的，自身的特征向量也可能存在相关关系，为了提高分类准确率，构造更高阶的交叉特征，使用对数转换层来自适应地学习任意阶交叉特征以及交叉特征的权重，在原有的特征向量上自适应学习对模型有用的高阶交叉特征以及交叉特征的权重，这对模型的最终的分类筛选效果有明显的改善。

具体的，在所述关联结构图中获取所述商品节点的特征向量时，得到的特征向量是已经包含了商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，通过所述对数转换层挖掘出特征向量的内在关系，并输出高阶交叉特征。

在一实施例中，如图4所示，所述步骤S103包括：

S401、获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量。

S402、按如下公式计算输出向量e：

e＝XW

e＝{e₁,e₂…e_m}；

其中，X为所述组合特征向量，W为全连接学习的n×m的权重矩阵。

该步骤中，先将所述组合特征向量输入所述对数转换层中，所述组合特征向量属于高维稀疏的输入向量，在所述对数转换层中，首先会通过Embedding层(嵌入层)将高维稀疏的输入向量转化为低维的稠密向量，可通过一个全连接层来实现，设输入特征向量为X，即组合特征向量为X，维度为n，经过一个全连接层学习一个n×m的权重矩阵W，即可得到输出向量e＝{e₁,e₂…e_m}。

S403、按如下公式计算所述输出向量e的特征交叉向量：

其中，lne_i为输出向量e的第i个分量e_i的对数运算，w_ij为lne_i在第j个神经元的权重系数，exp为指数运算，y_j为在第j个对数神经单元得到的特征交叉向量。

该步骤中，得到m维的输出向量e后会经过所述对数转换层自适应学习交叉特征及交叉特征的权重，根据该步骤中的公式，在所述对数神经单元中，首先会对输出向量e的第i个分量e_i进行对数运算，得到lne_i，然后对lne_i进行加权求和，然后将w_ij的值代入公式中，再进行指数运算得到在第j个对数神经单元的特征交叉向量y_j，即可完成计算。

S404、按如下公式计算高阶交叉特征Y：

Y＝{y₁,y₂…y_N}；

其中，N为特征数目，y_N为第N个对数神经单元的特征交叉向量。

该步骤中，将多个对数神经元所得到的交叉特征向量进行拼接，即可得到高阶交叉特征Y，得到的所述高阶交叉特征Y作为所述分类模型的输入。

S104、将所述商品节点的高阶交叉特征输入分类模型，输出分类结果。

本实施例中，在对商品进行分类筛选时，不同商品之间的影响程度是考虑的重点，选定一种商品，与之有关系的商品会有多个，但是这些个商品对该商品的影响程度不一致，同品类商品之间会存在很强的替代关系，相关品类之间的商品会存在互补关系；这些关系会在不同程度上影响商品的实际销售情况，为了有效利用这种关系进一步提高分类筛选效果，本发明使用的分类模型为图注意力网络(GAT)，相比传统的图卷积网络(GCN)的分类方式，图注意力网络引进了注意力机制，注意力机制能够对不同的邻居节点分配相应的权重，这样可以重点关注那些作用比较大的节点，忽视一些作用比较小的节点，既不需要矩阵运算又不需要知道图的完整结构，只需要知道邻居节点即可。

在一实施例中，如图5所示，所述步骤S104包括：

S501、按如下公式计算邻居节点j到商品节点i的权重系数e_ij：

e_ij＝Leaky ReLU(a^T[Wh_i,Wh_j])；

其中，LeakyReLU为激活函数，T代表转置运算，W为权重参数矩阵，h_i为商品节点i对应的特征交叉向量，h_j为邻居节点j对应的特征交叉向量，a[.]是一个映射，用来计算两个节点的相关度。

该步骤中，基于所述分类模型，将所述高阶交叉特征Y作为单个注意力层的输入，N为特征数目，特征长度为d，即y_i∈R^d，所述邻居节点j到商品节点i的权重系数e_ij也就是分类模型的注意力系数，计算公式为e_ij＝a(Wh_i,Wh_j)。

进一步地，为了简化计算，可以选择单层的全连接层，则权重系数e_ij的表达公式为e_ij＝Leaky ReLU(a^T[Wh_i,Wh_j])，分别将T、W、以及h_j代入公式中计算，即可得到权重系数e_ij的值。

S502、按如下公式归一化处理所述邻居节点j到商品节点i的权重系数α_ij：

其中，N_i是商品节点i的邻居节点的集合，k为N_i中第k个邻居节点。

该步骤中，为了更好地分配权重，需要将所有计算出的相关度进行统一的归一化处理，归一化处理后，可保证所有的邻居节点的权重系数加和为1。

S503、按如下公式计算商品节点i的新特征向量：

其中，σ为非线性激活。

该步骤中，将N_i、α_ij、W、h_j以及σ代入公式中计算，即可得到所述商品节点i的新特征向量；得到的新特征向量包含了各个邻居节点的信息，基于得到的新特征向量，再进行分类，可提高分类的准确率。

S504、通过sigmoid函数对所述商品节点i的新特征向量进行分类，输出分类结果。

本实施例中，通过sigmoid函数对所述商品节点i的新特征向量进行分类，输出所述商品节点i是否为目标类别的概率值。

具体的，输出的所述概率值为0-1之间，可设置目标类别的类别阈值，将概率值超过所述类别阈值的商品节点归类为该目标类别。

在实施例中，该方法还包括：将所述分类结果输入如下损失函数公式，对分类模型的参数进行优化：

其中，Loss为损失函数，y是真实分类结果，是分类模型预测得到的分类结果。

本实施例中，为了进一步优化分类模型以提高分类结果的准确性，将y和的值代入上述公式进行计算，从而对分类模型的参数进行优化。

本发明实施例还提供一种数据分类装置，该数据分类装置用于执行前述数据分类方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的数据分类装置的示意性框图。

如图7所示，数据分类装置700，包括：获取单元701、构建单元702、转换单元703以及输出单元704。

获取单元701，用于获取商品节点的特征向量；

构建单元702，用于根据所述商品节点的特征向量获取其邻居节点，并构建所述商品节点和邻居节点之间的关联结构图；

转换单元703，用于获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，输出高阶交叉特征；

输出单元704，用于将所述商品节点的高阶交叉特征输入分类模型，输出分类结果。

该装置选取商品节点和其邻居节点的组合特征向量，在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征，并实现了不同交叉特征的权重分配，得到更复杂的高阶交叉特征，充分考虑了多个商品之间的关联影响，再基于得到高阶交叉特征来对商品进行分类，具有分类准确的优点。

该装置为商品数据的筛选提供了更加新颖、科学有效的分类方式，可以大幅度提高效率人员工作效率。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述数据筛选装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备800是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备800包括通过***总线801连接的处理器802、存储器和网络接口805，其中，存储器可以包括非易失性存储介质803和内存储器804。

该非易失性存储介质803可存储操作***8031和计算机程序8032。该计算机程序8032被执行时，可使得处理器802执行数据分类方法。

该处理器802用于提供计算和控制能力，支撑整个计算机设备800的运行。

该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境，该计算机程序8032被处理器802执行时，可使得处理器802执行数据分类方法。

该网络接口805用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备800的限定，具体的计算机设备800可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器802可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器802还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的数据分类方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据分类方法，其特征在于，包括：

获取商品节点的特征向量；

将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理，输出分类结果；

其中，所述将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理，输出分类结果，包括：

按如下公式计算邻居节点j到商品节点i的权重系数e_ij：

e_ij＝Leaky ReLU(a^T[Wh_i,Wh_j])；其中，LeakyReLU为激活函数，T代表转置运算，W为权重参数矩阵，h_i为商品节点i对应的特征交叉向量，h_j为邻居节点j对应的特征交叉向量，a[.]是一个映射，用来计算两个节点的相关度；

按如下公式归一化处理所述邻居节点j到商品节点i的权重系数α_ij：

其中，Ni是商品节点i的邻居节点的集合，k为Ni中第k个邻居节点；

按如下公式计算商品节点i的新特征向量：

其中，σ为非线性激活；

通过sigmoid函数对所述商品节点i的新特征向量进行分类，输出分类结果。

2.根据权利要求1所述的数据分类方法，其特征在于，所述获取商品节点的特征向量，包括：

获取所述商品节点的类别特征和数值特征，并对所述类别特征进行编码；

将编码后的所述类别特征与所述数值特征进行拼接得到所述商品节点的特征向量。

3.根据权利要求1所述的数据分类方法，其特征在于，所述根据所述商品节点的特征向量获取其邻居节点，并构建所述商品节点和邻居节点之间的关联结构图，包括：

选取任一商品节点作为中心节点，按如下公式计算其他商品节点与中心节点之间的相关系数Corr：

选取相关系数大于预设阈值的商品节点作为所述中心节点的邻居节点，并构建出关联结构图。

4.根据权利要求1所述的数据分类方法，其特征在于，所述获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量，将所述组合特征向量输入对数转换层，输出高阶交叉特征，包括：

获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量；

按如下公式计算输出向量e：

e＝XW

e＝{e₁,e₂…e_m}；

其中，X为所述组合特征向量，W为全连接学习的n×m的权重矩阵；

按如下公式计算所述输出向量e的特征交叉向量：

其中，lne_i为输出向量e的第i个分量e_i的对数运算，w_ij为lne_i在第j个神经元的权重系数，exp为指数运算，y_j为在第j个对数神经单元得到的特征交叉向量；

按如下公式计算高阶交叉特征Y：

Y＝{y₁,y₂…y_N}；

5.根据权利要求1所述的数据分类方法，其特征在于，所述通过sigmoid函数对所述商品节点i的新特征向量进行分类，输出分类结果，包括：

通过sigmoid函数对所述商品节点i的新特征向量进行分类，输出所述商品节点i是否为目标类别的概率值。

6.根据权利要求1所述的数据分类方法，其特征在于，还包括：将所述分类结果输入如下损失函数公式，对分类模型的参数进行优化：

7.一种数据分类装置，其特征在于，包括：

获取单元，用于获取商品节点的特征向量；

输出单元，用于将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理，输出分类结果；

其中，所述输出单元，包括：

按如下公式计算邻居节点j到商品节点i的权重系数e_ij：

按如下公式计算商品节点i的新特征向量：

其中，σ为非线性激活；

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的数据分类方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的数据分类方法。