CN111782802A

CN111782802A - 基于机器学习获得商品对应国民经济制造业的方法及***

Info

Publication number: CN111782802A
Application number: CN202010414176.7A
Authority: CN
Inventors: 刘春雷; 包江华; 范超; 杜长青; 刘治军
Original assignee: Beijing Jizhao Technology Co ltd
Current assignee: Beijing Jizhao Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-16
Anticipated expiration: 2040-05-15
Also published as: CN111782802B

Abstract

本发明涉及一种基于机器学习获得商品对应国民经济制造业的方法及***，通过机器学习算法将千差万别的具体商品归一化到国家标准商品体系中的制造行业体系建立的商品知识图谱数据库中的最底层的分类中，并利用向量比较算法得到最底层的商品分类与国民经济制造业行业的底层分类之间的映射关系，并利用最底层的商品分类与映射关系迭代训练能够反映商品到国民经济制造业行业的映射关系的商品分类预测模型，由此得到的商品分类预测模型商品覆盖面广，完全覆盖国家标准设计的几千个最小的种类，并且利用了最先进的深度学习模型，预测效果极好；该商品分类预测模型将商品和国民经济制造业行业成功关联起来，为其他相关的应用打下了很好的基础。

Description

基于机器学习获得商品对应国民经济制造业的方法及***

技术领域

本发明属于互联网电子商务领域，具体涉及一种基于机器学习获得商品对应国民经济制造业的方法及***。

背景技术

互联网发展迅猛，越来越多的商品通过电子商务进行销售。快速，准确地对所出售的商品进行类别的划分显得更加重要。商品分类是为了方便消费者购买的需要，将商品选择适当的分类标志，***地逐级分类。但是现有的分类方法多是基于统计或者简单的机器学习技术，因此得到的分类效果不佳，或者能够预测的分类个数有限，分类效果不好，并且分类后应用单一。

发明内容

针对上述现有技术存在的目前的现有的分类方法多是基于统计或者简单的机器学习技术，因此得到的分类效果不佳，或者能够预测的分类个数有限，分类效果不好，并且分类后应用单一的技术问题，本发明提供一种基于机器学习获得商品对应国民经济制造业的方法，该方法利用机器学习算法将商品与国民经济制造业行业关联起来，商品覆盖范围广，利用深度学习模型，预测效果好，为相关应用打下了良好的基础。本发明还涉及一种基于机器学习获得商品对应国民经济制造业的***。

本发明的技术方案如下：

一种基于机器学习获得商品对应国民经济制造业的方法，其特征在于，所述方法包括如下步骤：

S1，采集有标签的商品分类数据作为初始训练样本集利用机器学习算法训练初始深度学习模型，所述初始深度学习模型为长短时记忆循环神经网络；

S2，利用所述初始深度学习模型对无标签数据进行分类，根据分类结果对所述初始深度学习模型进行迭代训练得到用于将商品进行底层类别分类的第一商品分类预测模型；

S3，根据国家标准商品体系中的制造行业体系建立商品知识图谱数据库，在所述商品知识图谱数据库中提取目标商品的文本格式商品数据；利用所述第一商品分类预测模型根据机器学习算法对所述目标商品的文本格式商品数据进行归一化分类得到文本格式底层商品分类数据；再将所述文本格式底层商品分类数据转变为数值化的向量，利用向量比较算法判断文本的相似性从而得出商品分类与国民经济制造业行业的映射关系；

S4，将所述文本格式底层商品分类数据与所述映射关系作为训练样本，对所述第一商品分类预测模型进行迭代训练，得到用于反映商品到国民经济制造业行业的映射关系的第二商品分类预测模型；

S5，所述第二商品分类预测模型根据输入的任一商品的文本格式的商品数据得到所述任一商品所对应的国民经济制造业行业。

进一步地，在步骤S3中，所述第一、第二商品分类预测模型均为长短时记忆循环神经网络。

进一步地，所述长短时记忆循环神经网络为双向长短时记忆循环神经网络。

进一步地，在步骤S3中，所述将所述文本格式底层商品分类数据转变为数值化的向量，利用向量比较算法判断文本的相似性从而得出商品分类与国民经济制造业行业的映射关系包括步骤：

S31，将所述文本格式底层商品分类数据中每一个类别中的每一个汉字或字符进行数值化编码，得到每一个汉字或字符的300维度的向量表示，按照原始底层商品分类数据中的每一个类别中每一个汉字或字符的先后顺序将数值化编码后的每一个汉字或字符对应的向量依次进行矢量相加，分别得到各类别所对应的第一向量；

S32，将国民经济制造业行业中底层类别中每一个类别所对应的每一个汉字或字符进行数值化编码，得到每一个汉字或字符的300维度的向量表示，按照每一个类别中每一个汉字或字符的先后顺序将数值化编码后的每一个汉字或字符对应的向量依次进行矢量相加，分别得到各类别所对应的第二向量；

S33，利用向量比较算法判断所述各第一向量和所述各第二向量的相似性，得到商品分类与国民经济制造业行业的初始映射关系，并对所述初始映射关系进行校正得到最终正确的映射关系。

进一步地，在步骤S33中，所述向量比较算法为余弦相似度向量比较算法。

进一步地，每一个汉字或字符的300维度的向量的具体数值是归一化后的数值，和为1。

一种基于机器学习获得商品对应国民经济制造业的***，其特征在于，包括：

初始深度学习模型训练模块，用于采集有标签的商品分类数据作为初始训练样本集利用机器学习算法训练初始深度学习模型，所述初始深度学习模型为长短时记忆循环神经网络；

第一商品分类预测模型训练模块，用于利用所述初始深度学习模型对无标签数据进行分类，根据分类结果对所述初始深度学习模型进行迭代训练得到用于将商品进行底层类别分类的第一商品分类预测模型；

第二商品分类预测模型训练模块，用于根据国家标准商品体系中的制造行业体系建立商品知识图谱数据库，在所述商品知识图谱数据库中提取目标商品的文本格式商品数据；利用所述第一商品分类预测模型根据机器学习算法对所述目标商品的文本格式商品数据进行归一化分类得到文本格式底层商品分类数据；再将所述文本格式底层商品分类数据转变为数值化的向量，利用向量比较算法判断文本的相似性从而得出商品分类与国民经济制造业行业的映射关系；然后将所述文本格式底层商品分类数据与所述映射关系作为训练样本，对所述第一商品分类预测模型进行迭代训练，得到用于反映商品到国民经济制造业行业的映射关系的第二商品分类预测模型；

分类模块，用于利用所述第二商品分类预测模型根据输入的任一商品的文本格式的商品数据得到所述任一商品所对应的国民经济制造业行业。

进一步地，所述第一、第二商品分类预测模型均为长短时记忆循环神经网络。

进一步地，所述第一、第二商品分类预测模型为双向长短时记忆循环神经网络。

进一步地，所述第二商品分类预测模型训练模块采用的向量比较算法为余弦相似度向量比较算法。

本发明的技术效果如下：

本发明提供的一种基于机器学习获得商品对应国民经济制造业的方法及***，通过机器学习算法将千差万别的具体商品归一化到国家标准商品体系中的制造行业体系建立的商品知识图谱数据库中的最底层的分类中，并利用向量比较算法得到最底层的商品分类与国民经济制造业行业的底层分类之间的映射关系，并利用最底层的商品分类与映射关系迭代训练能够反映商品到国民经济制造业行业的映射关系的商品分类预测模型，由此得到的商品分类预测模型商品覆盖面广，完全覆盖国家标准设计的几千个最小的种类，并且利用了最先进的深度学习模型，预测效果极好；该商品分类预测模型将商品和国民经济制造业行业成功关联起来，为其他相关的应用打下了很好的基础。

附图说明

图1为本发明一实施例的基于机器学习获得商品对应国民经济制造业的方法的流程示意图。

图2为本发明一优选实施例的基于机器学习获得商品对应国民经济制造业的方法的流程示意图。

图3为本发明LSTM模型的总体结构示意图。

图4为本发明一实施例的基于机器学习获得商品对应国民经济制造业的***框图。

具体实施方式

为了更清楚的理解本发明的内容，将结合附图和实施例详细说明。

本发明涉及一种基于机器学习获得商品对应国民经济制造业的方法，该方法对现有的基于统计或者简单的机器学习技术对商品进行分类的方法进行了改进，该方法结合知识图谱和机器学习算法两大技术建立了贯穿整个制造业从上到下的从里到外的商品知识图谱数据库，从而成功的把商品和国民经济行业映射关系确立起来，商品知识图谱数据库和国民经济行业映射关系的成功建立无论是从宏观上理解中国制造业现况还是微观上理解活跃制造业企业生产情况都奠定了基础。具体地，如图1所示，首先执行S1，采集有标签的商品分类数据，所述标签用于表征商品数据中的商品分类，例如从B2B网站上采集已经有规范标签的商品分类数据作为初始训练样本集利用机器学习算法(进一步可以说是深度学习算法)对初始深度学习模型进行训练，该初始训练样本集包括商品数据样本和商品数据分类标签，初始深度学习模型为长短时记忆循环神经网络，首先将商品数据样本输入至初始深度学习模型，得到模型输出结果，并将模型输出结果与商品数据分类标签输入至损失函数，得到损失函数的值，该值用于表征模型输出结果与标签的差异度，并判断该损失函数的值是否达到最小值(或根据实际需求预设的阈值)，若否，则根据该损失函数的值调整初始深度学习模型的训练参数，并再次将初始训练样本集输入至调整后的初始深度学习模型中迭代训练直至模型输出结果与样本标签的损失值达到最小值(或根据实际需求预设的阈值)为止，最终得到较为精确的初始深度学习模型。然后执行S2，再用更多的无标签数据输入该模型中，进行自动分类，从而进行模型的又一次迭代优化，最终得到较好效果的高维度商品种类预测模型，也就是第一商品分类预测模型，利用深度学习的强大预测逻辑能力该第一商品分类预测模型可以将上亿个商品正确地分到3000多个底层商品类别中，商品覆盖面广，完全覆盖国家标准涉及的最小的种类。

在该实施例中，在得到第一商品分类预测模型之后，执行S3，在国家标准商品体系中的制造行业体系建立的商品知识图谱数据库(该数据库中存储有制造业所涉及的各重要节点的逻辑关系，例如：钢铁制紧固件(属于)金属制品(属于)金属及非金属制品，铁螺钉或者螺母应该被分为“钢铁制紧固件”类别中，在“钢铁制紧固件”这个类别层级中，一共确立了3000多个类别或者商品标签，本发明要实现的是将上亿个商品归一化到该3000多个类别或者商品标签中)中提取目标商品的文本格式商品数据，将该目标商品的文本格式商品数据输入到第一商品分类预测模型中进行分类得到文本格式的底层商品分类数据；再将所述文本格式底层商品分类数据转变为数值化的向量，然后，根据向量比较算法得到的文本格式的底层商品分类数据与国民经济制造业行业的映射关系，或者说是，利用自然语言文字相似性判断技术，把3000多个底层商品类别和国民经济行业(国家2017年标准)中600多个制造业相关底层类别关联起来；然后执行S4，将文本格式的底层商品分类数据及得到的与国民经济制造业行业的映射关系作为第二训练样本集输入第一商品分类预测模型中进行迭代优化训练，得到最终的能够反映商品到国民经济制造业行业的映射关系的第二商品分类预测模型，也就是说，重新把上亿个具体商品和600个制造业关联起来，重新利用深度学习技术训练，从而得到商品到制造业行业的一次性预测模型——第二商品分类预测模型；然后执行S5，将任一商品的文本格式的商品数据即商品的名称输入第二商品分类预测模型即可得到的其对应的国民经济制造业行业。

具体地，在该实施例中，如图2所示，在得到文本格式的底层商品分类数据之后，根据向量比较算法得到文本格式的底层商品分类数据与国民经济制造业行业的映射关系的具体实现方式为：S31，首先将文本格式底层商品分类数据中的每一个类别中的每一个汉字或字符进行数值化编码，得到每一个汉字或字符的300维度的向量表示，按照原始底层商品分类数据中的每一个类别中每一个汉字或字符的先后顺序将数值化编码后的每一个汉字或字符对应的向量依次矢量相加，分别得到各类别所对应的第一向量；S32，再将国民经济制造业行业中底层类别中每一个类别所对应的每一个汉字或字符进行数值化编码，得到每一个汉字或字符的300维度的向量表示(每一个汉字或字符的300维度的向量的具体数值是归一化后的数值，其和为1，以标准化每一个汉字或字符，便于汉字或字符的表达，按照每一个类别中每一个汉字或字符的先后顺序将数值化编码后的每一个汉字或字符对应的向量依次进行矢量相加，分别得到各类别所对应的第二向量；S33，利用余弦相似度向量比较算法得到商品分类与国民经济制造业行业的初始映射关系，并对初始映射关系进行校正，得到正确的映射关系，所述余弦相似度向量比较算法原理是得到各第一向量和各第二向量之间的余弦值，余弦值越大的相似性越大，即可对应映射配对。

具体地，在该实施例中，第一商品分类预测模型、第二商品分类预测模型均为长短时记忆循环神经网络LSTM，并进一步优选为双向长短时记忆循环神经网络Bi-directionalLSTM RNN，所述Bi-directional LSTM RNN规定了输入数据的先后顺序，对商品名称的预测非常精确，所述Bi-directional LSTM RNN的训练参数个数达到百万级，训练效果很好。双向长短时记忆循环神经网络Bi-directional LSTM RNN是由向前和向后两个LSTM神经网络组合而成，这两个向前和向后的LSTM神经网络都连接着一个输出层，这个结构提供给输出层输入变量中每一个点的完整的过去和未来的上下文信息。具体地，将该双向长短时记忆循环神经网络沿着时间展开后，存在6个独特的权值在每一个时步被重复地利用，6个权值分别对应：输入层到向前和向后隐含层，隐含层到隐含层本身，向前和向后隐含层到输出层，值得注意的是，向前和向后隐含层之间没有信息流。如图3所示，介绍向前推算(Forwardpass)的LSTM神经网络的总体结构如下所述：图3中X_t-1，X_t，X_t+1代表了输入商品文本中按顺序出现的每一个汉字，而h_t-1，h_t，h_t+1则代表了经过LSTM神经网络处理和计算出现的相对应的隐藏状态变量。比如商品文本为“铁螺钉”中第一个汉字“铁”为X₀,“螺”为X₁，“钉”为X₂。每一个汉字或者字符需要经过数值化编码才能进入LSTM模型。在本实施例中，将每一个汉字或字符用300维度的向量表示，因此每一汉字X实际是位数达到300的数组变量，数组变量具体的数值的确定来源于利用公开的百度百科文章，分析文章中每一个汉字与上下文的关系从而得到反映汉字X在一个300维度空间中的位置。因此每一个汉字的向量代表了其在上下文语境中的意义。每一个汉字300维度向量的具体数值是归一化后的数值，即它们的和相加为1。本发明对每一个汉字或字符的数值化编码的维度数量不做具体限定。

图3中，LSTM框图反映了输入变量的处理逻辑，以用于进行底层商品分类的第一商品分类预测模型为例，其输入变量包括t时刻外部的输入X_t和t-1时刻隐含单元的输出h_t-1，并且在处理过程中，上述变量通过如图3所示的B位置的3个不同的门(gate)进入处理单元，继而通过如图3所示的C位置的4处进入整个处理流程。输入数据首先通过不同的参数矩阵进行相乘和偏差相加的线性操作，再通过非线性的激活方程处理。门(gate)的非线性激活方程都用Sigmoid函数，而输入压缩和输出压缩用tanh函数作为非线性激活方程。当LSTM神经网络最后汉字对应的输出的隐藏变量为h_t，在经过一个softmax非线性激活方程后，输出压缩的结果是向量，该输出压缩的向量的维度对应了分类的总个数，每一个维度等同于某个类别的概率，概率最大的商品种类可以作为该商品的最终预测种类，即可以用来得到输入汉字或字符所属的类别。

Sigmoid函数是最常用的激活方程之一，Sigmoid方程如公式(1)所示：

其中e指的是exponential指数关系，x是输入向量，可以是很多维度。

常见的激活方程还有Tanh方程，如公式(2)所示：

双向长短时记忆循环神经网络Bi-directional LSTM RNN的运用是为了更好的捕捉文本中的前后关系，并使得隐含层的输入对于网络输出的影响不会随着网络环路的不断递归而衰退，提高预测精度。具体为在向前推算(Forward pass)的LSTM神经网络的基础上添加一个向后推算(Backward pass)的LSTM神经网络。具体地，向前推算(Forward pass)对于双向长短时记忆循环神经网络而言与单向的循环神经网络(RNN)一样，除了输入变量对于两个隐含层是相反方向的，输出层直到向前和向后两个隐含层处理完所有的全部输入变量才更新；向后推算(Backward pass)对于双向长短时记忆循环神经网络而言与标准的单向循环神经网络(RNN)通过时间反向传播相似，除了所有的输出层项首先被计算，然后返回给两个不同方向的隐含层。向后推算的LSTM神经网络处理文本顺序相反，比如“铁螺钉”被处理成“钉螺铁”，其对应的每一个隐藏状态变量h再和向前LSTM神经网络输出的隐藏状态变量结合起来运用即可，其他处理方式和向前推算的LSTM神经网络一致，在此不再赘述。

在得到目标商品分类之后，输入到第二商品分类预测模型中，第二商品预测模型根据成熟的商品分类与国民经济制造业行业的映射关系，得到目标商品分类所对应的国民经济制造业行业。经过多次的迭代优化，使得能够反映商品到国民经济制造业行业的映射关系的第二商品预测模型的预测效果精确，为相关应用打下了良好的基础，适用范围广。

本发明还涉及一种基于机器学习获得商品对应国民经济制造业的***，该***与上述基于机器学习获得商品所对应国民经济行业的方法相对应，用于实现如上所述的方法，上述方法的实施例及效果同样适用于该***。如图4所示，该***包括：初始深度学习模型训练模块，用于采集有标签的商品分类数据作为初始训练样本集利用机器学习算法训练初始深度学习模型，初始深度学习模型为长短时记忆循环神经网络；第一商品分类预测模型训练模块，用于利用初始深度学习模型对无标签数据进行分类，根据分类结果对初始深度学习模型进行迭代训练得到能够将商品进行底层类别分类的第一商品分类预测模型；第二商品分类预测模型训练模块，用于根据国家标准商品体系中的制造行业体系建立商品知识图谱数据库，在商品知识图谱数据库中提取目标商品的文本格式商品数据；利用第一商品分类预测模型根据机器学习算法对目标商品的文本格式商品数据进行归一化分类得到文本格式底层商品分类数据；再将文本格式底层商品分类数据转变为数值化的向量，利用向量比较算法判断文本的相似性从而得出商品分类与国民经济制造业行业的映射关系；然后将文本格式底层商品分类数据与映射关系作为训练样本，对第一商品分类预测模型进行迭代训练，得到能够反映商品到国民经济制造业行业的映射关系的第二商品分类预测模型；分类模块，用于利用第二商品分类预测模型根据输入的任一商品的文本格式的商品数据得到任一商品所对应的国民经济制造业行业。

在该实施例中，第一、第二商品分类预测模型为双向长短时记忆循环神经网络Bi-directional LSTM RNN。

在该实施例中，所述第二商品分类预测模型训练模块采用的向量比较算法为余弦相似度向量比较算法，具体原理可参考图3。每一个汉字或字符的300维度的向量的具体数值是归一化后的数值，和为1。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

应当指出，以上所述具体实施方式可以使本领域的技术人员更全面地理解本发明创造，但不以任何方式限制本发明创造。因此，尽管本说明书参照附图和实施例对本发明创造已进行了详细的说明，但是，本领域技术人员应当理解，仍然可以对本发明创造进行修改或者等同替换，总之，一切不脱离本发明创造的精神和范围的技术方案及其改进，其均应涵盖在本发明创造专利的保护范围当中。

Claims

1.一种基于机器学习获得商品对应国民经济制造业的方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤S3中，所述第一、第二商品分类预测模型均为长短时记忆循环神经网络。

3.根据权利要求2所述的方法，其特征在于，所述长短时记忆循环神经网络为双向长短时记忆循环神经网络。

4.根据权利要求1～3中任一项所述的方法，其特征在于，在步骤S3中，所述将所述文本格式底层商品分类数据转变为数值化的向量，利用向量比较算法判断文本的相似性从而得出商品分类与国民经济制造业行业的映射关系包括步骤：

5.根据权利要求4所述的方法，其特征在于，在步骤S33中，所述向量比较算法为余弦相似度向量比较算法。

6.根据权利要求4所述的方法，其特征在于，每一个汉字或字符的300维度的向量的具体数值是归一化后的数值，和为1。

7.一种基于机器学习获得商品对应国民经济制造业的***，其特征在于，包括：

8.根据权利要求7所述的***，其特征在于，所述第一、第二商品分类预测模型均为长短时记忆循环神经网络。

9.根据权利要求7所述的***，其特征在于，所述第一、第二商品分类预测模型为双向长短时记忆循环神经网络。

10.根据权利要求7所述的***，其特征在于，所述第二商品分类预测模型训练模块采用的向量比较算法为余弦相似度向量比较算法。