CN108304359A

CN108304359A - 无监督学习统一特征提取器构建方法

Info

Publication number: CN108304359A
Application number: CN201810117102.XA
Authority: CN
Inventors: 杨楠; 曹三省
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-07-20
Anticipated expiration: 2038-02-06
Also published as: CN108304359B

Abstract

本申请提供一种无监督学习统一特征提取器构建方法，其特征在于：从服务器端获取实际新闻文本数据生成新闻特征训练数据集；将新闻特征训练数据集中的数据进行处理并向量化得到新闻特征训练向量集；将新闻数据集按照用户访问数据进行归类，形成用户特征训练数据集；构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用特定的目标函数对深度自编码器进行训练；在深度自编码器完成训练后，删除解码器部分，加入一个二值化生成层，构建完成无监督学习统一特征提取器。本申请提供的无监督学习统一特征提取器，可以实现新闻特征和用户特征的统一、基于内容推荐和协同过滤推荐的统一，并提高了实时推荐的效率。

Description

无监督学习统一特征提取器构建方法

技术领域

本发明属于人工智能领域，具体地涉及一种无监督学习统一特征提取器构建方法。

背景技术

当前的推荐***或推荐引擎一般分为基于内容的推荐、协同过滤推荐、混合推荐等类型，是当今社会中与搜索引擎同等重要的信息化工具，在电子商务、媒体推荐等领域得到广泛应用。当前热门的协同过滤方法主要基于共性，即通过某用户对商品或媒体内容(可以统称为“物品”)的评分来计算出用户间的相似度、物品间的相似度，然后根据与该用户兴趣类似的其他用户的评分来推断其对新物品的评分、或根据与其曾感兴趣的物品的相似度来预测对新物品的评分，因此又被称为评分预测，但其缺点是个性化不足、在评分数据不足的情况下预测困难。

基于内容的推荐主要是对某用户的偏好建模、对物品的属性进行建模，根据用户的偏好、爱好来进行推荐，个性化较强，但用户偏好、物品属性的建模和匹配是难点。过去的用户偏好建模需要使用人口统计学等直接特征，也容易侵犯人的隐私。

深度学习是近年来兴起的新型机器学习方法，可以分为有监督学习和无监督学习。自编码器(AutoEncoder，AE)是无监督学习当前的一个研究前沿，但目前的大部分的深度自编码***各有优劣，存在容易过拟合等缺点、大部分还没实现完全意义上的无监督学习，大大制约了其能力的发挥。

在当前人工智能、深度学习、无监督学习等技术快速发展的情况下，需要研究使用新技术、新方法来对推荐***的技术基础进行更新，有效实现混合推荐，大力提升在线推荐效率。

发明内容

针对当前融合媒体新闻推荐等应用中个性化不足、用户特征提取困难、将不同方法统一起来形成有效的混合推荐方法较为困难、用户特征提取中隐私侵犯、实时推荐效率有待提高等问题，根据当前的新型的人工智能技术，本申请公开了一种无监督学习统一特征提取器(Unsupervised Learning Unified Feature Extractor，ULUFE)构建方法，用以提取“基于内容的统一特征表示”(Unified Representation Based on Content，URBC)。一种无监督学习统一特征提取器构建方法，包括以下步骤：

S1、从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集；

S2、使用当前的中文分词工具，将新闻特征训练数据集中的数据进行预处理，得到预处理后的新闻特征训练数据集；

S3、将预处理后的新闻特征训练数据集，通过TF-IDF方法得到新闻特征训练向量集；

S4、将新闻特征训练向量集按照用户访问数据进行归类，形成用户特征训练数据集；

S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用J_SA-CDAE作为目标函数：

其中，

其中k_σ为高斯核，标准差σ取1.0，高斯核函数为：

其中，x表示编码器的输入，f_θ()表示编码器的输出，g_θ()表示解码器输出；L_MC()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集，x_i表示一次训练中编码器的输入，表示解码器还原的输出，t代表训练集，z代表高斯核中的代数式；

S6、训练深度自编码器，训练步骤如下：

S61、将所述新闻特征训练向量集作为所述深度自编码器的训练数据；

S62、在所述训练数据中加入高斯白噪声，生成带噪声的输入数据；

S63、将所述带噪声的输入数据作为所述深度自编码器的输入，训练时采用批量梯度下降法，先进行无监督逐层预训练，得到各隐层的初始参数，以及输出层的输出数据；

S64、在目标函数中对输入的训练数据和输出数据来进行比较，实现梯度的反向传播，对各隐层的初始参数进行调整；

S65、训练完成后，得到深度自编码器的参数集；

S7、删除深度自编码器的解码器部分，并在最末隐层的输出之后加入二值化生成层，完成无监督学习统一特征提取器的构建。

优选的，所述步骤S1，从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集，具体包括以下步骤：

S11、采集服务器上一定时段内的新闻数据和用户访问数据；

S12、去除新闻数据中图片和视频，统一编码为UTF-8，为每条新闻设定序号，构成新闻数据集合；

S13、将新闻数据集合中的新闻按序号进行随机化重新排序，然后按一定比例分别作为逐层无监督预训练阶段和全局训练阶段的新闻特征训练数据集。

优选的，所述步骤S5中构建一个有多个隐层的栈式非对称降噪收缩自编码器，包括2个隐层。

优选的，第一隐层的编码函数为h₁(x_i)＝S(w₁x_i+b₁)，预训练解码函数为第二隐层的编码函数为h₂(h₁)＝S(w₂h₁+b₂)，预训练解码函数为

第二隐层到输出层的全局训练解码函数为g_o(x_i)＝S(w₁x_i+b₁)；

各层的初始参数采用[0,1]的随机数，非线性激活函数S()统一使用Sigmoid函数， e是欧拉数，h表示隐层的编码函数，g为解码函数，b代表偏置，x表示编码器的输入，w₁、w₂分别是第一和第二隐层的权值参数。

优选的，所述步骤S7中的二值化生成层维度与深度自编码器最末隐层一样，与最末隐层的各神经元实现一对一的连接；二值化生成层根据最末隐层的输出设置一个权重调节器来实现阈值调整，权重调节器中阈值T的选取使得一次完整训练的输出结果分为两类，且两类的类间方差最大。

优选的，还包括S8，将用户特征训练向量集输入到无监督学习统一特征提取器，得到用户偏好模型，根据各个用户的用户偏好模型，通过相似度比较生成一个统一的用户近邻表。

本申请的优点是：

1.针对网络媒体的快速推荐中有监督学习需要的人工标注数据难以实时获取，而现有深度自编码器的在采用无监督逐层预训练后仍然需要有监督精调的问题，本发明中的深度自编码器可以实现全程无监督学习；

2.采用深度结构替代单隐层结构，进一步提高了学习内容的高阶潜在解释因子的能力；

3.采用编码器与解码器非对称、隐层维度低于输入层维度，可以学习到数据的非线性流型，在提取特征的同时实现降维，优于PCA等线性流型的方法。而且非对称也可以作为解决自编码器容易过拟合问题的一种手段；

4.本发明中自编码器输出的特征便于进行二值化处理，加入二值化生成层后能够生成二值化特征，使得在推荐中可以分别通过余弦相似度比较、海明距离比较、哈希等方法，解决融合媒体中用户、新闻的快速相似度比较问题，对移动媒体中短新闻的快速推荐作用明显。

5.在应用上，从新闻数据中提取的特征(基于内容的统一特征表示)来作为待推荐新闻和用户的特征，实现了两种特征的统一，也实现了基于内容推荐和协同过滤推荐方法的统一，在有效保护用户隐私的同时，实现推荐方法创新、提升了推荐效率。

附图说明

图1为本发明的SA-CDAE设计示意图；

图2为本发明的训练示意图；

图3为本发明的无监督学习特征提取器；

图4为本发明的在线推荐示意图；

图5为本发明的精确率比较图；

图6为本发明的召回率比较图。

具体实施方式

下面对本发明的无监督学习统一特征提取器构建方法具体实施方式和详细步骤做进一步的说明：

步骤一：数据获取和准备

本发明主要针对当前融合媒体中的网站文本新闻和手机新闻客户端文本新闻。新闻文本数据和用户访问数据都位于服务器端，本步骤需要生成“新闻特征训练数据集”，具体过程如下：

1)采集服务器上一定时段内的新闻数据和用户访问数据，新闻数据包括服务器上的历史新闻，用户访问数据包括用户在一定时段内阅读的新闻ID列表；

2)去除新闻数据中图片和视频等无关内容、统一编码为UTF-8、为每条新闻设定序号，构成新闻数据集合；

3)将新闻数据集合中的新闻按序号进行随机化重新排序，然后按一定比例分别作为逐层无监督预训练阶段和全局训练阶段的“新闻特征训练数据集”。

步骤二：文本数据预处理

使用当前的中文分词工具，将新闻特征训练数据集中的数据进行中文分词、停用词剔除等处理，得到预处理后的新闻特征训练数据集。

步骤三：新闻文本数据向量化

使用TF-IDF方法对预处理后的新闻特征训练数据集进行向量化处理，得到与新闻特征训练数据集相对应的新闻特征训练向量集；TF-IDF是“词频-逆向文档频率”的缩写。

TF意为词频，计算公式为：

IDF意为逆文档频率，计算公式为：

在保持新闻特征训练数据集中词的相对位置的前提下，通过TF-IDF方法得到新闻特征训练数据集中数据的初始特征向量，构成新闻特征训练向量集，TF-ID的计算公式为：

TF-ID＝TF*IDF

步骤四：得到用户特征训练数据集

将新闻特征训练向量集按照用户访问数据进行归类，可以得到“用户特征训练向量集”；

步骤五：构建一个栈式非对称降噪收缩自编码器

本申请中的无监督学习统一特征提取器的核心组件是一个经过特别设计的深度自编码器，在本发明中的作用主要体现在特征提取和维度约简两个方面。本发明围绕融合媒体智能推荐的应用目标，结合收缩自编码器和降噪自编码器的优点设计了一个有2或3个隐层的栈式(深度)非对称降噪收缩自编码器(Stacked Asymmetric DenoisingContractive Auto-encoder，SA-CDAE)，如图1所示。从结构上来说，采取多隐层来改善单隐层的特征提取能力，采取输入层输出层维数相同、隐层维数小于输入层且逐层按比例递减、编码和解码结构非对称来提升抗过拟合能力。经过前期准备和预处理后得到的新闻初始训练向量集从总体上符合独立同分步，但存在一定量的扰动，具体分布为未知，记为D＝{x₁,x₂,…,x_n},x_i∈R^d，n∈N，则：

第一隐层的编码函数为h₁(x_i)＝S(w₁x_i+b₁)，

第一隐层的预训练解码函数为

第二隐层的编码函数为h₂(h₁)＝S(w₂h₁+b₂)，

第二隐层的预训练解码函数为

各层的初始参数采用[0,1]开区间内的随机数，非线性激活函数S()统一使用Sigmoid函数，

其中D代表新闻初始训练向量集，R为实数集，N为自然数集，h代表隐层的编码函数，g为解码函数，b代表偏置，e是欧拉数，h表示隐层的编码函数，g为解码函数，b代表偏置，x表示编码器的输入，w₁、w₂分别是第一和第二隐层的权值参数，x_i表示一次训练中编码器的输入。

自编码器借鉴了人脑的特点，其原理是尝试通过训练一个编码和解码机制，使编码器的输入能够在解码器的输出端重现，其中编码器部分又称为隐层，解码器部分又称为输出层。在输出端完全重构输入并不容易、也无实际意义，但通过设计特殊的结构、在复制中适当加入约束、使用特殊的代价函数和训练方法，使其只能实现近似复制，就能迫使模型按权重对输入中的数据进行复制，从而在自编码器的编码器中构造出数据中有用的分布式特征，近年来成为生成模型研究的前沿。原型自动编码器体现出了较好的特征提取能力，但在使用中容易出现过拟合等问题，对实际数据失去泛化能力，随后陆续出现了针对原型进行改进和优化的衍生型自编码器。

本发明的深度自编码器在设计上同时考虑了加入噪声和减少噪声(扰动)。加入噪声是指借助了DenoisingAutoEncoders的思路，在输入X中加入高斯分布的白噪声，使解码器在输出时强制解除噪声的干扰，从而提高***的抗过拟合性能，在训练时通过在输入中加入高斯白噪声，可以具备降噪自编码的特点，进一步降低过拟合的风险。通过反向传播和随机梯度下降(SGD)来训练出神经网络的参数集θ。

减少噪声(扰动)是指在训练中提高***对非高斯分布噪声和扰动的抵抗能力。为进一步降低新闻特征数据集、用户特征数据集中离群点的影响，并为在方案中进一步采用二值化生成提供基础，在设计上还部分采用了收缩自动编码器的特点。收缩自动编码器是在原型自动编码器的代价函数表达式中加入解析性收缩惩罚因子，以减少特征表示的自由度，使隐层神经元达到饱和状态，进而将输出数据限制在参数空间的一定范围内。该惩罚因子实际上的是编码器雅可比矩阵(Jacobian)的F范数(Frobenius范数)，其作用是降低离群值(outlier)对编码器的影响，抑制训练样本(处在低维流形曲面上)在所有方向上的扰动，辅助编码器学习有用数据特征。此外，收缩自动编码器学习到的分布式表示具有“饱和”的特点，即大部分隐层单元的值都靠近两头(0或1)，并且对输入的偏导数接近于0。

在一般自编码器训练中常使用均方误差函数(Mean Square Error，MSE)作为代价函数，对高斯分布的噪声有一定的容忍度，但在本例中考虑到极小化变量等扰动的存在，如在用户偏好之外的偶然阅读情况，为了提高鲁棒性本实施例中使用最大相关熵(MaximumCorrentropy，MC)作为代价函数：

其中k_σ为高斯核，标准差σ取1.0，高斯核函数为：

本发明中深度自编码器整体的目标函数为：

上面各式中，f_θ()表示编码器的输出，g_θ()表示解码器输出；L_MC()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集，x_i表示一次训练中编码器的输入，表示解码器还原的输出，t代表训练集，z代表高斯核中的代数式。

步骤六：训练深度自编码器

神经网络的训练是指将经过清洗、整理的数据作为输入，通过正向传播和反向传播两个环节，逐渐使神经网络目标函数的参数趋于收敛，从而学习到高阶统计特性。如图2所示，深度自编码器采取离线训练，主要训练步骤如下：

1)将新闻特征训练向量集作为深度自编码器的训练数据，设为X，由此可以看出，本申请中的训练数据使用的是新闻数据，而且既不需要人工标注也不需要使用第三方语料库；

2)在训练数据X中加入高斯白噪声，生成带噪声的输入数据X¹；

3)将X¹作为深度自编码器的输入，训练时采用批量梯度下降法(Mini-batch)，先进行无监督逐层预训练，得到各隐层的初始参数，以及输出层的输出

4)在目标函数中对X和来进行比较，实现梯度的全局反向传播，对各隐层的初始参数进行调整。

5)训练完成后，得到深度自编码器的参数集，用于下一步构建无监督学习统一特征提取器。

本申请中的深度自编码器在结构、代价函数、训练方式等方面进行了全新考虑，可以在特征提取的同时实现降维，而且能够学习到非线性流型，在降维方面要大大优于PCA等线性流型的方法。另外，根据神经网络的并行化特点，在本发明的深度自编码器的主要训练步骤中采用GPU并行计算进行加速，使深度自编码器的训练效率得到了很大提高，提高了在推荐***中实际应用效率。

步骤七：构建无监督学习统一特征提取器

训练完成的深度自编码器输出具有容易二值化的特点，为此，在深度自编码器完成训练后，删除解码器部分，并在最末隐层的输出之后加入二值化生成层，所述二值化生成层用来完成二值化处理，如图3所示，完成无监督学习统一特征提取器的构建。

在本实施例中，深度自编码器的输出约有70％靠近0、1，容易二值化，但剩余30％的如何处理，将直接影响到整体的二值化提取效果和后续相似度比较的精度。为此，在结构上设计了一个维度与深度自编码器最末隐层一样的二值化生成层，与最末隐层的各神经元实现一对一的连接；在内部设计上，二值化生成层没有采用通常的固定阈值，而是根据最末隐层输出的实际分布设计一个权重调节器来实现阈值调整，权重调节器中阈值T的选取原则是，能够使一次完整训练的输出结果分为两类，且两类的类间方差最大。

设一次完整训练后，隐层各单元的总输出集合为K，其中有不同的数据N个。对K进行从小到大排序得到数据集K(k1,k2,…,ki)，并设其能分为大小为t和N-t的两个组K1、K2，每个ki的出现次数为ni，其中i∈[1,N]；两个组在整体中出现的概率分别ε₁、ε₂,两个组的均值分别为β₁、β₂。则ki出现的概率为p_i＝ni/N，ε₂＝1-ε₁，两个组的均值分别为数据集K的均值为β＝ε₁β₁+ε₂β₂。则两个组的类间方差定义为δ(t)＝ε₁(β₁-β)²+ε₂(β₂-β)²。求取T＝argmax_t(δ(t)),即使δ(t)最大时的t，从K中找到T位置对应的值作为阈值，≤T的置为0，其余的置为1，从而实现了隐层输出的二值化。

步骤八：获得用户偏好模型和用户近邻表

当无监督学习统一特征提取器的构建完成后，将用户特征训练向量集输入到无监督学习统一特征提取器，得到用户偏好模型，根据各个用户的用户偏好模型，通过相似度比较生成一个统一的用户近邻表。

如图4所示，是使用无监督学习统一特征提取器进行个性化推荐时的例子。将所有待推荐的新闻文本进行预处理、向量化后输入到无监督学习统一特征提取器中，可以得到基于内容的统一特征表示的待推荐新闻特征向量；将待推荐新闻特征向量与用户的偏好模型进行相似度比较生成基于内容的推荐列表；使用用户近邻表，将与用户A1相似的用户阅读过的新闻生成协同过滤推荐列表，加权混合后得到混合推荐的Top-N推荐列表。

本发明公开的无监督学习统一特征提取器在整体设计、运用方式上都进行了创新：

1、在设计上进行了创新：深度自编码器的设计融合了收缩自编码器和降噪自编码器的特点，设计了新的目标函数，在结构上通过深度结构(2～3个隐层)提高了高阶统计信息的提取能力，各隐层神经元的数量实现了递减，从而实现了深度自编码器编码和解码的非对称性，有益于改善自编码器容易出现的过拟合问题，提升了特征提取的鲁棒性，在提取特征的同时实现了降维。训练完成后使用一个二值化生成层替代输出层，得到无监督学习特征提取器，可以生成二值化特征，便于进行海明距离比较，也便于进一步进行哈希比较等操作。

2、在训练方式上实现了创新：过去通常是单隐层的自编码器完全使用输入、输出作为对比数据，得到误差后进行反向传播来更新网络参数。多层自编码器一般采用无监督逐层预训练后，在最末隐层后面增加softmax等分类器根据类标签进行有监督学习，所以整体是一个半监督学习。而本发明深度的自编码器综合考虑了网络深度和计算效率的问题，在输出端也使用输入数据来进行比较，将得到的误差进行反向传播，从而实现了完整的无监督学习。

3、在运用上实现了创新：不仅提升了推荐***等应用的效率，还有效保护了个人隐私。在提升推荐效率上，通过从新闻文本提取生成的特征作为用户对新闻喜好、偏好特征，不仅实现了特征统一(用户特征和物品特征)提取，还实现了混合推荐方法在技术基础上的统一；而且还通过这种高阶统计特征回避了用户的人口统计学信息等数据，提取出的向量是抽象信息、不包含用户的显式数据，即便被非法获取也不会造成用户信息的泄露，从而实现了隐私保护，符合国家对个人隐私信息越来越严的保护要求。

4、在训练数据上实现了创新。现有的协同过滤等方法通过用户对商品或媒体内容的评分来计算出用户间的相似度、物品间的相似度，但是当前用户很少对阅读的新闻进行评分，造成评分数据稀少、训练数据不足。本申请直接使用新闻数据和用户访问数据，作为深度自编码器的训练数据，具有以下特点：一是避免了缺少训练数据的缺陷；二是不使用第三方的语料库，更加贴近实际。

在实际应用中，精确率和召回率是推荐***评价中使用的两个最主要的指标。经实际测试表明，使用本申请本发明中构建的无监督学习统一特征提取器提取出的特征与推荐方法实现了很好的匹配。使得新型个性化推荐方法与当前较为流行的方法相比，在精确率和召回率方面都取得了很好的效果，如附图5和附图6所示。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种无监督学习统一特征提取器构建方法，其特征在于，所述构建方法包括以下步骤：

其中，

其中k_σ为高斯核，标准差σ取1.0，高斯核函数为：

S6、训练深度自编码器，训练步骤如下：

S65、训练完成后，得到深度自编码器的参数集；

S7、去掉深度自编码器的解码器部分，并在最末隐层的输出之后加入二值化生成层，完成无监督学习统一特征提取器的构建。

2.根据权利要求1所述的无监督学习统一特征提取器构建方法，其特征在于：

所述步骤S1，从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集，具体包括以下步骤：

S11、采集服务器上一定时段内的新闻数据和用户访问数据；

3.根据权利要求1所述的无监督学习统一特征提取器构建方法，其特征在于：

所述步骤S5中构建一个有多个隐层的栈式非对称降噪收缩自编码器，包括2个隐层。

4.根据权利要求3所述的无监督学习统一特征提取器构建方法，其特征在于：

第一隐层的编码函数为h₁(x_i)＝S(w₁x_i+b₁)，预训练解码函数为

第二隐层的编码函数为h₂(h₁)＝S(w₂h₁+b₂)，预训练解码函数为

5.根据权利要求1所述的无监督学习统一特征提取器构建方法，其特征在于：

所述步骤S7中的二值化生成层维度与深度自编码器最末隐层一样，与最末隐层的各神经元实现一对一的连接；二值化生成层根据最末隐层的输出设置一个权重调节器来实现阈值调整，权重调节器中阈值T的选取使得一次完整训练的输出结果分为两类，且两类的类间方差最大。

6.根据权利要求1所述的无监督学习统一特征提取器构建方法，其特征在于，还包括：

S8，将用户特征训练向量集输入到无监督学习统一特征提取器，得到用户偏好模型，根据各个用户的用户偏好模型，通过相似度比较生成一个统一的用户近邻表。