CN110569351A

CN110569351A - 一种约束性用户偏好的网络媒体新闻分类方法

Info

Publication number: CN110569351A
Application number: CN201910821597.9A
Authority: CN
Inventors: 靳继磊; 王森奥; 刘玲; 朱迪; 祁菲菲
Original assignee: Beijing Liyun Wanluo Technology Co Ltd
Current assignee: Beijing Liyun Wanluo Technology Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-12-13

Abstract

本发明公开了一种约束性用户偏好的网络媒体新闻分类方法，包括获取用户集和新闻集；对新闻集中的新闻数据进行预处理；根据用户对新闻的偏好行为生成用户新闻偏好矩阵；根据用户新闻偏好矩阵对新闻数据进行特征提取；计算待分类新闻的特征向量；根据特征向量对新闻进行分类。本发明方法中在进行数据特征提出的过程中，充分考虑了用户的偏好行为，有重点地对相关数据进行筛选处理，以此获得的数据结果更适合特定的用户；在特征向量提出中，充分考虑了多个维度的特征，且在相似性计算的过程中提出了一种综合的相似度计算。由此本发明方法相较于现有技术具有更强的针对性，更小的时间复杂度，且具有更好的普适性。

Description

一种约束性用户偏好的网络媒体新闻分类方法

技术领域

本发明属于智能文本分类处理领域，具体涉及一种约束性用户偏好的网络媒体新闻分类方法。

背景技术

文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别，是一个有监督的学习过程。随着互联网的发展，以文本为主的非结构数据急剧增长，文本分类已成为一个重要的研究课题，在机器学习和信息检索等领域得到了广泛研究和应用。

在学术界和工业界对文本分类的问题研究成果已经很多，比如，传统的文本表示模型有向量空间模型(VSM)，但其没有考虑词的语义，其用于文档表示具有高维性和高稀疏性等缺点。潜在语义分析模型(LSA)，使用矩阵奇异值分解将高维特征空间映射到低维，缺点是矩阵分解复杂度高。概率潜在语义分析模型(PLSA)，使用的是概率模型将隐含主题和共现的数据联成概率统计，但是模型参数随着文档数呈线性增加。潜在狄利克雷分配模型(LDA)，该模型描述了文档-主题-词三层结构关系，是一种无监督的模型。但是，在模型的训练过程中没有结合词向量等语义信息。诸如此类的研究，还在不停的继续和深化着。

然而，在具体的应用中的技术需求，不同于学术界的研究，尤其是对于网络媒体运营者，在对自身平台中的新闻进行智能分类时，需要重点关注两个方面的信息，第一，分类的对象是什么，即平台上现有的和将来会有的新闻的问文本特征是什么，第二，分类的目的是什么，事实上主要目的是满足用户的偏好，即需要在不同用户的偏好约束下对新闻进行分类，实现精准营销。

发明内容

有鉴于此，本发明的目的在于提供一种约束性用户偏好的网络媒体新闻分类方法，用于网络媒体运营者对平台上的新闻进行更加精准更加符合用户偏好的分类。

基于上述目的本发明提出了一种约束性用户偏好的网络媒体新闻分类方法，包括以下步骤：

步骤1，获取用户集U和新闻集I；

步骤2，对新闻集中的新闻数据进行预处理；

步骤3，根据用户对新闻的偏好行为生成用户新闻偏好矩阵R；

步骤4，根据用户新闻偏好矩阵对新闻数据进行特征提取；

步骤5，计算待分类新闻的特征向量；

步骤6，根据特征向量对新闻进行分类。

所述的预处理包括按照预定规则进行中文分词；根据词性进行连接词删除；根据词频进行无关词删除。

步骤3中所述的用户对新闻的偏好行为是指用户浏览或者点击过相应的新闻行为，所述的用户新闻偏好矩阵R为M×N维，其中M为用户数目，N为新闻篇数，R中的一个元素r_ij的取值为正整数，表示第i个用户对第j篇新闻的偏好行为次数。

步骤4包括以下步骤：

步骤401，根据预设阈值，对用户新闻偏好矩阵进行布尔取值，若r_ij大于或等于所述的阈值，则r_ij＝1，否则r_ij＝0；

步骤402，对r_ij＝1对应的新闻数据进行特征提取，获取词频向量特征；

步骤403，建立词向量生成模型，对模型进行训练，并获得所述新闻数据的词向量特征；

步骤404，建立主题生成模型，对模型进行训练，并获取所述新闻数据的主题向量特征。

在步骤5中，对所述的待分类新闻的词向量特征、词频向量特征和主题向量特征融合，获得每篇新闻的概括特征向量。

所述的词特征向量为word2vec词向量，所述的词频向量特征为词频与逆文档频率特征向量，所述的主题向量为改进的潜在狄利克雷分配模模型主题向量；

所述的词向量与词频向量的融合为加权融合，词向量为基准，词频向量为权重；所述的主题向量与词频向量的融合为加权融合，主题向量为基准，词频向量为权重；

加权融合后的词向量和加权融合后主题向量进行拼接融合，获得待分类新闻的综合特征向量。

步骤6中所述的分类过程包括以下步骤：

步骤601，根据预设的类别数目T，随机确定T个类别的中心；

步骤602，计算每篇新闻对于T个中心的相似度，根据相似度把所有的新闻划分到每一个类别中；

步骤603，在类别中比较每两篇新闻的相似度，重新选定类别的中心；

步骤604，根据新选定的中心，重新对所有新闻进行类别划分；

步骤605，重复步骤603和604，直到所有新闻的类别变化数量小于预设变化阈值或者类别内的相似度小于预设相似度阈值，停止迭代，分类过程结束。根据权利要求7所述的网络媒体新闻分类方法，其特征在于，所述的相似度的计算公式为：

其中，Max(d(X,Y))表示两个向量之间的最大曼哈顿距离，α为预设的可调参数，用于调整距离度量和夹角度量之间的权重值，所述的曼哈顿距离表示为d(x,y)＝|x₁-y₁|+|x₂-y₂|+…+|x_p-y_p|，x和y为两个向量，x₁,x₂,…x_p为向量x中的各个属性值，y₁,y₂,…,y_p为向量y中的各个属性值，每个向量中有p个属性，其中，||x||是向量x＝(x₁,x₂,…x_p)的欧几里得范数，||y||是向量y＝(y₁,y₂,…y_p)的欧几里得范数。

本发明一种约束性用户偏好的网络媒体新闻分类方法，首先在进行数据特征提出的过程中，充分考虑了用户的偏好行为，有重点地对相关数据进行筛选处理，以此获得的数据结果更适合特定的用户，且数据处理的时间大大缩短；其次，在特征向量提出中，充分考虑了多个维度的特征，且在相似性计算的过程中提出了一种综合的相似度计算，更具有普适性。由此本发明方法相较于现有技术具有更强的针对性，更小的时间复杂度，且具有更好的普适性。

附图说明

图1为本发明实施例中一种约束性用户偏好的网络媒体新闻分类方法的流程示意图；

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

作为本发明的实施例，参阅图1所示，为本发明实施例一种约束性用户偏好的网络媒体新闻分类方法，包括以下步骤：

步骤1，获取用户集U和新闻集I；

步骤2，对新闻集中的新闻数据进行预处理；

步骤4，根据用户新闻偏好矩阵对新闻数据进行特征提取；

步骤5，计算待分类新闻的特征向量；

步骤6，根据特征向量对新闻进行分类。

一般而言，中文分词的方法有多种，常见的有基于字符串词典的分词方法、基于文本概率的分词方法和基于语义分析的分词方法。根据词性进行连接词删除，一般需要删除的词如连接词，感叹词，副词等。根据词频进行无关词的删除可以考虑删除词频过高的词语，比如“我”，“的”等。

步骤4包括以下步骤：

步骤402，对r_ij＝1对应的新闻数据进行特征提取，获取词频向量特征；词频与逆文档频率是一种统计方法，用以评估一个字词对于文件集或语料库中的一份文档或一个类别的重要程度。其主要思想是：如果某个词或短语在一个类别中出现的频率较高，并且在其他类别中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。计算方法实际上是词频(TF)与逆文档频率(IDF)的乘积。词频是词t在文档d中出现的频率，而逆文档频率代表了词t的类别区分能力，包含词t的文档越少则逆文档频率越大。TF和IDF的计算公式分别如下。

其中f(t,d)表示词条t在文档d出现的次数，idf_t姒表示语料库中包含词条t的文档数量，N表示语料库中全部的文档数量。词条t的TFIDF权重为：fidf_t＝tf(t,d)×idf_t。可以看出，词条t的权重随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

word2vec词向量的训练和产生较为简答，且由于词向量之间有较好的相似性度量，故用在本发明中很合适。由于前期根据用户偏好筛选了新闻数据，故此步骤中的word2vec词向量占用空间较小，使得后续计算能够更快。

本发明实施例中主题向量的生成模型采用LF-LDA模型，该模型是将原始的LDA模型中主题词Dirichlet多项式分布替换成两个分布的混合。其中一个为原始的Dirichlet多项式分布，另一个为潜在特征生成词的分布。

步骤6中所述的分类过程包括以下步骤：

步骤601，根据预设的类别数目T，随机确定T个类别的中心；

步骤605，重复步骤603和604，直到所有新闻的类别变化数量小于预设变化阈值或者类别内的相似度小于预设相似度阈值，停止迭代，分类过程结束。

根据权利要求7所述的网络媒体新闻分类方法，其特征在于，所述的相似度的计算公式为：

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种约束性用户偏好的网络媒体新闻分类方法，其特征在于，包括以下步骤：

步骤1，获取用户集U和新闻集I；

步骤2，对新闻集中的新闻数据进行预处理；

步骤4，根据用户新闻偏好矩阵对新闻数据进行特征提取；

步骤5，计算待分类新闻的特征向量；

步骤6，根据特征向量对新闻进行分类。

2.根据权利要求1所述的网络媒体新闻分类方法，其特征在于，所述的预处理包括按照预定规则进行中文分词；根据词性进行连接词删除；根据词频进行无关词删除。

3.根据权利要求2所述的网络媒体新闻分类方法，其特征在于，步骤3中所述的用户对新闻的偏好行为是指用户浏览或者点击过相应的新闻行为，所述的用户新闻偏好矩阵R为M×N维，其中M为用户数目，N为新闻篇数，R中的一个元素r_ij的取值为正整数，表示第i个用户对第j篇新闻的偏好行为次数。

4.根据权利要求3所述的网络媒体新闻分类方法，其特征在于，步骤4包括以下步骤：

5.根据权利要求4所述的网络媒体新闻分类方法，其特征在于，在步骤5中，对所述的待分类新闻的词向量特征、词频向量特征和主题向量特征融合，获得每篇新闻的概括特征向量。

6.根据权利要求5所述的网络媒体新闻分类方法，其特征在于，所述的词特征向量为word2vec词向量，所述的词频向量特征为词频与逆文档频率特征向量，所述的主题向量为改进的潜在狄利克雷分配模模型主题向量；

7.根据权利要求6所述的网络媒体新闻分类方法，其特征在于，步骤6中所述的分类过程包括以下步骤：

步骤601，根据预设的类别数目T，随机确定T个类别的中心；

8.根据权利要求7所述的网络媒体新闻分类方法，其特征在于，所述的相似度的计算公式为：

其中，Max(d(X,Y))表示两个特征向量的最大曼哈顿距离，所述的曼哈顿距离表示为d(x,y)＝|x₁-y₁|+|x₂-y₂|+…+|x_p-y_p|，x和y为两个特征向量，x₁,x₂,…x_p为向量x中的各个属性值，y₁,y₂,…,y_p为向量y中的各个属性值，每个向量中有p个属性，α为可调参数，其中，||x||是向量x＝(x₁,x₂,…x_p)的欧几里得范数，||y||是向量y＝(y₁,y₂,…y_p)的欧几里得范数。