CN110569351A - 一种约束性用户偏好的网络媒体新闻分类方法 - Google Patents

一种约束性用户偏好的网络媒体新闻分类方法 Download PDF

Info

Publication number
CN110569351A
CN110569351A CN201910821597.9A CN201910821597A CN110569351A CN 110569351 A CN110569351 A CN 110569351A CN 201910821597 A CN201910821597 A CN 201910821597A CN 110569351 A CN110569351 A CN 110569351A
Authority
CN
China
Prior art keywords
news
vector
user
word
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910821597.9A
Other languages
English (en)
Inventor
靳继磊
王森奥
刘玲
朱迪
祁菲菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Liyun Wanluo Technology Co Ltd
Original Assignee
Beijing Liyun Wanluo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Liyun Wanluo Technology Co Ltd filed Critical Beijing Liyun Wanluo Technology Co Ltd
Priority to CN201910821597.9A priority Critical patent/CN110569351A/zh
Publication of CN110569351A publication Critical patent/CN110569351A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种约束性用户偏好的网络媒体新闻分类方法,包括获取用户集和新闻集;对新闻集中的新闻数据进行预处理;根据用户对新闻的偏好行为生成用户新闻偏好矩阵;根据用户新闻偏好矩阵对新闻数据进行特征提取;计算待分类新闻的特征向量;根据特征向量对新闻进行分类。本发明方法中在进行数据特征提出的过程中,充分考虑了用户的偏好行为,有重点地对相关数据进行筛选处理,以此获得的数据结果更适合特定的用户;在特征向量提出中,充分考虑了多个维度的特征,且在相似性计算的过程中提出了一种综合的相似度计算。由此本发明方法相较于现有技术具有更强的针对性,更小的时间复杂度,且具有更好的普适性。

Description

一种约束性用户偏好的网络媒体新闻分类方法
技术领域
本发明属于智能文本分类处理领域,具体涉及一种约束性用户偏好的网络媒体新闻分类方法。
背景技术
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别,是一个有监督的学习过程。随着互联网的发展,以文本为主的非结构数据急剧增长,文本分类已成为一个重要的研究课题,在机器学习和信息检索等领域得到了广泛研究和应用。
在学术界和工业界对文本分类的问题研究成果已经很多,比如,传统的文本表示模型有向量空间模型(VSM),但其没有考虑词的语义,其用于文档表示具有高维性和高稀疏性等缺点。潜在语义分析模型(LSA),使用矩阵奇异值分解将高维特征空间映射到低维,缺点是矩阵分解复杂度高。概率潜在语义分析模型(PLSA),使用的是概率模型将隐含主题和共现的数据联成概率统计,但是模型参数随着文档数呈线性增加。潜在狄利克雷分配模型(LDA),该模型描述了文档-主题-词三层结构关系,是一种无监督的模型。但是,在模型的训练过程中没有结合词向量等语义信息。诸如此类的研究,还在不停的继续和深化着。
然而,在具体的应用中的技术需求,不同于学术界的研究,尤其是对于网络媒体运营者,在对自身平台中的新闻进行智能分类时,需要重点关注两个方面的信息,第一,分类的对象是什么,即平台上现有的和将来会有的新闻的问文本特征是什么,第二,分类的目的是什么,事实上主要目的是满足用户的偏好,即需要在不同用户的偏好约束下对新闻进行分类,实现精准营销。
发明内容
有鉴于此,本发明的目的在于提供一种约束性用户偏好的网络媒体新闻分类方法,用于网络媒体运营者对平台上的新闻进行更加精准更加符合用户偏好的分类。
基于上述目的本发明提出了一种约束性用户偏好的网络媒体新闻分类方法,包括以下步骤:
步骤1,获取用户集U和新闻集I;
步骤2,对新闻集中的新闻数据进行预处理;
步骤3,根据用户对新闻的偏好行为生成用户新闻偏好矩阵R;
步骤4,根据用户新闻偏好矩阵对新闻数据进行特征提取;
步骤5,计算待分类新闻的特征向量;
步骤6,根据特征向量对新闻进行分类。
所述的预处理包括按照预定规则进行中文分词;根据词性进行连接词删除;根据词频进行无关词删除。
步骤3中所述的用户对新闻的偏好行为是指用户浏览或者点击过相应的新闻行为,所述的用户新闻偏好矩阵R为M×N维,其中M为用户数目,N为新闻篇数,R中的一个元素rij的取值为正整数,表示第i个用户对第j篇新闻的偏好行为次数。
步骤4包括以下步骤:
步骤401,根据预设阈值,对用户新闻偏好矩阵进行布尔取值,若rij大于或等于所述的阈值,则rij=1,否则rij=0;
步骤402,对rij=1对应的新闻数据进行特征提取,获取词频向量特征;
步骤403,建立词向量生成模型,对模型进行训练,并获得所述新闻数据的词向量特征;
步骤404,建立主题生成模型,对模型进行训练,并获取所述新闻数据的主题向量特征。
在步骤5中,对所述的待分类新闻的词向量特征、词频向量特征和主题向量特征融合,获得每篇新闻的概括特征向量。
所述的词特征向量为word2vec词向量,所述的词频向量特征为词频与逆文档频率特征向量,所述的主题向量为改进的潜在狄利克雷分配模模型主题向量;
所述的词向量与词频向量的融合为加权融合,词向量为基准,词频向量为权重;所述的主题向量与词频向量的融合为加权融合,主题向量为基准,词频向量为权重;
加权融合后的词向量和加权融合后主题向量进行拼接融合,获得待分类新闻的综合特征向量。
步骤6中所述的分类过程包括以下步骤:
步骤601,根据预设的类别数目T,随机确定T个类别的中心;
步骤602,计算每篇新闻对于T个中心的相似度,根据相似度把所有的新闻划分到每一个类别中;
步骤603,在类别中比较每两篇新闻的相似度,重新选定类别的中心;
步骤604,根据新选定的中心,重新对所有新闻进行类别划分;
步骤605,重复步骤603和604,直到所有新闻的类别变化数量小于预设变化阈值或者类别内的相似度小于预设相似度阈值,停止迭代,分类过程结束。根据权利要求7所述的网络媒体新闻分类方法,其特征在于,所述的相似度的计算公式为:
其中,Max(d(X,Y))表示两个向量之间的最大曼哈顿距离,α为预设的可调参数,用于调整距离度量和夹角度量之间的权重值,所述的曼哈顿距离表示为d(x,y)=|x1-y1|+|x2-y2|+…+|xp-yp|,x和y为两个向量,x1,x2,…xp为向量x中的各个属性值,y1,y2,…,yp为向量y中的各个属性值,每个向量中有p个属性,其中,||x||是向量x=(x1,x2,…xp)的欧几里得范数,||y||是向量y=(y1,y2,…yp)的欧几里得范数。
本发明一种约束性用户偏好的网络媒体新闻分类方法,首先在进行数据特征提出的过程中,充分考虑了用户的偏好行为,有重点地对相关数据进行筛选处理,以此获得的数据结果更适合特定的用户,且数据处理的时间大大缩短;其次,在特征向量提出中,充分考虑了多个维度的特征,且在相似性计算的过程中提出了一种综合的相似度计算,更具有普适性。由此本发明方法相较于现有技术具有更强的针对性,更小的时间复杂度,且具有更好的普适性。
附图说明
图1为本发明实施例中一种约束性用户偏好的网络媒体新闻分类方法的流程示意图;
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
作为本发明的实施例,参阅图1所示,为本发明实施例一种约束性用户偏好的网络媒体新闻分类方法,包括以下步骤:
步骤1,获取用户集U和新闻集I;
步骤2,对新闻集中的新闻数据进行预处理;
步骤3,根据用户对新闻的偏好行为生成用户新闻偏好矩阵R;
步骤4,根据用户新闻偏好矩阵对新闻数据进行特征提取;
步骤5,计算待分类新闻的特征向量;
步骤6,根据特征向量对新闻进行分类。
所述的预处理包括按照预定规则进行中文分词;根据词性进行连接词删除;根据词频进行无关词删除。
一般而言,中文分词的方法有多种,常见的有基于字符串词典的分词方法、基于文本概率的分词方法和基于语义分析的分词方法。根据词性进行连接词删除,一般需要删除的词如连接词,感叹词,副词等。根据词频进行无关词的删除可以考虑删除词频过高的词语,比如“我”,“的”等。
步骤3中所述的用户对新闻的偏好行为是指用户浏览或者点击过相应的新闻行为,所述的用户新闻偏好矩阵R为M×N维,其中M为用户数目,N为新闻篇数,R中的一个元素rij的取值为正整数,表示第i个用户对第j篇新闻的偏好行为次数。
步骤4包括以下步骤:
步骤401,根据预设阈值,对用户新闻偏好矩阵进行布尔取值,若rij大于或等于所述的阈值,则rij=1,否则rij=0;
步骤402,对rij=1对应的新闻数据进行特征提取,获取词频向量特征;词频与逆文档频率是一种统计方法,用以评估一个字词对于文件集或语料库中的一份文档或一个类别的重要程度。其主要思想是:如果某个词或短语在一个类别中出现的频率较高,并且在其他类别中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。计算方法实际上是词频(TF)与逆文档频率(IDF)的乘积。词频是词t在文档d中出现的频率,而逆文档频率代表了词t的类别区分能力,包含词t的文档越少则逆文档频率越大。TF和IDF的计算公式分别如下。
其中f(t,d)表示词条t在文档d出现的次数,idft姒表示语料库中包含词条t的文档数量,N表示语料库中全部的文档数量。词条t的TFIDF权重为:fidft=tf(t,d)×idft。可以看出,词条t的权重随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
步骤403,建立词向量生成模型,对模型进行训练,并获得所述新闻数据的词向量特征;
步骤404,建立主题生成模型,对模型进行训练,并获取所述新闻数据的主题向量特征。
在步骤5中,对所述的待分类新闻的词向量特征、词频向量特征和主题向量特征融合,获得每篇新闻的概括特征向量。
所述的词特征向量为word2vec词向量,所述的词频向量特征为词频与逆文档频率特征向量,所述的主题向量为改进的潜在狄利克雷分配模模型主题向量;
word2vec词向量的训练和产生较为简答,且由于词向量之间有较好的相似性度量,故用在本发明中很合适。由于前期根据用户偏好筛选了新闻数据,故此步骤中的word2vec词向量占用空间较小,使得后续计算能够更快。
所述的词向量与词频向量的融合为加权融合,词向量为基准,词频向量为权重;所述的主题向量与词频向量的融合为加权融合,主题向量为基准,词频向量为权重;
本发明实施例中主题向量的生成模型采用LF-LDA模型,该模型是将原始的LDA模型中主题词Dirichlet多项式分布替换成两个分布的混合。其中一个为原始的Dirichlet多项式分布,另一个为潜在特征生成词的分布。
加权融合后的词向量和加权融合后主题向量进行拼接融合,获得待分类新闻的综合特征向量。
步骤6中所述的分类过程包括以下步骤:
步骤601,根据预设的类别数目T,随机确定T个类别的中心;
步骤602,计算每篇新闻对于T个中心的相似度,根据相似度把所有的新闻划分到每一个类别中;
步骤603,在类别中比较每两篇新闻的相似度,重新选定类别的中心;
步骤604,根据新选定的中心,重新对所有新闻进行类别划分;
步骤605,重复步骤603和604,直到所有新闻的类别变化数量小于预设变化阈值或者类别内的相似度小于预设相似度阈值,停止迭代,分类过程结束。
根据权利要求7所述的网络媒体新闻分类方法,其特征在于,所述的相似度的计算公式为:
其中,Max(d(X,Y))表示两个向量之间的最大曼哈顿距离,α为预设的可调参数,用于调整距离度量和夹角度量之间的权重值,所述的曼哈顿距离表示为d(x,y)=|x1-y1|+|x2-y2|+…+|xp-yp|,x和y为两个向量,x1,x2,…xp为向量x中的各个属性值,y1,y2,…,yp为向量y中的各个属性值,每个向量中有p个属性,其中,||x||是向量x=(x1,x2,…xp)的欧几里得范数,||y||是向量y=(y1,y2,…yp)的欧几里得范数。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种约束性用户偏好的网络媒体新闻分类方法,其特征在于,包括以下步骤:
步骤1,获取用户集U和新闻集I;
步骤2,对新闻集中的新闻数据进行预处理;
步骤3,根据用户对新闻的偏好行为生成用户新闻偏好矩阵R;
步骤4,根据用户新闻偏好矩阵对新闻数据进行特征提取;
步骤5,计算待分类新闻的特征向量;
步骤6,根据特征向量对新闻进行分类。
2.根据权利要求1所述的网络媒体新闻分类方法,其特征在于,所述的预处理包括按照预定规则进行中文分词;根据词性进行连接词删除;根据词频进行无关词删除。
3.根据权利要求2所述的网络媒体新闻分类方法,其特征在于,步骤3中所述的用户对新闻的偏好行为是指用户浏览或者点击过相应的新闻行为,所述的用户新闻偏好矩阵R为M×N维,其中M为用户数目,N为新闻篇数,R中的一个元素rij的取值为正整数,表示第i个用户对第j篇新闻的偏好行为次数。
4.根据权利要求3所述的网络媒体新闻分类方法,其特征在于,步骤4包括以下步骤:
步骤401,根据预设阈值,对用户新闻偏好矩阵进行布尔取值,若rij大于或等于所述的阈值,则rij=1,否则rij=0;
步骤402,对rij=1对应的新闻数据进行特征提取,获取词频向量特征;
步骤403,建立词向量生成模型,对模型进行训练,并获得所述新闻数据的词向量特征;
步骤404,建立主题生成模型,对模型进行训练,并获取所述新闻数据的主题向量特征。
5.根据权利要求4所述的网络媒体新闻分类方法,其特征在于,在步骤5中,对所述的待分类新闻的词向量特征、词频向量特征和主题向量特征融合,获得每篇新闻的概括特征向量。
6.根据权利要求5所述的网络媒体新闻分类方法,其特征在于,所述的词特征向量为word2vec词向量,所述的词频向量特征为词频与逆文档频率特征向量,所述的主题向量为改进的潜在狄利克雷分配模模型主题向量;
所述的词向量与词频向量的融合为加权融合,词向量为基准,词频向量为权重;所述的主题向量与词频向量的融合为加权融合,主题向量为基准,词频向量为权重;
加权融合后的词向量和加权融合后主题向量进行拼接融合,获得待分类新闻的综合特征向量。
7.根据权利要求6所述的网络媒体新闻分类方法,其特征在于,步骤6中所述的分类过程包括以下步骤:
步骤601,根据预设的类别数目T,随机确定T个类别的中心;
步骤602,计算每篇新闻对于T个中心的相似度,根据相似度把所有的新闻划分到每一个类别中;
步骤603,在类别中比较每两篇新闻的相似度,重新选定类别的中心;
步骤604,根据新选定的中心,重新对所有新闻进行类别划分;
步骤605,重复步骤603和604,直到所有新闻的类别变化数量小于预设变化阈值或者类别内的相似度小于预设相似度阈值,停止迭代,分类过程结束。
8.根据权利要求7所述的网络媒体新闻分类方法,其特征在于,所述的相似度的计算公式为:
其中,Max(d(X,Y))表示两个特征向量的最大曼哈顿距离,所述的曼哈顿距离表示为d(x,y)=|x1-y1|+|x2-y2|+…+|xp-yp|,x和y为两个特征向量,x1,x2,…xp为向量x中的各个属性值,y1,y2,…,yp为向量y中的各个属性值,每个向量中有p个属性,α为可调参数,其中,||x||是向量x=(x1,x2,…xp)的欧几里得范数,||y||是向量y=(y1,y2,…yp)的欧几里得范数。
CN201910821597.9A 2019-09-02 2019-09-02 一种约束性用户偏好的网络媒体新闻分类方法 Pending CN110569351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910821597.9A CN110569351A (zh) 2019-09-02 2019-09-02 一种约束性用户偏好的网络媒体新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910821597.9A CN110569351A (zh) 2019-09-02 2019-09-02 一种约束性用户偏好的网络媒体新闻分类方法

Publications (1)

Publication Number Publication Date
CN110569351A true CN110569351A (zh) 2019-12-13

Family

ID=68777273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910821597.9A Pending CN110569351A (zh) 2019-09-02 2019-09-02 一种约束性用户偏好的网络媒体新闻分类方法

Country Status (1)

Country Link
CN (1) CN110569351A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611379A (zh) * 2020-05-18 2020-09-01 深圳证券信息有限公司 一种文本信息分类方法、装置、设备及可读存储介质
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112836010A (zh) * 2020-10-22 2021-05-25 长城计算机软件与***有限公司 用于专利的检索方法、存储介质及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770520A (zh) * 2010-03-05 2010-07-07 南京邮电大学 基于用户浏览行为的用户兴趣建模方法
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、***及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN101770520A (zh) * 2010-03-05 2010-07-07 南京邮电大学 基于用户浏览行为的用户兴趣建模方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、***及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611379A (zh) * 2020-05-18 2020-09-01 深圳证券信息有限公司 一种文本信息分类方法、装置、设备及可读存储介质
CN112836010A (zh) * 2020-10-22 2021-05-25 长城计算机软件与***有限公司 用于专利的检索方法、存储介质及装置
CN112836010B (zh) * 2020-10-22 2024-04-05 新长城科技有限公司 用于专利的检索方法、存储介质及装置
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112417153B (zh) * 2020-11-20 2023-07-04 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN106156204B (zh) 文本标签的提取方法和装置
CN110413780B (zh) 文本情感分析方法和电子设备
CN110232149B (zh) 一种热点事件检测方法和***
WO2023029420A1 (zh) 一种电力用户诉求筛选方法、***、电子设备和存储介质
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
Zhou et al. Joint image and text representation for aesthetics analysis
CN110569351A (zh) 一种约束性用户偏好的网络媒体新闻分类方法
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN112949713B (zh) 一种基于复杂网络的集成学习的文本情感分类方法
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
CN110866102A (zh) 检索处理方法
Chen et al. Personalized recommendation model: an online comment sentiment based analysis
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和***
Osanyin et al. A review on web page classification
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Amini Interactive learning for text summarization
CN116881451A (zh) 基于机器学习的文本分类方法
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
Evangeline et al. Text categorization techniques: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213