CN102254038B - 一种分析网络评论相关度的***及其分析方法 - Google Patents

一种分析网络评论相关度的***及其分析方法 Download PDF

Info

Publication number
CN102254038B
CN102254038B CN 201110229617 CN201110229617A CN102254038B CN 102254038 B CN102254038 B CN 102254038B CN 201110229617 CN201110229617 CN 201110229617 CN 201110229617 A CN201110229617 A CN 201110229617A CN 102254038 B CN102254038 B CN 102254038B
Authority
CN
China
Prior art keywords
comment
degree
correlation
network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110229617
Other languages
English (en)
Other versions
CN102254038A (zh
Inventor
王君泽
黄本雄
王超
胡广
温杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD
Original Assignee
WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD filed Critical WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN 201110229617 priority Critical patent/CN102254038B/zh
Publication of CN102254038A publication Critical patent/CN102254038A/zh
Application granted granted Critical
Publication of CN102254038B publication Critical patent/CN102254038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分析主题内容与其评论内容之间关联程度的方法,该方法不仅仅能够定性的区分评论内容是否为垃圾评论,同时也能对评论内容相关程度进行定量的分析,分析得出一个介于0到1之间的具体相关度值,数值越大则相关程度越大,根据相关度值即可分析出评论与该文章之间的亲疏关系。本发明的一个显著优点为,核心分析部分综合考虑了评论与主题文章之间的相似性,以及评论之间的相关性两个方面内容,因此相关度的分析更加准确。本发明的***基于浏览器模式,分析使用方便,界面友好。

Description

一种分析网络评论相关度的***及其分析方法
技术领域
本发明属于互联网文本处理/数据挖掘领域,涉及利用数据挖掘相关技术分析网络中主题文章与针对这些文章提出的众多评论内容之间相关度等方面。具体包含了利用向量空间模型,概率模型与语言模型进行的针对主题文章与评论内容相似性分析,以及评论内容本身之间相关性的分析。
背景技术
Web2.0时代是一个信息急速增长的时代,网民们能够自由针对各种网络新闻和博客做出各种评论,近几年这些评论数据已经达到了一个海量的规模。针对这些数据现在已经有诸多数据挖掘方面的研究,如用户评论提取与情感分析,用户评论的整合和抽象等。在众多研究领域中,当前有一项研究热点就是识别评论与主题是否相关,即评论是否属于垃圾评论,它有助于人们更好的利用评论资源。在目前研究工作中,这种识别一般都仅为定性的识别:不相关则为垃圾评论,反之为非垃圾评论。事实上,垃圾评论与非垃圾评论之前并没有明显的分界,故这种定性的识别往往比较模糊。此外,即使同为非垃圾评论,它们的价值也往往不尽相同。目前为止,以上这些不足还没有被一般研究人员考虑到。
当前,评论信息研究工作主要集中在利用自然语言处理技术以及数据挖掘技术提取并总结用户评论数据中的用户观点,即评论中的意见挖掘(正面还是负面)领域。具体包含:在针对某项产品的用户评论中总结出该产品的某些功能以及用户对这些功能的观点,识别每个评论中能够反映用户观点的词句,识别每个评论的包含的用户感情是积极或是消极等。在研究评论提出者个性以及行为方面,目前也正在起步并取得一定研究成果,与此类似的还有关于评论内容可信度上的研究。
但在垃圾评论识别上却仍然基本上是一片空白,现今已有的少量关于垃圾评论识别上的研究工作也仅停留在描述垃圾评论分析的各种问题以及已确定的垃圾评论的种类上。
发明内容
本发明针对现有的互联网中缺乏评论信息相关度分析工具的现状,提供一种网络评论与其主题的相关度分析***。
为解决上述技术问题,本发明的网络评论与其主题的相关度分析***,其特征在于,包括网络爬虫模块,相关度分析模块,网页展示模块,
所述网络爬虫模块,用于截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合供所述相关度分析模块分析处理;
所述相关度分析模块,用于定量计算网络评论与主题文章之间的相关度;
所述网页展示模块,用于将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。
所述相关度分析模块包括:
第一装置,用于以全部网络评论为节点,生成无向图;
第二装置,用于计算某个网络评论与主题文章之间的相似度;
第三装置,用于计算第二装置所述网络评论与其相邻节点指代的网络评论的相似度;
第四装置,用于根据第二装置计算出的网络评论与主题文章之间的相似度,以及第三装置计算出的网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度。
所述相关度分析模块还包括:
步进装置,用于选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;
调用控制装置,用于将所述步进装置所选择的网络评论作为输入,并判断是否输入为空值,
如果非空,则调用所述第二、第三、第四装置,计算当前网络评论与主题文章之间的相关度;返回到步进装置;
如果为空值,则停止。
还包括相关度判断模块,用于比较所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度与设定的阈值之间的大小;当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。
本发明同时提出了一种上述分析网络评论相关度的***的分析方法,其特征在于,包括以下步骤:
所述网络爬虫模块截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合发给所述相关度分析模块;
所述相关度分析模块定量计算网络评论与主题文章之间的相关度;
所述网页展示模块将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。
所述相关度分析模块定量计算网络评论与主题文章之间的相关度,包括以下步骤:
步骤5-1、计算某个网络评论与主题文章之间的相似度;
步骤5-2、以全部网络评论为节点,生成无向图;
步骤5-3、计算所述网络评论与其相邻节点指代的网络评论的相似度;
步骤5-4、根据该网络评论与主题文章之间的相似度,以及网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度。
所述相关度分析模块定量计算网络评论与主题文章之间的相关度,还包括以下步骤:
步骤6-1、选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;
步骤6-2、将所述步进装置所选择的网络评论作为输入,并判断是否输入为空值,
如果非空,则返回步骤5-2、5-3、5-4;然后,返回到步骤6-1;
如果为空值,则停止。
还包括以下步骤:
根据所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度,当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。
本发明通过对评论内容相关程度进行定量的分析,分析得出一个介于0到1之间的具体相关度值,数值越大则相关程度越大,根据相关度值即可分析出评论与该文章之间的亲疏关系。本发明的一个显著优点为,核心分析部分综合考虑了评论与主题文章之间的相似性,以及评论之间的相关性两个方面内容,因此相关度的分析更加准确。本发明的***基于浏览器模式,分析使用方便,界面友好。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明分析网络评论相关度的***的结构框图。
图2为本发明的评论网络节点图。
具体实施方式
如图1所示的***的结构框图,本发明分析网络评论相关度的***包括网络爬虫模块,相关度分析模块,网页展示模块,
所述网络爬虫模块,用于截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合供所述相关度分析模块分析处理;
所述相关度分析模块,用于定量计算网络评论与主题文章之间的相关度;本发明从定量角度分析评论与文章的相关度,相关度在这里是一个线性变量,可以是从0到1的线性区域之间任意的一个数值。不同的评论内容计算得到的相关度往往会不同:数值越高则该评论内容和主题文章的关联性越强,越能够明确代表评论者对于文章主题的观点和看法;反之,数值越低则该评论的实际作用价值越小。按照实际需求的不同,当相关度低于某一个设定阀值时,即可认为该评论即为垃圾评论。分析评论内容与主题文章相关度的过程为:提取出主题文章A与其对应的评论内容(评论1,评论2,评论3,…,评论n),计算A与评论1-n的相似度K,计算评论与评论之间相关度L,综合K与L按一定权重累加得出A与所有评论的相关度Pi(i可为1至n间任意整数)。Pi即为最终得出的相关度值。按实际需求可给定一个相关度阀值,任何相关度如果低于该阀值即可判定为无用评论,Pi越高则反映该评论与主题越相关。本相关度分析模块具有不同与目前所有技术的特点是:不仅将评论文本与主题文章之间的语句相似度作为影响相关度的因子,同时还将众多评论文本之间的内在关系也考虑在内。其核心思想为:一段评论内容如果与那些已经分析出的与主题文章有高相关度的评论之间具有较高相似性,则这段评论应该也与该主题文章有较高的相关度,即时这段评论与主题文章的相关度不高。
所述网页展示模块,用于将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。网页展示模块是提供一个面向用户的接口,主要用于按用户要求展示处理结果,包括所有评论内容对应的相关度展示,相关度正逆序排列展示等功能。该模块将相关度分析模块分析处理后之结果组织成用户可理解的数据结构,以网页的形式展示到用户界面。
本发明的整体分析方法是:按需求利用网络爬虫采集模块采集针对特定网页内容的主题和评论数据集,之后将该数据集提交到相关度分析模块进行相关度分析,最后将分析结果传递到网页展示模块按实际功能需求在网络浏览器上弹框展示分析结果。
网络爬虫模块主要基于通用的网络爬虫技术构建,主要包括但不限于站点选择,文本内容选择,数据抓取,后台数据管理部分。网络爬虫模块是一个独立的必要的前置模块,主要用于用户浏览的网页的文本内容截取,并将这些文本中的主题正文内容与评论内容按1:N(一段主题正文对应多条评论内容)的形式抽取出,再组织成一定的数据集供后续分析,如:主题:XXXXX——评论1:XXX,评论2:XXX  评论3:XXX的形式。
相关度分析模块为本发明的核心模块。该模块实现自动分析网络信息中主题文章与评论信息之间的相关度,相关度值越高则反映该评论与主题正文之间越契合,反之则为无关评论,如广告信息,占位信息等。该模块主要分为两个部分:主题-评论分析部分,评论-评论分析部分。其中主题-评论分析部分主要考虑主题正文与评论信息之间相关度,判断标准主要为词汇相似度,文本重复率等方面。评论-评论部分主要则主要分析所有评论信息之间相似度的相关度的计算。综合两个部分的分析结果即可得出最终的相关度分析结果。
本发明代表的核心分析模型综合考虑了以下两个因素:评论与主体文章间相似度,评论之间的内在关系,下面将按顺序给出分析计算的实现过程。
(1)计算评论与被评论主题之间相似度
本发明采用概率语言模型计算评论与主体文章间相似度,对于任意一个评论R与被评论主题文章A,定义Sim(R|A)为R与A之间的相似度,可从如下公式得到:
Sim ( R , A ) ≈ P ( R | A ) = Π i = 1 n P ( q i | A ) = Π w ∈ R P ( w | A ) c ( w , R ) 公式(1)
其中P(R|A)代表从R到A的概率,w为R中出现的词语,c(w,R)代表w在R中出现过的次数,P(w|A)代表w在A中出现的频度概率。
可用最大似然估计法(MLE)计算P(w|A):
P ( w | A ) = P ML ( w | A ) = c ( w , A ) | A |
其中|A|为A中出现的所有词语之和。该方法有一定缺陷,主要表现在如果词语w没有显式出现在A,则P(w|A)直接会取零值。在R与A完全没有相同词语的情况下,R与A的相似度将会被判定为零。
出于解决零值问题的考虑,本发明采用一种改进的方法:Jelinek-Mercer平滑方法,作为一个典型的线性插值平滑法,计算方法如下:
P(w|A)=λPML(w|A)+(1-λ)P(w|C)
其中P(w|C)为词语w在语料库C中出现的概率,λ为平滑系数。作为优选,本发明取其λ的值为0.2。
为避免因评论长度而产生的潜在误差,本发明还引入一个长度归一化方法来规范原始概率:
P norm ( Sim ( R , A ) ) ∞ exp ( log Sim ( R , A ) len ( R ) )
其中len(R)为R的长度,即R中包含的总词数。
(2)整体计算评论与文章相关度
本发明将针对具体主题文章的所有评论的集合视为一种网络节点图,即所有评论的集合被建模为一个图形结构,如图2所示:
通过计算评论之间的余弦相似度可以得到评论间的无向图,该图中每一个节点代表一份评论,节点间的连线的权重代表节点间的余弦相似度。节点依次按下标标R1、R2、R3、R4、R5、…、Rn识出。
基于以上设定,可以认为每一个节点含有一个相关值,这个值会影响该节点的周围节点的相关值,任意取图中一个节点Ri,Ri∈(R1,Rn),有如下公式:
Pertinence ( R i ) = Σ R j ∈ adj [ R i ] w ( R j , R i ) Σ R k ∈ adj [ R j ] w ( R i , R k ) Pertinence ( R j ) 公式(2)
Pertinence(Ri)代表评论Ri与主题文章A之间的相关度,adj[Ri]代表所有与评论Ri相邻的评论节点的集合,Rj为集合adj[Ri]中评论。w(Rj,Ri)为评论Rj与评论Ri之间的相似度。
上述公式仅考虑到评论之间关系的影响,综合步骤1的公式(1)与步骤2的公式(2),最后整体计算评论与主题文章相关度的公式如下:
Pertinence ( R i ) = d × sim ( R i , A ) Σ R sim ( R , A ) + ( 1 - d ) [ Σ R j ∈ adj [ R i ] w ( R j , R i ) Σ k ∈ adj [ j ] w ( R i , R k ) Pertinence ( R j ) ]
本公式左部分依赖于公式(1),右边依赖于公式(2),评论相关度值部分依赖于评论于主题文章之间的相似度,部分依赖于评论之间的关联,故上式中d表示两者之间的权衡值,可按实际情况取0至1之间任何值,本***默认取d=0.7。
最后给出评论信息分析处理组件***的处理流程:包括以下步骤:
网络爬虫模块截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合发给所述相关度分析模块;
计算某个网络评论与主题文章之间的相似度;
步骤A、以全部网络评论为节点,生成无向图;
计算所述网络评论与其相邻节点指代的网络评论的相似度;
根据该网络评论与主题文章之间的相似度,以及网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度。
选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;
将所述步进装置所选择的网络评论作为输入,并判断是否输入为空值,
如果非空,则返回步骤A;如果为空值,则停止。
所述网页展示模块将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。
根据所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度,当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种分析网络评论相关度的***,其特征在于,包括网络爬虫模块,相关度分析模块,网页展示模块,
所述网络爬虫模块,用于截取网页的文本内容,生成主题文章与网络评论的数据集合,所述数据集合供所述相关度分析模块分析处理;
所述相关度分析模块,用于定量计算网络评论与主题文章之间的相关度;包括:
第一装置,用于以全部网络评论为节点,生成无向图;
第二装置,用于计算某个网络评论与主题文章之间的相似度;对于任意一个评论R与被评论主题文章A,定义Sim(R|A)为R与A之间的相似度,可从如下公式得到:
Sim ( R , A ) ≈ P ( R | A ) = Π i = 1 n P ( q i | A ) = Π w ∈ R P ( w | A ) c ( w , R ) 公式(1)
其中P(R|A)代表从R到A的概率,w为R中出现的词语,c(w,R)代表w在R中出现过的次数,P(w|A)代表w在A中出现的频度概率;
第三装置,用于计算第二装置所述网络评论与其相邻节点指代的网络评论的相似度;通过计算评论之间的余弦相似度可以得到评论间的无向图,该图中每一个节点代表一份评论,节点间的连线的权重代表节点间的余弦相似度
Pertinence ( R i ) = Σ R j ∈ adj [ R i ] w ( R j , R i ) ∑ R k ∈ adj [ R j ] w ( R i , R k ) Pertinence ( R j ) 公式(2)
Pertinence(Ri)代表评论Ri与主题文章A之间的相关度,adj[Ri]代表所有与评论Ri相邻的评论节点的集合,Rj为集合adj[Ri]中评论,w(Rj,Ri)为评论Rj与评论Ri之间的相似度;
第四装置,用于根据第二装置计算出的网络评论与主题文章之间的相似度,以及第三装置计算出的网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度;公式如下:
Pertinence ( R i ) = d × sim ( R i , A ) ∑ R sim ( R , A ) + ( 1 - d ) [ Σ R j ∈ adj [ R i ] w ( R j , R i ) ∑ k ∈ adj [ j ] w ( R i , R k ) Pertinence ( R j ) ]
上式中d表示两者之间的权值,取0至1之间任何值;
所述网页展示模块,用于将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。
2.根据权利要求1所述的分析网络评论相关度的***,其特征在于,所述相关度分析模块还包括:
步进装置,用于选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;
调用控制装置,用于将所述步进装置所选择的网络评论作为输入,并判断输入是否为空值,
如果非空值,则分别调用所述第二、第三、第四装置,计算当前网络评论与主题文章之间的相关度;返回到步进装置;
如果为空值,则停止。
3.根据权利要求1或2所述的分析网络评论相关度的***,其特征在于,还包括相关度判断模块,用于比较所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度与设定的阈值之间的大小;当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。
4.一种权利要求1所述分析网络评论相关度的***的分析方法,其特征在于,包括以下步骤:
所述网络爬虫模块截取网页的文本内容,生成主题文章与网络评论的数据集合,所述数据集合发给所述相关度分析模块;
所述相关度分析模块定量计算网络评论与主题文章之间的相关度;包括以下步骤:
步骤5-1、计算某个网络评论与主题文章之间的相似度;
步骤5-2、以全部网络评论为节点,生成无向图;对于任意一个评论R与被评论主题文章A,定义Sim(R|A)为R与A之间的相似度,可从如下公式得到:
Sim ( R , A ) ≈ P ( R | A ) = Π i = 1 n P ( q i | A ) = Π w ∈ R P ( w | A ) c ( w , R ) 公式(1)
其中P(R|A)代表从R到A的概率,w为R中出现的词语,c(w,R)代表w在R中出现过的次数,P(w|A)代表w在A中出现的频度概率;
步骤5-3、计算所述网络评论与其相邻节点指代的网络评论的相似度;通过计算评论之间的余弦相似度可以得到评论间的无向图,该图中每一个节点代表一份评论,节点间的连线的权重代表节点间的余弦相似度,
Pertinence ( R i ) = Σ R j ∈ adj [ R i ] w ( R j , R i ) ∑ R k ∈ adj [ R j ] w ( R i , R k ) Pertinence ( R j ) 公式(2)
Pertinence(Ri)代表评论Ri与主题文章A之间的相关度,adj[Ri]代表所有与评论Ri相邻的评论节点的集合,Rj为集合adj[Ri]中评论,w(Rj,Ri)为评论Rj与评论Ri之间的相似度;
步骤5-4、根据该网络评论与主题文章之间的相似度,以及网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度,公式如下:
Pertinence ( R i ) = d × sim ( R i , A ) ∑ R sim ( R , A ) + ( 1 - d ) [ Σ R j ∈ adj [ R i ] w ( R j , R i ) ∑ k ∈ adj [ j ] w ( R i , R k ) Pertinence ( R j ) ]
上式中d表示两者之间的权值,取0至1之间任何值;
所述网页展示模块将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。
5.根据权利要求4所述分析网络评论相关度的***的分析方法,其特征在于,所述相关度分析模块定量计算网络评论与主题文章之间的相关度,还包括以下步骤:
步骤6-1、选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;
步骤6-2、将所述步进装置所选择的网络评论作为输入,并判断输入是否为空值,
如果非空值,则顺序返回步骤5-2、5-3、5-4;然后,返回到步骤6-1;
如果为空值,则停止。
6.根据权利要求4或5所述分析网络评论相关度的***的分析方法,其特征在于,还包括以下步骤:
根据所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度,当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。
CN 201110229617 2011-08-11 2011-08-11 一种分析网络评论相关度的***及其分析方法 Active CN102254038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110229617 CN102254038B (zh) 2011-08-11 2011-08-11 一种分析网络评论相关度的***及其分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110229617 CN102254038B (zh) 2011-08-11 2011-08-11 一种分析网络评论相关度的***及其分析方法

Publications (2)

Publication Number Publication Date
CN102254038A CN102254038A (zh) 2011-11-23
CN102254038B true CN102254038B (zh) 2013-01-23

Family

ID=44981302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110229617 Active CN102254038B (zh) 2011-08-11 2011-08-11 一种分析网络评论相关度的***及其分析方法

Country Status (1)

Country Link
CN (1) CN102254038B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682120B (zh) * 2012-05-15 2015-06-03 合一网络技术(北京)有限公司 一种网络评论精华文本的获取方法和装置
CN102915501A (zh) * 2012-10-29 2013-02-06 江苏乐买到网络科技有限公司 一种优化网络购物评价信息的方法
CN103020482A (zh) * 2013-01-05 2013-04-03 南京邮电大学 一种基于关系的垃圾评论检测方法
CN103577542B (zh) * 2013-10-10 2018-09-25 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测***
US9779074B2 (en) 2013-12-20 2017-10-03 International Business Machines Corporation Relevancy of communications about unstructured information
CN103745001B (zh) * 2014-01-24 2016-10-05 福州大学 一种产品垃圾评论者检测***
US10037320B2 (en) * 2014-06-30 2018-07-31 Microsoft Technology Licensing, Llc Context-aware approach to detection of short irrelevant texts
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及***
CN105975487B (zh) * 2016-04-26 2019-07-16 昆明理工大学 一种app软件用户评论有关性判断方法
CN106055664B (zh) * 2016-06-03 2019-03-08 腾讯科技(深圳)有限公司 一种基于用户评论的ugc垃圾内容过滤方法及***
CN107704941B (zh) * 2016-08-08 2021-06-29 华为技术有限公司 一种显示物品评论的方法及装置
CN107491491A (zh) * 2017-07-20 2017-12-19 西南财经大学 一种适应用户兴趣变化的媒体文章推荐方法
CN110287977B (zh) * 2018-03-19 2021-09-21 阿里巴巴(中国)有限公司 内容聚类方法及装置
CN109618236B (zh) * 2018-12-13 2023-04-07 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN109857838B (zh) * 2019-02-12 2021-01-26 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109885676B (zh) * 2019-02-26 2020-04-17 利辛县雨若信息科技有限公司 家用设备报告的生成方法、大数据***和存储介质
US11120218B2 (en) 2019-06-13 2021-09-14 International Business Machines Corporation Matching bias and relevancy in reviews with artificial intelligence
CN111382563B (zh) * 2020-03-20 2023-09-08 腾讯科技(深圳)有限公司 文本相关性的确定方法及装置
CN113761110A (zh) * 2020-06-28 2021-12-07 北京沃东天骏信息技术有限公司 信息发布方法、装置、设备和存储介质
CN114385902B (zh) * 2020-10-22 2024-01-30 腾讯科技(深圳)有限公司 一种内容推荐方法、装置及存储介质
CN113656580A (zh) * 2021-08-12 2021-11-16 北京锐安科技有限公司 垃圾评论的识别方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877384B2 (en) * 2007-03-01 2011-01-25 Microsoft Corporation Scoring relevance of a document based on image text
JP4915021B2 (ja) * 2008-09-10 2012-04-11 ヤフー株式会社 検索装置、および検索装置の制御方法
CN101639856B (zh) * 2009-09-11 2011-05-11 清华大学 检测互联网信息传播的网页关联评价装置
CN101694658B (zh) * 2009-10-20 2012-07-04 浙江大学 基于新闻去重的网页爬虫的构建方法

Also Published As

Publication number Publication date
CN102254038A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN102254038B (zh) 一种分析网络评论相关度的***及其分析方法
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研***
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101661513B (zh) 网络热点和舆情的检测方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103049470B (zh) 基于情感相关度的观点检索方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN101216825A (zh) 标引关键词提取/预测方法、在线广告推荐方法和装置
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN105389389B (zh) 一种网络舆情传播态势媒体联动分析方法
CN102789449B (zh) 对评论文本进行评价的方法和装置
CN102945268A (zh) 产品特征评论挖掘方法及***
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN101894102A (zh) 一种主观性文本情感倾向性分析方法和装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102722499B (zh) 搜索引擎及其实现方法
CN102722498A (zh) 搜索引擎及其实现方法
CN103136188A (zh) 用于网络浏览用户的情绪估计的方法和***
CN103886501B (zh) 一种基于语义情感分析的贷后风险预警***
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN103853834A (zh) 基于文本结构分析的Web文档摘要的生成方法
CN102722501A (zh) 搜索引擎及其实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant