CN113656580A - 垃圾评论的识别方法、装置、设备及介质 - Google Patents
垃圾评论的识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113656580A CN113656580A CN202110925078.4A CN202110925078A CN113656580A CN 113656580 A CN113656580 A CN 113656580A CN 202110925078 A CN202110925078 A CN 202110925078A CN 113656580 A CN113656580 A CN 113656580A
- Authority
- CN
- China
- Prior art keywords
- comments
- identified
- word
- comment
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 87
- 238000001914 filtration Methods 0.000 claims description 17
- 238000012552 review Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 235000013555 soy sauce Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了垃圾评论的识别方法、装置、设备及介质。该方法包括:获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;返回执行计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。本发明实施例的技术方案,能够实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。
Description
技术领域
本发明实施例涉及大数据挖掘技术领域,尤其涉及一种垃圾评论的识别方法、装置、设备及介质。
背景技术
随着互联网技术的快速发展,互联网中的评论信息呈***式趋势增长,如何对互联网中的评论信息进行过滤,识别出垃圾评论已成为亟待解决的问题。
现有技术中,对于网络垃圾评论,阻止和识别垃圾评论的方法主要分为人工识别的方法和自动识别的方法两大类。其中,自动识别的方法又可分为基于训练集的分类识别方法和基于相似度的识别方法。
然而,人工识别的方法只能对新发表的评论进行识别,过滤掉其中的垃圾评论,对已发表的垃圾评论却无能为力;同时,人工识别的方法需要不断地进行人工维护,不太方便;并且,垃圾制造者可以利用各种代理方法欺骗过滤机制。基于训练集的分类方法,由于网络的便利,评论更新的速度比较快,特征词的变化很大,所以为了使分类器能更准确的识别出垃圾评论,训练样本就要随着这种变化而改变,训练样本发生变化,特征项就要重新选择,就要重新对特征项进行权重的计算和抽取,这严重影响了***运行的效率,同时带来了不便。
发明内容
本发明实施例提供一种垃圾评论的识别方法、装置、设备及介质,以实现对互联网评论信息中的垃圾评论进行自动识别。
第一方面,本发明实施例提供了一种垃圾评论的识别方法,包括:
获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
第二方面,本发明实施例还提供了一种垃圾评论的识别装置,该装置包括:
相似度计算模块,用于获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
评论识别模块,用于根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
主题词集更新模块,用于如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
评论成功识别模块,用于返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的垃圾评论的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明任一实施例所述的垃圾评论的识别方法。
本发明实施例的技术方案通过利用主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度,并根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,如果确定存在未成功识别的待识别评论,则在对主题词集更新后再次对未成功识别的待识别评论进行识别,直至所有待识别评论均被识别出类别,能够实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。
附图说明
图1是本发明实施例一中的一种垃圾评论的识别方法的流程图;
图2是本发明实施例二中的一种垃圾评论的识别方法的流程图;
图3a是本发明实施例三中的一种垃圾评论的识别方法的流程图;
图3b是本发明实施例三中的一种垃圾评论识别方法的总体框图;
图4是本发明实施例四中的一种垃圾评论的识别装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的垃圾评论的识别方法的流程图,本实施例可适用于对互联网评论信息中的垃圾评论进行识别的情况,该方法可以由垃圾评论的识别装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有垃圾评论识别功能的计算机设备中,例如,终端设备或服务器等,所述方法具体包括如下步骤:
S110、获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度。
其中,待识别评论指的是与目标文章对应的,要进行识别处理的互联网评论信息。主题词集指的是由与目标文章对应的各个主题词所组成的词集。
示例性的,各主题词的计算权重可以根据公式1+log10(1+n)进行计算,其中,n表示主题词在目标文章中出现的次数。
S120、根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论。
其中,垃圾评论指的是与目标文章之间的相似度较低的评论,即与目标文章关联性不强的评论;备选垃圾评论指的是与目标文章之间的相似度初步判断较低的评论,需进行下一步的确认才能对其类别进行最终确定;正常评论指的是与目标文章之间的相似度较高的评论,即与目标文章关联性较强的评论;
具体的,根据各待识别评论与目标文章之间的相似度计算结果,可以将各待识别评论进行分类,以区分出备选垃圾评论和正常评论。
在本实施例的一个可选的实时方式中,可以将相似度计算结果大于或者等于预设阈值(例如,90%)的待识别评论,直接确定为正常评论,而将相似度计算结果小于或者等于预设阈值(例如,5%)的待识别评论,直接确定为备选垃圾评论,而将相似度计算结果处于预设的一个阈值范围内(例如:5%-90%)的待识别评论,确定为成功识别的待识别评论。
在实施例中,可以直接将备选垃圾评论确定为垃圾评论,也可以对该备选垃圾评论进行二次筛选过滤,本实施例对此并不进行限制。
S130、如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集。
其中,未成功识别的待识别评论指的是既不是备选垃圾评论也不是正常评论的第三种类别评论。对主题词集进行主题词扩充指的是将新选取的主题词加入至主题词集中,新主题词的选取规则可根据实际需求设定,例如,可以将目标文章中主题词的近义词作为新的主题词,本实施例对此不进行限制。
S140、返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
值得注意的是,此时的待识别评论指的是未成功识别的待识别评论,通过根据扩充后的主题词集中各新主题词的计算权重,可以计算出各未成功识别的待识别评论与目标文章之间的相似度,以完成对未成功识别的待识别评论进行识别,若主题词集扩充一次后仍不能将所有的未成功识别的待识别评论进行识别,则再次对主题词集进行扩充,直至将全部待识别评论成功识别。
本发明实施例的技术方案通过利用主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度,并根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,如果确定存在未成功识别的待识别评论,则在对主题词集更新后再次对未成功识别的待识别评论进行识别,直至所有待识别评论均被识别出类别,能够实现对互联网评论信息中的垃圾评论进行多轮自动识别,提高了垃圾评论的识别效果。
实施例二
图2为本发明实施例二提供的垃圾评论的识别方法的流程图,本实施例以上述实施例为基础进行细化,其中,将获取与目标文章对应的多个待识别评论,具体为:获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配;根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。
可选的,在对全部待识别评论的成功识别之后,还包括:对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。
如图2所示,所述方法具体包括如下步骤:
S210、获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配。
其中,网络常用语指的是网络上出现的许多约定俗成的字、词或是短语,例如,顶、加油、支持、沙发、无聊、打酱油、占座和灌水等词语;网络常用语词库指的是包含网络常用语的词库。
S220、根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。
其中,备选垃圾评论指的是短小的垃圾评论;备选正常评论指的是短小的正常评论;无法识别评论指的是所有非短小的评论。
在一个可选的实施方式中,在对与目标文章对应的全部评论进行分词、保留词性、去重和去除停用词后,计算每条评论的长度L并设置一个阈值T以对评论的长短进行评估,例如,5≤T≤8;当L<T时,就属于是短小的评论,集合定义为ShorD,否则是非短小的评论,集合是LongD;对于集合ShorD中的每一条评论,与网络常用语词库中的词语进行查找与匹配,匹配的网络正常词语个数记为num1,匹配的网络垃圾词语个数记为num2;如果num1>=num2,则把该评论标记为备选正常评论,否则,标记为备选垃圾评论。
由于包含网络常用语的短小评论中基本上是不会包含与文章内容有关的词汇,所以对这种包含网络常用语的短小评论来说,利用文本相似度的方法来识别其类别,其效果肯定是不好的。因此,在本实施例中,针对评论的长度问题,首先利用网络常用语词库对短小评论进行识别,再利用文本相似度将无法识别评论进行识别,使得无论是短小评论还是非短小评论都能识别出垃圾评论。
S230、获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度。
S240、根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论。
S250、如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集。
S260、返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
S270、对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。
其中,二次过滤指的是利用网络常用语和主题词,通过比较备选垃圾评论中的正常词汇与垃圾词汇占备选垃圾评论中总词汇的比重来对备选垃圾评论进行再次过滤,当正常词汇占备选垃圾评论中总词汇的比重大于或等于某一阈值时,则认定该评论为正常评论;当正常词汇占备选垃圾评论中总词汇的比重小于某一阈值时,则认定该评论为垃圾评论;以此减少正常评论被识别为垃圾评论的可能性。其中,阈值可以根据实际要求设定,本实施例对此不进行限制。
本发明实施例的技术方案,通过将与目标文章对应的全部评论与网络常用语词库进行匹配,得到备选垃圾评论、备选正常评论以及无法识别评论,并将备选正常评论和无法识别评论确定为待识别评论,利用文本相似度的计算方法对待识别评论进行识别,并在对全部待识别评论的成功识别之后,对各备选垃圾评论进行二次过滤处理,使得无论是短小评论还是非短小评论都能识别出垃圾评论,实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。
实施例三
图3a为本发明实施例三提供的垃圾评论的识别方法的流程图,图3b为本发明实施例三提供的垃圾评论识别方法的总体框图,本实施例以上述实施例为基础进行细化,其中,将根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,具体为:获取与当前处理的目标待识别评论对应的相似度计算结果;如果确定所述相似度计算结果小于或者等于第一阈值,则确定所述目标待识别评论为备选垃圾评论;如果确定所述相似度计算结果大于或者等于第二阈值,则确定所述目标待识别评论为正常评论;如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值,则确定未能对所述目标待识别评论进行成功识别。
如图3a所示,所述方法具体包括如下步骤:
S310、获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配。
S320、根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。
S330、获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度。
可选的,计算各待识别评论与目标文章P之间的相似度,包括:
其中,Ck表示第k条待识别评论的向量,P表示目标文章的向量,n为向量的维数,wi表示主题词i在目标文章中的权重,wik表示主题词i在第k条评论中的权重,Si表示词语间的语义信息,在进行首轮待识别评论与目标文章之间的相似度计算时,Si为1,其余轮次中Sim(Pi,Ci'k)表示第k条评论中词语i与目标文章中词语i的近义词i'之间的相似度分值,如果是同一个词语,那么值为1;表示词形相似度,LenP是目标文章中主题词的个数,Same(P,Ck)是第k条评论中出现的目标文章中主题词或者主题词的近义词的个数。由于值是不大于1的数,乘以它后会使整个式子的值减小,影响相似度分值,所以式子中加上了平滑因子0.5。
此外,在其余轮次中为弥补传统相似度方法无法识别近义词的不足,提高评论与文章之间的相似度分值,本实施例中提出了基于词语间相似度、词语位置信息和词形相似度改进的余弦相似度公式计算评论与文章相似度的方法。改进后的具体公式如下所示:
其中,Similarity'(P,Ck)为改进后的评论与文章相似度,w′i=wi*L(t),w′ik=wik*L(t),L(t)表示词语i在目标文章中的位置。
S340、获取与当前处理的目标待识别评论对应的相似度计算结果。
S350、如果确定所述相似度计算结果小于或者等于第一阈值,则确定所述目标待识别评论为备选垃圾评论。
其中,第一阈值指的是预先设定的,用于将目标待识别评论评估为备选垃圾评论的数值。可根据具体实际要求对第一阈值进行设定,本实施例对此不进行限制。
S360、如果确定所述相似度计算结果大于或者等于第二阈值,则确定所述目标待识别评论为正常评论。
其中,第二阈值指的是预先设定的,用于将目标待识别评论评估为正常评论的数值。可根据具体实际要求对第二阈值进行设定,本实施例对此不进行限制。
S370、如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值,则确定未能对所述目标待识别评论进行成功识别。
示例性的,将第一阈值设定为数值b,将第二阈值设定为数值a,若目标待识别评论对应的相似度计算结果小于或者等于b,则确定目标待识别评论为备选垃圾评论;若目标待识别评论对应的相似度计算结果大于或者等于a,则确定目标待识别评论为正常评论;若目标待识别评论对应的相似度计算结果大于b且小于a,则确定未能对目标待识别评论进行成功识别。
S380、如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集。
可选的,根据当前识别出的正常评论,对主题词集进行主题词扩充,包括:获取当前识别出的正常评论中包括的高频词语,并将各所述高频词语作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置;统计新的主题词集中包括的各主题词在目标文章中的出现频率,根据所述出现频率,在共现词词库匹配得到与至少一个主题词的出现频率关联的共现词作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置。
其中,可根据公式对高频词语的权重进行调整。其中,Weight'(tr)是调整后的高频词语的权重;tr是正常评论中出现的词语;T(tr)是词语tr在正常评论中的权重,计算公式是1+log10(1+nk);T(k)是K轮相似度比较后,包括词语tr的正常评论的数量;N(k)是K轮相似度比较后,正常评论的总条数。
通过对高频词语的权重进行计算可直观地反映出在目标文章中所占权重较高的词语,以将该词语加入至主题词集中。
可选的,根据当前识别出的正常评论,对主题词集进行主题词计算权重的更新,包括:
其中,Weight'(i)为更新后的词语i的权重,词语i是目标文章主题词集中的主题词,近义词i'是正常评论中出现的词语i的近义词;np是词语i在目标文章中出现的次数;nk是K轮相似度比较后,词语i在正常评论中出现的次数;T(k)是K轮相似度比较后,包括词语i的正常评论的条数;N(k)是K轮相似度比较后,正常评论的总条数;Ni'是词语i的近义词集合,Weight(i')是词语i的近义词i'在全部正常评论中的权重,Sim(i,i')是词语i和近义词i'之间的相似度分值,μ是一个大于0的调节因子,调节词语i的近义词集合的权重值和相似度对词语i的权重的影响程度。
其中,1+log(1+np+nk)表示的是词语的词频,对数中加1是为了避免对数计算出的值为零,因为np的值很可能是0,此时nk的值如果为1,则log(np+nk)计算出的值就是0,所以要在对数中加1,并且,由于对数计算出的值一般是小于1的,会使整个式子的值减小,可能会对后面的评论分类造成不利的影响,所以本实施例在对数前加1。式子中表示的是出现词语i的正常评论条数占总的正常评论条数的比例。由于并不是一个词语出现的频率越高越好,还要看该词语出现的文章数是不是均匀。在这里T(k)越大越好,说明该词语在该类中分布的越均匀,说明大家都在讨论此问题。因为是小于1的数,乘以它可以减小高频主题词的权重,从而减小对分类的负面影响,也可以在一定程度上减小高频关键词在虚假评论中对评论分类的影响,降低虚假评论的相似度分值。
在一个可选的实施方式中,可以根据如下公式对词语i的近义词i'的权重进行调整,以实现对主题词i权重的调整。
其中,i'是评论中出现的主题词库中词i的近义词;T(i')是词语i'在正常评论中的权重,计算公式是1+log10(1+nk);T(k)是K轮相似度比较后,包含词语i'的正常评论的条数;N(k)是K轮相似度比较后,词语i'出现的正常评论总条数;T(ip)是词语i'的近义词ip的权重,词语ip是权重调整前主题词集中的词语。Np是词语i'的近义词集合,从目标文章主题词集中得到。
上述技术方案通过不断地调整主题词的权重可以使得评论的识别结果更加准确可靠。
S390、返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
S3100、对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。
本发明实施例的技术方案,通过将与目标文章对应的全部评论与网络常用语词库进行匹配,得到备选垃圾评论、备选正常评论以及无法识别评论,并将备选正常评论和无法识别评论确定为待识别评论,在设定第一阈值及第二阈值的基础上利用文本相似度的计算方法对待识别评论进行识别,并在对全部待识别评论的成功识别之后,对各备选垃圾评论进行二次过滤处理,使得无论是短小评论还是非短小评论都能识别出垃圾评论,实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。
实施例四
图4为本发明实施例四提供的一种垃圾评论的识别装置的结构示意图,该装置可以执行上述各实施例中涉及到的一种垃圾评论的识别方法。该装置可采用软件和/或硬件的方式实现,如图4所示,所述垃圾评论的识别装置具体包括:相似度计算模块410、评论识别模块420、主题词集更新模块430、评论成功识别模块440。
其中,相似度计算模块410,用于获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
评论识别模块420,用于根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
主题词集更新模块430,用于如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
评论成功识别模块440,用于返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
本发明实施例的技术方案通过利用主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度,并根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,如果确定存在未成功识别的待识别评论,则在对主题词集更新后再次对未成功识别的待识别评论进行识别,直至所有待识别评论均被识别出类别,能够实现对互联网评论信息中的垃圾评论进行多轮自动识别,提高了垃圾评论的识别效果。
可选的,相似度计算模块410具体可以用于,获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配;根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。
可选的,垃圾评论的识别装置还包括二次过滤模块,用于在对全部待识别评论的成功识别之后,对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。
可选的,评论识别模块420具体可以用于,获取与当前处理的目标待识别评论对应的相似度计算结果;如果确定所述相似度计算结果小于或者等于第一阈值,则确定所述目标待识别评论为备选垃圾评论;如果确定所述相似度计算结果大于或者等于第二阈值,则确定所述目标待识别评论为正常评论;如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值,则确定未能对所述目标待识别评论进行成功识别。
可选的,相似度计算模块410具体可以用于,利用公式计算各待识别评论与目标文章之间的相似度;其中,Ck表示第k条待识别评论的向量,P表示目标文章的向量,n为向量的维数,wi表示主题词i在目标文章中的权重,wik表示主题词i在第k条评论中的权重,Si表示词语间的语义信息,在进行首轮待识别评论与目标文章之间的相似度计算时,Si为1,其余轮次中Sim(Pi,Ci'k)表示第k条评论中词语i与目标文章中词语i的近义词i'之间的相似度分值,表示词形相似度,LenP是目标文章中主题词的个数,Same(P,Ck)是第k条评论中出现的目标文章中主题词或者主题词的近义词的个数。
可选的,主题词集更新模块430具体可以用于,获取当前识别出的正常评论中包括的高频词语,并将各所述高频词语作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置;统计新的主题词集中包括的各主题词在目标文章中的出现频率,根据所述出现频率,在共现词词库匹配得到与至少一个主题词的出现频率关联的共现词作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置。
可选的,主题词集更新模块430具体可以用于,利用公式对主题词集中的主题词进行权重的更新;其中,Weight'(i)为更新后的词语i的权重,词语i是目标文章主题词集中的主题词,近义词i'是正常评论中出现的词语i的近义词;np是词语i在目标文章中出现的次数;nk是K轮相似度比较后,词语i在正常评论中出现的次数;T(k)是K轮相似度比较后,包括词语i的正常评论的条数;N(k)是K轮相似度比较后,正常评论的总条数;Ni'是词语i的近义词集合,Weight(i')是词语i的近义词i'在全部正常评论中的权重,Sim(i,i')是词语i和近义词i'之间的相似度分值,μ是一个大于0的调节因子。
本发明实施例所提供的垃圾评论的识别装置可执行本发明任意实施例所提供的垃圾评论的识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的垃圾评论的识别方法对应的程序指令/模块(例如,垃圾评论的识别装置中的相似度计算模块410、评论识别模块420、主题词集更新模块430和评论成功识别模块440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的垃圾评论的识别方法。
该方法包括:
获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种垃圾评论的识别方法,该方法包括:
获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的垃圾评论的识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述垃圾评论的识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种垃圾评论的识别方法,其特征在于,包括:
获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
2.根据权利要求1所述的方法,其特征在于,获取与目标文章对应的多个待识别评论,包括:
获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配;
根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。
3.根据权利要求2所述的方法,其特征在于,在对全部待识别评论的成功识别之后,还包括:
对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,包括:
获取与当前处理的目标待识别评论对应的相似度计算结果;
如果确定所述相似度计算结果小于或者等于第一阈值,则确定所述目标待识别评论为备选垃圾评论;
如果确定所述相似度计算结果大于或者等于第二阈值,则确定所述目标待识别评论为正常评论;
如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值,则确定未能对所述目标待识别评论进行成功识别。
5.根据权利要求1-3任一项所述的方法,其特征在于,计算各待识别评论与目标文章P之间的相似度,包括:
6.根据权利要求1-3任一项所述的方法,其特征在于,根据当前识别出的正常评论,对主题词集进行主题词扩充,包括:
获取当前识别出的正常评论中包括的高频词语,并将各所述高频词语作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置;
统计新的主题词集中包括的各主题词在目标文章中的出现频率,根据所述出现频率,在共现词词库匹配得到与至少一个主题词的出现频率关联的共现词作为新的主题词加入至所述主题词集中,并为新加入的主题词进行权重设置。
7.根据权利要求1-3任一项所述的方法,其特征在于,根据当前识别出的正常评论,对主题词集进行主题词计算权重的更新,包括:
其中,Weight'(i)为更新后的词语i的权重,词语i是目标文章主题词集中的主题词,近义词i'是正常评论中出现的词语i的近义词;np是词语i在目标文章中出现的次数;nk是K轮相似度比较后,词语i在正常评论中出现的次数;T(k)是K轮相似度比较后,包括词语i的正常评论的条数;N(k)是K轮相似度比较后,正常评论的总条数;Ni'是词语i的近义词集合,Weight(i')是词语i的近义词i'在全部正常评论中的权重,Sim(i,i')是词语i和近义词i'之间的相似度分值,μ是一个大于0的调节因子。
8.一种垃圾评论的识别装置,其特征在于,包括:
相似度计算模块,用于获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
评论识别模块,用于根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
主题词集更新模块,用于如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
评论成功识别模块,用于返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的垃圾评论的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的垃圾评论的识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925078.4A CN113656580A (zh) | 2021-08-12 | 2021-08-12 | 垃圾评论的识别方法、装置、设备及介质 |
PCT/CN2022/108563 WO2023016267A1 (zh) | 2021-08-12 | 2022-07-28 | 垃圾评论的识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925078.4A CN113656580A (zh) | 2021-08-12 | 2021-08-12 | 垃圾评论的识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113656580A true CN113656580A (zh) | 2021-11-16 |
Family
ID=78491540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110925078.4A Pending CN113656580A (zh) | 2021-08-12 | 2021-08-12 | 垃圾评论的识别方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113656580A (zh) |
WO (1) | WO2023016267A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023016267A1 (zh) * | 2021-08-12 | 2023-02-16 | 北京锐安科技有限公司 | 垃圾评论的识别方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254038A (zh) * | 2011-08-11 | 2011-11-23 | 武汉安问科技发展有限责任公司 | 一种分析网络评论相关度的***及其分析方法 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN109902179A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于自然语言处理的筛选电商垃圾评论的方法 |
CN111125305A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 热门话题确定方法、装置、存储介质及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8832116B1 (en) * | 2012-01-11 | 2014-09-09 | Google Inc. | Using mobile application logs to measure and maintain accuracy of business information |
CN110209795A (zh) * | 2018-06-11 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 评论识别方法、装置、计算机可读存储介质和计算机设备 |
CN109783616A (zh) * | 2018-12-03 | 2019-05-21 | 广东蔚海数问大数据科技有限公司 | 一种文本主题提取方法、***和存储介质 |
CN112559685A (zh) * | 2020-12-11 | 2021-03-26 | 芜湖汽车前瞻技术研究院有限公司 | 汽车论坛垃圾评论识别方法 |
CN113656580A (zh) * | 2021-08-12 | 2021-11-16 | 北京锐安科技有限公司 | 垃圾评论的识别方法、装置、设备及介质 |
-
2021
- 2021-08-12 CN CN202110925078.4A patent/CN113656580A/zh active Pending
-
2022
- 2022-07-28 WO PCT/CN2022/108563 patent/WO2023016267A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254038A (zh) * | 2011-08-11 | 2011-11-23 | 武汉安问科技发展有限责任公司 | 一种分析网络评论相关度的***及其分析方法 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN109902179A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于自然语言处理的筛选电商垃圾评论的方法 |
CN111125305A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 热门话题确定方法、装置、存储介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023016267A1 (zh) * | 2021-08-12 | 2023-02-16 | 北京锐安科技有限公司 | 垃圾评论的识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023016267A1 (zh) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509425B (zh) | 一种基于新颖度的中文新词发现方法 | |
CN109145299B (zh) | 一种文本相似度确定方法、装置、设备及存储介质 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
US20220147023A1 (en) | Method and device for identifying industry classification of enterprise and particular pollutants of enterprise | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
WO2021189951A1 (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN101021838A (zh) | 文本处理方法和*** | |
CN111967264B (zh) | 一种命名实体识别方法 | |
CN111241813B (zh) | 语料扩展方法、装置、设备及介质 | |
CN108920599B (zh) | 一种基于知识本体库的问答***答案精准定位和抽取方法 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN111090719B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN110866095A (zh) | 一种文本相似度的确定方法及相关设备 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN113128205B (zh) | 一种剧本信息处理方法、装置、电子设备及存储介质 | |
WO2023016267A1 (zh) | 垃圾评论的识别方法、装置、设备及介质 | |
CN113191145B (zh) | 关键词的处理方法、装置、电子设备和介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN111563361B (zh) | 文本标签的提取方法及装置、存储介质 | |
CN110348497B (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN111966869A (zh) | 短语提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |