CN113869038A - 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法 - Google Patents

一种针对百度贴吧、基于特征词分析的关注点相似性分析方法 Download PDF

Info

Publication number
CN113869038A
CN113869038A CN202111238409.3A CN202111238409A CN113869038A CN 113869038 A CN113869038 A CN 113869038A CN 202111238409 A CN202111238409 A CN 202111238409A CN 113869038 A CN113869038 A CN 113869038A
Authority
CN
China
Prior art keywords
feature
similarity
weight
analysis
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111238409.3A
Other languages
English (en)
Inventor
巨星海
闵宗茹
刘丽娟
刘錞
郭欣欣
李畅
陈滢霞
苏晨
周刚
温兆丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111238409.3A priority Critical patent/CN113869038A/zh
Publication of CN113869038A publication Critical patent/CN113869038A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,涉及信息网络分析技术领域,包括以下步骤:S1.网络论坛数据预处理;S2.TF‑IDF关注点权值计算;S3.基于位置的特征词权重分析;S4.基于特征权重与TF‑IDF的网络论坛文本关注点相似度计算;本发明的算法在传统Simrank关注点相似度计算算法的基础上,利用TF‑IDF关注点特征计算算法计算出的关注点权重代替传统Simrank算法中用户与实体相连的边的数量,结合基于位置的特征词权重分析,实现面向网络论坛的关注点相似度分析,以提高针对网络论坛文本数据关注点分析的准确性。

Description

一种针对百度贴吧、基于特征词分析的关注点相似性分析 方法
技术领域
本发明涉及信息网络分析技术领域,尤其涉及一种针对百度贴吧、基于特征词分析的关注点相似性分析方法。
背景技术
对于用户的关注点分析,是信息网络分析中一个重要的研究方向,在近年受到越来越多的关注以及广泛的研究。对已经通过人工观察等先期工作确定了诸如职业、爱好等等属性的用户,希望通过某种算法的计算结果,分析得出用户的关注点。在关注点分析中,一般不涉及复杂的文本内容分析,而其结果反映不同用户之间的关注差异,则需要在划分上尽可能地清晰明确,并且符合人们的直观判断。由于用户的关注点随着时间推移可能发生变化,因此还要考虑对用户关注点发生改变的预测,以及时间变化对关注点相似度的影响;同时网络论坛中的数据量不断增大,对算法计算效率和结果准确率等方面的要求不断提高,在网络论坛中分析用户关注点的工作正有待进一步展开;网络论坛中较具有代表性的平台包括百度贴吧、天涯论坛、铁血论坛、游民星空论坛、豆瓣社区、知乎、凯迪社区等等。百度贴吧以其3000万个主题贴吧,和数量接近7亿的注册用户,拥有巨大的用户群体、用户粘性以及信息量,是其中最具代表性的平台。不同网络论坛虽然名称不同、运行机制也略有所差别,但其结构组成和用户使用方法等都较为类似;因此,本发明选取百度贴吧中产生的文本数据,作为分析网络论坛中用户关注点工作的代表进行研究,开展针对百度贴吧的用户关注点分析工作有助于更完整地刻画网络论坛社交平台的关注点,及用户与用户之间的关注点相似度,对网络论坛中的舆情分析、兴趣点推荐、用户画像分析及人物思维轨迹刻画等工作都能产生积极作用,具有一定的理论意义以及实用价值。
目前国内围绕百度贴吧中的不同主题的论坛、用户对实体的关注点相似度异同相关专有技术较少,已有的关注点相似度相关专利方法存在多类不足,如:
1、CN 108363699 A-一种基于百度贴吧的网民学业情绪分析方法
方法:运用学业情绪人工分类和采用机器学习方法对数据集进行情绪分类,判断整体情绪,并统计各情绪强度和占比,最后根据时间序列、情绪拐点和关键事件、学业情绪的群体特征等多个方面,对高考事件中网民的学业情绪的时间发展特征和群体特征进行多角度分析;方法的不足:基于百度贴吧数据,对网民学业情绪进行分析,未涉及用户关注点相关内容。
2、CN 112200269 A-一种相似度分析方法及***
方法:一种相似度分析方法及***,方法包括获取多个被试信息中的关注点信息的坐标值信息,在时间序列上,关注点信息的坐标值信息按照生成的先后顺序排列;在全部被试信息中随机选取两个被试信息;在时间序列上,顺序对比这两个被选取的被试信息中的相关的关注点信息的坐标值信息,当这两个关注点信息的坐标值信息落在同一个规定区域内时,则判定这两个关注点信息的关系为相似;以及计算两个被选取的被试信息的相似度数值信息和/或计算每一个被试信息的平均相似度数值信息;方法的不足:主要考虑时间序列,不涉及文本数据。
3、CN 108345698 A-文章关注点挖掘方法和装置
方法:生成文章的初始候选关注点集合;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点;方法的不足:仅涉及文章关注点,未基于主题对相似度进行分析。
4、CN 108959550 A-用户关注点挖掘方法、装置、设备及计算机可读介质
方法:获取用户检索行为数据;如果在所述用户检索行为数据中既挖掘出主题类关注点,又挖掘出实体类关注点,则对所述实体类关注点进行扩大处理,得到所述实体类关注点的关联关注点;方法的不足:基于用户检索行为挖掘主题类关注点,未涉及相似度比较。
发明内容
本发明提供一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,解决了上述提出的技术问题。
为解决上述技术问题,本发明提供的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,包括以下步骤:
S1.网络论坛数据预处理:提取用户名和时间信息、信息种类判别,文本分词与停用词处理;
S2.TF-IDF关注点权值计算:采用TF-IDF特征计算邮件文本中抽取的特征词,计算TF-IDF权值,并将其作为特征权值,用于后续的处理;
S3.基于位置的特征词权重分析:在TF-IDF算法的基础上,提出了基于位置感知的特征权重计算方法,提高算法选取的准确率;
S4.基于特征权重与TF-IDF的网络论坛文本关注点相似度计算:将特征权重的计算方法与关注点相似度计算方法相结合计算,获取百度贴吧数据中关注点相似度的异同。
进一步,所述S1通过设置解析模块对网络论坛中提取用户名和时间信息。
进一步,所述S1中信息种类判别是将纯文本直接写入记录,而部分为图片形式则进行文字转换再写入记录。
进一步,所述S1中文本分词与停用词处理使用基于Python的Jieba中文分词实现此功能。
进一步,所述S2中TF-IDF特征计算函数,特征fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000031
其中,(fk,dj)表示特征fk在文档dj中出现的频数,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T表示训练文档集中包含的文档数。
进一步,所述S3中位置感知的特征权重计算方法包括以下步骤:
S301.将文档位置分为三个层次:首层(前x句)、中间层(中y句)、尾层;
S302.对于处于首层的特征词,在计算词频的时候,出现一次计算加x/m;
S303.对于处于中间层的特征词相对来说赋予更大的权值,出现一次计数加 2y/m;
S304.对于处于尾层的特征词,出现一次计数加1。
进一步,所述特征词的词频计算如下:
Figure RE-GDA0003383773420000041
其中,I的表示根据如下情况而定:
Figure RE-GDA0003383773420000042
Figure RE-GDA0003383773420000043
Figure RE-GDA0003383773420000044
最终,特征词fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000045
其中,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T 表示训练文档集中包含的文档数。
进一步,所述S4中采用迭代的方式进行计算。
与相关技术相比较,本发明提供的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法具有如下有益效果:
本发明提供,本发明的算法在传统Simrank关注点相似度计算算法的基础上,利用TF-IDF关注点特征计算算法计算出的关注点权重代替传统Simrank算法中用户与实体相连的边的数量,结合基于位置的特征词权重分析,实现面向网络论坛的关注点相似度分析,以提高针对网络论坛文本数据关注点分析的准确性,解决了传统Simrank相似度计算算法在分析文本数据中准确率不足的问题。
附图说明
图1为本发明基于特征词分析的关注点相似性分析算法框架示意图;
图2为本发明数据预处理流程图示意图;
图3为本发明基于特征权重的关系网络图示例示意图;
图4为本发明相似度结果比较的可视化示意图;
图5为本发明不同方法相似度计算结果可视化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例中,一种针对百度贴吧、基于特征词分析的关注点相似性分析方法由图1-5给出,包括以下步骤:
S1.网络论坛数据预处理:提取用户名和时间信息、信息种类判别,文本分词与停用词处理;
S2.TF-IDF关注点权值计算:采用TF-IDF特征计算邮件文本中抽取的特征词,计算TF-IDF权值,并将其作为特征权值,用于后续的处理;
S3.基于位置的特征词权重分析:在TF-IDF算法的基础上,提出了基于位置感知的特征权重计算方法,提高算法选取的准确率;
S4.基于特征权重与TF-IDF的网络论坛文本关注点相似度计算:将特征权重的计算方法与关注点相似度计算方法相结合计算,获取百度贴吧数据中关注点相似度的异同。
其中,所述S1通过设置解析模块对网络论坛中提取用户名和时间信息。
其中,所述S1中信息种类判别是将纯文本直接写入记录,而部分为图片形式则进行文字转换再写入记录。
其中,所述S1中文本分词与停用词处理使用基于Python的Jieba中文分词实现此功能。
其中,所述S2中TF-IDF特征计算函数,特征fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000051
其中,(fk,dj)表示特征fk在文档dj中出现的频数,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T表示训练文档集中包含的文档数。
其中,所述S3中位置感知的特征权重计算方法包括以下步骤:
S301.将文档位置分为三个层次:首层(前x句)、中间层(中y句)、尾层;
S302.对于处于首层的特征词,在计算词频的时候,出现一次计算加x/m;
S303.对于处于中间层的特征词相对来说赋予更大的权值,出现一次计数加 2y/m;
S304.对于处于尾层的特征词,出现一次计数加1。
其中,所述特征词的词频计算如下:
Figure RE-GDA0003383773420000061
其中,I的表示根据如下情况而定:
Figure RE-GDA0003383773420000062
Figure RE-GDA0003383773420000063
Figure RE-GDA0003383773420000064
最终,特征词fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000065
其中,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T 表示训练文档集中包含的文档数。
其中,所述S4中采用迭代的方式进行计算。
具体的,S1.网络论坛数据预处理:在百度贴吧等网络论坛中,出于规避审查和使传播更为快捷等目的,越来越多的文本信息通过图片的形式进行发送。在针对网络论坛文本数据的预处理工作中,需要先将图片形式的文本转换为纯文本,再对文本数据进行统一处理,去除停用词,并从文本数据中提取出名词作为关注点特征词,作为TF-IDF算法的计算对象;
针对网络论坛文本信息的种种特点与分析需求,本发明提出的论坛文本数据预处理流程可用图2表示,主要包括提取用户名和时间信息、信息种类判别、文本分词与停用词处理等三个环节,具体如下:
1.提取用户名和时间信息
网络论坛数据有其自身的信息格式,必须对其进行特定的解析工作才能正确提取信息,本发明通过设计相应的解析模块,从网络论坛数据中获取用户名、帖子发表时间等信息,作为后续研究的基础加以使用。
2.信息种类判别
对于已经为纯文本的信息,就将它直接写入文本集中;若此文本信息大多或部分为图片形式,则先将图片中的文字转为纯文本后,再将之与其中纯文本内容一同写入文本集。
3.文本分词与停用词处理
分词是要提取文档中的基本语言单位,便于进一步处理。本发明主要使用基于Python的Jieba中文分词实现此功能。同时在文本中有很多词的表达能力很弱,虽然在自然语言中必不可少,但它们在文本中大量出现,既浪费了空间又没有为信息处理提供有效支撑,多数情况下这些词语为介词、副词、语气助词等;Jieba 中文分词工具已经自带停用词词库,在此基础上同时进行人工观察,在原有词库外添加新的停用词集合,重复进行排查,最大程度上地去除了文本数据中存在的停用词;
通过完成以上预处理过程,可以大幅缩减网络论坛文本数据占据的存储空间,并高效地提取论坛数据中的有效信息,为后续的研究提供了必要的前提和基础。
S2.TF-IDF关注点权值计算:TF-IDF权值计算算法的思想在于,通过计算词频与逆文档频率并相除判断此词语在文档中的重要程度,当一个词语在一个文档中频率较高,而其它词语在此文档中频率较低,则说明这个词语相比其它词语,更加能够代表本篇文档。在本发明提出的算法中,TF-IDF算法被用来计算每个关注点特征词在文档中出现的集合,并以此来代替传统Simrank关注点相似度计算中,用户与关注点特征词之间连接边的数量,从而得到基于文本数据更加准确的计算结果;
本发明采用TF-IDF特征计算邮件文本中抽取的特征词,计算TF-IDF权值,并将其作为特征权值,用于后续的处理;
TF-IDF是指词频-逆文档频率,其本意是“如果某个词或短语在一篇文章中出现的频率(TF)高,并且在其他的文章中很少出现,则认为这个词语或者短语具有很好的类别区分能力”;
TF(Term Frequency)代表特征的文本内频数,DF(Document Frequency)代表特征词的文本频数,IDF(Inverse Document Frequency)代表特征词的反文本频数,用来度量特征词在整个文本集中的频繁程度。
通常使用的TF-IDF函数,特征fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000081
其中,(fk,dj)表示特征fk在文档dj中出现的频数,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T表示训练文档集中包含的文档数。
S3.基于位置的特征词权重分析:除了分析一个关注点特征词在文档中出现过的频次之外,须知这并非权值计算中唯一的因素,其位于文档中的位置同样会决定该词语的特征权重。为此,本发明算法通过对出现在文档中段首、段中或段尾的词语定义不同重要性指标,并与此前由TF-IDF算法所得结果相结合,进一步提高关注点相似度分析结果的准确性;
对于网络论坛中的文本而言,其语言特性之一体现在:用户经常先叙述事例,然后在事例末尾阐明自己的主要观点;也就是说,出现在论坛中文本开头部位的关键词,其重要性比其它部分的特征词相对较大,文本中这些包含更有代表性特征词的语句往往可以当作全文的主题摘要,适当地重视它们可为分析带来更准确的评价结果,可见对于网络论坛文本而言,特征词的位置属性是不可忽略的;
传统的TF-IDF没有体现特征词在文档中的位置特征,所以无法反映特征词的分布情况;为此,本发明提出基于位置的特征词权重分析方法中,应该对处于文档中不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果;
为了计算文档词条权值dij的值,本发明在TF-IDF算法的基础上,进一步增加了特征词的位置信息,提出了基于位置感知的特征权重计算方法,从而提高算法选取的准确率。首先,对待分析的文档进行分层。将文档位置分为三个层次:首层(前x句)、中间层(中y句)、尾层。对于处于首层的特征词,在计算词频的时候,出现一次计算加x/m;对于处于中间层的特征词相对来说赋予更大的权值,出现一次计数加2y/m;对于处于尾层的特征词,出现一次计数加1。于是特征词的词频计算如下:
Figure RE-GDA0003383773420000091
其中,I的表示根据如下情况而定:
Figure RE-GDA0003383773420000092
Figure RE-GDA0003383773420000093
Figure RE-GDA0003383773420000094
最终,特征词fk对于文档dj的TF-IDF定义为:
Figure RE-GDA0003383773420000095
其中,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T 表示训练文档集中包含的文档数;
通过以上定义,本发明提出的基于位置的特征词权重分析可更加准确地利用关键词的位置属性对其赋予相应的权重,从而提升后续结合Simrank算法度量文本关注点相似度计算结果的准确性。
S4.基于特征权重与TF-IDF的网络论坛文本关注点相似度计算:通过将TF-IDF关注点权值计算与特征权重分析相结合,本发明算法改善了传统Simrank 算法中只能依靠关系图中相连边数量计算相似度,从而导致算法在文本数据条件下准确率不足的问题,同时本发明算法取得的计算结果也更符合人在网络论坛中的直观判断;
原始的Simrank算法仅考虑了节点与边的连接数,忽略了不同的边可能会有不同的权重值,导致在文本分析的工作中会出现计算准确率不足的问题。针对此问题,将基于特征权重的计算方法与关注点相似度计算方法相结合,能够更准确地反映出在基于文本的百度贴吧数据中,关注点相似度的异同。本节将上文中所提到的方法进行了结合,使用位置感知的特征计算衡量边的权重,以提升关注点相似度的计算效果;
通过对现有方法分析可得,直接计算任意两个节点的相似度是比较困难的,一般需要通过迭代的方式进行计算;
为此,首先做如下定义:
(1)节点自身与自身的相似度为1,即s(a,b)=1,当a=b时;
(2)当I(a)=φ或者I(b)=φ时两个节点的相似度s(a,b)=0;
(3)s(a,b)=s(b,a)时,可以得到:
Figure RE-GDA0003383773420000101
当a≠b,I(a)≠φ,I(b)≠φ时,由式可以得到式:
Figure RE-GDA0003383773420000102
其中,N为二部图中不包含a,b的节点集合中节点的数量,pia为二部图中与节点a与节点i连边的权重。在这里针对网络论坛文本数据,这里使用TF-IDF 值来衡量这个权重;
随后,分别引入矩阵S和W,S的第a行b列的值为s(a,b),S是一个对称矩阵;W第i行j列的值为二部图中节点i与节点j连边的权重pij。可以得到式:
S=CWTSW (6)
其中,S为各个节点之间的相似度矩阵,W为边的权重值矩阵。由于节点自身与自身的相似度记为1,即相似度矩阵S主对角线值全为1,那么可以首先去掉对角线上的值,最后再加上一个单位矩阵E,即:
S=CWTSW+I一Diag(diag(CWTSW)) (7)
其中,diag(CWTSW)是矩阵CWTSW的对角元素构成的向量, Diag(diag(CWTSW))将这个向量转化成一个对角矩阵。
具体实施方式:出于对网络论坛用户使用量、规模、舆情敏感度及可采集性等方面的考虑,我们决定在实验中采用来自百度贴吧的文本数据作为主要实验材料。首先,通过对贴吧中的文本数据进行统计和筛选,我们选择百度“水上起降吧”、“兔吧”、“二吧”等主题贴吧来源的相关文本内容,将其进行处理后作为实验原始数据。然后,利用现有的Bibliographic coupling度量、Jaccord度量和 cosine度量等相似性度量算法,以及本章算法对以上数据进行相似性分析,进而给出不同贴吧间的相似性度量结果。随后,在此基础上,为便于对比分析,我们对以上结果利用networkx工具包进行绘图,给出相应的直观表示。最后,计算不同分析方法所得结果的主题偏离度,以评判算法分析结果的准确性,并根据网络舆情、社会热点等现实社会信息对度量结果进行人工标定,从而对不同算法的实验结果进行对比和分析;
本发明工作采集了来自“水上起降吧”、“兔吧”、“bilibili吧”、“抗压背锅吧”、“东央吧”、“漂亮国吧”、“阿山吧”7个主题贴吧于2020年2 月至2021年4月的发贴人相关数据。其中包含6000个用户(经常发帖的活跃用户为2000个),帖子条目数63274条,总大小约3GB。考虑到自从2018年以来,越来越多的百度贴吧发贴人开始以携带文字的图片格式发送文本信息,以实现反关键字查找和***的目的,利用百度图片转文字API工具对收集到的贴吧数据进行清洗,最终取得较纯净的文本数据,总大小约12MB。在此基础上,本工作使用Jieba中文分词工具对文本数据进行预处理工作,主要提取文本中的名词、人名、地名等作为关注点标签,从而得到较为规范的百度贴吧关键词数据用作实验数据;
根据处理后的网络论坛贴吧关键词数据,首先利用的基于位置的TF-IDF对关注点权重进行计算,求得不同贴吧数据中,权重排在前10位的关注点特征词如表1所示;
表1各贴吧中权重排名前10的关注点特征词及其权重
Figure RE-GDA0003383773420000111
Figure RE-GDA0003383773420000121
根据TF-IDF特征计算的定义,通过每个文档中权重更高的关注点标签词,可以看出哪些实体能够反映出文档的特征;从表1中可以大致看出,在此分析工作中选为实验数据来源的百度贴吧上的热度讨论往往围绕热点事件话题等展开;
观察本发明选择的网络论坛文本,发现在时间周期为13个月的文本数据里,平均每个贴吧拥有约2500个兴趣点标签词,彼此之间共有的实体在160-330个之间。
在文本处理的过程中将媒体群体及各相关联的特征词作为图节点,只要媒体与特征词存在关联,就在图中为它们连上一条边,并以特征词的特征权重值作为边的权值进行相似度运算,如图5所示,展现了基于特征权重构造的关系网络图示例。
在此基础上设置阻尼系数为C=0.8,迭代次数为3次,计算Simrank相似度结果,为了更加直观地表现主题贴吧之间的相似度关系,相似度结果矩阵由主题贴吧之间的两两相似度关系组成;结果如表2所示:如“bilibili吧”与“水上起降吧”的关注点相似度,即为矩阵中的值0.399;不同贴吧之间的相似程度关系如图4所示,其中连接线条粗度越大,则相似程度越高;
表2本发明算法相似度计算结果
Figure RE-GDA0003383773420000131
此外,为了体现本发明算法与现有算法的对比实验结果,我们选取当前在实际工作中运用较为广泛、较为经典的相似度度量方法:其中包括Bibliographic coupling度量、Jaccord度量和cosine度量等方法对实验数据进行相似性度量,所得结果如表3、表4和表5所示;
表3 Bibliographic coupling相似度计算结果
Figure RE-GDA0003383773420000132
Figure RE-GDA0003383773420000141
表4 Jaccard相似度计算结果
Figure RE-GDA0003383773420000142
表5 Cosine系数相似度计算结果
Figure RE-GDA0003383773420000143
Figure RE-GDA0003383773420000151
由以上结果可得,Jaccard与Bibliographic coupling计算结果较为相近,都通过主题论坛之间共有的实体数量决定论坛的关注点相似度。Cosine度量算法利用词语向量使得计算结果中主题贴吧间关系度量结果有所不同,但也难以直观体现出主题贴吧间的关注点差别;
有益效果:
为进一步论证本发明的有效性和准确性,首先利用以上贴吧中的“精品贴”内容作为参考,对计算不同算法相似度分析结果的主题偏离度,从而比较算法优劣。此外,利用networkx工具包将相似度度量结果进行图形化呈现,以进一步直观地反应不同算法在度量贴吧相似度时的性能。
(1)主题偏离度计算
首先,我们同时爬取了七个贴吧于2020年2月至2021年4月时间段内被各吧归类为“精品贴”的内容作为对照。其核心思想是:被归类为精品贴的文本,其内容与此主题贴吧本身所关注的内容是更有关联的。通过比较每种方法下,所有帖子集合与精品贴集合这两个矩阵内元素的均方差,可判断每个贴吧实际关注内容与其本身主题之间的相似程度;
具体地,主题偏离程度可用如下方式计算。对于矩阵Am×n、Bm×n而言,当两个矩阵的维度相同,则其均方差可由如下公式定义:
Figure RE-GDA0003383773420000152
由于选择作为实验对象的贴吧本身都存在较大的实际关注内容与贴吧主题不一致的情况,因此,判断矩阵的均方差经过计算结果越大,则此相似度计算方法的有效性和准确性就越高,其计算效果越好;
在此验证计算过程中,除直接计算均方差外,也采用Min-Max标准化方法对矩阵进行归一化后再进行均方差的对照实验。Min-Max标准化通过对原始数据进行线性变换,可将其值映射到[0,1]之间的值域内,以直观地比较算法性能优劣。
具体地,对于元素为x1,x2,...xn的序列{xn},其变换公式为:
Figure RE-GDA0003383773420000161
其中,由y1,y2,...yn组成的新序列{yn}的值处在[0,1]的区间内,即实现了规范化处理;
此外,考虑到不同相似度算法得出的结果可能不处在同一个区间,如文本耦合算法,因此,只考虑不同贴吧间的共有实体数量,给出算法在进行数据归一化与不进行数据归一化的对比结果,结果如表6所示:
表6相似度计算方法的差值结果比较
Figure RE-GDA0003383773420000162
从结果比较可以看出,相比于Jaccard、Cosine系数算法,本发明提出的TF-IDF 结合Simrank相似度计算方法结果体现出的差异性更大,更能说明主题贴吧关注点中出现的偏移情况;在经过归一化后的计算结果中,可以看出文本耦合算法得出的结果比Simrank稍大。出现这种现象的原因在于:首先,文本耦合算法的计算结果取值相当大,为一个十位甚至百位数的值,相比之下其余相似度计算算法的结果为一个0到1之间的小数,即使经过归一化也不能完全消除计算结果取值的悬殊情况。其次,作为一种从纯数量角度考量相似程度的计算方法,文本耦合算法本身仍是在实际运用中最为直观的准确评判指标之一,将之作为差值比较的一种标准来看,本发明提出的方法在结果上仍然是与之最接近的,体现出本发明提出的算法作为一种基于语义的相似度计算方法效果相对更好,证明了其有效性。
(2)基于加权全连通图的结果对比
为进一步直观地比较现有相似度分析方法与本发明提出的基于特征词分析的关注点相似性分析算法的计算结果,本节利用networkx工具包根据所得结果绘制加权全连通图,从而实现了不同方法所得结果的可视化呈现;具体地,将贴吧表示为二维平面上的点,贴吧之间的相似度表示为对应的两个点之间边的宽度,宽度越大,表示相似度越高;宽度越小,表示相似度越低;最终,得到的可视化结果如图5所示;
分析以上可视化结果并结合上表中的各计算结果可得,与现有的基于 Jaccard、Cosine系数的结果相比,本发明提出的基于特征词分析的关注点相似性分析算法所得结果可更加明确地反应贴吧间的相似程度,即相似度高的贴吧距离更近、关系更强烈、且具有一定的团聚属性;此外,本发明提出的相似度分析算法的计算结果还呈现出以下特点:
1.存在共有实体数量更多,但相似度更低的情况
如相比于对水上起降吧,阿山吧与bilibili吧之间的共有实体数量较多,分别为阿山吧-水上起降吧238个,阿山吧-bilibili吧219个。但是利用本发明提出的算法计算出的阿山吧-水上起降吧的关注点相似度为0.486,而阿山吧-bilibili吧 Simrank关注点相似度为0.503;同样的观察结果,也出现在东央吧与水上起降吧和bilibili吧的相似度关系中;
2.存在相比共有实体数量所占比例一定,Simrank相似度占比更高的情况
如东央吧和那年那兔那些事儿吧,及阿山吧之间的相似度关系:东央吧与那年那兔那些事儿吧的共有实体,与东央吧和阿山吧之间的共有实体在直观数量上相差20%左右,分别为264与336个;而利用本发明提出算法计算出的关注点相似度则相差约50%,分别为0.485和0.828,呈现出较为明显的差异性;
进一步分析可以发现,本发明提出的基于特征词分析的关注点相似度分析算法出现以上两种现象的原因,在于所使用的Simrank算法在构建关系网络图的时候,使用了特征词的TF-IDF值作为边的权值;因而,相比更为传统的计算方法,当特征词的TF-IDF值较高时,它所对应的边就获得更高的分数,两类实体的相似度就越高,从而更加准确地反映了实体间的相似度,而非简单利用共有实体数量或比例来判断和计算相似性,取得了更加精确的度量结果,同时也与参考网络舆情、社会热点等现实信息得出的人工标定结果更为相近。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于:包括以下步骤:
S1.网络论坛数据预处理:提取用户名和时间信息、信息种类判别,文本分词与停用词处理;
S2.TF-IDF关注点权值计算:采用TF-IDF特征计算邮件文本中抽取的特征词,计算TF-IDF权值,并将其作为特征权值,用于后续的处理;
S3.基于位置的特征词权重分析:在TF-IDF算法的基础上,提出了基于位置感知的特征权重计算方法,提高算法选取的准确率;
S4.基于特征权重与TF-IDF的网络论坛文本关注点相似度计算:将特征权重的计算方法与关注点相似度计算方法相结合计算,获取百度贴吧数据中关注点相似度的异同。
2.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S1通过设置解析模块对网络论坛中提取用户名和时间信息。
3.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S1中信息种类判别是将纯文本直接写入记录,而部分为图片形式则进行文字转换再写入记录。
4.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S1中文本分词与停用词处理使用基于Python的Jieba中文分词实现此功能。
5.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S2中TF-IDF特征计算函数,特征fk对于文档dj的TF-IDF定义为:
Figure FDA0003318343160000011
其中,(fk,dj)表示特征fk在文档dj中出现的频数,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T表示训练文档集中包含的文档数。
6.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S3中位置感知的特征权重计算方法包括以下步骤:
S301.将文档位置分为三个层次:首层(前x句)、中间层(中y句)、尾层;
S302.对于处于首层的特征词,在计算词频的时候,出现一次计算加x/m;
S303.对于处于中间层的特征词相对来说赋予更大的权值,出现一次计数加2y/m;
S304.对于处于尾层的特征词,出现一次计数加1。
7.根据权利要求7所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述特征词的词频计算如下:
Figure FDA0003318343160000021
其中,I的表示根据如下情况而定:
Figure FDA0003318343160000022
Figure FDA0003318343160000023
Figure FDA0003318343160000024
最终,特征词fk对于文档dj的TF-IDF定义为:
Figure FDA0003318343160000025
其中,T(fk)表示fk的文档频数,即训练集T中所包含的特征fk的文档数,T表示训练文档集中包含的文档数。
8.根据权利要求1所述的一种针对百度贴吧、基于特征词分析的关注点相似性分析方法,其特征在于,所述S4中采用迭代的方式进行计算。
CN202111238409.3A 2021-10-25 2021-10-25 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法 Pending CN113869038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111238409.3A CN113869038A (zh) 2021-10-25 2021-10-25 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111238409.3A CN113869038A (zh) 2021-10-25 2021-10-25 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法

Publications (1)

Publication Number Publication Date
CN113869038A true CN113869038A (zh) 2021-12-31

Family

ID=78997535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111238409.3A Pending CN113869038A (zh) 2021-10-25 2021-10-25 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法

Country Status (1)

Country Link
CN (1) CN113869038A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544361A (zh) * 2022-10-10 2022-12-30 上海瀛数信息科技有限公司 一种窗口相似度分析的关注点变化预测框架及其分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544361A (zh) * 2022-10-10 2022-12-30 上海瀛数信息科技有限公司 一种窗口相似度分析的关注点变化预测框架及其分析方法

Similar Documents

Publication Publication Date Title
Brezina Statistics in corpus linguistics: A practical guide
Leydesdorff et al. Co‐word maps and topic modeling: A comparison using small and medium‐sized corpora (N< 1,000)
CN111401040B (zh) 一种适用于word文本的关键词提取方法
US8781989B2 (en) Method and system to predict a data value
Comber et al. Machine learning innovations in address matching: A practical comparison of word2vec and CRFs
CN109190117A (zh) 一种基于词向量的短文本语义相似度计算方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN110096575B (zh) 面向微博用户的心理画像方法
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Almquist et al. Using radical environmentalist texts to uncover network structure and network features
CN105701076A (zh) 一种论文抄袭检测方法及***
Reddy et al. N-gram approach for gender prediction
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN110110218A (zh) 一种身份关联方法及终端
CN105701085A (zh) 一种网络查重方法及***
CN113869038A (zh) 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法
Zhao et al. Analysis of the social network and the evolution of the influence of ancient chinese poets
CN116629258A (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
Silva Parts that add up to a whole: a framework for the analysis of tables
CN113486649B (zh) 文本评论的生成方法以及电子设备
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
Rubtsova Automatic term extraction for sentiment classification of dynamically updated text collections into three classes
Rai et al. Identification of landscape preferences by using social media analysis
Song et al. Research on intelligent question answering system based on college enrollment
Shchepina et al. Modeling the trajectories of interests and preferences of users in digital social systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination