CN114153965A - 一种结合内容和图谱的舆情事件推荐方法、***及终端 - Google Patents

一种结合内容和图谱的舆情事件推荐方法、***及终端 Download PDF

Info

Publication number
CN114153965A
CN114153965A CN202111494086.4A CN202111494086A CN114153965A CN 114153965 A CN114153965 A CN 114153965A CN 202111494086 A CN202111494086 A CN 202111494086A CN 114153965 A CN114153965 A CN 114153965A
Authority
CN
China
Prior art keywords
event
representation
text
events
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111494086.4A
Other languages
English (en)
Inventor
石珺
张立灿
林丽敏
李志鹏
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202111494086.4A priority Critical patent/CN114153965A/zh
Publication of CN114153965A publication Critical patent/CN114153965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络空间认知技术领域,公开了一种结合内容和图谱的舆情事件推荐方法、***及终端。将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示;对获取的最终的事件表示,以舆情事件的影响力指数作为额外补充信息,为推荐数量不满足k个的事件推荐k‑n个影响力值最大的事件作为补充。本发明创新性地将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取等知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示。

Description

一种结合内容和图谱的舆情事件推荐方法、***及终端
技术领域
本发明属于网络空间认知技术领域,尤其涉及一种结合文本内容和知识图谱的舆情事件推荐方法、***及终端。
背景技术
目前,随着技术发展,互联网成为了舆情发酵和传播的主要载体,而舆情事件主要指在互联网上引起网民讨论、关注及传播的事件。
在不存在任何用户行为数据的情况下,可用的推荐手段仍主要是基于内容的相关物品(事件)推荐模型。现有的技术方案采用语言模型等方式对事件内容文本语义进行表征,并通过采用不同的相似度计算方法计算当前事件表征与历史事件表征的相似度,最后输k个最相似的相关事件。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有舆情事件推荐技术所采用的事件推荐方法只能根据事件文本的表层语义信息进行推荐,而没有办法挖掘不同事件文本/特征词之间深层的关联关系。
(2)当推荐场景为某个特定领域时,领域内的知识,比如领域内的某个重要人物,在舆情事件中应该是反复出现的。现有的技术方案无法将事件中出现的每个实体本身固有的特征(比如人物的特征)应用于事件推荐中。使得获得信息准确率低,而且信息处理效率低。
解决以上问题及缺陷的难度为:
挖掘事件文本/特征词之间的深层关联关系,仅从事件文本的表层语义信息进行分析是无法获取的,需要构建事件信息库用于存储事件的所有有用信息包括整合历史事件的领域知识图谱、事件描述文本、事件关键词、事件类别等。
解决以上问题及缺陷的意义为:
通过事件文本内容和事件图谱结构的分析,实现对事件推荐的多角度、多层次考虑。在特定推荐场景下,舆情事件自身的特征能够在图谱结构中发挥作用,从而对事件推荐过程中的信息提取产生积极作用。
基于现有的舆情事件推荐方法存在的问题,本方案提出了一种结合知识表示和文本内容表示的事件推荐方法,引入领域知识图谱的外部信息,并将不同事件背后复杂的关联关系考虑进来,解决了无法刻画事件文本深层语义以及领域特征的问题。同时,通过引入基于事件影响力的召回方式解决基于事件表示可能造成的事件推荐数量不足的问题。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种结合文本内容和知识图谱的舆情事件推荐方法、***及终端。
所述技术方案如下:一种结合文本内容和知识图谱的舆情事件推荐方法,包括:将领域知识图谱和舆情事件推荐进行结合,在进行舆情事件推荐时,不再局限于事件自身文本内容的单一考虑,将舆情事件整合到领域知识图谱中;考虑舆情事件在领域知识图谱中的结构和属性,通过多角度的分析和计算,最终从舆情事件文本和图谱网络结构的角度获得推荐列表。
在本发明一实施例中,所述结合文本内容和知识图谱的舆情事件推荐方法具体包括:
步骤一,非周期性更新的新事件信息提取及入库;
步骤二,周期性历史事件信息更新入库;
步骤三,周期内新事件信息更新入库;
步骤四,相关舆情事件推荐。
在本发明一实施例中,所述步骤一非周期性更新的新事件信息提取及入库具体包括:
第一步,爬取当前时间段内所有社交平台的舆情文本数据,所述舆情文本数据包括文章、贴文;
第二步,采用领域关键词过滤爬取的舆情数据,保留领域内的舆情文本数据;
第三步,采用事件提取算法提取当前时间段关于该领域的所有事件,并对事件分配相应的类别;同时,利用textrank算法计算相应事件文本数据的关键词及权重,并通过语言模型计算每个关键词的词向量,再经过关键词词向量的加权平均计算出事件文本向量;还通过热度、危度、焦度网络舆情指标计算每个事件的影响力指数,选取影响力最大的事件文本进行事件描述内容提取,并对描述内容进行实体及关系抽取,通过实体消歧和实体链接的方式,整合到当前的领域知识图谱中;
第四步,将新事件的事件类别、事件关键词及权重、事件文本表示、事件影响力值、事件文本摘要信息及整合新事件的知识图谱信息更新到事件信息库中。
在本发明一实施例中,所述步骤二周期性历史事件信息更新入库具体包括:
事件信息库中周期性历史事件信息计算的数据包括知识图谱表示、结合知识图谱和事件文本的事件表示以及当前事件库内所有事件的推荐列表;
图谱知识表示计算:采用TransE的知识表示方法对整个领域图谱的信息进行嵌入;
事件文本表示计算:通过textrank方法提取事件文本的关键词以及相应的权重,并用word2vec模型计算每个关键词的嵌入,并通过公式(1)计算事件文本向量:
Figure BDA0003399499050000031
其中c表示事件文本向量,n表示事件文本的关键数量,xi表示第i个关键词的嵌入,wi表示第i个关键词的权重;
事件表示计算:用于相似度计算的事件表示结合事件的知识表示及事件的文本表示,通过自定义的权重进行加权求和获取,公式为:
v=w1u+w2c (2)
其中v表示最终的事件向量,u表示事件知识表示向量,w1表示事件知识表示向量的权重,c表示事件文本向量,w2表示事件文本向量的权重;
推荐列表计算,在周期性更新中,基于相似事件表示进行推荐,利用Faiss的相似度计算和检索方法以及向量储存方法储存向量和计算当前事件与其他历史事件的相似度s;相似度计算、检索方法和向量储存方法根据数据量大小以及需求的不同做选择;再通过除去s<阈值d的历史事件,并在剩下的事件中选取相似度最大的k个历史事件作为推荐结果;若最终推荐结果不满足k个,则选取当前事件所属事件类别下影响力值最大的k-n个事件作为补充,其中n为基于事件表示的推荐结果数量。
在本发明一实施例中,所述步骤三周期内新事件信息更新入库包括:
(1)判断新事件是否能够与当前的知识图谱相关联,及提取的实体和关系,是否有和当前的知识图谱重合的地方,如果有重合的地方则实行步骤(2),否则实行步骤(3);
(2)当该事件与现有图谱有关联时,可以通过相连的实体和关系计算当前新增事件的知识表示,并运用公式(2)计算当前的事件表示,并实行步骤(4);
(3)当该事件与现有图谱没有关联时,将事件的文本表示作为当前的事件表示,并实行步骤(4);
(4)得到事件表示后,生成该事件的推荐列表并储存在事件信息库中;当事件与现有图谱无关联,新事件表示需与所有历史事件的文本表示计算相似度并生成推荐结果。
在本发明一实施例中,所述步骤三周期内新事件信息更新入库还包括:计算结合知识图谱和文本内容的事件表示,具体包括以下步骤:
1)选取新增事件抽取的实体和关系与现有图谱的实体和关系的交集表示为(e,r),且(E,R)为知识图谱的所有实体和关系对,(V,L)为新事件提取的所有实体和关系对,公式(3)为:
(e,r)=(E,R)∩(V,L) (3)
2)采用TransE的知识表示方法与新事件相连的实体和关系计算新增事件的知识表示,公式(4)为:
Figure BDA0003399499050000051
其中,n表示(e,r)的实体关系对数量,ei表示相连实体的向量,ri表示相连关系的向量。
3)采用公式(2)的方法求得最终的新增事件表示向量。
在本发明一实施例中,所述步骤四相关舆情事件推荐包括:
对一个事件进行推荐时,判断该事件是否是新增事件,是则进行新事件信息更新后输出库中最终计算出的推荐列表,否则直接输出库中储存的推荐列表。
本发明的另一目的在于提供一种实施所述结合文本内容和知识图谱的舆情事件推荐方法的结合文本内容和知识图谱的舆情事件推荐***,其特征在于,所述结合文本内容和知识图谱的舆情事件推荐***基于embedding的推荐方法,通过计算事件表示,比较当前事件表示与历史事件表示的相似度,并选取相似度d大于阈值的topk个事件作为推荐列表;具体包括:
事件信息库,用于储存事件推荐需要用到的所有信息,包括整合历史事件的领域知识图谱、事件描述文本、事件关键词及相应的权重、事件类别、事件影响力指数;还用于储存计算的事件表示及历史事件对应的推荐列表;
事件表示单元,用于通过计算事件表示间的相似度的方式形成推荐列表,最终的事件表示及事件文本表示储存在事件信息库中;
事件推荐列表单元,用于生成三种推荐列表分别为基于事件表示的推荐列表、基于事件文本表示的推荐列表以及基于事件影响力指数的推荐列表。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述结合文本内容和知识图谱的舆情事件推荐方法。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述结合文本内容和知识图谱的舆情事件推荐方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
基于本发明的事件推荐相似度计算,见表1。
表1
待推荐的事件id 被推荐的top5事件id 相似度距离
0 5553 0.1937712
0 5413 0.4555958
0 7145 0.5150939
0 58 0.5561578
0 2717 0.5599424
从事件id_0出发的推荐五个事件,其相似度距离平均值为0.4561122。
基于事件文本表层含义的事件推荐相似度计算,见表2.
表2
待推荐的事件id 被推荐的top5事件id 相似度距离
0 6564 0.5541926
0 6602 0.5561241
0 5413 0.5742827
0 1801 0.5797074
0 3895 0.5883735
从事件id_0出发的推荐五个事件,其相似度距离平均值为0.5705360。
技术效果和优点分析:
本发明除了考虑事件文本的表层语义外,还从事件本身抽取实体和关系,进而在图谱网络结构中进行了深层挖掘。在技术上基于多层次的考虑使得事件推荐更为合理,在相似度距离上表现为平均相似度距离更小,反映了技术性更优。
本发明创新性地将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取等知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示。同时,在浅层语义方面,该方案仍会计算事件文本语义表示。通过加权事件知识表示及语义表示的方式替代了单一的事件语义表示作为最终的事件表示。除此之外,本发明还采用了舆情事件的影响力指数作为额外补充信息,为推荐数量不满足k个的事件推荐一定数量的影响力重大的事件作为补充。
当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的结合文本内容和知识图谱的舆情事件推荐方法流程图。
图2是本发明实施例提供的结合文本内容和知识图谱的舆情事件推荐***图。
图中:1、事件信息库;2、事件表示单元;3、事件推荐列表单元。
图3是本发明实施例提供的新事件信息提取及入库流程图。
图4是本发明实施例提供的事件信息库更新信息计算流程图。
图5是本发明实施例提供的周期性推荐列表计算流程图。
图6是本发明实施例提供的周期内新事件信息更新入库图。
图7是本发明实施例提供的相关事件推荐流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1所示,本发明提供一种结合文本内容和知识图谱的舆情事件推荐方法包括:将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示;同时,在浅层语义上,计算事件文本语义表示,通过加权事件知识表示及语义表示的方式作为最终的事件表示。
对获取的最终的事件表示,以舆情事件的影响力指数作为额外补充信息,为推荐数量不满足k个的事件推荐k-n个影响力值最大的事件作为补充。
在本发明一优选实施例中,结合文本内容和知识图谱的舆情事件推荐方法具体包括:
步骤一,非周期性更新的新事件信息提取及入库。
步骤二,周期性历史事件信息更新入库。
步骤三,周期内新事件信息更新入库。
步骤四,相关舆情事件推荐。
下面结合具体实施例对本发明的技术方案作进一步描述。
实施例
1、结合文本内容和知识图谱的舆情事件推荐***
结合文本内容和知识图谱的舆情事件推荐***主要是基于embedding的推荐方法,通过计算事件表示,比较当前事件表示与历史事件表示的相似度,并选取相似度d大于阈值的topk个事件作为推荐列表。
如图2结合文本内容和知识图谱的舆情事件推荐***所示。主要包含三个部分:
事件信息库1:事件信息库中储存了事件推荐需要用到的所有信息,包括整合了历史事件的领域知识图谱、事件描述文本、事件关键词及相应的权重、事件类别、事件影响力指数。除此之外,后续步骤计算的事件表示及历史事件对应的推荐列表也会储存在事件信息库中。同时,随着新事件不断产生,事件信息库也在不断地进行增量更新。
事件表示单元2:当前的推荐方案主要还是通过计算事件表示间的相似度的方式来形成推荐列表,最终的事件表示及事件文本表示会储存在事件信息库1中。在事件表示增量更新方面,当前方案结合了周期性全量更新及周期内增量更新的方法来保证推荐结果的鲜活性。
事件推荐列表单元3:当前的推荐方案会生成3种推荐列表分别为基于事件表示的推荐列表、基于事件文本表示的推荐列表以及基于事件影响力指数的推荐列表,其中以基于事件表示的推荐列表为主要推荐手段。事件推荐列表主要采用周期性更新的方式来保证推荐结果的鲜活性。
2.具体计算流程
2.1非周期性更新的新事件信息提取及入库流程,如图3所示,包括:
首先需要爬取当前时间段内所有社交平台的舆情文本数据,如文章、贴文等,之后采用领域关键词过滤爬取的舆情数据,保留领域内的舆情文本数据。接下来采用事件提取算法提取当前时间段关于该领域的所有事件,并对事件分配相应的类别。同时,利用textrank算法计算相应事件文本数据的关键词及权重,并通过语言模型计算每个关键词的词向量,最后经过关键词词向量的加权平均计算出事件文本向量。除此之外,还需要通过网络舆情指标如热度、危度、焦度等计算每个事件的影响力指数,选取影响力最大的事件文本进行事件描述内容提取,并对描述内容进行实体及关系抽取,通过实体消歧和实体链接的方式,整合到当前的领域知识图谱中。
最终,将新事件的所有信息,包括事件类别、事件关键词及权重、事件文本表示、事件影响力值、事件文本摘要及整合了新事件的知识图谱更新到事件信息库中。
2.2周期性历史事件信息更新入库流程中,事件信息库更新信息计算流程如图4所示。
为了保持推荐结果的鲜活性,需要对事件信息库的信息进行周期性更新,需要更新的数据包括知识图谱表示、结合知识图谱和事件文本的事件表示以及当前事件库内所有事件的推荐列表。而事件信息库的其他信息包括事件id、事件文本、事件类别、事件关键词、事件文本表示等信息在新事件加入事件信息库时就完成更新操作,无需重复更新。
在舆情事件信息库的周期性更新中主要涉及4种计算,分别为图谱知识表示计算、事件文本表示计算、事件表示计算及推荐列表计算。
(1)图谱知识表示计算:当前方案主要采用TransE的知识表示方法对整个领域图谱的信息进行嵌入;
(2)事件文本表示计算:通过textrank方法提取事件文本的关键词以及相应的权重,并用给word2vec模型计算每个关键词的嵌入,并通过如下公式计算事件文本向量:
Figure BDA0003399499050000101
其中c表示事件文本向量,n表示事件文本的关键数量,xi表示第i个关键词的嵌入,wi表示第i个关键词的权重。
(3)事件表示计算:最终用于相似度计算的事件表示结合了事件的知识表示及事件的文本表示,通过自定义的权重进行加权求和获取,公式如下:
v=w1u+w2c (2)
其中v表示最终的事件向量,u表示事件知识表示向量,w1表示事件知识表示向量的权重,c表示事件文本向量,w2表示事件文本向量的权重。
(4)推荐列表计算,如图5周期性推荐列表计算流程所示。
在周期性更新中,主要基于相似事件表示进行推荐,利用Faiss的相似度计算和检索方法以及向量储存方法来储存向量和计算当前事件与其他历史事件的相似度s。相似度计算、检索方法和向量储存方法可以根据数据量大小以及需求的不同做选择,比如IndexFlatL2(通过穷尽搜索计算不同向量间的欧式距离并将向量全量储存)、IndexIVFFlat(通过k-means聚类并划分搜索空间的方式实现更快的搜索,可采用欧氏距离或者内积来计算相似度并将向量全量储存)、IndexIVFPQ(采用基于乘积量化的方式有损压缩向量并进行储存)等等。
之后通过除去s<阈值d的历史事件,并在剩下的事件中选取相似度最大的k个历史事件作为推荐结果。如果最终推荐结果不满足k个,该方案会选取当前事件所属事件类别下影响力值最大的k-n个事件作为补充,其中n为基于事件表示的推荐结果数量。
2.3周期内新事件信息更新入库流程,如图6所示。
在周期内,当输入一个新事件,并已经更新了该事件的基础信息的情况下,还需要对一些特定于该周期内的信息进行更新。步骤如下:
(1)判断该事件是否能够与当前的知识图谱相关联,及提取的实体和关系,是否有和当前的知识图谱重合的地方,如果有重合的地方则实行步骤(2),否则实行步骤(3);
(2)当该事件与现有图谱有关联时,可以通过相连的实体和关系计算当前新增事件的知识表示,并运用公式(2)计算当前的事件表示,并实行步骤(4);
(3)当该事件与现有图谱没有关联时,将事件的文本表示作为当前的事件表示,并实行步骤(4);
(4)得到事件表示之后,需要生成该事件的推荐列表并储存在事件信息库中。其推荐列表计算方法基本与周期性更新时一致,但当事件与现有图谱无关联的情况下,新事件表示需要与所有历史事件的文本表示计算相似度并生成推荐结果;
周期性更新最重要的一步是计算结合知识图谱和文本内容的事件表示,其计算方法分为以下几个步骤:
1)选取新增事件抽取的实体和关系与现有图谱的实体和关系的交集表示为(e,r),且(E,R)为知识图谱的所有实体和关系对,(V,L)为新事件提取的所有实体和关系对,具体公式如下:
(e,r)=(E,R)∩(V,L) (3)
2)由于采用TransE的知识表示方法,根据其思想采用与新事件相连的实体和关系来计算新增事件的知识表示,公式如下:
Figure BDA0003399499050000121
其中,n表示(e,r)的实体关系对数量,ei表示相连实体的向量,ri表示相连关系的向量。
3)采用公式(2)的方法求得最终的新增事件表示向量。
2.4相关舆情事件推荐,如图7所示。获取到待推荐事件之后的分析流程,包括了对待推荐事件的类型判断(新增事件\历史事件),进而通过不同的流程进行事件推荐。比如对于新增事件,除了输出事件推荐的列表外,还应当根据新增事件,更新事件信息库,实时完成事件信息库的扩充工作。
经过以上的步骤之后,当需要对一个事件进行推荐时首先需要判断该事件是否是新增事件,是则进行新事件信息更新之后输出库中最终计算出的推荐列表,否则直接输出库中储存的推荐列表。
下面结合具体实验数据对比对本发明的积极效果作进一步描述。
基于本发明的事件推荐相似度计算和基于事件文本表层含义的事件推荐相似度计算对比分析:
针对待推荐的事件:id_0,分别以本发明方案和其他技术方案进行推荐,并给出平均相似度距离,见表3。
表3
Figure BDA0003399499050000131
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims (10)

1.一种结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述结合文本内容和知识图谱的舆情事件推荐方法包括:将领域知识图谱和舆情事件推荐进行结合,在进行舆情事件推荐时,将舆情事件整合到领域知识图谱中;基于舆情事件在领域知识图谱中的结构和属性,通过多角度的分析和计算,最终从舆情事件文本和图谱网络结构的角度获得推荐列表。
2.根据权利要求1所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述结合文本内容和知识图谱的舆情事件推荐方法具体包括:
步骤一,非周期性更新的新事件信息提取及入库;
步骤二,周期性历史事件信息更新入库;
步骤三,周期内新事件信息更新入库;
步骤四,相关舆情事件推荐。
3.根据权利要求2所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述步骤一非周期性更新的新事件信息提取及入库具体包括:
第一步,爬取当前时间段内所有社交平台的舆情文本数据,所述舆情文本数据包括文章、贴文;
第二步,采用领域关键词过滤爬取的舆情数据,保留领域内的舆情文本数据;
第三步,采用事件提取算法提取当前时间段关于该领域的所有事件,并对事件分配相应的类别;同时,利用textrank算法计算相应事件文本数据的关键词及权重,并通过语言模型计算每个关键词的词向量,再经过关键词词向量的加权平均计算出事件文本向量;还通过热度、危度、焦度网络舆情指标计算每个事件的影响力指数,选取影响力最大的事件文本进行事件描述内容提取,并对描述内容进行实体及关系抽取,通过实体消歧和实体链接的方式,整合到当前的领域知识图谱中;
第四步,将新事件的事件类别、事件关键词及权重、事件文本表示、事件影响力值、事件文本摘要信息及整合新事件的知识图谱信息更新到事件信息库中。
4.根据权利要求2所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述步骤二周期性历史事件信息更新入库具体包括:
事件信息库中周期性历史事件信息计算的数据包括知识图谱表示、结合知识图谱和事件文本的事件表示以及当前事件库内所有事件的推荐列表;
图谱知识表示计算:采用TransE的知识表示方法对整个领域图谱的信息进行嵌入;
事件文本表示计算:通过textrank方法提取事件文本的关键词以及相应的权重,并用给word2vec模型计算每个关键词的嵌入,并通过公式(1)计算事件文本向量:
Figure FDA0003399499040000021
其中c表示事件文本向量,n表示事件文本的关键数量,xi表示第i个关键词的嵌入,wi表示第i个关键词的权重;
事件表示计算:用于相似度计算的事件表示结合事件的知识表示及事件的文本表示,通过自定义的权重进行加权求和获取,公式为:
v=w1u+w2c (2)
其中v表示最终的事件向量,u表示事件知识表示向量,w1表示事件知识表示向量的权重,c表示事件文本向量,w2表示事件文本向量的权重;
推荐列表计算,在周期性更新中,基于相似事件表示进行推荐,利用Faiss的相似度计算和检索方法以及向量储存方法储存向量和计算当前事件与其他历史事件的相似度s;相似度计算、检索方法和向量储存方法根据数据量大小以及需求的不同做选择;再通过除去s<阈值d的历史事件,并在剩下的事件中选取相似度最大的k个历史事件作为推荐结果;若最终推荐结果不满足k个,则选取当前事件所属事件类别下影响力值最大的k-n个事件作为补充,其中n为基于事件表示的推荐结果数量。
5.根据权利要求2所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述步骤三周期内新事件信息更新入库包括:
(1)判断新事件是否能够与当前的知识图谱相关联,及提取的实体和关系,是否有和当前的知识图谱重合的地方,如果有重合的地方则实行步骤(2),否则实行步骤(3);
(2)当该事件与现有图谱有关联时,可以通过相连的实体和关系计算当前新增事件的知识表示,并运用公式(2)计算当前的事件表示,并实行步骤(4);
(3)当该事件与现有图谱没有关联时,将事件的文本表示作为当前的事件表示,并实行步骤(4);
(4)得到事件表示后,生成该事件的推荐列表并储存在事件信息库中;当事件与现有图谱无关联,新事件表示需与所有历史事件的文本表示计算相似度并生成推荐结果。
6.根据权利要求2所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述步骤三周期内新事件信息更新入库还包括:计算结合知识图谱和文本内容的事件表示,具体包括以下步骤:
1)选取新增事件抽取的实体和关系与现有图谱的实体和关系的交集表示为(e,r),且(E,R)为知识图谱的所有实体和关系对,(V,L)为新事件提取的所有实体和关系对,公式(3)为:
(e,r)=(E,R)∩(V,L) (3)
2)采用TransE的知识表示方法与新事件相连的实体和关系计算新增事件的知识表示,公式(4)为:
Figure FDA0003399499040000031
其中,n表示(e,r)的实体关系对数量,ei表示相连实体的向量,ri表示相连关系的向量;
3)采用公式(2)的方法求得最终的新增事件表示向量。
7.根据权利要求2所述的结合文本内容和知识图谱的舆情事件推荐方法,其特征在于,所述步骤四相关舆情事件推荐包括:
对一个事件进行推荐时,判断该事件是否是新增事件,是则进行新事件信息更新后输出库中最终计算出的推荐列表,否则直接输出库中储存的推荐列表。
8.一种实施权利要求1~7任意一项所述结合文本内容和知识图谱的舆情事件推荐方法的结合文本内容和知识图谱的舆情事件推荐***,其特征在于,所述结合文本内容和知识图谱的舆情事件推荐***基于embedding的推荐方法,通过计算事件表示,比较当前事件表示与历史事件表示的相似度,并选取相似度d大于阈值的topk个事件作为推荐列表;具体包括:
事件信息库,用于储存事件推荐需要用到的所有信息,包括整合历史事件的领域知识图谱、事件描述文本、事件关键词及相应的权重、事件类别、事件影响力指数;还用于储存计算的事件表示及历史事件对应的推荐列表;
事件表示单元,用于通过计算事件表示间的相似度的方式形成推荐列表,最终的事件表示及事件文本表示储存在事件信息库中;
事件推荐列表单元,用于生成三种推荐列表分别为基于事件表示的推荐列表、基于事件文本表示的推荐列表以及基于事件影响力指数的推荐列表。
9.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求1~7任意一项所述结合文本内容和知识图谱的舆情事件推荐方法。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~7任意一项所述结合文本内容和知识图谱的舆情事件推荐方法。
CN202111494086.4A 2021-12-08 2021-12-08 一种结合内容和图谱的舆情事件推荐方法、***及终端 Pending CN114153965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111494086.4A CN114153965A (zh) 2021-12-08 2021-12-08 一种结合内容和图谱的舆情事件推荐方法、***及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111494086.4A CN114153965A (zh) 2021-12-08 2021-12-08 一种结合内容和图谱的舆情事件推荐方法、***及终端

Publications (1)

Publication Number Publication Date
CN114153965A true CN114153965A (zh) 2022-03-08

Family

ID=80453981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111494086.4A Pending CN114153965A (zh) 2021-12-08 2021-12-08 一种结合内容和图谱的舆情事件推荐方法、***及终端

Country Status (1)

Country Link
CN (1) CN114153965A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050187A (zh) * 2022-08-12 2022-09-13 杭州城市大脑有限公司 一种基于舆情知识图谱的数字城市交通治理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050187A (zh) * 2022-08-12 2022-09-13 杭州城市大脑有限公司 一种基于舆情知识图谱的数字城市交通治理方法
CN115050187B (zh) * 2022-08-12 2022-11-01 杭州城市大脑有限公司 一种基于舆情知识图谱的数字城市交通治理方法

Similar Documents

Publication Publication Date Title
CN105701191B (zh) 一种推送信息点击率估计方法和装置
Konstas et al. On social networks and collaborative recommendation
CN112100344A (zh) 一种基于知识图谱的金融领域知识问答方法
CN111222332A (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及***
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
WO2008046104A2 (en) Methods and systems for knowledge discovery
CN106708929B (zh) 视频节目的搜索方法和装置
CN111382276A (zh) 一种事件发展脉络图生成方法
CN103455487A (zh) 一种搜索词的提取方法及装置
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
US20100138414A1 (en) Methods and systems for associative search
Martín et al. Using semi-structured data for assessing research paper similarity
CN113190702A (zh) 用于生成信息的方法和装置
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN110795613A (zh) 商品搜索方法、装置、***及电子设备
CN110674313B (zh) 一种基于用户日志动态更新知识图谱的方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、***及终端
Wang et al. Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
Stevens et al. Predicting real estate price using text mining
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
CN114328820A (zh) 信息搜索方法以及相关设备
CN114022233A (zh) 一种新型的商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination