CN117493490B - 基于异构多关系图的话题检测方法、装置、设备及介质 - Google Patents

基于异构多关系图的话题检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN117493490B
CN117493490B CN202311534078.7A CN202311534078A CN117493490B CN 117493490 B CN117493490 B CN 117493490B CN 202311534078 A CN202311534078 A CN 202311534078A CN 117493490 B CN117493490 B CN 117493490B
Authority
CN
China
Prior art keywords
heterogeneous
relation
nodes
graph
heterogeneous information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311534078.7A
Other languages
English (en)
Other versions
CN117493490A (zh
Inventor
马廷淮
谢欣彤
贾莉
荣欢
黄学坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202311534078.7A priority Critical patent/CN117493490B/zh
Publication of CN117493490A publication Critical patent/CN117493490A/zh
Application granted granted Critical
Publication of CN117493490B publication Critical patent/CN117493490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于异构多关系图的话题检测方法、装置、设备及介质,该方法包括:获取社交平台的异构数据;基于所述异构数据,构建异构信息多关系图;编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;基于所述最终特征表示,得到话题关键字。本发明通过发布的内容中涵盖的多模态信息,构建异构信息多关系图的方式,选择最佳的邻居节点进行信息聚合,以实现最优的话题聚类效果,得到最佳话题输出,提高了话题检测的精确性,为后续实现精准敏捷的辟谣反击与正确的舆论引导提供了有力的保障。

Description

基于异构多关系图的话题检测方法、装置、设备及介质
技术领域
本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,尤其涉及一种基于异构多关系图的话题检测方法、装置、设备及介质。
背景技术
现有的话题检测方法是根据用户发布内容话题特征进行话题检测,一些研究方法使用预训练的词向量模型来表示文本中的单词,然后用卷积神经网络(ConvolutionalNeural Network,CNN)或循环神经网络(Recurrent Neural Network,RNN)对文本进行编码。之后采用分类器对文本的话题进行分类。这种方法的优点在于词向量能够很好地捕捉单词之间的关系,但是它无法考虑到文本的语法结构,因此在对话题进行细粒度分类时可能会失效。
另有一些方法将文本分割为句子并且使用注意力机制来学习句子级别的表示。通过引入注意力机制,能够动态地对文本数据中的关键特征进行加权,并为每个位置产生一个权重,从而提高话题检测的准确性。这种方法可以捕捉到文本中的重要句子,同时避免了长文本的训练困难。但是在该方法中,句子的顺序信息丢失了,这可能会导致话题分类不准确。
发明内容
本发明提供一种基于异构多关系图的话题检测方法、装置、设备及介质,用以解决现有技术中社交平台的话题分类不准确的缺陷,实现社交平台话题的准确聚类。
第一方面,本发明提供一种基于异构多关系图的话题检测方法,包括:
获取社交平台的异构数据;
基于所述异构数据,构建异构信息多关系图;
编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;
基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;
对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;
基于所述最终特征表示,得到话题关键字。
可选地,所述异构信息多关系图的初始化特征表示为:
G=(V,E,R,W);
其中V是节点集合;E是边的集合;R是关系集合;W是权重参数。
可选地,基于所述异构数据,构建异构信息多关系图,进一步包括:
将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边;
将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数。
可选地,编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:
确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练;
对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征;
采用双向LSTM网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示;
对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示。
可选地,对所述异构信息多关系图的节点进行筛选,进一步包括:
采用多智能体强化学习引导所述异构信息多关系图的每个关系执行邻域选择。
可选地,所述邻域选择方法进一步包括:
将关系r下的每个邻居节点进行排序;
为每一个相邻关系建立智能体,作为保留阈值S的选择器;
每一个所述智能体采用Actor-critic算法通过Actor网络根据在所述关系r下观察到的状态选择保留阈值S。
可选地,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示,进一步包括:
对于关系内的节点,采用图注意力网络,按照注意力系数加权求和的方式进行信息聚合,得到所述关系内的节点的嵌入表示;
对于关系间的节点,采用图注意力网络进行拼接聚合,得到所述关系间的节点的嵌入表示;
对所述异构信息多关系图中每个节点均按照上述方法更新嵌入表示,形成所述异构多关系图的最终特征表示。
第二方面,本发明还提供一种基于异构多关系图的话题检测装置,包括:
获取模块,用于获取社交平台的异构数据;
构建模块,用于基于所述异构数据,构建异构信息多关系图;
编码模块,用于编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;
筛选模块,用于基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;
聚合模块,用于对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;
输出模块,用于基于所述最终特征表示,得到话题关键字。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述基于异构多关系图的话题检测方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述基于异构多关系图的话题检测方法。
与现有技术相比,本发明的有益效果是:
(1)本发明充分考虑到发布在社交网络上的内容可以是图文形式相结合,通过发布的内容中涵盖的很多多模态信息,构建异构信息多关系图的方式,选择最佳的邻居节点进行信息聚合,以实现最优的话题聚类效果,得到最佳话题输出,提高了话题检测的精确性,凝练话题以减少冗余信息,为后续实现精准敏捷的辟谣反击与正确的舆论引导提供了有力的保障。
(2)本发明通过将不同多模态信息围绕中心话题建立,将不同的话题元素作为节点,并以两节点存在的相同类型边的数量作为图中边的权重,提高了话题关系语义信息的丰富性。
(3)本发明通过多智能体强化学习算法指导异构信息多关系图中节点选择,并实现关系内和关系间信息聚合,优化多异构信息多关系图的嵌入表示,增强了多异构信息多关系图的特征表达能力,提高了后续层次聚类的聚类效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于异构多关系图的话题检测方法的流程示意图;
图2是根据本发明实施例的异构数据示意图;
图3是根据本发明实施例的异构信息示意图;
图4是根据本发明实施例的异构信息多关系示意图;
图5是根据本发明实施例的基于异构多关系图的话题检测装置的结构示意图;
图6是根据本发明实施例的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发布在社交网络上的内容可以是图文形式相结合,现有技术大多只考虑了文本,而发布的内容又涵盖很多信息,如地理位置、发布用户和图片等多模态数据,为了解决这个问题,本发明采用构建异构信息多关系图的方式,建立不同话题元素节点的边,且以两节点存在的相同类型边的数量作为图中边的权重,以此来保存更丰富的话题关系语义信息。
得到丰富的语义信息之后,为了提高话题检测的精确性,凝练话题以减少冗余信息,本发明拟采用强化学习算法选择最佳的邻居节点进行信息聚合,以实现最优的话题聚类效果。
如图1所示,本发明提供一种基于异构多关系图的话题检测方法,该方法包括如下步骤:
步骤S0、获取社交平台的异构数据。
具体地,社交平台(例如微博、知乎等)中所产生的海量多模态数据具有异构性,即多模态数据包括多种类型节点和多类型关系。这些多模态数据包括用户帖子、地理位置、发布用户、相关图片等,这些数据构成了本发明实施例的社交平台的异构数据。
如图2所示,异构数据以微博热搜淄博烧烤爆火为例,其中m1,m2,m3,m4及m5代表不同的帖子,user1、user2、user3、user4以及user5代表不同的用户。
步骤S1、基于所述异构数据,构建异构信息多关系图。
以微博热搜淄博烧烤爆火为例,具体步骤如下:
步骤S1-1、将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边。
具体地,中心话题元素指的是一个热点话题/事件,这个话题/事件会引发用户对此的相关讨论,用户发布的帖子共同形成了异构图,反映了网络上关于该话题或事件的多样性信息。
异构数据同步的方式是指多种模态数据同时呈现的方式,例如地理位置、帖子以及用户信息等通过帖子发布的方式同时展现。将不同类型话题元素作为节点,如用户帖子、地理位置、发布用户、相关图片等多模态数据,如图3和图4所示,m表示帖子,user表示用户,Image表示用户发布帖子里的图片,LOC表示用户发布该帖子所在的地理位置,以帖子为中心根据这些多模态数据同步出现的方式建立节点之间的边,进而形成异构信息图,如图3所示。
步骤S1-2、将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数。
具体地,根据节点(话题元素)间的关联关系,例如以“用户帖子-发布用户-用户帖子、用户帖子-地理位置-用户帖子以及用户帖子-相关图片-用户帖子”等关系形式,并且以两节点存在的相同类型边的数量作为图中边的权重,构建异构信息多关系图。如图2及图3所示,帖子m2发布了和帖子m1相同的图片,因此存在相同的类型为“用户帖子-相关图片-用户帖子”的边,边的权重为1,进而形成异构信息多关系图,如图4所示。
步骤S2、编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示。
具体地,编码步骤S1中的异构信息多关系图,获取异构信息多关系图特征表示G=(V,E,R,W),其中V是节点集合,E是边的集合,R是关系集合,W是权重参数。以从节点v∈V中提取异构信息内容Cv为例,具体步骤如下:
步骤S2-1、确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练。
具体地,不同的节点类型,其所含的内容类型Cv(即文本、图片)不相同,Cv中第i个内容特征表示为(即关系集合下的不同内容类型),dc是内容特征维度,该内容类型为图像采用CNN模型进行预训练,而文本类型内容采用基于Transformer的双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)模型进行预训练。
步骤S2-2、对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征。
具体地,根据步骤S2-1的输出结果,采用全连接神经网络(Fully Connectedlayers,FC)转换不同内容类型的特征,输出统一的特征维度;
步骤S2-3、采用双向长短期记忆(Long Short Term Memory,LSTM)网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示。
具体地,根据步骤S2-2的输出结果,采用双向LSTM网络进行特征交叉,增强特征的表达能力,公式如下:
其中f为经过双向LSTM网络增强后的特征表示;和/>分别表示双向LSTM网络的正向传播和反向传播过程;θx为全连接神经网络FC的参数。
步骤S2-4、对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示。
具体地,根据步骤S2-3获取的特征表示,对其进行平均池化,以生成节点的初始化特征表示,公式如下:
Hf=meanpooling(f);
其中Hf表示异构信息多关系图的初始化特征表示;meanpooling(·)为平均池化函数。
步骤S3、基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选。
具体地,基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选,进一步包括:采用多智能体强化学习引导所述异构信息多关系图的每个关系执行邻域选择。也就是说根据步骤S2中获取的异构信息多关系图初始化特征,采用多智能体强化学习引导每个关系在聚合前执行邻域抽样。由于异构信息图之间存在无意义的连接,需要进行节点的选择和过滤,以保留具有高语义和过滤掉无意义的邻居节点,具体步骤如下:
步骤S3-1、将关系r下的每个邻居节点进行排序;例如,以节点v,关系r为例,根据距离将关系r下的每个邻居节点按升序排序。为关系r的每个相邻关系建立一个智能体,作为保留阈值S的选择器。当S为1时,保留所有邻居,当S为0时,丢弃所有邻居,对节点进行选择和过滤。
步骤S3-1-1,在模型训练过程中,以第m轮训练为例,异构信息多关系图中关系r下的节点vi和节点vj,记为其中/>Avr表示异构图的邻接矩阵的子矩阵,行表示所有信息节点,列表示属于关系r的所有事件元素节点;min{·}函数表示取两个元素中较小的一个,Er表示关系r下的边的集合。
由于不同关系保留阈值共同影响聚合效果,采用含有所有关系的阈值聚合而成的邻居节点表示计算关系r下的平均加权距离,使每个智能体都能考虑到其他关系的影响,那么一个智能体在关系r下观察到的状态定义为:
其中是关系r下中心节点vi的所有保留的邻居节点节点vj的集合,N是邻居节点数量;/>是节点vi和节点vj在关系r下的边的权值;下标a代表聚类,可以写成agg;D代表欧几里得距离;/>表示节点vi的邻居节点,/>表示节点vj的邻居节点。
步骤S3-1-2、每个智能体的动作是选择关系r下的保留阈值S。
具体地,表示每个智能体的动作,其代表在第m轮中关系r下的保留阈值S的取值。
步骤S3-1-3、采用归一化互信息(Normalized Mutual Information,NMI)作为奖励函数来初步话题类簇效果,/>其中|Etrue|指的是实际话题分类的数量;k代表K-means聚类方法。
S3-2、每一个所述智能体采用Actor-critic算法通过Actor网络根据在所述关系r下观察到的状态选择保留阈值S。
具体地,根据上述步骤S3-1,每个智能体采用Actor-critic算法通过Actor网络根据状态选择动作,即选择关系r下的保留阈值S。最终获得相同的奖励来更新损失函数。在这个过程中,每个智能体都努力获得最大的整体利益,多个智能体属于一个合作关系,通过反复迭代更新损失函数,不断优化节点选择和嵌入表示,直到收敛。关系r下的损失函数定义为:
其中Q(·)是动作函数;π(·)为使用的策略;γ表示梯度衰减的超参数。
步骤S4,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示。
具体地,根据步骤S3选择和过滤后的异构信息多关系图的节点,进行信息聚合以更新图的特征表示,形成异构信息多关系图的嵌入表示Hfinal。以节点vi为例,输出最终的节点vi嵌入表示具体步骤如下:
步骤S4-1,关系内的信息聚合,即相同类型关系的节点信息聚合。采用图注意力网络Graph Attention Networks对具有相同类型关系的节点信息聚合。具体的,第l层中,节点vi的嵌入表示由第l-1层中节点vi的邻居节点vj嵌入表示,按照注意力系数加权求和的方式进行信息聚合,定义为:
其中为在关系r下节点vi邻居节点vj在第l-1层的嵌入表示;/>为节点vi利用保留阈值S进行邻居选择过程后的一系列邻居的集合;/>为在关系r下邻居聚合器的图注意网络中多头注意机制;/>表示head-wise连接,拼接中间层的多个头的输出,并在最后一层对它们进行平均;/>表示求和聚合运算符。
步骤S4-2,关系间的信息聚合,即不同类型关系的节点信息聚合。采用保留阈值S作为同类型关系图的权重,并用图注意力网络以拼接聚合的方式更新关系图的表示,实现不同类型关系图之间的信息增强,最终获取多关系图的嵌入表示定义为:
其中和/>分别代表关系r下第l层和第l-1层节点vi关系间的聚合嵌入;/>为拼接聚合运算符;然后,将关系间聚合器的结果与节点vi的第l-1层嵌入的结果拼接在第l层,作为节点vi的最终表示/>
S4-3,异构信息多关系图中每个节点均按照步骤S4-1和步骤S4-2该过程更新嵌入表示,形成最终图嵌入表示Hfinal,即最终特征表示。
S5,基于所述最终特征表示,得到话题关键字
以步骤S4中获取的异构信息多关系图的嵌入表示Hfinal作为输入,采用层次聚类算法进行话题聚类,识别潜在话题信息,并输出一系列话题关键,定义为:
Top=C(Hfinal);
其中Top∈{top1,top2,...,topP},topi,i∈[1,P]为不同的话题关键字,P为话题的数量。
如表1所示,本发明在公开可用的Weibo-COV数据集实验效果,与目前现有的话题检测方法K-Means、LDA、BiRNN、VGG+BiRNN相比具有一定优势,聚类ACC和标准化互信息NMI表示话题聚类效果的评价指标,数值越大,表明话题聚类效果越好。
表1 Weibo-COV数据集实验结果
方法 聚类ACC(%) 标准化互信息NMI(%)
K-Means 25.3 1
LDA 28.9 3.4
BiRNN 47.8 20.5
VGG+BiRNN 50.76 35.55
Ours 57.78 55.12
下面对本发明提供的基于异构多关系图的话题检测装置进行描述,下文描述的基于异构多关系图的话题检测装置与上文描述的基于异构多关系图的话题检测方法可相互对应参照。
如图5所示,本发明提供一种基于异构多关系图的话题检测装置,该装置包括如下模块:
获取模块500,用于获取社交平台的异构数据;
构建模块510,用于基于所述异构数据,构建异构信息多关系图;
编码模块520,用于编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;
筛选模块530,用于基于所述初始化特征表示对所述异构信息多关系图的节点进行筛选;
聚合模块540,用于对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;
输出模块550,用于基于所述最终特征表示,得到话题关键字。
可选地,所述异构信息多关系图的初始化特征表示为:
G=(V,E,R,W);
其中V是节点集合;E是边的集合;R是关系集合;W是权重参数。
可选地,基于所述异构数据,构建异构信息多关系图,进一步包括:
将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边;
将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数。
可选地,编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:
确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练;
对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征;
采用双向LSTM网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示;
对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示。
可选地,对所述异构信息多关系图的节点进行筛选,进一步包括:
采用多智能体强化学习引导所述异构信息多关系图的每个关系执行邻域选择。
可选地,所述邻域选择的操作进一步包括:
将关系r下的每个邻居节点进行排序;
为每一个相邻关系建立智能体,作为保留阈值S的选择器;
每一个所述智能体采用Actor-critic算法通过Actor网络根据在所述关系r下观察到的状态选择保留阈值S。
可选地,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示,进一步包括:
对于关系内的节点,采用图注意力网络,按照注意力系数加权求和的方式进行信息聚合,得到所述关系内的节点的嵌入表示;
对于关系间的节点,采用图注意力网络进行拼接聚合,得到所述关系间的节点的嵌入表示;
对所述异构信息多关系图中每个节点均按照上述方法更新嵌入表示,形成所述异构多关系图的最终特征表示。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于异构多关系图的话题检测方法,该方法包括:获取社交平台的异构数据;基于所述异构数据,构建异构信息多关系图;编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;基于所述最终特征表示,得到话题关键字。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于异构多关系图的话题检测方法,该方法包括:获取社交平台的异构数据;基于所述异构数据,构建异构信息多关系图;编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;基于所述最终特征表示,得到话题关键字。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于异构多关系图的话题检测方法,其特征在于,包括:
获取社交平台的异构数据;
基于所述异构数据,构建异构信息多关系图;
编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;
基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;
对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;
基于所述最终特征表示,得到话题关键字;
所述异构信息多关系图的初始化特征表示为:
其中V是节点集合;E是边的集合;R是关系集合;W是权重参数;
基于所述异构数据,构建异构信息多关系图,进一步包括:
将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边;
将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数;
编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:
确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练;
对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征;
采用双向LSTM网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示;
对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示。
2.根据权利要求1所述的基于异构多关系图的话题检测方法,其特征在于,对所述异构信息多关系图的节点进行筛选,进一步包括:
采用多智能体强化学习引导所述异构信息多关系图的每个关系执行邻域选择。
3.根据权利要求2所述的基于异构多关系图的话题检测方法,其特征在于,所述邻域选择方法进一步包括:
将关系r下的每个邻居节点进行排序;
为每一个相邻关系建立智能体,作为保留阈值S的选择器;
每一个所述智能体采用Actor-critic算法通过Actor网络根据在所述关系r下观察到的状态选择保留阈值S。
4.根据权利要求3所述的基于异构多关系图的话题检测方法,其特征在于,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示,进一步包括:
对于关系内的节点,采用图注意力网络,按照注意力系数加权求和的方式进行信息聚合,得到所述关系内的节点的嵌入表示;
对于关系间的节点,采用图注意力网络进行拼接聚合,得到所述关系间的节点的嵌入表示;
对所述异构信息多关系图中每个节点均按照上述方法更新嵌入表示,形成所述异构多关系图的最终特征表示。
5.一种基于异构多关系图的话题检测装置,其特征在于,包括:
获取模块,用于获取社交平台的异构数据;
构建模块,用于基于所述异构数据,构建异构信息多关系图;基于所述异构数据,构建异构信息多关系图,进一步包括:
将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边;
将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数;
编码模块,用于编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;所述异构信息多关系图的初始化特征表示为:
其中V是节点集合;E是边的集合;R是关系集合;W是权重参数;
编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:
确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练;
对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征;
采用双向LSTM网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示;
对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示;
筛选模块,用于基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;
聚合模块,用于对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;
输出模块,用于基于所述最终特征表示,得到话题关键字。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于异构多关系图的话题检测方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于异构多关系图的话题检测方法。
CN202311534078.7A 2023-11-17 2023-11-17 基于异构多关系图的话题检测方法、装置、设备及介质 Active CN117493490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311534078.7A CN117493490B (zh) 2023-11-17 2023-11-17 基于异构多关系图的话题检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311534078.7A CN117493490B (zh) 2023-11-17 2023-11-17 基于异构多关系图的话题检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117493490A CN117493490A (zh) 2024-02-02
CN117493490B true CN117493490B (zh) 2024-05-14

Family

ID=89674293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311534078.7A Active CN117493490B (zh) 2023-11-17 2023-11-17 基于异构多关系图的话题检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117493490B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN112215837A (zh) * 2020-10-26 2021-01-12 北京邮电大学 多属性图像语义分析方法和装置
CN112417063A (zh) * 2020-12-11 2021-02-26 哈尔滨工业大学 一种基于异构关系网络的相容功能项推荐方法
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN114818719A (zh) * 2022-06-01 2022-07-29 青岛大学 一种基于复合网络与图注意力机制的社区话题分类方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN114928548A (zh) * 2022-04-26 2022-08-19 苏州大学 一种社交网络信息传播规模预测方法及装置
CN116049454A (zh) * 2022-11-01 2023-05-02 齐鲁空天信息研究院 一种基于多源异构数据的智能搜索方法及***
CN116561173A (zh) * 2023-07-11 2023-08-08 天津博冕科技发展有限公司 用关系图注意力神经网络选择查询执行计划的方法及***
CN116611884A (zh) * 2023-04-10 2023-08-18 福建新大陆软件工程有限公司 一种基于多维异构图神经网络的产品推荐方法及***
CN116956081A (zh) * 2023-06-16 2023-10-27 浙江大学 面向异构社交网络分布外泛化的社交标签预测方法及***
CN117034185A (zh) * 2023-06-25 2023-11-10 北京理工大学 一种融合语法树的多关系感知异构图视觉问答方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
CN112215837A (zh) * 2020-10-26 2021-01-12 北京邮电大学 多属性图像语义分析方法和装置
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112417063A (zh) * 2020-12-11 2021-02-26 哈尔滨工业大学 一种基于异构关系网络的相容功能项推荐方法
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN114928548A (zh) * 2022-04-26 2022-08-19 苏州大学 一种社交网络信息传播规模预测方法及装置
CN114818719A (zh) * 2022-06-01 2022-07-29 青岛大学 一种基于复合网络与图注意力机制的社区话题分类方法
CN116049454A (zh) * 2022-11-01 2023-05-02 齐鲁空天信息研究院 一种基于多源异构数据的智能搜索方法及***
CN116611884A (zh) * 2023-04-10 2023-08-18 福建新大陆软件工程有限公司 一种基于多维异构图神经网络的产品推荐方法及***
CN116956081A (zh) * 2023-06-16 2023-10-27 浙江大学 面向异构社交网络分布外泛化的社交标签预测方法及***
CN117034185A (zh) * 2023-06-25 2023-11-10 北京理工大学 一种融合语法树的多关系感知异构图视觉问答方法
CN116561173A (zh) * 2023-07-11 2023-08-08 天津博冕科技发展有限公司 用关系图注意力神经网络选择查询执行计划的方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Zhiyu Pan ; Yuting Gao ; Ferdinanda Ponci ; Antonello Monti.Semi-Automatic Ontology Development Framework for Building Energy Data Management. IEEE Access .2023,第111991 - 112003页. *
王攀成. 基于话题模型和引文信息的相关工作自动生成.中国优秀硕士学位论文全文数据库.2022,第I138-1263页. *
*** ; 赵晖 ; .融合词向量与关键词提取的微博话题发现.现代计算机.2020,(23),第4-10页. *

Also Published As

Publication number Publication date
CN117493490A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Gou et al. Multilevel attention-based sample correlations for knowledge distillation
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN109857871B (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN106484674A (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN113095948A (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN115510218A (zh) 一种基于对称对比学习的人岗匹配方法
CN115588193A (zh) 基于图注意力神经网络与视觉关系的视觉问答方法及装置
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和***
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN111414478B (zh) 基于深度循环神经网络的社交网络情感建模方法
CN113343712A (zh) 一种基于异质图的社交文本情感倾向分析方法及***
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
CN117493490B (zh) 基于异构多关系图的话题检测方法、装置、设备及介质
CN117112786A (zh) 一种基于图注意力网络的谣言检测方法
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
Ji et al. LSTM based semi-supervised attention framework for sentiment analysis
CN112632263B (zh) 一种基于gcn与指针网络的自然语言到sparql语句的生成***及方法
CN115329073A (zh) 一种基于注意力机制的方面级文本情感分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant