CN111368552A - 一种面向特定领域的网络用户群组划分方法及装置 - Google Patents

一种面向特定领域的网络用户群组划分方法及装置 Download PDF

Info

Publication number
CN111368552A
CN111368552A CN202010120988.0A CN202010120988A CN111368552A CN 111368552 A CN111368552 A CN 111368552A CN 202010120988 A CN202010120988 A CN 202010120988A CN 111368552 A CN111368552 A CN 111368552A
Authority
CN
China
Prior art keywords
account
clue
matrix
word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010120988.0A
Other languages
English (en)
Other versions
CN111368552B (zh
Inventor
尹航
刘尚奇
王国威
刘超
李逸群
闵燚
李猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Institute of Automation of Chinese Academy of Science
Original Assignee
BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING MUNICIPAL PUBLIC SECURITY BUREAU, Institute of Automation of Chinese Academy of Science filed Critical BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Priority to CN202010120988.0A priority Critical patent/CN111368552B/zh
Publication of CN111368552A publication Critical patent/CN111368552A/zh
Application granted granted Critical
Publication of CN111368552B publication Critical patent/CN111368552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/185Arrangements for providing special services to substations for broadcast or conference, e.g. multicast with management of multicast group membership
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种面向特定领域的网络用户群组划分方法及装置,其中,该方法包括:从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息;根据帐号集合所对应的目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号对应的帐号序列,其中,帐号序列包括以每个帐号为起始帐号的多个帐号;根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二特征向量;根据第二特征向量将帐号集合中所包括的帐号划分为多个网络用户群组。本申请解决了对网络用户群组进行划分时准确率较低的技术问题。

Description

一种面向特定领域的网络用户群组划分方法及装置
技术领域
本申请涉及计算机领域,尤其涉及一种面向特定领域的网络用户 群组划分方法及装置。
背景技术
随着互联网的发展,面向特定领域的网络用户群组发现旨在从多 来源海量网络文本及关联网络数据中发现潜在相关面向特定领域的网 络用户群组,在商业智能、网络信息监管领域具有重要应用价值。现 有方法主要包括三大类:基于深度学习的方法,基于矩阵分解的方法 以及基于概率模型的方法。但是,现有方法发现的群体针对性不强, 准确性较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申 请提供了一种面向特定领域的网络用户群组划分方法及装置。
根据本申请实施例的一个方面,提供了一种面向特定领域的网络 用户群组的划分方法,包括:
从采集到的网络文本数据中提取一个或者多个领域对应的语义线 索信息;
根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐 号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐 号序列,其中,所述帐号序列包括以所述每个帐号为起始帐号的多个 帐号;
根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应 的第二特征向量;
根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多 个面向特定领域的网络用户群组。
可选地,从采集到的所述网络文本数据中提取所述一个或者多个 领域对应的语义线索信息包括:
从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语 句;
获取所述一个或者多个领域的初始线索矩阵,其中,所述初始线 索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵;
根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词 向量确定所述每个词对应的权重;
将所述每个词的词向量的加权和确定为所述网络文本语句对应的 嵌入语句;
通过所述初始线索矩阵对所述嵌入语句进行重构,得到重构语句;
使用所述网络文本语句对所述初始线索矩阵进行训练,直至所述 嵌入语句与所述重构语句之间的相似度高于目标相似度,得到目标线 索矩阵,其中,所述目标线索矩阵为所述一个或者多个领域的目标线 索的特征向量的矩阵。
可选地,根据所述初始线索矩阵以及所述网络文本语句中每个词 对应的词向量确定所述每个词对应的权重包括:
将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线 索的特征向量进行双线性变换计算,得到所述每个词属于所述每个初 始线索的概率;
将所述每个词属于所述每个初始线索的概率中的最大值确定为所 述每个词对应的初始权重;
对所述初始权重进行归一化处理得到所述每个词对应的权重。
可选地,通过以下公式确定所述每个词对应的初始权重di
Figure BDA0002392968570000031
其中,P1,P2,……,Pk为所述每个初始线索的特征向量,
Figure BDA0002392968570000032
为所 述每个词对应的词向量,Ws为进行双线性变换时引入的相似性矩阵;
通过以下公式确定所述每个词对应的权重wi
Figure BDA0002392968570000033
可选地,根据帐号集合所对应的目标领域的目标语义线索信息以 及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号 对应的帐号序列包括:
从所述目标线索矩阵中获取所述目标领域的线索矩阵;
从所述帐号集合对应的关系网络图中获取所述帐号集合中帐号之 间的关联关系,其中,所述关系网络图以所述帐号集合中的帐号为节 点,以所述帐号集合中的帐号之间的关联关系为边;
获取目标序列长度,其中,所述目标序列长度用于指示所述帐号 序列中的帐号数量;
以所述每个帐号为起始的当前节点,按照节点采样概率从所述当 前节点的邻接节点中选取下一个当前节点,直至选取出所述帐号数量 的节点,得到所述帐号序列,其中,所述节点采样概率是根据所述邻 接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似度以 及所述当前节点与所述邻接节点之间的关联关系确定的。
可选地,以所述每个帐号为起始的当前节点,按照节点采样概率 从所述当前节点的邻接节点中选取下一个当前节点,直至选取出所述 帐号数量的节点,得到所述帐号序列包括:
通过以下公式确定基于线索的节点采样概率:
Figure BDA0002392968570000041
δa(w)=1 if w∈seta else 0
其中,帐号u为所述当前节点
Figure BDA0002392968570000042
帐号x为所述下一个当前节点
Figure BDA0002392968570000043
Ha为所述目标领域的线索矩阵,seta为所述目标领域的线索矩阵 对应的线索词集合,M为帐号x的文本数据的词集合;
通过以下公式确定基于关联关系的节点采样概率:
Figure BDA0002392968570000044
其中,θux为帐号u与帐号x之间未规范化的转移概率,Z为规范 化常数,E为所述关系网络图的边集合;
将所述基于线索的节点采样概率与所述基于关联关系的节点采样 概率的加权和确定为所述节点采样概率,其中,所述基于线索的节点 采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重 之和为1;
按照所述节点采样概率以所述每个帐号为起始的当前节点vi,在所 述关系网络图中游走,生成所述目标序列长度l的节点序列
Figure BDA0002392968570000045
其中,
Figure BDA0002392968570000046
表示起始节点vi
Figure BDA0002392968570000047
表示从节点
Figure BDA0002392968570000048
的 邻接节点中随机选中的节点;
将所述节点序列确定为所述帐号序列。
根据本申请实施例的另一方面,还提供了一种面向特定领域的网 络用户群组的划分装置,包括:
提取模块,用于从采集到的网络文本数据中提取一个或者多个领 域对应的语义线索信息;
确定模块,用于根据帐号集合所对应的目标领域的目标语义线索 信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每 个帐号对应的帐号序列,其中,所述帐号序列包括以所述每个帐号为 起始帐号的多个帐号;
生成模块,用于根据所述帐号序列中帐号的第一特征向量生成所 述每个帐号对应的第二特征向量;
划分模块,用于根据所述第二特征向量将所述帐号集合中所包括 的帐号划分为多个面向特定领域的网络用户群组。
可选地,所述提取模块包括:
采集单元,用于从所述帐号集合中的帐号发送的网络信息中采集 所述网络文本语句;
第一获取单元,用于获取所述一个或者多个领域的初始线索矩阵, 其中,所述初始线索矩阵为所述一个或者多个领域的初始线索的特征 向量的矩阵;
第一确定单元,用于根据所述初始线索矩阵以及所述网络文本语 句中每个词对应的词向量确定所述每个词对应的权重;
第二确定单元,用于将所述每个词的词向量的加权和确定为所述 网络文本语句对应的嵌入语句;
重构单元,用于通过所述初始线索矩阵对所述嵌入语句进行重构, 得到重构语句;
训练单元,用于使用所述网络文本语句对所述初始线索矩阵进行 训练,直至所述嵌入语句与所述重构语句之间的相似度高于目标相似 度,得到目标线索矩阵,其中,所述目标线索矩阵为所述一个或者多 个领域的目标线索的特征向量的矩阵。
可选地,第一确定单元用于:
将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线 索的特征向量进行双线性变换计算,得到所述每个词属于所述每个初 始线索的概率;
将所述每个词属于所述每个初始线索的概率中的最大值确定为所 述每个词对应的初始权重;
对所述初始权重进行归一化处理得到所述每个词对应的权重。
可选地,第一确定单元用于:
通过以下公式确定所述每个词对应的初始权重di
Figure BDA0002392968570000061
其中,P1,P2,……,Pk为所述每个初始线索的特征向量,
Figure BDA0002392968570000062
为所 述每个词对应的词向量,Ws为进行双线性变换时引入的相似性矩阵;
通过以下公式确定所述每个词对应的权重wi
Figure BDA0002392968570000063
可选地,所述确定模块包括:
第二获取单元,用于从所述目标线索矩阵中获取所述目标领域的 线索矩阵;
第三获取单元,用于从所述帐号集合对应的关系网络图中获取所 述帐号集合中帐号之间的关联关系,其中,所述关系网络图以所述帐 号集合中的帐号为节点,以所述帐号集合中的帐号之间的关联关系为 边;
第四获取单元,用于获取目标序列长度,其中,所述目标序列长 度用于指示所述帐号序列中的帐号数量;
选取单元,用于以所述每个帐号为起始的当前节点,按照节点采 样概率从所述当前节点的邻接节点中选取下一个当前节点,直至选取 出所述帐号数量的节点,得到所述帐号序列,其中,所述节点采样概 率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵 之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定 的。
可选地,所述选取单元用于:
通过以下公式确定基于线索的节点采样概率:
Figure BDA0002392968570000071
δa(w)=1 if w∈seta else 0
其中,帐号u为所述当前节点
Figure BDA0002392968570000072
帐号x为所述下一个当前节点
Figure BDA0002392968570000073
Ha为所述目标领域的线索矩阵,seta为所述目标领域的线索矩阵 对应的线索词集合,M为帐号x的文本数据的词集合;
通过以下公式确定基于关联关系的节点采样概率:
Figure BDA0002392968570000074
其中,θux为帐号u与帐号x之间未规范化的转移概率,Z为规范 化常数,E为所述关系网络图的边集合;
将所述基于线索的节点采样概率与所述基于关联关系的节点采样 概率的加权和确定为所述节点采样概率,其中,所述基于线索的节点 采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重 之和为1;
按照所述节点采样概率以所述每个帐号为起始的当前节点vi,在所 述关系网络图中游走,生成所述目标序列长度l的节点序列
Figure BDA0002392968570000081
其中,
Figure BDA0002392968570000082
表示起始节点vi
Figure BDA0002392968570000083
表示从节点
Figure BDA0002392968570000084
的 邻接节点中随机选中的节点;
将所述节点序列确定为所述帐号序列。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储 介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存 储器、处理器及存储在存储器上并可在处理器上运行的计算机程序, 处理器通过计算机程序执行上述的方法。
在本申请实施例中,采用从采集到的网络文本数据中提取一个或 者多个领域对应的语义线索信息;根据帐号集合所对应的目标领域的 目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合 中每个帐号对应的帐号序列,其中,帐号序列包括以每个帐号为起始 帐号的多个帐号;根据帐号序列中帐号的第一特征向量生成每个帐号 对应的第二特征向量;根据第二特征向量将帐号集合中所包括的帐号 划分为多个面向特定领域的网络用户群组的方式,有机集成线索的语 义内容和帐号的关联关系,提升面向领域的网络用户群组发现的准确 性及针对性,从而实现了提高对网络用户群组进行划分时准确率的技 术效果,进而解决了对网络用户群组进行划分时准确率较低的技术问 题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的面向特定领域的网络用户群组的划分 方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的面向特定领域的网络用户 群组的划分方法的流程图;
图3是根据本申请可选实施例的一种可选的面向特定领域的网络 用户群组的划分方法的流程图;
图4是根据本申请实施例的一种可选的面向特定领域的网络用户 群组的划分装置的示意图;
图5是根据本申请实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不 是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没 有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申 请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术 语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定 的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换, 以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些 以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变 形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的 过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单 元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设 备固有的其它步骤或单元。
根据本申请实施例的一方面,提供了一种面向特定领域的网络用 户群组的划分的方法实施例。
可选地,在本实施例中,上述面向特定领域的网络用户群组的划 分方法可以应用于如图1所示的由终端101和服务器103所构成的硬 件环境中。如图1所示,服务器103通过网络与终端101进行连接, 可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服 务等),可在服务器上或独立于服务器设置数据库,用于为服务器103 提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域 网,终端101并不限定于PC、手机、平板电脑等。本申请实施例的面 向特定领域的网络用户群组的划分方法可以由服务器103来执行,也 可以由终端101来执行,还可以是由服务器103和终端101共同执行。 其中,终端101执行本申请实施例的面向特定领域的网络用户群组的 划分方法也可以是由安装在其上的客户端来执行。
图2是根据本申请实施例的一种可选的面向特定领域的网络用户 群组的划分方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,从采集到的网络文本数据中提取一个或者多个领域对 应的语义线索信息;
步骤S204,根据帐号集合所对应的目标领域的目标语义线索信息 以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐 号对应的帐号序列,其中,所述帐号序列包括以所述每个帐号为起始 帐号的多个帐号;
步骤S206,根据所述帐号序列中帐号的第一特征向量生成所述每 个帐号对应的第二特征向量;
步骤S208,根据所述第二特征向量将所述帐号集合中所包括的帐 号划分为多个面向特定领域的网络用户群组。
通过上述步骤S202至步骤S208,采用从采集到的网络文本数据中 提取一个或者多个领域对应的语义线索信息;根据帐号集合所对应的 目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确 定帐号集合中每个帐号对应的帐号序列,其中,帐号序列包括以每个 帐号为起始帐号的多个帐号;根据帐号序列中帐号的第一特征向量生 成每个帐号对应的第二特征向量;根据第二特征向量将帐号集合中所 包括的帐号划分为多个面向特定领域的网络用户群组的方式,有机集 成线索的语义内容和帐号的关联关系,提升面向领域的网络用户群组 发现的准确性及针对性,从而实现了提高对网络用户群组进行划分时 准确率的技术效果,进而解决了对网络用户群组进行划分时准确率较 低的技术问题。
在步骤S206提供的技术方案中,在得到帐号序列后,采用 skip-gram模型,就可以获得每个帐号对应的第二特征向量。
在步骤S208提供的技术方案中,基于生成的每个帐号对应的第二 特征向量,可以采用聚类算法将帐号节点划分到不同的群体。
可选地,在本实施例中,领域可以但不限于按照主题划分为体育、 娱乐、文化、财经、科技等等,按照技术划分为:医学、互联网、机 械、电路、计算机等等。一个或者多个领域可以预先进行设定。目标 领域是需要进行网路用户群组划分的领域,目标领域的数量可以是一 个或者多个。
可选地,在本实施例中,网络文本数据可以但不限于是帐号的网 络操作所形成的文本数据,比如:博客中发布的文章、即时通信应用 中发送的信息、网页中发表的评论等等。
可选地,在本实施例中,帐号之间的关联关系可以但不限于包括: 帐号之间的关注的关系、好友关系、评论点赞的关系、从属关系等等。
作为一种可选的实施例,从采集到的所述网络文本数据中提取所 述一个或者多个领域对应的语义线索信息包括:
S1,从所述帐号集合中的帐号发送的网络信息中采集所述网络文 本语句;
S2,获取所述一个或者多个领域的初始线索矩阵,其中,所述初 始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵;
S3,根据所述初始线索矩阵以及所述网络文本语句中每个词对应 的词向量确定所述每个词对应的权重;
S4,将所述每个词的词向量的加权和确定为所述网络文本语句对 应的嵌入语句;
S5,通过所述初始线索矩阵对所述嵌入语句进行重构,得到重构 语句;
S6,使用所述网络文本语句对所述初始线索矩阵进行训练,直至 所述嵌入语句与所述重构语句之间的相似度高于目标相似度,得到目 标线索矩阵,其中,所述目标线索矩阵为所述一个或者多个领域的目 标线索的特征向量的矩阵。
可选地,在本实施例中,网络文本具有随意性、隐蔽性特点,通 常包含特定用词和交流习惯,且不同领域间差别较大;讨论量少的目 标线索的主题常被讨论量多的其他主题信息覆盖,识别难度大。通过 领域知识驱动的线索语义分析过程,在领域先验知识(相当于上述初 始线索矩阵)的驱动下可进行句子自编码,学习得到各领域的深度语 义表示,进而通过计算词语与各线索的语义相似性,最终确定特定领 域下各个线索的关键词。
可选地,在本实施例中,可以但不限于通过以下方式进行句子嵌 入和重构,用于得到线索的深度语义表示矩阵H∈Rk*n(即上述目标线 索矩阵),k为线索数,n为向量的维度。首先,通过确定每个词对应 的权重,可构建基于领域知识的句子表示cs。句子表示cs为其包含的所 有词的词向量的加权求和,构造过程如下所示:
Figure BDA0002392968570000131
接下来对句子进行重构,首先计算句子的线索分布qs∈Rk,qs代 表了句子属于各个线索的概率大小,计算方式如下式所示:
qs=softmax(A*cs)+b
其中,A∈Rk*nb∈Rk为待学习的参数。
进一步,重构的句子嵌入ds,即将线索矩阵H中的线索嵌入按照 如下公式做线性加权:
ds=qs*H
训练目标是降低重构句子嵌入时的损失,即让重构的句子嵌入ds和用注意力机制构造的句子嵌入cs尽量相似。采用contrastive max-margin objective function作为损失函数。对每个输入句子,从 训练集中随机抽取e个句子作为负样本,用这些句子的词向量的算术 平均代表每个负样本mi。损失函数L定义如下:
Figure BDA0002392968570000141
其中,Y代表训练语料集合(即上述网络文本语句)。
作为一种可选的实施例,根据所述初始线索矩阵以及所述网络文 本语句中每个词对应的词向量确定所述每个词对应的权重包括:
S1,将所述每个词对应的词向量与所述初始线索矩阵中的每个初 始线索的特征向量进行双线性变换计算,得到所述每个词属于所述每 个初始线索的概率;
S2,将所述每个词属于所述每个初始线索的概率中的最大值确定 为所述每个词对应的初始权重;
S3,对所述初始权重进行归一化处理得到所述每个词对应的权重。
可选地,在本实施例中,首先确定各个领域每个线索的若干种子 词,建立领域背景知识的矩阵P(即初始线索矩阵),P中的每行元素Pj为第j个线索的所有种子词的词向量表示的平均值。句子中的每个单 词的注意力权重(即上述每个词对应的权重)计算过程如下,对句子 中的第i个单词si,通过其词向量表示vsi和每一个线索背景知识表示 Pj进行双线性变换计算,从而得到其属于每一个线索的概率,最后取最 大值di作为该词的初始权重。得到每一个单词的初始权重之后,通过 softmax函数进行归一化操作就得到了每一个词最终的权重wi
可选地,可以但不限于通过以下公式确定所述每个词对应的初始 权重di
Figure BDA0002392968570000151
其中,P1,P2,……,Pk为所述每个初始线索的特征向量,
Figure BDA0002392968570000152
为所 述每个词对应的词向量,Ws为进行双线性变换时引入的相似性矩阵;
可以但不限于通过以下公式确定所述每个词对应的权重wi
Figure BDA0002392968570000153
可选地,在本实施例中,Ws是进行双线性变换时引入的相似性矩 阵,会在优化过程中作为参数进行学习。
作为一种可选的实施例,根据帐号集合所对应的目标领域的目标 语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号 集合中每个帐号对应的帐号序列包括:
S1,从所述目标线索矩阵中获取所述目标领域的线索矩阵;
S2,从所述帐号集合对应的关系网络图中获取所述帐号集合中帐 号之间的关联关系,其中,所述关系网络图以所述帐号集合中的帐号 为节点,以所述帐号集合中的帐号之间的关联关系为边;
S3,获取目标序列长度,其中,所述目标序列长度用于指示所述 帐号序列中的帐号数量;
S4,以所述每个帐号为起始的当前节点,按照节点采样概率从所 述当前节点的邻接节点中选取下一个当前节点,直至选取出所述帐号 数量的节点,得到所述帐号序列,其中,所述节点采样概率是根据所 述邻接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似 度以及所述当前节点与所述邻接节点之间的关联关系确定的。
可选地,在本实施例中,对于一个关联网络图G,其边集合为E, 将游走序列的起点节点vi以及最大游走长度l作为输入,生成的节点 序列为
Figure BDA0002392968570000161
其中,
Figure BDA0002392968570000162
表示起始节点vi
Figure BDA0002392968570000163
表示从节 点
Figure BDA0002392968570000164
的邻接节点集中随机选中的节点,其产生的概率为:
Figure BDA0002392968570000165
其中,content为关联网络图中帐号节点发帖内容中挖掘出的线索 语义信息,Pcontent为基于线索的节点采样概率,Pstruct为基于关联关系的 节点采样概率,β为基于线索的节点采样概率和基于关联关系的节点 采样概率的权衡因子。
可选地,在本实施例中,可以但不限于通过以下方式得到帐号序 列包括:
S1,通过以下公式确定基于线索的节点采样概率:
Figure BDA0002392968570000166
δa(w)=1 if w∈seta else 0
其中,帐号u为所述当前节点
Figure BDA0002392968570000167
帐号x为所述下一个当前节点
Figure BDA0002392968570000168
Ha为所述目标领域的线索矩阵,seta为所述目标领域的线索矩阵 对应的线索词集合,M为帐号x的文本数据的词集合;
S2,通过以下公式确定基于关联关系的节点采样概率:
Figure BDA0002392968570000169
其中,θux为帐号u与帐号x之间未规范化的转移概率,Z为规范 化常数,E为所述关系网络图的边集合;
S3,将所述基于线索的节点采样概率与所述基于关联关系的节点 采样概率的加权和确定为所述节点采样概率,其中,所述基于线索的 节点采样概率对应的权重与所述基于关联关系的节点采样概率对应的 权重之和为1;
S4,按照所述节点采样概率以所述每个帐号为起始的当前节点vi, 在所述关系网络图中游走,生成所述目标序列长度l的节点序列
Figure BDA0002392968570000171
其中,
Figure BDA0002392968570000172
表示起始节点vi
Figure BDA0002392968570000173
表示从节点
Figure BDA0002392968570000174
的 邻接节点中随机选中的节点;
S5,将所述节点序列确定为所述帐号序列。
可选地,在本实施例中,挖掘出的线索分布矩阵,对于特定领域a, 会得到其深度语义向量表示Ha以及对应的线索词集合seta。计算从当前 帐号u到下一个帐号x的基于线索的节点采样概率时,对于帐号x发 帖的每一个词si,计算其词向量
Figure BDA0002392968570000175
跟线索向量之间的余弦相似度,并 且如果该词在目前线索词集合中,给予更高的权重,最后进行归一化 得到基于线索的节点采样概率。
可选地,在本实施例中,在确定基于关联关系的节点采样概率的 过程中,二阶随机游走过程包括两个系数,p、q,考虑一个随机游走 过程,已经检索完一条边(t,u),游走的起点变为当前节点u。设定θux为θux=τpq(t,x)*wux,其中,wux为边(u,x)的静态权重,且
Figure BDA0002392968570000176
其中,dtx为从节点t到节点x之间的最短路径距离,dtx∈{0,1,2}; 参数p、q分别控制每一步游走过程中停留、离开当前节点u的直接邻 居节点的速度。
本申请还提供了一种可选实施例,该可选实施例提出了基于领域 知识的语义线索驱动的受限随机游走面向特定领域的网络用户群组的 划分方法,图3是根据本申请可选实施例的一种可选的网络用户群组 的划分方法的流程图,如图3所示,该流程包括以下步骤:
步骤S302,采集网络文本数据并对其进行预处理,比如:帐号的 发帖、评论、文章等文本,将其统一转换为特定的格式。
步骤S304,利用网络文本数据进行领域知识驱动的线索语义分析。 通过线索词注意力权重计算以及句子嵌入和重构等过程训练初始线索 矩阵以及其他参数,得到目标线索矩阵。
步骤S306,基于领域知识的线索语义以及基于关联关系驱的受限 随机游走过程,得到节点序列。基于发现的领域相关的线索,为了识 别领域相关的网络用户群组,在网络关联图上进行线索受限随机游走, 游走过程中同时以领域知识的线索语义以及帐号之间的关联关系来依 据确定节点采样概率,选取出节点序列。在随机游走过程中,会考虑 到帐号发帖内容与领域的线索之间的语义相关性,以及帐号之间的关 联关系。
步骤S308,根据得到的节点序列进行网络用户群组的划分。得到 节点序列后,进行帐号向量表示的学习,从而将网络关联图映射到低 维向量空间中,在该空间中,联系越紧密的帐号之间的距离越近。通 过聚类算法发现网络用户群组。
通过上述过程,可以实现面向特定领域的网络用户群组的发现, 可充分考虑领域特性,自动挖掘出领域相关的线索,并以线索为驱动, 捕获领域相关的网络用户群组,可广泛适用于商业、网络安全等场景。 通过领域知识驱动的句子自编码过程,学习各领域的深度语义表示, 实现各个领域的线索发现,解决了讨论量少的线索难以被准确识别的 技术挑战。通过线索受限随机游走过程,有机集成线索的语义内容和帐 号的关联关系,提升面向领域的网络用户群组发现的准确性及针对性。 具有有机融合领域特性、发现群体更准确、针对性更强等优点。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将 其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申 请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以 采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说 明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不 一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来 实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。 基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡 献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在 一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得 一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执 行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述网 络用户群组的划分方法的网络用户群组的划分装置。图4是根据本申 请实施例的一种可选的网络用户群组的划分装置的示意图,如图4所 示,该装置可以包括:
提取模块42,用于从采集到的网络文本数据中提取一个或者多个 领域对应的语义线索信息;
确定模块44,用于根据帐号集合所对应的目标领域的目标语义线 索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中 每个帐号对应的帐号序列,其中,所述帐号序列包括以所述每个帐号 为起始帐号的多个帐号;
生成模块46,用于根据所述帐号序列中帐号的第一特征向量生成 所述每个帐号对应的第二特征向量;
划分模块48,用于根据所述第二特征向量将所述帐号集合中所包 括的帐号划分为多个网络用户群组。
需要说明的是,该实施例中的提取模块42可以用于执行本申请实 施例中的步骤S202,该实施例中的确定模块44可以用于执行本申请实 施例中的步骤S204,该实施例中的生成模块46可以用于执行本申请实 施例中的步骤S206,该实施例中的划分模块48可以用于执行本申请实 施例中的步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用 场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述 模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通 过软件实现,也可以通过硬件实现。
通过上述模块,有机集成线索的语义内容和帐号的关联关系,提 升面向领域的网络用户群组发现的准确性及针对性,从而实现了提高 对网络用户群组进行划分时准确率的技术效果,进而解决了对网络用 户群组进行划分时准确率较低的技术问题。
作为一种可选的实施例,所述提取模块包括:
采集单元,用于从所述帐号集合中的帐号发送的网络信息中采集 所述网络文本语句;
第一获取单元,用于获取所述一个或者多个领域的初始线索矩阵, 其中,所述初始线索矩阵为所述一个或者多个领域的初始线索的特征 向量的矩阵;
第一确定单元,用于根据所述初始线索矩阵以及所述网络文本语 句中每个词对应的词向量确定所述每个词对应的权重;
第二确定单元,用于将所述每个词的词向量的加权和确定为所述 网络文本语句对应的嵌入语句;
重构单元,用于通过所述初始线索矩阵对所述嵌入语句进行重构, 得到重构语句;
训练单元,用于使用所述网络文本语句对所述初始线索矩阵进行 训练,直至所述嵌入语句与所述重构语句之间的相似度高于目标相似 度,得到目标线索矩阵,其中,所述目标线索矩阵为所述一个或者多 个领域的目标线索的特征向量的矩阵。
作为一种可选的实施例,第一确定单元用于:
将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线 索的特征向量进行双线性变换计算,得到所述每个词属于所述每个初 始线索的概率;
将所述每个词属于所述每个初始线索的概率中的最大值确定为所 述每个词对应的初始权重;
对所述初始权重进行归一化处理得到所述每个词对应的权重。
作为一种可选的实施例,第一确定单元用于:
通过以下公式确定所述每个词对应的初始权重di
Figure BDA0002392968570000211
其中,P1,P2,……,Pk为所述每个初始线索的特征向量,
Figure BDA0002392968570000212
为所 述每个词对应的词向量,Ws为进行双线性变换时引入的相似性矩阵;
通过以下公式确定所述每个词对应的权重wi
Figure BDA0002392968570000213
作为一种可选的实施例,所述确定模块包括:
第二获取单元,用于从所述目标线索矩阵中获取所述目标领域的 线索矩阵;
第三获取单元,用于从所述帐号集合对应的关系网络图中获取所 述帐号集合中帐号之间的关联关系,其中,所述关系网络图以所述帐 号集合中的帐号为节点,以所述帐号集合中的帐号之间的关联关系为 边;
第四获取单元,用于获取目标序列长度,其中,所述目标序列长 度用于指示所述帐号序列中的帐号数量;
选取单元,用于以所述每个帐号为起始的当前节点,按照节点采 样概率从所述当前节点的邻接节点中选取下一个当前节点,直至选取 出所述帐号数量的节点,得到所述帐号序列,其中,所述节点采样概 率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵 之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定 的。
作为一种可选的实施例,所述选取单元用于:
通过以下公式确定基于线索的节点采样概率:
Figure BDA0002392968570000221
δa(w)=1 if w∈seta else 0
其中,帐号u为所述当前节点
Figure BDA0002392968570000222
帐号x为所述下一个当前节点
Figure BDA0002392968570000223
Ha为所述目标领域的线索矩阵,seta为所述目标领域的线索矩阵 对应的线索词集合,M为帐号x的文本数据的词集合;
通过以下公式确定基于关联关系的节点采样概率:
Figure BDA0002392968570000224
其中,θux为帐号u与帐号x之间未规范化的转移概率,Z为规范 化常数,E为所述关系网络图的边集合;
将所述基于线索的节点采样概率与所述基于关联关系的节点采样 概率的加权和确定为所述节点采样概率,其中,所述基于线索的节点 采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重 之和为1;
按照所述节点采样概率以所述每个帐号为起始的当前节点vi,在所 述关系网络图中游走,生成所述目标序列长度l的节点序列
Figure BDA0002392968570000231
其中,
Figure BDA0002392968570000232
表示起始节点vi
Figure BDA0002392968570000233
表示从节点
Figure BDA0002392968570000234
的 邻接节点中随机选中的节点;
将所述节点序列确定为所述帐号序列。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用 场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述 模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通 过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述网 络用户群组的划分方法的服务器或终端。
图5是根据本申请实施例的一种终端的结构框图,如图5所示, 该终端可以包括:一个或多个(图中仅示出一个)处理器501、存储器 503、以及传输装置505,如图5所示,该终端还可以包括输入输出设 备507。
其中,存储器503可用于存储软件程序以及模块,如本申请实施 例中的网络用户群组的划分方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种 功能应用以及数据处理,即实现上述的网络用户群组的划分方法。存 储器503可包括高速随机存储器,还可以包括非易失性存储器,如一 个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在 一些实例中,存储器503可进一步包括相对于处理器501远程设置的 存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例 包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置505用于经由一个网络接收或者发送数据,还可 以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括 有线网络及无线网络。在一个实例中,传输装置505包括一个网络适 配器(Network Interface Controller,NIC),其可通过网线与其他 网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实 例中,传输装置505为射频(Radio Frequency,RF)模块,其用于通 过无线方式与互联网进行通讯。
其中,具体地,存储器503用于存储应用程序。
处理器501可以通过传输装置505调用存储器503存储的应用程 序,以执行下述步骤:
S1,从采集到的网络文本数据中提取一个或者多个领域对应的语 义线索信息;
S2,根据帐号集合所对应的目标领域的目标语义线索信息以及所 述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应 的帐号序列,其中,所述帐号序列包括以所述每个帐号为起始帐号的 多个帐号;
S3,根据所述帐号序列中帐号的第一特征向量生成所述每个帐号 对应的第二特征向量;
S4,根据所述第二特征向量将所述帐号集合中所包括的帐号划分 为多个网络用户群组。
采用本申请实施例,提供了一种面向特定领域的网络用户群组的 划分的方案。采用从采集到的网络文本数据中提取一个或者多个领域 对应的语义线索信息;根据帐号集合所对应的目标领域的目标语义线 索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号 对应的帐号序列,其中,帐号序列包括以每个帐号为起始帐号的多个 帐号;根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二 特征向量;根据第二特征向量将帐号集合中所包括的帐号划分为多个 面向特定领域的网络用户群组的方式,有机集成线索的语义内容和帐 号的关联关系,提升面向领域的网络用户群组发现的准确性及针对性, 从而实现了提高对网络用户群组进行划分时准确率的技术效果,进而 解决了对网络用户群组进行划分时准确率较低的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的 示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,终端 可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电 脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终 端设备。图5其并不对上述电子装置的结构造成限定。例如,终端还 可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等), 或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或 部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序 可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、 只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中, 上述存储介质可以用于执行面向特定领域的网络用户群组的划分方法 的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示 的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步 骤的程序代码:
S1,从采集到的网络文本数据中提取一个或者多个领域对应的语 义线索信息;
S2,根据帐号集合所对应的目标领域的目标语义线索信息以及所 述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应 的帐号序列,其中,所述帐号序列包括以所述每个帐号为起始帐号的 多个帐号;
S3,根据所述帐号序列中帐号的第一特征向量生成所述每个帐号 对应的第二特征向量;
S4,根据所述第二特征向量将所述帐号集合中所包括的帐号划分 为多个面向特定领域的网络用户群组。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的 示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、 只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码 的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作 为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介 质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术 做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式 体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以 使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备 等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某 个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端, 可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意 性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时 可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成 到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口, 单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开 的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位 于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需 要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理 单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单 元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现, 也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出 若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种面向特定领域的网络用户群组的划分方法,其特征在于,包括:
从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息;
根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列,其中,所述帐号序列包括以所述每个帐号为起始帐号的多个帐号;
根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量;
根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。
2.根据权利要求1所述的方法,其特征在于,从采集到的所述网络文本数据中提取所述一个或者多个领域对应的语义线索信息包括:
从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语句;
获取所述一个或者多个领域的初始线索矩阵,其中,所述初始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵;
根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重;
将所述每个词的词向量的加权和确定为所述网络文本语句对应的嵌入语句;
通过所述初始线索矩阵对所述嵌入语句进行重构,得到重构语句;
使用所述网络文本语句对所述初始线索矩阵进行训练,直至所述嵌入语句与所述重构语句之间的相似度高于目标相似度,得到目标线索矩阵,其中,所述目标线索矩阵为所述一个或者多个领域的目标线索的特征向量的矩阵。
3.根据权利要求2所述的方法,其特征在于,根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重包括:
将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线索的特征向量进行双线性变换计算,得到所述每个词属于所述每个初始线索的概率;
将所述每个词属于所述每个初始线索的概率中的最大值确定为所述每个词对应的初始权重;
对所述初始权重进行归一化处理得到所述每个词对应的权重。
4.根据权利要求3所述的方法,其特征在于,
通过以下公式确定所述每个词对应的初始权重di
Figure FDA0002392968560000021
其中,P1,P2,……,Pk为所述每个初始线索的特征向量,
Figure FDA0002392968560000022
为所述每个词对应的词向量,Ws为进行双线性变换时引入的相似性矩阵;
通过以下公式确定所述每个词对应的权重wi
Figure FDA0002392968560000023
5.根据权利要求2所述的方法,其特征在于,根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列包括:
从所述目标线索矩阵中获取所述目标领域的线索矩阵;
从所述帐号集合对应的关系网络图中获取所述帐号集合中帐号之间的关联关系,其中,所述关系网络图以所述帐号集合中的帐号为节点,以所述帐号集合中的帐号之间的关联关系为边;
获取目标序列长度,其中,所述目标序列长度用于指示所述帐号序列中的帐号数量;
以所述每个帐号为起始的当前节点,按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点,直至选取出所述帐号数量的节点,得到所述帐号序列,其中,所述节点采样概率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定的。
6.根据权利要求5所述的方法,其特征在于,以所述每个帐号为起始的当前节点,按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点,直至选取出所述帐号数量的节点,得到所述帐号序列包括:
通过以下公式确定基于线索的节点采样概率:
Figure FDA0002392968560000031
其中,帐号u为所述当前节点
Figure FDA0002392968560000032
帐号x为所述下一个当前节点
Figure FDA0002392968560000033
Ha为所述目标领域的线索矩阵,seta为所述目标领域的线索矩阵对应的线索词集合,M为帐号x的文本数据的词集合;
通过以下公式确定基于关联关系的节点采样概率:
Figure FDA0002392968560000041
其中,θux为帐号u与帐号x之间未规范化的转移概率,Z为规范化常数,E为所述关系网络图的边集合;
将所述基于线索的节点采样概率与所述基于关联关系的节点采样概率的加权和确定为所述节点采样概率,其中,所述基于线索的节点采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重之和为1;
按照所述节点采样概率以所述每个帐号为起始的当前节点vi,在所述关系网络图中游走,生成所述目标序列长度l的节点序列
Figure FDA0002392968560000042
其中,
Figure FDA0002392968560000043
表示起始节点vi
Figure FDA0002392968560000044
表示从节点
Figure FDA0002392968560000045
的邻接节点中随机选中的节点;
将所述节点序列确定为所述帐号序列。
7.一种面向特定领域的网络用户群组的划分装置,其特征在于,包括:
提取模块,用于从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息;
确定模块,用于根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列,其中,所述帐号序列包括以所述每个帐号为起始帐号的多个帐号;
生成模块,用于根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量;
划分模块,用于根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。
8.根据权利要求7所述的装置,其特征在于,所述提取模块包括:
采集单元,用于从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语句;
第一获取单元,用于获取所述一个或者多个领域的初始线索矩阵,其中,所述初始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵;
第一确定单元,用于根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重;
第二确定单元,用于将所述每个词的词向量的加权和确定为所述网络文本语句对应的嵌入语句;
重构单元,用于通过所述初始线索矩阵对所述嵌入语句进行重构,得到重构语句;
训练单元,用于使用所述网络文本语句对所述初始线索矩阵进行训练,直至所述嵌入语句与所述重构语句之间的相似度高于目标相似度,得到目标线索矩阵,其中,所述目标线索矩阵为所述一个或者多个领域的目标线索的特征向量的矩阵。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。
CN202010120988.0A 2020-02-26 2020-02-26 一种面向特定领域的网络用户群组划分方法及装置 Active CN111368552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010120988.0A CN111368552B (zh) 2020-02-26 2020-02-26 一种面向特定领域的网络用户群组划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010120988.0A CN111368552B (zh) 2020-02-26 2020-02-26 一种面向特定领域的网络用户群组划分方法及装置

Publications (2)

Publication Number Publication Date
CN111368552A true CN111368552A (zh) 2020-07-03
CN111368552B CN111368552B (zh) 2023-09-26

Family

ID=71210080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010120988.0A Active CN111368552B (zh) 2020-02-26 2020-02-26 一种面向特定领域的网络用户群组划分方法及装置

Country Status (1)

Country Link
CN (1) CN111368552B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111134A (zh) * 2021-04-21 2021-07-13 山东省人工智能研究院 一种基于自编码和注意力机制的异构图节点特征嵌入方法
CN113157865A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质

Citations (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及***
US20140244631A1 (en) * 2012-02-17 2014-08-28 Digitalsmiths Corporation Identifying Multimedia Asset Similarity Using Blended Semantic and Latent Feature Analysis
CN105849764A (zh) * 2013-10-25 2016-08-10 西斯摩斯公司 用于识别社交数据网络中的影响者及其社区的***和方法
CN105874753A (zh) * 2013-11-05 2016-08-17 西斯摩斯公司 用于社交数据网络用户行为细分的***和方法
CN106156256A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种用户信息分类透传方法及***
CN106959971A (zh) * 2016-01-12 2017-07-18 阿里巴巴集团控股有限公司 用户行为数据的处理方法及装置
CN107666506A (zh) * 2017-07-24 2018-02-06 上海壹账通金融科技有限公司 推送结果预测方法、装置、计算机设备和存储介质
CN107944063A (zh) * 2018-01-16 2018-04-20 马上消费金融股份有限公司 一种基于主题模型与用户群组的新闻推荐方法及***
CN108289029A (zh) * 2017-01-09 2018-07-17 北京嘀嘀无限科技发展有限公司 通信群组建立方法及装置
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN108462615A (zh) * 2018-02-05 2018-08-28 百川通联(北京)网络技术有限公司 一种网络用户分组方法和装置
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN110032678A (zh) * 2019-04-08 2019-07-19 腾讯科技(深圳)有限公司 业务资源推送方法和装置、存储介质和电子装置
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及***
CN110209954A (zh) * 2019-06-03 2019-09-06 南京邮电大学 基于lda主题模型和深度学习的群组推荐方法
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110532353A (zh) * 2019-08-27 2019-12-03 海南阿凡题科技有限公司 基于深度学习的文本实体匹配方法、***、装置
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110717069A (zh) * 2018-07-11 2020-01-21 北京优酷科技有限公司 视频推荐方法及装置
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111914083A (zh) * 2019-05-10 2020-11-10 腾讯科技(深圳)有限公司 语句处理方法、装置及存储介质
CN115378629A (zh) * 2022-05-13 2022-11-22 北京邮电大学 基于图神经网络的以太坊网络异常检测方法、***和存储介质

Patent Citations (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244631A1 (en) * 2012-02-17 2014-08-28 Digitalsmiths Corporation Identifying Multimedia Asset Similarity Using Blended Semantic and Latent Feature Analysis
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及***
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法
CN105849764A (zh) * 2013-10-25 2016-08-10 西斯摩斯公司 用于识别社交数据网络中的影响者及其社区的***和方法
CN105874753A (zh) * 2013-11-05 2016-08-17 西斯摩斯公司 用于社交数据网络用户行为细分的***和方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN106156256A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种用户信息分类透传方法及***
CN106959971A (zh) * 2016-01-12 2017-07-18 阿里巴巴集团控股有限公司 用户行为数据的处理方法及装置
CN108289029A (zh) * 2017-01-09 2018-07-17 北京嘀嘀无限科技发展有限公司 通信群组建立方法及装置
CN107666506A (zh) * 2017-07-24 2018-02-06 上海壹账通金融科技有限公司 推送结果预测方法、装置、计算机设备和存储介质
CN107944063A (zh) * 2018-01-16 2018-04-20 马上消费金融股份有限公司 一种基于主题模型与用户群组的新闻推荐方法及***
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN108462615A (zh) * 2018-02-05 2018-08-28 百川通联(北京)网络技术有限公司 一种网络用户分组方法和装置
CN110717069A (zh) * 2018-07-11 2020-01-21 北京优酷科技有限公司 视频推荐方法及装置
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN110032678A (zh) * 2019-04-08 2019-07-19 腾讯科技(深圳)有限公司 业务资源推送方法和装置、存储介质和电子装置
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN111914083A (zh) * 2019-05-10 2020-11-10 腾讯科技(深圳)有限公司 语句处理方法、装置及存储介质
CN110209954A (zh) * 2019-06-03 2019-09-06 南京邮电大学 基于lda主题模型和深度学习的群组推荐方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及***
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110532353A (zh) * 2019-08-27 2019-12-03 海南阿凡题科技有限公司 基于深度学习的文本实体匹配方法、***、装置
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN115378629A (zh) * 2022-05-13 2022-11-22 北京邮电大学 基于图神经网络的以太坊网络异常检测方法、***和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111134A (zh) * 2021-04-21 2021-07-13 山东省人工智能研究院 一种基于自编码和注意力机制的异构图节点特征嵌入方法
CN113157865A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113157865B (zh) * 2021-04-25 2023-06-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111368552B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN111460130B (zh) 信息推荐方法、装置、设备和可读存储介质
CN107346336B (zh) 基于人工智能的信息处理方法和装置
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN108269122B (zh) 广告的相似度处理方法和装置
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
Ahmed et al. Discovering diverse, high quality design ideas from a large corpus
CN113486173B (zh) 文本标注神经网络模型及其标注方法
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN111368552B (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
Zhou et al. Rank2vec: learning node embeddings with local structure and global ranking
CN113011886B (zh) 帐号类型的确定方法和装置及电子设备
CN116955646A (zh) 知识图谱的生成方法和装置、存储介质及电子设备
CN109582802B (zh) 一种实体嵌入方法、装置、介质及设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
Wei et al. NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks
CN113705247B (zh) 主题模型效果评估方法、装置、设备、存储介质和产品
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN115700550A (zh) 标签分类模型训练和对象筛选方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant