CN106777284A - 一种基于标签信息的图游走表示方法 - Google Patents

一种基于标签信息的图游走表示方法 Download PDF

Info

Publication number
CN106777284A
CN106777284A CN201611245749.8A CN201611245749A CN106777284A CN 106777284 A CN106777284 A CN 106777284A CN 201611245749 A CN201611245749 A CN 201611245749A CN 106777284 A CN106777284 A CN 106777284A
Authority
CN
China
Prior art keywords
node
migration
label information
probable value
neighbor node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611245749.8A
Other languages
English (en)
Inventor
李涛
王次臣
李华康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201611245749.8A priority Critical patent/CN106777284A/zh
Publication of CN106777284A publication Critical patent/CN106777284A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标签信息的图游走表示方法,首先加载图数据,建立起每一个图结点对应的邻居结点和标签信息的数据结构,为图中每一个结点,计算该结点的邻居结点被游走到的概率值,实现从该结点的邻居结点中随机选择若干次,每个邻居结点被选中的概率符合计算得到的概率值;根据上一步得到的概率值以及其他游走参数,启动游走,得到若干条游走路径;根据游走路径进行训练,得到词向量,即每一个图结点的向量表示形式;对图结点进行多标签的分类任务,检验算法的分类效果。本发明通过生成的图结点的向量表示可以更加体现多标签分类任务中标签的特征信息,从而使得多标签分类的正确率随着参考标签信息指导游走的比例参数的增加而显著的提升。

Description

一种基于标签信息的图游走表示方法
技术领域
本发明针对大规模图数据中结点的多标签分类任务,设计了一种使用部分标签信息指导在图结点之间的游走方法,实现对图结点的向量表示学习。
背景技术
图数据的表示学习为使用机器学习算法进行图数据的挖掘分析提供了可能。考虑到在图数据中,结点通常代表一个实体对象,边代表两个实体对象之间的某种关系,而且任意一条边,可以使用一对结点对唯一标示。因此,对于图概念中的两个元素:结点和边,目前的图数据表示学习算法都是基于一个结点代表一条样本数据,学习表示一个结点的特征表示。将图中结点表示为特征向量的三点意义:通过将图结点表示成特征向量,我们可以应用已经存在的成熟的算法对图数据进行挖掘,避免为再为不同图结构的数据设计单独的算法。
对于向量数据,有成熟的用于数据分析的概念,比如向量间的距离、内积等,以及分析的工具,将图结点表示为向量形式,可以方便的利用向量的概念和性质进行数据分析的工作。
对于具有复杂连接关系大规模的图数据,难以获取图数据的潜在的关系。但是,通过将图结点表示为低维向量,可以对结点之间的关系进行可视化的分析和展示。
传统的图结点表示学习的方法包括基于谱方法、基于最优化以及基于概率生成式模型的图结点表示学习算法。随着深度学习思想的普及,近年来有学者提出一种基于游走的图结点表示学习算法。
基于游走的图结点表示学习算法是利用了word2vec的理论方法,以及知识图谱中利用实体、属性及其之间的联系构建语义网络的思路,通过逆向思维,将普通图结构中的结点与自然语言处理中的词单元进行了类比,将图中的一条一条的连接路径类比作自然语言处理中的一条语句;利用概率语言模型中求解每一个词语之间共现关系(即所有的条件概率参数)的方法来探讨图结点之间的连接结构;利用生成词向量的方法生成了图中结点的向量表示方法。通过这种类比算法得到的图结点的向量,反映了对应图结点与周围邻居结点联系的结构特征,同时实现了图结点的低维向量表示,这就为基于图数据的一些数据挖掘和分析算法,比如图结点分类,链路预测,社区发现等等,提供了一个新的处理或者是优化的思路。
图结构是一种对数据之间的约束比较少,组织比较随意的存储数据的结构,这也导致了在图数据中可能存在的,相对于我们的学习目的冗余的甚至错误的数据关系。当在图中进行游走的时候,不加指导地完全随机游走将会引入大量的噪声,影响对于图结点特征的提取。对于图数据的特定的处理场景,或者学习目的下,图结点具有相似性的标准是不同的。通过定义一定的规则指导游走,可以实现在相应的相似标准下具有相似性的两个结点的特征表示也具有相近的空间距离。多标签的分类问题是图数据挖掘中的常见问题,也是目前评价图结点表示学习算法效果的主要任务。在不同的图数据集上,标签可能拥有不同的含义,比如社交网络图中,标签可以表示用户的兴趣爱好或者所属的社团等。
发明内容
本发明针对多标签分类任务中,在基于游走的图结点特征表示学习算法中,游走的随机过程设计了使用部分的标签信息来指导游走。
为达到上述目的,本发明提出一种基于标签信息的图游走表示方法,包含以下步骤:
S1:加载图数据,建立起每一个图结点对应的邻居结点和标签信息的数据结构;
S2:为图中每一个结点,计算该结点的邻居结点被游走到的概率值,实现从该结点的邻居结点中随机选择若干次,每个邻居结点被选中的概率符合计算得到的概率值;
S3:根据上一步得到的概率值以及其他游走参数,启动游走,得到若干条游走路径;
S4:根据游走路径进行训练,得到词向量,即每一个图结点的向量表示形式;
S5:对图结点进行多标签的分类任务,检验算法的分类效果。
进一步,S2步骤中是根据该结点与其邻居结点的标签属性,以及指定的标签信息比例可调参数p计算该结点的邻居结点被游走到的概率值。
S2步骤中使用alias method实现从该结点的邻居结点中的随机选择。
S3步骤中的其他游走参数包括游走长度。
S4步骤中进行训练是通过调用word2vec算法完成的。
本发明的有益效果在于:
1,通过设置游走过程中的参数,可以调整游走过程中参考标签信息指导游走下一步的比例,使得图结点的特征表示中含有分类标签信息的特征的多少的灵活可调,实现了游走过程中在更加拟合本次多标签分类的目标和更加泛化的学习整个图数据之间的灵活性。
2,通过该算法生成的图结点的向量表示可以更加体现多标签分类任务中标签的特征信息,从而使得多标签分类的正确率随着参考标签信息指导游走的比例参数的增加而显著的提升。
附图说明
图1为本发明整体的算法执行过程。
图2为本发明为每一个图结点的邻居结点计算被游走概率的流程图。
图3为使用标签指导游走的具体游走流程。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
下面给出算法整体计算过程:
第一步:加载图数据,建立起每一个图结点对应的邻居结点和标签信息的数据结构;
第二步:为图中每一个结点,根据该结点与其邻居结点的标签属性,以及指定的标签信息比例可调参数p,计算该结点的邻居结点被游走到的概率值,并使用alias method实现从该结点的邻居结点中随机选择若干次,每个邻居结点被选中的概率符合计算得到的概率值。
第三步:根据上一步得到的概率值以及其他游走参数,比如游走长度,启动游走,得到若干条游走路径;
第四步:根据游走路径,调用word2vec算法进行训练,得到词向量,也就是每一个图结点的向量表示形式;
第五步:对图结点进行多标签的分类任务,检验算法的分类效果。
图1为本发明的整体执行过程,具体来讲包括:
步骤1:加载图数据以及标签信息。其中,为便于后续处理,把不同组织格式的数据集转化为统一的类似连接表的字典结构,即图结点的值作为字典中的key,每一个结点的邻居结点或者该结点的标签信息组织成一个列表,作为相应的value,从而得到了表示图数据的字典G,以及表示标签信息的字典T;
步骤2:计算游走概率的过程,其原理如下。设待处理的图数据中共有N个结点,游走过程的当前结点为C,下面要从C的邻居结点中选择一个结点作为游走路径中的下一个结点,假设C结点共有E个邻居结点,表示为
neighbors(C)={n1,n2,n3,L,nE},0≤E<N (0.1)
同时将neighbors(C)中与结点C拥有共同标签的邻居结点表示成
common(C)={m1,m2,m3,L,mk},0≤k≤E (0.2)
显然common(C)属于neighbors(C)的子集合。设D结点被选中作为C结点的下一个结点被游走,其中D属于neighbors(C)集合。在本算法实现中,我们要求结点D属于common(C)集合的概率
P(D∈common(C))=p,D∈neighbors(C) (0.3)
其中,概率p为我们在游走开始前设定的游走参数。为了实现这一点,我们需要为结点C计算一组新的变量,即通过计算
来为C结点的每一邻居结点分配一个被游走到的概率。
图2详细列出了一种计算每一个图结点的邻居结点被游走的概率的实现流程。其中包括,首先统计每一个结点的邻居结点中,与该结点有共同标签的邻居的索引,以及与该结点有共同标签的邻居数目。如果,没有与该结点有共同标签的邻居,那么,为每一个邻居分配相同的被游走的概率。否则,利用式1.4为每一个邻居结点计算被游走的概率值。
然后,我们将这组概率值传递给AliasMethod算法中的alias_setup方法,建立AliasMethod算法中的alias_nodes变量。Alias_nodes变量同样相当于一个字典结构,其中的key仍为图中的所有结点,value为与该结点邻居列表等长的,对被游走概率序列进行调整之后的两个概率序列。在AliasMethod算法中的alias_draw方法中通过使用随机数与这两个概率序列进行比较,将返回一个下标索引。当重复多次地调用alias_draw方法时,返回的下标索引的概率分布将符合我们指定的被游走的概率值序列。
步骤3:启动游走。图3给出了使用前面计算得到的概率序列,指导在结点之间游走的具体实现过程。其中,在每次选择游走的下一结点时,通过调用alias_draw方法访问当前结点的alias_nodes变量,来选择下一个游走结点的索引,从而实现了有指导的游走。
步骤4:根据上一步得到的游走路径集合,调用word2vec方法,计算每一个图结点的向量表示。
步骤5:使用常见的分类算法(比如逻辑回归模型)对图结点的特征向量进行多标签分类。
综上所述,本发明针对现有的基于游走的大规模的图结点表示学习算法在游走过程中比较过于随机,引起的图结点的特征表示与应用场景中需要的结点特征匹配度过低的问题,设计了一种在多标签分类任务中,使用标签信息指导游走的方法。通过设置一个比例参数p,可以实现调整标签信息在游走过程中发挥指导作用的强弱,进而达到了图结点的特征表示与该多标签分类场景下的结点标签特征的匹配度的灵活可调。
以上所述仅为本发明的优选实施案例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行改进,或者对其中部分技术进行同等替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于标签信息的图游走表示方法,其特征在于包含以下步骤:
S1:加载图数据,建立起每一个图结点对应的邻居结点和标签信息的数据结构;
S2:为图中每一个结点,计算该结点的邻居结点被游走到的概率值,实现从该结点的邻居结点中随机选择若干次,每个邻居结点被选中的概率符合计算得到的概率值;
S3:根据上一步得到的概率值以及其他游走参数,启动游走,得到若干条游走路径;
S4:根据游走路径进行训练,得到词向量,即每一个图结点的向量表示形式;
S5:对图结点进行多标签的分类任务,检验算法的分类效果。
2.根据权利要求1所述的基于标签信息的图游走表示方法,其特征在于S2步骤中是根据该结点与其邻居结点的标签属性,以及指定的标签信息比例可调参数p计算该结点的邻居结点被游走到的概率值。
3.根据权利要求1所述的基于标签信息的图游走表示方法,其特征在于S2步骤中使用alias method实现从该结点的邻居结点中的随机选择。
4.根据权利要求1所述的基于标签信息的图游走表示方法,其特征在于S3步骤中的其他游走参数包括游走长度。
5.根据权利要求1所述的基于标签信息的图游走表示方法,其特征在于S4步骤中进行训练是通过调用word2vec算法完成的。
CN201611245749.8A 2016-12-29 2016-12-29 一种基于标签信息的图游走表示方法 Pending CN106777284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611245749.8A CN106777284A (zh) 2016-12-29 2016-12-29 一种基于标签信息的图游走表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611245749.8A CN106777284A (zh) 2016-12-29 2016-12-29 一种基于标签信息的图游走表示方法

Publications (1)

Publication Number Publication Date
CN106777284A true CN106777284A (zh) 2017-05-31

Family

ID=58928833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611245749.8A Pending CN106777284A (zh) 2016-12-29 2016-12-29 一种基于标签信息的图游走表示方法

Country Status (1)

Country Link
CN (1) CN106777284A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072063A1 (zh) * 2017-10-10 2019-04-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
CN110019989A (zh) * 2019-04-08 2019-07-16 腾讯科技(深圳)有限公司 一种数据处理方法及装置
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device
WO2021024080A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Active learning for data matching
US11663275B2 (en) 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072063A1 (zh) * 2017-10-10 2019-04-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
CN109658094A (zh) * 2017-10-10 2019-04-19 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device
TWI687820B (zh) * 2017-10-10 2020-03-11 香港商阿里巴巴集團服務有限公司 隨機漫步、基於叢集的隨機漫步方法、裝置以及設備
US10776334B2 (en) 2017-10-10 2020-09-15 Alibaba Group Holding Limited Random walking and cluster-based random walking method, apparatus and device
CN109658094B (zh) * 2017-10-10 2020-09-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
WO2020207197A1 (zh) * 2019-04-08 2020-10-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110019989A (zh) * 2019-04-08 2019-07-16 腾讯科技(深圳)有限公司 一种数据处理方法及装置
US11450042B2 (en) 2019-04-08 2022-09-20 Tencent Technology (Shenzhen) Company Limited Data processing for generating a random walk sequence
CN110019989B (zh) * 2019-04-08 2023-11-03 腾讯科技(深圳)有限公司 一种数据处理方法及装置
WO2021024080A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Active learning for data matching
GB2600369A (en) * 2019-08-05 2022-04-27 Ibm Active learning for data matching
US11409772B2 (en) 2019-08-05 2022-08-09 International Business Machines Corporation Active learning for data matching
US11663275B2 (en) 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system

Similar Documents

Publication Publication Date Title
CN106777284A (zh) 一种基于标签信息的图游走表示方法
CN109902672B (zh) 图像标注方法及装置、存储介质、计算机设备
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN110033022A (zh) 文本的处理方法、装置和存储介质
CN108154198A (zh) 知识库实体归一方法、***、终端和计算机可读存储介质
CN109145965A (zh) 基于随机森林分类模型的细胞识别方法和装置
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
CN112948608B (zh) 图片查找方法、装置、电子设备及计算机可读存储介质
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN108364068A (zh) 基于有向图的深度学习神经网络构建方法和机器人***
CN113569523A (zh) 一种基于线序模拟的pcb自动布线方法及***
CN106874339A (zh) 一种有向循环图的展示方法及其应用
CN108763574A (zh) 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合
CN109858402A (zh) 一种图像检测方法、装置、终端以及存储介质
Zhang et al. Task Me Anything
JP2017026482A (ja) データ処理装置、決定木生成方法、識別装置及びプログラム
CN111728302A (zh) 服装设计方法和装置
Ahmad et al. A novel adaptive learning path method
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
KR102549937B1 (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법
JPWO2019167240A1 (ja) 情報処理装置、制御方法、及びプログラム
CN109815483A (zh) 合成词识别方法、装置、可读存储介质及电子设备
Jagota Optimization by a Hopfield-style network
CN109684499A (zh) 一种自由视角的立体对象检索方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication