CN110717047B - 一种基于图卷积神经网络的Web服务分类方法 - Google Patents

一种基于图卷积神经网络的Web服务分类方法 Download PDF

Info

Publication number
CN110717047B
CN110717047B CN201911008035.9A CN201911008035A CN110717047B CN 110717047 B CN110717047 B CN 110717047B CN 201911008035 A CN201911008035 A CN 201911008035A CN 110717047 B CN110717047 B CN 110717047B
Authority
CN
China
Prior art keywords
web service
word
graph
service description
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911008035.9A
Other languages
English (en)
Other versions
CN110717047A (zh
Inventor
曹步清
叶洪帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Science and Technology
Original Assignee
Hunan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Technology filed Critical Hunan University of Science and Technology
Priority to CN201911008035.9A priority Critical patent/CN110717047B/zh
Publication of CN110717047A publication Critical patent/CN110717047A/zh
Application granted granted Critical
Publication of CN110717047B publication Critical patent/CN110717047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于图卷积神经网络的Web服务分类方法,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。本方法只需少量标注Web服务文档就可以获得较强的分类性能,并且可以自主学习到单词和Web服务描述文档之间的嵌入信息,实验证明,本方法的查准率、查全率、F‑measure、纯度和熵等指标相比于传统Web服务分类方法都有显著提升。

Description

一种基于图卷积神经网络的Web服务分类方法
技术领域
本发明主要涉及Web服务分类相关技术领域,具体是一种基于图卷积神经网络的Web服务分类方法。
背景技术
随着Web2.0时代的到来以及Web服务技术的发展,Internet上Web服务数量和种类快速增长,如何找到满足用户需求的Web服务变得越来越困难。
为了提高Web服务发现和组合的性能,研究人员提出了许多Web服务分类方法,其中有不少研究工作聚焦于基于功能属性的Web服务分类和推荐。已有的研究表明:Web服务功能描述文本通常具有篇幅短、特征稀疏、信息量少等特点,与短文本十分相似。因此,如何将短文本构造成计算机能够理解的形式则成为了短文本分类的主要问题。针对上述问题,一些研究人员利用从WSDL文档中挖掘出的关键特性来实现Web服务的功能分类。该工作,首先从WSDL文档中提取每个Web服务的特征向量;然后,计算提取出的Web服务特征向量之间的相似度;最后,根据计算出的Web服务特征向量相似度,将Web服务分类为功能相似的组。此外,很多研究人员利用LDA(Latent Dirichlet Allocation)主题模型或其扩展主题模型,从Web服务描述文档中提取出隐含的主题信息(低维主题向量特征)来表示Web服务,并根据这些主题向量计算Web服务之间的相似度,完成对Web服务的分类。随着研究的深入,近年来对Web服务描述文本中隐藏信息(如词语之间的词序、上下文语境信息等)的深度挖掘也成为研究热点之一。
总的来说,以上研究均在一定程度上提高了服务分类的性能,但它们并没有考虑到Web服务描述文本中的单词与描述文本本身之间所隐含的网络结构信息,而利用这些网络结构信息可以进一步提升服务分类的性能。
发明内容
为解决目前技术的不足,本发明结合现有技术,从实际应用出发,提供一种基于图卷积神经网络的Web服务分类方法,能够切实提高Web服务分类的性能。
为实现上述目的,本发明的技术方案如下:
一种基于图卷积神经网络的Web服务分类方法,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络,并计算各路径权重;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。
进一步的,在构建异构图网络前,首先对Web服务描述文档进行预处理,预处理过程包括如下步骤:
(1)、使用python中的自然语言处理工具包pandas从所选的Web服务中分别提取Web API的相关信息;
(2)、使用python中的自然语言工具包NLTK将单词按照空格进行分词,并且将标点符号和单词分开;
(3)、使用python中的自然语言工具包NLTK中的停用词表去除停用词;
(4)、对于实质相同的单词进行词干化处理;
(5)、提取处理后Web服务描述文档中出现的单词并进行字典化处理;
(6)、将处理后的Web服务描述文档和字典中的每一个单词都表示为One-Hot向量,然后将One-Hot向量构建成特征矩阵。
进一步的,在构建的异构图网络中,基于Web服务描述文档-单词和单词-单词共同构建节点间的边。
进一步的,在构建的异构图网络中,采用词频—逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,基于单词在Web服务描述文档中出现的频率判断其分类能力,采用点互信息计算两个单词节点之间边的权重,以衡量两个单词之间的关联度;其中,针对语料库中所有的Web服务描述文档,使用一个固定大小的滑动窗口来收集单词的共现统计信息。
进一步的,权重的计算方法具体包括:将异构图网络中任意两个节点i和j之间的边的权重定义为:
Figure BDA0002243336820000031
一个单词对i,j之间的边的权重的计算过程如下:
Figure BDA0002243336820000032
Figure BDA0002243336820000033
Figure BDA0002243336820000034
其中,p(i,j)为单词对的出现频率,p为单个单词的出现频率,#W(i)是语料库中包含单词i的滑动窗口数,#W(i,j)是语料库中包含单词i和单词j的滑动窗口数,#W是语料库中滑动窗口的总数;
对于计算的PMI值,只在具有正PMI值的单词对之间添加边。
进一步的,在异构图网络构建完成后,利用一个两层的图卷积神经网络对其进行建模和卷积运算,形成单词和Web服务描述文档的嵌入表征向量,其具体过程包括:
(1)、对于第一层图卷积神经网络,一个节点的k维特征矩阵
Figure BDA0002243336820000041
计算公式为:
Figure BDA0002243336820000042
其中,
Figure BDA0002243336820000043
是经过归一化处理的对称邻接矩阵,D是图的矩阵,A是图的邻接矩阵,
Figure BDA0002243336820000044
是一个特征矩阵,其中n为节点数,m为节点的特征维度数,
Figure BDA0002243336820000045
是权重矩阵,ρ是激活函数;堆叠多个图卷积神经网络时,将整合更多的邻域信息,得到高阶邻域信息:
Figure BDA0002243336820000046
其中,Wj为权重系数,表示第j个卷积层的权重,j表示图卷积神经网络卷积层的层数,L(0)=χ;
(2)、第二层图卷积神经网络将所有节点的特征矩阵与标签集的特征矩阵嵌入成相同的维度,然后输入到softmax分类函数中进行计算:
Figure BDA0002243336820000047
其中,
Figure BDA0002243336820000048
是经过归一化处理的对称邻接矩阵,
Figure BDA0002243336820000049
Figure BDA00022433368200000410
权重矩阵W0和W1通过梯度下降来训练;
Figure BDA00022433368200000411
E1和E2则可分别包含第一层与第二层Web服务描述文档和单词的嵌入信息;
(3)、将损失函数定义为所有Web服务描述文档的交叉熵误差:
Figure BDA00022433368200000412
其中,yD是具有标签的Web服务描述文档的索引集;F是输出特性的维度,它等于类的数量,Y是标签指示矩阵;
通过上述两层图卷积神经网络的卷积计算,得到最后的Web服务分类结果。
本发明的有益效果:
本发明中,首次将Web服务数据集作为整个语料库建模成一个“单词&Web服务描述文档”异构图网络,并结合图卷积神经网络学习单词和Web服务描述文档的嵌入信息,通过对Web服务功能描述文本的特征信息进行建模和预测,将Web服务描述文本出现的单词与Web服务描述文本之间所隐含的网络结构信息进行深入挖掘并进行分类预测,将预测结果作为服务分类的最终结果进行集成,本方法只需少量标注Web服务文档就可以获得较强的分类性能,并且可以自主学习到单词和Web服务描述文档之间的嵌入信息,实验证明,本方法的查准率、查全率、F-measure、纯度和熵等指标相比于传统Web服务分类方法都有显著提升。
附图说明
图1为本发明的Web服务分类方法总体框架图;
图2为本发明的Web服务分类模型结构图;
图3为本发明的Web服务描述文档对之间的信息交换示意图;
图4为不同Web服务分类方法的查准率指标对比图;
图5为不同Web服务分类方法的查全率指标对比图;
图6为不同Web服务分类方法的F-measure指标对比图;
图7为不同Web服务分类方法的熵指标对比图;
图8为不同Web服务分类方法的纯度指标对比图。
具体实施方式
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
由于现有Web服务分类技术主要聚焦于利用Web服务的描述文本、标签等功能性信息实现分类,而暂未考虑到Web服务描述文本中的单词与描述文本本身之间所隐含的网络结构信息。为此,本发明提出一种基于图卷积神经网络的Web服务分类方法。该方法,首先将Web服务的名称、文本描述、标签等信息作为基础语料库,构建一个基于单词共现和Web服务描述文档词关系的“单词&Web服务描述文档”异构图网络。在该异构图网络中,使用词频—逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,采用点互信息计算不同单词节点之间边的权重。然后,面向“单词&Web服务描述文档”异构图网络,利用图卷积神经网络学习单词和Web服务描述文档的嵌入信息,将Web服务文档问题转化成节点分类问题。
本发明所提出的Web服务分类方法的总体框架如图1所示,包括三个部分:Web服务描述文档预处理、基于图卷积神经网络的Web服务分类模型(即WSC-GCN模型)构建与训练、Web服务分类。在Web服务描述文档预处理过程中,首先从ProgrammableWeb网站中爬取和存储Web服务描述文本和其它相关信息,并提取相应的特征列构建特征向量矩阵。在WSC-GCN模型构建与训练过程中,首先将经过预处理后Web服务描述文本中的单词单独抽取出来,与Web服务描述文档建立“单词&Web服务描述文档”异构图网络,并计算各路径权重。然后,使用图卷积神经网络对“单词&Web服务描述文档”异构图网络进行卷积计算。在Web服务分类过程中,将Web服务类别的卷积预测结果作为服务分类的最终结果。
下面对本发明的Web服务描述文档预处理、WSC-GCN模型构建与训练、Web服务分类进行详细说明。
Web服务描述文档预处理:
Web服务的描述文档描述了Web服务的核心功能,也是Web服务分类的主要信息来源。由于Web服务描述文档中的一些词条包含大量无用的信息,因此需要进行预处理操作。预处理过程包括以下步骤:
1.Web服务描述文档信息提取:使用python中的自然语言处理工具包pandas用于从所选的Web服务中分别提取Web API的五列(’APIName’,’tags’,’desc’,’primary_category’,’sub_primary’)。
2.Web服务描述文档令牌化(tokenize):使用python中的NLTK(自然语言工具包)将单词按照空格进行分词,并且将标点符号和单词分开。
3.过滤停用词(stop words):英语中有许多无效的单词和标点符号,如”a”、“to”、“,”等,这些没有实际意义的单词或符号称为停用词,利用NLTK中的停用词表去除停用词。
4.词干化处理(stemming):在英语中,同一个单词会因为时态、人称等的不同而有不同的表现形式,例如,’provide’、’providing’、’provides’,等等,但它们实际上都是同一个单词’provide’,如果将这些单词当作是不同的单词来处理,则会降低相似度计算的准确性,因此,有必要进行词干化处理。
5.提取处理后的Web服务描述文档中出现的单词并进行字典化处理。
6.将处理后的Web服务描述文档和字典中的每一个单词都表示为One-Hot向量,然后将这些One-Hot向量构建成特征矩阵,将其作为WSC-GCN分类模型的输入。
WSC-GCN分类模型:
本发明所构建的WSC-GCN分类模型如图2所示,包括三个部分:“单词&Web服务描述文档”异构图网络、单词和Web服务描述文档表征、Web服务分类(图示中的英文单词仅作为示例)。
为了便于对本发明方法的进一步介绍,本实施例中,对图卷积神经网络GCN具有如下说明:该网络是一种多层神经网络,是传统卷积算法在图结构数据上的一个变体,可以直接用于处理图结构数据,并根据节点邻域的性质导出节点的嵌入向量,其定义如下:
(1)
Figure BDA0002243336820000081
表示一个图,其中
Figure BDA0002243336820000082
表示图的节点,
Figure BDA0002243336820000083
表示图中的边。以图2为例,节点为单词或Web服务描述文档;边为由“单词-单词”或“单词-Web服务描述文档”所构建的边。
(2)假设每个节点都和自己连接,即对于任何一个节点
Figure BDA0002243336820000084
都有
Figure BDA0002243336820000085
(3)设
Figure BDA0002243336820000086
是n个节点的m维特征矩阵。
(4)设A为图的邻接矩阵(adjacency matrix)。考虑递归的原因,A的对角线元素均被设置为1,这样GCN就只能使用一层卷积来捕获近邻的信息。
(5)设D为图的度矩阵(degree matrix),其中Dii=∑jAij
异构图网络:
对于本发明的异构图网络,如图2所示,在图2中左边部分,构建了一个包含单词节点和Web服务描述文档节点的异构图网络,其中标记为“API”的节点是Web服务描述文档节点,其他节点则是单词节点。“单词&Web服务描述文档”异构图网络v中的节点数,就是Web服务描述文档数(语料库大小)与去重后的单词数(词汇数量)之和,同时,基于Web服务描述文档中的单词出现(文档-单词)和单词在整个语料库中的共现(单词-单词)共同构建节点间的边。其中,使用词频—逆文本频率(TF-IDF:Term Frequency-Inverse DocumentFrequency)计算Web服务描述文档节点和单词节点之间边的权重。如果某个单词在该Web服务描述文档中出现的频率TF高,并且在其他Web服务描述文档中很少出现(IDF高),则认为此单词具有很好的类别区分能力,适合用来分类。为了更好地利用单词在整个语料库的共现信息,针对语料库中所有的Web服务描述文档,使用一个固定大小的滑动窗口来收集单词的共现统计信息。采用点互信息(PMI:Pointwise Mutual Information)计算两个单词节点之间边的权重,以便衡量两个单词之间的关联度。因此,异构图网络v中任意两个节点i和j之间的边的权重定义为:
Figure BDA0002243336820000091
于是,一个单词对i,j之间的边的权重(PMI)的计算过程如下:
Figure BDA0002243336820000092
Figure BDA0002243336820000093
Figure BDA0002243336820000094
其中,p(i,j)为单词对的出现频率,p为单个单词的出现频率,#W(i)是语料库中包含单词i的滑动窗口数,#W(i,j)是语料库中包含单词i和单词j的滑动窗口数,#W是语料库中滑动窗口的总数。正PMI值意味着语料库中词的语义相关性较高,而负PMI值则表示语料库中的语义相关性很小或根本没有。在此,只在具有正PMI值的单词对之间添加边。
Web服务的分类卷积计算:
在“单词&Web服务描述文档”异构图网络构建完成后,利用一个两层的图卷积神经网络对其进行建模和卷积运算,形成单词和Web服务描述文档的嵌入表征向量(如图2的中间部分所示,R(x)为x的嵌入表征向量),具体过程如下:
(1)对于第一层GCN,一个节点的k维特征矩阵
Figure BDA0002243336820000101
计算公式为:
Figure BDA0002243336820000102
其中,
Figure BDA0002243336820000103
是经过归一化处理的对称邻接矩阵,D是图的矩阵,A是图的邻接矩阵,
Figure BDA0002243336820000104
是一个特征矩阵,其中n为节点数,m为节点的特征维度数,
Figure BDA0002243336820000105
是权重矩阵,ρ是激活函数;堆叠多个图卷积神经网络时,将整合更多的邻域信息,得到高阶邻域信息:
Figure BDA0002243336820000106
其中,其中,Wj为权重系数,表示第j个卷积层的权重,j表示GCN卷积层的层数,而L(0)=x。
(2)第二层GCN将所有节点的特征矩阵与标签集的特征矩阵嵌入成相同的维度,然后输入到softmax分类函数中进行计算:
Figure BDA0002243336820000107
与第一层GCN一样,
Figure BDA0002243336820000108
是经过归一化处理的对称邻接矩阵,而
Figure BDA0002243336820000109
p(xi),其中,
Figure BDA00022433368200001010
权重矩阵W0和W1可以通过梯度下降来训练,这样,若令
Figure BDA00022433368200001011
那么E1和E2就可分别包含第一层与第二层Web服务描述文档和单词的嵌入信息。
(3)损失函数定义为所有Web服务标记文档的交叉熵误差:
Figure BDA0002243336820000111
其中,yD是具有标签的Web服务描述文档的索引集;F则是输出特性的维度,它等于类的数量。Y是标签指示矩阵。
因此,通过如上两层GCN的卷积计算,就可以得到最后的Web服务分类结果。如图2的右边部分所示。本发明中,在“单词&Web服务描述文档”异构图网络中,尽管没有直接构建Web服务描述文档之间的连接边,但是两层GCN可以允许在最大两步之外的节点之间传递消息。如图3所示,不同的Web服务描述文档通过共同连接的单词建立了通信联系,这样Web服务描述文档对之间就可以通过共同连接的单词节点进行信息交换,进而进行分类卷积计算,从而保证信息的完整性与一致性。
实施例:
在本实施例中,针对本发明提供的分类方法,进行了实验验证,下面对本实施例的数据集与实验设置、评估指标、对比方法以及实验结果进行详细描述。
数据集与实验设置:
为了评估本发明提出的Web服务分类方法,从ProgrammableWeb网站上爬取了Web服务真实数据集。该数据集包含6673个Mashups、9121个Web API、13613个Web API与Mashup之间的链接,以及Web服务描述文档及其标签信息。为方便起见,首先选取9121个Web API作为实验数据集,以此为基础,将包含Web服务(Web API)数量最多的前10、20、30、40和50个Web服务类别选择为分类基准数据集,然后使用Sklearn中的随机切分工具对分类基准数据集进行划分,分为70%的训练集和30%的测试集。在WSC-GCN模型中,一些重要的参数设置为:Learning_rate=0.02,Epochs=20,Hidden1=20,Dropout=0.5。
评估指标:
在实验中,设置五个指标来评估分类性能:查准率(Precision),查全率(Recall),F-measure,纯度(Purity)和熵(Entropy)。假定标准的Web服务分类结果为SWSC={SC1,SC2,…,SCK},实验获得的Web服务分类结果为EWSC={C1,C2,…,CK′},则第i个Web服务类别Ci的查准率和查全率分别定义如下:
Figure BDA0002243336820000121
Figure BDA0002243336820000122
其中,|SCi|是SCi类别中的Web服务数量,|Ci|是Ci类别中的Web服务数量,|SCi∩Ci|是SCi和Ci类别中共同出现的Web服务数量。F-Measure表示对Web服务分类结果的总体评估,其计算公式如下:
Figure BDA0002243336820000123
此外,还通过纯度和熵衡量服务分类的准确性。每个Web服务类别Ci的纯度、熵以及实验获得的Web服务分类结果的纯度和熵,其计算公式分别如下:
Figure BDA0002243336820000124
Figure BDA0002243336820000125
Figure BDA0002243336820000126
Figure BDA0002243336820000131
其中,|Ci|是Ci类别中的Web服务数量,
Figure BDA0002243336820000132
是本属于SCj的而被划分为Ci的Web服务的数量,而|EWSC|则是实验期间需要分类的Web服务的总量。总之,较高的查准率、查全率、纯度和较低的熵,则意味着Web服务分类的准确性越高。
对比方法:
TF-IDF+LR:利用Web服务描述文档的词频-逆文档频率(TF-IDF)计算Web服务之间的相似度,并使用Logistic Regression作为分类器,将具有相似功能的服务划分到同一个类中。
LDA:使用LDA主题模型进行Web服务的分类,将每个Web服务分类到其所包含主题概率最大的主题类别中。
WE-LDA:利用高质量的词向量来提高Web服务聚类的性能,将经过Word2vec转换后得到的词向量通过K-means++算法处理形成词聚类,并将这些词聚类合并到半监督的LDA训练过程中,从而得到更好的Web服务的分布式表征及聚类结果。
LSTM:使用长短时记忆神经网络(LSTM:Long Short-Term Memory)挖掘Web服务描述文档中的历史上下文信息并实现Web服务的分类,其输入是Web服务描述文档的特征向量矩阵,输出是Web服务分类预测矩阵。
Bi-LSTM:双向长短时记忆神经网络(Bi-LSTM:Bi-directional LSTM),在正序和反序两个方向上具有两个平行LSTM层,不仅提取Web服务描述文档的历史上下文信息(前序信息),而且考虑Web服务描述文档的未来上下文信息(后序信息),以实现对Web服务的分类。
Wide&Deep:通过广度学习和深度学习共同训练宽线性模型和深度神经网络,将记忆模型和泛化功能有机结合起来,对Web服务进行分类。
Wide&Bi-LSTM:对Wide&Deep模型予以改进,将其中的Deep组件用Bi-LSTM模型替换,从而进一步加强深度神经网络的泛化能力,以获得较好的Web服务分类性能。
实验结果与分析:
如图4-8所示,给出了当Web服务类别的数量在10到50之间(以10为步长)变化时,不同方法的Web服务分类性能,其中,水平坐标表示Web服务类别的数目,垂直坐标表示相应的性能指标值。实验结果表明:本发明的方法应用于Web服务分类时,在查准率、查全率、F-measure、纯度和熵这五项指标上均优于其它方法。具体而言:
在同一类别数目下,不加入tag信息的WSC-GCN模型的分类性能均高于其它七种模型。例如,当服务类别数为50时,不加入tag信息的WSC-GCN的查准率比TF-IDF+LR提高了85.3%,比LDA提高了70.6%,比WE-LDA提高了30.2%。其原因在于:WSC-GCN模型能够通过卷积计算充分挖掘Web服务描述文档与单词中包含的网络结构信息,从而获得更为精准的分类结果。
当Web服务类别数为40时,TF-IDF+LR、LDA和WE-LDA的性能在所有情况下都是最好的。当Web服务类别数目从10增加到40时,Web服务分类的性能逐步提升,这是因为在这些类别中可以使用到更多的Web服务来学习出更多有价值的隐藏信息(如单词频率共现、语义相关性等),以获得更好的分类精度。然而,当分类数目继续从40增加到50时,分类的准确性随之下降。原因在于:所增加的额外的类别大都包含较少的Web服务(内容信息),这就降低了分类的准确性。此外,TF-IDF+LR的性能在所有情况下都是最差的。这是因为TF-IDF+LR只使用基于术语的向量空间模型来表示Web服务描述文档的特征,而没有考虑它们背后潜在的语义相关性。
与LSTM模型相比,不加入tag信息的WSC-GCN模型的查准率提高了51.6%;与Bi-LSTM模型相比,不加入tag信息的WSC-GCN模型的查准率提高了19.0%。这是因为Bi-LSTM神经网络与LSTM神经网络尽管利用到了Web服务描述文档的上下文信息,但是忽略了Web服务描述文档与单词中所包含的网络结构信息。
与Wide&Deep模型和Wide&Bi-LSTM模型相比,不加入tag信息的GCN模型的查准率分别提高了36.5%和5.5%。理由在于:虽然Wide&Deep模型和Wide&Bi-LSTM模型通过记忆与泛化,使得Web服务的分类效果有所提升,但也并未考虑到Web服务描述文档与单词中所包含的网络结构信息。
当加入tag信息之后,WSC-GCN+tag模型的查准率相比于未加入tag信息的TextGCN模型而言(当Web服务类别的数量分别为10/20/30/40/50时),分别有了0.9%、1.5%、1.8%、2.0%、2.5%的提升。这表明,tag信息的加入,丰富了“单词&Web服务描述文档”异构图网络的语料与语义信息,使得Web服务分类更为精准。
当Web服务类别数为50时,WSC-GCN+tag模型的熵值最小,其分类效果优于其他模型(熵值越小,分类效果越好);不加入tag信息的WSC-GCN模型的纯度比Wide&Bi-LSTM模型提高了13.5%。熵和纯度的曲线变化趋势与查准率、查全率、F-measure的曲线变化趋势基本保持一致。
本发明提出了一种基于图卷积神经网络的Web服务分类方法。该方法对Web服务文本信息中蕴含的网络结构信息进行深入挖掘,以ProgrammableWeb数据集作为一个完整的Web服务语料库建立了一个“单词&Web服务描述文档”异构图网络,利用图卷积神经网络学习单词和Web服务描述文档的嵌入信息,将Web服务文档分类问题转化成了一个面向异构图网络的节点分类问题。实验结果表明基于图卷积神经网络的Web服务分类方法在查准率、查全率、F-measure、纯度和熵等性能指标上都要优于其它方法。

Claims (4)

1.一种基于图卷积神经网络的Web服务分类方法,其特征在于,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络,并计算各路径权重;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类;
权重的计算方法具体包括:将异构图网络中任意两个节点i和j之间的边的权重定义为:
Figure FDA0003642797870000011
一个单词对i,j之间的边的权重的计算过程如下:
Figure FDA0003642797870000012
Figure FDA0003642797870000013
Figure FDA0003642797870000014
其中,p(i,j)为单词对的出现频率,p为单个单词的出现频率,#W(i)是语料库中包含单词i的滑动窗口数,#W(i,j)是语料库中包含单词i和单词j的滑动窗口数,#W是语料库中滑动窗口的总数;
对于计算的PMI值,只在具有正PMI值的单词对之间添加边;
在异构图网络构建完成后,利用一个两层的图卷积神经网络对其进行建模和卷积运算,形成单词和Web服务描述文档的嵌入表征向量,其具体过程包括:
(1)、对于第一层图卷积神经网络,一个节点的k维特征矩阵
Figure FDA0003642797870000015
计算公式为:
Figure FDA0003642797870000021
其中,
Figure FDA0003642797870000022
是经过归一化处理的对称邻接矩阵,D是图的矩阵,A是图的邻接矩阵,
Figure FDA0003642797870000023
是一个特征矩阵,其中n为节点数,m为节点的特征维度数,
Figure FDA0003642797870000024
是权重矩阵,ρ是激活函数;堆叠多个图卷积神经网络时,将整合更多的邻域信息,得到高阶邻域信息:
Figure FDA0003642797870000025
其中,Wj为权重系数,表示第j个卷积层的权重,j表示图卷积神经网络卷积层的层数,
Figure FDA0003642797870000026
(2)、第二层图卷积神经网络将所有节点的特征矩阵与标签集的特征矩阵嵌入成相同的维度,然后输入到softmax分类函数中进行计算:
Figure FDA0003642797870000027
其中,
Figure FDA0003642797870000028
是经过归一化处理的对称邻接矩阵,
Figure FDA0003642797870000029
Figure FDA00036427978700000210
权重矩阵W0和W1通过梯度下降来训练;
Figure FDA00036427978700000211
E1和E2则可分别包含第一层与第二层Web服务描述文档和单词的嵌入信息;
(3)、将损失函数定义为所有Web服务描述文档的交叉熵误差:
Figure FDA00036427978700000212
其中,yD是具有标签的Web服务描述文档的索引集;F是输出特性的维度,它等于类的数量,Y是标签指示矩阵;
通过上述两层图卷积神经网络的卷积计算,得到最后的Web服务分类结果。
2.如权利要求1所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建异构图网络前,首先对Web服务描述文档进行预处理,预处理过程包括:
(1)、使用python中的自然语言处理工具包pandas从所选的Web服务中分别提取WebAPI的相关信息;
(2)、使用python中的自然语言工具包NLTK将单词按照空格进行分词,并且将标点符号和单词分开;
(3)、使用python中的自然语言工具包NLTK中的停用词表去除停用词;
(4)、对于实质相同的单词进行词干化处理;
(5)、提取处理后Web服务描述文档中出现的单词并进行字典化处理;
(6)、将处理后的Web服务描述文档和字典中的每一个单词都表示为One-Hot向量,然后将One-Hot向量构建成特征矩阵。
3.如权利要求1所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建的异构图网络中,基于Web服务描述文档-单词和单词-单词共同构建节点间的边。
4.如权利要求3所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建的异构图网络中,采用词频—逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,基于单词在Web服务描述文档中出现的频率判断其分类能力,采用点互信息计算两个单词节点之间边的权重,以衡量两个单词之间的关联度;其中,针对语料库中所有的Web服务描述文档,使用一个固定大小的滑动窗口来收集单词的共现统计信息。
CN201911008035.9A 2019-10-22 2019-10-22 一种基于图卷积神经网络的Web服务分类方法 Active CN110717047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911008035.9A CN110717047B (zh) 2019-10-22 2019-10-22 一种基于图卷积神经网络的Web服务分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911008035.9A CN110717047B (zh) 2019-10-22 2019-10-22 一种基于图卷积神经网络的Web服务分类方法

Publications (2)

Publication Number Publication Date
CN110717047A CN110717047A (zh) 2020-01-21
CN110717047B true CN110717047B (zh) 2022-06-28

Family

ID=69214024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911008035.9A Active CN110717047B (zh) 2019-10-22 2019-10-22 一种基于图卷积神经网络的Web服务分类方法

Country Status (1)

Country Link
CN (1) CN110717047B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274405B (zh) * 2020-02-26 2021-11-05 北京工业大学 一种基于gcn的文本分类方法
CN111339754B (zh) * 2020-03-04 2022-06-21 昆明理工大学 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN111309983B (zh) * 2020-03-10 2021-09-21 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置
CN113495958A (zh) * 2020-03-20 2021-10-12 北京沃东天骏信息技术有限公司 一种文本分类方法和装置
CN111581326B (zh) * 2020-03-30 2022-05-31 中国科学院信息工程研究所 一种基于异构外部知识源图结构抽取答案信息的方法
CN111552803B (zh) * 2020-04-08 2023-03-24 西安工程大学 一种基于图小波网络模型的文本分类方法
CN111538989B (zh) * 2020-04-22 2022-08-26 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN111581488B (zh) * 2020-05-14 2023-08-04 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
CN112214335B (zh) * 2020-10-13 2023-12-01 重庆工业大数据创新中心有限公司 基于知识图谱和相似度网络的Web服务发现方法
CN112215837B (zh) * 2020-10-26 2023-01-06 北京邮电大学 多属性图像语义分析方法和装置
CN112085127A (zh) * 2020-10-26 2020-12-15 安徽大学 一种混合高低阶邻居信息的半监督分类方法
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及***
CN112632984A (zh) * 2020-11-20 2021-04-09 南京理工大学 基于描述文本词频的图模型移动应用分类方法
CN112598044B (zh) * 2020-12-17 2024-04-02 中山大学 一种基于多通道图卷积的文本分类方法
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN112836491B (zh) * 2021-01-25 2024-05-07 浙江工业大学 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN112818112A (zh) * 2021-02-26 2021-05-18 广东工业大学 一种基于文本分类的广告推送方法、装置和***
CN113157859B (zh) * 2021-04-06 2023-04-18 北京理工大学 一种基于上位概念信息的事件检测方法
CN113111288A (zh) * 2021-04-09 2021-07-13 湖南科技大学 一种融合非结构化和结构化信息的Web服务分类方法
CN113554100B (zh) * 2021-07-28 2023-04-07 湖南科技大学 异构图注意力网络增强的Web服务分类方法
CN113657473B (zh) * 2021-08-04 2023-06-30 北京航空航天大学 一种基于迁移学习的Web服务分类方法
CN113792144B (zh) * 2021-09-16 2024-03-12 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN113961708B (zh) * 2021-11-10 2024-04-23 北京邮电大学 一种基于多层次图卷积网络的电力设备故障溯源方法
CN115442309B (zh) * 2022-09-01 2023-06-09 深圳信息职业技术学院 一种基于图神经网络的包粒度网络流量分类方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN107103359A (zh) * 2017-05-22 2017-08-29 东南大学 基于卷积神经网络的大服务***在线可靠性预测方法
CN107102985A (zh) * 2017-04-23 2017-08-29 四川用联信息技术有限公司 改进的文档中多主题的关键词提取技术
CN108428478A (zh) * 2018-02-27 2018-08-21 东北师范大学 基于异质医疗数据挖掘的甲状腺癌风险预测方法
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和***
CN108647191A (zh) * 2018-05-17 2018-10-12 南京大学 一种基于有监督情感文本和词向量的情感词典构建方法
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN108763326A (zh) * 2018-05-04 2018-11-06 南京邮电大学 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN109117826A (zh) * 2018-09-05 2019-01-01 湖南科技大学 一种多特征融合的车辆识别方法
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109583562A (zh) * 2017-09-28 2019-04-05 西门子股份公司 Sgcnn:结构的基于图的卷积神经网络
CN109977223A (zh) * 2019-03-06 2019-07-05 中南大学 一种融合胶囊机制的图卷积网络对论文进行分类的方法
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和***
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740304B2 (en) * 2014-08-25 2020-08-11 International Business Machines Corporation Data virtualization across heterogeneous formats

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN107102985A (zh) * 2017-04-23 2017-08-29 四川用联信息技术有限公司 改进的文档中多主题的关键词提取技术
CN107103359A (zh) * 2017-05-22 2017-08-29 东南大学 基于卷积神经网络的大服务***在线可靠性预测方法
CN109583562A (zh) * 2017-09-28 2019-04-05 西门子股份公司 Sgcnn:结构的基于图的卷积神经网络
CN108428478A (zh) * 2018-02-27 2018-08-21 东北师范大学 基于异质医疗数据挖掘的甲状腺癌风险预测方法
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN108763326A (zh) * 2018-05-04 2018-11-06 南京邮电大学 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和***
CN108647191A (zh) * 2018-05-17 2018-10-12 南京大学 一种基于有监督情感文本和词向量的情感词典构建方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109117826A (zh) * 2018-09-05 2019-01-01 湖南科技大学 一种多特征融合的车辆识别方法
CN109977223A (zh) * 2019-03-06 2019-07-05 中南大学 一种融合胶囊机制的图卷积网络对论文进行分类的方法
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和***
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Web Services Classification Based;Hongfan Ye;《IEEE》;20190326;第43697-43706页 *

Also Published As

Publication number Publication date
CN110717047A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
Devika et al. Sentiment analysis: a comparative study on different approaches
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Zobeidi et al. Opinion mining in Persian language using a hybrid feature extraction approach based on convolutional neural network
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
Wahid et al. Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN112949713B (zh) 一种基于复杂网络的集成学习的文本情感分类方法
CN111126067B (zh) 实体关系抽取方法及装置
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN108846033B (zh) 特定领域词汇的发现及分类器训练方法和装置
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN115859980A (zh) 一种半监督式命名实体识别方法、***及电子设备
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及***
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant