CN112836491A - 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 - Google Patents

面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 Download PDF

Info

Publication number
CN112836491A
CN112836491A CN202110097170.6A CN202110097170A CN112836491A CN 112836491 A CN112836491 A CN 112836491A CN 202110097170 A CN202110097170 A CN 202110097170A CN 112836491 A CN112836491 A CN 112836491A
Authority
CN
China
Prior art keywords
word
document
matrix
information
mashup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110097170.6A
Other languages
English (en)
Other versions
CN112836491B (zh
Inventor
陆佳炜
赵伟
郑嘉弘
马超治
程振波
徐俊
高飞
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110097170.6A priority Critical patent/CN112836491B/zh
Publication of CN112836491A publication Critical patent/CN112836491A/zh
Application granted granted Critical
Publication of CN112836491B publication Critical patent/CN112836491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,包括以下步骤:第一步:通过GSDPMM方法计算出Mashup服务数量的主题个数;第二步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档‑单词语义权重信息矩阵D;第三步:统计单词共现信息,计算出SPPMI矩阵信息;第四步:基于文档‑单词语义权重信息矩阵D和SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,将上述两种信息进行结合,计算服务的主题信息;第五步:得到的Mashup服务主题特征作为谱聚类的输入进行聚类。本发明融合优化的词嵌入和单词语义权重计算方法来缓解短文本带来的稀疏性问题,找到更优的解集。

Description

面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
技术领域
本发明涉及到一种面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
背景技术
随着云计算的发展和服务计算“服务化”的思想驱动,越来越多的公司将数据、资源或者相关业务通过Web服务的形式发布到互联网上,以提高信息的利用率和自身竞争力。然而传统基于SOAP协议的Web服务,存在技术体系复杂、扩展性差等问题,难以适应现实生活中复杂多变的应用场景。为克服传统服务带来的问题,近年来,互联网上涌现出一种轻量级的信息服务组合模式——Mashup技术,可以混搭多种不同Web API,开发出多种全新的Web服务,以缓解传统服务难以适应复杂多变应用环境的问题。
随着Mashup服务快速增长,如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题。自然语言处理(Natural Language Processing,NLP)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言,Mashup服务描述文档是由自然语言进行描述,需要借助NLP中的方法处理Mashup服务才能让计算机能够理解服务所描述的内容。
目前现有的方法,主要采用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)或者非负矩阵分解(Non-negative Matrix Factorization,NMF)等方法得到Mashup服务主题特征后,进一步进行聚类工作。然而Mashup服务描述文档通常比较简短、特征稀疏、信息量少,LDA模型在处理短文本上效果远远不如长文本,导致目前大部分主题模型很难对缺乏训练语料的短文本进行很好地建模,另一方面短文本内单词基本都是出现一次,缺少高频词信息,对于词频-逆向文档频率(term frequency–inverse document frequency,TF-IDF)模型而言则很难计算出单词的语义权重。除此之外LDA,NMF等主题模型通常需要指定主题个数,然而服务的主题个数事前很难直接确定。同时目前多数服务聚类算法都是将K-means聚类算法作为最后主题特征值的聚类算法,但是传统K-means算法由于受聚类中心点随机性以及无法发现非凸形状簇的影响,可能导致聚类质量不理想。
发明内容
为了能克服现有传统主题模型对短文本建模能力欠缺、主题数难以确认、以及K-means聚类算法质量不高导致Mashup服务聚类质量不高的问题,本发明提出一种面向NLP基于GSDPMM(a collapsed Gibbs Sampling algorithm for the Dirichlet MultinomialMixture Model)和主题模型的Mashup服务谱聚类方法。该方法利用非负矩阵分解NMF对Mashup服务进行主题挖掘,引入改进的Gibbs采样的狄利克雷过程混合模型(DirichletProcess Mixture Model,DPMM)来自动确定主题数量,融合优化的词嵌入和单词语义权重计算方法来缓解短文本带来的稀疏性问题,最后采用谱聚类算法对Mashup服务的主题特征进行聚类,从而找到更优的解集。
本发明解决其技术问题所采用的技术方案是:
一种面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,包括以下步骤:
第一步:通过GSDPMM方法计算出Mashup服务数量的主题个数,步骤如下:
1.1初始化矩阵z,nz,nzv,mz中所有元素为0,z中所有元素为1,设定初始主题数K为1和迭代次数Iter。z统计每个文档所归属的主题,nz统计每个主题下单词的数量,nzv统计不同主题下不同单词的出现的数量,mz统计每个主题下文档数量;其中z∈R1xN,nz∈R1xK,nzv∈RKxV,mz∈R1xK,N为Mashup服务的数量,V表示语料库单词的数量,即不同单词的数量;
1.2遍历所有Mashup服务,计算nz,nzv
1.3对所有Mashup服务进行Gibbs采样操作;
1.4根据轮盘赌选法,选择文档d的主题;
1.5根据当前文档d的所属主题k,令mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.6重复步骤1.3-1.6直至处理完所有Mashup服务;
1.7重复1.3-1.6直至达到迭代次数Iter;
第二步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
2.1使用Python中的自然语言工具包(Natural language toolkit,NLTK),对Mashup服务描述文档进行中的单词进行词性标注,NLTK是著名的自然语言处理库,可以用于处理与自然语言相关的东西;
2.2:统计单词词频信息,计算TF-IDF信息;
2.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重;
第三步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
3.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
3.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
Figure BDA0002914406040000031
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率。根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure BDA0002914406040000032
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数。#(wj)=∑wc∈Voc#(wj,wc),#(wc)=∑wj∈Voc#(wj,wc),Voc表示语料库,即不重复单词的集合;
3.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数。通过上述公式得到单词的上下文SPPMI矩阵M;
第四步:基于第二步,第三步得到Mashup服务文档单词的文档-单词语义权重矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
4.1通过由第二步给定全局文档-单词语义权重矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的函数表示为:
Figure BDA0002914406040000041
其中
Figure BDA0002914406040000042
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
4.2通过第三步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
Figure BDA0002914406040000043
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
4.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;可知单词嵌入与它们的主题相关,关系公式如下所示:
Figure BDA0002914406040000044
4.4在步骤4.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤4.1,4.2和4.3,得到主题模型的目标函数:
Figure BDA0002914406040000045
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)
wTr((M-WSWT)(M-WSWT)T)
tTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)
wTr(MMT-2MWSWT+WSWTWSWT)
tTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure BDA0002914406040000051
其中α,β,γ,
Figure BDA0002914406040000052
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure BDA0002914406040000053
Figure BDA0002914406040000054
Figure BDA0002914406040000055
Figure BDA0002914406040000056
Figure BDA0002914406040000057
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure BDA0002914406040000058
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure BDA0002914406040000059
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
Figure BDA0002914406040000061
Figure BDA0002914406040000062
Figure BDA0002914406040000063
Figure BDA0002914406040000064
Figure BDA0002914406040000065
通过上述参数更新方式,可求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A;
第五步:将4.4中得到的Mashup服务主题特征,作为谱聚类的输入进行聚类,谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用;它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来;距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高。通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的,步骤如下:
5.1计算相似度矩阵SI,服务主题特征之间的相似度可以高斯核函数计算。公式中θi表示Mashup服务i的主题特征,δ为尺度参数,exp表示以自然常数e为底的指数函数,高斯核函数计算公式如下:
Figure BDA0002914406040000066
5.2将矩阵SI的每一列的元素相加,并将每一列作为元素添加到度矩阵G对角线上,公式如下。
G ij=∑j SI ij
5.3通过G计算Laplacian矩阵L=G–SI;
5.4利用python中eig函数计算
Figure BDA0002914406040000067
的特征值和特征向量,得到服务文档特征向量矩阵F,Tr表示矩阵求迹,特征值求解函数如下:
Figure BDA0002914406040000071
其中arg minF表示
Figure BDA0002914406040000072
最小时F的取值;
5.5将特征值从小到大排序,取前C个特征值,C指定的聚类簇的数量,得到前C个特征值的特征向量,作为初始聚类中心;
5.6计算特征向量到聚类中心的欧式距离dist,将Mashup服务划分到距离最小的簇,计算公式如下:
Figure BDA0002914406040000073
其中fi表示特征向量f中第i个值,Cei表示聚类中心Ce向量中的第i个值;
5.7更新聚类中心为每个簇中特征向量累加的平局值;
5.8计算新聚类中心和旧聚类中心的欧式距离作为误差值;
5.9重复步骤5.6-5.8直至误差小于一定阈值,或者迭代次数到达最大迭代次数。
进一步,所述1.2的过程如下:
1.2.1根据zd得到当前文档d的所属主题为k,mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.2.2遍历文档d中的每一个单词w,令,nzv[k][w]增加1;
1.2.3重复1.2.1-1.2.2直至处理完所有Mashup服务。
再进一步,所述1.3的过程如下:
1.3.1根据zd得到当前文档d的所属主题为k,mz[k]减少1,nz[k]减少Len,Len为文档的长度;
1.3.2遍历文档d中的每一个单词w,令,nzv[k][w]减少1;
1.3.3遍历每一个主题,计算文档d在原来主题上的概率,计算公式如下:
Figure BDA0002914406040000074
1.3.4计算文档d在新主题下的概率,计算公式如下:
Figure BDA0002914406040000075
其中α,β为超参数,zd表示当前文档d的主题,
Figure BDA0002914406040000081
表示不统计文档d信息的统计结果,
Figure BDA0002914406040000082
不统计当前文档d信息每个文档所归属的主题,
Figure BDA0002914406040000083
表示除去当前文档d信息后每个主题中文档的数量,
Figure BDA0002914406040000084
表示未统计文档d信息下单词w在主题z中的数量,
Figure BDA0002914406040000085
表示未统计文档d信息下主题z中单词的数量,Nd表示文档d中单词的数量,
Figure BDA0002914406040000086
表示文档d中单词w出现的次数。
更进一步,所述1.4的过程如下:
1.4.1将文档d在每个主题下的概率进行累加,得到总概率prob;
1.4.2在[0,prob]内随机生成一个随机数thred;
1.4.3累加文档d在每个主题下的概率,若当前主题k上的累加和大于等于thred,则文档d的主题为k。
所述2.1的过程如下:
2.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
2.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
2.1.3重复步骤2.1.1-2.1.2直至处理完所有Mashup服务。
所述2.2的过程如下:
2.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
Figure BDA0002914406040000087
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
2.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
Figure BDA0002914406040000088
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
2.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值。
所述2.3的过程如下:
2.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:
Figure BDA0002914406040000091
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
2.3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:
Figure BDA0002914406040000092
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
2.3.3基于TF-IDF值,并结合2.3.1和2.3.2中的计算结果,重新计算单词的语义权重。
优选的,所述2.3.3的操作如下:
2.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中;
Figure BDA0002914406040000093
2.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
2.3.3.3重复2.3.3.1-2.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D。
所述3.1的过程如下:
3.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len。
3.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的其上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
3.1.3重复3.1.2直至处理完Mashup中的所有单词;
3.1.4重复3.1.1-3.1.3直至处理完所有Mashup服务。
本发明的有益效果主要表现在:利用非负矩阵分解NMF对Mashup服务进行主题挖掘,引入改进的Gibbs采样的狄利克雷过程混合模型(Dirichlet Process Mixture Model,DPMM)来自动确定主题数量,融合优化的词嵌入和单词语义权重计算方法来缓解短文本带来的稀疏性问题,最后采用谱聚类算法对Mashup服务的主题特征进行聚类,从而找到更优的解集。
具体实施方式
下面对本发明作进一步描述。
一种面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,包括以下步骤:
第一步:通过GSDPMM方法计算出Mashup服务数量的主题个数,步骤如下:
1.1初始化矩阵z,nz,nzv,mz中所有元素为0,z中所有元素为1,设定初始主题数K为1和迭代次数Iter。z统计每个文档所归属的主题,nz统计每个主题下单词的数量,nzv统计不同主题下不同单词的出现的数量,mz统计每个主题下文档数量;其中z∈R1xN,nz∈R1xK,nxv∈RKxV,mz∈R1xK,N为Mashup服务的数量,V表示语料库单词的数量,即不同单词的数量;
1.2遍历所有Mashup服务,计算nz,nzv,过程如下:
1.2.1根据zd得到当前文档d的所属主题为k,mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.2.2遍历文档d中的每一个单词w,令,nzv[k][w]增加1;
1.2.3重复1.2.1-1.2.2直至处理完所有Mashup服务;
1.3对所有Mashup服务进行Gibbs采样操作,过程如下:
1.3.1根据zd得到当前文档d的所属主题为k,mz[k]减少1,nz[k]减少Len,Len为文档的长度;
1.3.2遍历文档d中的每一个单词w,令,nzv[k][w]减少1;
1.3.3遍历每一个主题,计算文档d在原来主题上的概率,计算公式如下:
Figure BDA0002914406040000111
1.3.4计算文档d在新主题下的概率,计算公式如下:
Figure BDA0002914406040000112
其中α,β为超参数,zd表示当前文档d的主题,
Figure BDA0002914406040000113
表示不统计文档d信息的统计结果,
Figure BDA0002914406040000114
不统计当前文档d信息每个文档所归属的主题,
Figure BDA0002914406040000115
表示除去当前文档d信息后每个主题中文档的数量,
Figure BDA0002914406040000116
表示未统计文档d信息下单词w在主题z中的数量,
Figure BDA0002914406040000117
表示未统计文档d信息下主题z中单词的数量,Nd表示文档d中单词的数量,
Figure BDA0002914406040000118
表示文档d中单词w出现的次数;
1.4根据轮盘赌选法,选择文档d的主题,过程如下:
1.4.1将文档d在每个主题下的概率进行累加,得到总概率prob;
1.4.2在[0,prob]内随机生成一个随机数thred;
1.4.3累加文档d在每个主题下的概率,若当前主题k上的累加和大于等于thred,则文档d的主题为k;
1.5根据当前文档d的所属主题k,令mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.6重复步骤1.3-1.6直至处理完所有Mashup服务;
1.7重复1.3-1.6直至达到迭代次数Iter;
第二步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
2.1使用Python中的自然语言工具包(Natural language toolkit,NLTK),对Mashup服务描述文档进行中的单词进行词性标注,NLTK是著名的自然语言处理库,可以用于处理与自然语言相关的东西,过程如下:
2.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
2.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
2.1.3重复步骤2.1.1-2.1.2直至处理完所有Mashup服务;
2.2:统计单词词频信息,计算TF-IDF信息,过程如下:
2.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
Figure BDA0002914406040000121
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
2.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
Figure BDA0002914406040000122
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
2.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值;
2.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重,过程如下:
2.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:
Figure BDA0002914406040000131
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
2.3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:
Figure BDA0002914406040000132
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
2.3.3基于TF-IDF值,并结合2.3.1和2.3.2中的计算结果,重新计算单词的语义权重,操作如下:
2.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中;
Figure BDA0002914406040000133
2.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
2.3.3.3重复2.3.3.1-2.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D;
第三步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
3.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数,过程如下:
3.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len。
3.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的其上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
3.1.3重复3.1.2直至处理完Mashup中的所有单词;
3.1.4重复3.1.1-3.1.3直至处理完所有Mashup服务;
3.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
Figure BDA0002914406040000141
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率。根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure BDA0002914406040000142
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数。
Figure BDA0002914406040000143
Figure BDA0002914406040000144
Voc表示语料库,即不重复单词的集合;
3.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第四步:基于第二步,第三步得到Mashup服务文档单词的文档-单词语义权重矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
4.1通过由第二步给定全局文档-单词语义权重矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的函数表示为:
Figure BDA0002914406040000145
其中
Figure BDA0002914406040000151
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
4.2通过第三步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
Figure BDA0002914406040000152
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
4.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;可知单词嵌入与它们的主题相关,关系公式如下所示:
Figure BDA0002914406040000153
4.4在步骤4.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤4.1,4.2和4.3,得到主题模型的目标函数:
Figure BDA0002914406040000154
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)
wTr((M-WSWT)(M-WSWT)T)
tTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)
wTr(MMT-2MWSWT+WSWTWSWT)
tTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure BDA0002914406040000161
其中α,β,γ,
Figure BDA0002914406040000162
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure BDA0002914406040000163
Figure BDA0002914406040000164
Figure BDA0002914406040000165
Figure BDA0002914406040000166
Figure BDA0002914406040000167
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure BDA0002914406040000168
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure BDA0002914406040000169
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
Figure BDA00029144060400001610
Figure BDA00029144060400001611
Figure BDA00029144060400001612
Figure BDA00029144060400001613
Figure BDA00029144060400001614
通过上述参数更新方式,可求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A;
第五步:将4.4中得到的Mashup服务主题特征,作为谱聚类的输入进行聚类。谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用;它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来;距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高。通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的,步骤如下:
5.1计算相似度矩阵SI,服务主题特征之间的相似度可以高斯核函数计算。公式中θi表示Mashup服务i的主题特征,δ为尺度参数,exp表示以自然常数e为底的指数函数,高斯核函数计算公式如下:
Figure BDA0002914406040000171
5.2将矩阵SI的每一列的元素相加,并将每一列作为元素添加到度矩阵G对角线上,公式如下。
Gij=∑jSIij
5.3通过G计算Laplacian矩阵L=G–SI;
5.4利用python中eig函数计算
Figure BDA0002914406040000172
的特征值和特征向量,得到服务文档特征向量矩阵F,Tr表示矩阵求迹,特征值求解函数如下:
Figure BDA0002914406040000173
其中arg minF表示
Figure BDA0002914406040000174
最小时F的取值;
5.5将特征值从小到大排序,取前C个特征值,C指定的聚类簇的数量,得到前C个特征值的特征向量,作为初始聚类中心;
5.6计算特征向量到聚类中心的欧式距离dist,将Mashup服务划分到距离最小的簇,计算公式如下:
Figure BDA0002914406040000175
其中fi表示特征向量f中第i个值,Cei表示聚类中心Ce向量中的第i个值;
5.7更新聚类中心为每个簇中特征向量累加的平局值;
5.8计算新聚类中心和旧聚类中心的欧式距离作为误差值;
5.9重复步骤5.6-5.8直至误差小于一定阈值,或者迭代次数到达最大迭代次数。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (9)

1.一种面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述方法包括以下步骤:
第一步:通过GSDPMM方法计算出Mashup服务数量的主题个数,步骤如下:
1.1初始化矩阵z,nz,nzv,mz中所有元素为0,z中所有元素为1,设定初始主题数K为1和迭代次数Iter,z统计每个文档所归属的主题,nz统计每个主题下单词的数量,nzv统计不同主题下不同单词的出现的数量,mz统计每个主题下文档数量;其中z∈R1xN,nz∈R1xK,nzv∈RKxV,mz∈R1xK,N为Mashup服务的数量,V表示语料库单词的数量,即不同单词的数量;
1.2遍历所有Mashup服务,计算nz,nzv
1.3对所有Mashup服务进行Gibbs采样操作;
1.4根据轮盘赌选法,选择文档d的主题;
1.5根据当前文档d的所属主题k,令mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.6重复步骤1.3-1.6直至处理完所有Mashup服务;
1.7重复1.3-1.6直至达到迭代次数Iter;
第二步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
2.1使用Python中的自然语言工具包NLTK,对Mashup服务描述文档进行中的单词进行词性标注;
2.2:统计单词词频信息,计算TF-IDF信息;
2.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重;
第三步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
3.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
3.2点互信息PMI计算,PMI计算公式如下所示:
Figure FDA0002914406030000021
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure FDA0002914406030000022
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数,
Figure FDA0002914406030000023
Figure FDA0002914406030000024
Figure FDA0002914406030000025
Voc表示语料库,即不重复单词的集合;
3.3计算偏移正点互信息值SPPMI矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第四步:基于第二步,第三步得到Mashup服务文档单词的文档-单词语义权重矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
4.1通过由第二步给定全局文档-单词语义权重矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的函数表示为:
Figure FDA0002914406030000026
subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK
其中
Figure FDA0002914406030000027
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
4.2通过第三步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
Figure FDA0002914406030000031
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
4.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;可知单词嵌入与它们的主题相关,关系公式如下所示:
Figure FDA0002914406030000032
4.4在步骤4.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤4.1,4.2和4.3,得到主题模型的目标函数:
Figure FDA0002914406030000033
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure FDA0002914406030000034
其中α,β,γ,
Figure FDA0002914406030000035
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure FDA0002914406030000036
Figure FDA0002914406030000037
Figure FDA0002914406030000038
Figure FDA0002914406030000041
Figure FDA0002914406030000042
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure FDA0002914406030000043
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure FDA0002914406030000044
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
Figure FDA0002914406030000045
Figure FDA0002914406030000046
Figure FDA0002914406030000047
Figure FDA0002914406030000048
Figure FDA0002914406030000049
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A;
第五步:将4.4中得到的Mashup服务主题特征,作为谱聚类的输入进行聚类,步骤如下:
5.1计算相似度矩阵SI,服务主题特征之间的相似度可以高斯核函数计算,公式中θi表示Mashup服务i的主题特征,δ为尺度参数,exp表示以自然常数e为底的指数函数,高斯核函数计算公式如下:
Figure FDA00029144060300000410
5.2将矩阵SI的每一列的元素相加,并将每一列作为元素添加到度矩阵G对角线上,公式如下:
Gij=∑jSIij
5.3通过G计算Laplacian矩阵L=G-SI;
5.4利用python中eig函数计算
Figure FDA0002914406030000051
的特征值和特征向量,得到服务文档特征向量矩阵F,Tr表示矩阵求迹,特征值求解函数如下:
Figure FDA0002914406030000052
subject to:FTF=I
其中arg minF表示
Figure FDA0002914406030000053
最小时F的取值;
5.5将特征值从小到大排序,取前C个特征值,C指定的聚类簇的数量,得到前C个特征值的特征向量,作为初始聚类中心;
5.6计算特征向量到聚类中心的欧式距离dist,将Mashup服务划分到距离最小的簇,计算公式如下:
Figure FDA0002914406030000054
其中fi表示特征向量f中第i个值,Cei表示聚类中心Ce向量中的第i个值;
5.7更新聚类中心为每个簇中特征向量累加的平局值;
5.8计算新聚类中心和旧聚类中心的欧式距离作为误差值;
5.9重复步骤5.6-5.8直至误差小于一定阈值,或者迭代次数到达最大迭代次数。
2.如权利要求1所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述1.2的过程如下:
1.2.1根据zd得到当前文档d的所属主题为k,mz[k]增加1,nz[k]增加Len,Len为文档的长度;
1.2.2遍历文档d中的每一个单词w,令,nzv[k][w]增加1;
1.2.3重复1.2.1-1.2.2直至处理完所有Mashup服务。
3.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述1.3的过程如下:
1.3.1根据zd得到当前文档d的所属主题为k,mz[k]减少1,nz[k]减少Len,Len为文档的长度;
1.3.2遍历文档d中的每一个单词w,令,nzv[k][w]减少1;
1.3.3遍历每一个主题,计算文档d在原来主题上的概率,计算公式如下:
Figure FDA0002914406030000061
1.3.4计算文档d在新主题下的概率,计算公式如下:
Figure FDA0002914406030000062
其中α,β为超参数,zd表示当前文档d的主题,
Figure FDA0002914406030000063
表示不统计文档d信息的统计结果,
Figure FDA0002914406030000064
表示不统计当前文档d信息每个文档所归属的主题,
Figure FDA0002914406030000065
表示除去当前文档d信息后每个主题中文档的数量,
Figure FDA0002914406030000066
表示未统计文档d信息下单词w在主题z中的数量,
Figure FDA0002914406030000067
表示未统计文档d信息下主题z中单词的数量,Nd表示文档d中单词的数量,
Figure FDA0002914406030000068
表示文档d中单词w出现的次数。
4.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述1.4的过程如下:
1.4.1将文档d在每个主题下的概率进行累加,得到总概率prob;
1.4.2在[0,prob]内随机生成一个随机数thred;
1.4.3累加文档d在每个主题下的概率,若当前主题k上的累加和大于等于thred,则文档d的主题为k。
5.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述2.1的过程如下:
2.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
2.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
2.1.3重复步骤2.1.1-2.1.2直至处理完所有Mashup服务。
6.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述2.2的过程如下:
2.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
Figure FDA0002914406030000069
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
2.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
Figure FDA0002914406030000071
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
2.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值。
7.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述2.3的过程如下:
2.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:
Figure FDA0002914406030000072
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
2.3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:
Figure FDA0002914406030000073
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
2.3.3基于TF-IDF值,并结合2.3.1和2.3.2中的计算结果,重新计算单词的语义权重。
8.如权利要求7所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述2.3.3的操作如下:
2.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中;
Figure FDA0002914406030000081
2.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
2.3.3.3重复2.3.3.1-2.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D。
9.如权利要求1或2所述的面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法,其特征在于,所述3.1的过程如下:
3.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len。
3.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的其上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
3.1.3重复3.1.2直至处理完Mashup中的所有单词;
3.1.4重复3.1.1-3.1.3直至处理完所有Mashup服务。
CN202110097170.6A 2021-01-25 2021-01-25 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 Active CN112836491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110097170.6A CN112836491B (zh) 2021-01-25 2021-01-25 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110097170.6A CN112836491B (zh) 2021-01-25 2021-01-25 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法

Publications (2)

Publication Number Publication Date
CN112836491A true CN112836491A (zh) 2021-05-25
CN112836491B CN112836491B (zh) 2024-05-07

Family

ID=75931371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110097170.6A Active CN112836491B (zh) 2021-01-25 2021-01-25 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法

Country Status (1)

Country Link
CN (1) CN112836491B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093935A (zh) * 2023-10-16 2023-11-21 深圳海云安网络安全技术有限公司 一种业务***的分类方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390014A (zh) * 2019-07-17 2019-10-29 腾讯科技(深圳)有限公司 一种主题挖掘方法、装置及存储介质
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111475609A (zh) * 2020-02-28 2020-07-31 浙江工业大学 一种围绕主题建模的改进型K-means服务聚类方法
CN111695347A (zh) * 2019-03-15 2020-09-22 百度(美国)有限责任公司 用于主题发现和词嵌入的相互学习的***和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695347A (zh) * 2019-03-15 2020-09-22 百度(美国)有限责任公司 用于主题发现和词嵌入的相互学习的***和方法
CN110390014A (zh) * 2019-07-17 2019-10-29 腾讯科技(深圳)有限公司 一种主题挖掘方法、装置及存储介质
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111475609A (zh) * 2020-02-28 2020-07-31 浙江工业大学 一种围绕主题建模的改进型K-means服务聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANGXU XUN等,: "Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts", PROCEEDINGS OF THE 23RD ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING *
MELISSA AILEM等: "Non-negative Matrix Factorization Meets Word Embedding", PROCEEDINGS OF THE 40TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL *
朱书苗: "基于Mashup服务语义表达聚类的API推荐方法研究", 中国硕士学位论文全文数据库, no. 07 *
田刚等: "面向领域标签辅助的服务聚类方法", 电子学报, vol. 43, no. 7 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093935A (zh) * 2023-10-16 2023-11-21 深圳海云安网络安全技术有限公司 一种业务***的分类方法及***
CN117093935B (zh) * 2023-10-16 2024-03-19 深圳海云安网络安全技术有限公司 一种业务***的分类方法及***

Also Published As

Publication number Publication date
CN112836491B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Dhingra et al. Embedding text in hyperbolic spaces
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及***
US7457808B2 (en) Method and apparatus for explaining categorization decisions
CN113343078B (zh) 基于主题模型聚类的Web API推荐方法
Anand et al. Deep learning and natural language processing in computation for offensive language detection in online social networks by feature selection and ensemble classification techniques
CN109902290B (zh) 一种基于文本信息的术语提取方法、***和设备
US20230140981A1 (en) Tutorial recommendation using discourse-level consistency and ontology-based filtering
CN112836051B (zh) 一种在线自学习的法院电子卷宗文本分类方法
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
Twinandilla et al. Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences
Lim et al. Examining machine learning techniques in business news headline sentiment analysis
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Novotný et al. Text classification with word embedding regularization and soft similarity measure
CN112836491A (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
Alnajran et al. A heuristic based pre-processing methodology for short text similarity measures in microblogs
CN113158659A (zh) 一种基于司法文本的涉案财物计算方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN114691993A (zh) 基于时间序列的动态自适应话题跟踪方法、***及装置
CN111899832B (zh) 基于上下文语义分析的医疗主题管理***与方法
CN112836489A (zh) 一种基于互联网服务单词语义权重的文本主题挖掘方法
Barkovska et al. A Conceptual Text Classification Model Based on Two-Factor Selection of Significant Words.
CN109902169B (zh) 基于电影字幕信息提升电影推荐***性能的方法
Alagarsamy et al. An experimental analysis of optimal hybrid word embedding methods for text classification using a movie review dataset
Sheng et al. Web service classification based on reinforcement learning and structured representation learning
CN112836488B (zh) 基于TWE-NMF模型的Web服务描述文档语义挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant