CN106708969B - 文献资源主题聚类共现潜在语义向量空间模型语义核方法 - Google Patents

文献资源主题聚类共现潜在语义向量空间模型语义核方法 Download PDF

Info

Publication number
CN106708969B
CN106708969B CN201611095873.0A CN201611095873A CN106708969B CN 106708969 B CN106708969 B CN 106708969B CN 201611095873 A CN201611095873 A CN 201611095873A CN 106708969 B CN106708969 B CN 106708969B
Authority
CN
China
Prior art keywords
matrix
semantic
occurrence
keyword
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611095873.0A
Other languages
English (en)
Other versions
CN106708969A (zh
Inventor
牛奉高
张亚宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201611095873.0A priority Critical patent/CN106708969B/zh
Publication of CN106708969A publication Critical patent/CN106708969A/zh
Application granted granted Critical
Publication of CN106708969B publication Critical patent/CN106708969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。本发明主要解决目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题。本发明文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:第一步文献数据的预处理;第二步所提取的关键词进行词频统计,以备后续建立共现矩阵使用;第三步以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步共现潜在语义向量空间模型的构建;第五步语义核函数的构建;第六步文献聚类。

Description

文献资源主题聚类共现潜在语义向量空间模型语义核方法
技术领域
本发明属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。
背景技术
大数据时代给我们带来大量的非结构化的文本资源,聚类作为一种无监督的机器学习方法是实现文本资源挖掘的主要手段之一。文本聚类不同于一般的数据聚类,其先要将文本信息进行数据化结构表示。文本表示的基本模型是向量空间模型(VSM),它将每篇文档映射成文本空间中的一个高维稀疏的向量,因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中的向量的计算,即:通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。然而,由于VSM忽视了词与词之间的语义关系,导致文本相似性的计算不准确。广义向量空间模型(GVSM)的提出挖掘了词与词之间的共现信息,提高了文本相似度计算的准确性,但是仍不能改变文本表示向量中语义信息提取不充分的问题。因此,此后的研究主要是基于VSM或GVSM模型,通过本体或语料库等背景知识来构建语义向量空间模型(SVSM)实现文献相似性的计算。然而,通用的本体建设成本较高,且领域知识尚不完善。
语义核作为核函数的一种其概念最早由Siolas G提出,并将其作为支持向量机方法中的基础核用于文本挖掘。一直以来语义核函数的研究主要分为两类:一类的研究主要是通过WordNet、Wikipedia和HowNet等大型的本体作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建,然而,本体知识构建复杂度大且领域知识尚不完善;另一类研究则是基于统计学方法,通过挖掘特征词之间的潜在概念来构建语义核,现有的应用于文本资源聚类的语义核函数的研究中大都基于基本向量空间模型和广义向量空间模型构建,语义信息提取不够充分,聚类效果较差。
发明内容
本发明主要针对目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题,提供一种文本资源主题聚类共现潜在语义向量空间模型语义核方法。
本发明为解决上述问题而采取的技术方案为:
文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:
第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.
其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时,alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m
第四步:共现潜在语义向量空间模型的构建:
(1)计算共现强度矩阵
关键词之间的共现矩阵C=ATA=(cij)m×m,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;
然后计算共现强度矩阵B,
Figure GDA0002194221970000032
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;
(2)共现信息的提取
记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称第l篇文献与第j个关键词的潜在语义相似度,
Figure GDA0002194221970000034
表示集合{bjt}中满足条件t∈Il1的最大值,记为
Figure GDA0002194221970000035
当alj=1时,qlj=1;当alj=0时,0≤qlj<1;
(3)共现潜在语义向量空间模型(CLSVSM)
Figure GDA0002194221970000037
其中:
Figure GDA0002194221970000036
基于CLSVSM的新的“篇-词”矩阵为:
Figure GDA0002194221970000041
第五步:语义核函数的构建
(1)对新的“篇-词”矩阵的转置进行奇异值分解
根据奇异值分解理论,经matlab软件运算,得到QT的分解式:
Figure GDA0002194221970000042
其中QT是维数为m×n的新的“词-篇”矩阵;U、V称为奇异矩阵,是维数分别为m和n的方阵,且都是正交矩阵,即UUT=I,VVT=I;
Figure GDA0002194221970000043
是维数为m×n的矩阵,假设“词-篇”矩阵QT的秩为r,Δ=diag(δ1δ2δ3…δr),δi(i=1,2,…,r)是非零奇异值,且按从大到小的顺序进行排列为δ1≥δ2≥…≥δr,关键词与关键词之间的相关性矩阵QTQ=UΣVTTUT=UΣΣTUT=UΛUT,奇异矩阵U同时又等于QTQ的正交单位特征向量组成的矩阵,矩阵
Figure GDA0002194221970000044
是m×m维的方阵,对角线上的元素为QTQ所对应的特征值,
Figure GDA0002194221970000045
为非零特征值组成的对角阵;
(2)特征提取、降维
选取前k个最大的特征值,k的大小取决于特征值的累计贡献率要求,当可取特征值累计贡献率不小于90%,则k为
Figure GDA0002194221970000051
同时选取相应的奇异矩阵U和V的前k列,对奇异矩阵实现降维处理,分别记为Uk和Vk,然后得到一个QT矩阵的k阶近似,即Xk T=UkΣkVk T
(3)基于CLSVSM的语义核
k(dl,ds)=(Uk Tφ(dl))T(Uk Tφ(ds))=φT(dl)UkUk Tφ(ds),l,s=1,…,n
该语义核函数得到相一致的核矩阵为:
Figure GDA0002194221970000052
基于CLSVSM的语义核简记为CLSVSM_K;
第六步:文献聚类
对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献主题聚类。
本发明采用上述技术方案,以往研究中语义核函数相比提取了更为丰富的语义信息且避免了尚不完善且建设成本较高的本体等背景知识,聚类效果提高20%以上,在抽取语义信息时不仅实现了文本特征词之间同义信息的合并而且降低了特征词空间的维度。
具体实施方式
实施例1
第一步:数据预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系。
数据来源于CNKI,根据其分类,分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献,除去没有关键词的文献4篇,最终获得的文献总数为896篇,其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,并获取不同的关键词2509个。即:文献数n=896,关键词数m=2509,下表为截取的前20篇文献及其对应的全部关键词。表1中LM为文献类别,ID为文献编号,k1-k10为文献相应关键词。
表1:文献与相应关键词列表(部分)
LM ID T1 K1 K2 K3 K4 K5 K6 K7 K8 K9 K10
图情 1001 乡镇文化站在新农村文化建设中的作用 乡镇文化 农村文化建设 农民群体 文化活动 文化站 活动形式 文化事业单位 基层文化工作 乡镇政府 基层组织
图情 1002 公共图书馆电子阅览室的读者服务 读者服务 电子阅览室 公共图书馆
图情 1003 以读者为本的图书馆管理流程优化探讨 读者 图书馆 管理方式
图情 1004 《语言自迩集》诸版本及其双语同时语料价值 《语言自迩集》 北京官话 文献调查 近代汉语
图情 1005 农家书屋I程进展现状、问题及对策——基于 农家书屋 图书购置 日常维护 管理机制
图情 1006 宋刻《五臣注文选》孟氏本与陈八郎本关系考 《五臣注文选》 祖本 孟氏本 陈八郎本 毋昭裔本
图情 1007 信息化条件下高校图书馆网络信息资源的构建 信息化 高校图书馆 网络信息资源
图情 1008 试论独立学院图书馆导读I作的开展 图书导读 大学生成长 图书馆 独立学院
图情 1009 高校图书馆是创新人才培养的重要基地 创新人才 高校图书馆
图情 1010 上海市中学数字化实验教学现状抽样调查与分 数字化实验 实验教学 数据分析
图情 1011 对高校继续教育学院开设文献检索课的思考 继续教育学院 文献检索课 信息素养
图情 1012 图书馆如何应对社会化媒体带来的影响 社会化媒体 新媒体 在线媒体 图书馆
图情 1013 基于知识环境的大学图书馆制度建设 大学图书馆制度 学习型大学图书 知识管理模式
图情 1014 高校图书馆联盟环境下的学科馆员发展策略 学科馆员 图书馆联盟 学科服务
图情 1015 高校图书馆勤工助学学生的培训问题 高校图书馆 勤工助学 学生培训
图情 1016 人文关怀视角下图书馆文化创新实践 图书馆文化 人文关怀 文化创新
图情 1017 高职院校图书馆文献利用率低的原因及对策 图书馆 高职高专院校 文献利用率
图情 1018 高校图书馆自助式服务应用分析 高校图书馆 自助服务 RFID
图情 1019 高校图书馆服务成人教育现状及对策研究 高校图书馆 成人教育 读者服务
图情 1020 基于SCI、SSCI和A&HCI的河南大学论文统计 河南大学 学术论文 SCI SSCI A&HCI
第二步:构建关键词空间并对所提取的关键词进行词频统计,并按词频降序排列。表2为我们实验结果中的前20个关键词及相应的词频:
表2:关键词频次统计(部分)
Figure GDA0002194221970000071
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896
其中:dl是896篇文献中第l篇文献在欧式空间R2509中的表示向量,因为有2509个关键词所以欧式空间为R2509,alj(j=1,2,…,2509)为第j个关键词在第l篇文献中的权重,l为文献序号,T表示转置运算,当第j个关键词是文献dl的关键词时alj等于1,否则为0,文献集的“篇-词”矩阵为A=(alj)896×2509。表3为矩阵A在实验中的前20行和前15列在Excel中的数据呈现,该实验中矩阵A的维数为896×2509。表3中第1行记录了2509个关键词;第1列记录了类别信息;第2列记录了文献的ID;第1行第1列位置的897指使用该Excel表格897行。
表3:基于VSM的“词-篇”矩阵A(部分)
Figure GDA0002194221970000072
第四步:共现潜在语义向量空间模型的构建:
(1)计算共现强度矩阵
关键词之间的共现矩阵C=ATA=(cij)2509×2509,表4为矩阵C在实验中的部分结果呈现,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次,即对角线上的值。表中第1行和第1列为关键词。
表4:关键词共现矩阵C(部分)
Figure DA00021942219761026
然后计算共现强度矩阵B,
Figure GDA0002194221970000082
其中,c11,c22,…,c2509,2509分别为第1个,第2个,……,第2509个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1.下表为截取的实验中共现矩阵B的部分实验结果。表中第1行和第1列为关键词。
表5:共现强度矩阵B(部分)
(2)共现信息的提取
对“词-篇”矩阵A中alj=0的部分进行共现信息补充,即:对表3中的值为0的部分进行共现信息补充。具体做法如下:记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称
Figure GDA0002194221970000092
为第l篇文献与第j个关键词的潜在语义相似度,
Figure GDA0002194221970000093
表示集合{bjt}中满足条件t∈Ii1的最大值,记为
Figure GDA0002194221970000094
当aij=1时,qij=1;当aij=0时,0≤qij<1;下表为alj=0时,qlj的值,这里我们只截取了实验结果的前20行和前15列。并不是所有alj=0时都可以被补充,不能被补充的部分值仍然为0,表6只显示能被补充时的值;表6中的第1列记录了类别信息,第2列记录了文献的ID,第1行为2509个关键词。
表6:共现信息补充矩阵(部分)
Figure GDA0002194221970000101
(3)共现潜在语义向量空间模型(CLSVSM)
Figure GDA0002194221970000103
其中:
Figure GDA0002194221970000102
基于CLSVSM的新的“篇-词”矩阵在实验中的结果如下表所示,这里我们只截取了前20行和前15列,表中第1列记录了文献类别信息,第2列记录了文献的ID,第1行记录了2509个关键词:
表7:CLSVSM得到的新的“篇-词”矩阵Q(部分)
第五步:语义核函数的构建
(4)对表7对应的“篇-词”矩阵Q的转置QT进行奇异值分解
根据奇异值分解理论,经matlab软件运算,得到QT的分解式:
Figure GDA0002194221970000112
对QT进行奇异值分解后对应的奇异矩阵U和V如表8和表9所示,矩阵∑的值如表10的所示。表8第1行和第1列为关键词;表9第1行和第1列为文献的ID,表10的第1行为文献的ID,第1列为关键词。同时求得矩阵QT的秩r=896。
表8:奇异矩阵U(部分)
Figure DA00021942219761416
表9:奇异矩阵V(部分)
Figure GDA0002194221970000121
表10:矩阵Σ(部分)
计算ΣΣT求得矩阵Λ,实验结果的前20行和前15列如表11所示,Λ的是维数为2509×2509的方阵。
表11:矩阵Λ(部分)
Figure DA00021942219761522
(5)特征提取、降维
选取前k个最大的特征值。k的大小取决于特征值的累计贡献率要求。这里,取特征值累计贡献率不小于90%,通过MATLAB计算求得特征值的总和为7.5457e+03,即
Figure GDA0002194221970000131
当特征值的累计贡献率不小于90%,k=247,
即:
Figure GDA0002194221970000132
所以我们选取矩阵Λ的前247个特征值,同时选取相应的奇异矩阵U和V的前247列,对奇异矩阵实现降维处理,分别记为U247。同理可求得,当特征值累计贡献率不小于95%和98%时,k的取值分别为356和468。
(6)基于CLSVSM的语义核
k(dl,ds)=(U247 Tφ(dl))T(U247 Tφ(ds))=φT(dl)U247U247 Tφ(ds),l,s=1,2,…,896
该语义核函数得到相一致的核矩阵为:
Figure GDA0002194221970000133
基于CLSVSM的语义核简记为CLSVSM_K。
实验中得到的核矩阵
Figure GDA0002194221970000141
的前20行和前15列如表12所示,
Figure GDA0002194221970000142
是维数为
896×896的方阵。表12的第1行和第1列为文献的ID信息。
表12:核矩阵
Figure GDA0002194221970000144
(部分)
Figure DA00021942219761622
第六步:文献聚类
对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献聚类。本试验中我们采用k-means聚类算法。实验比较结果如表13和表14:
实验中分别比较了几种聚类方案下聚类结果,共进行了22次实验。实验结果见表13。
表13:CLSVSM与VSM的实验结果比较
Figure GDA0002194221970000143
Figure GDA0002194221970000151
实验结果显示,CLSVSM结果远优于VSM。且当选择方案D-I2时实验CLSVSM的结果最优。
之后将共现潜在语义向量空间模型语义核与共现潜在语义向量空间模型线性核和共现潜在语义向量空间模型进行比较,语义核构建时参数k的选取分别保证前k个特征值的和占特征值总和的90%、95%和98%,构建的语义核函数下表中分别简称为90%CLSVSM_K、95%CLSVSM_K和98%CLSVSM_K,我们选取最优的方案D-I2,每一种模型都进行50次的实验,通过多次实验求得的熵值、纯度和F值三个指标的均值来对聚类的结果进行评价,分析比较结果如表14。
表14:不同方法的聚类比较
熵值↓ 纯度↑ F值↑ 特征词空间的维数↓
CLSVSM 0.596±0.039 0.768±0.037 0.776±0.034 2509
线性核 0.571±0.016 0.791±0.014 0.795±0.009 2509
90%CLSVSM_K 0.599±0.017 0.785±0.006 0.785±0.006 247※
95%CLSVSM_K 0.571±0.043 0.801±0.004※ 0.798±0.004 356
98%CLSVSM_K 0.565±0.003※ 0.797±0.001 0.798±0.001※ 468
上表中的↓表示实验结果越小越好;相反,↑则表示实验结果越大越好。表中我们将实验的最优结果用星号※标出。纯度和F值越大表示聚类的效果越好;相反,熵值越小越好。
两组实验结果表明,共现潜在语义向量空间模型与以往的模型相比大大题高了聚类精度,基于其构建的语义核在提高聚类进度的同时明显的对特征词空间进行了降维处理,降低了聚类算法在时间和空间上的复杂度。据此说明,该方法在文本聚类中的应用提取更为丰富的语义信息,同时降低了特征词空间的维度。

Claims (1)

1.文献资源主题聚类共现潜在语义向量空间模型语义核方法,其特征在于包括以下步骤:
第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.
其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时,alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m
第四步:共现潜在语义向量空间模型的构建:
(1)计算共现强度矩阵
关键词之间的共现矩阵C=ATA=(cij)m×m,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;
然后计算共现强度矩阵B,
Figure FDA0002194221960000021
Figure FDA0002194221960000022
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;
(2)共现信息的提取
记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称第l篇文献与第j个关键词的潜在语义相似度,
Figure FDA0002194221960000024
表示集合{bjt}中满足条件t∈Il1的最大值,记为
Figure FDA0002194221960000025
当alj=1时,qlj=1;当alj=0时,0≤qlj<1;
(3)共现潜在语义向量空间模型(CLSVSM)
Figure FDA0002194221960000026
其中:
Figure FDA0002194221960000027
基于CLSVSM的新的“篇-词”矩阵为:
Figure FDA0002194221960000031
第五步:语义核函数的构建
(1)对新的“篇-词”矩阵的转置进行奇异值分解
根据奇异值分解理论,经matlab软件运算,得到QT的分解式:
Figure FDA0002194221960000032
其中QT是维数为m×n的新的“词-篇”矩阵;U、V称为奇异矩阵,是维数分别为m和n的方阵,且都是正交矩阵,即UUT=I,VVT=I;
Figure FDA0002194221960000033
是维数为m×n的矩阵,假设“词-篇”矩阵QT的秩为r,Δ=diag(δ1 δ2 δ3 … δr),δi(i=1,2,…,r)是非零奇异值,且按从大到小的顺序进行排列为δ1≥δ2≥…≥δr,关键词与关键词之间的相关性矩阵QTQ=UΣVTTUT=UΣΣTUT=UΛUT,奇异矩阵U同时又等于QTQ的正交单位特征向量组成的矩阵,矩阵
Figure FDA0002194221960000034
是m×m维的方阵,对角线上的元素为QTQ所对应的特征值,
Figure FDA0002194221960000035
为非零特征值组成的对角阵;
(2)特征提取、降维
选取前k个最大的特征值,k的大小取决于特征值的累计贡献率要求,当可取特征值累计贡献率不小于90%,则k为
Figure FDA0002194221960000041
同时选取相应的奇异矩阵U和V的前k列,对奇异矩阵实现降维处理,分别记为Uk和Vk,然后得到一个QT矩阵的k阶近似,即Xk T=UkΣkVk T
(3)基于CLSVSM的语义核
k(dl,ds)=(Uk Tφ(dl))T(Uk Tφ(ds))=φT(dl)UkUk Tφ(ds),l,s=1,L,n
该语义核函数得到相一致的核矩阵为:
Figure FDA0002194221960000042
基于CLSVSM的语义核简记为CLSVSM_K;
第六步:文献聚类
对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献主题聚类。
CN201611095873.0A 2016-12-02 2016-12-02 文献资源主题聚类共现潜在语义向量空间模型语义核方法 Active CN106708969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611095873.0A CN106708969B (zh) 2016-12-02 2016-12-02 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611095873.0A CN106708969B (zh) 2016-12-02 2016-12-02 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Publications (2)

Publication Number Publication Date
CN106708969A CN106708969A (zh) 2017-05-24
CN106708969B true CN106708969B (zh) 2020-01-10

Family

ID=58934486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611095873.0A Active CN106708969B (zh) 2016-12-02 2016-12-02 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Country Status (1)

Country Link
CN (1) CN106708969B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108933691B (zh) * 2017-05-26 2021-09-07 华为技术有限公司 一种获取网络设备标准配置模板的方法和计算设备
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及***
CN107329954B (zh) * 2017-06-29 2020-10-30 浙江工业大学 一种基于文档内容和相互关系的主题检测方法
CN108647236B (zh) * 2018-03-30 2021-07-13 山东管理学院 一种基于词共现的中药处方向量空间模型方法及装置
CN108647213A (zh) * 2018-05-21 2018-10-12 辽宁工程技术大学 一种基于耦合关系分析的组合关键字语义相关度评估方法
CN108717411B (zh) * 2018-05-23 2022-04-08 安徽数据堂科技有限公司 一种基于大数据的调查问卷设计辅助***
CN108960296B (zh) * 2018-06-14 2022-03-29 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN108874755B (zh) * 2018-06-28 2020-12-08 电子科技大学 基于MeSH的医学文献集相似性度量方法
CN109255026B (zh) * 2018-08-23 2021-06-25 云南师范大学 一种基于共词分析和聚类分析的学习需求分析的方法
CN109829634B (zh) * 2019-01-18 2021-02-26 北京工业大学 一种自适应的高校专利科研团队识别方法
CN109840325B (zh) * 2019-01-28 2020-09-29 山西大学 基于点互信息的文本语义相似性度量方法
CN109829109B (zh) * 2019-01-28 2021-02-02 山西大学 基于共现分析的推荐方法
CN111259150B (zh) * 2020-01-20 2022-07-19 山西大学 一种基于词频共现分析的文献表示方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Document copy detection based on kernel method;Bao Jun-Peng 等;《 International Conference on Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003》;20040322;250-256 *
Support Vector Machines based on a semantic kernel for text categorization;Georges Siolas 等;《 Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium》;20020806;205-209 *
基于共现潜在语义向量空间模型的语义核构建;牛奉高 等;《情报学报》;20170824;第36卷(第8期);834-842 *
数字文献资源高维向量表示模型与聚类检验;牛奉高 等;《情报学报》;20150122;第33卷(第10期);53-66 *
数字文献资源高维聚合模型研究;牛奉高;《中国博士学位论文全文数据库 信息科技辑》;20150615(第6期);I143-3 *

Also Published As

Publication number Publication date
CN106708969A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106708969B (zh) 文献资源主题聚类共现潜在语义向量空间模型语义核方法
Chen et al. Experimental explorations on short text topic mining between LDA and NMF based Schemes
Li et al. A co-attention neural network model for emotion cause analysis with emotional context awareness
Yu et al. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering
Calvo et al. Emotions in text: dimensional and categorical models
Blacoe et al. A quantum-theoretic approach to distributional semantics
Greene et al. Producing accurate interpretable clusters from high-dimensional data
CN111078852A (zh) 基于机器学习的高校前沿科研团队探测***
Pocostales Nuig-unlp at semeval-2016 task 13: A simple word embedding-based approach for taxonomy extraction
Dehghan et al. Mining shape of expertise: A novel approach based on convolutional neural network
Kundu et al. A nil-aware answer extraction framework for question answering
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
Saha et al. Development of a practical system for computerized evaluation of descriptive answers of middle school level students
Alhawarat Extracting topics from the holy Quran using generative models
Li et al. A unified model for document-based question answering based on human-like reading strategy
Darmalaksana et al. Latent semantic analysis and cosine similarity for hadith search engine
Niraula et al. Combining word representations for measuring word relatedness and similarity
Subramaniam et al. Modified firefly algorithm and fuzzy c-mean clustering based semantic information retrieval
Meena et al. Evaluation of the descriptive type answers using hyperspace analog to language and self-organizing map
Wu et al. Multiple hypergraph clustering of web images by miningword2image correlations
Thalor A descriptive answer evaluation system using cosine similarity technique
Zhong et al. A novel feature selection method based on probability latent semantic analysis for Chinese text classification
AlMahmoud et al. The effect of clustering algorithms on question answering
Gong The assessment research and preventive of student's health by using deep belief networks and restricted boltzmann machine
Bollegala et al. Mining for analogous tuples from an entity-relation graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant