CN106708969B

CN106708969B - 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Info

Publication number: CN106708969B
Application number: CN201611095873.0A
Authority: CN
Inventors: 牛奉高; 张亚宇
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2020-01-10
Anticipated expiration: 2036-12-02
Also published as: CN106708969A

Abstract

本发明属于语义向量空间模型语义核方法技术领域，具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。本发明主要解决目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题。本发明文献资源主题聚类共现潜在语义向量空间模型语义核方法，包括以下步骤：第一步文献数据的预处理；第二步所提取的关键词进行词频统计，以备后续建立共现矩阵使用；第三步以关键词在文献中是否出现为权重，构建文献表示的向量空间模型；第四步共现潜在语义向量空间模型的构建；第五步语义核函数的构建；第六步文献聚类。

Description

文献资源主题聚类共现潜在语义向量空间模型语义核方法

技术领域

本发明属于语义向量空间模型语义核方法技术领域，具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。

背景技术

大数据时代给我们带来大量的非结构化的文本资源，聚类作为一种无监督的机器学习方法是实现文本资源挖掘的主要手段之一。文本聚类不同于一般的数据聚类，其先要将文本信息进行数据化结构表示。文本表示的基本模型是向量空间模型(VSM)，它将每篇文档映射成文本空间中的一个高维稀疏的向量，因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中的向量的计算，即：通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。然而，由于VSM忽视了词与词之间的语义关系，导致文本相似性的计算不准确。广义向量空间模型(GVSM)的提出挖掘了词与词之间的共现信息，提高了文本相似度计算的准确性，但是仍不能改变文本表示向量中语义信息提取不充分的问题。因此，此后的研究主要是基于VSM或GVSM模型，通过本体或语料库等背景知识来构建语义向量空间模型(SVSM)实现文献相似性的计算。然而，通用的本体建设成本较高，且领域知识尚不完善。

语义核作为核函数的一种其概念最早由Siolas G提出，并将其作为支持向量机方法中的基础核用于文本挖掘。一直以来语义核函数的研究主要分为两类：一类的研究主要是通过WordNet、Wikipedia和HowNet等大型的本体作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建，然而，本体知识构建复杂度大且领域知识尚不完善；另一类研究则是基于统计学方法，通过挖掘特征词之间的潜在概念来构建语义核，现有的应用于文本资源聚类的语义核函数的研究中大都基于基本向量空间模型和广义向量空间模型构建，语义信息提取不够充分，聚类效果较差。

发明内容

本发明主要针对目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题，提供一种文本资源主题聚类共现潜在语义向量空间模型语义核方法。

本发明为解决上述问题而采取的技术方案为：

文献资源主题聚类共现潜在语义向量空间模型语义核方法，包括以下步骤：

第一步：文献数据的预处理：数据清洗，标记文献，提取每篇文献的关键词，并保留关键词与相应文献的对应关系；

第二步：所提取的关键词进行词频统计，关键词按词频降序排列，以备后续建立共现矩阵使用；

第三步：以关键词在文献中是否出现为权重，构建文献表示的向量空间模型如下：

d_l＝(a_l1,a_l2,...,a_lm)^T∈R^m，l＝1,2,…,n.

其中：d_l是n篇文献中第l篇文献在欧式空间R^m中的表示向量，a_lj(j＝1,2,…,m)为第j个关键词在第l篇文献中的权重，当第j个关键词是文献d_l的关键词时，a_lj等于1，否则为0；l为文献序号，n为文献总篇数，m为关键词集中总关键词的个数，R^m为欧式空间，T表示转置运算，文献集的“篇-词”矩阵A＝(a_lj)_n×m；

第四步：共现潜在语义向量空间模型的构建：

(1)计算共现强度矩阵

关键词之间的共现矩阵C＝A^TA＝(c_ij)_m×m，其中，当i≠j时，c_ij为第i个关键词与第j个关键词的共现频次，当i＝j时，c_ii为第i个关键词的总频次；

然后计算共现强度矩阵B，

其中，c₁₁,c₂₂,…,c_mm分别为第1个，第2个，……,第m个关键词的频数；当i≠j时，b_ij为第i个关键词与第j个关键词的共现强度，当i＝j时，b_ii＝1,即矩阵B的对角线元素全为1；

(2)共现信息的提取

记a_lj＝1的j的指标集为I_l1，即：I_l1＝{j|a_lj＝1}，称第l篇文献与第j个关键词的潜在语义相似度，

表示集合{b_jt}中满足条件t∈I_l1的最大值，记为

当a_lj＝1时，q_lj＝1；当a_lj＝0时，0≤q_lj＜1；

(3)共现潜在语义向量空间模型(CLSVSM)

其中：

基于CLSVSM的新的“篇-词”矩阵为：

第五步：语义核函数的构建

(1)对新的“篇-词”矩阵的转置进行奇异值分解

根据奇异值分解理论，经matlab软件运算，得到Q^T的分解式：

其中Q^T是维数为m×n的新的“词-篇”矩阵；U、V称为奇异矩阵，是维数分别为m和n的方阵,且都是正交矩阵，即UU^T＝I，VV^T＝I；

是维数为m×n的矩阵，假设“词-篇”矩阵Q^T的秩为r，Δ＝diag(δ₁δ₂δ₃…δ_r)，δ_i(i＝1,2,…,r)是非零奇异值，且按从大到小的顺序进行排列为δ₁≥δ₂≥…≥δ_r，关键词与关键词之间的相关性矩阵Q^TQ＝UΣV^TVΣ^TU^T＝UΣΣ^TU^T＝UΛU^T，奇异矩阵U同时又等于Q^TQ的正交单位特征向量组成的矩阵，矩阵

是m×m维的方阵，对角线上的元素为Q^TQ所对应的特征值，

为非零特征值组成的对角阵；

(2)特征提取、降维

选取前k个最大的特征值，k的大小取决于特征值的累计贡献率要求，当可取特征值累计贡献率不小于90％，则k为

同时选取相应的奇异矩阵U和V的前k列，对奇异矩阵实现降维处理，分别记为U_k和V_k，然后得到一个Q^T矩阵的k阶近似，即X_k ^T＝U_kΣ_kV_k ^T；

(3)基于CLSVSM的语义核

k(d_l,d_s)＝(U_k ^Tφ(d_l))^T(U_k ^Tφ(d_s))＝φ^T(d_l)U_kU_k ^Tφ(d_s)，l,s＝1,…,n

该语义核函数得到相一致的核矩阵为：

基于CLSVSM的语义核简记为CLSVSM_K；

第六步：文献聚类

对文献进行语义核函数表示，核矩阵作为文献之间的相似性矩阵，选取聚类算法进行文献主题聚类。

本发明采用上述技术方案，以往研究中语义核函数相比提取了更为丰富的语义信息且避免了尚不完善且建设成本较高的本体等背景知识，聚类效果提高20％以上，在抽取语义信息时不仅实现了文本特征词之间同义信息的合并而且降低了特征词空间的维度。

具体实施方式

实施例1

第一步：数据预处理：数据清洗，标记文献，提取每篇文献的关键词，并保留关键词与相应文献的对应关系。

数据来源于CNKI，根据其分类，分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献，除去没有关键词的文献4篇，最终获得的文献总数为896篇，其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇，并获取不同的关键词2509个。即：文献数n＝896，关键词数m＝2509，下表为截取的前20篇文献及其对应的全部关键词。表1中LM为文献类别，ID为文献编号，k1-k10为文献相应关键词。

表1：文献与相应关键词列表(部分)

LM

ID

T1

K1

K2

K3

K4

K5

K6

K7

K8

K9

K10

图情

1001

乡镇文化站在新农村文化建设中的作用

乡镇文化

农村文化建设

农民群体

文化活动

文化站

活动形式

文化事业单位

基层文化工作

乡镇政府

基层组织

图情

1002

公共图书馆电子阅览室的读者服务

读者服务

电子阅览室

公共图书馆

图情

1003

以读者为本的图书馆管理流程优化探讨

读者

图书馆

管理方式

图情

1004

《语言自迩集》诸版本及其双语同时语料价值

《语言自迩集》

北京官话

文献调查

近代汉语

图情

1005

农家书屋I程进展现状、问题及对策——基于

农家书屋

图书购置

日常维护

管理机制

图情

1006

宋刻《五臣注文选》孟氏本与陈八郎本关系考

《五臣注文选》

祖本

孟氏本

陈八郎本

毋昭裔本

图情

1007

信息化条件下高校图书馆网络信息资源的构建

信息化

高校图书馆

网络信息资源

图情

1008

试论独立学院图书馆导读I作的开展

图书导读

大学生成长

图书馆

独立学院

图情

1009

高校图书馆是创新人才培养的重要基地

创新人才

高校图书馆

图情

1010

上海市中学数字化实验教学现状抽样调查与分

数字化实验

实验教学

数据分析

图情

1011

对高校继续教育学院开设文献检索课的思考

继续教育学院

文献检索课

信息素养

图情

1012

图书馆如何应对社会化媒体带来的影响

社会化媒体

新媒体

在线媒体

图书馆

图情

1013

基于知识环境的大学图书馆制度建设

大学图书馆制度

学习型大学图书

知识管理模式

图情

1014

高校图书馆联盟环境下的学科馆员发展策略

学科馆员

图书馆联盟

学科服务

图情

1015

高校图书馆勤工助学学生的培训问题

高校图书馆

勤工助学

学生培训

图情

1016

人文关怀视角下图书馆文化创新实践

图书馆文化

人文关怀

文化创新

图情

1017

高职院校图书馆文献利用率低的原因及对策

图书馆

高职高专院校

文献利用率

图情

1018

高校图书馆自助式服务应用分析

高校图书馆

自助服务

RFID

图情

1019

高校图书馆服务成人教育现状及对策研究

高校图书馆

成人教育

读者服务

图情

1020

基于SCI、SSCI和A&HCI的河南大学论文统计

河南大学

学术论文

SCI

SSCI

A&HCI

第二步：构建关键词空间并对所提取的关键词进行词频统计，并按词频降序排列。表2为我们实验结果中的前20个关键词及相应的词频：

表2：关键词频次统计(部分)

d_l＝(a_l1,a_l2,...,a_l,2509)^T∈R²⁵⁰⁹，l＝1,2,…,896

其中：d_l是896篇文献中第l篇文献在欧式空间R²⁵⁰⁹中的表示向量，因为有2509个关键词所以欧式空间为R²⁵⁰⁹，a_lj(j＝1,2,…,2509)为第j个关键词在第l篇文献中的权重，l为文献序号，T表示转置运算，当第j个关键词是文献d_l的关键词时a_lj等于1，否则为0，文献集的“篇-词”矩阵为A＝(a_lj)_896×2509。表3为矩阵A在实验中的前20行和前15列在Excel中的数据呈现，该实验中矩阵A的维数为896×2509。表3中第1行记录了2509个关键词；第1列记录了类别信息；第2列记录了文献的ID；第1行第1列位置的897指使用该Excel表格897行。

表3：基于VSM的“词-篇”矩阵A(部分)

第四步：共现潜在语义向量空间模型的构建：

(1)计算共现强度矩阵

关键词之间的共现矩阵C＝A^TA＝(c_ij)_2509×2509，表4为矩阵C在实验中的部分结果呈现，其中，当i≠j时，c_ij为第i个关键词与第j个关键词的共现频次，当i＝j时，c_ii为第i个关键词的总频次，即对角线上的值。表中第1行和第1列为关键词。

表4：关键词共现矩阵C(部分)

然后计算共现强度矩阵B，

其中，c₁₁，c₂₂，…，c_2509，2509分别为第1个，第2个，……，第2509个关键词的频数；当i≠j时，b_ij为第i个关键词与第j个关键词的共现强度，当i＝j时，b_ii＝1，即矩阵B的对角线元素全为1.下表为截取的实验中共现矩阵B的部分实验结果。表中第1行和第1列为关键词。

表5：共现强度矩阵B(部分)

(2)共现信息的提取

对“词-篇”矩阵A中a_lj＝0的部分进行共现信息补充，即：对表3中的值为0的部分进行共现信息补充。具体做法如下：记a_lj＝1的j的指标集为I_l1，即：I_l1＝{j|a_lj＝1}，称

为第l篇文献与第j个关键词的潜在语义相似度，

表示集合{b_jt}中满足条件t∈I_i1的最大值，记为

当a_ij＝1时，q_ij＝1；当a_ij＝0时，0≤q_ij＜1；下表为a_lj＝0时，q_lj的值，这里我们只截取了实验结果的前20行和前15列。并不是所有a_lj＝0时都可以被补充，不能被补充的部分值仍然为0，表6只显示能被补充时的值；表6中的第1列记录了类别信息，第2列记录了文献的ID，第1行为2509个关键词。

表6：共现信息补充矩阵(部分)

(3)共现潜在语义向量空间模型(CLSVSM)

其中：

基于CLSVSM的新的“篇-词”矩阵在实验中的结果如下表所示，这里我们只截取了前20行和前15列，表中第1列记录了文献类别信息，第2列记录了文献的ID，第1行记录了2509个关键词：

表7：CLSVSM得到的新的“篇-词”矩阵Q(部分)

第五步：语义核函数的构建

(4)对表7对应的“篇-词”矩阵Q的转置Q^T进行奇异值分解

根据奇异值分解理论，经matlab软件运算，得到Q^T的分解式：

对Q^T进行奇异值分解后对应的奇异矩阵U和V如表8和表9所示，矩阵∑的值如表10的所示。表8第1行和第1列为关键词；表9第1行和第1列为文献的ID，表10的第1行为文献的ID，第1列为关键词。同时求得矩阵Q^T的秩r＝896。

表8：奇异矩阵U(部分)

表9：奇异矩阵V(部分)

表10：矩阵Σ(部分)

计算ΣΣ^T求得矩阵Λ，实验结果的前20行和前15列如表11所示，Λ的是维数为2509×2509的方阵。

表11：矩阵Λ(部分)

(5)特征提取、降维

选取前k个最大的特征值。k的大小取决于特征值的累计贡献率要求。这里，取特征值累计贡献率不小于90％，通过MATLAB计算求得特征值的总和为7.5457e+03，即

当特征值的累计贡献率不小于90％，k＝247，

即：

所以我们选取矩阵Λ的前247个特征值，同时选取相应的奇异矩阵U和V的前247列，对奇异矩阵实现降维处理，分别记为U₂₄₇。同理可求得，当特征值累计贡献率不小于95％和98％时，k的取值分别为356和468。

(6)基于CLSVSM的语义核

k(d_l，d_s)＝(U₂₄₇ ^Tφ(d_l))^T(U₂₄₇ ^Tφ(d_s))＝φ^T(d_l)U₂₄₇U₂₄₇ ^Tφ(d_s)，l，s＝1，2，…，896

该语义核函数得到相一致的核矩阵为：

基于CLSVSM的语义核简记为CLSVSM_K。

实验中得到的核矩阵

的前20行和前15列如表12所示，

是维数为

896×896的方阵。表12的第1行和第1列为文献的ID信息。

表12：核矩阵

(部分)

第六步：文献聚类

对文献进行语义核函数表示，核矩阵作为文献之间的相似性矩阵，选取聚类算法进行文献聚类。本试验中我们采用k-means聚类算法。实验比较结果如表13和表14：

实验中分别比较了几种聚类方案下聚类结果，共进行了22次实验。实验结果见表13。

表13：CLSVSM与VSM的实验结果比较

实验结果显示，CLSVSM结果远优于VSM。且当选择方案D-I2时实验CLSVSM的结果最优。

之后将共现潜在语义向量空间模型语义核与共现潜在语义向量空间模型线性核和共现潜在语义向量空间模型进行比较，语义核构建时参数k的选取分别保证前k个特征值的和占特征值总和的90％、95％和98％，构建的语义核函数下表中分别简称为90％CLSVSM_K、95％CLSVSM_K和98％CLSVSM_K，我们选取最优的方案D-I2，每一种模型都进行50次的实验，通过多次实验求得的熵值、纯度和F值三个指标的均值来对聚类的结果进行评价，分析比较结果如表14。

表14：不同方法的聚类比较

	熵值↓	纯度↑	F值↑	特征词空间的维数↓
					CLSVSM	0.596±0.039	0.768±0.037	0.776±0.034	2509
线性核	0.571±0.016	0.791±0.014	0.795±0.009	2509
					90％CLSVSM_K	0.599±0.017	0.785±0.006	0.785±0.006	247※
95％CLSVSM_K	0.571±0.043	0.801±0.004※	0.798±0.004	356
					98％CLSVSM_K	0.565±0.003※	0.797±0.001	0.798±0.001※	468

上表中的↓表示实验结果越小越好；相反，↑则表示实验结果越大越好。表中我们将实验的最优结果用星号※标出。纯度和F值越大表示聚类的效果越好；相反，熵值越小越好。

两组实验结果表明，共现潜在语义向量空间模型与以往的模型相比大大题高了聚类精度，基于其构建的语义核在提高聚类进度的同时明显的对特征词空间进行了降维处理，降低了聚类算法在时间和空间上的复杂度。据此说明，该方法在文本聚类中的应用提取更为丰富的语义信息，同时降低了特征词空间的维度。

Claims

1.文献资源主题聚类共现潜在语义向量空间模型语义核方法，其特征在于包括以下步骤：

d_l＝(a_l1,a_l2,...,a_lm)^T∈R^m，l＝1,2,…,n.

第四步：共现潜在语义向量空间模型的构建：

(1)计算共现强度矩阵

然后计算共现强度矩阵B，

(2)共现信息的提取

表示集合{b_jt}中满足条件t∈I_l1的最大值，记为

当a_lj＝1时，q_lj＝1；当a_lj＝0时，0≤q_lj＜1；

(3)共现潜在语义向量空间模型(CLSVSM)

其中：

基于CLSVSM的新的“篇-词”矩阵为：

第五步：语义核函数的构建

(1)对新的“篇-词”矩阵的转置进行奇异值分解

根据奇异值分解理论，经matlab软件运算，得到Q^T的分解式：

是维数为m×n的矩阵，假设“词-篇”矩阵Q^T的秩为r，Δ＝diag(δ₁ δ₂ δ₃ … δ_r)，δ_i(i＝1,2,…,r)是非零奇异值，且按从大到小的顺序进行排列为δ₁≥δ₂≥…≥δ_r，关键词与关键词之间的相关性矩阵Q^TQ＝UΣV^TVΣ^TU^T＝UΣΣ^TU^T＝UΛU^T，奇异矩阵U同时又等于Q^TQ的正交单位特征向量组成的矩阵，矩阵

是m×m维的方阵，对角线上的元素为Q^TQ所对应的特征值，

为非零特征值组成的对角阵；

(2)特征提取、降维

(3)基于CLSVSM的语义核

k(d_l,d_s)＝(U_k ^Tφ(d_l))^T(U_k ^Tφ(d_s))＝φ^T(d_l)U_kU_k ^Tφ(d_s)，l,s＝1,L,n

该语义核函数得到相一致的核矩阵为：

基于CLSVSM的语义核简记为CLSVSM_K；

第六步：文献聚类