CN104504087A

CN104504087A - 一种基于低秩分解的精细主题挖掘方法

Info

Publication number: CN104504087A
Application number: CN201410827865.5A
Authority: CN
Inventors: 孙显; 许光銮; 付琨; 胡岩峰; 郑歆慰; 田璟; 刁文辉
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-08

Abstract

本发明公开了一种基于低秩分解的精细主题挖掘方法，对原始语料文本进行分词及去停词处理，对预处理得到的词频矩阵生成主题矩阵，主题矩阵，将原始语料文本分解为主题背景及关键词；本发明提出了一个不引入新隐含变量的精细表示文本内容的模型，该模型以LDA模型作为基础提取文本集的主题分布，并结合文本主题由不同方面组成的特点，引入主成分分析的改进方法，即鲁棒性主成分分析方法，将每个主题分解为低秩部分和稀疏部分，低秩部分代表了该主题下的常用词，稀疏部分则是对该主题下不同角度的精细刻画，从而达到精细表示文本的目的，有效地解决了传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题。

Description

一种基于低秩分解的精细主题挖掘方法

技术领域

本发明属于文本处理与挖掘技术领域，尤其涉及一种基于低秩分解的精细主题挖掘方法。

背景技术

挖掘文本集中的隐含主题是文本挖掘领域的重要研究内容之一。近年来以隐含狄利克雷分配(LDA)为代表的主题模型得到了广泛应用。这些模型将高维稀疏的词频矩阵表示转化为低维的语义空间表示，即主题空间表示，从而起到降维的作用。这在文本建模，文本分类和信息提取等应用中有着广泛的应用。

现实语料库根据内容可划分为经济、政治、娱乐、健康等主题。然而，在实际应用中，需要对每个主题根据不同的角度，如立场、情感、视角、具体事件等进一步划分为更精细的子主题。针对这些因素进行改进的模型包括层级主题模型(hierarchical topic model)、SWB模型(special word background model)、主题情感混合模型(topic sentiment mixture model)等。层级主题模型引入嵌套中国餐馆过程(nested Chinese restaurant process)来学习主题间的层级关系，从而对主题进行细分。SWB模型分三个途径产生文档中的词：一是标准的LDA模型，二是针对于该文本集的背景词分布，三是针对于该特定文档的特殊词分布。SWB模型中的关键词(特殊词途径)的划分需要一定的先验知识来决定关键词和低秩词的比例，在先验知识较少的情况下效果不好。主题情感混合模型对文档主题和情感趋向混合建模。该模型存在的问题是它假设所有文档的主题分布是相同的。

这些改进模型只能对主题的一个特定角度进行刻画，例如只考虑情感因素，或者只考虑立场，而没有一个通用的模型来对不同的角度统一进行刻画。此外，上述模型都存在维度诅咒的问题。互联网上文本集的大小通常都在千万级甚至亿级，模型复杂度的一个微小的提升都会被放大，造成海量文本应用时庞大的时间消耗。上述模型为了更精细地刻画除了主题之外的其他维度，在模型里引入了新的隐含变量，这不可避免地增加了模型计算的复杂度，所需时间也因此增加。因此，已有的模型工具无法解决通用性和实时性的问题。

发明内容

本发明提供了一种基于低秩分解的精细主题挖掘方法，旨在解决传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题。

本发明的目的在于提供一种基于低秩分解的精细主题挖掘方法，该基于低秩分解的精细主题挖掘方法包括：

步骤一，对原始语料文本进行分词及去停词处理；

步骤二，对预处理得到的词频矩阵生成主题矩阵；

步骤三，分解主题矩阵，将原始语料文本分解为主题背景及关键词。

进一步，在步骤一中，对于中文语料，采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理；

在步骤一中，采用停用词表法滤除文档中的无意义词。

进一步，在步骤二中，对预处理得到的词频矩阵生成主题矩阵时，首先对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法(GibbsSampling)推导模型的隐含变量，利用得到的数据，生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。

进一步，主题矩阵的具体产生步骤如下：

应用LDA模型对文本集进行训练得到文本集的主题分布θ和主题的单词分布β；

统计文档中单词被分配给每个主题的次数，与主题阈值T(θ)进行比较，将大于阈值的主题标签分配给每个文档，一个文档可以有多个主题标签；

T (θ_{i}) = \frac{Σ_{d = 1}^{D} N_{di}}{D} - - - (4)

其中，T(θ_i)表示第i个主题的主题阈值，N_di表示第d个文档中属于第i个主题的单词数，D表示文档数；

根据主题的单词分布β，在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典；

T (β_{i}) = \max (\frac{λ Σ_{v = 1}^{V} N_{vi}}{V}, 2) - - - (5)

T(β_i)表示第i个主题的词典阈值，N_vi表示第v个单词属于第i个主题的次数，V表示单词总数，λ取5，且保证T(β_i)不小于2；

根据主题标签和主题词典，对每一个主题生成该主题的主题矩阵，根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值，使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。

进一步，在步骤三中，分解主题矩阵，将原始语料文本分解为主题背景及关键词时，首先，RPCA算法的增量拉格朗日乘子实现，定义两个变量S_τ(x)和D_τ(x)如下：

S_τ(x)＝sgn(x)max(|x|-τ,0) (6)

D_τ(x)＝US_τ(Σ)V^*,X＝UΣV^*

其中S_τ(x)是对一个数x的定义，若x换成矩阵，则表示对于一个矩阵中的每个元素做上述操作；

然后，对于每个主题对应的主题矩阵，应用RPCA算法进行矩阵分解，得到每个主题的低秩矩阵和稀疏矩阵。

进一步，RPCA算法的增量拉格朗日乘子实现流程如下：

初始化：S₀＝Y₀＝0，μ>0；

循环，直至收敛：

L_{k + 1} = D_{μ^{- 1}} (M - S_{k} + μ^{- 1} Y_{k}) - - - (7)

S_{k + 1} = S_{λ μ^{- 1}} (M - L_{k + 1} + μ^{- 1} Y_{k}) - - - (8)

Y_k+1＝Y_k+μ(M-L_k+1-S_k+1)； (9)

循环结束，输出L,S。

进一步，λ设置如下：

λ = \frac{1}{\sqrt{\max (m, n)}} - - - (10)

其中m，n分别表示矩阵的行数和列数，在低秩矩阵中的单词代表该主题的背景词，作为该主题的内容概要，稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。

本发明提供的基于低秩分解的精细主题挖掘方法，首先对原始语料文本进行分词及去停词处理，然后对预处理得到的词频矩阵生成主题矩阵，最后分解主题矩阵，将原始语料文本分解为主题背景及关键词；本发明提出了一个不引入新隐含变量的精细表示文本内容的模型，该模型以LDA模型作为基础提取文本集的主题分布，并结合文本主题由不同方面组成的特点，引入主成分分析的改进方法，即鲁棒性主成分分析方法，将每个主题分解为低秩部分和稀疏部分，低秩部分代表了该主题下的常用词，稀疏部分则是对该主题下不同角度的精细刻画，从而达到精细表示文本的目的，有效地解决了传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题，具有较强的推广与应用价值。

附图说明

图1是本发明实施例提供的基于低秩分解的精细主题挖掘方法的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定发明。

图1示出了本发明实施例提供的基于低秩分解的精细主题挖掘方法的实现流程。

该基于低秩分解的精细主题挖掘方法包括：

步骤S101，对原始语料文本进行分词及去停词处理；

步骤S102，对预处理得到的词频矩阵生成主题矩阵；

步骤S103，分解主题矩阵，将原始语料文本分解为主题背景及关键词。

在本发明实施例中，在步骤S101中，对于中文语料，采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理；

在步骤S101中，采用停用词表法滤除文档中的无意义词。

在本发明实施例中，在步骤S102中，对预处理得到的词频矩阵生成主题矩阵时，首先对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法(Gibbs Sampling)推导模型的隐含变量，利用得到的数据，生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。

在本发明实施例中，主题矩阵的具体产生步骤如下：

T (θ_{i}) = \frac{Σ_{d = 1}^{D} N_{di}}{D} - - - (11)

T (β_{i}) = \max (\frac{λ Σ_{v = 1}^{V} N_{vi}}{V}, 2) - - - (12)

在本发明实施例中，在步骤S103中，分解主题矩阵，将原始语料文本分解为主题背景及关键词时，首先，RPCA算法的增量拉格朗日乘子实现，定义两个变量S_τ(x)和D_τ(x)如下：

S_τ(x)＝sgn(x)max(|x|-τ,0) (13)

D_τ(x)＝US_τ(Σ)V^*,X＝UΣV^*

在本发明实施例中，RPCA算法的增量拉格朗日乘子实现流程如下：

初始化：S₀＝Y₀＝0，μ>0；

循环，直至收敛：

L_{k + 1} = D_{μ^{- 1}} (M - S_{k} + μ^{- 1} Y_{k}) - - - (14)

S_{k + 1} = S_{λ μ^{- 1}} (M - L_{k + 1} + μ^{- 1} Y_{k}) - - - (15)

Y_k+1＝Y_k+μ(M-L_k+1-S_k+1)； (16)

循环结束，输出L,S。

在本发明实施例中，λ设置如下：

λ = \frac{1}{\sqrt{\max (m, n)}} - - - (17)

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

图1为本发明的基于低秩分解的精细主题挖掘方法的具体流程，具体步骤包括：

步骤S101：文本预处理，包括分词、去停用词等。

分词：对于中文语料，还需要先对文档进行分词处理，采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理。

去停用词：由于原始语料库的文档中包含一些经常出现但信息量不大的单词，比如“的”、“了”、“地”、“他”，需要将文档中的这些词滤去。采用停用词表法滤除文档中的无意义词。

步骤S102：主题矩阵生成。

RPCA算法要求被分解的原始矩阵M具有稀疏加低秩的特性，即M矩阵确实能够被分解为低秩矩阵和稀疏矩阵的和。若原始矩阵本身就是一个稀疏矩阵，则分解得到的低秩矩阵将是一个零矩阵，稀疏矩阵就是M本身。这样的分解结果是没有意义的。而文本的词频矩阵表示通常是稀疏的。因此，提出主题矩阵的概念，对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法(Gibbs Sampling)推导模型的隐含变量,利用得到的数据，生成主题矩阵，使得到的主题矩阵满足可以分解为低秩矩阵和稀疏矩阵和的特性。

主题矩阵的具体产生步骤如下：

统计文档中单词被分配给每个主题的次数，与主题阈值T(θ)进行比较，将大于阈值的主题标签分配给每个文档，一个文档可以有多个主题标签。

T (θ_{i}) = \frac{Σ_{d = 1}^{D} N_{di}}{D} - - - (18)

T(θ_i)表示第i个主题的主题阈值，N_di表示第d个文档中属于第i个主题的单词数，D表示文档数。

根据主题的单词分布β，在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典。

T (β_{i}) = \max (\frac{λ Σ_{v = 1}^{V} N_{vi}}{V}, 2) - - - (19)

T(β_i)表示第i个主题的词典阈值，N_vi表示第v个单词属于第i个主题的次数，V表示单词总数。λ取5，且保证T(β_i)不小于2。

根据主题标签和主题词典，对每一个主题生成该主题的主题矩阵。

根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值，使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。

步骤S103：矩阵分解。

RPCA算法的增量拉格朗日乘子实现。

定义两个变量S_τ(x)和D_τ(x)如下：

S_τ(x)＝sgn(x)max(|x|-τ,0) (20)

D_τ(x)＝US_τ(Σ)V^*,X＝UΣV^*

其中S_τ(x)是对一个数x的定义，若x换成矩阵，则表示对于一个矩阵中的每个元素做上述操作。

算法的增量拉格朗日乘子实现流程如下：

初始化：S₀＝Y₀＝0，μ>0；

循环，直至收敛

L_{k + 1} = D_{μ^{- 1}} (M - S_{k} + μ^{- 1} Y_{k}) - - - (21)

S_{k + 1} = S_{λ μ^{- 1}} (M - L_{k + 1} + μ^{- 1} Y_{k}) - - - (22)

Y_k+1＝Y_k+μ(M-L_k+1-S_k+1) (23)

循环结束，输出L,S。

对于每个主题对应的主题矩阵，应用RPCA算法进行矩阵分解，得到每个主题的低秩矩阵和稀疏矩阵，λ设置如下：

λ = \frac{1}{\sqrt{\max (m, n)}} - - - (24)

其中m，n分别表示矩阵的行数和列数。在低秩矩阵中的单词代表该主题的背景词，作为该主题的内容概要。稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。

本发明实施例提供的基于低秩分解的精细主题挖掘方法，首先对原始语料文本进行分词及去停词处理，然后对预处理得到的词频矩阵生成主题矩阵，最后分解主题矩阵，将原始语料文本分解为主题背景及关键词；本发明提出了一个不引入新隐含变量的精细表示文本内容的模型，该模型以LDA模型作为基础提取文本集的主题分布，并结合文本主题由不同方面组成的特点，引入主成分分析的改进方法，即鲁棒性主成分分析方法，将每个主题分解为低秩部分和稀疏部分，低秩部分代表了该主题下的常用词，稀疏部分则是对该主题下不同角度的精细刻画，从而达到精细表示文本的目的，有效地解决了传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题，具有较强的推广与应用价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于低秩分解的精细主题挖掘方法，其特征在于，该基于低秩分解的精细主题挖掘方法包括：

步骤一，对原始语料文本进行分词及去停词处理；

步骤二，对预处理得到的词频矩阵生成主题矩阵；

2.如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤一中，对于中文语料，采用计算所分词***的C#版对原始语料进行分词处理；

在步骤一中，采用停用词表法滤除文档中的无意义词。

3.如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤二中，对预处理得到的词频矩阵生成主题矩阵时，首先对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法推导模型的隐含变量，利用得到的数据，生成分解为低秩矩阵和稀疏矩阵特性的主题矩阵。

4.如权利要求2所述的基于低秩分解的精细主题挖掘方法，其特征在于，主题矩阵的具体产生步骤如下：

统计文档中单词被分配给每个主题的次数，与主题阈值T(θ)进行比较，将大于阈值的主题标签分配给每个文档，一个文档有多个主题标签；

T (θ_{i}) = \frac{Σ_{d = 1}^{D} N_{di}}{D} - - - (1)

T (β_{i}) = \max (\frac{λ Σ_{v = 1}^{V} N_{vi}}{V}, 2) - - - (2)

5.如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤三中，分解主题矩阵，将原始语料文本分解为主题背景及关键词时，首先，RPCA算法的增量拉格朗日乘子实现，定义两个变量S_τ(x)和D_τ(x)如下：

S_τ(x)＝sgn(x)max(|x|-τ,0)

(3)

D_τ(x)＝US_τ(Σ)V^*,X＝UΣV^*

6.如权利要求5所述的基于低秩分解的精细主题挖掘方法，其特征在于，RPCA算法的增量拉格朗日乘子实现流程如下：

初始化：S₀＝Y₀＝0，μ>0；

循环，直至收敛：

L_{k + 1} = D_{μ^{- 1}} (M - S_{k} + μ^{- 1} Y_{k})

S_{k + 1} = S_{{λμ}^{- 1}} (M - L_{k + 1} + μ^{- 1} Y_{k})

Y_k+1＝Y_k+μ(M-L_k+1-S_k+1)；

循环结束，输出L,S。

7.如权利要求4所述的基于低秩分解的精细主题挖掘方法，其特征在于，λ设置如下：

λ = \frac{1}{\sqrt{\max (m, n)}}