CN104504087A - 一种基于低秩分解的精细主题挖掘方法 - Google Patents

一种基于低秩分解的精细主题挖掘方法 Download PDF

Info

Publication number
CN104504087A
CN104504087A CN201410827865.5A CN201410827865A CN104504087A CN 104504087 A CN104504087 A CN 104504087A CN 201410827865 A CN201410827865 A CN 201410827865A CN 104504087 A CN104504087 A CN 104504087A
Authority
CN
China
Prior art keywords
theme
matrix
low
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410827865.5A
Other languages
English (en)
Inventor
孙显
许光銮
付琨
胡岩峰
郑歆慰
田璟
刁文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electronics of CAS
Original Assignee
Institute of Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electronics of CAS filed Critical Institute of Electronics of CAS
Priority to CN201410827865.5A priority Critical patent/CN104504087A/zh
Publication of CN104504087A publication Critical patent/CN104504087A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于低秩分解的精细主题挖掘方法,对原始语料文本进行分词及去停词处理,对预处理得到的词频矩阵生成主题矩阵,主题矩阵,将原始语料文本分解为主题背景及关键词;本发明提出了一个不引入新隐含变量的精细表示文本内容的模型,该模型以LDA模型作为基础提取文本集的主题分布,并结合文本主题由不同方面组成的特点,引入主成分分析的改进方法,即鲁棒性主成分分析方法,将每个主题分解为低秩部分和稀疏部分,低秩部分代表了该主题下的常用词,稀疏部分则是对该主题下不同角度的精细刻画,从而达到精细表示文本的目的,有效地解决了传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题。

Description

一种基于低秩分解的精细主题挖掘方法
技术领域
本发明属于文本处理与挖掘技术领域,尤其涉及一种基于低秩分解的精细主题挖掘方法。
背景技术
挖掘文本集中的隐含主题是文本挖掘领域的重要研究内容之一。近年来以隐含狄利克雷分配(LDA)为代表的主题模型得到了广泛应用。这些模型将高维稀疏的词频矩阵表示转化为低维的语义空间表示,即主题空间表示,从而起到降维的作用。这在文本建模,文本分类和信息提取等应用中有着广泛的应用。
现实语料库根据内容可划分为经济、政治、娱乐、健康等主题。然而,在实际应用中,需要对每个主题根据不同的角度,如立场、情感、视角、具体事件等进一步划分为更精细的子主题。针对这些因素进行改进的模型包括层级主题模型(hierarchical topic model)、SWB模型(special word background model)、主题情感混合模型(topic sentiment mixture model)等。层级主题模型引入嵌套中国餐馆过程(nested Chinese restaurant process)来学习主题间的层级关系,从而对主题进行细分。SWB模型分三个途径产生文档中的词:一是标准的LDA模型,二是针对于该文本集的背景词分布,三是针对于该特定文档的特殊词分布。SWB模型中的关键词(特殊词途径)的划分需要一定的先验知识来决定关键词和低秩词的比例,在先验知识较少的情况下效果不好。主题情感混合模型对文档主题和情感趋向混合建模。该模型存在的问题是它假设所有文档的主题分布是相同的。
这些改进模型只能对主题的一个特定角度进行刻画,例如只考虑情感因素,或者只考虑立场,而没有一个通用的模型来对不同的角度统一进行刻画。此外,上述模型都存在维度诅咒的问题。互联网上文本集的大小通常都在千万级甚至亿级,模型复杂度的一个微小的提升都会被放大,造成海量文本应用时庞大的时间消耗。上述模型为了更精细地刻画除了主题之外的其他维度,在模型里引入了新的隐含变量,这不可避免地增加了模型计算的复杂度,所需时间也因此增加。因此,已有的模型工具无法解决通用性和实时性的问题。
发明内容
本发明提供了一种基于低秩分解的精细主题挖掘方法,旨在解决传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题。
本发明的目的在于提供一种基于低秩分解的精细主题挖掘方法,该基于低秩分解的精细主题挖掘方法包括:
步骤一,对原始语料文本进行分词及去停词处理;
步骤二,对预处理得到的词频矩阵生成主题矩阵;
步骤三,分解主题矩阵,将原始语料文本分解为主题背景及关键词。
进一步,在步骤一中,对于中文语料,采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理;
在步骤一中,采用停用词表法滤除文档中的无意义词。
进一步,在步骤二中,对预处理得到的词频矩阵生成主题矩阵时,首先对预处理得到的词频矩阵采用LDA模型训练,采用吉布斯采样法(GibbsSampling)推导模型的隐含变量,利用得到的数据,生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
进一步,主题矩阵的具体产生步骤如下:
应用LDA模型对文本集进行训练得到文本集的主题分布θ和主题的单词分布β;
统计文档中单词被分配给每个主题的次数,与主题阈值T(θ)进行比较,将大于阈值的主题标签分配给每个文档,一个文档可以有多个主题标签;
T ( θ i ) = Σ d = 1 D N di D - - - ( 4 )
其中,T(θi)表示第i个主题的主题阈值,Ndi表示第d个文档中属于第i个主题的单词数,D表示文档数;
根据主题的单词分布β,在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典;
T ( β i ) = max ( λ Σ v = 1 V N vi V , 2 ) - - - ( 5 )
T(βi)表示第i个主题的词典阈值,Nvi表示第v个单词属于第i个主题的次数,V表示单词总数,λ取5,且保证T(βi)不小于2;
根据主题标签和主题词典,对每一个主题生成该主题的主题矩阵,根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值,使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。
进一步,在步骤三中,分解主题矩阵,将原始语料文本分解为主题背景及关键词时,首先,RPCA算法的增量拉格朗日乘子实现,定义两个变量Sτ(x)和Dτ(x)如下:
Sτ(x)=sgn(x)max(|x|-τ,0)    (6)
Dτ(x)=USτ(Σ)V*,X=UΣV*
其中Sτ(x)是对一个数x的定义,若x换成矩阵,则表示对于一个矩阵中的每个元素做上述操作;
然后,对于每个主题对应的主题矩阵,应用RPCA算法进行矩阵分解,得到每个主题的低秩矩阵和稀疏矩阵。
进一步,RPCA算法的增量拉格朗日乘子实现流程如下:
初始化:S0=Y0=0,μ>0;
循环,直至收敛:
L k + 1 = D μ - 1 ( M - S k + μ - 1 Y k ) - - - ( 7 )
S k + 1 = S λ μ - 1 ( M - L k + 1 + μ - 1 Y k ) - - - ( 8 )
Yk+1=Yk+μ(M-Lk+1-Sk+1);    (9)
循环结束,输出L,S。
进一步,λ设置如下:
λ = 1 max ( m , n ) - - - ( 10 )
其中m,n分别表示矩阵的行数和列数,在低秩矩阵中的单词代表该主题的背景词,作为该主题的内容概要,稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
本发明提供的基于低秩分解的精细主题挖掘方法,首先对原始语料文本进行分词及去停词处理,然后对预处理得到的词频矩阵生成主题矩阵,最后分解主题矩阵,将原始语料文本分解为主题背景及关键词;本发明提出了一个不引入新隐含变量的精细表示文本内容的模型,该模型以LDA模型作为基础提取文本集的主题分布,并结合文本主题由不同方面组成的特点,引入主成分分析的改进方法,即鲁棒性主成分分析方法,将每个主题分解为低秩部分和稀疏部分,低秩部分代表了该主题下的常用词,稀疏部分则是对该主题下不同角度的精细刻画,从而达到精细表示文本的目的,有效地解决了传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,具有较强的推广与应用价值。
附图说明
图1是本发明实施例提供的基于低秩分解的精细主题挖掘方法的实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定发明。
图1示出了本发明实施例提供的基于低秩分解的精细主题挖掘方法的实现流程。
该基于低秩分解的精细主题挖掘方法包括:
步骤S101,对原始语料文本进行分词及去停词处理;
步骤S102,对预处理得到的词频矩阵生成主题矩阵;
步骤S103,分解主题矩阵,将原始语料文本分解为主题背景及关键词。
在本发明实施例中,在步骤S101中,对于中文语料,采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理;
在步骤S101中,采用停用词表法滤除文档中的无意义词。
在本发明实施例中,在步骤S102中,对预处理得到的词频矩阵生成主题矩阵时,首先对预处理得到的词频矩阵采用LDA模型训练,采用吉布斯采样法(Gibbs Sampling)推导模型的隐含变量,利用得到的数据,生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
在本发明实施例中,主题矩阵的具体产生步骤如下:
应用LDA模型对文本集进行训练得到文本集的主题分布θ和主题的单词分布β;
统计文档中单词被分配给每个主题的次数,与主题阈值T(θ)进行比较,将大于阈值的主题标签分配给每个文档,一个文档可以有多个主题标签;
T ( θ i ) = Σ d = 1 D N di D - - - ( 11 )
其中,T(θi)表示第i个主题的主题阈值,Ndi表示第d个文档中属于第i个主题的单词数,D表示文档数;
根据主题的单词分布β,在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典;
T ( β i ) = max ( λ Σ v = 1 V N vi V , 2 ) - - - ( 12 )
T(βi)表示第i个主题的词典阈值,Nvi表示第v个单词属于第i个主题的次数,V表示单词总数,λ取5,且保证T(βi)不小于2;
根据主题标签和主题词典,对每一个主题生成该主题的主题矩阵,根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值,使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。
在本发明实施例中,在步骤S103中,分解主题矩阵,将原始语料文本分解为主题背景及关键词时,首先,RPCA算法的增量拉格朗日乘子实现,定义两个变量Sτ(x)和Dτ(x)如下:
Sτ(x)=sgn(x)max(|x|-τ,0)    (13)
Dτ(x)=USτ(Σ)V*,X=UΣV*
其中Sτ(x)是对一个数x的定义,若x换成矩阵,则表示对于一个矩阵中的每个元素做上述操作;
然后,对于每个主题对应的主题矩阵,应用RPCA算法进行矩阵分解,得到每个主题的低秩矩阵和稀疏矩阵。
在本发明实施例中,RPCA算法的增量拉格朗日乘子实现流程如下:
初始化:S0=Y0=0,μ>0;
循环,直至收敛:
L k + 1 = D μ - 1 ( M - S k + μ - 1 Y k ) - - - ( 14 )
S k + 1 = S λ μ - 1 ( M - L k + 1 + μ - 1 Y k ) - - - ( 15 )
Yk+1=Yk+μ(M-Lk+1-Sk+1);    (16)
循环结束,输出L,S。
在本发明实施例中,λ设置如下:
λ = 1 max ( m , n ) - - - ( 17 )
其中m,n分别表示矩阵的行数和列数,在低秩矩阵中的单词代表该主题的背景词,作为该主题的内容概要,稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
图1为本发明的基于低秩分解的精细主题挖掘方法的具体流程,具体步骤包括:
步骤S101:文本预处理,包括分词、去停用词等。
分词:对于中文语料,还需要先对文档进行分词处理,采用由吕震宇开发的中科院计算所分词***的C#版对原始语料进行分词处理。
去停用词:由于原始语料库的文档中包含一些经常出现但信息量不大的单词,比如“的”、“了”、“地”、“他”,需要将文档中的这些词滤去。采用停用词表法滤除文档中的无意义词。
步骤S102:主题矩阵生成。
RPCA算法要求被分解的原始矩阵M具有稀疏加低秩的特性,即M矩阵确实能够被分解为低秩矩阵和稀疏矩阵的和。若原始矩阵本身就是一个稀疏矩阵,则分解得到的低秩矩阵将是一个零矩阵,稀疏矩阵就是M本身。这样的分解结果是没有意义的。而文本的词频矩阵表示通常是稀疏的。因此,提出主题矩阵的概念,对预处理得到的词频矩阵采用LDA模型训练,采用吉布斯采样法(Gibbs Sampling)推导模型的隐含变量,利用得到的数据,生成主题矩阵,使得到的主题矩阵满足可以分解为低秩矩阵和稀疏矩阵和的特性。
主题矩阵的具体产生步骤如下:
应用LDA模型对文本集进行训练得到文本集的主题分布θ和主题的单词分布β;
统计文档中单词被分配给每个主题的次数,与主题阈值T(θ)进行比较,将大于阈值的主题标签分配给每个文档,一个文档可以有多个主题标签。
T ( θ i ) = Σ d = 1 D N di D - - - ( 18 )
T(θi)表示第i个主题的主题阈值,Ndi表示第d个文档中属于第i个主题的单词数,D表示文档数。
根据主题的单词分布β,在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典。
T ( β i ) = max ( λ Σ v = 1 V N vi V , 2 ) - - - ( 19 )
T(βi)表示第i个主题的词典阈值,Nvi表示第v个单词属于第i个主题的次数,V表示单词总数。λ取5,且保证T(βi)不小于2。
根据主题标签和主题词典,对每一个主题生成该主题的主题矩阵。
根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值,使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。
步骤S103:矩阵分解。
RPCA算法的增量拉格朗日乘子实现。
定义两个变量Sτ(x)和Dτ(x)如下:
Sτ(x)=sgn(x)max(|x|-τ,0)    (20)
Dτ(x)=USτ(Σ)V*,X=UΣV*
其中Sτ(x)是对一个数x的定义,若x换成矩阵,则表示对于一个矩阵中的每个元素做上述操作。
算法的增量拉格朗日乘子实现流程如下:
初始化:S0=Y0=0,μ>0;
循环,直至收敛
L k + 1 = D μ - 1 ( M - S k + μ - 1 Y k ) - - - ( 21 )
S k + 1 = S λ μ - 1 ( M - L k + 1 + μ - 1 Y k ) - - - ( 22 )
Yk+1=Yk+μ(M-Lk+1-Sk+1)    (23)
循环结束,输出L,S。
对于每个主题对应的主题矩阵,应用RPCA算法进行矩阵分解,得到每个主题的低秩矩阵和稀疏矩阵,λ设置如下:
λ = 1 max ( m , n ) - - - ( 24 )
其中m,n分别表示矩阵的行数和列数。在低秩矩阵中的单词代表该主题的背景词,作为该主题的内容概要。稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
本发明实施例提供的基于低秩分解的精细主题挖掘方法,首先对原始语料文本进行分词及去停词处理,然后对预处理得到的词频矩阵生成主题矩阵,最后分解主题矩阵,将原始语料文本分解为主题背景及关键词;本发明提出了一个不引入新隐含变量的精细表示文本内容的模型,该模型以LDA模型作为基础提取文本集的主题分布,并结合文本主题由不同方面组成的特点,引入主成分分析的改进方法,即鲁棒性主成分分析方法,将每个主题分解为低秩部分和稀疏部分,低秩部分代表了该主题下的常用词,稀疏部分则是对该主题下不同角度的精细刻画,从而达到精细表示文本的目的,有效地解决了传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,具有较强的推广与应用价值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于低秩分解的精细主题挖掘方法,其特征在于,该基于低秩分解的精细主题挖掘方法包括:
步骤一,对原始语料文本进行分词及去停词处理;
步骤二,对预处理得到的词频矩阵生成主题矩阵;
步骤三,分解主题矩阵,将原始语料文本分解为主题背景及关键词。
2.如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤一中,对于中文语料,采用计算所分词***的C#版对原始语料进行分词处理;
在步骤一中,采用停用词表法滤除文档中的无意义词。
3.如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤二中,对预处理得到的词频矩阵生成主题矩阵时,首先对预处理得到的词频矩阵采用LDA模型训练,采用吉布斯采样法推导模型的隐含变量,利用得到的数据,生成分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
4.如权利要求2所述的基于低秩分解的精细主题挖掘方法,其特征在于,主题矩阵的具体产生步骤如下:
应用LDA模型对文本集进行训练得到文本集的主题分布θ和主题的单词分布β;
统计文档中单词被分配给每个主题的次数,与主题阈值T(θ)进行比较,将大于阈值的主题标签分配给每个文档,一个文档有多个主题标签;
T ( θ i ) = Σ d = 1 D N di D - - - ( 1 )
其中,T(θi)表示第i个主题的主题阈值,Ndi表示第d个文档中属于第i个主题的单词数,D表示文档数;
根据主题的单词分布β,在文本集词典中选取大于词典阈值T(β)的单词子集作为主题词典;
T ( β i ) = max ( λ Σ v = 1 V N vi V , 2 ) - - - ( 2 )
T(βi)表示第i个主题的词典阈值,Nvi表示第v个单词属于第i个主题的次数,V表示单词总数,λ取5,且保证T(βi)不小于2;
根据主题标签和主题词典,对每一个主题生成该主题的主题矩阵,根据语料库的大小调节主题阈值T(θ)和词典阈值T(β)的值,使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。
5.如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤三中,分解主题矩阵,将原始语料文本分解为主题背景及关键词时,首先,RPCA算法的增量拉格朗日乘子实现,定义两个变量Sτ(x)和Dτ(x)如下:
Sτ(x)=sgn(x)max(|x|-τ,0)
                                    (3)
Dτ(x)=USτ(Σ)V*,X=UΣV*
其中Sτ(x)是对一个数x的定义,若x换成矩阵,则表示对于一个矩阵中的每个元素做上述操作;
然后,对于每个主题对应的主题矩阵,应用RPCA算法进行矩阵分解,得到每个主题的低秩矩阵和稀疏矩阵。
6.如权利要求5所述的基于低秩分解的精细主题挖掘方法,其特征在于,RPCA算法的增量拉格朗日乘子实现流程如下:
初始化:S0=Y0=0,μ>0;
循环,直至收敛:
L k + 1 = D μ - 1 ( M - S k + μ - 1 Y k )
S k + 1 = S λμ - 1 ( M - L k + 1 + μ - 1 Y k )
Yk+1=Yk+μ(M-Lk+1-Sk+1);
循环结束,输出L,S。
7.如权利要求4所述的基于低秩分解的精细主题挖掘方法,其特征在于,λ设置如下:
λ = 1 max ( m , n )
其中m,n分别表示矩阵的行数和列数,在低秩矩阵中的单词代表该主题的背景词,作为该主题的内容概要,稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
CN201410827865.5A 2014-12-25 2014-12-25 一种基于低秩分解的精细主题挖掘方法 Pending CN104504087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410827865.5A CN104504087A (zh) 2014-12-25 2014-12-25 一种基于低秩分解的精细主题挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410827865.5A CN104504087A (zh) 2014-12-25 2014-12-25 一种基于低秩分解的精细主题挖掘方法

Publications (1)

Publication Number Publication Date
CN104504087A true CN104504087A (zh) 2015-04-08

Family

ID=52945485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410827865.5A Pending CN104504087A (zh) 2014-12-25 2014-12-25 一种基于低秩分解的精细主题挖掘方法

Country Status (1)

Country Link
CN (1) CN104504087A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106997598A (zh) * 2017-01-06 2017-08-01 陕西科技大学 基于rpca与三帧差分融合的运动目标检测方法
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN108710650A (zh) * 2018-05-04 2018-10-26 浙江工业大学 一种针对论坛文本的主题挖掘方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN111968075A (zh) * 2020-07-21 2020-11-20 天津大学 一种基于高光谱的种植物成熟度检测***及方法
CN114579833A (zh) * 2022-03-03 2022-06-03 重庆邮电大学 一种基于主题挖掘和情感分析的微博舆情可视分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄晓海等: "基于低秩分解的精细文本挖掘方法", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106997598A (zh) * 2017-01-06 2017-08-01 陕西科技大学 基于rpca与三帧差分融合的运动目标检测方法
CN107301199B (zh) * 2017-05-17 2021-02-12 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN108710650A (zh) * 2018-05-04 2018-10-26 浙江工业大学 一种针对论坛文本的主题挖掘方法
CN108710650B (zh) * 2018-05-04 2021-08-03 浙江工业大学 一种针对论坛文本的主题挖掘方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109213853B (zh) * 2018-08-16 2022-04-12 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN111968075A (zh) * 2020-07-21 2020-11-20 天津大学 一种基于高光谱的种植物成熟度检测***及方法
CN111968075B (zh) * 2020-07-21 2022-11-08 天津大学 一种基于高光谱的种植物成熟度检测***及方法
CN114579833A (zh) * 2022-03-03 2022-06-03 重庆邮电大学 一种基于主题挖掘和情感分析的微博舆情可视分析方法

Similar Documents

Publication Publication Date Title
CN104504087A (zh) 一种基于低秩分解的精细主题挖掘方法
De Choudhury et al. Happy, nervous or surprised? classification of human affective states in social media
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
Kathuria et al. A review of tools and techniques for preprocessing of textual data
Alhumoud et al. Arabic sentiment analysis using WEKA a hybrid learning approach
Liew et al. Optimizing features in active machine learning for complex qualitative content analysis
CN105760499A (zh) 一种基于lda主题模型来分析和预测网络舆情的方法
CN103530286A (zh) 一种跨语言情感分类方法
CN103455581A (zh) 基于语义扩展的海量短文本信息过滤方法
CN104573030A (zh) 一种文本情绪预测方法及装置
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
Li Construction of Internet of Things English terms model and analysis of language features via deep learning
Speer et al. Conceptnet 5
Bayomi et al. C-hts: A concept-based hierarchical text segmentation approach
Wassie et al. A word sense disambiguation model for amharic words using semi-supervised learning paradigm
CN102622405B (zh) 基于语言实义单元数估计的短文本间文本距离的计算方法
Hidayati et al. Performance Comparison of Topic Modeling Algorithms on Indonesian Short Texts
Rockwell et al. Thinking-through the history of computer-assisted text analysis
Ba-Alwi et al. Arabic text summarization using latent semantic analysis
CN108694165A (zh) 面向产品评论的跨领域对偶情感分析方法
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150408