CN110032642A - 基于词嵌入的流形主题模型的建模方法 - Google Patents

基于词嵌入的流形主题模型的建模方法 Download PDF

Info

Publication number
CN110032642A
CN110032642A CN201910234830.3A CN201910234830A CN110032642A CN 110032642 A CN110032642 A CN 110032642A CN 201910234830 A CN201910234830 A CN 201910234830A CN 110032642 A CN110032642 A CN 110032642A
Authority
CN
China
Prior art keywords
word
theme
distribution
parameter
manifold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910234830.3A
Other languages
English (en)
Other versions
CN110032642B (zh
Inventor
谭北海
许振豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910234830.3A priority Critical patent/CN110032642B/zh
Publication of CN110032642A publication Critical patent/CN110032642A/zh
Application granted granted Critical
Publication of CN110032642B publication Critical patent/CN110032642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言数据处理领域,提出一种基于词嵌入的流形主题模型的建模方法,包括以下步骤:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ20,C0,α及主题zdn;根据当前的先验参数计算主题‑词分布密集度κ,主题‑词分布的均值向量μ,以及文档‑主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn;执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;执行EM算法的M步,通过变分参数更新先验参数,并更新文本中每个词嵌入xdn的主题zdn;计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤二。本发明能够在流形空间中更好地捕捉词嵌入的结构信息,有效避免数据结构信息丢失的问题。

Description

基于词嵌入的流形主题模型的建模方法
技术领域
本发明涉及自然语言数据处理领域,更具体地,涉及一种基于词嵌入的流形主题模型的建模方法。
背景技术
主题模型是文本聚类技术中的一种,一般用于自动提取文本的特征以及发掘文本中潜在的语义。主题模型将文本语料的词分配到有限多个主题-词分布,并且求得每个文本的文档-主题概率分布,使文本具有更好的解释性。如LDA模型能够很好的处理传统方法无法解决的多义词和同义词等问题,有很好的解释性。但是由于LDA模型分布使用的是多项式分布,因此无法处理未录入词,且LDA模型还存在主题连贯性表现不能够满足文本聚类的要求等问题。
现有技术中,一般引入对词嵌入的分析,通过神经网络训练,将每个是离散变量的词训练成连续变量,即每个词都由一个向量表示,由于词嵌入的每个维度都刻画了词本身的特征属性,于是词嵌入能够很好地表达词语的语义。如Gaussian主题模型通过将原本在离散空间的主题-词的多项式分布,变为连续空间的多元高斯分布,能够处理未录入词,并在主题连贯性上表现良好。然而,Gaussian主题模型将词嵌入表示为欧几里得空间中的向量,在实际应用中会很大程度地丢失了数据的结构信息,如取三个区别较大的词,通过后两个词分别与第一个词计算余弦距离,有可能出现余弦距离完全相等的情况,因此在实际应用中不适合将词嵌入视为欧几里得向量。
发明内容
本发明为克服上述现有技术所述的无法处理未录入词、主题连贯性表现差、数据结构信息丢失的缺陷,提供一种基于词嵌入的流形主题模型的建模方法,能够在流形空间中更好地发现词嵌入的结构信息。
为解决上述技术问题,本发明的技术方案如下:
基于词嵌入的流形主题模型建模方法,包括以下步骤:
S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ20,C0,α;其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第d个文档的词嵌入数量;m,σ2为对数正态分布的参数,m为均值,σ2为方差;μ0,C0为vMF分布的参数,μ0为有方向单位均值向量,C0为常数密集度;α为狄利克雷分布的超参数;
S2:根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ,通过vMF分布生成主题-词分布的均值向量μ,以及通过狄利克雷分布生成文档-主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn
S3:执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;其中λd为近似文档-主题分布的参数;ψ,γ为vMF分布的参数,ψ为有方向单位均值向量,γ为密集度;ρ为近似狄利克雷分布超参数;
S4:执行EM算法的M步,通过变分参数更新先验参数,并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn
S5:计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤S2。
本技术方案中,通过采用vMF分布来描述作为有向向量的词嵌入在流形空间中的分布情况,使模型在流形空间中更好地捕捉词嵌入的结构信息。在模型建立的核心过程中,通过引入近似分布使其与原始分布最相似,再通过EM算法来保证两种分布能够越来越相似,其中首先在E步的计算过程中使用近似于原始参数的先验参数去寻找变分参数的最优解,然后在M步的计算过程中将已获得的变分参数去极大估计先验参数,从而进一步最大化模型的vLB下界,最后通过判断vLB是否达到最大值来衡量变分分布是否最接近于原始分布,从而大幅度地减少模型对参数求解的计算复杂度,最终使模型能够在流形空间的大量数据中,提高文本聚类的效率,以及提高自然语言的处理效率。
优选地,步骤S1的具体步骤如下:
S1.1:输入文档集D,对文档集D进行分词并训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;
S1.2:将所有词嵌入xdn进行归一化处理;
S1.3:初始化先验参数m,σ20,C0,α。
优选地,步骤S1.1中,通过word2vec将文档集D中的词训练成词嵌入xdn
优选地,步骤S2中的主题zdn的计算公式如下:
其中,zdn表示第d个文档中的第n个词嵌入的主题,μk表示第k个主题编号的词嵌入通过vMF分布生成主题-词分布的均值向量,κk表示第k个主题编号的词嵌入通过对数正态分布生成主题-词分布的密集度,pvMF(·)为vMF分布的分布密度函数,p(zdnd)表示文档-主题的多项式分布概率函数。
优选地,vMF分布的分布密度的计算公式如下:
其中,x为一个d维的随机单位向量,且有x∈Sd-1,S表示流形空间,||x||=1,d≥2,||μ||=1,κ≥0;cd(κ)为归一化常数,Ir(.)表示Bessel函数。
优选地,步骤S3的具体步骤包括:
S3.1:执行EM算法的E步,将已知先验参数代入由变分推断的变分参数更新公式,更新变分近似分布q的变分参数λdkkk
其中,λdk表示第d个文档中主题编号为k的概率分量,Eq(.)表示变分近似分布q;Rk为未归一化的后验均值向量,用于更新主题编号为k的变分参数ψk和γk
S3.2:计算变分近似分布q的主题编号为k的变分参数其中I(zdn=k)用于判断词嵌入xdn对应的主题zdn是否为主题k,若是则为1,若否则为0,αdk为第d个文档中维度为k的狄利克雷分布Dir(α)的超参数。
优选地,步骤S4中,执行EM算法的M步,求得最大似然函数,并将变分参数λdkk,ρ对应赋值给先验参数πd0,C0,α,即完成先验参数的更新。
优选地,步骤S5中计算变分下界vLB的公式如下:
vLB=Eq(logP(X,Z,π,u,κ|m,σ2d0,C0,α))-Eq(logq(Z,π,μ|λdkk,ρ))
其中,X表示词嵌入xdn的集合,Z表示主题zdn的集合。
与现有技术相比,本发明技术方案的有益效果是:能够在流形空间中更好地捕捉词嵌入的结构信息,很大程度上降低了参数求解的计算复杂度,使模型在海量数据度提高文本聚类的效率,且可应用于未录入词的处理,有效提高主题连贯性变现,有效避免数据结构信息丢失的问题。
附图说明
图1为本实施例的基于词嵌入的流形主题模型建模方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的基于词嵌入的流形主题模型建模方法的流程图。
S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ20,C0,α。本步骤的具体步骤如下:
S1.1:输入文档集D,对文档集D进行分词并通过word2vec将文档集D中的词训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;
S1.2:将所有词嵌入xdn进行归一化处理;
S1.3:初始化先验参数m,σ20,C0,α。
其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第d个文档的词嵌入数量;m,σ2为对数正态分布的参数,m为均值,σ2为方差;μ0,C0为vMF分布的参数,μ0为有方向单位均值向量,C0为常数密集度;α为狄利克雷分布的超参数。
S2:根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ,通过vMF分布生成主题-词分布的均值向量μ,以及通过狄利克雷分布生成文档-主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn
步骤S2中,主题zdn的计算公式如下:
其中,zdn表示第d个文档中的第n个词嵌入的主题,μk表示第k个主题编号的词嵌入通过vMF分布生成主题-词分布的均值向量,κk表示第k个主题编号的词嵌入通过对数正态分布生成主题-词分布的密集度,pvMF(·)为vMF分布的分布密度函数,p(zdnd)表示文档-主题的多项式分布概率函数。
vMF分布的分布密度的计算公式如下:
其中,x为一个d维的随机单位向量,且有x∈Sd-1,S表示流形空间,||x||=1,d≥2,||μ||=1,κ≥0;cd(κ)为归一化常数,Ir(.)表示Bessel函数。
S3:执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ。其中λd为近似文档-主题分布的参数;ψ,γ为vMF分布的参数,ψ为有方向单位均值向量,γ为密集度;ρ为近似狄利克雷分布超参数。
其具体步骤如下:
S3.1:执行EM算法的E步,将已知先验参数代入由变分推断的变分参数更新公式,更新变分近似分布q的变分参数λdkkk
其中,λdk表示第d个文档中主题编号为k的概率分量,Eq(.)表示变分近似分布q;Rk为未归一化的后验均值向量,用于更新主题编号为k的变分参数ψk和γk
S3.2:计算变分近似分布q的主题编号为k的变分参数其中I(zdn=k)用于判断词嵌入xdn对应的主题zdn是否为主题k,若是则为1,若否则为0,αdk为第d个文档中维度为k的狄利克雷分布Dir(α)的超参数。
S4:执行EM算法的M步,通过变分参数更新先验参数,并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn
步骤S4中,执行EM算法的M步,求得最大似然函数,并将变分参数λdkk,ρ对应赋值给先验参数πd0,C0,α,即完成先验参数的更新,然后,根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn
S5:计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤S2。
步骤S5中计算变分下界vLB的公式如下:
vLB=Eq(logP(X,Z,π,u,κ|m,σ2d0,C0,α))-Eq(logq(Z,π,μ|λdkk,ρ))
其中,X表示词嵌入xdn的集合,Z表示主题zdn的集合。
步骤S5中,通过最大化变分下界vLB得到模型最优参数,其推导过程如下:
根据Jesen不等式f(E(x))≥E(f(x))可得上式的下界:
在具体实施过程中,本实施例采用实验语料集Newsgroups(第三版),数据集收集了18828个不重复的文档,均匀分为20个不同主题的新闻组集合,分别通过Gaussian主题模型和本实施例的基于词嵌入的流形主题模型对语料集进行文本分析,并采用逐点互信息法PMI进行度量。
如表1所示,为Gaussian主题模型和本实施例的基于词嵌入的流形主题模型在不同主题的PMI比较数据。
表1
由对比数据可知,本实施例的基于词嵌入的流形主题模型和Gaussian主题模型在有相同主题数量的情况下,本实施例的基于词嵌入的流形主题模型的PMI得分更高,证明本实施例的基于词嵌入的流形主题模型比Gaussian主题模型更能捕捉文本数据的信息,效果更好。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.基于词嵌入的流形主题模型建模方法,其特征在于,包括以下步骤:
S1:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ20,C0,α;其中xdn表示第d∈{1,...,D}个文档中的第n∈{1,...,Nd}个词嵌入,Nd为第d个文档的词嵌入数量;m,σ2为对数正态分布的参数,m为均值,σ2为方差;μ0,C0为vMF分布的参数,μ0为有方向单位均值向量,C0为常数密集度;α为狄利克雷分布的超参数;
S2:根据当前的先验参数计算文本中每个词嵌入xdn通过对数正态分布生成主题-词分布的密集度κ,通过vMF分布生成主题-词分布的均值向量μ,以及通过狄利克雷分布生成文档-主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn
S3:执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;其中λd为近似文档-主题分布的参数;ψ,γ为vMF分布的参数,ψ为有方向单位均值向量,γ为密集度;ρ为近似狄利克雷分布超参数;
S4:执行EM算法的M步,通过变分参数更新先验参数,并根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn
S5:计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤S2。
2.根据权利要求1所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S1的具体步骤如下:
S1.1:输入文档集D,对文档集D进行分词并训练成词嵌入xdn,然后对每个词嵌入xdn分配主题编号k,其中k为正整数;
S1.2:将所有词嵌入xdn进行归一化处理;
S1.3:初始化先验参数m,σ20,C0,α。
3.根据权利要求2所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S1.1中,通过word2vec将文档集D中的词训练成词嵌入xdn
4.根据权利要求2所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S2中的主题zdn的计算公式如下:
其中,zdn表示第d个文档中的第n个词嵌入的主题,μk表示第k个主题编号的词嵌入通过vMF分布生成主题-词分布的均值向量,κk表示第k个主题编号的词嵌入通过对数正态分布生成主题-词分布的密集度,pvMF(·)为vMF分布的分布密度函数,p(zdnd)表示文档-主题的多项式分布概率函数。
5.根据权利要求4所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述vMF分布的分布密度的计算公式如下:
其中,x为一个d维的随机单位向量,且有x∈Sd-1,S表示流形空间,||x||=1,d≥2,||μ||=1,κ≥0;cd(κ)为归一化常数,Ir(.)表示Bessel函数。
6.根据权利要求4所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S3的具体步骤包括:
S3.1:执行EM算法的E步,将已知先验参数代入由变分推断的变分参数更新公式,更新变分近似分布q的变分参数λdkkk
其中,λdk表示第d个文档中主题编号为k的概率分量,Eq(.)表示变分近似分布q;Rk为未归一化的后验均值向量,用于更新主题编号为k的变分参数ψk和γk
S3.2:计算变分近似分布q的主题编号为k的变分参数其中I(zdn=k)用于判断词嵌入xdn对应的主题zdn是否为主题k,若是则为1,若否则为0,αdk为第d个文档中维度为k的狄利克雷分布Dir(α)的超参数。
7.根据权利要求6所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S4中,执行EM算法的M步,求得最大似然函数,并将变分参数λdkk,ρ对应赋值给先验参数πd0,C0,α,即完成先验参数的更新,然后,根据完成更新的先验参数更新文本中每个词嵌入xdn的主题zdn
8.根据权利要求1-7任一项所述的基于词嵌入的流形主题模型建模方法,其特征在于:所述步骤S5中计算变分下界vLB的公式如下:
vLB=Eq(logP(X,Z,π,u,κ|m,σ2d0,C0,α))-Eq(log q(Z,π,μ|λdkk,ρ))
其中,X表示词嵌入xdn的集合,Z表示主题zdn的集合。
CN201910234830.3A 2019-03-26 2019-03-26 基于词嵌入的流形主题模型的建模方法 Active CN110032642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910234830.3A CN110032642B (zh) 2019-03-26 2019-03-26 基于词嵌入的流形主题模型的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910234830.3A CN110032642B (zh) 2019-03-26 2019-03-26 基于词嵌入的流形主题模型的建模方法

Publications (2)

Publication Number Publication Date
CN110032642A true CN110032642A (zh) 2019-07-19
CN110032642B CN110032642B (zh) 2022-02-11

Family

ID=67236716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910234830.3A Active CN110032642B (zh) 2019-03-26 2019-03-26 基于词嵌入的流形主题模型的建模方法

Country Status (1)

Country Link
CN (1) CN110032642B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046134A (zh) * 2019-11-03 2020-04-21 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111611389A (zh) * 2020-06-04 2020-09-01 华侨大学 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及***
US20130262083A1 (en) * 2012-03-28 2013-10-03 John R. Hershey Method and Apparatus for Processing Text with Variations in Vocabulary Usage
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及***
CN106919557A (zh) * 2017-02-22 2017-07-04 中山大学 一种结合主题模型的文档向量生成方法
US20180054657A1 (en) * 2016-08-17 2018-02-22 International Business Machines Corporation System and method for targeting mass media ads on the television to given physical locations using online activity profiles at the locations
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108470025A (zh) * 2018-03-21 2018-08-31 北京理工大学 局部话题概率生成正则化自编码文本嵌入表示方法
US20190088262A1 (en) * 2017-09-19 2019-03-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及***
US20130262083A1 (en) * 2012-03-28 2013-10-03 John R. Hershey Method and Apparatus for Processing Text with Variations in Vocabulary Usage
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及***
US20180054657A1 (en) * 2016-08-17 2018-02-22 International Business Machines Corporation System and method for targeting mass media ads on the television to given physical locations using online activity profiles at the locations
CN106919557A (zh) * 2017-02-22 2017-07-04 中山大学 一种结合主题模型的文档向量生成方法
US20190088262A1 (en) * 2017-09-19 2019-03-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108470025A (zh) * 2018-03-21 2018-08-31 北京理工大学 局部话题概率生成正则化自编码文本嵌入表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张青等: "基于词向量和变分自动编码器的", 《河北工业科技》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046134A (zh) * 2019-11-03 2020-04-21 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111046134B (zh) * 2019-11-03 2023-06-30 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111611389A (zh) * 2020-06-04 2020-09-01 华侨大学 基于非参数vmf混合模型的文本数据聚类方法、装置及设备
CN111611389B (zh) * 2020-06-04 2022-05-27 华侨大学 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Also Published As

Publication number Publication date
CN110032642B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
US10776685B2 (en) Image retrieval method based on variable-length deep hash learning
Wang et al. Online collective matrix factorization hashing for large-scale cross-media retrieval
CN109948149B (zh) 一种文本分类方法及装置
CN109858015B (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN106383877A (zh) 一种社交媒体在线短文本聚类和话题检测方法
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的***和方法
CN107729290B (zh) 一种利用局部敏感哈希优化的超大规模图的表示学习方法
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
CN109299270B (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
US20230023271A1 (en) Method and apparatus for detecting face, computer device and computer-readable storage medium
US20220043975A1 (en) Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder
CN113220865B (zh) 一种文本相似词汇检索方法、***、介质及电子设备
WO2021169453A1 (zh) 用于文本处理的方法和装置
Zhu et al. An efficient path computing model for measuring semantic similarity using edge and density
US11748567B2 (en) Total correlation variational autoencoder strengthened with attentions for segmenting syntax and semantics
CN114565807A (zh) 训练目标图像检索模型的方法和装置
CN110032642A (zh) 基于词嵌入的流形主题模型的建模方法
Ma et al. Multi-label low-dimensional embedding with missing labels
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
Crammer et al. Scalable large-margin online learning for structured classification
US20150006151A1 (en) Model learning method
CN117349494A (zh) 空间图卷积神经网络的图分类方法、***、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant