CN106919557A - 一种结合主题模型的文档向量生成方法 - Google Patents

一种结合主题模型的文档向量生成方法 Download PDF

Info

Publication number
CN106919557A
CN106919557A CN201710096926.9A CN201710096926A CN106919557A CN 106919557 A CN106919557 A CN 106919557A CN 201710096926 A CN201710096926 A CN 201710096926A CN 106919557 A CN106919557 A CN 106919557A
Authority
CN
China
Prior art keywords
document
word
theme
vector
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710096926.9A
Other languages
English (en)
Inventor
阳可欣
王美华
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Heng Electrical Information Polytron Technologies Inc
Sun Yat Sen University
Original Assignee
Guangdong Heng Electrical Information Polytron Technologies Inc
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Heng Electrical Information Polytron Technologies Inc, Sun Yat Sen University filed Critical Guangdong Heng Electrical Information Polytron Technologies Inc
Priority to CN201710096926.9A priority Critical patent/CN106919557A/zh
Publication of CN106919557A publication Critical patent/CN106919557A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种结合主题模型的文档向量生成方法,该方法获取文档集合并对其进行预处理,然后用LDA对文档集合进行训练,得到每篇文档中每个词的主题,并将词和主题组成<词,主题>对,将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量,该过程将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。

Description

一种结合主题模型的文档向量生成方法
技术领域
本发明涉及文档处理方法领域,更具体地,涉及一种结合主题模型的文档向量生成方法。
背景技术
文档向量是一种把文档表示成向量的方法。在一些文本分类,文本相似度计算的自然语言处理任务中,文档向量的好坏直接影响着任务的结果。因此,把一篇文档有效地表示为一个向量十分重要。最早的文档向量表示法是词袋法(Bag-of-Word,BOW),词袋法将一篇文档表示成与词汇表相同维度的向量,向量中每个位置的值即是该位置所代表的词在文档中出现的次数。这种表示方法维度高,稀疏性大,并且词与词间相互独立,词的顺序、语法、语义信息都被忽略。随着深度学习的发展,出现了基于神经网络来训练文档向量的方法。14年提出的Doc2vec文档向量模型,就是基于word2vec词向量模型,在神经网络的训练过程中添加了一个文档特征向量,在训练词向量的同时,直接训练出了文档向量。这种文档向量模型,捕捉了词间的语义和顺序信息,但是忽略了词的一词多义问题。即同一个词在不同的上下文中是表达不同的语义的,而模型中同一个词对应的是同一个向量,不能很好的表达出词的不同语义,这必将影响到文档向量的效果。
发明内容
本发明提供一种结合主题模型的文档向量生成方法,该方法能够训练出效果更好文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
为了达到上述技术效果,本发明的技术方案如下:
一种结合主题模型的文档向量生成方法,包括以下步骤:
S1:获取文档集合并对其进行预处理;
S2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题;
S3:将词和主题组成<词,主题>对;
S4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
进一步地,所述步骤S1中的预处理的过程如下:
取出文档中包含的正文文本,用以代表这个文档的内容,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是一些没有实际含义的功能词,包括’the’、’is’、’at’、’which’、’on’。
进一步地,所述步骤S2的具体过程如下:
S21:确定LDA模型中的主题数目k;
S22:对文档集中每篇文档的每个词,随机的赋一个主题;
S23:采用Gibbs Sampling扫描整个文档集,对每篇文档中的每个词,采样更新它的主题;
S24:重复Gibbs Sampling过程直至模型收敛;
S25:得到每篇文档中每个词的主题。
进一步地,步骤S3中每篇文档中的每个词和它的主题组成<词,主题>对,同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对,用来区分词的一词多义。
进一步地,步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量,来表示当前文档的其余部分信息,然后用当前文档的其余部分信息和上下文窗口的词来预测当前词,最终训练出词向量和文档向量,将<词,主题>对组成的文档集合输入到Doc2vec中,是将主题信息融入到文档向量的训练过程中,用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对,最终训练出主题词向量和主题文档向量。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法获取文档集合并对其进行预处理,然后用LDA对文档集合进行训练,得到每篇文档中每个词的主题,并将词和主题组成<词,主题>对,将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量,该过程将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
附图说明
图1为本发明方法的流程图;
图2为主题文本向量模型图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种结合主题模型的文档向量生成方法,包括以下步骤:
步骤1:获取文档集合并对其进行预处理。文档集合的来源,是多样化的,没有限制的,可以是网站新闻,也可以是电影评论、推特等等。每个文档取出其中包含的正文文本,用以代表这个文档的内容。对文档集合进行预处理,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词就是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是指一些没有实际含义的功能词,如’the’、’is’、’at’、’which’、’on’等词;
步骤2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题:
(1)确定LDA模型中的主题数目K;
(2)对文档集中每篇文档的每个词,随机的赋一个主题;
(3)计算文档主题分布θ和主题词分布公式如下:
其中,θmk为文档m生成词k的概率,为文档m生成主题k的次数,α为参数向量;为主题k生成词t的概率,为主题k生成词t的次数,β为参数向量;
(4)扫描整个文档集,对每篇文档中的每个词,用采用Gibbs Sampling公式采样更新它的主题。其中Gibbs Sampling公式如下,它正比于文档主题概率乘以主题词概率的值:
(5)重复Gibbs Sampling过程直至模型收敛;
(6)最终得到每篇文档中每个词的主题。
步骤3:将每篇文档中的每个词和它的主题组成<词,主题>对。同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对。如在句子”Thebank of a river”中,bank表达河提的含义,通过LDA学到bank为topic1,组成<bank,topic1>对,而在句子”The bank agreed further credits”中,bank表达银行的含义,通过LDA得到bank为topic2,则组成<bank,topic2>对。因此在融入主题信息后,相同的词在不同主题下将会表示成不同的<词,主题>对,可以用来区分词的一词多义。
步骤4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
如图2所示,首先需要初始化每篇文档docm的主题文档向量Dm,和每个词、主题对<wt,zt>的主题词向量wt,然后通过最大化如下的目标函数,来迭代更新主题文档向量和主题文档向量:
其中,C表示所有文档集中的<词,主题>对,p(<w,z>|D,context(<w,z>))表示用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对的概率,目标函数希望最大化这个对数概率和,其中这个概率的计算公式如下:
其中,Xw是对当前的文档向量和上下文窗口中的主题词向量做加权平均,c表示窗口大小。为了保证概率和为1,这里做了softmax归一化,U则是softmax的参数。
通过不断优化上述的目标函数,来更新主题文档向量和主题文档向量以及神经网络中的其他参数,最终保存训练得到的主题文档向量。
本发明结合LDA主题生成模型,将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种结合主题模型的文档向量生成方法,其特征在于,包括以下步骤:
S1:获取文档集合并对其进行预处理;
S2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题;
S3:将词和主题组成<词,主题>对;
S4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
2.根据权利要求1所述的结合主题模型的文档向量生成方法,其特征在于,所述步骤S1中的预处理的过程如下:
取出文档中包含的正文文本,用以代表这个文档的内容,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是一些没有实际含义的功能词,包括’the’、’is’、’at’、’which’、’on’。
3.根据权利要求2所述的结合主题模型的文档向量生成方法,其特征在于,所述步骤S2的具体过程如下:
S21:确定LDA模型中的主题数目k;
S22:对文档集中每篇文档的每个词,随机的赋一个主题;
S23:采用Gibbs Sampling扫描整个文档集,对每篇文档中的每个词,采样更新它的主题;
S24:重复Gibbs Sampling过程直至模型收敛;
S25:得到每篇文档中每个词的主题。
4.根据权利要求3所述的结合主题模型的文档向量生成方法,其特征在于,步骤S3中每篇文档中的每个词和它的主题组成<词,主题>对,同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对,用来区分词的一词多义。
5.根据权利要求4所述的结合主题模型的文档向量生成方法,其特征在于,步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量,来表示当前文档的其余部分信息,然后用当前文档的其余部分信息和上下文窗口的词来预测当前词,最终训练出词向量和文档向量,将<词,主题>对组成的文档集合输入到Doc2vec中,是将主题信息融入到文档向量的训练过程中,用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对,最终训练出主题词向量和主题文档向量。
CN201710096926.9A 2017-02-22 2017-02-22 一种结合主题模型的文档向量生成方法 Pending CN106919557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710096926.9A CN106919557A (zh) 2017-02-22 2017-02-22 一种结合主题模型的文档向量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710096926.9A CN106919557A (zh) 2017-02-22 2017-02-22 一种结合主题模型的文档向量生成方法

Publications (1)

Publication Number Publication Date
CN106919557A true CN106919557A (zh) 2017-07-04

Family

ID=59454560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710096926.9A Pending CN106919557A (zh) 2017-02-22 2017-02-22 一种结合主题模型的文档向量生成方法

Country Status (1)

Country Link
CN (1) CN106919557A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109815474A (zh) * 2017-11-20 2019-05-28 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN111339296A (zh) * 2020-02-20 2020-06-26 电子科技大学 基于在hdp模型中引入自适应窗口的文档主题提取方法
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
WO2020253583A1 (zh) * 2019-06-20 2020-12-24 首都师范大学 一种作文离题检测方法
CN113591473A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛力强: "基于神经网络的文本向量表示与建模研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815474B (zh) * 2017-11-20 2022-09-23 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN109815474A (zh) * 2017-11-20 2019-05-28 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN108090178B (zh) * 2017-12-15 2020-08-25 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***
CN108345686B (zh) * 2018-03-08 2021-12-28 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN108984526B (zh) * 2018-07-10 2021-05-07 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109492157B (zh) * 2018-10-24 2021-08-31 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN110032642B (zh) * 2019-03-26 2022-02-11 广东工业大学 基于词嵌入的流形主题模型的建模方法
WO2020253583A1 (zh) * 2019-06-20 2020-12-24 首都师范大学 一种作文离题检测方法
CN111339296A (zh) * 2020-02-20 2020-06-26 电子科技大学 基于在hdp模型中引入自适应窗口的文档主题提取方法
CN111339296B (zh) * 2020-02-20 2023-03-28 电子科技大学 基于在hdp模型中引入自适应窗口的文档主题提取方法
CN111353303B (zh) * 2020-05-25 2020-08-25 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN113591473A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法
CN113591473B (zh) * 2021-07-21 2024-03-12 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

Similar Documents

Publication Publication Date Title
CN106919557A (zh) 一种结合主题模型的文档向量生成方法
CN108073677B (zh) 一种基于人工智能的多级文本多标签分类方法及***
CN109359297B (zh) 一种关系抽取方法及***
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN106776713A (zh) 一种基于词向量语义分析的海量短文本聚类方法
CN109359291A (zh) 一种命名实体识别方法
Fahad et al. Inflectional review of deep learning on natural language processing
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN111914091A (zh) 一种基于强化学习的实体和关系联合抽取方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及***
CN105975497A (zh) 微博话题自动推荐方法及装置
CN116629275A (zh) 一种基于大数据的智能决策支持***及方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN111125370A (zh) 一种适应小样本的关系抽取方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN104077274A (zh) 一种从文档集中抽取热词短语的方法和装置
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和***
CN112131879A (zh) 一种关系抽取***、方法和装置
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704