CN106919557A - 一种结合主题模型的文档向量生成方法 - Google Patents
一种结合主题模型的文档向量生成方法 Download PDFInfo
- Publication number
- CN106919557A CN106919557A CN201710096926.9A CN201710096926A CN106919557A CN 106919557 A CN106919557 A CN 106919557A CN 201710096926 A CN201710096926 A CN 201710096926A CN 106919557 A CN106919557 A CN 106919557A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- theme
- vector
- generation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种结合主题模型的文档向量生成方法,该方法获取文档集合并对其进行预处理,然后用LDA对文档集合进行训练,得到每篇文档中每个词的主题,并将词和主题组成<词,主题>对,将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量,该过程将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
Description
技术领域
本发明涉及文档处理方法领域,更具体地,涉及一种结合主题模型的文档向量生成方法。
背景技术
文档向量是一种把文档表示成向量的方法。在一些文本分类,文本相似度计算的自然语言处理任务中,文档向量的好坏直接影响着任务的结果。因此,把一篇文档有效地表示为一个向量十分重要。最早的文档向量表示法是词袋法(Bag-of-Word,BOW),词袋法将一篇文档表示成与词汇表相同维度的向量,向量中每个位置的值即是该位置所代表的词在文档中出现的次数。这种表示方法维度高,稀疏性大,并且词与词间相互独立,词的顺序、语法、语义信息都被忽略。随着深度学习的发展,出现了基于神经网络来训练文档向量的方法。14年提出的Doc2vec文档向量模型,就是基于word2vec词向量模型,在神经网络的训练过程中添加了一个文档特征向量,在训练词向量的同时,直接训练出了文档向量。这种文档向量模型,捕捉了词间的语义和顺序信息,但是忽略了词的一词多义问题。即同一个词在不同的上下文中是表达不同的语义的,而模型中同一个词对应的是同一个向量,不能很好的表达出词的不同语义,这必将影响到文档向量的效果。
发明内容
本发明提供一种结合主题模型的文档向量生成方法,该方法能够训练出效果更好文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
为了达到上述技术效果,本发明的技术方案如下:
一种结合主题模型的文档向量生成方法,包括以下步骤:
S1:获取文档集合并对其进行预处理;
S2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题;
S3:将词和主题组成<词,主题>对;
S4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
进一步地,所述步骤S1中的预处理的过程如下:
取出文档中包含的正文文本,用以代表这个文档的内容,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是一些没有实际含义的功能词,包括’the’、’is’、’at’、’which’、’on’。
进一步地,所述步骤S2的具体过程如下:
S21:确定LDA模型中的主题数目k;
S22:对文档集中每篇文档的每个词,随机的赋一个主题;
S23:采用Gibbs Sampling扫描整个文档集,对每篇文档中的每个词,采样更新它的主题;
S24:重复Gibbs Sampling过程直至模型收敛;
S25:得到每篇文档中每个词的主题。
进一步地,步骤S3中每篇文档中的每个词和它的主题组成<词,主题>对,同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对,用来区分词的一词多义。
进一步地,步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量,来表示当前文档的其余部分信息,然后用当前文档的其余部分信息和上下文窗口的词来预测当前词,最终训练出词向量和文档向量,将<词,主题>对组成的文档集合输入到Doc2vec中,是将主题信息融入到文档向量的训练过程中,用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对,最终训练出主题词向量和主题文档向量。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法获取文档集合并对其进行预处理,然后用LDA对文档集合进行训练,得到每篇文档中每个词的主题,并将词和主题组成<词,主题>对,将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量,该过程将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
附图说明
图1为本发明方法的流程图;
图2为主题文本向量模型图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种结合主题模型的文档向量生成方法,包括以下步骤:
步骤1:获取文档集合并对其进行预处理。文档集合的来源,是多样化的,没有限制的,可以是网站新闻,也可以是电影评论、推特等等。每个文档取出其中包含的正文文本,用以代表这个文档的内容。对文档集合进行预处理,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词就是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是指一些没有实际含义的功能词,如’the’、’is’、’at’、’which’、’on’等词;
步骤2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题:
(1)确定LDA模型中的主题数目K;
(2)对文档集中每篇文档的每个词,随机的赋一个主题;
(3)计算文档主题分布θ和主题词分布公式如下:
其中,θmk为文档m生成词k的概率,为文档m生成主题k的次数,α为参数向量;为主题k生成词t的概率,为主题k生成词t的次数,β为参数向量;
(4)扫描整个文档集,对每篇文档中的每个词,用采用Gibbs Sampling公式采样更新它的主题。其中Gibbs Sampling公式如下,它正比于文档主题概率乘以主题词概率的值:
(5)重复Gibbs Sampling过程直至模型收敛;
(6)最终得到每篇文档中每个词的主题。
步骤3:将每篇文档中的每个词和它的主题组成<词,主题>对。同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对。如在句子”Thebank of a river”中,bank表达河提的含义,通过LDA学到bank为topic1,组成<bank,topic1>对,而在句子”The bank agreed further credits”中,bank表达银行的含义,通过LDA得到bank为topic2,则组成<bank,topic2>对。因此在融入主题信息后,相同的词在不同主题下将会表示成不同的<词,主题>对,可以用来区分词的一词多义。
步骤4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
如图2所示,首先需要初始化每篇文档docm的主题文档向量Dm,和每个词、主题对<wt,zt>的主题词向量wt,然后通过最大化如下的目标函数,来迭代更新主题文档向量和主题文档向量:
其中,C表示所有文档集中的<词,主题>对,p(<w,z>|D,context(<w,z>))表示用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对的概率,目标函数希望最大化这个对数概率和,其中这个概率的计算公式如下:
其中,Xw是对当前的文档向量和上下文窗口中的主题词向量做加权平均,c表示窗口大小。为了保证概率和为1,这里做了softmax归一化,U则是softmax的参数。
通过不断优化上述的目标函数,来更新主题文档向量和主题文档向量以及神经网络中的其他参数,最终保存训练得到的主题文档向量。
本发明结合LDA主题生成模型,将文档中词的主题信息融入到文档向量的训练过程中,能够训练出包含主题信息的主题文档向量,从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种结合主题模型的文档向量生成方法,其特征在于,包括以下步骤:
S1:获取文档集合并对其进行预处理;
S2:用LDA对文档集合进行训练,得到每篇文档中每个词的主题;
S3:将词和主题组成<词,主题>对;
S4:将<词,主题>对组成的文档集合输入到Doc2vec文档向量模型中,训练生成主题文档向量。
2.根据权利要求1所述的结合主题模型的文档向量生成方法,其特征在于,所述步骤S1中的预处理的过程如下:
取出文档中包含的正文文本,用以代表这个文档的内容,去除文档中的所有标点符号;去除文档中所有的低频词,阈值设为5,低频词是在整个文档集合出现次数小小于5次的词;去除所有的停用词,停用词是一些没有实际含义的功能词,包括’the’、’is’、’at’、’which’、’on’。
3.根据权利要求2所述的结合主题模型的文档向量生成方法,其特征在于,所述步骤S2的具体过程如下:
S21:确定LDA模型中的主题数目k;
S22:对文档集中每篇文档的每个词,随机的赋一个主题;
S23:采用Gibbs Sampling扫描整个文档集,对每篇文档中的每个词,采样更新它的主题;
S24:重复Gibbs Sampling过程直至模型收敛;
S25:得到每篇文档中每个词的主题。
4.根据权利要求3所述的结合主题模型的文档向量生成方法,其特征在于,步骤S3中每篇文档中的每个词和它的主题组成<词,主题>对,同一个词在不同上下文中表达不同词义时,会有不同的主题,因此会组成不同的<词,主题>对,用来区分词的一词多义。
5.根据权利要求4所述的结合主题模型的文档向量生成方法,其特征在于,步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量,来表示当前文档的其余部分信息,然后用当前文档的其余部分信息和上下文窗口的词来预测当前词,最终训练出词向量和文档向量,将<词,主题>对组成的文档集合输入到Doc2vec中,是将主题信息融入到文档向量的训练过程中,用当前文档的其余部分信息和上下文窗口的<词,主题>对来预测当前的<词,主题>对,最终训练出主题词向量和主题文档向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710096926.9A CN106919557A (zh) | 2017-02-22 | 2017-02-22 | 一种结合主题模型的文档向量生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710096926.9A CN106919557A (zh) | 2017-02-22 | 2017-02-22 | 一种结合主题模型的文档向量生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106919557A true CN106919557A (zh) | 2017-07-04 |
Family
ID=59454560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710096926.9A Pending CN106919557A (zh) | 2017-02-22 | 2017-02-22 | 一种结合主题模型的文档向量生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919557A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090178A (zh) * | 2017-12-15 | 2018-05-29 | 北京锐安科技有限公司 | 一种文本数据分析方法、装置、服务器和存储介质 |
CN108345686A (zh) * | 2018-03-08 | 2018-07-31 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及*** |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109815474A (zh) * | 2017-11-20 | 2019-05-28 | 深圳市腾讯计算机***有限公司 | 一种词序列向量确定方法、装置、服务器及存储介质 |
CN110032642A (zh) * | 2019-03-26 | 2019-07-19 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
CN111339296A (zh) * | 2020-02-20 | 2020-06-26 | 电子科技大学 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
WO2020253583A1 (zh) * | 2019-06-20 | 2020-12-24 | 首都师范大学 | 一种作文离题检测方法 |
CN113591473A (zh) * | 2021-07-21 | 2021-11-02 | 西北工业大学 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
-
2017
- 2017-02-22 CN CN201710096926.9A patent/CN106919557A/zh active Pending
Non-Patent Citations (1)
Title |
---|
牛力强: "基于神经网络的文本向量表示与建模研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815474B (zh) * | 2017-11-20 | 2022-09-23 | 深圳市腾讯计算机***有限公司 | 一种词序列向量确定方法、装置、服务器及存储介质 |
CN109815474A (zh) * | 2017-11-20 | 2019-05-28 | 深圳市腾讯计算机***有限公司 | 一种词序列向量确定方法、装置、服务器及存储介质 |
CN108090178B (zh) * | 2017-12-15 | 2020-08-25 | 北京锐安科技有限公司 | 一种文本数据分析方法、装置、服务器和存储介质 |
CN108090178A (zh) * | 2017-12-15 | 2018-05-29 | 北京锐安科技有限公司 | 一种文本数据分析方法、装置、服务器和存储介质 |
CN108345686A (zh) * | 2018-03-08 | 2018-07-31 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及*** |
CN108345686B (zh) * | 2018-03-08 | 2021-12-28 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及*** |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN108984526B (zh) * | 2018-07-10 | 2021-05-07 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109492157B (zh) * | 2018-10-24 | 2021-08-31 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN110032642A (zh) * | 2019-03-26 | 2019-07-19 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
CN110032642B (zh) * | 2019-03-26 | 2022-02-11 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
WO2020253583A1 (zh) * | 2019-06-20 | 2020-12-24 | 首都师范大学 | 一种作文离题检测方法 |
CN111339296A (zh) * | 2020-02-20 | 2020-06-26 | 电子科技大学 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
CN111339296B (zh) * | 2020-02-20 | 2023-03-28 | 电子科技大学 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
CN111353303B (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN113591473A (zh) * | 2021-07-21 | 2021-11-02 | 西北工业大学 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
CN113591473B (zh) * | 2021-07-21 | 2024-03-12 | 西北工业大学 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919557A (zh) | 一种结合主题模型的文档向量生成方法 | |
CN108073677B (zh) | 一种基于人工智能的多级文本多标签分类方法及*** | |
CN109359297B (zh) | 一种关系抽取方法及*** | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN106776713A (zh) | 一种基于词向量语义分析的海量短文本聚类方法 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
Fahad et al. | Inflectional review of deep learning on natural language processing | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN111914091A (zh) | 一种基于强化学习的实体和关系联合抽取方法 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN112395417A (zh) | 基于深度学习的网络舆情演化仿真方法及*** | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN116629275A (zh) | 一种基于大数据的智能决策支持***及方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
CN111125370A (zh) | 一种适应小样本的关系抽取方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN107832307B (zh) | 基于无向图与单层神经网络的中文分词方法 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN104077274A (zh) | 一种从文档集中抽取热词短语的方法和装置 | |
CN113095063A (zh) | 一种基于遮蔽语言模型的两阶段情感迁移方法和*** | |
CN112131879A (zh) | 一种关系抽取***、方法和装置 | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170704 |