CN108052593A - 一种基于主题词向量和网络结构的主题关键词提取方法 - Google Patents
一种基于主题词向量和网络结构的主题关键词提取方法 Download PDFInfo
- Publication number
- CN108052593A CN108052593A CN201711315360.0A CN201711315360A CN108052593A CN 108052593 A CN108052593 A CN 108052593A CN 201711315360 A CN201711315360 A CN 201711315360A CN 108052593 A CN108052593 A CN 108052593A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- theme
- subject
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题词向量和网络结构的主题关键词提取方法,具体涉及从文本中提取关键词技术领域。该基于主题词向量和网络结构的主题关键词提取方法基于LDA主题模型对文本语料进行主题聚类,并获得每个主题中与该主题相关度为top100的100个关键词;利用word2vec将文本语料中的每个词表示为一个词向量,通过计算获得每两个词之间的语义相似度,分别计算出与关键词中的每个关键词在语义上相似度top5的词,关键词和每个关键词在语义上相似度top5的词共同组成新的关键词集合;构建关键词网络,并获得每个集合top 20的词作为该主题的关键词。该方法既能对文档中词频较高的关键词进行提取,又可以有效地发现词频较低但是与主题关系强的关键词。
Description
技术领域
本发明涉及从文本中提取关键词技术领域,具体涉及一种基于主题词向量和网络结构的主题关键词提取方法。
背景技术
随着表示学习技术在自然语言处理领域广泛应用,应用word2vec进行词语的向量表示,能够很好的描述和获取词语的语义及语法规则,同时,主题模型能够很好的解释文档层级的主题聚集情况。因此,目前融合主题模型及主题关键字的词向量表示的研究越来越广泛。
LDA主题模型:在提出的各种主题模型中,LDA是能够概括主题分布的生成模型。LDA是一个三级分层的贝叶斯模型,其中集合的每个项目被建模为潜在的主题集合上的有限混合,相反,每个主题也被模拟为一组潜在的主题概率的无限混合。在文本建模的上下文中,主题概率提供了文档的显示表示。LDA的建模过程可以被描述为每个资源(即P(z|d))找到对应的主题混合,每个主题由另一概率分布(即P(t|z))来描述。这可以被形式化地表示为:
其中,P(ti|d)是给定文档d的第i项上的概率,zi是潜在主题。P(ti|zj=j)是主题j中ti的概率。P(zj=j|d)是文档在主题j上的概率。潜在主题的Z的数量必须提前定义。LDA使用Dirichlet先验分布和确定的主题数来从未标记的语料库中估计主题词分布P(t|z)和文档主题分布P(z|d)。
LDA是使用范围很广的主题模型,多数其他的主题模型都是基于LDA进行扩展。但从整体来看LDA抽取的关键词一般过于宽泛,不能较好反映文章主题,因此本发明提出的方法是创新的。
word embedding:词嵌入是根据句法和语义信息将每个词编码为连续向量(词向量),因此相似的词在其词向量上的距离是相近的。从自然文本中统计并建立一个语言模型并获得词向量后,可以将其作为神经网络的输入来进行句法分析、情感分析等,也可以作为辅助特征扩充现有模型。但是仅有词向量是无法识别文本预料中的主题的,必须将其与主题模型相结合。
现有无监督的关键词提取技术主要包括TF-IDF,Topic model,TextRank等方案。其技术缺点主要体现在以下几个方面:
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,是对搜索关键词重要性的度量,应用于文本关键词的提取同样获得较好的效果。但是TF-IDF是基于词频和关键词概率分布的交叉熵,即是不考虑词出现的先后顺序的,没有考虑文本中每个词与上下文之间的关系。
广泛使用的Topic model如LDA等能较好的从文档中挖掘出主题,但是其抽取的关键词过为宽泛,有很多是词频较高但与主题无关的词,不能较好的反应主题,所以作为关键词是不合适的。
TextRank算法是一种用于文本的基于图的排序算法,将文本拆分为句子,利用词在文本中上下文的共现关系来建立图模型,根据图模型中的PageRank值来提取关键词。该算法在考虑了词频和词共现关系的基础上,能简洁有效的提取单篇文档的关键词,但是无法对多篇文档的主题进行识别和聚类,因而无法对特定主题下文档的关键词进行提取。
发明内容
本发明的目的是针对上述不足,提出了一种将主题模型LDA与Word embedding相结合,利用相似度的网络传播来提取同一主题文本的关键词,既能对文档中词频较高的关键词进行提取,又可以有效地发现词频较低但是主题关系强的关键词的关键词提取方法。
本发明具体采用如下技术方案:
如图1所示,一种基于主题词向量和网络结构的主题关键词提取方法,具体包括:
对原始的文本语料进行分词;
基于LDA主题模型对文本语料进行主题聚类,并获得每个主题中与该主题相关度为top100的关键词集合KeywordsSet1={k1,...,k100};
利用word2vec将文本语料中的每个词表示为一个词向量,通过计算词向量之间的余弦值获得每两个词之间的语义相似度;
分别计算出与关键词集合KeywordsSet1中的每个关键词在语义上相似度top5的词,关键词集合KeywordsSet1中的词及其在语义上相似度top5的词共同组成新的关键词集合KeywordsSet2;
以关键词集合KeywordsSet2中的每个关键词为节点,词与词之间的语义相似度的倒数为边的权重,构建关键词网络,并根据每个节点的PageRank值获得关键词集合KeywordsSet2中top20的词作为该主题的关键词,构成最终的关键词集合KeyordsSetfinal。
优选地,所述分词,即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取,分词的结果作为word2vec的输入时去掉特殊符号;作为LDA的输入时,去掉虚词、无法作为主题关键词的地名以及与主题无关的重复的介词。
优选地,基于LDA主题模型对文本语料进行主题聚类,在语言建模中使用perplexity来衡量建模效果好坏,即较低的perplexity表示更好的泛化性能,perplexity计算式如下:
其中,P(wi|tj)是词wi在主题tj上的分布,P(tj|d)是主题tj在文档d上的分布,N是语料库中无重复的词总数,K是主题数,i=1,...,N,j=1,...,K。
优选地,在所述词向量生成过程中,以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。
优选地,所述关键词网络构建过程中,构建步骤具体包括:
S1:利用词向量之间的余弦关系,计算在同一主题下与主题聚类步骤中获得的初始关键词语义相似度top5的词,去重并与关键词集合KeywordsSet1形成新的关键词集合KeywordsSet2;
S2:计算每个主题下,关键词集合KeywordsSet2中每个词两两之间的相似度,其倒数作为两点之间的权重;
S3:设置阈值,过滤相似度低于阈值的边;
S4:构建每个主题的关键词网络;
S5:主题关键词提取:关键词网络构建完成后,计算每个主题网络中PageRank值从高到低的top20个节点,将其对应的词作为该主题的关键词集合KeywordsSetfinal。
本发明具有如下有益效果:
本发明首先基于LDA主题模型对文本语料进行聚类;其次,利用word2vec将文本预料中的每个词表示为一个词向量;然后,获得每个关键词在该主题的文档中相似度top5的词,共同组成新的关键词集合。最后,以关键词为节点,词之间的相似度为边的权重,构建关键词网络,获得网络的核心节点作为该主题的关键词;
该方法将主题模型LDA与Word embedding相结合,利用相似度的网络传播来提取同一主题文本的关键词,不仅可以对文档中词频较高的关键词进行提取,同时可以有效地发现词频较低但是主题关系强的关键词;
该方法在考虑词频的基础上根据词向量关系对关键词进行二次发现,将词频不高但语义相近的词纳入关键词的备选集合中,可以合理的扩大关键词的选择范围,使得最终获得的同一主题下的关键词在语义上联系更紧密;
该方法引入词向量并基于词向量之间的距离进行网络构建能更准确地找出在同一主题下词义相近的关键词,从而获得更准确的结果。
附图说明
图1为基于主题词向量和网络结构的主题关键词提取方法流程图;
图2为困惑度(perplexity)曲线图;
图3为教学类通知的关键词分布图;
图4为评优类通知的关键词分布图;
图5为图书馆类通知的关键词分布图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图1所示,一种基于主题词向量和网络结构的主题关键词提取方法,具体包括:
对原始的文本语料进行分词;
基于LDA主题模型对文本语料进行主题聚类,并获得每个主题中与该主题相关度为top100的关键词集合KeywordsSet1={k1,...,k100};
利用word2vec将文本语料中的每个词表示为一个词向量,通过计算词向量之间的余弦值获得每两个词之间的语义相似度;
分别计算出与关键词集合KeywordsSet1中的每个关键词在语义上相似度top5的词,关键词集合KeywordsSet1中的词及其在语义上相似度top5的词共同组成新的关键词集合KeywordsSet2;
以关键词集合KeywordsSet2中的每个关键词为节点,词与词之间的语义相似度的倒数为边的权重,构建关键词网络,并根据每个节点的PageRank值获得关键词集合KeywordsSet2中top20的词作为该主题的关键词,构成最终的关键词集合KeywordsSetfinal。
分词,即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取,分词的结果作为word2vec的输入时去掉特殊符号;作为LDA的输入时,去掉虚词、无法作为主题关键词的地名以及大量与主题无关的重复的介词。
如图2所述,基于LDA主题模型对文本语料进行主题聚类,在语言建模中使用perplexity来衡量建模效果好坏,即较低的perplexity表示更好的泛化性能,perplexity计算式如下:
其中,P(wi|tj)是词wi在主题tj上的分布,P(tj|d)是主题tj在文档d上的分布,N是语料库中无重复的词总数,K是主题数,i=1,...,N,j=1,...,K。改变topic数量,通过计算不同主题数下数据集的perplexity来获得最佳主题数目。
选择曲线拐点处的数量值能够使得数据集的perplexity值较小且主题数量不至于过多。然后获得每篇文档的主题分布和每个主题下的词分布,选择每个主题下LDA值排名top100个词作为初始的关键词集合。
在词向量生成过程中,以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。本方案中选择CBOW模型将窗口大小设置为5来预测当前枢纽词的概率,并选择负采样算法通过逻辑回归来区分目标词以及抽取噪声分布。表1(word2vec模型训练参数设置)给出了训练过程中的关键参数的说明和默认值。
表1
最终可以获得文本中所有词的高维向量表示,并可以利用该词向量模型获得所有词之间的相似度关系,即语义上的距离。
关键词网络构建过程中,构建步骤具体包括:
S1:利用词向量之间的余弦关系,计算在同一主题下与主题聚类步骤中获得的初始关键词语义相似度top5的词,去重并与关键词集合KeywordsSet1形成新的关键词集合KeywordsSet2;
S2:计算每个主题下,关键词集合KeywordsSet2中每个词两两之间的相似度,其倒数作为两点之间的权重;
S3:设置阈值,过滤相似度低于阈值的边;阈值选择不同的值对应的不同结果如表2:
表2
1/similarity | Topic similarity |
0.05 | 0.41 |
0.1 | 0.44 |
0.15 | 0.48 |
0.2 | 0.49 |
0.25 | 0.52 |
0.3 | 0.59 |
0.35 | 0.55 |
0.4 | 0.57 |
0.45 | 0.56 |
0.5 | 0.52 |
0.55 | 0.50 |
由表可以看出阈值选择0.3(即similarity>3.33)时同一主题下关键词之间的凝聚度更高。
S4:构建每个主题的关键词网络;
S5:主题关键词提取:关键词网络构建完成后,计算每个主题网络中PageRank值从高到低的top20个节点,将其对应的词作为该主题的关键词组成新的关键词集合KeywordsSetfinal。
如图3-图5所示,本发明的方案通过实验的方式,先爬取了某高校2002年至2017年共9802条校内公告的新闻,分词处理后,经过主题挖掘、词向量计算、关键词网络构建等步骤,对主题关键词进行提取,并将结果与传统主题模型LDA获得的关键词进行比较。
其中颜色深的词表示能较好反应主题的词,颜色越浅表示该词与主题的相关程度越低。字越大表示在该方法下排名越靠前。可以看出,使用本发明的方法可以在综合词频和语义的情况下更好地提取出能代表该主题的关键词。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (5)
1.一种基于主题词向量和网络结构的主题关键词提取方法,其特征在于,具体包括:
对原始的文本语料进行分词;
基于LDA主题模型对文本语料进行主题聚类,并获得每个主题中与该主题相关度为top100的关键词集合KeywordsSet1={k1,...,k100};
利用word2vec将文本语料中的每个词表示为一个词向量,通过计算词向量之间的余弦值获得每两个词之间的语义相似度;
分别计算出与关键词集合KeywordsSet1中的每个关键词在语义上相似度top5的词,关键词集合KeywordsSet1中的词及其在语义上相似度top5的词共同组成新的关键词集合KeywordsSet2;
以关键词集合KeywordsSet2中的每个关键词为节点,词与词之间的语义相似度的倒数为边的权重,构建关键词网络,并根据每个节点的PageRank值获得关键词集合KeywordsSet2中top20的词作为该主题的关键词,构成最终的关键词集合KeywordsSetfinal。
2.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法,其特征在于,所述分词,即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取,分词的结果作为word2vec的输入时去掉特殊符号;作为LDA的输入时,去掉虚词、无法作为主题关键词的地名以及与主题无关的重复的介词。
3.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法,其特征在于,基于LDA主题模型对文本语料进行主题聚类,在语言建模中使用perplexity来衡量建模效果好坏,即较低的perplexity表示更好的泛化性能,perplexity计算式如下:
<mrow>
<mi>p</mi>
<mi>e</mi>
<mi>r</mi>
<mi>p</mi>
<mi>l</mi>
<mi>e</mi>
<mi>x</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mo>=</mo>
<msup>
<mi>e</mi>
<mfrac>
<mrow>
<mo>-</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msubsup>
<mi>log&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</msubsup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>N</mi>
</mfrac>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,P(wi|tj)是词wi在主题tj上的分布,P(tj|d)是主题tj在文档d上的分布,N是语料库中无重复的词总数,K是主题数,i=1,...,N,j=1,...,K。
4.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法,其特征在于,在所述词向量生成过程中,以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。
5.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法,其特征在于,所述关键词网络构建过程中,构建步骤具体包括:
S1:利用词向量之间的余弦关系,计算在同一主题下与主题聚类步骤中获得的初始关键词语义相似度top5的词,去重并与关键词集合KeywordsSet1形成新的关键词集合KeywordsSet2;
S2:计算每个主题下,关键词集合KeywordsSet2中每个词两两之间的相似度,其倒数作为两点之间的权重;
S3:设置阈值,过滤相似度低于阈值的边;
S4:构建每个主题的关键词网络;
S5:主题关键词提取:关键词网络构建完成后,计算每个主题网络中PageRank值从高到低的top20个节点,将其对应的词作为该主题的关键词集合KeywordsSetfinal。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711315360.0A CN108052593B (zh) | 2017-12-12 | 2017-12-12 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711315360.0A CN108052593B (zh) | 2017-12-12 | 2017-12-12 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052593A true CN108052593A (zh) | 2018-05-18 |
CN108052593B CN108052593B (zh) | 2020-09-22 |
Family
ID=62124320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711315360.0A Active CN108052593B (zh) | 2017-12-12 | 2017-12-12 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108052593B (zh) |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN108984519A (zh) * | 2018-06-14 | 2018-12-11 | 华东理工大学 | 基于双模式的事件语料库自动构建方法、装置及存储介质 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及*** |
CN109284366A (zh) * | 2018-10-17 | 2019-01-29 | 徐佳慧 | 一种面向投融资机构的同质网络的构建方法及装置 |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109522928A (zh) * | 2018-10-15 | 2019-03-26 | 北京邮电大学 | 文本的主题情感分析方法、装置、电子设备及存储介质 |
CN109636645A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医保监管方法、设备、装置及计算机可读存储介质 |
CN109710759A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 文本切分方法、装置、计算机设备和可读存储介质 |
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110020034A (zh) * | 2018-06-29 | 2019-07-16 | 程宇镳 | 一种信息引证分析方法和*** |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和*** |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
CN110287321A (zh) * | 2019-06-26 | 2019-09-27 | 南京邮电大学 | 一种基于改进特征选择的电力文本分类方法 |
CN110427492A (zh) * | 2019-07-10 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 生成关键词库的方法、装置和电子设备 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
CN110717329A (zh) * | 2019-09-10 | 2020-01-21 | 上海开域信息科技有限公司 | 基于词向量进行近似搜索快速提取广告文本主题的方法 |
CN110750619A (zh) * | 2019-08-15 | 2020-02-04 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN110807326A (zh) * | 2019-10-24 | 2020-02-18 | 江汉大学 | 结合gpu-dmm与文本特征的短文本关键词提取方法 |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN110991175A (zh) * | 2019-12-10 | 2020-04-10 | 爱驰汽车有限公司 | 多模态下的文本生成方法、***、设备及存储介质 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
CN111079422A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111401040A (zh) * | 2020-03-17 | 2020-07-10 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111428489A (zh) * | 2020-03-19 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111950264A (zh) * | 2020-08-05 | 2020-11-17 | 广东工业大学 | 文本数据增强方法及知识元抽取方法 |
CN112100317A (zh) * | 2020-09-24 | 2020-12-18 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
CN110209941B (zh) * | 2019-06-03 | 2021-01-15 | 北京卡路里信息技术有限公司 | 维护推送内容池的方法、推送方法、装置、介质及服务器 |
CN112270185A (zh) * | 2020-10-29 | 2021-01-26 | 山西大学 | 一种基于主题模型的文本表示方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN113011133A (zh) * | 2021-02-23 | 2021-06-22 | 吉林大学珠海学院 | 一种基于自然语言处理的单细胞相关技术数据分析方法 |
CN113051917A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于时间窗口文本相似度的文档隐式时间推断方法 |
CN113139379A (zh) * | 2020-01-20 | 2021-07-20 | 中国电信股份有限公司 | 信息识别方法和*** |
CN113378512A (zh) * | 2021-07-05 | 2021-09-10 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及*** |
CN114358015A (zh) * | 2021-12-27 | 2022-04-15 | 南京大学 | 基于语义信息的主题识别方法与主题演化路径构建方法 |
CN114444499A (zh) * | 2021-12-21 | 2022-05-06 | 奇安信科技集团股份有限公司 | 文章画像提取方法、装置、电子设备及存储介质 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
CN116431814A (zh) * | 2023-06-06 | 2023-07-14 | 北京中关村科金技术有限公司 | 信息提取方法、装置、电子设备及可读存储介质 |
CN108829822B (zh) * | 2018-06-12 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
CN116975246A (zh) * | 2023-08-03 | 2023-10-31 | 深圳市博锐高科科技有限公司 | 一种数据采集方法、装置、芯片及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110060983A1 (en) * | 2009-09-08 | 2011-03-10 | Wei Jia Cai | Producing a visual summarization of text documents |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
-
2017
- 2017-12-12 CN CN201711315360.0A patent/CN108052593B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110060983A1 (en) * | 2009-09-08 | 2011-03-10 | Wei Jia Cai | Producing a visual summarization of text documents |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
Non-Patent Citations (3)
Title |
---|
YUJUN WEN 等: "Research on Keyword extraction based on Word2Vec weighted TextRank", 《2016 2ND IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 * |
曾庆田 等: "融合主题词嵌入和网络结构分析的主题关键词提取方法", 《数据分析与知识发现》 * |
韦强申: "领域关键词抽取:结合LDA与Word2Vec", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829822B (zh) * | 2018-06-12 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN108984519A (zh) * | 2018-06-14 | 2018-12-11 | 华东理工大学 | 基于双模式的事件语料库自动构建方法、装置及存储介质 |
CN108984519B (zh) * | 2018-06-14 | 2022-07-05 | 华东理工大学 | 基于双模式的事件语料库自动构建方法、装置及存储介质 |
CN110020034A (zh) * | 2018-06-29 | 2019-07-16 | 程宇镳 | 一种信息引证分析方法和*** |
CN110020034B (zh) * | 2018-06-29 | 2023-12-08 | 程宇镳 | 一种信息引证分析方法和*** |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及*** |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109376352B (zh) * | 2018-08-28 | 2022-11-29 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109522928A (zh) * | 2018-10-15 | 2019-03-26 | 北京邮电大学 | 文本的主题情感分析方法、装置、电子设备及存储介质 |
CN109284366A (zh) * | 2018-10-17 | 2019-01-29 | 徐佳慧 | 一种面向投融资机构的同质网络的构建方法及装置 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109492157B (zh) * | 2018-10-24 | 2021-08-31 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109636645A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医保监管方法、设备、装置及计算机可读存储介质 |
CN109710759A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 文本切分方法、装置、计算机设备和可读存储介质 |
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN109885831B (zh) * | 2019-01-30 | 2023-06-02 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110442855B (zh) * | 2019-04-10 | 2023-11-07 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110046228B (zh) * | 2019-04-18 | 2021-06-11 | 合肥工业大学 | 短文本主题识别方法和*** |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和*** |
CN110209941B (zh) * | 2019-06-03 | 2021-01-15 | 北京卡路里信息技术有限公司 | 维护推送内容池的方法、推送方法、装置、介质及服务器 |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
CN110287321A (zh) * | 2019-06-26 | 2019-09-27 | 南京邮电大学 | 一种基于改进特征选择的电力文本分类方法 |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
CN110472005B (zh) * | 2019-06-27 | 2023-09-15 | 中山大学 | 一种无监督关键词提取方法 |
CN110427492B (zh) * | 2019-07-10 | 2023-08-15 | 创新先进技术有限公司 | 生成关键词库的方法、装置和电子设备 |
CN110427492A (zh) * | 2019-07-10 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 生成关键词库的方法、装置和电子设备 |
CN110750619B (zh) * | 2019-08-15 | 2024-05-28 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN110750619A (zh) * | 2019-08-15 | 2020-02-04 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN110717329B (zh) * | 2019-09-10 | 2023-06-16 | 上海开域信息科技有限公司 | 基于词向量进行近似搜索快速提取广告文本主题的方法 |
CN110717329A (zh) * | 2019-09-10 | 2020-01-21 | 上海开域信息科技有限公司 | 基于词向量进行近似搜索快速提取广告文本主题的方法 |
CN110807326A (zh) * | 2019-10-24 | 2020-02-18 | 江汉大学 | 结合gpu-dmm与文本特征的短文本关键词提取方法 |
CN110807326B (zh) * | 2019-10-24 | 2023-04-28 | 江汉大学 | 结合gpu-dmm与文本特征的短文本关键词提取方法 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110851570B (zh) * | 2019-11-14 | 2023-04-18 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110991175A (zh) * | 2019-12-10 | 2020-04-10 | 爱驰汽车有限公司 | 多模态下的文本生成方法、***、设备及存储介质 |
CN110991175B (zh) * | 2019-12-10 | 2024-04-09 | 爱驰汽车有限公司 | 多模态下的文本生成方法、***、设备及存储介质 |
CN111079422B (zh) * | 2019-12-13 | 2023-07-14 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111079422A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111078838B (zh) * | 2019-12-13 | 2023-08-18 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
US11580303B2 (en) | 2019-12-13 | 2023-02-14 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and device for keyword extraction and storage medium |
EP3835995A1 (en) * | 2019-12-13 | 2021-06-16 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and device for keyword extraction and storage medium |
CN113139379A (zh) * | 2020-01-20 | 2021-07-20 | 中国电信股份有限公司 | 信息识别方法和*** |
CN113139379B (zh) * | 2020-01-20 | 2023-12-22 | 中国电信股份有限公司 | 信息识别方法和*** |
CN111401040A (zh) * | 2020-03-17 | 2020-07-10 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111401040B (zh) * | 2020-03-17 | 2021-06-18 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111428489A (zh) * | 2020-03-19 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111428489B (zh) * | 2020-03-19 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111950264A (zh) * | 2020-08-05 | 2020-11-17 | 广东工业大学 | 文本数据增强方法及知识元抽取方法 |
CN111950264B (zh) * | 2020-08-05 | 2024-04-26 | 广东工业大学 | 文本数据增强方法及知识元抽取方法 |
CN112100317B (zh) * | 2020-09-24 | 2022-10-14 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
CN112100317A (zh) * | 2020-09-24 | 2020-12-18 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
CN112270185A (zh) * | 2020-10-29 | 2021-01-26 | 山西大学 | 一种基于主题模型的文本表示方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN113011133A (zh) * | 2021-02-23 | 2021-06-22 | 吉林大学珠海学院 | 一种基于自然语言处理的单细胞相关技术数据分析方法 |
CN113051917A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于时间窗口文本相似度的文档隐式时间推断方法 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113407679B (zh) * | 2021-06-30 | 2023-10-03 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113378512A (zh) * | 2021-07-05 | 2021-09-10 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113378512B (zh) * | 2021-07-05 | 2023-05-26 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及*** |
CN114444499A (zh) * | 2021-12-21 | 2022-05-06 | 奇安信科技集团股份有限公司 | 文章画像提取方法、装置、电子设备及存储介质 |
CN114358015A (zh) * | 2021-12-27 | 2022-04-15 | 南京大学 | 基于语义信息的主题识别方法与主题演化路径构建方法 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
US20240046119A1 (en) * | 2022-06-23 | 2024-02-08 | Guangzhou University | Value chain knowledge discovery method under personalized customization |
CN116431814B (zh) * | 2023-06-06 | 2023-09-05 | 北京中关村科金技术有限公司 | 信息提取方法、装置、电子设备及可读存储介质 |
CN116431814A (zh) * | 2023-06-06 | 2023-07-14 | 北京中关村科金技术有限公司 | 信息提取方法、装置、电子设备及可读存储介质 |
CN116975246A (zh) * | 2023-08-03 | 2023-10-31 | 深圳市博锐高科科技有限公司 | 一种数据采集方法、装置、芯片及终端 |
CN116975246B (zh) * | 2023-08-03 | 2024-04-26 | 深圳市博锐高科科技有限公司 | 一种数据采集方法、装置、芯片及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN108052593B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及*** | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
Thakkar et al. | Graph-based algorithms for text summarization | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Jafari et al. | Automatic text summarization using fuzzy inference | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
CN110222172B (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN111625622B (zh) | 领域本体构建方法、装置、电子设备及存储介质 | |
Qiu et al. | Advanced sentiment classification of *** microblogs on smart campuses based on multi-feature fusion | |
Subramaniam et al. | Test model for rich semantic graph representation for Hindi text using abstractive method | |
Campbell et al. | Content+ context networks for user classification in twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |