CN107220232A - 基于人工智能的关键词提取方法及装置、设备与可读介质 - Google Patents

基于人工智能的关键词提取方法及装置、设备与可读介质 Download PDF

Info

Publication number
CN107220232A
CN107220232A CN201710220916.1A CN201710220916A CN107220232A CN 107220232 A CN107220232 A CN 107220232A CN 201710220916 A CN201710220916 A CN 201710220916A CN 107220232 A CN107220232 A CN 107220232A
Authority
CN
China
Prior art keywords
theme
word
vector
term vector
institute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710220916.1A
Other languages
English (en)
Other versions
CN107220232B (zh
Inventor
连荣忠
陈泽裕
姜迪
蒋佳军
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710220916.1A priority Critical patent/CN107220232B/zh
Publication of CN107220232A publication Critical patent/CN107220232A/zh
Priority to US15/945,611 priority patent/US20180293507A1/en
Application granted granted Critical
Publication of CN107220232B publication Critical patent/CN107220232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于人工智能的关键词提取方法及装置、设备与可读介质。其所述方法包括:基于主题模型,预测目标文档在多个主题中各主题的分布概率;计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性;其中各词语的词向量和各主题的主题向量均基于词向量模型生成;根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性,从多个词语中提取作为目标文档的关键词的词语。本发明根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性来提取关键词,从而能够使得提取的关键词与目标文档的主题更贴合,更有效,也更准确。

Description

基于人工智能的关键词提取方法及装置、设备与可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的关键词 提取方法及装置、设备与可读介质。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩 展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是 计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类 智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、 图像识别、自然语言处理和专家***等。
在当前信息***的时代,用户不可能浏览所有可能包含有相关信息的文 档,而关键词则是文档信息最重要和最简洁的一种归纳;因此,抽取文档中 的关键词给用户提供参考,对用户精准的获取信息、降低用户获取信息的成 本有着重大的意义。但是,如何从一个长文档中自动提取出极少量的最重要 的关键词是非常具有挑战性的。
通常情况下,文档的主题信息对于文档的关键词抽取有着重要的意义, 文档的关键词必然是某些与文档主题高度相关的词语。例如,对应一篇科技 类的文章,其对应的关键词更可能为“互联网”等词。现在技术中,可以采 用如下方式获取文档的关键词:具体可以利用一种主题模型如(Latent Dirichlet Allocation;LDA)模型获取文档的主题分布概率p(w|z)(例如在主 题1下,词w出现的概率)以及主题的词分布概率p(w|z)(例如在主题1下, 词w出现的概率);然后可以得到文档中每个词的生成概率p(w|d)= ∑zp(w|z)p(z|d),其中z表示主题,d表示文档,w表示某个词,然后根据 文档中每个词的生成概率,可以选择最大的K个词作为文档的关键词。其中 主题的词分布概率p(w|z)是根据预设的包含各种主题的文档的文档库中统计 出来的每个词在各种主题下出现的概率。
但是,基于上述的关键词的提取方法存在着对高频词严重的倾向,因为 在每个主题下,如果该词出现的次数更多的话,那么对应的概率就越高,所 以基于上述的公式进行计算,高频词的生成概率会更加大,从而导致召回的 结果大部分都是某个主题下的高频词。然而高频词在不同文档当中出现得都 很广泛,在很多时候并不是好的关键词例如文档中的“我们”、“你们”等 之类的词语,因此,现有技术的关键词的提取方案不能获取有效地关键词, 提取的关键词的准确性较差。
【发明内容】
本发明提供了一种基于人工智能的关键词提取方法及装置、设备与可读 介质,用于提高提取的关键词的准确性。
本发明提供一种基于人工智能的关键词提取方法,所述方法包括:
基于主题模型,预测目标文档在多个主题中的各所述主题中的分布概率;
计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各 所述主题的主题向量之间的相关性;其中各所述词语的词向量和各所述主题的 主题向量均基于词向量模型生成;
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别 与所述多个主题中各所述主题的主题向量之间的相关性,从所述多个词语中提 取作为所述目标文档的关键词的词语。
进一步可选地,如上所述的方法中,根据各所述词语在各所述主题中的分 布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量 之间的相关性,从所述多个词语中提取作为所述目标文档的关键词的词语,具 体包括:
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别 与所述多个主题中各所述主题的主题向量之间的相关性,计算各所述词语在所 述目标文档中的生成概率;
根据各所述词语在所述目标文档中的生成概率,从所述多个词语中提取作 为所述目标文档的关键词的词语。
进一步可选地,如上所述的方法中,计算所述目标文档的多个词语中各词 语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性之前, 所述方法还包括:
从预设的词料库中获取各所述词语对应的词料的词向量;
从预设的主题向量库中获取各所述主题的主题向量。
进一步可选地,如上所述的方法中,从预设的词料库中获取各所述词语对 应的词料的词向量之前,所述方法还包括:
根据预设的包括多个文档的文档库,生成包括数个词料的词料库;
根据所述词料库中的各所述词料以及各所述词料在所述文档库中的各文档 中与其它所述词料的共现信息,训练所述词向量模型和各所述词料的词向量;
将各所述词料的词向量存储在所述词料库中。
进一步可选地,如上所述的方法中,从预设的主题向量库中获取各所述主 题的主题向量之前,所述方法还包括:
获取各所述词料对应的主题标识;
根据所述词料库中各所述词料的词向量、各所述词料对应的主题标识以及 训练后的所述词向量模型,训练各所述主题标识对应的主题的主题向量;
将各所述主题的主题向量存储在所述主题向量库中。
本发明提供一种基于人工智能的关键词提取装置,所述装置包括:
预测模块,用于基于主题模型,预测目标文档在多个主题中的各所述主题 中的分布概率;
计算模块,用于计算所述目标文档的多个词语中各词语的词向量分别与所 述多个主题中各所述主题的主题向量之间的相关性;其中各所述词语的词向量 和各所述主题的主题向量均基于词向量模型生成;
提取模块,用于根据各所述词语在各所述主题中的分布概率以及各所述词 语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,从所 述多个词语中提取作为所述目标文档的关键词的词语。
进一步可选地,如上所述的装置中,所述提取模块,具体用于:
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别 与所述多个主题中各所述主题的主题向量之间的相关性,计算各所述词语在所 述目标文档中的生成概率;
根据各所述词语在所述目标文档中的生成概率,从所述多个词语中提取作 为所述目标文档的关键词的词语。
进一步可选地,如上所述的装置中,还包括:
获取模块,用于从预设的词料库中获取各所述词语对应的词料的词向量;
所述获取模块,还用于从预设的主题向量库中获取各所述主题的主题向量。
进一步可选地,如上所述的装置中,还包括:
生成模块,用于根据预设的包括多个文档的文档库,生成包括数个词料的 词料库;
训练模块,用于根据所述词料库中的各所述词料以及各所述词料在所述文 档库中的各文档中与其它所述词料的共现信息,训练所述词向量模型和各所述 词料的词向量;
存储模块,用于将各所述词料的词向量存储在所述词料库中。
进一步可选地,如上所述的装置中:
所述获取模块,还用于获取各所述词料对应的主题标识;
所述训练模块,还用于根据所述词料库中各所述词料的词向量、各所述词 料对应的主题标识以及训练后的所述词向量模型,获取各所述主题标识对应的 主题的主题向量;
所述存储模块,还用于将各所述主题的主题向量存储在所述主题向量库中。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现如上所述的基于人工智能的关键词提取方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处 理器执行时实现如上所述的基于人工智能的关键词提取方法。
本发明的基于人工智能的关键词提取方法及装置、设备与可读介质,通过 基于主题模型,预测目标文档在多个主题中的各主题中的分布概率;计算目标 文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的 相关性;其中各词语的词向量和各主题的主题向量均基于词向量模型生成;根 据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题 的主题向量之间的相关性,从多个词语中提取作为目标文档的关键词的词语。 本实施例通过采用上述技术方案,提取的关键词不是高频词,而是根据各词语 在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向 量之间的相关性来提取,从而能够使得提取的关键词与目标文档的主题更贴合, 更有效,也更准确。
【附图说明】
图1为本发明的基于人工智能的关键词提取方法实施例的流程图。
图2为本发明的基于人工智能的关键词提取装置实施例一的结构图。
图3为本发明的基于人工智能的关键词提取装置实施例二的结构图。
图4为本发明的计算机设备实施例的结构图。
图5为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。
图1为本发明的基于人工智能的关键词提取方法实施例的流程图。如图1 所示,本实施例的基于人工智能的关键词提取方法,具体可以包括如下步骤:
100、基于主题模型,预测目标文档在多个主题中的各主题中的分布概率;
本实施例的基于人工智能的关键词提取方法的执行主体为基于人工智能的 关键词提取装置,该基于人工智能的关键词提取装置可以为一电子的实体装置, 也可以为采用软件集成的装置。
本实施例的基于人工智能的关键词提取方法可以应用于各种如新闻之类的 文档应用(Application;App)中,以提取每个目标文档的有效关键词,供用户 参考。本实施例的基于人工智能的关键词提取方法中,所选择的主题模型可以 为如LDA之类的主题模型,该主题模型可以进行预先训练,能够预测出任一目 标文档在多个主题中的各主题中的分布概率。本实施例的多个主题可以包括类 似于文档标签的多个如科技、教育、房产、娱乐、体育、汽车等等之类的类别。 本实施例的多个主题可以在提取关键词之前预先设置,
例如,本实施例的主题模型可以采用多个已知主题的训练文档进行训练得 到,使得训练得到的主题模型能够准确预测出各个目标文档的主题分布概率。 例如有一篇目标文档“A B C”,基于主题模型LDA,预测得到该目标文档的主 题分布概率可以为:主题topic1的分布概率为p1,主题topic2的分布概率为p2 等等。由于主题模型是预测该目标文档在各个主题下的分布概率,因此预测的 各个主题的分布概率值均为大于或者等于0,且小于或者等于1的数;且同一目 标文档的各个主题下的分布概率之和等于1。
101、计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题 的主题向量之间的相关性;其中各词语的词向量和各主题的主题向量均基于词 向量模型生成;
本实施例中首先可以对目标文档中的每一个语句进行分词处理,获取目标 文档所包括的多个词语。然后对于目标文档的每个词语,可以从预设的词料库 中获取该词语对应的词向量,也就是说,本实施例中预设的词料库中包括的词 料以及各词料对应的词向量的数量足够的多,普通的较为常见的词语均包括。 本实施例中,词料与词语同义,为了便于描述,将词料库中的词语称为词料; 而目标文档中获取的为词语;对于从目标文档中获取的非生僻词语,一般可以 从词料库中获取到对应的词料以及对应的词向量。而且本实施例的词料库还可 以定期进行更新,增加一些词料以及词料的词向量。如果对于一些怪癖的、在 文档中出现的频率较低的词语,也可以采用词向量模型训练该词语的词向量, 并更新存储在词料库中。本实施例的词料库中的所有词料的词向量均可以基于 该词料在文档中的上下文中与其它词料的共现信息来预测得到。本实施例中, 每个词语的词向量可以唯一标识该词语,且该词向量还能够表征该词语与其它 词语语义上的相关性。例如当某两个词语的语义较为接近,那么该两个词语的 词向量之间的相关性较大;若某两个词语的语义完全无关,那么该两个词语的 词向量之间的相关性较小。本实施例中,还可以采用类似于词向量的形式来表 示主题,即得到主题向量。由于主题也具有一定的语义,且通常情况下,某个 主题下的文档中的词语的语义较为接近该文档的主题,因此可以认为该词语与 该主题相关性较大,从而基于已经获得的词向量和词向量模型,可以预先训练 该主题对应的主题向量。对于每一个主题,均可以采用类似的方式,训练获得 对应的主题向量;并将获得的各个主题向量存储在一主题向量库中,以便在使 用时直接从主题向量库中获取对应的主题向量。
例如,此时该步骤101“计算目标文档的多个词语中各词语的词向量分别与 多个主题中各主题的主题向量之间的相关性”之前,具体还可以包括如下步骤:
(a1)从预设的词料库中获取各词语对应的词料的词向量;
(a2)从预设的主题向量库中获取各主题的主题向量。
进一步可选地,步骤(a1)“从预设的词料库中获取各词语对应的词料的词 向量”之前,具体还可以包括如下步骤:
(b1)根据预设的包括多个文档的文档库,生成包括数个词料的词料库;
(b2)根据词料库中的各词料以及各词料在文档库中的各文档中与其它词 料的共现信息,训练词向量模型和各词料的词向量;
(b3)将各词料的词向量存储在词料库中。
本实施例中,可以预先采集多个文档,形成文档库;并将文档库中的每个 文档中的每个语句进行分词处理,得到数个词料;并将数个词料集合在一起生 成词料库。本实施例的词料与词语具有相同的意义,本实施例中为了便于描述, 将从预设文档库中获取的词语称为词料。然后根据每个词料在文档中的上下中 与其它词料的共现信息,训练词向量模型以及各词料的词向量。例如该词向量 模型和各词料的词向量都设置有初始值,训练时,可以根据该词料的上下文, 获取与该词料一起共现的词料作为训练正例词料,然后再根据该词料的上下文, 从数个词料中获取不可能与该词料一起共现的词料作为该词料的负例词料,可 选地,负例词料的数量可以为正例词料的4倍或者其他整数倍。然后可以将该 词料、该词料对应的正例词料以及该词料对应的负例词料作为一组训练数据输 入值词向量模型中,使得词向量模型输出该词料的词向量、正例词料的词向量 以及负例词料的词向量。由于正例词料与该词料是一起共现的,而负例词料与 该词料是不能一起共现的,所以要求该词料的词向量与正例词料的词向量之间 的相关性较大,例如大于或者等于预设相关性阈值,而要求该词料的词向量与 负例词料的词向量之间的相关性较小,例如小于预设相关性阈值。若词向量模 型输出的该词料的词向量、正例词料的词向量以及负例词料的词向量不满足上 述条件,可以通过调整词向量模型的参数以及调整各词料的词向量中的元素的 数值,使得该词料的词向量、正例词料的词向量以及负例词料的词向量满足上 述条件。
训练时,对于每一组训练数据,可以先调整词向量模型的参数,使得该词 料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件;否则还 不满足时,可以再调整该词料的词向量中的元素的数值,使得词向量模型输出 的该词料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件。 每一组训练数据训练完,再使用下一组训练数据继续训练,且下一组训练数据 训练时,前面已经训练好的词向量固定,不再调整;以此类推,使用词料库中 的词料组成的无数组训练数据对词向量模型进行训练,直到词料库中的每一个 词料的词向量以及词向量模型的参数不用调整,便可以满足词向量模型输出的 该词料的词向量、和与该词料在同一上下文共现的词料的词向量之间的相关性 大于或者等于预设相关性阈值;而与该词料未在同一上下文共现的词料的词向 量之间的相关性小于预设相关性阈值,此时词向量模型的参数确定,词向量模 型确定。并将最后训练得到的词料库中的各词料的词向量存储在词料库中。也 就是说,该词料库中存储的词料,可以按照如下方式存储:词料-词料向量。进 一步地,还可以存储该词料在文档库中所有文档出现的次数,此时对应的存储 方式可以为:词料-词料向量-出现次数。
另外,可选地,本实施例中,若词向量模型输出的该词料的词向量、正例 词料的词向量以及负例词料的词向量不满足该词料的词向量与正例词料的词向 量之间的相关性大于或者等于预设相关性阈值、且该词料的词向量与负例词料 的词向量之间的相关性小于预设相关性阈值的条件时,也可以仅调整各词料的 词向量中的元素的数值即仅调整词料的词向量、正例词料的词向量以及负例词 料的词向量,使得该词料的词向量、正例词料的词向量以及负例词料的词向量 满足上述条件。其余过程与上述同时调整词向量模型的参数以及调整各词料的 词向量中的元素的数值的过程相同,详细可以参考上述实施例的记载,在此不 再赘述。
现有技术中,基于自然语言处理(natural language process;NLP)模型中最 直观,也是到目前为止最常用的词表示方法是One-hot Representation,这种方 法把每个词语表示为一个很长的词向量。这个词向量的维度是词表大小,而词 表的大小等于预先统计的词语的数量。词向量中绝大多数元素为0,只有一个 维度的值为1,这个维度就代表了当前的词语。例如:“话筒”的词向量可以表 示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …],“麦克风”的词向量表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]。但是,这种词向量的表示方式存在一个重要的问题就是“词 汇鸿沟”现象:任意两个词之间都是孤立的。单从这两个词向量中看不出两个 词语是否有关系,哪怕是话筒和麦克这样的同义词也不能幸免于难。
基于上述现有的词向量的技术问题,本实施例的词向量则是通过词语与词 语之间的共现信息去挖掘文本语义信息,而且本实施例的词向量可以采用低维 的实数向量去表示每个词语,例如通过训练之后,词语“话筒”可以表示[0.792, -0.177,-0.107,0.109,-0.542,…],词语“麦克风”可以表示为[0.722,-0.127, -0.187,0.119,-0.542,…],本实施例的词向量的维度可以远远小于词表大小,例 如可以为128维、64维或者其他的2n维。最主要的是,本实施例的词向量最大 的贡献就是可以通过衡量词向量的相关性来衡量两个词语的相关性,例如话筒 跟麦克风它们之间的语义比较接近;这两个词向量之间的相关性可以较大,例 如可以大于或者等于预设相关性阈值。
另外,由于本实施例中是从预设的词料库中获取各词语对应的词料的词向 量,因此,在步骤101“计算目标文档的多个词语中各词语的词向量分别与多个 主题中各主题的主题向量之间的相关性”之前,还可以包括确定目标文档的多 个词语。也就是说,本实施例中,不需要对目标文档中的每一个词语都进行上 述处理,可以先对目标文档中的每个语句进行分词处理,获取无数个词语,然 后根据词料库对无数个词语进行过滤,滤除在词料库中没有对应的词料的词语, 这样得到的多个词语,在词料库中都有对应的词向量,便可以参与后续的提取 关键词的处理。由于本实施例的词料库中包括的词料足够的多,本实施例中, 可以认为过滤掉的词语均为文档中比较生僻、出现概率较小的一些非关键性的 词语。
或者,在步骤101“计算目标文档的多个词语中各词语的词向量分别与多个 主题中各主题的主题向量之间的相关性”之前,对目标文档中的每个语句进行 分词处理,获取无数个词语之后,暂不对无数个词语进行任何过滤处理;而在 根据步骤(a1)“从词料库中获取词语对应的词料的词向量”时,若该词料库中 不存在某词语对应的词料时,则获取不到对应的词向量,此时可以将该词向量 置为0;并将0向量与任一主题的主题向量之间的相关性也定义为0,这样可以 保证在词料库中没有的对应词料的词语,后续不会被提取为关键词。
进一步可选地,步骤(a2)“从预设的主题向量库中获取各主题的主题向量” 之前,具体还可以包括如下步骤:
(c1)获取各词料对应的主题标识;
(c2)根据词料库中各词料的词向量、各词料对应的主题标识以及训练后 的词向量模型,训练各主题标识对应的主题的主题向量;
(c3)将各主题的主题向量存储在主题向量库中。
具体地,对于词料库中的每个词料,可以根据主题模型预测该词料所在的 文档在各主题中的分布概率,确定该文档对应的主题,从而确定该词料对应的 主题。例如,可以从各主题的分布概率中选择分布概率最大的主题标识作为该 文档的主题标识,并将该主题标识为该词料对应的主题标识。或者还可以根据 主题模型预测的各主题的分布概率,取出分布概率最大的前N个主题标识作为 候选主题标识,然后通过随机采样的方式,从N个候选主题标识中选择一个主 题标识作为该词料对应的主题标识。例如可以从文档库中一个选定的范围内统 计该词料对应的主题标识为N个候选主题标识中的哪一个,并将其作为该词料 对应的主题标识。本实施例中,不用知道每一个主题确切的名称,例如该主题 是教育还是科技还是娱乐等,而仅需要知道该主题是topic1还是topic2之类的 主题标识即可。这样,还可以在词料库中标识该词料的主题标识,例如表示方 式可以为:词料-词料向量-出现次数-主题标识。
然后可以根据词料库中已经训练好的各词料的词向量、各词料对应的主题 标识以及训练后的词向量模型,获取各主题标识对应的主题的主题向量。具体 地,根据词料库中存储的信息,可以获取到每一个主题标识对应的所有词料, 将这些词料作为主题标识对应的正例,然后还可以从词料库中获取一些该主题 标识不对应的词料作为该主题标识对应的负例,同理,负例可以为正例的4倍 或者其他倍数。然后由于上述实施例中已经训练好词向量模型,即词向量模型 的参数已经确定,接下类可以根据主题标识对应的正例和负例,训练该主题标 识对应的主题向量;例如,可以将主题输入训练好的词向量模型中,该词向量 模型输出该主题的主题向量。然后判断主题向量分别与主题的正例的词向量和 主题的负例的词向量的相关性;若主题向量与主题标识对应的正例的词向量之 间的相关性小于预设相关性阈值,或主题向量与主题标识对应的负例的词向量 之间的相关性大于或者等于预设相关性阈值,此时调整主题向量中的元素的数 值,使得主题向量与主题标识对应的正例的词向量之间的相关性大于或者等于 预设相关性阈值,而主题向量与主题标识对应的负例的词向量之间的相关性小 于预设相关性阈值。基于人工智能的关键词提取装置经过多次训练,可以得到 每一个主题的主题向量。最后将各主题的主题向量存储在主题向量库中,以便 于后续使用时获取。本实施例的主题向量的维度与词向量的维度相同。
102、根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主 题中各主题的主题向量之间的相关性,从多个词语中提取作为目标文档的关键 词的词语。
对于目标文档中的每个词语,根据步骤101可以得到该词语的词向量与各 个主题的主题向量之间的相关性,例如,可以采用通过计算该词语的词向量与 各个主题的主题向量之间的cosine距离,来确定该词语的词向量与各个主题的 主题向量之间相关性,cosine距离越大,表示该词语与该主题越相关,否则cosine 距离越小,表示该词语与该主题越不相关。本实施例在提取关键词时,同时考 虑各词语在各主题中的分布概率和各词语的词向量分别与多个主题中各主题的 主题向量之间的相关性,实现从多个词语中提取作为目标文档的关键词的词语。
例如,步骤102“根据各词语在各主题中的分布概率以及各词语的词向量分 别与多个主题中各主题的主题向量之间的相关性,从多个词语中提取作为目标 文档的关键词的词语”具体可以包括如下步骤:
(d1)根据各词语在各主题中的分布概率以及各词语的词向量分别与多个 主题中各主题的主题向量之间的相关性,计算各词语在目标文档中的生成概率;
例如步骤(d1)“根据各词语在各主题中的分布概率以及各词语的词向量分 别与多个主题中各主题的主题向量之间的相关性,计算各词语在目标文档中的 生成概率”,具体可以采用如下公式实现:
其中:p(w|d)表示词语w在目标文档d中的生成概率,p(z|d)表示目标文 档d在主题z中的分布概率,cos<w,z>表示词语W的词向量与主题z的主 题向量之间的相关性。
也就是说,每个词语在目标文档中的生成概率等于:将“该词语的词向量 与主题向量的相关性”与对应的主题的分布概率的乘积,再按照各个主题求和。 本实施例中,该词语的词向量与主题向量的相关性越大表示,该词向量与该主 题越接近,而词语在主题中的分布概率越大,该词语属于该主题的概率越大。 因此,本实施例中,可以根据词语的词向量与主题向量的相关性、以及词语在 各主题中的分布概率,构造该词语在目标文档中的生成概率,以不仅考虑到该 词语与主题的相关性,还考虑到该词语对应的主题的概率,从而使得该词语的 生成概率更能够表征该词语在该目标文档中的重要性。
(d2)根据各词语在目标文档中的生成概率,从多个词语中提取作为目标 文档的关键词的词语。
根据上述方式构成的词语的生成概率能够更加准确地表征该词语在目标文 档中的重要性,因此,生成概率越大,表示该词语在目标文档中越重要,否则 生成概率越小,表示该词语在目标文档中越不重要。对于目标文档中的多个词 语,均可以按照上述方式生成该词语在目标文档中的生成概率。然后可以对多 个词语在目标文档中的生成概率按照大小顺序进行排序,并从前往后取出k个 词语作为目标文档的关键词。本实施例的k可以根据实际需求来设置,例如可 以设置k的数值为1个、3个或者5个,或者其他数值个。
本实施例的基于人工智能的关键词提取方法,通过基于主题模型,预测目 标文档在多个主题中的各主题中的分布概率;计算目标文档的多个词语中各词 语的词向量分别与多个主题中各主题的主题向量之间的相关性;其中各词语的 词向量和各主题的主题向量均基于词向量模型生成;根据各词语在各主题中的 分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关 性,从多个词语中提取作为目标文档的关键词的词语。本实施例通过采用上述 技术方案,提取的关键词不是高频词,而是根据各词语在各主题中的分布概率 以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性来提取, 从而能够使得提取的关键词与目标文档的主题更贴合,更有效,也更准确。
例如,下表1为将现有技术中的主题模型多项分布p(w|z)召回的关键词、和 本实施例的采用主题向量的方式在向量空间中召回的最邻近的词的词频进行对 比,可以发现使用现有技术的主题模型召回的关键词的词频更高,而本实施例 召回的关键词的词频并不高,但与主题更为贴合,更准确。
图2为本发明的基于人工智能的关键词提取装置实施例一的结构图。如图2 所示,本实施例的基于人工智能的关键词提取装置,具体可以包括:预测模块 10、计算模块11和提取模块12。
其中预测模块10用于基于主题模型,预测目标文档在多个主题中的各主题 中的分布概率;计算模块11用于计算目标文档的多个词语中各词语的词向量分 别与多个主题中各主题的主题向量之间的相关性;其中各词语的词向量和各主 题的主题向量均基于词向量模型生成;提取模块12用于根据预测模块10预测 的各词语在各主题中的分布概率以及计算模块11计算的各词语的词向量分别与 多个主题中各主题的主题向量之间的相关性,从多个词语中提取作为目标文档 的关键词的词语。
本实施例的基于人工智能的关键词提取装置,通过采用上述模块实现基于 人工智能的关键词提取的实现原理以及技术效果与上述相关方法实施例的实现 相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图3为本发明的基于人工智能的关键词提取装置实施例二的结构图。如图3 所示,本实施例的基于人工智能的关键词提取装置在上述图2所示实施例的技 术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的基于人工智能的关键词提取装置中,提取模块12具体用于:
根据预测模块10预测的各词语在各主题中的分布概率以及计算模块11计 算的各词语的词向量分别与多个主题中各主题的主题向量之间的相关性,计算 各词语在目标文档中的生成概率;
根据各词语在目标文档中的生成概率,从多个词语中提取作为目标文档的 关键词的词语。
进一步可选地,本实施例的基于人工智能的关键词提取装置中,计算模块 11具体用于可以采用如下公式实现:
其中:p(w|d)表示词语w在目标文档d中的生成概率,p(z|d)表示目标文 档d在主题z中的分布概率,cos<w,z>表示词语W的词向量与主题z的主 题向量之间的相关性。
进一步可选地,如图3所示,本实施例的基于人工智能的关键词提取装置 中,还包括:
获取模块13用于从预设的词料库中获取各词语对应的词料的词向量;
获取模块13还用于从预设的主题向量库中获取各主题的主题向量。
对应地,计算模块11用于计算获取模块13获取的目标文档的多个词语中 各词语的词向量分别与获取模块13获取的多个主题中各主题的主题向量之间的 相关性。
进一步可选地,如图3所示,本实施例的基于人工智能的关键词提取装置 中,还包括:
生成模块14用于根据预设的包括多个文档的文档库,生成包括数个词料的 词料库S;
训练模块15用于根据生成模块14生成的词料库S中的各词料以及各词料 在文档库中的各文档中与其它词料的共现信息,训练词向量模型和各词料的词 向量;
存储模块16用于将训练模块15训练得到的各词料的词向量存储在生成模 块14生成的词料库S中。
对应地,获取模块13用于从生成模块14和存储模块16处理后的词料库S 中获取各词语对应的词料的词向量。
进一步可选地,如图3所示,本实施例的基于人工智能的关键词提取装置 中,获取模块13还用于获取各词料对应的主题标识;
训练模块15还用于根据生成模块14和存储模块16处理后的词料库S中各 词料的词向量、各词料对应的主题标识以及训练后的词向量模型,获取各主题 标识对应的主题的主题向量;
存储模块16还用于将训练模块15训练得到的各主题的主题向量存储在主 题向量库M中。
对应地,获取模块13还用于从存储模块16处理后的主题向量库M中获取 各主题的主题向量。
本实施例的基于人工智能的关键词提取装置,通过采用上述模块实现基于 人工智能的关键词提取的实现原理以及技术效果与上述相关方法实施例的实现 相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的计算机设备实施例的结构图。如图4所示,本实施例的计 算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储 一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30 执行,使得一个或多个处理器30实现如上图1-图3所示实施例的基于人工智能 的关键词提取方法。图4所示实施例中以包括多个处理器30为例。
例如,图5为本发明提供的一种计算机设备的示例图。图5示出了适于 用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算 机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任 何限制。
如图5所示,计算机设备12a以通用计算设备的形式表现。计算机设备 12a的组件可以包括但不限于:一个或者多个处理器16a,***存储器28a, 连接不同***组件(包括***存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储 器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任 意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体 系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视 频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机***可读介质。这些介质可以是 任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质, 可移动的和不可移动的介质。
***存储器28a可以包括易失性存储器形式的计算机***可读介质,例 如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储 介质。仅作为举例,存储***34a可以用于读写不可移动的、非易失性磁介 质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供 用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘 驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与 总线18a相连。***存储器28a可以包括至少一个程序产品,该程序产品具 有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述 图1-图3各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在 例如***存储器28a中,这样的程序模块42a包括——但不限于——操作系 统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每 一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明 所描述的上述图1-图3各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设 备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备 12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计 算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信 可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通 过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a 与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合 计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备 驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数 据备份存储***等。
处理器16a通过运行存储在***存储器28a中的程序,从而执行各种功 能应用以及数据处理,例如实现上述实施例所示的基于人工智能的关键词提 取方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处 理器执行时实现如上述实施例所示的基于人工智能的关键词提取方法。
本实施例的计算机可读介质可以包括上述图5所示实施例中的***存储 器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储***34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以 直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读 介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的 任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储 介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、 红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读 存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电 连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储 器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在 本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该 程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的 组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算 机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系 统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括 ——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作 的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或 类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在 用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分 在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程 计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如 利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机 可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、 随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可 以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

Claims (12)

1.一种基于人工智能的关键词提取方法,其特征在于,所述方法包括:
基于主题模型,预测目标文档在多个主题中的各所述主题中的分布概率;
计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性;其中各所述词语的词向量和各所述主题的主题向量均基于词向量模型生成;
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,从所述多个词语中提取作为所述目标文档的关键词的词语。
2.根据权利要求1所述的方法,其特征在于,根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,从所述多个词语中提取作为所述目标文档的关键词的词语,具体包括:
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,计算各所述词语在所述目标文档中的生成概率;
根据各所述词语在所述目标文档中的生成概率,从所述多个词语中提取作为所述目标文档的关键词的词语。
3.根据权利要求1-2任一所述的方法,其特征在于,计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性之前,所述方法还包括:
从预设的词料库中获取各所述词语对应的词料的词向量;
从预设的主题向量库中获取各所述主题的主题向量。
4.根据权利要求3所述的方法,其特征在于,从预设的词料库中获取各所述词语对应的词料的词向量之前,所述方法还包括:
根据预设的包括多个文档的文档库,生成包括数个词料的词料库;
根据所述词料库中的各所述词料以及各所述词料在所述文档库中的各文档中与其它所述词料的共现信息,训练所述词向量模型和各所述词料的词向量;
将各所述词料的词向量存储在所述词料库中。
5.根据权利要求3所述的方法,其特征在于,从预设的主题向量库中获取各所述主题的主题向量之前,所述方法还包括:
获取各所述词料对应的主题标识;
根据所述词料库中各所述词料的词向量、各所述词料对应的主题标识以及训练后的所述词向量模型,训练各所述主题标识对应的主题的主题向量;
将各所述主题的主题向量存储在所述主题向量库中。
6.一种基于人工智能的关键词提取装置,其特征在于,所述装置包括:
预测模块,用于基于主题模型,预测目标文档在多个主题中的各所述主题中的分布概率;
计算模块,用于计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性;其中各所述词语的词向量和各所述主题的主题向量均基于词向量模型生成;
提取模块,用于根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,从所述多个词语中提取作为所述目标文档的关键词的词语。
7.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于:
根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性,计算各所述词语在所述目标文档中的生成概率;
根据各所述词语在所述目标文档中的生成概率,从所述多个词语中提取作为所述目标文档的关键词的词语。
8.根据权利要求6-7任一所述的装置,其特征在于,所述装置还包括:
获取模块,用于从预设的词料库中获取各所述词语对应的词料的词向量;
所述获取模块,还用于从预设的主题向量库中获取各所述主题的主题向量。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
生成模块,用于根据预设的包括多个文档的文档库,生成包括数个词料的词料库;
训练模块,用于根据所述词料库中的各所述词料以及各所述词料在所述文档库中的各文档中与其它所述词料的共现信息,训练所述词向量模型和各所述词料的词向量;
存储模块,用于将各所述词料的词向量存储在所述词料库中。
10.根据权利要求9所述的装置,其特征在于:
所述获取模块,还用于获取各所述词料对应的主题标识;
所述训练模块,还用于根据所述词料库中各所述词料的词向量、各所述词料对应的主题标识以及训练后的所述词向量模型,获取各所述主题标识对应的主题的主题向量;
所述存储模块,还用于将各所述主题的主题向量存储在所述主题向量库中。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710220916.1A 2017-04-06 2017-04-06 基于人工智能的关键词提取方法及装置、设备与可读介质 Active CN107220232B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710220916.1A CN107220232B (zh) 2017-04-06 2017-04-06 基于人工智能的关键词提取方法及装置、设备与可读介质
US15/945,611 US20180293507A1 (en) 2017-04-06 2018-04-04 Method and apparatus for extracting keywords based on artificial intelligence, device and readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710220916.1A CN107220232B (zh) 2017-04-06 2017-04-06 基于人工智能的关键词提取方法及装置、设备与可读介质

Publications (2)

Publication Number Publication Date
CN107220232A true CN107220232A (zh) 2017-09-29
CN107220232B CN107220232B (zh) 2021-06-11

Family

ID=59928181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710220916.1A Active CN107220232B (zh) 2017-04-06 2017-04-06 基于人工智能的关键词提取方法及装置、设备与可读介质

Country Status (2)

Country Link
US (1) US20180293507A1 (zh)
CN (1) CN107220232B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN108388597A (zh) * 2018-02-01 2018-08-10 深圳市鹰硕技术有限公司 会议摘要生成方法以及装置
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN108763258A (zh) * 2018-04-03 2018-11-06 平安科技(深圳)有限公司 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109857942A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 用于处理文档的方法、装置、设备和存储介质
CN109885831A (zh) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN110032734A (zh) * 2019-03-18 2019-07-19 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
WO2020143320A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN113111150A (zh) * 2021-04-14 2021-07-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备
CN116936124A (zh) * 2023-09-18 2023-10-24 中电科大数据研究院有限公司 一种健康医疗标准体系构建方法、***及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558590B (zh) * 2018-11-23 2022-11-15 中国人民解放军63789部队 一种基于航天器遥测参数分词的关键故障器件定位方法
US20210319098A1 (en) * 2018-12-31 2021-10-14 Intel Corporation Securing systems employing artificial intelligence
CN110717329B (zh) * 2019-09-10 2023-06-16 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法
CN110727797A (zh) * 2019-09-17 2020-01-24 北京三快在线科技有限公司 标签生成方法、装置、电子设备和计算机可读介质
US11410644B2 (en) 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
CN111291210B (zh) * 2020-01-14 2024-04-12 广州视源电子科技股份有限公司 图像素材库生成方法、图像素材推荐方法及相关装置
US11550703B2 (en) * 2020-12-29 2023-01-10 Webomates Inc. Test package analyzer
CN113239691A (zh) * 2021-05-11 2021-08-10 中国石油大学(华东) 一种基于主题模型的相似诉求工单筛选方法和装置
CN113723096A (zh) * 2021-07-23 2021-11-30 智慧芽信息科技(苏州)有限公司 文本识别方法及装置、计算机可读存储介质和电子设备
US20240004911A1 (en) * 2022-06-30 2024-01-04 Yext, Inc. Topic-based document segmentation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QUOC LE ET AL.,: "Distributed Representations of Sentences and Documents", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
牛力强: "基于神经网络的文本向量表示与建模研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN108388597A (zh) * 2018-02-01 2018-08-10 深圳市鹰硕技术有限公司 会议摘要生成方法以及装置
CN108763258A (zh) * 2018-04-03 2018-11-06 平安科技(深圳)有限公司 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN108763258B (zh) * 2018-04-03 2023-01-10 平安科技(深圳)有限公司 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN110162769B (zh) * 2018-07-05 2024-01-02 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109190111B (zh) * 2018-08-07 2023-09-08 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
WO2020143320A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN109885831B (zh) * 2019-01-30 2023-06-02 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109885831A (zh) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109857942A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 用于处理文档的方法、装置、设备和存储介质
CN110032734B (zh) * 2019-03-18 2023-02-28 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110032734A (zh) * 2019-03-18 2019-07-19 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN113111150A (zh) * 2021-04-14 2021-07-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备
CN113111150B (zh) * 2021-04-14 2024-02-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备
CN116936124A (zh) * 2023-09-18 2023-10-24 中电科大数据研究院有限公司 一种健康医疗标准体系构建方法、***及装置
CN116936124B (zh) * 2023-09-18 2024-01-02 中电科大数据研究院有限公司 一种健康医疗标准体系构建方法、***及装置

Also Published As

Publication number Publication date
US20180293507A1 (en) 2018-10-11
CN107220232B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107220232A (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN108170749B (zh) 基于人工智能的对话方法、装置及计算机可读介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Haider et al. Emotion recognition in low-resource settings: An evaluation of automatic feature selection methods
CN107797992A (zh) 命名实体识别方法及装置
Fu et al. CRNN: a joint neural network for redundancy detection
CN107844473B (zh) 基于语境相似度计算的词义消歧方法
US11901047B2 (en) Medical visual question answering
US9953029B2 (en) Prediction and optimized prevention of bullying and other counterproductive interactions in live and virtual meeting contexts
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN110377916A (zh) 词预测方法、装置、计算机设备及存储介质
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN102609424B (zh) 评价信息抽取方法和设备
CN110619044A (zh) 一种情感分析方法、***、存储介质及设备
CN112861522B (zh) 基于双重注意力机制的方面级情感分析方法、***及模型
CN109472008A (zh) 一种文本相似度计算方法、装置及电子设备
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN109086265A (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
King et al. Greater early disambiguating information for less-probable words: The lexicon is shaped by incremental processing
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
Kedzie et al. Real-time web scale event summarization using sequential decision making
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN116681083A (zh) 文本数据涉敏检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant