CN107220232A

CN107220232A - 基于人工智能的关键词提取方法及装置、设备与可读介质

Info

Publication number: CN107220232A
Application number: CN201710220916.1A
Authority: CN
Inventors: 连荣忠; 陈泽裕; 姜迪; 蒋佳军; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2017-09-29
Anticipated expiration: 2037-04-06
Also published as: US20180293507A1; CN107220232B

Abstract

本发明提供一种基于人工智能的关键词提取方法及装置、设备与可读介质。其所述方法包括：基于主题模型，预测目标文档在多个主题中各主题的分布概率；计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性；其中各词语的词向量和各主题的主题向量均基于词向量模型生成；根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语。本发明根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性来提取关键词，从而能够使得提取的关键词与目标文档的主题更贴合，更有效，也更准确。

Description

基于人工智能的关键词提取方法及装置、设备与可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于人工智能的关键词提取方法及装置、设备与可读介质。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。

在当前信息***的时代，用户不可能浏览所有可能包含有相关信息的文档，而关键词则是文档信息最重要和最简洁的一种归纳；因此，抽取文档中的关键词给用户提供参考，对用户精准的获取信息、降低用户获取信息的成本有着重大的意义。但是，如何从一个长文档中自动提取出极少量的最重要的关键词是非常具有挑战性的。

通常情况下，文档的主题信息对于文档的关键词抽取有着重要的意义，文档的关键词必然是某些与文档主题高度相关的词语。例如，对应一篇科技类的文章，其对应的关键词更可能为“互联网”等词。现在技术中，可以采用如下方式获取文档的关键词：具体可以利用一种主题模型如(Latent Dirichlet Allocation；LDA)模型获取文档的主题分布概率p(w|z)(例如在主题1下，词w出现的概率)以及主题的词分布概率p(w|z)(例如在主题1下，词w出现的概率)；然后可以得到文档中每个词的生成概率p(w|d)＝ ∑_zp(w|z)p(z|d)，其中z表示主题，d表示文档，w表示某个词，然后根据文档中每个词的生成概率，可以选择最大的K个词作为文档的关键词。其中主题的词分布概率p(w|z)是根据预设的包含各种主题的文档的文档库中统计出来的每个词在各种主题下出现的概率。

但是，基于上述的关键词的提取方法存在着对高频词严重的倾向，因为在每个主题下，如果该词出现的次数更多的话，那么对应的概率就越高，所以基于上述的公式进行计算，高频词的生成概率会更加大，从而导致召回的结果大部分都是某个主题下的高频词。然而高频词在不同文档当中出现得都很广泛，在很多时候并不是好的关键词例如文档中的“我们”、“你们”等之类的词语，因此，现有技术的关键词的提取方案不能获取有效地关键词，提取的关键词的准确性较差。

【发明内容】

本发明提供了一种基于人工智能的关键词提取方法及装置、设备与可读介质，用于提高提取的关键词的准确性。

本发明提供一种基于人工智能的关键词提取方法，所述方法包括：

基于主题模型，预测目标文档在多个主题中的各所述主题中的分布概率；

计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性；其中各所述词语的词向量和各所述主题的主题向量均基于词向量模型生成；

根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性，从所述多个词语中提取作为所述目标文档的关键词的词语。

进一步可选地，如上所述的方法中，根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性，从所述多个词语中提取作为所述目标文档的关键词的词语，具体包括：

根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性，计算各所述词语在所述目标文档中的生成概率；

根据各所述词语在所述目标文档中的生成概率，从所述多个词语中提取作为所述目标文档的关键词的词语。

进一步可选地，如上所述的方法中，计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性之前，所述方法还包括：

从预设的词料库中获取各所述词语对应的词料的词向量；

从预设的主题向量库中获取各所述主题的主题向量。

进一步可选地，如上所述的方法中，从预设的词料库中获取各所述词语对应的词料的词向量之前，所述方法还包括：

根据预设的包括多个文档的文档库，生成包括数个词料的词料库；

根据所述词料库中的各所述词料以及各所述词料在所述文档库中的各文档中与其它所述词料的共现信息，训练所述词向量模型和各所述词料的词向量；

将各所述词料的词向量存储在所述词料库中。

进一步可选地，如上所述的方法中，从预设的主题向量库中获取各所述主题的主题向量之前，所述方法还包括：

获取各所述词料对应的主题标识；

根据所述词料库中各所述词料的词向量、各所述词料对应的主题标识以及训练后的所述词向量模型，训练各所述主题标识对应的主题的主题向量；

将各所述主题的主题向量存储在所述主题向量库中。

本发明提供一种基于人工智能的关键词提取装置，所述装置包括：

预测模块，用于基于主题模型，预测目标文档在多个主题中的各所述主题中的分布概率；

计算模块，用于计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性；其中各所述词语的词向量和各所述主题的主题向量均基于词向量模型生成；

提取模块，用于根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性，从所述多个词语中提取作为所述目标文档的关键词的词语。

进一步可选地，如上所述的装置中，所述提取模块，具体用于：

进一步可选地，如上所述的装置中，还包括：

获取模块，用于从预设的词料库中获取各所述词语对应的词料的词向量；

所述获取模块，还用于从预设的主题向量库中获取各所述主题的主题向量。

进一步可选地，如上所述的装置中，还包括：

生成模块，用于根据预设的包括多个文档的文档库，生成包括数个词料的词料库；

训练模块，用于根据所述词料库中的各所述词料以及各所述词料在所述文档库中的各文档中与其它所述词料的共现信息，训练所述词向量模型和各所述词料的词向量；

存储模块，用于将各所述词料的词向量存储在所述词料库中。

进一步可选地，如上所述的装置中：

所述获取模块，还用于获取各所述词料对应的主题标识；

所述训练模块，还用于根据所述词料库中各所述词料的词向量、各所述词料对应的主题标识以及训练后的所述词向量模型，获取各所述主题标识对应的主题的主题向量；

所述存储模块，还用于将各所述主题的主题向量存储在所述主题向量库中。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于人工智能的关键词提取方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于人工智能的关键词提取方法。

本发明的基于人工智能的关键词提取方法及装置、设备与可读介质，通过基于主题模型，预测目标文档在多个主题中的各主题中的分布概率；计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性；其中各词语的词向量和各主题的主题向量均基于词向量模型生成；根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语。本实施例通过采用上述技术方案，提取的关键词不是高频词，而是根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性来提取，从而能够使得提取的关键词与目标文档的主题更贴合，更有效，也更准确。

【附图说明】

图1为本发明的基于人工智能的关键词提取方法实施例的流程图。

图2为本发明的基于人工智能的关键词提取装置实施例一的结构图。

图3为本发明的基于人工智能的关键词提取装置实施例二的结构图。

图4为本发明的计算机设备实施例的结构图。

图5为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于人工智能的关键词提取方法实施例的流程图。如图1 所示，本实施例的基于人工智能的关键词提取方法，具体可以包括如下步骤：

100、基于主题模型，预测目标文档在多个主题中的各主题中的分布概率；

本实施例的基于人工智能的关键词提取方法的执行主体为基于人工智能的关键词提取装置，该基于人工智能的关键词提取装置可以为一电子的实体装置，也可以为采用软件集成的装置。

本实施例的基于人工智能的关键词提取方法可以应用于各种如新闻之类的文档应用(Application；App)中，以提取每个目标文档的有效关键词，供用户参考。本实施例的基于人工智能的关键词提取方法中，所选择的主题模型可以为如LDA之类的主题模型，该主题模型可以进行预先训练，能够预测出任一目标文档在多个主题中的各主题中的分布概率。本实施例的多个主题可以包括类似于文档标签的多个如科技、教育、房产、娱乐、体育、汽车等等之类的类别。本实施例的多个主题可以在提取关键词之前预先设置，

例如，本实施例的主题模型可以采用多个已知主题的训练文档进行训练得到，使得训练得到的主题模型能够准确预测出各个目标文档的主题分布概率。例如有一篇目标文档“A B C”，基于主题模型LDA，预测得到该目标文档的主题分布概率可以为：主题topic1的分布概率为p1，主题topic2的分布概率为p2 等等。由于主题模型是预测该目标文档在各个主题下的分布概率，因此预测的各个主题的分布概率值均为大于或者等于0，且小于或者等于1的数；且同一目标文档的各个主题下的分布概率之和等于1。

101、计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性；其中各词语的词向量和各主题的主题向量均基于词向量模型生成；

本实施例中首先可以对目标文档中的每一个语句进行分词处理，获取目标文档所包括的多个词语。然后对于目标文档的每个词语，可以从预设的词料库中获取该词语对应的词向量，也就是说，本实施例中预设的词料库中包括的词料以及各词料对应的词向量的数量足够的多，普通的较为常见的词语均包括。本实施例中，词料与词语同义，为了便于描述，将词料库中的词语称为词料；而目标文档中获取的为词语；对于从目标文档中获取的非生僻词语，一般可以从词料库中获取到对应的词料以及对应的词向量。而且本实施例的词料库还可以定期进行更新，增加一些词料以及词料的词向量。如果对于一些怪癖的、在文档中出现的频率较低的词语，也可以采用词向量模型训练该词语的词向量，并更新存储在词料库中。本实施例的词料库中的所有词料的词向量均可以基于该词料在文档中的上下文中与其它词料的共现信息来预测得到。本实施例中，每个词语的词向量可以唯一标识该词语，且该词向量还能够表征该词语与其它词语语义上的相关性。例如当某两个词语的语义较为接近，那么该两个词语的词向量之间的相关性较大；若某两个词语的语义完全无关，那么该两个词语的词向量之间的相关性较小。本实施例中，还可以采用类似于词向量的形式来表示主题，即得到主题向量。由于主题也具有一定的语义，且通常情况下，某个主题下的文档中的词语的语义较为接近该文档的主题，因此可以认为该词语与该主题相关性较大，从而基于已经获得的词向量和词向量模型，可以预先训练该主题对应的主题向量。对于每一个主题，均可以采用类似的方式，训练获得对应的主题向量；并将获得的各个主题向量存储在一主题向量库中，以便在使用时直接从主题向量库中获取对应的主题向量。

例如，此时该步骤101“计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性”之前，具体还可以包括如下步骤：

(a1)从预设的词料库中获取各词语对应的词料的词向量；

(a2)从预设的主题向量库中获取各主题的主题向量。

进一步可选地，步骤(a1)“从预设的词料库中获取各词语对应的词料的词向量”之前，具体还可以包括如下步骤：

(b1)根据预设的包括多个文档的文档库，生成包括数个词料的词料库；

(b2)根据词料库中的各词料以及各词料在文档库中的各文档中与其它词料的共现信息，训练词向量模型和各词料的词向量；

(b3)将各词料的词向量存储在词料库中。

本实施例中，可以预先采集多个文档，形成文档库；并将文档库中的每个文档中的每个语句进行分词处理，得到数个词料；并将数个词料集合在一起生成词料库。本实施例的词料与词语具有相同的意义，本实施例中为了便于描述，将从预设文档库中获取的词语称为词料。然后根据每个词料在文档中的上下中与其它词料的共现信息，训练词向量模型以及各词料的词向量。例如该词向量模型和各词料的词向量都设置有初始值，训练时，可以根据该词料的上下文，获取与该词料一起共现的词料作为训练正例词料，然后再根据该词料的上下文，从数个词料中获取不可能与该词料一起共现的词料作为该词料的负例词料，可选地，负例词料的数量可以为正例词料的4倍或者其他整数倍。然后可以将该词料、该词料对应的正例词料以及该词料对应的负例词料作为一组训练数据输入值词向量模型中，使得词向量模型输出该词料的词向量、正例词料的词向量以及负例词料的词向量。由于正例词料与该词料是一起共现的，而负例词料与该词料是不能一起共现的，所以要求该词料的词向量与正例词料的词向量之间的相关性较大，例如大于或者等于预设相关性阈值，而要求该词料的词向量与负例词料的词向量之间的相关性较小，例如小于预设相关性阈值。若词向量模型输出的该词料的词向量、正例词料的词向量以及负例词料的词向量不满足上述条件，可以通过调整词向量模型的参数以及调整各词料的词向量中的元素的数值，使得该词料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件。

训练时，对于每一组训练数据，可以先调整词向量模型的参数，使得该词料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件；否则还不满足时，可以再调整该词料的词向量中的元素的数值，使得词向量模型输出的该词料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件。每一组训练数据训练完，再使用下一组训练数据继续训练，且下一组训练数据训练时，前面已经训练好的词向量固定，不再调整；以此类推，使用词料库中的词料组成的无数组训练数据对词向量模型进行训练，直到词料库中的每一个词料的词向量以及词向量模型的参数不用调整，便可以满足词向量模型输出的该词料的词向量、和与该词料在同一上下文共现的词料的词向量之间的相关性大于或者等于预设相关性阈值；而与该词料未在同一上下文共现的词料的词向量之间的相关性小于预设相关性阈值，此时词向量模型的参数确定，词向量模型确定。并将最后训练得到的词料库中的各词料的词向量存储在词料库中。也就是说，该词料库中存储的词料，可以按照如下方式存储：词料-词料向量。进一步地，还可以存储该词料在文档库中所有文档出现的次数，此时对应的存储方式可以为：词料-词料向量-出现次数。

另外，可选地，本实施例中，若词向量模型输出的该词料的词向量、正例词料的词向量以及负例词料的词向量不满足该词料的词向量与正例词料的词向量之间的相关性大于或者等于预设相关性阈值、且该词料的词向量与负例词料的词向量之间的相关性小于预设相关性阈值的条件时，也可以仅调整各词料的词向量中的元素的数值即仅调整词料的词向量、正例词料的词向量以及负例词料的词向量，使得该词料的词向量、正例词料的词向量以及负例词料的词向量满足上述条件。其余过程与上述同时调整词向量模型的参数以及调整各词料的词向量中的元素的数值的过程相同，详细可以参考上述实施例的记载，在此不再赘述。

现有技术中，基于自然语言处理(natural language process；NLP)模型中最直观，也是到目前为止最常用的词表示方法是One-hot Representation，这种方法把每个词语表示为一个很长的词向量。这个词向量的维度是词表大小，而词表的大小等于预先统计的词语的数量。词向量中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词语。例如：“话筒”的词向量可以表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …],“麦克风”的词向量表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]。但是，这种词向量的表示方式存在一个重要的问题就是“词汇鸿沟”现象：任意两个词之间都是孤立的。单从这两个词向量中看不出两个词语是否有关系，哪怕是话筒和麦克这样的同义词也不能幸免于难。

基于上述现有的词向量的技术问题，本实施例的词向量则是通过词语与词语之间的共现信息去挖掘文本语义信息，而且本实施例的词向量可以采用低维的实数向量去表示每个词语，例如通过训练之后，词语“话筒”可以表示[0.792, -0.177,-0.107,0.109,-0.542,…]，词语“麦克风”可以表示为[0.722,-0.127, -0.187,0.119,-0.542,…]，本实施例的词向量的维度可以远远小于词表大小，例如可以为128维、64维或者其他的2ⁿ维。最主要的是，本实施例的词向量最大的贡献就是可以通过衡量词向量的相关性来衡量两个词语的相关性，例如话筒跟麦克风它们之间的语义比较接近；这两个词向量之间的相关性可以较大，例如可以大于或者等于预设相关性阈值。

另外，由于本实施例中是从预设的词料库中获取各词语对应的词料的词向量，因此，在步骤101“计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性”之前，还可以包括确定目标文档的多个词语。也就是说，本实施例中，不需要对目标文档中的每一个词语都进行上述处理，可以先对目标文档中的每个语句进行分词处理，获取无数个词语，然后根据词料库对无数个词语进行过滤，滤除在词料库中没有对应的词料的词语，这样得到的多个词语，在词料库中都有对应的词向量，便可以参与后续的提取关键词的处理。由于本实施例的词料库中包括的词料足够的多，本实施例中，可以认为过滤掉的词语均为文档中比较生僻、出现概率较小的一些非关键性的词语。

或者，在步骤101“计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性”之前，对目标文档中的每个语句进行分词处理，获取无数个词语之后，暂不对无数个词语进行任何过滤处理；而在根据步骤(a1)“从词料库中获取词语对应的词料的词向量”时，若该词料库中不存在某词语对应的词料时，则获取不到对应的词向量，此时可以将该词向量置为0；并将0向量与任一主题的主题向量之间的相关性也定义为0，这样可以保证在词料库中没有的对应词料的词语，后续不会被提取为关键词。

进一步可选地，步骤(a2)“从预设的主题向量库中获取各主题的主题向量” 之前，具体还可以包括如下步骤：

(c1)获取各词料对应的主题标识；

(c2)根据词料库中各词料的词向量、各词料对应的主题标识以及训练后的词向量模型，训练各主题标识对应的主题的主题向量；

(c3)将各主题的主题向量存储在主题向量库中。

具体地，对于词料库中的每个词料，可以根据主题模型预测该词料所在的文档在各主题中的分布概率，确定该文档对应的主题，从而确定该词料对应的主题。例如，可以从各主题的分布概率中选择分布概率最大的主题标识作为该文档的主题标识，并将该主题标识为该词料对应的主题标识。或者还可以根据主题模型预测的各主题的分布概率，取出分布概率最大的前N个主题标识作为候选主题标识，然后通过随机采样的方式，从N个候选主题标识中选择一个主题标识作为该词料对应的主题标识。例如可以从文档库中一个选定的范围内统计该词料对应的主题标识为N个候选主题标识中的哪一个，并将其作为该词料对应的主题标识。本实施例中，不用知道每一个主题确切的名称，例如该主题是教育还是科技还是娱乐等，而仅需要知道该主题是topic1还是topic2之类的主题标识即可。这样，还可以在词料库中标识该词料的主题标识，例如表示方式可以为：词料-词料向量-出现次数-主题标识。

然后可以根据词料库中已经训练好的各词料的词向量、各词料对应的主题标识以及训练后的词向量模型，获取各主题标识对应的主题的主题向量。具体地，根据词料库中存储的信息，可以获取到每一个主题标识对应的所有词料，将这些词料作为主题标识对应的正例，然后还可以从词料库中获取一些该主题标识不对应的词料作为该主题标识对应的负例，同理，负例可以为正例的4倍或者其他倍数。然后由于上述实施例中已经训练好词向量模型，即词向量模型的参数已经确定，接下类可以根据主题标识对应的正例和负例，训练该主题标识对应的主题向量；例如，可以将主题输入训练好的词向量模型中，该词向量模型输出该主题的主题向量。然后判断主题向量分别与主题的正例的词向量和主题的负例的词向量的相关性；若主题向量与主题标识对应的正例的词向量之间的相关性小于预设相关性阈值，或主题向量与主题标识对应的负例的词向量之间的相关性大于或者等于预设相关性阈值，此时调整主题向量中的元素的数值，使得主题向量与主题标识对应的正例的词向量之间的相关性大于或者等于预设相关性阈值，而主题向量与主题标识对应的负例的词向量之间的相关性小于预设相关性阈值。基于人工智能的关键词提取装置经过多次训练，可以得到每一个主题的主题向量。最后将各主题的主题向量存储在主题向量库中，以便于后续使用时获取。本实施例的主题向量的维度与词向量的维度相同。

102、根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语。

对于目标文档中的每个词语，根据步骤101可以得到该词语的词向量与各个主题的主题向量之间的相关性，例如，可以采用通过计算该词语的词向量与各个主题的主题向量之间的cosine距离，来确定该词语的词向量与各个主题的主题向量之间相关性，cosine距离越大，表示该词语与该主题越相关，否则cosine 距离越小，表示该词语与该主题越不相关。本实施例在提取关键词时，同时考虑各词语在各主题中的分布概率和各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，实现从多个词语中提取作为目标文档的关键词的词语。

例如，步骤102“根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语”具体可以包括如下步骤：

(d1)根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，计算各词语在目标文档中的生成概率；

例如步骤(d1)“根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，计算各词语在目标文档中的生成概率”，具体可以采用如下公式实现：

其中：p(w|d)表示词语w在目标文档d中的生成概率，p(z|d)表示目标文档d在主题z中的分布概率，cos＜w，z＞表示词语W的词向量与主题z的主题向量之间的相关性。

也就是说，每个词语在目标文档中的生成概率等于：将“该词语的词向量与主题向量的相关性”与对应的主题的分布概率的乘积，再按照各个主题求和。本实施例中，该词语的词向量与主题向量的相关性越大表示，该词向量与该主题越接近，而词语在主题中的分布概率越大，该词语属于该主题的概率越大。因此，本实施例中，可以根据词语的词向量与主题向量的相关性、以及词语在各主题中的分布概率，构造该词语在目标文档中的生成概率，以不仅考虑到该词语与主题的相关性，还考虑到该词语对应的主题的概率，从而使得该词语的生成概率更能够表征该词语在该目标文档中的重要性。

(d2)根据各词语在目标文档中的生成概率，从多个词语中提取作为目标文档的关键词的词语。

根据上述方式构成的词语的生成概率能够更加准确地表征该词语在目标文档中的重要性，因此，生成概率越大，表示该词语在目标文档中越重要，否则生成概率越小，表示该词语在目标文档中越不重要。对于目标文档中的多个词语，均可以按照上述方式生成该词语在目标文档中的生成概率。然后可以对多个词语在目标文档中的生成概率按照大小顺序进行排序，并从前往后取出k个词语作为目标文档的关键词。本实施例的k可以根据实际需求来设置，例如可以设置k的数值为1个、3个或者5个，或者其他数值个。

本实施例的基于人工智能的关键词提取方法，通过基于主题模型，预测目标文档在多个主题中的各主题中的分布概率；计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性；其中各词语的词向量和各主题的主题向量均基于词向量模型生成；根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语。本实施例通过采用上述技术方案，提取的关键词不是高频词，而是根据各词语在各主题中的分布概率以及各词语的词向量分别与多个主题中各主题的主题向量之间的相关性来提取，从而能够使得提取的关键词与目标文档的主题更贴合，更有效，也更准确。

例如，下表1为将现有技术中的主题模型多项分布p(w|z)召回的关键词、和本实施例的采用主题向量的方式在向量空间中召回的最邻近的词的词频进行对比，可以发现使用现有技术的主题模型召回的关键词的词频更高，而本实施例召回的关键词的词频并不高，但与主题更为贴合，更准确。

图2为本发明的基于人工智能的关键词提取装置实施例一的结构图。如图2 所示，本实施例的基于人工智能的关键词提取装置，具体可以包括：预测模块 10、计算模块11和提取模块12。

其中预测模块10用于基于主题模型，预测目标文档在多个主题中的各主题中的分布概率；计算模块11用于计算目标文档的多个词语中各词语的词向量分别与多个主题中各主题的主题向量之间的相关性；其中各词语的词向量和各主题的主题向量均基于词向量模型生成；提取模块12用于根据预测模块10预测的各词语在各主题中的分布概率以及计算模块11计算的各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，从多个词语中提取作为目标文档的关键词的词语。

本实施例的基于人工智能的关键词提取装置，通过采用上述模块实现基于人工智能的关键词提取的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图3为本发明的基于人工智能的关键词提取装置实施例二的结构图。如图3 所示，本实施例的基于人工智能的关键词提取装置在上述图2所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

本实施例的基于人工智能的关键词提取装置中，提取模块12具体用于：

根据预测模块10预测的各词语在各主题中的分布概率以及计算模块11计算的各词语的词向量分别与多个主题中各主题的主题向量之间的相关性，计算各词语在目标文档中的生成概率；

根据各词语在目标文档中的生成概率，从多个词语中提取作为目标文档的关键词的词语。

进一步可选地，本实施例的基于人工智能的关键词提取装置中，计算模块 11具体用于可以采用如下公式实现：

进一步可选地，如图3所示，本实施例的基于人工智能的关键词提取装置中，还包括：

获取模块13用于从预设的词料库中获取各词语对应的词料的词向量；

获取模块13还用于从预设的主题向量库中获取各主题的主题向量。

对应地，计算模块11用于计算获取模块13获取的目标文档的多个词语中各词语的词向量分别与获取模块13获取的多个主题中各主题的主题向量之间的相关性。

生成模块14用于根据预设的包括多个文档的文档库，生成包括数个词料的词料库S；

训练模块15用于根据生成模块14生成的词料库S中的各词料以及各词料在文档库中的各文档中与其它词料的共现信息，训练词向量模型和各词料的词向量；

存储模块16用于将训练模块15训练得到的各词料的词向量存储在生成模块14生成的词料库S中。

对应地，获取模块13用于从生成模块14和存储模块16处理后的词料库S 中获取各词语对应的词料的词向量。

进一步可选地，如图3所示，本实施例的基于人工智能的关键词提取装置中，获取模块13还用于获取各词料对应的主题标识；

训练模块15还用于根据生成模块14和存储模块16处理后的词料库S中各词料的词向量、各词料对应的主题标识以及训练后的词向量模型，获取各主题标识对应的主题的主题向量；

存储模块16还用于将训练模块15训练得到的各主题的主题向量存储在主题向量库M中。

对应地，获取模块13还用于从存储模块16处理后的主题向量库M中获取各主题的主题向量。

图4为本发明的计算机设备实施例的结构图。如图4所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30 执行，使得一个或多个处理器30实现如上图1-图3所示实施例的基于人工智能的关键词提取方法。图4所示实施例中以包括多个处理器30为例。

例如，图5为本发明提供的一种计算机设备的示例图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12a以通用计算设备的形式表现。计算机设备 12a的组件可以包括但不限于：一个或者多个处理器16a，***存储器28a，连接不同***组件(包括***存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28a可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34a可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。***存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图3各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如***存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图3各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备 12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a 与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器16a通过运行存储在***存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的基于人工智能的关键词提取方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的基于人工智能的关键词提取方法。

本实施例的计算机可读介质可以包括上述图5所示实施例中的***存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储***34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括 ——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的关键词提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据各所述词语在各所述主题中的分布概率以及各所述词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性，从所述多个词语中提取作为所述目标文档的关键词的词语，具体包括：

3.根据权利要求1-2任一所述的方法，其特征在于，计算所述目标文档的多个词语中各词语的词向量分别与所述多个主题中各所述主题的主题向量之间的相关性之前，所述方法还包括：

从预设的词料库中获取各所述词语对应的词料的词向量；

从预设的主题向量库中获取各所述主题的主题向量。

4.根据权利要求3所述的方法，其特征在于，从预设的词料库中获取各所述词语对应的词料的词向量之前，所述方法还包括：

将各所述词料的词向量存储在所述词料库中。

5.根据权利要求3所述的方法，其特征在于，从预设的主题向量库中获取各所述主题的主题向量之前，所述方法还包括：

获取各所述词料对应的主题标识；

将各所述主题的主题向量存储在所述主题向量库中。

6.一种基于人工智能的关键词提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述提取模块，具体用于：

8.根据权利要求6-7任一所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于：

所述获取模块，还用于获取各所述词料对应的主题标识；

11.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。