CN113822038A

CN113822038A - 一种摘要生成方法和相关装置

Info

Publication number: CN113822038A
Application number: CN202110621220.6A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-12-21
Anticipated expiration: 2041-06-03
Also published as: CN113822038B

Abstract

本申请实施例公开了一种摘要生成方法和相关装置，至少涉及人工智能技术中的自然语言处理技术、机器学习等，针对基于检索词确定的目标文本，根据分词的分词向量，对目标文本包括的多个分词进行语义聚类，得到多个语义集合，处于同一个语义集合中的分词所表达的语义较为相似。通过确定检索词的词向量分别与多个语义集合中分词向量的语义相似度，将满足语义相似度条件的语义集合作为目标语义集合。基于目标语义集合所包括的分词在目标文本中的位置，生成目标文本针对检索词的摘要内容。由于目标语义集合中分词在语义上与检索词更为接近，基于该目标语义集合所生成的摘要内容在语义上会贴近检索词，提高了摘要内容的准确性，满足了用户的检索需求。

Description

一种摘要生成方法和相关装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种摘要生成方法和相关装置。

背景技术

摘要可以体现文本中的重要信息，而且篇幅一般远小于文本，用户可以通过阅读摘要来了解文本主旨思想的目的，从而可以从大量文本中快速找到符合自身需求的文档，避免了大篇幅内容阅读的筛查时间。

其中，动态摘要是对被检索的文本进行摘要动态显示的技术，根据检索词(query)的不同，同一个文本会形成不同的摘要。对于搜索引擎来说，当响应用户检索的时候，根据检索词在文本中出现的位置，提取出检索词周围相关的文字生成摘要并返回给用户。

然而，该种方式生成的摘要有时准确性较低，无法满足用户的检索需求。

发明内容

为了解决上述技术问题，本申请提供了一种摘要生成方法和相关装置，用于提高生成摘要内容的准确性。

本申请实施例公开了如下技术方案：

一方面，本申请提供一种摘要生成方法，所述方法包括：

获取基于检索词确定的目标文本，所述目标文本包括多个分词；

根据所述分词的分词向量，将所述多个分词进行语义聚类，得到多个语义集合；

根据检索词的检索词向量，确定所述检索词分别与所述语义集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合；

基于所述目标语义集合所包括分词在所述目标文本中的位置，生成所述目标文本针对所述检索词的摘要内容。

另一方面，本申请提供一种摘要生成装置，所述装置包括：获取单元、语义聚类单元、第一确定单元和生成单元；

所述获取单元，用于获取基于检索词确定的目标文本，所述目标文本包括多个分词；

所述语义聚类单元，用于根据所述分词的分词向量，将所述多个分词进行语义聚类，得到多个语义集合；

所述第一确定单元，用于根据检索词的检索词向量，确定所述检索词分别与所述语义集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合；

所述生成单元，用于基于所述目标语义集合所包括分词在所述目标文本中的位置，生成所述目标文本针对所述检索词的摘要内容。

另一方面，本申请提供一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，针对基于检索词确定的目标文本，根据分词的分词向量，对目标文本包括的多个分词进行语义聚类，得到多个语义集合，处于同一个语义集合中的分词所表达的语义较为相似，若目标文本的内容涉及多个主题，由于涉及同一个主题的分词在语义上与主题或多或少具有关联，故涉及不同主题的分词基本上会通过上述语义聚类被划分在不同的语义集合中。通过确定检索词的词向量分别与多个语义集合中分词向量的语义相似度，将满足语义相似度条件的语义集合作为目标语义集合。基于目标语义集合所包括的分词在目标文本中的位置，生成目标文本针对检索词的摘要内容。由于目标语义集合中分词在语义上与检索词更为接近，基于该目标语义集合所生成的摘要内容在语义上会贴近检索词，使得针对不同语义的检索词检索到同一个目标文本时，所生成的摘要内容不仅有所区别，且均会与对应的检索词具有贴近的语义，使得动态生成的摘要内容与检索词实际体现出的用户检索意图相符的可能性更大，从而实现提供动态摘要的准确性目的，满足了用户的检索需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种摘要生成方法的应用场景示意图；

图2为本申请实施例提供的一种摘要生成方法的流程图；

图3为本申请实施例提供的一种摘要内容生成的示意图；

图4为Word2vec模型的简要流程图；

图5为本申请实施例提供的一种分词之间关系的示意图；

图6为本申请实施例提供的一种摘要生成装置的示意图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

相关技术中，预先设定动态摘要内容的长度为M后，根据检索词在文本中出现的位置，选择文本中包含检索词数量较多的，且长度为M的片段作为动态摘要。若仅考虑检索词在文本中出现的位置，会忽视检索词与目标文本分词的语义，使得该摘要准确性较低，无法满足用户的检索需求。

基于此，本申请实施例提供一种摘要生成方法和相关装置，用于提高生成摘要内容的准确性。

本申请实施例提供的摘要生成方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如，可以涉及文本预处理(Text preprocessing)、自然语言处理(Nature Language processing，NLP)、知识图谱等，也可以涉及机器学习(Machinelearning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(ArtificialNeural Network，ANN)、聚类算法等。

本申请提供的摘要生成方法可以应用于具有数据处理能力的摘要生成设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能手表、智能电视等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该摘要确定设备可以具备实施自然语言处理的能力，自然语言处理(NatureLanguage processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。

该摘要生成设备还可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例提供的摘要生成方法中，采用的人工智能模型主要涉及对机器学习和自然语言处理的应用，通过机器学习中如聚类方法等对分词进行聚类，通过自然自然语言处理实现生成目标文本针对检索词的摘要内容。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器作为摘要生成设备对本申请实施例提供的摘要生成方法进行介绍。

参见图1，该图为本申请实施例提供的一种摘要生成方法的应用场景示意图。在图1所示的应用场景中，包括终端设备100和服务器200。用户可以在终端设备100中输入检索词，通过服务器200生成目标文本针对检索词的摘要内容。

在实际应用中，用户在终端设备100中输入检索词：会同村美食，终端设备100将该检索词发送给服务器200，服务器200通过搜索，确定多篇与该检索词相关的文本，下面以其中一篇文本《集美食美景于一身的会同村，约一波再开工吧！》作为目标文本进行说明。

在该目标文本中分别介绍了会同村美食和会同村美景，并在文本的后部区域详细列举了会同村美食的菜品名称等。由于菜品名称中没有包括分词“会同村美食”，采用相关技术的方式，即选择包括分词“会同村美食”数量最多的文本片段生成摘要内容，该摘要内容不仅不会考虑菜品名称的相关内容，还可能会包括“会同村美景”相关的内容，该摘要内容的准确性较低，与检索词对应的检索需求不符。

为了提高摘要的准确性，服务器200根据目标文本包括的多个分词对应的分词向量，将多个分词进行语义聚类，得到多个语义集合，在图1所示的应用场景中，通过语义聚类得到三个语义集合，分别为语义集合A、语义集合B和语义集合C。处于同一个语义集合中的分词所表达的语义较为相似。例如，在目标文本中，分词“荔园烧鹅”(一种菜品名称)会与分词“会同村美食”划分至同一个语义集合。由此，通过语义聚类的方式能够挖掘分词语义之间的关联性，避免出现仅通过字面匹配的方式导致生成摘要时不会考虑分词的语义的问题。

目标文本的内容涉及“会同村美食”“会同村美景”两个主题，由于涉及同一个主题的分词在语义上与主题或多或少具有关联，故涉及不同主题的分词基本上会通过语义聚类被划分在不同的语义集合中，如表征“会同村美食”主题的分词被划分在语义集合A和语义集合C中，表征“会同村美景”主题的分词被划分在语义集合B中。

服务器200根据检索词“会同村美食”的检索词向量，确定检索词“会同村美食”与语义集合A的第一语义相似度为90％，与语义集合B的第一语义相似度为60％，与语义集合C的第一语义相似度为30％，将第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合，如将第一语义相似度最高的语义集合作为目标语义集合，即将语义集合A确定为目标语义集合。

服务器200基于目标语义集合所包括的分词，即语义集合A中的分词在目标文本中的位置，如文本的后部区域，生成目标文本针对检索词“会同村美食”的摘要内容。

由于目标语义集合中分词在语义上与检索词更为接近，基于该目标语义集合所生成的摘要内容在语义上会贴近检索词，提高了摘要内容的准确性，满足了用户的检索需求。

下面结合附图，以服务器作为摘要生成设备，对本申请实施例提供的一种摘要生成方法进行介绍。

参见图2，该图为本申请实施例提供的一种摘要生成方法的流程图。如图2所示，该摘要生成方法包括以下步骤：

S201：获取基于检索词确定的目标文本。

在实际应用中，用户可以在搜索界面中输入检索词，其中，该检索词体现用户的检索意图，搜索界面可以为社交软件提供的搜索入口进入的界面，视频类新闻类等资讯软件提供的搜索栏所在的界面等。基于用户输入的检索词，服务器能够搜索到多个符合用户检索意图的检索结果，检索结果可以为文本、音频、视频、图片等，文本可以为文档、新闻、网页等数据结构。

基于检索词确定目标文本可以分为两种情况，下面分别进行说明。情况一：若基于检索词确定的检索结果为文本形式，则将任意一个文本形式的检索结果中的文本作为目标文本。

例如，在图3中，用户在搜索界面中输入检索词“会同村美食”，得到三个文本。为了方便用户快速了解文本主旨思想，服务器会为文本生成对应的摘要内容。目标文本为检索到的多个文本中的任意一个文本，例如在针对检索词确定图3中的文本2的动态摘要时，文本2将被作为目标文本。

情况二：若基于检索词确定的检索结果为非文本形式，如视频、音频、图片等，当为任意一个检索结果生成对应的摘要内容时，将非文本形式的检索结果转换为其对应的文本形式。例如，提取视频中的音频，基于语义将音频转换为对应的文本，并将转换后的文本为目标文本。

例如，用户在使用社交软件时，从社交软件提供的搜索入口进入搜索界面，在搜索界面中输入检索词，若服务器基于检索词搜索到多个检索结果，若想要为其中一个为音频形式的检索结果生成对应的摘要内容，可以先该音频基于语音识别技术将其转换为对应的文本，并将其作为目标文本。

目标文本包括多个分词，分词为组成目标文本的基本单位，例如，基于划分粒度的不同，分词可以为句子、词组、单词等数据结构。本申请实施例不具体限定获取目标文本中分词的方式，例如，通过jieba(一种分词器)等分词器对目标文本进行分词。

S202：根据分词的分词向量，将多个分词进行语义聚类，得到多个语义集合。

相关技术中，在设定摘要内容要抽取的长度为M后，对目标文本进行分词，然后遍历目标文本的分词，在目标文本中寻找与检索词相同的分词所处的位置，通过贪心算法等方式选择包括检索词数量最多的且长度为M的片段作为摘要内容。

但是该种方式仅考虑检索词在目标文本中的命中情况，会忽视检索词与目标文本分词的语义。如图3中左侧图所示，当检索词为“会同村美食”时，目标文本中的分词为“荔园烧鹅”不会命中，在生成摘要内容时不会考虑“荔园烧鹅”这种与美食实际相关的内容，而有可能以目标文本中与会同村美景相关的内容生成与检索词“会同村美食”对应的动态摘要，导致生成的摘要内容相对于该检索词准确性较低甚至不相关，降低了用户的浏览摘要的体验，也会对用户最终选择实际需要查看的文本带来错误的指引。

基于此，本申请实施例进一步考虑了检索词的语义以及目标文本中分词的语义，根据检索词与分词之间的语义相似度，确定与检索词语义相似的分词，根据该分词在目标文本中的位置生成摘要内容，如图3中右侧图所示，由于考虑语义，使得生成的摘要内容准确性更高，更符合用户的检索需求。

下面先对确定目标文本的分词语义进行说明。根据目标文本包括的分词对应的分词向量，将多个分词进行语义聚类，得到多个语义集合。从而根据语义聚类的方式将目标文本划分为多个语义集合，处于同一个语义集合中的分词所表达的语义较为相似，如分词“美食”和分词“荔园烧鹅”会被划分至同一个语义集合中，用于表征与食物相关的语义。

本申请不具体限定语义聚类的方式，如K-means聚类模型、K中心聚类模型、具有噪声的基于密度的聚类(Density-Based Spatial Clustering of Applications withNoise，DBSCAN)等模型进行语义聚类，后续会以DBSCAN模型为例，结合S2021-S2024为例进行说明，在此不再赘述。

相关技术中，可能会将检索词进行分词，得到多个检索词分词，如将检索词“会同村美食”分为两个检索词分词“会同村”和“美食”，在目标文本中寻找检索词分词所处的位置，若检索词分词之间的位置小于检索词分词位置阈值，则认为命中。例如，检索词分词位置阈值为5，则认为检索词“会同村美食”命中了目标文本中“会同村中的美食”。

但是，若目标文本中的内容涉及多个主题，如目标文本：《集美食美景于一身的会同村，约一波再开工吧！》分别介绍了“会同村美食”和“会同村美景”两个主题，当检索词“会同村美食”被分为两个检索词分词“会同村”和“美食”时，在目标文本中寻找检索词分词“会同村”时，可能会命中“会同村美景”，从而生成的摘要内容中可能会包括“会同村美景”主题相关的内容，即本应该生成与“会同村美食”主题相关的摘要内容中包括了与“会同村美景”主题相关的内容，从而导致生成的摘要内容不准确，不满足用户的检索需求。

基于此，当目标文本的内容涉及多个主题时，由于涉及同一个主题的分词在语义上与主题或多或少具有关联，且处于同一个语义集合中的分词所表达的语义较为相似，故涉及不同主题的分词基本上会通过S202中的语义聚类被划分在不同的语义集合中。如《集美食美景于一身的会同村，约一波再开工吧！》这篇目标文本可以划分为与“美景”相关和“美食”相关的多个语义集合。

由此，在将对应不同主题的分词划分至不同的语义集合中后，通过S203确定目标语义集合，如将第一语义相似度排序为第一名的语义集合确定为目标语义集合，若以前述例子为例，与“美食”相关的语义集合更可能被确定为目标语义集合。通过S204生成目标文本针对检索词的摘要内容，该摘要内容从语义上与检索词更为相似，准确率更高，更符合用户的检索需求。

S203：根据检索词的检索词向量，确定检索词分别与语义集合对应的第一语义相似度，将第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合。

本申请不具体限定获得检索词向量的方式，如将检索词输入至Word2vec(word tovector)模型、bert预训练模型(一种NLP模型)等模型中，得到检索词向量，根据检索词的检索词向量，确定检索词与S202中获取的语义集合间的第一语义相似度，将第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合。如按照第一语义相似度的大小将对应的语义集合进行排序，将topN(前N个)语义集合确定为目标语义集合。

本申请不具体限定确定第一语义相似度方式，下面以两种方式为例。

方式一：可以根据检索词的检索词向量，以及语义集合所包括的分词对应的分词向量，分别计算检索词与每个语义集合的待定第一语义相似度，然后综合所有待定第一语义相似度，得到检索词与该语义集合间的第一语义相似度。

方式二：可以根据语义集合所包括分词的分词向量，确定语义集合的集合向量，例如，将语义集合所包括的分词，使用Word2vec模型提取每个分词的200维分词向量，然后将属于一个语义集合中所有分词的词向量线性累加，构成该语义集合的200维集合向量表示。根据检索词的检索词向量和集合向量，确定检索词与每个语义集合对应的第一语义相似度。

通过集合向量能够体现出该语义集合所表达的语义，相比于每个分词的分词向量，集合向量降低了噪声，能够更加体现出目标文本的主题，从而确定出的第一语义相似度更为准确，进而确定出的目标语义集合更为准确。而且，在计算语义相似度时，仅需计算与语义集合数量相等的次数，相比于方式一中需要计算与目标文本所包括分词数量相等的次数，计算量更低，计算速度更快。

需要说明的是，目标文本中可能会使用大量的笔墨描述与主题相关的内容，故与目标文本想要表达的主题越接近的语义集合中所包括的分词数量越多，从而可以在S202中得到的多个语义集合中，根据分词数量从筛选出与目标文本想要表达的主题更为接近的语义集合。

分别统计多个语义集合中所包括分词的分词数量，将分词数量满足数量条件的语义集合确定为待处理集合，如按照分词数量的大小将对应的语义集合进行排序，将topK(前K个)待处理集合确定为目标语义集合，从而根据检索词的检索词向量，确定检索词分别与待处理集合对应的第一语义相似度，将第一语义相似度满足第一相似度条件的待处理集合确定为目标语义集合。相比于根据所有语义集合确定目标语义集合，根据数量较少的待处理集合确定目标语义集合，可以提高确定目标语义集合的速度。

S204：基于目标语义集合所包括分词在目标文本中的位置，生成目标文本针对检索词的摘要内容。

由此，当用户输入检索词后，无论检索结果是文本形式还是非文本形式，均可以生成针对检索词的摘要内容，以便用户通过阅读生成的摘要内容达到快速了解检索结果主旨思想的目的。

本申请实施例不具体限定生成摘要内容的方式，下面以两种方式为例进行说明。

方式a：基于段落生成摘要内容。

确定目标语义集合所包括分词在目标文本中所处的多个段落，根据多个段落中分别包括目标语义集合所包括分词的数量，从多个段落中确定目标段落，根据目标段落生成目标文本针对检索词的摘要内容。

例如，目标语义集合所包括的分词(以下简称目标分词)命中目标文本的第2段、第3段和第4段。其中，在第3段中包括目标分词的数量最多，将第3段确定为目标段落，根据预先设置的摘要内容的长度为50字，从第3段中抽取包括目标分词数量最多的，且长度为50字的片段作为摘要内容。

本申请实施例不具体限定确定目标段落的方式，如按照包括目标分词的数量对目标文本的段落进行排序，选取topX的段落作为目标段落。

本申请实施例不具体限定生成摘要内容的方式，如从目标段落中抽取包括目标分词数量最多的片段作为摘要内容。

方式b：基于句子生成摘要内容。

确定目标语义集合所包括分词在目标文本中所处的多个语句，根据多个语句中分别包括目标语义集合所包括分词的数量，从多个语句中确定目标语句，根据目标语句生成目标文本针对检索词的摘要内容。

例如，目标语义集合所包括的分词(以下简称目标分词)命中目标文本的第2句、第3句、第7句和第15句。其中，第2句和第3句包括的目标分词数量相对较多，将第2句和第3句确定为目标语句，将第2句和第3句拼接生成摘要内容。

本申请实施例不具体限定确定目标语句的方式，如按照包括目标分词的数量对目标文本的语句进行排序，选取topY的语句作为目标语句。

本申请实施例不具体限定生成摘要内容的方式，如将目标语句进行拼接得到摘要内容，或者根据目标语句的语义生成摘要内容。

下面结合S2021-S2024，以DBSCAN模型为例对S202进行说明。

S2021：根据分词的分词向量，确定多个分词中任意两个分词间的第二语义相似度。

本申请不具体限定获得分词向量的方式，如Word2vec模型、bert预训练模型等，下面以Word2vec模型为例进行说明。将目标文本的分词输入至Word2vec模型中，得到分词向量对应的稠密向量，如200维词向量。

其中，Word2vec模型是由Google的Mikolov等人提出的一个词向量计算模型，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

词向量的重要意义在于将自然语言转换成了计算机能够理解的向量。相对于词袋模型、词频-逆文本频率指数(term frequency–inverse document frequency，TF-IDF)算法等模型，词向量能抓住词的上下文、语义，衡量词与词的相似性，在文本分类、情感分析等许多自然语言处理领域有重要作用。word2vec的详细实现，简而言之，就是一个三层的神经网络，参见图4，该图为Word2vec模型的简要流程图。首先假设：词库里的词数为10000，词向量的长度为300维。下面以单个训练样本为例，依次介绍每个部分的含义。

输入层：输入为一个词的one-hot向量表示。这个向量长度为10000。假设这个词为ants，ants在词库中的ID为i，则输入向量的第i个分量为1，其余为0。

隐藏层：隐藏层的神经元个数就是词向量的长度。隐藏层的参数是一个[10000，300]的矩阵。实际上，这个参数矩阵就是词向量。回忆一下矩阵相乘，一个one-hot行向量和矩阵相乘，结果就是矩阵的第i行。经过隐藏层，实际上就是把10000维的one-hot向量映射成了最终想要得到的300维的词向量。

输出层:输出层的神经元个数为总词数10000，参数矩阵尺寸为[300，10000]。词向量经过矩阵计算后再加上softmax归一化，重新变为10000维的向量，每一维对应词库中的一个词与输入的词(在这里是ants)共同出现在上下文中的概率。

在获得分词的分词向量后，将目标文本中所有分词两两计算确定任意两个分词间的第二语义相似度。本申请实施例不具体限定确定分词间第二语义相似度的方式，例如，余弦相似度、欧式距离等。

S2022：确定第二语义相似度满足第二相似度条件的分词间具有关联关系。

通过第二相似度条件可以确定出两个分词在语义上是否具有关联关系，下面结合textrank算法(一种用于文本的基于图的排序算法)为例进行说明。

相关技术中，确定两个分词之间是否具有关联关系，可以确定两个分词所处的位置距离是否满足位置距离条件(还可以称为窗口距离)，或者两个分词是否为相邻的分词，若是则两个分词具有关联关系。若以图表示，则两个具有关联关系的词之间存在一条边，进而目标文本可以表示成一个图。

但是，本申请不再仅考虑检索词在目标文本中的命中情况，而是进一步考虑了检索词与分词的语义，故在确定关联关系时，可以确定两个分词间的第二语义相似度是否有满足第二相似度条件，如第二语义相似度是否大于语义阈值，从而确定两个分词是否具有关联关系。

参见图5，该图为本申请实施例提供的一种分词之间关系的示意图。在图5中，包括五个分词A、B、C、D、E，分词之间是否具有关联关系是有向的，如分词A和分词D具有关联关系，分词D和分词E具有关联关系，分词A和分词E不具有关联关系，依次类推。

S2023：根据分词向量和关联关系，从多个分词中确定关键词。

继续以textrank算法为例，在获得目标文本对应的分词之间是否具有关联关系的图后，根据分词向量和关联关系，确定每个分词的重要度，从而从多个分词中确定出关键词。重要度的计算可以参见下式：

其中，WS(V_i)表示分词V_i的重要度，d为阻尼系数，确保每个分词均有分数，In(V_i)表示所有边指向分词V_i的分词集合(包括分词V_j)，Out(V_j)表示所有边指向分词V_j的集合(包括分词V_k)，ω_ji表示分词V_i与分词V_j之间第二语义相似度，ω_jk表示分词V_j与分词V_k之间第二语义相似度，WS(V_j)表示分词V_j的重要度。

本申请实施例不具体限定确定出关键词的方式，例如，按照重要度对所有分词进行排序，取topN(前N)个关键词作为目标文本的关键词。

S2024：基于关键词进行语义聚类，得到多个语义集合。

若目标文本包括大量与目标文本主题无关的分词，可能会干扰后续的语义聚类，如得到多个与检索词无关的类别、影响聚类的速度、增加聚类错误的可能等。故为了降低干扰，可以对目标文本包括的分词进行降维，筛选出能够表示目标文本主题的关键词，即从多个分词中确定出关键词，基于关键词进行语义聚类，得到多个语义集合。

由于目标文本包括多种语义，通过预设的中心点个数(K值)可能会影响语义聚类的准确性，故为了保证语义聚类的准确性，可以采用基于密度的聚类算法模型，下面以DBSCAN模型为例进行说明。

DBSCAN模型是一种基于密度的聚类算法，其基本假设是一个集合的密度要显著高于噪声点的密度，基本思想是对于集合中的每一个分词，在给定的半径范围内，其相邻点的数量必须超过预先设定的阈值。

在介绍DBSCAN算法之前，先介绍几个基本的概念。

Eps邻域(Eps-neighborhood)：对于一个分词，记其Eps邻域为N_Eps(p)，其定义如下式：

N_Eps(p)＝{q∈D|dist(p,q)≤N_Eps}

其中，D标识同一个语义集合下的所有分词，dist(p,q)标识两个分词的分词向量的语义相似度(又称cosin距离)，N_Eps为预先设定的阈值。

核心分词：如果给定分词在N_Eps邻域内的分词数量大于等于给定半径范围MinPts，则称该分词为核心分词。

直接密度可达(Directly density reachable,DDR)：一个分词p直接密度可达分词q，如果满足以下条件：

p∈N_Eps(q)

|N_Eps(q)|≥MinPts

其中，MinPts表示在Eps邻域中的最少分词数量，默认可以取4，可以不断调整。

密度可达：给定n个分词p₁、p₂、……、p_n，如果满足p＝p₁，q＝p_n，分词p_i直接密度可达分词p_i-1，那么分词q密度可达分词p。

密度相连：若存在分词p、分词q和分词o，如果分词o到分词p和分词q都是密度可达的，那么分词p和分词q密度相连。

由此，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。

DBSCAN算法的目的是找到密度相连分词的最大集合，其算法描述如下：

输入：当前关键词构成的集合、Eps和MinPts；

输出：所有生成的语义集合，达到密度要求。

(1)重复(Repeat)；

(2)从数据库中抽出一个未处理的分词；

(3)如果(IF)抽出的点是核心分词，然后(THEN)找出所有从该分词密度可达的分词，形成一个语义集合；

(4)否则(ELSE)抽出的分词是边缘分词(非核心分词)，跳出本次循环，寻找下一个非核心分词；

(5)直到(UNTIL)所有的非核心分词都被处理。

接下来，将以服务器根据用户输入的检索词生成对应的摘要内容为例进行说明。

用户在终端设备中输入检索词，终端设备将该检索词发送给服务器，服务器通过搜索，确定多篇与该检索词相关的文本，并根据检索词为多个文本分别生成对应的摘要内容，以便用户快速浏览。下面以目标文本为例，说明服务器为目标文本生成其对应的摘要内容的过程。

服务器使用jieba分词器对目标文本进行分词，通过Word2vec模型提取每个分词对应的200维词向量，通过textrank算法确定分词的间的关联关系，从而根据该关联关系和分词向量从多个分词中确定出关键词，通过DBSCAN模型对关键词进行聚类，得到多个语义集合。

服务器统计每个语义集合中包括的分词数量，选取包括分词数量的top3语义集合作为待处理集合，将属于同一个待处理集合的分词，其对应的分词向量进行线性累加，从而得到待处理集合的集合向量，该集合向量的维数为200维。

服务器使用jieba分词器对检索词进行分词，通过Word2vec模型提取每个检索词分词对应的200维词向量，依次遍历检索词所包括的检索词分词对应的检索词向量，通过线性累加得到表征该检索词的检索词向量，该检索词向量的维数为200维。

服务器确定检索词向量与集合向量的第一相似度，将第一相似度最高的语义集合作为目标语义集合。基于目标语义集合所包括分词在目标文本中的段落，生成目标文本针对检索词的摘要内容。

针对上述实施例提供的摘要生成方法，本申请实施例还提供了一种摘要生成装置。

参见图6，该图为本申请实施例提供的一种摘要生成装置的示意图。如图6所示，该摘要生成装置600包括：获取单元601、语义聚类单元602、第一确定单元603和生成单元604；

所述获取单元601，用于获取基于检索词确定的目标文本，所述目标文本包括多个分词；

所述语义聚类单元602，用于根据所述分词的分词向量，将所述多个分词进行语义聚类，得到多个语义集合；

所述第一确定单元603，用于根据检索词的检索词向量，确定所述检索词分别与所述语义集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合；

所述生成单元604，用于基于所述目标语义集合所包括分词在所述目标文本中的位置，生成所述目标文本针对所述检索词的摘要内容。

作为一种可能的实现方式，所述语义聚类单元602，用于：

根据所述分词的分词向量，确定所述多个分词中任意两个分词间的第二语义相似度；

确定所述第二语义相似度满足第二相似度条件的分词间具有关联关系；

根据所述分词向量和所述关联关系，从所述多个分词中确定关键词；

基于所述关键词进行语义聚类，得到多个语义集合。

作为一种可能的实现方式，所述目标文本的内容涉及多个主题，对应不同主题的分词被划分至不同的语义集合中。

作为一种可能的实现方式，所述装置600还包括第二确定单元，用于：

根据所述语义集合所包括分词的分词向量，确定所述语义集合的集合向量；

所述第一确定单元603，用于：

根据检索词的检索词向量和所述集合向量，确定所述检索词分别与所述语义集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合。

作为一种可能的实现方式，所述装置600还包括第三确定单元，用于：

将所述语义集合所包括分词的分词数量满足数量条件的语义集合确定为待处理集合；

所述第一确定单元603，用于：

根据检索词的检索词向量，确定所述检索词分别与所述待处理集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的待处理集合确定为目标语义集合。

作为一种可能的实现方式，所述生成单元604，用于：

确定所述目标语义集合所包括分词在所述目标文本中所处的多个段落；

根据所述多个段落中分别包括所述目标语义集合所包括分词的数量，从所述多个段落中确定目标段落；

根据所述目标段落生成所述目标文本针对所述检索词的摘要内容。

作为一种可能的实现方式，所述生成单元604，用于：

确定所述目标语义集合所包括分词在所述目标文本中所处的多个语句；

根据所述多个语句中分别包括所述目标语义集合所包括分词的数量，从所述多个语句中确定目标语句；

根据所述目标语句生成所述目标文本针对所述检索词的摘要内容。

本申请实施例提供的摘要生成装置，针对基于检索词确定的目标文本，根据分词的分词向量，对目标文本包括的多个分词进行语义聚类，得到多个语义集合，处于同一个语义集合中的分词所表达的语义较为相似，若目标文本的内容涉及多个主题，由于涉及同一个主题的分词在语义上与主题或多或少具有关联，故涉及不同主题的分词基本上会通过上述语义聚类被划分在不同的语义集合中。通过确定检索词的词向量分别与多个语义集合中分词向量的语义相似度，将满足语义相似度条件的语义集合作为目标语义集合。基于目标语义集合所包括的分词在目标文本中的位置，生成目标文本针对检索词的摘要内容。由于目标语义集合中分词在语义上与检索词更为接近，基于该目标语义集合所生成的摘要内容在语义上会贴近检索词，使得针对不同语义的检索词检索到同一个目标文本时，所生成的摘要内容不仅有所区别，且均会与对应的检索词具有贴近的语义，使得动态生成的摘要内容与检索词实际体现出的用户检索意图相符的可能性更大，从而实现提供动态摘要的准确性目的，满足了用户的检索需求。

前述所述的摘要生成设备可以为一种计算机设备，该计算机设备可以为服务器，还可以为终端设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图7所示为服务器的结构示意图，图8所示为终端设备的结构示意图。

参见图7，图7是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，CPU 1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以执行本申请实施例中摘要生成方法任一具体实现方式的方法步骤。

参见图8，图8为本申请实施例提供的一种终端设备的结构示意图。图8示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图，该智能手机包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图8中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long TermEvolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图8中，触控面板1531与显示面板1541是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块1570，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

智能手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理***与处理器1580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的摘要生成方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的摘要生成方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的摘要生成方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种摘要生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述分词的分词向量，将所述多个分词进行语义聚类，得到多个语义集合，包括：

基于所述关键词进行语义聚类，得到多个语义集合。

3.根据权利要求1所述的方法，其特征在于，所述目标文本的内容涉及多个主题，对应不同主题的分词被划分至不同的语义集合中。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述根据检索词的检索词向量，确定所述检索词分别与所述语义集合对应的第一语义相似度，将所述第一语义相似度满足第一相似度条件的语义集合确定为目标语义集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述基于所述目标语义集合所包括分词在所述目标文本中的位置，生成所述目标文本针对所述检索词的摘要内容，包括：

7.根据权利要求1-5任意一项所述的方法，其特征在于，所述基于所述目标语义集合所包括分词在所述目标文本中的位置，生成所述目标文本针对所述检索词的摘要内容，包括：

8.一种摘要生成装置，其特征在于，所述装置包括：获取单元、语义聚类单元、第一确定单元和生成单元；

9.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7任意一项所述的方法。