CN110866102A

CN110866102A - 检索处理方法

Info

Publication number: CN110866102A
Application number: CN201911082817.7A
Authority: CN
Inventors: 潘心冰; 李明明; 曾光; 张红若
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-03-06

Abstract

本发明实施例公开一种检索处理方法，能够提高海量检索的检索效率。该检索处理方法包括：获取问题，从所述问题中提取至少一个关键词；确定用于检索所述问题对应答案的海量文档库；根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题的相关文档组成关联文档集合；从所述关联文档集合中检索所述问题对应的答案。本发明实施例获取问题，从问题中提取至少一个关键词，确定用于检索问题对应答案的海量文档库，根据与至少一个关键词的关联度，从海量文档库中提取与问题的相关文档组成关联文档集合，从关联文档集合中检索问题对应的答案。从而根据问题从海量文档库选取关联文档在关联文档中检索答案，以提高海量检索的检索效率。

Description

检索处理方法

技术领域

本发明涉及检索领域，尤其涉及一种检索处理方法。

背景技术

在信息时代信息呈***式增长，从海量信息中快速检索获取用户问题对应的答案成为智能对话***领域的关键之一。随着文档数量的增加，例如在产品说明书、法律文献等海量文档中，检索数据量巨大，常导致查询速度较慢甚至查询失败。

发明内容

本发明实施例提供一种检索处理方法，能够提高海量检索的检索效率。

本发明实施例采用如下技术方案：

一种检索处理方法，包括：

获取问题，从所述问题中提取至少一个关键词；

确定用于检索所述问题对应答案的海量文档库；

根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题关联的文档组成关联文档集合；

从所述关联文档集合中检索所述问题对应的结果。

可选的，所述根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题关联的文档组成关联文档集合包括：

获取所述海量文档库中每篇文档的主题，将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的主题进行匹配，得到所述关键词的第一系列概率；

将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配，得到所述关键词的第二系列概率；

根据所述第一系列概率及所述第二系列概率，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合。

可选的，所述获取所述海量文档库中每篇文档的主题包括：

基于LDA算法构建主题模型；

根据所述主题模型确定所述海量文档库中每篇文档的主题。

可选的，所述根据所述主题模型确定所述海量文档库中每篇文档的主题包括：

根据所述主题模型确定所述海量文档库中每篇文档的一系列备选主题及每个备选主题的概率；

根据每个备选主题的概率，确定所述海量文档库中每篇文档的主题，所述海量文档库中每篇文档的主题可以为一个或者多个。

可选的，所述将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配，得到所述关键词的第二系列概率包括：

根据TF-IDF算法、BM25算法和ES算法中至少一种算法，建立海量文档库的语义相似度模型；

基于所述语义相似度模型，将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配，得到所述关键词的第二系列概率。

可选的，所述根据所述第一系列概率及所述第二系列概率，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合包括：

根据所述第一系列概率与所述第二系列概率，确定所述海量文档库中每篇文档与所述问题相关度的综合概率；

根据所述综合概率对所述海量文档库中的文档进行排序，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合。

可选的，所述根据所述第一系列概率与所述第二系列概率，确定所述海量文档库中每篇文档与所述问题相关度的综合概率包括：

将所述第一系列概率与所述第二系列概率加权相加，得出所述海量文档库中每篇文档与所述问题相关度的综合概率。

可选的，所述根据所述综合概率对所述海量文档库中的文档进行排序，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合包括：

根据所述综合概率从高到低对所述海量文档库中的文档进行排序；

从排序中第一个文档起获取设定数量的文档，作为与所述问题关联的文档组成所述关联文档集合。

可选的，所述获取问题，从所述问题中提取至少一个关键词包括：

接收用户输入的所述问题；

将所述问题进行预处理操作，得到所述至少一个关键词，所述预处理操作包含分词、纠错、去停、实体识别、长难句压缩和指代消解中的一种或者多种操作。

可选的，所述从所述关联文档集合中检索所述问题对应的结果包括：

建立深度学习模型；

根据所述深度学习模型，从所述关联文档集合中查询所述问题所对应的答案。

基于上述技术方案的检索处理方法，获取问题，从问题中提取至少一个关键词，确定用于检索问题对应答案的海量文档库，根据与至少一个关键词的关联度，从海量文档库中提取与问题的相关文档组成关联文档集合，从关联文档集合中检索问题对应的答案。从而根据问题从海量文档库选取关联文档，在关联文档中检索答案，以提高海量检索的检索效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的检索处理方法的流程图之一；

图2为本发明实施例提供的检索处理方法的流程图之二。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例将主题提取与语义相似度分析融合，从海量文档库中提取与所述问题关联的文档组成关联文档集合，基于深度学习的机器阅读理解方法从相关文章中检索查询答案，从而快速准确的从海量文档检索答案。

实施例1

如图1所示，本实施例提供一种检索处理方法，包括：

11、获取问题，从所述问题中提取至少一个关键词。

12、确定用于检索所述问题对应答案的海量文档库。

13、根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题关联的文档组成关联文档集合；

14、从所述关联文档集合中检索所述问题对应的结果。

在一个实施例中，所述根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题关联的文档组成关联文档集合包括：

在一个实施例中，所述获取所述海量文档库中每篇文档的主题包括：

基于LDA算法构建主题模型；

根据所述主题模型确定所述海量文档库中每篇文档的主题。

具体的，以LDA(Latent Dirichlet Allocation)文档主题生成模型为例，主题提取是指根据文档内容，从中抽取出文档主题。更具体的，将文档集合视为一个单词序列{a,b,c,d,…}，每个单词对应于不同主题一个相应的概率，例如，单词a对应于主题A的概率为p1，对应于主题B的概率为p2…不同单词序列构成不同文档主题，例如，abc，acd，cda…取概率最大的单词序列为文档主题，LDA算法建模的过程即对应主题生成概率的过程。

在一个实施例中，所述根据所述主题模型确定所述海量文档库中每篇文档的主题包括：

例如，通过LDA算法从所述海量文档库中每篇文档中获取一系列具有一定概率值的主题，根据概率值排序，取top概率值为该文档主题。具体的，将文档看作一个单词序列{a,b,c,d,…}，每个单词对应于不同主题一个相应的概率，例如，单词a对应于主题A的概率为p1，单词b对应于主题B的概率为 p2…不同单词序列构成不同文档主题，例如，abc，acd，cda…取概率最大的单词序列为文档主题。

再例如，通过LDA算法得出所述海量文档库中每篇文档的一系列具有一定概率值的主题，根据概率值排序，取前几个(可设定)概率值主题为该文档主题，主题可反映文档的内容，可将文档作为一系列服从一定概率分布的主题集，从文档中随机抽取某一主题，文档以一定的概率生成该主题。每一个主题可以由一些单词组成，从主题中随机抽取的单词服从某一概率分布，即该单词以一定的概率包含于该主题。形成从单词到主题、从主题到文本的概率分布。

在一个实施例中，所述将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配，得到所述关键词的第二系列概率包括：

具体的，语义相似度算法用于计算关键词与文档相似度，语义相似度算法可以为TF-IDF、BM25、ES算法，也可以为基于神经网络的DSSM(Deep Structured SemanticModels)、CNN-DSSM(Convolutional Neural Networks-Deep Structured SemanticModels)、LSTM-DSSM(LongShort-Term Memory-Deep Structured Semantic Models)等算法。

具体的，在TF-IDF中，有两个主要的内容，第一，TF词频，表示一个给定词语在改文件中出现的频率。IDF为逆文件频率，表示一个词语的重要性。对于海量文本，对文本分词，然后统计每个词语在当前文章中的词频(TF)，即出现次数除以当前文档中的词语总数，获取词频；计算每个词的IDF，即总文件数目除以包含该文件的数目，将得到的商取对数，以确定一个词语普遍重要定的度量；计算TF-IDF，即词频(TF)乘以逆文档频率(IDF)。TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比，通过TF-IDF可以获取一个概率，即问题中的词与当前文章的关联性的大小，从而在后续步骤中进行使用。同理BM25、ES、DSSM、CNN-DSSM、LSTM-DSSM等算法，同样是对海量的文本进行建模，输出问句与文本相似的排名列表。其中，BM25增加了文档权值和查询权值，相当于TF-IDF的改进版，能够提高输出结果的准确性；ES底层基于lucene。

采用每个的算法略有差异，而对于海量阅读理解，不同的算法，输入和输出相同。因此，本发明实施例不限于上述三种方法，还可以采用其他用于计算语义相似度的模块，本发明实施例不做限定。

在一个实施例中，所述根据所述第一系列概率及所述第二系列概率，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合包括：

在一个实施例中，所述根据所述第一系列概率与所述第二系列概率，确定所述海量文档库中每篇文档与所述问题相关度的综合概率包括：

在一个实施例中，所述根据所述综合概率对所述海量文档库中的文档进行排序，从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合包括：

在一个实施例中，所述获取问题，从所述问题中提取至少一个关键词包括：

接收用户输入的所述问题；

将所述问题进行分词、去除停用词等处理预处理操作，得到所述至少一个关键词。其中，分词可以使用开源的jieba、HanLP等分词工具，比如，对于“今天的天气怎么样”，分词处理结果类似于：“今天”、“的”、“天气”、“怎么样”；停用词包括的、地等。其中，预处理操作包含分词、纠错、去停(去除停用词)、实体识别、长难句压缩和指代消解中的一种或者多种操作，可以根据不同的应用场景进行组合。

在一个实施例中，所述从所述关联文档集合中检索所述问题对应的结果包括：

建立深度学习模型；

具体的，从海量文本中获取问题的答案时，可基于深度学习模型从关联文档集合中获取答案。深度学习模型，即对大量数据集进行训练获得一个模型，结合算法并利用该模型，从文档中提取问题所对应的答案。

本实施例的检索处理方法，获取问题，从问题中提取至少一个关键词，确定用于检索问题对应答案的海量文档库，根据与至少一个关键词的关联度，从海量文档库中提取与问题的相关文档组成关联文档集合，从关联文档集合中检索问题对应的答案。从而根据问题从海量文档库选取关联文档，在关联文档中检索答案，以提高海量检索的检索效率。

实施例2

本实施例结合具体实例详细说明本发明实施例的检索处理方法，如图2所示，该方法包括：

21、获取海量文档库。

本实施例使用的存储大量的文档的海量文档库，海量文档库包含的文档为 Doc1，Doc2，Doc3….。

22、获取问题，对问题进行处理得到关键词。

例如，Doc1为菊花茶的介绍的文章，输入的问题为“菊花茶的生长换境是什么啊”，对问题进行预处理时，对问题进行分析处理，包含停用词(例如，的)、纠错(换)、分词的处理，删除非关键字(词)，将问题转化为关键字：菊花茶、生长环境。

23、将关键词与海量文档库中的文档进行主题匹配和语义相似度匹配。

具体的，对海量文档库中的文档生成主题和语义相似度匹配的模型(其他实施例中，此步骤也可以在22之前)。以LDA文档主题生成模型为例，将文档作为一个单词序列{a,b,c,d,…}，每个单词对应于不同主题一个相应的概率，例如，单词a对应于主题A的概率为p1，单词b对应于主题B的概率为 p2…不同单词序列构成不同文档主题，并且每个单词对应着文档的一个概率 P1(w/d)，例如，abc，acd，cda…取概率最大的单词序列做为文档主题。

进一步，通过语义相似度算法(比如TF-IDF算法)构建模型后，获取每个单词对应文档的概率P2(w/d)，通过模型获取问题词对应文档的概率。如 P1(“菊花茶”/Doc1)、P1(“生长环境”/Doc1)、P1(“菊花茶”/Doc2)…一系列的概率，通过语义相似度算法获取问题词对应文档的概率；如P2(“菊花茶”/Doc1)、 P2(“生长环境”/Doc1)、P2(“菊花茶”/Doc2)…一系列的概率。

24、将关键词与海量文档库中的文档进行主题匹配和语义相似度的匹配结果进行综合排序。

具体的，对两种方法计算产生的概率做加权，获取文档Doc生成单词words 的综合概率，λP1(w/d)+λP2(w/d)。例如，菊花茶在Doc1中的概率即为P (“菊花茶”/Doc1)＝λP1(“菊花茶”/Doc1)+λP2(“菊花茶”/Doc1)，从而获取“菊花茶”在Doc1中的概率。对于“生长环境”。同样，可以计算“菊花茶”、“生长环境”在Doc1中的概率，即Doc1生成问题“菊花茶的生长换境是什么啊”的概率，即问题“菊花茶的生长换境是什么啊”与Doc1相关性的概率。通过同样的方法，可以获取“菊花茶的生长换境是什么啊”与Doc2、 Doc3、Doc4…概率。

25、将综合排序基于深度学习模型，确定问题对应的答案。

具体的，将概率进行排序后，获取与问题最相关的文章集合，将问题与最相关的文章集合交由深度学习模型(比如bert)，得出问题对应的答案。

本实施例的检索处理方法，获取问题，从问题中提取关键词，确定用于检索问题对应答案的海量文档库，根据与关键词的关联度，从海量文档库中提取与问题的相关文档组成关联文档集合，从关联文档集合中检索问题对应的答案。从而根据问题从海量文档库选取关联文档，在关联文档中检索答案，以提高海量检索的检索效率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种检索处理方法，其特征在于，包括：

获取问题，从所述问题中提取至少一个关键词；

确定用于检索所述问题对应答案的海量文档库；

根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题的相关文档组成关联文档集合；

从所述关联文档集合中检索所述问题对应的答案。

2.根据权利要求1所述的方法，其特征在于，所述根据与所述至少一个关键词的关联度，从所述海量文档库中提取与所述问题的相关文档组成关联文档集合包括：

根据所述第一系列概率及所述第二系列概率，从所述海量文档库中提取与所述问题的相关文档组成所述关联文档集合。

3.根据权利要求2所述的方法，其特征在于，所述获取所述海量文档库中每篇文档的主题包括：

基于LDA算法构建主题模型；

根据所述主题模型确定所述海量文档库中每篇文档的主题。

4.根据权利要求3所述的方法，其特征在于，所述根据所述主题模型确定所述海量文档库中每篇文档的主题包括：

根据所述主题模型确定所述海量文档库中每篇文档的至少一个备选主题及每个备选主题的概率；

5.根据权利要求2所述的方法，其特征在于，所述将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配，得到所述关键词的第二系列概率包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述第一系列概率及所述第二系列概率，从所述海量文档库中提取与所述问题的相关文档组成所述关联文档集合包括：

根据所述综合概率对所述海量文档库中的文档进行排序，从所述海量文档库中提取与所述问题的相关文档组成所述关联文档集合。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一系列概率与所述第二系列概率，确定所述海量文档库中每篇文档与所述问题相关度的综合概率包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述综合概率对所述海量文档库中的文档进行排序，从所述海量文档库中提取与所述问题的相关文档组成所述关联文档集合包括：

从排序中第一个文档起获取设定数量的文档，作为与所述问题的相关文档组成所述关联文档集合。

9.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取问题，从所述问题中提取至少一个关键词包括：

接收用户输入的所述问题；

10.根据权利要求1至5中任一项所述的方法，其特征在于，所述从所述关联文档集合中检索所述问题对应的***括：

建立深度学习模型；