CN111339239A

CN111339239A - 知识检索方法及装置、存储介质、服务器

Info

Publication number: CN111339239A
Application number: CN201910510211.2A
Authority: CN
Inventors: 胡崇海; 熊友根; 王洪涛
Original assignee: Haitong Securities Co ltd
Current assignee: Haitong Securities Co ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2020-06-26
Anticipated expiration: 2039-06-13
Also published as: CN111339239B

Abstract

一种知识检索方法及装置、存储介质、服务器，所述知识检索方法包括：接收用户的输入信息；根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；根据所述检索意图点组合进行检索，并输出检索结果。通过本发明的技术方案，可以在小语料场景下提供较理想的检索结果。

Description

知识检索方法及装置、存储介质、服务器

技术领域

本发明涉及大数据技术领域，具体地涉及一种知识检索方法及装置、存储介质、服务器。

背景技术

文本知识检索通常分为大语料检索和小语料检索两个场景。在各类专业领域，存在大量文本知识，其中许多文本知识较为专业，知识量体量较小的语料检索场景。目前在该类场景下的知识检索仍以传统检索技术如分布式搜索(Elastic Search，简称ES)、全文检索(SOLR，读作SOLAR)为主，无法进行用户意图识别，只能提供关键字形式的检索，且检索质量有限。

现有的智能检索***主要应用于大语料场景下，采用神经网络算法，需要大量的语料进行训练才能获得质量较高的检索模型，因此无法适用于小语料(如100万个知识点以内)下的文本检索场景。现有针对小语料场景的检索工具的检索效果并不理想。

因而，针对小语料场景的知识检索方法还需进一步研究。

发明内容

本发明解决的技术问题是如何在小语料场景下提供较理想的检索结果。

为解决上述技术问题，本发明实施例提供一种知识检索方法，包括：接收用户的输入信息；根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；根据所述检索意图点组合进行检索，并输出检索结果。

可选的，所述将所述用户的各个检索意图点进行重组融合包括：基于图论或决策树算法，将所述用户的各个检索意图点进行重组融合。

可选的，所述根据所述输入信息对所述用户的检索意图进行识别包括：根据词向量以及词频逆文本频率指数，对所述输入信息进行分词，以根据所述输入信息的分词结果对所述用户的检索意图进行识别。

可选的，所述输出检索结果包括：按照对所述检索意图点组合的匹配度从高到低的顺序，输出所述检索结果；或者，按照所述检索结果的发生时间从新到旧的顺序，输出所述检索结果。

可选的，所述根据所述检索意图点组合进行检索包括：基于知识元库检索所述检索意图点组合，所述知识元库是由多个知识元构建的，每个知识元是对知识源进行段落和/或条款分割得到的。

可选的，所述知识库包括多个知识，所述知识是从所述知识元中提取得到的，所述知识与所述知识元具有关联关系。

可选的，采用如下步骤从所述知识元中提取得到所述知识：对所述知识元进行词语划分，以得到多个词语块；对所述多个词语块，利用词窗计算每个词语块的互信息和左右信息熵，并至少根据计算结果对所述多个词语块进行清洗，以得到所述知识。

可选的，所述至少根据计算结果对所述多个词语块进行清洗，以得到所述知识包括：按照所述计算结果从大到小的顺序对所述多个词语块进行排序，将排序在前的预设数量个词语块作为待清洗知识；基于所述知识库中的知识对所述待清洗知识进行检查与剔除处理，以得到至少一个所述知识。

为解决上述技术问题，本发明实施例还提供一种知识检索装置，包括：接收模块，适于接收用户的输入信息；识别模块，适于根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；融合模块，适于将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；检索模块，适于根据所述检索意图点组合进行检索，并输出检索结果。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种知识检索方法，包括：接收用户的输入信息；根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；根据所述检索意图点组合进行检索，并输出检索结果。本发明实施例在接收到用户的输入信息之后，可以基于所述输入信息进行意图识别，以确定所述用户的检索意图，从而得到更加符合所述用户期望搜索的检索意图点和检索意图点组合。在小语料场景中，更加易于获得符合用户检索需求、且检索质量较高的检索结果。

进一步，所述将所述用户的各个检索意图点进行重组融合包括：基于图论或决策树算法，将所述用户的各个检索意图点进行重组融合。本发明实施例进一步提供了基于图论或基于决策树的检索意图点组合方案，有利于获得符合用户检索需求、且检索质量较高的检索结果，有利于提高用户检索体验。

进一步，所述根据所述检索意图点组合进行检索包括：基于知识元库检索所述检索意图点组合，所述知识元库是由多个知识元构建的，每个知识元是对知识源进行段落和/或条款分割得到的。通过本发明实施例提供的技术方案，可以基于由知识元构建的知识元库对检索意图点组合进行检索，进一步提高小语料环境中获得准确的检索结果的概率。

进一步，所述知识库包括多个知识，所述知识是从所述知识元中提取得到的，所述知识与所述知识元具有关联关系。本发明实施例建立于经过充分知识化处理的知识元与知识的基础之上，每个知识具有与之关联的知识元的至少一部分特征，基于该特征进行检索，可以加快检索速度，且能够进一步提高检索结果的准确度。

附图说明

图1是本发明实施例的一种知识检索方法的流程示意图；

图2是基于本发明实施例的一种知识检索架构***形成示意图；

图3是本发明实施例的一种知识检索装置的结构示意图。

具体实施方式

本领域技术人员理解，如背景技术所言，现有技术方案要么适用于大语料场景中，要么小语料场景中的检索结果不够精准，降低了用户的检索体验。

大语料检索场景具有大量的可供检索语料，例如，百度搜索应用属于大语料检索场景。在该场景下，已有大量的智能算法参与其中，并可以获得较好的应用效果。

现有的智能检索***往往采用神经网络算法，需要大量的语料进行训练才能获得质量较高的检索模型，因而主要应用于大语料场景中。由于小语料场景中的语料有限，无法对神经网络进行训练，难以采用传统神经网络技术展开智能检索，因此，现有的智能检索***无法适用于小语料(如100万个知识点以内)下的文本检索场景。

在小语料下的文本检索场景中，目前主要采用传统的检索工具，如分布式搜索(Elastic Search，简称ES)、全文检索(SOLR，读作SOLAR)等。传统检索工具主要采用直接建立标签，并且对标签进行倒排索引的方式进行检索，这种以标签倒排索引方式进行的检索只考虑到了用户检索时提出的关键字，而没有考虑到知识元本身的文本特征，同时，也无法进行用户意图识别等自然语言处理(Natural Language Processing，简称NLP)。因此，在检索效果与检索质量上，相对于智能检索并不理想。

本发明实施例知识在接收到用户的输入信息之后，可以基于所述输入信息进行意图识别，以确定所述用户的检索意图，从而得到更加符合所述用户期望搜索的检索意图点和检索意图点组合。在小语料场景中，更加易于获得符合用户检索需求、且检索质量较高的检索结果，有利于提高用户检索体验。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本文中的知识域指的是一段完整的文本知识，例如，一篇完整的规章制度等。

本文中的知识元指的是经切割处理后的文本知识单元，所述文本知识单元为包含特定知识的文本段落，例如，一则规章、一则条款等。

本文中的语料指的是各类文本知识。小语料场景指的是文本知识数量较少的场景，例如，少于100万条。大语料场景指的是文本知识数量较多的场景，一般至少在1亿条以上。

本文中的知识指的是将知识元进行分词，得到的能够表征该知识元的至少一部分特征的专业词汇，知识与知识元具有紧密的关联关系。通常情况下，可以基于知识检索到与之关联的知识元信息。

本文中的信息熵指的是信息的不确定程度。

本文中的互信息指的是体现两个变量之间的相互依赖程度。二元互信息指的是两个事件同时发生的概率函数的值。

本文中的左右信息熵指的是信息的左边界的熵和右边界的熵。

本文中的词向量指的是将词转化成为稠密向量，以根据所述稠密向量确定各个词语之间的相似程度。对于相似的词语，其对应的词向量也相近。

本文中的词频—逆文本频率指数(term frequency–inverse documentfrequency，简称TF-IDF)指的是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。

图1是本发明实施例的一种知识检索方法的流程示意图。所述知识检索方法可以由服务器执行，以供用户进行知识检索。

具体而言，所述知识检索方法可以包括以下步骤：

步骤S101，接收用户的输入信息；

步骤S102，根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；

步骤S103，将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；

步骤S104，根据所述检索意图点组合进行检索，并输出检索结果。

更具体而言，在步骤S101中，服务器可以接收用户的输入信息。所述输入信息指的是包含用户的检索意图的语句。例如，所述输入信息为“基线管理部门的职责是什么？”。

在步骤S102中，所述服务器可以根据所述输入信息对所述用户的检索意图进行识别，从而得到各个检索意图点。每个检索意图点可以是根据知识库中的知识确定的。

例如，所述输入信息为“基线管理部门的职责是什么？”时，识别出的检索意图点包括[部门、基线管理、职责]。

在具体实施中，所述服务器可以根据词向量以及TF-IDF，对所述输入信息进行分词，以根据分词结果对所述用户的检索意图进行识别。

在具体实施中，为提高所述输入信息的分词结果的准确度，可以对知识源文件(例如，知识域)进行划分，例如，以段落或章节对所述知识源文件进行划分，从而得到各个知识元。所谓知识元，是指不可再分割的具有完备知识表达的知识单位。从类型上分，包括概念知识元、事实知识元和数值型知识元等。

之后，可以对所述知识元进行词语划分，以得到多个词语块。进一步，可以利用词窗计算每个词语块的互信息和左右信息熵，并至少根据计算结果对所述多个词语块进行清洗，以得到所述知识。

具体而言，可以按照所述计算结果从大到小的顺序对所述多个词语块进行排序，将排序在前的预设数量个词语块作为待清洗知识。之后可以结合人工方式对所述待清洗知识进行检查与剔除处理，以得到至少一个所述知识。

本领域技术人员理解，所述知识与所述知识元具有关联关系，具有紧密的对应关系。所述知识是对经充分知识化处理的知识元进行提炼得到的知识，每个知识具有与之关联的知识元的至少一部分特征，因而，基于具有与所述知识元关联关系的知识进行检索，可以加快检索速度，提高检索结果的准确度。

进一步，可以将所述知识加入知识库。随着所述知识库中的知识的增多，可以通过将新增词汇与已有的知识进行对比剔除，减少所述待清洗知识的数量。

在步骤S103中，所述服务器可以将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合，以最大化还原所述用户的真实检索意图。

在具体实施中，可以将用户的各个检索意图点进行不同形式的重组融合，并可以通过测算得到最优的重组序列，获得匹配用户检索意图的最优检索意图点组合，进一步，还可以获得次优检索意图点组合。

在具体实施中，可以基于图论将所述用户的各个检索意图点进行重组融合。或者，可以基于决策树算法，将所述用户的各个检索意图点进行重组融合。

例如，如果所述输入信息为“基线管理部门的职责是什么？”，那么基于所述知识库中的知识进行分词，可以得到用户的检索意图点包括“基线管理”、“部门”和“职责”等内容。在对各个检索意图点进行重组融合后，可以得到“基线管理->部门->职责”的最优匹配序列，从而最大化再现用户询问意图。

在步骤S104中，所述服务器可以根据所述检索意图点组合进行检索。所述服务器可以在事先构建的知识元库中检索。其中，所述知识元库可以是由多个知识元构建的，每个知识元是对知识源进行段落和/或条款分割得到的。

之后，所述服务器可以按照对所述检索意图点组合的匹配度从高到低的顺序，输出所述检索结果。

例如，所述输入信息为“基线管理部门的职责是什么？”，得到的检索结果包括会包括最大化匹配序列[基线管理->部门->职责]的知识元，也会包括部分匹配[基线管理->部门]、[基线管理->职责]、[基线管理->部门]等的知识元。

在具体实施中，所述服务器会按照内置算法，例如，按照新旧时间，同一匹配序列的最大化匹配度，不同匹配序列的匹配度，不同匹配序列与用户意图的接近程度等方向进行综合计算，并按照计算结果分值排序，依次将对应的检索结果呈现给用户。

下面以具体实施例进行阐述。

图2是基于本发明实施例的一种知识检索架构***形成示意图。知识检索架构***200可以将文本知识中的知识域进行提取精炼，然后针对用户意图进行智能识别，返回用户需要的检索结果。

参考图2，所述知识检索架构***200分为知识抽取子***201与知识检索子***202两部分。

在知识抽取子***201中，可以将知识源2011进行精细分割，得到知识元2012。例如，通过正则匹配，实现不同类别知识的程序化自动切割，在具体实施时，可以基于段落进行切割，也可以基于条款进行切割，从而得到知识元2012。

之后，可以针对知识元2012，提取所述知识元2012中存在的能够准确表示其内容或特征的知识2013，所述知识2013与所述知识元2012具有关联关系。具体而言，在知识抽取子***201中，知识2013的提取准确性直接决定了NLP处理的精度。

考虑到通过人工方式进行提取工作量太大，对于提取人员本身也有诸多要求，通过纯人工提取并不现实。本发明实施例可以进行人工少量干预的半自动化提取。提取所述知识2013的基本处理思路是按不同长度的词窗对文本进行逐步切割，然后计算切割词与前后词的互信息与左右信息熵，结合 3GRAM文本模型进行结果排序，并按照排序值获取自动提取的知识2013。

具体实施时，可以通过词窗判定所述知识元2012中的每个截取词语块的互信息与左右信息熵，并结合3元文本模型(3GRAM)进行排序，从而得到排序靠前的词语，进而得到所述知识2013。

进一步，可以将所述知识元2012加入至知识元库2014，并可以将从所述知识元2012提取到的知识2013加入到知识库2015。

优选地，可以采用人工方式对排序靠前的词语进行筛查，从而得到精准度更高的知识2013。本领域技术人员理解，为了强化提取到的知识2013的精度，通过人工方式进行二次复核与梳理，可以提高知识2013的准确度。

随着积累的知识2013的增多，在从其他知识元2012截取得到词语块以提取知识2013时，可以利用知识库2015中已有的知识2013对截取到的词语块进行对比剔除或存量处理词汇剔除，进而大幅降低新增词汇的人工干预量，加速新增知识2013的生成。

在知识检索子***202中，在接收到用户的输入信息2021之后，可以获取用户的检索意图点2022。在获取检索意图点2022时，可以结合词向量与 TF-IDF技术重现用户意图，获得所述用户检索的检索意图点2022。经测试，采用词向量与TF-IDF技术可以较为准确的获得用户的检索意图点2022。

进一步，可以针对获得的检索意图点2022建立决策树，并进行意图融合重组，以在有限时间内测算出符合用户意图的检索意图点组合2023，例如，最优意图组合、次优意图组合等。

进一步，可以针对最优意图组合、次优意图组合等检索意图点组合2023 进行检索，从而获得用户期望的检索结果2024，并通过检索结果展示2025返回给所述用户。

进一步，以知识源是各种规章制度为例。在向用户展示检索结果2024时，可以根据排序需求进行排序。例如，知识与检索意图点组合的匹配程度、知识的新旧程度等。优选地，在进行检索结果展示2025时，可以对检索意图点 2022(例如，知识)进行变色显示，以使用户可以更高效的阅读检索结果2024。

由上，本发明实施例在小语料知识检索场景中融入NLP技术，通过信息熵中的互信息与左右信息熵等技术实现小语料文本知识的精准切割与专业知识提取。并将提取后的知识元作为小语料场景下的知识库，成为可供用户精准检索的知识源。在用户检索时，结合词向量与TF-IDF技术，通过知识将知识元与用户检索意结合，可以最大化重现用户的检索意图组合，基于该检索意图组合可以获得真正符合用户检索需求的知识。

本发明实施例提供的NLP智能检索框架无需大量的文本语料进行训练，可在小语料场景下获得比传统检索引擎更优的检索结果，并且适用于大多数小语料环境下的专业领域知识检索处理。

图3是本发明实施例的一种知识检索装置的结构示意图。所述知识检索装置3可以实施图1和图2所示方法技术方案，由服务器执行。

具体而言，所述知识检索装置3可以包括：接收模块31，适于接收用户的输入信息；识别模块32，适于根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；融合模块33，适于将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；检索模块34，适于根据所述检索意图点组合进行检索，并输出检索结果。

在具体实施中，所述融合模块33可以包括：融合子模块331，适于基于图论或决策树算法，将所述用户的各个检索意图点进行重组融合。

在具体实施中，所述识别模块32可以包括：识别子模块321，适于根据词向量以及词频逆文本频率指数，对所述输入信息进行分词，以根据所述输入信息的分词结果对所述用户的检索意图进行识别。

在具体实施中，所述检索模块34可以包括：第一检索子模块341，适于按照对所述检索意图点组合的匹配度从高到低的顺序，输出所述检索结果；或者，第二检索子模块342，适于按照所述检索结果的发生时间从新到旧的顺序，输出所述检索结果。

在具体实施中，所述检索模块34可以包括：第三检索子模块343，适于基于知识元库检索所述检索意图点组合，所述知识元库是由多个知识元构建的，每个知识元是对知识源进行段落和/或条款分割得到的。

在具体实施中，所述知识库包括多个知识，所述知识是从所述知识元中提取得到的，所述知识与所述知识元具有关联关系。

在具体实施中，所述知识检索装置3可以采用如下步骤从所述知识元中提取得到所述知识：对所述知识元进行词语划分，以得到多个词语块；对所述多个词语块，利用词窗计算每个词语块的互信息和左右信息熵，并至少根据计算结果对所述多个词语块进行清洗，以得到所述知识。

在具体实施中，所述知识检索装置3可以按照所述计算结果从大到小的顺序对所述多个词语块进行排序，将排序在前的预设数量个词语块作为待清洗知识；基于所述知识库中的知识对所述待清洗知识进行检查与剔除处理，以得到至少一个所述知识。

关于所述知识检索装置3的工作原理、工作方式的更多内容，可以参照上述图1和图2中所述技术方案的相关描述，这里不再赘述。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1和图2所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述计算机可读存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种服务器，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1和图2所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种知识检索方法，其特征在于，包括：

接收用户的输入信息；

根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；

将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；

根据所述检索意图点组合进行检索，并输出检索结果。

2.根据权利要求1所述的知识检索方法，其特征在于，所述将所述用户的各个检索意图点进行重组融合包括：

基于图论或决策树算法，将所述用户的各个检索意图点进行重组融合。

3.根据权利要求1所述的知识检索方法，其特征在于，所述根据所述输入信息对所述用户的检索意图进行识别包括：

根据词向量以及词频逆文本频率指数，对所述输入信息进行分词，以根据所述输入信息的分词结果对所述用户的检索意图进行识别。

4.根据权利要求1所述的检索方法，其特征在于，所述输出检索结果包括：

按照对所述检索意图点组合的匹配度从高到低的顺序，输出所述检索结果；或者，

按照所述检索结果的发生时间从新到旧的顺序，输出所述检索结果。

5.根据权利要求1所述的知识检索方法，其特征在于，所述根据所述检索意图点组合进行检索包括：

基于知识元库检索所述检索意图点组合，所述知识元库是由多个知识元构建的，每个知识元是对知识源进行段落和/或条款分割得到的。

6.根据权利要求5所述的知识检索方法，其特征在于，所述知识库包括多个知识，所述知识是从所述知识元中提取得到的，所述知识与所述知识元具有关联关系。

7.根据权利要求6所述的知识检索方法，其特征在于，采用如下步骤从所述知识元中提取得到所述知识：

对所述知识元进行词语划分，以得到多个词语块；

对所述多个词语块，利用词窗计算每个词语块的互信息和左右信息熵，并至少根据计算结果对所述多个词语块进行清洗，以得到所述知识。

8.根据权利要求7所述的知识检索方法，其特征在于，所述至少根据计算结果对所述多个词语块进行清洗，以得到所述知识包括：

按照所述计算结果从大到小的顺序对所述多个词语块进行排序，将排序在前的预设数量个词语块作为待清洗知识；

基于所述知识库中的知识对所述待清洗知识进行检查与剔除处理，以得到至少一个所述知识。

9.一种知识检索装置，其特征在于，包括：

接收模块，适于接收用户的输入信息；

识别模块，适于根据所述输入信息对所述用户的检索意图进行识别，以得到检索意图点，所述检索意图点是根据知识库中的知识确定的；

融合模块，适于将所述用户的各个检索意图点进行重组融合，以得到符合所述用户的检索意图的检索意图点组合；

检索模块，适于根据所述检索意图点组合进行检索，并输出检索结果。

10.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的方法的步骤。

11.一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的方法的步骤。