CN112632256A

CN112632256A - 基于问答***的信息查询方法、装置、计算机设备和介质

Info

Publication number: CN112632256A
Application number: CN202011590805.8A
Authority: CN
Inventors: 史文鑫
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-09

Abstract

本申请实施例属于人工智能领域，应用于智慧银行领域中，涉及一种基于问答***的信息查询方法，包括若接收到查询数据，从文档数据库中查询得到至少一个与查询数据对应的查询文档；对分词得到的分词文本进行向量化处理得到分词向量；将分词向量输入到框选模型中基于查询数据得到数据向量序列；通过框选模型的多个膨胀运算单元对数据向量序列进行卷积处理，得到第一查询结果；根据筛选算法筛选，得到最终的信息查询结果。本申请还提供一种基于问答***的信息查询装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，所述查询文档还存储于区块链中。采用本方法解决了现有技术中模型特征覆盖率低，模型太大的技术问题。

Description

基于问答***的信息查询方法、装置、计算机设备和介质

技术领域

本申请涉及人工智能领域，特别是涉及一种基于问答***的信息查询方法、装置、计算机设备和存储介质。

背景技术

智能客服作为一种客户寻求帮助的媒介，已在各行各业得到了广泛的应用。当用户询问一个问题，智能客服算法会逐一对扩展问进行相似度匹配，并反推出标准问进行得到答案反馈给用户。因此，文档数据库的质量直接决定了智能客服的服务质量；但一般文档数据库的构建过程较为复杂，特别是在银行业。这是因为行业的特征性，因为银行业业务较多、专业较高。当有用户的问题未能被答复，***就需要通过遍历算法逐条对问题进行答案补充，这需要遍历大量的资料，学习对应的行业的指示并提炼出精简的答案添加到知识库中，这样的操作效率极低，而且任务难度大。

传统技术中，提取答案添加到知识库中一般采用常用问题的自定义模板，例如“……的时间”、“比如……”或者“年化利率是……”等模板，这种方式虽然可以实现将答案提取到知识库的目的，但需要太多的人工干预，覆盖率也偏低；另外，还可以使用BERT类预训练模型，输出答案，但这种模型太大，并且模型的输出长度最长只有512，有一定的限制。

综上，亟需一种能够解决传统技术中特征覆盖率低，模型太大的技术问题的信息查询方案。

发明内容

基于此，针对上述技术问题，本申请提供一种基于问答***的信息查询方法、装置、计算机设备及存储介质，以解决现有技术中模型特征覆盖率低，模型太大的技术问题。

一种基于问答***的信息查询方法，所述方法包括：

若接收到查询数据，从文档数据库中查询得到至少一个与所述查询数据对应的查询文档；

对所述查询文档进行分词处理，并对分词得到的多个分词文本进行向量化处理，得到分词向量；

将所述分词向量输入到框选模型中，基于所述查询数据得到数据向量序列；

通过所述框选模型的多个膨胀运算单元对所述数据向量序列进行卷积处理，得到第一查询结果；

根据筛选算法对所述第一查询结果进行筛选，得到最终的信息查询结果。

一种基于问答***的信息查询装置，所述装置包括：

粗查模块，用于若接收到查询数据，从文档数据库中查询得到至少一个与所述查询数据对应的查询文档；

向量模块，用于对所述查询文档进行分词处理，并对分词得到的多个分词文本进行向量化处理，得到分词向量；

编码模块，用于将所述分词向量输入到框选模型中，为所述分词向量生成位置编码，并将所述查询数据的问题编码与生成位置编码后的分词向量进行求和处理，得到数据向量序列；

卷积模块，用于通过所述框选模型的多个膨胀运算单元对所述数据向量序列进行卷积处理，得到第一查询结果；

筛选模块，用于根据筛选算法对所述第一查询结果进行筛选，得到最终的信息查询结果。

一种计算机设备，包括存储器和处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于问答***的信息查询方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述基于问答***的信息查询方法的步骤。

上述基于问答***的信息查询方法、装置、计算机设备和存储介质，通过从文档数据库中查询得到至少一个与查询数据的第一相似度符合第一阈值的查询文档，得到筛选结果，降低数据计算量，再对得到的查询文档进行分词后，为每一个分词文本生成对应的位置编码后，与问题数据求和，根据自定义的框选模型进行答案框选的操作，得到第一查询结果。其中，为了使得得到的信息查询结果更加准确，本申请还通过筛选算法对第一查询结果进行筛选处理，得到最终的信息查询结果。其中，自定义的框选模型通过加入门机制、残差结果并结合膨胀CNN对向量序列进行卷积处理，使得基于膨胀CNN的框选模型能够捕捉更远的距离，并且又不至于增加框选模型参数，提高计算量，使得框选模型的覆盖范围更广，解决了现有技术中模型特征覆盖率低，模型太大的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于问答***的信息查询方法的应用环境示意图；

图2为基于问答***的信息查询方法的流程示意图；

图3为框选模型的结构示意图；

图4为序列整合示意图；

图5为基于问答***的信息查询装置的示意图；

图6为一个实施例中计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于问答***的信息查询方法，可以应用于如图1所示的应用环境中。其中，该应用环境可以包括终端102、网络以及服务端104，网络用于在终端102和服务端104之间提供通信链路介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端102通过网络与服务端104交互，以接收或发送消息等。终端102上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务端104可以是提供各种服务的服务器，例如对终端102上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于问答***的信息查询方法一般由服务端/终端执行，相应地，基于问答***的信息查询装置一般设置于服务端/终端设备中。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请可应用于智慧城市领域中，特别是可以应用于智慧银行领域中，从而推动智慧城市的建设。

应该理解，图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

其中，终端102通过网络与服务端104进行通信。服务端104接收终端102发送来的查询数据，并从文档数据库中获取与查询数据对应的查询文档，并通过改进后的框选模型从查询文档中框选出与查询数据匹配的答案，并对答案进行筛选后发送到终端102。其中，终端102和服务端104之间通过网络进行连接，该网络可以是有线网络或者无线网络，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于问答***的信息查询方法，以该方法应用于图1中的服务端为例进行说明，包括以下步骤：

步骤202，若接收到查询数据，从文档数据库中查询得到至少一个与所述查询数据对应的查询文档。

本申请的技术方案可以应用于包括文档检索模块和答案框选模块的问答***中，实现扩充问答资料的目的。其中，查询数据是指需要为其匹配精简答案的提问，例如：***的还款日期是几号；文档数据库是指汇集对应业务场景下的语料资料或者其他文献资料的数据库；例如，在银行问答***中，文档数据库可以是银行内部知识库以及有关银行的论文、著作等数据。

若用户针对“***的还款日期是几号”问题无法得到想要的答案，文档检索模块中的粗查模块就可以通过全文本搜索引擎ES(Elastic Search)技术实现文档粗检索，可以近乎实时的存储、检索数据。全文本搜索引擎ES采用基于概率检索模型的BM25算法来评价搜索词(问题)和文档(document)之间第一相似度，利用BM25算法来计算问题与文档的相似度。在本实施例中保留第一相似度排名在前5个的文档。

可选地，为了提高粗筛选的计算效率，还可以：

对文档数据库中的待查询文档进行划分处理，得到至少一个文本段落；根据停用词表计算各文本段落中停用词的第一占比；并根据BM25算法计算所述查询数据与最小的第一占比对应的文本段落之间的第一相似度；将第一相似度大于第一阈值的文本段落所在的待查询文档作为查询得到的查询文档。

其中，根据待查询文档中的段落标记对文档进行划分处理，得到至少一个文本段落，文本段落是指文档中的段落；停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)，停用词表是指包括停用词的数据表。

第一占比是指停用词在各个文本段落中所占的比例，因为，停用词的数量在一定程度上反映了文档的专业性；所以，本申请对全文本搜索的方式进行改进，直接计算某一特定的文本段落与查询数据的相关度，可以大大降低数据计算量，提高信息查询效率。该特定的文本段落即停用词在占比最小的文本段落。

然后，根据BM25算法计算查询数据与该文本段落之间的第一相似度。BM25算法，通常用来作搜索相关性评分，对文本段落进行语素解析，生成语素；然后，对于查询数据，计算每个语素与查询数据的相关性得分，最后，将语素相对于查询数据的相关性得分进行加权求和，从而得到文本段落与查询数据的相关性得分，其中，相关性得分即第一相似度。

进一步地，第一相似度的取值可以根据场景的不同进行训练设定，也可根据历史经验获得，在本实施例中，可以第一相似度可以等于0.8。所以得到的查询文档的数量可能不止一个。

优选地，为了提升后续信息查询的效率，保留第一相似度排名在前五的5个文档。

从待查询文档中选取最可能与查询数据具有相关性的文本片段进行相似度计算，然后根据计算得到的结果来确定该待查询文档是否是我们需要的查询文档。通过该查询方式可以大大降低数据处理量，提升信息查询的效率。

步骤204，对所述查询文档进行分词处理，并对分词得到的多个分词文本进行向量化处理，得到分词向量。

在得到至少一个查询文档后，会在答案框选模块，即自定义模型对查询到的5个查询文档的内容进行抽取。为了达到高效的效果，在一些实施例中，我们可以将用于NLP任务的LSTM替换成CNN模型，并使用“指针网络”来表示答案的开始和结束。

首先，对查询文档进行分词处理，在一些实施例中，本提案可以通过jieba分词将查询文档精确地切分开，且不存在冗余单词；进一步地，为了适应搜索引擎的模式，还可以在将查询文档精确地切分开后，查询分词文本中长度大于设定值的分词文本，并对这些分词文本进行再次切分。

具体地，可以采用jieba工具对问题数据和查询文档进行分词，并使用预训练的词向量模型作为模型输入的词表。输入通过查表得到该分词文本的向量，词表外的用0表示，得到该查询文档的向量，得到向量序列。

进一步地，向量序列的维度可以选为200维，包括银行内部数据集、webQA语料、***以及百科知道问题等语料，使用gensim提供的Word2Vec预训练而成，其中，Word2Vec的模型为Skip Gram，窗口为6，负采样数为8训练得到，Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。

进一步地，为了框选模型有更多的输入，还可以为每个字训练了char embedding，维度为200，同token的向量和位置编码相加得到一个向量序列，该向量序列的最大长度取为100，如果一个Batch(Batch大小是一个超参数，用于定义在更新内部模型参数之前要处理的样本数)中某些样本涉及到的卷积操作(padding)，那么对卷积部分要做好mask(Mask在NLP中是一个很常规的操作，也有多种应用的场景和形式)。

可选地，在一些实施例中，还可以采用THULAC(THU Lexical Analyzer forChinese)分析工具包进行分词处理，该工具具有中文分词和词性标注的功能，准确率高，速度快。

进一步地，对查询文档的分词不仅限于以上的方式，现有技术中能够实现将查询文档切分为分词文本的技术皆可应用于本实施例中。只是通过以上的方式进行分词处理，可以依靠成熟的技术实现快速的分词处理，提高本申请答案框选的整体效率。

进一步地，对查询数据的分词处理也可以采用以上的方式实现，此处不再赘述。

步骤206，将所述分词向量输入到框选模型中，为所述分词向量生成位置编码，并将所述查询数据的问题编码与生成位置编码后的分词向量进行求和处理，得到数据向量序列。

为了向CNN中添加各分词文本在查询文档中的位置信息，会为框选模型添加位置编码，其中，文本句段是指查询文档中的句子单元，即，将查询文档的文本句段中的各分词文本的位置编码作为一种特征输入，位置编码方便了从长篇大论的查询文档中获取答案所在开始和结束，提高了信息框选的效率。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，作为一种新的特征组合；需要注意的是，这里的PE向量维度必须和词向量的维度一致。表达式(1)如下：

其中，pos对应输入的位置，i指维度，d_pos指位置向量的长度。

进一步地，为了便于根据查询数据从查询文档中框选出对应的答案，可以将查询数据和查询向量一起输入到框选模型中进行卷积处理。具体地，对所述查询数据进行向量化处理，得到对应的问题编码；获取各所述分词向量的位置编码，并将所述问题编码与得到位置编码后的分词向量进行求和处理，得到数据向量序列。其中，向量求和是一种向量计算方式。

步骤208，通过所述框选模型的多个膨胀运算单元对所述数据向量序列进行卷积处理，得到第一查询结果。

为了得到更加轻量级的框选模型，并输出更长的答案，在一些实施例中，会对框选模型进行改进。

通过加入门机制来限定卷积运算单元，具体地，假设要处理的数据向量序列是x＝[x₁，x₂，......，x_n]，其中，x₁，x₂，......，x_n指查询文档中各分词文本对应的词向量；假设要处理的文本是：【***申请条件】，那么，x₁，x₂，...，x_n分别代表词语的向量表示。我们给普通的一维卷积加一个门机制，得到表达式(2)：

Y＝Conv1D₁(X)×σ(Conv1D₂(X))

(2)

其中，Y指该卷积运算单元对应的输出，这里的两个一维卷积的形式相同，但不共享权重，sigmoid的目的是给每一个输出都加入一个“阀门”来控制信息的流量。例如，当乘以一个σ小于1的数，这就减少了信息流量。

进一步地，在卷积处理进行反向传播时，因为会出现梯度消失的情况，使得网络学习长距离依赖的难度增加，为了避免梯度消失的情况发生，同时也传递更多的特征信息，输入X后，在框选模型中不断地变换，在此基础上，还可以对表达式(2)改进，得到表达式(3)：

Y＝X+Conv1D₁(X)×σ(Conv1D₂(X))

(3)

其中，公式(3)中加入一个X是为了避免Y为0，梯度消失。表达式(3)和(2)为递进关系，其中，X指数据向量序列。

进一步地，因为现有的BERT类预训练模型太大，且模型的输出长度有限制，又因为框选模型的视野依赖于CNN卷积核的大小，为了使得基于CNN的框选模型能够捕捉更远的距离，并且又不至于增加框选模型的参数，在一些实施例中，可以使用膨胀卷积CNN，对数据进行处理。

如图3所示的框选模型的结构示意图，当采用相同大小的卷积核，膨胀卷积具有更大的视野，为了覆盖的特征更加全面，膨胀卷积的dilation可以按照1、2、4、8、…这样的几何级数增长。Dilation膨胀卷积又叫空洞卷积，表示跳格个数。图4中问题编码为查询数据的序列编码，文档编码为查询文档的序列编码，文档向量为查询文档中各文本句段或者分词文本对应的向量，位置编码为文本句段对应的位置，起始位置是指得到的答案在查询文档中某位置的概率值，结束位置指答案在查询文档中某位置的概率值。

具体地，在本实施例中，设定框选模型的结构为多个卷积层，每个卷积层选用不同的卷积核，并通过加入门机制和残差结构对数据向量序列进行处理，结合全连接层、注意力机制等，直到得到查询到的答案。例如，当通过膨胀CNN对所述数据向量序列进行至少两次的卷积处理，并基于门机制以及残差结构对每次得到的卷积结果进行处理，得到所述第一查询结果，其中，膨胀CNN指膨胀卷积神经网络，在本实施例中会对膨胀CNN进行改进，加入门机制和残差结构对数据向量序列进行卷积处理。

其中，第一查询结果可以是同一查询文档中的不同位置编码对应的不同的文本片段、同一查询文档中不同位置编码对应的相同的文本片段、不同查询文档中不同位置编码对应的相同的文本片段或者不同查询文档中不同位置编码对应的不同的文本片段中的一种或多种的组合。

例如，第一查询结果可以是“例如:每月20号为账单日,下个月8号为最后还款期(不区分大小月)。免息还款期从银行记账日起至最后还款日止,银行***免息期最长为50天,最短为19天,账单日后一天消费享受最长免息期。”和“银行***的最后还款日为账单日后的第18天。”以及“还款期限是18天。”

该文本片段可以是位于某查询文档上不同位置的描述文本，也可以是位于不同查询文档上的不同位置的描述文本。

具体地，其实现方式为：通过多个不同卷积核的膨胀CNN对所述数据向量序列中的各文本序列进行卷积处理，得到所述文本序列中各分词文本之间的语意相关性，其中，所述文本序列为所述查询文档中文本句段的向量表示；基于所述语意相关性，根据注意力机制为各分词文本生成与所述查询数据对应的问题权重；对所述问题权重、与所述问题权重对应的分词文本，以及所述分词文本的位置编码进行整合，得到所述第一查询结果，其中，所述第一查询结果包括文本片段，以及文本片段在对应的查询文档中的位置编码。

具体地，如图3所示的框选模型的结构示意图，将数据向量序列通过膨胀运算单元以及全连接层进行多次计算后，输出答案在查询文档中起始位置以及开始位置对应的概率值。即，框选模型设置了两个输出，分别代表答案的开始和结束位置，具体为，对查询文档中各分词文本进行二分类预测，确定与查询数据对应的答案在查询文档中的起始位置和结束位置的概率值。如表达式(4)：

其中，

为第一查询结果中各答案在对应查询文档中的起始位置的概率值，

为答案结束位置的概率值，σ、W₁、W₂、β₁、β₂、a₁以及a₂为可训练的参数，x_i为分词文本的向量表示。

在一些实施例中，本申请的框选模型引入attention机制来替代简单的pooling来完成对卷积处理后得到的输出的序列的整合，包括将查询数据对应的向量序列编码为一个总的问题向量，将查询文档对应的序列编码为一个总的查询向量，公式(5)。

λ_i＝softmax(a^Tactivation(Wx_i))

(5)

其中，X为框选模型的输出，x_i为各分词文本对应的向量序列，a、w、W都是可训练的参数，λ_i为与分词文本xi对应的查询数据的权重，activation是激活函数，这里面选取的是激活函数tanh。如图4所示的序列整合示意图，会得到一个位置编码+文档向量+问题编码的矩阵，用以作为框选模型的输出。图4中，a、b、c和d表示某分词文本，位置编码为分词文本a在查询文档中对应的位置，y为查询数据的问题编码，0.1、0.3、0.15以及0.55指各分词文本对应的查询数据对应的权重。

进一步地，因为有些查询文档中，或者全部的查询文档中并没有答案，即第一查询结果为空的情况下，为了更好得获得输出的结果情况，可以为框选模型设置一个控制项来判断是否存在第一查询结果，即第一查询结果中是否包括答案。

具体地，可以设置一个输出p^global,模型根据这个输出来判断是否有答案，如果这部分为0那就是没有答案，表达式(6)：

p^global＝σ(Wo+b)

如果查询文档中没有答案，则p^global为0，那么表达式(4)中的

和

的输出皆为0，即，当前查询文档中不存在与查询数据匹配的文本片段，无答案。通过这种方式可以大大提高框选模型对信息查询的效率。

在将数据向量序列输入到框选模型前，还需要对框选模型进行训练。其中，框选模型在进行答案开始和结束位置的标注时，是通过一个二分类的标注形式实现的，即，为查询文档中的每一个字或者词做而分类，判断该字或者词是否为答案的开始，或者结束，输出概率值。例如，查询数据Example：水的沸点是多少？查询文档：标准大气压下，水的沸点是100摄氏度。在进行二分类时：

开始：000000000000100000

结束：000000000000000001

其中，第一个“1”表示答案的开始，第二个1表示答案的结束。算法处理答案的时候会对每一个字(词)做二分类，是不是开始，是不是结束。并且，考虑到正负类不均衡，即，0比1多的情况，可以使用而分类中的focalloss作为损失函数。公式(7)：

L_fl为损失值，α＝0.25，γ＝2,y为实际标注结果，y为二分类标注结果。

具体地，框选模型的输出有两部分，所以可以分别检测开始位置的损失函数loss1和结束位置的损失函数loss2，然后计算总的损失函数总loss为公式(8)：

loss＝(loss1+loss2)*λ

(8)

其中，λ为一个超参数，开始位置的损失函数loss1和结束位置的损失函数loss2都可以通过L_fl计算。为了方便可视化loss的值，我们选取为200；用adam优化器训练框选模型，使用warmstart策略先用10-3的学习率训练到最优，其中，warm_start参数用在模型训练过程中，默认是False，从字面上理解就是“从温暖的地方开始”训练模型；如果warmstart＝True就表示就是在模型训练的过程中，在前一阶段的训练结果上继续训练；如果warm_start＝False就表示从头开始训练模型然后加载最优框选模型。然后降低学习率训练框选模型到最优。

进一步地，为了让训练得到的框选模型更加稳定，采用权重滑动平均法(Exponential Moving Average,ema),该方式可以几乎零额外成本地提高解的性能。

具体地，权重滑动平均法(9)中，θ是维护的一个“影子变量”，a是衰减因子，这里面取值0.999：

θ_n+1＝aθ_n+(1-a)θ_n+1

(9)

进一步地，由于银行的数据量小，还可以对样本数据进行扩增，以增加数据的多样性，具体地，将样本文档进行裁切处理，并对裁切后的查询文档进行随机拼接处理，得到新的样本文档，加入到样本文档中。

将同一段材料通过重复拼接、随机裁剪的方式，来得到新的材料(答案的数目、位置也随之变化)，将银行内部数据扩增一倍，然后再按照8:2的比例划分训练集和测试集。

进一步地，训练好的框选模型的两个输出经过sigmoid得到某分词文本所对应的位置为起始位置的概率值，即：

其中，σ即sigmoid，得到的是概率值。答案就是在查询文档中以[0,1]的形式被框选出起始和结束位置，那么怎么来确定某一段是合适的结果呢？在本实施例中，采用

作为排序指标。在实际过程中，当输入一个问题数据时，框选模型会对多个查询文档进行预测，存在有多个答案的情况下，我们采用投票的方式进行答案的选取。

进一步地，为了从多个查询文档中得到最合适的答案，在一些实施例中，还会对得到的第一查询结果进行筛选。

步骤210，根据筛选算法对所述第一查询结果进行筛选，得到最终的信息查询结果。

得到的第一查询结果可以是同一查询文档中不同位置编码对应的不同文本片段、同一查询文档中不同位置编码对应的相同的文本片段、不同查询文档中不同位置编码对应的相同的文本片段或者不同查询文档中不同位置编码对应的不同的文本片段中的一种或多种的组合。

所以为了得到最准确的答案，需要对第一查询结果进行筛选。若所述第一查询结果不为空，获取所述第一查询结果中各文本片段的位置编码；若各所述文本片段的位置编码对应不同的查询文档，计算各所述文本片段的分值，并将最大分值对应的文本片段作为所述第一查询结果；综合各所述第一查询结果，得到最终的信息查询结果。

各文本片段的位置编码对应不同的查询文档是指，不同的文本片段对应不同的查询文档，这些不同的文本片段中不可能有多个标准答案，即精简的答案。所以可以通过重新为各文本片段打分的方式从得到的多个文本片段中选出最合适的一个文本片段。

具体地，可以通过获取各所述文本片段在对应查询文档中起始位置和结束位置的概率值，然后根据所述概率值计算得到各所述文本片段的分值，并将最大分值对应的文本片段作为最终的信息查询结果。

详细的是，可以通过公式(10)

计算各文本片段的分值，其中，F指该文本片段v的最终的分值，n表示包括该文本片段的数量，S指

例如，搜出来10篇查询文档，与查询数据“水的沸点是多少”对应的文本片段“100摄氏度”在其中3各查询文档中出现过，那么n就是3。

进一步地，当多个文本片段的位置编码皆对应同一查询文本，即，同一查询文档中包括多个不同的文本片段，则检测各文本片段在查询文档中的出现频次，并按照出现频次对各文本片段进行排序，将最大出现频次对应的文本片段作为最终结果。

可选地，若第一查询结果为空，则跳过数据筛选的步骤，可以重新对框选模型进行训练，通过训练后的框选模型继续进行答案框选的操作，或者增加文档数据库中文档数量。

需要强调的是，为进一步保证上述银行数据的私密和安全性，上述查询文档还可以存储于一区块链的节点中。

上述基于问答***的信息查询方法中，通过从文档数据库中查询得到至少一个与查询数据的第一相似度符合第一阈值的查询文档，得到筛选结果，降低数据计算量，再对得到的查询文档进行分词后，为每一个分词文本生成对应的位置编码后，与问题数据求和，根据自定义的框选模型进行答案框选的操作，得到第一查询结果。其中，为了使得得到的信息查询结果更加准确，本申请还通过筛选算法对第一查询结果进行筛选处理，得到最终的信息查询结果。其中，自定义的框选模型通过加入门机制、残差结果并结合膨胀CNN对向量序列进行卷积处理，使得基于膨胀CNN的框选模型能够捕捉更远的距离，并且又不至于增加框选模型参数，提高计算量，使得框选模型的覆盖范围更广，解决了现有技术中覆盖率低，模型太大的技术问题；此外，本申请又将查询文档中各分词文本的位置编码作为一个特征金输入，使得框选模型能够对答案的起始和结束位置进行准确的定位，大大提高了信息查询的效率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于问答***的信息查询装置，该基于问答***的信息查询装置与上述实施例中基于问答***的信息查询方法一一对应。该基于问答***的信息查询装置包括：

粗查模块502，用于若接收到查询数据，从文档数据库中查询得到至少一个与所述查询数据对应的查询文档；

向量模块504，用于对所述查询文档进行分词处理，并对分词得到的多个分词文本进行向量化处理，得到分词向量；

编码模块506，用于将所述分词向量输入到框选模型中，为所述分词向量生成位置编码，并将所述查询数据的问题编码与生成位置编码后的分词向量进行求和处理，得到数据向量序列；

卷积模块508，用于通过所述框选模型的多个膨胀运算单元对所述数据向量序列进行卷积处理，得到第一查询结果；

筛选模块510，用于根据筛选算法对所述第一查询结果进行筛选，得到最终的信息查询结果。

进一步地，粗查模块502，包括：

划分子模块，用于对文档数据库中的待查询文档进行划分处理，得到至少一个文本段落；

占比子模块，用于根据停用词表计算各文本段落中停用词的第一占比；并

相似子模块，用于根据BM25算法计算所述查询数据与最小的第一占比对应的文本段落之间的第一相似度；

查询子模块，用于将第一相似度大于第一阈值的文本段落所在的待查询文档作为查询得到的查询文档。

进一步地，编码模块506，包括：

向量子模块，用于对所述查询数据进行向量化处理，得到对应的问题编码；

求和子模块，用于获取各所述分词向量的位置编码，并将所述问题编码与得到位置编码后的分词向量进行求和处理，得到数据向量序列。

进一步地，卷积模块508，包括：

卷积子模块，用于通过膨胀CNN对所述数据向量序列进行至少两次的卷积处理，并基于门机制以及残差结构对每次得到的卷积结果进行处理，得到所述第一查询结果。

进一步地，卷积子模块，包括：

相关单元，用于通过多个不同卷积核的膨胀CNN对所述数据向量序列中的各文本序列进行卷积处理，得到所述文本序列中各分词文本之间的语意相关性，其中，所述文本序列为所述查询文档中文本句段的向量表示；

权重单元，用于基于所述语意相关性，根据注意力机制为各分词文本生成与所述查询数据对应的问题权重；

整合单元，用于对所述问题权重、与所述问题权重对应的分词文本，以及所述分词文本的位置编码进行整合，得到所述第一查询结果，其中，所述第一查询结果包括文本片段，以及文本片段在对应的查询文档中的位置编码。

进一步地，筛选模块510，包括：

位置子模块，用于若所述第一查询结果不为空，获取所述第一查询结果中各文本片段的位置编码；

分值子模块，用于若各所述文本片段的位置编码对应不同的查询文档，计算各所述文本片段的分值，并将最大分值对应的文本片段作为所述第一查询结果；

综合子模块，用于综合各所述第一查询结果，得到最终的信息查询结果。

进一步地，分值子模块，包括：

概率单元，用于获取各所述文本片段在对应查询文档中起始位置和结束位置的概率值；

分值单元，用于根据所述概率值计算各所述文本片段的分值；

筛选单元，用于将最大分值对应的文本片段作为最终的信息查询结果。

上述基于问答***的信息查询装置，通过从文档数据库中查询得到至少一个与查询数据的第一相似度符合第一阈值的查询文档，得到筛选结果，降低数据计算量，再对得到的查询文档进行分词后，为每一个分词文本生成对应的位置编码后，与问题数据求和，根据自定义的框选模型进行答案框选的操作，得到第一查询结果。其中，为了使得得到的信息查询结果更加准确，本申请还通过筛选算法对第一查询结果进行筛选处理，得到最终的信息查询结果。其中，自定义的框选模型通过加入门机制、残差结果并结合膨胀CNN对向量序列进行卷积处理，使得基于膨胀CNN的框选模型能够捕捉更远的距离，并且又不至于增加框选模型参数，提高计算量，使得框选模型的覆盖范围更广，解决了现有技术中覆盖率低，模型太大的技术问题；此外，本申请又将查询文档中各分词文本的位置编码作为一个特征金输入，使得框选模型能够对答案的起始和结束位置进行准确的定位，大大提高了信息查询的效率。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储查询文档。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于问答***的信息查询方法。

本实施例通过从文档数据库中查询得到至少一个与查询数据的第一相似度符合第一阈值的查询文档，得到筛选结果，降低数据计算量，再对得到的查询文档进行分词后，为每一个分词文本生成对应的位置编码后，与问题数据求和，根据自定义的框选模型进行答案框选的操作，得到第一查询结果。其中，为了使得得到的信息查询结果更加准确，本申请还通过筛选算法对第一查询结果进行筛选处理，得到最终的信息查询结果。其中，自定义的框选模型通过加入门机制、残差结果并结合膨胀CNN对向量序列进行卷积处理，使得基于膨胀CNN的框选模型能够捕捉更远的距离，并且又不至于增加框选模型参数，提高计算量，使得框选模型的覆盖范围更广，解决了现有技术中覆盖率低，模型太大的技术问题；此外，本申请又将查询文档中各分词文本的位置编码作为一个特征金输入，使得框选模型能够对答案的起始和结束位置进行准确的定位，大大提高了信息查询的效率。

其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中基于问答***的信息查询方法的步骤，例如图2所示的步骤202至步骤210，或者，处理器执行计算机可读指令时实现上述实施例中基于问答***的信息查询装置的各模块/单元的功能，例如图5所示模块502至模块510的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形、改进或者对部分技术特征进行等同替换，而这些修改或者替换，并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴，都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于问答***的信息查询方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从文档数据库中查询得到至少一个与所述查询数据对应的查询文档，包括：

对文档数据库中的待查询文档进行划分处理，得到至少一个文本段落；

根据停用词表计算各文本段落中停用词的第一占比；并

根据BM25算法计算所述查询数据与最小的第一占比对应的文本段落之间的第一相似度；

将第一相似度大于第一阈值的文本段落所在的待查询文档作为查询得到的查询文档。

3.根据权利要求1所述的方法，其特征在于，所述将所述分词向量输入到框选模型中，基于所述查询数据得到数据向量序列，包括：

对所述查询数据进行向量化处理，得到对应的问题编码；

获取各所述分词向量的位置编码，并将所述问题编码与得到位置编码后的分词向量进行求和处理，得到数据向量序列。

4.根据权利要求1所述的方法，其特征在于，所述通过所述框选模型的多个膨胀运算单元对所述数据向量序列进行卷积处理，得到第一查询结果，包括：

通过膨胀CNN对所述数据向量序列进行至少两次的卷积处理，并基于门机制以及残差结构对每次得到的卷积结果进行处理，得到所述第一查询结果。

5.根据权利要求4所述的方法，其特征在于，所述通过膨胀CNN对所述数据向量序列进行至少两次的卷积处理，并基于门机制以及残差结构对每次得到的卷积结果进行处理，得到所述第一查询结果，包括：

通过多个不同卷积核的膨胀CNN对所述数据向量序列中的各文本序列进行卷积处理，得到所述文本序列中各分词文本之间的语意相关性，其中，所述文本序列为所述查询文档中文本句段的向量表示；

基于所述语意相关性，根据注意力机制为各分词文本生成与所述查询数据对应的问题权重；

对所述问题权重、与所述问题权重对应的分词文本，以及所述分词文本的位置编码进行整合，得到所述第一查询结果，其中，所述第一查询结果包括文本片段，以及文本片段在对应的查询文档中的位置编码。

6.根据权利要求1所述的方法，其特征在于，所述根据筛选算法对所述第一查询结果进行筛选，得到最终的信息查询结果，包括：

若所述第一查询结果不为空，获取所述第一查询结果中各文本片段的位置编码；

若各所述文本片段的位置编码对应不同的查询文档，计算各所述文本片段的分值，并将最大分值对应的文本片段作为所述第一查询结果；

综合各所述第一查询结果，得到最终的信息查询结果。

7.根据权利要求6所述的方法，其特征在于，所述计算各所述文本片段的分值，包括：

获取各所述文本片段在对应查询文档中起始位置和结束位置的概率值；

根据所述概率值计算各所述文本片段的分值；

将最大分值对应的文本片段作为最终的信息查询结果。

8.一种基于问答***的信息查询装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。