CN111159331B

CN111159331B - 文本的查询方法、文本查询装置以及计算机存储介质

Info

Publication number: CN111159331B
Application number: CN201911114274.2A
Authority: CN
Inventors: 杨敏; 姜青山; 曲强; 李成明; 贺倩明
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2021-11-23
Anticipated expiration: 2039-11-14
Also published as: CN111159331A; WO2021093871A1

Abstract

本申请公开了一种文本的查询方法、文本查询装置以及计算机存储介质，其中，该文本的查询方法包括：基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据查询语句和文档语句的相关性，得到第一查询结果；根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果；基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据查询语句和文档语句的相关性，得到第三查询结果；确定基于查询语句的最终查询结果。通过上述方式，能够提高文本查询的精确度和效率。

Description

文本的查询方法、文本查询装置以及计算机存储介质

技术领域

本申请涉及文本查询技术领域，特别是涉及一种文本的查询方法、文本查询装置以及计算机存储介质。

背景技术

在文献检索时，用户给定一个专业领域相关的问题，检索***要从数据库中找出与该问题最相关的若干篇文献返回给用户，用户即可快速获得所需的相关文献资料，能够节省大量的时间。

随着现代互联网技术的发展，越来越多的文献资料可从互联网中直接获取到，如何做到快速精准的文献检索也成为了自然语言处理领域研究的一个热点方向。而在文献检索时，常常涉及到专业领域，例如法律领域，法律领域中文献的检索问题有其区别于其他领域文献检索的特点，首先，法律领域有较多的专业术语是以短语的形式出现的，这些短语在文献检索时，可能会被分成单独的词语来处理。其次，法律领域的文献其案由和关键词的关联性较强，如果能够利用好案由和关键字的关系，就能够较好的提升检索效果。

发明内容

为解决上述问题，本申请提供了一种文本的查询方法、文本查询装置以及计算机存储介质，能够提高文本查询的精确度和效率。

本申请采用的一个技术方案是：提供一种文本的查询方法，该方法包括：基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果；根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果；基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果；根据第一查询结果、第二查询结果和第三查询结果，确定基于查询语句的最终查询结果。

其中，基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果包括：确定查询语句和文档语句的向量表达；计算查询语句和文档语句的词语级别的相关性矩阵；基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制；根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

其中，确定查询语句和文档语句的向量表达，包括：对查询语句和文档语句进行分词和词嵌入处理，以得到查询语句的向量表达Q_n*k和文档语句的向量表达D_m*k，其中，

其中，k表示词语进行词嵌入后向量的维数，n表示查询语句序列中分词后的词语的个数，m表示文档语句中分词后词语的个数，

表示查询语句序列中第i个词语的向量表达，

表示文档中第i个词语的向量表达。

其中，计算查询语句和文档语句的词语级别的相关性矩阵，包括：计算查询语句和文档语句的词语级别的相关性矩阵M_n*m，其中，矩阵M_n*m中的第i行第j列的元素M_ij采用以下公式计算得到：

其中，

表示查询语句序列中的第i个词语对应的向量，

表示文档语句中第j个词语对应的向量。

其中，基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制，包括：采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达：

其中，

表示查询语句序列中的第i个词语引入注意力机制后的向量，

表示文档中第j个词语引入注意力机制后的的向量。

其中，根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果，包括：计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积；对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接，形成拼接向量；计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵；对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一查询结果。

其中，对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一查询结果，包括：对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一中间向量

采用以下公式计算第一评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

其中，|D|表示语料库中的文件总数，df_i表示语料库中包含第i个词语的文档的数目。

其中，根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果，包括：对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作，以得到第一矩阵；对第一矩阵进行行方向上的最大池化操作，以得到第二中间向量

采用以下公式计算第二评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

其中，基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果，包括：确定专业领域词汇的向量表达；将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达；计算查询语句和专业领域词汇的词语级别的相关性矩阵；基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制；根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

本申请采用的一个技术方案是：提供一种文本查询装置，该文本查询装置包括处理器和存储器，存储器中存储有程序数据，处理器用于执行程序数据以实现如上述的方法。

本申请采用的一个技术方案是：提供一种计算机存储介质，该计算机存储介质中存储有程序数据，程序数据在被处理器执行时，用以实现如上述的方法。

本申请提供的文本的查询方法包括：基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果；根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果；基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果；根据第一查询结果、第二查询结果和第三查询结果，确定基于查询语句的最终查询结果。通过上述方式，第一方面通过词语和短语两个层面进行比较，能够对专业领域的文献具有较好的识别能力，第二方面通过对专业词汇添加到识别中去，有效的解决了现有的检索网络对专业知识背景缺乏的问题，通过上述的方式，能够提高文献的检索准确性，提高检索效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的文本的查询方法一实施例的流程示意图；

图2是图1中步骤11的流程示意图；

图3是图2中步骤114的流程示意图；

图4是图1中步骤12的流程示意图；

图5是图1中步骤13的流程示意图；

图6是本申请提供的文本查询装置一实施例的结构示意图；

图7是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的文本的查询方法一实施例的流程示意图，该方法包括：

步骤11：基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

本步骤中首先通过向量内积得到词语级别的相关性矩阵，在相关性矩阵的基础上使用注意力机制得到每个词语的向量表达。然后通过最大池化操作得到查询语句中每个词语的向量表达。最后使用逆文本频率指数进行加权和，得到最终的评分。其中，使用注意力机制可使得词语对与其相关的词语更加敏感，有利于提升文献检索的结果。

在一可选的实施例中，如图2所示，步骤11可以具体包括以下步骤：

步骤111：确定查询语句和文档语句的向量表达。

对查询语句和文档语句进行分词和词嵌入处理，以得到查询语句的向量表达Q_n*k和文档语句的向量表达D_m*k，其中，

表示查询语句序列中第i个词语的向量表达，

表示文档中第i个词语的向量表达。

步骤112：计算查询语句和文档语句的词语级别的相关性矩阵。

计算查询语句和文档语句的词语级别的相关性矩阵M_n*m，其中，矩阵M_n*m中的第i行第j列的元素M_ij采用以下公式计算得到：

其中，

表示查询语句序列中的第i个词语对应的向量，

表示文档语句中第j个词语对应的向量。

步骤113：基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制。

采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达：

其中，

表示查询语句序列中的第i个词语引入注意力机制后的向量，

表示文档中第j个词语引入注意力机制后的的向量。

步骤114：根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

在一可选的实施例中，如图3所示，步骤114可以具体包括以下步骤：

步骤1141：计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积。

其中，对

和

和

做哈达玛积：

其中，“·”表示两数值相乘。

步骤1142：对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接，形成拼接向量。

然后，对

以及

进行拼接得到向量

和

步骤1143：计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵。

然后基于向量

和

再次进行相关性计算，得到矩阵

矩阵

中的第i行第j列的元素

采用以下公式计算得到：

步骤1144：对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一查询结果。

其中，对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一中间向量

其中，

其中，

为矩阵

中第i行的最大值。

采用以下公式计算第一评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

步骤12：根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果。

本步骤中，将通过向量内积得到的词语级别的相关性矩阵进行滑动窗口为2*2的平均池化操作，然后进行最大池化操作得到短语级别的向量表达，最后同样使用逆文本频率指数进行加权和得到短语级别的最终评分。

在一可选的实施例中，如图4所示，步骤12可以具体包括：

步骤121：对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作，以得到第一矩阵。

具体地，将之前计算的第一词语级别的相关性矩阵记为

第一矩阵的计算公式如下：

其中，

为矩阵

第wi行第wj列的数值大小，由矩阵的大小可知，wi和wj的取值范围是：

wi＝(1,2,3,…,n-2,n-1)；

wj＝(1,2,3,…,m-2,m-1)。

步骤122：对第一矩阵进行行方向上的最大池化操作，以得到第二中间向量

其中，

为矩阵

中第i行的最大值。

步骤123：采用以下公式计算第二评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

步骤13：基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果。

在本步骤中，首先通过构造法律领域的知识词典，使用TransE算法将词典中的词语转换为向量表示。找出查询语句和待检索文档中包含在知识词典中的词语，构成向量表达，然后同样通过向量内积得到相关性矩阵，基于相关性矩阵使用注意力机制得到对应的的向量表达。最后通过平均池化和最大池化得到最终的评分。

在一可选的实施例中，如图5所示，步骤13可以具体包括：

步骤131：确定专业领域词汇的向量表达。

在本实施例中，以法律方面的专业词汇为例。

首先，我们分刑事、民事和行政三部分构建了法律领域的知识词典，上图给出了一个构建的样例。然后通过TransE算法构建的知识词典中实体和关系映射到低维连续的向量空间。TransE算法会将知识词典里面的每一条边当做一个三元组(实体1、关系、实体2)，用向量表示记为

TransE算法会把实体向量

和

用关系向量

联系起来，使得

其中

和

之间的距离定义为：

步骤132：将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达。

得到知识词典中的元素的向量表示后，将查询语句序列和文档的语句序列中在知识词典中出现过的词语抽取出来，获得由TransE算法得来的向量表达矩阵

和

其中：

其中，k表示专业词汇中的元素经过TransE进行词嵌入后向量的维数，n表示查询语句序列中分词后的词语在专业领域词汇中的个数，m表示文档语句中分词后词语在专业领域词汇中的个数，

表示查询语句序列中专业词汇第i个词语的向量表达，

表示文档中专业词汇第i个词语的向量表达。

步骤133：计算查询语句和专业领域词汇的词语级别的相关性矩阵。

步骤134：基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制。

步骤135：根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

后续的步骤133-步骤135可以采用如上述步骤11中类似的方式：对矩阵

和

引入注意力机制，得到向量

和

再次进行相关性计算得到

得到矩阵

后，再对矩阵进行池化操作最终得到法律概念层级信息匹配网络的评分Score₃。

步骤14：根据第一查询结果、第二查询结果和第三查询结果，确定基于查询语句的最终查询结果。

其中，可以将第一评分、第二评分和第三评分进行平均值计算以得到最终得分，以确定查询语句与文档语句是否具有关联性，或者也可以对第一评分、第二评分和第三评分按照一定的权重求和得到最终得分，这里不作限制。

区别于现有技术，本实施例提供的文本的查询方法包括：基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果；根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果；基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果；根据第一查询结果、第二查询结果和第三查询结果，确定基于查询语句的最终查询结果。通过上述方式，第一方面通过词语和短语两个层面进行比较，能够对专业领域的文献具有较好的识别能力，第二方面通过对专业词汇添加到识别中去，有效的解决了现有的检索网络对专业知识背景缺乏的问题，通过上述的方式，能够提高文献的检索准确性，提高检索效率。

参阅图6，图6是本申请提供的文本查询装置一实施例的结构示意图，该文本查询装置60包括处理器61和存储器62，其中，存储器62中存储有程序数据，该处理器61用于执行该程序数据以实现如下的方法步骤：

基于查询语句和文档语句的第一词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果；根据第一词语级别的相关性，得到查询语句和文档语句的短语级别的相关性，并根据短语级别的相关性得到第二查询结果；基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性，对查询语句和文档语句引入注意力机制，并根据引入注意力机制后的查询语句和文档语句的相关性，得到第三查询结果；根据第一查询结果、第二查询结果和第三查询结果，确定基于查询语句的最终查询结果。

参阅图7，图7是本申请提供的计算机存储介质一实施例的结构示意图，该计算机存储介质70中存储有程序数据71，该程序数据71在被处理器执行时，用于实现如下的方法步骤：

可选地，在上述的查询装置60或计算机存储介质70的实施例中，程序数据在被执行时，还用于实现：确定查询语句和文档语句的向量表达；计算查询语句和文档语句的词语级别的相关性矩阵；基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制；根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

表示查询语句序列中第i个词语的向量表达，

表示文档中第i个词语的向量表达。

其中，

表示查询语句序列中的第i个词语对应的向量，

表示文档语句中第j个词语对应的向量。

其中，

表示查询语句序列中的第i个词语引入注意力机制后的向量，

表示文档中第j个词语引入注意力机制后的的向量。

采用以下公式计算第一评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

可选地，在上述的查询装置60或计算机存储介质70的实施例中，程序数据在被执行时，还用于实现：对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作，以得到第一矩阵；对第一矩阵进行行方向上的最大池化操作，以得到第二中间向量

采用以下公式计算第二评分：

其中，idf_i为查询语句中第i个词语的逆文本频率指数值，

可选地，在上述的查询装置60或计算机存储介质70的实施例中，程序数据在被执行时，还用于实现：确定专业领域词汇的向量表达；将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达；计算查询语句和专业领域词汇的词语级别的相关性矩阵；基于查询语句和文档语句的词语级别的相关性矩阵，对查询语句和文档语句的向量表达引入注意力机制；根据引入注意力机制后的查询语句和文档语句的相关性，得到第一查询结果。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本的查询方法，其特征在于，所述方法包括：

基于查询语句和文档语句的第一词语级别的相关性，对所述查询语句和所述文档语句引入注意力机制，并根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第一查询结果；

根据所述第一词语级别的相关性，通过平均池化操作以及最大池化操作，得到所述查询语句和所述文档语句的短语级别的相关性，并根据所述短语级别的相关性得到第二查询结果；

基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性，对所述查询语句和所述文档语句引入注意力机制，并根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第三查询结果；

根据所述第一查询结果、所述第二查询结果和所述第三查询结果，确定基于所述查询语句的最终查询结果。

2.根据权利要求1所述的方法，其特征在于，

所述基于查询语句和文档语句的第一词语级别的相关性，对所述查询语句和所述文档语句引入注意力机制，并根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第一查询结果包括：

确定所述查询语句和文档语句的向量表达；

计算所述查询语句和所述文档语句的词语级别的相关性矩阵；

基于所述查询语句和所述文档语句的词语级别的相关性矩阵，对所述查询语句和文档语句的向量表达引入注意力机制；

根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第一查询结果。

3.根据权利要求2所述的方法，其特征在于，

所述确定所述查询语句和文档语句的向量表达，包括：

对所述查询语句和文档语句进行分词和词嵌入处理，以得到所述查询语句的向量表达Q_n*k和所述文档语句的向量表达D_m*k，其中，

表示查询语句序列中第i个词语的向量表达，

表示文档中第i个词语的向量表达。

4.根据权利要求3所述的方法，其特征在于，

所述计算所述查询语句和所述文档语句的词语级别的相关性矩阵，包括：

其中，

表示查询语句序列中的第i个词语对应的向量，

表示文档语句中第j个词语对应的向量。

5.根据权利要求4所述的方法，其特征在于，

所述基于所述查询语句和所述文档语句的词语级别的相关性矩阵，对所述查询语句和文档语句的向量表达引入注意力机制，包括：

采用以下公式计算引入注意力机制后的所述查询语句和文档语句的向量表达：

其中，

表示查询语句序列中的第i个词语引入注意力机制后的向量，

表示文档中第j个词语引入注意力机制后的的向量。

6.根据权利要求5所述的方法，其特征在于，

所述根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第一查询结果，包括：

计算所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积；

对所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量和所述哈达玛积进行拼接，形成拼接向量；

计算所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵；

对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一查询结果。

7.根据权利要求6所述的方法，其特征在于，

所述对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一查询结果，包括：

对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作，以得到第一中间向量

采用以下公式计算第一评分：

其中，idf_i为所述查询语句中第i个词语的逆文本频率指数值，

8.根据权利要求1所述的方法，其特征在于，

所述根据所述第一词语级别的相关性，通过平均池化操作以及最大池化操作，得到所述查询语句和所述文档语句的短语级别的相关性，并根据所述短语级别的相关性得到第二查询结果，包括：

对所述第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作，以得到第一矩阵；

对所述第一矩阵进行行方向上的最大池化操作，以得到第二中间向量

采用以下公式计算第二评分：

9.根据权利要求1所述的方法，其特征在于，

所述基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性，对所述查询语句和所述文档语句引入注意力机制，并根据引入注意力机制后的所述查询语句和所述文档语句的相关性，得到第三查询结果，包括：

确定专业领域词汇的向量表达；

将所述查询语句和所述文档语句中的专业领域词汇抽取出来形成新的向量表达；

计算所述查询语句和所述专业领域词汇的词语级别的相关性矩阵；

10.一种文本查询装置，其特征在于，所述文本查询装置包括处理器和存储器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-9任一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1-9任一项所述的方法。