CN111159331B - 文本的查询方法、文本查询装置以及计算机存储介质 - Google Patents

文本的查询方法、文本查询装置以及计算机存储介质 Download PDF

Info

Publication number
CN111159331B
CN111159331B CN201911114274.2A CN201911114274A CN111159331B CN 111159331 B CN111159331 B CN 111159331B CN 201911114274 A CN201911114274 A CN 201911114274A CN 111159331 B CN111159331 B CN 111159331B
Authority
CN
China
Prior art keywords
statement
query
document
vector
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911114274.2A
Other languages
English (en)
Other versions
CN111159331A (zh
Inventor
杨敏
姜青山
曲强
李成明
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911114274.2A priority Critical patent/CN111159331B/zh
Publication of CN111159331A publication Critical patent/CN111159331A/zh
Priority to PCT/CN2020/128801 priority patent/WO2021093871A1/zh
Application granted granted Critical
Publication of CN111159331B publication Critical patent/CN111159331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本的查询方法、文本查询装置以及计算机存储介质,其中,该文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据查询语句和文档语句的相关性,得到第三查询结果;确定基于查询语句的最终查询结果。通过上述方式,能够提高文本查询的精确度和效率。

Description

文本的查询方法、文本查询装置以及计算机存储介质
技术领域
本申请涉及文本查询技术领域,特别是涉及一种文本的查询方法、文本查询装置以及计算机存储介质。
背景技术
在文献检索时,用户给定一个专业领域相关的问题,检索***要从数据库中找出与该问题最相关的若干篇文献返回给用户,用户即可快速获得所需的相关文献资料,能够节省大量的时间。
随着现代互联网技术的发展,越来越多的文献资料可从互联网中直接获取到,如何做到快速精准的文献检索也成为了自然语言处理领域研究的一个热点方向。而在文献检索时,常常涉及到专业领域,例如法律领域,法律领域中文献的检索问题有其区别于其他领域文献检索的特点,首先,法律领域有较多的专业术语是以短语的形式出现的,这些短语在文献检索时,可能会被分成单独的词语来处理。其次,法律领域的文献其案由和关键词的关联性较强,如果能够利用好案由和关键字的关系,就能够较好的提升检索效果。
发明内容
为解决上述问题,本申请提供了一种文本的查询方法、文本查询装置以及计算机存储介质,能够提高文本查询的精确度和效率。
本申请采用的一个技术方案是:提供一种文本的查询方法,该方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
其中,基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果包括:确定查询语句和文档语句的向量表达;计算查询语句和文档语句的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
其中,确定查询语句和文档语句的向量表达,包括:对查询语句和文档语句进行分词和词嵌入处理,以得到查询语句的向量表达Qn*k和文档语句的向量表达Dm*k,其中,
Figure BDA0002273627590000021
Figure BDA0002273627590000022
其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,
Figure BDA0002273627590000023
表示查询语句序列中第i个词语的向量表达,
Figure BDA0002273627590000024
表示文档中第i个词语的向量表达。
其中,计算查询语句和文档语句的词语级别的相关性矩阵,包括:计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
Figure BDA0002273627590000025
其中,
Figure BDA0002273627590000026
表示查询语句序列中的第i个词语对应的向量,
Figure BDA0002273627590000027
表示文档语句中第j个词语对应的向量。
其中,基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制,包括:采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:
Figure BDA0002273627590000031
其中,
Figure BDA0002273627590000032
表示查询语句序列中的第i个词语引入注意力机制后的向量,
Figure BDA0002273627590000033
表示文档中第j个词语引入注意力机制后的的向量。
其中,根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果,包括:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量;计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵;对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
其中,对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果,包括:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量
Figure BDA0002273627590000034
采用以下公式计算第一评分:
Figure BDA0002273627590000035
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA0002273627590000036
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
其中,根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果,包括:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵;对第一矩阵进行行方向上的最大池化操作,以得到第二中间向量
Figure BDA0002273627590000037
采用以下公式计算第二评分:
Figure BDA0002273627590000038
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA0002273627590000039
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
其中,基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果,包括:确定专业领域词汇的向量表达;将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达;计算查询语句和专业领域词汇的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
本申请采用的一个技术方案是:提供一种文本查询装置,该文本查询装置包括处理器和存储器,存储器中存储有程序数据,处理器用于执行程序数据以实现如上述的方法。
本申请采用的一个技术方案是:提供一种计算机存储介质,该计算机存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现如上述的方法。
本申请提供的文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。通过上述方式,第一方面通过词语和短语两个层面进行比较,能够对专业领域的文献具有较好的识别能力,第二方面通过对专业词汇添加到识别中去,有效的解决了现有的检索网络对专业知识背景缺乏的问题,通过上述的方式,能够提高文献的检索准确性,提高检索效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的文本的查询方法一实施例的流程示意图;
图2是图1中步骤11的流程示意图;
图3是图2中步骤114的流程示意图;
图4是图1中步骤12的流程示意图;
图5是图1中步骤13的流程示意图;
图6是本申请提供的文本查询装置一实施例的结构示意图;
图7是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的文本的查询方法一实施例的流程示意图,该方法包括:
步骤11:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
本步骤中首先通过向量内积得到词语级别的相关性矩阵,在相关性矩阵的基础上使用注意力机制得到每个词语的向量表达。然后通过最大池化操作得到查询语句中每个词语的向量表达。最后使用逆文本频率指数进行加权和,得到最终的评分。其中,使用注意力机制可使得词语对与其相关的词语更加敏感,有利于提升文献检索的结果。
在一可选的实施例中,如图2所示,步骤11可以具体包括以下步骤:
步骤111:确定查询语句和文档语句的向量表达。
对查询语句和文档语句进行分词和词嵌入处理,以得到查询语句的向量表达Qn*k和文档语句的向量表达Dm*k,其中,
Figure BDA0002273627590000061
Figure BDA0002273627590000062
其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,
Figure BDA0002273627590000063
表示查询语句序列中第i个词语的向量表达,
Figure BDA0002273627590000064
表示文档中第i个词语的向量表达。
步骤112:计算查询语句和文档语句的词语级别的相关性矩阵。
计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
Figure BDA0002273627590000065
其中,
Figure BDA0002273627590000066
表示查询语句序列中的第i个词语对应的向量,
Figure BDA0002273627590000067
表示文档语句中第j个词语对应的向量。
步骤113:基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制。
采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:
Figure BDA0002273627590000071
Figure BDA0002273627590000072
其中,
Figure BDA0002273627590000073
表示查询语句序列中的第i个词语引入注意力机制后的向量,
Figure BDA0002273627590000074
表示文档中第j个词语引入注意力机制后的的向量。
步骤114:根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
在一可选的实施例中,如图3所示,步骤114可以具体包括以下步骤:
步骤1141:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积。
其中,对
Figure BDA0002273627590000075
Figure BDA0002273627590000076
Figure BDA0002273627590000077
做哈达玛积:
Figure BDA0002273627590000078
Figure BDA0002273627590000079
其中,“·”表示两数值相乘。
步骤1142:对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量。
然后,对
Figure BDA00022736275900000710
以及
Figure BDA00022736275900000711
进行拼接得到向量
Figure BDA00022736275900000712
Figure BDA00022736275900000713
Figure BDA00022736275900000714
Figure BDA0002273627590000081
步骤1143:计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵。
然后基于向量
Figure BDA0002273627590000082
Figure BDA0002273627590000083
再次进行相关性计算,得到矩阵
Figure BDA0002273627590000084
矩阵
Figure BDA0002273627590000085
中的第i行第j列的元素
Figure BDA0002273627590000086
采用以下公式计算得到:
Figure BDA0002273627590000087
步骤1144:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
其中,对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量
Figure BDA0002273627590000088
其中,
Figure BDA0002273627590000089
其中,
Figure BDA00022736275900000810
为矩阵
Figure BDA00022736275900000811
中第i行的最大值。
采用以下公式计算第一评分:
Figure BDA00022736275900000812
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA00022736275900000813
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
步骤12:根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果。
本步骤中,将通过向量内积得到的词语级别的相关性矩阵进行滑动窗口为2*2的平均池化操作,然后进行最大池化操作得到短语级别的向量表达,最后同样使用逆文本频率指数进行加权和得到短语级别的最终评分。
在一可选的实施例中,如图4所示,步骤12可以具体包括:
步骤121:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵。
具体地,将之前计算的第一词语级别的相关性矩阵记为
Figure BDA0002273627590000091
第一矩阵的计算公式如下:
Figure BDA0002273627590000092
其中,
Figure BDA0002273627590000093
为矩阵
Figure BDA0002273627590000094
第wi行第wj列的数值大小,由矩阵的大小可知,wi和wj的取值范围是:
wi=(1,2,3,…,n-2,n-1);
wj=(1,2,3,…,m-2,m-1)。
步骤122:对第一矩阵进行行方向上的最大池化操作,以得到第二中间向量
Figure BDA0002273627590000095
Figure BDA0002273627590000096
其中,
Figure BDA0002273627590000097
为矩阵
Figure BDA0002273627590000098
中第i行的最大值。
步骤123:采用以下公式计算第二评分:
Figure BDA0002273627590000099
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA00022736275900000910
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
步骤13:基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果。
在本步骤中,首先通过构造法律领域的知识词典,使用TransE算法将词典中的词语转换为向量表示。找出查询语句和待检索文档中包含在知识词典中的词语,构成向量表达,然后同样通过向量内积得到相关性矩阵,基于相关性矩阵使用注意力机制得到对应的的向量表达。最后通过平均池化和最大池化得到最终的评分。
在一可选的实施例中,如图5所示,步骤13可以具体包括:
步骤131:确定专业领域词汇的向量表达。
在本实施例中,以法律方面的专业词汇为例。
首先,我们分刑事、民事和行政三部分构建了法律领域的知识词典,上图给出了一个构建的样例。然后通过TransE算法构建的知识词典中实体和关系映射到低维连续的向量空间。TransE算法会将知识词典里面的每一条边当做一个三元组(实体1、关系、实体2),用向量表示记为
Figure BDA0002273627590000101
TransE算法会把实体向量
Figure BDA0002273627590000102
Figure BDA0002273627590000103
用关系向量
Figure BDA0002273627590000104
联系起来,使得
Figure BDA0002273627590000105
其中
Figure BDA0002273627590000106
Figure BDA0002273627590000107
之间的距离定义为:
Figure BDA0002273627590000108
步骤132:将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达。
得到知识词典中的元素的向量表示后,将查询语句序列和文档的语句序列中在知识词典中出现过的词语抽取出来,获得由TransE算法得来的向量表达矩阵
Figure BDA0002273627590000109
Figure BDA00022736275900001010
其中:
Figure BDA00022736275900001011
Figure BDA00022736275900001012
其中,k表示专业词汇中的元素经过TransE进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语在专业领域词汇中的个数,m表示文档语句中分词后词语在专业领域词汇中的个数,
Figure BDA00022736275900001013
表示查询语句序列中专业词汇第i个词语的向量表达,
Figure BDA00022736275900001014
表示文档中专业词汇第i个词语的向量表达。
步骤133:计算查询语句和专业领域词汇的词语级别的相关性矩阵。
步骤134:基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制。
步骤135:根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
后续的步骤133-步骤135可以采用如上述步骤11中类似的方式:对矩阵
Figure BDA0002273627590000111
Figure BDA0002273627590000112
引入注意力机制,得到向量
Figure BDA0002273627590000113
Figure BDA0002273627590000114
再次进行相关性计算得到
Figure BDA0002273627590000115
Figure BDA0002273627590000116
Figure BDA0002273627590000117
Figure BDA0002273627590000118
得到矩阵
Figure BDA0002273627590000119
后,再对矩阵进行池化操作最终得到法律概念层级信息匹配网络的评分Score3
步骤14:根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
其中,可以将第一评分、第二评分和第三评分进行平均值计算以得到最终得分,以确定查询语句与文档语句是否具有关联性,或者也可以对第一评分、第二评分和第三评分按照一定的权重求和得到最终得分,这里不作限制。
区别于现有技术,本实施例提供的文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。通过上述方式,第一方面通过词语和短语两个层面进行比较,能够对专业领域的文献具有较好的识别能力,第二方面通过对专业词汇添加到识别中去,有效的解决了现有的检索网络对专业知识背景缺乏的问题,通过上述的方式,能够提高文献的检索准确性,提高检索效率。
参阅图6,图6是本申请提供的文本查询装置一实施例的结构示意图,该文本查询装置60包括处理器61和存储器62,其中,存储器62中存储有程序数据,该处理器61用于执行该程序数据以实现如下的方法步骤:
基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
参阅图7,图7是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质70中存储有程序数据71,该程序数据71在被处理器执行时,用于实现如下的方法步骤:
基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:确定查询语句和文档语句的向量表达;计算查询语句和文档语句的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
其中,确定查询语句和文档语句的向量表达,包括:对查询语句和文档语句进行分词和词嵌入处理,以得到查询语句的向量表达Qn*k和文档语句的向量表达Dm*k,其中,
Figure BDA0002273627590000131
Figure BDA0002273627590000132
其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,
Figure BDA0002273627590000133
表示查询语句序列中第i个词语的向量表达,
Figure BDA0002273627590000134
表示文档中第i个词语的向量表达。
其中,计算查询语句和文档语句的词语级别的相关性矩阵,包括:计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
Figure BDA0002273627590000135
其中,
Figure BDA0002273627590000136
表示查询语句序列中的第i个词语对应的向量,
Figure BDA0002273627590000137
表示文档语句中第j个词语对应的向量。
其中,基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制,包括:采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:
Figure BDA0002273627590000138
其中,
Figure BDA0002273627590000139
表示查询语句序列中的第i个词语引入注意力机制后的向量,
Figure BDA00022736275900001310
表示文档中第j个词语引入注意力机制后的的向量。
其中,根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果,包括:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量;计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵;对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
其中,对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果,包括:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量
Figure BDA0002273627590000141
采用以下公式计算第一评分:
Figure BDA0002273627590000142
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA0002273627590000143
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵;对第一矩阵进行行方向上的最大池化操作,以得到第二中间向量
Figure BDA0002273627590000144
采用以下公式计算第二评分:
Figure BDA0002273627590000145
其中,idfi为查询语句中第i个词语的逆文本频率指数值,
Figure BDA0002273627590000146
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:确定专业领域词汇的向量表达;将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达;计算查询语句和专业领域词汇的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种文本的查询方法,其特征在于,所述方法包括:
基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果;
根据所述第一词语级别的相关性,通过平均池化操作以及最大池化操作,得到所述查询语句和所述文档语句的短语级别的相关性,并根据所述短语级别的相关性得到第二查询结果;
基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果;
根据所述第一查询结果、所述第二查询结果和所述第三查询结果,确定基于所述查询语句的最终查询结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果包括:
确定所述查询语句和文档语句的向量表达;
计算所述查询语句和所述文档语句的词语级别的相关性矩阵;
基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制;
根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述查询语句和文档语句的向量表达,包括:
对所述查询语句和文档语句进行分词和词嵌入处理,以得到所述查询语句的向量表达Qn*k和所述文档语句的向量表达Dm*k,其中,
Figure FDA0003180985760000021
其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,
Figure FDA0003180985760000022
表示查询语句序列中第i个词语的向量表达,
Figure FDA0003180985760000023
表示文档中第i个词语的向量表达。
4.根据权利要求3所述的方法,其特征在于,
所述计算所述查询语句和所述文档语句的词语级别的相关性矩阵,包括:
计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
Figure FDA0003180985760000024
其中,
Figure FDA0003180985760000025
表示查询语句序列中的第i个词语对应的向量,
Figure FDA0003180985760000026
表示文档语句中第j个词语对应的向量。
5.根据权利要求4所述的方法,其特征在于,
所述基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制,包括:
采用以下公式计算引入注意力机制后的所述查询语句和文档语句的向量表达:
Figure FDA0003180985760000027
Figure FDA0003180985760000028
其中,
Figure FDA0003180985760000029
表示查询语句序列中的第i个词语引入注意力机制后的向量,
Figure FDA00031809857600000210
表示文档中第j个词语引入注意力机制后的的向量。
6.根据权利要求5所述的方法,其特征在于,
所述根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果,包括:
计算所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;
对所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量和所述哈达玛积进行拼接,形成拼接向量;
计算所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵;
对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
7.根据权利要求6所述的方法,其特征在于,
所述对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果,包括:
对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量
Figure FDA0003180985760000031
采用以下公式计算第一评分:
Figure FDA0003180985760000032
其中,idfi为所述查询语句中第i个词语的逆文本频率指数值,
Figure FDA0003180985760000033
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
8.根据权利要求1所述的方法,其特征在于,
所述根据所述第一词语级别的相关性,通过平均池化操作以及最大池化操作,得到所述查询语句和所述文档语句的短语级别的相关性,并根据所述短语级别的相关性得到第二查询结果,包括:
对所述第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵;
对所述第一矩阵进行行方向上的最大池化操作,以得到第二中间向量
Figure FDA0003180985760000034
采用以下公式计算第二评分:
Figure FDA0003180985760000041
其中,idfi为所述查询语句中第i个词语的逆文本频率指数值,
Figure FDA0003180985760000042
其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
9.根据权利要求1所述的方法,其特征在于,
所述基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果,包括:
确定专业领域词汇的向量表达;
将所述查询语句和所述文档语句中的专业领域词汇抽取出来形成新的向量表达;
计算所述查询语句和所述专业领域词汇的词语级别的相关性矩阵;
基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制;
根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果。
10.一种文本查询装置,其特征在于,所述文本查询装置包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-9任一项所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-9任一项所述的方法。
CN201911114274.2A 2019-11-14 2019-11-14 文本的查询方法、文本查询装置以及计算机存储介质 Active CN111159331B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911114274.2A CN111159331B (zh) 2019-11-14 2019-11-14 文本的查询方法、文本查询装置以及计算机存储介质
PCT/CN2020/128801 WO2021093871A1 (zh) 2019-11-14 2020-11-13 文本的查询方法、文本查询装置以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114274.2A CN111159331B (zh) 2019-11-14 2019-11-14 文本的查询方法、文本查询装置以及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111159331A CN111159331A (zh) 2020-05-15
CN111159331B true CN111159331B (zh) 2021-11-23

Family

ID=70555994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114274.2A Active CN111159331B (zh) 2019-11-14 2019-11-14 文本的查询方法、文本查询装置以及计算机存储介质

Country Status (2)

Country Link
CN (1) CN111159331B (zh)
WO (1) WO2021093871A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159331B (zh) * 2019-11-14 2021-11-23 中国科学院深圳先进技术研究院 文本的查询方法、文本查询装置以及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110347790A (zh) * 2019-06-18 2019-10-18 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2943508C (en) * 2014-03-29 2022-11-29 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
KR20160004725A (ko) * 2014-07-04 2016-01-13 삼성전자주식회사 연관 정보 제공 방법 및 이를 제공하는 전자 장치
CN107844469B (zh) * 2017-10-26 2020-06-26 北京大学 基于词向量查询模型的文本简化方法
CN108491433B (zh) * 2018-02-09 2022-05-03 平安科技(深圳)有限公司 聊天应答方法、电子装置及存储介质
CN109063174B (zh) * 2018-08-21 2022-06-07 腾讯科技(深圳)有限公司 查询答案的生成方法及装置、计算机存储介质、电子设备
CN111159331B (zh) * 2019-11-14 2021-11-23 中国科学院深圳先进技术研究院 文本的查询方法、文本查询装置以及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110347790A (zh) * 2019-06-18 2019-10-18 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111159331A (zh) 2020-05-15
WO2021093871A1 (zh) 2021-05-20

Similar Documents

Publication Publication Date Title
CN101079026B (zh) 文本相似度、词义相似度计算方法和***及应用***
Jabbar et al. Empirical evaluation and study of text stemming algorithms
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN109918660B (zh) 一种基于TextRank的关键词提取方法和装置
CN107885717B (zh) 一种关键词提取方法及装置
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
Echeverry-Correa et al. Topic identification techniques applied to dynamic language model adaptation for automatic speech recognition
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN112836039A (zh) 基于深度学习的语音数据处理方法和装置
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN111159331B (zh) 文本的查询方法、文本查询装置以及计算机存储介质
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN110309278B (zh) 关键词检索方法、装置、介质及电子设备
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和***
Forsati et al. Novel harmony search-based algorithms for part-of-speech tagging
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN115757680A (zh) 关键词提取方法、装置、电子设备及存储介质
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
CN114462378A (zh) 科技项目查重方法、***、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant