CN111159526B

CN111159526B - 查询语句处理方法、装置、设备及存储介质

Info

Publication number: CN111159526B
Application number: CN201911370611.4A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-04-07
Anticipated expiration: 2039-12-26
Also published as: CN111159526A

Abstract

本申请公开了一种查询语句处理方法、装置、设备及存储介质，该方法包括：对待处理的查询语句进行分词得到词序列；利用第一预测模型确定词序列中各个词分别属于丢弃词的第一可能性；利用第二预测模型确定该词序列中各个词分别属于丢弃词的第二可能性，该第一预测模型和第二预测为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的；针对词序列中每个词，按照第一可能性对应的第一权重及第二可能性对应的第二权重，综合该词对应的第一可能性和第二可能性，确定该词属于丢弃词的综合可能性。本申请的方案有利于提高从查询语句中预测丢弃词的精准度。

Description

查询语句处理方法、装置、设备及存储介质

技术领域

本申请涉及搜索技术领域，尤其涉及一种查询语句处理方法、装置、设备及存储介质。

背景技术

搜索引擎需要根据用户输入的查询语句进行信息搜索。然而，很多情况下，用户输入的查询语句并不能够很好的反映出用户的信息需求，从而不能准确匹配到用户想要的信息。

为了能够更为准确的理解用户的搜索意图，需要对查询语句进行改写，也就是俗称的查询改写。其中，在查询改写中需要弃查询语句中无法反映用户搜索意图或者与用户搜索意图相关性较低的一个或者多个词(如，单个字或者字符构成的词、或者是多个字符构成的词语等)，以最终得到能够更为贴近用户查询意图的新查询语句。然而，目前尚不存在能够从查询语句中准确定位出需要丢弃的丢弃词的方式，影响到对用户输入的查询语句进行改写的准确度，从而无法生成更为准确反映用户查询意图的新查询语句。

发明内容

有鉴于此，本申请提供了一种查询语句处理方法、装置、设备及存储介质，有利于提高从查询语句中预测丢弃词的精准度，为从查询语句中定位需要丢弃的词提供了依据，并有利于提高从查询语句中定位丢弃词的精准度。

为实现上述目的，一方面，本申请提供了一种查询语句处理方法，包括：

对待处理的查询语句进行分词，得到所述查询语句分词出的词序列，所述词序列包括具有先后顺序的至少一个词，每个词包括至少一个字符；

利用第一预测模型确定所述词序列中各个词分别属于丢弃词的第一可能性，其中，针对所述词序列中每个词，所述第一预测模型基于所述词在所述词序列中的上下文特征以及所述词的特征，确定所述词属于丢弃词的第一可能性；

利用第二预测模型确定所述词序列中各个词分别属于丢弃词的第二可能性，所述第二预测模型不同于所述第一预测模型，所述第一预测模型和第二预测为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的；所述词序列样本中标注有需要丢弃的词；

针对所述词序列中每个词，按照所述第一预测模型输出的第一可能性对应的第一权重以及所述第二预测模型输出的第二可能性对应的第二权重，并综合所述词属于丢弃词的第一可能性和第二可能性，确定所述词属于丢弃词的综合可能性，所述第一权重和所述第二权重为基于所述集成学习算法训练所述第一预测模型和第二预测模型的过程中确定的。

在一种可能的情况中，针对所述词序列中每个词，所述第二预测模型基于所述词序列中各个词的特征，以及所述第二预测模型中训练出的状态特征函数和转移矩阵，确定出所述词属于丢弃词的第二可能性。

在又一种可能的情况中，所述第一预测模型包括：丢词评分模型和归一化模型；

所述利用第一预测模型确定所述词序列中各个词分别属于丢弃词的第一可能性，包括：

通过所述丢词评分模型确定所述词序列中各个词分别属于丢弃词的评分，其中，针对所述词序列中每个词，所述丢词评分模型基于所述词在所述词序列中的上下文特征以及所述词的特征，确定所述词属于丢弃词的评分；

通过所述归一化模型对所述词序列中各个词对应的评分进行归一化处理，得到所述词序列中各个词分别属于丢弃词的第一可能性。

在又一种可能的情况中，所述第一预测模型由双向长短期预测模型和归一化模型构成；

所述第二预测模型为条件随机场模型。

在又一种可能的情况中，该方法还包括：

依据所述词序列中各个词属于丢弃词的综合可能性，去除所述查询语句中综合可能性不符合要求的词，以改写所述查询语句。

在又一种可能的情况中，在所述得到所述查询语句分词出的词序列之后，还包括：

确定所述词序列中各个词的词向量；

将所述词序列中各个词的词向量输入到第一预测模型，得到所述第一预测模型输出的所述词序列中各个词分别属于丢弃词的第一可能性；

其中，针对所述词序列中每个词，所述第一预测模型基于所述词序列中各个词的词向量，确定所述词对应的上下文特征，依据所述词的上下文特征以所述词的词向量所表征的词特征，确定所述词属于丢弃词的第一可能性；

所述利用第二预测模型确定所述词序列中各个词分别属于丢弃词的第二可能性，包括：

将所述词序列中各个词的词向量输入到第二预测模型，得到所述第二预测模型输出的所述词序列中各个词分别属于丢弃词的第二可能性。

又一方面，本申请还提供了一种查询语句处理装置，包括：

语句分词单元，用于对待处理的查询语句进行分词，得到所述查询语句分词出的词序列，所述词序列包括具有先后顺序的至少一个词，每个词包括至少一个字符；

第一预测单元，用于利用第一预测模型确定所述词序列中各个词分别属于丢弃词的第一可能性，其中，针对所述词序列中每个词，所述第一预测模型基于所述词在所述词序列中的上下文特征以及所述词的特征，确定所述词属于丢弃词的第一可能性；

第二预测单元，用于利用第二预测模型确定所述词序列中各个词分别属于丢弃词的第二可能性，所述第二预测模型不同于所述第一预测模型，所述第一预测模型和第二预测为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的；所述词序列样本中标注有需要丢弃的词；

集成预测单元，用于针对所述词序列中每个词，按照所述第一预测模型输出的第一可能性对应的第一权重以及所述第二预测模型输出的第二可能性对应的第二权重，并综合所述词属于丢弃词的第一可能性和第二可能性，确定所述词属于丢弃词的综合可能性，所述第一权重和所述第二权重为基于所述集成学习算法训练所述第一预测模型和第二预测模型的过程中确定的。

又一方面，本申请还提供了一种计算机设备，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于实现如上任一项所述查询语句处理方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求任一项所述的查询语句处理方法。

经由上述的技术方案可知，本申请在获得待处理的查询语句分词出的词序列之后，会分别利用第一预测模型和第二预测模型来预测词序列中各个词属于丢弃词的可能性。其中，针对词序列中每个词，由于该第一预测模型综合该词的上下文语义特征，对于包含字符数量较多的查询语句，可以较为精准的预测出该查询语句中各个词属于丢弃词的可能性。而且，本申请还会利用不同于第一预测模型的第二预测模型同时对查询语句的词序列中各个词属于丢弃词的可能性进行预测，也有利于保证对于长度较短的查询语句的预测精度。在此基础上，针对查询语句中每个词，本申请会综合第一预测模型和第二预测模型分别预测出的该词属于丢弃词的可能性，来综合确定查询语句中个词属于丢弃词的可能性，从而可以弥补单一类型预测模型的不足，有利于提高从查询语句中预测丢弃词的精准度，进而有利于提高从查询语句中定位需要丢弃的词的精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请的方案所适用的一种***组成架构示意图；

图2示出了本申请的查询语句处理方法一个实施例的流程示意图；

图3示出了本申请的查询语句处理方法所适用的一种模型框架示意图；

图4示出了本申请的查询语句处理方法又一个实施例的流程示意图；

图5示出了本申请训练第一预测模型和第二预测模型的一种训练流程示意图；

图6示出了本申请的查询语句处理装置的一种组成结构示意图；

图7示出了本申请的方案所适用的计算机设备的一种组成架构示意图。

具体实施方式

本申请的方案可以较为精准的预测出查询语句各个词属于无法反映用户搜索意图或者与用户搜索意图相关性较低等情况的丢弃词的可能性，从而为去除查询语句中一些与用户搜索意图相关性较低的词提供了依据，有利于更为精准和可靠的改写查询语句。

本申请的方案适用于计算机设备，该计算机设备可以为任意需要基于查询语句进行信息搜索或者查询的***中的服务器或者数据处理设备。如，该计算机设备可以为搜索引擎***中的服务器。

为了便于理解，以搜索引擎***为例说明。

如图1所示，其示出了本申请的方案所适用的搜索引擎***的一种组成架构示意图。

由图1可以看出，该搜索引擎***10可以包括：至少一台服务器101。

该搜索引擎***的服务器101可以接收终端20发送的查询请求，该查询请求携带有查询语句。

相应的，服务器101可以基于该查询语句进行搜索，并将搜索到的信息返回给终端20。

其中，为了能够搜索到与该终端的用户的用户意图更贴近的信息，服务器101执行搜索之前，会对查询语句进行改写。其中，对查询语句的改写就需要确定该查询语句中需要丢弃的丢弃词，因此，服务器101需要对查询语句进行处理，以确定查询语句中各个词属于丢弃词的可能性。

可以理解的是，在实际应用中，为了减少服务器的数据处理量，在服务器获取到查询语句之后，可以将查询语句传输给搜索引擎中特定的数据处理设备。相应的，数据处理设备确定出查询语句中各个词属于丢弃词的可能性，再将查询语句中各个词属于丢弃词的可能性的结果反馈给该服务器。或者是，数据处理设备确定出查询语句的各个词属于丢弃词的可能性之后，对查询语句进行改写之后，再将改写后的查询语句反馈给服务器。

当然，图1仅仅是以搜索引擎为例说明，在实际应用中其他需要基于查询语句进行搜索或者查询的***也同样适用于本申请，对此不加限制。

下面结合流程图对本申请的查询语句处理方法进行介绍。

如图2所示，其示出了本申请一种查询语句处理方法一个实施例的流程示意图，本实施例的方法可以应用于计算机设备，如搜索引擎中的服务器等。

本实施例的方法可以包括：

S201，对待处理的查询语句进行分词，得到该查询语句分词出的词序列。

查询语句也称为查询词、查询字符串或者查询关键词等，是指输入到搜索引擎等搜索***中，用于表征用户搜索需求的词、词组或者句子。相应的，该查询语句可以包括至少一个字符。

其中，对查询语句进行分词可以将查询语句划分为多个具有先后顺序的词，这多个具有先后顺序的词就组成了词序列。词序列中每个词包括至少一个字符。

对查询语句进行分词的具体方式可以有多种，本申请采用何种分词方式对查询语句进行分词不加限制。

S202，利用第一预测模型确定该词序列中各个词分别属于丢弃词的第一可能性。

其中，丢弃词是指该查询语句中需要丢弃的词，也就是查询语句中与用户搜索意图相关性较低(如相关性低于特定阈值)的词。

针对该词序列中每个词，该第一预测模型基于该词在该词序列中的上下文特征以及该词的特征，确定该词属于丢弃词的第一可能性。

其中，为了便于区分，将该第一预测模型预测出的该词序列中的词属于丢弃词的可能性称为第一可能性。该第一可能性可以为一个概率值。该第一可能性也可以为表征词属于丢弃词的等级，其中不同等级对应了不同的可能性范围。该第一可能性还可以为一个分数等。

其中，词在词序列中的上下文特征反映出的是该词与该词序列中其他词之间的语义特征。该词在词序列中的上下文特征可以包括：该词序列位于该词之前的至少一个词与该词之间的上下文特征；还可以包括：该词序列中位于该词之后的至少一个词与该词之间的上下文特征。

在本申请实施例中，该第一预测模型是预先训练出的，且基于词序列中词的上下文特征以及词的词特征预测该词属于该词序列对应的查询语句中的丢弃词的可能性的机器学习模型。如，该第一预测模型可以包括：长短期记忆网络(Long Short-TermMemory，LSTM)模型。可选的，为了能够综合词与词序列中位于该词之前以及之后的各个词的语义信息预测该词属于丢弃词的可能性，该第一预测模型可以包括预先训练出的双向长短期记忆网络BLSTM模型。

S203，利用第二预测模型确定该词序列中各个词分别属于丢弃词的第二可能性。

为了便于区分，将第二预测模型预测出的词序列中的词属于丢弃词的可能性称为第二可能性。

该第二预测模型不同于该第一预测模型，相应的，该第二预测模型确定词属于丢弃词的可能性的具体原理不同于第一预测模型确定词属于丢弃词的可能性的原理。可以理解的是，由于包含字符数量较少的查询语句中语义信息量较少，因此，第一预测模型可能无法较为准确的预测出查询语句中各词属于丢弃词的可能性，因此，本申请还设置了一个预测原理不同于第一预测模型的第二预测模型，这样，可以通过第二预测模型弥补第一预测模型的部分不足。

如，该第二预测模型可以为支持向量机(Support Vector Machine,SVM)模型。

可选的，针对词序列中词的上下文特征进行预测，针对词序列中每个词，第二预测模型可以是基于词序列中各个词的特征，以及第二预测模型中训练出的状态特征函数和转移矩阵，确定出该词属于丢弃词的第二可能性。如，该第二预测模型可以为条件随机场(conditionalrandomfield，CRF)模型。

在本申请实施例中，该第一预测模型和第二预测模型为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的。其中，该词序列样本中标注有需要丢弃的词。

其中，查询语句样本可以基于搜索引擎获得的查询语句得到。查询语句对应的词序列样本为该查询语句样本中包含的各个词构成词序列，为了便于区分，将该查询语句对应的词序列称为词序列样本。词序列样本中标注的需要丢弃的词可以是由人工根据经验标定。

可选的，考虑到人工标定各个词序列样本中需要丢弃的词需要耗费较多的人力资源，且效率较低，本申请还可以针对每个查询语句样本，基于搜索引擎对该查询语句样本的搜索结果，标定出查询语句样本中需要丢弃的词，然后构建出查询语句样本对应的标注有需要丢弃的词的词序列。

其中，在利用该集成学习算法训练第一预测模型和第二预测模型的过程中，可以综合这两个预测模型分别输出的词属于丢弃词的可能性来确定该词属于丢弃词的综合可能性，并通过不断调整第一预测模型和第二预测模型各自输出的可能性的权重，来不断提高该综合可能性的准确度，指示该综合可能性的准确度符合要求。

如，集成算法可以为提升(boosting)算法、基于投票算法或者带权重的平均等集成学习算法中的任意一种。

可选的，为了能够更为直观的表征出词序列中的各个词，在该步骤S202和S203之前，还可以先确定出该查询语句的词序列中各个词的词向量。

相应的，可以将词序列中各个词的词向量输入到第一预测模型，得到第一预测模型输出的词序列中各个词分别属于丢弃词的第一可能性。在该种情况下，针对词序列中每个词，第一预测模型基于词序列中各个词的词向量，确定该词对应的上下文特征，并依据词的上下文特征以该词的词向量所表征的词特征，确定该词属于丢弃词的第一可能性。

类似的，可以将词序列中各个词的词向量输入到第二预测模型，得到第二预测模型输出的各个词属于丢弃词的第二可能性。

其中，确定词序列中各个词的词向量的方式可以有多种，如，可以分别确定词序列中各个词的独热编码；或者是，基于词序列中各个词的逆文本频率指数(Inverse DocumentFrequency，IDF)或者词的词性等确定词的词向量。当然，还可以结合多种方式综合确定词的词向量，本申请对于如何确定词的词向量不加限制。

需要说明的是，步骤S203和S204的顺序并不限于图2所示，在实际应用中，步骤S203和S204可以互换。考虑到数据处理效率，以并行执行步骤S203和S204为优选方式。

S204，针对该词序列中每个词，按照该第一预测模型输出的第一可能性对应的第一权重以及该第二预测模型输出的第二可能性对应的第二权重，并综合该词属于丢弃词的第一可能性和第二可能性，确定该词属于丢弃词的综合可能性。

其中，该第一权重和该第二权重为基于该集成学习算法训练该第一预测模型和第二预测模型的过程中确定的。其中，该第一权重为基于集成学习算法训练第一预测模型和第二预测模型的过程中，确定出的该第一预测模型输出的第一可能性对于综合可能性的影响权重。相应的，第二权重为基于集成学习算法训练第一预测模型和第二预测模型的过程中，确定出的该第二预测模型输出的第二可能性对于综合可能性的影响权重。

其中，该综合可能性可以为一个评分，也可以是一个概率值，当然，也可以是一个等级。

对于词序列中每个词，该词属于丢弃词的综合可能性为综合了第一预测模型预测出的该词属于丢弃词的第一可能性和第二预测模型预测出的该词属于丢弃词的第二可能性，最终确定出的用于表征该词属于丢弃词的可能性。

如，在一种可能的实现方式中，该综合可能性可以为第一可能性和第二可能性的权重求和。即，第一可能性与第一权重的乘积，与第二可能性与第二权重的乘积相加，得到该综合可能性。

可以理解的是，在确定出词序列中各个词属于丢弃词的综合可能性之后，可以综合各个词属于丢弃词的可能性，去除该查询语句中综合可能性不符合要求的词，以改写该查询语句。

如，综合可能性不符合要求可以为综合可能性低于阈值。例如，综合可能性为概率值或者评分的情况下，综合可能性不符合要求为综合可能性的概率值或者评分低于设定分值；又如，综合可能性为等级的情况下，该综合可能性不符合要求可以为等级低于设定等级。

可见，本申请在获得待处理的查询语句分词出的词序列之后，会分别利用第一预测模型和第二预测模型来预测词序列中各个词属于丢弃词的可能性。其中，针对词序列中每个词，由于该第一预测模型综合该词的上下文语义特征，对于包含字符数量较多的查询语句，可以较为精准的预测出该查询语句中各个词属于丢弃词的可能性。而且，本申请还会利用不同于第一预测模型的第二预测模型同时对查询语句的词序列中各个词属于丢弃词的可能性进行预测，也有利于保证对于长度较短的查询语句的预测精度。在此基础上，针对查询语句中每个词，本申请会综合第一预测模型和第二预测模型分别预测出的该词属于丢弃词的可能性，来综合确定查询语句中个词属于丢弃词的可能性，从而可以弥补单一类型预测模型的不足，有利于提高预测精准度，进而有利于提高从查询语句中定位需要丢弃的词的精准度。

可以理解的是，为了第一预测模型预测出的各个词之间的第一可能性之间具有可比性，作为一种可选方式，该第一预测模型可以包括：评分预测模型和归一化softmax模型，该softmax模型也可以称为softmax多分类模型。

在该种情况下，该评分预测模型确定词序列中各个词分别属于丢弃词的评分，其中，针对词序列中每个词，该丢词评分模型基于词在词序列中的上下文特征以及词的特征，确定该词属于丢弃词的评分。相应的，通过该归一化模型对词序列中各个词对应的评分进行归一化处理，得到词序列中各个词分别属于丢弃词的第一可能性。

如，该丢词评分模型可以为LSTM模型或者BLSTM模型。可选的，考虑到BLSTM模型中长查询语句上强大的上下文语义表示和特征组合泛化能力，本申请中第一预测模型中的评分预测模型可以为BLSTM模型。

为了便于理解，以第一预测模型由评分预测模型和归一化模型组成，而第二预测模型可以为CRF模型为例，对本申请的方案进行介绍。如图3所示，其示出了本申请的查询语句处理方法所采用的模型架构示意图。

在图3的竖线左右两侧分别表示了第一预测模型和第二预测模型。如图3所示，左侧的第一预测模型包括：BLSTM模型和softmax模型，该softmax模型作为了该BLSTM的输出层。而右侧的第二预测模型为CRF模型。在该基础上，查询语句分词出的词序列中各个词的词向量会分别输入到BLSTM模型和CRF模型，使得这两个模型分别独立的对词序列中各个词的词向量进行处理。

其中，BLSTM模型输出的高维特征向量会作为softmax模型的输入。而最终softmax模型的输出结果会与CRF模型的输出结果进行集成，从而综合得到词序列中各个词属于丢弃词的可能性。

为了便于理解，结合图3采用流程图的方式对该过程进行介绍。如图4所示，其示出了在图3所示的模型架构基础上，本申请的查询语句处理方法的实现流程示意图，该流程可以包括：

S401，对待处理的查询语句进行分词，得到该查询语句分词出的词序列。

其中，词序列包括具有先后顺序的至少一个词，每个词包括至少一个字符。

该步骤可以参见前面步骤的相关介绍。

S402，确定词序列中各个词的词向量。

其中，词的词向量可以表征该词在词序列中的特征，该特征为一个较为基础的低纬度特征。

如，词序列中每个词的词向量可以为该词的独热编码。又如，可以基于词序列中各个词的逆文本频率指数(Inverse Document Frequency，IDF)或者词的词性等确定词的词向量。

当然，还可以结合多种方式综合确定词的词向量，对此不加限制。

S403，将词序列中各个词的词向量输入到预先训练好的第一预测模型的BLSTM模型中，得到该BLSTM模型输出的词序列中各个词分别属于丢弃词的评分。

其中，词序列中各个词的词向量构成了一个词向量序列，该词向量序列会输入到该BLSTM模型中，使得该BLSTM模型可以得到各个词之间的上下文特征。

其中，针对所词序列中每个词，BLSTM模型基于该词在词序列中的上下文特征以及该词的特征，确定该词属于丢弃词的评分。需要说明的是，在蓄训练好BLSTM模型之后，只需要将词序列中各个词的词向量输入到该BLSTM模型中，而BLSTM模型对于词序列中各个词的词向量的转换和处理的具体过程不加限制。

其中，BLSTM模型预测出的各个词分别属于丢弃词的评分同样可以为向量形式，以便后续归一化模型可以进行处理。

S404，通过该归一化模型对BLSTM输出的该词序列中各个词对应的评分进行归一化处理，得到该词序列中各个词分别属于丢弃词的第一概率。

如图3所示，BLSTM输出的各个词分别丢弃词的评分会作为归一化模型的输入，然后归一化模型对各个词的评分进行归一化，得到各个词属于丢弃词的概率。

当然，此处是以softmax模型输出各个词属于丢弃词的第一概率为例，实际应用中，softmax模型也可以输出表征各个词属于丢弃词的其他形式的结果。如，softmax模型也可以根据各个词是否属于丢弃词的概率，直接输出该词是否属于丢弃词的结果。如词属于丢弃词，而输出结果表示为1；词不属于丢弃词，输出结果表示为0，如图3所示。

S405，将词序列中各个词的词向量输入到预先训练好的CRF模型中，得到该CRF模型输出的词序列中各个词分别属于丢弃词的第二概率。

其中，训练好的CRF模型基于词序列中各个词的词向量，以及内部的状态特征函数和转移矩阵，确定各个词的状态特征和转移特征，如图3所示，并最终得到各个词属于丢弃词的第二概率。

当然，CRF模型也可以根据各个词是否属于丢弃词的概率，直接输出该词是否属于丢弃词的结果。如，如果该词属于丢弃词，则输入结果为1；该词不属于丢弃词，则输出结果为0，如图3中右侧所示的CRF模型的输出所示。确定出该词属于丢弃词的第二可能性。

S406，针对该词序列中每个词，按照集成训练得到的第一预测模型输出的第一概率对应的第一权重以及该CRF模型输出的第二概率对应的第二权重，对该词属于丢弃词的第一概率和第二概率进行加权求和，得到该词属于丢弃词的综合概率。

如图3所示，BLSTM模型的输出经过softmax模型转换后的结果与该CRF模型输出的结果进行集成，最终得到各个词属于丢弃词的综合结果，该综合结果为对查询语句进行丢词处理的依据。

为了便于理解，本申请实施例中通过集成训练确定出第一权重和第二权重的过程，下面以一种情况为例对第一预测模型和第二预测模型的训练过程进行介绍。如，参见图5所示，其示出了本申请一种训练第一预测模型和第二预测模型的训练流程示意图，该过程包括：

S501，获取多个查询语句样本，每个查询语句样本对应的词序列样本中标注有至少一个需要丢弃的词。

其中，多个查询语句样本可以基于搜索引擎获得的查询语句得到。

其中，查询语句对应的词序列样本为该查询语句样本中包含的各个词构成词序列。

如前面所介绍的，词序列样本中标注的需要丢弃的词可以是由人工根据经验标定；也可以是，基于一种或者多种搜索引擎对该查询语句样本的搜索结果，标定出查询语句样本中需要丢弃的词。

如，将查询语句“编程语言是什么呢”输入到至少一款搜索引擎，那么可以得到该至少一款搜索引擎抓取到的搜索结果页。在此基础上，根据搜索结果页中排序靠前的结果标题和摘要中的标红词，确定该查询语句中需要丢弃词和不能丢弃的词。例如，搜索结果页中排序靠前的标题和摘要中都包含了“编程语言”，且“编程语言”被标红，那么该查询语句中“编程语言”是不能丢弃的词，而“是”、“什么”、“呢”则属于需要丢弃的词。

S502，针对每个查询语句样本对应的词序列样本，确定词序列样本中各个词的词向量。

确定词向量的过程与前面实施例相似，在此不再赘述。

S503，将词序列样本中各个词的词向量输入到待训练的第一预测模型，得到第一预测模型输出的该词序列样本中各个词分别属于丢弃词的第一预测概率。

S504，将词序列样本中各个词的词向量输入到待训练的第二预测模型，得到该第二预测模型输出的该词序列样本中各个词属于丢弃词的第二预测概率。

为了便于区分，将训练过程中第一预测模型输出的各个词属于丢弃词的概率称为第一预测概率，而将第二预测模型输出的各个词属于丢弃词的概率称为第二预测概率。

当然，此处是以第一预测模型和第二预测模型输出的各个词属于丢弃词的概率为例，如果第一预测模型和第二预测模型输出的为各个词属于丢弃词的可能性，或者是否属于丢弃词的分类结果等也同样适用于本实施例。

S505，针对词序列样本中每个词，按照集成学习算法中设定的第一预测概率的第一权重和第二预测概率的第二权重，对该词对应的第一预测概率和第二预测概率进行集成，得到该词属于丢弃词的第三预测概率。

可以理解的是，在首轮训练学习过程中，该第一预测概率的第一权重和第二预测概率的第二权重可以为预先设定的初始值，后续在基于集成学习训练过程中，会不断调整该第一权重和第二权重。

其中，基于该第一预测概率和第二预测概率确定第三预测概率的过程可以与前面确定综合可能性的过程相似，在此不再赘述。

S506，针对每个查询语句样本，根据该查询语句样本中各个词对应的第三预测概率，确定预测出的该查询语句样本中需要丢弃的词。

S507，基于各个查询语句样本中标注出的需要丢弃的词以及预测出的需要丢弃词的词，确定预测精准度，并检测预测精准度是否满足要求，如果否，则执行步骤S508；如果是，则执行步骤S511。

如，该步骤中的预测精准度可以是结合所有查询语句样本中各个词对应的预测结果和实际标注结果进行综合确定的，即，确定结合所有词的预测情况得到预测精准度。

又如，还可以是针对每个查询语句样本，结合查询语句样本中实际标注的需要丢弃的词和预测出的需要丢弃词的，确定针对该查询语句样本的预测结果是否准确，并最终统计出所有查询语句样本的预测精准度。

其中，步骤S506和S507仅仅是确定第一预测模型和第二预测模型集成后的结果对应的预测精准度的一种实现方式，在实际应用中，根据不同的集成学习算法或者不同场景，还可以有其他可能，本申请对此不加限制。

S508，基于各个查询语句样本中标注出的需要丢弃的词，并结合第一预测模型预测出的每个查询语句样本中各个词属于丢弃词的第一预测概率，确定第一预测模型的预测精准度。

S509，基于各个查询语句样本中标注出的需要丢弃的词，并结合第二预测模型预测出的每个查询语句样本中各个词属于丢弃词的第二预测概率，确定第二预测模型的预测精准度。

其中，第一预测模型和第二预测模型的预测精准度的计算方式可以参见步骤S507中的介绍，也可以采用其他方式确定预测精准度，本申请对此同样不加限制。

S510，结合第一预测模型的预测精准度和第二预测模型的精准度，调整第一预测模型输出的第一预测概率的第一权重以及第二预测模型输出的第二预测概率对应的第二权重，并调整第一预测模型和第二预测模型的内部参数，返回执行步骤S503和S504进行训练。

其中，针对不同的集成学习算法调整该第一权重和第二权重的具体调整方式也会有所差别，具体可以根据选择的集成学习算法进行相适应的调整，对此不加限制。

S511，训练完成，得到训练出的第一预测模型和第二预测模型，并将当前设定的第一权重作为第一预测模型输出的预测结果对应的权重，将当前设定的第二权重作为第二预测模型输出的预测结果对应的权重。

对应本申请的一种查询语句处理方法，本申请还提供了一种查询语句处理装置。

如图6所示，本申请的查询语句处理装置可以应用于前面提到的计算机设备，该装置可以包括：

语句分词单元601，用于对待处理的查询语句进行分词，得到该查询语句分词出的词序列，该词序列包括具有先后顺序的至少一个词，每个词包括至少一个字符；

第一预测单元602，用于利用第一预测模型确定该词序列中各个词分别属于丢弃词的第一可能性，其中，针对该词序列中每个词，该第一预测模型基于该词在该词序列中的上下文特征以及该词的特征，确定该词属于丢弃词的第一可能性；

第二预测单元603，用于利用第二预测模型确定该词序列中各个词分别属于丢弃词的第二可能性，该第二预测模型不同于该第一预测模型，该第一预测模型和第二预测为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的；该词序列样本中标注有需要丢弃的词；

集成预测单元604，用于针对该词序列中每个词，按照该第一预测模型输出的第一可能性对应的第一权重以及该第二预测模型输出的第二可能性对应的第二权重，并综合该词属于丢弃词的第一可能性和第二可能性，确定该词属于丢弃词的综合可能性，该第一权重和该第二权重为基于该集成学习算法训练该第一预测模型和第二预测模型的过程中确定的。

在一种可能的情况中，该第一预测单元中的第二预测模型针对该词序列中每个词，基于该词序列中各个词的特征，以及该第二预测模型中训练出的状态特征函数和转移矩阵，确定出该词属于丢弃词的第二可能性。

可选的，该第一预测模型由双向长短期预测模型和归一化模型构成；

该第二预测模型为条件随机场模型。

在又一种可能的情况中，该第一预测单元中的第一预测模型包括：丢词评分模型和归一化模型。

相应的，第一预测单元，包括：

初始评分子单元，用于通过该丢词评分模型确定该词序列中各个词分别属于丢弃词的评分，其中，针对该词序列中每个词，该丢词评分模型基于该词在该词序列中的上下文特征以及该词的特征，确定该词属于丢弃词的评分；

预测输出子单元，用于通过该归一化模型对该词序列中各个词对应的评分进行归一化处理，得到该词序列中各个词分别属于丢弃词的第一可能性。

在又一种可能的情况中，该装置还可以包括：

丢词处理单元，用于依据该词序列中各个词属于丢弃词的综合可能性，去除该查询语句中综合可能性不符合要求的词，以改写该查询语句。

在又一种可能的实现方式中，该装置还可以包括：

向量确定单元，用于在语句分词单元得到该查询语句分词出的词序列之后，确定该词序列中各个词的词向量；

该第一预测单元具体为，用于将该词序列中各个词的词向量输入到第一预测模型，得到该第一预测模型输出的该词序列中各个词分别属于丢弃词的第一可能性；

其中，针对该词序列中每个词，该第一预测模型基于该词序列中各个词的词向量，确定该词对应的上下文特征，依据该词的上下文特征以该词的词向量所表征的词特征，确定该词属于丢弃词的第一可能性；

第二预测单元，具体为，用于将该词序列中各个词的词向量输入到第二预测模型，得到该第二预测模型输出的该词序列中各个词分别属于丢弃词的第二可能性。

又一方面，本申请还提供了一种计算机设备。如，参见图7，其示出了本申请实施例的查询语句处理方法所适用的计算机设备的一种组成结构示意图。在图7中，该计算机设备700可以包括：处理器701、存储器702、通信接口703、输入单元704和显示器705和通信总线706。

处理器701、存储器702、通信接口703、输入单元704、显示器705、均通过通信总线706完成相互间的通信。

在本申请实施例中，该处理器701，可以为中央处理器、特定应用集成电路、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

该处理器可以调用存储器702中存储的程序，具体的，处理器可以执行以上实施例中计算机设备所执行的操作。

存储器702中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

对待处理的查询语句进行分词，得到该查询语句分词出的词序列，该词序列包括具有先后顺序的至少一个词，每个词包括至少一个字符；

利用第一预测模型确定该词序列中各个词分别属于丢弃词的第一可能性，其中，针对该词序列中每个词，该第一预测模型基于该词在该词序列中的上下文特征以及该词的特征，确定该词属于丢弃词的第一可能性；

利用第二预测模型确定该词序列中各个词分别属于丢弃词的第二可能性，该第二预测模型不同于该第一预测模型，该第一预测模型和第二预测为利用多个查询语句样本各自对应的词序列样本，并结合集成学习算法训练得到的；该词序列样本中标注有需要丢弃的词；

针对该词序列中每个词，按照该第一预测模型输出的第一可能性对应的第一权重以及该第二预测模型输出的第二可能性对应的第二权重，并综合该词属于丢弃词的第一可能性和第二可能性，确定该词属于丢弃词的综合可能性，该第一权重和该第二权重为基于该集成学习算法训练该第一预测模型和第二预测模型的过程中确定的。

在一种可能的实现方式中，该存储器702可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、以上所提到的程序，以及至少一个功能(比如声音播放功能、图像播放功能以及定位功能等)所需的应用程序等；存储数据区可存储根据计算机设备的使用过程中所创建的数据。

此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器等。

该通信接口703可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括输入单元704，该输入单元可以包括触摸感应单元、键盘等等。

该显示器705包括显示面板，如触摸显示面板等。

当然，图7所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图7所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的查询语句处理方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种查询语句处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对所述词序列中每个词，所述第二预测模型基于所述词序列中各个词的特征，以及所述第二预测模型中训练出的状态特征函数和转移矩阵，确定出所述词属于丢弃词的第二可能性。

3.根据权利要求1或2所述的方法，其特征在于，所述第一预测模型包括：丢词评分模型和归一化模型；

4.根据权利要求3所述的方法，其特征在于，所述第一预测模型由双向长短期预测模型和归一化模型构成；

所述第二预测模型为条件随机场模型。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，在所述得到所述查询语句分词出的词序列之后，还包括：

确定所述词序列中各个词的词向量；

7.一种查询语句处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二预测单元中的所述第一预测模型包括：丢词评分模型和归一化模型；

所述第一预测单元，包括：

初始评分子单元，用于通过所述第一预测模型确定所述词序列中各个词分别属于丢弃词的评分，其中，针对所述词序列中每个词，所述丢词评分模型基于所述词在所述词序列中的上下文特征以及所述词的特征，确定所述词属于丢弃词的评分；

预测输出子单元，用于通过所述归一化模型对所述词序列中各个词对应的评分进行归一化处理，得到所述词序列中各个词分别属于丢弃词的第一可能性。

9.一种计算机设备，其特征在于，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于实现如上权利要求1至6任一项所述查询语句处理方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至6任一项所述的查询语句处理方法。