CN102982025B

CN102982025B - 一种搜索需求识别方法及装置

Info

Publication number: CN102982025B
Application number: CN201110258835.3A
Authority: CN
Inventors: 蓝翔; 柴春光; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2016-05-11
Anticipated expiration: 2031-09-02
Also published as: CN102982025A

Abstract

本申请公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括：根据用户的历史行为日志，获取用户在执行翻译操作时所使用的关键词；对所获取的关键词的出现频率进行统计；接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求。应用本申请实施例所提供的方案，可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词，直接确定用户所输入的内容是否具有翻译需求并给出翻译结果，从而提高了翻译需求识别的应用范围，并且进一步方便了用户的使用。

Description

一种搜索需求识别方法及装置

技术领域

本申请涉及互联网应用技术领域，特别是涉及一种搜索需求识别方法及装置。

背景技术

搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的***。传统的搜索引擎，在接收到用户的提交的搜索请求(query)后，首先提取该query所包含的关键词，然后基于文本内容匹配操作，将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升，搜索需求识别已经成为搜索领域的一个研究热点。

所谓搜索需求识别，就是根据用户所提交的query，分析和预测用户的需求，确定用户的意图或感兴趣的领域，然后再向其提供相应的信息。例如，用户输入“从北京到上海”这样的query，则可以识别出该用户可能具有较强的地图查询需求或票务查询需求，这样就可以在展示搜索结果时，直接向用户提供地图或票务的相关内容，或者将地图或票务的相关内容排在搜索结果的前面，从而方便用户进一步浏览。

搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性，目前一种较为常用的方式是在不同的领域对用户的query进行分析，以实现更有针对性的搜索需求识别。

翻译需求是用户在搜索过程中一种较为常见的需求，根据现有技术，当用户输入“xxx翻译”或“xxx是什么意思”这样的query后，搜索引擎可以根据“翻译”或“是什么意思”等明显具有翻译需求的表述，较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中，用户的query中可能仅包括一个单词或短语，而不包括“翻译”或“是什么意思”等有翻译需求的表述，在这种情况下，现有的搜索引擎还不能够很好地确定用户当前是否具有翻译需求。

发明内容

为解决上述技术问题，本申请实施例提供种一种搜索需求识别方法及装置，以实现对用户翻译需求的更有效识别，技术方案如下：

本申请实施例提供一种搜索需求识别方法，包括：

根据用户的历史行为日志，获取用户在执行翻译操作时所使用的关键词；

对所获取的关键词的出现频率进行统计；

接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求。

根据本申请的一种实施方式，所述获取用户在执行翻译操作时所使用的关键词，包括：

如果用户在搜索引擎所给出的搜索结果中，选择了可提供翻译服务的搜索结果，则获取用户本次搜索所使用的关键词。

如果根据用户输入的搜索请求，可以明确判断出本次搜索具有翻译需求，则获取本次搜索具有翻译需求部分的关键词。

获取用户在翻译类产品中所输入的关键词。

根据本申请的一种实施方式，所述对所获取的关键词的出现频率进行统计，包括：

利用n-gram模型，对所获取的关键词中出现的每个n-gram单元的频率进行统计。

根据本申请的一种实施方式，所述接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，包括：

根据统计结果，获得搜索关键词中每个n-gram单元的频率；

判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。

根据本申请的一种实施方式，在对所获取的关键词的出现频率进行统计之前，还包括：

对所获取的关键词进行词形还原处理和/或去除停用词处理。

根据本申请的一种实施方式，在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前，还包括：

对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。

根据本申请的一种实施方式，在确定搜索请求具有翻译需求后，还包括对搜索请求对应的翻译结果进行展现，所述翻译结果的展现方法包括：

在搜索框中，展现搜索请求所对应的翻译结果；或

将搜索请求所对应的翻译结果以搜索建议的形式进行展现。

根据本申请的一种实施方式，在接收到搜索请求并生成搜索建议之后，还包括：

判断搜索建议的内容是否具有翻译需求。

本申请实施例还提供一种搜索需求识别装置，包括：

翻译关键词获取单元，用于根据用户的历史行为日志，获取用户在执行翻译操作时所使用的关键词；

翻译关键词统计单元，用于对所获取的关键词的出现频率进行统计；

翻译需求识别单元，用于接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求。

根据本申请的一种实施方式，所述翻译关键词获取单元，具体配置为：

用于在用户在搜索引擎所给出的搜索结果中，选择了可提供翻译服务的搜索结果的情况下，获取用户本次搜索所使用的关键词。

用于在根据用户输入的搜索请求，可以明确判断出本次搜索具有翻译需求的情况下，获取本次搜索具有翻译需求部分的关键词。

用于获取用户在翻译类产品中所输入的关键词。

根据本申请的一种实施方式，所述翻译关键词统计单元，具体配置为：

用于利用n-gram模型，对所获取的关键词中出现的每个n-gram单元的频率进行统计。

根据本申请的一种实施方式，所述翻译需求识别单元，具体配置为：

用于根据统计结果，获得搜索关键词中每个n-gram单元的频率；

根据本申请的一种实施方式，该装置还包括：

翻译关键词预处理单元，用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前，对所获取的关键词进行词形还原处理和/或去除停用词处理。

根据本申请的一种实施方式，该装置还包括：

搜索关键词预处理单元，用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前，对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。

根据本申请的一种实施方式，该装置还包括：

翻译结果展现单元，用于在所述翻译需求识别单元确定搜索请求具有翻译需求后，对搜索请求对应的翻译结果进行展现，所述翻译结果展现单元具体配置为：

用于在搜索框中，展现搜索请求所对应的翻译结果；或

将搜索请求所对应的翻译结果以搜索建议的形式进行展现。

根据本申请的一种实施方式，所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后，判断搜索建议的内容是否具有翻译需求。

本申请实施例所提供的方案，首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词，并对这些关键词的出现频率进行统计。在统计结果中，词的出现频率越高，说明用户对这些词的翻译需求越强。进而，如果用户在搜索过程中，使用的搜索关键词的出现频率达到一定要求，则可以判断该用户本次的搜索行为具有翻译需求。

应用本申请实施例所提供的方案，可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词，直接确定用户所输入的内容是否具有翻译需求并给出翻译结果，从而提高了翻译需求识别的应用范围，并且进一步方便了用户的使用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例搜索需求识别方法的流程图；

图2为本申请实施例所提供的一种翻译结果展现方式示意图；

图3为本申请实施例所提供的第二种翻译结果展现方式示意图；

图4为本申请实施例所提供的第三种翻译结果展现方式示意图；

图5为本申请实施例搜索需求识别装置的第一种结构示意图；

图6为本申请实施例搜索需求识别装置的第二种结构示意图；

图7为本申请实施例搜索需求识别装置的第三种结构示意图。

具体实施方式

在现有的搜索引擎中，当用户在搜索框输入一段文字，特别是输入外文时，用户可能是想得到包含有该文字内容的网页或文档，即普通搜索需求；也可能是想要查看与该文字内容相应的翻译或双语例句，即翻译需求。对于搜索引擎而言，如果可以正确判断出用户当前的需求，则可以构建更为符合用户需求的搜索结果向用户展现，以方便用户浏览。

本申请实施例提供一种搜索需求识别方法，该方法包括以下步骤：

对所获取的关键词的出现频率进行统计；

上述方法首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词，并对这些关键词的出现频率进行统计。在统计结果中，词的出现频率越高，说明用户对这些词的翻译需求越强。进而，如果用户在搜索过程中，使用的搜索关键词的出现频率达到一定要求，则可以判断该用户本次的搜索行为具有翻译需求。应用上述方案，可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词，直接确定用户所输入的内容是否具有翻译需求并给出翻译结果，从而提高了翻译需求识别的应用范围，并且进一步方便了用户的使用。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

图1所示，为本申请实施例一种搜索需求识别方法的流程图，该方法可以包括以下步骤：

S101，根据用户的历史行为日志，获取用户在执行翻译操作时所使用的关键词；

本申请实施例方案，是基于用户的行为的历史数据，对用户的曾经明确进行过翻译操作的关键词进行统计，作为识别翻译需求的依据。对于使用搜索引擎的每一名用户，***都会记录用户的各种行为，并将这些行为记录在用户日志中。用户常见的翻译操作可以包括以下几种：

1)用户在搜索引擎所给出的搜索结果中，选择了可提供翻译服务的搜索结果。

当用户在搜索引擎输入一段文字，搜索引擎返回相应的搜索结果，其中，有些搜索结果是可以提供翻译服务的，例如翻译类网站。如果用户进一步点选了这一类翻译结果，则对用户在搜索框中输入的文字进行记录。

例如用户在搜索引擎中输入了query：“patent”，然后用户在搜索结果页中点击了翻译类站点的链接(比如www.iciba.com，dict.youdao.com等)，此时可以认为用户输入的这个query是有翻译需求的，于是将该query：“patent”记录下来。而如果用户输入query后没有点击翻译类网站，比如用户输入“iphone”，然后点击了一个购物网站，则认为该query没有翻译需求，不对该query进行记录。

2)根据用户输入的搜索请求，可以明确判断出本次搜索具有翻译需求。

根据现有的翻译需求识别技术，当用户所输入的query中包含明显具有翻译需求的表述时，可以认为用户本次搜索具有翻译需求，此时将对query中有翻译需求的文字部分进行记录。

例如，用户在搜索引擎中输入了query：“patent翻译”，搜索引擎可以根据“翻译”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求，于是将query中明显具有翻译需求的表述部分去除，仅对剩下的部分“patent”进行记录。

再比如，用户在搜索引擎中输入了query：“patent是什么意思”，搜索引擎可以根据“是什么意思”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求，于是将query中的“是什么意思”去除，仅对剩下的部分“patent”进行记录。

3)用户使用搜索引擎之外的其他翻译类产品。

除了从搜索引擎获取用户进行翻译操作时所使用的关键词，还可以从其他的翻译类产品中，获取用户进行翻译操作时所使用的关键词。例如，对于百度***而言，除了提供基本的搜索引擎之外，同时还提供其他直接翻译服务的产品，如百度翻译(fanyi.***.com)、百度词典(dict.***.com)等等，而用户在这些产品中输入的文字显然是具有翻译需求的。因此，只要能够通过某种途径，获得用户在其他翻译类产品中输入的内容，就可以将这些内容记录下来，作为后续搜索引擎识别翻译需求的依据。

当用户进行上述几种翻译操作时，所输入的内容都可以认为具有明确的翻译需求，因此可以记录下来作为搜索引擎识别翻译需求的依据。以上提供的几种获取用户在具有明确翻译需求时所使用的关键词的方法，可以分别使用，也相互结合使用，当然，本领域技术人员也可以根据实际的应用需求，采用其他方式获取用户具有明确翻译需求时所使用的关键词，这些并不影响本申请实施例方案的实现。

此外，需要说明的是，本申请实施例方案是通过记录大量用户进行过翻译操作时所使用的关键词，作为识别翻译需求的依据。因此在实际应用中，所记录的内容并不需要对应到某一名具体的用户。

S102，对所获取的关键词的出现频率进行统计；

在步骤S101，获取了大量的关键词，在本步骤中，对这些关键词出现的频率进行统计。

在实际应用中，如果用户输入query的是单词或者短语，可以直接以单词或短语为单位，记录同样形式的单词或短语的出现次数。如果用户输入的query是句子，则可以先对句子进行分词，然后以每个分词结果为单位，统计出现的次数。当然，在实际应用中，除了出现次数，也可以用出现次数与总次数的比值或tf-idf值等其他形式来表示关键词的出现频率，本申请实施例对此并不需要进行限定。

在本申请的优选实施方案中，对这些关键词出现的次数进行统计之前，还可以先进行如下的预处理操作：

1)词形还原：

以英文为例，每个单词可能包含多种形态的变化，例如名词的单数/复数、动词的不同时态、形容词/副词变化等等，在实际处理过程中，可以将用户对同一单词不同形态的翻译需求归为一类处理，因此，可以先统一将单词的词形还原为原型(例如将runs、running、ran都还原为run)，再进行统计。也就是说，在搜索关键词中出现的任一种变形，在统计过程中都以原形进行处理。

其中，词形还原可以利用现有技术如PorterStemming实现，这里不再做详细说明。

2)去除停用词：

停用词(StopWords)大致可分为如下两类：一类是使用十分广泛，甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”，另一类是文本中出现频率很高，但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定的作用，如常见的“in”、“on”、“and”等等。

可见，对于停用词而言，也没有必要单独记录其出现的频率，因此可以先根据预置的停用词表，对步骤S101中获取的关键词进行去除停用词处理后，再进行统计。

根据实际的应用需求，上述两种优选的预处理方式可以分别使用，也可以结合使用，本申请实施例对此并不需要进行限制。

S103，接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求。

在步骤S101和S102，根据用户的历史行为，获得了若干具有翻译需求关键词，在本步骤中，当搜索引擎接收到新的搜索请求后，将根据搜索请求中搜索关键词的出现频率，确定该搜索请求是否具有翻译需求。

对于阈值的设置方法，可以根据经验直接设定，也可以按照前述方法选择一批含有翻译需求的query，并同时选择另一批不含有翻译需求的query，两者的数量相近为宜。然后分别进行打分，选择一个使两类数据能够明显区分的数值作为阈值。

最简单的一种方式，是判断当前输入的关键词是否存在于具有翻译需求关键词中，如果是，则确定当前搜索请求具有翻译需求，这种方式相当于将阈值设定为0。也可以将阈值设定为大于0的数值，也就是说，只有当前输入的关键词在统计结果中出现超过一定次数，才认为当前搜索请求具有翻译需求。当然，本领域技术人员可以理解，根据实际需求，也可以设置多个不同的阈值范围，从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求，可以给予不同的处理方式，例如，对于具有更强翻译需求强度的搜索请求，可以将翻译结果排在搜索结果中更为靠前的位置。

类似S102，在实际应用中，如果用户输入query的是单词或者短语，可以直接以单词或短语为单位，与统计结果进行对比；如果用户输入的query是句子，则可以先对句子进行分词，然后以每个分词结果为单位，与统计结果进行对比，特别地，在当前query存在多个分词的情况下，可以以每个分词相应的统计频率求和，并与预置的阈值进行对比，作为识别翻译需求的依据。

同样，如果在S102中，对关键词出现的次数进行统计之前，先做了词形还原或去除停用词的操作，则在本步骤中，也应在将当前query与统计结果进行对比之前，执行相应的词形还原或去除停用词操作。

在本申请的另一个实施例中，在S102还可以利用n-gram模型，对所获取的关键词中出现的每个n-gram的频率进行统计。

N-Gram是大词汇连续识别中常用的一种语言模型，这种模型可以将具有l个单词的句子拆分为l-n+1个n-gram单元。当n取1时，即相当于前面的基本分词操作。在实际应用中，可以根据S101中所得到的query的平均长度确定n的具体取值，如果平均长度较长(如10以上)，可以选择较大的n，如果平均长度较短，可以选择较小的n，一般情况下，N值取2，3，4效果较好。

下面以n＝2为例，对本申请实施例进行说明。

假设在步骤S101，获得具有翻译需求的query集如下：

A1)Theserveristemporarilyunabletoserviceyourrequestduetomaintenancedowntimeorcapacityproblems.Pleasetryagainlater.

B1)Thisisawrongnumber.Pleasecheckupandtryagainlater.

S102a，首先对两个句子进行分词，并做词形还原处理，得到结果如下：

A2)theserverbetemporarunabletoserviceyourrequestduetomaintenancedowntimeorcapacityproblempleasetryagainlat

B2)thisbeawrongnumber.pleasecheckupandtryagainlat

S102b，然后对两个句子进行去停用词处理，得到结果如下：

A3)servertemporarunableservicerequestduemaintenancedowntimecapacityproblempleasetryagainlat

B3)wrongnumberpleasecheckuptryagainlat

S102c，进行2-gram频率统计：

在以上两个句子中，出现的所有2-gram单元列举如下：

servertemporar

temporarunable

unableservice

servicerequest

requestdue

duemaintenance

maintenancedowntime

downtimecapacity

capacityproblem

problemplease

pleasetry

tryagain

againlat

wrongnumber

numberplease

pleasecheck

checkup

uptry

tryagain

againlat

对以上2-gram进行频次统计，并以频次作为2-gram的分值，得到分值查询词典：

在S103，假设用户新输入的query：“Thepageyouarelookingforistemporarilyunavailable.Pleasetryagainlater.”

a)首先按照S102a和S102b的处理方法进行分词、词形还原、去停用词，得到：

pagelooktemporarunavailablepleasetryagainlat

对于该句子，统计每个2-gram在分值词典中的值，并代入下面的公式求和：

Score = Σ_{i = 1}^{l - n + 1} f (G_{i})

其中，l是经词形还原、去停用词处理后的文本长度，此例中l＝8，Gi表示文本中中的第i个n-gram单元，f(Gi)是Gi在分值词典中的的分值，将分值代入上述公式，得到：

Score = Σ_{i = 1}^{8 - 2 + 1} f (G_{i})

= f (pagelook) + f (looktemporar) + f (temporarunavailable)

+ f (unavailableplease) + f (pleasetry) + f (tryagain) + f (againlat)

= 0 + 0 + 0 + 0 + 1 + 2 + 2

= 5

假设预设的阈值为3，而该query的Score＝5，则可以判定该query有翻译需求。

在本申请所提供的一种实施方式中，如果搜索引擎具有实时识别query并反应的功能，则根据上述方案确定搜索请求具有翻译需求后，可以直接在搜索页面对搜索请求对应的翻译结果进行展现，这样，用户就可以在不进入搜索结果页的情况下，得到所需的翻译结果。

图2所示为本申请实施例所提供的一种翻译结果展现方式，在该方式中，翻译结果是在搜索框中进行展现。

图3所示为本申请实施例所提供的另一种翻译结果展现方式，在该方式中，翻译结果是以搜索建议的形式进行展现。

在实际应用中，对于翻译结果的展现，可以使用不同字体、颜色等形式的文字，也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义，自动翻译结果等)，也可以包括其他相关内容，例如词性，用法，常用搭配，使用环境，例句，音标，朗读功能等等。

在本申请所提供的一种实施方式中，如果搜索引擎能针对用户当前输入实时生成搜索建议，则在***资源允许的前提下，搜索引擎还可以进一步判断这些搜索建议是否具有翻译需求。如果有，可以将搜索建议对应的翻译内容展现在搜索建议框中，如图4所示。

相应于上面的方法实施例，本申请还提供一种搜索需求识别装置，参见图5所示，包括：

翻译关键词获取单元501，用于根据用户的历史行为日志，获取用户在执行翻译操作时所使用的关键词；

本申请实施例方案，是基于用户的行为的历史数据，对用户的曾经明确进行过翻译操作的关键词进行统计，作为识别翻译需求的依据。对于使用搜索引擎的每一名用户，***都会记录用户的各种行为，并将这些行为记录在用户日志中。根据用户常见的翻译操作，可以将翻译关键词获取单元501具体配置为以下几种方式：

1)用于在用户在搜索引擎所给出的搜索结果中，选择了可提供翻译服务的搜索结果的情况下，获取用户本次搜索所使用的关键词。

2)用于在根据用户输入的搜索请求，可以明确判断出本次搜索具有翻译需求的情况下，获取本次搜索具有翻译需求部分的关键词。

3)用于获取用户在翻译类产品中所输入的关键词。

翻译关键词统计单元502，用于对所获取的关键词的出现频率进行统计；

翻译需求识别单元503，用于接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求。

对于阈值的设置方法，可以根据经验直接设定，也可以按照前述方法选择一批含有翻译需求的query，并同时选择一批不含有翻译需求的query，两者的数量相近为宜。然后分别进行打分，选择一个使两类数据能够明显区分的数值作为阈值。

参见图6所示，在本申请的一种实施方式中，上述装置还可以包括：翻译关键词预处理单元504和搜索关键词预处理单元505：

翻译关键词预处理单元504，用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前，对所获取的关键词进行词形还原处理和/或去除停用词处理。

搜索关键词预处理单元505，用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前，对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。

在本申请的一种实施方式中，

所述翻译关键词统计单元502，可以具体配置为：

所述翻译需求识别单元503，具体配置为：

参见图7所示，在本申请的一种实施方式中，上述装置还可以包括：

翻译结果展现单元506，用于在所述翻译需求识别单元确定搜索请求具有翻译需求后，对搜索请求对应的翻译结果进行展现。

如果搜索引擎具有实时识别query并反应的功能，则根据确定搜索请求具有翻译需求后，翻译结果展现单元506可以直接在搜索页面对搜索请求对应的翻译结果进行展现，这样，用户就可以在不进入搜索结果页的情况下，得到所需的翻译结果。

所述翻译结果展现单元具体可以配置为：

用于在搜索框中，展现搜索请求所对应的翻译结果；展现结果如图2所示。

所述翻译结果展现单元还可以配置为：

将搜索请求所对应的翻译结果以搜索建议的形式进行展现；展现结果如图3所示。

此外，在在本申请的另一种实施方式中，翻译需求识别单元501还可以用于在搜索引擎接收到搜索请求并生成搜索建议之后，判断搜索建议的内容是否具有翻译需求。如果识别出有翻译需求，则翻译结果展现单元507可以将搜索建议对应的翻译内容展现在搜索建议框中，如图4所示。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种搜索需求识别方法，其特征在于，包括：

对所获取的关键词的出现频率进行统计；

接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求；

所述接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，包括：

根据统计结果，获得搜索关键词中每个n-gram单元的频率；

2.根据权利要求1所述的方法，其特征在于，所述获取用户在执行翻译操作时所使用的关键词，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取用户在执行翻译操作时所使用的关键词，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取用户在执行翻译操作时所使用的关键词，包括：

获取用户在翻译类产品中所输入的关键词。

5.根据权利要求1所述的方法，其特征在于，所述对所获取的关键词的出现频率进行统计，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在对所获取的关键词的出现频率进行统计之前，还包括：

对所获取的关键词进行词形还原处理和/或去除停用词处理。

7.根据权利要求6所述的方法，其特征在于，在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前，还包括：

8.根据权利要求1-5任一项所述的方法，其特征在于，在确定搜索请求具有翻译需求后，还包括对搜索请求对应的翻译结果进行展现，所述翻译结果的展现方法包括：

在搜索框中，展现搜索请求所对应的翻译结果；或

将搜索请求所对应的翻译结果以搜索建议的形式进行展现。

9.根据权利要求1-5任一项所述的方法，其特征在于，在接收到搜索请求并生成搜索建议之后，还包括：

判断搜索建议的内容是否具有翻译需求。

10.一种搜索需求识别装置，其特征在于，包括：

翻译需求识别单元，用于接收到搜索请求后，根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值，如果是，则确定该搜索请求具有翻译需求；

所述翻译需求识别单元，具体配置为：

11.根据权利要求10所述的装置，其特征在于，所述翻译关键词获取单元，具体配置为：

12.根据权利要求10所述的装置，其特征在于，所述翻译关键词获取单元，具体配置为：

13.根据权利要求10所述的装置，其特征在于，所述翻译关键词获取单元，具体配置为：

用于获取用户在翻译类产品中所输入的关键词。

14.根据权利要求10所述的装置，其特征在于，所述翻译关键词统计单元，具体配置为：

15.根据权利要求10-14任一项所述的装置，其特征在于，该装置还包括：

16.根据权利要求15所述的装置，其特征在于，该装置还包括：

17.根据权利要求10-14任一项所述的装置，其特征在于，还包括：

用于在搜索框中，展现搜索请求所对应的翻译结果；或

将搜索请求所对应的翻译结果以搜索建议的形式进行展现。

18.根据权利要求10-14任一项所述的装置，其特征在于，所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后，判断搜索建议的内容是否具有翻译需求。