CN102982025B - 一种搜索需求识别方法及装置 - Google Patents

一种搜索需求识别方法及装置 Download PDF

Info

Publication number
CN102982025B
CN102982025B CN201110258835.3A CN201110258835A CN102982025B CN 102982025 B CN102982025 B CN 102982025B CN 201110258835 A CN201110258835 A CN 201110258835A CN 102982025 B CN102982025 B CN 102982025B
Authority
CN
China
Prior art keywords
keyword
user
search
searching request
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110258835.3A
Other languages
English (en)
Other versions
CN102982025A (zh
Inventor
蓝翔
柴春光
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110258835.3A priority Critical patent/CN102982025B/zh
Publication of CN102982025A publication Critical patent/CN102982025A/zh
Application granted granted Critical
Publication of CN102982025B publication Critical patent/CN102982025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括:根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。

Description

一种搜索需求识别方法及装置
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种搜索需求识别方法及装置。
背景技术
搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的***。传统的搜索引擎,在接收到用户的提交的搜索请求(query)后,首先提取该query所包含的关键词,然后基于文本内容匹配操作,将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升,搜索需求识别已经成为搜索领域的一个研究热点。
所谓搜索需求识别,就是根据用户所提交的query,分析和预测用户的需求,确定用户的意图或感兴趣的领域,然后再向其提供相应的信息。例如,用户输入“从北京到上海”这样的query,则可以识别出该用户可能具有较强的地图查询需求或票务查询需求,这样就可以在展示搜索结果时,直接向用户提供地图或票务的相关内容,或者将地图或票务的相关内容排在搜索结果的前面,从而方便用户进一步浏览。
搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性,目前一种较为常用的方式是在不同的领域对用户的query进行分析,以实现更有针对性的搜索需求识别。
翻译需求是用户在搜索过程中一种较为常见的需求,根据现有技术,当用户输入“xxx翻译”或“xxx是什么意思”这样的query后,搜索引擎可以根据“翻译”或“是什么意思”等明显具有翻译需求的表述,较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中,用户的query中可能仅包括一个单词或短语,而不包括“翻译”或“是什么意思”等有翻译需求的表述,在这种情况下,现有的搜索引擎还不能够很好地确定用户当前是否具有翻译需求。
发明内容
为解决上述技术问题,本申请实施例提供种一种搜索需求识别方法及装置,以实现对用户翻译需求的更有效识别,技术方案如下:
本申请实施例提供一种搜索需求识别方法,包括:
根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
对所获取的关键词的出现频率进行统计;
接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括:
如果用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果,则获取用户本次搜索所使用的关键词。
根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括:
如果根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求,则获取本次搜索具有翻译需求部分的关键词。
根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括:
获取用户在翻译类产品中所输入的关键词。
根据本申请的一种实施方式,所述对所获取的关键词的出现频率进行统计,包括:
利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
根据本申请的一种实施方式,所述接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,包括:
根据统计结果,获得搜索关键词中每个n-gram单元的频率;
判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
根据本申请的一种实施方式,在对所获取的关键词的出现频率进行统计之前,还包括:
对所获取的关键词进行词形还原处理和/或去除停用词处理。
根据本申请的一种实施方式,在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,还包括:
对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
根据本申请的一种实施方式,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
根据本申请的一种实施方式,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
本申请实施例还提供一种搜索需求识别装置,包括:
翻译关键词获取单元,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
翻译关键词统计单元,用于对所获取的关键词的出现频率进行统计;
翻译需求识别单元,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为:
用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。
根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为:
用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。
根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为:
用于获取用户在翻译类产品中所输入的关键词。
根据本申请的一种实施方式,所述翻译关键词统计单元,具体配置为:
用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
根据本申请的一种实施方式,所述翻译需求识别单元,具体配置为:
用于根据统计结果,获得搜索关键词中每个n-gram单元的频率;
判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
根据本申请的一种实施方式,该装置还包括:
翻译关键词预处理单元,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。
根据本申请的一种实施方式,该装置还包括:
搜索关键词预处理单元,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
根据本申请的一种实施方式,该装置还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
根据本申请的一种实施方式,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
本申请实施例所提供的方案,首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词,并对这些关键词的出现频率进行统计。在统计结果中,词的出现频率越高,说明用户对这些词的翻译需求越强。进而,如果用户在搜索过程中,使用的搜索关键词的出现频率达到一定要求,则可以判断该用户本次的搜索行为具有翻译需求。
应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例搜索需求识别方法的流程图;
图2为本申请实施例所提供的一种翻译结果展现方式示意图;
图3为本申请实施例所提供的第二种翻译结果展现方式示意图;
图4为本申请实施例所提供的第三种翻译结果展现方式示意图;
图5为本申请实施例搜索需求识别装置的第一种结构示意图;
图6为本申请实施例搜索需求识别装置的第二种结构示意图;
图7为本申请实施例搜索需求识别装置的第三种结构示意图。
具体实施方式
在现有的搜索引擎中,当用户在搜索框输入一段文字,特别是输入外文时,用户可能是想得到包含有该文字内容的网页或文档,即普通搜索需求;也可能是想要查看与该文字内容相应的翻译或双语例句,即翻译需求。对于搜索引擎而言,如果可以正确判断出用户当前的需求,则可以构建更为符合用户需求的搜索结果向用户展现,以方便用户浏览。
本申请实施例提供一种搜索需求识别方法,该方法包括以下步骤:
根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
对所获取的关键词的出现频率进行统计;
接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
上述方法首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词,并对这些关键词的出现频率进行统计。在统计结果中,词的出现频率越高,说明用户对这些词的翻译需求越强。进而,如果用户在搜索过程中,使用的搜索关键词的出现频率达到一定要求,则可以判断该用户本次的搜索行为具有翻译需求。应用上述方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示,为本申请实施例一种搜索需求识别方法的流程图,该方法可以包括以下步骤:
S101,根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
本申请实施例方案,是基于用户的行为的历史数据,对用户的曾经明确进行过翻译操作的关键词进行统计,作为识别翻译需求的依据。对于使用搜索引擎的每一名用户,***都会记录用户的各种行为,并将这些行为记录在用户日志中。用户常见的翻译操作可以包括以下几种:
1)用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果。
当用户在搜索引擎输入一段文字,搜索引擎返回相应的搜索结果,其中,有些搜索结果是可以提供翻译服务的,例如翻译类网站。如果用户进一步点选了这一类翻译结果,则对用户在搜索框中输入的文字进行记录。
例如用户在搜索引擎中输入了query:“patent”,然后用户在搜索结果页中点击了翻译类站点的链接(比如www.iciba.com,dict.youdao.com等),此时可以认为用户输入的这个query是有翻译需求的,于是将该query:“patent”记录下来。而如果用户输入query后没有点击翻译类网站,比如用户输入“iphone”,然后点击了一个购物网站,则认为该query没有翻译需求,不对该query进行记录。
2)根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求。
根据现有的翻译需求识别技术,当用户所输入的query中包含明显具有翻译需求的表述时,可以认为用户本次搜索具有翻译需求,此时将对query中有翻译需求的文字部分进行记录。
例如,用户在搜索引擎中输入了query:“patent翻译”,搜索引擎可以根据“翻译”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中明显具有翻译需求的表述部分去除,仅对剩下的部分“patent”进行记录。
再比如,用户在搜索引擎中输入了query:“patent是什么意思”,搜索引擎可以根据“是什么意思”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中的“是什么意思”去除,仅对剩下的部分“patent”进行记录。
3)用户使用搜索引擎之外的其他翻译类产品。
除了从搜索引擎获取用户进行翻译操作时所使用的关键词,还可以从其他的翻译类产品中,获取用户进行翻译操作时所使用的关键词。例如,对于百度***而言,除了提供基本的搜索引擎之外,同时还提供其他直接翻译服务的产品,如百度翻译(fanyi.***.com)、百度词典(dict.***.com)等等,而用户在这些产品中输入的文字显然是具有翻译需求的。因此,只要能够通过某种途径,获得用户在其他翻译类产品中输入的内容,就可以将这些内容记录下来,作为后续搜索引擎识别翻译需求的依据。
当用户进行上述几种翻译操作时,所输入的内容都可以认为具有明确的翻译需求,因此可以记录下来作为搜索引擎识别翻译需求的依据。以上提供的几种获取用户在具有明确翻译需求时所使用的关键词的方法,可以分别使用,也相互结合使用,当然,本领域技术人员也可以根据实际的应用需求,采用其他方式获取用户具有明确翻译需求时所使用的关键词,这些并不影响本申请实施例方案的实现。
此外,需要说明的是,本申请实施例方案是通过记录大量用户进行过翻译操作时所使用的关键词,作为识别翻译需求的依据。因此在实际应用中,所记录的内容并不需要对应到某一名具体的用户。
S102,对所获取的关键词的出现频率进行统计;
在步骤S101,获取了大量的关键词,在本步骤中,对这些关键词出现的频率进行统计。
在实际应用中,如果用户输入query的是单词或者短语,可以直接以单词或短语为单位,记录同样形式的单词或短语的出现次数。如果用户输入的query是句子,则可以先对句子进行分词,然后以每个分词结果为单位,统计出现的次数。当然,在实际应用中,除了出现次数,也可以用出现次数与总次数的比值或tf-idf值等其他形式来表示关键词的出现频率,本申请实施例对此并不需要进行限定。
在本申请的优选实施方案中,对这些关键词出现的次数进行统计之前,还可以先进行如下的预处理操作:
1)词形还原:
以英文为例,每个单词可能包含多种形态的变化,例如名词的单数/复数、动词的不同时态、形容词/副词变化等等,在实际处理过程中,可以将用户对同一单词不同形态的翻译需求归为一类处理,因此,可以先统一将单词的词形还原为原型(例如将runs、running、ran都还原为run),再进行统计。也就是说,在搜索关键词中出现的任一种变形,在统计过程中都以原形进行处理。
其中,词形还原可以利用现有技术如PorterStemming实现,这里不再做详细说明。
2)去除停用词:
停用词(StopWords)大致可分为如下两类:一类是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”,另一类是文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定的作用,如常见的“in”、“on”、“and”等等。
可见,对于停用词而言,也没有必要单独记录其出现的频率,因此可以先根据预置的停用词表,对步骤S101中获取的关键词进行去除停用词处理后,再进行统计。
根据实际的应用需求,上述两种优选的预处理方式可以分别使用,也可以结合使用,本申请实施例对此并不需要进行限制。
S103,接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
在步骤S101和S102,根据用户的历史行为,获得了若干具有翻译需求关键词,在本步骤中,当搜索引擎接收到新的搜索请求后,将根据搜索请求中搜索关键词的出现频率,确定该搜索请求是否具有翻译需求。
对于阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
最简单的一种方式,是判断当前输入的关键词是否存在于具有翻译需求关键词中,如果是,则确定当前搜索请求具有翻译需求,这种方式相当于将阈值设定为0。也可以将阈值设定为大于0的数值,也就是说,只有当前输入的关键词在统计结果中出现超过一定次数,才认为当前搜索请求具有翻译需求。当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
类似S102,在实际应用中,如果用户输入query的是单词或者短语,可以直接以单词或短语为单位,与统计结果进行对比;如果用户输入的query是句子,则可以先对句子进行分词,然后以每个分词结果为单位,与统计结果进行对比,特别地,在当前query存在多个分词的情况下,可以以每个分词相应的统计频率求和,并与预置的阈值进行对比,作为识别翻译需求的依据。
同样,如果在S102中,对关键词出现的次数进行统计之前,先做了词形还原或去除停用词的操作,则在本步骤中,也应在将当前query与统计结果进行对比之前,执行相应的词形还原或去除停用词操作。
在本申请的另一个实施例中,在S102还可以利用n-gram模型,对所获取的关键词中出现的每个n-gram的频率进行统计。
N-Gram是大词汇连续识别中常用的一种语言模型,这种模型可以将具有l个单词的句子拆分为l-n+1个n-gram单元。当n取1时,即相当于前面的基本分词操作。在实际应用中,可以根据S101中所得到的query的平均长度确定n的具体取值,如果平均长度较长(如10以上),可以选择较大的n,如果平均长度较短,可以选择较小的n,一般情况下,N值取2,3,4效果较好。
下面以n=2为例,对本申请实施例进行说明。
假设在步骤S101,获得具有翻译需求的query集如下:
A1)Theserveristemporarilyunabletoserviceyourrequestduetomaintenancedowntimeorcapacityproblems.Pleasetryagainlater.
B1)Thisisawrongnumber.Pleasecheckupandtryagainlater.
S102a,首先对两个句子进行分词,并做词形还原处理,得到结果如下:
A2)theserverbetemporarunabletoserviceyourrequestduetomaintenancedowntimeorcapacityproblempleasetryagainlat
B2)thisbeawrongnumber.pleasecheckupandtryagainlat
S102b,然后对两个句子进行去停用词处理,得到结果如下:
A3)servertemporarunableservicerequestduemaintenancedowntimecapacityproblempleasetryagainlat
B3)wrongnumberpleasecheckuptryagainlat
S102c,进行2-gram频率统计:
在以上两个句子中,出现的所有2-gram单元列举如下:
servertemporar
temporarunable
unableservice
servicerequest
requestdue
duemaintenance
maintenancedowntime
downtimecapacity
capacityproblem
problemplease
pleasetry
tryagain
againlat
wrongnumber
numberplease
pleasecheck
checkup
uptry
tryagain
againlat
对以上2-gram进行频次统计,并以频次作为2-gram的分值,得到分值查询词典:
在S103,假设用户新输入的query:“Thepageyouarelookingforistemporarilyunavailable.Pleasetryagainlater.”
a)首先按照S102a和S102b的处理方法进行分词、词形还原、去停用词,得到:
pagelooktemporarunavailablepleasetryagainlat
对于该句子,统计每个2-gram在分值词典中的值,并代入下面的公式求和:
Score = Σ i = 1 l - n + 1 f ( G i )
其中,l是经词形还原、去停用词处理后的文本长度,此例中l=8,Gi表示文本中中的第i个n-gram单元,f(Gi)是Gi在分值词典中的的分值,将分值代入上述公式,得到:
Score = Σ i = 1 8 - 2 + 1 f ( G i )
= f ( pagelook ) + f ( looktemporar ) + f ( temporarunavailable )
+ f ( unavailableplease ) + f ( pleasetry ) + f ( tryagain ) + f ( againlat )
= 0 + 0 + 0 + 0 + 1 + 2 + 2
= 5
假设预设的阈值为3,而该query的Score=5,则可以判定该query有翻译需求。
在本申请所提供的一种实施方式中,如果搜索引擎具有实时识别query并反应的功能,则根据上述方案确定搜索请求具有翻译需求后,可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
图2所示为本申请实施例所提供的一种翻译结果展现方式,在该方式中,翻译结果是在搜索框中进行展现。
图3所示为本申请实施例所提供的另一种翻译结果展现方式,在该方式中,翻译结果是以搜索建议的形式进行展现。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
在本申请所提供的一种实施方式中,如果搜索引擎能针对用户当前输入实时生成搜索建议,则在***资源允许的前提下,搜索引擎还可以进一步判断这些搜索建议是否具有翻译需求。如果有,可以将搜索建议对应的翻译内容展现在搜索建议框中,如图4所示。
相应于上面的方法实施例,本申请还提供一种搜索需求识别装置,参见图5所示,包括:
翻译关键词获取单元501,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
本申请实施例方案,是基于用户的行为的历史数据,对用户的曾经明确进行过翻译操作的关键词进行统计,作为识别翻译需求的依据。对于使用搜索引擎的每一名用户,***都会记录用户的各种行为,并将这些行为记录在用户日志中。根据用户常见的翻译操作,可以将翻译关键词获取单元501具体配置为以下几种方式:
1)用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。
当用户在搜索引擎输入一段文字,搜索引擎返回相应的搜索结果,其中,有些搜索结果是可以提供翻译服务的,例如翻译类网站。如果用户进一步点选了这一类翻译结果,则对用户在搜索框中输入的文字进行记录。
例如用户在搜索引擎中输入了query:“patent”,然后用户在搜索结果页中点击了翻译类站点的链接(比如www.iciba.com,dict.youdao.com等),此时可以认为用户输入的这个query是有翻译需求的,于是将该query:“patent”记录下来。而如果用户输入query后没有点击翻译类网站,比如用户输入“iphone”,然后点击了一个购物网站,则认为该query没有翻译需求,不对该query进行记录。
2)用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。
根据现有的翻译需求识别技术,当用户所输入的query中包含明显具有翻译需求的表述时,可以认为用户本次搜索具有翻译需求,此时将对query中有翻译需求的文字部分进行记录。
例如,用户在搜索引擎中输入了query:“patent翻译”,搜索引擎可以根据“翻译”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中明显具有翻译需求的表述部分去除,仅对剩下的部分“patent”进行记录。
再比如,用户在搜索引擎中输入了query:“patent是什么意思”,搜索引擎可以根据“是什么意思”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中的“是什么意思”去除,仅对剩下的部分“patent”进行记录。
3)用于获取用户在翻译类产品中所输入的关键词。
除了从搜索引擎获取用户进行翻译操作时所使用的关键词,还可以从其他的翻译类产品中,获取用户进行翻译操作时所使用的关键词。例如,对于百度***而言,除了提供基本的搜索引擎之外,同时还提供其他直接翻译服务的产品,如百度翻译(fanyi.***.com)、百度词典(dict.***.com)等等,而用户在这些产品中输入的文字显然是具有翻译需求的。因此,只要能够通过某种途径,获得用户在其他翻译类产品中输入的内容,就可以将这些内容记录下来,作为后续搜索引擎识别翻译需求的依据。
翻译关键词统计单元502,用于对所获取的关键词的出现频率进行统计;
在实际应用中,如果用户输入query的是单词或者短语,可以直接以单词或短语为单位,记录同样形式的单词或短语的出现次数。如果用户输入的query是句子,则可以先对句子进行分词,然后以每个分词结果为单位,统计出现的次数。当然,在实际应用中,除了出现次数,也可以用出现次数与总次数的比值或tf-idf值等其他形式来表示关键词的出现频率,本申请实施例对此并不需要进行限定。
翻译需求识别单元503,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
对于阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
最简单的一种方式,是判断当前输入的关键词是否存在于具有翻译需求关键词中,如果是,则确定当前搜索请求具有翻译需求,这种方式相当于将阈值设定为0。也可以将阈值设定为大于0的数值,也就是说,只有当前输入的关键词在统计结果中出现超过一定次数,才认为当前搜索请求具有翻译需求。当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
参见图6所示,在本申请的一种实施方式中,上述装置还可以包括:翻译关键词预处理单元504和搜索关键词预处理单元505:
翻译关键词预处理单元504,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。
搜索关键词预处理单元505,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
在本申请的一种实施方式中,
所述翻译关键词统计单元502,可以具体配置为:
用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
所述翻译需求识别单元503,具体配置为:
用于根据统计结果,获得搜索关键词中每个n-gram单元的频率;
判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
参见图7所示,在本申请的一种实施方式中,上述装置还可以包括:
翻译结果展现单元506,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现。
如果搜索引擎具有实时识别query并反应的功能,则根据确定搜索请求具有翻译需求后,翻译结果展现单元506可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
所述翻译结果展现单元具体可以配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;展现结果如图2所示。
所述翻译结果展现单元还可以配置为:
将搜索请求所对应的翻译结果以搜索建议的形式进行展现;展现结果如图3所示。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
此外,在在本申请的另一种实施方式中,翻译需求识别单元501还可以用于在搜索引擎接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。如果识别出有翻译需求,则翻译结果展现单元507可以将搜索建议对应的翻译内容展现在搜索建议框中,如图4所示。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (18)

1.一种搜索需求识别方法,其特征在于,包括:
根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
对所获取的关键词的出现频率进行统计;
接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求;
所述接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,包括:
根据统计结果,获得搜索关键词中每个n-gram单元的频率;
判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
2.根据权利要求1所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用的关键词,包括:
如果用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果,则获取用户本次搜索所使用的关键词。
3.根据权利要求1所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用的关键词,包括:
如果根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求,则获取本次搜索具有翻译需求部分的关键词。
4.根据权利要求1所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用的关键词,包括:
获取用户在翻译类产品中所输入的关键词。
5.根据权利要求1所述的方法,其特征在于,所述对所获取的关键词的出现频率进行统计,包括:
利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
6.根据权利要求1-5任一项所述的方法,其特征在于,在对所获取的关键词的出现频率进行统计之前,还包括:
对所获取的关键词进行词形还原处理和/或去除停用词处理。
7.根据权利要求6所述的方法,其特征在于,在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,还包括:
对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
8.根据权利要求1-5任一项所述的方法,其特征在于,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
9.根据权利要求1-5任一项所述的方法,其特征在于,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
10.一种搜索需求识别装置,其特征在于,包括:
翻译关键词获取单元,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;
翻译关键词统计单元,用于对所获取的关键词的出现频率进行统计;
翻译需求识别单元,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求;
所述翻译需求识别单元,具体配置为:
用于根据统计结果,获得搜索关键词中每个n-gram单元的频率;
判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
11.根据权利要求10所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为:
用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。
12.根据权利要求10所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为:
用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。
13.根据权利要求10所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为:
用于获取用户在翻译类产品中所输入的关键词。
14.根据权利要求10所述的装置,其特征在于,所述翻译关键词统计单元,具体配置为:
用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
15.根据权利要求10-14任一项所述的装置,其特征在于,该装置还包括:
翻译关键词预处理单元,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。
16.根据权利要求15所述的装置,其特征在于,该装置还包括:
搜索关键词预处理单元,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
17.根据权利要求10-14任一项所述的装置,其特征在于,还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
18.根据权利要求10-14任一项所述的装置,其特征在于,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
CN201110258835.3A 2011-09-02 2011-09-02 一种搜索需求识别方法及装置 Active CN102982025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110258835.3A CN102982025B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110258835.3A CN102982025B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Publications (2)

Publication Number Publication Date
CN102982025A CN102982025A (zh) 2013-03-20
CN102982025B true CN102982025B (zh) 2016-05-11

Family

ID=47856064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110258835.3A Active CN102982025B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Country Status (1)

Country Link
CN (1) CN102982025B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714054B (zh) * 2013-12-30 2017-03-15 北京百度网讯科技有限公司 翻译方法和翻译装置
CN103793364B (zh) * 2014-01-23 2018-09-07 北京百度网讯科技有限公司 对文本进行自动注音处理及显示的方法和装置
CN105677927B (zh) * 2016-03-31 2019-04-12 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
CN105956038A (zh) * 2016-04-26 2016-09-21 宇龙计算机通信科技(深圳)有限公司 通知消息的管理方法、管理装置和终端
CN110147479B (zh) * 2017-10-31 2021-06-11 北京搜狗科技发展有限公司 搜索行为的识别方法、装置以及用于搜索行为的识别装置
CN112068981B (zh) * 2020-09-24 2022-06-21 中国人民解放军国防科技大学 Linux操作***中基于知识库的故障扫描恢复方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761972A (zh) * 2003-03-18 2006-04-19 Nhn株式会社 判断因特网用户意图的方法以及利用该判断方法进行因特网广告的方法及其***
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和***
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
US7840538B2 (en) * 2006-12-20 2010-11-23 Yahoo! Inc. Discovering query intent from search queries and concept networks
US20090043749A1 (en) * 2007-08-06 2009-02-12 Garg Priyank S Extracting query intent from query logs
US7949672B2 (en) * 2008-06-10 2011-05-24 Yahoo! Inc. Identifying regional sensitive queries in web search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761972A (zh) * 2003-03-18 2006-04-19 Nhn株式会社 判断因特网用户意图的方法以及利用该判断方法进行因特网广告的方法及其***
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和***
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Also Published As

Publication number Publication date
CN102982025A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
Cimiano et al. Learning taxonomic relations from heterogeneous sources of evidence
Chauhan et al. A comprehensive analysis of adverb types for mining user sentiments on amazon product reviews
Lopez Barbosa et al. Evaluating hotels rating prediction based on sentiment analysis services
CN102982025B (zh) 一种搜索需求识别方法及装置
US9632998B2 (en) Claim polarity identification
Alrefai et al. Sentiment analysis for Arabic language: A brief survey of approaches and techniques
Gacitua et al. Relevance-based abstraction identification: technique and evaluation
Rana et al. Improving aspect extraction using aspect frequency and semantic similarity-based approach for aspect-based sentiment analysis
Bouarroudj et al. Named entity disambiguation in short texts over knowledge graphs
Amir et al. Sentence similarity based on semantic kernels for intelligent text retrieval
Shahi et al. Automatic analysis of corporate sustainability reports and intelligent scoring
Roth et al. Parsing software requirements with an ontology-based semantic role labeler
Tahir et al. Corpulyzer: A novel framework for building low resource language corpora
Saleiro et al. TexRep: A text mining framework for online reputation monitoring
Hoon et al. App reviews: Breaking the user and developer language barrier
Rajput Ontology based semantic annotation of Urdu language web documents
Balaguer et al. CatSent: a Catalan sentiment analysis website
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
EP3660699A1 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
JP2016103156A (ja) テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム
Afolabi et al. Semantic text mining using domain ontology
KR20070008994A (ko) 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
Xia et al. Research on feature-based opinion mining using topic maps
Krilavičius et al. News media analysis using focused crawl and natural language processing: case of Lithuanian news websites
Jena et al. Contextual opinion mining in online Odia text using support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant