CN106156098A - 一种纠错对挖掘方法及*** - Google Patents
一种纠错对挖掘方法及*** Download PDFInfo
- Publication number
- CN106156098A CN106156098A CN201510154183.7A CN201510154183A CN106156098A CN 106156098 A CN106156098 A CN 106156098A CN 201510154183 A CN201510154183 A CN 201510154183A CN 106156098 A CN106156098 A CN 106156098A
- Authority
- CN
- China
- Prior art keywords
- error correction
- search string
- search
- pair
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了纠错对挖掘方法,包括:获取预设时间段内输入的多个搜索串;依次从多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中目标搜索串的输入时间晚于选取的搜索串的输入时间;将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;聚合分析所有候选纠错对的统计特征,并根据统计特征计算出每个候选纠错对的置信度;将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。本发明还公开了一种纠错对挖掘***,采用本发明,解决了现有技术中纠错策略难以获知用户真正想要的输入的技术问题,大大提高了纠错策略对纠错结果的稳定性和可靠性。
Description
技术领域
本发明涉及计算机网络通信领域,尤其涉及一种纠错对挖掘方法及纠错对挖掘***。
背景技术
随着互联网的普及,互联网的信息资源成指数增长,搜索引擎为用户提供了一个从海量的信息资源中获取需要的资源的重要途径,然而,对于大多数用户来说,在进行初始搜索时,输入的搜索词(或搜索串)是比较模糊的,有时搜索词还存在一定的错误,用户无法用较为准确的搜索词来搜索自己所需要的信息,只有通过不断地筛选和提炼才可能获得最终的搜索词,现有搜索引擎在检测到用户的搜索词时,可以根据用户输入的搜索词向用户提供纠正后的搜索词。
目前搜索引擎的纠错基本都基于噪声信道模型,涵盖中文、英文、统一资源***(Uniform Resoure Locator,URL)等多种类型,这些纠错类型也覆盖了大部分的用户输入场景,基于编辑距离、拼音编辑距离、长短、热度等等特征产生的一系列候选纠错串,供搜索引擎检索使用;对于覆盖不了的场景,可以采用人工编辑词典的方式进行干预。
然而对于搜索引擎的纠错,如果用户输入的输入A导致零结果或者结果数很少,可能会直接使用纠错串B做检索,对于纠错***给出的纠错结果B,到底是否是用户真正想要的输入,当前纠错策略难以获知,从而影响了纠错结果的稳定性和可靠性;如何提高纠错策略对纠错结果的稳定性和可靠性,是人们非常关注的热点问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种纠错对挖掘方法及纠错对挖掘***,可大大提高纠错策略对纠错结果的稳定性和可靠性。
为了解决上述技术问题,本发明实施例第一方面公开了一种纠错对挖掘方法,包括:
获取预设时间段内输入的多个搜索串;
依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
结合第一方面,在第一种可能的实现方式中,所述相似度计算包括:
通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
结合第一方面,在第二种可能的实现方式中,所述纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的点击率差距;
从被纠错对象到纠错后对象的转化点击率。
结合第一方面,在第三种可能的实现方式中,所述获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;
其中,每个客户端对应有唯一标识;所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,还包括:
将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
并当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
本发明实施例第二方面公开了一种纠错对挖掘***,包括:
获取模块,用于获取预设时间段内输入的多个搜索串;
相似度计算模块,用于依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
候选设置模块,用于将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
置信度计算模块,用于聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
最终确定模块,用于将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
结合第二方面,在第一种可能的实现方式中,所述相似度计算模块通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
结合第二方面,在第二种可能的实现方式中,所述纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的点击率差距;
从被纠错对象到纠错后对象的转化点击率。
结合第二方面,在第三种可能的实现方式中,所述获取模块获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;
其中,每个客户端对应有唯一标识;所述相似度计算模块计算的所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,在第四种可能的实现方式中,还包括:
扩展确定模块,用于在所述置信度计算模块聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
扩展修改模块,用于当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
本发明实施例第三方面公开了一种计算机存储介质,所述计算机存储介质存储有程序,所述程序执行时包括本发明实施例第一方面、或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,或者第一方面的第四种可能的实现方式,或者第一方面的第五种可能的实现方式中的纠错对挖掘方法的全部步骤。
实施本发明实施例,根据预设时间段内输入的多个搜索串,依次从多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,并聚合分析得出的候选纠错对的统计特征,根据统计特征计算出每个候选纠错对的置信度,得到最终纠错对,解决了现有技术中纠错策略难以获知用户真正想要的输入的技术问题,大大提高了纠错策略对纠错结果的稳定性和可靠性;另外通过聚合分析从被纠错对象到纠错后对象的转化次数、搜索次数差距、点击次数差距或转化点击率等特征,进一步增大了纠错覆盖的输入场景,解决了现有技术的纠错策略无法覆盖或者覆盖代价大的一些纠错对的技术问题,大大弥补了现有技术纠错策略的不足。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的纠错对挖掘方法的流程示意图;
图2是本发明实施例提供的多个搜索串的示意图;
图3是本发明提供的纠错对挖掘方法的另一实施例的流程示意图;
图4是本发明提供的纠错对挖掘方法的另一实施例的原理示意图;
图5是本发明实施例提供的纠错对挖掘***的结构示意图;
图6是本发明实施例提供的纠错对挖掘***的结构示意图;
图7是本发明提供的纠错对挖掘***的另一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图4来详细说明本发明纠错对挖掘方法的具体实施方式,说明如何生成纠错对:
图1示出了本发明实施例提供的纠错对挖掘方法的流程示意图,包括:
步骤S100:获取预设时间段内输入的多个搜索串;
具体地,***可以基于客户端的session(时域)获取到预设时间段内输入的多个搜索串,该session可以指客户端在预设的一段时间内(如30分钟),在搜索引擎上连续的一系列操作集合。例如:客户端在搜索框内输入“多啦爱梦”,发现搜索结果里面没有想要的动画,意识到自己输入错误,修改为“哆啦A梦”重新检索,然后点击了首条视频搜索结果进行观看,则客户端从输入“多啦爱梦”,修改检索串为“哆啦A梦”,然后点击首条结果,整个一系列操作构成了用户的一个session;通常来说这一系列操作被搜索引擎以日志的形式记录下来,其中“多啦爱梦”和“哆啦A梦”为输入的两个搜索串。
需要说明的是,本发明实施例中客户端可以为用户登录后的账号或标识,即每个客户端对应有唯一标识或账号,因此每个客户端也可以看作一个用户。
步骤S102:依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
具体地,如图2示出的本发明实施例提供的多个搜索串的示意图,展示了某客户端的一个session,按时间顺序依次输入了搜索串1到搜索串5,即步骤S100中获取到了搜索串1到搜索串5这5个搜索串,那么可以依次从该5个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,例如选取搜索串1,那么搜索串2至搜索串5的输入时间都晚于选取的搜索串1,因此搜索串2至搜索串5都是目标搜索串,可以选取其中的多个或者全部来进行相似度计算,优选地本发明实施例可以选取全部目标搜索串(即搜索串2至搜索串5),从而将搜索串1逐一与搜索串2至5进行相似度计算;
需要说明的是,本发明可以依次从获取的多个搜索串中选取一部分或者全部搜索串来进行相似度计算,即当上述选取的搜索串1逐一与搜索串2至5进行相似度计算完毕后,可以再选取搜索串2来进行相似度计算,并以此类推,完成所有选取的搜索串的相似度计算。
还还需要说明的是,本发明实施例可以通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来计算两个搜索串之间的相似度。即可以同时通过中文编辑距离、拼音编辑距离和字形相似度来进行权衡,计算得出两个搜索串之间的相似度,或者可以结合中文编辑距离和自行相似度来计算得出两个搜索串之间的相似度,又或者可以单独使用字形相似度来计算得出两个搜索串之间的相似度,等等。本发明实施例进行相似度计算包括不限于上述实现方式,还可以通过搜索串的长度、热度等信息来计算两个搜索串之间的相似度,只要可以实现计算出两个搜索串的相似度即可。
步骤S104:将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
具体地,可以预先设置一个相似度的阈值作为第一预设阈值,表明当计算出的相似度达到该第一预设阈值,表明这两个搜索串存在一定的相似性,可以产生纠错对,从而将该两个搜索串设置为候选纠错对;否则,计算的两个搜索串不能组合成候选纠错对。
可理解的是,本发明实施例中的纠错对(即包括候选纠错和最终纠错对)可以包括被纠错对象和纠错后对象。
步骤S106:聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
具体地,步骤S100中获取的预设时间段内输入的多个搜索串可以包括一个或多个客户端在预设时间段内输入的多个搜索串,其中,每个客户端对应有唯一标识;那么步骤S102中的目标搜索串和选取的搜索串同属于一个客户端输入的搜索串,即每次进行相似度计算的两个搜索串都为同一个客户端在一个session中输入的。而当前步骤S106中聚合分析的所有候选纠错对可以包括多个不同客户端下的候选纠错对,因此可以累积不同客户端下具有相同的候选纠错对的统计特征,然后根据该统计特征计算出每个候选纠错对的置信度。本发明实施例中置信度表明了每个候选纠错对的被纠错对象转化到纠错后对象的真实性合理性的程度,该置信度的数值范围可以设为0到1,或者其它数值范围,只要能表明被纠错对象转化到纠错后对象的真实性合理性的程度即可。
进一步地,本发明实施例中候选纠错对的统计特征包括以下至少一种:从被纠错对象到纠错后对象的转化次数;从被纠错对象到纠错后对象的搜索次数差距;从被纠错对象到纠错后对象的点击次数差距;从被纠错对象到纠错后对象的点击率差距;从被纠错对象到纠错后对象的转化点击率。其中,本发明实施例中的点击率可以为搜索串的点击次数除以搜索次数得出,比如别纠错对象的点击率为被纠错对象的点击次数除以该被纠错对象的搜索次数得出,纠错后对象的点击率为纠错后对象的点击次数除以该纠错后对象的搜索次数得出;本发明实施例中的转化点击率可以为被纠错对象到纠错后对象的点击数除以被纠错对象到纠错后对象的转化次数得出。
需要说明的是,本发明实施例中候选纠错对的统计特征包括上述至少一种特征的同时还可以包括中文编辑距离、拼音编辑距离或字形相似度等特征。
步骤S108:将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
具体地,可以预先设置一个置信度的阈值作为第二预设阈值,表明当计算出的置信度达到该第二预设阈值,表明该候选纠错对中的被纠错对象转化到纠错后对象存在一定的可信性,从而将该候选纠错对确定为最终纠错对;否则,该候选纠错对不作为最终纠错对。
可理解的是,本发明实施例中的最终纠错对用于提供给搜索引擎等纠错***进行纠错,当检测到客户端输入的搜索query为最终纠错对的被纠错对象时,将提示用户是否想输入该被纠错对象对应的纠错后对象,或者直接将该被纠错对象修改为对应的纠错后对象。
实施本发明实施例,根据预设时间段内输入的多个搜索串,依次从多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,并聚合分析得出的候选纠错对的统计特征,根据统计特征计算出每个候选纠错对的置信度,得到最终纠错对,解决了现有技术中纠错策略难以获知用户真正想要的输入的技术问题,大大提高了纠错策略对纠错结果的稳定性和可靠性。
进一步地,如图3示出的本发明提供的纠错对挖掘方法的另一实施例的流程示意图,包括:
步骤S300:获取预设时间段内输入的多个搜索串;
步骤S302:依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
步骤S304:将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
步骤S306:聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
步骤S308:将置信度达到第二预设阈值的候选纠错对确定为最终纠错对;
具体地,步骤S300至S308可以对应参考上述图1实施例中的步骤S100至S108,这里不再赘述。
步骤S310:将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
具体地,本发明实施例还可以预先设置一个置信度的阈值作为第三预设阈值,表明当计算出的置信度达到该第三预设阈值,表明该候选纠错对中的被纠错对象转化到纠错后对象存在很好的可信性,从而将该候选纠错对确定为扩展纠错对;否则,该候选纠错对不作为扩展纠错对。
可理解的是,步骤S310在步骤S306之后执行,步骤S310与步骤S308的执行顺序不作限定,步骤S310可以与步骤S308同时执行,或先于步骤S308执行,或后于步骤S308执行。本发明实施例中的第三预设阈值可以高于第二预设阈值,以置信度的数值范围从0到1为例,第二预设阈值可以设置0.75,第三预设阈值可以设置为0.95或1等。
步骤S312:当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
具体地,当搜索引擎等纠错***检测到客户端输入的搜索串中包含该扩展纠错对的被纠错对象时,那么可以将该搜索串中只包含该被纠错对象的那部分进行修改,修改为该扩展纠错对的纠错后对象,该搜索串中其它部分不作修改,例如扩展纠错对(甑环传,甄嬛传,1.0),表明被纠错对象“甑环传”转化到纠错后对象“甄嬛传”的置信度为1,那么当检测到客户端输入的“甑环传国语下载”中包含了被纠错对象“甑环传”,那么可以进行扩展纠错,修改为“甄嬛传国语下载”。
再进一步地,下面通过图4示出的本发明提供的纠错对挖掘方法的另一实施例的原理示意图,以置信度的数值范围从0到1为例,再详细地说明本发明纠错对挖掘方法中如何聚合分析所有候选纠错对的统计特征,并根据该统计特征计算出每个候选纠错对的置信度:
图4中Ui代表第i个客户端,Sn代表第n个的搜索,Cn代表针对第n个搜索进行的点击,tj代表时间序列。例如U1客户端在t1时刻输入了搜索串A,在t2时刻将搜索串A修改为搜索串B,在t3时刻针对第S2的搜索(即搜索串B)进行了点击,在t4时刻将搜索串B修改为搜索串C;U2客户端在t5时刻输入了搜索串A,在t6时刻将搜索串A修改为搜索串B,在t7时刻针对第S5的搜索(即搜索串B)进行了点击,在t8时刻再次针对第S5的搜索(即搜索串B)进行了点击;可理解的是,图4展示的都是属于同一个session中的多个搜索串以及操作信息。
聚合所有候选纠错对的统计特征,得出(A,1,0,B,1,1)、(A,1,0,C,1,1)、(A,1,0,B,1,2)等的特征;其中(A,1,0,B,1,1)特征是客户端U1对应的特征,表明搜索串A转化到搜索串B的过程中,搜索串A被输入1次,没有被点击,搜索串B被输入1次,被点击1次;(A,1,0,B,1,2)特征是客户端U2对应的特征,表明搜索串A转化到搜索串B的过程中,搜索串A被输入1次,没有被点击,搜索串B被输入1次,被点击2次;当然还能得出搜索串B转化为搜索串C的特征等等,这里不再赘述。
分析得出的所有候选纠错对(包括客户端U1和客户端U2等等中的候选纠错对)的统计特征,得出(A,2,0,0.0,B,2,3,1.5,2,1.5,C,1,0,0.0,1,0.0)等信息,该信息表明针对当前客户端U1和客户端U2,搜索串A被输入2次,没有被点击,点击率为0.0;搜索串B被输入2次,被点击3次,点击率1.5,被转化2次,转化点击率1.5(即由搜索串A到搜索串B的转化点击数3除以搜索串A到搜索串B的转化次数2得出);搜索串C被输入1次,被点击0次,点击率0.0,被转化1次,转化点击率0.0。并最终计算得到(A,B,0.65)(A,C,0.15)等置信度信息,其中(A,B,0.65)表明搜索串A转化为搜索串B的置信度为0.65,(A,C,0.15)表明搜索串A转化为搜索串C的置信度为0.15,等等。可理解的是,置信度0.65或0.15可以通过预设的置信度公式计算得出。
若第二预设阈值为0.6,那么被纠错对象A和纠错后对象B构成的候选纠错对被确定为最终纠错对,而被纠错对象A和纠错后对象C构成的候选纠错对不被确定为最终纠错对。
实施本发明实施例,根据预设时间段内输入的多个搜索串,依次从多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,并聚合分析得出的候选纠错对的统计特征,根据统计特征计算出每个候选纠错对的置信度,得到最终纠错对,解决了现有技术中纠错策略难以获知用户真正想要的输入的技术问题,大大提高了纠错策略对纠错结果的稳定性和可靠性;另外通过聚合分析从被纠错对象到纠错后对象的转化次数、搜索次数差距、点击次数差距或转化点击率等特征,进一步增大了纠错覆盖的输入场景,解决了现有技术的纠错策略无法覆盖或者覆盖代价大的一些纠错对的技术问题,大大弥补了现有技术纠错策略的不足。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种无线定位***,如图5示出的本发明实施例提供的纠错对挖掘***的结构示意图,纠错对挖掘***50可以包括:获取模块500、相似度计算模块502、候选设置模块504、置信度计算模块506和最终确定模块508,其中
获取模块500用于获取预设时间段内输入的多个搜索串;
相似度计算模块502用于依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
候选设置模块504用于将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
置信度计算模块506用于聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
最终确定模块508用于将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
具体地,相似度计算模块502通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
进一步地,本发明实施例中的纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的转化点击率。
再进一步地,获取模块500获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;其中,每个客户端对应有唯一标识;相似度计算模块502计算的所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
再进一步地,如图6示出的本发明实施例提供的纠错对挖掘***的结构示意图,纠错对挖掘***50包括获取模块500、相似度计算模块502、候选设置模块504、置信度计算模块506和最终确定模块508外,还可以包括扩展确定模块5010和扩展修改模块5012,其中
扩展确定模块5010用于在置信度计算模块506聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
扩展修改模块5012用于当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
请参阅图7,图7是本发明提供的纠错对挖掘***的另一实施例的结构示意图。其中,如图7所示,纠错对挖掘***70可以包括:至少一个处理器701,例如CPU,至少一个网络接口704,用户接口703,存储器705,至少一个通信总线702以及显示屏706。其中,通信总线702用于实现这些组件之间的连接通信。其中,用户接口703可以包括键盘或鼠标等等。网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器705可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器,存储器705包括本发明实施例中的flash。存储器705可选的还可以是至少一个位于远离前述处理器701的存储***。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作***、网络通信模块、用户接口模块以及纠错对挖掘程序。
处理器701可以用于调用存储器705中存储的数据处理程序,并执行以下操作:
获取预设时间段内输入的多个搜索串;
依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
具体地,处理器701进行相似度计算包括:
通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
进一步地,所述纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的转化点击率。
再进一步地,处理器701获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;
其中,每个客户端对应有唯一标识;所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
再进一步地,处理器701聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,还可以执行:
将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
并当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
需要说明的是,本发明实施例中的纠错对挖掘***50或纠错对挖掘***70的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
综上所述,根据预设时间段内输入的多个搜索串,依次从多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,并聚合分析得出的候选纠错对的统计特征,根据统计特征计算出每个候选纠错对的置信度,得到最终纠错对,解决了现有技术中纠错策略难以获知用户真正想要的输入的技术问题,大大提高了纠错策略对纠错结果的稳定性和可靠性;另外通过聚合分析从被纠错对象到纠错后对象的转化次数、搜索次数差距、点击次数差距或转化点击率等特征,进一步增大了纠错覆盖的输入场景,解决了现有技术的纠错策略无法覆盖或者覆盖代价大的一些纠错对的技术问题,大大弥补了现有技术纠错策略的不足。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种纠错对挖掘方法,其特征在于,包括:
获取预设时间段内输入的多个搜索串;
依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
2.如权利要求1所述的方法,其特征在于,所述相似度计算包括:
通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
3.如权利要求1所述的方法,其特征在于,所述纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的点击率差距;
从被纠错对象到纠错后对象的转化点击率。
4.如权利要求1所述的方法,其特征在于,所述获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;
其中,每个客户端对应有唯一标识;所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
5.如权利要求1-4任一项所述的方法,其特征在于,所述聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,还包括:
将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
并当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
6.一种纠错对挖掘***,其特征在于,包括:
获取模块,用于获取预设时间段内输入的多个搜索串;
相似度计算模块,用于依次从所述多个搜索串中选取一个搜索串与多个目标搜索串逐一进行相似度计算,其中所述目标搜索串的输入时间晚于所述选取的搜索串的输入时间;
候选设置模块,用于将相似度达到第一预设阈值的两个搜索串设置为候选纠错对;
置信度计算模块,用于聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度;
最终确定模块,用于将置信度达到第二预设阈值的候选纠错对确定为最终纠错对。
7.如权利要求6所述的***,其特征在于,所述相似度计算模块通过中文编辑距离、拼音编辑距离、字形相似度中的至少一种方式来进行两个搜索串之间的相似度计算。
8.如权利要求6所述的***,其特征在于,所述纠错对包括被纠错对象和纠错后对象;所述统计特征包括以下至少一种:
从被纠错对象到纠错后对象的转化次数;
从被纠错对象到纠错后对象的搜索次数差距;
从被纠错对象到纠错后对象的点击次数差距;
从被纠错对象到纠错后对象的点击率差距;
从被纠错对象到纠错后对象的转化点击率。
9.如权利要求6所述的***,其特征在于,所述获取模块获取的预设时间段内输入的多个搜索串包括:一个或多个客户端在所述预设时间段内输入的多个搜索串;
其中,每个客户端对应有唯一标识;所述相似度计算模块计算的所述目标搜索串和所述选取的搜索串同属于一个客户端输入的搜索串。
10.如权利要求6-9任一项所述的***,其特征在于,还包括:
扩展确定模块,用于在所述置信度计算模块聚合分析所有候选纠错对的统计特征,并根据所述统计特征计算出每个候选纠错对的置信度之后,将置信度达到第三预设阈值的候选纠错对确定为扩展纠错对;
扩展修改模块,用于当检测到输入的搜索串中包含所述扩展纠错对的被纠错对象时,则将所述搜索串中包含的所述被纠错对象的部分修改为所述扩展纠错对的纠错后对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510154183.7A CN106156098B (zh) | 2015-04-02 | 2015-04-02 | 一种纠错对挖掘方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510154183.7A CN106156098B (zh) | 2015-04-02 | 2015-04-02 | 一种纠错对挖掘方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156098A true CN106156098A (zh) | 2016-11-23 |
CN106156098B CN106156098B (zh) | 2020-08-14 |
Family
ID=57337382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510154183.7A Active CN106156098B (zh) | 2015-04-02 | 2015-04-02 | 一种纠错对挖掘方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156098B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874246A (zh) * | 2016-12-26 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种用于对电子文本进行纠错的方法和装置 |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
CN108376129A (zh) * | 2018-01-24 | 2018-08-07 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
CN110866188A (zh) * | 2019-11-14 | 2020-03-06 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112131461A (zh) * | 2020-09-09 | 2020-12-25 | 重庆易宠科技有限公司 | 一种商品搜索方法、***、终端及计算机可读存储介质 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778979B2 (en) * | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和*** |
US20120323877A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Enriched Search Features Based In Part On Discovering People-Centric Search Intent |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及*** |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103389915A (zh) * | 2013-07-23 | 2013-11-13 | 百度在线网络技术(北京)有限公司 | 输入纠错方法、输入纠错装置、输入纠错服务器和*** |
CN103942223A (zh) * | 2013-01-23 | 2014-07-23 | 北京百度网讯科技有限公司 | 一种对语言模型进行在线纠错的方法及*** |
-
2015
- 2015-04-02 CN CN201510154183.7A patent/CN106156098B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778979B2 (en) * | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和*** |
US20120323877A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Enriched Search Features Based In Part On Discovering People-Centric Search Intent |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及*** |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103942223A (zh) * | 2013-01-23 | 2014-07-23 | 北京百度网讯科技有限公司 | 一种对语言模型进行在线纠错的方法及*** |
CN103389915A (zh) * | 2013-07-23 | 2013-11-13 | 百度在线网络技术(北京)有限公司 | 输入纠错方法、输入纠错装置、输入纠错服务器和*** |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874246A (zh) * | 2016-12-26 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种用于对电子文本进行纠错的方法和装置 |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
CN108376129A (zh) * | 2018-01-24 | 2018-08-07 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
CN108376129B (zh) * | 2018-01-24 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
CN110866188A (zh) * | 2019-11-14 | 2020-03-06 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112131461A (zh) * | 2020-09-09 | 2020-12-25 | 重庆易宠科技有限公司 | 一种商品搜索方法、***、终端及计算机可读存储介质 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
CN116932922B (zh) * | 2023-09-19 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106156098B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156098A (zh) | 一种纠错对挖掘方法及*** | |
CN103064956B (zh) | 用于搜索电子内容的方法、计算***和计算机可读介质 | |
US8856100B2 (en) | Displaying browse sequence with search results | |
CN101231661B (zh) | 对象级知识挖掘的方法和*** | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN103760991B (zh) | 一种实体输入方法和装置 | |
US20090089754A1 (en) | Detecting Plagiarism In Computer Source Code | |
Williams et al. | Incremental hacker forum exploit collection and classification for proactive cyber threat intelligence: An exploratory study | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN103678321A (zh) | 页面元素确定方法及设备、用户行为路径确定方法及装置 | |
CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
CN103455524A (zh) | 展现和获取词条信息的方法和装置 | |
CN105868166A (zh) | 一种正则表达式的生成方法及*** | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN105868290A (zh) | 一种展现搜索结果的方法及装置 | |
CN103116635A (zh) | 面向领域的暗网资源采集方法和*** | |
CN107862039A (zh) | 网页数据获取方法、***和数据匹配推送方法 | |
CN106874502A (zh) | 一种视频搜索的方法、装置及终端 | |
CN108768982A (zh) | 钓鱼网站的检测方法、装置、计算设备及计算机存储介质 | |
Thakur et al. | Detection of malicious URLs in big data using RIPPER algorithm | |
CN106650454A (zh) | 一种sql注入攻击检测方法和装置 | |
CN102567521A (zh) | 网页数据抓取过滤方法 | |
Han et al. | Understanding and modeling behavior patterns in cross‐device web search | |
JP2014532942A (ja) | ソーシャルページのトリガー | |
CN104063394B (zh) | 一种用于确定目标网页的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |