发明内容
本发明实施例提供一种生成推荐词的方法、装置、电子设备及存储介质,以根据用户搜索的关键词之间的相关性,优化推荐词的排序,使用户点击网页的比率显著提高,并使用户获得更好的搜索体验。
第一方面,本发明实施例提供一种生成推荐词的方法,该方法包括以下步骤:
获取用户输入的关键词;
查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;
根据所述推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词。
第二方面,本发明实施例提供一种生成推荐词的装置,该装置包括获取模块、推荐词生成模块和推荐词排序模块;
所述获取模块用于获取用户输入的关键词;
所述推荐词生成模块用于查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;
所述推荐词排序模块用于根据所述推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词。
第三方面,本发明实施例提供一种电子设备包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述处理器执行所述存储装置上的计算机程序时实现上述发明任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时实现上述发明任一项所述的方法。
本发明实施例中,首先获取用户输入的关键词,然后通过查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;再根据推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词,使得与用户搜索关键词更相关的推荐词排序更为靠前,提升了用户的使用体验,并显著地提升了用户点击网页的比率。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
实施例一
下面介绍本发明提供的一种生成推荐词的方法的具体实施方式。
如图1所示,为本发明实施例提供的生成推荐词的方法的流程图;该方法包括以下步骤:
S100:获取用户输入的关键词;
S200:查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;
在本实施例中,可预先通过提取大量用户的搜索行为数据来建立关联关系数据库,在所述关联关系数据库中存储有关键词列表、各个关键词的关联词以及关联词相对于关键词的相关性预测得分;具体的,本实施例是通过提取用户对搜索结果的满意度特征来计算所述关联词相对于关键词(即用户输入搜索的关键词)的相关性预测得分。
在本实施例中,***获取并保存用户的搜索行为数据,另外还可以保存用户的浏览信息、点击结果、关键词搜索顺序等数据,从而可以通过这些数据中的一种或多种提取用户对搜索结果的满意度特征,根据所述满意度特征计算所述关联词相对于关键词的相关性预测得分;
所述满意度特征可包括:点击次数、点击次序、网页停留时长、查询条件改写次数等;
例如,若用户对搜索的结果无任何点击或点击次数较少,则表示用户对搜索结果的满意度较低,即所述点击次数特征的满意度较低;
再如,若用户点击某一推荐词的时间越早,说明用户对该推荐词的推荐结果越满意,即所述点击次序特征的满意度较高;
再如,若用户在搜索结果的页面上停留时间较短,则表示用户对搜索结果的满意度较低,即所述网页停留时长特征的满意度较低;
再如,若用户需要不断改写查询条件才能找到其想要的搜索结果,也表示用户对搜索结果的满意度较低,即查询条件改写次数特征的满意度较低。
具体的,上述的多个满意度特征中的一部分特征为正相关,另一部分特征为负相关,即,可将每一个特征的满意度映射为具体的数值,例如:
F(x)=f(特征1)·f(特征2)·f(特征3)·…,
其中,F(x)为关联词x的搜索结果的相关性得分函数,f()为各个特征自身的满意度,从而可得到关联词x的相关性得分。
上述满意度特征与具体数值的映射关系可通过已知的模型加以训练实现(例如可采用决策树算法实现),直至达到预设的准确率(例如可设为:与人工评估结果相比,准确率为80%)。
为便于计算和处理方便,将上述获得的关联词x的相关性得分进行归一化(例如都映射到[-1~1]这个区间内),得到关联词相对于所述关键词的相关性预测得分。有些关联词由于缺乏足够多的用户行为数据,没有相关性得分,可将其相关性得分设定为0。
本实施例中,生成推荐词的过程是,当用户输入一个关键词时,***即可自动推荐出与其相关的其他关键词,从而方便用户继续搜索,用于降低用户的搜索成本,例如网页中的搜索结果底部的相关搜索版块就是用于生成推荐词的。
为了完成上述生成推荐词的操作,事先需要建立关键词之间的关联关系并存储在关联关系数据库中备查,这可以通过例如以下两种方式来实现:
方式一:根据用户先后搜索的多次搜索行为数据来确定多次搜索的关键词之间的关联关系,所述多次搜索的关键词之间互为关联词。
如果大量用户在搜索某一个关键词后又去搜索另一个关键词,例如用户搜索关键词“三国演义”后又点击查询了关于“刘备”的信息,就可以获得一组存在关联关系的关键词{三国演义、刘备};再例如,用户在搜索了关键词“三体”后又点击查询了“刘慈欣”,同样可以获得一组存在关联关系的关键词{三体、刘慈欣},关键词“三国演义”和“刘备”互为关联词。也就是说,根据用户先后搜索的多个关键词可以确定它们之间存在关联关系,于是将“三国演义”和“刘备”作为有关联关系的关键词存储在关联关系数据库中。
方式二:根据相同的搜索结果确定关联关系
当多个关键词各自的搜索结果存在相同部分时(如:都包含同一个或多个网页或者同一篇或多篇文章等)时,也确定该多个关键词之间存在关联关系,并且该多个关键词之间互为关联词。
例如,通过搜索关键词“刘德华”可查询到文章A“刘德华好听的歌曲大全”,通过搜索关键词“四大天王好听歌曲”也能查询到文章A“刘德华好听的歌曲大全”,这就说明“刘德华”和“四大天王好听歌曲”这两个关键词之间存在关联关系,关键词“刘德华”和“四大天王好听歌曲”互为关联词,于是将“刘德华”和“四大天王好听歌曲”作为有关联关系的关键词存储在关联关系数据库中。
此外,也可以同时使用上述两种方式来确定关联关系,并且本发明不限于此,还可以使用其他类似的方法来确定关联关系。
进一步的,在确定关键词之间的关联关系时,还可对关键词本身进行清洗操作,包含去重、过滤敏感词等逻辑。由于用户在搜索过程中输入的关键词偶尔会有错别词、表述不明的关键词、具有相同语义的多个关键词等,因此可根据需要对这些词语进行清洗,例如可以对数据进行去重、过滤等。通过对关键词进行清洗,可以提高关键词识别的准确性,并进一步提高关联关系的准确性。
S300:根据所述推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词。
将上述归一化后得到的推荐词相对于关键词的相关性预测得分与推荐词的原有排序融合,即根据所述推荐词相对于所述关键词的相关性预测得分调整和优化推荐词的原有排序,例如,新的推荐词模型为:
CF(x)’=CF(x)*F(x)’
其中,CF(x)为原有推荐词模型,F(x)’为推荐词相对于关键词的的相关性预测得分。
例如,推荐词的原有排序是“刘德华绯闻女友”、“刘德华电影”,通过计算推荐词1“刘德华绯闻女友”相对于关键词“刘德华”的相关性预测得分为-1,而推荐词2“刘德华电影”相对于关键词“刘德华”的相关性预测得分0.8,由于推荐词1“刘德华绯闻女友”相对于关键词“刘德华”的相关性预测得分小于推荐词2“刘德华电影”相对于关键词“刘德华”的相关性预测得分,因而调整原有推荐词的排列顺序,将其调整为“刘德华电影”、“刘德华绯闻女友”;这样就使与用户搜索关键词更相关的推荐词排序更为靠前,提升了用户的使用体验,并显著地提升了用户点击网页的比率。
实施例二
下面介绍本发明提供的一种生成推荐词的装置的具体实施方式。
如图2所示,为本发明实施例提供的生成推荐词的装置的结构示意图;该装置包括获取模块、推荐词生成模块和推荐词排序模块;
所述获取模块用于获取用户输入的关键词;
所述推荐词生成模块用于查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;
所述推荐词排序模块用于根据所述推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词。
在一个优选实施例中,本发明的装置还可包括数据库建立模块,用于预先通过提取大量用户的搜索行为数据来建立所述关联关系数据库,在所述关联关系数据库中存储有关键词列表、各个关键词的关联词以及关联词相对于关键词相关性预测得分。
在一个优选实施例中,所述数据库建立模块根据用户先后多次搜索行为数据来确定多次搜索的关键词之间存在关联关系,所述多次搜索的关键词之间互为关联词。
进一步的,当多个关键词各自的搜索结果存在相同部分时,数据库建立模块也可确定该多个关键词之间存在关联关系,并且该多个关键词之间互为关联词。
在一个优选实施例中,数据库建立模块还包括相关性评估模块,用于通过提取用户对搜索结果的满意度特征来计算所述关联词相对于关键词的相关性预测得分。所述满意度特征可包括以下特征中的一个或多个:点击次数、点击次序、网页停留时长、查询条件改写次数。上述实施例二中的生成推荐词的装置具体实施方式与实施例一的具体实施方式的工作过程一致,在此不再赘述。
实施例三
本发明实施例提供一种电子设备,如图3所示,该电子设备至少包括:处理器和存储装置;存储装置上存储有计算机程序,处理器在执行存储装置上的计算机程序时实现本发明任意实施例提供的方法。
本发明实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
实施例四
本发明实施例提供一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的方法。
需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本发明实施例具有以下优点:
本发明实施例首先获取用户输入的关键词,然后通过查询关联关系数据库,根据所述关键词的关联关系生成多个关联词,作为推荐词;再根据推荐词相对于所述关键词的相关性预测得分,对所述推荐词进行排序,并按照排序后的顺序显示所述推荐词,使得与用户搜索关键词更相关的推荐词排序更为靠前,提升了用户的使用体验,并显著地提升了用户点击网页的比率。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。