CN112765966A - 联想词去重方法及装置、计算机可读存储介质和电子设备 - Google Patents
联想词去重方法及装置、计算机可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN112765966A CN112765966A CN202110368415.4A CN202110368415A CN112765966A CN 112765966 A CN112765966 A CN 112765966A CN 202110368415 A CN202110368415 A CN 202110368415A CN 112765966 A CN112765966 A CN 112765966A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- semantic
- association
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种联想词去重方法及装置、计算机可读存储介质和电子设备。该方法包括:获得不同候选联想词之间的语义关联特征表示向量;利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;获得不同候选联想词之间的历史搜索行为重叠特征表示向量,历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤候选联想词中存在语义重复的候选联想词,确定目标联想词。
Description
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种联想词去重方法及装置、计算机可读存储介质和电子设备。
背景技术
随着互联网应用的发展,越来越多的用户通过在搜索页面输入关键词来触发搜索操作以实现搜索,或者在输入法的输入栏中输入关键词,在这些类似的应用场景中,为了提高用户体验,相关技术会通过各种技术手段感知用户的意图,根据用户输入的关键词罗列出相应的联想词,但相关技术无法有效地过滤这些联想词中存在语义重复的联想词,导致最终展示给用户的联想词不够丰富。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种联想词去重方法及装置、计算机可读存储介质、电子设备,能够根据不同候选联想词之间的语义重复程度和搜索行为重叠程度,去除候选联想词中存在语义重复的候选联想词,从而可以展示更丰富的目标联想词。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种联想词去重方法,所述方法包括:对查询关键词进行语义召回,获得所述查询关键词的候选联想词;获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
本公开实施例提供一种联想词去重装置,所述装置包括:候选联想词获得单元,用于对查询关键词进行语义召回,获得所述查询关键词的候选联想词;语义关联特征向量获得单元,用于获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;第一语义重复指标获得单元,用于利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;搜索行为重叠特征获得单元,用于获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;第二语义重复指标获得单元,用于利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;候选联想词去重过滤单元,用于根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
在本公开的一些示例性实施例中,所述候选联想词中包括第一联想词和第二联想词。其中,所述语义关联特征向量获得单元包括:距离信息获得单元,用于获得所述第一联想词和所述第二联想词之间的距离信息;公共字符信息获得单元,用于获得所述第一联想词和所述第二联想词之间的公共字符信息;字符串长度信息获得单元,用于获得所述第一联想词和所述第二联想词之间的字符串长度信息,其中所述第一联想词和所述第二联想词之间的字符串长度信息包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比中的至少一个;语义关联特征表示向量生成单元,用于根据所述第一联想词和所述第二联想词之间的距离信息、公共字符信息和字符串长度信息,生成所述第一联想词和所述第二联想词之间的语义关联特征表示向量。
在本公开的一些示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的语义距离。其中,所述距离信息获得单元包括:字符串长度获得单元,用于获得所述第一联想词的第一字符串长度和所述第二联想词的第二字符串长度;语义相似度获得单元,用于获得所述第一联想词和所述第二联想词之间的语义相似度;字符串公共前缀长度获得单元,用于获得所述第一联想词和所述第二联想词之间的字符串公共前缀长度;相似度权重获得单元,用于确定所述字符串公共前缀长度的相似度权重;编辑相似度获得单元,用于根据所述第一联想词和所述第二联想词之间的语义相似度、字符串公共前缀长度和所述字符串公共前缀长度的相似度权重,获得所述第一联想词和所述第二联想词之间的编辑相似度;语义距离生成单元,用于根据所述第一联想词和所述第二联想词之间的编辑相似度,获得所述第一联想词和所述第二联想词之间的语义距离。
在本公开的一些示例性实施例中,所述语义相似度获得单元包括:匹配字符数量获得单元,用于获得所述第一联想词和所述第二联想词之间的匹配字符数量;字符转换次数获得单元,用于获得所述第一联想词和所述第二联想词之间的字符转换次数;语义相似度生成单元,用于根据所述第一字符串长度、所述第二字符串长度、所述匹配字符数量和所述字符转换次数,获得所述第一联想词和所述第二联想词之间的语义相似度。
在本公开的一些示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的编辑距离。其中,所述距离信息获得单元包括:最少编辑操作次数获得单元,用于获得所述第一联想词和所述第二联想词之间由一个转换成另一个所需的最少编辑操作次数;编辑距离生成单元,用于根据所述最少编辑操作次数获得所述第一联想词和所述第二联想词之间的编辑距离。
在本公开的一些示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的相似距离。其中,所述距离信息获得单元包括:字集合获得单元,用于获得所述第一联想词的第一字集合和所述第二联想词的第二字集合,所述第一字集合包括所述第一联想词中不重复的字,所述第二字集合包括所述第二联想词中不重复的字;交集元素个数获得单元,用于获得所述第一字集合和所述第二字集合之间的交集元素个数;并集元素个数获得单元,用于获得所述第一字集合和所述第二字集合之间的并集元素个数;相似系数获得单元,用于根据所述第一字集合和所述第二字集合之间的交集元素个数和并集元素个数,获得所述第一联想词和所述第二联想词之间的相似系数;相似距离生成单元,用于根据所述第一联想词和所述第二联想词之间的相似系数,获得所述第一联想词和所述第二联想词之间的相似距离。
在本公开的一些示例性实施例中,所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的最长字符串公共前缀长度、公共字占比、字集合并集、字集合交集中的至少一个。
在本公开的一些示例性实施例中,当所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的公共字占比,则所述公共字符信息获得单元包括:字序列获得单元,用于获得所述第一联想词的第一字序列和所述第二联想词的第二字序列;第一字符公共字获得单元,用于根据所述第一字序列中属于所述第二字序列的字符个数,获得第一字符公共字;第二字符公共字获得单元,用于根据所述第二字序列中属于所述第一字序列的字符个数,获得第二字符公共字;公共字长度获得单元,用于根据所述第一字符公共字的长度和所述第二字符公共字的长度,获得公共字长度;字序列长度获得单元,用于根据所述第一字序列的长度和所述第二字序列的长度,获得字序列长度;公共字占比获得单元,用于根据所述公共字长度和所述字序列长度,获得所述第一联想词和所述第二联想词之间的公共字占比。
在本公开的一些示例性实施例中,所述第一联想词和所述第二联想词之间的字符串长度信息包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比中的至少一个。
在本公开的一些示例性实施例中,所述候选联想词中包括第一联想词和第二联想词。其中,所述搜索行为重叠特征获得单元包括:第一点击曝光信息获得单元,用于获得所述第一联想词作为搜索关键词,在预定时间段内的第一历史点击网页链接及其第一历史点击量、以及第一历史曝光网页链接及其第一历史曝光量;第二点击曝光信息获得单元,用于获得所述第二联想词作为搜索关键词,在所述预定时间段内的第二历史点击网页链接及其第二历史点击量、以及第二历史曝光网页链接及其第二历史曝光量;点击曝光重叠度获得单元,用于根据所述第一历史点击网页链接及其第一历史点击量、以及所述第一历史曝光网页链接及其第一历史曝光量、所述第二历史点击网页链接及其第二历史点击量、以及所述第二历史曝光网页链接及其第二历史曝光量,获得所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度;搜索行为重叠特征生成单元,用于根据所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度,生成不同候选联想词之间的历史搜索行为重叠特征表示向量。
在本公开的一些示例性实施例中,所述候选联想词中包括第一联想词和第二联想词。其中,所述候选联想词去重过滤单元包括取并集单元或者加权求和单元。其中,所述取并集单元用于若所述第一联想词和所述第二联想词之间的第一语义重复指标大于第一阈值或者所述第二语义重复指标大于第二阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。所述加权求和单元用于根据所述第一联想词和所述第二联想词之间的第一语义重复指标和第二语义重复指标,确定所述第一联想词和所述第二联想词之间的目标语义重复指标;若所述第一联想词和所述第二联想词之间的目标语义重复指标大于目标阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的联想词去重方法。
本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的联想词去重方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
在本公开的一些实施例所提供的技术方案中,一方面,通过计算不同候选联想词之间的语义关联特征表示向量,获得不同候选联想词之间的语义匹配度,以确定不同候选联想词之间的第一语义重复指标;另一方面,根据不同候选联想词的历史搜索行为,计算不同候选联想词之间的历史搜索行为重叠特征表示向量,可以获得不同候选联想词之间的第二语义重复指标,同时结合上述获得的第一语义重复指标和第二语义重复指标来判断不同候选联想词之间是否存在语义重复,并对存在语义重复的候选联想词去重过滤,通过综合考虑不同候选联想词的语义重复程度和历史搜索行为重叠特征,可以有效地判断不同候选联想词是否存在语义重复,当将其应用于真实的搜索情境或者输入法等应用场景中,能够实现候选联想词的去重,展示去重过滤后的不存在语义重复的目标联想词,为用户推荐更具多样性的目标联想词,有利于帮助用户更快的找到想要的信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种联想词去重方法的实施环境的示意图。
图2示意性示出了根据本公开的一实施例的联想词去重方法的流程图。
图3示意性示出了图2中步骤S220在一示例性实施例中的流程图。
图4示意性示出了根据本公开的一实施例的获得第一语义重复指标的示意图。
图5示意性示出了图2中步骤S240在一示例性实施例中的流程图。
图6示意性示出了根据本公开的一实施例的获得第二语义重复指标的示意图。
图7示意性示出了根据本公开的一实施例的联想词去重方法的界面示意图。
图8示意性示出了根据本公开的一实施例的联想词去重装置的框图。
图9示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
基于上述相关技术中存在的技术问题,本公开实施例提出了一种联想词去重方法,以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行,例如服务器,或者终端,或者服务器与终端之间进行交互,本公开对此不做限定。
本申请实施例提供了一种联想词去重方法,请参考图1,其示出了本申请实施例提供的联想词去重方法的实施环境的示意图。该实施环境可以包括:终端11和服务器12。
终端11和服务器12均可以实现本申请中的联想词去重方法。用户可以通过终端11输入查询关键词,终端11可以将该查询关键词发送至服务器12,服务器12获取到输入的查询关键词后,对该查询关键词进行语义召回,获得该查询关键词对应的候选联想词,进而获得不同候选联想词之间的语义关联特征表示向量,利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度,利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤语义重复的候选联想词,确定目标联想词,服务器12将目标联想词返回至终端11,可以在终端11上同时展示该目标联想词和该查询关键词。
或者,也可以终端11在获取输入的查询关键词之后,获得所述查询关键词的候选联想词,获得不同候选联想词之间的语义关联特征表示向量,根据不同候选联想词之间的语义关联特征表示向量,获得不同候选联想词之间的语义关联特征表示向量,利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度,利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,同时展示该目标联想词和该查询关键词。
或者,用户可以通过终端11输入查询关键词,终端11可以将该查询关键词发送至服务器12,服务器12获取到输入的查询关键词后,可以检索获得该查询关键词对应的候选联想词,服务器12将检索获得的该查询关键词对应的候选联想词返回至终端11,终端11获得不同候选联想词之间的语义关联特征表示向量,根据不同候选联想词之间的语义关联特征表示向量,获得不同候选联想词之间的语义关联特征表示向量,利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度,利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,同时展示该目标联想词和该查询关键词。
上述实施例中,第一分类模型和第二分类模型是预先训练好的,可以存储在终端11或者服务器12本地,也可以存储在另外的云端服务器,当需要时,终端11或者服务器12从云端服务器获取第一分类模型和/或第二分类模型,也可以是终端11或者服务器12将不同候选联想词之间的语义关联特征表示向量和/或不同候选联想词之间的历史搜索行为重叠特征表示向量传输至云端服务器,待云端服务器对不同候选联想词之间的语义关联特征表示向量和/或不同候选联想词之间的历史搜索行为重叠特征表示向量利用第一分类模型和/或第二分类模型处理后,将处理获得的第一语义重复指标和/或第二语义重复指标返回给终端11和/或服务器12,本公开对此不做限定。
本公开实施例中,终端11可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器12可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端11以及服务器12可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图2示意性示出了根据本公开的一实施例的联想词去重方法的流程图。如图2所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S210中,对查询关键词进行语义召回,获得所述查询关键词的候选联想词。
本公开实施例中,首先获取输入的查询关键词。
其中,查询关键词可以是指为了在数据库(可以包括分布式储存的区块链)中寻找某一特定文件、网站、记录、词语或一系列记录等中的任意一种或者多种,所输入的任意字段(包括词语、句子、字、符号等中的至少一种或者任意的组合),从而使得搜索引擎或数据库能够根据该输入的关键词进行相应的检索。用户可以通过终端输入查询关键词,然后可以将该输入的查询关键词发送至服务器,也可以不发送至服务器。
例如,用户可以通过其终端上安装的浏览器,在该浏览器的网页地址输入栏输入该查询关键词,此时该查询关键词可以是URL(Uniform Resource Locator,统一资源定位符)地址,也可以是词语例如XX公司的公司名称等。
再例如,用户可以通过其终端上安装的各类应用程序,在应用程序的搜索框中输入该查询关键词,以发起搜索请求,返回相应的信息。
再例如,用户可以通过其终端上安装的输入法的输入栏输入该查询关键词。本公开对查询关键词的输入方式、获取来源等不做限定。
然后,对查询关键词进行语义召回,获得所述查询关键词的候选联想词。
本公开实施例中,候选联想词是在上述输入的查询关键词基础上进一步联想的更为丰富的搜索语义或查询语义。本公开对根据查询关键词召回候选联想词的方式不做限定。
例如,若输入的查询关键词为“音乐”,则可得到候选联想词“音乐下载”以及其它的一些候选联想词。
在步骤S220中,获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度。
本公开实施例中,为了过滤输入的查询关键词召回的候选联想词中存在语义重复的候选联想词,计算不同候选联想词之间的语义关联特征表示向量,用来表示不同候选联想词之间的语义匹配度,不同候选联想词之间的语义匹配度越高,则说明对应的候选联想词之间存在语义重复的可能性越大;反之,则说明对应的候选联想词之间存在语义重复的可能性越小。语义关联特征表示向量的计算方式具体可以参见下图3和图4实施例的描述。
在步骤S230中,利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标。
本公开实施例中,可以采用任意合适的机器学习算法构建第一分类模型,然后对构建好的第一分类模型进行训练,使用该训练好的第一分类模型可以用于判断查询关键词召回的候选联想词中的任意两个候选联想词之间是否存在语义重复。
在示例性实施例中,假设基于查询关键词召回的候选联想词中的任意两个候选联想词分别为第一联想词和第二联想词,则可以获得第一联想词和第二联想词之间的语义关联特征表示向量。然后,利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标,可以包括:将所述第一联想词和所述第二联想词之间的语义关联特征表示向量输入至训练好的第一分类模型;通过所述第一分类模型,基于所述第一联想词和所述第二联想词之间的语义关联特征表示向量,获得输入为预定值的第一条件概率;根据所述第一条件概率确定所述第一语义重复指标。
其中,第一条件概率的取值范围为大于或等于0且小于或等于1的实数。第一条件概率与第一语义重复指标的大小是正相关的,即第一条件概率越大,则第一语义重复指标越高;反之,若第一条件概率越小,则第一语义重复指标越低,具体可以根据实际情况进行设置,本公开对此不做限定。
在步骤S240中,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度。
本公开实施例中,可以根据不同候选联想词的历史搜索行为来获得不同候选联想词之间的历史搜索行为重叠特征表示向量,历史搜索行为是指在搜索引擎中,将各个候选联想词分别作为搜索关键词进行查询召回相应的网页链接(也称之为Uniform ResourceLocator,统一资源***,下文简写为URL),用户对这些URL的任意的操作行为数据,例如可以包括所曝光的网页链接、被曝光的网页链接中被用户点击的网页链接、被曝光的网页链接的曝光量、被点击的网页链接的点击量等等。两个不同的候选联想词之间的搜索行为重叠程度越高,则表明这两个候选联想词之间的语义重复可能性越高。获得不同候选联想词之间的历史搜索行为重叠特征表示向量的方式具体可以参见下图5和图6实施例的描述。
在步骤S250中,利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标。
本公开实施例中,可以采用任意合适的机器学习算法构建第二分类模型,然后对构建好的第二分类模型进行训练,使用该训练好的第二分类模型可以用于预测查询关键词召回的候选联想词中的任意两个候选联想词之间的第二语义重复指标。
本公开实施例中,第一分类模型和第二分类模型可以采用相同的机器学习算法,也可以采用不同的机器学习算法。
在示例性实施例中,假设基于查询关键词召回的候选联想词中的任意两个候选联想词分别为第一联想词和第二联想词,则可以获得第一联想词和第二联想词之间的历史搜索行为重叠特征表示向量。然后,利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标,可以包括:将所述第一联想词和所述第二联想词之间的历史搜索行为重叠特征表示向量输入至训练好的第二分类模型;通过所述第二分类模型,基于所述第一联想词和所述第二联想词之间的历史搜索行为重叠特征表示向量,获得输入为预定值的第二条件概率;根据所述第二条件概率确定所述第二语义重复指标。
其中,第二条件概率的取值范围为大于或等于0且小于或等于1的实数。第二条件概率与第二语义重复指标的大小是正相关的,即第二条件概率越大,则第二语义重复指标越高;反之,若第二条件概率越小,则第二语义重复指标越低,具体可以根据实际情况进行设置,本公开对此不做限定。
在步骤S260中,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
本公开实施例中,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,可以包括:若所述第一联想词和所述第二联想词之间的第一语义重复指标大于第一阈值或者所述第二语义重复指标大于第二阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词;或者,根据所述第一联想词和所述第二联想词之间的第一语义重复指标和第二语义重复指标,确定所述第一联想词和所述第二联想词之间的目标语义重复指标;若所述第一联想词和所述第二联想词之间的目标语义重复指标大于目标阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。
例如,假设通过训练好的第一分类模型处理第一联想词和第二联想词之间的语义关联特征表示向量,预测获得第一联想词和第二联想词之间的第一语义重复指标s1;通过训练好的第二分类模型处理第一联想词和第二联想词之间的历史搜索行为重叠特征表示向量,预测获得第一联想词和第二联想词之间的第二语义重复指标s2。
则可以采用以下两种方式中的任意一种来决定第一联想词和第二联想词之间是否存在语义重复:
方式1是取并集,即当s1大于第一阈值(例如0.8,仅用于举例说明)或者s2大于第二阈值(例如0.9,仅用于举例说明)时,就认为第一联想词和第二联想词存在语义重复。换言之,就是第一分类模型和第二分类模型的预测结果取并集。
方式2是将第一语义重复指标与第二语义重复指标进行加权求和,以确定最终的目标语义重复指标s:
根据上述加权求和获得的目标语义重复指标来判断第一联想词和第二联想词之间是否存在语义重复,例如,假设当目标语义重复指标s大于目标阈值(例如0.9,仅用于举例说明)时,就认为第一联想词和第二联想词存在语义重复。
可以根据实际应用场景选择上述两种方式中的任意一种。
例如,可以在输入上述查询关键词的终端上展示目标联想词,用户可以从展示的目标联想词中进行选择,也可以直接利用查询关键词自身发起搜索请求,或者作为文档中输入的字符。
本公开实施方式提供的联想词去重方法,一方面,通过计算不同候选联想词之间的语义关联特征表示向量,获得不同候选联想词之间的语义匹配度,以确定不同候选联想词之间的第一语义重复指标;另一方面,根据不同候选联想词的历史搜索行为,计算不同候选联想词之间的历史搜索行为重叠特征表示向量,可以获得不同候选联想词之间的第二语义重复指标,同时结合上述获得的第一语义重复指标和第二语义重复指标来判断不同候选联想词之间是否存在语义重复,并对存在语义重复的候选联想词去重过滤,通过综合考虑不同候选联想词的语义重复程度和历史搜索行为重叠特征,可以有效地判断不同候选联想词是否存在语义重复,当将其应用于真实的搜索情境或者输入法等应用场景中,能够实现候选联想词的去重,展示去重过滤后的不存在语义重复的目标联想词,为用户推荐更具多样性的目标联想词,有利于帮助用户更快的找到想要的信息。
图3示意性示出了图2中步骤S220在一示例性实施例中的流程图。如图3所示,与上述图2实施例的不同之处在于,以上述候选联想词中任意两个候选联想词即第一联想词和第二联想词为例,则上述步骤S220可以进一步包括步骤S221至步骤S224。
在步骤S221中,获得所述第一联想词和所述第二联想词之间的距离信息。
本公开实施例中,第一联想词和第二联想词之间的距离信息表示第一联想词和第二联想词之间的语义相似程度,两者的距离信息越小,则表示两者之间的语义相似程度越大;反之,则表示两者之间的语义相似程度越小。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息可以包括所述第一联想词和所述第二联想词之间的语义距离。其中,获得所述第一联想词和所述第二联想词之间的距离信息,可包括:获得所述第一联想词和所述第二联想词之间的语义相似度;获得所述第一联想词和所述第二联想词之间的字符串公共前缀长度;确定所述字符串公共前缀长度的相似度权重;根据所述第一联想词和所述第二联想词之间的语义相似度、字符串公共前缀长度和所述字符串公共前缀长度的相似度权重,获得所述第一联想词和所述第二联想词之间的编辑相似度;根据所述第一联想词和所述第二联想词之间的编辑相似度,获得所述第一联想词和所述第二联想词之间的语义距离。
在示例性实施例中,获得所述第一联想词和所述第二联想词之间的语义相似度,可包括:获得所述第一联想词的第一字符串长度和所述第二联想词的第二字符串长度;获得所述第一联想词和所述第二联想词之间的匹配字符数量;获得所述第一联想词和所述第二联想词之间的字符转换次数;根据所述第一字符串长度、所述第二字符串长度、所述匹配字符数量和所述字符转换次数,获得所述第一联想词和所述第二联想词之间的语义相似度。语义距离和语义相似度的计算具体可参见下图4实施例的描述。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的编辑距离。其中,获得所述第一联想词和所述第二联想词之间的距离信息,可以包括:获得所述第一联想词和所述第二联想词之间由一个转换成另一个所需的最少编辑操作次数;根据所述最少编辑操作次数获得所述第一联想词和所述第二联想词之间的编辑距离。编辑距离的计算具体可参见下图4实施例的描述。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息可以包括所述第一联想词和所述第二联想词之间的相似距离。其中,获得所述第一联想词和所述第二联想词之间的距离信息,可以包括:获得所述第一联想词的第一字集合和所述第二联想词的第二字集合,所述第一字集合包括所述第一联想词中不重复的字,所述第二字集合包括所述第二联想词中不重复的字;获得所述第一字集合和所述第二字集合之间的交集元素个数;获得所述第一字集合和所述第二字集合之间的并集元素个数;根据所述第一字集合和所述第二字集合之间的交集元素个数和并集元素个数,获得所述第一联想词和所述第二联想词之间的相似系数;根据所述第一联想词和所述第二联想词之间的相似系数,获得所述第一联想词和所述第二联想词之间的相似距离。相似距离的计算具体可参见下图4实施例的描述。且图4实施例中,以距离信息同时包括语义距离、编辑距离和相似距离为例进行举例说明,但本公开并不限定于此。
本公开实施例中,字集合(包括上述第一字集合和第二字集合)是通过对对应的候选联想词(如第一联想词和第二联想词)进行字级别的分词处理获得的,字集合中的字不考虑顺序,同时,字集合中的字去除了重复的字。
例如,假设第一联想词为“核酸检测后的检测结果”,第二联想词为“核酸检测费用”,则第一字集合为{‘核’,‘酸’,‘检’,‘测’,‘后’,‘的’,‘结’,‘果’},第二字集合为{‘核’,‘酸’,‘检’,‘测’,‘费’,‘用’}。
在步骤S222中,获得所述第一联想词和所述第二联想词之间的公共字符信息。
在示例性实施例中,所述第一联想词和所述第二联想词之间的公共字符信息可以包括所述第一联想词和所述第二联想词之间的最长字符串公共前缀长度、公共字占比、字集合并集、字集合交集等中的至少一个。在下面图4实施例中,以所述第一联想词和所述第二联想词之间的公共字符信息同时包括所述第一联想词和所述第二联想词之间的最长字符串公共前缀长度、公共字占比、字集合并集、字集合交集等为例进行举例说明,但本公开并不限定于此。
在示例性实施例中,当所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的公共字占比,则获得所述第一联想词和所述第二联想词之间的公共字符信息,可以包括:获得所述第一联想词的第一字序列和所述第二联想词的第二字序列;根据所述第一字序列中属于所述第二字序列的字符个数,获得第一字符公共字;根据所述第二字序列中属于所述第一字序列的字符个数,获得第二字符公共字;根据所述第一字符公共字的长度和所述第二字符公共字的长度,获得公共字长度;根据所述第一字序列的长度和所述第二字序列的长度,获得字序列长度;根据所述公共字长度和所述字序列长度,获得所述第一联想词和所述第二联想词之间的公共字占比。
本公开实施例中,字序列(包括上述第一字序列和第二字序列)是通过对对应的候选联想词(如第一联想词和第二联想词)进行字级别的分词处理获得的,字序列中的字考虑对应的字在候选联想词中的顺序,同时,字序列中的字没有去除重复的字。
例如,假设第一联想词为“核酸检测后的检测结果”,第二联想词为“核酸检测费用”,则第一字序列为{‘核’,‘酸’,‘检’,‘测’,‘后’,‘的’,‘检’,‘测’,‘结’, ‘果’},第二字序列为{‘核’,‘酸’,‘检’,‘测’,‘费’,‘用’}。
在步骤S223中,获得所述第一联想词和所述第二联想词之间的字符串长度信息。
在示例性实施例中,所述第一联想词和所述第二联想词之间的字符串长度信息可以包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比等中的至少一个。在图4实施例中,以所述第一联想词和所述第二联想词之间的字符串长度信息同时包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比等为例进行举例说明,但本公开并不限定于此。
在步骤S224中,根据所述第一联想词和所述第二联想词之间的距离信息、公共字符信息和字符串长度信息,生成所述第一联想词和所述第二联想词之间的语义关联特征表示向量。
本公开实施例中,可以将第一联想词和第二联想词之间的距离信息、公共字符信息和字符串长度信息进行拼接,作为所述第一联想词和所述第二联想词之间的语义关联特征表示向量。但本公开并不限定于此,例如,还可以对距离信息、公共字符信息和字符串长度信息分别设置不同的权重系数,将距离信息、公共字符信息和字符串长度信息分别与对应的权重系数相乘后再拼接,生成第一联想词和第二联想词之间的语义关联特征表示向量。
本公开实施方式提供的联想词去重方法,将联想词去重问题转化为判断不同的候选联想词之间是否语义匹配的问题,通过获得不同候选联想词之间的距离信息、公共字符信息和字符串长度信息来表征不同候选联想词之间的语义关联特征表示向量,获得不同候选联想词之间的语义匹配度,进而可以有效地判断不同候选联想词是否存在语义重复,可以将其应用于真实的搜索情境或者输入法等应用场景中,实现候选联想词的去重,展示去重过滤后的不存在语义重复的目标联想词,为用户推荐更具多样性的目标联想词,有利于帮助用户更快的找到想要的信息。
图4示意性示出了根据本公开的一实施例的获得第一语义重复指标的示意图。
如图4所示的联想词去重方法利用的模型可以包括第一特征提取层和第一预测层,下面将分别介绍。
图4实施例中假设第一特征提取层有上述候选联想词中的两个文本字符串输入,即两个候选联想词,分别称之为:联想词1(表示为,即第一联想词)和联想词2(表示为,即第二联想词),且将联想词1()对应的第一字集合表示为,将联想词2()对应的第二字集合表示为,即和分别包含和中出现的不重复的字。同时,将联想词1()对应的第一字序列表示为,将联想词2()对应的第二字序列表示为。即和分别包含和中出现的不重复的字。同时,将联想词1()对应的第一字序列表示为,将联想词2()对应的第二字序列表示为。利用特征提取层提取特征,假设分别包括F1:语义距离、F2:编辑距离、F3:相似距离、F4:最长公共前缀长度(即最长字符串公共前缀长度)、F5:公共字占比、F6:字集合的并集(即字集合并集)、F7:字集合的交集(即字集合交集)、F8:字集合长度差、F9:字集合长度比、F10:字符串长度差、F11:字符串长度比。对应联想词1和联想词2,可以计算获得11个特征,拼接得到一个11维的语义关联特征表示向量,作为第一预测层的输入,形式化表示为:
上述公式(2)中,concat表示拼接或者级联的含义。
下面对特征一一展开介绍。
特征F1:语义距离:
首先给出第一联想词和第二联想词之间的语义相似度的计算公式:
上述公式(3)中,表示联想词1对应的第一字符串长度,表示联想词2对应的第二字符串长度。m是联想词1对应的第一字符串和联想词2对应的第二字符串之间的匹配字符数量。t表示联想词1对应的第一字符串和联想词2对应的第二字符串之间的字符转换次数。
具体地,定义为匹配窗口,联想词1和联想词2的字符之间的比较限定在该匹配窗口内,如果在这个匹配窗口范围内联想词1和联想词2的两个字符相等,则表示匹配成功,如果超出了这个匹配窗口范围,表示匹配失败。即只有当和的字符相同,且距离不超过时才认为对应的两个字符是匹配的,超过了这个匹配窗口,即使联想词2中存在一个字符与联想词1中的某个字符相等,但由于它们的距离太远了,二者的相关性太低了,不能认为它们是匹配的。将 与 匹配的字符进行比较,相同位置但字符不同的字符数除以2就是要转换的次数t。
例如,假设联想词1对应的第一字符串A(“bacde”)和联想词2对应的第二字符串B(“abed”),在匹配窗口大小为1,在匹配的过程中,字符‘a’、‘b’、‘d’都是匹配的,indexInA(‘d’) = 3(即字符‘d’在A中的下标为3),indexInB(‘d’) = 3(即字符‘d’在B中的下标也为3),二者的距离是0,小于匹配窗口大小。但对于字符‘e’,虽然第一字符串和第二字符串都有‘e’这个字符,但它们却是不匹配的,因为‘e’在第一字符串和第二字符串中的下标分别为4和2,距离为2 > 1(匹配窗口),所以‘e’是不匹配的。在这个例子中,由于有3个字符匹配,因此m= 3。同样看这个例子,‘a’和‘b’都是匹配的,但‘a’和’b’在两个字符串中分别表示为“ba…”和“ab…”,它们的顺序不同,因此这里t = 1。
上述公式(4)中,表示第一字符串和第二字符串的共同前缀字符的个数,即字符串公共前缀长度,例如假设是“苹果”,是“苹果手机”,则=2。且假设的最大值为4。是一个常量因子,是缩放因子常量,它描述的是共同前缀对于相似度的贡献,因此这里称之为字符串公共前缀长度的相似度权重,越大,表示共同前缀权重越大,对于有公共前缀的会向上调整,不超过0.25,否则编辑相似度会超过1,常量的默认值为0.1。
本公开实施例中,前缀指除了最后一个字符以外,一个字符串的全部头部组合,下面以“ABCDABD”为例,其前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]。
联想词1和联想词2的语义距离可以根据以下公式计算获得:
特征F2:编辑距离是指联想词1对应的第一字符串和联想词2对应的第二字符串之间,由一个转换成另一个所需的最少编辑操作次数,可以用于对这两个字符串之间的相似度进行衡量,以得出两个字符串之间的相似程度。其中的操作可以包括将一个字符替换成另一个字符、***一个字符和删除一个字符。
例如把第一字符串“kitten”转换为第二字符串“sitting”:
sitten(k替换为s)
sittin(e替换为i)
sitting(***g)
特征F3:相似距离用联想词1对应的第一字集合和联想词2对应的第二字集合中不同元素占所有元素的比例来衡量这两个集合的区分度。
相似距离的计算公式则可以表示为:
特征F4:定义为联想词1对应的第一字符串和联想词2对应的第二字符串的最长公共前缀长度,即最长字符串公共前缀长度,可以从某种程度上衡量两个联想词的差异,公共最长字符串公共前缀长度越长,说明这两个联想词重复度越高,包含相同信息的可能性越大。特征F4可以表示为如下公式:
特征F5:公共字占比,即联想词1和联想词2中公共字的占比。
例如:假设第一字序列= “苹苹果”, = “苹果手机”,那么,按照公式,是“苹”字,出现在了中,所以计1;以此类推,中的每个字都需要判断是否出现在中,显然中的3个字都出现在了中,所以=3,而中只有2个字出现在了中,因此= 2。
然后,通过以下公式计算获得公共字占比F5:
特征F10:字符串长度差表示联想词1对应的第一字符串和联想词2对应的第二字符串之间的长度差的绝对值,可以用以下公式表示:
特征F11:字符串长度比表示联想词1对应的第一字符串和联想词2对应的第二字符串之间的长度比例,可以用以下公式表示:
图4实施例中的第一预测层包括训练好的第一分类模型,预测输出第一语义重复指标。这里假设第一分类模型为一个二分类模型,以一种对数线性模型为例,可以通过该第一分类模型对两个联想词的第一语义重复指标做出预测。采用本公开实施例的第一分类模型,简单易用,在保证预测效果的准确性的同时,计算成本低,部署服务成本低。但本公开并不限定于此,也可以采用其他的二分类模型。
图4实施例中,假设预测第一条件概率分布为:
上述公式(18)和(19)中,先用一些样本训练获得W1和b1的值,即为预测联想词1和联想词2存在语义重复的第一条件概率。可以根据第一条件概率确定第一语义重复指标,在一些实施例中,可以设置第一语义重复指标等于第一条件概率,例如若计算等于0.5,则联想词1和联想词2的第一语义重复指标等于0.5。
图5示意性示出了图2中步骤S240在一示例性实施例中的流程图。还是以所述候选联想词中包括第一联想词和第二联想词为例,与上述实施例的不同之处在于,上述实施例中的步骤S240可以进一步包括以下步骤。
在步骤S241中,获得所述第一联想词作为搜索关键词,在预定时间段内的第一历史点击网页链接及其第一历史点击量、以及第一历史曝光网页链接及其第一历史曝光量。
本公开实施例中,在预定时间段内(可以根据实际情况进行设置,例如最近一个月),用户将该第一联想词作为搜索关键词(query),搜索引擎接收到用户输入的搜索关键词后召回相应的URL,用户点击其中的一个或者多个URL,这些被点击的一个或多个URL被称之为第一历史点击网页链接,这些被点击的一个或多个URL中的每一个URL被用户在该预定时间段内的点击次数称之为第一历史点击量。
本公开实施例中,在预定时间段内,用户将该第一联想词作为搜索关键词(query),搜索引擎接收到用户输入的搜索关键词后召回相应的URL,经过各种处理(例如排序等)后将其中的一个或多个URL曝光给用户,这些被曝光的一个或多个URL被称之为第一历史曝光网页链接,这些被曝光的一个或多个URL中的每一个URL在该预定时间段内的曝光次数称之为第一历史曝光量。
在步骤S242中,获得所述第二联想词作为搜索关键词,在所述预定时间段内的第二历史点击网页链接及其第二历史点击量、以及第二历史曝光网页链接及其第二历史曝光量。
本公开实施例中,在预定时间段内,用户将该第二联想词作为搜索关键词(query),搜索引擎接收到用户输入的搜索关键词后召回相应的URL,用户点击其中的一个或者多个URL,这些被点击的一个或多个URL被称之为第二历史点击网页链接,这些被点击的一个或多个URL中的每一个URL被用户在该预定时间段内的点击次数称之为第二历史点击量。
本公开实施例中,在预定时间段内,用户将该第二联想词作为搜索关键词(query),搜索引擎接收到用户输入的搜索关键词后召回相应的URL,经过各种处理(例如排序等)后将其中的一个或多个URL曝光给用户,这些被曝光的一个或多个URL被称之为第二历史曝光网页链接,这些被曝光的一个或多个URL中的每一个URL在该预定时间段内的曝光次数称之为第二历史曝光量。
在步骤S243中,根据所述第一历史点击网页链接及其第一历史点击量、以及所述第一历史曝光网页链接及其第一历史曝光量、所述第二历史点击网页链接及其第二历史点击量、以及所述第二历史曝光网页链接及其第二历史曝光量,获得所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度。
本公开实施例中,点击网页链接重叠度表示第一历史点击网页链接和第二历史点击网页链接中相同或者重叠的网页链接数量。网页链接点击重叠度表示第一历史点击网页链接和第二历史点击网页链接中相同或者重叠的网页链接及其点击量的加权求和,其中,第一历史点击网页链接和第二历史点击网页链接中相同或者重叠的网页链接的点击量可以等于相同或者重叠的网页链接的第一历史点击量和第二历史点击量之和。
本公开实施例中,曝光网页链接重叠度表示第一历史曝光网页链接和第二历史曝光网页链接中相同或者重叠的网页链接数量。网页链接曝光重叠度表示第一历史曝光网页链接和第二历史曝光网页链接中相同或者重叠的网页链接及其曝光量的加权求和,其中,第一历史曝光网页链接和第二历史曝光网页链接中相同或者重叠的网页链接的曝光量可以等于相同或者重叠的网页链接的第一历史曝光量和第二历史曝光量之和。
在步骤S244中,根据所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度,生成不同候选联想词之间的历史搜索行为重叠特征表示向量。
下面通过图6的实施例来举例说明获得第二语义重复指标的方式。
如图6所示的联想词去重方法基于搜索引擎的点击日志表和曝光日志表实现,其利用的模型可以包括第二特征提取层和第二预测层,首先获取联想词1和联想词2的历史搜索行为特征,然后构建第二分类模型,下面将分别介绍。
图6实施例中假设第二特征提取层有上述候选联想词中的两个文本字符串输入,即两个候选联想词,分别称之为:联想词1(表示为,即第一联想词)和联想词2(表示为,即第二联想词)。对于两个联想词,这里假设获取4个历史搜索行为特征:f1表示第一历史点击网页链接和第二历史点击网页链接之间的点击网页链接重叠度,f2表示第一历史点击网页链接和第二历史点击网页链接之间的网页链接点击重叠度,f3表示第一历史曝光网页链接和第二历史曝光网页链接之间的曝光网页链接重叠度,f4表示第一历史曝光网页链接和第二历史曝光网页链接之间的历史搜索行为重叠特征表示向量,根据这4个历史搜索行为特征得到一个4维的历史搜索行为重叠特征表示向量,作为第二预测层的输入,形式化表示为:
下面对这四个特征一一展开介绍。
特征f1:这里以前100(top100,仅用于举例说明,并不限定于此,可以根据实际情况进行选取)点击URL重叠度表示第一历史点击网页链接和第二历史点击网页链接之间的点击网页链接重叠度为例进行举例说明。
假设选定某一个月整月的搜索关键词(这里的搜索关键词是联想词1和联想词2)对应的点击日志表,统计点击日志表中联想词1对应的用户点击的第一历史点击网页链接URL,例如这里假设用户点击了url1_1(对应的第一历史点击量假设为uv1_1)、…url1_n(对应的第一历史点击量假设为uv1_n),n表示第一历史点击网页链接的数量,n为大于或等于1的正整数;联想词2对应的用户点击的第二历史点击网页链接URL,例如这里假设用户点击了url2_1(对应的第二历史点击量假设为uv2_1)、…url2_m(对应的第二历史点击量假设为uv2_m),m表示第二历史点击网页链接的数量,m为大于或等于1的正整数。本公开实施例中认为若第一历史点击网页链接和第二历史点击网页链接高度重合,则表明联想词1和联想词2二者本身在很大程度上存在语义重复关系。
例如,假设联想词1对应的第一历史点击网页链接列表为Uuv1,联想词2对应的第二历史点击网页链接列表为Uuv2,分别将Uuv1和Uuv2按照第一历史点击量和第二历史点击量进行降序排序,截取第一历史点击量排前100的第一历史点击网页链接记为UTuv1,截取第二历史点击量排前100的第二历史点击网页链接记为UTuv2, 前100点击URL重叠度定义为UTuv1和UTuv2中重叠的URL数量,计算公式如下:
特征f2:top100曝光URL重叠度表示第一历史曝光网页链接和第二历史曝光网页链接之间的曝光网页链接重叠度为例进行举例说明。
与特征f1类似,假设选定某一个月整月的搜索关键词对应的曝光日志表,统计曝光日志表中联想词1对应曝光给用户的第一历史曝光网页链接URL,例如这里假设曝光给用户的是url1_1(对应的第一历史曝光量假设为pv1_1)、…url1_n(对应的第一历史曝光量假设为pv1_n),n表示第一历史曝光网页链接的数量,n为大于或等于1的正整数,虽然这里的举例说明中以第一历史点击网页链接和第一历史曝光网页链接相同为例,但实际上两者可以相同也可以不同;联想词2对应的用户点击的第二历史曝光网页链接URL,例如这里假设曝光给用户的是url2_1(对应的第二历史曝光量假设为pv2_1)、…url2_m(对应的第二历史曝光量假设为pv2_m),m表示第二历史曝光网页链接的数量,m为大于或等于1的正整数,虽然这里的举例说明中以第二历史点击网页链接和第二历史曝光网页链接相同为例,但实际上两者可以相同也可以不同。本公开实施例中认为若第一历史曝光网页链接和第二历史曝光网页链接高度重合,则表明联想词1和联想词2二者本身在很大程度上存在语义重复关系。
例如,假设联想词1对应的第一历史曝光网页链接列表为Upv1,联想词2对应的第二历史曝光网页链接列表为Upv2,分别将Upv1和Upv2按照第一历史曝光量和第二历史曝光量进行降序排序,截取第一历史曝光量排前100的第一历史曝光网页链接记为UTpv1,截取第二历史曝光量排前100的第二历史曝光网页链接记为UTpv2,top100曝光URL重叠度定义为UTpv1和UTpv2中重叠的URL数量,计算公式为:
特征f3:top100点击URL点击重叠度表示第一历史点击网页链接和第二历史点击网页链接之间的网页链接点击重叠度为例进行举例说明。
在特征f1的基础上,假设联想词1对应的第一历史点击网页链接列表为Uuv1,联想词2对应的第二历史点击网页链接列表为Uuv2,分别将Uuv1和Uuv2按照第一历史点击量和第二历史点击量进行降序排序,截取第一历史点击量排前100的第一历史点击网页链接记为UTuv1,截取第二历史点击量排前100的第二历史点击网页链接记为UTuv2,top100点击URL点击重叠度定义为UTuv1和UTuv2中重叠的URL和其对应的点击量的加权求和,计算公式为:
其中上述公式中,i∈{ UTuv1⋂ UTuv2},UVi是UTuv1和UTuv2中重叠的URL的点击量。
特征f4:top100曝光URL曝光重叠度表示第一历史曝光网页链接和第二历史曝光网页链接之间的网页链接曝光重叠度为例进行举例说明。
在特征f2的基础上,假设联想词1对应的第一历史曝光网页链接列表为Upv1,联想词2对应的第二历史曝光网页链接列表为Upv2,分别将Upv1和Upv2按照第一历史曝光量和第二历史曝光量进行降序排序,截取第一历史曝光量排前100的第一历史曝光网页链接记为UTpv1,截取第二历史曝光量排前100的第二历史曝光网页链接记为UTpv2,top100曝光URL曝光重叠度定义为UTpv1和UTpv2中重叠的URL和其对应的曝光量的加权求和,计算公式为:
其中,j∈{ UTpv1⋂ UTpv2},PVj是UTpv1和UTpv2中重叠的URL的曝光量。
由此,得到的4个历史搜索行为特征可以表征联想词1和联想词2之间的语义重复程度。为了使历史搜索行为特征保持最新状态,可以定时启动对引擎搜索的点击日志表和曝光日志表的统计分析,例如每个月末启动一次。
图6实施例中的第二预测层包括训练好的第二分类模型,预测输出第二语义重复指标。这里假设第二分类模型为一个二分类模型,以一种对数线性模型为例,可以通过该第二分类模型对两个联想词的第二语义重复指标做出预测。采用本公开实施例的第二分类模型,简单易用,在保证预测效果的准确性的同时,计算成本低,部署服务成本低。但本公开并不限定于此,也可以采用其他的二分类模型。
图6实施例中,假设预测第二条件概率分布为:
上述公式(25)和(26)中,先用一些样本训练获得W2和b2的值,即为预测联想词1和联想词2存在语义重复的第二条件概率。可以根据第二条件概率确定第二语义重复指标,在一些实施例中,可以设置第二语义重复指标等于第二条件概率。
本公开实施方式提供的联想词去重方法,通过对搜索引擎的历史搜索曝光日志表和点击日志表进行统计分析,获取不同联想词的历史搜索行为特征,进而采用第二分类模型获得第二语义重复指标,以用于结合其他实施例获得的第一语义重复指标来做出是否语义重复的判断,可以提升语义重复判定的准确性。
在图7实施例中,以在浏览器的搜索场景下,对本公开实施例提供的联想词去重方法进行举例说明。
图7示意性示出了根据本公开的一实施例的联想词去重方法的界面示意图。如图7所示,假设用户在搜索框中输入查询关键词“核酸”,搜索引起召回一系列的候选联想词,通过采用本公开实施例提供的联想词去重方法,就可以判别出这些候选联想词中存在的语义重复的候选联想词,最终只在该搜索框下方自动显示去重过滤后的目标联想词,例如“核酸检测法”、“核酸检测”、“核酸检测费用”、“核酸检测有效期”、“核酸检测多钱”、“核酸检测一次多少钱多久出结果”、“核酸检查服务”、“核酸检测花钱吗”、“核酸结果网上查询”、“核酸检测怎么查结果”等,从而能够提前为用户去掉语义重复的候选联想词,使得浏览器的搜索引擎展示的目标联想词重复率明显下降,能够尽可能多地为用户提供更具多样性的联想词,帮助用户更快地找到想要的信息,满足用户更多的需求,进而提升联想词的采纳率。对于显示的第一条目标联想词,可以进一步在该第一条目标联想词和第二条目标联想词之间显示与该第一条目标联想词相关的详细信息,例如“核酸检测法是通过查找患者的呼吸道标本、血液或粪便…”。用户可以点击搜索框后面的搜索按钮进行搜索。
需要说明的是,虽然图7实施例仅以搜索场景为例进行举例说明,但本公开提供的方法可以应用于许多其他的场景,例如输入法、翻译、热点话题自动检测、拼字检查、抄袭侦测等场景。
图8示意性示出了根据本公开的一实施例的联想词去重装置的框图。如图8所示,本公开实施例提供的联想词去重装置800可以包括候选联想词获得单元810、语义关联特征向量获得单元820、第一语义重复指标获得单元830、搜索行为重叠特征获得单元840、第二语义重复指标获得单元850以及候选联想词去重过滤单元860。
本公开实施例中,候选联想词获得单元810可以用于对查询关键词进行语义召回,获得所述查询关键词的候选联想词。语义关联特征向量获得单元820可以用于获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度。第一语义重复指标获得单元830可以用于利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标。搜索行为重叠特征获得单元840可以用于获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度。第二语义重复指标获得单元850可以用于利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标。候选联想词去重过滤单元860可以用于根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
在示例性实施例中,所述候选联想词中可包括第一联想词和第二联想词。其中,语义关联特征向量获得单元820可以包括:距离信息获得单元,可以用于获得所述第一联想词和所述第二联想词之间的距离信息;公共字符信息获得单元,可以用于获得所述第一联想词和所述第二联想词之间的公共字符信息;字符串长度信息获得单元,可以用于获得所述第一联想词和所述第二联想词之间的字符串长度信息,其中所述第一联想词和所述第二联想词之间的字符串长度信息包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比中的至少一个;语义关联特征表示向量生成单元,可以用于根据所述第一联想词和所述第二联想词之间的距离信息、公共字符信息和字符串长度信息,生成所述第一联想词和所述第二联想词之间的语义关联特征表示向量。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息可以包括所述第一联想词和所述第二联想词之间的语义距离。其中,所述距离信息获得单元可以包括:语义相似度获得单元,可以用于获得所述第一联想词和所述第二联想词之间的语义相似度;字符串公共前缀长度获得单元,可以用于获得所述第一联想词和所述第二联想词之间的字符串公共前缀长度;相似度权重获得单元,可以用于确定所述字符串公共前缀长度的相似度权重;编辑相似度获得单元,可以用于根据所述第一联想词和所述第二联想词之间的语义相似度、字符串公共前缀长度和所述字符串公共前缀长度的相似度权重,获得所述第一联想词和所述第二联想词之间的编辑相似度;语义距离生成单元,可以用于根据所述第一联想词和所述第二联想词之间的编辑相似度,获得所述第一联想词和所述第二联想词之间的语义距离。
在示例性实施例中,所述语义相似度获得单元可以包括:字符串长度获得单元,可以用于获得所述第一联想词的第一字符串长度和所述第二联想词的第二字符串长度;匹配字符数量获得单元,可以用于获得所述第一联想词和所述第二联想词之间的匹配字符数量;字符转换次数获得单元,可以用于获得所述第一联想词和所述第二联想词之间的字符转换次数;语义相似度生成单元,可以用于根据所述第一字符串长度、所述第二字符串长度、所述匹配字符数量和所述字符转换次数,获得所述第一联想词和所述第二联想词之间的语义相似度。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息可以包括所述第一联想词和所述第二联想词之间的编辑距离。其中,所述距离信息获得单元可以包括:最少编辑操作次数获得单元,可以用于获得所述第一联想词和所述第二联想词之间由一个转换成另一个所需的最少编辑操作次数;编辑距离生成单元,可以用于根据所述最少编辑操作次数获得所述第一联想词和所述第二联想词之间的编辑距离。
在示例性实施例中,所述第一联想词和所述第二联想词之间的距离信息可以包括所述第一联想词和所述第二联想词之间的相似距离。其中,所述距离信息获得单元可以包括:字集合获得单元,可以用于获得所述第一联想词的第一字集合和所述第二联想词的第二字集合,所述第一字集合包括所述第一联想词中不重复的字,所述第二字集合包括所述第二联想词中不重复的字;交集元素个数获得单元,可以用于获得所述第一字集合和所述第二字集合之间的交集元素个数;并集元素个数获得单元,可以用于获得所述第一字集合和所述第二字集合之间的并集元素个数;相似系数获得单元,可以用于根据所述第一字集合和所述第二字集合之间的交集元素个数和并集元素个数,获得所述第一联想词和所述第二联想词之间的相似系数;相似距离生成单元,可以用于根据所述第一联想词和所述第二联想词之间的相似系数,获得所述第一联想词和所述第二联想词之间的相似距离。
在示例性实施例中,所述第一联想词和所述第二联想词之间的公共字符信息可以包括所述第一联想词和所述第二联想词之间的最长字符串公共前缀长度、公共字占比、字集合并集、字集合交集等中的至少一个。
在示例性实施例中,当所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的公共字占比,则所述公共字符信息获得单元可以包括:字序列获得单元,可以用于获得所述第一联想词的第一字序列和所述第二联想词的第二字序列;第一字符公共字获得单元,可以用于根据所述第一字序列中属于所述第二字序列的字符个数,获得第一字符公共字;第二字符公共字获得单元,可以用于根据所述第二字序列中属于所述第一字序列的字符个数,获得第二字符公共字;公共字长度获得单元,可以用于根据所述第一字符公共字的长度和所述第二字符公共字的长度,获得公共字长度;字序列长度获得单元,可以用于根据所述第一字序列的长度和所述第二字序列的长度,获得字序列长度;公共字占比获得单元,可以用于根据所述公共字长度和所述字序列长度,获得所述第一联想词和所述第二联想词之间的公共字占比。
在示例性实施例中,所述第一联想词和所述第二联想词之间的字符串长度信息可以包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比等中的至少一个。
在示例性实施例中,所述候选联想词中包括第一联想词和第二联想词。其中,搜索行为重叠特征获得单元840可以包括:第一点击曝光信息获得单元,可以用于获得所述第一联想词作为搜索关键词,在预定时间段内的第一历史点击网页链接及其第一历史点击量、以及第一历史曝光网页链接及其第一历史曝光量;第二点击曝光信息获得单元,可以用于获得所述第二联想词作为搜索关键词,在所述预定时间段内的第二历史点击网页链接及其第二历史点击量、以及第二历史曝光网页链接及其第二历史曝光量;点击曝光重叠度获得单元,可以用于根据所述第一历史点击网页链接及其第一历史点击量、以及所述第一历史曝光网页链接及其第一历史曝光量、所述第二历史点击网页链接及其第二历史点击量、以及所述第二历史曝光网页链接及其第二历史曝光量,获得所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度;搜索行为重叠特征生成单元,可以用于根据所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度,生成不同候选联想词之间的历史搜索行为重叠特征表示向量。
在示例性实施例中,所述候选联想词中可以包括第一联想词和第二联想词。其中,候选联想词去重过滤单元860可以包括取并集单元或者加权求和单元。其中,所述取并集单元可以用于若所述第一联想词和所述第二联想词之间的第一语义重复指标大于第一阈值或者所述第二语义重复指标大于第二阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。所述加权求和单元可以用于根据所述第一联想词和所述第二联想词之间的第一语义重复指标和第二语义重复指标,确定所述第一联想词和所述第二联想词之间的目标语义重复指标;若所述第一联想词和所述第二联想词之间的目标语义重复指标大于目标阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。
本公开实施例的联想词去重装置的其它内容可以参照上述实施例。
本公开实施例提供的联想词去重方法可以结合区块链(Blockchain)技术来实现,例如可以将预先训练好的分类模型分布式地存储在区块链中,也可以将计算获得的第一联想词和第二联想词之间的距离信息、公共字符信息、字符串长度信息以及语义关联特征表示向量、历史搜索行为重叠特征表示向量等分布式地存储在区块链中,还可以将任意两个候选联想词之间是否存在语义重复的预测结果存储在区块链中。
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
下面参考图9,其示出了适于用来实现本申请实施例的电子设备的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。图9中的电子设备例如可以为服务器,但本公开并不限定于此。
参照图9,本公开实施例提供的电子设备可以包括:处理器101、通信接口102、存储器103和通信总线104。
其中处理器101、通信接口102和存储器103通过通信总线104完成相互间的通信。
可选的,通信接口102可以为通信模块的接口,如GSM(Global System for Mobilecommunications,全球移动通信***)模块的接口。处理器101用于执行程序。存储器103用于存放程序。程序可以包括计算机程序,该计算机程序包括计算机操作指令。
处理器101可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。
存储器103可以包含高速RAM(random access memory,随机存取存储器)存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,程序可具体用于:对查询关键词进行语义召回,获得所述查询关键词的候选联想词;获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种联想词去重方法,其特征在于,包括:
对查询关键词进行语义召回,获得所述查询关键词的候选联想词;
获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;
利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;
获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;
利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;
根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
2.根据权利要求1所述的方法,其特征在于,所述候选联想词中包括第一联想词和第二联想词;其中,获得不同候选联想词之间的语义关联特征表示向量,包括:
获得所述第一联想词和所述第二联想词之间的距离信息;
获得所述第一联想词和所述第二联想词之间的公共字符信息;
获得所述第一联想词和所述第二联想词之间的字符串长度信息,其中所述第一联想词和所述第二联想词之间的字符串长度信息包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比中的至少一个;
根据所述第一联想词和所述第二联想词之间的距离信息、公共字符信息和字符串长度信息,生成所述第一联想词和所述第二联想词之间的语义关联特征表示向量。
3.根据权利要求2所述的方法,其特征在于,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的语义距离;其中,获得所述第一联想词和所述第二联想词之间的距离信息,包括:
获得所述第一联想词和所述第二联想词之间的语义相似度;
获得所述第一联想词和所述第二联想词之间的字符串公共前缀长度;
确定所述字符串公共前缀长度的相似度权重;
根据所述第一联想词和所述第二联想词之间的语义相似度、字符串公共前缀长度和所述字符串公共前缀长度的相似度权重,获得所述第一联想词和所述第二联想词之间的编辑相似度;
根据所述第一联想词和所述第二联想词之间的编辑相似度,获得所述第一联想词和所述第二联想词之间的语义距离。
4.根据权利要求3所述的方法,其特征在于,获得所述第一联想词和所述第二联想词之间的语义相似度,包括:
获得所述第一联想词的第一字符串长度和所述第二联想词的第二字符串长度;
获得所述第一联想词和所述第二联想词之间的匹配字符数量;
获得所述第一联想词和所述第二联想词之间的字符转换次数;
根据所述第一字符串长度、所述第二字符串长度、所述匹配字符数量和所述字符转换次数,获得所述第一联想词和所述第二联想词之间的语义相似度。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的编辑距离;其中,获得所述第一联想词和所述第二联想词之间的距离信息,包括:
获得所述第一联想词和所述第二联想词之间由一个转换成另一个所需的最少编辑操作次数;
根据所述最少编辑操作次数获得所述第一联想词和所述第二联想词之间的编辑距离。
6.根据权利要求2至4任一项所述的方法,其特征在于,所述第一联想词和所述第二联想词之间的距离信息包括所述第一联想词和所述第二联想词之间的相似距离;其中,获得所述第一联想词和所述第二联想词之间的距离信息,包括:
获得所述第一联想词的第一字集合和所述第二联想词的第二字集合,所述第一字集合包括所述第一联想词中不重复的字,所述第二字集合包括所述第二联想词中不重复的字;
获得所述第一字集合和所述第二字集合之间的交集元素个数;
获得所述第一字集合和所述第二字集合之间的并集元素个数;
根据所述第一字集合和所述第二字集合之间的交集元素个数和并集元素个数,获得所述第一联想词和所述第二联想词之间的相似系数;
根据所述第一联想词和所述第二联想词之间的相似系数,获得所述第一联想词和所述第二联想词之间的相似距离。
7.根据权利要求2所述的方法,其特征在于,所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的最长字符串公共前缀长度、公共字占比、字集合并集、字集合交集中的至少一个;其中,当所述第一联想词和所述第二联想词之间的公共字符信息包括所述第一联想词和所述第二联想词之间的公共字占比,则获得所述第一联想词和所述第二联想词之间的公共字符信息,包括:
获得所述第一联想词的第一字序列和所述第二联想词的第二字序列;
根据所述第一字序列中属于所述第二字序列的字符个数,获得第一字符公共字;
根据所述第二字序列中属于所述第一字序列的字符个数,获得第二字符公共字;
根据所述第一字符公共字的长度和所述第二字符公共字的长度,获得公共字长度;
根据所述第一字序列的长度和所述第二字序列的长度,获得字序列长度;
根据所述公共字长度和所述字序列长度,获得所述第一联想词和所述第二联想词之间的公共字占比。
8.根据权利要求1所述的方法,其特征在于,所述候选联想词中包括第一联想词和第二联想词;其中,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,包括:
获得所述第一联想词作为搜索关键词,在预定时间段内的第一历史点击网页链接及其第一历史点击量、以及第一历史曝光网页链接及其第一历史曝光量;
获得所述第二联想词作为搜索关键词,在所述预定时间段内的第二历史点击网页链接及其第二历史点击量、以及第二历史曝光网页链接及其第二历史曝光量;
根据所述第一历史点击网页链接及其第一历史点击量、以及所述第一历史曝光网页链接及其第一历史曝光量、所述第二历史点击网页链接及其第二历史点击量、以及所述第二历史曝光网页链接及其第二历史曝光量,获得所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度;
根据所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度,生成不同候选联想词之间的历史搜索行为重叠特征表示向量。
9.根据权利要求1所述的方法,其特征在于,所述候选联想词中包括第一联想词和第二联想词;其中,根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,包括:
若所述第一联想词和所述第二联想词之间的第一语义重复指标大于第一阈值或者所述第二语义重复指标大于第二阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词;或者,
根据所述第一联想词和所述第二联想词之间的第一语义重复指标和第二语义重复指标,确定所述第一联想词和所述第二联想词之间的目标语义重复指标;
若所述第一联想词和所述第二联想词之间的目标语义重复指标大于目标阈值,则判定所述第一联想词和所述第二联想词之间存在语义重复,选择所述第一联想词或者所述第二联想词作为所述目标联想词。
10.一种联想词去重装置,其特征在于,包括:
候选联想词获得单元,用于对查询关键词进行语义召回,获得所述查询关键词的候选联想词;
语义关联特征向量获得单元,用于获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;
第一语义重复指标获得单元,用于利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;
搜索行为重叠特征获得单元,用于获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度;
第二语义重复指标获得单元,用于利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;
候选联想词去重过滤单元,用于根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至9任一项所述的方法。
12.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368415.4A CN112765966B (zh) | 2021-04-06 | 2021-04-06 | 联想词去重方法及装置、计算机可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368415.4A CN112765966B (zh) | 2021-04-06 | 2021-04-06 | 联想词去重方法及装置、计算机可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765966A true CN112765966A (zh) | 2021-05-07 |
CN112765966B CN112765966B (zh) | 2021-07-23 |
Family
ID=75691152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368415.4A Active CN112765966B (zh) | 2021-04-06 | 2021-04-06 | 联想词去重方法及装置、计算机可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765966B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407965A (zh) * | 2021-06-17 | 2021-09-17 | 海南海锐众创科技有限公司 | 存证文档加密*** |
CN115314737A (zh) * | 2021-05-06 | 2022-11-08 | 青岛聚看云科技有限公司 | 一种内容显示方法、显示设备及服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013591A1 (en) * | 2011-07-08 | 2013-01-10 | Microsoft Corporation | Image re-rank based on image annotations |
US20130297545A1 (en) * | 2012-05-04 | 2013-11-07 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
CN107958078A (zh) * | 2017-12-13 | 2018-04-24 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
CN109189990A (zh) * | 2018-07-25 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种搜索词的生成方法、装置及电子设备 |
CN110377817A (zh) * | 2019-06-13 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 搜索词条挖掘方法和装置及其在多媒体资源的应用 |
CN111125344A (zh) * | 2019-12-23 | 2020-05-08 | 北大方正集团有限公司 | 相关词推荐方法和装置 |
CN111897926A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 |
CN112328889A (zh) * | 2020-11-23 | 2021-02-05 | 北京字节跳动网络技术有限公司 | 推荐搜索词确定方法、装置、可读介质及电子设备 |
-
2021
- 2021-04-06 CN CN202110368415.4A patent/CN112765966B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013591A1 (en) * | 2011-07-08 | 2013-01-10 | Microsoft Corporation | Image re-rank based on image annotations |
US20130297545A1 (en) * | 2012-05-04 | 2013-11-07 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
CN107958078A (zh) * | 2017-12-13 | 2018-04-24 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
CN109189990A (zh) * | 2018-07-25 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种搜索词的生成方法、装置及电子设备 |
CN110377817A (zh) * | 2019-06-13 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 搜索词条挖掘方法和装置及其在多媒体资源的应用 |
CN111125344A (zh) * | 2019-12-23 | 2020-05-08 | 北大方正集团有限公司 | 相关词推荐方法和装置 |
CN111897926A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 |
CN112328889A (zh) * | 2020-11-23 | 2021-02-05 | 北京字节跳动网络技术有限公司 | 推荐搜索词确定方法、装置、可读介质及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115314737A (zh) * | 2021-05-06 | 2022-11-08 | 青岛聚看云科技有限公司 | 一种内容显示方法、显示设备及服务器 |
CN113407965A (zh) * | 2021-06-17 | 2021-09-17 | 海南海锐众创科技有限公司 | 存证文档加密*** |
CN113407965B (zh) * | 2021-06-17 | 2022-04-22 | 海南海锐众创科技有限公司 | 存证文档加密*** |
Also Published As
Publication number | Publication date |
---|---|
CN112765966B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Call attention to rumors: Deep attention based recurrent neural networks for early rumor detection | |
US11023505B2 (en) | Method and apparatus for pushing information | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测***及方法 | |
WO2019043379A1 (en) | CONTROL OF FACTS | |
Win et al. | Target oriented tweets monitoring system during natural disasters | |
CN109271514B (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
WO2014160282A1 (en) | Classifying resources using a deep network | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
CN112765966B (zh) | 联想词去重方法及装置、计算机可读存储介质和电子设备 | |
Hsu et al. | Integrating machine learning and open data into social Chatbot for filtering information rumor | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN110956021A (zh) | 一种原创文章的生成方法、装置、***及服务器 | |
CN114385780B (zh) | 程序接口信息推荐方法、装置、电子设备和可读介质 | |
Song et al. | Improving neural named entity recognition with gazetteers | |
Mahata et al. | From chirps to whistles: discovering event-specific informative content from twitter | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US20220366295A1 (en) | Pre-search content recommendations | |
EP3635575A1 (en) | Sibling search queries | |
CN113010771A (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
WO2023048807A1 (en) | Hierarchical representation learning of user interest | |
Jain et al. | Review on analysis of classifiers for fake news detection | |
Gupta et al. | Document summarisation based on sentence ranking using vector space model | |
Liu et al. | A Graph Convolutional Network‐Based Sensitive Information Detection Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40044608 Country of ref document: HK |