CN102999495A - 一种同义词语义映射关系确定方法及装置 - Google Patents
一种同义词语义映射关系确定方法及装置 Download PDFInfo
- Publication number
- CN102999495A CN102999495A CN2011102667849A CN201110266784A CN102999495A CN 102999495 A CN102999495 A CN 102999495A CN 2011102667849 A CN2011102667849 A CN 2011102667849A CN 201110266784 A CN201110266784 A CN 201110266784A CN 102999495 A CN102999495 A CN 102999495A
- Authority
- CN
- China
- Prior art keywords
- synonym
- mapping
- mapping relations
- word
- leaf node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种同义词语义映射关系确定方法及装置。一种同义词语义映射关系确定方法包括:获取对文档资源进行挖掘得到的各组同义词词对;对于每一组同义词词对,确定两个同义词的映射方向;遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他非叶子节点存在同义词映射关系。应用上述方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提高利用同义词映射关系召回搜索结果的全面性。
Description
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种同义词语义映射关系确定方法及装置。
背景技术
随着搜索引擎的发展,传统的基于关键词匹配的策略已经无法满足用户的搜索需求,语义匹配策略已经广泛应用于现代搜索引擎中。同义词,是指词条名称不同但这些词条所指代的含义或某个义项所指代的含义相同的词条。作为一种语义匹配资源,同义词在现代搜索引擎中占据着重要的地位。例如,“北京大学”和“北大”构成同义词,则当用户以关键词“北京大学”进行搜索时,搜索引擎能够将包含“北大”相关内容的资源也作为搜索结果展现给用户。
同义词关系往往不仅限存在于两个词之间,例如“哈尔滨工程大学”、“哈尔滨工程学院”、“哈尔滨军工大学”、“哈尔滨船舶学院”、“哈工大”、“哈军工”、“哈船舶”......这些词彼此之间都可以构成同义词,对于这种情况,将这些具有同一词义的多个同义词称为一个同义词簇。
发明内容
为解决上述技术问题,本申请实施例提供一种同义词语义映射关系确定方法及装置,以提高同义词映射资源的完整性,技术方案如下:
本申请提供一种同义词语义映射关系确定方法,包括:
获取对文档资源进行挖掘得到的各组同义词词对;
对于每一组同义词词对,确定两个同义词的映射方向;
遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括:
利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
在本申请的一种实现方式中,在获取同义词词对之后、确定同义词映射方向之前,还包括:
对所获取的同义词词对进行同义词关系验证。
在本申请的一种实现方式中,所述对同义词词对进行同义词关系验证,包括:
分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
在本申请的一种实现方式中,所述确定两个同义词的映射方向,包括:
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为:根据文档资源能够挖掘出双向替换关系的同义词。
在本申请的一种实现方式中,所述确定两个同义词的映射方向,包括:
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为:根据文档资源仅能挖掘出单向替换关系的同义词。
在本申请的一种实现方式中,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括:
判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
在本申请的一种实现方式中,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括:
判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
本申请还提供一种同义词语义映射关系确定装置,其特征在于,包括:
同义词词对获取模块,用于获取对文档资源进行挖掘得到的各组同义词词对;
映射方向确定模块,用于对于每一组同义词词对,确定两个同义词的映射方向;
关系树构建模块,用于遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
映射关系确定模块,用于判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为:
用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
在本申请的一种实现方式中,所述装置还包括:
同义关系验证模块,用于在所述同义词词对获取模块获取同义词词对之后、所述映射方向确定模块确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词词对进行同义词关系验证。
在本申请的一种实现方式中,所述同义关系验证模块,具体配置为:
用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
在本申请的一种实现方式中,所述映射方向确定模块,具体配置为:
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为:根据文档资源能够挖掘出双向替换关系的同义词。
在本申请的一种实现方式中,所述映射方向确定模块,具体配置为:
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为:根据文档资源仅能挖掘出单向替换关系的同义词。
在本申请的一种实现方式中,所述映射关系确定模块,具体配置为:
用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。
在本申请的一种实现方式中,所述映射关系确定模块,具体配置为:
用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
本申请所提供的技术方案,根据同义词的映射方向建立同义词映射关系树,将多组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜在的映射关系进行挖掘。应用本申请技术方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提高利用同义词映射关系召回搜索结果的全面性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例同义词语义映射关系确定方法的第一种流程示意图;
图2为本申请实施例同义词映射关系树的第一种示意图;
图3为本申请实施例同义词语义映射关系确定方法的第二种流程示意图;
图4为本申请实施例同义词映射关系树的第二种示意图;
图5为本申请实施例同义词映射关系树的第三种示意图;
图6为本申请实施例同义词语义映射关系确定装置的第一种结构示意图;
图7为本申请实施例同义词语义映射关系确定装置的第二种结构示意图。
具体实施方式
首先对本申请所提供的一种同义词语义映射关系确定方法进行说明,该方法可以包括以下步骤:
获取对文档资源进行挖掘得到的各组同义词词对;
对于每一组同义词词对,确定两个同义词的映射方向;
遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
本申请所提供的技术方案,根据同义词的映射方向建立同义词映射关系树,将多组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜在的映射关系进行挖掘。应用本申请技术方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提高利用同义词映射关系召回搜索结果的全面性。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示为本申请实施例一种同义词语义映射关系确定方法的流程图,包括以下步骤:
S101,获取对文档资源进行挖掘得到的各组同义词词对;
本申请所提供的技术方案,首先从现有的文档资源获取同义词词对资源。这里的文档资源可以是网页上的内容,也可以是文本文件中的内容,也可以是用户的行为日志,等等。通过对这些文档内容的挖掘,可以得到大量的同义词词对。
本申请实施例提供以下几种对文档内容进行挖掘,从而自动获得同义词词对的实现方案:
1)根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
一般来说,用户在搜索过程中,为了得到更多的搜索结果,可能会针对同一主题,尝试使用不同形式的搜索关键词进行搜索,那么,在这些不同形式的搜索关键词中,就可能存在同义词。用户的这种搜索行为记录在行为日志的表现为:搜索间隔的时间较短,并且搜索关键词的本身具有相同或相似的部分。例如,用户连续采用关键词“耐克运动鞋”与“NIKE运动鞋”进行搜索,这种情况下就可以认为“NIKE”与“耐克”可以构成一组同义词。通过对用户行为日志中这类数据进行挖掘,就可以得到大量的潜在的同义词词对。
2)根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
用户向***提交一个搜索请求后,***会将相应的搜索结果展现给用户,而用户对搜索结果的点击行为,则表示用户对搜索请求与搜索结果相关性的认可。此时可以认为用户的搜索请求与网页内容中存在着同义词。例如,用户使用关键词“北大医院”进行搜索,并且进一步点击了主题为“北京大学医院”的网页,这种情况下就可以认为“北大医院”与“北京大学医院”可以构成一组同义词。因此,在实际应用中,通过收集搜索请求与点击网页特定部分(例如标题部分)的内容,然后再进行词对齐处理,就可以得到潜在的同义词词对。
3)根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
对于一个网页而言,用户访问该网页可能是通过不同的途径。其中,在通过搜索访问到该网页的情况下,不同的用户可能是采用不同的搜索请求从而获得该网页链接并点击进入的。那么,这些不同的搜索请求中,也可能存在着同义词。
例如,对应百度百科“赛尔号”的网页,通过统计大量用户的行为日志,可以得到用户点击该网页所使用的高频率搜索关键词包括“赛尔号”、“塞尔号”、“塞亚号”等等,那么,可以将使用频率超过一定阈值的这类搜索关键词都看作是潜在的同义词。
4)利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
除了基于用户的行为进行同义词挖掘之外,还可以预先定义一些常用于表示同义词的模板,例如:“A简称B”、“A全称是B”等等,然后分别利用这些模板与文档的内容进行匹配,从而获得同义词词对。
以上例举了几种根据已有的文档资源进行同义词挖掘的方案,当然,本领域技术人员还可以采用其他方式获得同义词词对,本申请对此并不需要进行限定。
在本申请的一种实施方式中,获得同义词词对之后,还可以进一步对同义词关系进行验证。其中,验证可以采用人工的方式,将明显不符合要求的词对排除。也可以通过对比两个词所在语言环境的相似程度,实现对同义词关系的自动验证。
在具体实施过程中,可以分别利用两个同义词的上下文特征词构成特征向量,然后利用余弦夹角公式计算两个向量的相似度,如果相似度大于预设的阈值,则验证通过。例如,在“耐克”上文出现的高频特征词包括{喜欢,购买,正品,网上},在下文出现的高频特征词包括{运动鞋,板鞋,篮球鞋,品牌,公司,专卖店},而“NIKE”所对应的上文和下文信息和“耐克”基本类似,因此可以认为“NIKE”和“耐克”的同义词关系验证通过。
除了对比上下文特征之外,本领域技术人员还可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进行验证,等等。
S102,对于每一组同义词词对,确定两个同义词的映射方向;
本申请方案是以树形结构来表示多个同义词的关系,由于树是有方向性的,因此,对于每一组同义词词对,需要首先确定两个同义词的在树形结构中的映射方向。
一般来说,从步骤S101所挖掘获得的同义词中,有多数是根据文档资源能够挖掘出双向替换关系的,这类同义词称为双向可替换同义词,例如“NIKE”和“耐克”。对于双向可替换同义词,首先统计这两个同义词在文档资源中的出现频率,然后将低频词到高频词的方向确定为两个同义词的映射方向。
如果在步骤S101中,根据文档资源仅能挖掘出单向替换关系,例如,采用“简称”、“全称”这类模板挖掘出的同义词词对,并且该同义词词对没有对应的资源支持其反向替换关系,则将这类同义词称为单向可替换同义词。对于,单向可替换同义词,直接将同义词的替换方向确定为所述两个同义词的映射方向;例如,根据“北京大学医院简称北大医院”可确定“北京大学医院→北大医院”的替换关系,同时在文档资源里又没有其他信息可以支持反向的替换关系,因此,认为这两个词构成单向可替换同义词,并且将“北京大学医院→北大医院”确定为两个同义词的映射方向。
在实际应用中,有些同义词存在歧义替换,例如“山东大学”和“山西大学”都可以替换为“山大”,但是反过来,“山大”进行同义替换时就存在歧义,这类同义词会影响搜索结果的准确性。因此,在本申请的一种优选的实施方式中,还可以判断所挖掘的同义词是否存在歧义替换,即判断一个候选词是否存在多个可替换的同义词,如果是,则丢弃该同义词词对,不在后续生成同义词映射关系树的过程中使用。
S103,遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
在本步骤中,对于已确定映射方向的多个同义词词对,按照同义词级联的方式,采用深度优先的遍历方法建立同义词映射关系树。具体方法是:首先选取目前尚不属于同义词映射关系树的任意一组同义词词对,根据已确定的映射方向,将映射起点作为根节点,映射终点作为该根节点的子节点。如果根节点还存在其他同义词,并且根节点处于映射方向的起点位置,则继续建立其他分支。同理,如果子节点还存在其他同义词,并且该子节点处于映射方向的起点位置,则继续针对该子节点对树进行延伸......重复以上步骤,直到遍历所有的同义词词对。其中每组映射的起点和终点都分别对应于树形结构的父节点和子节点,最终形成一棵同义词语义映射关系树。
假设当前存在以下八组同义词词对(映射方向均为由前到后):
A-B,B-C,B-D,C-E,C-F,D-G,F-E,G-E,
首先选择A-B这一组,根据映射关系,将A作为根节点,B作为A的子节点。然后,根据B-C,B-D又可以确定B和C、B和D的父子关系......以此类推,最终建成的同义词映射关系树如图2所示。
S104,判断所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
本步骤是判断在S103所建成的同义词映射关系树的叶子节点是否唯一,如果是,则树收敛于唯一的叶子节点,此时可以确定该叶子节点与其他节点存在同义词映射关系。
以图2为例,同义词映射关系树共有3个叶子节点,并且都是E,因此该树收敛于叶子节点E,可以确定A-E,B-E,C-E,D-E,F-E,G-E存在同义词映射关系。并且可以进一步确定,该树所有的节点之间彼此都存在映射关系。可见,对于A~E这7个同义词,理论上应存在组映射关系,除去可以根据现有文本挖掘到的8组关系,应用本申请技术方案,还可以进一步挖掘到其他隐含的同义词关系,例如A-C,A-E,A-D,B-E,B-F,B-G等。
应用上述方法,对于所有的同义词建成不同的树并判断收敛之后,对于每棵同义词映射关系树,可以保存每组“非叶子节点-叶子节点”的对应关系,然后通过去重处理,最终生成整个语义映射文件。例如,对于图2所示的同义词映射关系树,将保存“A-E,B-E,C-E,D-E,F-E,G-E”这6组关系。可见,对于21组关系可以仅通过“A-E,B-E,C-E,D-E,F-E,G-E”这6组关系完备描述,也可以有效减小语义映射文件的体积。
对于所有出现A、B、C、D、F或G的网页,***都可以对应建立E的语义索引。在搜索时,假如用户以关键词A进行搜索,那么***首先会根据A-E的关系,将搜索映射到E上,然后进一步E的其他同义词关系,从而将所有包含A、B、C、D、E、F或G相关内容的资源都作为搜索结果展现给用户,从而提高了搜索结果的全面性。
图3所示为本申请所提供的同义词语义映射关系确定方法的另一种流程示意图,包括以下步骤:
S201,获取对文档资源进行挖掘得到的各组同义词词对;
S202,对于每一组同义词词对,确定两个同义词的映射方向;
S203,遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
其中步骤S201-S203与步骤S101-S103类似,这里不再重复描述。
S204,判断所述同义词映射关系树是否收敛于相同的叶子节点,如果是,执行S205,否则执行S206。
S205,确定该同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
S206,判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值,如果是,执行207;
如图4所示,同义词映射关系树并没有收敛至相同的节点,此时如果判断出出现次数最多的叶子节点所有叶子节点中占有一定的比例,则可以对不收敛的节点做进一步的处理。如果没有达到要求的比例,可以放弃当前的同义词映射关系树。
假设预先设置的阈值为0.7,如图3所示的同义词映射关系树共有4个叶子节点,其中E出现的次数最多(3次),并且在所有节点中占的比例达到了0.75,满足了阈值要求,因此可以进一步执行S207。
S207,对该叶子节点和其他叶子节点分别进行同义词关系验证。
如图3所示,对出现次数最多的叶子节点和其他叶子节点分别进行同义词关系验证,如图3所示,出现次数最多的叶子节点为E,其他叶子节点为H。这里可以采用与步骤S101中类似的同义词验证方式,如果满足验证条件,则进一步执行S208。
S208,确定该同义词映射关系树收敛到出现次数最多的叶子节点,并且确定该叶子节点与其他节点存在同义词映射关系。
如果在S207中,出现次数最多的叶子节点和其他叶子节点之间均满足同义词验证条件,此时可以确定该叶子节点与其他叶子节点存在同义词映射关系,并且确定该叶子节点与其他非叶子节点存在同义词映射关系。如图4所示,如果叶子节点E和H满足同义词验证条件,那么可以确定E和H存在同义词映射关系,此外还可以确定A-E,B-E,C-E,D-E,F-E,G-E存在同义词映射关系。可见,该方案实际是将满足一定条件的非收敛同义词映射关系树也当作收敛树进行处理,并且确定非收敛叶子节点(例如H)与收敛叶子节点(例如E)之间的同义词映射关系,以及确认敛叶子节点(例如E)与非叶子节点(A、B、C、D、E、F、G)的关系。
在本申请的另一种实现方式中,如果在步骤S206中,出现次数最多的叶子节点数目没有在所有叶子节点中达到要求的比例,此时可以对叶子节点较为分散的子树向上回溯,通常可以回溯1~2层,然后以回溯后的节点作为叶子节点,重新判断是否满足阈值,如果满足,可以以回溯后树的形式进一步执行后续步骤,而在回溯过程中抛弃掉的节点可以作为单独的同义词进行处理。
如图5左侧图所示,E出现的次数最多,并且在所有节点中占的比例达到了0.6,没有满足阈值要求。于是对较为分散的叶子节点I和J进行回溯,变为如图5右侧图所示,此时E所有节点中占的比例达到了0.75,满足了阈值要求,因此可以进一步执行后续步骤。而H-I与H-J可以作为单独的同义词进行处理。
相应于上面的方法实施例,本申请还提供一种同义词语义映射关系确定装置,参见图6所示,该装置可以包括:
同义词词对获取模块610,用于获取对文档资源进行挖掘得到的各组同义词词对;
映射方向确定模块620,用于对于每一组同义词词对,确定两个同义词的映射方向;
关系树构建模块630,用于遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
映射关系确定模块640,用于判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
以下对本申请所提供的同义词语义映射关系确定装置的工作原理进行详细介绍:
同义词词对获取模块610首先从现有的文档资源获取同义词词对资源。这里的文档资源可以是网页上的内容,也可以是文本文件中的内容,也可以是用户的行为日志,等等。通过对这些文档内容的挖掘,可以得到大量的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为:
用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
一般来说,用户在搜索过程中,为了得到更多的搜索结果,可能会针对同一主题,尝试使用不同形式的搜索关键词进行搜索,那么,在这些不同形式的搜索关键词中,就可能存在同义词。用户的这种搜索行为记录在行为日志的表现为:搜索间隔的时间较短,并且搜索关键词的本身具有相同或相似的部分。例如,用户连续采用关键词“耐克运动鞋”与“NIKE运动鞋”进行搜索,这种情况下就可以认为“NIKE”与“耐克”可以构成一组同义词。通过对用户行为日志中这类数据进行挖掘,就可以得到大量的潜在的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为:
用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
用户向***提交一个搜索请求后,***会将相应的搜索结果展现给用户,而用户对搜索结果的点击行为,则表示用户对搜索请求与搜索结果相关性的认可。此时可以认为用户的搜索请求与网页内容中存在着同义词。例如,用户使用关键词“北大医院”进行搜索,并且进一步点击了主题为“北京大学医院”的网页,这种情况下就可以认为“北大医院”与“北京大学医院”可以构成一组同义词。因此,在实际应用中,通过收集搜索请求与点击网页特定部分(例如标题部分)的内容,然后再进行词对齐处理,就可以得到潜在的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为:
用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
对于一个网页而言,用户访问该网页可能是通过不同的途径。其中,在通过搜索访问到该网页的情况下,不同的用户可能是采用不同的搜索请求从而获得该网页链接并点击进入的。那么,这些不同的搜索请求中,也可能存在着同义词。
例如,对应百度百科“赛尔号”的网页,通过统计大量用户的行为日志,可以得到用户点击该网页所使用的高频率搜索关键词包括“赛尔号”、“塞尔号”、“塞亚号”等等,那么,可以将使用频率超过一定阈值的这类搜索关键词都看作是潜在的同义词。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为:
用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
除了基于用户的行为进行同义词挖掘之外,还可以预先定义一些常用于表示同义词的模板,例如:“A简称B”、“A全称是B”等等,然后分别利用这些模板与文档的内容进行匹配,从而获得同义词词对。
参见图7所示,本申请所提供的同义词语义映射关系确定装置,还可以进一步包括:
同义关系验证模块650,用于在所述同义词词对获取模块610获得同义词词对之后、所述映射方向确定模块620确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词词对进行同义词关系验证。
其中,所述同义关系验证模块650,可以具体配置为:
用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
在具体实施过程中,可以分别利用两个同义词的上下文特征词构成特征向量,然后利用余弦夹角公式计算两个向量的相似度,如果相似度大于预设的阈值,则验证通过。例如,在“耐克”上文出现的高频特征词包括{喜欢,购买,正品,网上},在下文出现的高频特征词包括{运动鞋,板鞋,篮球鞋,品牌,公司,专卖店},而“NIKE”所对应的上文和下文信息和“耐克”基本类似,因此可以认为“NIKE”和“耐克”的同义词关系验证通过。
除了对比上下文特征之外,本领域技术人员还可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进行验证,等等。
此外,同义关系验证模块650也可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进行验证,等等。
在同义词词对获取模块610得到同义词词对之后,对于每一组同义词词对,由映射方向确定模块620确定两个同义词的在树形结构中的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,可以具体配置为:
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为:根据文档资源能够挖掘出双向替换关系的同义词。
一般来说,挖掘获得的同义词中,有多数是根据文档资源能够挖掘出双向替换关系的,这类同义词称为双向可替换同义词,例如“NIKE”和“耐克”。对于双向可替换同义词,映射方向确定模块620首先统计这两个同义词在文档资源中的出现频率,然后将低频词到高频词的方向确定为两个同义词的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,还可以具体配置为:
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为:根据文档资源仅能挖掘出单向替换关系的同义词。
根据文档资源仅能挖掘出单向替换关系,例如,采用“简称”、“全称”这类模板挖掘出的同义词词对,并且该同义词词对没有对应的资源支持其反向替换关系,则将这类同义词称为单向可替换同义词。对于,单向可替换同义词,直接将同义词的替换方向确定为所述两个同义词的映射方向;例如,根据“北京大学医院简称北大医院”可确定“北京大学医院→北大医院”的替换关系,同时在文档资源里又没有其他信息可以支持反向的替换关系,因此,认为这两个词构成单向可替换同义词,并且将“北京大学医院→北大医院”确定为两个同义词的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,还可以进一步判断所挖掘的同义词是否存在歧义替换,即判断一个候选词是否存在多个可替换的同义词,如果是,则丢弃该同义词词对,不在后续生成同义词映射关系树的过程中使用。
关系树构建模块630,对于已确定映射方向的多个同义词词对,按照同义词级联的方式,采用深度优先的遍历方法建立同义词映射关系树。具体方法是:首先选取目前尚不属于同义词映射关系树的任意一组同义词词对,根据已确定的映射方向,将映射起点作为根节点,映射终点作为该根节点的子节点。如果根节点还存在其他同义词,并且根节点处于映射方向的起点位置,则继续建立其他分支。同理,如果子节点还存在其他同义词,并且该子节点处于映射方向的起点位置,则继续针对该子节点对树进行延伸......重复以上步骤,直到遍历所有的同义词词对。其中每组映射的起点和终点都分别对应于树形结构的父节点和子节点,最终形成一棵同义词语义映射关系树。
映射关系确定模块640,进一步用于判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
在本申请的一种实施方式中,所述映射关系确定模块640,可以具体配置为:
用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。也就是说,判断所建成的同义词映射关系树的叶子节点是否唯一,如果是,则树收敛于唯一的叶子节点,此时可以确定该叶子节点与其他节点存在同义词映射关系。
在本申请的另一种实施方式中,所述映射关系确定模块640,还具体配置为:
用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
映射关系确定模块640如果判断出出现次数最多的叶子节点所有叶子节点中占有一定的比例,如果没有达到要求的比例,可以放弃当前的同义词映射关系树。如果达到了要求的比例,则进一步对出现次数最多的叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则可以确定确定该同义词映射关系树收敛到出现次数最多的叶子节点,并且确定该叶子节点与其他节点存在同义词映射关系。
在本申请的另一种实现方式中,如果出现次数最多的叶子节点数目没有在所有叶子节点中达到要求的比例,映射关系确定模块还可以对叶子节点较为分散的子树向上回溯,通常可以回溯1~2层,然后以回溯后的节点作为叶子节点,重新判断是否满足阈值,如果满足,可以以回溯后树的形式进一步执行后续步骤,而在回溯过程中抛弃掉的节点可以作为单独的同义词进行处理。
应用本申请所提供的同义词语义映射关系确定装置,根据同义词的映射方向建立同义词映射关系树,将多组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜在的映射关系进行挖掘。可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提高利用同义词映射关系召回搜索结果的全面性。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (22)
1.一种同义词语义映射关系确定方法,其特征在于,包括:
获取对文档资源进行挖掘得到的各组同义词词对;
对于每一组同义词词对,确定两个同义词的映射方向;
遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
2.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
3.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
4.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括:
根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
5.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括:
利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
6.根据权利要求1至5任一项所述的方法,其特征在于,在获取同义词词对之后、确定同义词映射方向之前,还包括:
对所获取的同义词词对进行同义词关系验证。
7.根据权利要求6所述的方法,其特征在于,所述对同义词词对进行同义词关系验证,包括:
分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
8.根据权利要求1所述的方法,其特征在于,所述确定两个同义词的映射方向,包括:
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为:根据文档资源能够挖掘出双向替换关系的同义词。
9.根据权利要求1所述的方法,其特征在于,所述确定两个同义词的映射方向,包括:
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为:根据文档资源仅能挖掘出单向替换关系的同义词。
10.根据权利要求1所述的方法,其特征在于,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括:
判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。
11.根据权利要求1所述的方法,其特征在于,在所述同义词映射关系树不收敛于相同叶子节点的情况下,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括:
判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
12.一种同义词语义映射关系确定装置,其特征在于,包括:
同义词词对获取模块,用于获取对文档资源进行挖掘得到的各组同义词词对;
映射方向确定模块,用于对于每一组同义词词对,确定两个同义词的映射方向;
关系树构建模块,用于遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
映射关系确定模块,用于判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
13.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
14.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
15.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为:
用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
16.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为:
用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
17.根据权利要求12至16任一项所述的装置,其特征在于,所述装置还包括:
同义关系验证模块,用于在所述同义词词对获取模块获取同义词词对之后、所述映射方向确定模块确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词词对进行同义词关系验证。
18.根据权利要求17所述的装置,其特征在于,所述同义关系验证模块,具体配置为:
用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
19.根据权利要求12所述的装置,其特征在于,所述映射方向确定模块,具体配置为:
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为:根据文档资源能够挖掘出双向替换关系的同义词。
20.根据权利要求12所述的装置,其特征在于,所述映射方向确定模块,具体配置为:
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为:根据文档资源仅能挖掘出单向替换关系的同义词。
21.根据权利要求12所述的装置,其特征在于,所述映射关系确定模块,具体配置为:
用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。
22.根据权利要求12所述的装置,其特征在于,所述映射关系确定模块,具体配置为:
用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110266784.9A CN102999495B (zh) | 2011-09-09 | 2011-09-09 | 一种同义词语义映射关系确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110266784.9A CN102999495B (zh) | 2011-09-09 | 2011-09-09 | 一种同义词语义映射关系确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102999495A true CN102999495A (zh) | 2013-03-27 |
CN102999495B CN102999495B (zh) | 2016-08-03 |
Family
ID=47928076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110266784.9A Active CN102999495B (zh) | 2011-09-09 | 2011-09-09 | 一种同义词语义映射关系确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102999495B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202038A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 基于迭代的同义词挖掘方法及装置 |
CN106294784A (zh) * | 2016-08-12 | 2017-01-04 | 合智能科技(深圳)有限公司 | 资源搜索方法及装置 |
CN106354715A (zh) * | 2016-09-28 | 2017-01-25 | 医渡云(北京)技术有限公司 | 医疗词汇处理方法及装置 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN111428476A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239742A1 (en) * | 2006-04-06 | 2007-10-11 | Oracle International Corporation | Determining data elements in heterogeneous schema definitions for possible mapping |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
US7890521B1 (en) * | 2007-02-07 | 2011-02-15 | Google Inc. | Document-based synonym generation |
-
2011
- 2011-09-09 CN CN201110266784.9A patent/CN102999495B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239742A1 (en) * | 2006-04-06 | 2007-10-11 | Oracle International Corporation | Determining data elements in heterogeneous schema definitions for possible mapping |
US7890521B1 (en) * | 2007-02-07 | 2011-02-15 | Google Inc. | Document-based synonym generation |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
Non-Patent Citations (1)
Title |
---|
吴云芳等: ""基于图的同义词集自动获取方法"", 《计算机研究与发展》, vol. 48, no. 4, 15 April 2011 (2011-04-15), pages 610 - 616 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202038A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 基于迭代的同义词挖掘方法及装置 |
CN106294784A (zh) * | 2016-08-12 | 2017-01-04 | 合智能科技(深圳)有限公司 | 资源搜索方法及装置 |
CN106294784B (zh) * | 2016-08-12 | 2019-12-17 | 合一智能科技(深圳)有限公司 | 资源搜索方法及装置 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106354715A (zh) * | 2016-09-28 | 2017-01-25 | 医渡云(北京)技术有限公司 | 医疗词汇处理方法及装置 |
CN106354715B (zh) * | 2016-09-28 | 2019-04-16 | 医渡云(北京)技术有限公司 | 医疗词汇处理方法及装置 |
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN111428476A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
CN111428476B (zh) * | 2019-01-09 | 2023-03-31 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102999495B (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063469B (zh) | 一种用于获取相关关键词信息的方法、装置和计算机设备 | |
US20100228742A1 (en) | Categorizing Queries and Expanding Keywords with a Coreference Graph | |
US20110179002A1 (en) | System and Method for a Vector-Space Search Engine | |
CN102999495A (zh) | 一种同义词语义映射关系确定方法及装置 | |
CN103631929A (zh) | 一种用于搜索的智能提示的方法、模块和*** | |
Reinanda et al. | Mining, ranking and recommending entity aspects | |
Li et al. | Bursty event detection from microblog: a distributed and incremental approach | |
CN110738049B (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN103530402A (zh) | 一种基于改进的PageRank的微博关键用户识别方法 | |
US20130066898A1 (en) | Matching target strings to known strings | |
CN102163226A (zh) | 基于映射-化简和分词及邻接排序去重方法 | |
KR102600018B1 (ko) | 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
Elshater et al. | godiscovery: Web service discovery made efficient | |
CN104834736A (zh) | 构建索引库的方法、装置及检索的方法、装置和*** | |
CN103927177A (zh) | 基于LDA模型和PageRank算法建立特征接口有向图的方法 | |
Yun et al. | An efficient approach for mining weighted approximate closed frequent patterns considering noise constraints | |
CN104281275A (zh) | 一种英文的输入方法和装置 | |
CN105389328A (zh) | 一种大规模开源软件搜索排序优化方法 | |
Setayesh et al. | Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm | |
Yang et al. | On characterizing and computing the diversity of hyperlinks for anti-spamming page ranking | |
Nguyen et al. | A method for mining top-rank-k frequent closed itemsets | |
US10235432B1 (en) | Document retrieval using multiple sort orders | |
Zulkifeli et al. | Classic term weighting technique for mining web content outliers | |
Wang et al. | Understanding the Query: THCIB and THUIS at NTCIR-10 Intent Task. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |