CN107688563A

CN107688563A - 一种同义词的识别方法及识别装置

Info

Publication number: CN107688563A
Application number: CN201610641371.7A
Authority: CN
Inventors: 郑婷婷; 毕娅娜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2018-02-13
Anticipated expiration: 2036-08-05
Also published as: CN107688563B

Abstract

本发明公开了一种同义词的识别方法及识别装置，用以提高同义词识别的准确度，进而提高用户查询体验。该方法为：针对归属于同一类别的第一分词和第二分词，计算第一分词与第二分词之间的地址相似度和字面相似度后，进一步根据地址相似度和字面相似度，计算第一分词与第二分词之间的综合相似度，确定综合相似度不小于预设阈值时，判定第一分词与第二分词互为同义词。这样，通过从两个分词之间的地址相似度和字面相似度进行综合考虑，使得计算出的综合相似度更准确，进而，使得同义词的识别结果更精确。而且，针对归属于同一类别的两个分词计算综合相似度，进一步提高了同义词识别的准确度。

Description

一种同义词的识别方法及识别装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种同义词的识别方法及识别装置。

背景技术

同义词，不仅表征意义相同或相近的词语，还表征意义相关的词语。比如：“土豆”和“马铃薯”是意义相同的同义词，“严格”和“严厉”是意义相近的同义词，“就业”和“招聘”是意义相关的同义词，等等。

实际应用中，在互联网领域，特别是在查询搜索领域，同义词的挖掘是一项非常重要的工作，它的实现对于深层理解用户输入的查询信息，丰富查询结果，以及为用户提供更好的查询体验有很大的帮助。目前，获取同义词的方法主要有两种手段，一种是通过语言专家根据词语积累编写同义词库，另一种是采用语义分析技术识别词语的相关度，自动挖掘同义词。由于人工获取同义词需要耗费大量的人力资源和物力资源，效率也比较低，所以，根据语义分析自动识别同义词的方式越来越普遍。

现有技术中，提出了以下两种同义词自动识别方法：

第一种方法：确定需要识别的两个中文词之间的最小编辑距离小于等于编辑距离阈值后，通过判断这两个中文词是否都存在与预设的同义词库中，来判断这两个中文词是否为同义词。

第二种方法：先将查询日志中的每项查询信息划分为词，并分别将划分的每个词与查询日志中的结果地址组成词与结果地址的匹配对，以及根据用户查询匹配对的频率和每个结果地址对应的匹配对的数目，筛选所有的匹配对，并将筛选出的匹配对组成匹配对集合，根据结果地址，从组成的匹配对集合中查找与该结果地址匹配的词，将查找到的词作为同义词。

基于上述分析，现有技术中提出的同义词识别方法存在以下弊端：

(1)针对上述第一种同义词识别方法：若两个词是同义词，但这两个词在文本上不是很接近，即若两个词是同义词，但这两个词之间的编辑距离较远，则可能会导致无法识别这两个同义词；若两个词不是同义词，但这两个词在文本上很接近，即若两个词不是同义词，但这两个词之间的编辑距离较近，则可能会导致识别同义词错误。例如：“香奈儿”和“双C”之间的编辑距离较远，但它们是同义词；又如：“牛奶”和“奶牛”之间的编辑距离较近，但它们不是同义词。而且，在词语信息暴涨的互联网时代，新生词语源源不断，若同义词的识别方法过于依赖预先编写的同义词库，则可能会由于同义词库涵盖的词语比较有限，导致无法识别新生同义词。

(2)针对上述第二种同义词识别方法：该方法虽然不依赖于同义词库作为识别基础，也不采用两个词之间的编辑距离，相对于上述第一种同义词识别方法，提高了同义词识别的准确度，但是，该同义词识别算法比较简单，对同义词的相似程度没有一个量化的计算值进行衡量，识别出的同义词准确度依然很低，进而影响了用户查询体验。

发明内容

本发明实施例提供了一种同义词的识别方法及识别装置，用以解决现有技术中的同义词识别方法存在识别准确度较低，进而影响用户查询体验的问题。

本发明实施例提供的具体技术方案如下：

一种同义词的识别方法，包括：

针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度；其中，上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度；

计算上述第一分词与上述第二分词之间的字面相似度；其中，上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度；

基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度；

确定上述综合相似度不小于预设阈值时，判定上述第一分词与上述第二分词互为同义词。

较佳的，针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度之前，进一步包括：

采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于上述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址；

对预设时间范围内的所有查询信息分别进行分词处理，获取相应的各个分词，并分别统计每一个分词对应的所有用户点击的查询结果地址；

基于每一个分词和每一个分词对应的所有用户点击的查询结果地址，分别生成相应的用户点击查询结果地址集合。

较佳的，计算上述第一分词与上述第二分词之间的地址相似度，包括：

基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，计算第一查询结果地址总数，其中，上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和；

基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，计算第二查询结果地址总数，其中，上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和；

基于上述第一查询结果地址总数和上述第二查询结果地址总数，计算上述第一分词与上述第二分词之间的地址相似度。

较佳的，计算上述第一分词与上述第二分词之间的字面相似度，包括：

统计上述第一字符组与上述第二字符组之间所有相同字符，基于统计的所有相同字符，确定上述第一分词与上述第二分词之间的相同字符总数；

基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数，确定上述第一字符总数与上述第二字符总数之间的最少字符总数，

基于上述相同字符总数和上述最少字符总数，计算上述第一分词与上述第二分词之间的字面相似度。

较佳的，基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度，包括：

确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数，其中，上述第一常数与上述第二常数之和为1；

基于上述地址相似度和上述第一常数，以及上述字面相似度和上述第二常数，计算上述第一分词与上述第二分词之间的综合相似度。

一种同义词的识别装置，包括：

第一计算单元，用于针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度；其中，上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度；

第二计算单元，用于计算上述第一分词与上述第二分词之间的字面相似度；其中，上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度；

第三计算单元，用于基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度；

识别单元，用于确定上述综合相似度不小于预设阈值时，判定上述第一分词与上述第二分词互为同义词。

较佳的，上述识别装置还包括：采集单元，预处理单元，集合生成单元，其中，在上述第一计算单元针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度之前，

上述采集单元，用于采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于上述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址；

上述预处理单元，用于对预设时间范围内的所有查询信息分别进行分词处理，获取相应的各个分词，并分别统计每一个分词对应的所有用户点击的查询结果地址；

上述集合生成单元，用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址，分别生成相应的用户点击查询结果地址集合。

较佳的，计算上述第一分词与上述第二分词之间的地址相似度时，上述第一计算单元具体用于：

较佳的，计算上述第一分词与上述第二分词之间的字面相似度时，上述第二计算单元具体用于：

较佳的，基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度时，上述第三计算单元具体用于：

本发明实施例的有益效果如下：

本发明实施例中，通过计算两个分词之间的综合相似度，即可判断出这两个分词是否是同义词，适用于任意两个分词之间的同义词识别，也不再依赖于预先编写的同义词库，避免了由于同义词库涵盖的词语比较有限，导致无法识别新生同义词的问题。而且，通过从两个分词之间的地址相似度和字面相似度进行双方面考虑，使得计算出的两个分词之间的综合相似度更准确，进而提高了同义词识别的精确度。进一步地，针对归属于同一类别的两个分词计算综合相似度，进一步提高了同义词识别的准确度。

附图说明

图1为本发明实施例中同义词识别方法的概况示意图；

图2为本发明实施例中同义词识别方法的具体流程示意图；

图3为本发明实施例中同义词识别装置的功能结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中的同义词识别方法存在识别准确度较低，进而影响用户查询体验的问题，本发明实施例中，会针对归属于同一类别的第一分词和第二分词，先计算上述第一分词和上述第二分词之间的地址相似度和字面相似度，再基于上述第一分词和上述第二分词之间的地址相似度和字面相似度，计算上述第一分词和上述第二分词之间的综合相似度，最后，在确定上述综合相似度不小于预设阈值时，就可以判定上述第一分词与上述第二分词互为同义词。

下面通过具体实施例对本发明方案进行详细描述，当然，本发明并不限于以下实施例。

参阅图1所示，本发明实施例提供的同义词识别方法，可以应用于但不限于：搜索引擎服务器，具体地，搜索引擎服务器采用的同义词识别方法的流程如下：

步骤100：针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度；其中，上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度。

在实际应用中，在执行步骤100之前，搜索引擎服务器还会执行但不限于以下步骤：

首先，搜索引擎服务器实时采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于上述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址。

然后，搜索引擎服务器对预设时间范围内的所有查询信息分别进行分词处理，获取相应的各个分词，并对各个分词进行分类，以及针对各个类别包含的每一个分词，分别统计每一个分词对应的所有用户点击的查询结果地址。

值得说的是，搜索引擎服务器在对预设时间范围内的所有查询信息分别进行分词处理之前，还会针对各个查询信息分别进行去特殊符号处理、去停词处理等相关处理。比如：针对查询信息“鲜花店(知春路店)”，搜索引擎服务器会去除该查询信息中的“括号”；针对查询信息“知春路的鲜花店”，搜索引擎服务器会去除该查询信息中的“的”，等等。具体地，去特殊符号处理、去停词处理等相关处理方法，与现有技术相同，在此不再赘述。

最后，搜索引擎服务器基于每一个分词和每一个分词对应的所有用户点击的查询结果地址，分别生成相应的用户点击查询结果地址集合。

例如：搜索引擎服务器采集到的用户日志信息1中，用户输入的查询信息1为：海淀区知春路的鲜花店；搜索引擎服务器向用户显示的所有查询结果地址为：统一资源定位符(Uniform Resource Locator，URL)1、URL 2、URL 3、URL 4和URL 5；所有用户点击的查询结果地址为：URL 1、URL 2和URL 4。

搜索引擎服务器采集到的用户日志信息2中，用户输入的查询信息2为：海淀鲜花店(知春路店)；搜索引擎服务器向用户显示的所有查询结果地址为：URL 1、URL 2、URL 3、URL 4和URL 5；所有用户点击的查询结果地址为：URL 1、URL 2、URL 3和URL 4。

搜索引擎服务器针对1个小时内(即预设时间范围内)的所有查询信息(假设有：查询信息1和查询信息2)，去除查询信息1中的“的”，获取相应的查询信息1“海淀区知春路鲜花店”，以及去除查询信息2中的“括号”，获取相应的查询信息2“海淀鲜花店知春路店”。

搜索引擎服务器对查询信息1“海淀区知春路鲜花店”进行分词处理，获取到的各个分词为：海淀区、知春路鲜花店，以及对查询信息2“海淀鲜花店知春路店”进行分词处理，获取到的各个分词为：海淀区、鲜花店知春路店，即搜索引擎服务器获取到的各个分词为：海淀区、知春路鲜花店和鲜花店知春路店。

搜索引擎服务器对获得的3个分词进行分类，比如：将分词“海淀区”归类于“地区类”，将分词“知春路鲜花店”和分词“鲜花店知春路店”归类于“甜品店类”。

下面仅以“甜品店类”包含的分词“知春路鲜花店”和分词“鲜花店知春路店”为例进行详细说明。

搜索引擎服务器针对“甜品店类”包含的分词“知春路鲜花店”，统计该分词对应的所有用户点击的查询结果地址为：URL 1、URL 2和URL 4；以及针对“甜品店类”包含的分词“鲜花店知春路店”，统计该分词对应的所有用户点击的查询结果地址为：URL 1、URL 2、URL3和URL 4。

搜索引擎服务器基于分词“知春路鲜花店”，以及该分词(下面称分词“知春路鲜花店”为KW1)对应的所有用户点击的查询结果地址：URL 1、URL 2和URL 4，生成用户点击查询结果地址集合1，即为{KW1，URL 1，URL 2，URL 4}。

搜索引擎服务器基于分词“鲜花店知春路店”，以及该分词(下面称分词“鲜花店知春路店”为KW2)对应的所有用户点击的查询结果地址：URL 1、URL 2、URL 3和URL 4，生成用户点击查询结果地址集合2，即为{KW2，URL 1，URL 2，URL 3，URL 4}。

较佳的，由于搜索引擎服务器向用户显示的所有查询结果地址中，部分查询结果地址可能与用户输入的查询信息之间的关联度较低，所以，为了避免由于搜索引擎服务器提供的查询结果地址不准确，导致基于搜索引擎服务器提供的查询结果地址计算出的两个分词之间的相似度准确度较差的问题，本发明实施例中，根据用户点击的查询结果地址，计算上述第一分词和上述第二分词之间的地址相似度，这样，搜索引擎服务器向用户显示所有查询结果地址后，由于用户会根据自身需求和期望，向相应的查询结果地址发起访问请求，所以，用户点击的查询结果地址与用户输入的查询信息之间的关联度较高，进而，根据用户点击的查询结果地址计算出的地址相似度的准确度也比较高。

具体地，搜索引擎服务器针对各个类别包含的每一个分词，生成相应的用户点击查询结果地址集合后，针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度时，可以采用但不限于以下方式：

首先，搜索引擎服务器基于上述第一分词对应的第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，以及上述第二分词对应的第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，计算第一查询结果地址总数，其中，上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和。

然后，搜索引擎服务器基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，计算第二查询结果地址总数，其中，上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和。

最后，搜索引擎服务器基于上述第一查询结果地址总数和上述第二查询结果地址总数，计算上述第一分词与上述第二分词之间的地址相似度。

具体地，搜索引擎服务器在计算上述第一分词与上述第二分词之间的地址相似度时，可以采用但不限于以下计算方式：

其中，在上述式(1)中，SIM_chickedurl(KWi，KWi+1)表征分词KWi和分词KWi+1之间的地址相似度，表征第一查询结果地址总数，URL(KWi)∪URL(KWi+1)表征第二查询结果地址总数。

例如：继续沿用上例，搜索引擎服务器根据KW1对应的用户点击查询结果地址集合1{KW1，URL 1，URL 2，URL 4}，以及KW2对应的用户点击查询结果地址集合2{KW2，URL 1，URL2，URL 3，URL 4}，确定用户点击查询结果地址集合1和用户点击查询结果地址集合2之间查询结果地址域名相同的所有查询结果地址为：URL 1、URL 2和URL 4，进一步确定第一查询结果地址总数为3个。

搜索引擎服务器根据{KW1，URL 1，URL 2，URL 4}包含的所有用户点击的查询结果地址数目3个，以及{KW2，URL 1，URL 2，URL 3，URL 4}包含的所有用户点击的查询结果地址数目4个，确定第二查询结果地址总数为：3+4＝7个。

搜索引擎服务器根据第一查询结果地址总数3和第二查询结果地址总数7，计算出KW1与KW2之间的地址相似度为：

步骤101：计算上述第一分词与上述第二分词之间的字面相似度；其中，上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度。

具体地，搜索引擎服务器在计算上述第一分词与上述第二分词之间的字面相似度时，可以采用但不限于以下方式：

首先，搜索引擎服务器统计上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间所有相同字符，基于统计的所有相同字符，确定上述第一分词与上述第二分词之间的相同字符总数。

然后，搜索引擎服务器基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数，确定上述第一字符总数与上述第二字符总数之间的最少字符总数。

最后，搜索引擎服务器基于上述相同字符总数和上述最少字符总数，计算上述第一分词与上述第二分词之间的字面相似度。

值得说的是，搜索引擎服务器在计算上述第一分词与上述第二分词之间的字面相似度时，可以采用但不限于以下计算方式：

其中，在上述式(2)中，SIM_typeface(KWi，KWi+1)表征分词KWi和分词KWi+1之间的字面相似度，/KWi/∩/KWi+1/表征分词KWi和分词KWi+1之间的相同字符总数，Min(/KWi/，/KWi+1/)表征分词KWi和分词KWi+1之间的最少字符总数。

例如：继续沿用上例，搜索引擎服务器根据KW1包含的字符组1：知春路鲜花店和KW2包含的字符组2：鲜花店知春路店，统计字符组1和字符组2之间的所有相同字符为：知春路鲜花店，并进一步根据统计的所有相同字符：知春路鲜花店，确定KW1与KW2之间的相同字符总数为6个。

搜索引擎服务器根据字符组1包含的字符总数6个，以及字符组2包含的字符总数7个，确定最少字符总数为6个。

搜索引擎服务器根据相同字符总数为6个和最少字符总数为6个，计算出KW1和KW2之间的字面相似度为：

步骤102：基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度。

具体地，搜索引擎服务器在计算上述第一分词与上述第二分词之间的总和相似度时，可以采用但不限于以下方式：

搜索引擎服务器确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数后，再基于上述地址相似度和上述第一常数，以及上述字面相似度和上述第二常数，计算上述第一分词与上述第二分词之间的综合相似度，其中，上述第一常数与上述第二常数之和为1。

较佳的，搜索引擎服务器在计算上述第一分词与上述第二分词之间的总和相似度时，可以采用但不限于以下计算方式：

SIM_combined(KWi，KWi+1)＝α×SIM_clickedurl(KWi，KWi+1)+β×SIM_typeface(KWi，KWi+1)………式(3)

其中，在上述式(3)中，SIM_combined(KWi，KWi+1)表征分词KWi和分词KWi+1之间的综合相似度，SIM_clickedurl(KWi，KWi+1)表征分词KWi和分词KWi+1之间的地址相似度，SIM_typeface(KWi，KWi+1)表征分词KWi和分词KWi+1之间的字面相似度，α表征第一常数，β表征第二常数。

值得说的是，上述第一常数和上述第二常数可以根据不同的应用场景进行灵活配置，具体地，若要提高上述地址相似度权重，则可以增大上述第一常数；若要提高上述字面相似度权重，则可以增大上述第二常数。

例如，继续沿用上例，假设第一常数α＝0.6，第二常数β＝0.4。

搜索引擎服务器根据计算出的KW1与KW2之间的地址相似度字面相似度：SIM_typeface(KW1，KW2)＝1，以及第一常数α＝0.6，第二常数β＝0.4，计算出KW1与KW2之间的综合相似度为：

步骤103：确定上述综合相似度不小于预设阈值时，判定上述第一分词与上述第二分词互为同义词。

在实际应用中，搜索引擎服务器确定上述第一分词与上述第二分词之间的综合相似度不小于预设阈值时，判定上述第一分词与上述第二分词互为同义词。值得说的是，上述预设阈值也可以根据不同的应用场景进行灵活设置。

例如：继续沿用上例，假设预设阈值为60％。

搜索引擎服务器计算出KW1和KW2之间的综合相似度为65.7％后，确定综合相似度为65.7％大于预设阈值60％，进一步确定KW1与KW2互为同义词。

下面采用具体的应用场景对上述实施例作进一步详细说明，参阅图2所示，本发明实施例中，同义词识别方法的具体流程如下：

步骤200：搜索引擎服务器实时采集用户查询日志。

其中，采集到的用户日志信息1中，用户输入的查询信息为1：海淀区知春路的鲜花店；搜索引擎服务器向用户显示的所有查询结果地址为：URL 1、URL 2、URL 3、URL 4和URL 5；所有用户点击的查询结果地址为：URL 1、URL 2和URL 4。

采集到的用户日志信息2中，用户输入的查询信息2为：海淀鲜花店(知春路店)；搜索引擎服务器向用户显示的所有查询结果地址为：URL 1、URL 2、URL 3、URL 4和URL 5；所有用户点击的查询结果地址为：URL 1、URL 2、URL 3和URL 4。

步骤201：搜索引擎服务器针对1个小时内的所有查询信息(假设有：查询信息1和查询信息2)，去除查询信息1中的“的”，获取相应的查询信息1“海淀区知春路鲜花店”，以及去除查询信息2中的“括号”，获取相应的查询信息2“海淀鲜花店知春路店”。

步骤202：搜索引擎服务器对查询信息1“海淀区知春路鲜花店”和查询信息2“海淀鲜花店知春路店”分别进行分词处理，获取到相应的各个分词为：海淀区、知春路鲜花店和鲜花店知春路店。

步骤203：搜索引擎服务器对获得的3个分词进行分类，将分词“海淀区”归类于“地区类”，将分词“知春路鲜花店”和分词“鲜花店知春路店”归类于“甜品店类”。

步骤204：搜索引擎服务器针对“甜品店类”包含的分词“知春路鲜花店”，统计该分词对应的所有用户点击的查询结果地址为：URL 1、URL 2和URL 4；以及针对“甜品店类”包含的分词“鲜花店知春路店”，统计该分词对应的所有用户点击的查询结果地址为：URL 1、URL 2、URL 3和URL 4。

步骤205：搜索引擎服务器基于分词“知春路鲜花店”，以及该分词(下面称分词“知春路鲜花店”为KW1)对应的所有用户点击的查询结果地址：URL1、URL 2和URL 4，生成用户点击查询结果地址集合1，即为{KW1，URL 1， URL 2，URL 4}。

步骤206：搜索引擎服务器基于分词“鲜花店知春路店”，以及该分词(下面称分词“鲜花店知春路店”为KW2)对应的所有用户点击的查询结果地址：URL 1、URL 2、URL 3和URL4，生成用户点击查询结果地址集合2，即为{KW2，URL 1，URL 2，URL 3，URL 4}。

步骤207：搜索引擎服务器根据用户点击查询结果地址集合1{KW1，URL1，URL 2，URL 4}，以及用户点击查询结果地址集合2{KW2，URL 1，URL 2，URL 3，URL 4}，确定查询结果地址域名相同的所有查询结果地址为：URL 1、URL 2和URL 4，进一步确定第一查询结果地址总数为3个。

步骤208：搜索引擎服务器根据{KW1，URL 1，URL 2，URL 4}包含的所有用户点击的查询结果地址数目3个，以及{KW2，URL 1，URL 2，URL 3，URL 4}包含的所有用户点击的查询结果地址数目4个，确定第二查询结果地址总数为：3+4＝7个。

步骤209：搜索引擎服务器根据第一查询结果地址总数3个和第二查询结果地址总数7个，计算出KW1与KW2之间的地址相似度为：

步骤210：搜索引擎服务器根据KW1包含的字符组1：知春路鲜花店，以及KW2包含的字符组2：鲜花店知春路店，统计字符组1和字符组2之间的所有相同字符为：知春路鲜花店，并进一步根据统计的所有相同字符：知春路鲜花店，确定KW1与KW2之间的相同字符总数为6个。

步骤211：搜索引擎服务器根据字符组1包含的字符总数6个，以及字符组2包含的字符总数7个，确定最少字符总数为6个。

步骤212：搜索引擎服务器根据相同字符总数为6个和最少字符总数为6个，计算出KW1和KW2之间的字面相似度为：

步骤213：搜索引擎服务器根据计算出的KW1与KW2之间的地址相似度字面相似度：SIM_typeface(KW1，KW2)＝1，以及第一常数α＝0.6，第二常数β＝0.4，计算出KW1与KW2之间的综合相似度为：

步骤214：搜索引擎服务器判断计算出的KW1和KW2之间的综合相似度65.7％是否不小于预设阈值60％，若是，则执行步骤215；否则，执行步骤216。

步骤215：搜索引擎服务器确定KW1与KW2互为同义词。

步骤216：搜索引擎服务器确定KW1与KW2不是同义词。

基于上述实施例，参阅图3所示，本发明实施例中，同义词识别装置，至少包括：

第一计算单元303，用于针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度；其中，上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度；

第二计算单元304，用于计算上述第一分词与上述第二分词之间的字面相似度；其中，上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度；

第三计算单元305，用于基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度；

识别单元306，用于确定上述综合相似度不小于预设阈值时，判定上述第一分词与上述第二分词互为同义词。

较佳的，上述识别装置还包括：采集单元300，预处理单元301，集合生成单元302，其中，在上述第一计算单元303针对归属于同一类别的第一分词和第二分词，计算上述第一分词与上述第二分词之间的地址相似度之前，

上述采集单元300，用于采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于上述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址；

上述预处理单元301，用于对预设时间范围内的所有查询信息分别进行分词处理，获取相应的各个分词，并分别统计每一个分词对应的所有用户点击的查询结果地址；

上述集合生成单元302，用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址，分别生成相应的用户点击查询结果地址集合。

较佳的，计算上述第一分词与上述第二分词之间的地址相似度时，上述第一计算单元303具体用于：

较佳的，计算上述第一分词与上述第二分词之间的字面相似度时，上述第二计算单元304具体用于：

较佳的，基于上述地址相似度和上述字面相似度，计算上述第一分词与上述第二分词之间的综合相似度时，上述第三计算单元305具体用于：

综上所述，本发明实施例中，针对归属于同一类别的第一分词和第二分词，计算第一分词与第二分词之间的地址相似度和字面相似度后，进一步根据地址相似度和字面相似度，计算第一分词与第二分词之间的综合相似度，确定综合相似度不小于预设阈值时，判定第一分词与第二分词互为同义词。这样，通过计算两个分词之间的综合相似度，即可判断出这两个分词是否是同义词，适用于任意两个分词之间的同义词识别，也不再依赖于预先编写的同义词库，避免了由于同义词库涵盖的词语比较有限，导致无法识别新生同义词的问题。而且，通过从两个分词之间的地址相似度和字面相似度进行双方面考虑，使得计算出的两个分词之间的综合相似度更准确，进而，提高了同义词识别的精确度。进一步地，针对归属于同一类别的两个分词计算综合相似度，进一步提高了同义词识别的准确度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种同义词的识别方法，其特征在于，包括：

针对归属于同一类别的第一分词和第二分词，计算所述第一分词与所述第二分词之间的地址相似度；其中，所述地址相似度表征所述第一分词对应的第一用户点击查询结果地址集合与所述第二分词对应的第二用户点击查询结果地址集合之间的相似度；

计算所述第一分词与所述第二分词之间的字面相似度；其中，所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度；

基于所述地址相似度和所述字面相似度，计算所述第一分词与所述第二分词之间的综合相似度；

确定所述综合相似度不小于预设阈值时，判定所述第一分词与所述第二分词互为同义词。

2.如权利要求1所述的识别方法，其特征在于，针对归属于同一类别的第一分词和第二分词，计算所述第一分词与所述第二分词之间的地址相似度之前，进一步包括：

采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于所述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址；

3.如权利要求1或2所述的识别方法，其特征在于，计算所述第一分词与所述第二分词之间的地址相似度，包括：

基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名，计算第一查询结果地址总数，其中，所述第一查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和；

基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目，计算第二查询结果地址总数，其中，所述第二查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间所有查询结果地址的总和；

基于所述第一查询结果地址总数和所述第二查询结果地址总数，计算所述第一分词与所述第二分词之间的地址相似度。

4.如权利要求1或2所述的识别方法，其特征在于，计算所述第一分词与所述第二分词之间的字面相似度，包括：

统计所述第一字符组与所述第二字符组之间所有相同字符，基于统计的所有相同字符，确定所述第一分词与所述第二分词之间的相同字符总数；

基于所述第一字符组包含的第一字符总数和所述第二字符组包含的第二字符总数，确定所述第一字符总数与所述第二字符总数之间的最少字符总数，

基于所述相同字符总数和所述最少字符总数，计算所述第一分词与所述第二分词之间的字面相似度。

5.如权利要求1-4任一项所述的识别方法，其特征在于，基于所述地址相似度和所述字面相似度，计算所述第一分词与所述第二分词之间的综合相似度，包括：

确定表征所述地址相似度权重的第一常数和表征所述字面相似度权重的第二常数，其中，所述第一常数与所述第二常数之和为1；

基于所述地址相似度和所述第一常数，以及所述字面相似度和所述第二常数，计算所述第一分词与所述第二分词之间的综合相似度。

6.一种同义词的识别装置，其特征在于，包括：

第一计算单元，用于针对归属于同一类别的第一分词和第二分词，计算所述第一分词与所述第二分词之间的地址相似度；其中，所述地址相似度表征所述第一分词对应的第一用户点击查询结果地址集合与所述第二分词对应的第二用户点击查询结果地址集合之间的相似度；

第二计算单元，用于计算所述第一分词与所述第二分词之间的字面相似度；其中，所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度；

第三计算单元，用于基于所述地址相似度和所述字面相似度，计算所述第一分词与所述第二分词之间的综合相似度；

识别单元，用于确定所述综合相似度不小于预设阈值时，判定所述第一分词与所述第二分词互为同义词。

7.如权利要求6所述的识别装置，其特征在于，还包括：采集单元，预处理单元，以及集合生成单元，其中，在所述第一计算单元针对归属于同一类别的第一分词和第二分词，计算所述第一分词与所述第二分词之间的地址相似度之前，

所述采集单元，用于采集用户查询日志，其中，一个用户查询日志至少包括：用户输入的查询信息，基于所述查询信息向用户显示的所有查询结果地址，以及所有用户点击的查询结果地址；

所述预处理单元，用于对预设时间范围内的所有查询信息分别进行分词处理，获取相应的各个分词，并分别统计每一个分词对应的所有用户点击的查询结果地址；

所述集合生成单元，用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址，分别生成相应的用户点击查询结果地址集合。

8.如权利要求6或7所述的识别装置，其特征在于，计算所述第一分词与所述第二分词之间的地址相似度时，所述第一计算单元具体用于：

9.如权利要求6或7所述的识别装置，其特征在于，计算所述第一分词与所述第二分词之间的字面相似度时，所述第二计算单元具体用于：

10.如权利要求6-9任一项所述的识别装置，其特征在于，基于所述地址相似度和所述字面相似度，计算所述第一分词与所述第二分词之间的综合相似度时，所述第三计算单元具体用于：