CN105653671A

CN105653671A - 相似信息推荐方法及***

Info

Publication number: CN105653671A
Application number: CN201511017551.XA
Authority: CN
Inventors: 沈磊
Original assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08

Abstract

本发明提出了一种相似信息推荐方法及***，其中，相似信息推荐方法包括：根据搜索内容中的关键词，确定初步候选集；根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；展示所述相似信息。通过本发明的技术方案，避免了简单的关键词搜索无法确认搜索信息的具体语义的问题，可以更加准确地提供与搜索内容相似的信息，提升了用户的搜索效率，也避免用户重复发帖，从而提升了用户的体验。

Description

相似信息推荐方法及***

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种相似信息推荐方法和一种相似信息推荐***。

背景技术

目前，在网络社区中，当用户发帖提问或者浏览与所提问题相关的帖子时，***会主动将类似问题及其答案推荐给用户。比如，当用户在输入框里输入提问的内容时，***会给出类似问题列表，随着用户输入内容的变化，推荐列表也会随之变化。再比如，当用户在浏览与所提问题相关的帖子时，***会给出与用户所提问题类似的问题列表。通过上述方法，将网络中已经缓存的相同或相似的问题及其回答推荐给用户，则无须再次进行重复的提问与回答，既降低了相同或相似帖子的冗余度，也提升了用户的满意度。

但是，上述方法通常只是基于用户提问内容的关键词进行搜索，而不是基于理解用户问题的语义的基础上，这导致了很多相似的问题因为个人表达方式的不同而无法被***推荐。

因此需要一种新的技术方案，可以更加准确地提供与搜索内容相似的信息，提升用户的搜索效率。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，可以更加准确地提供与搜索内容相似的信息，提升用户的搜索效率。

有鉴于此，本发明的一方面提出了一种相似信息推荐方法，包括：根据搜索内容中的关键词，确定初步候选集；根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；展示所述相似信息。

在该技术方案中，可以在根据关键词确定初步候选集后，计算搜索内容与初步候选集中每条信息的语义相似度，从而根据语义相似度确定搜索内容的相似信息推荐给用户。通过该技术方案，避免了简单的关键词搜索无法确认搜索信息的具体语义的问题，可以更加准确地提供与搜索内容相似的信息，提升了用户的搜索效率，也避免用户重复发帖，方便了用户使用。

在上述技术方案中，优选地，所述搜索内容包括提问问题，所述初步候选集中的信息包括：已有的提问问题和已有的问题答案。

在该技术方案中，搜索内容包括提问问题，即用户在论坛等社交网站提出问题，初步候选集中的信息包括已有的提问问题和已有的问题答案，也就是说，在为用户的提问问题进行检索时，可同时覆盖已有的提问问题和已有的问题答案的语义，从而便于更加准确地提供与搜索内容相似的信息，便于为用户展示更精确的答案。

在上述任一技术方案中，优选地，所述根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息，包括：通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及所述展示所述相似信息，包括：按照所述语义相似度从高至低对所述初步候选集中的信息进行排序和展示。

在该技术方案中，可通过语言模型训练单位语义向量。搜索内容中句子的基本语义单位有两种，一种是字，一种是词，词语义和字语义都可以用来构成句子语义，如果用词作为基本单位的话，需要对句子进行分词，用字作为基本单位，需要将句子逐字切分，因此，单位语义向量为字向量或词向量。这两种方法都需要用事先准备好的文字语料根据语言模型训练出字语义向量或者词语义向量，语言模型是计算一个句子的概率模型，它基于马尔科夫假设，也就是说，下一个词的出现仅依赖于它前面的一个或几个词。依据这一原理，可以利用文字语料训练出词向量或者字向量。这样训练出的语义向量之间的关系，可以直接从这两个向量的差里体现出来。向量的差就是数学上的定义，直接逐位相减，比如，语义“king”-语义“queen”≈语义“man”-语义“woman”，与语义“king”-语义“man”+语义“woman”最接近的向量就是语义“queen”。

在该技术方案中，重点在于如何根据字向量或者词向量，得到句子向量，句子向量的质量关系到句子的相似度，进而影响句子推荐的效果。计算句子向量可以采取两种方法：一种是用字(或词)语义向量累加和，作为句子向量，一种是用字(或词)语义向量的平均值，作为句子向量。

通过上述技术方案，可以避免简单的关键词搜索无法确认搜索信息的具体语义的问题，能够更加准确地提供与搜索内容语义相似的信息，提升了用户的搜索效率，也避免用户重复发帖，方便了用户使用。

在上述任一技术方案中，优选地，在所述初步候选集中确定与所述搜索内容对应的相似信息之前，还包括：确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及在所述初步候选集中确定与所述搜索内容对应的相似信息，具体包括：根据所述语义相似度和所述其他相似度确定所述相似信息。

在该技术方案中，可以将关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度中的一项或多项与语义相似度一起作为推荐的标准使用。其中，根据关键词在问题中所占权重，以及用户输入与候选问题(包括其对应的答案)的关键词重合程度，计算得出关键词相似度；关键词去重相似度就是去掉重复关键词的影响，单独计算两者有多少不重复的共同关键词；关键词离散相似度是指用户输入的搜索内容和初步候选集中的信息间关键词是否有相同的分布，是均匀分布，还是集中在某处，一般将用户输入的搜索内容和初步候选集中的信息切分成子句，计算有多少子句包含共同的关键词，作为关键词离散相似度得分。另外，用户的问题有很多是关于软件等产品的，针对不同的产品提出的问题，不应视为相似问题，比如，如果两个问题含有相同的产品词，则产品词相似度为1，不含相同产品词，则产品词相似度为0。通过上述技术方案，语义相似度与其他一种或多种相似度配合使用，可以更加精确地推荐相似信息，提升了用户体验。

在上述任一技术方案中，优选地，在所述根据搜索内容中的关键词，确定初步候选集之前，还包括：去除所述关键词中的表情词和停止词。

在该技术方案中，由于表情词和停止词往往无用，会导致推荐与期望不符，则在形成初步候选集之前可以去掉关键词中的表情词和停止词，提升推荐内容的有效性。

本发明的另一方面提出了一种相似信息推荐***，包括：候选集确定单元，根据搜索内容中的关键词，确定初步候选集；相似信息确定单元，根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；相似信息展示单元，展示所述相似信息。

在上述任一技术方案中，优选地，所述相似信息确定单元包括：向量训练单元，通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；语义相似度计算单元，根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及所述相似信息展示单元具体用于：按照所述语义相似度从高至低对所述初步候选集中的信息进行排序和展示。

在上述任一技术方案中，优选地，还包括：其他相似度确定单元，在所述初步候选集中确定与所述搜索内容对应的相似信息之前，确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及所述相似信息确定单元用于：根据所述语义相似度和所述其他相似度确定所述相似信息。

在上述任一技术方案中，优选地，还包括：去除单元，在所述根据搜索内容中的关键词，确定初步候选集之前，去除所述关键词中的表情词和停止词。

通过以上技术方案，避免了简单的关键词搜索无法确认搜索信息的具体语义的问题，可以更加准确地提供与搜索内容相似的信息，提升了用户的搜索效率，也避免用户重复发帖，从而提升了用户的体验。

附图说明

图1示出了根据本发明的一个实施例的相似信息推荐方法的流程图；

图2示出了根据本发明的一个实施例的相似信息推荐***的框图；

图3示出了根据本发明的一个实施例的进行相似信息推荐的示意图；

图4示出了根据本发明的一个实施例的确定语义相似度的示意图；

图5示出了根据本发明的一个实施例的相似信息推荐界面的示意图；

图6示出了根据本发明的另一个实施例的相似信息推荐界面的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的相似信息推荐方法的流程图。

如图1所示，根据本发明的一个实施例的相似信息推荐方法，包括：

步骤102，根据搜索内容中的关键词，确定初步候选集；

步骤104，根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；

步骤106，展示所述相似信息。

在上述任一技术方案中，优选地，步骤104包括：通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及步骤106包括：按照所述语义相似度从高至低对所述初步候选集中的信息进行排序和展示。

在上述任一技术方案中，优选地，在步骤104之前，还包括：确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及步骤104具体包括：根据所述语义相似度和所述其他相似度确定所述相似信息。

在上述任一技术方案中，优选地，在步骤102之前，还包括：去除所述关键词中的表情词和停止词。

图2示出了根据本发明的一个实施例的相似信息推荐***的框图。

如图2所示，根据本发明的一个实施例的相似信息推荐***200，包括：候选集确定单元202、相似信息确定单元204、相似信息展示单元206。

其中，候选集确定单元202用于根据搜索内容中的关键词，确定初步候选集；相似信息确定单元204用于根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；相似信息展示单元206用于展示所述相似信息。

在上述任一技术方案中，优选地，所述相似信息确定单元204包括：向量训练单元2042和语义相似度计算单元2044。

其中，向量训练单元2042用于通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；语义相似度计算单元2044用于根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及所述相似信息展示单元206具体用于：按照所述语义相似度从高至低对所述初步候选集中的信息进行排序和展示。

在上述任一技术方案中，优选地，还包括：其他相似度确定单元208，在所述初步候选集中确定与所述搜索内容对应的相似信息之前，确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及所述相似信息确定单元204用于：根据所述语义相似度和所述其他相似度确定所述相似信息。

在上述任一技术方案中，优选地，还包括：去除单元210，在所述根据搜索内容中的关键词，确定初步候选集之前，去除所述关键词中的表情词和停止词。

图3示出了根据本发明的另一个实施例的进行相似信息推荐***的框的示意图。

如图3所示，进行相似信息推荐时，***首先使用用户提问的关键词和关键短语在搜索***中进行搜索，得到初步候选问题集，再计算候选集中候选问题与用户提问的相似度，根据相似度排序，得出排序候选集。最后，对排序候选集进行过滤并给出推荐结果。

下面对***的主要特征和设计实现方案进行详细的阐述。

***的主要特征包括：

(1)实现了快速推荐。

(2)运用多种方法计算问题的相似度，从多个角度进行度量，综合多种因素给出更加有效的推荐结果。

(3)支持动态更新数据，与发帖***达到实时同步。

***的设计实现方案如下：

(1)使用搜索***快速筛选初步候选集。

因为网络社区中帖子数量至少为百万级，***可以使用搜索***提供初步候选集。搜索***中记录了提问问题和答案以及相应的关键词和短语。在搜索***中搜索用户输入的关键词及短语，即可给出初步的候选问题集。这个候选问题集是推荐结果集的N倍，N可以根据要求进行设置，这样可以快速进行初步筛选，满足***的实时性需求。同时，使用搜索***还可以支持帖子的随时增加、删除和修改等操作，与发帖***达到实时同步。

(2)进行相似度度量。

本***使用关键词相似度、关键词Jaccard(杰卡德系数)相似度、关键词离散相似度、产品名称相似度以及语义相似度作为度量方法，最后将所有度量方法得到的得分乘以权重之和，就是问题相似度的最终得分。按照相似度得分进行排序，就得到了排序的候选问题集。

A.计算关键词相似度。

根据关键词在问题中所占权重，以及用户输入与候选问题(包括其对应的答案)的关键词重合程度，计算得出关键词相似度。

计算问题的关键词相似度时，首先要将问题中包含的关键词及短语抽取出来。而关键词库的质量对于相似度的度量是非常重要的。

关键词库有两个来源，第一，搜集网站帖子形成语料，对语料进行分词，计算词的TFIDF(信息检索挖掘的常用加权)值，对其进行排序，选取前N个进入关键词库，期间，需要对这N个词去掉停止词及一些常用的无意义的词。第二，在网络上搜集相同领域的关键词加入词库。关键短语库的形成过程也是类似的。

B.计算关键词Jaccard相似度。

用户输入的提问问题与候选问题间，有一些共同的关键词，而某些关键词在问题中重复出现，关键词Jaccard相似度就是去掉这些重复关键词的影响，单独计算两者有多少不重复的共同关键词。

C.计算关键词离散相似度。

关键词离散相似度是指用户输入的搜索内容和初步候选集中的信息间关键词是否有相同的分布，是均匀分布，还是集中在某处，一般将用户输入的搜索内容和初步候选集中的信息切分成子句，计算有多少子句包含共同的关键词，作为关键词离散相似度得分。

D.计算产品词相似度。

用户的问题有很多是关于软件等产品的，针对不同的产品提出的问题，不应视为相似问题，比如，如果两个问题含有相同的产品词，则产品词相似度为1，不含相同产品词，则产品词相似度为0。

E.计算语义相似度。

问题的句子(或问题的句子集合，也包括问题对应的答案，下简称句子)可以切分成更小的基本单位，本***用基本单位的语义组成问题的语义，进而利用问题语义向量，计算问题的相似度。

如图4所示，可通过语言模型训练单位语义向量。搜索内容中句子的语义基本单位有两种，一种是字，一种是词，词语义和字语义都可以用来构成句子语义，如果用词作为基本单位的话，需要对句子进行分词，分成多个语义基本单位，用字作为基本单位，需要将句子逐字切分，也分成多个语义基本单位，因此，单位语义向量为字向量或词向量。

对于问题1和问题2，可以分别通过语言模型训练单位语义向量，需要将句子切分成多个语义基本单位，计算得到语义，再进一步计算问题1语义和问题2语义的相似度。

这两种方法都需要用事先准备好的文字语料根据语言模型训练出字语义向量或者词语义向量，语言模型是计算一个句子的概率模型，它基于马尔科夫假设，也就是说，下一个词的出现仅依赖于它前面的一个或几个词。依据这一原理，可以利用文字语料训练出词向量或者字向量。这样训练出的语义向量之间的关系，可以直接从这两个向量的差里体现出来。向量的差就是数学上的定义，直接逐位相减，比如，语义“king”-语义“queen”≈语义“man”-语义“woman”，与语义“king”-语义“man”+语义“woman”最接近的向量就是语义“queen”。

最后，可以过滤并给出推荐结果。如果网络社区中有的问题并没有被回答，那么被推荐了也没有意义，所以在给出推荐结果时，没有答案的问题会被过滤掉。如果问题的答案得到了网络社区专家的推荐，说明解答得到了专家的认可，给出推荐结果时会把这样的问题排在前面。最后，在排好序的候选集中，选择前N个作为推荐结果呈献给用户。

另外，因为关键词库是从用户的提问和回答中提炼出来的，有一些表情词由于TFIDF值较高也被计入了关键词库。在推荐时，表情词对推荐结果有一定影响，比如一个用户的提问含有表情，那么含有相同表情词的问题会进入初步候选集，进而进入推荐集合，这与推荐期望不符。所以需要把关键词库中的表情词去掉。

同样，如“请教”、“请问”等常用的停止词也没有意义，所以这一类词也需要从关键词库中去掉。

图5示出了根据本发明的一个实施例的信息推荐界面的示意图。

如图5所示，将本发明的信息推荐***应用到财会类网站“会计家园”中，用户在网站中浏览帖子时，***会给出类似问题的推荐，用户提问：“所得税季度申报表、营业收入、营业成本、利润总额怎么填写？”，则***通过语义相似度的计算显示类似问题：“所得税季度申报表、营业成本是营业收入减去利润总额吗？还是按照利润表的营业成本……？”，并显示此类相似问题的回答，由此，解决了用户的问题。

图6示出了根据本发明的另一个实施例的信息推荐界面的示意图。

如图6所示，根据本发明的另一个实施例的信息推荐界面，用户提问：“今天汇算清缴的时候多交了所得税，后来被税务局退回，分录怎么做？”则***通过语义相似度的计算显示多条类似问题与回答，正确分析了用户提问的语义，提升了用户的体验。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，可以更加准确地提供与搜索内容相似的信息，提升了用户的搜索效率，也避免用户重复发帖，从而提升了用户的体验。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种相似信息推荐方法，其特征在于，包括：

根据搜索内容中的关键词，确定初步候选集；

根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；

展示所述相似信息。

2.根据权利要求1所述的相似信息推荐方法，其特征在于，所述搜索内容包括提问问题，所述初步候选集中的信息包括：已有的提问问题和已有的问题答案。

3.根据权利要求1或2所述的相似信息推荐方法，其特征在于，所述根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息，包括：

通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；

根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及

所述展示所述相似信息，包括：

按照所述语义相似度从高至低对所述初步候选集中的信息进行排序和展示。

4.根据权利要求3所述的相似信息推荐方法，其特征在于，在所述初步候选集中确定与所述搜索内容对应的相似信息之前，还包括：

确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及

在所述初步候选集中确定与所述搜索内容对应的相似信息，具体包括：

根据所述语义相似度和所述其他相似度确定所述相似信息。

5.根据权利要求3所述的相似信息推荐方法，其特征在于，在所述根据搜索内容中的关键词，确定初步候选集之前，还包括：

去除所述关键词中的表情词和停止词。

6.一种相似信息推荐***，其特征在于，包括：

候选集确定单元，根据搜索内容中的关键词，确定初步候选集；

相似信息确定单元，根据所述搜索内容与所述初步候选集中每条信息的语义相似度，在所述初步候选集中确定与所述搜索内容对应的相似信息；

相似信息展示单元，展示所述相似信息。

7.根据权利要求6所述的相似信息推荐***，其特征在于，所述搜索内容包括提问问题，所述初步候选集中的信息包括：已有的提问问题和已有的问题答案。

8.根据权利要求6或7所述的相似信息推荐***，其特征在于，所述相似信息确定单元包括：

向量训练单元，通过语言模型训练出所述搜索内容和所述初步候选集中的信息的单位语义向量，其中，所述单位语义向量为字向量或词向量；

语义相似度计算单元，根据所述单位语义向量，计算所述搜索内容和所述初步候选集中的信息的语义相似度，其中，所述语义相似度包括：字向量累加和、词向量累加和、字向量平均值或词向量平均值；以及

所述相似信息展示单元具体用于：

9.根据权利要求8所述的相似信息推荐***，其特征在于，还包括：

其他相似度确定单元，在所述初步候选集中确定与所述搜索内容对应的相似信息之前，确定所述搜索内容与所述初步候选集中的信息的其他相似度，其中，所述其他相似度包括以下之一或其组合：关键词相似度、关键词去重相似度、关键词离散相似度和产品词相似度；以及

所述相似信息确定单元用于：

根据所述语义相似度和所述其他相似度确定所述相似信息。

10.根据权利要求9所述的相似信息推荐***，其特征在于，还包括：

去除单元，在所述根据搜索内容中的关键词，确定初步候选集之前，去除所述关键词中的表情词和停止词。