CN105183803A

CN105183803A - 一种社交网络平台中的个性化搜索方法及其搜索装置

Info

Publication number: CN105183803A
Application number: CN201510529035.9A
Authority: CN
Inventors: 喻梅; 邢文涛; 侯德俊; 姜月; 吕方; 汪腾海
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2015-12-23

Abstract

本发明公开了一种社交网络平台中的个性化搜索方法及其搜索装置，所述个性化搜索方法包括以下步骤：对用户微博文本进行中文分词处理；从分词结果中提取特征词，作为用户的兴趣标签；通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值；结合Lucene的打分机制、所述页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。所述个性化搜索装置包括：处理模块、提取模块、获取模块、排序模块。本发明最大程度地实现搜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，以提高用户满意度。同时提高了自动化程度，更好地适应用户需求的变化。

Description

一种社交网络平台中的个性化搜索方法及其搜索装置

技术领域

本发明涉及自然语言处理、数据挖掘、信息检索领域，尤其涉及一种社交网络平台中的个性化搜索方法及其搜索装置。

背景技术

搜索引擎能够帮助用户从无数的网络信息中快速获得用户需要的信息。但传统搜索引擎只提供一种简单的搜索服务，针对搜索词返回统一的无差异的结果，用户需要对搜索结果进行检验，很多情况下这是一项又费时又费力的工作。因此，传统搜索引擎越来越不能满足不同用户的个性化需求。

微博文本具有文本短小，数据结构复杂，带有很多特殊符号等特征，微博文本中具有某些特殊词汇，这些词汇区别于一般语料库中用到的词汇。对于微博的文本分词是种挑战。

目前已存在许多个性化服务***，提出了各种思路以实现个性化服务。它们不同程度地解决了个性化搜索的某些问题，但还存在不足：对用户兴趣的学习和表达的自动化程度不高，要求用户输入私人信息并需要用户提供大量的反馈信息，不能很好地适应用户需求的变化。

发明内容

本发明提供了一种社交网络平台中的个性化搜索方法及其搜索装置，本发明实现了搜索结果的个性化，提高了用户满意度，详见下文描述：

一种社交网络平台中的个性化搜索方法，所述个性化搜索方法包括以下步骤：

对用户微博文本进行中文分词处理；

从分词结果中提取特征词，作为用户的兴趣标签；

通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值；

结合Lucene的打分机制、所述页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。

其中，所述从分词结果中提取特征词，作为用户的兴趣标签的步骤具体为：

通过微博用户关键词从分词结果中提取特征词，作为用户的兴趣标签。

其中，所述通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值的步骤具体为：

当页面中含有用户的第一个兴趣标签，向量的第一位元素就为1；页面中不含有用户的第二个兴趣标签，向量的第二位元素就为0；

通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。

一种社交网络平台中的个性化搜索装置，所述个性化搜索装置包括：

处理模块，用于对用户微博文本进行中文分词处理；

提取模块，用于从分词结果中提取特征词，作为用户的兴趣标签；

获取模块，用于通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值；

排序模块，用于结合Lucene的打分机制，所述页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。

其中，所述提取模块包括：

提取子模块，用于通过微博用户关键词从分词结果中提取特征词，作为用户的兴趣标签。

其中，所述获取模块包括：

量化子模块，用于当页面中含有用户的第一个兴趣标签，向量的第一位元素就为1；页面中不含有用户的第二个兴趣标签，向量的第二位元素就为0；

获取子模块，用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。

本发明提供的技术方案的有益效果是：本发明以新浪微博为例，在该平台上搭建Lucene搜索引擎，通过对用户一段时间内发布的微博进行分析，根据用户在社交网络中表现出的兴趣倾向对Lucene的页面排序算法进行改进。引入标签吻合因子的概念，来衡量页面与用户的兴趣吻合度，提出一种适合个性化排序的权值计算公式，通过对存储在用户兴趣表中的用户兴趣信息进行分析得到符合用户兴趣的排序结果，得到的搜索结果符合用户的兴趣倾向。最大程度地实现搜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，以提高用户满意度。同时提高了自动化程度，更好地适应用户需求的变化。

附图说明

图1为一种社交网络平台中的个性化搜索方法的流程图；

图2为提取特征词的示意图；

图3为计算MRR平均值的示意图；

图4为一种社交网络平台中的个性化搜索装置的结构示意图；

图5为提取模块的示意图；

图6为获取模块的示意图。

附图中，各标号所代表的部件列表如下：

1：处理模块；2：提取模块；

3：获取模块；4：排序模块；

21：提取子模块；31：量化子模块；

32：获取子模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

Lucene(HatcherE,GospodneticO,McCandlessM.Luceneinaction[J].2004)是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现全文索引/检索功能。Lucene的应用程序接口设计的比较通用，输入输出结构都很像数据库的表＝＝>记录＝＝>字段，所以很多传统的应用文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以把Lucene当成一个支持全文索引的数据库***。要实现个性化搜索，最重要的就是了解用户的兴趣，基于用于的兴趣来预测用户最需要的信息。需要对获取的用户微博内容进行文本处理，以获取代表用户兴趣的标签。Lucene有一套自己的完整的打分机制。它并不是事先为每个网页资源算好评分，而是在用户搜索时进行实时的评价和计算。文档的得分会根据用户输入的关键字不同而不同，越贴近用户需求的文档评分会越高，在返回结果时也就排在越前面。Lucene的打分机制可以看作某个关键字在文档中出现的频率。

搜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见，每个用户都可能有若干个兴趣标签，每个页面也可能包含若干个相匹配的内容，但并不是页面中含有的兴趣标签越多用户就越感兴趣，这是因为每个标签在用户心中的地位是不一样的。通常认为，一个兴趣标签在用户微博中出现的次数越多，表示这个兴趣标签在用户心中的地位越高，即用户对这个词越感兴趣。将Lucene嵌入到社交网络中，使其变得智能化，这将远远超出用户对于传统搜索引擎的期待，是一项拥有广阔前景的课题。

实施例1

本发明实施例提供了一种社交网络平台中的个性化搜索方法，参见图1，该方法包括以下步骤：

101：对用户微博文本进行中文分词处理；

本发明实施例使用的是中科院计算所的汉语词法分析***ICTCLAS。ICTCLAS的主要功能包括：中文分词、词性标注、命名实体识别、新词识别等、同时支持用户词典。其主要思想是利用层叠隐马尔可夫模型进行分层，以增加分词的准确性和保证分词的效率。具体实现时，还可以采用其他分词软件，本发明实施例对此不做赘述。

102：从分词结果中提取特征词，作为用户的兴趣标签；

103：通过向量空间模型将兴趣标签量化计算，获取页面与用户兴趣匹配度量值；

即，使用TagMatch(A，U)参数表示页面A与用户U的兴趣标签的匹配度。此数值越高，表明页面A越符合用户U的兴趣。

104：结合Lucene的打分机制、页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。

即，对获取到的页面与用户兴趣匹配度量值，利用Lucene的个性化搜索的排序算法对用户搜索到的页面进行推荐搜索。

综上所述，本发明实施例通过上述步骤101-步骤104最大程度地实现搜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，以提高用户满意度。

实施例2

下面结合具体的计算公式、例子、附图2对实施例1中的方案进行详细描述，详见下文：

201：对搜索信息进行个性化搜索过程中，首先要进行微博文本进行分词处理；

其中，针对微博文本的复杂的数据结构的特征，本发明实施例对有用的微博信息进行提取，同时将转发文本内容进行关联；针对微博文本中带有很多特殊符号的特征，由于本发明实施例主要探讨基于微博文本的用户特征，不对用户之间的关系进行进一步讨论，因此将“@”符号之后的用户信息忽略，不做讨论，“#...#”中的主题名词直接作为用户关键词之一；针对微博文本中具有某些特殊词汇的特征，WUK通过统计方法添加了新的停用词，并过滤微博中的URL格式数据。

202：从分词结果中提取特征词，作为用户的兴趣标签；

其中，传统的权值计算方法TF-IDF自身有两个比较明显的不足之处，会对特征词抽取结果的准确性和权威性产生一定的影响，其核心原因在于搜索词频率(TF)权值和(逆文本频率指数(IDF)权值的结合导致的综合权值衡量偏差。结合微博文本并不像普通文本集一样具有随机性这一特点，采用WUK(微博用户关键词)算法仅以TF为依据进行特征抽取。

参见图2，WUK算法的输入为微博文本数据，去除冗余信息，包括：URL格式数据、表情数据及特殊符号。使用隐马尔可夫模型(HMM)分词技术将微博数据分词并存储到关键词列表中，然后导入停用词生成一列表，将关键词列表中存在的停用词去除，对关键词列表进行TF排序生成词云(对网络文本中出现频率较高的“关键词”予以视觉上的突出)，最后输出TF词云结果。

通过WUK算法提取用户的特征词之后，每个词就是用户的一个兴趣标签，而为了衡量每个兴趣标签的地位，将每个词的TF值除以所有特征词的TF值总和，就得到每个兴趣标签的权重。

203：通过向量空间模型将兴趣标签量化计算，获取页面与用户兴趣匹配度量值；

其中，要实现个性化搜索，搜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见，每个用户都可能有若干个兴趣标签，每个页面也可能包含若干个相匹配的内容，但并不是页面中含有的兴趣标签越多用户就越感兴趣，这是因为每个兴趣标签在用户心中的地位是不一样的。通常认为，一个兴趣标签在用户微博中出现的次数越多，表示这个兴趣标签在用户心中的地位越高，即用户对这个词越感兴趣，相应的，这个兴趣标签的TF值也就越高。

用IncTag_A，U来记录页面A包含的用户U的兴趣标签，例如：页面A中含有用户U的第一个兴趣标签，那么向量IncTag_A，U的第一位元素就为1，又如页面A中不含有用户U的第二个兴趣标签，那么向量IncTag_A，U的第二位元素就为0。这样表示以后，可以得到公式(1)来计算页面与用户的兴趣标签匹配度：TagMatch(A，U)＝IncTag_A，U·TagWeight_U(1)

其中，TagWeight_U为一个N元列向量，记录用户U每个兴趣标签(的1)权重。此向量的每个元素是一个介于0到1之间的数；TagMatch(A，U)为一个数值，表示页面A与用户U的兴趣标签的匹配度。此数值越高，表明页面A越符合用户U的兴趣。

204：结合Lucene的打分机制、页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。

T-Rank＝α·S(q,d)+β·TagMatch(A,U)(2)

其中，α和β是介于0到1之间的系数，且α+β＝1；Rank为根据用户兴趣标签得到的排序得分；S(q,d)为Lucene原本的打分机制得出的分数；T-Rank为排序输出的结果。

其中，Lucene的排序体系包含了查询类(Query)、权重类(Weight)、计分类(Score)、相似度计算类(Similarity)几个不同的类。四个类共同形成了Lucene默认评分体系的框架。

1、Query类是用户检索信息的封装，是一个抽象类，也是Lucene检索结果最终评分的总控制中心。其他评分有关的类和对象都是由Query类来管理和生成。Query类在Query.java文件中实现，提供了访问其他分类的方法；

2、Weight类接口是用来定义Query权重计算的一个实现接口，可以被复用。Weight类可以用来生成Score类，也可以解析评分的详细信息。另外还定义了获取Query权值的方法。具体的定义在weight.java文件中；

3、Scorer类是Lucene评分机制的核心类。类的定义是抽象类，提供的一些抽象基本的计分功能方法供所有的评分类实现，同时还定义了评分的详细解析方法。Scorer类内部有一个similarity对象，用来指明计算公式。Scorer类在Scorer.java中实现；

4、Similarity类是Lucene评分相似度计算的核心抽象类。Similarity类主要处理评分计算，***缺省使用默认相似度计算类(DefaultSimilarity)来对结果进行评分。可以调用内部方法设定评分的Similarity类对象。定义在Similarity.java文件中。

综上所述，本发明实施例通过上述步骤201-步骤204最大程度地实现搜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，以提高用户满意度。

实施例3

下面结合具体的计算公式、例子、附图3对实施例1和2中的方案进行可行性验证，详见下文描述：

在实验过程中，文本向量化过程的输入数据包括利用中文数据集产生的语料库(即向量空间中的元素，需进行初步降维之后才能使用，避免维度太高)，以及经过特定预处理的目标微博文本。

向量空间模型是进行文本挖掘的经典模型，可直接引用开源SDK包直接实现，实现代码如表1中所示。

表1VSM实现代码示例

本实验随机选取了五位微博用户进行研究，并选取他们的关键词中TF值最高的前10个作为他们的兴趣标签，结果如表2所示。

表2用户的兴趣标签及权重

进行向量化之后采用TF值作为权重进行特征抽取计算，从而选出可以代表用户兴趣的关键词。本实验随机选取了五位微博用户进行研究，并选取他们的关键词中TF值最高的前10个作为他们的兴趣标签，结果如表2所示。

为了科学地评判本方法与Lucene原始打分算法的表现，引入平均排序倒数(MRR)评判标准。MRR是一个国际上通用的对搜索算法进行评价的机制，即第一个结果匹配，分数为1，第二个匹配分数为0.5，第n个匹配分数为1/n，如果没有匹配的句子分数为0。最终的分数为所有得分的平均数。

M R R = Σ_{i = 1}^{n} 1 / (r_{i} \cdot n) - - - (3)

其中，r_i表示第i个查询的相关文档在搜索结果中的位置；n是总的查询数目。MRR值越高，表明搜索算法的表现越好。

在Lucene原有打分机制下，第一个查询(“新闻”)的相关文档在搜索结果中的位置为9，其后的四次查询中，相关文档的位置分别为：3、8、7、11，那么这五次查询的MRR值就等于0.16；在本方法下，第一次查询的相关文档位置为1，其后的四次查询中，相关文档的位置分别为：2、3、3、5，那么这五次查询的MRR值就等于0.47。同样地，一个用户的少量数据并不能体现问题。在最终实验中，对表2中的5位用户在Lucene原有打分机制下(即α＝1)和本方法的不同系数下分别进行了20次查询，最终计算MRR的平均值，得到的结果如图4所示。

Lucene原有打分机制的平均MRR值为0.200。而对于本方法，在系数α＝0的时候MRR值仅为0.01。随着系数α的逐渐增大，本方法的MRR值也逐渐增大，在α＝0.6时达到最大值0.263，意味着此时的个性化效果最好；而随着系数α的继续增大，MRR的值逐渐回落，这是因为本方法中的标签匹配得分的影响力越来越小。在取系数α＝0.6的情况下，本方法能够实现较好的个性化排序；而随着系数α的继续增大，MRR的值逐渐回落，这是因为本方法中的标签匹配得分的影响力越来越小。

综上所述，本发明实施例提供的方法，为社交网络中个性化搜索提供了一种改进的思路，提出并定义了页面和用户标签兴趣匹配度的计算方法，对传统的Lucene评分机制算法进行了改写，进而提高了页面与用户标签兴趣匹配的精确度。

实施例4

一种社交网络平台中的个性化搜索装置，参见图4，该个性化搜索装置包括：

处理模块1，用于对用户微博文本进行中文分词处理；

提取模块2，用于从分词结果中提取特征词，作为用户的兴趣标签；

获取模块3，用于通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值；

排序模块4，用于结合Lucene的打分机制，所述页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。

其中，参见图5，提取模块2包括：

提取子模块21，用于通过微博用户关键词从分词结果中提取特征词，作为用户的兴趣标签。

其中，参见图6，获取模块3包括：

量化子模块31，用于当页面中含有用户的第一个兴趣标签，那么向量的第一位元素就为1；页面A中不含有用户的第二个兴趣标签，那么向量的第二位元素就为0；

获取子模块32，用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。

本发明实施例对上述模块、子模块的执行主体不做限制，可以为单片机、PC机等具有计算功能的器件，只要能完成上述功能的器件均可。

综上所述，本发明实施例通过上述模块、子模块最大程度地实现搜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，以提高用户满意度。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社交网络平台中的个性化搜索方法，其特征在于，所述个性化搜索方法包括以下步骤：

对用户微博文本进行中文分词处理；

从分词结果中提取特征词，作为用户的兴趣标签；

2.根据权利要求1所述的一种社交网络平台中的个性化搜索方法，其特征在于，所述从分词结果中提取特征词，作为用户的兴趣标签的步骤具体为：

3.根据权利要求1所述的一种社交网络平台中的个性化搜索方法，其特征在于，所述通过向量空间模型将所述兴趣标签量化计算，获取页面与用户兴趣匹配度量值的步骤具体为：

4.一种社交网络平台中的个性化搜索装置，其特征在于，所述个性化搜索装置包括：

处理模块，用于对用户微博文本进行中文分词处理；

5.根据权利要求4所述的一种社交网络平台中的个性化搜索装置，其特征在于，所述提取模块包括：

6.根据权利要求4所述的一种社交网络平台中的个性化搜索装置，其特征在于，所述获取模块包括：