CN104035972B

CN104035972B - 一种基于微博的知识推荐方法与***

Info

Publication number: CN104035972B
Application number: CN201410216252.8A
Authority: CN
Inventors: 陈清财; 刘胜宇; 王晓龙; 汤斌
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2017-06-06
Anticipated expiration: 2034-05-21
Also published as: CN104035972A

Abstract

本发明提供了一种基于微博的知识推荐方法及***，该知识推荐方法包括如下步骤：用户建模、定时批量采集用户关注好友发布的微博、知识条目发现、知识条目扩展、知识推荐。本发明的有益效果是本发明提出一种基于微博的知识推荐方法与***，从用户关注好友所发布的微博数据中自动发现各类知识条目，对知识条目形成扩展解释，在用户阅读微博时，向用户推荐所发现知识条目中对其有价值或其感兴趣的知识条目及相关扩展解释，提供主动的、个性化的知识服务，既能免去了用户的知识检索过程又能避免有价值信息被淹没。

Description

一种基于微博的知识推荐方法与***

技术领域

本发明涉及数据处理领域，尤其涉及一种基于微博的知识推荐方法与***。

背景技术

微博是一个基于用户关系的信息分享、传播以及获取平台。如今在中国，微博用户已超过3亿，微博日益成为人们获取信息的主要方式。由于微博发布、传播信息的速度很快，微博用户每天面对海量的微博信息。海量微博信息中会涉及到大量的各行业专业技术名称、各学科专业术语、组织机构、人物、地名等知识条目。

用户在阅读微博时，如遇到超出自身知识范围的知识条目，通常会利用搜索引擎或者检索百科知识库来获取相关知识信息。现有的通用搜索引擎基于关键词检索，在海量网页信息中检索时，检索结果大都是包含该关键词的网页，很难形成一个***的、全面的、关于该条目的详细介绍，从而也很难满足用户的知识需求。百科知识库的构建依赖于广大志愿者来人工完成，通常知识条目更新不及时或者知识描述不够完整，当用户检索的词条未被收录时，用户就获取不到相关知识描述。

此外，微博上的海量信息让人们享受信息时代快感的同时，也带来了另一问题，即让用户面对大量无用信息。虽然微博用户可以根据自己的兴趣和偏好选择关注自己感兴趣的博主，在一定程度上过滤掉其不感兴趣的大量信息。但是用户所关注的好友也常会发布一些类似生活化直播的无价值的琐碎信息，或者用户不感兴趣的信息。这些信息可能会将对用户有价值或用户感兴趣的专业知识条目淹没。如何从微博用户所面临的海量微博数据中，自动抽取各类知识条目，对知识条目形成扩展解释，在用户阅读微博时向用户推荐对其有价值或其感兴趣的知识条目及相关扩展解释，提供主动的、个性化的知识服务，如何能免去用户的知识检索过程又能避免有价值信息被淹没是一个极待解决的问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于微博的知识推荐方法。

本发明提供了一种基于微博的知识推荐方法，包括如下步骤：

用户建模：分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络，得到用户的知识背景及用户知识兴趣点；

定时批量采集用户关注好友发布的微博：使用微博爬虫，针对每个用户，定时批量采集用户关注的所有好友在一个采集周期内发布的微博；

知识条目发现：从用户关注好友发布的微博中识别出各类知识条目；

知识条目扩展：利用百科知识库获取与该知识条目对应的百科词条，利用搜索引擎获取与该知识条目相关的网页，并抽取对该条目的扩展解释；

知识推荐：根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释。

作为本发明的进一步改进，在所述用户建模步骤中，包括如下步骤：

用户知识背景建模：通过分析用户本人所发布的历史微博数据，及其好友所发布的历史微博数据，对用户的知识背景建模；

用户知识兴趣建模：通过分析用户在微博平台中的社会关系网络，分析用户的知识兴趣点所在；

在所述知识条目发现步骤中，包括如下步骤：

微博数据预处理：去除当前采集周期内所采集到的微博内容数据中的噪声；

获取知识条目发现模型的训练语料：根据预先确定的待发现知识条目类别人工标注训练语料，或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料；

发现知识条目：将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据，发现知识条目。

作为本发明的进一步改进，在用户知识背景建模步骤中，包括如下步骤：

获取用户本人发布的历史微博数据：利用微博爬虫爬取用户历史上所发布的微博；

获取用户关注好友所发布的历史微博数据：利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据；

获取用户知识背景：分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据，得到用户对各类知识条目的了解程度；

在用户知识兴趣建模步骤中，包括如下步骤：

获取微博平台中用户社会关系网络：获取用户所关注的好友以及用户好友间的关注关系；

获取用户知识兴趣：分析用户关注好友的知识背景，通过用户关注好友的知识背景发现用户的知识兴趣点所在。

作为本发明的进一步改进，在所述知识条目扩展步骤中，包括如下步骤：

获取知识条目相应的候选词条：从百科知识库中获取可能与知识条目相对应的所有候选词条；

知识条目消歧义：在所有可能与知识条目相对应的候选词条中，找到真正与该知识条目相对应的词条，或者判断出候选词条中没有与其相对应的词条；

搜索引擎扩展知识条目：将待扩展的知识条目作为查询，自动获取到搜索引擎的检索结果；

检索结果相关度计算：综合搜索引擎的检索结果，得到与该知识条目较相关的检索结果；

扩展知识条目：将百科知识库中与该知识条目对应的词条，以及检索结果中与该知识条目较相关的检索结果汇总整合，作为该知识条目的扩展解释；

更新知识库：将知识条目及其相应扩展解释添加所构建的知识库中。

作为本发明的进一步改进，在所述知识推荐步骤中，包括如下步骤：

确定待推荐候选知识条目：记录用户上一次登录微博***到当前登录微博***的这一时间段，在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目；

确定待推荐知识条目：对所有待推荐的候选知识条目，根据用户的知识背景以及用户的知识兴趣点计算该知识条目与用户相关度，根据相关度确定在用户当前登录时应推荐的知识条目；

获取知识条目相关微博：获取用户上一次登录微博***到当前登录微博***的这一时间段内，用户所关注的好友发布的微博中与待推荐知识条目相关的微博；

推荐扩展知识：将待推荐的知识条目、相应扩展解释及相关微博推荐给用户。

本发明还提供了一种基于微博的知识推荐***，包括：

用户建模单元：用于分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络，得到用户的知识背景及用户知识兴趣点；

定时批量采集单元：用于使用微博爬虫，针对每个用户，定时批量采集用户关注的所有好友在一个采集周期内发布的微博；

知识条目发现单元：用于从用户关注好友发布的微博中识别出各类知识条目；

知识条目扩展单元：用于利用百科知识库获取与该知识条目对应的百科词条，利用搜索引擎获取与该知识条目相关的网页，并抽取对该条目的扩展解释；

知识推荐单元：用于根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释。

作为本发明的进一步改进，在所述用户建模单元中，包括：

用户知识背景建模单元：用于通过分析用户本人所发布的历史微博数据，及其好友所发布的历史微博数据，对用户的知识背景建模；

用户知识兴趣建模单元：用于通过分析用户在微博平台中的社会关系网络，分析用户的知识兴趣点所在；

在所述知识条目发现单元中，包括：

微博数据预处理单元：用于去除当前采集周期内所采集到的微博内容数据中的噪声；

获取知识条目发现模型的训练语料单元：用于根据预先确定的待发现知识条目类别人工标注训练语料，或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料；

发现知识条目单元：用于将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据，发现知识条目。

作为本发明的进一步改进，在用户知识背景建模单元中，包括：

获取用户本人发布的历史微博数据单元：用于利用微博爬虫爬取用户历史上所发布的微博；

获取用户关注好友所发布的历史微博数据单元：用于利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据；

获取用户知识背景单元：用于分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据，得到用户对各类知识条目的了解程度；

在用户知识兴趣建模单元中，包括：

获取微博平台中用户社会关系网络单元：用于获取用户所关注的好友以及用户好友间的关注关系；

获取用户知识兴趣单元：用于分析用户关注好友的知识背景，通过用户关注好友的知识背景发现用户的知识兴趣点所在。

作为本发明的进一步改进，在所述知识条目扩展单元中，包括：

获取知识条目相应的候选词条单元：用于从百科知识库中获取可能与知识条目相对应的所有候选词条；

知识条目消歧义单元：用于在所有可能与知识条目相对应的候选词条中，找到真正与该知识条目相对应的词条，或者判断出候选词条中没有与其相对应的词条；

搜索引擎扩展知识条目单元：用于将待扩展的知识条目作为查询，自动获取到搜索引擎的检索结果；

检索结果相关度计算单元：用于综合搜索引擎的检索结果，得到与该知识条目较相关的检索结果；

扩展知识条目单元：用于将百科知识库中与该知识条目对应的词条，以及检索结果中与该知识条目较相关的检索结果汇总整合，作为该知识条目的扩展解释；

更新知识库单元：用于将知识条目及其相应扩展解释添加所构建的知识库中。

作为本发明的进一步改进，在所述知识推荐单元中，包括：

确定待推荐候选知识条目单元：用于记录用户上一次登录微博***到当前登录微博***的这一时间段，在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目；

确定待推荐知识条目单元：用于对所有待推荐的候选知识条目，根据用户的知识背景以及用户的知识兴趣点计算该知识条目与用户相关度，根据相关度确定在用户当前登录时应推荐的知识条目；

获取知识条目相关微博单元：用于获取用户上一次登录微博***到当前登录微博***的这一时间段内，用户所关注的好友发布的微博中与待推荐知识条目相关的微博；

推荐扩展知识单元：用于将待推荐的知识条目、相应扩展解释及相关微博推荐给用户。

本发明的有益效果是：本发明提出一种基于微博的知识推荐方法与***，从用户关注好友所发布的微博数据中自动发现各类知识条目，对知识条目形成扩展解释，在用户阅读微博时，向用户推荐所发现知识条目中对其有价值或其感兴趣的知识条目及相关扩展解释，提供主动的、个性化的知识服务，既能免去了用户的知识检索过程又能避免有价值信息被淹没。

附图说明

图1是本发明的方法流程图。

图2是本发明的用户建模流程图。

图3是本发明的用户知识背景建模流程图。

图4是本发明的用户知识兴趣建模流程图。

图5是本发明的知识条目发现流程图。

图6是本发明的CRFs用于知识条目发现流程图。

图7是发明的知识条目扩展流程图。

图8是发明的知识推荐流程图。

图9是本发明的知识条目消歧方法流程图。

具体实施方式

如图1所示，本发明公开了一种基于微博的知识推荐方法，包括如下步骤：

步骤100：用户建模，即：分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络，得到用户的知识背景及用户知识兴趣点。如图2所示，在用户建模步骤中，包括如下步骤：

步骤110：用户知识背景建模，即：通过分析用户本人所发布的历史微博数据，及其好友所发布的历史微博数据，对用户的知识背景建模。如图3所示，在用户知识背景建模中，包括如下步骤：

步骤111：获取用户本人发布的历史微博数据，即利用微博爬虫爬取用户历史上所发布的微博。

步骤112：获取用户关注好友所发布的历史微博数据：利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据。

步骤113：获取用户知识背景：分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据，得到用户对各类知识条目的了解程度。

步骤120：用户知识兴趣建模，即：通过分析用户在微博平台中的社会关系网络，分析用户的知识兴趣点所在。如图4所示，用户知识兴趣建模包括如下步骤：

步骤121：获取微博平台中用户社会关系网络，即：获取用户所关注的好友以及用户各好友间的关注关系。

步骤122：获取用户知识兴趣，即：分析用户关注好友的知识背景，通过用户关注好友的知识背景发现用户的知识兴趣点所在。

步骤200：定时批量采集用户关注好友发布的微博，即：使用微博爬虫，针对每个用户，定时批量采集用户关注的所有好友在一个采集周期内发布的微博。

步骤300：知识条目发现，即：从用户关注好友发布的微博中识别出各类知识条目。如图5所示，知识条目发现包括如下步骤：

步骤310：微博数据预处理，即：去除当前采集周期内所采集到的微博内容数据中的噪声。根据微博数据的特点，下述三种情况也予以特殊处理：

(1)标记@用户和url

微博中的@用户名，表示某个用户的链接，用户名既可以是真实人名也可以是非人名，对于知识条目抽取抽取没有实际意义，因此我们把它统一标记为用户名，同样，把微博中的链接标记为url。

(2)过短的微博：

如长度小于5个字符的微博，由于过短，不包含命名实体，我们将这些微博也去除。

(3)特殊表达形式处理

微博中两个#号之间的内容表示主题，应作为一个整体。“[]”及其中的内容则常表示为表情(如：[哈哈][得意地笑][嘻嘻]等)，应当去掉。

经过上述的预处理，能得到较纯净的微博内容文本。

步骤320：获取知识条目发现模型的训练语料，即：根据预先确定的待发现知识条目类别人工标注训练语料，或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料；

步骤330：发现知识条目，即：将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据，发现知识条目。知识条目发现可以采用条件随机场(CRFs)模型。CRFs模型用于知识条目发现如图6所示。

步骤400：知识条目扩展，即：利用百科知识库获取与该知识条目对应的词条，并利用搜索引擎中获取与该知识条目相关的网页中对该条目的扩展解释。如图7所示，知识条目扩展包括如下步骤：

步骤410：获取知识条目相应的候选词条，即：从***、百度百科等百科知识库中获取可能与知识条目相对应的所有候选词条。

候选词条的获取可以充分利用***所展现的显式和隐式的信息。***所包含的广大互联网用户贡献的重定向页面，消歧页面以及锚文本的超链接关系都是获得候选词条的重要手段。以下是几种候选实体的发现方法：

(1)***重定向页

每一个维基条目都是有明确含义的词语，对于有相同含义的条目，***不会为其建立多个页面，而是添加一个重定向链接，将同义词指向同一个页面。比如：在***中查找SVM这个条目，维基给出的结果是支持向量机，并显示该页面重定向自SVM。而这两个词是完全等价的，是同义词。

(2)***消歧页

***有专门为有歧义的多义词创建的页面，即为消歧页面。页面中的词条均可以看做标题中词条的候选。

(3)***正文加粗内容

***正文的第一段，一般会有很多的加粗字体。该加粗字体均为相应等价称呼：简称、别称、统称等等。比如“北京市，简称京，旧称燕京、幽州、北平”。从此可以得知，{北京市，京，燕京，幽州，北平}都是指的同一概念，任一词条均为其他词条的候选。

(4)锚文本的超链接关系

***词条的贡献者在编辑知识条目的时候，若在文中出现的该词是***的一个条目，则需要在文中的这个词加上超链接，指向该词对应的实际维基页面，这些信息称为***的锚文本。在***的知识条目页面的正文中，有许多的锚文本信息，可以充分该信息获取可能的候选结果。

步骤420：知识条目消歧义，即：在所有可能与知识条目相对应的候选词条中，找到真正与该知识条目相对应的词条，或者判断出候选词条中没有与其相对应的词条。

在微博中，由于知识条目所在的上下文文本长度较短、信息含量少，所以给消歧算法带来了很大的难度。因此，对知识条目的上下文进行语义拓展是进行消歧任务的关键。将待消歧实体以及其前后各10个字符作为关键词输入元搜索程序(包含Google、百度、Bing等搜索引擎)，将三个搜索引擎的第一页搜索结果返回，此时，微博得以扩充。对知识条目所在上下文扩充后，知识条目消歧方法如下。该***具体实施例中采用但不限于如下的消歧方法。

如图9所示为知识条目消歧方法流程图，每个待消歧实体e对应N(N>＝0)个候选词条，而每个候选词条又有M(M>＝1)个信息来源。如实体“奥斯卡”的候选项“奥斯卡金奖”，可能的来源有：***，其权重为1.0；Google搜索结果，其权重为0.9，则以1.0作为“奥斯卡金奖”的最终权重。候选词条的每一个来源均有其对应的权重，选择权重最大的一个作为该候选词条的最终权重。待消歧实体e与第i个候选词条的相似度为Simi。

每个候选词条与待消歧实体e都会计算得到一个相似度，其中相似度最大值为Max。如果Max的取值大于特定阈值t，则Max所对应的词条作为待消歧实体e对应的词条，否则认为e没有对应的词条存在。

步骤430：搜索引擎扩展知识条目，即：将待扩展的知识条目作为query(查询)，自动获取到百度及Google的检索结果；

步骤440：检索结果相关度计算，即：综合百度与Google的检索结果，得到与该知识条目较相关的检索结果。将检索所得网页与知识条目所在微博计算相似度。常用的文本相似度计算方法都可以在此使用。

步骤450：扩展知识条目，即：将百科知识库中与该知识条目对应的词条，以及百度、Google检索结果中与该知识条目较相关的检索结果汇总整合，作为该知识条目的扩展解释。

步骤460：更新知识库，即：将知识条目及其相应扩展解释添加所构建的知识库中。

步骤500：知识推荐，即：根据用户的知识背景及知识兴趣点向用户推荐对其有价值或者其感兴趣的知识条目及相关扩展解释。如图8所示，知识推荐包括如下步骤：

步骤510：确定待推荐候选知识条目，即：记录用户上一次登录微博***到当前登录微博***的这一时间段，在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目；

步骤520：确定待推荐知识条目，即：对所有待推荐的候选知识条目，根据用户的知识背景以及用户的知识兴趣点计算该知识条目与用户相关度，根据相关度确定在用户当前登录时应推荐的知识条目；

步骤530：获取知识条目相关微博，即：获取用户上一次登录微博***到当前登录微博***的这一时间段内，用户所关注的好友发布的微博中与待推荐知识条目相关的微博；

步骤540：推荐扩展知识，即：将待推荐的知识条目、相应扩展解释及相关微博推荐给用户。

本发明还公开了一种基于微博的知识推荐***，包括：

在所述用户建模单元中，包括：

在所述知识条目发现单元中，包括：

在用户知识背景建模单元中，包括：

在用户知识兴趣建模单元中，包括：

在所述知识条目扩展单元中，包括：

搜索引擎扩展知识条目单元：用于将待扩展的知识条目作为query(查询)，自动获取到搜索引擎的检索结果；

在所述知识推荐单元中，包括：

本发明提出一种基于微博的知识推荐方法与***，从用户关注好友所发布的微博数据中自动发现各类知识条目，对知识条目形成扩展解释，在用户阅读微博时，向用户推荐所发现知识条目中对其有价值或其感兴趣的知识条目及相关扩展解释，提供主动的、个性化的知识服务，既能免去了用户的知识检索过程又能避免有价值信息被淹没。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于微博的知识推荐方法，其特征在于，包括如下步骤：

知识推荐：根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释；

在所述用户建模步骤中，包括如下步骤：

在所述知识条目发现步骤中，包括如下步骤：

2.根据权利要求1所述的知识推荐方法，其特征在于，在用户知识背景建模步骤中，包括如下步骤：

在用户知识兴趣建模步骤中，包括如下步骤：

3.根据权利要求1所述的知识推荐方法，其特征在于，在所述知识条目扩展步骤中，包括如下步骤：

4.根据权利要求1所述的知识推荐方法，其特征在于，在所述知识推荐步骤中，包括如下步骤：

确定待推荐候选知识条目：记录用户上一次登录微博***和当前登录微博***的时间，在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目；

5.一种基于微博的知识推荐***，其特征在于，包括：

知识推荐单元：用于根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释；

在所述用户建模单元中，包括：

在所述知识条目发现单元中，包括：

6.根据权利要求5所述的知识推荐***，其特征在于，在用户知识背景建模单元中，包括：

在用户知识兴趣建模单元中，包括：

7.根据权利要求5所述的知识推荐***，其特征在于，在所述知识条目扩展单元中，包括：

8.根据权利要求5所述的知识推荐***，其特征在于，在所述知识推荐单元中，包括：

确定待推荐候选知识条目单元：用于记录用户上一次登录微博***和当前登录微博***的时间，在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目；