CN103077193A

CN103077193A - 一种基于用户阅读兴趣的相关事件生成方法

Info

Publication number: CN103077193A
Application number: CN 201210568745
Authority: CN
Inventors: 薛飞; 黄丛蕊; 付万宇; 杨之光; 杨青
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2013-05-01

Abstract

本发明公开了一种基于用户阅读兴趣的相关事件生成方法，包括：A、对舆情文档进行数据预处理的步骤；B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF-IDF值；C、对于历史事件集进行人工标注，标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即，CF和TA，转化为事件E对应的实数值；D、通过机器学习的方法，获得函数表达式的原型，并通过线性回归运算确定参数m和n的值；E、调整事件关键词在索引中的权重，然后对新事件的相关事件进行检索和展示。采用本发明，能够针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容。

Description

一种基于用户阅读兴趣的相关事件生成方法

技术领域

本发明涉及互联网搜索引擎和计算机网络技术领域，尤其涉及一种基于用户阅读兴趣的相关事件生成方法。

背景技术

随着互联网技术的高速发展，网络中充斥了大量的新闻信息。人们对于新闻事件阅读的需求体现在快速、准确等方面。此外，用户阅读体验的质量，也与阅读连贯性有着紧密的关系。阅读连贯性可以理解为用户浏览了当前事件之后，接着浏览与之相关的事件，进而逐步延长用户的停留时间。例如，当前事件为“北京雨雪将持续40小时降温幅度将达到8～10度”，该事件的关键词为“雨雪”、“降温”、“出行”等，通过用户历史点击数据可以赋予关键词权重，然后检索出本事件的相关事件。

现有的研究或专利成果主要着眼于单条舆情网页的相关推荐，而事件是一系列相似舆情文档的集合，因此事件级别更加抽象化。如何针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容，具有现实的研究价值。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于用户阅读兴趣的相关事件生成方法，针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于用户阅读兴趣的相关事件生成方法，该方法包括：

A、对舆情文档进行数据预处理，得到事件的核心子集，并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤；

B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF-IDF值或Hit Number；后台记录用户点击事件E的时间轴TA和频率CF，并计算得到事件对应关键词的权重因子α(E)；

C、对于历史事件集进行人工标注，标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即α(E)，CF和TA，转化为事件E对应的实数值；

D、通过机器学习的方法，对步骤C中得到的训练数据进行回归运算，获得函数表达式的原型α(E)=m*TA+n*CF，并通过线性回归运算确定参数m和n的值；

E、通过上述函数表达式调整事件关键词在索引中的权重，然后对新事件的相关事件进行检索和展示。

其中，步骤B所述事件对应关键词的权重因子α(E)：

α(E)=F(TA,CF)；其中：α(E)>=1。

步骤D所述机器学习的方法，具体为支持向量机SVM法。

步骤E所述对新事件的相关事件进行检索和展示，具体为：当某一事件E被用户点击需要展示时，通过调整权重之后的事件关键词检索其相关事件，并且不断重复步骤B的如下过程：对获得的事件核心文档的正文进行倒排索引，倒排word的权重初始值为TF-IDF值或Hit Number。

本发明所提供的基于用户阅读兴趣的相关事件生成方法，具有以下优点：

通过分析用户对历史事件的点击记录，刻画出用户级别的关键词权重，从而给出当前事件更为合理的相关事件。应用本发明，能够针对特定的领域、准确检索和定位相关事件，进而找出用户所需的内容。譬如，对于特定领域如舆情***，能够对用户所需信息的定位更加准确和清楚。应用在舆情、新闻检索等***中，方便进行定位和更新用户的阅读兴趣，推出具有较好用户体验到相关事件，提高用户阅读的连贯性。

附图说明

图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

本发明基于用户阅读兴趣的相关事件生成方法，主要应用了以下几种技术：事件生成和合并技术、倒排索引技术以及事件关键词提取技术。其中事件生成和合并是相关事件推荐的数据基础，倒排索引和事件关键词提取是相关事件推荐的核心部分。

图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。如图1所示，本发明方法包括如下步骤：

步骤11：对舆情文档进行数据预处理的步骤。具体为：对舆情文档进行在线抓取和信息抽取，抽取的内容包括文本特征（文本频率-反向文档频率值[TF-IDF，Term Frequency-Inverse Document Frequency]、文本结构刻画等）、关键词信息、敏感词信息、正文长度等。通过UPGMA等算法对这一过程中产生的文档进行聚类处理，得到具有一定泛化性的事件集合。对于聚类产生的事件进行数据处理，主要包括：最大核心子集生成、核心文档抽取、事件关键词生成等。

这里，对当前事件数据进行信息抽取，首先是获得事件的核心子集（例如：事件A的文档集合A.set，文档数为N，核心子集可理解为剔除噪音后包含核心文档的子集），在此核心子集中提取出事件的核心文档以及事件的关键词列表，这一过程涉及到事件的地域信息以及用户定制等策略。

步骤12：通过核心文档的正文对事件进行倒排索引，倒排word的初始权重，用TF-IDF值刻画。但后台记录用户点击事件E的时间轴（Time Axis，TA）和频率（Click Frequence，CF）信息，通过下式计算得到事件对应关键词的权重因子α(E)：

α(E)=F(TA,CF)其中：α(E)>=1（1.1）

对经过步骤12获得的事件核心文档的正文进行倒排索引时，word的权重初始值为TF-IDF值，还可以是Hit Number。

步骤13：对于历史事件集进行人工标注的步骤。标注的内容主要包括事件的点击频率（CF，即总次数、平均每周点击数、平均每日点击数等）、时间轴信息（TA，即每周的点击时间段、每日的点击时间段等）、该事件作为相关事件的影响因子（该值越高，意味着作为相关事件的收益越大，该值直接作用于事件的关键词权重）。通过映射将这三部分信息转化为事件E对应的实数值：α(E)，CF，TA。

步骤14：通过支持向量机（SVM，Support Vector Machines)等机器学习的方法，对步骤13中得到的训练数据进行回归运算，获得函数表达式（式1.1）。这一过程可以考虑使用全监督的回归方法，即首先确定函数表达式的原型：

α(E)=m*TA+n*CF（式1.2）

只需通过线性回归运算获得参数m和n的值。

步骤15：使用上述函数表达式的原型（式1.2）调整事件关键词在索引中的权重。

步骤16：对新事件的相关事件进行检索和展示。

根据所述检索结果，对相关事件进行推荐。具体为：当某一事件E被用户点击需要展示时，通过调整权重之后的事件关键词去检索其相关事件，并且不断重复步骤12中的如下过程：对获得的事件核心文档的正文进行倒排索引，倒排word的权重初始值为TF-IDF值（或者Hit Number）。

本发明的基于用户阅读兴趣的相关事件生成方法具有如下特点：

1）本发明的研究主体不是单篇的舆情文档，而是聚类产生的文档集合，即事件。其中涉及到了事件级别的一系列操作：核心文档提取、事件关键词抽取等。

2）通过用户对于事件的点击记录，刻画出用户的阅读兴趣。通过机器学习等方法得到（式1.1）的函数表达式，从而可以调整事件的关键词权重，以产生更为准确的相关事件，提升用户体验。

3）加入时间轴（TA）这一特征，更好地刻画用户的阅读行为。

假设现在已有当前事件和历史事件的数据集，主要包括以下几个步骤：即对舆情文档进行数据预处理的步骤、对用户阅读兴趣进行刻画的步骤和对相关事件进行推荐的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于用户阅读兴趣的相关事件生成方法，其特征在于，该方法包括：

2.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法，其特征在于，步骤B所述事件对应关键词的权重因子α(E)：

α(E)=F(TA,CF)；其中：α(E)>=1。

3.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法，其特征在于，步骤D所述机器学习的方法，具体为支持向量机SVM法。

4.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法，其特征在于，步骤E所述对新事件的相关事件进行检索和展示，具体为：当某一事件E被用户点击需要展示时，通过调整权重之后的事件关键词检索其相关事件，并且不断重复步骤B的如下过程：对获得的事件核心文档的正文进行倒排索引，倒排word的权重初始值为TF-IDF值或Hit Number。