CN103077193A - 一种基于用户阅读兴趣的相关事件生成方法 - Google Patents

一种基于用户阅读兴趣的相关事件生成方法 Download PDF

Info

Publication number
CN103077193A
CN103077193A CN 201210568745 CN201210568745A CN103077193A CN 103077193 A CN103077193 A CN 103077193A CN 201210568745 CN201210568745 CN 201210568745 CN 201210568745 A CN201210568745 A CN 201210568745A CN 103077193 A CN103077193 A CN 103077193A
Authority
CN
China
Prior art keywords
event
user
method based
dependent
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210568745
Other languages
English (en)
Inventor
薛飞
黄丛蕊
付万宇
杨之光
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEOPLE SEARCH NETWORK AG
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN 201210568745 priority Critical patent/CN103077193A/zh
Publication of CN103077193A publication Critical patent/CN103077193A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户阅读兴趣的相关事件生成方法,包括:A、对舆情文档进行数据预处理的步骤;B、通过所述核心文档的正文对事件进行倒排索引,倒排word的初始权重值为TF-IDF值;C、对于历史事件集进行人工标注,标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子,通过映射将上述三部分信息即,CF和TA,转化为事件E对应的实数值;D、通过机器学习的方法,获得函数表达式的原型,并通过线性回归运算确定参数m和n的值;E、调整事件关键词在索引中的权重,然后对新事件的相关事件进行检索和展示。采用本发明,能够针对特定领域、准确检索和定位相关事件,进而找出用户所需的内容。

Description

一种基于用户阅读兴趣的相关事件生成方法
技术领域
本发明涉及互联网搜索引擎和计算机网络技术领域,尤其涉及一种基于用户阅读兴趣的相关事件生成方法。
背景技术
随着互联网技术的高速发展,网络中充斥了大量的新闻信息。人们对于新闻事件阅读的需求体现在快速、准确等方面。此外,用户阅读体验的质量,也与阅读连贯性有着紧密的关系。阅读连贯性可以理解为用户浏览了当前事件之后,接着浏览与之相关的事件,进而逐步延长用户的停留时间。例如,当前事件为“北京雨雪将持续40小时降温幅度将达到8~10度”,该事件的关键词为“雨雪”、“降温”、“出行”等,通过用户历史点击数据可以赋予关键词权重,然后检索出本事件的相关事件。
现有的研究或专利成果主要着眼于单条舆情网页的相关推荐,而事件是一系列相似舆情文档的集合,因此事件级别更加抽象化。如何针对特定领域、准确检索和定位相关事件,进而找出用户所需的内容,具有现实的研究价值。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于用户阅读兴趣的相关事件生成方法,针对特定领域、准确检索和定位相关事件,进而找出用户所需的内容。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于用户阅读兴趣的相关事件生成方法,该方法包括:
A、对舆情文档进行数据预处理,得到事件的核心子集,并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤;
B、通过所述核心文档的正文对事件进行倒排索引,倒排word的初始权重值为TF-IDF值或Hit Number;后台记录用户点击事件E的时间轴TA和频率CF,并计算得到事件对应关键词的权重因子α(E);
C、对于历史事件集进行人工标注,标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子,通过映射将上述三部分信息即α(E),CF和TA,转化为事件E对应的实数值;
D、通过机器学习的方法,对步骤C中得到的训练数据进行回归运算,获得函数表达式的原型α(E)=m*TA+n*CF,并通过线性回归运算确定参数m和n的值;
E、通过上述函数表达式调整事件关键词在索引中的权重,然后对新事件的相关事件进行检索和展示。
其中,步骤B所述事件对应关键词的权重因子α(E):
α(E)=F(TA,CF);其中:α(E)>=1。
步骤D所述机器学习的方法,具体为支持向量机SVM法。
步骤E所述对新事件的相关事件进行检索和展示,具体为:当某一事件E被用户点击需要展示时,通过调整权重之后的事件关键词检索其相关事件,并且不断重复步骤B的如下过程:对获得的事件核心文档的正文进行倒排索引,倒排word的权重初始值为TF-IDF值或Hit Number。
本发明所提供的基于用户阅读兴趣的相关事件生成方法,具有以下优点:
通过分析用户对历史事件的点击记录,刻画出用户级别的关键词权重,从而给出当前事件更为合理的相关事件。应用本发明,能够针对特定的领域、准确检索和定位相关事件,进而找出用户所需的内容。譬如,对于特定领域如舆情***,能够对用户所需信息的定位更加准确和清楚。应用在舆情、新闻检索等***中,方便进行定位和更新用户的阅读兴趣,推出具有较好用户体验到相关事件,提高用户阅读的连贯性。
附图说明
图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
本发明基于用户阅读兴趣的相关事件生成方法,主要应用了以下几种技术:事件生成和合并技术、倒排索引技术以及事件关键词提取技术。其中事件生成和合并是相关事件推荐的数据基础,倒排索引和事件关键词提取是相关事件推荐的核心部分。
图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。如图1所示,本发明方法包括如下步骤:
步骤11:对舆情文档进行数据预处理的步骤。具体为:对舆情文档进行在线抓取和信息抽取,抽取的内容包括文本特征(文本频率-反向文档频率值[TF-IDF,Term Frequency-Inverse Document Frequency]、文本结构刻画等)、关键词信息、敏感词信息、正文长度等。通过UPGMA等算法对这一过程中产生的文档进行聚类处理,得到具有一定泛化性的事件集合。对于聚类产生的事件进行数据处理,主要包括:最大核心子集生成、核心文档抽取、事件关键词生成等。
这里,对当前事件数据进行信息抽取,首先是获得事件的核心子集(例如:事件A的文档集合A.set,文档数为N,核心子集可理解为剔除噪音后包含核心文档的子集),在此核心子集中提取出事件的核心文档以及事件的关键词列表,这一过程涉及到事件的地域信息以及用户定制等策略。
步骤12:通过核心文档的正文对事件进行倒排索引,倒排word的初始权重,用TF-IDF值刻画。但后台记录用户点击事件E的时间轴(Time Axis,TA)和频率(Click Frequence,CF)信息,通过下式计算得到事件对应关键词的权重因子α(E):
α(E)=F(TA,CF)其中:α(E)>=1(1.1)
对经过步骤12获得的事件核心文档的正文进行倒排索引时,word的权重初始值为TF-IDF值,还可以是Hit Number。
步骤13:对于历史事件集进行人工标注的步骤。标注的内容主要包括事件的点击频率(CF,即总次数、平均每周点击数、平均每日点击数等)、时间轴信息(TA,即每周的点击时间段、每日的点击时间段等)、该事件作为相关事件的影响因子(该值越高,意味着作为相关事件的收益越大,该值直接作用于事件的关键词权重)。通过映射将这三部分信息转化为事件E对应的实数值:α(E),CF,TA。
步骤14:通过支持向量机(SVM,Support Vector Machines)等机器学习的方法,对步骤13中得到的训练数据进行回归运算,获得函数表达式(式1.1)。这一过程可以考虑使用全监督的回归方法,即首先确定函数表达式的原型:
α(E)=m*TA+n*CF(式1.2)
只需通过线性回归运算获得参数m和n的值。
步骤15:使用上述函数表达式的原型(式1.2)调整事件关键词在索引中的权重。
步骤16:对新事件的相关事件进行检索和展示。
根据所述检索结果,对相关事件进行推荐。具体为:当某一事件E被用户点击需要展示时,通过调整权重之后的事件关键词去检索其相关事件,并且不断重复步骤12中的如下过程:对获得的事件核心文档的正文进行倒排索引,倒排word的权重初始值为TF-IDF值(或者Hit Number)。
本发明的基于用户阅读兴趣的相关事件生成方法具有如下特点:
1)本发明的研究主体不是单篇的舆情文档,而是聚类产生的文档集合,即事件。其中涉及到了事件级别的一系列操作:核心文档提取、事件关键词抽取等。
2)通过用户对于事件的点击记录,刻画出用户的阅读兴趣。通过机器学习等方法得到(式1.1)的函数表达式,从而可以调整事件的关键词权重,以产生更为准确的相关事件,提升用户体验。
3)加入时间轴(TA)这一特征,更好地刻画用户的阅读行为。
假设现在已有当前事件和历史事件的数据集,主要包括以下几个步骤:即对舆情文档进行数据预处理的步骤、对用户阅读兴趣进行刻画的步骤和对相关事件进行推荐的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (4)

1.一种基于用户阅读兴趣的相关事件生成方法,其特征在于,该方法包括:
A、对舆情文档进行数据预处理,得到事件的核心子集,并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤;
B、通过所述核心文档的正文对事件进行倒排索引,倒排word的初始权重值为TF-IDF值或Hit Number;后台记录用户点击事件E的时间轴TA和频率CF,并计算得到事件对应关键词的权重因子α(E);
C、对于历史事件集进行人工标注,标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子,通过映射将上述三部分信息即α(E),CF和TA,转化为事件E对应的实数值;
D、通过机器学习的方法,对步骤C中得到的训练数据进行回归运算,获得函数表达式的原型α(E)=m*TA+n*CF,并通过线性回归运算确定参数m和n的值;
E、通过上述函数表达式调整事件关键词在索引中的权重,然后对新事件的相关事件进行检索和展示。
2.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法,其特征在于,步骤B所述事件对应关键词的权重因子α(E):
α(E)=F(TA,CF);其中:α(E)>=1。
3.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法,其特征在于,步骤D所述机器学习的方法,具体为支持向量机SVM法。
4.根据权利要求1所述基于用户阅读兴趣的相关事件生成方法,其特征在于,步骤E所述对新事件的相关事件进行检索和展示,具体为:当某一事件E被用户点击需要展示时,通过调整权重之后的事件关键词检索其相关事件,并且不断重复步骤B的如下过程:对获得的事件核心文档的正文进行倒排索引,倒排word的权重初始值为TF-IDF值或Hit Number。
CN 201210568745 2012-12-24 2012-12-24 一种基于用户阅读兴趣的相关事件生成方法 Pending CN103077193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210568745 CN103077193A (zh) 2012-12-24 2012-12-24 一种基于用户阅读兴趣的相关事件生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210568745 CN103077193A (zh) 2012-12-24 2012-12-24 一种基于用户阅读兴趣的相关事件生成方法

Publications (1)

Publication Number Publication Date
CN103077193A true CN103077193A (zh) 2013-05-01

Family

ID=48153723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210568745 Pending CN103077193A (zh) 2012-12-24 2012-12-24 一种基于用户阅读兴趣的相关事件生成方法

Country Status (1)

Country Link
CN (1) CN103077193A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046222A (zh) * 2019-04-29 2020-04-21 广东小天才科技有限公司 一种听写列表的生成方法及电子设备
CN113705160A (zh) * 2021-08-31 2021-11-26 广州宏途教育网络科技有限公司 一种基于互联网的阅读共享方法以及后台服务器
CN113988305A (zh) * 2021-09-22 2022-01-28 北京连山科技股份有限公司 一种基于机器学习的突防算法验证方法和***
CN117555425A (zh) * 2024-01-10 2024-02-13 东莞莱姆森科技建材有限公司 一种用于信息显示的智能镜控制方法及***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046222A (zh) * 2019-04-29 2020-04-21 广东小天才科技有限公司 一种听写列表的生成方法及电子设备
CN113705160A (zh) * 2021-08-31 2021-11-26 广州宏途教育网络科技有限公司 一种基于互联网的阅读共享方法以及后台服务器
CN113988305A (zh) * 2021-09-22 2022-01-28 北京连山科技股份有限公司 一种基于机器学习的突防算法验证方法和***
CN117555425A (zh) * 2024-01-10 2024-02-13 东莞莱姆森科技建材有限公司 一种用于信息显示的智能镜控制方法及***
CN117555425B (zh) * 2024-01-10 2024-04-30 东莞莱姆森科技建材有限公司 一种用于信息显示的智能镜控制方法及***

Similar Documents

Publication Publication Date Title
CN102929928B (zh) 基于多维相似度的个性化新闻推荐方法
CN101174273B (zh) 基于元数据分析的新闻事件检测方法
CN102521321B (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN103455487B (zh) 一种搜索词的提取方法及装置
CN107707545A (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN105243129A (zh) 商品属性特征词聚类方法
HK1160243A1 (en) Method for recording user access to merchandise information, searching method and searching server
CN102915335B (zh) 基于用户操作记录和资源内容的信息关联方法
CN103077190A (zh) 基于排序学习技术的热门事件排名方法
CN104035927A (zh) 一种基于用户行为的搜索方法及***
CN104537116A (zh) 一种基于标签的图书搜索方法
CN102567494B (zh) 网站分类方法及装置
CN103294671A (zh) 文档的检测方法及***
CN101719167A (zh) 一种可互动的影视搜索方法
CN103678412A (zh) 一种文档检索的方法及装置
CN102317943A (zh) 一种全文搜索的方法和装置
Song et al. Bridging topic modeling and personalized search
CN103077193A (zh) 一种基于用户阅读兴趣的相关事件生成方法
Hua et al. Hierarchical feature selection for ranking
WO2023057988A1 (en) Generation and use of content briefs for network content authoring
Jin et al. CT-Rank: A Time-aware Ranking Algorithm for Web Search.
CN102929975A (zh) 基于文档标签表征的推荐方法
CN106776910A (zh) 一种搜索结果的显示方法及装置
CN105138572A (zh) 获取用户标签的关联度权值的方法和装置
Dang et al. WordNet-based suffix tree clustering algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170329

AD01 Patent right deemed abandoned