CN107992478A - 确定热点事件的方法和装置 - Google Patents

确定热点事件的方法和装置 Download PDF

Info

Publication number
CN107992478A
CN107992478A CN201711239690.6A CN201711239690A CN107992478A CN 107992478 A CN107992478 A CN 107992478A CN 201711239690 A CN201711239690 A CN 201711239690A CN 107992478 A CN107992478 A CN 107992478A
Authority
CN
China
Prior art keywords
list
event
thing
heating power
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711239690.6A
Other languages
English (en)
Inventor
刘路
武睿峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711239690.6A priority Critical patent/CN107992478A/zh
Publication of CN107992478A publication Critical patent/CN107992478A/zh
Priority to US16/134,681 priority patent/US10747771B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种确定热点事件的方法和装置。方法包括:获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值;对于事件列表中的事件,计算当前热力值与理论热力值的差值;将差值高于预定阈值的事件确定为热点事件。在该方法中,提高了确定热点事件的准确率,并且对于关注群体比较少的实体对应的舆情事件在事件传播扩散之前的预期发酵阶段预警,避免因为滞后导致的损失。

Description

确定热点事件的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及确定热点事件的方法和装置。
背景技术
随着互联网技术的发展,互联网信息传播的开放性、便捷性和交互性等特点赋予了普通民众更多的话语权,但由此引发的网络问题也会影响到人们的生活和社会稳定。例如,针对实体如公司、组织、互联网产品等的舆情传播,在整体上看,对实体的发展将产生积极作用,但也有少量的舆论容易造成网络非理性情绪蔓延,尤其在公众关注的事件上,容易迅速形成网上舆论,从而上升为危机事件,进而产生严重的不良影响。因此,深入的挖掘网络舆情信息,有助于企业或相关部门尽早识别及处理内容敏感信息、跟踪其发展、引导舆情向客观积极的方向发展。
目前的热点事件检测技术,主要是人工或者通过话题检测和追踪(TDT,TopicDetection and Tracking)来挖掘主题,结合主题的传播趋势来排序,将排序较高的事件作为热点事件。
发明内容
本申请实施例提出一种确定热点事件的方法和装置。
第一方面,本申请实施例提供了一种确定热点事件的方法,包括:获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值,其中,当前环境热力值基于事件列表中所有事件的当前热力值确定;对于事件列表中的事件,计算当前热力值与理论热力值的差值;将差值高于预定阈值的事件确定为热点事件。
在一些实施例中,方法还包括:采用关注度计算规则计算用户对事件列表中的事件的当前关注度;基于热点事件和当前关注度,确定用户关注的热点事件。
在一些实施例中,获取预定时间段内的事件列表包括:获取预定时间段内的信息;聚类预定时间段内的信息,得到事件列表。
在一些实施例中,当前环境热力值基于以下步骤确定:基于预定时间段内的信息***作的次数,确定各信息的热力值;基于各观点中各信息的热力值以及对应各信息的权重,确定事件列表中事件的当前热力值;将事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。
在一些实施例中,基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值包括:基于事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻事件列表中事件的理论热力值。
在一些实施例中,采用关注度计算规则计算用户对事件列表中事件的当前关注度包括:基于用户的艾宾浩斯记忆模型和初始关注度,计算用户对事件列表中事件的理论关注度;响应于用户对事件列表中事件的信息的后续操作,确定用户对事件列表中事件的新增关注度;基于理论关注度、新增关注度以及预设的对于新增关注度的约束模型,确定用户当前时刻对事件列表中事件的当前关注度。
在一些实施例中,初始关注度响应于用户对事件列表中事件的信息的初次操作设定;和/或用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
第二方面,本申请实施例提供了一种确定热点事件的装置,包括:事件列表获取单元,用于获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;理论热力值确定单元,用于基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值,其中,当前环境热力值基于事件列表中所有事件的当前热力值确定;差值计算单元,用于对于事件列表中的事件,计算当前热力值与理论热力值的差值;热点事件确定单元,用于将差值高于预定阈值的事件确定为热点事件。
在一些实施例中,装置还包括:当前关注度计算单元,用于采用关注度计算规则计算用户对事件列表中的事件的当前关注度;用户关注事件确定单元,用于基于热点事件和当前关注度,确定用户关注的热点事件。
在一些实施例中,事件列表获取单元包括:信息获取单元,用于获取预定时间段内的信息;时间列表确定单元,用于聚类预定时间段内的信息,得到事件列表。
在一些实施例中,理论热力值确定单元中的当前环境热力值基于以下步骤确定:基于预定时间段内的信息***作的次数,确定各信息的热力值;基于各观点中各信息的热力值以及对应各信息的权重,确定事件列表中事件的当前热力值;将事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。
在一些实施例中,理论热力值确定单元进一步用于:基于事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻事件列表中事件的理论热力值。
在一些实施例中,当前关注度计算单元包括:理论关注度计算单元,用于基于用户的艾宾浩斯记忆模型和初始关注度,计算用户对事件列表中事件的理论关注度;新增关注度确定单元,用于响应于用户对事件列表中事件的信息的后续操作,确定用户对事件列表中事件的新增关注度;当前关注度确定单元,用于基于理论关注度、新增关注度以及预设的对于新增关注度的约束模型,确定用户当前时刻对事件列表中事件的当前关注度。
在一些实施例中,理论关注度计算单元中的初始关注度响应于用户对事件列表中事件的信息的初次操作设定;和/或理论关注度计算单元中的用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的一种确定热点事件的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的一种确定热点事件的方法。
本申请实施例提供的确定热点事件的方法和装置,首先获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;之后,基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值;之后,对于事件列表中的事件,计算当前热力值与理论热力值的差值;最后,将差值高于预定阈值的事件确定为热点事件。在这一过程中,考虑了当前环境热力值对于事件的理论热力值的影响,并且根据事件的当前热力值与理论热力值的差值来确定事件是否为热点事件,可以对于关注群体比较少的实体对应的舆情事件在事件传播扩散之前的预期发酵阶段预警,避免因为滞后导致的损失,并且提高了确定热点事件的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请的确定热点事件的方法或确定热点事件的装置的实施例的示例性***架构;
图2是根据本申请实施例的确定热点事件的方法的一个实施例的示意性流程图;
图3是根据图2中的计算用户对事件列表中事件的当前关注度的方法的一个实施例的示意性流程图;
图4是根据本申请实施例的确定热点事件的方法的实施例的示例性应用场景;
图5是根据本申请实施例的一种确定热点事件的装置的一个实施例的示例性结构图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的确定热点事件的方法或确定热点事件的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索引擎类应用、购物类应用、即时通信工具、邮箱客户端、社交平台软件、音视频播放类应用等。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能音箱、智能手机、可穿戴设备、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105、106可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对终端的数据请求进行分析或计算等处理,并将分析或计算结果推送给终端设备。
需要说明的是,本申请中实施例所提供的确定热点事件的方法一般由服务器105、106或终端设备101、102、103执行,相应地,确定热点事件的装置一般设置于服务器105、106或终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
在背景技术中,目前的热点事件检测技术在话题检测和追踪时,主要采用了分析全网热点事件,再分析事件和实体的相关性的方式来实现,有两个问题很难得到解决:第一,对于关注群体比较少的实体对应的舆情事件在预期发酵阶段被忽略,***发现并预警的时候往往滞后于事件的发生,导致事件的实体往往已经遭到一定的损失;第二,对于数据量比较大或关注群体比较多的实体,大量的事件会淹没用户信息池,而未考虑用户对于某个事件是否真正感兴趣。
有鉴于此,请参考图2,图2示出了根据本申请实施例的确定热点事件的方法的一个实施例的示意性流程图。
如图2所示,确定热点事件的方法200包括:
在步骤210中,获取预定时间段内的事件列表。
在本实施例中,运行确定热点事件的方法的电子设备首先获取预定时间段内的事件列表。其中,事件列表中的事件是对具有相同主体的观点的高度概况或抽象。事件可以表示为一个三元组,事件三元组包括:时间段、关键词列表和观点列表。在这里,观点列表中的观点是指对数据源中具有相同含义表达的信息的聚类。观点也可以表示为一个三元组,观点三元组包括:时间,情感,内容描述。
这里的预定时间段内的事件列表,可以从用于用户交互的源数据中获取。例如,可以从全网信息中获取、从企业内部的培训资料中获取、从学校的某一门课程的知识点数据中获取或者从商品数据中获取。
在这里,获取时间列表的方法可以采用现有技术或未来发展的技术中的获取事件列表的方法来实现,本申请对此不做限定。例如,获取预定时间段内的事件列表可以包括:获取预定时间段内的信息;聚类预定时间段内的信息,得到事件列表。这里以从全网信息中获取预定时间段内的时间列表为例,可以首先爬取全网预定时间段内的网络页面,再对网络页面中的信息进行神经网络向量化,之后对向量化的结果进行聚类,从而提取事件列表。
用于聚类向量化的结果的方法,可以为现有技术或未来发展的技术中的聚类方法,本申请对此不做限定。例如,可以采用基于密度的聚类算法DBSCAN、关联分析算法Fp-growth或基于原型的目标函数聚类方法K-means算法聚类向量化的结果。
在步骤220中,基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值。
在本实施例中,热点事件检测模型可以基于事件列表中事件的初始热力值和当前环境的热力值,考虑环境热力值对初始热力值散热的影响,来确定当前事件列表中事件的理论热力值。具体地,在一个具体的示例中,可以基于事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻事件列表中事件的理论热力值。
这里的初始热力值,是指在本次预定时间段之初的事件列表中的事件的热力值,可以基于上一预定时间段的各观点的各信息***作的次数及其权重确定。在一个具体的示例中,事件的热力值可以通过以下步骤确定:首先,由信息***作的次数(例如文档的阅读数、转发数、被引用数等)相加并求对数计算信息的热力值,之后,由信息温度大于某一个参数(信息激活参数)的热力值相加得到事件的热力值。
在初次运行确定热点事件的方法时,可以采用当前环境热力值作为事件的初始热力值,之后,可以基于实际操作的发生以及聚类得到的事件来进行修正,使得预定事件段内的初始热力值越来越趋近于实际的热力值。
这里的当前环境热力值,可以根据所有事件的当前热力值来确定。例如,当前环境热力值基于以下步骤确定:基于预定时间段内的信息***作的次数,确定各信息的热力值;基于各观点中各信息的热力值以及对应各信息的权重,确定事件列表中事件的当前热力值;将事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。其中,对应各信息的权重和加权和中的权值,分别由基于历史热点事件的样本数据训练得到的环境热力值模型确定。
在步骤230中,对于事件列表中的事件,计算当前热力值与理论热力值的差值。
在本实施例中,当前热力值可以基于事件列表中事件的各观点中各信息的热力值以及对应各信息的权重来确定。在一个具体的示例中,与步骤220中相同,事件的热力值可以通过以下步骤确定:首先,由信息***作的次数(例如文档的阅读数、转发数、回复数、评论数、被引用数中的一项或多项等)相加并求对数计算信息的热力值,之后,由信息温度大于某一个参数(信息激活参数)的热力值相加得到事件的热力值。
在步骤240中,将差值高于预定阈值的事件确定为热点事件。
在本实施例中,根据事件的初始热力值,可以预估在预定时间段之后,若该事件不再持续发酵,那么该事件热力值达到理论热力值。若实际计算的事件的当前热力值与理论热力值的差值超过一定阈值,那么有理由相信这是一个持续发酵的事件,也即是一个热点事件。
可选地,在步骤250中,可以采用关注度计算规则计算用户对事件列表中的事件的当前关注度。
在本实施例中,关注度计算规则采用人类对信息的记忆曲线来模拟用户对事件的关注度。人或者群体对于某类事件关注度可以用获取该事件相关的信息的频率来衡量。频率越高,事件的记忆越深;同理,对于不关注的事件,信息获取频率很低,记忆会越来越模糊。
预先构建的关注度计算规则符合以下规律:记忆的保存量会随着时间变化,开始会下降得很快,渐渐趋于一个稳定值。并提出了记忆曲线,通过学习而获得的记忆,经过一段时间后,一部分被遗忘,一部分被固化为记忆保持量。
根据预先构建的关注度计算规则,可以计算用户对时间列表中的事件的当前关注度。
可选地,在步骤260中,基于热点事件和当前关注度,确定用户关注的热点事件。
在本实施例中,基于上述步骤240确定的热点事件和步骤250确定的当前关注度,可以确定针对具体用户所关注的热点事件。也即,可以将热点事件列表作为初始推荐列表,之后基于当前关注度确定用户对于每一个热点事件的关注程度。例如:对于从未操作的新用户冷启动情况,提供初始推荐列表作为最终的推荐列表;对于事件热度高,而用户关注度低的事件,适当降低该事件在推荐列表中的位置;而对于事件热度低,而用户关注度高的事件,适当提高该事件在推荐列表中的位置。
示例性地,该基于热点事件和当前关注度,确定热点事件可以采用以下模型实现:
S(i,j)=T(j)M(i);
其中,S(i,j)为事件j在用户i的推荐列表中的得分;T(j)为事件j的当前热力值;M(i)为用户i对事件j的关注度。
本申请上述实施例提供的确定热点事件的方法,算法通过拟合过去热点事件的传播模型,对于关注群体比较少的实体对应的舆情事件在预期发酵阶段预警,***能在时间传播扩散之前发现并预警,避免因为滞后导致的损失,针对不同的用户群体,通过学习群体对事件记忆的模拟,考虑用户对于热点事件的关心、记忆程度,避免用户真正关心的事件被大量热点淹没。
进一步地,请参考图3,图3在图2的基础上,示出了根据图2中的计算用户对事件列表中事件的当前关注度的方法的一个实施例的示意性流程图。
如图3所示,该计算用户对事件列表中事件的当前关注度的方法300包括:
在步骤310中,基于用户的艾宾浩斯记忆模型和初始关注度,计算用户对事件列表中事件的理论关注度。
在本实施例中,艾宾浩斯记忆模型具有以下特性:通过学习而获得的记忆,经过一段时间后,一部分被遗忘,一部分被固化,被固化的这部分叫做记忆保持量,记忆保持量会随着时间变化,开始会下降得很快,渐渐趋于一个稳定值。
示例性地,可以设定艾宾浩斯记忆模型为:
J(t)=eb/(t+t0)c
其中,b、c为常量,为了便于训练模型的参数b、c,初始化t为用户第一次阅读到事件的初始时间,t0代表从t开始过去的时间。记忆值的输出为将J(t)计算得到的值做归一化处理的结果,特别的,在事件***作时,将时间t重置为操作发生的时间,记忆值被置为1。
在本实施例的一些可选实现方式中,初始关注度响应于用户对事件列表中事件的信息的初次操作设定。
在本实现方式中,初始关注度的设定可以基于预先设定的数值确定。在一个具体的示例中,可以将初始关注度设定为1。
在步骤320中,响应于用户对事件列表中事件的信息的后续操作,确定用户对事件列表中事件的新增关注度。
在本实施例中,当用户在复习之后,记忆保持量会增加,从而达到一个新的关注度。因此,可以响应于用户对事件列表中事件的信息的后续操作(例如阅读、点赞、评论、收藏等),确定用户对事件列表中事件的新增关注度。
在本实施例的一些可选实现方式中,用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
在本实现方式中,遗忘速度的计算,可以基于训练样本中用户对事件的操作频次以及操作类型来确定遗忘曲线,之后基于重复复习的任意相邻时刻的曲线的导数来确定遗忘速度。
在步骤330中,基于理论关注度、新增关注度以及预设的对于新增关注度的约束模型,确定用户当前时刻对事件列表中事件的当前关注度。
在本实施例中,约束模型是指,当用户重复复***稳直到最大值,因此用户对事件列表中事件的关注度的变化符合负指数曲线。
基于预设的对于新增关注度的约束模型、理论关注度和新增关注度,可以确定用户当前时刻对事件列表中事件的当前关注度。
对于不同的用户,每个人记忆力是不同的,因此可以设置一个关注度阈值,认为只有关注度大于阈值的事件才会被用户再次操作,因此可以根据每日用户操作的事件个数,反推不同用户的遗忘速度,从而做到个性化推荐。
本申请上述实施例提供的计算用户对事件列表中事件的当前关注度的方法,在图2所示的实施例的基础上,可以模拟艾宾浩斯记忆曲线来计算用户对事件列表中事件的当前关注度,从而提高确定用户关注度的准确率。
以下结合图4,描述本申请实施例的确定热点事件的方法的示例性应用场景。
如图4所示,确定热点事件的方法400运行于电子设备420中,方法包括:
首先,获取预定时间段内的事件列表,事件列表中的事件401包括:时间段、关键词列表和观点列表;
之后,基于事件列表中事件的初始热力值402、当前环境热力值403和基于牛顿冷却定律构建的理论热力值算法404,确定当前时刻事件列表中事件的理论热力值405;
之后,对于事件列表中的事件,计算当前热力值406与理论热力值405的差值407;
之后,将差值407高于预定阈值408的事件确定为热点事件409;
之后,采用关注度计算规则410计算用户对事件列表中的事件的当前关注度411;
最后,基于热点事件409和当前关注度411,确定用户关注的热点事件412。
应当理解,上述图4中所示出的确定热点事件的方法,仅为确定热点事件的方法的示例性应用场景,并不代表对本申请的限定。例如,图4中获取预定时间段内的事件列表可以包括:首先获取预定时间段内的信息;之后聚类预定时间段内的信息,得到事件列表。本申请的上述应用场景中提供的确定热点事件的方法,可以拟合过去热点事件传播模型,对于关注群体比较少的实体对应的舆情事件在预期发酵阶段预警,***能在时间传播扩散之前发现并预警,避免因为滞后导致的损失;另外,算法通过针对不同的用户群体,通过学习群体对事件记忆的模拟,考虑用户对于热点事件的关心、记忆程度,避免用户真正关心的事件被大量热点淹没。
进一步参考图5,作为对上述方法的实现,本申请实施例提供了一种确定热点事件的装置的一个实施例,该确定热点事件的装置的实施例与图1至图4所示的确定热点事件的方法的实施例相对应,由此,上文针对图1至图4中确定热点事件的方法描述的操作和特征同样适用于确定热点事件的装置500及其中包含的单元,在此不再赘述。
如图5所示,该确定热点事件的装置500包括:事件列表获取单元510,用于获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;理论热力值确定单元520,用于基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值;差值计算单元530,用于对于事件列表中的事件,计算当前热力值与理论热力值的差值;热点事件确定单元540,用于将差值高于预定阈值的事件确定为热点事件。
在一些实施例中,装置还包括:当前关注度计算单元550,用于采用关注度计算规则计算用户对事件列表中的事件的当前关注度;用户关注事件确定单元560,用于基于热点事件和当前关注度,确定用户关注的热点事件。
在一些实施例中,事件列表获取单元510包括:信息获取单元511,用于获取预定时间段内的信息;时间列表确定单元512,用于聚类预定时间段内的信息,得到事件列表。
在一些实施例中,理论热力值确定单元520中的当前环境热力值基于以下步骤确定:基于预定时间段内的信息***作的次数,确定各信息的热力值;基于各观点中各信息的热力值以及对应各信息的权重,确定事件列表中事件的当前热力值;将事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。
在一些实施例中,理论热力值确定单元520进一步用于:基于事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻事件列表中事件的理论热力值。
在一些实施例中,当前关注度计算单元550包括:理论关注度计算单元551,用于基于用户的艾宾浩斯记忆模型和初始关注度,计算用户对事件列表中事件的理论关注度;新增关注度确定单元552,用于响应于用户对事件列表中事件的信息的后续操作,确定用户对事件列表中事件的新增关注度;当前关注度确定单元553,用于基于理论关注度、新增关注度以及预设的对于新增关注度的约束模型,确定用户当前时刻对事件列表中事件的当前关注度。
在一些实施例中,理论关注度计算单元551中的初始关注度响应于用户对事件列表中事件的信息的初次操作设定;和/或理论关注度计算单元551中的用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
本申请还提供了一种设备的实施例,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项所述的确定热点事件的方法。
本申请还提供了一种计算机可读存储介质的实施例,其上存储有计算机程序,该程序被处理器执行时实现如上任意一项所述的确定热点事件的方法。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括事件列表获取单元、理论热力值确定单元、差值计算单元和热点事件确定单元。这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,指令接收单元还可以被描述为“获取预定时间段内的事件列表的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取预定时间段内的事件列表,事件列表中的事件包括:时间段、关键词列表和观点列表;基于事件列表中事件的初始热力值和当前环境热力值,确定当前时刻事件列表中事件的理论热力值;对于事件列表中的事件,计算当前热力值与理论热力值的差值;将差值高于预定阈值的事件确定为热点事件。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种确定热点事件的方法,包括:
获取预定时间段内的事件列表,所述事件列表中的事件包括:时间段、关键词列表和观点列表;
基于所述事件列表中事件的初始热力值和当前环境热力值,确定当前时刻所述事件列表中事件的理论热力值,其中,所述当前环境热力值基于所述事件列表中所有事件的当前热力值确定;
对于所述事件列表中的事件,计算当前热力值与理论热力值的差值;
将所述差值高于预定阈值的事件确定为热点事件。
2.根据权利要求1所述的方法,其中,所述方法还包括:
采用关注度计算规则计算用户对所述事件列表中的事件的当前关注度;
基于所述热点事件和所述当前关注度,确定用户关注的热点事件。
3.根据权利要求1所述的方法,其中,所述获取预定时间段内的事件列表包括:
获取预定时间段内的信息;
聚类所述预定时间段内的信息,得到所述事件列表。
4.根据权利要求1所述的方法,其中,所述当前环境热力值基于以下步骤确定:
基于所述预定时间段内的信息***作的次数,确定各信息的热力值;
基于各观点中各信息的热力值以及对应所述各信息的权重,确定所述事件列表中事件的当前热力值;
将所述事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。
5.根据权利要求1-4任意一项所述的方法,其中,所述基于所述事件列表中事件的初始热力值和当前环境热力值,确定当前时刻所述事件列表中事件的理论热力值包括:
基于所述事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻所述事件列表中事件的理论热力值。
6.根据权利要求2-4所述的方法,其中,所述采用关注度计算规则计算用户对所述事件列表中事件的当前关注度包括:
基于用户的艾宾浩斯记忆模型和所述初始关注度,计算用户对所述事件列表中事件的理论关注度;
响应于用户对所述事件列表中事件的信息的后续操作,确定用户对所述事件列表中事件的新增关注度;
基于所述理论关注度、所述新增关注度以及预设的对于所述新增关注度的约束模型,确定用户当前时刻对所述事件列表中事件的当前关注度。
7.根据权利要求6所述的方法,其中,所述初始关注度响应于用户对所述事件列表中事件的信息的初次操作设定;和/或
所述用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
8.一种确定热点事件的装置,包括:
事件列表获取单元,用于获取预定时间段内的事件列表,所述事件列表中的事件包括:时间段、关键词列表和观点列表;
理论热力值确定单元,用于基于所述事件列表中事件的初始热力值和当前环境热力值,确定当前时刻所述事件列表中事件的理论热力值,其中,所述当前环境热力值基于所述事件列表中所有事件的当前热力值确定;
差值计算单元,用于对于所述事件列表中的事件,计算当前热力值与理论热力值的差值;
热点事件确定单元,用于将所述差值高于预定阈值的事件确定为热点事件。
9.根据权利要求8所述的装置,其中,所述装置还包括:
当前关注度计算单元,用于采用关注度计算规则计算用户对所述事件列表中的事件的当前关注度;
用户关注事件确定单元,用于基于所述热点事件和所述当前关注度,确定用户关注的热点事件。
10.根据权利要求8所述的装置,其中,所述事件列表获取单元包括:
信息获取单元,用于获取预定时间段内的信息;
时间列表确定单元,用于聚类所述预定时间段内的信息,得到所述事件列表。
11.根据权利要求8所述的装置,其中,所述理论热力值确定单元中的当前环境热力值基于以下步骤确定:
基于所述预定时间段内的信息***作的次数,确定各信息的热力值;
基于各观点中各信息的热力值以及对应所述各信息的权重,确定所述事件列表中事件的当前热力值;
将所述事件列表中所有事件的当前热力值的加权和确定为当前环境热力值。
12.根据权利要求8-11任意一项所述的装置,其中,所述理论热力值确定单元进一步用于:
基于所述事件列表中事件的初始热力值、当前环境热力值和基于牛顿冷却定律构建的理论热力值算法,确定当前时刻所述事件列表中事件的理论热力值。
13.根据权利要求9-11所述的装置,其中,所述当前关注度计算单元包括:
理论关注度计算单元,用于基于用户的艾宾浩斯记忆模型和所述初始关注度,计算用户对所述事件列表中事件的理论关注度;
新增关注度确定单元,用于响应于用户对所述事件列表中事件的信息的后续操作,确定用户对所述事件列表中事件的新增关注度;
当前关注度确定单元,用于基于所述理论关注度、所述新增关注度以及预设的对于所述新增关注度的约束模型,确定用户当前时刻对所述事件列表中事件的当前关注度。
14.根据权利要求13所述的装置,其中,所述理论关注度计算单元中的所述初始关注度响应于用户对所述事件列表中事件的信息的初次操作设定;和/或
所述理论关注度计算单元中的所述用户的艾宾浩斯记忆模型的遗忘速度基于用户对事件的操作频次以及操作类型确定。
15.一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的确定热点事件的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的确定热点事件的方法。
CN201711239690.6A 2017-11-30 2017-11-30 确定热点事件的方法和装置 Pending CN107992478A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711239690.6A CN107992478A (zh) 2017-11-30 2017-11-30 确定热点事件的方法和装置
US16/134,681 US10747771B2 (en) 2017-11-30 2018-09-18 Method and apparatus for determining hot event

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711239690.6A CN107992478A (zh) 2017-11-30 2017-11-30 确定热点事件的方法和装置

Publications (1)

Publication Number Publication Date
CN107992478A true CN107992478A (zh) 2018-05-04

Family

ID=62034657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711239690.6A Pending CN107992478A (zh) 2017-11-30 2017-11-30 确定热点事件的方法和装置

Country Status (2)

Country Link
US (1) US10747771B2 (zh)
CN (1) CN107992478A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472412A (zh) * 2018-11-09 2019-03-15 百度在线网络技术(北京)有限公司 一种事件的预测方法及装置
CN109858869A (zh) * 2018-12-21 2019-06-07 厦门市美亚柏科信息股份有限公司 用于处理事件信息的方法和装置
CN109992661A (zh) * 2019-03-05 2019-07-09 广发证券股份有限公司 一种面向证券行业的智能舆情监控方法及***
CN110008352A (zh) * 2019-03-28 2019-07-12 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110874441A (zh) * 2020-01-19 2020-03-10 中国传媒大学 结合记忆遗忘和记忆增强的用户兴趣分析方法及***
CN110910015A (zh) * 2019-11-21 2020-03-24 联想(北京)有限公司 网络信息的分析方法及装置
CN115934808B (zh) * 2023-03-02 2023-05-16 中国电子科技集团公司第三十研究所 一种融入关联分析和风暴抑制机制的网络舆情预警方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及***
CN111597448A (zh) * 2020-05-15 2020-08-28 北京奇艺世纪科技有限公司 一种信息的热度的确定方法、装置及电子设备
CN112364168A (zh) * 2020-11-24 2021-02-12 中国电子科技集团公司电子科学研究院 一种基于多属性信息融合的舆情分类方法
CN113010641A (zh) * 2021-03-10 2021-06-22 北京三快在线科技有限公司 一种数据处理的方法及装置
CN113128217B (zh) * 2021-03-26 2024-04-02 航天科工智能运筹与信息安全研究院(武汉)有限公司 一种基于网络孪生空间的舆情处置决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593444A (zh) * 2013-11-15 2014-02-19 北京国双科技有限公司 网络关键词识别处理方法和装置
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和***
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN106649491A (zh) * 2016-09-30 2017-05-10 广州特道信息科技有限公司 一种基于自然语言分析技术的信息推送***
CN107391712A (zh) * 2017-07-28 2017-11-24 王亚迪 一种网络舆论趋势预测分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731526B2 (en) * 2008-10-31 2014-05-20 Stubhub, Inc. System and methods for upcoming event notification and mobile purchasing
US8326696B2 (en) * 2009-09-23 2012-12-04 Stubhub, Inc. System and methods for a personal seat license auction
CN102508884A (zh) * 2011-10-18 2012-06-20 盘古文化传播有限公司 热点事件与实时评论的获取方法及装置
CN103164427B (zh) * 2011-12-13 2016-03-02 ***通信集团公司 新闻聚合方法及装置
CN103902596B (zh) * 2012-12-28 2017-10-20 中国电信股份有限公司 高频页面内容聚类方法和***
CN103942326B (zh) * 2014-04-29 2018-05-04 百度在线网络技术(北京)有限公司 信息的提供方法和装置、搜索结果的提供方法和装置
WO2017000738A1 (zh) * 2015-06-30 2017-01-05 邻元科技(北京)有限公司 分布式计算网络***及用于该***的计算节点
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593444A (zh) * 2013-11-15 2014-02-19 北京国双科技有限公司 网络关键词识别处理方法和装置
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和***
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN106649491A (zh) * 2016-09-30 2017-05-10 广州特道信息科技有限公司 一种基于自然语言分析技术的信息推送***
CN107391712A (zh) * 2017-07-28 2017-11-24 王亚迪 一种网络舆论趋势预测分析方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472412A (zh) * 2018-11-09 2019-03-15 百度在线网络技术(北京)有限公司 一种事件的预测方法及装置
CN109858869A (zh) * 2018-12-21 2019-06-07 厦门市美亚柏科信息股份有限公司 用于处理事件信息的方法和装置
CN109992661A (zh) * 2019-03-05 2019-07-09 广发证券股份有限公司 一种面向证券行业的智能舆情监控方法及***
CN110008352A (zh) * 2019-03-28 2019-07-12 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110008352B (zh) * 2019-03-28 2022-12-20 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110910015A (zh) * 2019-11-21 2020-03-24 联想(北京)有限公司 网络信息的分析方法及装置
CN110910015B (zh) * 2019-11-21 2022-08-19 联想(北京)有限公司 网络信息的分析方法及装置
CN110874441A (zh) * 2020-01-19 2020-03-10 中国传媒大学 结合记忆遗忘和记忆增强的用户兴趣分析方法及***
CN115934808B (zh) * 2023-03-02 2023-05-16 中国电子科技集团公司第三十研究所 一种融入关联分析和风暴抑制机制的网络舆情预警方法

Also Published As

Publication number Publication date
US10747771B2 (en) 2020-08-18
US20190171724A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
CN107992478A (zh) 确定热点事件的方法和装置
CN106462608B (zh) 改进语言模型的知识源个性化
CN109902186A (zh) 用于生成神经网络的方法和装置
CN109460513A (zh) 用于生成点击率预测模型的方法和装置
CN109086439A (zh) 信息推荐方法及装置
US10909606B2 (en) Real-time in-venue cognitive recommendations to user based on user behavior
CN109981787B (zh) 用于展示信息的方法和装置
CN108228906B (zh) 用于生成信息的方法和装置
CN109492160A (zh) 用于推送信息的方法和装置
CN108769198A (zh) 用于推送信息的方法和装置
CN109976997A (zh) 测试方法和装置
CN109993150A (zh) 用于识别年龄的方法和装置
CN109087162A (zh) 数据处理方法、***、介质和计算设备
CN108121699A (zh) 用于输出信息的方法和装置
CN110245298A (zh) 用于推送信息的方法和装置
CN109785072A (zh) 用于生成信息的方法和装置
CN116821475A (zh) 基于客户数据的视频推荐方法、装置及计算机设备
CN109255036A (zh) 用于输出信息的方法和装置
CN108573054A (zh) 用于推送信息的方法和装置
CN117033799B (zh) 资源推荐方法、装置、计算机设备及存储介质
CN106446969A (zh) 用户识别的方法及装置
CN109829117A (zh) 用于推送信息的方法和装置
WO2020233228A1 (zh) 用于推送信息的方法和装置
CN109710939B (zh) 用于确定主题的方法和装置
CN117253287A (zh) 基于域泛化的动作预测模型训练方法、相关方法及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504

RJ01 Rejection of invention patent application after publication