CN104679738A - 互联网热词挖掘方法及装置 - Google Patents

互联网热词挖掘方法及装置 Download PDF

Info

Publication number
CN104679738A
CN104679738A CN201310607937.0A CN201310607937A CN104679738A CN 104679738 A CN104679738 A CN 104679738A CN 201310607937 A CN201310607937 A CN 201310607937A CN 104679738 A CN104679738 A CN 104679738A
Authority
CN
China
Prior art keywords
word
string
internet
hot
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310607937.0A
Other languages
English (en)
Other versions
CN104679738B (zh
Inventor
肖诗斌
孙丽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOLS INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
BEIJING TRS INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TRS INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING TRS INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310607937.0A priority Critical patent/CN104679738B/zh
Publication of CN104679738A publication Critical patent/CN104679738A/zh
Application granted granted Critical
Publication of CN104679738B publication Critical patent/CN104679738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种互联网热词挖掘方法,包括:词图和背景库的初始化;实体串和非实体串的识别;字串统计指标更新;字串热度计算;字串热度排序及字串输出。将字串分为实体串和非实体串有针对性的区分识别,并设置背景库实现语料和计算指标的增量更新,提高了热词抽取的准确率和效率。同时,还提供了一种互联网热词挖掘装置,包括:存储单元,实体串识别单元,非实体串识别单元,热词抽取单元。热词抽取单元完成:统计指标的增量更新,字串热度计算,字串排序输出。实现热词有序、高效、准确地抽取。

Description

互联网热词挖掘方法及装置
技术领域
本发明涉及自然语言处理技术,尤其涉及一种互联网热词挖掘方法及装置。
背景技术
热词是指在某段时间内使用频率较高的词语,往往具有时代特征,反映一个时期的热点话题及民生问题。互联网热词除了词典已收录词外,还存在一些网络热词,这类词来源于、流传于网络空间,并被广泛应用于日常交流之中,如“何弃疗”、“不明觉厉”、“陈欧体”等,分词***通常很难识别这类词语,而网络热词却作为一种新的重要传播现象出现在当今互联网中,并且随着时代的变化,发生着演化和变迁。
互联网热词与社会事件或现象联系紧密,成为民意表达与舆论监督的工具,准确、高效抽取互联网热词是当下舆情监管、互联网研究等重要事宜的发展基础。
热词挖掘目前所使用的技术有,基于文档聚类的热词挖掘,这类方法通常容易出现聚类复杂度高,无法满足互联网热词挖掘的实时性需求;另外一种是,根据字串的成词边界、时间分布等特征,采用机器学习模型,进行热词与否的分类学习,这类方法一方面需要知识库支持,另一方面所选取特征基本是字串公有特征,没有对特殊字串做特殊处理,导致噪音词较大,热词发现的准确率不高。
由于各实体串具有独特的成词规律,如人名串由有限的姓氏+高频名字用词组成,且目前有大量实体串知识库,便于机器学习模型学习。为此,本发明将互联网热词分为实体串与非实体串,提出一种互联网热词挖掘方法和装置,以解决互联网热词挖掘效率瓶颈。
发明内容
鉴于此,本发明主要目的是提供一种互联网热词挖掘方法和装置,以提高热词挖掘的准确率和效率。
本发明提供了一种互联网热词挖掘方法,该方法包括。
步骤A 构建词图Words和背景库Corpus,并初始化。
词图Words,存储每一步骤中抽取的词的结果。
背景库Corpus,存放互联网采集来的源数据,同时记录每一个时间单位里各统计指标结果,如标题串频、正文串频、总串频等。
步骤B 实体串识别。
以句子终结符为标准,将互联网原始数据切分为一个个原始字串序列。
对字串序列进行分词原子切分,对原子单元进行两两组合,实现字串序列的二元粗切分,抽取最优的N个粗分结果加入到词图Words中。
构建三级互联的隐马尔科夫模型,自底向上依次为人名识别HMM,地名识别HMM和机构名识别HMM,每一级以隐马尔科夫模型作为基本的算法模型,构建层叠隐马尔科夫模型(Cascaded Hidden Markov Model,简称Cascaded HMM)。
每一层隐马尔科夫模型采用N-Best策略,将产生的最好的N个结果送到词图Words中,供高层模型使用。
低层隐马尔科夫模型通过词语的生成模型为高层隐马尔科夫模型的参数估计提供支持。
第一层人名识别的输入为二元粗切分序列,每一层隐马尔科夫模型都采用改进的Viterbi算法,将最好的N个结果送入词图中,供高一级模型使用。
最高级隐马模型在人名和地名识别的基础之上进行机构名识别。
步骤C 非实体串识别。
采用Nagao算法统计字串中长度为L的子串串频,抽取串频大于一定阈值的子串,进行子串归并。
采用通用度过滤、IWP过滤、互信度过滤及首尾字过滤等策略进行垃圾串过滤,得到候选串,从候选串中过滤掉实体串,即为非实体串。
步骤D 字串统计指标更新。
字串分为候选实体串和非实体串,即为以上步骤抽取的串。
字串统计指标这里指服务于字串热度计算的统计值,如字串在标题、正文中出现的频次,字串出现的频次总和,字串出现的文档数,某时间单位下字串的频次等指标的值。
背景库Corpus中记录源数据更新时间单位下的字串统计指标值,随后时间单位的互联网数据到来时,对背景库Corpus中的语料进行增量更新,同时增量更新记录中的指标。
步骤E 字串热度计算。
字串热度权值分为:基础权值和波动权值,根据背景库中实时更新的统计指标计算字串热度。
其中,基础权值由串出现的位置信息、频率、逆文档频率确定。
波动权值,用字串的时间衰减度来描述。
热词被定义为某一时间段内频繁、大量使用的词,为此采用词条的时间衰减度来表征字串频率随时间的变化,简称衰减度。
更进一步地,基础权值计算公式如下:
Basew(s) = titlew(s) *                                                + content(s),其中titlew为字串在标题中出现的权重,contentw为字串在正文中出现的权重,权重的衡量采用tf-idf技术,为作用系数,反应字串在标题和正文中的差异。
为平衡低频、高频字串,对基础权值进行平滑处理,处理方法如下:
Convbasew (s) = log(1+log(1+log(basew(s))))。
波动权值,是字串频次随时间的衰减度,其计算方法如下:
Wavew(s,t) =,t[1,T], t为一个时间单位。
字串热度finalweight(s,t) = Convbasew(s) * Wavew(s,t)。
步骤F 热词排序、输出。
按照字串热度权值由大到小排序,即可得到一段时间的热点人名、地名、机构名和热点非实体词语。
此外,本发明还提供了一种互联网热词挖掘装置,包括:存储单元101,实体识别单元102,非实体识别单元103,热词抽取单元104。
其中,存储单元101,主要负责背景库、词图、中间结果等的存储和供给。
实体识别单元102,主要负责字串的切分及实体串的识别,包括人名识别、地名识别、机构名识别。
非实体串识别单元103,主要负责高频字串抽取、垃圾串过滤、候选非实体串抽取。
热词抽取单元104,主要负责:背景库中字串的统计指标更新;实体串和非实体串的热度计算;字串热度排序以及字串输出。
热词抽取单元,又由统计指标更新模块104_1、热度计算模块104_2、热度排序及热词输出模块104_3组成。
其中,统计指标更新模块104_1,采用增量更新机制,对不存在于背景库中的字串的统计指标进行计算并更新。
热度计算模块104_2,根据统计指标,计算字串的基础权值和波动权值,获取字串热度值。
热度排序和热词输出模块104_3,按照字串热度值由高到低排序,输出热度值大于一定阈值的字串,即为热词。
由上述方案可知,本发明实施例提供的一种互联网热词挖掘方法和装置,设置背景库,使得字串统计指标可以按照特定时间单位实时更新;将互联网热词分为实体串和非实体串分别识别,实体串时采用基于分词的机器学习模型训练获取,非实体串采用Nagao算法获取高频子串,使得字串识别优选地应用字串本身所具备的属性特征;在热度计算时,除了考虑字串出现的位置信息、频率、逆文档频率等特征外,还充分利用了字串随时间的波动特征。这样,一方面提高了热词抽取效率,另一方面保证了热词抽取的准确性,尤其是对一些未登录词作为热词的抽取。
附图说明
图1为本发明实施例提供的一种互联网热词挖掘方法的流程图。
图2为本发明实施例提供的一种互联网热词挖掘装置的模块图。 
具体实施方案
为使本发明实施例的目的、技术方法、及优点更加清楚明白,以下结合附图对本发明实施例提供的技术方案进行详细说明,但并不用于限制本发明。
热词是指在某段时间内使用频率较高的词语,具有一定的时间属性。因此,本发明实施例通过构建背景库,以存储某一时间段之前的语料及统计信息;同时,热词将分为实体串及非实体串,以更好的利用各实体串属性特征,进行训练学习,并利用高频串统计算法进行候选非实体串抽取;热度计算时不仅考虑到字串位置、词频、逆文档频率等基础权值信息,更考虑字串随时间的波动分布,提高热词抽取效率和准确率。
如图1所示,为本发明实施例提供的一种互联网热词挖掘方法的流程图,包括。
步骤A 词图Words、背景库Corpus构建及初始化。
词图Words存储层级抽取的词、侯选串。
背景库Corpus分为语料库及字串指标库,语料库存储某一时间段前的待抽取热词的互联网资源,字串指标库,为该资源所含字串及其对应统计指标值,统计指标一般有字串位置、字串频率、字串文档数,初始化时,语料库为空,字串指标库为空。
步骤B 实体串识别。
以句子终结符为标准,如“。”、“!”、“?”等,将互联网原始数据切分为一个个原始字串序列。
对字串序列进行分词原子切分,得到原子单元,原子单元是不能再切分的子串,如“十八届三中全会将于11月9日至12日在北京召开”,其中原子单元为:十八 届 三 中 全 会 将于 11 月 9 日 至 12 日。
对原子单元进行两两组合,实现字串序列的二元粗切分,按照字串频次,抽取最优的N个粗分结果加入到词图Words中。
构建三级互联的隐马尔科夫模型,自底向上依次为人名识别HMM,地名识别HMM和机构名识别HMM,每一级以隐马尔科夫模型作为基本的算法模型,构建层叠隐马尔科夫模型(Cascaded Hidden Markov Model,简称Cascaded HMM)。
每一层隐马尔科夫模型采用N-Best策略,将产生的最好的N个结果送到词图Words中,供高层模型使用。
低层隐马尔科夫模型通过词语的生成模型为高层隐马尔科夫模型的参数估计提供支持。
第一层人名识别的输入为二元粗切分序列,每一层隐马尔科夫模型都采用改进的Viterbi算法,将最好的N个结果送入词图中,供高一级模型使用。
最高级隐马模型在人名和地名识别的基础之上进行机构名识别。
步骤C 非实体串识别。
以句子中标点符号为标准,如“,”、“、”、“。”、“;”等,将互联网原始数据切分为一个个字串序列。
采用Nagao算法,对这些字串的子串进行频率统计,获取出现频率大于一定阈值的子串,并以一定的策略进行子串归并,得到候选子串。
采用通用度过滤、IWP过滤、互信度过滤及首尾字过滤等策略进行垃圾串过滤,得到候选串,从候选串中过滤掉实体串,即为非实体串。
步骤D 字串统计指标更新。
指标库中主要记录字串所处记录号,字串的位置、频次、所在文档数、当前统计时间等指标的值。
将识别出的实体串和非实体串写入背景库中的字串指标库,采取增量写入方式,指标库中存在某一字串则只进行当前时间的指标更新,不存在该字串则写入。
步骤E 字串热度计算。
计算字串的基础权值和波动权值,其中基础权值是由字串所在位置、频次、所在文档数决定,而波动权值受时间影响。
更进一步地,基础权值计算公式如下:
Basew(s) = titlew(s) * + content(s),其中titlew为字串在标题中出现的权重,contentw为字串在正文中出现的权重,权重的衡量采用tf-idf技术,为作用系数,反应字串在标题和正文中的差异。
为平衡低频、高频字串,对基础权值进行平滑处理,处理方法如下:
Convbasew (s) = log(1+log(1+log(basew(s))))。
波动权值,是字串频次随时间的衰减度,其计算方法如下:
Wavew(s,t) =,t[1,T], t为一个时间单位。
字串热度计算方法为:finalweight(s,t) = Convbasew(s) * Wavew(s,t)。
步骤F 字串抽取。
按字串热度由高到低排序,即可得到一段时间的热点人名、地名、机构名和热点非实体词语。
如图2所示,为本发明实施例提供的一种互联网热词挖掘装置,包括:存储单元101;实体识别单元102;非实体识别单元103;热词抽取单元104。
其中,存储单元101,主要负责资源、数据的存储,并为其他各模块提供相对应存取接口,如词的存取、统计指标的存取等。
实体识别单元102,构建层叠式隐马尔科夫模型,基于分词的基础,抽取人名、地名、机构名等实体名称。
非实体串识别单元103,将语料按照分句拆分成字串序列,采用Nagao算法,统计出现频次大于一定阈值的子串,并进行子串归并及垃圾串过滤后,排除实体串,得到非实体串。
热词抽取单元104,负责热度计算、热度排序,其中包含统计指标更新模块104_1、热度计算模块104_2、热度排序及热词输出模块104_3。
其中,统计指标更新模块104_1,采用增量更新机制,对不存在于背景库中的字串的统计指标进行计算并更新。
热度计算模块104_2,根据统计指标,计算字串的基础权值和波动权值,获取字串热度值。
热度排序和热词输出模块104_3,按照字串热度值由高到低排序,输出热度值大于一定阈值的字串,即为热词。
本实施例以互联网新闻、论坛、博客为源数据,以天为时间单位,实体识别性能能达到每秒500K左右的识别速度,非实体识别速度非常快,每秒达到2M左右,热词挖掘准确率和召回率均能达到较高水平,以满足工程应用,能有效为热点监测服务。

Claims (16)

1.一种互联网热词挖掘方法,其特征在于,该方法包括:
步骤A,构建词图Words和背景库Corpus,并初始化;
步骤B,实体串识别;
步骤C,非实体串识别;
步骤D,字串统计指标更新;
步骤E,字串热度计算;
步骤F,热词排序、输出。
2.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,词图用于存储中间抽取的词;背景库用于存储背景语料及单位时间里各统计指标量化值,各统计指标是为字串热度计算服务的一些指标,根据热度计算方法的不同,统计指标有所区别。
3.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,以句子终结符为标准,将互联网原始数据切分为一个个原始字串序列后做下一步处理。
4.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,实体串包括人名、地名、机构名等,实体串识别基于分词基础,构建三级互联的隐马尔科夫模型,自底向上依次为人名HMM、地名HMM、机构名称HMM,每一级以隐马尔科夫模型作为基本的算法模型,构建层叠隐马尔科夫模型。
5.如权利要求1和权利要求4所述的一种互联网热词挖掘方法,其特征在于每一层隐马尔科夫模型采用改进的Viterbi算法,利用N-Best策略,将产生的最好的N个结果送到词图Words中,供高层模型使用。
6.如权利要求4所述的一种互联网热词挖掘方法,其特征在于,低层隐马尔科夫模型通过词语的生成模型为高层模型的参数估计提供支持。
7.如权利要求4所述的一种互联网热词挖掘方法,其特征在于,第一层人名识别模型的输入是分词后的二元粗切分序列,最高级隐马尔科夫模型在人名和地名识别的基础上,做机构名识别。
8.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,采用串频统计算法,如Nagao算法,统计字串中长度为L的子串串频,抽取大于一定阈值的子串,进行子串归并及垃圾子串过滤。
9.如权利要求1和权利要求2所述的一种互联网热词挖掘方法,其特征在于,对背景库中语料进行定点更新,同时更新字串统计指标,这里的字串指实体串和非实体串。
10.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,字串热度权值分为基础权值和波动权值,字串热度权值的计算,依赖于字串统计指标的值,其计算方法为:
字串热度finalweight(s,t) = Convbasew(s) * Wavew(s,t),其中Convbasew(s)为字串基础权值,Wavew(s)为字串的波动权值。
11.如权利要求1和权利要求10所述的一种互联网热词挖掘方法,其特征在于,基础权值由字串出现的位置、频率、逆文档频率确定;波动权值用字串的时间衰减度来描述,即为字串频率随时间的变化情况。
12.如权利要求11所述的一种互联网热词挖掘方法,其特征在于,基础权值的计算方法为:
 Basew(s) = titlew(s) *                                                + content(s),其中titlew为字串在标题中出现的权重,contentw为字串在正文中出现的权重,权重的衡量采用tf-idf技术,为作用系数,反应字串在标题和正文中的差异;
为平衡低频、高频字串,对基础权值进行平滑处理,处理方法如下:
Convbasew (s) = log(1+log(1+log(basew(s))))。
13.如权利要求11所述的一种互联网热词挖掘方法,其特征在于,波动权值,其计算方法为:Wavew(s,t)=,t[1,T], t为一个时间单位。
14.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,按照字串热度权值由大到小对字串排序,输出一定时间内,热度大于一定阈值的作为热词,其中包括热点人名、地名、机构名和非实体词语。
15.本发明提供的一种互联网热词挖掘装置,其特征在于,包括以下模块:
存储单元101,负责词图、背景库等的存储和供给;
实体识别单元102,负责字串切分及实体串的识别,包括人名、地名、机构名识别;
非实体串识别单元103,负责高频字串抽取、垃圾串过滤、候选非实体串抽取;
热词抽取单元104,主要负责,背景库中字串的统计指标更新;字串热度计算;字串热度排序及字串输出。
16.如权利要求15所述的一种互联网热词挖掘装置,其特征在于,热词抽取单元104又由统计指标更新模块104_1,热度计算模块104_2,热度排序及热词输出模块104_3组成。
CN201310607937.0A 2013-11-27 2013-11-27 互联网热词挖掘方法及装置 Active CN104679738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310607937.0A CN104679738B (zh) 2013-11-27 2013-11-27 互联网热词挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310607937.0A CN104679738B (zh) 2013-11-27 2013-11-27 互联网热词挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN104679738A true CN104679738A (zh) 2015-06-03
CN104679738B CN104679738B (zh) 2018-02-27

Family

ID=53314802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310607937.0A Active CN104679738B (zh) 2013-11-27 2013-11-27 互联网热词挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN104679738B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205048A (zh) * 2015-10-21 2015-12-30 上海迪爱斯通信设备有限公司 一种热词分析统计***及方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106407175A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 新词发现中字符串的处理方法及装置
CN106503256A (zh) * 2016-11-11 2017-03-15 中国科学院计算技术研究所 一种基于社交网络文档的热点信息挖掘方法
CN108009234A (zh) * 2017-11-29 2018-05-08 苏州大学 一种非实体类型论元的抽取方法、装置及设备
CN108446274A (zh) * 2018-03-15 2018-08-24 北京科技大学 一种基于时间敏感tf-idf的关键词提取方法
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及***
CN108595435A (zh) * 2018-05-03 2018-09-28 鹏元征信有限公司 一种机构名称识别处理方法、智能终端及存储介质
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及***
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及***
CN113076335A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种网络模因检测方法、***、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词***
CN101504667A (zh) * 2009-03-20 2009-08-12 北京学之途网络科技有限公司 关键词的确定方法及***、权值向量的学习方法及***
US20090222883A1 (en) * 2008-02-29 2009-09-03 Zhen Zhong Huo Method and Apparatus for Confidential Knowledge Protection in Software System Development
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222883A1 (en) * 2008-02-29 2009-09-03 Zhen Zhong Huo Method and Apparatus for Confidential Knowledge Protection in Software System Development
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词***
CN101504667A (zh) * 2009-03-20 2009-08-12 北京学之途网络科技有限公司 关键词的确定方法及***、权值向量的学习方法及***
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐远华: "Web新闻热点信息的自动发现及展示", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李渝勤等: "面向互联网舆情的热词分析技术", 《中文信息学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407175A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 新词发现中字符串的处理方法及装置
CN105205048B (zh) * 2015-10-21 2018-05-04 迪爱斯信息技术股份有限公司 一种热词分析统计***及方法
CN105205048A (zh) * 2015-10-21 2015-12-30 上海迪爱斯通信设备有限公司 一种热词分析统计***及方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN105488196B (zh) * 2015-12-07 2019-01-22 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN105824803B (zh) * 2016-03-31 2018-10-30 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106503256A (zh) * 2016-11-11 2017-03-15 中国科学院计算技术研究所 一种基于社交网络文档的热点信息挖掘方法
CN106503256B (zh) * 2016-11-11 2019-05-07 中国科学院计算技术研究所 一种基于社交网络文档的热点信息挖掘方法
CN108009234B (zh) * 2017-11-29 2022-02-11 苏州大学 一种非实体类型论元的抽取方法、装置及设备
CN108009234A (zh) * 2017-11-29 2018-05-08 苏州大学 一种非实体类型论元的抽取方法、装置及设备
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及***
CN108509490B (zh) * 2018-02-09 2020-10-02 中国农业大学 一种网络热点话题发现方法及***
CN108446274A (zh) * 2018-03-15 2018-08-24 北京科技大学 一种基于时间敏感tf-idf的关键词提取方法
CN108595435A (zh) * 2018-05-03 2018-09-28 鹏元征信有限公司 一种机构名称识别处理方法、智能终端及存储介质
CN108595435B (zh) * 2018-05-03 2020-09-01 鹏元征信有限公司 一种机构名称识别处理方法、智能终端及存储介质
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及***
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN110765239B (zh) * 2019-10-29 2023-03-28 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及***
CN113076335A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种网络模因检测方法、***、设备及存储介质
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN104679738B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN104679738A (zh) 互联网热词挖掘方法及装置
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及***
CN104699763B (zh) 多特征融合的文本相似性度量***
CN103268339B (zh) 微博消息中命名实体识别方法及***
CN103984681B (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN102411611B (zh) 一种面向即时交互文本的事件识别与跟踪方法
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN104199965A (zh) 一种语义信息检索方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及***
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN103593418A (zh) 一种面向大数据的分布式主题发现方法及***
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN104008106A (zh) 一种获取热点话题的方法及装置
CN102253930A (zh) 一种文本翻译的方法及装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN109408802A (zh) 一种提升句向量语义的方法、***及存储介质
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和***
CN103207864A (zh) 一种网络小说内容近似度比对方法
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和***
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN103869999A (zh) 对输入法所产生的候选项进行排序的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04

Patentee after: TOLS INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04

Patentee before: BEIJING TRS INFORMATION TECHNOLOGY Co.,Ltd.