CN104679738A

CN104679738A - 互联网热词挖掘方法及装置

Info

Publication number: CN104679738A
Application number: CN201310607937.0A
Authority: CN
Inventors: 肖诗斌; 孙丽华
Original assignee: BEIJING TRS INFORMATION TECHNOLOGY Co Ltd
Current assignee: TOLS INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2015-06-03
Anticipated expiration: 2033-11-27
Also published as: CN104679738B

Abstract

本发明提供的一种互联网热词挖掘方法，包括：词图和背景库的初始化；实体串和非实体串的识别；字串统计指标更新；字串热度计算；字串热度排序及字串输出。将字串分为实体串和非实体串有针对性的区分识别，并设置背景库实现语料和计算指标的增量更新，提高了热词抽取的准确率和效率。同时，还提供了一种互联网热词挖掘装置，包括：存储单元，实体串识别单元，非实体串识别单元，热词抽取单元。热词抽取单元完成：统计指标的增量更新，字串热度计算，字串排序输出。实现热词有序、高效、准确地抽取。

Description

互联网热词挖掘方法及装置

技术领域

本发明涉及自然语言处理技术，尤其涉及一种互联网热词挖掘方法及装置。

背景技术

热词是指在某段时间内使用频率较高的词语，往往具有时代特征，反映一个时期的热点话题及民生问题。互联网热词除了词典已收录词外，还存在一些网络热词，这类词来源于、流传于网络空间，并被广泛应用于日常交流之中，如“何弃疗”、“不明觉厉”、“陈欧体”等，分词***通常很难识别这类词语，而网络热词却作为一种新的重要传播现象出现在当今互联网中，并且随着时代的变化，发生着演化和变迁。

互联网热词与社会事件或现象联系紧密，成为民意表达与舆论监督的工具，准确、高效抽取互联网热词是当下舆情监管、互联网研究等重要事宜的发展基础。

热词挖掘目前所使用的技术有，基于文档聚类的热词挖掘，这类方法通常容易出现聚类复杂度高，无法满足互联网热词挖掘的实时性需求；另外一种是，根据字串的成词边界、时间分布等特征，采用机器学习模型，进行热词与否的分类学习，这类方法一方面需要知识库支持，另一方面所选取特征基本是字串公有特征，没有对特殊字串做特殊处理，导致噪音词较大，热词发现的准确率不高。

由于各实体串具有独特的成词规律，如人名串由有限的姓氏+高频名字用词组成，且目前有大量实体串知识库，便于机器学习模型学习。为此，本发明将互联网热词分为实体串与非实体串，提出一种互联网热词挖掘方法和装置，以解决互联网热词挖掘效率瓶颈。

发明内容

鉴于此，本发明主要目的是提供一种互联网热词挖掘方法和装置，以提高热词挖掘的准确率和效率。

本发明提供了一种互联网热词挖掘方法，该方法包括。

步骤A 构建词图Words和背景库Corpus，并初始化。

词图Words，存储每一步骤中抽取的词的结果。

背景库Corpus，存放互联网采集来的源数据，同时记录每一个时间单位里各统计指标结果，如标题串频、正文串频、总串频等。

步骤B 实体串识别。

以句子终结符为标准，将互联网原始数据切分为一个个原始字串序列。

对字串序列进行分词原子切分，对原子单元进行两两组合，实现字串序列的二元粗切分，抽取最优的N个粗分结果加入到词图Words中。

构建三级互联的隐马尔科夫模型，自底向上依次为人名识别HMM，地名识别HMM和机构名识别HMM，每一级以隐马尔科夫模型作为基本的算法模型，构建层叠隐马尔科夫模型（Cascaded Hidden Markov Model,简称Cascaded HMM）。

每一层隐马尔科夫模型采用N-Best策略，将产生的最好的N个结果送到词图Words中，供高层模型使用。

低层隐马尔科夫模型通过词语的生成模型为高层隐马尔科夫模型的参数估计提供支持。

第一层人名识别的输入为二元粗切分序列，每一层隐马尔科夫模型都采用改进的Viterbi算法，将最好的N个结果送入词图中，供高一级模型使用。

最高级隐马模型在人名和地名识别的基础之上进行机构名识别。

步骤C 非实体串识别。

采用Nagao算法统计字串中长度为L的子串串频，抽取串频大于一定阈值的子串，进行子串归并。

采用通用度过滤、IWP过滤、互信度过滤及首尾字过滤等策略进行垃圾串过滤，得到候选串，从候选串中过滤掉实体串，即为非实体串。

步骤D 字串统计指标更新。

字串分为候选实体串和非实体串，即为以上步骤抽取的串。

字串统计指标这里指服务于字串热度计算的统计值，如字串在标题、正文中出现的频次，字串出现的频次总和，字串出现的文档数，某时间单位下字串的频次等指标的值。

背景库Corpus中记录源数据更新时间单位下的字串统计指标值，随后时间单位的互联网数据到来时，对背景库Corpus中的语料进行增量更新，同时增量更新记录中的指标。

步骤E 字串热度计算。

字串热度权值分为：基础权值和波动权值，根据背景库中实时更新的统计指标计算字串热度。

其中，基础权值由串出现的位置信息、频率、逆文档频率确定。

波动权值，用字串的时间衰减度来描述。

热词被定义为某一时间段内频繁、大量使用的词，为此采用词条的时间衰减度来表征字串频率随时间的变化，简称衰减度。

更进一步地，基础权值计算公式如下：

Basew(s) = titlew(s) * + content(s)，其中titlew为字串在标题中出现的权重，contentw为字串在正文中出现的权重，权重的衡量采用tf-idf技术，为作用系数，反应字串在标题和正文中的差异。

为平衡低频、高频字串，对基础权值进行平滑处理，处理方法如下：

Convbasew (s) = log(1+log(1+log(basew(s))))。

波动权值，是字串频次随时间的衰减度，其计算方法如下：

Wavew(s,t) =,t[1,T], t为一个时间单位。

字串热度finalweight(s,t) = Convbasew(s) * Wavew(s,t)。

步骤F 热词排序、输出。

按照字串热度权值由大到小排序，即可得到一段时间的热点人名、地名、机构名和热点非实体词语。

此外，本发明还提供了一种互联网热词挖掘装置，包括：存储单元101，实体识别单元102，非实体识别单元103，热词抽取单元104。

其中，存储单元101，主要负责背景库、词图、中间结果等的存储和供给。

实体识别单元102，主要负责字串的切分及实体串的识别，包括人名识别、地名识别、机构名识别。

非实体串识别单元103，主要负责高频字串抽取、垃圾串过滤、候选非实体串抽取。

热词抽取单元104，主要负责：背景库中字串的统计指标更新；实体串和非实体串的热度计算；字串热度排序以及字串输出。

热词抽取单元，又由统计指标更新模块104_1、热度计算模块104_2、热度排序及热词输出模块104_3组成。

其中，统计指标更新模块104_1，采用增量更新机制，对不存在于背景库中的字串的统计指标进行计算并更新。

热度计算模块104_2，根据统计指标，计算字串的基础权值和波动权值，获取字串热度值。

热度排序和热词输出模块104_3，按照字串热度值由高到低排序，输出热度值大于一定阈值的字串，即为热词。

由上述方案可知，本发明实施例提供的一种互联网热词挖掘方法和装置，设置背景库，使得字串统计指标可以按照特定时间单位实时更新；将互联网热词分为实体串和非实体串分别识别，实体串时采用基于分词的机器学习模型训练获取，非实体串采用Nagao算法获取高频子串，使得字串识别优选地应用字串本身所具备的属性特征；在热度计算时，除了考虑字串出现的位置信息、频率、逆文档频率等特征外，还充分利用了字串随时间的波动特征。这样，一方面提高了热词抽取效率，另一方面保证了热词抽取的准确性，尤其是对一些未登录词作为热词的抽取。

附图说明

图1为本发明实施例提供的一种互联网热词挖掘方法的流程图。

图2为本发明实施例提供的一种互联网热词挖掘装置的模块图。

具体实施方案

为使本发明实施例的目的、技术方法、及优点更加清楚明白，以下结合附图对本发明实施例提供的技术方案进行详细说明，但并不用于限制本发明。

热词是指在某段时间内使用频率较高的词语，具有一定的时间属性。因此，本发明实施例通过构建背景库，以存储某一时间段之前的语料及统计信息；同时，热词将分为实体串及非实体串，以更好的利用各实体串属性特征，进行训练学习，并利用高频串统计算法进行候选非实体串抽取；热度计算时不仅考虑到字串位置、词频、逆文档频率等基础权值信息，更考虑字串随时间的波动分布，提高热词抽取效率和准确率。

如图1所示，为本发明实施例提供的一种互联网热词挖掘方法的流程图，包括。

步骤A 词图Words、背景库Corpus构建及初始化。

词图Words存储层级抽取的词、侯选串。

背景库Corpus分为语料库及字串指标库，语料库存储某一时间段前的待抽取热词的互联网资源，字串指标库，为该资源所含字串及其对应统计指标值，统计指标一般有字串位置、字串频率、字串文档数，初始化时，语料库为空，字串指标库为空。

步骤B 实体串识别。

以句子终结符为标准，如“。”、“！”、“？”等，将互联网原始数据切分为一个个原始字串序列。

对字串序列进行分词原子切分，得到原子单元，原子单元是不能再切分的子串，如“十八届三中全会将于11月9日至12日在北京召开”，其中原子单元为：十八届三中全会将于 11 月 9 日至 12 日。

对原子单元进行两两组合，实现字串序列的二元粗切分，按照字串频次，抽取最优的N个粗分结果加入到词图Words中。

步骤C 非实体串识别。

以句子中标点符号为标准，如“，”、“、”、“。”、“；”等，将互联网原始数据切分为一个个字串序列。

采用Nagao算法，对这些字串的子串进行频率统计，获取出现频率大于一定阈值的子串，并以一定的策略进行子串归并，得到候选子串。

步骤D 字串统计指标更新。

指标库中主要记录字串所处记录号，字串的位置、频次、所在文档数、当前统计时间等指标的值。

将识别出的实体串和非实体串写入背景库中的字串指标库，采取增量写入方式，指标库中存在某一字串则只进行当前时间的指标更新，不存在该字串则写入。

步骤E 字串热度计算。

计算字串的基础权值和波动权值，其中基础权值是由字串所在位置、频次、所在文档数决定，而波动权值受时间影响。

更进一步地，基础权值计算公式如下：

Convbasew (s) = log(1+log(1+log(basew(s))))。

波动权值，是字串频次随时间的衰减度，其计算方法如下：

Wavew(s,t) =,t[1,T], t为一个时间单位。

字串热度计算方法为：finalweight(s,t) = Convbasew(s) * Wavew(s,t)。

步骤F 字串抽取。

按字串热度由高到低排序，即可得到一段时间的热点人名、地名、机构名和热点非实体词语。

如图2所示，为本发明实施例提供的一种互联网热词挖掘装置，包括：存储单元101；实体识别单元102；非实体识别单元103；热词抽取单元104。

其中，存储单元101，主要负责资源、数据的存储，并为其他各模块提供相对应存取接口，如词的存取、统计指标的存取等。

实体识别单元102，构建层叠式隐马尔科夫模型，基于分词的基础，抽取人名、地名、机构名等实体名称。

非实体串识别单元103，将语料按照分句拆分成字串序列，采用Nagao算法，统计出现频次大于一定阈值的子串，并进行子串归并及垃圾串过滤后，排除实体串，得到非实体串。

热词抽取单元104，负责热度计算、热度排序，其中包含统计指标更新模块104_1、热度计算模块104_2、热度排序及热词输出模块104_3。

本实施例以互联网新闻、论坛、博客为源数据，以天为时间单位，实体识别性能能达到每秒500K左右的识别速度，非实体识别速度非常快，每秒达到2M左右，热词挖掘准确率和召回率均能达到较高水平，以满足工程应用，能有效为热点监测服务。

Claims

1.一种互联网热词挖掘方法，其特征在于，该方法包括：

步骤A，构建词图Words和背景库Corpus，并初始化；

步骤B，实体串识别；

步骤C，非实体串识别；

步骤D，字串统计指标更新；

步骤E，字串热度计算；

步骤F，热词排序、输出。

2.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，词图用于存储中间抽取的词；背景库用于存储背景语料及单位时间里各统计指标量化值，各统计指标是为字串热度计算服务的一些指标，根据热度计算方法的不同，统计指标有所区别。

3.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，以句子终结符为标准，将互联网原始数据切分为一个个原始字串序列后做下一步处理。

4.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，实体串包括人名、地名、机构名等，实体串识别基于分词基础，构建三级互联的隐马尔科夫模型，自底向上依次为人名HMM、地名HMM、机构名称HMM，每一级以隐马尔科夫模型作为基本的算法模型，构建层叠隐马尔科夫模型。

5.如权利要求1和权利要求4所述的一种互联网热词挖掘方法，其特征在于每一层隐马尔科夫模型采用改进的Viterbi算法，利用N-Best策略，将产生的最好的N个结果送到词图Words中，供高层模型使用。

6.如权利要求4所述的一种互联网热词挖掘方法，其特征在于，低层隐马尔科夫模型通过词语的生成模型为高层模型的参数估计提供支持。

7.如权利要求4所述的一种互联网热词挖掘方法，其特征在于，第一层人名识别模型的输入是分词后的二元粗切分序列，最高级隐马尔科夫模型在人名和地名识别的基础上，做机构名识别。

8.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，采用串频统计算法，如Nagao算法，统计字串中长度为L的子串串频，抽取大于一定阈值的子串，进行子串归并及垃圾子串过滤。

9.如权利要求1和权利要求2所述的一种互联网热词挖掘方法，其特征在于，对背景库中语料进行定点更新，同时更新字串统计指标，这里的字串指实体串和非实体串。

10.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，字串热度权值分为基础权值和波动权值，字串热度权值的计算，依赖于字串统计指标的值，其计算方法为：

字串热度finalweight(s,t) = Convbasew(s) * Wavew(s,t)，其中Convbasew(s)为字串基础权值，Wavew(s)为字串的波动权值。

11.如权利要求1和权利要求10所述的一种互联网热词挖掘方法，其特征在于，基础权值由字串出现的位置、频率、逆文档频率确定；波动权值用字串的时间衰减度来描述，即为字串频率随时间的变化情况。

12.如权利要求11所述的一种互联网热词挖掘方法，其特征在于，基础权值的计算方法为：

Basew(s) = titlew(s) * + content(s)，其中titlew为字串在标题中出现的权重，contentw为字串在正文中出现的权重，权重的衡量采用tf-idf技术，为作用系数，反应字串在标题和正文中的差异；

Convbasew (s) = log(1+log(1+log(basew(s))))。

13.如权利要求11所述的一种互联网热词挖掘方法，其特征在于，波动权值，其计算方法为：Wavew(s,t)=,t[1,T], t为一个时间单位。

14.如权利要求1所述的一种互联网热词挖掘方法，其特征在于，按照字串热度权值由大到小对字串排序，输出一定时间内，热度大于一定阈值的作为热词，其中包括热点人名、地名、机构名和非实体词语。

15.本发明提供的一种互联网热词挖掘装置，其特征在于，包括以下模块：

存储单元101，负责词图、背景库等的存储和供给；

实体识别单元102，负责字串切分及实体串的识别，包括人名、地名、机构名识别；

非实体串识别单元103，负责高频字串抽取、垃圾串过滤、候选非实体串抽取；

热词抽取单元104，主要负责，背景库中字串的统计指标更新；字串热度计算；字串热度排序及字串输出。

16.如权利要求15所述的一种互联网热词挖掘装置，其特征在于，热词抽取单元104又由统计指标更新模块104_1，热度计算模块104_2，热度排序及热词输出模块104_3组成。