CN111125484B

CN111125484B - 话题发现方法、***及电子设备

Info

Publication number: CN111125484B
Application number: CN201911305954.2A
Authority: CN
Inventors: 汪硕芃; 张荣升; 毛晓曦; 范长杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-06-30
Anticipated expiration: 2039-12-17
Also published as: CN111125484A

Abstract

本发明提供了一种话题发现方法、***及电子设备，涉及人工智能技术领域，该方法首先对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词，然后根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题，并基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。将每个已进行词频统计的历史文本进行提取，获得热词，然后将热词输入至已完成训练的用于输出话题的短文本摘要模型中，从而完成话题的发现过程。本方法采用短文本进行提炼，可以降低传统分词过程中的分词误差，有利于提升关键词组的可读性，进一步提升话题提取的效果。

Description

话题发现方法、***及电子设备

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种话题发现方法、***及电子设备。

背景技术

互联网时代中的消息即时性非常强，数据量极大，传播范围和速度非常快，用户可通过互联网快速浏览海量信息。当出现突发事件时，对应的相关话题是用户更希望看到的，但由于互联网信息传播的特殊性，突发热门话题会受到其它海量信息的干扰，用户并不能第一时间查阅到想要看到的热门话题，导致突发话题的时效性较差。而且现有技术中对热门话题的提取手段，是通过热词直接形成关键词组进行提取，常出现关键词可读性差，词组语义不通畅，使得关键词组的可读性较低，最终影响相关话题的提取。

发明内容

本发明实施例的目的在于提供一种话题发现方法、***及电子设备，以提高互联网中的突发热议话题的可读性和时效性。

第一方面，本发明实施例提供了一种话题发现方法，该方法包括：

对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词；

根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题；

基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。

在一些实施方式中，上述对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词的步骤，包括：

收集预设历史时间内的语料，形成历史文本；

对历史文本进行分词处理，得到分词之后的词语语料，并将词语语料按发布时间进行排序；

基于排序的结果对词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词；

获取每个热词在历史文本中的原文本。

在一些实施方式中，上述对历史文本进行分词处理，得到分词之后的词语语料，并将词语语料按发布时间进行排序的步骤之前，还包括：

对历史文本进行预处理，以过滤掉无用语料；

无用语料至少包括网站链接语料和网页标签信息语料。

在一些实施方式中，上述基于排序的结果对词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词的步骤，包括：

基于排序的结果，以固定时长将词语语料分为若干语料块；

对每个语料块进行词频统计；

利用时间词频梯度和贝叶斯平均算法，获得频次异常波动的词语，作为突发的热词。

在一些实施方式中，上述根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题的步骤，包括：

针对每个热词，执行以下步骤：

获取热词在历史文本中的所有原文本；

根据语义对原文本进行聚类分析，将原文本分为若干个类别；

通过启发式算法，将每个类别下的原文本中的共现文本作为热词对应的话题。

在一些实施方式中，上述通过启发式算法，将每个类别下的原文本中的共现文本作为热词对应的话题的步骤之后，还包括：

根据词性对话题进行去冗余处理。

在一些实施方式中，上述基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型的步骤，包括：

针对每个热词，执行以下步骤，以获得用于输出话题的短文本摘要模型：

将热词在历史文本中的所有原文本进行拼接，获得热词对应的短文本；

将热词及其短文本输入语言模型；

以话题作为输出，对语言模型进行训练。

在一些实施方式中，上述将热词及其短文本输入语言模型的步骤，包括：

将热词及其短文本通过分隔符进行拼接，形成包含热词的训练语句；

将训练语句输入语言模型。

在一些实施方式中，上述话题发现方法还包括：

利用短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题。

在一些实施方式中，上述利用短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题的步骤，包括：

对最近预设时间内的网络文本进行词频统计，获得新近热词；

将新近热词及其原文本输入短文本摘要模型，输出新近热词对应的新近发现的话题。

第二方面，本发明实施例提供了一种话题发现***，该***包括：

突发热词获取模块，用于对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词；

话题分析模块，用于根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题；

话题输出模块，用于基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。

在一些实施方式中，上述话题分析模块，包括：

历史文本收集模块，用于收集预设历史时间内的语料，形成历史文本；

词语语料获取模块，用于对历史文本进行分词处理，得到分词之后的词语语料，并将词语语料按发布时间进行排序；

词频统计分析模块，用于基于排序的结果对词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词；

热词原文本获取模块，用于获取每个热词在历史文本中的原文本。

在一些实施方式中，上述话题分析模块，还包括：

历史文本筛选模块，用于对历史文本进行预处理，以过滤掉无用语料；无用语料至少包括网站链接语料和网页标签信息语料。

在一些实施方式中，上述词频统计分析模块，包括：

词语语料划分模块，用于基于排序的结果，以固定时长将词语语料分为若干语料块；

词语语料块统计模块，用于对每个语料块进行词频统计；

热词计算模块，用于利用时间词频梯度和贝叶斯平均算法，获得频次异常波动的词语，作为突发的热词。

在一些实施方式中，上述话题分析模块，包括：

文本对应模块，用于获取热词在历史文本中的所有原文本；

聚类分析模块，用于根据语义对原文本进行聚类分析，将原文本分为若干个类别；

话题计算模块，用于通过启发式算法，将每个类别下的原文本中的共现文本作为热词对应的话题。

在一些实施方式中，上述话题分析模块，还包括：

冗余处理模块，用于根据词性对话题进行去冗余处理。

在一些实施方式中，上述话题输出模块，包括：

短文本获取模块，用于将热词在历史文本中的所有原文本进行拼接，获得热词对应的短文本；

模型输入模块，用于将热词及其短文本输入语言模型；

模型训练模块，用于以话题作为输出，对语言模型进行训练。

在一些实施方式中，上述模型输入模块，包括：

语句拼接模块，用于将热词及其短文本通过分隔符进行拼接，形成包含热词的训练语句；

语句训练模块，用于将训练语句输入语言模型。

在一些实施方式中，上述话题发现方法还包括：

新近话题发现模块，用于利用短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题。

在一些实施方式中，上述新近话题发现模块，包括：

新近热词获取模块，用于对最近预设时间内的网络文本进行词频统计，获得新近热词；

新近热词话题输出模块，用于将新近热词及其原文本输入短文本摘要模型，输出新近热词对应的新近发现的话题。

第三方面，本发明实施例提供了一种电子设备，该设备包括：存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，该计算机程序在被处理器运行时执行上述话题发现方法的步骤。

第四方面，一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述话题发现方法的步骤。

本发明实施例提供了一种话题发现方法、***及电子设备，该方法首先对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词，然后根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题，并基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。将每个已进行词频统计的历史文本进行提取，获得热词，然后将热词输入至已完成训练的用于输出话题的短文本摘要模型中，从而完成话题的发现过程。该话题发现方法在实际应用过程中，可作为流式分析，只要当某些文本中词的波动超过一定阈值时即可立即更新热词结果，最终更新对应的话题，解决了传统话题获取方式中的时效性较低的问题。同时，通过短文本摘要的方式进行热词的提炼，相比与传统方式中对词的提炼而言，本方法采用短文本进行提炼，包含更多的综合信息，可以降低传统分词过程中的分词误差，有利于提升关键词组的可读性，进一步提升话题提取的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的话题发现方法的流程图；

图2为本发明实施例提供的话题发现方法中步骤S101的流程图；

图3为本发明实施例提供的话题发现方法中步骤S202之前的所述方法流程图；

图4为本发明实施例提供的话题发现方法中步骤S202的流程图；

图5为本发明实施例提供的话题发现方法中步骤S102的流程图；

图6为本发明实施例提供的话题发现方法中步骤S103的流程图；

图7为本发明实施例提供的话题发现方法中步骤S602的流程图；

图8为本发明实施例提供的话题发现方法中利用短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题的流程图；

图9为本发明实施例提供的另一种话题发现方法的流程图；

图10为本发明实施例提供的话题发现***的装置示意图；

图11为本发明实施例提供的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

进入互联网时代以来，人们获取消息的方式从传统的报纸、书籍之类的纸质获取方式，逐步变为使用智能手机、平板电脑等互联网设备通过网络获取的方式。互联网消息的传播具有很强的即时性，人们通过随身携带的智能手机等设备可随时上传相关消息，并通过互联网的传播快速分享。同时，由于互联网消息通过文字、图片、语音以及视频等数字格式的文件进行传播，具有较强的易复制性，用户可快速将获取的消息进行分享传播。而且互联网的传播范围是全球性的，获取的消息也是来自全球，可见，人们获取消息的方式已发生了翻天覆地的变化。

正是由于互联网获取消息的上述特性，人们获取相关资讯及新闻的方式也发生了根本变化，而与此同时，媒体的传播方式也通过互联网发生了根本变化，各类各样的资讯及新闻等相关消息通过互联网得到快速传播。

互联网时代的消息传播速度更快，消息数据量更大，用户如何从海量消息中获取所需的消息就成为了难点。对于用户所需消息的提取，可通过该消息的用户关注度进行，例如在互联网中被广泛讨论的热门话题就可以作为热门消息推送给用户。

由于话题是一个模糊的定义，它可以是个事件，也可以是个关键词组，也可以是人为规定的相关类别等。在人工智能的分支领域NLP(Natural Language Processing，自然语言处理)中，以下列出的任务均可作为话题发现的相似任务，包括：事件检测(EventDetection)、关键词组抽取(Key Phrase Extraction)、短文本摘要(Summarization OnShort Text)、文本聚类(Text Clustering)和主题模型(Topic Model)等。然而上述任务，由于都没有考虑时序对于话题发现的影响，一旦出现突发热议的话题时，会受到日常无意义话题的干扰，突发热议的话题容易淹没在日常无意义话题中，用户并不能第一时间查阅到想要看到的热门话题，导致时效性较差。

现有技术中增加消息时效性的方法，常用的做法是从在考虑时序信息的基础上，一部分利用热词从而进行聚类分析，构建的聚类作为最终的话题；一部分利用从热词的统计特征出发，根据形成的N-Gram语言模型和频次信息构成的短语作为最终话题。

对于突发热议话题的发现检测过程，现有技术中通过具有以下形式：

(1)在预先给定主题数目作为参数，利用隐含狄利克雷分布(LDA)主题模型或者k均值聚类算法(K-Means)，直接对海量文本进行聚类分析。在文本聚类完毕后，利用人工对每个主题下的内容进行归纳，从而产出意义的话题。

(2)对于所有文本进行分词处理后，统计文本中每个词对应的词频关系，在利用所有词在时间上的词频变化关系，找到热度飙升的词的集合。在热词集合中，形成若干个bi-gram(二元词组)，利用左右信息熵和词频进行筛选得到关键词组作为话题。

(3)对于所有文本进行分词处理后，统计文本中每个词对应的词频关系。针对每个词项信号的词频和词频倒数(DF-IDF)进行基于滑动窗口的小波变化，以摘取在时序上变化大的词作为热词集合。得到热词集合之后，根据词项序列的互相关强度，构造带权的特征信号连接图，通过每个节点的度进行最优化的子图分解，每个子图视为一个话题。

而上述突发热议话题的发现检测过程，存在以下缺点：

(1)直接通过对文本进行分类的处理方案，没有将网络文本的事件信息纳入考虑时效性差，新出的话题容易淹没在大量的日常无意义话题中，且文本直接进行分类的方案，需要事先确定可能出现话题的个数和人工定义每个类对应的含义。在过程上需要太多人工干预，不够自动化。

(2)对于根据小波变化，构成的热词特征信号连接图，对图进行最优子图分解的方案，会出现相似特征信号的热词归入一个集合中，当数据量不是很多的时候，会导致连接图无法再次分解，造成集合的冗余，且会出现与上述相似的问题，即需人工指定每个话题子图对应的真实意义，仍有人工干预的成分。

(3)对于利用时域上的波动变化，摘选热词集合，再利用二元词组(bi-gram)和对应词频来进行构造关键词组作为话题。这样的方案，可以减少上述人工干预的部分。但是可能会造成缺省部分关键信息。当话题为‘周年庆垃圾‘时，可能会出现热词集合包含周年庆，但是不包含垃圾的情况。导致了部分信息的缺省。其次，由于二元词组的形式，可能会出现摘取的两个词拼接词并无真实含义的情况。

(4)已有的几种方案，均是在进行分词之后，在进行相关分析。在当前网络文本新词层出不穷的情况下，很多情况下分词器无法正确的分出真正的词，从而导致错误累计的情况。

可见当前技术手段下，进行分词处理后，通过热词直接形成的相关关键词组，很容易出现语义不通畅，可读性较差，容易遗漏所有提及该热词的部分信息，使得关键词组的可读性较低，最终影响相关话题的提取。

针对现有话题提取过程中存在的上述问题，本发明实施例针对此提供一种话题发现方法、***及电子设备。

本发明实施例提供了一种话题发现方法，如图1所示：

步骤S101：对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词。

热词也就是热门词汇，主要以语言、文字形式出现，能够反映一个地区在一个时期人们普遍关注的问题和事物，也反映了一个时期的热点话题及民生问题。本发明实施例中，如果某个词语在历史文本中的频次异常波动，就表示该词语的热度突然升高，即作为突发的热词。

历史文本是话题的原始数据，为话题的数据来源。历史文本是网络资讯的相关服务商提供的，例如各类新闻类网站服务商、即时通讯类的软件服务商、社交网站服务商以及各类论坛服务商等。通过各类服务商后台服务器提供的相关日志文件，对一段时期内的相关日志文件进行汇总，通过文本的形式进行整合。具体的获取方式，可通过服务商提供的API接口直接获得，也可以通过直接拷贝的方式进行获取。

由于各家服务商的服务类型不同，所生成的历史文本中数据的形式和内容也都不同，解析该历史文本中的数据过程，需要配合各家服务商后台服务器中的日志文件的具体格式，解析的具体方法由各家服务商提供，最终从各家服务商后台服务器中的日志文件中解析出历史文本。

对获得的历史文本进行解析，对历史文本中的相关内容进行提取，提取结果为一个单词，通过该单词来表征对应的历史文本。通过对提取出的单词进行统计，可实现历史文本的大致分类。

对提取的单词进行统计，获得每个单词出现的频率，将该频率成为词频。词频数据表征该类历史文本出现的概率，词频的频次数值越大，表明该类单词出现的概率越高，相应的历史文本数量也就越多；反之，词频的频次数量越小，表明该类单词出现概率越低，相应的历史文本数量也就越少。

不同类型单词的频次大小不同，不能简单通过词频的频次大小来判断但词频是否为突发单词，可通过不同单词的频次波动范围来进行判断。例如，某一单词在短时间的频次出现较大幅度的上升，这表明该单词是潜在的突发话题的信息来源，因此可将该单词作为突发的热词。

步骤S102：根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题。

热词确定后，获得热词对应的历史文本中的原文本数据，也就是包含热词的语句。例如，步骤S101中确定的热词是“涨知识”，那么包含“涨知识”的语句“整天看电视能不能涨知识”、“如何快速涨知识”、“看完这篇文章涨知识了没有”，即是该热词对应的原文本。

上述原文本数据作为输入数据，进行启发式计算。启发式计算通过启发式算法所执行，本领域中的启发式算法是相对于最优化算法提出的。启发式算法是一个基于直观或经验构造的算法，在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解，根据启发式算法可从历史文本信息中归纳出相应的话题。

例如，每个热词对应的历史文本中的原文本通常是多个，这些多个历史文本中包含相似的文字描述或者词语，通过启发式算法，可对这些历史文本中出现的共同文本内容或者相关内容进行提炼，并通过相应的启发式计算得到多个历史文本中所包含的话题。

步骤S103：基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。

在获取每个热词的原文本和对应的话题后，将上述文本数据进行整合后，作为语言模型的输入数据，并对该语言模型进行训练。整合的过程可采用数据拼装的方式，重新生成统一格式的文本文件，作为统一格式的模型输入文本数据。例如可将原文和热词通过分割符进行拼接，得到一个完整的句子，将该句子作为输入参数，输入至预训练好的语言模型中。

该语言模型根据实际情况进行选取，例如可选用基于预训练的Google的Bert预训练语言模型，模型设置为12层，嵌入向量维度为768，Dropout参数为0.1。训练过程以中文字符为单位，得到相关的语言模型参数，并输出训练的结果。

通过上述训练的结果，利用文本生成中的Seq2Seq架构，所谓Seq2Seq(Sequenceto Sequence)是一种能够根据给定的序列通过特定的方法生成另一个序列的方法，是NLP领域中常见的模型架构。该模型的编码端采用预训练语言模型的输出结果，解码端利用Point Net进行解码。根据标注语料对预训练语言模型进行微调以及对整体模型进行训练。训练损失使用交叉熵。训练直至损失收敛，则作为最终的短文本摘要模型。

采用本发明实施例提供的话题发现方法，首先对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词，然后根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题，并基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。将每个已进行词频统计的历史文本进行提取，获得热词，然后将热词输入至已完成训练的用于输出话题的短文本摘要模型中，从而完成话题的发现过程。该话题发现方法在实际应用过程中，可作为流式分析，只要当某些文本中词的波动超过一定阈值时即可立即更新热词结果，最终更新对应的话题，解决了传统话题获取方式中的时效性较低的问题。同时，通过短文本摘要的方式进行热词的提炼，相比与传统方式中对词的提炼而言，本方法采用短文本进行提炼，包含更多的综合信息，可以降低传统分词过程中的分词误差，有利于提升关键词组的可读性，进一步提升话题提取的效果。

在一些实施方式中，上述对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词的步骤S101，如图2所示，包括：

步骤S201，收集预设历史时间内的语料，形成历史文本。

由于各家服务商中服务器的日志文件保存时间较长，数据量很大，因此需要预先设定一个时间跨度，根据该时间来获取服务商提供的日志文件，并从中获得语料。例如，可从各类新闻类网站服务商、即时通讯类的软件服务商、社交网站服务商以及各类论坛服务商的服务器中，获取三个月之内的日志文件，并从中提取文本数据，最终形成历史文本。

步骤S202，对历史文本进行分词处理，得到分词之后的词语语料，并将词语语料按发布时间进行排序。

由于历史文本中是语句信息，需要将该语句进行分词处理。分词处理是指将一句话中包含的词语进行解析，最终输出组成该句子的所有词语。具体实施过程中，可采用结巴分词法对历史文本中的语句进行分词处理。结巴分词器是目前常用的分词模块，通过相关人工智能算法对输入的语句进行分词，结巴中文分词支持的三种分词模式，包括：

(1)精确模式：试图将句子最精确地切开，适合文本分析；

(2)全模式：把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义问题；

(3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

结巴分词器的分词精度与自身的词表数量相关，词表数量越多，分词精度越高。具体的，本步骤中可采用15万词表的结巴分词器，结合具体场景选择分词模型，对历史文本进行分词处理，得到分词之后的词语语料。

由于该语料是预设历史时间内的语料，因此分词以后的语料也需要根据时间进行排序。将词语语料的排序按发布时间来进行，时间越久远的词语语料排序越靠后；时间越近的词语语料排序越靠前。

步骤S203，基于排序的结果对词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词。

该步骤对获得的词语语料进行词频统计，统计的过程可采用统计相关的算法，也可采用人工智能相关算法，最终获得该词语语料的词频统计。

词频统计中表征了相关词语出现的概率，不同种类的词频统计其词频统计概率是不同的，但在一段时期内的波动范围是相对稳定的。而当出现异常波动时，即可表明该词语语料在短时间内得到较多的关注，可作为突发的热词。

上述过程中的波动范围的时间跨度，可根据实际情况进行设置，例如可设置1小时，1天或者1周等。时间跨度越小，需要统计的计算量小，但容易受到短时间内其它因素的影响，误差相对较大；而时间跨度越大，误差相对而言越小，但需要统计的计算量更大。

步骤S204，获取每个热词在历史文本中的原文本。

在获取热词后，根据该热词获取历史文本中的原文本数据，该原文本可能是一句话，也可能是一段话，也可能是热词本身。而且由于历史文本数量大，该热词对应的原文本通常为多个。

在一些实施方式中，上述对历史文本进行分词处理，得到分词之后的词语语料，并将词语语料按发布时间进行排序的步骤S202之前，如图3还包括：

步骤S301，对历史文本进行预处理，以过滤掉无用语料。

由于历史文本是网络资讯相关服务商提供的，由于各家服务商的服务类型不同，所生成的历史文本中数据的形式和内容也都不同，其中也包含了大量无用的语料，因此需要对历史文本进行预处理，来对无用语料进行过滤。

步骤S302，无用语料至少包括网站链接语料和网页标签信息语料。

具体的，可对历史文本中的一些网站链接、网页标签等信息进行获取，例如可通过查找文本中是否有http开头的字母来判断其是否为网站连接，还可以通过查找文本中是否有类似<html>网页标签格式类型的字母，来判断其是否为网页标签。

在一些实施方式中，上述基于排序的结果对词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词的步骤S202，如图4所示，包括：

步骤S401，基于排序的结果，以固定时长将词语语料分为若干语料块。

排序的结果是通过词语语料按发布时间进行的排序，由于数据量较大，排序的结果中的每个词语语料之间的间隔很小，如果作为整体计算的话运算量过大。因此需要将词语语料分为若干预料快，通过每个预料快进行词频统计，可减少运算压力，方便多个预料快进行并行计算。

上述的固定时长，可设置为1小时，6小时，12小时或者24小时不等，固定时长的设置根据实际情况所决定。

步骤S402，对每个语料块进行词频统计。

例如，上述固定时长设置为24小时，即为1天，语料中最早发布时间作为分块的起始时间，第一个语料块中包含起始时间到24小时之后的所有语料内容，以此类推，每个语料块中均包含24小时内的所有语料内容。对获得的语料快中的语料内容进行词频统计，最终得到每个语料块的词频统计结果。

步骤S403，利用时间词频梯度和贝叶斯平均算法，获得频次异常波动的词语，作为突发的热词。

时间词频梯度算法如下式所示：

贝叶斯平均算法如下式所示：

上式中，w代表词语；Count_i(w)代表统计词语在第i时间段上的词频；n代表词语数量。通过上述两式子，计算每个词修正之后的梯度分数。该梯度分数可作为热词判断的数据源，需要设置相关阈值才可进行热词的判断，具体的可通过比较实验，确定突发热词的修正梯度分数阈值。若修正梯度分数高于阈值，则代表为突发热词，若低于则代表是一个日常词。

通过异常波动词，如果出现强烈相关性的共现特征则将异常波动词组成相应的词组，若无则只考虑一个词，并收集这次异常波动热词对应的原文文本内容。

在一些实施方式中，上述根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题的步骤S102，针对每个热词，执行以下步骤，具体如图5所示，包括：

步骤S501，获取热词在历史文本中的所有原文本。

根据获得的热词，在历史文本中获取所对应的原文本，通常每个热词会对应多个原本文。

步骤S502，根据语义对原文本进行聚类分析，将原文本分为若干个类别。

对获得的多个原本文进行聚类分析，获得相关聚类结果，并根据聚类结果将原本文分为若干个类别。该步骤中的聚类分析是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。该步骤中可采用传统的统计聚类分析方法如：***聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等，来对原文本进行聚类分析，最终获得聚类结果。

获得的聚类结果表征语义的相似度，将相似度高的文本归于到同一个类别，最终将原文本分为若干个类别。

步骤S503，通过启发式算法，将每个类别下的原文本中的共现文本作为热词对应的话题。

启发式算法的作用，是将同一类中的多个原文中的共同话题进行挖掘，可对每个类别下的原文本中共同出现的文本内容作为最终的计算结果。具体的，启发式算法以仿自然体算法为主，可采用蚁群算法、模拟退火法、神经网络等。

在一些实施方式中，上述通过启发式算法，将每个类别下的原文本中的共现文本作为热词对应的话题的步骤S503之后，还包括：根据词性对话题进行去冗余处理。

由于仅仅通过共同出现的文本内容进行归纳，如果对应的历史文本中的内容相似度较高，则容易出现话题冗余。因此有必要对话题进行冗余处理。具体的，可先通过词性，对共现的文本进行筛选，仅仅保留文本中的中性词为名字、形容词、动词以及非常规的网络新词部分。

还可以通过人工筛选，对筛选后的文本进行修复，增加文本的可读性。由于获得的文本作为模型训练的语料数据，因此通过人工筛选后保证了输入数据的质量，有利于模型的训练效果。

在一些实施方式中，上述基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型的步骤S103中，需要针对每个热词，执行以下步骤，以获得用于输出话题的短文本摘要模型，具体的如图6所示，包括：

步骤S601，将热词在历史文本中的所有原文本进行拼接，获得热词对应的短文本。

由于热词对应的原文本分布在不同历史文本中，调用的过程较为繁琐，因此需要将该热词对应的历史文本中的原文本进行整合，具体的可将该原文本进行拼接，形成一个文本文件，该文件中包含热词对应的所有原文本信息。

步骤S602，将热词及其短文本输入语言模型。

该语言模型根据实际情况进行选取，例如可采用文本生成中常用的Seq2Seq架构，模型采用基于预训练的Bert语言模型。具体的，使用相关语料进行Bert语言模型的预训练，模型有12层，嵌入向量维度为768，dropout参数为0.1，训练时以中文字符为单位，得到相关的语言模型的参数。该架构中的编码的采用预训练模型的输出结果，解码端利用PointerNet进行解码。

将训练语句输入至语言模型中，需要对输入数据进行统一的格式化，如图7所示，该步骤包括：

步骤S61，将热词及其短文本通过分隔符进行拼接，形成包含热词的训练语句。

步骤S62，将训练语句输入语言模型。

上述拼接的过程不限于分隔符，也可选用其它符号，只要能与其它文本不存在冲突，且能够将热词及其短文本实现连接即可。拼接的过程还可选用其它符号或者组合符号，同样需要遵循上述的思路，例如可选用“-”、“--”、“/”、“//”等符号链接热词及其短文本。

步骤S603，以话题作为输出，对语言模型进行训练。

模型输出的结果为热词对应的话题，然后对预训练语言模型进行微调以及对整体模型进行训练，训练时所用的损失函数使用交叉熵函数。训练直至损失收敛，得到最终的语言模型。

通过对搜集的历史文本信息和话题对进行训练，使得能够生成与输入短文本集合相符合的话题信息。

在一些实施方式中，上述话题发现方法还包括：利用短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题。

训练完成的短文本摘要模型用于对当前的时间段内出现的历史文本进行分析，在该模型中输入热词以及对应的文本内容后，即可输出热词相应的话题信息。

具体的，如图8所示，包括：

步骤S801，对最近预设时间内的网络文本进行词频统计，获得新近热词。

例如，在对当天出现的历史文本进行分词处理，时间区间可设置为24小时。对近24小时内出现的每个词进行词频统计，根据词频统计结果得到新近的热词。

步骤S802，将新近热词及其原文本输入短文本摘要模型，输出新近热词对应的新近发现的话题。

根据步骤S801中得到的热词，获取该热词对应的历史文本内容，通过整合后输入至已训练完成的短文本摘要模型中，通过该模型的相关运算，输出该热词对应的话题信息，将该话题信息作为新近发现的话题。

图9所示的另一种话题发现方法流程图中可知，该方法包括：

步骤S901，网络文本的预处理。

网络文本的预处理与上述步骤S301-S302类似，通过解析网络文本的内容，去除文本中的无用信息，例如网站连接语料和网页标签信息语料等。

步骤S902，文本的分词和热词提取。

分词和热词的提取过程与上述步骤S401-S403类似，对当前文本单词进行词频统计后，根据时间词频梯度算法和贝叶斯平均算法，计算得到该分词的修正梯度大小，并根据预设的阈值来判断是否为热词。若修正梯度分数高于阈值，则代表为突发热词，若低于则代表是一个日常词。如果所有词的修正梯度大小均小于阈值，则表明该时间段并不存在热词，因此不需要进行后续步骤，返回到步骤S901中，等待对下一个进入的网络文本进行判断。

步骤S903，通过短文本摘要模型进行话题提取。

如果在步骤S902中的某个分词的修正梯度大于阈值，则将该分词作为突发的热词，并对该热词对应的原文本进行提取。

提取后的热词以及对应的原文文本进行拼接，形成新的文本，该文本中是将热词和拼接后的文本通过分隔符进行拼接，作为短文本摘要模型的输入数据输入至模型中。

步骤S904，输出模型预测的话题结果。

经过模型的相关计算后，输出预测的话题结果，返回给用户。

可见，本话题发现方法可以在短时间内容检测到网络中热议的内容，并对热议的内容进行进一步的提炼，得到具有较强可读性的话题内容。从上述实施例可知，该话题发现方法是流式分析，只要当某些文本中词的波动超过一定阈值时即可立即更新热词结果，最终更新对应的话题，解决了传统话题获取方式中的时效性较低的问题。同时，通过短文本摘要的方式进行热词的提炼，相比与传统方式中对词的提炼而言，本方法采用短文本进行提炼，包含更多的综合信息，可以降低传统分词过程中的分词误差，有利于提升关键词组的可读性，进一步提升话题提取的效果。

如图10所示，本发明实施例提供了一种话题发现***，该***包括：

突发热词获取模块1001，用于对历史文本进行词频统计，获得历史文本中频次异常波动的词语，作为突发的热词；

话题分析模块1002，用于根据每个热词在历史文本中的原文本，通过启发式算法从原文本中归纳出每个热词对应的话题；

话题输出模块1003，用于基于每个热词的原文本以及每个热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型。

在一些实施方式中，上述话题分析模块，包括：

在一些实施方式中，上述话题分析模块，还包括：

在一些实施方式中，上述词频统计分析模块，包括：

词语语料块统计模块，用于对每个语料块进行词频统计；

在一些实施方式中，上述话题分析模块，包括：

文本对应模块，用于获取热词在历史文本中的所有原文本；

在一些实施方式中，上述话题分析模块，还包括：

冗余处理模块，用于根据词性对话题进行去冗余处理。

在一些实施方式中，上述话题输出模块，包括：

模型输入模块，用于将热词及其短文本输入语言模型；

在一些实施方式中，上述模型输入模块，包括：

语句训练模块，用于将训练语句输入语言模型。

在一些实施方式中，上述话题发现方法还包括：

在一些实施方式中，上述新近话题发现模块，包括：

本发明实施例提供的话题发现***，与上述实施例提供的话题发现方法具有相似的技术特征，详细实现方式本实施例中不再赘述。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图11所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述话题发现方法。

图11所示的服务器还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种话题发现方法，其特征在于，包括：

对历史文本进行词频统计，获得所述历史文本中频次异常波动的词语，作为突发的热词；

根据每个所述热词在所述历史文本中的原文本，通过启发式算法从所述原文本中归纳出每个所述热词对应的话题；

基于每个所述热词的原文本以及每个所述热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型；

根据每个所述热词在所述历史文本中的原文本，通过启发式算法从所述原文本中归纳出每个所述热词对应的话题的步骤，包括：

针对每个所述热词，执行以下步骤：

获取所述热词在所述历史文本中的所有原文本；

根据语义对所述原文本进行聚类分析，将所述原文本分为若干个类别；

通过启发式算法，将每个类别下的所述原文本中的共现文本作为所述热词对应的话题；

基于每个所述热词的原文本以及每个所述热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型，包括：

针对每个所述热词，执行以下步骤，以获得用于输出话题的短文本摘要模型：

将所述热词在所述历史文本中的所有原文本进行拼接，获得所述热词对应的短文本；将所述热词及其短文本输入语言模型；以话题作为输出，对所述语言模型进行训练。

2.根据权利要求1所述的方法，其特征在于，对历史文本进行词频统计，获得所述历史文本中频次异常波动的词语，作为突发的热词的步骤，包括：

收集预设历史时间内的语料，形成历史文本；

对所述历史文本进行分词处理，得到分词之后的词语语料，并将所述词语语料按发布时间进行排序；

基于所述排序的结果对所述词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词；

获取每个所述热词在所述历史文本中的原文本。

3.根据权利要求2所述的方法，其特征在于，对所述历史文本进行分词处理，得到分词之后的词语语料，并将所述词语语料按发布时间进行排序的步骤之前，还包括：

对历史文本进行预处理，以过滤掉无用语料；

所述无用语料至少包括网站链接语料和网页标签信息语料。

4.根据权利要求2所述的方法，其特征在于，基于所述排序的结果对所述词语语料进行词频统计，获得频次异常波动的词语，作为突发的热词的步骤，包括：

基于所述排序的结果，以固定时长将所述词语语料分为若干语料块；

对每个所述语料块进行词频统计；

5.根据权利要求1所述的方法，其特征在于，通过启发式算法，将每个类别下的所述原文本中的共现文本作为所述热词对应的话题的步骤之后，还包括：

根据词性对所述话题进行去冗余处理。

6.根据权利要求1所述的方法，其特征在于，将所述热词及其短文本输入语言模型的步骤，包括：

将所述热词及其短文本通过分隔符进行拼接，形成包含所述热词的训练语句；

将所述训练语句输入语言模型。

7.根据权利要求1所述的方法，其特征在于，还包括：

利用所述短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题。

8.根据权利要求7所述的方法，其特征在于，利用所述短文本摘要模型，对最近预设时间内出现的新近热词进行分析，输出新近发现的话题的步骤，包括：

将所述新近热词及其原文本输入所述短文本摘要模型，输出所述新近热词对应的新近发现的话题。

9.一种话题发现***，其特征在于，所述***包括：

突发热词获取模块，用于对历史文本进行词频统计，获得所述历史文本中频次异常波动的词语，作为突发的热词；

话题分析模块，用于根据每个所述热词在所述历史文本中的原文本，通过启发式算法从所述原文本中归纳出每个所述热词对应的话题；

话题输出模块，用于基于每个所述热词的原文本以及每个所述热词对应的话题，对语言模型进行训练，获得用于输出话题的短文本摘要模型；

话题分析模块，包括：

文本对应模块，用于获取所述热词在所述历史文本中的所有原文本；

聚类分析模块，用于根据语义对所述原文本进行聚类分析，将所述原文本分为若干个类别；

话题计算模块，用于通过启发式算法，将每个类别下的所述原文本中的共现文本作为所述热词对应的话题；

所述话题输出模块，包括：

模型输入模块，用于将热词及其短文本输入语言模型；

模型训练模块，用于以话题作为输出，对语言模型进行训练_。

10.一种电子设备，其特征在于，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。