CN108595519A

CN108595519A - 热点事件分类方法、装置及存储介质

Info

Publication number: CN108595519A
Application number: CN201810252849.6A
Authority: CN
Inventors: 王健宗; 吴天博; 黄章成; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-28
Also published as: WO2019184217A1

Abstract

本发明提供了一种热点事件分类方法、装置及存储介质，该方法实时从预先确定的社交服务器中获取第一预设数量用户发布的信息文本，利用预先确定的分词规则对上述信息文本进行分词，以获得各个信息文本对应的分词。之后，该方法提取出分词中预设的特征词，利用预先确定的概率算法确定该特征词对应的事件主题，再根据预设的计算公式计算出该特征词对应的热点事件指标值，判断该热点事件指标值是否大于预设阈值。若热点事件指标值大于预设阈值，则利用预设的向量化方式获取该特征词对应的信息文本的信息向量，将所述信息向量输入预先训练的事件分类模型中，确定出该信息文本对应的事件类型。利用本发明，能够快速、准确的分析热点事件的事件类型。

Description

热点事件分类方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种热点事件分类方法、装置及计算机可读存储介质。

背景技术

随着网络技术的发展，社交媒体的运用也越来越广泛，社交媒体中的各种事件数量也与日俱增。面对数量暴增的事件，如何快速分辨社交媒体的事件类型，了解社交媒体用户关心的领域及热门话题，并作出相应决策已成为管理者面临的难题。

目前，现有的社交媒体热点事件分类方法不完善，亟待一种分类方法能够在热点事件发展的早期，准确、快速的分析出热点事件的事件类型。

发明内容

鉴于以上内容，本发明提供一种热点事件分类方法、装置及计算机可读存储介质，其主要目的在于提高社交媒体上热点事件分类的速度及准确性。

为实现上述目的，本发明提供一种热点事件分类方法，该方法包括：

获取步骤：实时从预先确定的服务器中获取第一预设数量用户发布的信息文本；

分词步骤：利用预先确定的分词规则对上述信息文本进行分词，获得各个信息文本对应的分词；

确定步骤：提取出分词中预设的特征词，利用预先确定的概率算法确定该特征词对应的事件主题；

计算步骤：根据预设的计算公式，计算出该特征词对应的热点事件指标值；

分类步骤：判断热点事件指标值是否大于预设阈值，若热点事件指标值大于预设阈值，则利用预设的向量化方式获取该特征词对应的信息文本的信息向量，将所述信息向量输入预先训练的事件分类模型中，确定出该信息文本对应的事件类型。

优选地，所述预设的计算公式如下：

其中，v代表事件发展的速度，a代表热点事件指标值，t代表时间点，T代表时间间隔，i为整数，t_i代表第i个特征词出现的时间点，X_i代表第i个特征词出现的次数。

优选地，所述预先确定的分词规则包括：

根据预设类型标点符号，将获取的各个信息文本拆分成短句；

根据词库中存储的词语，利用长词优先原则对每个短句进行分词。

优选地，所述预先确定的概率算法包括：

在特征词与事件主题文本之间添加第二预设数量的隐含事件主题；

根据预先确定的隐含事件主题与特征词的映射关系，确定每个隐含事件主题含有的特征词的第一数量X₁及每个特征词所属的隐含事件主题的第二数量X₂，根据第一数量X₁和第二数量X₂确定每个特征词对各个隐含事件主题的第一选择概率P₁＝1/(X₁*X₂)；

根据预先确定的隐含事件主题与事件主题的映射关系，确定每个事件主题含有的隐含事件主题的第三数量X₃及每个隐含事件主题所属的事件主题的第四数量X₄，根据第三数量X₃和第四数量X₄确定每个隐含事件主题对各个事件主题的第二选择概率P₂＝1/(X₃*X₄)；

将第一选择概率P₁和第二选择概率P₂代入预先确定的概率计算公式，计算出每个特征词对各个事件主题的最终概率P₃的分布。

优选地，所述预先确定的概率计算公式如下：

P₃＝P₁*P₂

其中，P₁代表第一选择概率，P₂代表第二选择概率，P₃代表最终概率。

优选地，所述预设的向量化方式包括：

使用自动编码器对信息文本的用户信息进行编码，生成用户信息向量；

使用预先确定的词向量模型对该信息文本进行词向量编码，生成该信息文本的文本信息向量；

将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。

优选地，所述事件分类模型为长短期记忆网络(Long Short-Term Memory,LSTM)模型，所述事件分类模型的训练步骤如下：

获取第三预设数量的信息文本，并生成各个信息文本对应的信息向量，根据预先确定的信息文本与事件类型的映射关系，确定各个信息向量对应的事件类型，并将信息向量与事件类型的映射关系数据作为样本数据；

将样本数据分成第一比例的训练集和第二比例的验证集，其中，第一比例大于第二比例；

利用训练集中的样本数据对所述事件分类模型进行训练，并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证；

若准确率大于预设值，则训练完成，若准确率小于或等于预设值，则增加样本数据的数量，之后返回将样本数据分成训练集和验证集的步骤。

此外，本发明还提供一种电子装置，该电子装置包括：存储器及处理器，所述存储器上存储热点事件分类程序，所述热点事件分类程序被所述处理器执行，可实现如下步骤：

计算步骤：根据预设的计算公式，计算出该特征词对应的热点事件指标指值；

优选地，所述事件分类模型为LSTM模型，所述事件分类模型的训练步骤如下：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括热点事件分类程序，所述热点事件分类程序被处理器执行时，可实现如上所述热点事件分类方法中的任意步骤。

本发明提出的热点事件分类方法、电子装置及计算机可读存储介质，通过获取服务器中社交账号发布的信息文本，并对所述信息文本进行分词，提取出特征词，接着计算特征词对应的最大概率的事件主题，并利用预设的计算公式计算出特征词对应的事件指标值，最后将事件指标值大于预设阈值的特征词所对应的信息文本向量化，输入事件分类模型中，从而准确地判断该信息文本的事件类型，提高事件分类速度。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中热点事件分类程序较佳实施例的模块示意图；

图3为本发明热点事件分类方法较佳实施例的流程图；

图4为本发明事件分类模型训练的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其它具有运算功能的电子设备。

该电子装置1包括：存储器11、处理器12、网络接口13、通信总线14及词库15。其中，网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线14用于实现这些组件之间的连接通信。

存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储单元，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据，例如热点事件分类程序10、词库15等。其中，词库15用于存放分词过程中所涉及的所有字和词及标注的特征词。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其它数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行热点事件分类程序10的计算机程序代码、事件分类模型的训练等。

图1仅示出了具有组件11-15以及热点事件分类程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括显示器，显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，例如信息文本的事件类型。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在图1所示的电子装置1实施例中，作为一种计算机存储介质的存储器11中存储热点事件分类程序10的程序代码，处理器12执行热点事件分类程序10的程序代码时，实现如下步骤：

具体原理请参照下述图2关于热点事件分类程序10较佳实施例的模块示意图及图3关于热点事件分类方法较佳实施例的流程图的介绍。

如图2所示，是图1中热点事件分类程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

在本实施例中，热点事件分类程序10包括：获取模块110、分词模块120、确定模块130、计算模块140、判断模块150及分类模块160，所述模块110-160所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

获取模块110，用于实时从预先确定的服务器中获取第一预设数量用户发布的信息文本。其中，所述预先确定的服务器可以是微信服务器、微博服务器、QQ服务器等社交服务器。所述用户是指社交服务器的社交账号，所述第一预设数量用户可以指社交服务器的部分社交账号，也可以指社交服务器的全部社交账号。

分词模块120，用于利用预先确定的分词规则对上述信息文本进行分词，获得各个信息文本对应的分词。其中，所述预先确定的分词规则包括：根据预设类型标点符号，如“，”、“。”、“！”、“；”、“？”等等，将获取的各个信息文本拆分成短句。根据词库15中存储的词语，利用长词优先原则对每个短句进行分词。所述长词优先原则是指从词库15中找出与短句相同的最长词语作为该短句的一个分词。

确定模块130，用于提取出分词中预设的特征词，利用预先确定的概率算法确定该特征词对应的事件主题。其中，所述特征词是预先标注并存储于词库15中的。所述预先确定的概率算法包括：根据第一选择概率P₁和第二选择概率P₂计算出最终概率P₃。在特征词与事件主题文本之间添加第二预设数量的隐含事件主题，所述隐含事件主题是虚拟的，没有真实含义。第一选择概率P₁的计算方法：根据预先确定的隐含事件主题与特征词的映射关系，确定每个隐含事件主题含有的特征词的第一数量X₁及每个特征词所属的隐含事件主题的第二数量X₂，根据X₁和X₂确定每个特征词对各个隐含事件主题的第一选择概率P₁＝1/(X₁*X₂)。第二选择概率P₂的计算方法：根据预先确定的隐含事件主题与事件主题的映射关系，确定每个事件主题含有的隐含事件主题的第三数量X₃及每个隐含事件主题所属的事件主题的第四数量X₄，根据X₃和X₄确定每个隐含事件主题对各个事件主题的第二选择概率P₂＝1/(X₃*X₄)。将P₁和P₂代入预先确定的概率计算公式，计算出每个特征词对各个事件主题的最终概率P₃。所述预先确定的概率计算公式为P₃＝P₁*P₂。

计算模块140，用于根据预设的计算公式，计算出该特征词对应的热点事件指标值。其中，所述预设的计算公式如下：

其中，v代表事件发展的速度，a代表热点事件指标值，即事件发展的“加速的”，t代表时间点，T代表时间间隔，i为整数，t_i代表第i个特征词出现的时间点，X_i代表第i个特征词出现的次数。

判断模块150，用于判断热点事件指标值是否大于预设阈值。所述预设阈值是预先设置的，当热点事件指标值大于预设阈值时，则表明该事件主题的事件发展的“加速度”已经超越了一定范围，应立即分析事件的类型。

分类模块160，用于当热点事件指标值大于预设阈值时，利用预设的向量化方式获取该特征词对应的信息文本的信息向量，将所述信息向量输入预先训练的事件分类模型中，确定出该信息文本对应的事件类型。其中，所述预设的向量化方式包括：使用自动编码器对信息文本的用户信息进行编码，生成用户信息向量；使用预先确定的词向量模型对该信息文本进行词向量编码，生成该信息文本的文本信息向量；将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。

所述事件分类模型为长短期记忆网络模型，如图4所示，是本发明事件分类模型训练的流程图，所述事件分类模型的训练步骤如下：

如图3所示，是本发明热点事件分类方法较佳实施例的流程图。

在本实施例中，处理器12执行存储器11中存储的热点事件分类程序10的计算机程序时实现热点事件分类方法包括：步骤S10-步骤S60：

步骤S10，获取模块110实时从预先确定的服务器中获取第一预设数量用户发布的信息文本。其中，所述预先确定的服务器可以是微信服务器、微博服务器、QQ服务器等社交服务器。所述用户是指社交服务器的社交账号，所述第一预设数量用户可以指社交服务器的部分社交账号，也可以指社交服务器的全部社交账号。例如，从微信服务器中获取销售业务员A₁的微信账号在朋友圈或朋友群发布的信息文本。

步骤S20，根据获取的信息文本，分词模块120利用预先确定的分词规则对上述信息文本进行分词，获得各个信息文本对应的分词。所述分词是指将信息文本分成字或词。例如，信息文本是“B₁成功研制出了C₁产品”，分词后的结果为“B₁”、“成功”、“研制”、“出”、“了”、“C₁”、“产品”，其中，B₁可以是公司或部门，C₁可以是产品名称。其中，所述预先确定的分词规则包括：根据预设类型标点符号，如“，”、“。”、“！”、“；”、“？”等等，将获取的各个信息文本拆分成短句。例如，从信息文本的起始位置(第一个字)至第一个预设类型标点符号之间的信息为一个短句，第一个预设类型标点符号至第二个预设类型标点符号之间的信息为一个短句，……，每两个预设类型标点符号之间的信息为一个短句，直至将该信息文本全部拆分成短句。但应理解的是，若信息结束位置无预设类型标点符号，则从倒数第一预设类型标点符号至信息结束位置(最后一个字)之间的信息为一个短句。根据词库15中存储的词语，利用长词优先原则对每个短句进行分词。其中所述长词优先原则是指从词库15中找出与短句相同的最长词语作为该短句的一个分词。假设，需要分词的短句T1的第一个字是a，先从第一个字a开始，在词库15中找出一个由a开始的最长词语R₁，R₁与T₁部分相同，然后从T1中剔除R₁剩下T₂部分，再对T₂采用相同的方法直至从词库15中找出T₁的所有字和词，得到的结果为“R₁/R₂……”。

步骤S30，若信息文本的分词中含有词库15存储的特征词，则确定模块130利用预先确定的概率算法确定该特征词对应的事件主题。但应理解的是，信息文本的分词中可能不含有特征词，也可能含有一个或多个特征词。所述特征词是预先标注并存储于词库15中的。

其中，所述预先确定的概率算法包括：在特征词与事件主题文本之间添加第二预设数量的隐含事件主题，所述隐含事件主题是虚拟的，没有真实含义。例如，在特征词与事件主题文本之间添加50个隐含事件主题：k₁，k₂，……，k₅₀。根据预先确定的隐含事件主题与特征词的映射关系，确定每个隐含事件主题含有的特征词的第一数量X₁及每个特征词所属的隐含事件主题的第二数量X₂，根据第一数量X₁和第二数量X₂确定每个特征词对各个隐含事件主题的第一选择概率P₁＝1/(X₁*X₂)。例如，特征词Y所属的隐含事件主题的第二数量为5，其中一个隐含事件主题k₇含有的特征词的第一数量为7，则该特征词Y对该隐含事件主题k₇的第一选择概率为1/35。根据预先确定的隐含事件主题与事件主题的映射关系，确定每个事件主题含有的隐含事件主题的第三数量X₃及每个隐含事件主题所属的事件主题的第四数量X₄，根据第三数量X₃和第四数量X₄确定每个隐含事件主题对各个事件主题的第二选择概率P₂＝1/(X₃*X₄)。例如，隐含事件主题k₇所属的事件主题的第四数量为4，其中一个事件主题Z含有的隐含事件主题的第三数量为5，则该隐含事件主题k₇对事件主题Z的第二选择概率为1/20。将第一选择概率P₁和第二选择概率P₂代入预先确定的概率计算公式，计算出每个特征词对各个事件主题的最终概率P₃的分布。所述预先确定的概率计算公式为P₃＝P₁*P₂。例如，特征词Y对隐含事件主题k₇的第一选择概率P₁为1/35，隐含事件主题k₇对事件主题文本Z的第二选择概率P₂为1/20，则特征词Y对事件主题文本Z的最终概率P₃为1/700。同理，算出特征词Y对其它事件主题文本的最终概率P3及该信息文本的其它特征词的各个事件主题文本的最终概率P₃。最后将各个特征词对应的最大概率的事件主题作为该特征词对应的事件主题。

步骤S40，计算模块140根据预设的计算公式，计算出每个特征词对应的热点事件指标值。其中，所述预设的计算公式如下：

其中，v代表事件发展的速度，a代表热点事件指标值，即事件发展的“加速的”，t代表时间点，T代表时间间隔，i为整数，t_i代表第i个特征词出现的时间点，X_i代表第i个特征词出现的次数。从而计算出所有特征词对应的事件主题的热点事件指标值，热点指标值越大，代表该事件主题的事件发展趋势越快。

步骤S50，判断模块150判断热点事件指标值是否大于预设阈值。所述预设阈值是预先设置的，当热点事件指标值大于预设阈值时，则表明该事件主题的事件发展的“加速度”已经超越了一定范围，应立即分析事件的类型。

步骤S60，若热点事件指标值大于预设阈值，则分类模块150利用预设的向量化方式获取该特征词对应的信息文本的信息向量，将所述信息向量输入预先训练的事件分类模型中，确定出该信息文本对应的事件类型。其中，所述预设的向量化方式包括：使用自动编码器，如Auto-Encoder对信息文本的用户信息进行编码，生成用户信息向量。进一步地，所述Auto-Encoder是一种无监督的学习算法，主要用于数据的降维或特征抽取。接着使用预先确定的词向量模型对该信息文本进行词向量编码，生成该信息文本的文本信息向量。所述预先确定的词向量模型可以是Word2Vec模型或Doc2Vec模型。例如，使用Word2Vec模型对该信息文本进行词向量编码，生成该信息文本的文本信息向量。最后将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。

其中，所述事件分类模型为LSTM模型，如图4所示，是本发明事件分类模型训练的流程图，所述事件分类模型的训练步骤如下：

获取第三预设数量的信息文本，并生成各个信息文本对应的信息向量，根据预先确定的信息文本与事件类型的映射关系，确定各个信息向量对应的事件类型，并将信息向量与事件类型的映射关系数据作为样本数据。例如，从微博服务器中获取10万个信息文本，标注信息文本的事件类型，并将信息文本生成10万个对应的信息向量，根据预先确定的信息文本与事件类型的映射关系，确定各个信息文本的事件类型，将信息向量与对应的事件类型的映射关系作为样本数据。

将样本数据分成第一比例的训练集和第二比例的验证集，其中，第一比例大于第二比例。例如，随机将80％的样本数据，即8万个样本数据作为训练集，将剩余20％的样本数据，即2万个样本数据作为验证集。

利用训练集中的样本数据对所述事件分类模型进行训练，并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证。例如，将训练集中8万个用户的样本数据输入到LSTM模型中训练，生成事件分类模型，并将验证集中2万个用户的样本数据输入到生成的事件分类模型中进行准确率验证。

若准确率大于预设值，则训练完成，若准确率小于或等于预设值，则增加样本数据的数量，之后返回将样本数据分成训练集和验证集的步骤。假设，预设值为98％，若验证准确率大于98％，则训练完成，若准确率小于98％，则增加2万个样本数据，之后返回将样本数据分成训练集和验证集的步骤。

上述实施例提出的热点事件分类方法，通过从服务器获取用户发布的信息文本，对信息文本进行分词处理，提取出分词中的特征词，接着利用预先确定的概率算法算出特征词的最大概率的事件主题，并利用预设的计算公式计算特征词的热点事件指标值，将热点事件指标值大于预设值的特征词对应的信息文本向量化，输入事件分类模型中确定事件类型，提高事件分类的效率，缩短分析时间。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括热点事件分类程序10，所述热点事件分类程序10被处理器执行时实现如下操作：

优选地，所述预设的计算公式如下：

优选地，所述预先确定的分词规则包括：

优选地，所述预先确定的概率算法包括：

优选地，所述预先确定的概率计算公式如下：

P₃＝P₁*P₂

优选地，所述预设的向量化方式包括：

优选地，所述事件分类模型为长短期记忆网络模型，所述事件分类模型的训练步骤如下：

本发明之计算机可读存储介质的具体实施方式与上述热点事件分类方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种热点事件分类方法，应用于电子装置，其特征在于，所述方法包括：

2.根据权利要求1所述的热点事件分类方法，其特征在于，所述预设的计算公式如下：

3.根据权利要求1所述的热点事件分类方法，其特征在于，所述预先确定的分词规则包括：

4.根据权利要求1所述的热点事件分类方法，其特征在于，所述预先确定的概率算法包括：

5.根据权利要求4所述的热点事件分类方法，其特征在于，所述预先确定的概率计算公式如下：

P₃＝P₁*P₂

6.根据权利要求1所述的热点事件分类方法，其特征在于，所述预设的向量化方式包括：

7.根据权利要求1所述的热点事件分类方法，其特征在于，所述事件分类模型为长短期记忆网络模型，所述事件分类模型的训练步骤如下：

8.一种电子装置，其特征在于，所述装置包括：存储器及处理器，所述存储器上存储有热点事件分类程序，所述热点事件分类程序被所述处理器执行，可实现如下步骤：

获取步骤：实时从预先确定的社交服务器中获取第一预设数量用户发布的信息文本；

9.根据权利要求8所述的电子装置，其特征在于，所述事件分类模型为长短期记忆网络模型，所述事件分类模型的训练步骤如下：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括热点事件分类程序，所述热点事件分类程序被处理器执行时，可实现如权利要求1至7中任一项所述热点事件分类方法的步骤。