CN108595519A - 热点事件分类方法、装置及存储介质 - Google Patents

热点事件分类方法、装置及存储介质 Download PDF

Info

Publication number
CN108595519A
CN108595519A CN201810252849.6A CN201810252849A CN108595519A CN 108595519 A CN108595519 A CN 108595519A CN 201810252849 A CN201810252849 A CN 201810252849A CN 108595519 A CN108595519 A CN 108595519A
Authority
CN
China
Prior art keywords
event
focus incident
preset
information
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810252849.6A
Other languages
English (en)
Inventor
王健宗
吴天博
黄章成
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810252849.6A priority Critical patent/CN108595519A/zh
Priority to PCT/CN2018/102083 priority patent/WO2019184217A1/zh
Publication of CN108595519A publication Critical patent/CN108595519A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种热点事件分类方法、装置及存储介质,该方法实时从预先确定的社交服务器中获取第一预设数量用户发布的信息文本,利用预先确定的分词规则对上述信息文本进行分词,以获得各个信息文本对应的分词。之后,该方法提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题,再根据预设的计算公式计算出该特征词对应的热点事件指标值,判断该热点事件指标值是否大于预设阈值。若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。利用本发明,能够快速、准确的分析热点事件的事件类型。

Description

热点事件分类方法、装置及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种热点事件分类方法、装置及计算机可读存储介质。
背景技术
随着网络技术的发展,社交媒体的运用也越来越广泛,社交媒体中的各种事件数量也与日俱增。面对数量暴增的事件,如何快速分辨社交媒体的事件类型,了解社交媒体用户关心的领域及热门话题,并作出相应决策已成为管理者面临的难题。
目前,现有的社交媒体热点事件分类方法不完善,亟待一种分类方法能够在热点事件发展的早期,准确、快速的分析出热点事件的事件类型。
发明内容
鉴于以上内容,本发明提供一种热点事件分类方法、装置及计算机可读存储介质,其主要目的在于提高社交媒体上热点事件分类的速度及准确性。
为实现上述目的,本发明提供一种热点事件分类方法,该方法包括:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
优选地,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。
优选地,所述预先确定的分词规则包括:
根据预设类型标点符号,将获取的各个信息文本拆分成短句;
根据词库中存储的词语,利用长词优先原则对每个短句进行分词。
优选地,所述预先确定的概率算法包括:
在特征词与事件主题文本之间添加第二预设数量的隐含事件主题;
根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据第一数量X1和第二数量X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2);
根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据第三数量X3和第四数量X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4);
将第一选择概率P1和第二选择概率P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3的分布。
优选地,所述预先确定的概率计算公式如下:
P3=P1*P2
其中,P1代表第一选择概率,P2代表第二选择概率,P3代表最终概率。
优选地,所述预设的向量化方式包括:
使用自动编码器对信息文本的用户信息进行编码,生成用户信息向量;
使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量;
将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
优选地,所述事件分类模型为长短期记忆网络(Long Short-Term Memory,LSTM)模型,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
此外,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,所述存储器上存储热点事件分类程序,所述热点事件分类程序被所述处理器执行,可实现如下步骤:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标指值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
优选地,所述事件分类模型为LSTM模型,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括热点事件分类程序,所述热点事件分类程序被处理器执行时,可实现如上所述热点事件分类方法中的任意步骤。
本发明提出的热点事件分类方法、电子装置及计算机可读存储介质,通过获取服务器中社交账号发布的信息文本,并对所述信息文本进行分词,提取出特征词,接着计算特征词对应的最大概率的事件主题,并利用预设的计算公式计算出特征词对应的事件指标值,最后将事件指标值大于预设阈值的特征词所对应的信息文本向量化,输入事件分类模型中,从而准确地判断该信息文本的事件类型,提高事件分类速度。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中热点事件分类程序较佳实施例的模块示意图;
图3为本发明热点事件分类方法较佳实施例的流程图;
图4为本发明事件分类模型训练的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明电子装置1较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其它具有运算功能的电子设备。
该电子装置1包括:存储器11、处理器12、网络接口13、通信总线14及词库15。其中,网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线14用于实现这些组件之间的连接通信。
存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储单元,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据,例如热点事件分类程序10、词库15等。其中,词库15用于存放分词过程中所涉及的所有字和词及标注的特征词。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其它数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行热点事件分类程序10的计算机程序代码、事件分类模型的训练等。
图1仅示出了具有组件11-15以及热点事件分类程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括显示器,显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,例如信息文本的事件类型。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在图1所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储热点事件分类程序10的程序代码,处理器12执行热点事件分类程序10的程序代码时,实现如下步骤:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
具体原理请参照下述图2关于热点事件分类程序10较佳实施例的模块示意图及图3关于热点事件分类方法较佳实施例的流程图的介绍。
如图2所示,是图1中热点事件分类程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,热点事件分类程序10包括:获取模块110、分词模块120、确定模块130、计算模块140、判断模块150及分类模块160,所述模块110-160所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
获取模块110,用于实时从预先确定的服务器中获取第一预设数量用户发布的信息文本。其中,所述预先确定的服务器可以是微信服务器、微博服务器、QQ服务器等社交服务器。所述用户是指社交服务器的社交账号,所述第一预设数量用户可以指社交服务器的部分社交账号,也可以指社交服务器的全部社交账号。
分词模块120,用于利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词。其中,所述预先确定的分词规则包括:根据预设类型标点符号,如“,”、“。”、“!”、“;”、“?”等等,将获取的各个信息文本拆分成短句。根据词库15中存储的词语,利用长词优先原则对每个短句进行分词。所述长词优先原则是指从词库15中找出与短句相同的最长词语作为该短句的一个分词。
确定模块130,用于提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题。其中,所述特征词是预先标注并存储于词库15中的。所述预先确定的概率算法包括:根据第一选择概率P1和第二选择概率P2计算出最终概率P3。在特征词与事件主题文本之间添加第二预设数量的隐含事件主题,所述隐含事件主题是虚拟的,没有真实含义。第一选择概率P1的计算方法:根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据X1和X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2)。第二选择概率P2的计算方法:根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据X3和X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4)。将P1和P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3。所述预先确定的概率计算公式为P3=P1*P2
计算模块140,用于根据预设的计算公式,计算出该特征词对应的热点事件指标值。其中,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,即事件发展的“加速的”,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。
判断模块150,用于判断热点事件指标值是否大于预设阈值。所述预设阈值是预先设置的,当热点事件指标值大于预设阈值时,则表明该事件主题的事件发展的“加速度”已经超越了一定范围,应立即分析事件的类型。
分类模块160,用于当热点事件指标值大于预设阈值时,利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。其中,所述预设的向量化方式包括:使用自动编码器对信息文本的用户信息进行编码,生成用户信息向量;使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量;将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
所述事件分类模型为长短期记忆网络模型,如图4所示,是本发明事件分类模型训练的流程图,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
如图3所示,是本发明热点事件分类方法较佳实施例的流程图。
在本实施例中,处理器12执行存储器11中存储的热点事件分类程序10的计算机程序时实现热点事件分类方法包括:步骤S10-步骤S60:
步骤S10,获取模块110实时从预先确定的服务器中获取第一预设数量用户发布的信息文本。其中,所述预先确定的服务器可以是微信服务器、微博服务器、QQ服务器等社交服务器。所述用户是指社交服务器的社交账号,所述第一预设数量用户可以指社交服务器的部分社交账号,也可以指社交服务器的全部社交账号。例如,从微信服务器中获取销售业务员A1的微信账号在朋友圈或朋友群发布的信息文本。
步骤S20,根据获取的信息文本,分词模块120利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词。所述分词是指将信息文本分成字或词。例如,信息文本是“B1成功研制出了C1产品”,分词后的结果为“B1”、“成功”、“研制”、“出”、“了”、“C1”、“产品”,其中,B1可以是公司或部门,C1可以是产品名称。其中,所述预先确定的分词规则包括:根据预设类型标点符号,如“,”、“。”、“!”、“;”、“?”等等,将获取的各个信息文本拆分成短句。例如,从信息文本的起始位置(第一个字)至第一个预设类型标点符号之间的信息为一个短句,第一个预设类型标点符号至第二个预设类型标点符号之间的信息为一个短句,……,每两个预设类型标点符号之间的信息为一个短句,直至将该信息文本全部拆分成短句。但应理解的是,若信息结束位置无预设类型标点符号,则从倒数第一预设类型标点符号至信息结束位置(最后一个字)之间的信息为一个短句。根据词库15中存储的词语,利用长词优先原则对每个短句进行分词。其中所述长词优先原则是指从词库15中找出与短句相同的最长词语作为该短句的一个分词。假设,需要分词的短句T1的第一个字是a,先从第一个字a开始,在词库15中找出一个由a开始的最长词语R1,R1与T1部分相同,然后从T1中剔除R1剩下T2部分,再对T2采用相同的方法直至从词库15中找出T1的所有字和词,得到的结果为“R1/R2……”。
步骤S30,若信息文本的分词中含有词库15存储的特征词,则确定模块130利用预先确定的概率算法确定该特征词对应的事件主题。但应理解的是,信息文本的分词中可能不含有特征词,也可能含有一个或多个特征词。所述特征词是预先标注并存储于词库15中的。
其中,所述预先确定的概率算法包括:在特征词与事件主题文本之间添加第二预设数量的隐含事件主题,所述隐含事件主题是虚拟的,没有真实含义。例如,在特征词与事件主题文本之间添加50个隐含事件主题:k1,k2,……,k50。根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据第一数量X1和第二数量X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2)。例如,特征词Y所属的隐含事件主题的第二数量为5,其中一个隐含事件主题k7含有的特征词的第一数量为7,则该特征词Y对该隐含事件主题k7的第一选择概率为1/35。根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据第三数量X3和第四数量X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4)。例如,隐含事件主题k7所属的事件主题的第四数量为4,其中一个事件主题Z含有的隐含事件主题的第三数量为5,则该隐含事件主题k7对事件主题Z的第二选择概率为1/20。将第一选择概率P1和第二选择概率P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3的分布。所述预先确定的概率计算公式为P3=P1*P2。例如,特征词Y对隐含事件主题k7的第一选择概率P1为1/35,隐含事件主题k7对事件主题文本Z的第二选择概率P2为1/20,则特征词Y对事件主题文本Z的最终概率P3为1/700。同理,算出特征词Y对其它事件主题文本的最终概率P3及该信息文本的其它特征词的各个事件主题文本的最终概率P3。最后将各个特征词对应的最大概率的事件主题作为该特征词对应的事件主题。
步骤S40,计算模块140根据预设的计算公式,计算出每个特征词对应的热点事件指标值。其中,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,即事件发展的“加速的”,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。从而计算出所有特征词对应的事件主题的热点事件指标值,热点指标值越大,代表该事件主题的事件发展趋势越快。
步骤S50,判断模块150判断热点事件指标值是否大于预设阈值。所述预设阈值是预先设置的,当热点事件指标值大于预设阈值时,则表明该事件主题的事件发展的“加速度”已经超越了一定范围,应立即分析事件的类型。
步骤S60,若热点事件指标值大于预设阈值,则分类模块150利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。其中,所述预设的向量化方式包括:使用自动编码器,如Auto-Encoder对信息文本的用户信息进行编码,生成用户信息向量。进一步地,所述Auto-Encoder是一种无监督的学习算法,主要用于数据的降维或特征抽取。接着使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量。所述预先确定的词向量模型可以是Word2Vec模型或Doc2Vec模型。例如,使用Word2Vec模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量。最后将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
其中,所述事件分类模型为LSTM模型,如图4所示,是本发明事件分类模型训练的流程图,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据。例如,从微博服务器中获取10万个信息文本,标注信息文本的事件类型,并将信息文本生成10万个对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息文本的事件类型,将信息向量与对应的事件类型的映射关系作为样本数据。
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例。例如,随机将80%的样本数据,即8万个样本数据作为训练集,将剩余20%的样本数据,即2万个样本数据作为验证集。
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证。例如,将训练集中8万个用户的样本数据输入到LSTM模型中训练,生成事件分类模型,并将验证集中2万个用户的样本数据输入到生成的事件分类模型中进行准确率验证。
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。假设,预设值为98%,若验证准确率大于98%,则训练完成,若准确率小于98%,则增加2万个样本数据,之后返回将样本数据分成训练集和验证集的步骤。
上述实施例提出的热点事件分类方法,通过从服务器获取用户发布的信息文本,对信息文本进行分词处理,提取出分词中的特征词,接着利用预先确定的概率算法算出特征词的最大概率的事件主题,并利用预设的计算公式计算特征词的热点事件指标值,将热点事件指标值大于预设值的特征词对应的信息文本向量化,输入事件分类模型中确定事件类型,提高事件分类的效率,缩短分析时间。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括热点事件分类程序10,所述热点事件分类程序10被处理器执行时实现如下操作:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
优选地,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。
优选地,所述预先确定的分词规则包括:
根据预设类型标点符号,将获取的各个信息文本拆分成短句;
根据词库中存储的词语,利用长词优先原则对每个短句进行分词。
优选地,所述预先确定的概率算法包括:
在特征词与事件主题文本之间添加第二预设数量的隐含事件主题;
根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据第一数量X1和第二数量X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2);
根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据第三数量X3和第四数量X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4);
将第一选择概率P1和第二选择概率P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3的分布。
优选地,所述预先确定的概率计算公式如下:
P3=P1*P2
其中,P1代表第一选择概率,P2代表第二选择概率,P3代表最终概率。
优选地,所述预设的向量化方式包括:
使用自动编码器对信息文本的用户信息进行编码,生成用户信息向量;
使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量;
将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
优选地,所述事件分类模型为长短期记忆网络模型,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
本发明之计算机可读存储介质的具体实施方式与上述热点事件分类方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种热点事件分类方法,应用于电子装置,其特征在于,所述方法包括:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
2.根据权利要求1所述的热点事件分类方法,其特征在于,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。
3.根据权利要求1所述的热点事件分类方法,其特征在于,所述预先确定的分词规则包括:
根据预设类型标点符号,将获取的各个信息文本拆分成短句;
根据词库中存储的词语,利用长词优先原则对每个短句进行分词。
4.根据权利要求1所述的热点事件分类方法,其特征在于,所述预先确定的概率算法包括:
在特征词与事件主题文本之间添加第二预设数量的隐含事件主题;
根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据第一数量X1和第二数量X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2);
根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据第三数量X3和第四数量X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4);
将第一选择概率P1和第二选择概率P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3的分布。
5.根据权利要求4所述的热点事件分类方法,其特征在于,所述预先确定的概率计算公式如下:
P3=P1*P2
其中,P1代表第一选择概率,P2代表第二选择概率,P3代表最终概率。
6.根据权利要求1所述的热点事件分类方法,其特征在于,所述预设的向量化方式包括:
使用自动编码器对信息文本的用户信息进行编码,生成用户信息向量;
使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量;
将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
7.根据权利要求1所述的热点事件分类方法,其特征在于,所述事件分类模型为长短期记忆网络模型,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
8.一种电子装置,其特征在于,所述装置包括:存储器及处理器,所述存储器上存储有热点事件分类程序,所述热点事件分类程序被所述处理器执行,可实现如下步骤:
获取步骤:实时从预先确定的社交服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标指值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
9.根据权利要求8所述的电子装置,其特征在于,所述事件分类模型为长短期记忆网络模型,所述事件分类模型的训练步骤如下:
获取第三预设数量的信息文本,并生成各个信息文本对应的信息向量,根据预先确定的信息文本与事件类型的映射关系,确定各个信息向量对应的事件类型,并将信息向量与事件类型的映射关系数据作为样本数据;
将样本数据分成第一比例的训练集和第二比例的验证集,其中,第一比例大于第二比例;
利用训练集中的样本数据对所述事件分类模型进行训练,并在训练完后利用验证集中的样本数据对所述事件分类模型的准确率进行验证;
若准确率大于预设值,则训练完成,若准确率小于或等于预设值,则增加样本数据的数量,之后返回将样本数据分成训练集和验证集的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括热点事件分类程序,所述热点事件分类程序被处理器执行时,可实现如权利要求1至7中任一项所述热点事件分类方法的步骤。
CN201810252849.6A 2018-03-26 2018-03-26 热点事件分类方法、装置及存储介质 Pending CN108595519A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810252849.6A CN108595519A (zh) 2018-03-26 2018-03-26 热点事件分类方法、装置及存储介质
PCT/CN2018/102083 WO2019184217A1 (zh) 2018-03-26 2018-08-24 热点事件分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810252849.6A CN108595519A (zh) 2018-03-26 2018-03-26 热点事件分类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN108595519A true CN108595519A (zh) 2018-09-28

Family

ID=63623682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810252849.6A Pending CN108595519A (zh) 2018-03-26 2018-03-26 热点事件分类方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN108595519A (zh)
WO (1) WO2019184217A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和***
CN110414006A (zh) * 2019-07-31 2019-11-05 京东方科技集团股份有限公司 文本的主题标注方法、装置、电子设备及存储介质
CN110458296A (zh) * 2019-08-02 2019-11-15 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN111078883A (zh) * 2019-12-13 2020-04-28 北京明略软件***有限公司 危险指数分析方法、装置、电子设备和存储介质
CN111177319A (zh) * 2019-12-24 2020-05-19 中国建设银行股份有限公司 风险事件的确定方法、装置、电子设备和存储介质
CN111275327A (zh) * 2020-01-19 2020-06-12 深圳前海微众银行股份有限公司 一种资源配置方法、装置、设备及存储介质
CN111369148A (zh) * 2020-03-05 2020-07-03 广州快盈信息技术服务有限公司 对象指标的监测方法、电子装置及存储介质
CN112100374A (zh) * 2020-08-28 2020-12-18 清华大学 文本聚类方法、装置、电子设备及存储介质
CN113342979A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113434273A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 数据处理方法、装置、***及存储介质
CN113743746A (zh) * 2021-08-17 2021-12-03 携程旅游网络技术(上海)有限公司 模型训练方法、事件分派处理方法、设备及介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222032B (zh) * 2019-12-17 2024-04-30 中国平安人寿保险股份有限公司 舆情分析方法及相关设备
CN111291562B (zh) * 2020-01-17 2024-05-03 中国石油天然气集团有限公司 基于hse的智能语义识别方法
CN111324811B (zh) * 2020-02-20 2024-04-12 北京奇艺世纪科技有限公司 一种热点内容确认方法及装置
CN111274782B (zh) * 2020-02-25 2023-10-20 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN111506727B (zh) * 2020-04-16 2023-10-03 腾讯科技(深圳)有限公司 文本内容类别获取方法、装置、计算机设备和存储介质
CN111552790B (zh) * 2020-04-27 2024-03-08 北京明略昭辉科技有限公司 一种识别文章刷单的方法及装置
CN111858725A (zh) * 2020-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种事件属性确定方法及***
CN111967601B (zh) * 2020-06-30 2024-02-20 北京百度网讯科技有限公司 事件关系的生成方法、事件关系规则的生成方法和装置
CN114386394A (zh) * 2020-10-16 2022-04-22 电科云(北京)科技有限公司 平台舆论数据主题的预测模型训练方法、预测方法及装置
CN112135334B (zh) * 2020-10-27 2023-07-14 上海连尚网络科技有限公司 一种用于确定无线接入点的热点类型的方法与设备
CN112667791A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 潜在事件预测方法、装置、设备及存储介质
CN112926308B (zh) * 2021-02-25 2024-01-12 北京百度网讯科技有限公司 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113127576B (zh) * 2021-04-15 2024-05-24 微梦创科网络科技(中国)有限公司 一种基于用户内容消费分析的热点发现方法及***
CN113392213B (zh) * 2021-04-19 2024-05-31 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113220999B (zh) * 2021-05-14 2024-07-09 北京百度网讯科技有限公司 用户特征的生成方法、装置、电子设备和存储介质
CN113822069B (zh) * 2021-09-17 2024-03-12 国家计算机网络与信息安全管理中心 基于元知识的突发事件预警方法、装置和电子装置
CN114528396A (zh) * 2021-12-29 2022-05-24 北京辰安科技股份有限公司 突发事件的监测方法、装置、电子设备及存储介质
CN116542238B (zh) * 2023-07-07 2024-03-15 和元达信息科技有限公司 一种基于小程序的事件热度趋势确定方法及***
CN118041707B (zh) * 2024-04-15 2024-06-18 深圳市奇兔软件技术有限公司 一种基于计算机网络的身份验证方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071024A1 (en) * 2014-02-25 2016-03-10 Sri International Dynamic hybrid models for multimodal analysis
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107644012A (zh) * 2017-08-29 2018-01-30 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105335476B (zh) * 2015-10-08 2019-06-04 北京邮电大学 一种热点事件分类方法及装置
CN106570164A (zh) * 2016-11-07 2017-04-19 中国农业大学 一种基于深度学习的集成式食品安全文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071024A1 (en) * 2014-02-25 2016-03-10 Sri International Dynamic hybrid models for multimodal analysis
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107644012A (zh) * 2017-08-29 2018-01-30 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和***
CN110414006A (zh) * 2019-07-31 2019-11-05 京东方科技集团股份有限公司 文本的主题标注方法、装置、电子设备及存储介质
CN110458296B (zh) * 2019-08-02 2023-08-29 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN110458296A (zh) * 2019-08-02 2019-11-15 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN111078883A (zh) * 2019-12-13 2020-04-28 北京明略软件***有限公司 危险指数分析方法、装置、电子设备和存储介质
CN111177319A (zh) * 2019-12-24 2020-05-19 中国建设银行股份有限公司 风险事件的确定方法、装置、电子设备和存储介质
CN111275327A (zh) * 2020-01-19 2020-06-12 深圳前海微众银行股份有限公司 一种资源配置方法、装置、设备及存储介质
CN111275327B (zh) * 2020-01-19 2024-06-07 深圳前海微众银行股份有限公司 一种资源配置方法、装置、设备及存储介质
CN111369148A (zh) * 2020-03-05 2020-07-03 广州快盈信息技术服务有限公司 对象指标的监测方法、电子装置及存储介质
CN112100374A (zh) * 2020-08-28 2020-12-18 清华大学 文本聚类方法、装置、电子设备及存储介质
CN113342979A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113342979B (zh) * 2021-06-24 2023-12-05 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113434273A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 数据处理方法、装置、***及存储介质
CN113743746A (zh) * 2021-08-17 2021-12-03 携程旅游网络技术(上海)有限公司 模型训练方法、事件分派处理方法、设备及介质

Also Published As

Publication number Publication date
WO2019184217A1 (zh) 2019-10-03

Similar Documents

Publication Publication Date Title
CN108595519A (zh) 热点事件分类方法、装置及存储介质
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN107391760B (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN108629043A (zh) 网页目标信息的提取方法、装置及存储介质
CN108647205A (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN101645065B (zh) 确定需要加载的辅助词库的方法、装置及输入法***
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN103631874B (zh) 社交平台的ugc标签类别确定方法和装置
WO2021139316A1 (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN109902285A (zh) 语料分类方法、装置、计算机设备及存储介质
CN110175851A (zh) 一种作弊行为检测方法及装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN111782793A (zh) 智能客服处理方法和***及设备
CN113127621A (zh) 对话模块的推送方法、装置、设备及存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN113220847B (zh) 基于神经网络的知识掌握程度测评方法、装置及相关设备
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN109033224B (zh) 一种风险文本识别方法和装置
CN113887202A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN111506718A (zh) 会话消息确定方法、装置、计算机设备和存储介质
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN112328871B (zh) 一种基于rpa模块的回复生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928