CN110457474A - 舆情预警方法和装置 - Google Patents

舆情预警方法和装置 Download PDF

Info

Publication number
CN110457474A
CN110457474A CN201910676662.3A CN201910676662A CN110457474A CN 110457474 A CN110457474 A CN 110457474A CN 201910676662 A CN201910676662 A CN 201910676662A CN 110457474 A CN110457474 A CN 110457474A
Authority
CN
China
Prior art keywords
sentence
public sentiment
early
business object
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910676662.3A
Other languages
English (en)
Inventor
张琳
温祖杰
欧代慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910676662.3A priority Critical patent/CN110457474A/zh
Publication of CN110457474A publication Critical patent/CN110457474A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

说明书披露一种舆情预警方法和装置。所述方法包括:获取原始舆情文本;从所述原始舆情文本中提取出关键语句;采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。

Description

舆情预警方法和装置
技术领域
本说明书涉及机器学习技术领域,尤其涉及一种舆情预警方法和装置。
背景技术
随着互联网技术的快速发展,人类进入数据时代,互联网中发布有大量的舆情,如何对大量的舆情进行准确的预警,已成为亟待解决的问题。
发明内容
有鉴于此,本说明书提供一种舆情预警方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种舆情预警方法,包括:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
一种舆情预警模型的训练方法,包括:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
一种舆情预警装置,包括:
文本获取单元,获取原始舆情文本;
语句提取单元,从所述原始舆情文本中提取出关键语句;
文本预测单元,采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
舆情预警单元,当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
一种舆情预警模型的训练装置,包括:
样本获取单元,获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
样本语句提取单元,从所述样本原始舆情文本中提取出样本关键语句;
模型训练单元,针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
一种舆情预警装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与舆情预警逻辑对应的机器可执行指令,所述处理器被促使:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
一种舆情预警模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与舆情预警模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
由以上描述可以看出,本说明书可从原始舆情文本中提取出关键语句,然后采用与业务对象对应的预警模型对提取出的关键语句进行预测,得到所述关键语句的预警概率,并可在所述预警概率满足预警条件时,认为原始舆情文本满足预警条件,进而对原始舆情文本发布预警,该预警指向所述业务对象。本实施例采用预警模型对提取出的关键语句进行预测,相较于采用原始舆情文本进行预测,可有效避免原始舆情文本过长导致的预测准确度差等问题。同时,采用与业务对象对应的预警模型进行预测,可直接得到对应业务对象的舆情监控结果,方便快捷,大大提高了舆情预警效率。
附图说明
图1是本说明书一示例性实施例示出的一种预警模型的训练方法的流程示意图。
图2是本说明书一示例性实施例示出的一种舆情预警方法的流程示意图。
图3是本说明书一示例性实施例示出的一种用于舆情预警装置的一结构示意图。
图4是本说明书一示例性实施例示出的一种舆情预警装置的框图。
图5是本说明书一示例性实施例示出的一种用于舆情预警模型的训练装置的一结构示意图。
图6是本说明书一示例性实施例示出的一种舆情预警模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书提供一种舆情预警方法,可从原始舆情文本中提取出关键语句,然后采用与业务对象对应的预警模型对提取出的关键语句进行预测,得到所述关键语句的预警概率,并可在所述预警概率满足预警条件时,认为原始舆情文本满足预警条件,进而对原始舆情文本发布预警,该预警指向所述业务对象。
上述原始舆情文本可包括发布在互联网等媒介中的文本。
例如,用户发布在网络论坛、微博、社区中的文本。
上述原始舆情文本也可包括用户通过语音客服等渠道上传的语音经转换后得到的文本。
例如,用户拨打客服电话后,录制用户所说的内容,得到音频,然后将所述音频转换为文本。
上述业务对象可包括用户进行线上业务操作时借助的APP(Application,应用程序)、APP中的功能、APP中的页面、APP中的交互控件、APP中的小程序等。
例如,上述业务对象可以是用户在进行支付操作时借助的第三方支付软件。
再例如,上述业务对象还可以是用户在进行支付操作时借助的第三方支付软件中提供的信用支付功能。
又例如,上述业务对象还可以是用户在进行信息搜索时借助的第三方搜索软件提供的搜索入口等。
上述业务对象还可包括用户在办理线下业务时提供业务办理的组织、团体或个人。
例如,上述业务对象可以是用户在线下办理社保业务时的社保中心。
再例如,上述业务对象还可以是用户在线下就医时的医院、科室、医生等。
下面分别通过预警模型的训练和舆情预警方法两个方面来描述本说明书的实现过程。
一、预警模型的训练
在本实施例中,针对每个业务对象,可训练出与该业务对象唯一对应的预警模型,后续用于预警指向该业务对象的舆情文本。
请参考图1,预警模型的训练方法可包括以下步骤:
步骤102,获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签。
在本实施例中,所述样本原始舆情文本是具有预警标签的原始舆情文本,所述预警标签与业务对象对应,用于表示是否对该样本原始舆情文本发布指向所述业务对象的预警。其中,所述预警标签可人为标注,也可机器标注,本说明书对此不作特殊限制。
业务对象 预警标签
业务对象1 L<sub>1</sub>
业务对象2 L<sub>2</sub>
业务对象3 L<sub>3</sub>
业务对象4 L<sub>4</sub>
业务对象5 L<sub>5</sub>
表1
请参考表1的示例,假设业务对象的数量是5,则所述样本舆情文本可具有5个预警标签:L1,L2,L3,L4,L5,这5个预警标签分别与业务对象1至业务对象5对应。预警标签的取值可以为0或1,其中0可表示不对该样本原始舆情文本进行指向对应业务对象的预警,1可表示对该样本原始舆情文本进行指向对应业务对象的预警。
假设,某样本原始舆情文本的预警标签L1=0,L2=1,则表示不对该样本原始舆情文本进行指向业务对象1的预警,但是对该样本原始舆情文本进行指向业务对象2的预警。
结合实际例子,假设样本原始舆情文本为“存在B电子钱包里的钱被盗了”,业务对象1是A电子钱包,业务对象2是B电子钱包,则在这个例子中,该样本原始舆情文本与业务对象1对应的预警标签L1=0,与业务对象2对应的预警标签L2=1,即不对该样本原始舆情文本进行指向A电子钱包的预警,对该样本原始舆情文本进行指向B电子钱包的预警,因为该样本原始舆情文本与B电子钱包有关。
值得注意的是,在本实施例中,样本原始舆情文本预警标签的数量可以和业务对象的数量相同,也可以小于业务对象的数量。
仍以表1的示例为例,在有5个业务对象的情况下,某样本原始舆情文本也可以仅具有两个预警标签,例如L1和L2,本说明书对此不作特殊限制。
步骤104,从所述样本原始舆情文本中提取出样本关键语句。
在本实施例中,针对每条样本原始舆情文本,可以从该样本原始舆情文本中提取出样本关键语句。所述样本关键语句是对样本原始舆情文本的语义有着重要意义的语句。
在一个例子中,可从所述样本原始舆情文本中提取出与业务对象相关的语句作为所述样本关键语句。
下面以训练与业务对象1对应的预警模型为例,介绍几种与业务对象1相关的样本关键语句的提取方法。
1)针对所述样本原始舆情文本中的每个句子,可判断所述句子中是否包含所述业务对象1。
例如,可判断所述句子中是否包含所述业务对象1的中文名称。
再例如,可判断所述句子中是否包含所述业务对象1的英文名称。
又例如,可判断所述句子中是否包含所述业务对象1的简称。
又例如,可判断所述句子中是否包含所述业务对象1的别名等。
若所述句子中包含所述业务对象1,则可提取所述句子作为与业务对象1相关的样本关键语句。
2)针对所述样本原始舆情文本中的每个句子,可先判断所述句子中是否包含所述业务对象1,若包含,则可继续判断所述句子中是否包含预设的预警词语,若也包含,则可提取所述句子作为与业务对象1相关的样本关键语句。
其中,所述预警词语可包括:“盗”、“窃”、“丢失”、“损失”、“安全”、“可靠”、“不安全”、“不可靠”等。
当然,还可先判断所述句子中是否包含预设的预警词语,若包含,再判断所述句子中是否包含所述业务对象1,本说明书对此不作特殊限制。
3)针对所述样本原始舆情文本中的每个句子,可先判断所述句子中是否包含所述业务对象1,若包含,则可继续判断所述句子中所述业务对象1的后面是否包含预设的预警词语,若也包含,则可提取所述句子作为与业务对象1相关的样本关键语句。
在本例中,可将预警词语的出现位置限定在业务对象1之后。
在进行判断时,可在确定句子中包含业务对象1之后,从所述业务对象1所在的文本位置开始,沿着语义的顺序,继续判断句子中是否包含所述预警词语。
举例来说,假设某个句子为“存在业务对象1里的钱被盗了”,则在判断这个句子中包含业务对象1后,沿着语义的顺序,继续判断“里的钱被盗了”中是否包含预设的预警词语。经判断包含预警词语“盗”,则可提取这个句子作为与业务对象1相关的样本关键语句。
值得注意的是,在进行与业务对象相关的样本关键语句提取时,所述业务对象与预警模型对应的业务对象一致。
例如,在训练业务对象1对应的预警模型时,在样本原始舆情文本中提取与业务对象1相关的语句作为样本关键语句。
再例如,在训练业务对象2对应的预警模型时,在样本原始舆情文本中提取与业务对象2相关的语句作为样本关键语句。
在另一个例子中,还可从所述样本原始舆情文本中提取出指定语句作为所述样本关键语句。
所述指定语句可包括以下一种或多种:所述样本原始舆情文本的标题、首句和尾句等。
当然,所述指定语句也可以是样本原始舆情文本中的第二句、倒数第二句等,本说明书对此不作特殊限制。
在本实施例中,可选取上述一种或多种提取方法进行样本关键语句的提取,从而从所述样本原始舆情文本中提取出一个或多个样本关键语句。
在本实施例中,可采用CNN(Convolutional Neural Networks,卷积神经网络)模型、LSTM模型(Long Short Term Memory Model,长短期记忆网络模型)等模型进行样本关键语句的提取,本说明书对此不作特殊限制。
值得注意的是,在同时采用上述两种方法进行样本关键语句的提取时,可能会出现重复语句,例如,样本原始舆情文本的首句也同时是与业务对象相关的句子,进而在样本关键语句提取后还需进行去重处理。
步骤106,针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
在本实施例中,可采用基于特定方面的情感分类模型Aspect Level模型等作为预警模型,本说明书对此不作特殊限制。
在本实施例中,以训练业务对象1对应的预警模型为例,可采用前述步骤104中提取出的样本关键语句和样本原始舆情文本与业务对象1对应的预警标签对预警模型进行训练,得到与业务对象1对应的预警模型。
在一个例子中,可先对样本关键语句进行嵌入处理(Embedding),生成所述样本关键语句的样本特征向量,然后将所述样本特征向量输入预警模型,输出所述样本关键语句的预警概率,并可根据所述预警概率和预警标签之间的差异调整所述预警模型的模型参数。
其中,对样本关键语句进行嵌入处理可采用以下示例的方法:
例如,当用于训练的样本关键语句语料充足时,可对所述样本关键语句进行随机向量初始化,进而生成所述样本关键语句的样本特征向量。
再例如,当用于训练的样本关键语句语料不足时,可采用word2vec等方法生成所述样本关键语句的样本特征向量。
上述嵌入方法仅为示例性的说明,在其他例子中,也可采用其他方法生成所述样本关键语句的样本特征向量,本说明书对此不作特殊限制。
在另一个例子中,当预警模型具有文本嵌入功能时,可将样本关键语句直接输入预警模型,输出所述样本关键语句的预警概率,然后根据该预警概率和预警标签之间的差异调整所述预警模型的模型参数。
由以上描述可以看出,本实施例采用提取出的关键语句对预警模型进行训练,相较于采用原始舆情文本进行训练,可有效避免原始舆情文本过长导致的模型准确度差等问题。同时,本实施例训练出的预警模型与业务对象一一对应,便于不同业务对象的舆情监控。
二、舆情预警方法
请参考图2,舆情预警方法可包括以下步骤:
步骤202,获取原始舆情文本。
在本实施例中,获取需要进行舆情监控的原始舆情文本。
在一个例子中,所述原始舆情文本可以是用户发布的原始文本,未经过处理。
在另一个例子中,还可以先对用户发布的原始文本进行预处理,过滤掉所述原始文本的噪声,得到原始舆情文本。例如,可过滤掉所述原始文本中不必要的HTML(HyperText Markup Language,超级文本标记语言)等。
在本实施例中,可从网络论坛、微博、社区等网络平台获取用户发布的原始文本。
步骤204,从所述原始舆情文本中提取出关键语句。
在本实施例中,针对每条原始舆情文本,可以从该原始舆情文本中提取出关键语句。所述关键语句是对原始舆情文本的语义有着重要意义的语句。
在一个例子中,可从所述原始舆情文本中提取出与业务对象相关的语句作为所述关键语句。
下面针对业务对象1进行舆情监控为例,介绍几种与业务对象1相关的关键语句的提取方法。
1)针对所述原始舆情文本中的每个句子,可判断所述句子中是否包含所述业务对象1。
例如,可判断所述句子中是否包含所述业务对象1的中文名称。
再例如,可判断所述句子中是否包含所述业务对象1的英文名称。
又例如,可判断所述句子中是否包含所述业务对象1的简称。
又例如,可判断所述句子中是否包含所述业务对象1的别名等。
若所述句子中包含所述业务对象1,则可提取所述句子作为与业务对象1相关的关键语句。
2)针对所述原始舆情文本中的每个句子,可先判断所述句子中是否包含所述业务对象1,若包含,则可继续判断所述句子中是否包含预设的预警词语,若也包含,则可提取所述句子作为与业务对象1相关的关键语句。
其中,所述预警词语可包括:“盗”、“窃”、“丢失”、“损失”、“安全”、“可靠”、“不安全”、“不可靠”等。
当然,还可先判断所述句子中是否包含预设的预警词语,若包含,再判断所述句子中是否包含所述业务对象1,本说明书对此不作特殊限制。
3)针对所述原始舆情文本中的每个句子,可先判断所述句子中是否包含所述业务对象1,若包含,则可继续判断所述句子中所述业务对象1的后面是否包含预设的预警词语,若也包含,则可提取所述句子作为与业务对象1相关的关键语句。
在本例中,可将预警词语的出现位置限定在业务对象1之后。
在进行判断时,可在确定句子中包含业务对象1之后,从所述业务对象1所在的文本位置开始,沿着语义的顺序,继续判断句子中是否包含所述预警词语。
举例来说,假设某个句子为“存在业务对象1里的钱被盗了”,则在判断这个句子中包含业务对象1后,沿着语义的顺序,继续判断“里的钱被盗了”中是否包含预设的预警词语。经判断包含预警词语“盗”,则可提取这个句子作为与业务对象1相关的关键语句。
值得注意的是,在进行与业务对象相关的关键语句提取时,所述业务对象和需要进行舆情监控的业务对象一致。
例如,在针对业务对象1进行舆情监控时,在原始舆情文本中提取与业务对象1相关的语句作为关键语句。
再例如,在针对业务对象2进行舆情监控时,在原始舆情文本中提取与业务对象2相关的语句作为关键语句。
在另一个例子中,还可从所述原始舆情文本中提取出指定语句作为所述关键语句。
所述指定语句可包括以下一种或多种:所述原始舆情文本的标题、首句和尾句等。
当然,所述指定语句也可以是原始舆情文本中的第二句、倒数第二句等,本说明书对此不作特殊限制。
在本实施例中,可选取上述一种或多种提取方法进行关键语句的提取,从而从所述原始舆情文本中提取出一个或多个关键语句。
在本实施例中,可采用CNN(Convolutional Neural Networks,卷积神经网络)模型、LSTM模型(Long Short Term Memory Model,长短期记忆网络模型)等模型进行样本关键语句的提取,本说明书对此不作特殊限制。
值得注意的是,在同时采用上述两种方法进行关键语句的提取时,可能会出现重复语句,例如,原始舆情文本的首句也同时是与业务对象相关的句子,进而在关键语句提取后还需进行去重处理。
步骤206,采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率。
在本实施例中,针对每个需要进行舆情监控的业务对象,可分别采用与所述业务对象对应的预警模型来进行预测。
假设,有5个需要进行舆情监控的业务对象,分别为业务对象1至业务对象5,则针对获取到的每条原始舆情文本,可分别采用与业务对象1至业务对象5对应的预测模型1至预测模型5进行预测。
下面以对业务对象1进行舆情监控为例进行描述。
在本实施例中,当与业务对象1对应的预警模型1采用样本关键语句的样本特征向量作为输入进行训练时,在本步骤中,可先对前述步骤204提取出的关键语句进行嵌入处理,生成对应的特征向量,然后将特征向量输入训练好的预警模型1,输出所述关键语句的预警概率。
其中,对关键语句进行嵌入处理可采用以下示例的方法:
例如,可对所述关键语句进行随机向量初始化,进而生成所述关键语句的特征向量。
再例如,可采用word2vec等方法生成所述关键语句的特征向量。
上述嵌入方法仅为示例性的说明,在其他例子中,也可采用其他方法生成所述关键语句的特征向量,本说明书对此不作特殊限制。
当与业务对象1对应的预警模型1采用样本关键语句作为输入进行训练时,在本步骤中,可将前述步骤204中提取出的关键语句直接输入训练好的预警模型1,输出所述关键语句的预警概率。
步骤208,当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
在本实施例中,可判断前述步骤206得到的所述关键语句的预警概率是否满足预定预警条件,若满足,则可认为关键语句对应的原始舆情文本满足预警条件,进而对原始舆情文本发布预警,该预警指向所述业务对象。
其中,所述预警条件可以为预警概率大于等于预警阈值、小于等于预警阈值等,可在预警模型训练时确定,而不同业务对象对应的预警条件可能相同,也可能不同,本说明书对此不作特殊限制。
由以上描述可以看出,本实施例可从原始舆情文本中提取出关键语句,然后采用与业务对象对应的预警模型对提取出的关键语句进行预测,得到所述关键语句的预警概率,并可在所述预警概率满足预警条件时,认为原始舆情文本满足预警条件,进而对原始舆情文本发布预警,该预警指向所述业务对象。本实施例采用预警模型对提取出的关键语句进行预测,相较于采用原始舆情文本进行预测,可有效避免原始舆情文本过长导致的预测准确度差等问题。同时,采用与业务对象对应的预警模型进行预测,可直接得到对应业务对象的舆情监控结果,方便快捷,大大提高了舆情预警效率。
与前述舆情预警方法的实施例相对应,本说明书还提供了舆情预警装置的实施例。
本说明书舆情预警装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书舆情预警装置所在服务器的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种舆情预警装置的框图。
请参考图4,所述舆情预警装置300可以应用在前述图3所示的服务器中,包括有:文本获取单元301、语句提取单元302、文本预测单元303和舆情预警单元304。
其中,文本获取单元301,获取原始舆情文本;
语句提取单元302,从所述原始舆情文本中提取出关键语句;
文本预测单元303,采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
舆情预警单元304,当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
可选的,所述语句提取单元302,从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句。
可选的,所述语句提取单元302,针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;若包含,则提取所述句子作为所述关键语句。
可选的,所述语句提取单元302,针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则判断所述句子中是否包含预设的预警词语;
若包含,则提取所述句子作为所述关键语句。
可选的,所述语句提取单元302,从所述业务对象所在的文本位置开始,沿语义的顺序判断所述句子中是否包含预设的预警词语;若包含,则执行提取所述句子作为所述关键语句的步骤。
可选的,所述语句提取单元302,从所述原始舆情文本中提取出指定语句作为所述关键语句。
可选的,所述指定语句包括以下一种或多种:
所述原始舆情文本的标题、首句和尾句。
可选的,所述文本预测单元303,当所述预警模型采用样本关键语句作为输入进行训练时,将所述关键语句输入与业务对象对应的预警模型,输出所述关键语句的预警概率。
可选的,所述文本预测单元303,当所述预警模型采用样本关键语句的样本特征向量作为输入进行训练时,为所述关键语句生成特征向量;将所述特征向量输入所述预警模型,输出所述关键语句的预警概率。
与前述舆情预警模型的训练方法的实施例相对应,本说明书还提供了舆情预警模型的训练装置的实施例。
本说明书舆情预警模型的训练装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书舆情预警模型的训练装置所在服务器的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图6是本说明书一示例性实施例示出的一种舆情预警模型的训练装置的框图。
请参考图6,所述舆情预警模型的训练装置500可以应用在前述图5所示的服务器中,包括有:样本获取单元501、样本语句提取单元502和模型训练单元503。
样本获取单元501,获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
样本语句提取单元502,从所述样本原始舆情文本中提取出样本关键语句;
模型训练单元503,针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述舆情预警方法的实施例相对应,本说明书还提供一种舆情预警装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与舆情预警逻辑对应的机器可执行指令,所述处理器被促使:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
可选的,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句。
可选的,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则提取所述句子作为所述关键语句。
可选的,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则判断所述句子中是否包含预设的预警词语;
若包含,则提取所述句子作为所述关键语句。
可选的,所述判断所述句子中是否包含预设的预警词语,包括:
从所述业务对象所在的文本位置开始,沿语义的顺序判断所述句子中是否包含预设的预警词语;
若包含,则执行提取所述句子作为所述关键语句的步骤。
可选的,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出指定语句作为所述关键语句。
可选的,所述指定语句包括以下一种或多种:
所述原始舆情文本的标题、首句和尾句。
可选的,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句作为输入进行训练时,将所述关键语句输入与业务对象对应的预警模型,输出所述关键语句的预警概率。
可选的,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句的样本特征向量作为输入进行训练时,为所述关键语句生成特征向量;
将所述特征向量输入所述预警模型,输出所述关键语句的预警概率。
与前述舆情预警模型的训练方法的实施例相对应,本说明书还提供一种舆情预警模型的训练装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与舆情预警模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
与前述舆情预警方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
可选的,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句。
可选的,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则提取所述句子作为所述关键语句。
可选的,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则判断所述句子中是否包含预设的预警词语;
若包含,则提取所述句子作为所述关键语句。
可选的,所述判断所述句子中是否包含预设的预警词语,包括:
从所述业务对象所在的文本位置开始,沿语义的顺序判断所述句子中是否包含预设的预警词语;
若包含,则执行提取所述句子作为所述关键语句的步骤。
可选的,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出指定语句作为所述关键语句。
可选的,所述指定语句包括以下一种或多种:
所述原始舆情文本的标题、首句和尾句。
可选的,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句作为输入进行训练时,将所述关键语句输入与业务对象对应的预警模型,输出所述关键语句的预警概率。
可选的,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句的样本特征向量作为输入进行训练时,为所述关键语句生成特征向量;
将所述特征向量输入所述预警模型,输出所述关键语句的预警概率。
与前述舆情预警模型的训练方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (22)

1.一种舆情预警方法,包括:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
2.根据权利要求1所述的方法,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句。
3.根据权利要求2所述的方法,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则提取所述句子作为所述关键语句。
4.根据权利要求2所述的方法,所述从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句包括:
针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则判断所述句子中是否包含预设的预警词语;
若包含,则提取所述句子作为所述关键语句。
5.根据权利要求4所述的方法,所述判断所述句子中是否包含预设的预警词语,包括:
从所述业务对象所在的文本位置开始,沿语义的顺序判断所述句子中是否包含预设的预警词语;
若包含,则执行提取所述句子作为所述关键语句的步骤。
6.根据权利要求1所述的方法,所述从所述原始舆情文本中提取出关键语句,包括:
从所述原始舆情文本中提取出指定语句作为所述关键语句。
7.根据权利要求6所述的方法,所述指定语句包括以下一种或多种:
所述原始舆情文本的标题、首句和尾句。
8.根据权利要求1所述的方法,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句作为输入进行训练时,将所述关键语句输入与业务对象对应的预警模型,输出所述关键语句的预警概率。
9.根据权利要求1所述的方法,所述采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率,包括:
当所述预警模型采用样本关键语句的样本特征向量作为输入进行训练时,为所述关键语句生成特征向量;
将所述特征向量输入所述预警模型,输出所述关键语句的预警概率。
10.一种舆情预警模型的训练方法,包括:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
11.一种舆情预警装置,包括:
文本获取单元,获取原始舆情文本;
语句提取单元,从所述原始舆情文本中提取出关键语句;
文本预测单元,采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
舆情预警单元,当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
12.根据权利要求11所述的装置,
所述语句提取单元,从所述原始舆情文本中提取出与所述业务对象相关的语句作为所述关键语句。
13.根据权利要求12所述的装置,
所述语句提取单元,针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;若包含,则提取所述句子作为所述关键语句。
14.根据权利要求12所述的装置,
所述语句提取单元,针对所述原始舆情文本中的每个句子,判断所述句子中是否包含所述业务对象;
若包含,则判断所述句子中是否包含预设的预警词语;
若包含,则提取所述句子作为所述关键语句。
15.根据权利要求14所述的装置,
所述语句提取单元,从所述业务对象所在的文本位置开始,沿语义的顺序判断所述句子中是否包含预设的预警词语;若包含,则执行提取所述句子作为所述关键语句的步骤。
16.根据权利要求11所述的装置,
所述语句提取单元,从所述原始舆情文本中提取出指定语句作为所述关键语句。
17.根据权利要求16所述的装置,所述指定语句包括以下一种或多种:
所述原始舆情文本的标题、首句和尾句。
18.根据权利要求11所述的装置,
所述文本预测单元,当所述预警模型采用样本关键语句作为输入进行训练时,将所述关键语句输入与业务对象对应的预警模型,输出所述关键语句的预警概率。
19.根据权利要求11所述的装置,
所述文本预测单元,当所述预警模型采用样本关键语句的样本特征向量作为输入进行训练时,为所述关键语句生成特征向量;将所述特征向量输入所述预警模型,输出所述关键语句的预警概率。
20.一种舆情预警模型的训练装置,包括:
样本获取单元,获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
样本语句提取单元,从所述样本原始舆情文本中提取出样本关键语句;
模型训练单元,针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
21.一种舆情预警装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与舆情预警逻辑对应的机器可执行指令,所述处理器被促使:
获取原始舆情文本;
从所述原始舆情文本中提取出关键语句;
采用与业务对象对应的预警模型对所述关键语句进行预测,得到所述关键语句的预警概率;
当所述预警概率满足预定预警条件时,对所述原始舆情文本发布指向所述业务对象的预警。
22.一种舆情预警模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与舆情预警模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取样本原始舆情文本,所述样本原始舆情文本具有一个或多个与业务对象一一对应的预警标签;
从所述样本原始舆情文本中提取出样本关键语句;
针对每个业务对象,采用所述样本关键语句和所述业务对象对应的样本原始舆情文本预警标签对预警模型进行训练,得到与所述业务对象对应的预警模型。
CN201910676662.3A 2019-07-25 2019-07-25 舆情预警方法和装置 Pending CN110457474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910676662.3A CN110457474A (zh) 2019-07-25 2019-07-25 舆情预警方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676662.3A CN110457474A (zh) 2019-07-25 2019-07-25 舆情预警方法和装置

Publications (1)

Publication Number Publication Date
CN110457474A true CN110457474A (zh) 2019-11-15

Family

ID=68483403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676662.3A Pending CN110457474A (zh) 2019-07-25 2019-07-25 舆情预警方法和装置

Country Status (1)

Country Link
CN (1) CN110457474A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN107516279A (zh) * 2017-08-15 2017-12-26 皑沐(上海)文化传媒有限公司 一种网络舆情自动预警的方法
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109472018A (zh) * 2018-09-26 2019-03-15 深圳壹账通智能科技有限公司 企业舆情监测方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN107516279A (zh) * 2017-08-15 2017-12-26 皑沐(上海)文化传媒有限公司 一种网络舆情自动预警的方法
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109472018A (zh) * 2018-09-26 2019-03-15 深圳壹账通智能科技有限公司 企业舆情监测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN110910901B (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
CN107204184B (zh) 语音识别方法及***
CN109117777A (zh) 生成信息的方法和装置
CN108052577A (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN109697291A (zh) 文本的语义段落识别方法和装置
CN109740620A (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN110083716A (zh) 基于藏文的多模态情感计算方法及***
CN108959474B (zh) 实体关系提取方法
CN110224850A (zh) 电信网络故障预警方法、装置及终端设备
CN111866004B (zh) 安全评估方法、装置、计算机***和介质
CN109886270A (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN107610706A (zh) 语音搜索结果的处理方法和处理装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112560453A (zh) 语音信息校验方法、装置、电子设备及介质
CN110232127A (zh) 文本分类方法及装置
CN113191787A (zh) 电信数据的处理方法、装置电子设备及存储介质
CN109325178A (zh) 用于处理信息的方法和装置
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
Alghamdi et al. Modeling fake news detection using bert-cnn-bilstm architecture
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN109636378B (zh) 账户识别方法和装置、电子设备
CN110457474A (zh) 舆情预警方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115