CN114925286B

CN114925286B - 舆情数据处理方法及装置

Info

Publication number: CN114925286B
Application number: CN202210850838.4A
Authority: CN
Inventors: 周秀丽
Original assignee: Kaixin Technology Information Service Nanjing Co ltd
Current assignee: Kaixin Technology Information Service Nanjing Co ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-14
Anticipated expiration: 2042-07-20
Also published as: CN114925286A

Abstract

本发明提供一种舆情数据处理方法及装置，包括：根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合；根据与第一关键词对应的预设关键词建立与其相对应的第一树状图，将预设关键词作为第一树状图的根节点；根据第一信息种类建立多个第一子节点；根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间；根据第二舆情信息的第二信息种类、第二信息内容对第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间。本发明可以针对舆情数据进行快速、高效的去重、存储。

Description

舆情数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种舆情数据处理方法及装置。

背景技术

舆情监控，整合了互联网信息采集技术及信息智能处理技术，通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪等信息需求，形成简报、报告、图表等分析结果，为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。

对舆情监控的前提下，是对舆情数据进行存储，在现有技术中，并无法针对舆情数据进行快速、高效的去重、存储。

发明内容

本发明实施例提供一种舆情数据处理方法及装置，可以针对舆情数据进行快速、高效的去重、存储。

本发明实施例的第一方面，提供一种舆情数据处理方法，包括：

对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的预设关键词；

根据与所述第一关键词对应的预设关键词建立与其相对应的第一树状图，将所述预设关键词作为第一树状图的根节点；

获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接；

根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间；

在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间。

可选地，在第一方面的一种可能实现方式中，所述对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的关键词，包括：

获取预先配置的舆情关键词组，根据所述舆情关键词组生成相对应舆情信息集合，所述舆情关键词组包括至少一个预设关键词；

将第一舆情信息中的第一关键词与舆情关键词组中的预设关键词比对，将与任意一个预设关键词对应的第一舆情信息归类至相对应的舆情信息集合内，得到多个第一信息集合，所述第一信息集合相对应的关键词即为预设关键词。

可选地，在第一方面的一种可能实现方式中，所述根据所述关键词建立与其相对应的第一树状图，将所述第一关键词作为第一树状图的根节点，包括：

建立与所述第一信息集合对应的第一树状图；

提取所述第一信息集合对应的所有预设关键词，在所述第一树状图中建立1个根节点，将所述预设关键词填充至所述根节点处。

可选地，在第一方面的一种可能实现方式中，所述获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接，包括：

所述第一舆情信息的第一信息种类为文字种类、图像种类或音频种类以及视频种类中的任意一种；

建立与第一舆情信息的所有第一信息种类相对应的第一子节点，将所有的第一子节点分别与根节点连接。

可选地，在第一方面的一种可能实现方式中，所述根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间，包括：

获取每一个第一舆情信息的第一信息内容，所述第一信息内容为文字内容、图像内容、音频内容以及视频内容中的任意一种；

分别建立与第一信息内容对应的第一孙节点和第一数据存储单元，将所述第一孙节点和第一数据存储单元通过数据调取路径关联，以使相应的第一孙节点被触发时，基于数据调取路径对第一数据存储单元内的第一信息内容进行调取；

根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内；

统计所有的第一数据存储单元生成相对应的第一数据存储空间。

可选地，在第一方面的一种可能实现方式中，所述根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内，包括：

若判断第一舆情信息的第一信息内容为文字内容或图像内容，则获取文字种类或图像种类中第一舆情信息对应的字符串，对所述字符串进行哈希运算得到第一哈希值；

将所述第一哈希值作为文字内容或图像内容的第一舆情信息的第一数据标识。

若判断第一舆情信息的第一信息种类为音频内容或视频内容，则获取所述音频内容或视频内容的第一终止时刻值以及第一信息数据量值；

对所述第一终止时刻值按照预设时间段进行偏移，得到终止时间段，对所述第一信息数据量值按照预设数据量值进行偏移，得到信息数据区间值；

将所述终止时间段、信息数据区间值作为音频内容或视频内容的第一舆情信息的第一数据标识。

可选地，在第一方面的一种可能实现方式中，所述在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间，包括：

若判断所述第二舆情信息为文字内容或图像内容，则提取所述第二舆情信息对应的字符串，对所述字符串进行哈希运算得到第二哈希值；

遍历文字内容或图像内容对应的第一数据存储单元内第一数据标识的第一哈希值，若判断所述第一哈希值与所述第二哈希值相同，则不对所述第二舆情信息进行存储；

若判断所述第一哈希值与所述第二哈希值不同，则建立与第二舆情信息对应的第二孙节点、第二数据存储单元，将所述第二舆情信息存储至所述第二数据存储单元内；

基于所述第二孙节点对所述第一树状图更新得到第二树状图，基于所述第二数据存储单元对第一数据存储空间更新得到第二数据存储空间。

若判断所述第二舆情信息为音频内容或视频内容，则提取所述第二舆情信息中的第二终止时刻值以及第二信息数据量值；

遍历音频内容或视频内容对应的第一数据存储单元内第一数据标识的终止时间段和信息数据区间值，若判断所述第二终止时刻值位于所述终止时间段内、且第二信息数据量值位于所述信息数据区间值内，则不对所述第二舆情信息进行存储；

若判断所述第二终止时刻值不位于所述终止时间段内、或第二信息数据量值不位于所述信息数据区间值内，则建立与第二舆情信息对应的第二孙节点、第二数据存储单元，将所述第二舆情信息存储至所述第二数据存储单元内；

本发明实施例的第二方面，提供一种舆情数据处理装置，包括：

聚类模块，用于对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的关键词；

根节点建立模块，用于根据所述关键词建立与其相对应的第一树状图，将所述第一关键词作为第一树状图的根节点；

子节点建立模块，获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接；

孙节点建立模块，根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间；

更新模块，用于在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间。

本发明实施例的第三方面，提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

有益效果：

1、本方案会基于舆情关键词组对抓取的舆情数据进行一次分类处理，得到多个第一信息集合以对相应的舆情数据进行分类存储，在后续进行去重比对时，可以直接基于关键词确定到对应的信息集合，然后直接与信息集合中的数据进行比对即可，无需遍历所有存储的数据，减少数据处理量，提高去重效率；另外，本方案构建了对应第一信息集合的树状图，按照数据类型对同一信息集合内的舆情数据二次分类存储，在后续进行去重比对时，可以直接基于文本类型确定一个相应的数据存储单元，然后直接与相应数据存储单元内的数据进行比对即可，无需遍历第一信息集合内所有数据存储单元的数据，进一步减少数据处理量，进一步的提高去重效率；同时，本方案通过上述方式可以提高舆情数据的存储效率。

2、本方案针对不同的数据类型采用了不同的去重方式。第一种是针对文字内容或图像内容，本方案会将文字内容或图像内容所对应的字符串转换为唯一性的哈希值，利用唯一性的哈希值高效准确的实现对文字内容或图像内容的去重；第二种是针对音频内容或者视频内容，本方案会基于音频内容或者视频内容的特性得到终止时刻值和信息数据量值，利用终止时刻值和信息数据量值结合可以高效准确的实现对音频内容或者视频内容的去重，相对于现有技术中人工审核来说，数据处理量低且效率极高；另外，本方案还考虑到相同视频或者音频之间的时长或者数据量可能会有误差，因此，对第一终止时刻值按照预设时间段进行偏移，得到终止时间段，对第一信息数据量值按照预设数据量值进行偏移，得到信息数据区间值，利用终止时间段和信息数据区间值来对音频内容和视频内容进行准确、有效的去重处理；

3、本方案每存储一个舆情数据，都会自动对相应的树状图的节点和数据存储单元进行更新，在下一次进行比对去重、存储时，可以直接基于新的树状图进行准确的去重、存储；另外，本方案利用树状图对数据分类存储，相对于现有技术中的凌乱存储，在用户对舆情数据进行查询时，可以快速有效的实现舆情数据的定位，提高查询效率，同时也便于用户对舆情数据进行管理。

附图说明

图1是本发明实施例提供的一种舆情数据处理方法的流程示意图；

图2是本发明实施例提供的一种树状图的示意图；

图3是本发明实施例提供的一种舆情数据处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

参见图1，是本发明实施例提供的一种舆情数据处理方法的流程示意图，图1所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个：用户设备、网络设备等。其中，用户设备可以包括但不限于计算机、智能手机、个人数字助理（Personal Digital Assistant，简称：PDA）及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。该舆情数据处理方法包括步骤S1至步骤S5，具体如下：

S1，对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的预设关键词。

可以理解的是，本发明首先对多个目标位置处的舆情数据进行抓取，对舆情数据进行接收，其中，目标位置可以是人为设置的，以获取目标数据。

本方案会对接入的第一舆情信息进行处理，利用第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的预设关键词。通过上述方式，可以利用关键词对接入的第一舆情信息进行分类。

在一些实施例中，S1（所述对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的关键词）包括S11- S12：

S11，获取预先配置的舆情关键词组，根据所述舆情关键词组生成相对应舆情信息集合，所述舆情关键词组包括至少一个预设关键词。

本方案会预先设置好多个舆情关键词组，舆情关键词组例如是“A市+温度”，又例如是“李三+演唱会”等等，同时，本方案会根据舆情关键词组生成相对应舆情信息集合。

S12，将第一舆情信息中的第一关键词与舆情关键词组中的预设关键词比对，将与任意一个预设关键词对应的第一舆情信息归类至相对应的舆情信息集合内，得到多个第一信息集合，所述第一信息集合相对应的关键词即为预设关键词。

本方案在接收到第一舆情信息后，会将第一舆情信息中的第一关键词与舆情关键词组中的预设关键词比对，然后将与任意一个预设关键词对应的第一舆情信息归类至相对应的舆情信息集合内，得到多个第一信息集合。

示例性的，第一舆情信息是“李三开演唱会啦”，舆情关键词组是“李三+演唱会”，对应的舆情信息集合为舆情信息集合A，其中的关键词包括“李三”、“演唱会”，那么本方案会将第一舆情信息“李三开演唱会啦”归类至舆情信息集合A内。

S2，根据与所述第一关键词对应的预设关键词建立与其相对应的第一树状图，将所述预设关键词作为第一树状图的根节点。

本方案会建立与预设关键词相对应的第一树状图，并且第一树状图的根节点为预设关键词。

示例性的，参见图2，第一树状图的根节点为“李三+演唱会”。

在一些实施例中，S2（所述根据所述关键词建立与其相对应的第一树状图，将所述第一关键词作为第一树状图的根节点）包括S21- S22：

S21，建立与所述第一信息集合对应的第一树状图。

参见图2，本方案会建立与第一信息集合对应的第一树状图。可以理解的是，树状图会有对应的节点，本方案的树状图具有根节点、子节点和孙节点。

S22，提取所述第一信息集合对应的所有预设关键词，在所述第一树状图中建立1个根节点，将所述预设关键词填充至所述根节点处。

示例性的，提取第一信息集合对应的所有预设关键词“李三+演唱会”，在第一树状图中建立1个根节点，将预设关键词“李三+演唱会”填充至根节点处。

S3，获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接。

本方案会依据信息种类建立对应的第一子节点，会先获取第一信息集合中第一舆情信息的所有第一信息种类，根据第一信息种类建立多个第一子节点。

在一些实施例中，S3（所述获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接），包括：

示例性的，第一信息集合中第一舆情信息的所有第一信息种类包括文字种类、图像种类或音频种类以及视频种类，那么第一信息集合所对应的第一子节点有4个。

在建立了第一子节点之后，本方案会将第一子节点与根节点连接，形成一个树状图。

本方案通过上述实施例可以将接进来的第一舆情信息按照信息种类进行分类。

S4，根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间。

为了对第一舆情信息进行存储，本方案会根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、以及第一数据存储单元，然后利用第一数据存储单元对相应的数据进行存储。

本方案会将每个第一舆情信息的第一信息种类，将第一孙节点与相应的第一子节点连接，然后将第一舆情信息存储至相应的第一数据存储单元。

此外，本方案还会根据所有的第一数据存储单元形成第一数据存储空间，对多个第一数据存储单元进行整合，可以使每种同类的第一舆情信息存储到对应的第一数据存储空间内。

在一些实施例中，S4（所述根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间）包括S41- S44：

S41，获取每一个第一舆情信息的第一信息内容，所述第一信息内容为文字内容、图像内容、音频内容以及视频内容中的任意一种。

可以理解的是，本方案会对第一舆情信息进行解析处理，得到接入第一舆情信息的第一信息内容，并得到第一信息内容的内容种类。例如，第一信息内容为文字信息，那么对应的第一信息内容为文字内容。

S42，分别建立与第一信息内容对应的第一孙节点和第一数据存储单元，将所述第一孙节点和第一数据存储单元通过数据调取路径关联，以使相应的第一孙节点被触发时，基于数据调取路径对第一数据存储单元内的第一信息内容进行调取。

本方案会建立与第一信息内容对应的第一孙节点和第一数据存储单元，同时建立数据调取路径，将第一孙节点和第一数据存储单元关联，用户可以通过数据调取路径来调取第一数据存储单元内的存储内容。

可以理解的是，本方案在相应的第一孙节点被触发时，可以利用数据调取路径对第一数据存储单元内的第一信息内容进行调取。

S43，根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内。

本方案还会利用每个第一舆情信息的第一信息种类生成相对应的第一数据标识，利用第一数据标识来对相应的每个第一舆情信息进行标注。同时，本方案会将第一数据标识存储于相应的第一数据存储单元内。

本方案依据第一舆情信息的第一信息种类的不同，采用不同生成第一数据标识的方式，具体参见下文。

针对第一信息内容为文字内容或图像内容：

在一些实施例中，S43（所述根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内）包括A431- A432：

A431，若判断第一舆情信息的第一信息内容为文字内容或图像内容，则获取文字种类或图像种类中第一舆情信息对应的字符串，对所述字符串进行哈希运算得到第一哈希值。

可以理解的是，在第一信息内容为文字内容或图像内容时，本方案可以对文字内容或图像内容进行解析，得到文字种类或图像种类中第一舆情信息对应的字符串，然后对字符串进行哈希运算得到第一哈希值。

需要说明的是，如果文字内容或图像内容不同，解析所得到的字符串不同，对字符串进行哈希运算得到第一哈希值也是不同的，因此，每个不同的文字内容或图像内容都有不同的第一哈希值，后续去重时，可以利用第一哈希值进行比对去重。

其中，对字符串进行哈希运算得到第一哈希值为现有技术，在此不再赘述。

A432，将所述第一哈希值作为文字内容或图像内容的第一舆情信息的第一数据标识。

本方案在计算得到第一哈希值后，会将第一哈希值作为第一舆情信息的第一数据标识。

针对第一信息内容为音频内容或视频内容：

在另一些实施例中，S43（所述根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内）包括B431-B433：

B431，若判断第一舆情信息的第一信息种类为音频内容或视频内容，则获取所述音频内容或视频内容的第一终止时刻值以及第一信息数据量值。

本方案在第一信息种类为音频内容或视频内容时，会得到音频内容或视频内容的第一终止时刻值以及第一信息数据量值。

示例性的，第一信息种类为视频内容，视频内容长度1分10S，大小为1500KB，则对应的第一终止时刻值为1分10S，第一信息数据量值为1500KB。

B432，对所述第一终止时刻值按照预设时间段进行偏移，得到终止时间段，对所述第一信息数据量值按照预设数据量值进行偏移，得到信息数据区间值。

本方案考虑到相同视频或者音频之间的时长或者数据量可能会有误差，例如，多个几秒或者少个几秒，再例如多个10kb或者少个10kb，为了减少误差的影响，本方案会对第一终止时刻值按照预设时间段进行偏移，得到终止时间段，对第一信息数据量值按照预设数据量值进行偏移，得到信息数据区间值。

示例性的，第一终止时刻值为1分10S，第一信息数据量值为1500KB，则对应的终止时间段为1分09S-1分11S，信息数据区间值为1490KB-1500KB。

B433，将所述终止时间段、信息数据区间值作为音频内容或视频内容的第一舆情信息的第一数据标识。

在得到终止时间段、信息数据区间值，本方案会利用终止时间段、信息数据区间值得到第一数据标识。

可以理解的是，如果不是相同的音频或者视频，其终止时间段和信息数据区间值是不同的，退一步讲，即使终止时间段相同，那么音频或者视频内容不同，所对应的信息数据区间值也是不同的。本方案利用终止时间段和信息数据区间值结合得到对应相同数据的唯一的第一数据标识。

需要说明的是，虽然利用终止时间段和信息数据区间值可能会造成少量数据误删，但是经过长期的数据运行发现，这种情况下的概率极小，可以忽略不计。

S44，统计所有的第一数据存储单元生成相对应的第一数据存储空间。

本方案会对有多个第一数据存储空间，每个第一数据存储空间对应多个第一数据存储单元。

S5，在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间。

本方案会实时抓取第二舆情信息，并对第二舆情信息进行解析，得到第二舆情信息的第二信息种类、第二信息内容，对第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间。

可以理解的是，本方案会实时抓取舆情数据，然后实时对树状图进行更新，并基于树状图实现对舆情数据的分类存储。

在一些实施例中，S5（所述在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间）包括S51- S54：

S51，若判断所述第二舆情信息为文字内容或图像内容，则提取所述第二舆情信息对应的字符串，对所述字符串进行哈希运算得到第二哈希值。

本方案为了判断接入的第二舆情信息是否与已经存储的舆情信息重复，会对文字内容或图像内容的第二舆情信息进行解析，得到第二舆情信息所对应的字符串，然后对字符串进行哈希运算得到第二哈希值。

S52，遍历文字内容或图像内容对应的第一数据存储单元内第一数据标识的第一哈希值，若判断所述第一哈希值与所述第二哈希值相同，则不对所述第二舆情信息进行存储。

可以理解的是，本方案在得到第二哈希值后，会将第二哈希值与第一哈希值进行比对，如果第一哈希值与第二哈希值相同，说明当前待存储的第二舆情信息与已经存储的舆情信息重复了，则本方案不对第二舆情信息进行存储。

S53，若判断所述第一哈希值与所述第二哈希值不同，则建立与第二舆情信息对应的第二孙节点、第二数据存储单元，将所述第二舆情信息存储至所述第二数据存储单元内。

可以理解的是，如果第一哈希值与第二哈希值不同，说明当前的存储空间内并没有与第二舆情信息重复的舆情信息，需要对第二舆情信息进行存储。本方案会建立与第二舆情信息对应的第二孙节点、第二数据存储单元，对树状图进行更新，之后将第二舆情信息存储至第二数据存储单元内。

S54，基于所述第二孙节点对所述第一树状图更新得到第二树状图，基于所述第二数据存储单元对第一数据存储空间更新得到第二数据存储空间。

可以理解的是，本方案会将第二孙节点添加到第一树状图中，将第一树状图更新为第二树状图；同时，会将第二数据存储单元添加到第一数据存储空间内，更新得到第二数据存储空间。

受控于工作人员的调取指令，对第二数据存储空间内的第二数据存储单元内的所有第二舆情信息进行调取显示。接收工作人员对第二数据存储单元内所有第二舆情信息输入的舆情重复数据，所述舆情重复数据包括重复出现的与第二舆情信息对应的舆情重复信息，以及每种舆情重复信息所重复出现的舆情重复数量。

获取每个舆情重复信息所对应的所有第二舆情信息的第二信息数据量值和第二终止时刻值。提取一个舆情重复信息下，多个第二舆情信息中最大的第二信息数据量值、最小的第二信息数据量值、最大的第二终止时刻值以及最小的第二终止时刻值。

若判断存在大于信息数据区间值的最大值的第二信息数据量值，则将所述最大的第二信息数据量值与信息数据区间值的最大值作差，得到增大变化幅度值；若判断存在小于信息数据区间值的最小值的第二信息数据量值，则将所述最小的第二信息数据量值与信息数据区间值的最小值作差，得到降低变化幅度值，将所述增大变化幅度值和降低变化幅度值相加得到每个舆情重复信息所对应的数据调整幅度区间值。

获取多个舆情重复信息中最大的数据调整幅度区间值作为目标数据调整幅度区间值，确定目标数据调整幅度区间值所对应的信息数据区间值，根据所述目标数据调整幅度区间值、信息数据区间值的占比确定数据调整比例系数，根据数据调整比例系数对所有音频内容或视频内容的第一数据标识中的信息数据区间值进行调整，通过以下公式计算数据调整比例系数、调整后的信息数据区间值，

其中，

为数据调整比例系数，

为最大的第二信息数据量值，

为信息数据区间值的最大值，

为最大的第二信息数据量值，

为信息数据区间值的最小值，

为数据调整比例系数，

为所有舆情重复信息中最大的数据调整比例系数，

为所有舆情重复信息中最大的数据调整比例系数对应的信息数据区间值，

为调整后的信息数据区间值的最大值，

为预设数据增大系数，

为调整后的信息数据区间值的最小值，

为预设数据减小系数。

通过以上的技术方案，使得本发明在出现存储相同的第二舆情信息后，本发明会根据相同的第二舆情信息的数据量值之间的差值关系进行计算，得到相应的数据调整比例系数，并根据相应的数据调整比例系数对不同的第一数据标识中的信息数据区间值进行同步的调整，使得本发明在相应树状图的舆情信息的比对过程中，能够扩大所比对的数据范围，使得本发明能够将相同的音频内容、视频内容进行有效的去除。

若判断存在大于终止时间段的最大值的第二终止时刻值，则将最大的第二终止时刻值与终止时间段的最大值作差，得到时间增大变化幅度值；若判断存在小于终止时间段的最小值的第二终止时刻值，则将最小的第二终止时刻值与终止时间段的最小值作差，得到降低变化幅度值。将所述增大变化幅度值和降低变化幅度值相加得到每个舆情重复信息所对应的时间调整幅度区间值。

获取多个舆情重复信息中最大的时间调整幅度区间值作为目标时间调整幅度区间值，确定目标时间调整幅度区间值所对应的终止时间段，根据所述目标时间调整幅度区间值、终止时间段的占比确定时间段调整比例系数，根据时间段调整比例系数对所有音频内容或视频内容的第一数据标识中的终止时间段进行调整，通过以下公式计算时间段调整比例系数、调整后的终止时间段，

其中，

为时间段调整比例系数，

为最大的第二终止时刻值，

为终止时间段的最大值，

为最小值的第二终止时刻值，

为终止时间段的最小值，

为时间段调整比例系数，

为所有舆情重复信息中最大的时间段调整比例系数，

为所有舆情重复信息中最大的时间段调整比例系数对应的终止时间段，

为调整后的终止时间段的最大值，

为预设时间增大系数，

为调整后的终止时间段的最小值，

为预设时间减小系数。

通过以上的技术方案，使得本发明在出现存储相同的第二舆情信息后，本发明会根据相同的第二舆情信息的时间之间的差值关系进行计算，得到相应的时间调整比例系数，并根据相应的时间调整比例系数对不同的第一数据标识中的终止时间段值进行同步的调整，使得本发明在相应树状图的舆情信息的比对过程中，能够扩大所比对的终止时间范围，使得本发明能够将相同的音频内容、视频内容进行有效的去除。进而实现根据用户的反馈结果，对第二舆论信息的筛选方式进行持续的训练，达到避免对相同的舆论信息进行重复存储的效果。

参见图3，是本发明实施例提供的一种舆情数据处理装置的结构示意图，该舆情数据处理装置包括：

图3所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

本发明还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在存储介质中。设备的至少一个处理器可以从存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元（英文：Central Processing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：Digital Signal Processor，简称：DSP）、专用集成电路（英文：Application SpecificIntegrated Circuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种舆情数据处理方法，其特征在于，包括：

在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间；

所述对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的关键词，包括：

将第一舆情信息中的第一关键词与舆情关键词组中的预设关键词比对，将与任意一个预设关键词对应的第一舆情信息归类至相对应的舆情信息集合内，得到多个第一信息集合，所述第一信息集合相对应的关键词即为预设关键词；

所述在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间，包括：

2.根据权利要求1所述的舆情数据处理方法，其特征在于，

所述根据所述关键词建立与其相对应的第一树状图，将所述第一关键词作为第一树状图的根节点，包括：

建立与所述第一信息集合对应的第一树状图；

3.根据权利要求2所述的舆情数据处理方法，其特征在于，

所述获取第一信息集合中第一舆情信息的所有第一信息种类，根据所述第一信息种类建立多个第一子节点，其中每个子节点对应一个第一信息种类，将所述第一子节点与所述根节点连接，包括：

4.根据权利要求2所述的舆情数据处理方法，其特征在于，

所述根据每个第一舆情信息的第一信息内容生成相对应的第一孙节点、第一数据存储单元，根据每个第一舆情信息的第一信息种类，将所述第一孙节点与相应的第一子节点连接，将所述第一舆情信息存储至相应的第一数据存储单元，根据所有的第一数据存储单元形成第一数据存储空间，包括：

5.根据权利要求4所述的舆情数据处理方法，其特征在于，

所述根据每个第一舆情信息的第一信息种类生成相对应的第一数据标识，将所述第一数据标识存储于相应的第一数据存储单元内，包括：

6.根据权利要求4所述的舆情数据处理方法，其特征在于，

7.根据权利要求6所述的舆情数据处理方法，其特征在于，

8.一种舆情数据处理装置，其特征在于，包括：

更新模块，用于在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间；

对多个目标位置处的舆情数据进行抓取，所述舆情数据至少包括一个第一舆情信息，根据第一舆情信息中的第一关键词对所有的第一舆情信息进行聚类，得到多个第一信息集合，每个第一信息集合具有相对应的关键词，包括：

在判断抓取到具有与树状图中关键词对应的第二舆情信息时，根据第二舆情信息的第二信息种类、第二信息内容对所述第一树状图、第一数据存储空间更新处理，得到第二树状图和第二数据存储空间，包括：