CN116737992B

CN116737992B - 舆情监测数据处理方法及处理***

Info

Publication number: CN116737992B
Application number: CN202311025431.9A
Authority: CN
Inventors: 赵龙
Original assignee: Mingmai Nanjing Technology Co ltd
Current assignee: Mingmai Nanjing Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-13
Anticipated expiration: 2043-08-15
Also published as: CN116737992A

Abstract

本发明提供一种舆情监测数据处理方法及处理***,基于推送舆***确定筛选帧集合，根据筛选策略对多个筛选帧集合进行筛选，得到比对帧集合，根据帧数区间策略、比对帧集合和推送舆***得到推送舆***中的多个选中帧集合；根据文字比对策略对比对帧集合中的多个比对帧与各选中帧集合的选中帧进行文字对比得到一类比对值，根据一类比对值和预设文字比对值得到推送舆***的文字比对结果；根据图像比对策略对比对帧集合中的多个比对帧与各选中帧集合中的选中帧进行图像对比得到二类比对值，根据二类比对值和预设图像比对值得到推送舆***的图像比对结果，基于文字比对结果和/或图像比对结果对推送舆***进行删除判断处理。

Description

舆情监测数据处理方法及处理***

技术领域

本发明涉及数据处理技术，尤其涉及一种舆情监测数据处理方法及处理***。

背景技术

随着信息化的不断发展，互联网已经成为了人们进行信息传递的重要渠道和载体，其中，视频作为一种便捷有效的信息传播方式，呈现出高速发展的状态。

目前，人们在浏览信息时，通常会浏览到大量的舆***数据，现有技术中在对舆***数据进行推送时，通常会结合用户的喜好和浏览习惯为其推送相关的舆***数据，这样很有可能会为用户推送到多个重复的舆***，由于舆***的数据量较大，如果用户重复浏览同一个舆***，可能会浪费掉用户大量的时间以及造成流量等数据的消耗。

因此，如何结合用户的浏览记录对推送的舆***进行去重筛选，并且减少舆***筛选时的数据处理量，提高筛选效率成了如今亟需解决的问题。

发明内容

本发明实施例提供一种舆情监测数据处理方法及处理***，可以结合用户的浏览记录对推送的舆***进行去重筛选，并且减少舆***筛选时的数据处理量，提高筛选效率。

本发明实施例的第一方面，提供一种舆情监测数据处理方法，包括：

获取第一用户端在历史时间段内浏览的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签，基于帧数筛选策略获取各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库，其中，所述去重帧集合包括首帧、尾帧和中间帧；

提取舆情数据库中与所述第一用户端对应的推送舆***，基于所述推送舆***的推送标签对所述第一用户端对应的去重数据库进行遍历，获取所述去重标签与所述推送标签一致的去重帧集合作为筛选帧集合；

根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合，根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合；

响应文字比对信息，根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比，得到一类比对值，根据所述一类比对值和预设文字比对值得到所述推送舆***的文字比对结果；

响应图像比对信息，根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比，得到二类比对值，根据所述二类比对值和预设图像比对值得到所述推送舆***的图像比对结果，基于所述文字比对结果和/或图像比对结果对所述推送舆***进行删除判断处理。

可选地，在第一方面的一种可能实现方式中，获取第一用户端在历史时间段内浏览的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签，基于帧数筛选策略获取各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库，包括：

统计用户在历史时间段内的舆情浏览信息，获取所述舆情浏览信息中的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签；

获取各所述历史舆***的历史视频时长，根据所述历史视频时长和预设视频时长的比值得到帧数调整系数，根据基准帧数和所述帧数调整系数的乘积的向上取整值得到单侧选取帧数；

基于所述历史视频时长获取相应历史舆***对应的视频中间时刻，以及所述视频中间时刻对应的第一中间帧，以所述第一中间帧为起点，向前和向后分别选取单侧选取帧数的视频帧作为第二中间帧；

选取各所述历史舆***对应的首帧、尾帧、第一中间帧和第二中间帧生成各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库。

可选地，在第一方面的一种可能实现方式中，根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合，包括：

根据所述推送舆***的推送视频时长和各所述筛选帧集合对应的历史舆***的历史视频时长，得到所述推送舆***和各所述筛选帧集合对应的视频时长差值；

获取所述视频时长差值在预设时长差值区间内的筛选帧集合作为比对帧集合。

可选地，在第一方面的一种可能实现方式中，根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合，包括：

获取所述比对帧集合对应的比对视频时长，根据所述比对视频时长和所述推送视频时长的差值的绝对值得到偏移视频时长，根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数；

获取所述推送舆***的开始时刻对应的开始帧，以所述开始帧为起点，向后依次获取选中首帧数的视频帧生成选中首帧集合，获取所述推送舆***的结束时刻对应的结束帧，以所述结束帧为起点，向前依次获取选中尾帧数的视频帧生成选中尾帧集合；

基于所述推送视频时长获取所述推送视频帧对应的推送中间时刻，获取所述推送中间时刻对应的推送中间帧，以所述推送中间帧为起点，向前和向后分别获取选中单侧帧数的视频帧生成选中中间帧集合。

可选地，在第一方面的一种可能实现方式中，根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数，包括：

若所述偏移视频时长等于0，则获取预设帧数作为选中首帧数和选中尾帧数，对预设帧数的二分之一和所述单侧选取帧数求和得到选中单侧帧数；

若所述偏移视频时长大于0，则根据单位时长帧数和所述偏移视频时长的乘积的向上取整值得到偏移帧数，将所述偏移帧数和预设帧数的和作为选中首帧数和选中尾帧数，根据所述偏移帧数的二分之一得到单侧偏移帧数，对所述单侧选取帧数、预设帧数的二分之一和所述单侧偏移帧数求和得到选中单侧帧数。

可选地，在第一方面的一种可能实现方式中，在响应文字比对信息之前，还包括：

分别获取比对首帧和选中首帧集合、比对中间帧和选中中间帧集合以及比对尾帧和选中尾帧集合作为三组比对组，提取各所述比对组中各比对帧中的第一提取文字，以及各所述选中帧集合中各所述选中帧中的第二提取文字；

调取非比对文字表，对存在于所述非比对文字表中的第一提取文字和第二提取文字进行剔除，得到各比对帧对应的第一比对文字和各选中帧集合中各选中帧对应的第二比对文字；

若所述第一比对文字的文字数量大于0、且选中帧集合中存在选中帧对应的第二比对文字的文字数量大于0，则生成文字比对信息；

若所述第一比对文字的文字数量等于0和/或选中帧集合中的选中帧对应的第二比对文字的文字数量均等于0，则生成图像比对信息。

可选地，在第一方面的一种可能实现方式中，响应文字比对信息，根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比，得到一类比对值，根据所述一类比对值和预设文字比对值得到所述推送舆***的文字比对结果，包括：

响应文字比对信息，获取进行文字比对的比对组中的比对帧作为第一比对帧，以及进行文字比对的比对组中的选中帧集合作为第一选中帧集合，按照时间顺序对各所述第一比对帧进行排列，得到第一比对帧序列；

依次获取所述第一比对帧序列中的第一比对帧作为第一目标帧，统计所述第一目标帧的第一比对文字数量，以及所述第一选中帧集合中各第一选中帧的第二比对文字数量；

获取第二比对文字数量和第一比对文字数量一致的第一选中帧作为第一筛选帧，对所述第一目标帧的第一比对文字进行分字处理得到第一比对文字序列，对所述第一筛选帧的第二比对文字进行分字处理得到第二比对文字序列；

依次对所述第一比对文字序列和所述第二比对文字序列中的文字进行一一比对，得到相同文字数量，根据所述相同文字数量和所述第一比对文字数量的比值，得到所述第一目标帧和各所述第一筛序帧的一类子比对值，获取最大的一类子比对值作为所述第一目标帧对应的一类比对值；

统计所有第一目标帧对应的一类比对值，当所有一类比对值均大于预设文字比对值时，将相应的比对组作为一类相似比对组。

可选地，在第一方面的一种可能实现方式中，响应图像比对信息，根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比，得到二类比对值，根据所述二类比对值和预设图像比对值得到所述推送舆***的图像比对结果，基于所述文字比对结果和/或图像比对结果对所述推送舆***进行删除判断处理，包括：

响应图像比对信息，获取进行图像比对的比对组中的比对帧作为第二比对帧，以及进行图像比对的比对组中的选中帧集合作为第二选中帧集合，按照时间顺序对各所述第二比对帧进行排列，得到第二比对帧序列；

依次获取所述第二比对帧序列中的第二比对帧作为第二目标帧，获取所述第二目标帧的第一亮度值，以及所述第二选中帧集合中各第二选中帧的第二亮度值，根据所述第一亮度值和所述第二亮度值的差值的绝对值得到亮度差值；

获取所述第二选中帧集合中亮度差值小于预设亮度差值的第二选中帧作为第二筛选帧，按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对，得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值；

统计所有第二目标帧对应的二类比对值，当所有二类比对值均大于预设图像比对值时，将相应的比对组作为二类相似比对组，当所述推送舆***中的所有比对组均为一类相似比对组和/或二类相似比对组时，将所述推送舆***进行删除。

可选地，在第一方面的一种可能实现方式中，按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对，得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值，包括：

按照第一方向对所述第二目标帧和各所述第二筛选帧进行一次区域划分，得到所述第二目标帧和各所述第二筛选帧对应的上部比对区域和下部比对区域；

统计所有第二筛选帧的筛选帧数量，根据所述筛选帧数量和预设筛选帧数量的比值得到数量调整系数，根据基准区域数量和所述数量调整系数的乘积的向上取整值得到比对区域数量；

基于所述比对区域数量按照所述第一方向对所述第二目标帧和各所述第二筛选帧的上部比对区域进行二次区域划分，得到所述第二目标帧和各所述第二筛选帧对应的子比对区域；

按照第一方向依次选取所述第二目标帧和各所述第二筛选帧对应的子比对区域进行像素值比对，得到所述第二目标帧和各所述第二筛选帧中相应的子比对区域的像素相似值；

若所述像素相似值小于预设像素相似值，则删除相应的第二筛选帧，重复上述删除步骤，直至所述子比对区域对比完毕，将剩余的所述第二筛选帧作为第三筛选帧；

若所述第三筛选帧数量为0，调取预设二类比对值作为所述二类比对值；

若所述第三筛选帧数量大于0，则统计各所述第三筛选帧中所有子比对区域对应的像素相似值得到总像素相似值，根据所述总像素相似值的平均值得到所述第三筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值。

本发明实施例的第二方面，提供一种舆情监测数据处理***，包括：

数据库模块，用于获取第一用户端在历史时间段内浏览的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签，基于帧数筛选策略获取各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库，其中，所述去重帧集合包括首帧、尾帧和中间帧；

集合模块，用于提取舆情数据库中与所述第一用户端对应的推送舆***，基于所述推送舆***的推送标签对所述第一用户端对应的去重数据库进行遍历，获取所述去重标签与所述推送标签一致的去重帧集合作为筛选帧集合；

比对模块，用于根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合，根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合；

文字模块，用于响应文字比对信息，根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比，得到一类比对值，根据所述一类比对值和预设文字比对值得到所述推送舆***的文字比对结果；

图像模块，用于响应图像比对信息，根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比，得到二类比对值，根据所述二类比对值和预设图像比对值得到所述推送舆***的图像比对结果，基于所述文字比对结果和/或图像比对结果对所述推送舆***进行删除判断处理。

本发明的有益效果如下：

1、本发明可以结合用户的浏览记录对推送的舆***进行去重筛选，并且减少舆***筛选时的数据处理量，提高筛选效率。本发明首先会依据用户的浏览记录生成去重数据库，然后再通过推送舆***的推送标签对去重数据库中的多个去重标签进行遍历，找到去重标签与推送标签一样的去重帧集合作为筛选帧集合进行后续的筛选，在存储时，本发明储存的是由历史舆***中的首帧、尾帧和中间帧组成的去重帧集合，而不是整个视频，这样可以节省储存时的储存空间。在对比前，本发明会首先依据时长对多个筛选帧集合进行初步筛选，筛除掉时长不满足条件的筛选帧集合得到比对帧集合，从而可以减少后续比对时的数据处理量，提高比对效率，然后再获取到推送舆***中的选中首帧集合、选中尾帧集合和选中中间帧集合分别与比对帧集合中的首帧、尾帧和中间帧进行比对，可以提高比对时的准确性。在比对时，本发明会首先判断比对组能否通过文字比对策略进行比对，如果不能则按照图像比对策略对相应的比对组进行比对，由于图像的处理量一般会大于文字的处理量，通过这种方式，可以在确保比对准确性的同时提高比对效率，并且在推送舆***中的所有比对组均为文字内容相似的比对组和/或图像内容相似的比对组时，本发明才会将相应的推送舆***进行删除，从而可以减少重复视频的推送。

2、本发明在通过文字比对策略对相应的比对组进行比对时，会首先将与第一目标帧文字数量不一致的第一选中帧进行筛除，通过剩下的第一筛选帧继续进行下一步的筛选，这样可以通过文字数量率先筛除掉一部分第一筛选帧，减少文字比对时的筛选帧数量，从而可以减少文字比对时的数据处理量，提高文字比对时的效率。然后再通过将第一目标帧中的第一比对文字序列和第一筛选帧中的第二比对文字序列中的文字进行一一比对，得到第一目标帧对应的一类比对值，并且当所有一类比对值均大于预设文字比对值时，将相应的比对组作为一类相似比对组，即文字内容相似的比对组，这样可以通过文字比对的方式判断相应比对组中的视频帧是否是一致的，并且还可以减少比对时的数据处理量。

2、本发明在通过图像比对策略对相应的比对组进行比对时，会首先将与第二目标帧亮度值不一致的第二选中帧进行筛除，通过剩下的第二筛选帧继续进行下一步的筛选，这样可以通过亮度值率先筛除掉一部分第二筛选帧，减少图像比对时的筛选帧数量，从而可以减少图像比对时的数据处理量，提高图像比对时的效率。接着本发明会将第二目标帧和第二筛选帧划分为上部比对区域和下部比对区域，通过对上部比对区域进行图像比对来得到第二目标帧对应的二类比对值，并将所有二类比对值均大于预设图像比对值的比对组作为二类相似比对组，即图像内容相似的比对组，这样可以减少图像比对时下部比对区域中的字幕所带来的干扰，提高图像比对时的准确性，并且在对第二目标帧和第二筛选帧的上部比对区域进行比对时，本发明还会将第二目标帧和第二筛选帧的上部比对区域再细化为多个子区域进行依次比对，并且在每次比对时会筛除掉不满足相似值条件的第二筛选帧，通过剩下的第二筛选帧继续下一次的子区域比对，这样可以减少比对时的数据处理量，提高比对时的效率。

附图说明

图1为本发明实施例提供的一种舆情监测数据处理方法的流程示意图；

图2为本发明实施例提供的一种舆情监测数据处理***的结构示意图；

图3为本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例提供的一种舆情监测数据处理方法的流程示意图，图1所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个：用户设备、网络设备等。其中，用户设备可以包括但不限于计算机、智能手机、个人数字助理（Personal Digital Assistant，简称：PDA）及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。包括步骤S1至步骤S5，具体如下：

S1，获取第一用户端在历史时间段内浏览的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签，基于帧数筛选策略获取各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库，其中，所述去重帧集合包括首帧、尾帧和中间帧。

在实际应用中，用户在浏览信息时可能会包含大量的视频数据，为了下一次对用户进行视频推送时可以减少重复视频的推送，本方案会首先依据用户在历史时间段内浏览的历史舆***生成相应的去重数据库，然后再在后续通过该去重数据库对推送舆***进行去重筛选。

具体的，本方案会首先得到每个历史舆***对应的去重标签，然后将去重标签一样的历史舆***对应的去重帧集合储存在一起，从而生成去重数据库。

值得一提的是，在对每个历史舆***对应的去重帧集合进行存储时，本方案也会将每个历史舆***对应的历史视频时长进行存储，并将相应的历史舆***和历史视频时长进行绑定。

在上述实施例的基础上步骤S1的具体实现方式可以是：

S11，统计用户在历史时间段内的舆情浏览信息，获取所述舆情浏览信息中的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签。

值得一提的是，本方案中的服务器会为每个历史舆***匹配一个视频标签。

S12，获取各所述历史舆***的历史视频时长，根据所述历史视频时长和预设视频时长的比值得到帧数调整系数，根据基准帧数和所述帧数调整系数的乘积的向上取整值得到单侧选取帧数。

可以理解的是，由于一个视频通常会包含很多帧视频帧，若在去重比对时对视频中的每一帧视频帧都进行比对可能会增加去重筛选时的数据处理量，因此为了减少去重筛选时的数据处理量，本方案会分别选取首帧、尾帧和中间帧生成去重帧集合，后续通过该去重帧集合对推送舆***进行去重筛选。

为了使筛选时的数据可以更加准确，本方案会依据历史舆***的历史视频时长得到中间帧的单侧选取帧数，该单侧选取帧数是指以中间时刻对应的视频帧为基准，单侧选取的视频帧数量。

可以理解的是，历史舆***的历史视频时长越长，说明该历史舆***对应的视频帧数量也会越多，因此在选取中间帧时可以将其数量也设置的越多，从而可以使比对时的数据更加详细，提高去重筛选时的准确性。

S13，基于所述历史视频时长获取相应历史舆***对应的视频中间时刻，以及所述视频中间时刻对应的第一中间帧，以所述第一中间帧为起点，向前和向后分别选取单侧选取帧数的视频帧作为第二中间帧。

例如，若单侧选取帧数为3，则可以将视频中间时刻对应的视频帧作为第一视频帧，然后将第一视频帧前面3帧和后面3帧视频帧作为第二视频帧。其中，历史舆***对应的多个视频帧之间是按照时间顺序进行排列的。

S14，选取各所述历史舆***对应的首帧、尾帧、第一中间帧和第二中间帧生成各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库。

通过上述方式得到的去重数据库，相对于整个视频的存储而言，可以减少数据存储量，节省存储空间。

S2，提取舆情数据库中与所述第一用户端对应的推送舆***，基于所述推送舆***的推送标签对所述第一用户端对应的去重数据库进行遍历，获取所述去重标签与所述推送标签一致的去重帧集合作为筛选帧集合。

可以理解的是，若推送舆***的推送标签和去重数据库中的去重标签一致，说明推送舆***很有可能会与去重数据库中的去重帧集合对应的历史舆***重复，因此可以将相应的去重帧集合作为筛选帧集合，通过该筛选帧集合在后续对推送舆***进行相应的筛选。

值得一提的是，若去重数据库中没有与推送标签一致的去重标签，则可以将相应的推送标签添加至去重数据库中，并通过与S1中生成去重帧集合一样的方式生成推送舆***对应的去重帧集合存储至去重数据库中。

S3，根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合，根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合。

可以理解的是，若历史舆***的历史视频时长和推送舆***对应的推送视频时长相差太大，则说明两个视频有很大可能不是完全一样的，因此在这种情况下，可以先通过历史视频时长和推送视频时长对多个筛选帧集合进行筛选，筛选出时长与推送舆***相差不大的比对帧集合，再通过该比对帧集合中的视频帧与推送舆***中的视频帧进行比对，判断其是否是重复的。

由于比对帧集合包含首帧、尾帧和中间帧，因此在将推送舆***与比对帧集合进行比对时，本方案也会先得到推送舆***对应的多个选中帧集合，然后再在后续将选中首帧集合与比对帧集合中的首帧进行比对、将选中尾帧集合和比对帧集合中的尾帧进行比对，将选中中间帧集合与比对帧集合中的中间帧进行比对，通过比对的结果来对推送舆***进行去重筛选。

在上述实施例的基础上步骤S3中的“根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合”的具体实现方式可以是：

S31，根据所述推送舆***的推送视频时长和各所述筛选帧集合对应的历史舆***的历史视频时长，得到所述推送舆***和各所述筛选帧集合对应的视频时长差值。

S32，获取所述视频时长差值在预设时长差值区间内的筛选帧集合作为比对帧集合。

在实际应用中，上述预设时长差值区间可以由工作人员事先进行设置，可以理解的是，若视频时长差值在预设时长差值区间内，说明相应的筛选帧集合对应的历史舆***和推送舆***所对应的时长是差不多的，两者有可能是重复的，因此可以将相应的筛选帧集合作为比对帧集合继续进行后续的去重筛选。

通过上述方式，可以筛除掉一部分时长不满足条件的筛选帧集合，减少后续处理时的数据处理量，提高处理效率。

在上述实施例的基础上步骤S3中的“根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合”的具体实现方式可以是：

S33，获取所述比对帧集合对应的比对视频时长，根据所述比对视频时长和所述推送视频时长的差值的绝对值得到偏移视频时长，根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数。

可以理解的是，为了提高对整段视频比对时的准确性，可以将推送舆***中位于开头位置、中间位置和结尾位置的多帧视频帧与比对帧集合中的首帧、中间帧和尾帧分别进行比对，由于推送舆***和选中的历史舆***之间可能会存在偏移视频时长，因此可以依据该偏移视频时长来得到选中首帧数、选中尾帧数和选中单侧帧数，然后再通过得到的帧数分别获取推送舆***中位于开头位置、中间位置和结尾位置的多帧视频帧进行后续的比对。

在一些实施例中，可以通过以下步骤得到上述选中首帧数、选中尾帧数和选中单侧帧数：

S331，若所述偏移视频时长等于0，则获取预设帧数作为选中首帧数和选中尾帧数，对预设帧数的二分之一和所述单侧选取帧数求和得到选中单侧帧数。

可以理解的是，如果偏移视频时长等于0，说明推送舆***和选中的历史舆***之间的视频时长是一样的，在这种情况下，可以直接将预设帧数作为选中首帧数和选中尾帧数，并且由于单侧选取帧数为一侧的中间帧选取帧数，因此选中单侧帧数时可以由预设帧数的二分之一和单侧选取帧数求和来得到。

值得一提的是，如果预设帧数的二分之一不为整数，则取其向上取整数与单侧选取帧数进行求和。

S332，若所述偏移视频时长大于0，则根据单位时长帧数和所述偏移视频时长的乘积的向上取整值得到偏移帧数，将所述偏移帧数和预设帧数的和作为选中首帧数和选中尾帧数，根据所述偏移帧数的二分之一得到单侧偏移帧数，对所述单侧选取帧数、预设帧数的二分之一和所述单侧偏移帧数求和得到选中单侧帧数。

可以理解的是，如果偏移视频时长大于0，说明推送舆***和选中的历史舆***之间的视频时长是存在偏差的，在这种情况下，为了减少比对时的误差，可以先依据单位时长帧数和偏移视频时长得到偏移帧数，再将偏移帧数和预设帧数的和作为选中首帧数和选中尾帧数，同样的，在计算选中单侧帧数时也需要对偏移帧数进行对半处理后再对其进行相加。

S34，获取所述推送舆***的开始时刻对应的开始帧，以所述开始帧为起点，向后依次获取选中首帧数的视频帧生成选中首帧集合，获取所述推送舆***的结束时刻对应的结束帧，以所述结束帧为起点，向前依次获取选中尾帧数的视频帧生成选中尾帧集合。

在实际应用中，推送舆***对应的多个视频帧需要按照时间顺序对其进行排列，在获取选中首帧集合时，可以从开头位置的第一张视频帧开始向后选取选中首帧数的视频帧生成选中首帧集合。

在选取选中尾帧集合时，可以从结尾位置的最后一张视频帧开始向前选取选中尾帧数的视频帧生成选中尾帧集合。

S35，基于所述推送视频时长获取所述推送视频帧对应的推送中间时刻，获取所述推送中间时刻对应的推送中间帧，以所述推送中间帧为起点，向前和向后分别获取选中单侧帧数的视频帧生成选中中间帧集合。

在选取选中中间帧集合时，可以先得到推送中间时刻对应的推送中间帧，然后以推送中间帧为起点，分别向前和向后选取选中单侧帧数的视频帧生成选中中间帧集合。

通过上述方式，可以结合偏移视频时长得到推送舆***中进行比对的多个选中帧集合，提高后续筛选比对时的准确性。

S4，响应文字比对信息，根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比，得到一类比对值，根据所述一类比对值和预设文字比对值得到所述推送舆***的文字比对结果。

在S4中的响应文字比对信息之前，本方案还包括以下步骤：

A1，分别获取比对首帧和选中首帧集合、比对中间帧和选中中间帧集合以及比对尾帧和选中尾帧集合作为三组比对组，提取各所述比对组中各比对帧中的第一提取文字，以及各所述选中帧集合中各所述选中帧中的第二提取文字。

在进行筛选比对时，本方案会分别对比对首帧和选中首帧集合、比对中间帧和选中中间帧集合以及比对尾帧和选中尾帧集合作为三组比对组进行比对，可以理解的是，由于文字的处理量相较于图像的处理量一般较少一些，因此在比对时，本方案会首先提取比对组中各视频帧中的文字进行初步比对筛选，从而减少比对时的处理量。

在实际应用中，在提取比对组中各视频帧中的文字时，可以采取现有技术中的文字提取技术对其进行提取，例如可以通过OCR技术进行文字提取，此处为现有技术，本方案在此不做赘述。

A2，调取非比对文字表，对存在于所述非比对文字表中的第一提取文字和第二提取文字进行剔除，得到各比对帧对应的第一比对文字和各选中帧集合中各选中帧对应的第二比对文字。

可以理解的是，在进行文字对比时，可能会出现一些干扰的文字，例如“哈哈”等之类重复性较高、没有比对意义的干扰文字，因此在进行文字比对前，可以先通过非比对文字表对第一提取文字和第二提取文字中的干扰文字进行剔除，通过干扰剔除后的第一比对文字和第二比对文字来进行后续的比对。其中，非比对文字表可以由工作人员事先进行设置。

A3，若所述第一比对文字的文字数量大于0、且选中帧集合中存在选中帧对应的第二比对文字的文字数量大于0，则生成文字比对信息。

可以理解的是，如果第一比对文字的文字数量大于0、且选中帧集合中存在选中帧对应的第二比对文字的文字数量大于0，说明比对帧和选中帧集合中的选中帧都是存在可以进行比对的文字的，因此可以生成文字比对信息，通过文字比对策略对其进行比对。

A4，若所述第一比对文字的文字数量等于0和/或选中帧集合中的选中帧对应的第二比对文字的文字数量均等于0，则生成图像比对信息。

可以理解的是，如果第一比对文字的文字数量等于0和/或选中帧集合中的选中帧对应的第二比对文字的文字数量均等于0，说明比对帧和选中帧集合中的选中帧不是都存在可以进行比对的文字的，因此可以生成图像比对信息，通过图像比对策略对其进行比对。

通过上述方式，可以得到各个比对组的比对方式，并且在可以进行文字比对时优先选取文字对比的方式对相应的比对组进行比对，从而可以减少比对时的数据处理量。

在一些实施例中，在上述实施例的基础上步骤S4的具体实现方式可以是：

S41，响应文字比对信息，获取进行文字比对的比对组中的比对帧作为第一比对帧，以及进行文字比对的比对组中的选中帧集合作为第一选中帧集合，按照时间顺序对各所述第一比对帧进行排列，得到第一比对帧序列。

可以理解的是，第一比对帧可能会有多个，例如当第一比对帧为中间帧时，其可能会有多个，因此为了逐个对第一比对帧进行比对，可以按照时间顺序对第一比对帧进行排列，得到第一比对帧序列，后续再通过该第一比对帧序列对各个第一比对帧和第一选中帧集合中的选中帧进行比对。

S42，依次获取所述第一比对帧序列中的第一比对帧作为第一目标帧，统计所述第一目标帧的第一比对文字数量，以及所述第一选中帧集合中各第一选中帧的第二比对文字数量。

上述第一比对文字数量是指第一目标帧中的第一比对文字的总数量，第二比对文字数量是指第一选中帧中的第二比对文字的总数量。

S43，获取第二比对文字数量和第一比对文字数量一致的第一选中帧作为第一筛选帧，对所述第一目标帧的第一比对文字进行分字处理得到第一比对文字序列，对所述第一筛选帧的第二比对文字进行分字处理得到第二比对文字序列。

可以理解的是，当第二比对文字数量和第一比对文字数量一样时，第一选中帧和第一目标帧对应的文字很有可能是一样的，因此可以将相应的第一选中帧作为第一筛选帧与第一目标帧进行进一步的相似比对。

在进行比对时，为了对第一筛选帧和第一目标帧中的多个文字进行一一比对，本方案会对第一比对文字和第二比对文字进行分字处理得到第一比对文字序列和第二比对文字序列。

其中，第一比对文字序列和第二比对文字序列中相同位置的文字之间是相互对应的，以进行一一比对。

S44，依次对所述第一比对文字序列和所述第二比对文字序列中的文字进行一一比对，得到相同文字数量，根据所述相同文字数量和所述第一比对文字数量的比值，得到所述第一目标帧和各所述第一筛序帧的一类子比对值，获取最大的一类子比对值作为所述第一目标帧对应的一类比对值。

可以理解的是，相同文字数量越多，说明第一目标帧和第一筛序帧中相同的文字也就越多，第一目标帧和第一筛选帧中文字内容是一样的可能性也会越大，因此可以通过相同文字数量和第一比对文字数量的比值，得到第一目标帧和各个第一筛序帧的一类子比对值。其中，第一比对文字数量由于和第二比对文字数量是一样的，因此也可以由相同文字数量和第二比对文字数量的比值，得到第一目标帧和各个第一筛序帧的一类子比对值。

由于第一筛选帧可能会存在多个，因此可以将最大的一类子比对值作为第一目标帧对应的一类比对值。

S45，统计所有第一目标帧对应的一类比对值，当所有一类比对值均大于预设文字比对值时，将相应的比对组作为一类相似比对组。

可以理解的是，如果所有第一目标帧对应的一类比对值均大于预设文字比对值，说明所有的第一目标帧和对应的第一筛选帧中的文字内容都有可能是一样的，因此可以将相应的比对组作为一类相似比对组，即文字内容相似的比对组。

通过上述方式，可以对比对组中的多个视频帧进行文字比对，能够减少比对时的数据处理量，提高比对效率。

S5，响应图像比对信息，根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比，得到二类比对值，根据所述二类比对值和预设图像比对值得到所述推送舆***的图像比对结果，基于所述文字比对结果和/或图像比对结果对所述推送舆***进行删除判断处理。

具体的，在上述实施例的基础上步骤S5的具体实现方式可以是：

S51，响应图像比对信息，获取进行图像比对的比对组中的比对帧作为第二比对帧，以及进行图像比对的比对组中的选中帧集合作为第二选中帧集合，按照时间顺序对各所述第二比对帧进行排列，得到第二比对帧序列。

可以理解的是，第二比对帧也可能会有多个，因此在对第二比对帧进行比对时，也可以按照时间顺序对其进行排序，得到第二比对帧序列，后续再通过该第二比对帧序列对各个第二比对帧和第二选中集合中的选中帧进行比对。

S52，依次获取所述第二比对帧序列中的第二比对帧作为第二目标帧，获取所述第二目标帧的第一亮度值，以及所述第二选中帧集合中各第二选中帧的第二亮度值，根据所述第一亮度值和所述第二亮度值的差值的绝对值得到亮度差值。

可以理解的是，第二选中帧的数量可能会很多，因此为了减少后续进行图像比对时的数据处理量，可以先通过亮度值对第二选中帧进行初步筛选，筛掉一部分亮度值不符合要求的第二选中帧，再将剩下的第二选中帧和第二目标帧进行比对。

还可以理解的是，如果第二目标帧和第二选中帧的亮度值不一样，则它们很有可能不是一样的，因此可以通过亮度值对第二选中帧先进行一次筛选。

S53，获取所述第二选中帧集合中亮度差值小于预设亮度差值的第二选中帧作为第二筛选帧，按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对，得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值。

可以理解的是，如果第二选中帧对应的亮度差值小于预设亮度差值，则该第二选中帧可能和第二目标帧是一样的，因此可以将相应的第二选中帧作为第二筛选帧继续进行进一步的比对。

在进一步对第二筛选帧和第二目标帧进行比对时，本方案会将第二筛选帧和第二目标帧划分为多个区域进行比对，具体的，在一些实施例中，可以通过以下步骤按照区域比对策略对第二目标帧和各第二筛选帧进行区域比对，得到第二目标帧和各第二筛选帧对应的二类子比对值：

S531，按照第一方向对所述第二目标帧和各所述第二筛选帧进行一次区域划分，得到所述第二目标帧和各所述第二筛选帧对应的上部比对区域和下部比对区域。

上述第一方向可以是从上至下的方向，在对第二目标帧和各个第二筛选帧进行一次区域划分时，可以从上至下对第二目标帧和各个第二筛选帧进行均等划分，得到第二目标帧和各个第二筛选帧对应的上部比对区域和下部比对区域。

可以理解的是，之所以将第二目标帧和各个第二筛选帧划分为上部比对区域和下部比对区域，是因为在比对时第二目标帧或者第二筛选帧中可能会存在字幕，从而会对比对结果造成影响，而字幕通常会添加在图像的下半部分，因此为了提高比对时的准确性，本方案后续会依据第二目标帧和各个第二筛选帧中的上部比对区域进行比对。

S532，统计所有第二筛选帧的筛选帧数量，根据所述筛选帧数量和预设筛选帧数量的比值得到数量调整系数，根据基准区域数量和所述数量调整系数的乘积的向上取整值得到比对区域数量。

可以理解是，由于第二筛选帧可能会有多个，因此在进行区域比对时，本方案会依据筛选帧数量得到比对区域数量，从而可以在后续依据该比对区域数量对第二目标帧和各个第二筛选帧中的上部比对区域继续进行区域划分，再对划分后的区域逐个进行比对，将不符合相似度条件的第二筛选帧在逐次比对中依次进行筛除，从而可以减少筛选比对时的数据处理量。

S533，基于所述比对区域数量按照所述第一方向对所述第二目标帧和各所述第二筛选帧的上部比对区域进行二次区域划分，得到所述第二目标帧和各所述第二筛选帧对应的子比对区域。

可以理解的是，筛选帧数量越多，比对区域数量也会越多，相应的第二目标帧和各个第二筛选帧对应的子比对区域也会越多，每个子对比区域的区域面积也会越小，这样在后续每次进行筛选比对时的数据处理量也会相应越小。

S534，按照第一方向依次选取所述第二目标帧和各所述第二筛选帧对应的子比对区域进行像素值比对，得到所述第二目标帧和各所述第二筛选帧中相应的子比对区域的像素相似值。

在实际应用中，在得到第二目标帧和各第二筛选帧中相应的子比对区域的像素相似值时，可以先对第二目标帧和各个第二筛选帧进行坐标化处理，其中，第二目标帧和各个第二筛选帧的坐标原点是一致的，然后再判断坐标一样的像素点的像素值是否是一样的，若坐标相同的像素点的像素值是一样的，则可以将其作为相同像素点，然后再统计各个子比对区域内的相同像素点数量和像素点总数量，通过相同像素点数量和像素点总数量的比值得到第二目标帧和各第二筛选帧中相应的子比对区域的像素相似值。

S535，若所述像素相似值小于预设像素相似值，则删除相应的第二筛选帧，重复上述删除步骤，直至所述子比对区域对比完毕，将剩余的所述第二筛选帧作为第三筛选帧。

可以理解的是，如果像素相似值小于预设像素相似值，说明第二筛选帧和第二目标帧中相应的子区域相似度是小于预设相似度的，两者之间很有可能不是一样的，因此可以将相应的第二筛选帧进行筛除，通过剩余的第二筛选帧继续进行下一个子区域的比对。

S536，若所述第三筛选帧数量为0，调取预设二类比对值作为所述二类比对值。

如果第三筛选帧数量为0，说明不存在所有子区域的相似度都是大于等于预设相似度的第二筛选帧，则可以调取预设二类比对值作为所述二类比对值，在实际应用中，该预设二类比对值可以是工作人员预先设置的相似度不满足相似条件时的比对值。

S537，若所述第三筛选帧数量大于0，则统计各所述第三筛选帧中所有子比对区域对应的像素相似值得到总像素相似值，根据所述总像素相似值的平均值得到所述第三筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值。

如果第三筛选帧数量大于0，说明存在所有子区域的相似度都是大于等于预设相似度的第二筛选帧，在这种情况下，可以计算出每个第三筛选帧对应的平均像素相似值作为二类子比对值，然后再将最大的二类子比对值作为第二目标帧对应的二类比对值。

S54，统计所有第二目标帧对应的二类比对值，当所有二类比对值均大于预设图像比对值时，将相应的比对组作为二类相似比对组，当所述推送舆***中的所有比对组均为一类相似比对组和/或二类相似比对组时，将所述推送舆***进行删除。

可以理解的是，如果所有第二目标帧对应的二类比对值均大于预设图像比对值，说明所有的第二目标帧和对应的第二筛选帧的图像内容都有可能是一样的，因此可以将相应的比对组作为二类相似比对组，即图像内容相似的比对组。

还可以理解的是，如果推送舆***中的所有比对组均为一类相似比对组和/或二类相似比对组，说明推送舆***与相应的比对帧集合对应的历史舆***很有可能是重复的，因此可以将推送舆***进行删除。

通过上述方式，可以减少图像比对时的数据处理量，提高筛选时的效率，并且可以对与历史舆***重复的推送舆***进行删除，减少重复视频的推送。

参见图2，是本发明实施例提供的一种舆情监测数据处理***的结构示意图，该舆情监测数据处理***包括：

图2所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

参见图3，是本发明实施例提供的一种电子设备的硬件结构示意图，该电子设备30包括：处理器31、存储器32和计算机程序；其中

存储器32，用于存储所述计算机程序，该存储器还可以是闪存（flash）。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器31，用于执行所述存储器存储的计算机程序，以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器32既可以是独立的，也可以跟处理器31集成在一起。

当所述存储器32是独立于处理器31之外的器件时，所述设备还可以包括：

总线33，用于连接所述存储器32和处理器31。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元（英文：CentralProcessing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：DigitalSignal Processor，简称：DSP）、专用集成电路（英文：Application Specific IntegratedCircuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种舆情监测数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

获取第一用户端在历史时间段内浏览的多个历史舆***，按照各所述历史舆***的视频标签得到多个去重标签，基于帧数筛选策略获取各所述历史舆***对应的去重帧集合，并将去重标签一致的去重帧集合归类至同一个去重标签之下，得到去重数据库，包括：

3.根据权利要求2所述的方法，其特征在于，

根据各所述筛选帧集合对应的历史舆***的历史视频时长，以及所述推送舆***的推送视频时长对多个筛选帧集合进行筛选，得到比对帧集合，包括：

4.根据权利要求3所述的方法，其特征在于，

根据帧数区间策略、所述比对帧集合和所述推送舆***得到所述推送舆***中的多个选中帧集合，所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合，包括：

5.根据权利要求4所述的方法，其特征在于，

根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数，包括：

6.根据权利要求5所述的方法，其特征在于，在响应文字比对信息之前，还包括：

7.根据权利要求5所述的方法，其特征在于，

响应文字比对信息，根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比，得到一类比对值，根据所述一类比对值和预设文字比对值得到所述推送舆***的文字比对结果，包括：

依次对所述第一比对文字序列和所述第二比对文字序列中的文字进行一一比对，得到相同文字数量，根据所述相同文字数量和所述第一比对文字数量的比值，得到所述第一目标帧和各所述第一筛选帧的一类子比对值，获取最大的一类子比对值作为所述第一目标帧对应的一类比对值；

8.根据权利要求7所述的方法，其特征在于，

响应图像比对信息，根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比，得到二类比对值，根据所述二类比对值和预设图像比对值得到所述推送舆***的图像比对结果，基于所述文字比对结果和/或图像比对结果对所述推送舆***进行删除判断处理，包括：

9.根据权利要求8所述的方法，其特征在于，

按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对，得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值，获取最大的二类子比对值作为第二目标帧对应的二类比对值，包括：

10.一种舆情监测数据处理***，其特征在于，包括：