CN117150106B

CN117150106B - 数据处理的方法、***及电子设备

Info

Publication number: CN117150106B
Application number: CN202311427537.1A
Authority: CN
Inventors: 胡波; 王继民; 张乃帅; 王一博; 罗鹏程; 季佳雯; 王世奇; 李虎
Original assignee: Chongqing Big Data Research Institute Of Peking University; Peking University
Current assignee: Chongqing Big Data Research Institute Of Peking University; Peking University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-13
Anticipated expiration: 2043-10-31
Also published as: CN117150106A

Abstract

本申请公开了一种数据处理的方法、***及电子设备。其中，该方法包括：获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

Description

数据处理的方法、***及电子设备

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据处理的方法、***及电子设备。

背景技术

当前Web数据的采集方法包括网络爬虫、商业网络爬取工具、专业数据平台购买等，相关技术中的数据采集对不同类型的数据可能会存在不支持的问题，例如对外文新闻支持度低等缺点。另外，相关技术中的数据采集还存在不同来源数据质量参差不齐，时效性差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理的方法、***及电子设备，以至少解决相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

根据本申请实施例的一个方面，提供了一种数据处理的方法，包括：获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据。

可选地，获取数据采集请求之后，方法还包括：检测数据采集请求中的数据采集信息；在数据采集信息中存在异常信息的情况下，显示异常信息，并跳转至第一页面重新确定数据采集信息，其中，第一页面为发送数据采集请求的页面，异常信息至少包括：数据采集信息中所要访问的网页内容无法访问或数据采集信息中所要访问的网页未被搜索引擎索引；在数据采集信息中不存在异常信息的情况下，跳转至执行数据采集请求对应的第二页面。

可选地，确定与数据源对应的数据采集类型，包括：确定数据采集信息中的采集网站，其中，同一类型的采集网站对应一种数据源；在采集网站的类型为第一类型的情况下，确定数据采集类型为第一类数据，其中，第一类数据为国内新闻网站中的新闻类数据；在采集网站的类型为第二类型的情况下，确定数据采集类型为第二类数据，其中，第二类数据为国内社交媒体网站中的社交媒体类数据，第一类型和第二类型同属于国内网站；在采集网站的类型为第三类型的情况下，确定数据采集类型为第三类数据，其中，第三类数据为国外新闻网站中的新闻类数据。

可选地，方法还包括：确定与数据采集类型对应的目标采集模块，其中，第一类数据通过第一采集模块进行采集，第二类数据通过第二采集模块进行采集，第三类数据通过第三采集模块进行采集，第一采集模块、第二采集模块和第三采集模块的采集规则均不相同，目标采集模块为第一采集模块、第二采集模块和第三采集模块中的任意一个。

可选地，确定与数据源对应的数据采集类型之后，方法还包括：调用与目标采集模块连接的搜索引擎接口；控制搜索引擎接口在确定数据检索数量时生成多个检索任务；并发执行多个检索任务，将多个检索任务执行完成后得到的数据量的和确定为数据检索数量，其中，多个检索任务在执行过程中检索到的数据信息存储在数据库中。

可选地，确定与数据采集类型对应的数据集合，包括：从数据库中获取多个检索任务在执行过程中检索到的数据信息，其中，数据信息至少包括网页信息；确定第一次从网页信息中获取到的数据为原始数据，并确定从第二次及第二次之后从网页信息中获取到的数据为增量数据；合并原始数据和增量数据，得到数据集合。

可选地，确定从第二次及第二次之后从网页信息中获取到的数据为增量数据，包括：获取当前次数的上一次从网页信息中获取数据的结束时间，得到本次从网页信息中获取数据的起始时间；确定从起始时间到当前时间之间的数据为当前次数对应的增量数据。

可选地，确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，包括：删除多条数据中的噪声数据，得到第一数据集合；确定第一数据集合中属于相同类型的数据之间的文本相似度；合并文本相似度大于预设阈值的数据，得到第二数据集合。

可选地，展示经过组合处理后的数据，包括：确定第二数据集合中每个词汇出现的频率，并将频率大于频率阈值的词汇添加至高频词汇列表中；确定高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到高频词汇之间的关联网络，其中，关联网络以高频词汇为节点，以次数作为连接节点的边构成；将关联网络中的高频词汇按照时间戳排序，将高频词汇对应的事件添加至时间戳中，得到事件趋势图；展示事件趋势图，其中，在高频词汇列表中的高频词汇发生变化的情况下，事件趋势图中包含的事件也相应变化。

根据本申请实施例的另一方面，还提供了一种数据处理的***，包括：获取模块，用于获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；第一确定模块，用于依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；第二确定模块，用于响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；处理模块，用于确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示模块，用于展示经过组合处理后的数据。

根据本申请实施例的又一方面，还提供了一种电子设备，包括：存储器，用于存储程序指令；处理器，与存储器连接，用于执行实现以下功能的程序指令：获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据。

在本申请实施例中，通过获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据，达到了支持对不同类型的数据的采集的目的，从而实现了提高数据采集支持度的技术效果，进而解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现数据处理的方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种数据处理的方法的流程图；

图3是根据本申请实施例的一种数据处理的***的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的数据处理的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理的方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器（处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、键盘、光标控制设备、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为I/O接口的端口中的一个端口被包括）、网络接口、BUS总线。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据处理的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备中的部件的类型。

在上述运行环境下，本申请实施例提供了一种数据处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本申请实施例的一种数据处理的方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息。

在上述步骤S202中，用户可通过在数据采集平台的前端页面输入数据采集信息，并通过数据采集请求将数据采集信息发送给后端。例如，用户在登录到数据采集平台后，可在前端页面中输入待采集的关键词、采集开始时间、采集结束时间、采集数据网站等数据采集信息。

步骤S204，依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据。

在上述步骤S204中，后端在接收到数据采集请求后，根据其中的数据采集信息，确定与数据源对应的数据采集信息，该数据源例如可以为数据采集请求中的数据采集网站等，不同的数据采集网站可以对不同数据采集类型的数据进行采集。例如，当数据采集网站为新闻网站时，可以采集的类型为新闻类数据，当数据采集网站为社交媒体类网站时，可以采集的类型为社交媒体类数据。

需要说明的是，上述数据采集类型仅为举例，在实际进行数据采集的过程中，还可以采集其他类型的数据，例如在新闻类数据和社交媒体类数据中还可以包括对视频、图片、文字等数据的采集。

步骤S206，响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据。

在上述步骤S206中，后端在收到数据采集请求，并确定数据采集类型后，通过对应的接口采集与数据采集类型对应的数据，从而得到数据集合，数据集合中包括通过接口采集的多条数据。例如，当采集数据网站为国内网站时，通过中文搜索引擎检索接口进行数据采集，当采集数据网站为国外网站时，通过外文搜索引擎检索接口进行数据采集。

步骤 S208，确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异。

在上述步骤S208中，为了降低存储的数据量，可以对采集到的数据集合中的多条数据进行组合处理，将相似度较高的数据进行合并，另外，该步骤中的处理方式还可以包括不同数据类型的融合、不同数据格式的融合、不同语种的融合、不同媒体数据的融合等。

步骤S210，展示经过组合处理后的数据。

在上述步骤S210中，在对数据进行融合或组合处理后，为了更好的观察数据所对应事件的变化趋势，可以展示经过组合后的数据。

在上述步骤S202至步骤S210中，通过获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据，达到了支持对不同类型的数据的采集的目的，从而实现了提高数据采集支持度的技术效果，进而解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

在上述数据处理的方法中的步骤S202中，获取数据采集请求之后，方法还包括如下步骤：检测数据采集请求中的数据采集信息；在数据采集信息中存在异常信息的情况下，显示异常信息，并跳转至第一页面重新确定数据采集信息，其中，第一页面为发送数据采集请求的页面，异常信息至少包括：数据采集信息中所要访问的网页内容无法访问或数据采集信息中所要访问的网页未被搜索引擎索引；在数据采集信息中不存在异常信息的情况下，跳转至执行数据采集请求对应的第二页面。

在本申请实施例中，当数据采集平台将包含数据采集信息的数据采集请求从前端发送至后端时，后端会运行异常检查模块，该异常检查模块用于检查数据采集请求中的数据采集信息是否存在异常信息，具体地，异常信息可以包括但不限于以下至少之一：关键词不符合规定、采集日期不符合规范、国内外Web内容无法访问或网页未被某一国内外搜索引擎索引等情况。若异常检查模块检测到数据采集请求中的数据采集信息存在异常信息的情况下，显示异常信息，并跳转至用户输入数据采集信息时对应的第一页面中，若异常检查模块在数据采集请求中的数据采集信息中未检测到异常信息的情况下，则跳转至执行数据采集请求对应的第二页面。例如，在该第二页面中显示当前数据采集的采集进度等信息。

在上述数据处理的方法中的步骤S204中，确定与数据源对应的数据采集类型，具体包括如下步骤：确定数据采集信息中的采集网站，其中，同一类型的采集网站对应一种数据源；在采集网站的类型为第一类型的情况下，确定数据采集类型为第一类数据，其中，第一类数据为国内新闻网站中的新闻类数据；在采集网站的类型为第二类型的情况下，确定数据采集类型为第二类数据，其中，第二类数据为国内社交媒体网站中的社交媒体类数据，第一类型和第二类型同属于国内网站；在采集网站的类型为第三类型的情况下，确定数据采集类型为第三类数据，其中，第三类数据为国外新闻网站中的新闻类数据。

在本申请实施例中，在接收到数据采集信息后，需要对数据采集信息中的数据采集网站进行判断和分类，便于后续进行数据采集运行时运行不同的模块。例如数据采集信息中的数据采集网站为搜索引擎能够返回检索结果数的网站，则需要进一步判断该数据采集网站为国内网站还是国外网站，是否为社交媒体网站。具体地，当数据采集网站的类型为国内新闻网站（即上述第一类型）的情况下，确定数据采集类型为国内新闻网站中的新闻类数据；当数据采集网站的类型为国内社交媒体网站（即上述第二类型）的情况下，确定数据采集类型为国内社交媒体网站中的社交媒体类数据；当数据采集类型为国外新闻网站（即上述第三类型的情况下），确定数据采集类型为国外新闻网站中的新闻类数据。

在上述数据处理的方法中，方法还包括如下步骤：确定与数据采集类型对应的目标采集模块，其中，第一类数据通过第一采集模块进行采集，第二类数据通过第二采集模块进行采集，第三类数据通过第三采集模块进行采集，第一采集模块、第二采集模块和第三采集模块的采集规则均不相同，目标采集模块为第一采集模块、第二采集模块和第三采集模块中的任意一个。

在本申请实施例中，不同数据采集类型的数据是通过不同的采集模块来进行采集，当数据采集类型为国内新闻网站中的新闻类数据（即上述第一类数据）的情况下，通过与第一类数据对应的第一采集模块进行数据采集；当数据采集类型为国内社交媒体网站中的社交媒体类数据（即上述第二类数据）的情况下，通过与第二类数据对应的第二采集模块进行数据采集；当数据采集类型为国外新闻网站中的新闻类数据（即上述第三类数据）的情况下，通过与第三类数据对应的第三采集模块进行数据采集。由于第一类数据、第二类数据和第三类数据为不同类型的数据，因此与第一类数据、第二类数据和第三类数据分别对应的第一采集模块、第二采集模块和第三采集模块的采集规则是不同的。

在上述数据处理的方法中的步骤S204中，确定与数据源对应的数据采集类型之后，方法还包括如下步骤：调用与目标采集模块连接的搜索引擎接口；控制搜索引擎接口在确定数据检索数量时生成多个检索任务；并发执行多个检索任务，将多个检索任务执行完成后得到的数据量的和确定为数据检索数量，其中，多个检索任务在执行过程中检索到的数据信息存储在数据库中。

在本申请实施例中，在确定与数据源对应的数据采集类型以及对应的目标采集模块之后，需要调用与目标采集模块连接的搜索引擎接口。例如，若与数据源对应的采集网站为国内网站，需要调用中文搜索引擎（如百度）检索数接口（或搜索引擎接口），返回网页检索结果总条数。如与数据源对应的采集网站为国外网站，调用外文搜索引擎（如Google）检索数接口，返回外文搜索引擎（如Google）检索News标签下结果总条数。搜索引擎接口在执行过程中使用协程池技术，并发执行检索结果，协程池并发数可根据实际业务需求动态配置。搜索引擎接口在确定数据检索数量的过程中，生成多个检索任务，并发执行多个（协程池并发数）检索任务，并异步等待检索结果返回。无论哪个并发执行结果返回，则表示该检索任务完成，检索任务退出协程池，并保存检索结果。协程池自动将待执行的检索任务加入协程池，开始执行检索任务，直至所有检索任务全部完成。所有检索任务完成后，数据返回给前端。

在本申请实施例中，如果用户对初次检索数量不满意，用户可在确定数据采集信息对应的页面中再次选择特定时间段，并可依照各数据采集网站返回数量的多少重新选择时间范围，在返回结果页面中对不满意的网站旁点击“修改”按钮，重新指定待采集的关键词、采集开始与结束日期等信息，通过点击“检索”按钮提交，对应的检索过程已在上述步骤中说明，此处不再赘述。用户可对检索数量反复执行修改的操作，直到用户满意为止。

若用户对检索结果满意，可在检索结果对应的页面中点击“保存检索结果”按钮，将检索关键词、网站名称、网站域名、网站URL、采集开始日期、采集结束日期、检索数量等信息保存到自建的数据库中，如采集网站为社交媒体网站，则需要存储关键词、采集开始与结束日期和社交媒体网站名称等信息。

在上述数据处理的方法中的步骤S206中，确定与数据采集类型对应的数据集合，具体包括如下步骤：从数据库中获取多个检索任务在执行过程中检索到的数据信息，其中，数据信息至少包括网页信息；确定第一次从网页信息中获取到的数据为原始数据，并确定从第二次及第二次之后从网页信息中获取到的数据为增量数据；合并原始数据和增量数据，得到数据集合。

在上述步骤中，确定从第二次及第二次之后从网页信息中获取到的数据为增量数据，具体包括如下步骤：获取当前次数的上一次从网页信息中获取数据的结束时间，得到本次从网页信息中获取数据的起始时间；确定从起始时间到当前时间之间的数据为当前次数对应的增量数据。

在本申请实施例中，将采集到的数据存储到数据库中之后，若网站中的信息有更新，还需要定期获取网站中的增量数据，并将增量数据也一并存储到数据库中，因此数据库中存储的是原始数据和增量数据的数据集合。具体地，在获取增量数据时，需要先确定上一次从网页信息中获取数据的结束时间，得到本次从网页信息中获取数据的起始时间，将起始时间到当前时间之间的数据确定为当前次数对应的增量数据。以获取社交媒体类网站中的数据为例，首次获取指定社交媒体账号的所有已发表的文章内容，包括文章ID、文章内容、发布时间、点赞数、转发数、评论数等内容并存储；二次及以后的获取内容为增量数据，该增量数据的获取步骤如下：读取上次获取数据的时间点t_s，作为本次获取数据的起始时间，再获取当前时间点t_e作为本次获取数据的结束时间，获取t_s、t_e两个时间点内的文章集合W，即得到增量数据，并增量数据存储到数据库中。

在本申请实施例中，对于待处理的URL列表L的每个元素，利用网页解析技术获取 Web的内容数据（包括正文、摘要、发布时间、作者等），其中正文以富文本形式存储，通过并行处理的方式加快解析速度。然后对正文解析结果进行进一步处理，包括去除超链接、下载封面及文中图片、替换图片路径。对成功获取数据信息对应的网站信息进行存储，对没有成功获取数据信息对应的网站信息设置尝试次数阈值T，尝试T次后仍没有成功获取网站中的信息则不再进行数据获取的操作。

在上述数据处理的方法中的步骤 S208中，确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，包括：删除多条数据中的噪声数据，得到第一数据集合；确定第一数据集合中属于相同类型的数据之间的文本相似度；合并文本相似度大于预设阈值的数据，得到第二数据集合。

在本申请实施例中，需要对得到的数据集合中的多条数据进行预处理，其中，预处理操作包括：词语分割、去除停用词、同义词合并等。具体地，在词语分割中，将原始所采集的中文文本数据或英文文本数据按照词汇单位进行分割，以便于后续的文本分析和挖掘。在去除通用词中，可以去除一些常用但无实际意义的词汇，例如“的”、“是”、“在”等，以减少噪声数据的影响，并将去除噪声数据之后的数据集合确定为第一数据集合。在同义词合并中，将第一数据集合中具有相同或相似含义的词汇进行合并或替换，以便于后续的文本分析和挖掘，该过程可通过计算数据之间的文本相似度来确定是否合并，将文本相似度大于预设阈值的数据进行合并，从而得到第二数据集合。

在对数据进行组合处理的过程中，还需要进一步对各类数据进行统一规范化处理或数据融合，具体包括：

1.不同类型数据的融合。对用户选定的不同类型数据，包括官方网站、新闻媒体网站、社交媒体、百科类网站的数据进行识别和分类，将同类型的数据进行去重、匹配和集成，不同类型的数据通过计算文本之间的相似度，将相似度大于一定阈值的文本合并，从而实现数据的融合，对于不规范的数据再次执行上述预处理的步骤，将融合后的数据存储到数据库中。

2.不同格式数据的融合。对不同格式的数据进行识别和转换，不同格式的数据是指在不同数据源数据抓取过程中产生了不同格式中间文件，包括：HTML网页格式、XML标记语言、CSV格式、TXT格式、JSON格式等，不包含图片链接的数据。这些格式的数据需要经过数据清洗、数据转换、数据规范化等步骤。标准化存储到某一数据库(如PostgreSQL)的表中，该表的各个字段可以描述这一主题的元数据，具体数据也可导出为各种文件格式（.xlsx，.csv等）。将不同格式的数据转换成标准格式之后，将标准格式的数据进行集成和匹配，通过数据间的关联和匹配，实现数据的融合。具体地，例如，不同来源的数据可能表达同一新闻内容，“数据间的关联和匹配，实现数据的融合”是对不同数据源数据标题及正文内容进行匹配计算，认定相似度高于一定阈值的新闻为重复内容，进行去重处理，从而实现数据的融合。在这一过程中，对于不规范的数据再次执行数据清洗、数据转换、数据规范化等步骤，将经过处理后的数据存储到数据库中。

3.不同语种数据的融合。对中文和英文的数据进行识别和转换，通过自然语言处理技术将中文和英文数据进行分词、命名实体识别等操作，同时与官方网站的中英文论文关键词进行实体对齐，统一为中文后对数据进行去重、格式化、清洗等操作，对于不规范的数据再次执行上述预处理的步骤，将融合后的数据存储到数据库中。

4.不同格式的图像融合。对不同格式的文本和图像数据进行识别和转换，包括去除无效图片链接，对图片的质量、大小和格式进行转换，以及对图片格式（如JPG，PNG等）统一、图片尺寸统一、图片颜色进行调整等，再将调整后的图片上传至服务器并存储。该过程中的图像数据需要与文本数据对齐，对于不规范的数据再次执行上述预处理的步骤，将融合后的数据存储到数据库中。

在上述数据处理的方法中的步骤S210中，展示经过组合处理后的数据，具体包括如下步骤：确定第二数据集合中每个词汇出现的频率，并将频率大于频率阈值的词汇添加至高频词汇列表中；确定高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到高频词汇之间的关联网络，其中，关联网络以高频词汇为节点，以次数作为连接节点的边构成；将关联网络中的高频词汇按照时间戳排序，将高频词汇对应的事件添加至时间戳中，得到事件趋势图；展示事件趋势图，其中，在高频词汇列表中的高频词汇发生变化的情况下，事件趋势图中包含的事件也相应变化。

在本申请实施例中，在将数据进行组合处理之后，为了确定数据之间的关联性，以及统计数据的特征，还可以执行如下步骤：

1. 确定第二数据集合中每个词汇出现的频率，并将频率大于频率阈值的词汇添加至高频词汇列表中。

具体地，对于第二数据集合中的数据进行词频统计和分析，统计每个词汇出现的频率，计算每个词汇的TF-IDF值，该TF-IDF值用于表示词汇出现的频率，基于给定的频率阈值，将频率大于频率阈值的词汇确定为高频词汇，并将高频词汇存储在高频词汇列表中。根据高频词汇，可以生成词云图，通过词云图呈现数据的特征。

在本申请实施例中，还可以对第二数据集合中的数据进行聚类分析，例如，将数据根据其相似性进行分组，选取适当的聚类算法，如K-Means、DBSCAN等。基于给定的相似度阈值将数据分成若干个组，每个组内的数据相似性较高，而组间的数据差异较大。对每个组进行分析，可以发现其内在结构和规律。

2. 确定高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到高频词汇之间的关联网络，其中，关联网络以高频词汇为节点，以次数作为连接节点的边构成。

具体地，根据得到的高频词汇列表，计算每两个高频词在不同文本中共同出现的次数。以高频词汇列表中的高频关键词为节点，以高频关键词共同出现的次数为边，应用Pajek软件绘制词共现网络分析图（即上述关联网络），展示出高频词汇之间的关联性。

3. 将关联网络中的高频词汇按照时间戳排序，将高频词汇对应的事件添加至时间戳中，得到事件趋势图。

具体地，将关联网络中的高频词汇按照获取的时间戳进行排序，通过绘制时间序列图，分析高频词汇呈现变化趋势的因素。应用统计学或机器学习的方法，在时间序列（或时间戳）中检测出可能的事件点，深入了解数据中的事件和趋势的变化，以便更好地预测未来的变化趋势并制定相关策略。

本申请实施例提供的数据处理的方法融合了不同类型、不同格式、不同语种、不同媒体的数据，且具备增量式定期爬取的功能，为后续数据分析与可视化提供了基础。达到了支持对不同类型的数据的采集的目的，从而实现了提高数据采集支持度的技术效果，进而解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

图3是根据本申请实施例的一种数据处理的***的结构图，如图3所示，该***包括：

获取模块30，用于获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；

第一确定模块32，用于依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；

第二确定模块34，用于响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；

处理模块36，用于确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；

展示模块38，用于展示经过组合处理后的数据。

在上述数据处理的***中的获取模块中，该获取模块还用于检测数据采集请求中的数据采集信息；在数据采集信息中存在异常信息的情况下，显示异常信息，并跳转至第一页面重新确定数据采集信息，其中，第一页面为发送数据采集请求的页面，异常信息至少包括：数据采集信息中所要访问的网页内容无法访问或数据采集信息中所要访问的网页未被搜索引擎索引；在数据采集信息中不存在异常信息的情况下，跳转至执行数据采集请求对应的第二页面。

在上述数据处理的***中的第一确定模块中，该第一确定模块还用于确定数据采集信息中的采集网站，其中，同一类型的采集网站对应一种数据源；在采集网站的类型为第一类型的情况下，确定数据采集类型为第一类数据，其中，第一类数据为国内新闻网站中的新闻类数据；在采集网站的类型为第二类型的情况下，确定数据采集类型为第二类数据，其中，第二类数据为国内社交媒体网站中的社交媒体类数据，第一类型和第二类型同属于国内网站；在采集网站的类型为第三类型的情况下，确定数据采集类型为第三类数据，其中，第三类数据为国外新闻网站中的新闻类数据。

在上述数据处理的***中的第一确定模块中，该第一确定模块还用于确定与数据采集类型对应的目标采集模块，其中，第一类数据通过第一采集模块进行采集，第二类数据通过第二采集模块进行采集，第三类数据通过第三采集模块进行采集，第一采集模块、第二采集模块和第三采集模块的采集规则均不相同，目标采集模块为第一采集模块、第二采集模块和第三采集模块中的任意一个。

在上述数据处理的***中的第一确定模块中，该第一确定模块还用于调用与目标采集模块连接的搜索引擎接口；控制搜索引擎接口在确定数据检索数量时生成多个检索任务；并发执行多个检索任务，将多个检索任务执行完成后得到的数据量的和确定为数据检索数量，其中，多个检索任务在执行过程中检索到的数据信息存储在数据库中。

在上述数据处理的***中的第二确定模块中，该第二确定模块还用于从数据库中获取多个检索任务在执行过程中检索到的数据信息，其中，数据信息至少包括网页信息；确定第一次从网页信息中获取到的数据为原始数据，并确定从第二次及第二次之后从网页信息中获取到的数据为增量数据；合并原始数据和增量数据，得到数据集合。

在上述数据处理的***中的第二确定模块中，该第二确定模块还用于获取当前次数的上一次从网页信息中获取数据的结束时间，得到本次从网页信息中获取数据的起始时间；确定从起始时间到当前时间之间的数据为当前次数对应的增量数据。

在上述数据处理的***中的处理模块中，该处理模块还用于删除多条数据中的噪声数据，得到第一数据集合；确定第一数据集合中属于相同类型的数据之间的文本相似度；合并文本相似度大于预设阈值的数据，得到第二数据集合。

在上述数据处理的***中的展示模块中，该展示模块还用于确定第二数据集合中每个词汇出现的频率，并将频率大于频率阈值的词汇添加至高频词汇列表中；确定高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到高频词汇之间的关联网络，其中，关联网络以高频词汇为节点，以次数作为连接节点的边构成；将关联网络中的高频词汇按照时间戳排序，将高频词汇对应的事件添加至时间戳中，得到事件趋势图；展示事件趋势图，其中，在高频词汇列表中的高频词汇发生变化的情况下，事件趋势图中包含的事件也相应变化。

需要说明的是，图3所示的数据处理的***用于执行图2所示的数据处理的方法，因此上述数据处理的方法中的相关解释说明也适用于该数据处理的***，此处不再赘述。

本申请实施例还提供了一种电子设备，包括：存储器，用于存储程序指令；处理器，与存储器连接，用于执行实现以下功能的程序指令：获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据。

需要说明的是，上述电子设备用于执行图2所示的数据处理的方法，因此上述数据处理的方法中的相关解释说明也适用于该电子设备，此处不再赘述。

本申请实施例还提供了一种非易失性存储介质，该非易失性存储介质包括存储的计算机程序，其中，该非易失性存储介质所在设备通过运行计算机程序执行以下数据处理的方法：获取数据采集请求，其中，数据采集请求中包含不同数据源的数据采集信息；依据数据采集信息，确定与数据源对应的数据采集类型，其中，数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于数据采集请求，确定与数据采集类型对应的数据集合，其中，数据集合中包括多条数据；确定多条数据之间的属性差异，并根据属性差异对多条数据进行组合处理，其中，属性差异至少包括：多条数据之间的文本相似度差异；展示经过组合处理后的数据。

需要说明的是，上述非易失性存储介质用于执行图2所示的数据处理的方法，因此上述数据处理的方法中的相关解释说明也适用于该非易失性存储介质，此处不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取数据采集请求，其中，所述数据采集请求中包含不同数据源的数据采集信息；

依据所述数据采集信息，确定与数据源对应的数据采集类型，其中，所述数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；

响应于所述数据采集请求，确定与所述数据采集类型对应的数据集合，其中，所述数据集合中包括多条数据；

确定所述多条数据之间的属性差异，并根据所述属性差异对所述多条数据进行组合处理，其中，所述属性差异至少包括：所述多条数据之间的文本相似度差异；展示经过所述组合处理后的数据，包括：确定第二数据集合中每个词汇出现的频率，并将所述频率大于频率阈值的词汇添加至高频词汇列表中，其中，所述第二数据集合根据所述属性差异对所述多条数据进行组合处理得到；确定所述高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到所述高频词汇之间的关联网络，其中，所述关联网络以所述高频词汇为节点，以所述次数作为连接节点的边构成；将所述关联网络中的高频词汇按照时间戳排序，将所述高频词汇对应的事件添加至所述时间戳中，得到事件趋势图；展示所述事件趋势图，其中，在所述高频词汇列表中的高频词汇发生变化的情况下，所述事件趋势图中包含的事件也相应变化。

2.根据权利要求1所述的方法，其特征在于，获取数据采集请求之后，所述方法还包括：

检测所述数据采集请求中的数据采集信息；

在所述数据采集信息中存在异常信息的情况下，显示所述异常信息，并跳转至第一页面重新确定数据采集信息，其中，所述第一页面为发送所述数据采集请求的页面，所述异常信息至少包括：所述数据采集信息中所要访问的网页内容无法访问或所述数据采集信息中所要访问的网页未被搜索引擎索引；

在所述数据采集信息中不存在所述异常信息的情况下，跳转至执行所述数据采集请求对应的第二页面。

3.根据权利要求1所述的方法，其特征在于，确定与数据源对应的数据采集类型，包括：

确定所述数据采集信息中的采集网站，其中，同一类型的采集网站对应一种数据源；

在所述采集网站的类型为第一类型的情况下，确定所述数据采集类型为第一类数据，其中，所述第一类数据为国内新闻网站中的新闻类数据；

在所述采集网站的类型为第二类型的情况下，确定所述数据采集类型为第二类数据，其中，所述第二类数据为国内社交媒体网站中的社交媒体类数据，所述第一类型和所述第二类型同属于国内网站；

在所述采集网站的类型为第三类型的情况下，确定所述数据采集类型为第三类数据，其中，所述第三类数据为国外新闻网站中的新闻类数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定与所述数据采集类型对应的目标采集模块，其中，所述第一类数据通过第一采集模块进行采集，所述第二类数据通过第二采集模块进行采集，所述第三类数据通过第三采集模块进行采集，所述第一采集模块、所述第二采集模块和所述第三采集模块的采集规则均不相同，所述目标采集模块为所述第一采集模块、所述第二采集模块和所述第三采集模块中的任意一个。

5.根据权利要求4所述的方法，其特征在于，确定与数据源对应的数据采集类型之后，所述方法还包括：

调用与所述目标采集模块连接的搜索引擎接口；

控制所述搜索引擎接口在确定数据检索数量时生成多个检索任务；

并发执行所述多个检索任务，将所述多个检索任务执行完成后得到的数据量的和确定为所述数据检索数量，其中，所述多个检索任务在执行过程中检索到的数据信息存储在数据库中。

6.根据权利要求5所述的方法，其特征在于，确定与所述数据采集类型对应的数据集合，包括：

从所述数据库中获取所述多个检索任务在执行过程中检索到的数据信息，其中，所述数据信息至少包括网页信息；

确定第一次从所述网页信息中获取到的数据为原始数据，并确定从第二次及第二次之后从所述网页信息中获取到的数据为增量数据；

合并所述原始数据和所述增量数据，得到所述数据集合。

7.根据权利要求6所述的方法，其特征在于，确定从第二次及第二次之后从所述网页信息中获取到的数据为增量数据，包括：

获取当前次数的上一次从所述网页信息中获取数据的结束时间，得到本次从所述网页信息中获取数据的起始时间；

确定从所述起始时间到当前时间之间的数据为所述当前次数对应的增量数据。

8.根据权利要求1所述的方法，其特征在于，确定所述多条数据之间的属性差异，并根据所述属性差异对所述多条数据进行组合处理，包括：

删除所述多条数据中的噪声数据，得到第一数据集合；

确定所述第一数据集合中属于相同类型的数据之间的文本相似度；

合并所述文本相似度大于预设阈值的数据，得到第二数据集合。

9.一种数据处理的***，其特征在于，包括：

获取模块，用于获取数据采集请求，其中，所述数据采集请求中包含不同数据源的数据采集信息；

第一确定模块，用于依据所述数据采集信息，确定与数据源对应的数据采集类型，其中，所述数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；

第二确定模块，用于响应于所述数据采集请求，确定与所述数据采集类型对应的数据集合，其中，所述数据集合中包括多条数据；

处理模块，用于确定所述多条数据之间的属性差异，并根据所述属性差异对所述多条数据进行组合处理，其中，所述属性差异至少包括：所述多条数据之间的文本相似度差异；

展示模块，用于展示经过所述组合处理后的数据，包括：确定第二数据集合中每个词汇出现的频率，并将所述频率大于频率阈值的词汇添加至高频词汇列表中，其中，所述第二数据集合根据所述属性差异对所述多条数据进行组合处理得到；确定所述高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到所述高频词汇之间的关联网络，其中，所述关联网络以所述高频词汇为节点，以所述次数作为连接节点的边构成；将所述关联网络中的高频词汇按照时间戳排序，将所述高频词汇对应的事件添加至所述时间戳中，得到事件趋势图；展示所述事件趋势图，其中，在所述高频词汇列表中的高频词汇发生变化的情况下，所述事件趋势图中包含的事件也相应变化。

10.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，与所述存储器连接，用于执行实现以下功能的程序指令：获取数据采集请求，其中，所述数据采集请求中包含不同数据源的数据采集信息；依据所述数据采集信息，确定与数据源对应的数据采集类型，其中，所述数据采集类型包括以下至少之一：新闻类数据和社交媒体类数据；响应于所述数据采集请求，确定与所述数据采集类型对应的数据集合，其中，所述数据集合中包括多条数据；确定所述多条数据之间的属性差异，并根据所述属性差异对所述多条数据进行组合处理，其中，所述属性差异至少包括：所述多条数据之间的文本相似度差异；展示经过所述组合处理后的数据，包括：确定第二数据集合中每个词汇出现的频率，并将所述频率大于频率阈值的词汇添加至高频词汇列表中，其中，所述第二数据集合根据所述属性差异对所述多条数据进行组合处理得到；确定所述高频词汇列表中的每两个高频词汇在不同文本中共同出现的次数，得到所述高频词汇之间的关联网络，其中，所述关联网络以所述高频词汇为节点，以所述次数作为连接节点的边构成；将所述关联网络中的高频词汇按照时间戳排序，将所述高频词汇对应的事件添加至所述时间戳中，得到事件趋势图；展示所述事件趋势图，其中，在所述高频词汇列表中的高频词汇发生变化的情况下，所述事件趋势图中包含的事件也相应变化。