CN113434848B - 数据采集方法、装置、存储介质及电子设备 - Google Patents

数据采集方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113434848B
CN113434848B CN202110763195.5A CN202110763195A CN113434848B CN 113434848 B CN113434848 B CN 113434848B CN 202110763195 A CN202110763195 A CN 202110763195A CN 113434848 B CN113434848 B CN 113434848B
Authority
CN
China
Prior art keywords
target
data
data acquisition
acquisition request
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110763195.5A
Other languages
English (en)
Other versions
CN113434848A (zh
Inventor
王晓东
李瑞强
张巍
李妍
李明娜
金鹏
应智强
郭雪征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110763195.5A priority Critical patent/CN113434848B/zh
Publication of CN113434848A publication Critical patent/CN113434848A/zh
Application granted granted Critical
Publication of CN113434848B publication Critical patent/CN113434848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种数据采集方法、装置、存储介质及电子设备,涉及计算机技术领域。其中,方法包括:获取身份认证信息和数据获取请求;解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;存储所述第一目标数据。采用本申请实施例,可以采集目标服务器中的非公开内容,以及优化采集流程。

Description

数据采集方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据采集方法、装置、存储介质及电子设备。
背景技术
现有技术中,对于目标服务器中公开内容的数据采集,一般通过具有采集功能的软件或硬件对目标服务器进行采集。例如,采集服务器自动从目标服务器中采集作为公开内容的网页数据以及将网页数据存储在采集服务器中。但该采集方法只能采集目标服务器中的公开内容,换而言之,目标服务器对采集服务器无任何限制时,采集服务器才能完成采集。而针对目标服务器中的非公开内容,现有技术中需要用户通过用户终端完成目标服务器的身份认证后,通过用户终端获取。当用户需要大量获取或长时间采集目标服务器中的非公开内容时,需要多次通过用户终端向目标服务器发送数据获取请求,甚至由于目标服务器的身份认证的时间有效性,用户需要多次通过目标服务器的身份认证并发送数据获取请求。
发明内容
本申请实施例提供了一种数据采集方法、装置、存储介质及电子设备,可以采集目标服务器中的非公开内容,以及优化采集流程。所述技术方案如下:
第一方面,本申请实施例提供了一种数据采集方法,所述方法包括:
获取身份认证信息和数据获取请求;
解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储所述第一目标数据。
第二方面,本申请实施例提供了一种数据采集装置,所述装置包括:
获取请求模块,用于获取身份认证信息和数据获取请求;
解析地址模块,用于解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
发送认证模块,用于将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
获取数据模块,用于通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储数据模块,用于存储所述第一目标数据。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据采集方法的架构示意图;
图2是本申请实施例提供的一种数据采集方法的流程示意图;
图3是本申请实施例提供的一种用户终端的界面示意图;
图4是本申请实施例提供的一种数据采集装置的结构示意图;
图5是本申请实施例提供的一种数据采集方法的流程示意图;
图6是本申请实施例提供的另一种数据采集装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本申请进行详细说明。
如图1所示,在一个实施例中,为本申请实施例提供的一种数据采集方法的架构示意图,该架构示意图包括:数据采集装置及用户终端的采集***11(图中未示出)、目标服务器12。其中,采集***11可以是设置了数据采集装置的用户终端11A,也可以是用户终端111B和作为独立电子设备的数据采集装置112B。
目标服务器12可以理解为一个服务器或多个服务器组成的服务器集群,目标服务器12用于通过设置的多个访问接口接收数据获取请求或数据采集请求,以及基于数据获取请求或数据采集请求的请求内容提供对应的数据或服务。上述多个服务器可以是多个物理的服务器,多个物理的服务器在硬件上是独立的;或多个服务器在多个虚拟的服务器,多个虚拟的服务器部署在相同的硬件资源池中,虚拟的服务器的部署方式包括但不限于:VMware、Virtual Box和Virtual PC。在本申请实施例中,目标服务器12用于将数据存储在数据库中,以及基于接收的数据采集请求在数据库中查找该数据采集请求对应的第一目标数据,基于接收的数据获取请求在数据库中查找该数据获取请求对应的第二目标数据。例如,目标服务器12接收到针对发送时间的当天企业A废水排放量的数据获取请求,以及针对包括发送时间的当天在内后一个月内企业A废水排放量的数据采集请求;则目标服务器12基于数据获取请求在数据库中匹配出第二目标数据,基于数据采集请求在数据库中匹配出第一目标数据。
数据采集装置及用户终端的采集***11(图中未示出)可以是设置了数据采集装置的用户终端11A,也可以是用户终端111B和作为独立电子设备的数据采集装置112B。
用户终端111B包括但不限于移动台(Mobile Station,MS)、移动终端设备(MobileTerminal)、移动电话(Mobile Telephone)、手机(handset)及便携设备(portableequipment)等,该用户终端111B可以经无线接入网(Radio Access Network,RAN)与一个或多个核心网进行通信,例如,用户终端111B可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等,用户终端111B还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置或设备。可以理解的是,本申请对用户终端111B的种类不做限定。另外,用户终端111B还可以包括其他客户端,图1中所示用户终端111B的数量为一个仅为示例,并非限定本申请实施例中的用户终端111B的数量。
在本申请中,用户终端111B其上还可以安装有显示设备和摄像头,显示设备显示可以是各种能实现显示功能的设备,摄像头用于采集视频数据;例如:显示设备可以是阴极射线管显示器(Cathode raytubedisplay,简称CR)、发光二极管显示器(Light-emittingdiodedisplay,简称LED)、电子墨水屏、液晶显示屏(Liquid crystal display,简称LCD)、等离子显示面板(Plasma displaypanel,简称PDP)等。用户可以利用用户终端111B上的显示设备,来查看显示的文字、图片、视频等信息。
在一个实施例中,用户终端111B上设置了数据采集装置,即图1中所述用户终端11A。在本实施例中,数据采集装置通过用户终端11A的输入设备获取用户输入的身份认证信息和数据获取请求,从而将身份认证信息和数据获取请求发送至目标服务器12。身份认证信息可以理解为通过目标服务器12的身份认证的信息,例如,身份认证信息包括用户名和对应的密码。
在另一个实施例中,采集***11包括用户终端111B和数据采集装置112B,数据采集装置112B与用户终端111B为非集成***。在本实施例中,数据采集装置112B可以是与目标服务器12相同结构的服务器,或与用户终端111B相同的电子设备。换而言之,本实施例中,数据采集装置112B为可以实现下述数据采集方法的设备。在本实施例中,数据采集装置112B与用户终端111B之间建立了通信连接,用户终端111B通过输入设备获取用户认证信息和数据获取请求,数据采集装置112B通过通信连接接收用户终端111B发送的用户认证信息和数据获取请求,并将用户认证信息、数据采集请求和数据获取请求发送至目标服务器12。上述数据采集请求,可以来自用户终端111B,也可以来自数据采集装置112B的输入设备或其他方式。
本申请利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
在一个实施例中,如图2所示,特提出了一种数据采集方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的数据采集装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体的,该数据采集方法包括:
S101、获取身份认证信息和数据获取请求。
数据采集装置获取身份认证信息和数据获取请求。身份认证信息可以理解为通过目标服务器12的身份认证的信息,用于表征用户身份为合法身份的信息,例如,身份认证信息包括用户名和对应的密码,或者用户手机号和验证码。数据获取请求可以理解为针对目标服务器12的数据库中第二目标数据的获取请求,例如数据获取请求针对目标服务器12的数据库中时间为3月12号的企业A的废水排放数据,上述废水排放数据为第二目标数据。
如图3所示,为本申请实施例提供的一种显示添加身份认证信息和数据获取请求的界面。图3中所示电子设备301可以是图1中集成了数据采集装置的用户终端11A,或非集成数据采集装置的用户终端111B。
具体而言,在一个实施例中,电子设备301上设置有数据采集装置;用户通过电子设备301的输入设备在“用户名”控件和“密码”控件分别对应的触发条件,向电子设备301输入用户认证信息;用户通过“地址”控件对应的触发条件向电子设备301输入目标地址,以及通过“选择目录”控件对应的触发条件向电子设备301输入针对第二目标数据的标识,该针对第二目标数据的标识用于目标服务器通过该标识获取对应的第二目标数据;电子设备301将上述目标地址和针对第二目标数据的标识整理成数据获取请求。当用户在“是否启动采集功能”控件上触发了“启动采集功能”的触发条件,以及用户在“采集条件1”和“采集条件2”等控件上输入了多个采集条件,该采集条件对应为目标服务器数据库中的第一目标数据;电子设备301将多个采集条件整理成数据采集请求;数据采集装置接收到身份认证信息、数据获取请求和数据采集请求。可以理解的是,图3所示的触发数据采集装置执行数据采集方法的触发条件仅为示例,本申请还包括任意一种电子设备触发数据采集装置执行数据采集方法的方式。
在另一个实施例中,图3所示的电子设备301上没有设置有数据采集装置,换而言之,电子设备301为图1所示的电子终端111B,数据采集装置为图1所示的数据采集装置112B。当用户通过电子设备301的输入设备完成上述输入身份认证信息和数据获取请求后,当用户在“是否启动采集功能”控件上触发了“启动采集功能”的触发条件,以及用户在“采集条件1”和“采集条件2”等控件上输入了多个采集条件,电子设备301将多个采集条件整理成数据采集请求,以及基于电子设备301与数据采集装置之间的通信连接将数据采集请求发送给数据采集装置。数据采集装置从电子设备301处接收到数据获取请求、身份认证信息和数据采集请求。
S102、解析数据获取请求获取目标地址,目标地址对应目标服务器。
如步骤S101所示,数据采集装置接收到数据获取请求,基于数据获取请求利用分割符或标识等方式获取目标地址,该目标地址对应目标服务器。举例来说,数据获取请求为基于超文本传输协议(Hypertext Transfer Protocol,HTTP)生成的请求,内容包括:……//***.com//name=A//time=……;数据采集装置基于该数据获取请求,解析出目标地址为***.com,该目标地址对应的目标服务器为谷歌服务器。
S103、将身份认证信息发送至目标地址对应的目标服务器,以通过目标服务器的身份认证信息并与目标服务器建立通信连接。
如图4所示,为本申请实施例提供的一种数据采集装置的结构示意,该数据采集装置是基于Apache的开源项目HttpClint、实现JAVA操作XML的第三方类库Dom4j以及格式化HTML的第三方类库Ttidy的装置,使用Spring和/或Hibernate框架。如图4所示,该数据采集装置包括过滤器模块、JAVA Servlet模块、***核心模块和JAVA基础工具包模块(图中未示出),其中,过滤器模块包括:字符编码过滤器(CharacterEncodingFilter)模块、身份验证过滤器(AuthFilter)模块和其他过滤器(Other filters)模块,JAVA Servlet模块包括:基于http协议的Servlet请求(HttpServletRequest)模块、后置Servlet(AfterServlet)模块和基于http协议的Servelt响应(HttpServletResponse)模块,***核心模块包括:处理程序(Handler)模块、Http编程工具包(HttpClientFactory)模块、Http方法包(HttpMethodWrap)模块、Xml格式转换(HtmltoXml)模块、http请求(HttpRequest)模块和会话存储(SessionClientRepository)模块,JAVA基础包模块包括:Http编程工具包(HttpClient)模块、Dom4j框架(Dom4j)模块和Jtidy库(Jtidy)模块。
基于图4所示的结构,数据采集装置利用AuthFilter模块将身份认证信息封装后发送给目标服务器,以通过目标服务器的身份认证;数据采集装置进一步通过SessionClientRepository模块与目标服务器建立通信连接。
S104、通过通信连接,将数据获取请求和数据采集请求发送至目标服务器,以获取目标服务器存储的数据采集请求对应的第一目标数据。
在本申请实施例中,数据获取请求对应第二目标数据和数据采集请求对应的第一目标数据不相同。举例来说,第二目标数据目为针对发送时间(3月5号)的企业A废水排放量的数据获取请求,第一目标数据为针对包括发送时间的当天在内后一个月内(3月5号至4月5号)企业A废水排放量的数据采集请求。因此在用户在发送数据获取请求后,如需获取未来时间段的目标服务器中的第一目标数据,则数据采集装置通过多次向目标服务器发送数据采集请求获取对应的第一目标数据,而不必由用户多次向目标服务器发送数据获取请求,简化了用户采集数据的操作。
图4所示的数据采集装置利用HttpRequest模块基于ThreadLocal机制分别封装了数据获取请求和数据采集请求,具体封装数据获取请求中指向第二目标数据的参数,以及数据采集请求中指向第一目标数据的参数。以及数据采集装置利用HttpServletRequest模块通过与目标服务器之间建立的通信连接将封装好饿数据获取请求和数据采集请求发送至目标服务器,以接收目标服务器发送的第一目标数据。
可以理解的是,图4所示的数据采集装置的结构仅为示意,本申请包括任意一种可以实现上述数据采集方法的数据采集装置。
S105、存储第一目标数据。
数据采集装置通过通信连接接收来自目标服务器的第一目标数据,将第一目标数据存储在数据采集装置预设的存储路径中。
在一个实施例中,数据采集装置设置在用户终端上,即数据采集装置和用户终端集成在电子设备中。则数据采集装置将第一目标数据存储在用户终端的预设路径中,以使用户可以通过用户终端的显示设备查看第一目标数据。在另一实施例中,数据采集装置为单独的电子设备,如图1所示为数据采集装置112B,则将第一目标数据存储在数据采集装置中的数据库中,例如,该数据库可以是与该数据采集装置物理连接的存储器,或与该数据采集中心通信连接的存储服务器。
在一个实施例中,当数据采集装置完全第一目标数据的存储与获取后,销毁与目标服务器的通信连接。例如,数据采集请求的采集条件为采集3月8号到未来3月28号之间20天每天的数据,上述数据为第一目标数据;数据采集装置基于该数据采集请求,与目标服务器建立3月8号至3月28号的通信连接,以及在获取第一目标数据完成后销毁通信连接。建立长时间的通信连接的方法可以是数据采集装置持续向目标服务器发送身份认证信息。
在上述实施例中,通信连接可以是session通信连接,由图4所示的数据采集装置利用AuthFilter模块的login方法建立session连接,并在完成采集第一目标数据后销毁通信连接。在实施例中,通过完成采集第一目标数据后销毁通信连接,减少对数据采集装置的逻辑资源的占用,提高数据采集装置的数据处理性能。
本申请利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
在一个实施例中,如图5所示,特提出了一种数据采集方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的数据采集装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体的,该数据采集方法包括:
S201、获取数据采集请求,数据采集请求中包括针对第一目标数据的采集请求。
在本申请实施例中,数据采集装置和用户终端为非集成的电子设备,如图1所示的用户终端111B和数据采集装置112B。
数据采集请求可以来自用户终端111B发送,也可以来自有采集目标服务器的第二目标数据需求的用户通过其他用户终端向数据采集请求发送。
在本申请实施例中,数据获取请求对应第二目标数据和数据采集请求对应的第一目标数据不相同。举例来说,第二目标数据目为针对发送时间(3月5号)的企业A废水排放量的数据获取请求,第一目标数据为针对包括发送时间的当天在内后一个月内(3月5号至4月5号)企业A废水排放量的数据采集请求。因此在用户在发送数据获取请求后,如需获取未来时间段的目标服务器中的第一目标数据,则数据采集装置通过多次向目标服务器发送数据采集请求获取对应的第一目标数据,而不必由用户多次向目标服务器发送数据获取请求,简化了用户采集数据的操作。
S202、获取用户终端发送的身份认证信息和数据获取请求。
数据采集装置通过与用户终端的通信连接接收来自用户终端发送的身份认证信息和数据获取请求。身份认证信息可以理解为通过目标服务器12的身份认证的信息,用于表征用户身份为合法身份的信息。步骤S202的具体工作原理参见上述图2所示的步骤S101,此处不再赘述。
S203、解析数据获取请求获取目标地址,目标地址对应目标服务器。
数据采集装置接收到数据获取请求,基于数据获取请求利用分割符或标识等方式获取目标地址,该目标地址对应目标服务器。步骤S203的具体工作原理参见上述图2所示的步骤S102,此处不再赘述。
S204、将身份认证信息发送至目标地址对应的目标服务器,以通过目标服务器的身份认证信息并与目标服务器建立通信连接。
在一个实施例中,基于图4所示的结构,数据采集装置利用AuthFilter模块将身份认证信息封装后发送给目标服务器,以通过目标服务器的身份认证;数据采集装置进一步通过SessionClientRepository模块与目标服务器建立通信连接。
步骤S204的具体工作原理参加上述图2所示的步骤S103,此处不再赘述。
S205、通过通信连接,将数据获取请求和数据采集请求发送至目标服务器,以获取目标服务器存储的数据采集请求对应的第一目标数据,以及获取数据获取请求对应的第二目标数据。
数据采集装置,将数据获取请求和数据采集请求发送至目标服务器,以获取目标服务器存储的数据采集请求对应的第一目标数据,以及获取数据获取请求对应的第二目标数据。例如,数据获取请求是获取企业A的废水排放量,数据采集请求是获取企业A包括废水、废气等所有排放数据。目标服务器可以基于数据获取请求对应于第二目标数据的标识来确定第二目标数据,以及基于数据采集请求对应于第一目标数据的标识确定第一目标数据。当数据采集装置接收到来自目标服务器的数据后基于对应的标识分辨第一目标数据和第二目标数据。
S206、存储第一目标数据和第二目标数据。
在一个实施例中,数据采集装置将基于数据采集请求获取的第一目标数据存储,而对基于数据获取请求对应的第二目标数据进行处理。具体而言,基于预设的数据采集规则,获取第二目标数据中数据采集规则对应的目标采集字段;存储第二目标数据中的目标采集字段。举例来说,预设的数据采集规则为仅采集第二目标数据中企业A的排放数据,对第二目标数据中企业A的公司名、法人信息、违法违规信息等其他数据滤除;上述第二目标数据中企业A的排放数据为目标采集字段。
在另一个实施例中,上述基于预设的数据采集规则,获取第二目标数据中数据采集规则对应的目标采集字段,包括:将为HTML格式的网页数据的第二目标数据转换为XML格式的网页数据;基于预设的数据采集规则,抓取所述XML格式的网页数据中的目标采集字段。基于本申请实施例,有利于提高获取第二目标数据中的目标采集字段的准确性。
其中,预设的数据采集规则可以来自用户通过用户终端向数据采集装置发送,或用户直接通过数据采集装置的输入设备输入的改修指令。获取目标采集字段的方法可以是数据采集装置基于分隔符和自然语言处理模型进行抓取。
在一个实施例中,当第一目标数据与第二目标数据中的目标采集字段存在关联时,将第一目标数据与第二目标数据中的目标采集字段进行关联。例如,第一目标数据获取3月2号到3月8号企业A的排放数据,第二目标数据中包括企业A的2月违规偷排的记录和惩处报告,目标采集字段为2月的企业A的排放数据;则数据采集装置检测到第一目标数据和目标采集字段存在关联,并第一目标数据和目标采集字段关联存储。
本申请实施例通过预设的数据采集规则获取第二目标数据中的目标采集字段,从而滤除第二目标数据中非必存储的数据,以避免数据采集装置出现数据冗余的问题,提高数据采集装置对存储的数据的拉取性能。
S207、将第二目标数据对应的格式转换成用户终端能够直接展示的页面格式,获取格式转换后的第二目标数据。
数据采集装置将第二目标数据对应的格式转换成用户终端能够直接展示的页面格式,获取格式转换后的第二目标数据。例如,第二目标数据对应的格式为HTML格式,而用户终端可以直接展示的页面格式为XML格式,则数据采集装置将第二目标数据转换为对应的XML格式。
在本申请实施例中,数据采集装置获取用户终端可以直接展示的页面的方法可以是由用户终端提前发送至数据采集装置,例如用户向数据采集装置上传了用户终端的配置信息。
S208、将格式转换后的第二目标数据发送给用户终端。
数据采集装置将格式转换后的第二目标数据发送给用户终端,以使用户终端可以直接在显示页面展示第二目标数据。例如,第二目标数据为一份通知报告,经过数据采集装置转换后,用户终端可以直接显示该通知报告在显示设备上。数据采集装置将第二目标数据对应的格式转换成用户终端能够直接展示的页面格式,减少了用户通过用户终端获取第二目标数据的操作,提高了用户差点第二目标数据的便捷性。
本申请利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图6,其示出了本申请一个示例性实施例提供的数据采集装置的结构示意图。该数据采集装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该数据采集装置包括获取请求模块601、解析地址模块602、发送认证模块603、获取数模块604、存储数据模块605。
获取请求模块601,用于获取身份认证信息和数据获取请求;
解析地址模块602,用于解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
发送认证模块603,用于将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
获取数据模块604,用于通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储数据模块605,用于存储所述第一目标数据。
可选的,数据采集装置还包括:
数据采集模块,用于获取所述数据采集请求,所述数据采集请求中包括针对所述第一目标数据的采集请求。
可选的,获取请求模块还用于获取用户终端发送的身份认证信息和数据获取请求;
所述数据采集装置还包括:
第二获取模块,用于通过所述通信连接获取所述数据获取请求对应的第二目标数据;
数据发送模块,用于存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端。
可选的,所述数据采集装置还包括:
分割采集模块,用于基于预设的数据采集规则,获取所述第二目标数据中所述数据采集规则对应的目标采集字段;
所述数据发送模块,还用于存储所述第二目标数据中的目标采集字段,以及将所述第二目标数据发送给所述用户终端。
可选的,所述第二目标数据为HTML格式的网页数据;
所述分割采集模块,还包括:
转换单元,用于将所述为HTML格式的网页数据的第二目标数据转换为XML格式的网页数据;
抓取单元,用于基于预设的数据采集规则,抓取所述XML格式的网页数据中的目标采集字段。
可选的,所述数据采集装置还包括:
销毁模块,用于销毁所述通信连接。
可选的,所述数据发送模块包括:
第二存储单元,用于存储所述第二目标数据;
页面转换单元,用于将所述第二目标数据对应的格式转换成所述用户终端能够直接展示的页面格式,获取格式转换后的第二目标数据;
第二发送单元,用于将所述格式转换后的第二目标数据发送给所述用户终端。
本申请利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
需要说明的是,上述实施例提供的数据采集装置在执行数据采集方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据采集装置与数据采集方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图5所示实施例的所述数据采集方法,具体执行过程可以参见图1-图5所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图5所示实施例的所述数据采集方法,具体执行过程可以参见图1-图5所示实施例的具体说明,在此不进行赘述。
请参见图7,为本申请实施例提供了一种电子设备的结构示意图。如图7所示,所述电子设备700可以包括:至少一个处理器701,至少一个网络接口704,用户接口703,存储器705,至少一个通信总线702。
其中,通信总线702用于实现这些组件之间的连接通信。
其中,用户接口703可以包括显示屏(Display)、摄像头(Camera),可选用户接口703还可以包括标准的有线接口、无线接口。
其中,网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器701可以包括一个或者多个处理核心。处理器701利用各种借口和线路连接整个服务器700内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行服务器700的各种功能和处理数据。可选的,处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器701可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器701中,单独通过一块芯片进行实现。
其中,存储器705可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作***、网络通信模块、用户接口模块以及数据采集应用程序。
在图7所示的电子设备700中,用户接口703主要用于为用户提供输入的接口,获取用户输入的数据;而处理器701可以用于调用存储器705中存储的数据采集应用程序,并具体执行以下操作:
获取身份认证信息和数据获取请求;
解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储所述第一目标数据。
在一个实施例中,处理器701执行所述获取电子设备发送的身份认证信息和数据获取请求之前,还执行以下操作:
获取所述数据采集请求,所述数据采集请求中包括针对所述第一目标数据的采集请求。
在一个实施例中,处理器701执行所述获取身份认证信息和数据获取请求,具体执行:获取用户终端发送的身份认证信息和数据获取请求;
处理器701执行所述通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据之后,所述存储所述第一目标数据之前,还执行以下操作:
通过所述通信连接获取所述数据获取请求对应的第二目标数据;
处理器701执行所述存储所述第一目标数据之后,还执行以下操作:
存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端。
在一个实施例中,处理器701执行所述存储所述第一目标数据之后,所述存储所述第二目标数据,以及将所述第二目标数据发送给所述目标服务器之前,还执行以下操作:
基于预设的数据采集规则,获取所述第二目标数据中所述数据采集规则对应的目标采集字段;
处理器701执行所述存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端,具体执行以下操作:
存储所述第二目标数据中的目标采集字段,以及将所述第二目标数据发送给所述用户终端。
在一个实施例中,所述第二目标数据为HTML格式的网页数据;
处理器701执行所述基于预设的数据采集规则,获取所述第二目标数据中所述数据采集规则对应的目标采集字段,具体执行以下操作:
将所述为HTML格式的网页数据的第二目标数据转换为XML格式的网页数据;
基于预设的数据采集规则,抓取所述XML格式的网页数据中的目标采集字段。
在一个实施例中,处理器701执行所述存储所述第一目标数据后,还执行以下操作:
销毁所述通信连接。
在一个实施例中,处理器701执行所述存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端,具体执行以下操作:
存储所述第二目标数据;
将所述第二目标数据对应的格式转换成所述用户终端能够直接展示的页面格式,获取格式转换后的第二目标数据;
将所述格式转换后的第二目标数据发送给所述用户终端。
本申请利用向目标服务器发送身份认证信息通过目标服务器的身份认证,以及与目标服务器建立通信连接,进一步基于数据采集请求获取目标服务器中作为非公开内容的第一目标数据,从而实现采集目标服务器中的非公开内容;以及本申请不完全依靠用户通过用户终端发送数据获取请求从而采集目标数据,而是利用身份认证信息通过了目标服务器的身份认证后,基于数据采集请求获取目标数据,该数据采集请求可以来自预先设置或来自用户终端,以及该数据采集请求可以设置为基于时间周期乃至基于任意触发条件向目标服务器发送,换而言之,本申请解决了数据采集装置只能基于用户终端发送的数据获取请求采集目标服务器中的目标数据的问题,提高了采集自由度,优化了采集流程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种数据采集方法,其特征在于,所述方法包括:
获取身份认证信息和数据获取请求;
解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据采集请求通过获取所述身份认证信息的用户终端获取,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储所述第一目标数据。
2.根据权利要求1所述的方法,其特征在于,所述获取身份认证信息和数据获取请求之前,还包括:
获取所述数据采集请求,所述数据采集请求中包括针对所述第一目标数据的采集请求。
3.根据权利要求1所述的方法,其特征在于,所述获取身份认证信息和数据获取请求,包括:获取用户终端发送的身份认证信息和数据获取请求;
所述通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据之后,所述存储所述第一目标数据之前,包括:
通过所述通信连接获取所述数据获取请求对应的第二目标数据;
所述存储所述第一目标数据之后,还包括:
存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端。
4.根据权利要求3所述的方法,其特征在于,所述存储所述第一目标数据之后,所述存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端之前,还包括:
基于预设的数据采集规则,获取所述第二目标数据中所述数据采集规则对应的目标采集字段;
所述存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端,包括:
存储所述第二目标数据中的目标采集字段,以及将所述第二目标数据发送给所述用户终端。
5.根据权利要求4所述的方法,其特征在于,所述第二目标数据为HTML格式的网页数据;
所述基于预设的数据采集规则,获取所述第二目标数据中所述数据采集规则对应的目标采集字段,包括:
将所述为HTML格式的网页数据的第二目标数据转换为XML格式的网页数据;
基于预设的数据采集规则,抓取所述XML格式的网页数据中的目标采集字段。
6.根据权利要求1所述的方法,其特征在于,所述存储所述第一目标数据后,还包括:
销毁所述通信连接。
7.根据权利要求3所述的方法,其特征在于,所述存储所述第二目标数据,以及将所述第二目标数据发送给所述用户终端,包括:
存储所述第二目标数据;
将所述第二目标数据对应的格式转换成所述用户终端能够直接展示的页面格式,获取格式转换后的第二目标数据;
将所述格式转换后的第二目标数据发送给所述用户终端。
8.一种数据采集装置,其特征在于,所述装置包括:
获取请求模块,用于获取身份认证信息和数据获取请求;
解析地址模块,用于解析所述数据获取请求获取目标地址,所述目标地址对应目标服务器;
发送认证模块,用于将所述身份认证信息发送至所述目标地址对应的目标服务器,以通过所述目标服务器的身份认证并与所述目标服务器建立通信连接;
获取数据模块,用于通过所述通信连接,将所述数据获取请求和数据采集请求发送至所述目标服务器,以获取目标服务器存储的所述数据采集请求对应的第一目标数据;其中,所述数据采集请求通过获取所述身份认证信息的用户终端获取,所述数据获取请求对应第二目标数据,所述第一目标数据和所述第二目标数据不相同;
存储数据模块,用于存储所述第一目标数据。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
CN202110763195.5A 2021-07-06 2021-07-06 数据采集方法、装置、存储介质及电子设备 Active CN113434848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763195.5A CN113434848B (zh) 2021-07-06 2021-07-06 数据采集方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763195.5A CN113434848B (zh) 2021-07-06 2021-07-06 数据采集方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113434848A CN113434848A (zh) 2021-09-24
CN113434848B true CN113434848B (zh) 2024-07-12

Family

ID=77759195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763195.5A Active CN113434848B (zh) 2021-07-06 2021-07-06 数据采集方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113434848B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241800A (zh) * 2016-12-27 2018-07-03 成都中联信通科技股份有限公司 一种基于金融ic卡的移动终端应用用户身份认证方法
CN110266641A (zh) * 2019-05-13 2019-09-20 中国联合网络通信集团有限公司 信息读取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004306A (ja) * 2014-06-13 2016-01-12 キヤノン株式会社 管理システム、及びその方法
CN106101091B (zh) * 2016-06-07 2020-06-23 腾讯科技(深圳)有限公司 终端间数据处理的方法和装置
CN107079034B (zh) * 2016-11-15 2020-07-28 深圳达闼科技控股有限公司 一种身份认证的方法、终端设备、认证服务器及电子设备
WO2019127467A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 一种数据访问方法及装置
CN110691091A (zh) * 2019-09-30 2020-01-14 深圳前海环融联易信息科技服务有限公司 基于身份认证的数据采集方法、装置、及计算机设备
CN111917773B (zh) * 2020-07-31 2022-07-19 中国工商银行股份有限公司 业务数据处理方法、装置和服务器
CN112491890A (zh) * 2020-11-27 2021-03-12 中国农业银行股份有限公司 一种访问方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241800A (zh) * 2016-12-27 2018-07-03 成都中联信通科技股份有限公司 一种基于金融ic卡的移动终端应用用户身份认证方法
CN110266641A (zh) * 2019-05-13 2019-09-20 中国联合网络通信集团有限公司 信息读取方法及装置

Also Published As

Publication number Publication date
CN113434848A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN101568104B (zh) 用于在无线设备和服务器之间握手的***和方法
CN102446105B (zh) 可按需定制应用程序的方法和***
KR20140131546A (ko) 사용자 동작 커맨드들을 실행하기 위한 방법 및 장치
CN105515887B (zh) 应用测试方法、服务器及***
US9462566B1 (en) System and method for providing limited communication services to unprovisioned mobile communication devices
CN110932918A (zh) 日志数据采集方法、装置及存储介质
WO2012113227A1 (zh) 基于移动终端的信息记录方法及***
CN115801299B (zh) 元宇宙身份认证方法、装置、设备及存储介质
US20140136665A1 (en) Forced operating of software on a remote terminal
CN113114669B (zh) 基于网关数据的goip网关识别方法、装置、设备及存储介质
KR100876958B1 (ko) 다양한 사양 및 종류의 단말기와 애플리케이션 서버 간의데이터 통신을 지원하는 미들웨어 및 그 운용 방법
CN114385382A (zh) 轻应用的访问方法、装置、计算机设备和存储介质
CN101964742B (zh) 一种网络开放能力使用方法、***和装置
CN105262876A (zh) 通话处理方法、提供电话号码的号码信息的方法和装置
CN113434848B (zh) 数据采集方法、装置、存储介质及电子设备
WO2015003570A1 (en) Data downloading method,device and system thereof
CN113709187B (zh) 多服务器的数据请求方法、装置、设备及存储介质
CN111935316B (zh) 一种前端设备目录获取方法及装置
CN114817076A (zh) 车载操作***的数据处理方法、装置、设备、介质及产品
CN104935623B (zh) 一种应用管理方法及更新发布服务器
CN115061785A (zh) 信息下发方法、装置、存储介质及服务器
CN114339628A (zh) 5g富媒体消息发送方法、设备、存储介质及产品
US9253652B1 (en) Ad hoc formation of a swarm for information collection and distribution
CN107222559B (zh) 信息调用方法
CN107992363B (zh) 数据的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant