CN108256106B - 一种模拟访问网站适配器*** - Google Patents

一种模拟访问网站适配器*** Download PDF

Info

Publication number
CN108256106B
CN108256106B CN201810114765.6A CN201810114765A CN108256106B CN 108256106 B CN108256106 B CN 108256106B CN 201810114765 A CN201810114765 A CN 201810114765A CN 108256106 B CN108256106 B CN 108256106B
Authority
CN
China
Prior art keywords
page
module
data
request
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810114765.6A
Other languages
English (en)
Other versions
CN108256106A (zh
Inventor
王欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Topwise Communication Co ltd
Original Assignee
Shenzhen Topwise Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Topwise Communication Co ltd filed Critical Shenzhen Topwise Communication Co ltd
Priority to CN201810114765.6A priority Critical patent/CN108256106B/zh
Publication of CN108256106A publication Critical patent/CN108256106A/zh
Application granted granted Critical
Publication of CN108256106B publication Critical patent/CN108256106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种模拟访问网站适配器***,该模拟访问网站适配器***整体功能架构包含自动登录模块、抓取指定页面模块、页面解析模块、数据提取模块、DB存取模块;其中,自动登录模块通过模拟HTTP请求过程,提取出请求HTTP过程报文中的相关信息,将这些参数填入到模拟过程中,实现自动登录;抓取指定页面模块抓取指定页面,抓取指定页面模块将页面数据组织起来后,进行模拟HTTP请求的请求过程;页面抓取后,抓取到指定页面存储为HTML文件,对这些HTML文件中的标签进行解析,提取中这些标签中数据;解析完之后在数据提取模块中进行相关处理,获取到指定信息,存储到DB存取模块中,进行相关序列化的操作,以便于后续随时获取。

Description

一种模拟访问网站适配器***
技术领域
本发明涉及视频监控的技术领域,尤其涉及一种视频监控中车辆识别跟踪的方法。
背景技术
在信息统计中,往往需要访问多个网站并从网站中获取具有一定标识的信息(如:统计某个网站每天的访问量等),这对访问网站的时效性和频次都有一定的要求。人工登录多个网站的时间成本较高,登录效率低,因此人们通常会采用特定的软件进行自动登录。
例如专利申请201210579372.5公开一种实现第三方应用业务网站登录的方法、装置及操作应用平台,其方法包括:操作应用平台在用户终端访问第三方应用业务网站时,接收第三方应用业务网站发送的第一URL请求;根据第一URL请求从本地获取第三方应用业务网站的账号登录信息;通过调用包含所述账号登录信息的第一预定函数,向第三方应用业务网站返回所述账号登录信息,由第三方应用业务网站提供快速登录页面供用户终端快速登录。本发明免去了用户再输入帐号信息的困扰,实现了第三方应用业务网站的快速登录,提高了用户操作效率。
然而,该方法是通过第三方网站记录登录信息,存在着安全隐患,因此难以获得应用。专利申请201610147571.7公开了网站登录方法和装置,其中方法包括:第一网站在接收到网站跳转触发时,获取第一网站运行所在的浏览器的cookie中存储的第一令牌,第一令牌包括网站跳转触发所指示的第二网站列表页面的其中一个第二网站的网站标识、以及用于表示在设定第二网站的无密代理登录时的设备指纹;第一网站根据设备指纹,确定当前运行环境与第二网站无密代理登录设定时的运行环境相同,获取所述第一令牌对应的第二令牌;第一网站根据第一令牌中的网站标识,向第二网站发送无密登录请求,携带第三令牌,第三令牌中包括第二令牌,并在第二网站验证所述第二令牌成功时,无密登录至所述第二网站。本申请提高了由第一网站无密登录至第二网站的安全性。该方法通过令牌的形式记录登录信息,能够提供登录的安全性和可靠性,但是无法实现批量登录,在需要登录多个网站的时候,仍然存在登录速度慢,时间成本高的问题。
发明内容
针对上述技术中存在的不足之处,本发明的首要目的提供一种模拟访问网站适配器***,该***融合ASP.NET及HTTP相关的技术能实现批量自动登录网站,能大大的节约时间成本,提高登录效率。
本发明的另一个目的是一种模拟访问网站适配器***,该***采用批量获取网站信息的中间适配器来获取登录信息并进行自动登录,易于实现,可广泛应用于现有的浏览器网站登录。
为实现上述目的,本发明是按照如下方式实现的。
一种模拟访问网站适配器***,其特征在于该模拟访问网站适配器***整体功能架构包含以下5个模块:自动登录模块、抓取指定页面模块、页面解析模块、数据提取模块、DB存取模块;其中,自动登录模块通过模拟HTTP请求过程,提取出请求HTTP过程报文中的相关信息,将这些参数填入到模拟过程中,实现自动登录;登录成功后,抓取指定页面模块抓取指定页面,抓取指定页面模块将页面数据组织起来后,将这些数据封装起来,进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理;完成了页面抓取后,抓取到指定页面存储为HTML文件,页面解析模块和数据提取模块就是对HTML文件中的标签进行解析,提取中这些标签中数据;解析完之后在数据提取模块中进行相关处理,获取到指定信息,存储到DB存取模块中,进行相关序列化的操作,以便于后续随时获取。
该适配器***需要实现的关键部分如下:1.获取指定页面需要模拟HHTP的请求过程,通过抽象工厂设计模式,能有效的将所有请求页面的HTTP请求报文信息进行统一管理,以方便适配器抓取到所需的页面;2.抓取到指定页面后要提取出需要采集的页面,并解析HTML页面元素,获取指定元素中的信息。
因此,所述自动登录模块和抓取指定页面模块这两个模块要将请求HTTP报文的信息组织到数据库中,方便今后扩展和修改需要访问网站的相关信息;HTTP报文的信息这些数据组织起来后,将这些数据封装起来,提供给一个HTMLHelper类进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理,在自动登录模块需要保存当前的页面,保持登录状态;在抓取指定页面模块需要保存当前的指定页面,这些文件都保存为HTML格式。
进一步,所述自动登录模块和抓取指定页面模块,需要采集访问登录页面及指定页面过程中网络数据包,分析网络数据包中页面HTTP请求过程中所需要的参数。
更进一步,所述页面HTTP请求过程中所需要的参数包括但不限于:请求页面的url、之前跳转url、cookie、post数据、useragent、contenttype、host。
更进一步,所述自动登录模块和抓取指定页面模块借助设计模式中的抽象工厂模式,将这些存在差异化的数据统一进行管理,能实现适配器程序对模拟HTTP请求过程的统一调度。
更进一步,该模块中抽象工厂的处理方法为:这些数据的差异来源是HTTP请求中附带上去的post数据中,对于POST方式的请求,这些数据就存在与请求的头部post参数中,对于GET请求方式,这些数据就直接存在于请求的URL中,这里统一称为postdata,主要是登录模块中的用户名和密码信息,抓取指定页面中需要提交的日期和渠道号等;利用ITAG通过该抽象类的getValue()方法进行数据的填充,这种方式有利于差异数据的扩展,同时在数据库中会以一个标签的形式去管理这些数据,在适配器程序中通过TAGManager对这些标签进行解析;这些带有标签的数据在数据库中的组织形式如下:UserName=[TAG_USER]&UserPass=[TAG_PWD]。
更进一步,TAGManager.cs中对数据库中带TAG标签的数据处理。在处理完自动登录和抓取指定页面数据后,需要在适配器程序中模拟HTTP请求,去获取相关的信息。
更进一步,页面抓取后,将抓取到指定页面存储为HTML文件,页面解析和数据提取模块就是对HTML文件中的标签进行解析,提取中这些标签中数据。
更进一步,所述提取标签的path可利用工具HtmlAgility Pack Tester工具解析到指定的标签,然后获取该标签中的内容。
更进一步,对于解析出页面激活量的数据,借助工具HtmlAgility Pack Tester解析出来的path,解析完之后在数据提取模块中进行相关处理,存入到DB存储模块中的数据库对应的表中。
本发明采用C#及SQLServer2008相关技术,实现一个批量信息采集管理网站,对批量自动登录和批量跳转到指定页面进行自动化地操作,方便信息采集人员进行采集工作。该适配器需要三个模块进行处理,登录模块中需要模拟登录网站的过程,提取出每个网站的登录过程中需要的信息,这些信息主要是通过请求登录网站过程中的HTTP报文中获取,需要对请求报文和响应报文都需要做出相关分析,提取出模拟登录过程中需要的信息;在登录完成后要保持登录状态并跳转到指定获取信息的页面,并解析跳转的页面,并获取到指定信息;数据提取模块是将上述指定信息的结果进行处理,存储到DB中,进行相关序列化的操作。
本发明实现自动抓取一组URL链接获取指定网页页面并通过页面解析工具提取出所需要的数据信息。采用C#语言,通过模拟HTTP请求过程对指定网站进行访问,将这些网页自动抓取下来,对这些页面进行解析。在自动抓取网页的过程中,结合软件设计模式的工厂模式,生产出所有网页在自动抓去过程中需要的HTTP请求报文信息,并将这些信息序列化到数据库中,统一管理,实现批量自动化抓取网页。再结合Html Agility Pack库对抓取下来到的网页进行解析,提取出所需要数据,存入到相应的数据库中。能有效地省去人工手动访问URL,获取数据所需要的时间,实现每天自动化地抓取网页并提取数据,为后期数据的维护、管理和分析奠定基础。
附图说明
图1是本发明所实现的***框图。
图2是本发明所实现的差异化数据抽象工厂UML图。
图3是本发明所实现的自动登录及抓取指定网页模块核心UML图。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
如图1所示,为本发明所实现的该模拟访问网站适配器***,图中所示,整体功能架构包含以下5个模块:自动登录模块、抓取指定页面模块、页面解析模块、数据提取模块、DB存取模块;其中,自动登录模块通过模拟HTTP请求过程,提取出请求HTTP过程报文中的相关信息,将这些参数填入到模拟过程中,实现自动登录;登录成功后,抓取指定页面模块抓取指定页面,抓取指定页面模块将页面数据组织起来后,通过工厂模式将这些数据封装起来,进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理;完成了页面抓取后,抓取到指定页面存储为HTML文件,页面解析模块和数据提取模块就是对这些HTML文件中的标签进行解析,提取中这些标签中数据;解析完之后在数据提取模块中进行相关处理,存入到DB存取模块中的数据库,以便于后续随时获取。
在这两个模块中要将请求HTTP报文的信息组织到数据库中,方便今后扩展和修改需要访问网站的相关信息。抓取指定页面模块将这些数据组织起来后,借助简单工厂模式将这些数据封装起来,提供给一个HTMLHelper类进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理,在自动登录模块需要保存当前的页面,保持登录状态;在抓取指定页面模块需要保存当前的指定页面。这些文件都保存为HTML格式。
在自动登录及抓取指定页面模块中,要采集访问登录页面及指定页面过程中网络数据包(可借助firebug工具获取网络数据包),分析网络数据包中页面HTTP请求过程中所需要的参数(包括:请求页面的url、之前跳转url、cookie、post数据、useragent、contenttype、host等);在该适配器程序中,请求HTTP的方式有GET和POST两种方法,各网站开发者在参数中的设置不一致,导致在请求HTTP过程中由于参数的差异性,可借助设计模式中的抽象工厂模式,将这些存在差异化的数据统一进行管理。通过一个抽象工厂类,根据差异化的数据类型能够制造出不同类型的产品,以满足适配器程序统一进行数据调度的管理。这部分是这两个模块设计的关键之一,能实现适配器程序对模拟HTTP请求过程的统一调度。
该模块中抽象工厂的UML图如图2所示,这些数据的差异来源是HTTP请求中附带上去的post数据中,对于POST方式的请求,这些数据就存在与请求的头部post参数中,对于GET请求方式,这些数据就直接存在于请求的URL中,这里统一称为postdata,主要是登录模块中的用户名和密码信息,抓取指定页面中需要提交的日期(日期格式不统一会导致产生多个日期产品)和渠道号等。ITAG就是抽象工厂中抽象类,后面具体的产品就是去实现该抽象类的getValue()方法,进行数据的填充,这种方式有利于差异数据的扩展,例如:当有新的日期格式产生时,可以直接新增一个日期类去实现这个抽象工厂类ITAG。在数据库中会以一个标签的形式去管理这些数据,在适配器程序中通过TAGManager这个类对这些标签进行解析(借助正则表达式)。这些带有标签的数据在数据库中的组织形式如下:UserName=[TAG_USER]&UserPass=[TAG_PWD]。
TAGManager.cs中对数据库中带TAG标签的数据处理。在处理完自动登录和抓取指定页面数据后,需要在适配器程序中模拟HTTP请求,去获取相关的信息,这两个模块具体实现的UML图,如图3所示。
完成了之前的页面抓取后,会将抓取到指定页面存储为HTML文件,页面解析和数据提取模块就是对这些HTML文件中的标签进行解析,提取中这些标签中数据。提取标签的path可利用工具HtmlAgility Pack Tester这个工具解析到指定的标签,然后获取该标签中的内容。需要解析出页面激活量的数据,借助工具HtmlAgility PackTester解析出来的path。解析完之后在数据提取模块中进行相关处理,存入到DB存储模块中的数据库对应的表中。
该网站适配器***需要导入HtmlAgilityPack.dll动态链接库,用来解析HTML文件。
总之,本发明实现自动抓取一组URL链接获取指定网页页面并通过页面解析工具提取出所需要的数据信息。采用C#语言,通过模拟HTTP请求过程对指定网站进行访问,将这些网页自动抓取下来,对这些页面进行解析。在自动抓取网页的过程中,结合软件设计模式的工厂模式,生产出所有网页在自动抓去过程中需要的HTTP请求报文信息,并将这些信息序列化到数据库中,统一管理,实现批量自动化抓取网页。再结合Html Agility Pack库对抓取下来到的网页进行解析,提取出所需要数据,存入到相应的数据库中。能有效地省去人工手动访问URL,获取数据所需要的时间,实现每天自动化地抓取网页并提取数据,为后期数据的维护、管理和分析奠定基础。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (9)

1.一种模拟访问网站适配器***,其特征在于该模拟访问网站适配器***整体功能架构包含以下5个模块:自动登录模块、抓取指定页面模块、页面解析模块、数据提取模块、DB存取模块;其中,自动登录模块通过模拟HTTP请求过程,提取出请求HTTP过程报文中的相关信息,将这些参数填入到模拟过程中,实现自动登录;登录成功后,抓取指定页面模块抓取指定页面,抓取指定页面模块将页面数据组织起来后,将这些数据封装起来,进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理;完成了页面抓取后,抓取到指定页面存储为HTML文件,页面解析模块和数据提取模块就是对HTML文件中的标签进行解析,提取中这些标签中数据;解析完之后在数据提取模块中进行相关处理,获取到指定信息,存储到DB存取模块中,进行相关序列化的操作,以便于后续随时获取;
所述自动登录模块和抓取指定页面模块这两个模块要将请求HTTP报文的信息组织到数据库中,方便今后扩展和修改需要访问网站的相关信息;HTTP报文的信息数据组织起来后,将这些数据封装起来,提供给一个HTMLHelper类进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理,在自动登录模块需要保存当前的页面,保持登录状态;在抓取指定页面模块需要保存当前的指定页面,这些文件都保存为HTML格式。
2.根据权利要求1所述的模拟访问网站适配器***,其特征在于所述自动登录模块和抓取指定页面模块,需要采集访问登录页面及指定页面过程中网络数据包,分析网络数据包中页面HTTP请求过程中所需要的参数。
3.根据权利要求2所述的模拟访问网站适配器***,其特征在于所述页面HTTP请求过程中所需要的参数包括但不限于:请求页面的url、之前跳转url、cookie、post数据、useragent、contenttype、host。
4.根据权利要求3所述的模拟访问网站适配器***,其特征在于所述自动登录模块和抓取指定页面模块借助设计模式中的抽象工厂模式,将这些存在差异化的数据统一进行管理,能实现适配器程序对模拟HTTP请求过程的统一调度。
5.根据权利要求4所述的模拟访问网站适配器***,其特征在于该模块中抽象工厂的处理方法为:这些数据的差异来源是HTTP请求中附带上去的post数据中,对于POST方式的请求,这些数据就存在与请求的头部post参数中,对于GET请求方式,这些数据就直接存在于请求的URL中,这里统一称为postdata,主要是登录模块中的用户名和密码信息,抓取指定页面中需要提交的日期和渠道号;利用ITAG通过该抽象类的getValue()方法进行数据的填充,同时在数据库中会以一个标签的形式去管理这些数据,在适配器程序中通过TAGManager对这些标签进行解析;带有标签的数据在数据库中的组织形式如下:UserName=[TAG_USER]&UserPass=[TAG_PWD]。
6.根据权利要求5所述的模拟访问网站适配器***,其特征在于TAGManager.cs中对数据库中带TAG标签的数据处理,在处理完自动登录和抓取指定页面数据后,在适配器程序中模拟HTTP请求,去获取相关的信息。
7.根据权利要求6所述的模拟访问网站适配器***,其特征在于页面抓取后,将抓取到指定页面存储为HTML文件,页面解析和数据提取模块就是对HTML文件中的标签进行解析,提取这些标签中数据。
8.根据权利要求7所述的模拟访问网站适配器***,其特征在于提取标签的path可利用工具HtmlAgilityPackTester工具解析到指定的标签,然后获取该标签中的内容。
9.根据权利要求8所述的模拟访问网站适配器***,其特征在于对于解析出页面激活量的数据,借助工具HtmlAgility PackTester解析出来的path,解析完之后在数据提取模块中进行相关处理,存入到DB存储模块中的数据库对应的表中。
CN201810114765.6A 2018-02-06 2018-02-06 一种模拟访问网站适配器*** Active CN108256106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810114765.6A CN108256106B (zh) 2018-02-06 2018-02-06 一种模拟访问网站适配器***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810114765.6A CN108256106B (zh) 2018-02-06 2018-02-06 一种模拟访问网站适配器***

Publications (2)

Publication Number Publication Date
CN108256106A CN108256106A (zh) 2018-07-06
CN108256106B true CN108256106B (zh) 2021-11-02

Family

ID=62743787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810114765.6A Active CN108256106B (zh) 2018-02-06 2018-02-06 一种模拟访问网站适配器***

Country Status (1)

Country Link
CN (1) CN108256106B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941660B (zh) * 2019-12-13 2024-03-29 深圳前海环融联易信息科技服务有限公司 批量任务***方法、装置、计算机设备及存储介质
CN111125489B (zh) * 2019-12-25 2023-05-26 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377207A (zh) * 2012-04-17 2013-10-30 北京拓尔思信息技术股份有限公司 基于脚本引擎的微博用户关系采集方法
CN103490896A (zh) * 2013-09-16 2014-01-01 北京鹏宇成软件技术有限公司 多用户网站自动登录器及其实现方法
CN105204922A (zh) * 2014-06-30 2015-12-30 金电联行(北京)信息技术有限公司 一种数据采集平台客户端采集方法
CN106445986A (zh) * 2016-05-26 2017-02-22 成都好房通科技股份有限公司 一种用于解决二手房交易信息行业联网的方法及***
CN106447502A (zh) * 2016-07-27 2017-02-22 南京邮电大学 一种基于WeiPHP的校园微信服务平台
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106991188A (zh) * 2017-04-11 2017-07-28 焦点科技股份有限公司 一种高效的互联网动态数据自动筛选与抓取方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019386A1 (en) * 2007-07-13 2009-01-15 Internet Simplicity, A California Corporation Extraction and reapplication of design information to existing websites

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377207A (zh) * 2012-04-17 2013-10-30 北京拓尔思信息技术股份有限公司 基于脚本引擎的微博用户关系采集方法
CN103490896A (zh) * 2013-09-16 2014-01-01 北京鹏宇成软件技术有限公司 多用户网站自动登录器及其实现方法
CN105204922A (zh) * 2014-06-30 2015-12-30 金电联行(北京)信息技术有限公司 一种数据采集平台客户端采集方法
CN106445986A (zh) * 2016-05-26 2017-02-22 成都好房通科技股份有限公司 一种用于解决二手房交易信息行业联网的方法及***
CN106447502A (zh) * 2016-07-27 2017-02-22 南京邮电大学 一种基于WeiPHP的校园微信服务平台
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106991188A (zh) * 2017-04-11 2017-07-28 焦点科技股份有限公司 一种高效的互联网动态数据自动筛选与抓取方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
抓取网并提取网页中所需要的信息之C#版;crifan;《https://www.crifan.com/crawl_website_html_and_extract_info_using_csharp/》;20121123;博客正文 *
模拟登陆网站之C#版;crifan;《https://www.crifan.com/emulate_login_website_using_csharp/》;20130911;正文版本一 *
网页抓取,模拟登陆,抓取动态网页内容等过程中,所涉及的Headers信息,Cookie信息,POST数据的处理逻辑;crifan;《https://www.crifan.com/website_crawl_process_related_headers_cookies_post_data_handle_logic/》;20121204;博客正文 *

Also Published As

Publication number Publication date
CN108256106A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN104639653B (zh) 基于云架构的自适应方法及***
CN104636146B (zh) 一种可视化在线定制方法及***
CN101044463B (zh) 用于监视客户端-服务器架构的性能的方法和***
CN107135119B (zh) 一种业务响应跟踪及接口状态监控开发***
CN102819591B (zh) 一种基于内容的网页分类方法及***
CN109714187A (zh) 基于机器学习的日志分析方法、装置、设备及存储介质
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及***
CN108628748B (zh) 自动化测试管理方法和自动化测试管理***
CN107645562A (zh) 数据传输处理方法、装置、设备及***
CN107766509A (zh) 一种网页静态备份的方法和装置
CN107087001A (zh) 一种分布式的互联网重要地址空间检索***
CN113918526B (zh) 日志处理方法、装置、计算机设备和存储介质
CN108256106B (zh) 一种模拟访问网站适配器***
CN106598991A (zh) 一种使用会话方式实现与网站交互表单自动提取的网络爬虫***
CN107256276A (zh) 一种基于云平台的移动App内容安全获取方法及设备
CN109729044A (zh) 一种通用的互联网数据采集反反爬***及方法
CN106569951A (zh) 一种脱离页面的Web测试方法
CN108108445A (zh) 一种智能数据处理方法和***
CN106649342A (zh) 数据采集平台中数据处理的方法及装置
CN107168844A (zh) 一种性能监控的方法及装置
CN111651656A (zh) 一种基于代工模式的动态网页爬虫方法及***
CN116383061A (zh) 变电站站控***基础平台接口测试方法及相关装置
CN107104997A (zh) 一种重定向方法、终端及***
CN115269415A (zh) 一种基于仿真场景用例的接口测试***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Dingzhi Communication Co.,Ltd.

Address before: 518000 Room 601, 5th floor, a8 music building, 1002 Keyuan Road, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee before: SHENZHEN TOPWISE COMMUNICATION Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee after: SHENZHEN TOPWISE COMMUNICATION Co.,Ltd.

Country or region after: China

Address before: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Dingzhi Communication Co.,Ltd.

Country or region before: China