CN111666466A - 防止爬虫的方法、***、装置和计算机可读存储介质 - Google Patents

防止爬虫的方法、***、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111666466A
CN111666466A CN201910170804.9A CN201910170804A CN111666466A CN 111666466 A CN111666466 A CN 111666466A CN 201910170804 A CN201910170804 A CN 201910170804A CN 111666466 A CN111666466 A CN 111666466A
Authority
CN
China
Prior art keywords
text
web page
mapping information
pieces
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910170804.9A
Other languages
English (en)
Inventor
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910170804.9A priority Critical patent/CN111666466A/zh
Publication of CN111666466A publication Critical patent/CN111666466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种防止爬虫的方法、***、装置和计算机可读存储介质。所述方法应用于服务器端和客户端。服务器端的方法将待显示文本分割为多段文本,然后改变该多段文本在原文本中的排序,根据改变后的排序组织多段文本,以得到web页面,此时web页面的相应内容已经是乱序文本,最终将加密后的顺序映射信息和web页面同时发送给客户端。客户端的方法接收映顺序映射信息的密文和web页面,然后通过浏览器渲染并输出web页面到显示屏上,接着根据顺序映射信息修正显示屏上显示的web页面中的乱序文本,从而得到包含正确文本的web页面。由于爬虫***一般只爬取初始的web页面,因此达到防止爬虫的目的。

Description

防止爬虫的方法、***、装置和计算机可读存储介质
技术领域
本发明涉及互联网领域,具体涉及一种防止爬虫的方法、***、装置和计算机可读存储介质。
背景技术
目前网络爬虫程序日渐猖獗,很多网站的独家资源,经常被爬虫程序抓取,造成一定损失。例如,电商网站的价格信息,门户网站的原创文章等。
为了保护这些资源不被程序批量抓取,通常会采用以下三种方式增大数据爬取难度,最大限度防止爬虫:
第一种方法是将文字转换为图片,在浏览器中显示图片,防止爬虫程序直接抓取文字;
第二种方法是访问特定文章时,增加验证码,需要人工输入后才可看到内容;
第三种方法是从后端服务API获取数据后,使用javascript动态渲染网页。
然而,以上三种防止数据爬虫的方法,各有缺点。第一种方法将文字转换图片需要耗费一定的服务器资源,图片传输也消耗较大网络带宽,增加了用户等待时长。文字的样式(字体、字号等)需要在后端转换时确定,前端使用CSS(Cascading Style Sheets,层叠样式表)无法调整,不够灵活。图片中的文字可使用OCR(Optical Character Recognition,光学字符识别)技术识别破解;第二种方法通过验证码验证,每次阅读时都需要用户输入验证码,用户体验很差;第三种方法虽然通过javascript动态渲染网页,但爬虫可以分析后台服务API接口,直接从后台API爬取数据,如果后台接口不做加密处理,爬取更简单。
发明内容
有鉴于此,本发明实施例提供一种防止爬虫的方法、***、装置和计算机存储可读介质,以解决背景技术中存在的问题。
第一方面,本发明实施例提供一种防止爬虫的方法,应用于服务器端,所述方法包括:
将待显示文本分割成多段文本;
改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在所述待显示文本中排序的对应关系;
加密所述顺序映射信息;
按照改变后的排序组织所述多段文本,以得到web页面;以及
发送所述web页面和所述顺序映射信息的密文。
在一些实施例中,采用对称算法或非对称算法加密所述顺序映射信息。
在一些实施例中,所述组织所述多段文本,以得到web页面包括:
按照特定标记组织所述多段文本,以得到web页面。
在一些实施例中,所述组织所述多段文本,以得到web页面包括:
在所述web页面中,采用html的特定标签标记所述多段文本的每段文本。
在一些实施例中,则所述方法还包括:加密所述特定标记并发送密文。
第二方面,本发明实施例提供一种防止爬虫的方法,应用于客户端,,所述方法包括:
接收顺序映射信息的密文和web页面;
在浏览器中渲染并输出web页面;
对所述顺序映射信息的密文进行解密;以及
根据所述顺序映射信息更正所述web页面中多段文本的排序。
在一些实施例中,还包括:接收并解密所述特定标记的密文,所述根据所述顺序映射信息更正所述web页面中多段文本的排序包括:在所述web页面中定位所述特定标记,所述根据所述顺序映射信息更正所述特定标记对应的文本内容。
在一些实施例中,所述根据所述顺序映射信息更正所述web页面中多段文本的排序包括:在所述web页面中定位html的特定标签,所述根据所述顺序映射信息更正所述html的特定标签对应的文本内容。
在一些实施例中,当在浏览器中渲染并输出web页面时,将其中包含的所述多段文本隐藏,并在根据所述顺序映射信息更正所述web页面中多段文本的排序时,显示更正后的所述多段文本。
在一些实施例中,当在浏览器中渲染并输出web页面时,将其中包含的所述多段文本隐藏后,则在所述多段文本的位置处输出特定内容,并在根据所述顺序映射信息更正所述web页面中多段文本的排序时,以更正后的所述多段文本替换所述特定内容。
第三方面,本发明实施例提供一种防止爬虫的***,应用于服务器端,所述***包括:
分割模块,用于将待显示文本分割成多段文本;
乱序模块,用于改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在所述待显示文本中排序的对应关系;
加密模块,用于加密所述顺序映射信息;
创建模块,基于按照改变后的排序组织所述多段文本,以得到web页面;以及
发送模块,用于发送所述web页面和所述顺序映射信息的密文。
在一些实施例中,所述创建模块包括:
在所述web页面中,按照特定标记组织所述多段文本,以得到web页面。
在一些实施例中,所述创建模块包括:
在所述web页面中,采用html的特定标签标记所述多段文本的每段文本。
第四方面,本发明实施例提供一种防止爬虫的***,应用于客户端,,所述***包括:
接收模块,用于接收web页面和顺序映射信息的密文;
解密模块,用于对所述顺序映射信息的密文进行解密;
更正模块,用于根据所述顺序映射信息更正所述web页面中多段文本的排序;
渲染模块,用于在浏览器中渲染并输出web页面。
在一些实施例中,所述渲染模块将所述web页面中包含的所述多段文本隐藏,则所述更正模块在根据所述顺序映射信息更正所述web页面中多段文本的排序时,显示更正后的所述多段文本。
在一些实施例中,所述渲染模块将所述web页面包含的所述多段文本隐藏后,在所述多段文本的位置处输出特定内容,所述更正模块在根据所述顺序映射信息更正所述web页面中多段文本的排序时,以更正后的所述多段文本替换所述特定内容。
第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述第一方面提供的所述的防止爬虫的方法。
第六方面,本发明实施例提供一种防止爬虫的装置,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现上述第一方面所述的防止爬虫的方法。
第七方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述第二方面提供的所述的防止爬虫的方法。
第八方面,本发明实施例提供一种防止爬虫的装置,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现上述第二方面所述的防止爬虫的方法。
本发明实施例具有以下优点或有益效果:通过客户端和服务器端的配合,首先在显示屏上输出包含乱序文本的web页面,然后由前端脚本根据顺序映射信息更正web页面中的多段文本的顺序,从而确保爬虫***不能爬取到正确的内容。
附图说明
通过参照以下附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1所示是WEB***部署的结构示意图;
图2a-2b所示分别为本发明实施例的客户端和服务器端的防止爬虫的方法的流程图;
图3所示为现有的浏览器渲染过程的示意图。
图4所示是本发明一个实施例的防止爬虫的方法的示例;
图5a-5b所示是本发明另一实施例的客户端和服务器端的防止爬虫的方法的流程图;
图6所示是防止爬虫的***的客户端和服务器端的结构示意图;
图7是根据本发明实施例的防止爬虫的装置的结构图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
图1所示是WEB***部署的结构示意图,包括多个终端和服务器,每个终端上部署有WEB***的客户端,服务器130上部署有WEB***的服务器端。为方便起见,图1中只示出了两个终端101和终端102。如图1所示,101和102分别部署了***的客户端。WEB***的客户端接收用户请求,并将用户请求发送给服务器端,服务器端根据用户请求将web页面发送给客户端展示。爬虫***一般通过模拟浏览器发送请求,并从返回的web页面中获取其中的文本内容。
为了防止web页面的文本内容被爬虫***爬取,本发明实施例提供一种防止爬虫的方法,结合服务器端和客户端的步骤使得爬虫***只能爬取到乱序文本。图2a-2b所示分别为本发明实施例的客户端和服务器端的防止爬虫的方法的流程图。
参见图2a,服务器端具体包括以下步骤。
在步骤S201中,将待显示文本分割成多段文本。
在步骤S202中,改变多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后多段文本在待显示文本中的排序的对应关系。
在步骤S203中,加密顺序映射信息。
在步骤S204中,按照改变后的排序组织多段文本,以得到web页面。
在步骤S205中,发送web页面和顺序映射信息的密文。
在本实施例中,服务器端生成web页面。
在本实施例中,待显示文本为需要在web页面显示的部分或全部文本内容。例如,为了提高处理速度,只对重要文本内容进行上述处理,对于其他不重要的内容不进行上述处理。
根据本实施例,首先将待显示文本分割为多段文本,然后改变该多段文本在原文本中的排序,根据改变后的排序组织多段文本,以得到web页面,此时web页面的相应内容已经是乱序文本,最终将加密后的顺序映射信息和web页面同时发送给客户端。
关于客户端的步骤具体参见图2b。参见图2b,客户端的步骤具体包括以下步骤。
在步骤S201’中,接收顺序映射信息的密文和web页面。
在步骤S202’中,在浏览器中渲染并输出web页面。
在步骤S203’中,对顺序映射信息的密文进行解密。
在步骤S204’中,根据顺序映射信息更正web页面中多段文本的排序。
在本实施例中,客户端先接收映射信息的密文和web页面,然后通过浏览器渲染并输出web页面到显示屏上,此时浏览器输出的web页面是一个包含乱序文本的web页面,然后调用设置在web页面中的脚本,该脚本对顺序映射信息进行解密,根据顺序映射信息修正显示屏上显示的web页面中的乱序文本,从而得到包含正确文本的web页面。
关于步骤S202’中所述的浏览器渲染的过程参见图3。如图3所示,浏览器在接收到一个web页面之后,经步骤301解析web页面以构建DOM树、经步骤302构建render树、经步骤303布局render树和经步骤304绘制render树,最终实现在显示屏上输出web页面。浏览器渲染的技术为现有技术,这里就不再详述。
根据上述实施例,当爬虫***模拟浏览器向服务器端发送请求时,返回的web页面包含乱序文本,一般爬虫***会将包含乱序文本的web页面爬走,从而达到了防止爬虫的目的。然而,由于上述客户端的实施例,先通过浏览器渲染并输出web页面,因此用户有可能在瞬间看到的是乱序文本,然后又被修正。为了避免用户看到乱序文本,可以在输出web页面时,通过css隐藏乱序文本,或者在乱序文对应的位置处输出一个特定内容,然后在通过脚本将乱序文本更正过来输出到对应的位置。
图4所示是本发明一个实施例的防止爬虫的方法的示例。
在本示例中,服务器端采用“这是一段示例文本”作为待显示文本。在服务器端,将该文本拆分为3段分别为”这是”,“一段示”和“例文本”,序号1、2和3分别表示他们在原文本中的排序,然后将这段文本的顺序打乱,从而得到乱序文本“例文本这是一段示”,同时记录顺序打乱之前和之后的3段文本排序的对应关系,即为1(3)、2(1)和3(2)。将上述对应关系加密得到加密后的密文。该密文和乱序文本“例文本这是一段示”的web页面一同发送给客户端。客户端接收到web页面之后,通过浏览器渲染输出乱序文本“例文本这是一段示”,然后前端脚本对密文进行解密,得到映射关系,根据映射关系将web页面中的乱序文本的顺序修改正确。
上述实施例中的web页面可以基于任意一种编程语言。目前主流的web页面为html页面。下面给出一个正常的html页面的源码。
<web>
<head>
<title>我的第一个WEB页面</title>
</head>
<body>
<p>这是一个示例</p>
</body>
</web>
可以看到,该html页面由标签和内容组成。下面是一个“这是一个示例”文本的内容打乱后的html页面的源码。
<web>
<head>
<title>我的第一个WEB页面</title>
</head>
<body>
<p>示例这是一个</p>
</body>
</web>
按照上述示例,根据打乱顺序的文本“示例这是一个”和顺序映射信息是无法得到正确文本“这是一个示例”。为了解决这个问题,一个可选的实施例在html页面中采用html的特定标签组织多段文本,例如,上述的html页面的源码变为:
<web>
<head>
<title>我的第一个WEB页面</title>
</head>
<body>
<p>示例</p>
<p>这是一个</p>
</body>
</web>
客户端和服务器可以事先约定,标签<p>用于表示被打乱顺序的文本。因此,当客户端接收到html页面时,定位到<p>,得到打乱顺序的多段文本。当然,本发明不局限于此。另一个可选的实施例中,采用一个特定标记组织多段文本。特定标记例如<>,|,(),&&等等。采用<>得到如下的html页面的源码如下所示:
<head>
<title>我的第一个WEB页面</title>
</head>
<body>
<p><示例><这是一个></p>
</body>
综上可知,web页面需包含指示多段文本的标记信息,才能使发送到客户端的web页面得到正确解析。
图5a-5b所示是本发明另一实施例的客户端和服务器端的防止爬虫的方法的流程图。
参见图5a,具体包括以下步骤。
在步骤S501中,将待显示文本分割成多段文本。
在步骤S502中,改变多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在待显示文本中的排序的对应关系。
在步骤S503中,加密顺序映射信息。
在步骤S504中,在web页面中,采用特定标记标记多段文本的每段文本。
在步骤S505中,发送web页面和顺序映射信息的密文。
在步骤S506中,加密特定标记。
在步骤S507中,发送特定标记的密文。
参见图5b,具体包括以下步骤。
在步骤S501’中,接收顺序映射信息的密文和web页面。
在步骤S502’中,接收特定标记的密文。
在步骤S503’中,在浏览器中渲染并输出web页面。
在步骤S504’中,对顺序映射信息的密文进行解密。
在步骤S505’中,解密特定标记的密文。
在步骤S506’中,定位特定标记,根据顺序映射信息更正web页面中多段文本的排序。
本实施例和实施例2a-2b的不同之处在于,服务器端和客户端没有在先约定如何标记多段文本,而是由服务器端采用一特定标记进行标记,然后服务器端会将该特定标记加密后发送给客户端,客户端接收到该特定标记的密文之后,解密得到该标记,并在web页面中定位该标记,根据顺序映射信息更正web页面中该标记对应的内容。
图6所述是防止爬虫的***的客户端和服务器端的结构示意图。该***600包括客户端602和服务器端601。服务器端601包括以下模块。
分割模块6011用于将待显示文本分割成多段文本。
乱序模块6012用于改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在待显示文本中的排序的对应关系。
加密模块6013用于加密所述顺序映射信息。
创建模块6014基于按照改变后的排序组织所述多段文本,以得到web页面。
发送模块6015用于发送web页面和顺序映射信息的密文。
作为示例,创建模块在创建web页面时,可以按照特定标记组织所述多段文本,以得到web页面。特定标记包括但不限于上文提及的标记。同理,创建模块也可以在在web页面中,采用html的特定标签标记所述多段文本的每段文本。Html的特定标签包括但不限于<body>、<p>、<tr>、<span>,当然,也不限定采用的标签的数量,例如,可以采用两个或以上的特定标签。
客户端602包括以下模块。
接收模块6021用于接收web页面和顺序映射信息的密文。
解密模块6022用于对顺序映射信息的密文进行解密。
更正模块6023用于根据顺序映射信息更正web页面中多段文本的排序。
渲染模块6024用于在浏览器中渲染并输出web页面。
作为示例,渲染模块6024可以将web页面中包含的多段文本隐藏,然后由更正模块6023将隐藏的多段文本显示。同理,渲染模块6024将web页面包含的多段文本隐藏后,在多段文本输出特定内容,然后由更正模块6023将显示的特定内容替换为隐藏的多段文本。
综上,本发明提供的防止爬虫的***通过客户端和服务器端的配合,首先在显示屏上输出包含乱序文本的web页面,然后由前端脚本根据顺序映射信息更正web页面中的多段文本的顺序。这样,虽然用户可能在某一个瞬间看到的是乱序后的web页面,但是这个时间很短对用户体验影响很小,而且能够确保爬虫***不能爬取到正确的内容。
在一个可选的实施例中,接收模块6021接收特定标记的密文,解密模块对特定标记的密文进行解密,更正模块6023包括:在web页面中定位特定标记,根据顺序映射信息更正特定标记对应的文本内容。
在另一个可选的实施例中,接收模块6021接收特定标签的密文,解密模块对特定标签的密文进行解密,更正模块包括:在web页面中定位特定标签,根据顺序映射信息更正特定标签对应的文本内容。
应该指出,在本文中所指的加密方法可以是对称算法或非对称算法。在对称加密算法中,使用的密钥只有一个,发送方和接收方都使用这个密钥对数据进行加密和解密,这就要求双方事先必须知道加密密钥。非对称加密算法中,加密和解密使用的是两个不同的密钥。非对称加密算法实现机密信息交换的基本过程是:甲方生成一对密钥并将其中的一把作为公用密钥向其它方公开;得到该公用密钥的乙方使用该密钥对机密信息进行加密后再发送给甲方;甲方再用自己保存的另一把专用密钥对加密后的信息进行解密。
在本发明中,客户端和服务器端可以约定一种加密算法,以及相应的秘钥获取方式,然后在上述的方法和***中使用秘钥。例如,服务器端和客户端可以约定采用对称加密算法,服务器端定期产生一个秘钥,并发送给客户端作为两端进行加密传输的秘钥。
图7是根据本发明第六实施例的防止爬虫的装置的结构图。图7示出的设备仅仅是一个示例,不应对本发明实施例的功能和使用范围构成任何限制。
参考图7,该装置包括通过总线连接的处理器701、存储器702和输入输出设备703。存储器702包括只读存储器(ROM)和随机访问存储器(RAM),存储器702内存储有执行***功能所需的各种计算机指令和数据,处理器701从存储器702中读取各种计算机指令以执行各种适当的动作和处理。输入输出设备包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。存储器702还存储有客户端或服务器端的计算机指令以完成本发明实施例的装置规定的操作。其中,客户端的计算机指令包括:将待显示文本分割成多段文本;改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在所述待显示文本中的排序的对应关系;加密所述顺序映射信息;按照改变后的排序组织所述多段文本,以得到web页面;以及发送所述web页面和所述顺序映射信息的密文。服务器端的计算机指令包括:接收顺序映射信息的密文和web页面;在浏览器中渲染并输出web页面;对所述顺序映射信息的密文进行解密;以及根据所述顺序映射信息更正所述web页面中多段文本的排序。
相应地,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令被执行时实现客户端或服务器端的方法所规定的操作。
附图中的流程图、框图图示了本发明实施例的***、方法、装置的可能的体系框架、功能和操作,流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码,模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意,实现规定逻辑功能的可执行指令可以重新组合,从而创建新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤,而不应以此作为对发明本身的限制。
***的各个模块或单元可以通过硬件、固件或软件实现。软件例如包括采用JAVA、C/C++/C#、SQL等各种编程语言形成的编码程序。虽然在方法以及方法图例中给出本发明实施例的步骤以及步骤的顺序,但是步骤实现规定的逻辑功能的可执行指令可以重新组合,从而创建新的步骤。步骤的顺序也不应该仅仅局限于方法以及方法图例中的步骤顺序,可以根据功能的需要随时进行调整。例如将其中的某些步骤并行或按照相反顺序执行。
根据本发明的***和方法可以部署在单个或多个服务器上。例如,可以将不同的模块分别部署在不同的服务器上,形成专用服务器。或者,可以在多个服务器上分布式部署相同的功能单元、模块或***,以减轻负载压力。服务器包括但不限于在同一个局域网以及通过Internet连接的多个PC机、PC服务器、刀片机、超级计算机等。
以上仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种防止爬虫的方法,应用于服务器端,其特征在于,所述方法包括:
将待显示文本分割成多段文本;
改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在所述待显示文本中排序的对应关系;
加密所述顺序映射信息;
按照改变后的排序组织所述多段文本,以得到web页面;以及
发送所述web页面和所述顺序映射信息的密文。
2.根据权利要求1所述的方法,其特征在于,采用对称算法或非对称算法加密所述顺序映射信息。
3.根据权利要求1所述的方法,其特征在于,所述组织所述多段文本,以得到web页面包括:
按照特定标记组织所述多段文本,以得到所述web页面。
4.根据权利要求1所述的方法,其特征在于,所述组织所述多段文本,以得到web页面包括:
在所述web页面中,采用html的特定标签标记所述多段文本的每段文本。
5.根据权利要求3所述的方法,其特征在于,则所述方法还包括:加密所述特定标记并发送密文。
6.一种防止爬虫的方法,应用于客户端,其特征在于,所述方法包括:
接收顺序映射信息的密文和web页面;
在浏览器中渲染并输出web页面;
对所述顺序映射信息的密文进行解密;以及
根据所述顺序映射信息更正所述web页面中多段文本的排序。
7.根据权利要求7所述的方法,其特征在于,还包括:接收并解密所述特定标记的密文,所述根据所述顺序映射信息更正所述web页面中多段文本的排序包括:在所述web页面中定位所述特定标记,所述根据所述顺序映射信息更正所述特定标记对应的文本内容。
8.根据权利要求6所述的方法,其特征在于,所述根据所述顺序映射信息更正所述web页面中多段文本的排序包括:在所述web页面中定位html的特定标签,所述根据所述顺序映射信息更正所述html的特定标签对应的文本内容。
9.根据权利要求6所述的方法,其特征在于,当在浏览器中渲染并输出web页面时,将其中包含的所述多段文本隐藏,并在根据所述顺序映射信息更正所述web页面中多段文本的排序时,显示更正后的所述多段文本。
10.根据权利要求6所述的方法,其特征在于,当在浏览器中渲染并输出web页面时,将其中包含的所述多段文本隐藏后,则在所述多段文本的位置处输出特定内容,并在根据所述顺序映射信息更正所述web页面中多段文本的排序时,以更正后的所述多段文本替换所述特定内容。
11.一种防止爬虫的***,应用于服务器端,其特征在于,所述***包括:
分割模块,用于将待显示文本分割成多段文本;
乱序模块,用于改变所述多段文本的排序,并记录顺序映射信息,所述顺序映射信息用于表示改变前和改变后所述多段文本在所述待显示文本中排序的对应关系;
加密模块,用于加密所述顺序映射信息;
创建模块,基于按照改变后的排序组织所述多段文本,以得到web页面;
发送模块,用于发送所述web页面和所述顺序映射信息的密文。
12.根据权利要求11所述的***,其特征在于,所述创建模块包括:
在所述web页面中,按照特定标记组织所述多段文本,以得到所述web页面。
13.根据权利要求11所述的***,其特征在于,所述创建模块包括:
在所述web页面中,采用html的特定标签标记所述多段文本的每段文本。
14.一种防止爬虫的***,应用于客户端,其特征在于,所述***包括:
接收模块,用于接收web页面和顺序映射信息的密文;
解密模块,用于对所述顺序映射信息的密文进行解密;
更正模块,用于根据所述顺序映射信息更正所述web页面中多段文本的排序;
渲染模块,用于在浏览器中渲染并输出web页面。
15.根据权利要求14所述的***,其特征在于,所述渲染模块将所述web页面中包含的所述多段文本隐藏,则所述更正模块在根据所述顺序映射信息更正所述web页面中多段文本的排序时,显示更正后的所述多段文本。
16.根据权利要求14所述的***,其特征在于,所述渲染模块将所述web页面包含的所述多段文本隐藏后,在所述多段文本的位置处输出特定内容,所述更正模块在根据所述顺序映射信息更正所述web页面中多段文本的排序时,以更正后的所述多段文本替换所述特定内容。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求1至5中任一项所述的方法。
18.一种防止爬虫的装置,其特征在于,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现如权利要求1至5中任一项所述的方法。
19.一种防止爬虫的装置,其特征在于,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现如权利要求6至10中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求6至10中任一项所述的方法。
CN201910170804.9A 2019-03-07 2019-03-07 防止爬虫的方法、***、装置和计算机可读存储介质 Pending CN111666466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910170804.9A CN111666466A (zh) 2019-03-07 2019-03-07 防止爬虫的方法、***、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910170804.9A CN111666466A (zh) 2019-03-07 2019-03-07 防止爬虫的方法、***、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111666466A true CN111666466A (zh) 2020-09-15

Family

ID=72381970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910170804.9A Pending CN111666466A (zh) 2019-03-07 2019-03-07 防止爬虫的方法、***、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111666466A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182603A (zh) * 2020-09-22 2021-01-05 建信金融科技有限责任公司 反爬虫方法和装置
CN112214784A (zh) * 2020-11-30 2021-01-12 北京蜜莱坞网络科技有限公司 资源处理方法、装置、电子设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182603A (zh) * 2020-09-22 2021-01-05 建信金融科技有限责任公司 反爬虫方法和装置
CN112182603B (zh) * 2020-09-22 2022-12-13 中国建设银行股份有限公司 反爬虫方法和装置
CN112214784A (zh) * 2020-11-30 2021-01-12 北京蜜莱坞网络科技有限公司 资源处理方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN105577684B (zh) 防爬虫抓取的方法、服务端、客户端和***
CN109543454B (zh) 一种反爬虫方法及相关设备
US20030159030A1 (en) Method and system for the secure transmission of a portion of a web page over a computer network
Mohamed An improved algorithm for information hiding based on features of Arabic text: A Unicode approach
CN106685905A (zh) 加密传输网页的***和方法
CN106982307B (zh) 一种传输数据的方法及传输数据的装置
KR20110084295A (ko) 제공 장치, 시스템, 서버 장치, 프로그램 및 방법
US20180359226A1 (en) Message encryption
US9569554B2 (en) System and computer-implemented method for incorporating an image into a page of content for transmission over a telecommunications network
CN110968847A (zh) 一种文件水印隐藏、解析方法、装置、设备及存储介质
CN111666466A (zh) 防止爬虫的方法、***、装置和计算机可读存储介质
CN111881337B (zh) 一种基于Scrapy框架的数据采集方法、***及存储介质
CN114500093A (zh) 报文信息的安全交互方法及***
JP5969716B1 (ja) データ管理システム、データ管理プログラム、通信端末及びデータ管理サーバ
CN114386059A (zh) 网页文本混淆反爬虫方法、装置、电子设备及存储介质
CN104486301A (zh) 登录验证方法及装置
JP3541714B2 (ja) 画像表示装置
US20200358747A1 (en) Method of processing data
CN116827637B (zh) 基于画布的数据加密传输方法、***、设备及介质
CN109492657A (zh) 手写样本数字化方法、装置、计算机设备及存储介质
CN112182603B (zh) 反爬虫方法和装置
CN107241185A (zh) 数据传输与接收方法及传输与接收装置
US20200204640A1 (en) Pagelists for just-in-time transmission of digital documents
EP4391446A1 (en) Privacy shield
Jøsang et al. Robust WYSIWYS: a method for ensuring that what you see is what you sign

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination