CN107977198A - 基于爬虫技术生成应用程序编程接口api的方法及装置 - Google Patents
基于爬虫技术生成应用程序编程接口api的方法及装置 Download PDFInfo
- Publication number
- CN107977198A CN107977198A CN201711398058.6A CN201711398058A CN107977198A CN 107977198 A CN107977198 A CN 107977198A CN 201711398058 A CN201711398058 A CN 201711398058A CN 107977198 A CN107977198 A CN 107977198A
- Authority
- CN
- China
- Prior art keywords
- data
- api
- application programming
- call
- programming interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于爬虫技术生成应用程序编程接口API的方法,包括根据目标数据的类型配置数据调用规则;根据所述数据调用规则配置接口规则,基于所述数据调用规则及所述接口规则生成应用程序编程接口API;将所述应用程序编程接口API发布至目标URL地址以供调用。本发明的基于爬虫技术生成应用程序编程接口API的方法及装置能够在不清楚原***的数据结构,不需要原开发人员提供接口的情况下在原始***中生成可实时调用的API接口,从而提供打通数据的通道,从而能够方便的获得原***的数据,有利于数据的有效利用。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于爬虫技术生成应用程序编程接口API的方法及装置。
背景技术
已知,在大数据时代的今天,数据的打通及利用尤为重要,但由于传统的各***、平台的开发环境不同,编写程序的源代码、内部工作机制细节差别很大,导致数据环境相对孤立,数据库字段及结构已无从理清,各个***中的数据成为了孤岛,这不利于企业利用网络推广自身服务,也不利于数据的有效利用,为了解决这个问题,不同***、平台的开发人员和需要使用数据的人员通过建立API(即应用程序编程接口),方便不同的人员根据需要调用自身***、平台中的服务或调取数据库中的对应数据,其中,API可以包括公开API或非公开API,公开API指任何人都可以调用的API,非公开API是指只有获得权限的人员才能调用的API,该人员通过调用该API获得相应的数据或服务。然而,API的生成及调用的相关操作较为专业,只有应用开发的专业人员能够完成,外行人或一般用户难以完成,而在众多***间生成供调用的API是一项巨大的工作,因此,如何在不清楚原***数据库结构、不知道原***的部署情况的情况下生成可以直接调用的API及说明文档成为了亟待解决的问题。
发明内容
针对现有技术中存在的缺陷,本发明实施例提供一种基于爬虫技术生成应用程序编程接口API的方法及装置。
为解决上述技术问题,本发明的实施例采用的技术方案是:
一种基于爬虫技术生成应用程序编程接口API的方法,包括:
根据目标数据的类型配置数据调用规则;
根据所述数据调用规则配置接口规则,
基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
将所述应用程序编程接口API发布至目标URL地址以供调用。
作为优选,所述目标数据为通过html语言的xpath语法或正则表达式在待爬取数据的原始URL地址下爬取得到。
作为优选,所述目标数据的类型包括文章标题、时间、链接、详情及隐藏属性。
作为优选,所述数据调用规则为:在进行数据调用时调用至少一种类型的所述目标数据。
作为优选,所述接口规则为与所述数据调用规则对应的名称及调用参数。
一种基于爬虫技术生成应用程序编程接口API的装置,包括:
配置模块,其用于根据目标数据的类型配置数据调用规则;以及根据所述数据调用规则配置接口规则;
API生成模块,其用于基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
API发布模块,其用于将所述应用程序编程接口API发布至目标URL地址以供调用。
作为优选,所述目标数据为通过html语言的xpath语法或正则表达式在待爬取数据的原始URL地址下爬取得到。
作为优选,所述目标数据的类型包括:文章标题、时间、链接、详情及隐藏属性。
作为优选,所述数据调用规则为:在进行数据调用时调用至少一种类型的所述目标数据。
作为优选,所述接口规则为与所述数据调用规则对应的名称及调用参数。
与现有技术相比,本发明的实施例提供的基于爬虫技术生成应用程序编程接口API的方法及装置能够在不清楚原***的数据结构,不需要原开发人员提供接口的情况下在原始***中生成可实时调用的API接口,从而提供打通数据的通道,从而能够方便的获得原***的数据,有利于数据的有效利用。
附图说明
图1为本发明的实施例的方法步骤示意图;
图2为本发明的实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施例提供一种基于爬虫技术生成应用程序编程接口API的方法,能够在不清楚原***底层数据结构及部署的情况下将原***的数据生成可调用的API及说明文档,打破了数据孤岛,为数据的有效利用和数据打通提供了便利,其具体包括以下步骤:
步骤1:根据目标数据的类型配置数据调用规则;
步骤2:根据所述数据调用规则配置接口规则;
步骤3:基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
步骤4:将所述应用程序编程接口API发布至目标URL地址以供调用。
具体的,需要调用相应数据的人员可以在不了解原始***的数据结构的前提下也可以通过调用参数通过所发布的应用成熟变成接口API调用相应的目标数据,从而便于打通各***间的数据通道。
具体的,以在windows***下爬取某网站的某一页面中的数据并生成应用程序编程接口API为例,首先需要知道该页面的网页URL地址,该页面可以显示文章列表,也可以是文章详情,通过爬虫技术,将该页面内的目标数据进行爬取,每一个类型的目标数据可以生成与其对应的API,例如标题API,正文API,摘要API等,具体的目标数据可以是该页面内的所有数据。
具体的,本实施例中,可以通过html语言的xpath语法或正则表达式爬取所述原始URL地址下的目标数据。当然,也可以通过其他方式或工具进行爬虫式抓取,例如,Jsoup、Watij、Selenium、Webspec等。
具体的,本实施例中,所述目标数据的类型可以包括文章标题、时间、链接、详情及隐藏属性,也可以是其他类型,在此不一一赘述。
具体的,所述数据调用规则为:在进行数据调用时调用至少一种类型的目标数据。
优选的,所述接口规则为与所述数据调用规则对应的名称及调用参数。
具体实施时,举例说明,本发明的技术方案可以爬取原***或原平台中的数据,并生成相应的可以用于其他***或平台的API,用户在其他***或平台调用这些API时,就能够获取原***中的数据,而不用了解原***或平台的结构。对于一些非公开***,则可以通过设置相应的cookies或通过用户名及密码方式提供准入许可,即只有拥有权限的用户能够使用这些API调取数据,通过这样的方式,能够打通不同***、平台间的数据通道,便于数据的使用及提取。
进一步的,本实施例还提供一种基于爬虫技术生成应用程序编程接口API的装置,包括:
配置模块,其用于根据目标数据的类型配置数据调用规则;以及根据所述数据调用规则配置接口规则;
API生成模块,其用于基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
API发布模块,其用于将所述应用程序编程接口API发布至目标URL地址以供调用。
具体的,所述目标数据为通过html语言的xpath语法或正则表达式爬取所述原始URL地址下的目标数据。当然,也可以通过其他方式或工具进行爬虫式抓取,例如,Jsoup、Watij、Selenium、Webspec等。
具体的,本实施例中,所述目标数据的类型包括:文章标题、时间、链接、详情及隐藏属性,也可以是其他已知类型,在此不一一赘述。
具体的,所述数据调用规则为:在进行数据调用时调用至少一种类型的所述目标数据。
优选的,所述接口规则为与所述数据调用规则对应的名称及调用参数。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种基于爬虫技术生成应用程序编程接口API的方法,其特征在于,包括:
根据目标数据的类型配置数据调用规则;
根据所述数据调用规则配置接口规则;
基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
将所述应用程序编程接口API发布至目标URL地址以供调用。
2.根据权利要求1所述的方法,其特征在于,所述目标数据为通过html语言的xpath语法或正则表达式在待爬取数据的原始URL地址下爬取得到。
3.根据权利要求1所述的方法,其特征在于,所述目标数据的类型包括文章标题、时间、链接、详情及隐藏属性。
4.根据权利要求3所述的方法,其特征在于,所述数据调用规则为:在进行数据调用时调用至少一种类型的所述目标数据。
5.根据权利要求4所述的方法,其特征在于,所述接口规则为与所述数据调用规则对应的名称及调用参数。
6.一种基于爬虫技术生成应用程序编程接口API的装置,其特征在于,包括:
配置模块,其用于根据目标数据的类型配置数据调用规则;以及根据所述数据调用规则配置接口规则;
API生成模块,其用于基于所述数据调用规则及所述接口规则生成应用程序编程接口API;
API发布模块,其用于将所述应用程序编程接口API发布至目标URL地址以供调用。
7.根据权利要求6所述的装置,其特征在于,所述目标数据为通过html语言的xpath语法或正则表达式在待爬取数据的原始URL地址下爬取得到。
8.根据权利要求6所述的装置,其特征在于,所述目标数据的类型包括:文章标题、时间、链接、详情及隐藏属性。
9.根据权利要求8所述的装置,其特征在于,所述数据调用规则为:在进行数据调用时调用至少一种类型的所述目标数据。
10.根据权利要求9所述的装置,其特征在于,所述接口规则为与所述数据调用规则对应的名称及调用参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711398058.6A CN107977198A (zh) | 2017-12-21 | 2017-12-21 | 基于爬虫技术生成应用程序编程接口api的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711398058.6A CN107977198A (zh) | 2017-12-21 | 2017-12-21 | 基于爬虫技术生成应用程序编程接口api的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107977198A true CN107977198A (zh) | 2018-05-01 |
Family
ID=62007328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711398058.6A Pending CN107977198A (zh) | 2017-12-21 | 2017-12-21 | 基于爬虫技术生成应用程序编程接口api的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977198A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN113836450A (zh) * | 2021-11-30 | 2021-12-24 | 垒知科技集团四川有限公司 | 一种基于可视化操作获取xpath的数据接口生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102203736A (zh) * | 2011-05-20 | 2011-09-28 | 华为技术有限公司 | 开放应用程序编程接口调用方法及设备 |
US20120259890A1 (en) * | 2002-05-08 | 2012-10-11 | International Business Machines Corporation | Knowledge-based data mining system |
CN106484421A (zh) * | 2016-10-11 | 2017-03-08 | 武汉斗鱼网络科技有限公司 | 一种快速生成api接口的方法及*** |
-
2017
- 2017-12-21 CN CN201711398058.6A patent/CN107977198A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120259890A1 (en) * | 2002-05-08 | 2012-10-11 | International Business Machines Corporation | Knowledge-based data mining system |
CN102203736A (zh) * | 2011-05-20 | 2011-09-28 | 华为技术有限公司 | 开放应用程序编程接口调用方法及设备 |
CN106484421A (zh) * | 2016-10-11 | 2017-03-08 | 武汉斗鱼网络科技有限公司 | 一种快速生成api接口的方法及*** |
Non-Patent Citations (1)
Title |
---|
田飞雨: "爬取简书全站文章并生成api", 《HTTPS://WWW.JIANSHU.COM/P/C546C175B763》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN113836450A (zh) * | 2021-11-30 | 2021-12-24 | 垒知科技集团四川有限公司 | 一种基于可视化操作获取xpath的数据接口生成方法 |
CN113836450B (zh) * | 2021-11-30 | 2022-02-08 | 垒知科技集团四川有限公司 | 一种基于可视化操作获取xpath的数据接口生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3060362A1 (en) | Editing a database during preview of a virtual web page | |
US11487932B2 (en) | User interface for building an enhanced data orchestration enterprise service bus | |
US10866791B2 (en) | Transforming non-Apex code to Apex code | |
US20170103167A1 (en) | Blockchain system for natural language processing | |
CN101454779B (zh) | 基于搜索的应用开发框架 | |
US8065655B1 (en) | System and method for the autogeneration of ontologies | |
US20030097383A1 (en) | Enterprise privacy system | |
US20080195622A1 (en) | Service provisioning system | |
US8250041B2 (en) | Method and apparatus for propagation of file plans from enterprise retention management applications to records management systems | |
Yang et al. | Powerstation: Automatically detecting and fixing inefficiencies of database-backed web applications in ide | |
Lamela Seijas et al. | Towards property-based testing of restful web services | |
CN110231936A (zh) | 一种移动端流程引擎框架及移动端流程引擎的使用方法 | |
CN107977198A (zh) | 基于爬虫技术生成应用程序编程接口api的方法及装置 | |
CN108228762A (zh) | 用于配置主数据库通用模板的方法和*** | |
KR101902191B1 (ko) | 질의 기반 소프트웨어 논리의 동적 변경 및 실행을 위한 멀티테넌트 지원 장치 및 방법 | |
Veeramani et al. | Abstract syntax tree based unified modeling language to object oriented code conversion | |
CN104699814A (zh) | 热点信息的搜索方法及*** | |
Seetoh et al. | Framing risk in pandemic influenza policy and control | |
Masuda et al. | Direction of digital it and enterprise architecture | |
US20210174302A1 (en) | Data provisioning system and method | |
Athaiya | Inferring page models for web application analysis | |
Liu et al. | Ergodicity of a Nonlinear Stochastic SIRS Epidemic Model with Regime‐Switching Diffusions | |
US11321093B1 (en) | Multilayered generation and processing of computer instructions | |
Konsynski Jr | A model of computer-aided definition and analysis of information system requirements. | |
US11836496B2 (en) | Multilayered generation and processing of computer instructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180501 |