CN108549693B - 基于爬虫技术的cms页面生成方法 - Google Patents

基于爬虫技术的cms页面生成方法 Download PDF

Info

Publication number
CN108549693B
CN108549693B CN201810333254.3A CN201810333254A CN108549693B CN 108549693 B CN108549693 B CN 108549693B CN 201810333254 A CN201810333254 A CN 201810333254A CN 108549693 B CN108549693 B CN 108549693B
Authority
CN
China
Prior art keywords
page
data
substation
cms
master station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810333254.3A
Other languages
English (en)
Other versions
CN108549693A (zh
Inventor
郑川旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Baozun eCommerce Ltd
Original Assignee
Shanghai Baozun eCommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Baozun eCommerce Ltd filed Critical Shanghai Baozun eCommerce Ltd
Priority to CN201810333254.3A priority Critical patent/CN108549693B/zh
Publication of CN108549693A publication Critical patent/CN108549693A/zh
Application granted granted Critical
Publication of CN108549693B publication Critical patent/CN108549693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于爬虫技术的CMS页面生成方法,包括以下步骤:步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;步骤S4.预览、发布页面,页面上线。其优点表现在:运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。

Description

基于爬虫技术的CMS页面生成方法
技术领域
本发明涉及互联网技术领域,具体地说,是基于爬虫技术的CMS页面生成方法。
背景技术
随着互联网的不断发展以及全球化趋势的愈见突现,网上商城的国际化逐渐被各大品牌公司所关注,“国际站”的概念逐渐被提出。国际站往往并非简单的独站多语言的形式,而是多站多内容的建立模式,每个站通常有自己独立的网站内容,以达到本土化的目的。
这种一个主站多个分站的模式已渐渐被各大品牌所采用,然而在日常网站内容更迭的过程中,很难做到分站与主站内容及时同步。主站更新时,往往都是通过网站运营人员手工制作的形式上线分站内容,该过程由于耗时耗力,且不可避免人为因素的影响。
中国专利文献CN201110409441.3,申请日20111209,专利名称为:一种 CMS内容订单***及实现方法,该方法包括:通过CMS门户生成内容订单,内容订单用于指示向目标业务***发布适合目标业务***格式要求的内容;依据所述内容订单判断是否存在符合目标业务***格式要求的子内容,若存在则直接生成内容发布任务,若不存在则自动生成转码任务,在转码任务成功完成后自动生成对应的内容发布任务;内容发布任务用于自动将所述内容订单指定的内容发布到目标业务***;转码任务用于自动执行文件格式转码,生成符合目标业务***格式要求的子内容。
上述专利文献通过创建内容订单,通过业务流程控制,自动实现目标业务***所要求子内容格式的转码以及对应内容的发布,实现针对目标业务***的内容自动下发,提高了发布效率,满足业务***运营需求。但是,关于一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的技术方案则无相应的公开。
综上所述,现有技术中,运营人员在国际主站内容发生更新时,均通过人工制作的形式来生成分站新内容,耗费人力以及时间,容易被人为因素影响,需要一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的基于爬虫技术的CMS页面生成方法,而关于这种方法目前还未见报道。
发明内容
本发明的目的是针对现有技术中的不足,提供一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的于爬虫技术的CMS页面生成方法。
为实现上述目的,本发明采取的技术方案是:
基于爬虫技术的CMS页面生成方法,其特征在于,所述方法包括以下步骤:
步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;
步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;
步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;
步骤S4.预览、发布页面,页面上线。
作为一种优选的技术方案,步骤S1中开发人员需要先了解主站各页面结构,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
作为一种优选的技术方案,步骤S2中运营人员在获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模班类型,然后将JSON 数据粘贴到左侧文本域内,点击“数据转换”即可完成数据转换,数据转换完成后,在分站会创建新的页面数据。
作为一种优选的技术方案,步骤S3中运营人员进行数据转换之后,在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,实现页面数据的人工再编辑。
作为一种优选的技术方案,步骤S4中点击预览和发布,对指定页面数据进行预览和发布,其中,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致,发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线,上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
本发明优点在于:
1、本发明的基于爬虫技术的CMS页面生成方法,运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。
附图说明
图1是本发明整体逻辑的流程图,用于了解本发明大致上的逻辑,以及流程走向。
图2是本发明的爬虫工具收集的主站数据,用于了解本发明对于页面的解释逻辑的示意图。
图3是本发明分站提供的数据转换接口,用于了解本发明对于数据转换的逻辑的示意图。
图4是本发明分站提供的数据编辑功能,用于了解本发明对于数据的人工再编辑逻辑的示意图。
图5是本发明分站提供的页面管理功能,用于了解本发明对于页面的预览的示意图。
图6是本发明分站提供的页面管理功能,用于了解本发明对于页面的发布逻辑的示意图。
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
请参照图1,图1为本发明基于爬虫技术的CMS页面生成方法的流程图。基于爬虫技术的CMS页面生成方法,所述方法包括以下步骤:
整个流程大致上分为4个部分:
1.开发人员预先编写好主站页面的爬虫工具;
2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据;
3.运营人员根据需求人工再修改;
4.预览、发布页面,页面上线。
首先第一部分:
开发人员需要先了解主站各页面结构,不同的页面往往包含不同的内容,同类页面包含类似页面结构,仅具体内容设置不同。在实际实施中,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
其次第二部分:
运营人员在获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模班类型,然后将JSON数据粘贴到左侧文本域内,点击“数据转换”即可完成数据转换,如图3所示。数据转换完成后,在分站会创建新的页面数据
第三部分:
运营人员进行数据转换之后,会在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,可以实现页面数据的人工再编辑,如图4所示。
第四部分:
点击图5中的预览和发布(见图6),可以对指定页面数据进行预览和发布,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致。另外发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线。上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
本发明的基于爬虫技术的CMS页面生成方法,运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (4)

1.基于爬虫技术的CMS页面生成方法,其特征在于,所述方法包括以下步骤:
步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;
步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;其中,运营人员获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模板类型,然后将JSON数据粘贴到左侧文本域内,再进行数据转换,页面生成;
步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;
步骤S4.预览、发布页面,页面上线。
2.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S1中开发人员需要先了解主站各页面结构,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
3.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S3中运营人员进行数据转换之后,在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,实现页面数据的人工再编辑。
4.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S4中点击预览和发布,对指定页面数据进行预览和发布,其中,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致,发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线,上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
CN201810333254.3A 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法 Active CN108549693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333254.3A CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333254.3A CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Publications (2)

Publication Number Publication Date
CN108549693A CN108549693A (zh) 2018-09-18
CN108549693B true CN108549693B (zh) 2022-07-08

Family

ID=63514698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333254.3A Active CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Country Status (1)

Country Link
CN (1) CN108549693B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697267B (zh) * 2018-12-12 2021-02-23 西安四叶草信息技术有限公司 Cms识别方法及装置
CN109710224B (zh) * 2019-01-17 2022-06-14 宜创(北京)科技有限公司 页面处理方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028B (zh) * 2010-12-10 2013-12-25 黄斌 一种网络爬虫***实现页面渲染功能的方法
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和***
US9152394B2 (en) * 2012-09-13 2015-10-06 International Business Machines Corporation Generating application model build artifacts
CN106202096A (zh) * 2015-05-05 2016-12-07 阿里巴巴集团控股有限公司 客户端页面渲染方法及装置
CN105786505A (zh) * 2016-02-26 2016-07-20 上海全成通信技术有限公司 一种基于json的复杂web页面组件自定义方法及装置
CN105912613A (zh) * 2016-04-06 2016-08-31 江苏中威科技软件***有限公司 一种网站模板快速迁移的方法

Also Published As

Publication number Publication date
CN108549693A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN104049978A (zh) 一种实现代码可视化编辑组合的方法及***
CN111736821B (zh) 可视化建模分析方法、***、计算机设备和可读存储介质
CN103389895A (zh) 一种前端页面的生成方法及***
CN104965714A (zh) 应用软件的代码生成方法和***
CN102981855A (zh) 基于模板的界面自动生成的方法及***
CN108549693B (zh) 基于爬虫技术的cms页面生成方法
CN108228726B (zh) 配电网红黑图的增量异动内容获取方法及存储介质
CN104317589A (zh) 一种用于加载动态链接库的代码自动生成方法及装置
CN102855350B (zh) 工程图的自动出图方法及***
CN114186984B (zh) 一种建筑设计企业二三维一体化协同设计***
CN102693281B (zh) 一种基于autocad的pdms中辅助线的生成方法
CN113642069B (zh) 基于bim和异构***的建筑风荷载快速迭代设计方法
CN104217270A (zh) 业务流程应用文件生成和执行方法、客户端、设备及***
CN116011408A (zh) 一种在线可编辑的文书生成***及方法
CN102184107A (zh) 一种用户界面服务组合方法及***
CN110750553A (zh) 一种在业务管理***中对数据进行自定义导出的方法
CN102289745A (zh) 电力***erp***易用化操作界面的实现方法
CN105117555A (zh) 核电三维设计模型在线浏览***
CN104834715A (zh) 一种基于部件和容器的网站生成方法及***
CN102929636B (zh) 一种人机交互界面创建方法和装置
CN109343835A (zh) 一种基于模板的快速构建业务脚手架代码工具
CN102411498A (zh) 一种实现数据模型的方法及图形化设计器
CN103425844A (zh) 基于数据流通信平台的cad/cae***及集成方法
CN111061469B (zh) Web前端源代码生成方法、装置、存储介质及处理器
CN109086040A (zh) 一种快速生成html代码的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant