CN112965962A - 一种行业网站数据转换方法、装置及行业网站 - Google Patents

一种行业网站数据转换方法、装置及行业网站 Download PDF

Info

Publication number
CN112965962A
CN112965962A CN202110149446.0A CN202110149446A CN112965962A CN 112965962 A CN112965962 A CN 112965962A CN 202110149446 A CN202110149446 A CN 202110149446A CN 112965962 A CN112965962 A CN 112965962A
Authority
CN
China
Prior art keywords
data
source
standard
database
standard data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110149446.0A
Other languages
English (en)
Inventor
冯雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongmei Times Technology Development Co ltd
Original Assignee
Beijing Zhongmei Times Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongmei Times Technology Development Co ltd filed Critical Beijing Zhongmei Times Technology Development Co ltd
Priority to CN202110149446.0A priority Critical patent/CN112965962A/zh
Publication of CN112965962A publication Critical patent/CN112965962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种行业网站数据转换方法、装置及行业网站,术语数据处理领域;首先获取源数据库中的源数据,然后根据预设的陪住数据库将源数据转换为标准数据;最后将所述标准数据加载到目标数据库中。本申请方案将多种格式和形式的源数据通过编码转换为统一的标准数据;在需要变更数据或增加数据时只需要改动配置数据库中源数据对应的编码即可,无需对数据进行开发或更改已有内容,大大增加了开发速率,节约了开发成本;同时能够增加已开发的***的稳定性。

Description

一种行业网站数据转换方法、装置及行业网站
技术领域
本发明涉及数据处理技术,特别地,涉及一种行业网站数据转换方法、装置及行业网站。
背景技术
行业网站的目的是为用户提供行业咨询及行业数据,从而为行业运销、采购等活动提供信息支持,提高用户经营效益。现有的服务方案是以数据发布机构设定的名称作为数据命名,当出现新的数据或数据名称进行变更时,就需要开发人员重新对数据进行开发和更改已有***内容,开发效率低,稳定性差,而且随着数据变动的增多,***版本会越来越多,开发成本较高。
发明内容
为了克服现有技术的不足,本发明提供一种行业网站数据转换方法、装置及行业网站,以解决当出现新数据或数据名称变更时,现有服务方法开发效率低、稳定性差以及维护成本高的问题。
本发明解决其技术问题所采用的技术方案是:
第一方面,
一种数据转换方法,包括以下步骤:
获取源数据库中的源数据,所述源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;
根据预设的配置数据库将所述源数据转换为标准数据,所述配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;
将所述标准数据加载到目标数据库中。
进一步地,所述获取源数据库中的源数据包括:
按照预设抽取规则对所述源数据库中的数据进行抽取得到源数据。
进一步地,所述根据预设的配置数据库将所述源数据转换为标准数据包括:
将所述源数据转化为对应的编码;
根据所述编码生成临时文件;
将所述临时文件转换为标准格式得到标准数据。
进一步地,所述将所述标准数据加载到目标数据库之前还包括:
对所述标准数据进行数据清洗,所述数据清洗包括检查所述标准数据的一致性,处理所述标准数据的无效值和缺失值。
进一步地,所述将所述标准数据加载到目标数据库中包括:
通过数据分发器将所述标准数据进行分类;
根据分类结果将所述标准数据分发到对应的目标数据库中。
进一步地,还包括:
记录数据转换过程的所有操作形成日志以便查阅。
第二方面,
一种数据转换装置,包括:
数据获取模块,用于获取源数据库中的源数据,所述源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;
数据转换模块,用于根据预设的配置数据库将所述源数据转换为标准数据,所述配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;
数据加载模块,用于将所述标准数据加载到目标数据库中。
第三方面,
一种行业网站,包括:
数据上传平台及数据采集器,用于接收上传的源数据或者从源数据库中获取源数据,所述源数据包括数据表格、报表数据、新闻咨询和电子期刊;
配置数据库,用于存储数据对应的编码,任意两种数据对应的编码不同;
数据转换服务器,用于根据所述配置数据库将源数据转换为标准数据并将所述标准数据发送到目标数据库;
目标数据库,用于接收并存储数据转换服务器转换的标准数据。
进一步地,所述数据转换服务器包括数据清洗单元,所述数据清洗单元用于检查所述标准数据的一致性,处理所述标准数据的无效值和缺失值。
进一步地,还包括:
日志单元,用于存储所述行业网站的所有操作。
本申请采用以上技术方案,至少具备以下有益效果:
本申请技术方案提供一种行业网站数据转换方法、装置及行业网站,首先获取源数据库中的源数据,然后根据预设的陪住数据库将源数据转换为标准数据;最后将所述标准数据加载到目标数据库中。本申请方案将多种格式和形式的源数据通过编码转换为统一的标准数据;在需要变更数据或增加数据时只需要改动配置数据库中源数据对应的编码即可,无需对数据进行开发或更改已有内容,大大增加了开发速率,节约了开发成本;同时能够增加已开发的***的稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据转换方法流程图;
图2是本发明实施例提供的一种数据转换的具体方法流程图;
图3是本发明实施例提供的一种数据转换装置结构框图;
图4是本发明实施例提供的一种行业网站结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参照图1,本发明实施例提供一种数据转换方法,包括以下步骤:
获取源数据库中的源数据,源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;
根据预设的配置数据库将源数据转换为标准数据,配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;
将标准数据加载到目标数据库中。
本发明实施例提供的一种行业网站数据转换方法,首先获取源数据库中的源数据,然后根据预设的陪住数据库将源数据转换为标准数据;最后将所述标准数据加载到目标数据库中。本发明实施例将多种格式和形式的源数据通过编码转换为统一的标准数据;在需要变更数据或增加数据时只需要改动配置数据库中源数据对应的编码即可,无需对数据进行开发或更改已有内容,大大增加了开发速率,节约了开发成本;同时能够增加已开发的***的稳定性。
作为对上述实施例的一种补充说明,如图2所示,获取源数据库中的源数据包括:按照预设抽取规则对源数据库中的数据进行抽取得到源数据。可以理解的是,源数据库中的源数据较多,可能一些数据并不需要,因此在获取源数据时,按照预设抽取规则进行抽取只抽取需要的源数据。
一些可选实施例中,根据预设的配置数据库将源数据转换为标准数据包括:将源数据转化为对应的编码;根据编码生成临时文件;将临时文件转换为标准格式得到标准数据。可选地,将标准数据加载到目标数据库之前还包括:对标准数据进行数据清洗,数据清洗包括检查标准数据的一致性,处理标准数据的无效值和缺失值。需要说明的是,由于源数据包括多种格式或者同一种数据在不同源数据库中具有不同的名称,在转换过程中将所有格式需要转换为同一格式且同一名称。因此现在采用编码的形式,每种数据采用一个编码,源数据库中没有的数据也配置编码,如果需要新加入数据,则直接添加编码即可。如果要更改数据类型,只需要更改配置数据库中的对应编码。无需对数据进行更改。在进行升级时更加简单快速,能够降低维护成本。提高开发效率。
作为本发明实施例一种可选的实现方式,将标准数据加载到目标数据库中包括:通过数据分发器将标准数据进行分类;根据分类结果将标准数据分发到对应的目标数据库中。
在实际使用过程中,还记录数据转换过程的所有操作形成日志以便查阅。
一个实施例中,本发明提供一种数据转换装置,如图3所示,包括:
数据获取模块31,用于获取源数据库中的源数据,源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;具体地,数据获取模块按照预设抽取规则对源数据库中的数据进行抽取得到源数据。
数据转换模块32,用于根据预设的配置数据库将源数据转换为标准数据,配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;具体地,数据转换模块将源数据转化为对应的编码;根据编码生成临时文件;将临时文件转换为标准格式得到标准数据。可选地,数据转换模块对标准数据进行数据清洗,数据清洗包括检查标准数据的一致性,处理标准数据的无效值和缺失值。
数据加载模块33,用于将标准数据加载到目标数据库中。具体地,数据加载模块通过数据分发器将标准数据进行分类;根据分类结果将标准数据分发到对应的目标数据库中。
日志记录模块34,用于记录数据转换过程的所有操作形成日志以便查阅。
本发明实施例提供的一种数据转换装置,数据获取模块获取源数据库中的源数据;数据转换模块根据预设的配置数据库将源数据转换为标准数据;数据加载模块将标准数据加载到目标数据库中。日志记录模块记录数据转换过程的所有操作形成日志以便查阅。本发明实施例的转换装置能够将源数据库中给的数据标准化,由多种格式或形式的源数据得到标准数据。有利于数据的多样化应用,同时采用同一个编码,数据服务更加可控且准确率更高,并且能够提升开发效率,节约开发成本。
一个实施例中,本发明实施例提供一种行业网站,如图4所示,包括:
数据上传平台及数据采集器41,用于接收上传的源数据或者从源数据库42中获取源数据,源数据包括数据表格、报表数据、新闻咨询和电子期刊;
配置数据库43,用于存储数据对应的编码,任意两种数据对应的编码不同;
数据转换服务器44,用于根据配置数据库将源数据转换为标准数据并将标准数据发送到目标数据库;可选地,数据转换服务器包括数据清洗单元47,数据清洗单元用于检查标准数据的一致性,处理标准数据的无效值和缺失值。优选地,数据转换服务器采用ETL服务器。
目标数据库45,用于接收并存储数据转换服务器转换的标准数据。
日志单元46,用于存储行业网站的所有操作。
本发明实施例提供的行业网站通过数据上传平台及数据采集器,获取以数据表格、报表数据、新闻咨询、电子期刊等内容的数据,在配置数据库中预设设置数据对应的编码,然后通过数据转换服务器把数据格式标准化和数据标准化,最后分发到目标数据库中。为行业数据提供标准化服务。这样既能保证数据的稳定性,可控性,也能满足对数据的各种转换需要和展示服务。相对于传统行业网站,本实施例容易扩展到数据的多样化应用;数据服务更加可控且准确率更高;可快速迭代数据版本,提升开发效率,节约开发成本。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种数据转换方法,其特征在于,包括以下步骤:
获取源数据库中的源数据,所述源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;
根据预设的配置数据库将所述源数据转换为标准数据,所述配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;
将所述标准数据加载到目标数据库中。
2.根据权利要求1所述的方法,其特征在于:所述获取源数据库中的源数据包括:
按照预设抽取规则对所述源数据库中的数据进行抽取得到源数据。
3.根据权利要求1所述的方法,其特征在于:所述根据预设的配置数据库将所述源数据转换为标准数据包括:
将所述源数据转化为对应的编码;
根据所述编码生成临时文件;
将所述临时文件转换为标准格式得到标准数据。
4.根据权利要求1所述的方法,其特征在于:所述将所述标准数据加载到目标数据库之前还包括:
对所述标准数据进行数据清洗,所述数据清洗包括检查所述标准数据的一致性,处理所述标准数据的无效值和缺失值。
5.根据权利要求1所述的方法,其特征在于:所述将所述标准数据加载到目标数据库中包括:
通过数据分发器将所述标准数据进行分类;
根据分类结果将所述标准数据分发到对应的目标数据库中。
6.根据权利要求1所述的方法,其特征在于,还包括:
记录数据转换过程的所有操作形成日志以便查阅。
7.一种数据转换装置,其特征在于,包括:
数据获取模块,用于获取源数据库中的源数据,所述源数据包括数据表格、报表数据、新闻资讯以及电子期刊的内容;
数据转换模块,用于根据预设的配置数据库将所述源数据转换为标准数据,所述配置数据库中包括数据对应的编码,任意两种数据对应的编码不同;
数据加载模块,用于将所述标准数据加载到目标数据库中。
8.一种行业网站,其特征在于,包括:
数据上传平台及数据采集器,用于接收上传的源数据或者从源数据库中获取源数据,所述源数据包括数据表格、报表数据、新闻咨询和电子期刊;
配置数据库,用于存储数据对应的编码,任意两种数据对应的编码不同;
数据转换服务器,用于根据所述配置数据库将源数据转换为标准数据并将所述标准数据发送到目标数据库;
目标数据库,用于接收并存储数据转换服务器转换的标准数据。
9.根据权利要求8所述的行业网站,其特征在于:所述数据转换服务器包括数据清洗单元,所述数据清洗单元用于检查所述标准数据的一致性,处理所述标准数据的无效值和缺失值。
10.根据权利要求8所述的行业网站,其特征在于,还包括:
日志单元,用于存储所述行业网站的所有操作。
CN202110149446.0A 2021-02-03 2021-02-03 一种行业网站数据转换方法、装置及行业网站 Pending CN112965962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110149446.0A CN112965962A (zh) 2021-02-03 2021-02-03 一种行业网站数据转换方法、装置及行业网站

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110149446.0A CN112965962A (zh) 2021-02-03 2021-02-03 一种行业网站数据转换方法、装置及行业网站

Publications (1)

Publication Number Publication Date
CN112965962A true CN112965962A (zh) 2021-06-15

Family

ID=76274288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110149446.0A Pending CN112965962A (zh) 2021-02-03 2021-02-03 一种行业网站数据转换方法、装置及行业网站

Country Status (1)

Country Link
CN (1) CN112965962A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131970A1 (en) * 2003-12-15 2005-06-16 International Business Machines Corporation Customizable data translation method and system
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗***和方法
CN110781230A (zh) * 2019-09-12 2020-02-11 腾讯大地通途(北京)科技有限公司 一种数据接入方法、装置及设备
CN111241182A (zh) * 2020-01-19 2020-06-05 北京奇艺世纪科技有限公司 数据处理方法和装置、存储介质和电子装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131970A1 (en) * 2003-12-15 2005-06-16 International Business Machines Corporation Customizable data translation method and system
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗***和方法
CN110781230A (zh) * 2019-09-12 2020-02-11 腾讯大地通途(北京)科技有限公司 一种数据接入方法、装置及设备
CN111241182A (zh) * 2020-01-19 2020-06-05 北京奇艺世纪科技有限公司 数据处理方法和装置、存储介质和电子装置

Similar Documents

Publication Publication Date Title
CN101040444B (zh) 压缩结构化文档的方法和装置
US7320003B2 (en) Method and system for storing and retrieving document data using a markup language string and a serialized string
CN113518094B (zh) 数据处理方法、装置、机器人和存储介质
US8880463B2 (en) Standardized framework for reporting archived legacy system data
CN110737689B (zh) 数据标准符合性检测方法、装置、***及存储介质
CN111370132B (zh) 电子文件的解析方法及装置、计算机设备、存储介质
CN112115113B (zh) 数据存储***、方法、装置、设备以及存储介质
US7055096B2 (en) Data integrate system and data integrate method
CN108228755A (zh) 基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法
CN100382075C (zh) 基于硬件级的测试脚本自动生成***及方法
CN108228756A (zh) 基于日志解析技术的PG数据库到Hadoop平台的数据同步复制方法
CN112965962A (zh) 一种行业网站数据转换方法、装置及行业网站
CN112699183A (zh) 数据处理方法、***、可读存储介质及计算机设备
CN110765196A (zh) 生成并执行etl任务的方法及设备
CN114661569B (zh) 用户行为数据动态埋点采集方法
CN113659993B (zh) 免疫批次数据处理方法、装置、终端及可读存储介质
KR101508068B1 (ko) 데이터 중복성 제거 장치 및 그 방법
CN110957016B (zh) 基于健康云管理平台的体检数据智能识别***及方法
US20180336232A1 (en) Analysis system, analysis method, and computer-readable recording medium
CN106230646B (zh) 一种获取网管告警信息的方法及测试***
CN115357553A (zh) 物联网客户数据处理方法及装置
CN113778886B (zh) 一种测试用例的处理方法和装置
CN115269708A (zh) 一种数据对账处理方法及装置
CN117520324A (zh) 政务数据的清洗方法、装置、电子设备及存储介质
CN112650809A (zh) 一种格式化树结构数据的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615

RJ01 Rejection of invention patent application after publication