CN110633301A - 一种基于引擎设置抽取数据的方法及*** - Google Patents
一种基于引擎设置抽取数据的方法及*** Download PDFInfo
- Publication number
- CN110633301A CN110633301A CN201910886029.7A CN201910886029A CN110633301A CN 110633301 A CN110633301 A CN 110633301A CN 201910886029 A CN201910886029 A CN 201910886029A CN 110633301 A CN110633301 A CN 110633301A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- extracted
- rule
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013075 data extraction Methods 0.000 claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 84
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000002688 persistence Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 8
- 238000013499 data model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于引擎设置抽取数据的方法及***,属于数据抽取技术领域。本发明的基于引擎设置抽取数据的方法基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。该发明的基于引擎设置抽取数据的方法在数据抽取过程中能够快速的定位数据并进行抽取,同时允许过程重现,过程追溯,具有很好的推广应用价值。
Description
技术领域
本发明涉及数据抽取技术领域,具体提供一种基于引擎设置抽取数据的方法及***。
背景技术
随着国家大力推行商事主体改革,降低市场准入门槛,市场主体数据随之越来越大,对市场主体宽进严管,在事中事后加强监管变得尤为重要,但是基于庞大的市场主体群体,按照传统的日常监管方式已经无法满足对日益增长的市场主体的监管,实施双随机一公开的监管方式成为主要的途径和方式。但是现有技术中缺少在数据抽取过程中能快速定位数据并进行抽取的方法。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种在数据抽取过程中能够快速的定位数据并进行抽取,同时允许过程重现,过程追溯的基于引擎设置抽取数据的方法。
本发明进一步的技术任务是提供一种基于引擎设置抽取数据的***。
为实现上述目的,本发明提供了如下技术方案:
一种基于引擎设置抽取数据的方法,该方法基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。
该基于引擎设置抽取数据的方法底层基于数据缓存技术,采用内存数据库量海量数据保存至内存中,使其在数据抽取过程中能够快速的定位数据并进行抽取。
作为优选,该基于引擎设置抽取数据的方法具体包括以下步骤:
S1、将数据抽象为抽象对象模型,按照监管业务规定,将建立对象模型业务属性;
S2、根据对象模型业务属性,制定抽取规则;
S3、抽取对象全量数据按照抽取规则进行过滤后加载到内存数据库中进行缓存;
S4、数据抽取引擎按照抽取规则和抽取对象模型属性,对抽取对象进行数据抽取,抽取后的的数据放置于内存数据中,进行抽取对象数据持久化,同时将抽取因子记录下来,对数据抽取过程重现和追溯。
该基于引擎设置抽取数据的方法包括抽取对象模型、抽取规则、抽取引擎的设置,采用数据缓存技术和内存数据库技术,能够提高数据抽取的效率和准确性。
作为优选,所述建立的对象模型业务属性包括监管类型、监管区域、行业类型和企业类型。
作为优选,所述制定的抽取规则如按照有限公抽取总量的5%进行数据抽取。
作为优选,所述抽取规则建立为根据对数据抽取的期望数据类型和抽取数量进行抽取的规则建立和设定,为抽取引擎建立做基础。
作为优选,所述抽取引擎建立按照抽取对象和抽取规则,对数据进行随机抽取。
一种基于引擎设置抽取数据的***,该***包括数据层、服务层、表现层和管控层;
数据层包括关系型数据库和内存数据库,用于提供抽取数据集合保存数据抽取结果数据;
服务层包括抽取规则和抽取引擎,用于为***运行时提供核心功能,抽取规则库提供数据抽取规则;
表现层为***用户使用者提供可视化界面展示及操作界面;
管控层用于将数据层、服务层和表现层进行统筹调配和资源管控。
作为优选,所述关系型数据库存储待抽取对象数据、抽取规则和已抽取数据,作为***运行的基础数据;内存数据库存储数据抽取过程中待抽取总量数据和已抽取的数据。
作为优选,所述管控层存储抽取规则、抽取引擎和抽取对象模型。
与现有技术相比,本发明的基于引擎设置抽取数据的方法具有以下突出的有益效果:
(一)所述基于引擎设置抽取数据的方法对监管对象进行公开、公正、公平的随机抽取,同时能够满足业务需求,能够解决对于庞大的市场主体监管问题;
(二)该方法基于抽取对象属性进行数据模型抽取,能够通过数据模型的建立来进行数据抽取条件约束和设定;
(三)该基于引擎设置抽取数据的方法利用缓存技术,将海量数据存于内存中,能够利用缓存的优势快速查询和定位数据,并且在使用完毕后立马释放资源,能够提高数据抽取的效率和准确性,具有良好的推广应用价值。
附图说明
图1是本发明所述基于引擎设置抽取数据的方***的拓扑图。
具体实施方式
下面将结合附图和实施例,对本发明的基于引擎设置抽取数据的方法及***作进一步详细说明。
实施例
本发明的基于引擎设置抽取数据的方法,基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。
该基于引擎设置抽取数据的方法底层基于数据缓存技术,采用内存数据库量海量数据保存至内存中,使其在数据抽取过程中能够快速的定位数据并进行抽取。
该基于引擎设置抽取数据的方法具体包括以下步骤:
S1、将数据抽象为抽象对象模型,按照监管业务规定,将建立对象模型业务属性。
该建立的对象模型业务属性包括监管类型、监管区域、行业类型和企业类型。
S2、根据对象模型业务属性,制定抽取规则。
其中抽取规则建立为根据对数据抽取的期望数据类型和抽取数量进行抽取的规则建立和设定,为抽取引擎建立做基础。例如制定的抽取规则如按照有限公抽取总量的5%进行数据抽取。
S3、抽取对象全量数据按照抽取规则进行过滤后加载到内存数据库中进行缓存。
S4、数据抽取引擎按照抽取规则和抽取对象模型属性,对抽取对象进行数据抽取,抽取后的的数据放置于内存数据中,进行抽取对象数据持久化,同时将抽取因子记录下来,对数据抽取过程重现和追溯。
抽取引擎建立按照抽取对象和抽取规则,对数据进行随机抽取。
该基于引擎设置抽取数据的方法的关键点为:
1、抽取对象模型建立:抽取对象模型是根据业务数据进行抽象,将业务数据属性抽象为抽取对象属性,为抽取规则建立做基础;
2、抽取规则建立:抽取规则是根据对数据抽取的期望数据类型和抽取数量进行抽取的规则建立和设定,为抽取引擎建立做基础;
3、抽取引擎建立:抽取引擎按照抽取对象和抽取规则,对数据进行随机抽;
4、缓存技术实现:通过缓存技术将海量数据缓存至内存中,能够解决关系型数据库查询数据过慢问题。
该基于引擎设置抽取数据的方法包括抽取对象模型、抽取规则、抽取引擎的设置,采用数据缓存技术和内存数据库技术,能够提高数据抽取的效率和准确性。
如图1所示,本发明的基于引擎设置抽取数据的***,该***包括数据层、服务层、表现层和管控层。
其中数据层包括关系型数据库和内存数据库,用于提供抽取数据集合保存数据抽取结果数据。关系型数据库存储待抽取对象数据、抽取规则和已抽取数据,作为***运行的基础数据;内存数据库存储数据抽取过程中待抽取总量数据和已抽取的数据。
服务层包括抽取规则和抽取引擎,用于为***运行时提供核心功能,抽取规则库提供数据抽取规则。
表现层为***用户使用者提供可视化界面展示及操作界面。
管控层用于将数据层、服务层和表现层进行统筹调配和资源管控。管控层存储抽取规则、抽取引擎和抽取对象模型。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (9)
1.一种基于引擎设置抽取数据的方法,其特征在于:该方法基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。
2.根据权利要求1所述的基于引擎设置抽取数据的方法,其特征在于:该方法具体包括以下步骤:
S1、将数据抽象为抽象对象模型,按照监管业务规定,将建立对象模型业务属性;
S2、根据对象模型业务属性,制定抽取规则;
S3、抽取对象全量数据按照抽取规则进行过滤后加载到内存数据库中进行缓存;
S4、数据抽取引擎按照抽取规则和抽取对象模型属性,对抽取对象进行数据抽取,抽取后的的数据放置于内存数据中,进行抽取对象数据持久化,同时将抽取因子记录下来,对数据抽取过程重现和追溯。
3.根据权利要求2所述的基于引擎设置抽取数据的方法,其特征在于:所述建立的对象模型业务属性包括监管类型、监管区域、行业类型和企业类型。
4.根据权利要求3所述的基于引擎设置抽取数据的方法,其特征在于:所述制定的抽取规则如按照有限公抽取总量的5%进行数据抽取。
5.根据权利要求4所述的基于引擎设置抽取数据的方法,其特征在于:所述抽取规则建立为根据对数据抽取的期望数据类型和抽取数量进行抽取的规则建立和设定,为抽取引擎建立做基础。
6.根据权利要求5所述的基于引擎设置抽取数据的方法,其特征在于:所述抽取引擎建立按照抽取对象和抽取规则,对数据进行随机抽取。
7.一种基于引擎设置抽取数据的***,其特征在于:该***包括数据层、服务层、表现层和管控层;
数据层包括关系型数据库和内存数据库,用于提供抽取数据集合保存数据抽取结果数据;
服务层包括抽取规则和抽取引擎,用于为***运行时提供核心功能,抽取规则库提供数据抽取规则;
表现层为***用户使用者提供可视化界面展示及操作界面;
管控层用于将数据层、服务层和表现层进行统筹调配和资源管控。
8.根据权利要求7所述的基于引擎设置抽取数据的***,其特征在于:所述关系型数据库存储待抽取对象数据、抽取规则和已抽取数据,作为***运行的基础数据;内存数据库存储数据抽取过程中待抽取总量数据和已抽取的数据。
9.根据权利要求8所述的基于引擎设置抽取数据的***,其特征在于:所述管控层存储抽取规则、抽取引擎和抽取对象模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886029.7A CN110633301B (zh) | 2019-09-19 | 2019-09-19 | 一种基于引擎设置抽取数据的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886029.7A CN110633301B (zh) | 2019-09-19 | 2019-09-19 | 一种基于引擎设置抽取数据的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633301A true CN110633301A (zh) | 2019-12-31 |
CN110633301B CN110633301B (zh) | 2023-06-02 |
Family
ID=68971678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910886029.7A Active CN110633301B (zh) | 2019-09-19 | 2019-09-19 | 一种基于引擎设置抽取数据的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633301B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475494A (zh) * | 2020-03-05 | 2020-07-31 | 苏州浪潮智能科技有限公司 | 一种海量数据处理方法、***、终端及存储介质 |
CN111597245A (zh) * | 2020-05-20 | 2020-08-28 | 政采云有限公司 | 一种数据抽取方法、装置、信息统计方法及相关设备 |
CN111951141A (zh) * | 2020-07-09 | 2020-11-17 | 广东港鑫科技有限公司 | 基于大数据智能分析的双随机监管方法、***及终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132456A1 (en) * | 2007-11-16 | 2009-05-21 | Richard Dean Dettinger | Applying ruleset limiting criteria for affirming rule inputs and outputs |
CN101630286A (zh) * | 2009-08-07 | 2010-01-20 | 金蝶软件(中国)有限公司 | 一种自动化测试方法及装置 |
CN102768682A (zh) * | 2012-06-28 | 2012-11-07 | 用友软件股份有限公司 | 业务规则处理装置和业务规则处理方法 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及*** |
-
2019
- 2019-09-19 CN CN201910886029.7A patent/CN110633301B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132456A1 (en) * | 2007-11-16 | 2009-05-21 | Richard Dean Dettinger | Applying ruleset limiting criteria for affirming rule inputs and outputs |
CN101630286A (zh) * | 2009-08-07 | 2010-01-20 | 金蝶软件(中国)有限公司 | 一种自动化测试方法及装置 |
CN102768682A (zh) * | 2012-06-28 | 2012-11-07 | 用友软件股份有限公司 | 业务规则处理装置和业务规则处理方法 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及*** |
Non-Patent Citations (1)
Title |
---|
任宪臻等: "基于规则引擎的大规模网页信息抽取平台设计与实现", 《北京城市学院学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475494A (zh) * | 2020-03-05 | 2020-07-31 | 苏州浪潮智能科技有限公司 | 一种海量数据处理方法、***、终端及存储介质 |
CN111597245A (zh) * | 2020-05-20 | 2020-08-28 | 政采云有限公司 | 一种数据抽取方法、装置、信息统计方法及相关设备 |
CN111597245B (zh) * | 2020-05-20 | 2023-09-29 | 政采云有限公司 | 一种数据抽取方法、装置及相关设备 |
CN111951141A (zh) * | 2020-07-09 | 2020-11-17 | 广东港鑫科技有限公司 | 基于大数据智能分析的双随机监管方法、***及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110633301B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633301A (zh) | 一种基于引擎设置抽取数据的方法及*** | |
Abad et al. | A storage-centric analysis of mapreduce workloads: File popularity, temporal locality and arrival patterns | |
CN105373541B (zh) | 数据库的数据操作请求的处理方法和*** | |
CN109299157B (zh) | 一种分布式大单表的数据导出方法及装置 | |
CN102629269B (zh) | 一种嵌入式数据库的检索及存储方法 | |
CN102906751A (zh) | 一种数据存储、数据查询的方法及装置 | |
CN102779138B (zh) | 实时数据的硬盘存取方法 | |
CN104035956A (zh) | 一种基于分布式列存储的时间序列数据存储方法 | |
CN107832333B (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** | |
CN113157947A (zh) | 知识图谱的构建方法、工具、装置和服务器 | |
CN105630934A (zh) | 一种数据统计方法及*** | |
CN110569399B (zh) | 基于pinpoint日志的链路构建方法 | |
CN106250501B (zh) | 报表处理方法及报表*** | |
CN113051271B (zh) | 一种冷热数据分离方法、装置及其设备 | |
TW201525917A (zh) | 交互應用中標記可操作圖示的方法和裝置 | |
CN110032578A (zh) | 一种海量数据查询缓存的方法及装置 | |
CN114595972A (zh) | 一种应用虚拟数字人的智慧城市管理方法 | |
CN110134698A (zh) | 数据管理方法及相关产品 | |
CN103677488A (zh) | 人工智能用户界面 | |
CN111343269B (zh) | 一种数据下载方法、装置、计算机设备和存储介质 | |
CN104462588A (zh) | 一种基于云数据库的知识产权检索*** | |
CN101968747B (zh) | 一种机群应用管理***及其应用管理方法 | |
CN112052248A (zh) | 一种审计大数据处理方法及*** | |
CN106383893A (zh) | 时间序列数据管理方法及*** | |
CN103812676A (zh) | 一种实现日志数据实时关联装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |