CN111178005B - 数据处理***、方法及存储介质 - Google Patents
数据处理***、方法及存储介质 Download PDFInfo
- Publication number
- CN111178005B CN111178005B CN201911265592.9A CN201911265592A CN111178005B CN 111178005 B CN111178005 B CN 111178005B CN 201911265592 A CN201911265592 A CN 201911265592A CN 111178005 B CN111178005 B CN 111178005B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- processing
- characterization
- subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims description 44
- 238000012512 characterization method Methods 0.000 claims abstract description 93
- 238000004519 manufacturing process Methods 0.000 claims abstract description 57
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000000586 desensitisation Methods 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000003672 processing method Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明提供了一种数据处理***、方法及存储介质,涉及数据处理领域。该***包括:数据生产子***,用于获取各业务生产组件产生的业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;特征化处理子***,用于对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识;其中,所述组件标签包括:产生所述现场的业务生产组件的组件标识,使用所述业务生产组件的用户标识;数据存储子***,用于对所述业务数据进行标准化和结构化处理,将处理后的业务数据和所述业务数据的唯一标识存储到数据仓库中。本发明能够提高获取数据的效率及安全性。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理***、方法及存储介质。
背景技术
在大数据时代背景下,各行业数据量呈与日俱增的现象,并逐年呈指数及***性增长的趋势。数据的应用已经成为行业运营和发展的必不可少的部分。数据分析和挖掘已经在各行业得到广泛应用。因此,如何高效率地获取数据已成为各行业普遍关注的技术问题。
在银行等金融机构中,银行业务人员为客户办理业务后,产生的业务数据业务数据通常为XML、JSON等格式的半结构化文档,以及录音、录像、word等非结构化数据,这些业务数据通常包含客户的地址、电话等敏感信息。在用数部门需要使用这些业务数据时,通常需要将用数需求提交给技术部门,技术部门会根据用数需求通过复杂的检索获取需求数据,并对获取的需求数据进行权限控制、脱敏等一系列复杂处理后,才将处理后的需求数据返回给用数部门。这种复杂的处理过程需要漫长的时间,处理效率低,并且在漫长的处理过程中数据的时效价值会丧失。此外,在技术部门将处理后的需求数据返回给用数部门后,用数部门还需要与技术部门反复核对,如果这期间用数部门的用数需求发生变化,则需要重新向技术部门提交用数请求,这种方式使得业务数据的应用灵活性较低。以上的这些问题都会造成企业内业务部门用数的门槛非常高。
因此,如何在保障数据安全的情况下,快速、高效、灵活的获取需求的业务数据,成为亟待解决的技术问题。
发明内容
为解决现有技术中的上述技术问题,本发明提供了一种数据处理***、方法及存储介质,以对各业务生产组件产生的数据进行处理,从而便于对各业务生产组件产生的数据进行检索,保证数据安全。
本发明实施方式的第一方面提供一种数据处理***,本发明所述***包括:
数据生产子***,用于获取各业务生产组件产生的业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
特征化处理子***,用于对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识;其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,使用所述业务生产组件的用户标识。
数据存储子***,用于对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中。
在本发明的一些实施方式中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
在本发明的一种实施方式中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
在本发明的一些实施方式中,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
在本发明的一些实施方式中,所述***还包括:
用数子***,用于获取用户的用数请求;
数据加工子***,用于执行下述操作:根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理,将脱敏处理后的目标数据返回给所述用数子***。
在本发明的一些实施方式中,所述用数子***还用于根据所述脱敏处理后的目标数据形成可视化数据报表。
本发明实施方式的第二方面提供一种数据处理方法,所述方法包括:
获取各业务生产组件产生业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识,其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,以及使用所述业务生产组件的用户标识;
对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中。
在本发明的一些实施方式中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
在本发明的一些实施方式中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
在本发明的一些实施方式中,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
在本发明的一些实施方式中,所述方法还包括:
获取用户的用数请求;
根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理。
在本发明的一些实施方式中,所述方法还包括:
根据脱敏处理后的目标数据形成可视化数据报表。
本发明实施方式的第三方面提供一种计算机存储介质,其上存储有计算机可读指令,该指令可被处理器执行以实现上述任意一个实施方式所述的数据处理方法。
本发明相比于现有技术具有如下技术效果:
本发明的实施方式将各业务生产组件产生业务数据的操作时间和业务类型进行特征化处理,并为特征化处理得到的特征化数据打上组件标签。由于打上组件标签后的特征化数据的数据量远小于业务数据,利用打上组件标签后的特征化数据与业务数据的对应关系,通过检索特征化数据来获取其对应的业务数据,可以降低检索时间,提高检索效率。此外,对现场数据进行特征化处理可以对现场数据进行有效的加密,提高数据的安全性,并且,对现场数据进行特征化处理也进一步节省了存储空间。
附图说明
图1是根据本发明一种实施方式的数据处理***的模块示意图;
图2是根据本发明一种实施方式的对现场数据进行特征化处理的流程图;
图3是根据本发明一种实施方式的数据处理方法的流程图。
具体实施方式
为了便于理解本发明技术方案的各个方面、特征以及优点,下面结合附图对本发明进行具体描述。应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。
本发明实施方式的第一方面提供一种数据处理***。图1示出了根据本发明一种实施方式的数据处理***。如图1所示,数据处理***10包括数据生产子***11、特征化处理子***12、数据存储子***13。
其中,数据生产子***11用于获取各业务生产组件20产生的业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻。特征化处理子***12用于对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识;其中,所述组件标签包括:产生所述现场的业务生产组件的组件标识,以及使用所述业务生产组件的用户标识。数据存储子***13用于将所述业务数据和所述业务数据的唯一标识进行标准化和结构化处理,将处理后的数据存储到数据仓库中。
具体而言,数据生产子***11与各业务生产组件20连接,可以获取各业务生产组件20产生的业务数据。业务生产组件20为银行等金融机构设置的为客户办理业务的组件。在通过业务生产组件20办理业务时,业务生产组件20可以产生业务数据,工作人员也可以根据业务需求向业务生产组件20录入业务数据,此外,业务生产组件20也可以与外部合作伙伴的***对接,从外部***获取外部数据从而产生业务数据。业务生产组件产生的业务数据可以包括但不限于:由使用业务生产组件的用户手工录入的半结构化数据和/或非结构化数据,由外部***输入的音频、视频或文档数据,由使用业务生产组件的用户手工录入的结构化数据等。其中,所述非结构化数据的数据格式可以为XML或者JSON格式,所述文档数据的格式可以为word格式,所述结构化数据的格式可以为关系型数据库二维表格式。例如,客户填写了业务申请表,要求办理一笔账务***易,在录音录像的环境下,工作人员通过业务生产组件为客户办理了这项账务***易业务,则客户的业务申请表和录音录像文件就是该客户办理这笔账务***易时业务生产组件产生的业务数据。
此外,数据获取模块11还可以获取与所述业务数据对应的现场数据,其可以包括业务生产组件产生所述业务数据的操作时刻,以及所述业务数据的业务类型。在获取现场数据后,特征化处理子***12可以从数据获取模块11获取所述现场数据,对所述现场数据进行特征化处理,从而得到特征化数据。
图2示出了根据本发明一种实施方式的对现场数据进行特征化处理的方法流程图,如图2所示,对所述现场数据进行特征化处理可以包括如下步骤:
S21:对所述业务类型和操作时刻进行数值化处理;
S22:将数值化处理后的业务类型和操作时刻数据输入特征化处理模型中得到特征化处理。
其中,在处理S1中,对于业务类型,可以通过以下方式进行数值化:预先构建业务类型与数值化编码的映射表;从所述映射表中获取所述业务类型的数值化编码。所述数值化编码的数据长度可以为1位(可表示9种业务),也可以为两位(可表示99种业务),根据业务种类的多少,可以预先设置映射表中数值化编码的数据长度。对于操作时刻,可以通过以下方式进行数值化处理:设定起始时刻;获取从起始时刻到操作时刻的时间间隔;以所述时间间隔作为数值化处理后的操作时刻。
在处理S22中,特征化处理模型,可由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,type取值为正整数,time表示数值化处理后的操作时刻,其取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。其中,预设的业务指数m和误差指数n为保密数据,其预先分配给各业务,且仅能被业务管理者掌握和修改。
举例来说,若客户在2019年9月1日通过业务组件A办理了存款业务,办理该存款业务的业务生产组件A产生了业务类型为“存款业务”,操作时刻为:2019年9月1日10点15分06秒的现场数据。特征化处理子***12可以从预先建立的业务类型与数值化编码的映射表中可以查询到“存款业务”的数值化编码为1,数据长度为1,预设的业务指数为6,误差指数为3。并且,特征化处理子***12可以以2019年1月1日0时0点0分为起始时刻,对操作时刻“2019年9月1日10点15分06秒”进行数值化处理,得到数值化处理后的操作时刻为21032106秒。将数值化处理后的业务类型和操作时刻输入到上述特征化处理模型中,得到R=16.614+1×10-2(3+1)=16.614+0.00000001=16.61400001。
在本发明的一些实施方式中,在还原现场数据时,由于上述特征化处理模型中round函数四舍五入会带来一定的误差,通过调整误差指数n,可以使还原的现场数据的误差在允许的方位之内。例如,根据业务指数6和误差指数3和最大数值化长度1,对上述特征化数据16.61400001进行还原,得到的业务办理时刻为21030289秒,业务类型为1。操作时刻的误差为1817秒,满足误差时间在2000秒的范围之内,如果有更高的时间精度要求,可以通过调整误差指数n来改善。
根据上述实施方式,在m,n,max_length至少一个未知的情况下,即使特征化数据R被泄漏,也无法将特征化数据R还原为time和type,从而提高了数据的安全性和私密性。此外,特征化处理后的现场数据(即特征化数据)的数据大小、规模明显小于特征化处理前的现场数据,特征化处理后的现场数据可以占用更少的数据字段,节省存储空间。
进一步地,对于特征化数据中连续出现的数字,可以采取缩位方式记录,以进一步降低特征化数据的字段长度,节省存储空间。例如,上述特征化数据R=16.61400001可以记录为16.6140{4}1,其中,0{4}表示其相邻左侧的数值0连续出现了4次。
作为另一优选的实施方式,在处理S2中,特征化处理模型,还可由以下公式表示:
以上一实施方式的2019年9月1日10点15分06秒的现场数据为例,可以计算得到:R=16.614+1×10-(3+1)=16.614+0.0001=16.6141。与上一实施方式相比,特征化数据R具有更短的数值表达,从而对存储的需求进一步降低。并且,当m,n,max_length至少一个不被泄露的情况下,与上一实施方式同样具有无法将R有效还原为time和type原值的技术效果,因而具有较高的数据安全性。
特征化处理子***12对现场数据进行特征化处理得到特征化数据之后,可以对所述特征化数据打上组件标签,从而得到与所述现场数据对应的业务数据的唯一标识。该组件标签可以为产生所述现场数据的业务生产组件的组件标识,也可以为使用所述业务生产组件的用户标识,还可以为所述组件标识和所述用户标识的组合。
由于一个业务生产组件或一个用户不能在同一时刻同时办理多项业务,对特征化处理后的现场数据(即特征化数据)打上组件标签后,特征化数据与组件标签的组合可以唯一的表示其对应的业务数据,从而,打上标签的特征化数据可以作为其对应的业务数据的索引,以便于业务数据的检索。
在本发明的一些实施方式中,数据生产子***11获取数据的渠道很多,各业务生产组件产生的业务数据信息表示形式可能不同。例如,对于客户性别,业务生产组件A产生的业务数据可能用编号01表示男性,编号02表示女性,而业务生产组件B产生的业务数据可能用中文“男”表示男性,中文“女”表示女性,业务生产组件C产生的业务数据可能用符号“♂”表示男性,符号“♀”表示女性。在将从各个生产组件获取的业务数据存储到数据仓库之前,数据存储子***13可以用统一的标准对各业务生产组件产生的业务数据进行标准化处理,例如,统一用编号01表示男性,用编号02表示女性。此外,可以用统一的数据结构对业务数据进行结构化处理。之后,数据存储子***13可以将标准化和结构化处理后的业务数据和其唯一标识存储到数据仓库中。在本实施方式中,标准化和结构化的规则和格式可由具体行业的业务需求预先设定。
在本发明的一些实施方式中,在进行标准化处理之前,数据存储子***13还可以将接收的业务数据中质量有问题的数据剔除。然后对剔除后的业务数据进行标准化和结构化处理,将标准化和结构化之后的数据按照关系型数据仓库对数据表的要求建立相应的数据表,从建立的数据表中提取主题信息(例如,可以将业务数据的组件标签作为其主题信息),按照主题信息将数据表归类存储到数据仓库中。
在本发明的一些实施方式中,数据处理***10还包括:用数子***14和数据加工子***15。
其中,用数子***14用于获取用户的用数请求。数据加工子***15用于执行下述操作:根据所述用数请求检索所述业务数据的唯一标识,从而获取目标数据,根据所述用户的权限和所述目标数据的唯一标识对所述目标进行脱敏处理,将脱敏处理后的目标数据返回给用户子***14。
具体而言,用数子***14可以获取用户的用数请求,将用数请求发送给数据加工子***15。数据加工子***15可以从所述用数请求中获得用户权限、需求数据等信息,需求数据可以包括但不限于需求哪些时间的数据,需求数据的业务类型,需求哪些业务生产组件产生的数据,或需求哪些岗位的工作人员使用业务生产组件产生的数据等。获取用户权限后,用数子***14可以根据用户权限判断该用户是否有权限获取其需求的数据,若有,用数子***14可以获取所述特征化处理模型,需求数据的业务指数、误差指数、数值化编码长度,以及需求数据的时间、业务类型和组件标签,然后可以根据所述特征化处理模型得到需求数据的唯一标识,然后根据所述唯一标识检索数据仓库,从而得到目标数据。
例如,用户X需要对近一年购买A项产品(业务类型为A)的客户做一个统计。用数子***14可以提供可视化界面,供用户X输入用数需求。获取用数需求后,用数子***14可以将所述用数需求发送给数据加工子***15。数据加工子***15可以根据所述用户的权限判断用户能否获取需求的数据,若可以,则用数子***可以获取所述特征化处理模型,根据所述特征化处理模型对需求数据进行特征化处理,得到需求数据的唯一索引,然后根据该索引检索数据库,从而得到目标数据。
获取目标数据后,数据加工子***15可以判断获取的目标数据中是否有敏感数据,若有,则比较用户的权限和目标数据的组件标签,判断用户是否能获取所述敏感数据,若不能,则对所述目标数据进行脱敏处理。例如,使用*代替目标数据中的客户地址、电话等敏感数据,将脱敏处理后的目标数据返回给所述用数子***14。
在本发明的一些实施方式中,所述数据加工模块14可以对脱敏处理后的目标数据在时间和空间维度进行加工,从而生成数据宽表。从不同的层级对宽表进行汇总得到报表,将所述报表、宽表发送给所述用数子***14。
根据上述实施方式,数据加工子***可以根据用户权限来获取目标数据并对目标数据进行脱敏处理,使得各种用户通过本实施方式提供的数据处理***都能够直接、快速的获取需求的数据。
在本发明的一些实施方式中,用数子***14接收到数据加工子***返回的经脱敏处理的目标数据后,可以根据需求将所述脱敏处理后的目标数据处理成可视化数据报表,所述可视化数据报表可以包括但不限于条形图、热力图、折线图、雷达图等。
在本发明的一些实施方式中,用数子***14可以包括但不限于以下模块:
数据可视化模块,用于对数据进行可视化展示,供用户选取的报表数据,在线生成可视化的条形图、热力图、折线图或者雷达图。
数据宽表管理模块,用于供用户在线查看数据加工子***加工出来的宽表明细,该模块可根据表中字段名称或者表名模糊匹配,找到相应的宽表,选择相应的宽表,并提供该宽表的表结构文档和血缘关系图供用户查阅,为在线使用数据的用户提供帮助。
个性化设置模块,用于供用户在线个性化设置和保存自己在基础报表模块查看过的报表、数据可视化模块生成过的可视化图形、实时在线数据设置的过滤信息、灵活实现定制化的数据。
业务指标模块,用于在数据加工子***产生的指标数据的基础之上,通过一系列可视化的操作,实现对相应的指标加工规则的查看,由于指标和指标之间存在着相关性,构成了一个血缘图,用户在此模块可以简单的操作清楚地查看各个指标的含义和指标间关系,并且联动业务宽表实现对相应指标值的查看。
灵活用数模块,用于供用户在基础宽表数据之上,选择相应的宽表,通过字段选择,进一步汇总字段选择,进一步在原有的指标基础之上形成新指标,可视化图表类型选择等来灵活生成自己想要的报表、明细数据、汇总数据、可视化图表等。
实时数据模块,用于供用户通过资金流向分类,交易对手筛选,交易地域筛选等筛选方式按金额大小设置阈值,在线查看自己想要的实时数据。
例如,业务人员A通过本发明提供的数据处理***获取需求数据时,不知道“经济增加值”这个业务指标的含义,业务人员A可以通过业务指标模块提供的搜索功能,输入“经济增加值”,点击查询按钮,即可找到“经济增加值”的加工过程,是由“净利润”-“经济资本成本”的出来,然后用户也可以进一步点击“净利润”查看“净利润”的指标含义是由“经营收入”-“经营费用”-“所得税”。
又例如,业务人员A只知道自己想要X产品的营销情况,但是并不知道基础的宽表有哪些表他可以使用,A就可以通过在宽表热力图中寻找表,也可以通过宽表业务模块提供的搜索功能,输入“X产品”来寻找相应的宽表。
再例如,数据加工子***返回一张当年A产品累计销售情况的数据宽表,业务人员B如果只想看这张表的明细数据,可以用灵活用数模块提供的明细数据查看功能,类似于SQL语句的SELECT某些字段,然后直接查看明细;进一步如果业务人员B,想查看某几个地区的汇总情况,并且进行对比分析,灵活用数模块可以提供按某个或者按某些字段汇总的功能,业务人员B只需要按地区,把这张A产品销售情况表进行汇总即可,最后选择生成的图表,类似与SQL语句的GROUP BY功能;进一步的如果业务人员想要查看A产品的销售净利润情况,灵活用数模块提供了按表中的一个或多个字段进行组合汇总的功能,业务人员B只需要把销售金额减去成本,即可得到净利润这个新指标,在选择相应的图表进行展示即可。
再例如,业务人员B想看资金的流向情况,业务人员B就可以用实时数据模块提供的功能,设置自己想看的金额大小,流进流出选择,关注客户筛选,最后得到自己想看的实时数据。
根据上述实施方式,本发明对业务生产组件产生的数据按照反映时间的情况拆分为了业务数据和与业务数据对应的现场数据,将与时效性相关的现场数据提取出来进行特征化处理,并打上标签,以便于数据检索,提高数据的保密性,同时降低数据占用的存储空间。
在上述处理的基础上,本发明所述的数据处理子***提供了用数子***和数据加工子***,用数部门可以直接通过本发明所述的用数子***输入用数需求,用数子***将所述需求发送给数据加工子***。所述数据加工子***根据用户权限来进行数据控制,取出与用户需求、权限对应的不同时间、不同层级、不同口径的数据,并对数据进行与用户权限相适应的脱敏处理后,返回给用数子***,对应岗位和平台的用户通过所述用数子***只能看到与其权限对应的需求数据。从而,在保障数据安全的情况下,各种用户都可以通过本发明所述的***快速获取其需求的数据。
此外,所述用数子***提供各种可视化的数据设置、筛选、处理、分析功能,用户可以通过用数子***提供的各种功能对数据加工子***返回的数据进行各种数据分析处理。
例如,业务部门X,需要对近一年购买A项产品的客户做一个统计,其部门工作人员可以直接登录本发明所述的数据处理***,输入用数需求。本发明所述的数据处理***可以根据登录账户的权限(用户权限)来判断用户是否能获取其需求的数据,如果能的话,自动从数据仓库中获取其需求的数据,并根据用户权限来对数据中的客户地址、电话等敏感数据进行脱敏,将不是用户所在地区的数据剔除。如果用户是普通操作员不是管理员,还可以剔除一些只能管理员看到的数据。最后形成一张零门槛的基础宽表,将所述基础宽表通过用数子***以各种可视化的形式反馈给用户。
通过本发明所述的数据处理***,用数部门或用户可以直接获取其需求的数据,不用间接通过技术部门经过复杂的处理来获得需求的数据,从而本发明所述的数据处理***可以降低用数门槛,实现用数零门槛。
本发明实施方式的第二方面提供一种数据处理方法。图3示出了根据本发明一种实施方式的数据处理方法的示意图,如图3所示,本实施方式所述的数据处理方法可以包括以下处理:
S1:获取各业务生产组件产生业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
S2:对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识,其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,以及使用所述业务生产组件的用户标识;
S3:对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中。
在本发明的一些实施方式中,所述对所述现场数据进行特征化处理可以包括:对所述业务类型和操作时刻进行数值化处理;将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;其中,所述特征化处理模型由以下公式表示:
或者,
公式中,R为特征化数据,type表示数值化处理后的业务类型,其取值为正整数,time表示数值化处理后的操作时刻,其取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
在本发明的一些实施方式中,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
在本发明的一些实施方式中,所述方法还可以包括:
获取用户的用数请求;
根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理。
在本发明的一些实施方式中,所述方法还可以包括:
根据脱敏处理后的目标数据形成可视化数据报表。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述实施方式所述的数据处理方法可以参考前述***实施方式中对应的过程,在此不再赘述。
本发明实施方式的第三方面提供一种计算机存储介质,如硬盘、光盘、闪存、软盘、磁带等,其上存储有计算机可读指令,该计算机可读指令能够被处理器执行以实现上述任意一种实施方式所述的数据处理方法。
虽然本文举例描述了一些实施方式,但是,在不脱离本发明实质的前提下,可以对这些实施方式进行各种变形,所有这些变形仍属于本发明的构思,并且落入本发明权利要求所限定的保护范围。例如,在本发明各实施方式中,多个模块中的部分模块的功能可以组合或集成为由一个模块实现,或者,某个模块的功能可以分成由多个模块实现。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的保护范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。
Claims (17)
1.一种数据处理***,所述***包括:
数据生产子***,用于获取各业务生产组件产生的业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
特征化处理子***,用于对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识;其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,使用所述业务生产组件的用户标识;
数据存储子***,用于对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中;
其中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time的取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
2.根据权利要求1所述的***,其特征在于,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
3.根据权利要求1或2所述的***,其特征在于,所述***还包括:
用数子***,用于获取用户的用数请求;
数据加工子***,用于执行下述操作:根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理,将脱敏处理后的目标数据返回给所述用数子***。
4.根据权利要求3所述的***,其特征在于,所述用数子***还用于根据所述脱敏处理后的目标数据形成可视化数据报表。
5.一种数据处理***,所述***包括:
数据生产子***,用于获取各业务生产组件产生的业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
特征化处理子***,用于对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识;其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,使用所述业务生产组件的用户标识;
数据存储子***,用于对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中;
其中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time的取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
6.根据权利要求5所述的***,其特征在于,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
7.根据权利要求5或6所述的***,其特征在于,所述***还包括:
用数子***,用于获取用户的用数请求;
数据加工子***,用于执行下述操作:根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理,将脱敏处理后的目标数据返回给所述用数子***。
8.根据权利要求7所述的***,其特征在于,所述用数子***还用于根据所述脱敏处理后的目标数据形成可视化数据报表。
9.一种数据处理方法,所述方法包括:
获取各业务生产组件产生业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识,其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,以及使用所述业务生产组件的用户标识;
对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中;
其中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time的取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
10.根据权利要求9所述的方法,其特征在于,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
11.根据权利要求9或10所述的方法,其特征在于,所述方法还包括:
获取用户的用数请求;
根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
根据脱敏处理后的目标数据形成可视化数据报表。
13.一种数据处理方法,所述方法包括:
获取各业务生产组件产生业务数据和与所述业务数据对应的现场数据,其中,所述现场数据包括:业务类型和操作时刻;
对所述现场数据进行特征化处理,得到特征化数据,对所述特征化数据打上组件标签,从而得到所述业务数据的唯一标识,其中,所述组件标签包括:产生所述现场数据的业务生产组件的组件标识,以及使用所述业务生产组件的用户标识;
对所述业务数据进行标准化和结构化处理,将处理后的业务数据和其唯一标识存储到数据仓库中;
其中,所述对所述现场数据进行特征化处理包括:
对所述业务类型和操作时刻进行数值化处理;
将数值化处理后的业务类型和操作时刻输入到特征化处理模型中得到特征化数据;
其中,所述特征化处理模型由以下公式表示:
公式中,R为特征化数据,type表示数值化处理后的业务类型,time表示数值化处理后的操作时刻,type的取值为正整数,time的取值为非负数,round为保留指定小数位数n的四舍五入函数,max_length为数值化处理后业务类型type的最大长度,m为预设的业务指数,n为预设的误差指数,m、n均为大于2的自然数。
14.根据权利要求13所述的方法,其特征在于,所述业务数据包括:
结构化数据、半结构化数据、非结构化数据、音频数据、视频数据、文档数据。
15.根据权利要求13或14所述的方法,其特征在于,所述方法还包括:
获取用户的用数请求;
根据所述用数请求中用户的权限获取目标数据的唯一标识,通过检索所述唯一标识获取目标数据,根据用户的权限和目标数据的唯一标识对所述目标数据进行脱敏处理。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
根据脱敏处理后的目标数据形成可视化数据报表。
17.一种计算机存储介质,其上存储有计算机可读指令,该指令可被处理器执行以实现权利要求9-16中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911265592.9A CN111178005B (zh) | 2019-12-11 | 2019-12-11 | 数据处理***、方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911265592.9A CN111178005B (zh) | 2019-12-11 | 2019-12-11 | 数据处理***、方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178005A CN111178005A (zh) | 2020-05-19 |
CN111178005B true CN111178005B (zh) | 2023-11-14 |
Family
ID=70655467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911265592.9A Active CN111178005B (zh) | 2019-12-11 | 2019-12-11 | 数据处理***、方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178005B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966726B (zh) * | 2020-07-22 | 2023-09-26 | 武汉极意网络科技有限公司 | 基于不同类型客户的自适应数据分析报告生成***及方法 |
CN114205449B (zh) * | 2020-09-02 | 2023-06-16 | 成都鼎桥通信技术有限公司 | 终端防窃听方法、控制设备、终端及存储介质 |
CN111966868B (zh) * | 2020-09-07 | 2021-04-06 | 航天云网数据研究院(广东)有限公司 | 基于标识解析的数据治理方法及相关设备 |
CN112132457B (zh) * | 2020-09-22 | 2022-03-18 | 北京科东电力控制***有限责任公司 | 基于数据中心平台的95598数据质量稽查评价方法及*** |
CN113108819A (zh) * | 2021-04-08 | 2021-07-13 | 南京创信盛合光电科技有限公司 | 一种基于5g网络的激光检测*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800225A (zh) * | 2018-12-24 | 2019-05-24 | 北京奇艺世纪科技有限公司 | 业务指标的获取方法、装置、服务器及计算机可读存储介质 |
CN109816420A (zh) * | 2018-12-13 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 客户数据处理方法、装置、计算机设备及存储介质 |
CN110197331A (zh) * | 2019-05-24 | 2019-09-03 | 深圳前海微众银行股份有限公司 | 业务数据处理方法、装置、设备及计算机可读存储介质 |
CN110263024A (zh) * | 2019-05-20 | 2019-09-20 | 平安普惠企业管理有限公司 | 数据处理方法、终端设备及计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346405A1 (en) * | 2012-06-22 | 2013-12-26 | Appsense Limited | Systems and methods for managing data items using structured tags |
-
2019
- 2019-12-11 CN CN201911265592.9A patent/CN111178005B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816420A (zh) * | 2018-12-13 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 客户数据处理方法、装置、计算机设备及存储介质 |
CN109800225A (zh) * | 2018-12-24 | 2019-05-24 | 北京奇艺世纪科技有限公司 | 业务指标的获取方法、装置、服务器及计算机可读存储介质 |
CN110263024A (zh) * | 2019-05-20 | 2019-09-20 | 平安普惠企业管理有限公司 | 数据处理方法、终端设备及计算机存储介质 |
CN110197331A (zh) * | 2019-05-24 | 2019-09-03 | 深圳前海微众银行股份有限公司 | 业务数据处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111178005A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178005B (zh) | 数据处理***、方法及存储介质 | |
CN109767322B (zh) | 基于大数据的可疑交易分析方法、装置和计算机设备 | |
US20200192894A1 (en) | System and method for using data incident based modeling and prediction | |
US20200184485A1 (en) | Systems and methods for processing support messages relating to features of payment networks | |
US11714869B2 (en) | Automated assistance for generating relevant and valuable search results for an entity of interest | |
CN110851729A (zh) | 资源信息推荐方法、装置、设备及计算机存储介质 | |
CN110929969A (zh) | 一种供应商的评价方法及装置 | |
US20230297552A1 (en) | System, Method, and Computer Program Product for Monitoring and Improving Data Quality | |
US20160253350A1 (en) | Proactive duplicate identification | |
US20180101913A1 (en) | Entropic link filter for automatic network generation | |
KR101671890B1 (ko) | 거래관계 분석 장치 및 방법 | |
CN112631889B (zh) | 针对应用***的画像方法、装置、设备及可读存储介质 | |
CN112508119B (zh) | 特征挖掘组合方法、装置、设备及计算机可读存储介质 | |
US20150199688A1 (en) | System and Method for Analyzing an Alert | |
CN111680110A (zh) | 数据处理方法、装置、bi***及介质 | |
US11755571B2 (en) | Customized data scanning in a heterogeneous data storage environment | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN112487262A (zh) | 一种数据处理的方法和装置 | |
US10824681B2 (en) | Enterprise resource textual analysis | |
Chen et al. | Strategic Decision-making Processes of NPD by Hybrid Classification Model Techniques | |
CN109543096B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
US11900289B1 (en) | Structuring unstructured data via optical character recognition and analysis | |
US11886485B1 (en) | Computer-implemented visual query matching methods, and systems for implementing thereof | |
US20240012825A1 (en) | An electronic data analysis system and method | |
US20240086816A1 (en) | Systems and methods for risk factor predictive modeling with document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |