CN113849492B - 为多场景业务提供标准化数据质量校验的*** - Google Patents
为多场景业务提供标准化数据质量校验的*** Download PDFInfo
- Publication number
- CN113849492B CN113849492B CN202111112606.0A CN202111112606A CN113849492B CN 113849492 B CN113849492 B CN 113849492B CN 202111112606 A CN202111112606 A CN 202111112606A CN 113849492 B CN113849492 B CN 113849492B
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- service
- rule
- dgraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 14
- 238000007726 management method Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000013439 planning Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 21
- 238000011161 development Methods 0.000 abstract description 16
- 230000008878 coupling Effects 0.000 abstract description 7
- 238000010168 coupling process Methods 0.000 abstract description 7
- 238000005859 coupling reaction Methods 0.000 abstract description 7
- 238000013524 data verification Methods 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 39
- 230000007115 recruitment Effects 0.000 description 31
- 230000006870 function Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012384 transportation and delivery Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种为多场景业务提供标准化数据质量校验的***,属于数据质量校验技术领域。所述***从内至外包括基础支持层、后端服务层、引擎服务层以及应用层。通过统一标准化数据质量校验***的建设,未来将应用在简历产生、简历流转的各个环节中,实现在数据产生的源头控制数据质量,并在简历使用的各个环节中做数据质量优化,保证简历数据的可用性。同时,使数据校验开发的链路更为清晰,减少了代码的耦合,提高了项目开发效率,为业务多样化提供基础保障。
Description
技术领域
本发明属于数据质量校验技术领域,具体地说,涉及一种为多场景业务提供标准化数据质量校验的***。
背景技术
在多场景并存业务处理***中,通常存在以下技术问题:一,各产品业务要求不同,因此导入的数据内容不同;二,各产品开发采用的语言不同,导致数据结构不同,例如APP端口和网页端,存在数据语言和结构的差异,通常获取的用户数据也会有差异;三,同一项目的不同产品内因应用场景不同,因而对数据需求不同。这种同一项目因服务产品业务需求、产品内场景需求、开发语言,从而导致数据结构,数据准确性存在差异,导致各产品产生的数据无法直接对外提供,需要汇总后经过较长时间的数据结构处理、数据清洗、数据提取后,进行分析与算法的推进。
为了更清晰地说明本发明,下文以在线招聘业务为例进行说明。
在线招聘业务发展至今,为2.1亿用户提供服务产品主要为招聘PC端、APP-ios/Android、M站、小程序、校园产品、卓聘产品等。这些产品中均有简历填写入口,但因对于简历的业务需求不同,各产品的简历数据存在较大差异。差异体主要体现在以下方面:各产品业务要求不同,导致数据内容不同。例如工作经历的职位类别,卓聘产品可选2级或3级职类,其他端产品仅可选择3级职类。各产品开发采用的语言不同,导致对于数据结构不同。例如工作经历中的职位薪资填写,在APP与PC端提供填写有日薪/月薪/年薪(可能还包括工作天数)等方式,其他端仅有月薪一种填写方式。产品内因场景不同,因而简历数据需求不同。例如在填写场景中,求职者按模块填写,可随时保存退出,对简历完整无要求;但在投递场景中,若简历缺失必要信息时,将引导求职者填写相关缺失内容。简历因服务产品业务需求、产品内场景需求、开发语言导致,简历数据结构,数据准确性存在差异,导致各产品产生的简历数据无法直接对外提供,需要经过较长时间的数据结构处理、数据清洗、数据提取后,进行分析与算法的推进。
发明内容
1、要解决的问题
在多场景并存业务处理***中,通常存在以下技术问题:一,各产品业务要求不同,因此导入的数据内容不同;二,各产品开发采用的语言不同,导致数据结构不同,例如APP端口和网页端,存在数据语言和结构的差异,通常获取的用户数据也会有差异;三,同一项目的不同产品内因应用场景不同,因而对数据需求不同。这种同一项目因服务产品业务需求、产品内场景需求、开发语言,从而导致数据结构,数据准确性存在差异,导致各产品产生的数据无法直接对外提供,需要汇总后经过较长时间的数据结构处理、数据清洗、数据提取后,进行分析与算法的推进。
2、技术方案
为解决上述问题,本发明采用如下的技术方案。
一种为多场景业务提供标准化数据质量校验的***,所述***从内至外包括基础支持层、后端服务层、引擎服务层以及应用层;
所述基础支持层包括如下模块:服务器集群、数据库集群、缓存服务器、基础网络、安全防护、分布式文件存储及域名服务;所述数据库集群、所述缓存服务器、所述基础网络、所述安全防护、所述分布式文件存储、所述域名服务均与所述服务器集群进行交互;所述服务器集群用于定义与归纳整理元数据的管理模型,所述数据库集群用于将元数据的抽象对象进行版本储存,所述缓存服务器用于提供对热点数据的储存,所述基础网络用于提供网络服务,所述安全防护用于在数据服务层的上层对数据进行加密访问,所述分布式文件存储用于存储日志文件,所述域名服务用于提供访问域名;
所述后端服务层包括如下模块:DGraph分布式图数据库、Type system类型***、API应用程序接口、Graph Engine图像引擎;所述DGraph分布式图数据库用于提供对元数据的持久化储存功能;所述Type system类型***用于归纳总结及抽象元数据;所述API应用程序接口用于提供对外的数据交互,所述Graph Engine图像引擎用于提供将Type system中的类型对象转换成DGraph分布式图数据库保存对象的功能;所述API应用程序接口的数据经Type system类型***归纳整理成类型对象,并将类型对象传输至Graph Engine图像引擎进行类型转换,接着持久化至DGraph分布式图数据库;
所述后端服务层还设置有MetaData Store元数据存储区与所述Index Store索引存储区,所述DGraph分布式图数据库建立在所述MetaData Store元数据存储区和所述Index Store索引存储区基础之上;所述MetaData Store元数据存储区用于定义元数据具体内容;所述Index Store索引存储区用于定义元数据的类型;
所述引擎服务层,用于搭建各类执行器,并在执行器的基础上增加选择、匹配、筛选以及关系维护,最后基于整体的模型适配器对外提供服务,最终完成自动加载和解析规则元数据对入参进行相关规则的校验,并返回验证结果;
所述应用层包括如下模块:元数据管理平台,以及与所述元数据管理平台相连的各类终端。
上述所述为多场景业务提供标准化数据质量校验的***,所述引擎服务层包括:
所述入参规则匹配器、所述场景规划筛选器与所述规则关系维护器,在各类执行器的基础上增加匹配、筛选以及关系维护,并基于整体的模型适配器根据应用层适配性地提供服务;
所述各类执行器包括简单规则执行器、并行规则执行器、规则执行器选择器、Drools规则执行器、基础数据规则执行器及NLP规则执行器,简单规则执行器、并行规则执行器、规则执行器选择器、Drools规则执行器、基础数据规则执行器及NLP规则执行器之间进行规则交互。
上述所述为多场景业务提供标准化数据质量校验的***,所述服务器集群与所述数据库集群之间通过基础网络来连接,所述基础网络利用如下的算法进行数据传输优化:
式(I)中,为数据传输优化的参数值,p0、sj及s′分别为PC端、APP端、第三方应用的三个网络节点的顶点。
上述所述为多场景业务提供标准化数据质量校验的***,所述安全防护配置有网络防火墙,所述网络防火墙连接于服务器集群的验证服务模块;
所述域名服务与第三方的域名服务器相连;
所述缓存服务器通过公网与所述服务器集群相连。
上述所述为多场景业务提供标准化数据质量校验的***,所述后端服务层的API应用程序接口与所述引擎服务层的规则执行器之间进行数据交互;所述后端服务层为基于Apache Atlas框架进行设计的服务层。
上述所述为多场景业务提供标准化数据质量校验的***,所述DGraph分布式图数据库的构建方法如下:
对数据库集群中的关系表进行DGraph超图,每一个DGraph边Ei∈E被定义为Ei={T(Ei),H(Ei),Ω(Ei)},其中T(Ei).Ai=TΣ(E);H(Ei).Ai=HΣ(E),每一个包含所有和相关的元组的IDs,被定义为函数依赖X→Y意味着X的值相同则Y值也必须相同,根据X的值将关系表中的数据分为不同的等价类,每一个等价类中,所有成员有相同的X值,其Y值相同或者不同;在DGraph中有两种超边,一种是只有一个头结点及|H(E)|=1,另一种则是有多个头结点及|H(E)|>1,分别为B-arc边和边;在DGraph中,如果包含一个或者多个边,意味着至少一个函数依赖等价类的左属性映射到多个等价类的右属性;其中X、Y为数据库集群的关系表中的属性,Σ为函数依赖集合,E为超图中超边的集合,H(e)表示超边的头结点,T(e)表示超边的尾节点,t为表R中的元组,Ai是属性名且Ai∈U。
上述所述为多场景业务提供标准化数据质量校验的***,所述API应用程序接口对于数据的调度算法如下:
式(II)中,其中Pi,t为t时段第i接口i出力,其中Pm,0为处理前第m条网络数据的出力,其中Pn,0为处理前第n条网络数据的出力,其中P’m,t为t时段第m条网络数据的分配出力,其中P’n,t为t时段第n条网络数据的分配出力。
3、有益效果
相比于现有技术,本发明的有益效果为:
因此,本发明旨在基于以上在多场景并存业务处理***中,达到如下技术效果和目标:
一致性:维护项目数据质量标准的一致性。保证同一内容在不同场景校验下使用规则集是一致的。
灵活性:在线业务多场景需要***高度耦合,在业务不断发展迭代中,保证数据质量校验标准的统一。
时效性:在线业务同时海量请求数据的质量标准服务,实现在毫秒级内完成校验,并反馈检测结果,保证***数据的时效性。
如此,例如,在具体应用到基于在线招聘业务多场景简历数据质量的检测中,以招聘业务中简历项目为例,在线招聘业务多场景简历数据提供统一标准化数据质量校验***的宗旨是:在招聘PC端、APP-ios/Android、M站、小程序、校园产品、卓聘产品等不同产品中,简历数据在不同产品与单产品的不同模块,我们均定义为简历的不同场景。因此,本发明所述多场景业务提供标准化数据质量校验的***在招聘业务中简历项目为例的情形中,体现为一种为在线招聘业务多场景简历填写提供统一标准化数据质量校验的***。
本发明创造性引入基础支持层、后端服务层、引擎服务层以及应用层,标准化数据质量校验***目前已应用于在线招聘的简历保存环节,自***上线后,新增与变更简历数据质量得到大幅提升。通过统一标准化数据质量校验***的建设,未来将应用在简历产生、简历流转的各个环节中,实现在数据产生的源头控制数据质量,并在简历使用的各个环节中做数据质量优化,保证简历数据的可用性。同时,基于统一标准化数据质量校验***的建设,使数据校验开发的链路更为清晰,减少了代码的耦合,提高了项目开发效率,为业务多样化提供基础保障。
附图说明
图1是本发明中为多场景业务提供标准化数据质量校验的***的***技术框架图;
图2是本发明中为多场景业务提供标准化数据质量校验的***的***产品框架;
图3为本发明中具体实施例中字段列表的操作示意图;
图4为本发明中具体实施例中检验错误的操作示意图;
图5为本发明中具体实施例中字段规范的配置示意图;
图6为本发明中具体实施例中逻辑规范的操作示意图;
图7为本发明中具体实施例中场景配置的操作示意图;
图8为本发明中具体实施例中场景检测的操作示意图;
图9为本发明中具体实施例中日志信息的操作示意图。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
在一个海量注册用户且拥有多条产品线的用户活跃项目中,对于核心数据需要进行数据结构处理、数据清洗、数据提取等等,以便为用户查询准确实时地反馈结果数据,并尽可能提供符合用户意图的高匹配质量数据。
因此,后台数据需要从原始采集后分析挖掘;从T+N天的处理到当前实时处理;从单一的场景到多样化引用场景,对其数据质量的要求在不断提高。提供高质量的采集数据,可有效减少数据处理时间,通过实时数据分析可快速进行目标匹配、精准推荐等应用,可促进在线业务的有效窗口期内招聘成功率。那么如何解决数据质量多场景的校验问题,成为业务发展的关键所在。
仍以招聘平台的简历数据为例。在拥有注册用户超2.01亿,日均活跃用户超过630万+,日均在线职位数超过780万+的招聘项目中,据活跃用户数推算平台日均活跃简历数至少在630万以上。在线招聘业务场景中,简历是求职者与招聘者沟通之间的“桥梁”,简历质量则是沟通“桥梁”的基石。
招聘业务发展过程中,简历数据从不做处理到当前的分析挖掘;从T+N天的处理到当前实时处理;从单一的投递场景到多样化投递场景,对其数据质量的要求在不断提高。提供高质量的简历数据,可有效减少数据处理时间,通过实时数据分析可快速进行人岗匹配、精准推荐等应用,可促进在线招聘业务的有效窗口期内招聘成功率。那么如何解决简历质量多场景的校验问题,成为在线招聘业务发展的关键所在。
实施例1
如图1所示,本实施例的为多场景业务提供标准化数据质量校验的***,所述***从内至外包括基础支持层、后端服务层、引擎服务层以及应用层。所述数据库集群、所述缓存服务器、所述基础网络、所述安全防护、所述分布式文件存储、所述域名服务均与所述服务器集群进行交互;所述服务器集群用于定义与归纳整理元数据的管理模型,所述数据库集群用于将元数据的抽象对象进行版本储存,所述缓存服务器用于提供对热点数据的储存,所述基础网络用于提供网络服务,所述安全防护用于在数据服务层的上层对数据进行加密访问,所述分布式文件存储用于存储日志文件,所述域名服务用于提供访问域名。
具体来说,服务器集群的功能如下:1.定义了元数据的管理模型,将元数据的各种属性,内容,规则,抽象的归纳整理成“类型”***,以便于存储和管理;2.服务器集群负责与其他集群的交互,如查询缓存集群的热点数据结果,查询数据库数据,将日志储存到分布式文件***等;3.定义数据入口、出口;调用方、数据管理后台进行交互。
同时,数据库集群:应用图形数据库,主要将元数据的抽象对象进行版本储存,提供了数据的持久化功能。缓存服务器集群:主要提供对热点数据的储存,提高重复查询的效率,降低对数据库集群的访问压力。安全防护:在数据服务层上层对数据进行加密访问,以防止交互数据被破解和爬取。分布式文件***:用于存储日志文件,采用分布式的文件***存储日志,主要为便于问题分析。域名服务:提供访问域名,方便前后台的数据交互。
综合来看,服务器集群是整个产品的核心模块,定义了产品的业务模型,提供了与调用方的交互,同时与各个集群进行交互,以保证整个数据链路的畅通和安全。
其中,基础支持层主要包含集群、网络、安全等等在内的底层服务支持,确保***整体运行的高可用,同时为***的安全运行提供保障。
后端服务层为基于Apache Atlas的框架,引进DGraph图数据库,对数据库元数据建立资产目录,并对这些资产进行分类和治理,为数据治理提供高质量的元数据信息,并以API的方式对外提供服务。所述DGraph分布式图数据库用于提供对元数据的持久化储存功能;所述Type system类型***用于归纳总结及抽象元数据;所述API应用程序接口用于提供对外的数据交互,所述Graph Engine图像引擎用于提供将Type system中的类型对象转换成DGraph分布式图数据库保存对象的功能;所述API应用程序接口的数据经Type system类型***归纳整理成类型对象,并将类型对象传输至Graph Engine图像引擎进行类型转换,接着持久化至DGraph分布式图数据库。
此处,后端各个服务的功能如下:Dgraph:提供了对元数据的持久化储存功能。TypeSystem:是产品主要的业务模块,对元数据进行了归纳,总结,最终抽象成为实际元数据对象。TypeSystem是一个组件,同时允许用户定义和管理类型和实体。由TypeSystem管理的所有元数据对象(都使用类型进行建模);“类型”定义了如何存储和访问特定类型的元数据对象。类型表示了所定义元数据对象的一个或多个属性集合。用户可以将“类型”理解成面向对象的编程语言的“类”定义的或关系数据库的“表模式”,为元数据的多样性提供了保障,为后续的业务扩展留出足够的位置和理论保障。API应用程序接口:主要提供对外的数据交互,包含业务调用方和管理***调用,提供各种维度的增删改查等功能。GraphEngine:提供了将Typesystem中的类型对象,转换成DGraph保存对象的功能,将“类型”抽象成图数据库的边,点等概念,是数据库和业务层交互的桥梁。用户经由api层调用接口,传送数据,经过解密,权限验证等操作之后,由Type system模块进行归纳整理成类型对象,将类型对象传至GraphEngine模块进行类型转换成边,点等图数据库专用数据,并最终持久化到DGraph。
引擎服务层为基于后端的API服务,搭建各类执行器,并在执行器的基础上增加匹配、筛选以及关系维护,最后基于整体的模型适配器对外提供服务,最终完成自动加载和解析规则元数据对入参进行相关规则的校验,并返回验证结果。
应用层包括PC端、APP端、第三方应用(开放平台):标准化数据质量校验***支持各类产品及服务端;同时元数据管理平台:基于业务需求与数据需求进行规则配置。
其中,所述基础支持层包括如下模块:服务器集群、数据库集群、缓存服务器、基础网络、安全防护、分布式文件存储及域名服务,所述数据库集群、所述缓存服务器、所述基础网络、所述安全防护、所述分布式文件存储、所述域名服务均与所述服务器集群相连。
其中,所述后端服务层包括如下模块:DGraph分布式图数据库、Type system类型***、API应用程序接口、Graph Engine图像引擎;DGraph分布式图数据库上设置有MetaData Store元数据存储区与Index Store索引存储区,所述DGraph分布式图数据库分别与所述Meta Data Store元数据存储区、所述Index Store索引存储区相连;所述DGraph分布式图数据库、所述Type system类型***、所述API应用程序接口、所述Graph Engine图像引擎依次相连。需要注意的是,所述MetaData Store元数据存储区用于定义元数据具体内容;所述Index Store索引存储区用于定义元数据的类型。Dgraph主要指数据库集群,用于存储元数据、元数据的类型数据,其中Index Store是指元数据的类型数据,即TypeSystem类型中抽象出来定义的各种对象,字段,类型,属性,规则等,用于定义元数据类型。而MetaData Store指元数据具体内容,简历的具体字段,该字段的属性,校验规则,譬如简历中的字段毕业日期,属性是时间类型,校验规则是大于入学日期,同时小于第一份工作日期。
其中,所述引擎服务层包括如下模块:规则执行器、入参规则匹配器、场景规划筛选器、规则关系维护器、模型适配器、执行结果分析器;所述规则执行器分别与所述入参规则匹配器、所述场景规划筛选器、所述规则关系维护器相连,所述入参规划匹配器、所述场景规划筛选器、所述规则关系维护器分别与所述模型适配器相连,所述模型适配器与所述执行结果分析器相连;所述规则执行器包括简单规则执行器、并行规划执行器、规则执行器选择器、Drools规则执行器、基础数据规则执行器及NLP规则执行器,所述简单规则执行器、所述并行规划执行器、所述规则执行器选择器、所述Drools规则执行器、所述基础数据规则执行器、所述NLP规则执行器并列设置;DROOLS执行器,基础数据验证执行器,NLP验证执行器;针对DROOLS执行器,该执行器依照自动加载的配置元信息、自动匹配相关的参数并且执行DROOLS脚本本身,返回结果。针对基础数据执行器,自动匹配基础数据执行器的解释数据,并与现有的基础数据集合进行相关的匹配,针对NLP执行器,冲元数据相关的规则中自动匹配NLP相关的验证。
上述需要注意的是,DGraph中Index Store内容是元数据的类型数据,这一部分是根据元数据进行前期调研后人为定义的,是对各种元数据类型的抽象规则,是对MetaDataStore的强约束,在GraphEngine模块中,针对将要存储的元数据内容,会根据相应的IndexStore中的类型数据进行校验,例如元数据中某个类型的字段,其数据类型,需要定义的校验规则,校验需要的参数值,枚举是否合规等内容,需要校验且满足条件后,才能进行持久化,这里要求元数据必须符合定义好的类型信息,保证元数据的准确和完整性。此外,模型适配器:将各种形式的保存参数,适配成标准模型,在对标准模型进行验证。Drools的具体执行方法,在初始化规则时,初始化所有的规则并将其转换成KieSession进行缓存,之后在每次准备验证的时候直接使用词session进行执行。
其中,所述应用层包括如下模块:PC端、APP端、第三方应用及元数据管理平台,所述PC段、所述APP端、所述第三方应用均与所述元数据管理平台相连。
上述所述为多场景业务提供标准化数据质量校验的***中,所述服务器集群与所述数据库集群之间通过基础网络来连接,所述基础网络利用如下的算法进行数据传输优化:
式(I)中,为数据传输优化的参数值,P0、sj及s’分别为PC端、APP端、第三方应用的三个网络节点的顶点。
上述所述为多场景业务提供标准化数据质量校验的***中,所述安全防护配置有网络防火墙,所述网络防火墙连接于服务器集群的验证服务模块;
所述域名服务与第三方的域名服务器相连;
所述缓存服务器通过公网与所述服务器集群相连;
所述分布式文件存储的构建方法如下:
选取文件;
对文件的文件内容进行Hash计算,获得文件的文件标识;
根据文件标识来构建索引节点匹配层,用于将索引节点匹配层中的匹配主键值与匹配索引节点对应起来,索引节点匹配层由多个索引节点匹配表构成,每个索引节点匹配表由相关的主键值和键值对构成;文件的文件标识作为指针块的主键值,文件的索引节点作为指针块的键值;
当获得的后续文件的文件标识不存在于索引节点匹配层中时,根据后续文件标识生成新索引节点匹配表***索引节点匹配层中;
当获得的后续文件的文件标识存在于索引节点匹配层中时,将后续文件指向对应的索引节点。
上述所述为多场景业务提供标准化数据质量校验的***,所述后端服务层的API应用程序接口与所述引擎服务层的规则执行器之间进行数据交互;
所述后端服务层为基于Apache Atlas框架进行设计的服务层。
标准化数据质量校验***是以简历业务主数据的字段为检测目标,基于字段本身、字段之间为校验目标。在标准化数据质量校验***主要维护数据标准、数据标准应用场景。该***以数据标准规范为核心内容,主要涉及以下内容:
数据表信息(字段列表):为数据内容的核心数据配置页面,按简历业务的核心字段,配置字段基础信息。
字段规范:配置字段本身的数据标准,包括空值校验、枚举值、字典值、文本合理性、格式、字符等在内的校验,提供规则配置所需的增删改查;同时,还有对于校验错误的语义提示信息配置。
逻辑规范:配置字段间关系的数据标准,包括唯一性、准确性等在内的字段间逻辑校验;同时,还有校验错误的语义提示信息配置。
应用场景:场景设置主要为满足各个业务场景校验规范不同而进行规范配置,应用场景配置内容细化至字段的各个校验规则。
上述所述为多场景业务提供标准化数据质量校验的***,所述DGraph分布式图数据库的构建方法如下:
对数据库集群中的关系表进行DGraph超图,每一个DGraph边Ei∈E被定义为Ei={T(Ei),H(Ei),Ω(Ei)},其中T(Ei).Ai=TΣ(E);H(Ei).Ai=HΣ(E),每一个包含所有和相关的元组的IDs,被定义为函数依赖X→Y意味着X的值相同则Y值也必须相同,根据X的值将关系表中的数据分为不同的等价类,每一个等价类中,所有成员有相同的X值,其Y值相同或者不同;在DGraph中有两种超边,一种是只有一个头结点及|H(E)|=1,另一种则是有多个头结点及|H(E)|>1,分别为B-arc边和边;在DGraph中,如果包含一个或者多个边,意味着至少一个函数依赖等价类的左属性映射到多个等价类的右属性;其中X、Y为数据库集群的关系表中的属性,Σ为函数依赖集合,E为超图中超边的集合,H(e)表示超边的头结点,T(e)表示超边的尾节点,t为表R中的元组,Ai是属性名且Ai∈U。
上述所述为多场景业务提供标准化数据质量校验的***,所述Graph Engine图像引擎设置有接收模块、发送模块、寄存器、指令解析模块及RAM控制组,所述接收模块与所述指令解析模块相连,所述发送模块与所述RAM控制组相连,所述RAM控制组通过所述寄存器与所述指令解析模块相连;所述寄存器设置有分光器、信号处理器、多谐振荡电路及显示装置,所述分光器、所述信号处理器、所述多谐振荡电路、所述显示装置均与所述RAM控制组相连。
上述所述为多场景业务提供标准化数据质量校验的***中,所述模型适配器用于启动数学模型、向数学模型中输入数据获取计算结果;
所述Drools规则执行器与所述NLP规则执行器相连。
上述所述为多场景业务提供标准化数据质量校验的***中,所述PC端设置有复位引脚、控制单元、I/O接口及驱动控制器,所述复位引脚、所述控制单元、所述I/O接口均与所述驱动控制器相连,所述复位引脚与所述控制单元相连,所述I/O接口与所述复位引脚相连。
上述所述为为多场景业务提供标准化数据质量校验的***中,所述APP端设置有基于ZigBee设计的通信模块,所述基于ZigBee设计的通信模块上设计有STM32主控芯片,所述STM32主控芯片上设置有ZigBee无线模块、数据采集模块及驱动模块,所述ZigBee无线模块、所述数据采集模块均与所述驱动模块相连。
上述所述为多场景业务提供标准化数据质量校验的***中,所述API应用程序接口对于数据的调度算法如下:
式(II)中,其中Pi,t为t时段第i接口i出力,其中Pm,0为处理前第m条网络数据的出力,其中Pn,0为处理前第n条网络数据的出力,其中P’m,t为t时段第m条网络数据的分配出力,其中P’n,t为t时段第n条网络数据的分配出力。
标准化数据质量校验***是以简历业务主数据的字段为检测目标,基于字段本身、字段之间为校验目标。在标准化数据质量校验***主要维护数据标准、数据标准应用场景。标准化数据质量校验***产品的框架如图2所示。上述***以数据标准规范为核心内容,主要涉及以下内容:
数据表信息(字段列表):为数据内容的核心数据配置页面,按简历业务的核心字段,配置字段基础信息。
字段规范:配置字段本身的数据标准,包括空值校验、枚举值、字典值、文本合理性、格式、字符等在内的校验,提供规则配置所需的增删改查;同时,还有对于校验错误的语义提示信息配置。
逻辑规范:配置字段间关系的数据标准,包括唯一性、准确性等在内的字段间逻辑校验;同时,还有校验错误的语义提示信息配置。
应用场景:场景设置主要为满足各个业务场景校验规范不同而进行规范配置,应用场景配置内容细化至字段的各个校验规则。
具体来说,参数的配置,是平台使用者自己配置;该***的亮点:
亮点1:配置一套标准,将适配应用于各个场景;如:我们可以在简历编写保存,调用元数据标准确认数据录入的准确性,在投递场景中亦可调用元数据标准确保投递场景中B端接收的信息准确性;
亮点2:元数据版本间可独立运行;在多产品同时运行的过程中,会有版本迭代过程中产生数据标准的差异;故元数据标准支持各个版本的独立运行;确保因迭代导致数据问题得到解决;
亮点3:对于业务上可快速进行配置,支持业务快速上线;即通过管理平台进行规则与场景配置,通过后端API服务、引擎的模型适配器,可使产品端快速的应用。
统一标准化数据质量校验的***是以平台配置与后端服务相结合的方式对外提供服务,在产品端可配置数据标准规范以及数据标准应用场景。
如图3所示,字段列表提供数据字段配置,主要为简历数据字段内容,包含字段含义、所在模块、字段类型等,是标准化数据质量检测目标的内容配置,字段规范配置与逻辑规范配置均是基于字段列表中存在的字段进行数据配置。
如图4所示,字段规范提供字段本身校验的规范,可配置字段的非空、字段长度、字段取值范围等,同时,校验错误的提示语需配置在每个字段的每条规则。字段规范目前提供了8种类型,具体可配置的规范如图5所示。
如图6所示,逻辑规范提供字段之间逻辑校验的规范,可配置数据合理性、唯一性等,同时,校验错误的提示语需配置在每条规则。
如图7所示,场景配置是决定业务调用那些规范,多业务可使用同一场景也可使用不同的场景。如图8所示,场景是基于字段规范与逻辑规范的已经设置的规则来设置场景检测内容。
如图9所示,日志信息主要为***操作的记录,提供操作查询,了解字段规范、逻辑规范、应用场景的相关操作信息。操作信息明确操作人、时间、类别以及内容。
因此,在本发明所述为多场景业务提供标准化数据质量校验的***中,当应用于为在线招聘业务多场景简历填写提供统一标准化数据质量校验的***中时,更具体来说,为了实现在线招聘业务多场景简历数据质量标准的一致性、时效性以及灵活性,我们在充分梳理在线招聘简历在业务需求的基础上,在简历产生源头即求职者填写简历,简历流转过程即求职者投递简历,增加统一标准化的数据质量校验服务。采用数据源头控制+后期优化的方式:解决新增简历与修改简历的质量检测问题;同时,在各个业务场景的简历保存节点增加简历检测服务;在质量校验出异常的数据时,采用不同方式进行数据修复。求职者新增或修改数据时,依据问题的严重程度进行引导求职者进行修改;历史数据采用离线检测并修复,部分问题采用分析挖掘的方式进行修复,部分问题需联合求职者进行修复;通过我们搭建的标准化数据质量校验***,实现数据质量标准一致性、时效性以及灵活性,保证各场景使用的质量标准统一,解决实现标准的差异化更符合业务发展的需求。解决现有的不同业务对于质量检测的代码重复耦合或校验标准不同的问题。实现场景服务不同,数据质量标准同源同口径。
本发明提供的为多场景业务提供标准化数据质量校验的***中,为了实现在线招聘业务多场景简历数据质量标准的一致性、时效性以及灵活性,我们在充分梳理在线招聘简历在业务需求的基础上,在简历产生源头即求职者填写简历,简历流转过程即求职者投递简历,增加统一标准化的数据质量校验服务。采用数据源头控制+后期优化的方式:解决新增简历与修改简历的质量检测问题;同时,在各个业务场景的简历保存节点增加简历检测服务。
在质量校验出异常的数据时,采用不同方式进行数据修复。求职者新增或修改数据时,依据问题的严重程度进行引导求职者进行修改;历史数据采用离线检测并修复,部分问题采用分析挖掘的方式进行修复,部分问题需联合求职者进行修复。
通过我们搭建的标准化数据质量校验***,实现数据质量标准一致性、时效性以及灵活性,保证各场景使用的质量标准统一,解决实现标准的差异化更符合业务发展的需求。解决现有的不同业务对于质量检测的代码重复耦合或校验标准不同的问题。实现场景服务不同,数据质量标准同源同口径。
本申请基于在线招聘业务多场景简历数据质量的检测的需求,达到了在线招聘业务多场景简历数据提供统一标准画数据质量校验***以下目标:
一致性:维护简历数据质量标准的一致性。保证同一内容在不同场景校验下使用规则集是一致的。
灵活性:在线招聘业务多场景需要***高度耦合,在业务不断发展迭代中,保证数据质量校验标准的统一。
时效性:在线招聘业务同时海量请求简历质量标准服务,实现在毫秒级内完成校验,并反馈检测结果。
本发明所提供的标准化数据质量校验***,当运用于招聘业务场景时,可以应用于在线招聘的简历保存环节,新增与变更简历数据质量得到大幅提升。通过统一标准化数据质量校验***的建设,未来将应用在简历产生、简历流转的各个环节中,实现在数据产生的源头控制数据质量,并在简历使用的各个环节中做数据质量优化,保证简历数据的可用性。同时,基于统一标准化数据质量校验***的建设,使数据校验开发的链路更为清晰,减少了代码的耦合,提高了项目开发效率,为业务多样化提供基础保障。
以上内容是结合具体实施方式对本发明作进一步详细说明,不能认定本发明具体实施只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明所提交的权利要求书确定的保护范围。
Claims (3)
1.一种为多场景业务提供标准化数据质量校验的***,其特征在于:
所述***从内至外包括基础支持层、后端服务层、引擎服务层以及应用层;
所述基础支持层包括如下模块:服务器集群、数据库集群、缓存服务器、基础网络、安全防护、分布式文件存储及域名服务;所述数据库集群、所述缓存服务器、所述基础网络、所述安全防护、所述分布式文件存储、所述域名服务均与所述服务器集群进行交互;所述服务器集群用于定义与归纳整理元数据的管理模型,所述数据库集群用于将元数据的抽象对象进行版本储存,所述缓存服务器用于提供对热点数据的储存,所述基础网络用于提供网络服务,所述安全防护用于在数据服务层的上层对数据进行加密访问,所述分布式文件存储用于存储日志文件,所述域名服务用于提供访问域名;
所述后端服务层包括如下模块:DGraph分布式图数据库、Type system类型***、A PI应用程序接口、Graph Engine图像引擎;所述DGraph分布式图数据库用于提供对元数据的持久化储存功能;所述Type system类型***用于归纳总结及抽象元数据;所述API应用程序接口用于提供对外的数据交互,所述Graph Engine图像引擎用于提供将Type s ystem中的类型对象转换成DGraph分布式图数据库保存对象的功能;所述API应用程序接口的数据经Type system类型***归纳整理成类型对象,并将类型对象传输至Graph E ngine图像引擎进行类型转换,接着持久化至DGraph分布式图数据库;
所述后端服务层还设置有MetaData Store元数据存储区与Index Store索引存储区,所述DGraph分布式图数据库建立在所述MetaData Store元数据存储区和所述Index Store索引存储区基础之上;所述MetaData Store元数据存储区用于定义元数据具体内容;所述Index Store索引存储区用于定义元数据的类型;
所述引擎服务层,用于搭建各类执行器,并在执行器的基础上增加选择、匹配、筛选以及关系维护,最后基于整体的模型适配器对外提供服务,最终完成自动加载和解析规则元数据对入参进行相关规则的校验,并返回验证结果;
所述应用层包括如下模块:元数据管理平台,以及与所述元数据管理平台相连的各类终端;
其中,所述服务器集群与所述数据库集群之间通过基础网络来连接,所述基础网络利用如下的算法进行数据传输优化:
式(I)中,为数据传输优化的参数值,P0、sj及s’分别为PC端、APP端、第三方应用的三个网络节点的顶点;
所述安全防护配置有网络防火墙,所述网络防火墙连接于服务器集群的验证服务模块;
所述域名服务与第三方的域名服务器相连;
所述缓存服务器通过公网与所述服务器集群相连;
其中,所述DGraph分布式图数据库的构建方法如下:
对数据库集群中的关系表进行DGraph超图,每一个DGraph边Ei∈E被定义为Ei={T(Ei),H(Ei),Ω(Ei)},其中T(Ei).Ai=TΣ(E);H(Ei).Ai=HΣ(E),每一个包含所有和相关的元组的IDs,被定义为函数依赖X→Y意味着X的值相同则Y值也必须相同,根据X的值将关系表中的数据分为不同的等价类,每一个等价类中,所有成员有相同的X值,其Y值相同或者不同;在DGraph中有两种超边,一种是只有一个头结点及|H(E)|=1,另一种则是有多个头结点及|H(E)|>1,分别为B-arc边和边;在DGraph中,如果包含一个或者多个边,意味着至少一个函数依赖等价类的左属性映射到多个等价类的右属性;其中X、Y为数据库集群的关系表中的属性,Σ为函数依赖集合,E为超图中超边的集合,H(e)表示超边的头结点,T(e)表示超边的尾节点,t为表R中的元组,Ai是属性名且Ai∈U;
其中,所述API应用程序接口对于数据的调度算法如下:
式(II)中,其中Pi,t为t时段第i接口i出力,其中Pm,0为处理前第m条网络数据的出力,其中Pn,0为处理前第n条网络数据的出力,其中P’m,t为t时段第m条网络数据的分配出力,其中P’n,t为t时段第n条网络数据的分配出力。
2.根据权利要求1所述为多场景业务提供标准化数据质量校验的***,其特征在于,所述引擎服务层包括:
入参规则匹配器、场景规划筛选器与规则关系维护器,在各类执行器的基础上增加匹配、筛选以及关系维护,并基于整体的模型适配器根据应用层适配性地提供服务;
所述各类执行器包括简单规则执行器、并行规则执行器、规则执行器选择器、Drools规则执行器、基础数据规则执行器及NLP规则执行器,简单规则执行器、并行规则执行器、规则执行器选择器、Drools规则执行器、基础数据规则执行器及NLP规则执行器之间进行规则交互。
3.根据权利要求1所述为多场景业务提供标准化数据质量校验的***,其特征在于:
所述后端服务层的API应用程序接口与所述引擎服务层的规则执行器之间进行数据交互;所述后端服务层为基于Apache Atlas框架进行设计的服务层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111112606.0A CN113849492B (zh) | 2021-09-23 | 2021-09-23 | 为多场景业务提供标准化数据质量校验的*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111112606.0A CN113849492B (zh) | 2021-09-23 | 2021-09-23 | 为多场景业务提供标准化数据质量校验的*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849492A CN113849492A (zh) | 2021-12-28 |
CN113849492B true CN113849492B (zh) | 2024-06-18 |
Family
ID=78979176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111112606.0A Active CN113849492B (zh) | 2021-09-23 | 2021-09-23 | 为多场景业务提供标准化数据质量校验的*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849492B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114415954A (zh) * | 2022-01-04 | 2022-04-29 | 烽火通信科技股份有限公司 | 一种Ceph对象存储元数据处理的优化方法及装置 |
CN117056459B (zh) * | 2023-08-07 | 2024-05-10 | 北京网聘信息技术有限公司 | 一种向量召回方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506632A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于分布式多中心的资源共享***及方法 |
CN111435344A (zh) * | 2019-01-15 | 2020-07-21 | 中国石油集团川庆钻探工程有限公司长庆钻井总公司 | 一种基于大数据的钻井提速影响因素分析模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7451403B1 (en) * | 2002-12-20 | 2008-11-11 | Rage Frameworks, Inc. | System and method for developing user interfaces purely by modeling as meta data in software application |
CN111722847A (zh) * | 2020-06-18 | 2020-09-29 | 国网电子商务有限公司 | 一种基于规则引擎的数据校验方法及装置 |
-
2021
- 2021-09-23 CN CN202111112606.0A patent/CN113849492B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506632A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于分布式多中心的资源共享***及方法 |
CN111435344A (zh) * | 2019-01-15 | 2020-07-21 | 中国石油集团川庆钻探工程有限公司长庆钻井总公司 | 一种基于大数据的钻井提速影响因素分析模型 |
Also Published As
Publication number | Publication date |
---|---|
CN113849492A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7574379B2 (en) | Method and system of using artifacts to identify elements of a component business model | |
CN113849492B (zh) | 为多场景业务提供标准化数据质量校验的*** | |
US8725760B2 (en) | Semantic terminology importer | |
CN110941630A (zh) | 一种数据库运维方法、装置及*** | |
CN109840254A (zh) | 一种数据虚拟化及查询方法、装置 | |
CN116226166A (zh) | 基于数据源的数据查询方法及*** | |
CN112506771A (zh) | 一种报文比对方法和装置 | |
CN115857886A (zh) | 基层政务应用的低代码开发平台 | |
US20240127379A1 (en) | Generating actionable information from documents | |
CN112733017A (zh) | 一种标签管理方法、装置、存储介质及电子装置 | |
CN117132226A (zh) | 一种用户行为审核管理*** | |
US10003492B2 (en) | Systems and methods for managing data related to network elements from multiple sources | |
US20230195792A1 (en) | Database management methods and associated apparatus | |
CN116228402A (zh) | 一种金融征信特征仓库技术支持*** | |
CN115827051A (zh) | 一种软件集成管理***、方法及服务器 | |
CN115422202A (zh) | 业务模型的生成方法、业务数据查询方法、装置及设备 | |
CN114707961A (zh) | 基于审批流配置的待审批任务执行方法、装置、设备、介质和程序产品 | |
CN115222501A (zh) | 财务核算方法、装置、存储介质及核算服务器 | |
CN114911773A (zh) | 一种通用元模型设计方法 | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model | |
CN114780807A (zh) | 业务检测方法、装置、计算机***及可读存储介质 | |
CN108959309A (zh) | 数据分析的方法和装置 | |
CN113486115A (zh) | 一种基于大数据的人才信息管理*** | |
CN112308508A (zh) | 一种信息统一管理*** | |
CN112381509A (zh) | 重大新药创制国家科技重大专项课题管理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |