CN110569238B - 一种基于大数据的数据治理方法、***、存储介质和服务端 - Google Patents

一种基于大数据的数据治理方法、***、存储介质和服务端 Download PDF

Info

Publication number
CN110569238B
CN110569238B CN201910864418.XA CN201910864418A CN110569238B CN 110569238 B CN110569238 B CN 110569238B CN 201910864418 A CN201910864418 A CN 201910864418A CN 110569238 B CN110569238 B CN 110569238B
Authority
CN
China
Prior art keywords
data
source data
service end
interface
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910864418.XA
Other languages
English (en)
Other versions
CN110569238A (zh
Inventor
周道华
杨陈
曾俊
洪江
彭容
黄维
李武鸿
刘瑞东
张明娟
许江泽
吴婷婷
付志华
刘杰
詹飞
程武彬
杨眉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Daqi Software Co ltd
Original Assignee
Chengdu Zhongke Daqi Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Daqi Software Co ltd filed Critical Chengdu Zhongke Daqi Software Co ltd
Priority to CN201910864418.XA priority Critical patent/CN110569238B/zh
Publication of CN110569238A publication Critical patent/CN110569238A/zh
Application granted granted Critical
Publication of CN110569238B publication Critical patent/CN110569238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于大数据的数据治理方法、***、存储介质和服务端,方法包括:服务端根据决策者的选择,确定数据治理模式;当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量。本发明避免当出现一段时间数据量大一段时间或数据量小的情况时,固定数量的清洗线程或者按照实际获取到的数据量进行的清洗线程会出现空闲或者堵塞的问题。

Description

一种基于大数据的数据治理方法、***、存储介质和服务端
技术领域
本发明涉及一种基于大数据的数据治理方法、***、存储介质和服务端。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。
在现有技术中采用清洗线程对数据进行清洗,但是现有技术也仅仅根据实际的数据量对清洗线程的数量进行设定,当出现一段时间数据量大一段时间数据量小的情况时,按照该种方式设定的清洗线程会出现空闲或者堵塞的问题。
公开于本发明背景技术部分的信息仅仅旨在加深对本公开的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于大数据的数据治理方法、***、存储介质和服务端。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供一种基于大数据的数据治理方法,包括:
服务端根据决策者的选择,确定数据治理模式;
当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量。
进一步地,所述方法还包括:
当所述数据治理模式为离线模式时,根据待清洗的源数据大小,设置对所述源数据进行清洗的清洗线程的数量。
进一步地,所述业务端接入服务端的源数据接口,包括:
服务端检测到业务端接入预定的接口时,建立与业务端的连接,并创建服务线程,以获取并解析来自业务端的请求;
所述服务端的服务线程在解析到来自业务端的请求为源数据调取请求时,建立业务端与源数据接口的连接。
进一步地,在所述建立业务端与源数据接口的连接后,创建第一监听线程;同时:
所述第一监听线程对源数据调取过程进行监听,判断源数据接口是否能访问成功并成功返回请求数据,同时判断源数据接口接收到的返回的数据是否为有效数据;如果有任意一项不满足,则生成预警信息并发送;
在判断源数据接口能访问成功后,创建对应于所述源数据接口的第二监听线程;
所述第二监听线程轮训式监听业务端的数据库日志记录,验证当前数据是否有效存在;如果不满足,则生成预警信息并发送。
进一步地,所述的判断源数据接口是否能访问成功,具体包括:
通过http协议访问请求源数据接口,验证接口是否正常能调用;
判断成功返回请求数据,具体包括:
采用http协议判断接口请求状态,并根据返回的协议状态码进行验证;
所述的判断源数据接口接收到的返回的数据是否为有效数据,具体包括:
验证数据结构:接口请求成功后返回的数据结构是否满足业务需求;
验证每个数据项格式是否正确,包括字符、数字、汉字和长度在内的字符类型验证;
验证所有返回的数据项是否都是合法有效数据;
所述验证当前数据是否有效存在,具体包括:
在业务端的数据库中以轮询式搜索日志记录的数据表中是否有新数据产生,具体采用任务调度器轮询式使用Tsql脚本语句搜索。
进一步地,所述源数据接口由服务端的任务调度模块进行调度分配,所述预警消息发送至任务调度模块;所述预警信息包括数据错误情况和源数据接口ID;
当在一段时间多次接收到同一源数据接口ID的预警信息时,将对应源数据接口挂起,自动断开业务端与服务端的连接,并分配新的源数据接口与业务端连接;之后,将挂起的源数据接口释放。
进一步地,所述数据错误情况包括数据错误类型和对应源数据的数据包名称;将所述数据包名称发送至业务端,以使所述业务端将未发送完成的数据包进行发送;
服务端对重分配接口的业务端的所有数据进行组合处理;其中,对于具有相同数据包名称的数据,自动丢弃数据大小不是最大的对应数据包名称的数据。
本发明的第二方面,提供一种基于大数据的数据治理***,包括服务端,所述服务端包括:
数据治理模式确定模块:根据决策者的选择,确定数据治理模式;
实时模式清洗线程确定模块:当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量。
本发明的第三方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的一种基于大数据的数据治理方法的步骤。
本发明的第四方面,提供一种服务端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的一种基于大数据的数据治理方法的步骤。
本发明的有益效果是:
(1)在本发明一示例性实施例中,根据接入服务端的源数据接口的数量对待清洗的源数据的数据大小进行预计算,并进一步地根据数据大小预先分配出清洗线程的数量,使得优先对清洗线程进行调整。从而避免当出现一段时间数据量大一段时间或数据量小的情况时,固定数量的清洗线程或者按照实际获取到的数据量进行的清洗线程会出现空闲或者堵塞的问题。
(2)在本发明一示例性实施例中,当处于离线模式时,由于待清洗的源数据大小相较于实时模式更易获取,因此可以直接根据待清洗的源数据大小设置源数据进行清洗的清洗线程的数量。
(3)在本发明一示例性实施例中,在接入源数据接口之前,先接入预定接口,之后根据服务线程判断是否需要接入源数据接口。
(4)在本发明一示例性实施例中,提供了接口预警,其核心思想是从服务端到业务端两层关卡,双向保障数据接口预警效果,无遗漏:第一层是监听服务端源数据接口,第二层是监听业务端数据库日志记录。同时,对于第二层监听的前提是第一层监听的基础,避免在服务端出现问题时仍然创建第二层监听浪费多余资源的问题。
(5)在本发明一示例性实施例中,在本发明的一示例性实施例中,公开了判断源数据接口是否能访问成功、判断成功返回请求数据、判断源数据接口接收到的返回的数据是否为有效数据、验证当前数据是否有效存在的具体实现方式。
其效果有两个:A能充分从源数据接收端最大化摒弃掉无效数据,保证接收存储到的全部是有效数据;B能通过第一关卡验证接口是否正常,进行第一时间捕捉数据实时性故障,第一时间发现并预警告知。
(6)在本发明的一示例性实施例中,通过任务调度模块对源数据接口进行调度分配,当在一段时间多次接收到同一源数据接口ID的预警信息时,将对应源数据接口挂起,自动断开业务端与服务端的连接,并分配新的源数据接口与业务端连接;之后,将挂起的源数据接口释放。即通过重新分配接口的方式实现预警后的后处理。
(7)在本发明一示例性实施例中,通过数据包名称则可实现数据的继续发送。另外,由于为了避免错误判断继续发送的数据点,因此通过重新发送数据包即可解决该问题。
(8)在本发明一示例性实施例中,当管理员或决策者接收到包括源数据接口ID和数据错误情况在内的预警信息时,管理员或决策者即实时把控各源数据接口的故障情况,以便快速处理。同时为了避免出现问题源数据接口在未恢复前即开始使用,因此,采用下述方式进行解决:对于管理员或决策者处理后的源数据接口,立即恢复优先级,即认为该源数据接口已经恢复正常;而对于管理员或决策者未处理的源数据接口,仅在预设时间后自动恢复优先级,避免源数据接口在被挂起与释放后再次马上被调用再次出现问题的问题。
附图说明
图1为本发明一示例性实施例的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
参见图1,图1是本申请一示例性实施例示出的一种基于大数据的数据治理方法的流程图,包括:
S1:服务端根据决策者的选择,确定数据治理模式。
其中,决策者通过终端对服务端选择数据治理模式;所述终端可以是固定终端如PC机,也可以是移动终端。
通常情况下,数据治理模式分为两种,其中一种为实时模式,例如需要实时处理数据的景区数据;另外一种为离线模式,即需要后期对大量的数据进行分析处理。下述示例性实施例对实时模式进行改进。
S2:当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量。
即在本示例性实施例中,当处于实时模式,可以根据接入服务端的源数据接口的数量对用于清洗源数据的清洗线程的数量进行调整与设置。
由于源数据接口本身在数据不进行传输时并不进行接入,因此可以根据接入服务端的源数据接口的数量对待清洗的源数据的数据大小进行预计算,并进一步地根据数据大小预先分配出清洗线程的数量,使得优先对清洗线程进行调整。从而避免当出现一段时间数据量大一段时间或数据量小的情况时,固定数量的清洗线程或者按照实际获取到的数据量进行的清洗线程会出现空闲或者堵塞的问题。
更优地,在一示例性实施例中,如图1所示,所述方法还包括:
当所述数据治理模式为离线模式时,根据待清洗的源数据大小,设置对所述源数据进行清洗的清洗线程的数量。
在本示例性实施例中,当处于离线模式时,由于待清洗的源数据大小相较于实时模式更易获取,因此可以直接根据待清洗的源数据大小设置源数据进行清洗的清洗线程的数量。
更优地,在一示例性实施例中,公开了业务端接入服务端的源数据接口的具体方式,从而进一步说明计算源数据接口具体数量的方式。具体地,所述业务端接入服务端的源数据接口,包括:
SA1:服务端检测到业务端接入预定的接口时,建立与业务端的连接,并创建服务线程,以获取并解析来自业务端的请求。
其中,在一示例性实施例中,所述业务端用于向服务端进行对接,从而向服务端提供海量大数据(源数据)中的其中一部分,因此在该示例性实施例中会有大量业务端与服务端连接;而在又一示例性实施例中,所述业务端还用于获取服务端的部分源数据,从而进行计算与分析。
在一示例性实施例中,所述预定的接口可以是硬件接口,例如串口、USB接口,即对应的业务端可以是采集数据的实体数据设备;也可以是软件接口,例如应用程序编程API接口等等,即对应的业务端可以是具有软件数据的存储设备。
然而由于业务端的请求具有多种(其中一种即为源数据调取请求),因此当业务端通过预定的接口接入至服务端时,所述服务端可与所述业务端建立连接;同时创建一服务线程,该服务线程用以获取并解析来自业务端的请求,尤其是识别源数据调取请求。
SA2:所述服务端的服务线程在解析到来自业务端的请求为源数据调取请求时,建立业务端与源数据接口的连接。
在该示例性实施例中,服务线程识别到业务端请求数据调取的同时,建立业务端与源数据接口的连接。
另外,基于上述示例性实施例的说明,在所述建立业务端与源数据接口的连接后,创建第一监听线程;
也就是说,服务线程识别到业务端请求数据调取时,不仅建立业务端与源数据接口的连接,还会创建第一监听线程,即通过第一监听线程开始对服务端这一层的进行监听。
同时还包括以下步骤:SA3:所述第一监听线程对源数据调取过程进行监听,判断源数据接口是否能访问成功并成功返回请求数据,同时判断源数据接口接收到的返回的数据是否为有效数据;如果有任意一项不满足,则生成预警信息并发送。
其中,在每次调取源数据接口时,都会进行双重验证:(1)判断源数据接口是否能访问成功并成功返回请求数据;(2)判断源数据接口接收到的返回的数据是否为有效数据;如果两者都满足则进行下一步,否则会生成预警信息并发送。
而在一示例性实施例中,所述的判断源数据接口是否能访问成功,具体包括:
通过http协议访问请求源数据接口,验证接口是否正常能调用。
而在又一示例性实施例中,判断成功返回请求数据,具体包括:
采用http协议判断接口请求状态,并根据返回的协议状态码进行验证。
而在又一示例性实施例中,所述的判断源数据接口接收到的返回的数据是否为有效数据,具体包括:
验证数据结构:接口请求成功后返回的数据结构是否满足业务需求;
验证每个数据项格式是否正确,包括字符、数字、汉字和长度在内的字符类型验证;
验证所有返回的数据项是否都是合法有效数据。
SA4:在判断源数据接口能访问成功后,创建对应于所述源数据接口的第二监听线程。
也就是说,当源数据接口能够访问后,创建第二监听线程,即通过第二监听线程开始对业务端这一层的进行监听。
并且该第二监听线程的创建前提是基于源数据接口访问成功,避免在服务端出现问题时仍然创建第二监听线程浪费多余资源的问题。
SA5:所述第二监听线程轮训式监听业务端的数据库日志记录,验证当前数据是否有效存在;如果不满足,则生成预警信息并发送。
而在一示例性实施例中,所述验证当前数据是否有效存在,具体包括:
在业务端的数据库中以轮询式搜索日志记录的数据表中是否有新数据产生,具体采用任务调度器轮询式使用Tsql脚本语句搜索。
在一示例性实施例中,所述源数据接口由服务端的任务调度模块进行调度分配,所述预警消息发送至任务调度模块;所述预警信息包括数据错误情况和源数据接口ID。
即源数据接口具有多个,需要通过统一机制(即任务调度模块)实现调度分配,当生成了预警消息时该任务调度模块会根据实际情况对源数据接口进行调整,在一示例性实施例中,对于同一个源数据接口:(1)若在一段时间内,仅出现了一次(或者预设次数)的预警消息,则无需对该源数据接口进行处理;(2)而当在一段时间多次接收到同一源数据接口ID的预警信息时,此时则证明该源数据接口出现明显问题,此时该任务调度模块需要对该接口进行调整:具体地,调整方式为将对应源数据接口挂起,自动断开业务端与服务端的连接,并分配新的源数据接口与业务端连接;之后,将挂起的源数据接口释放。
即通过重新分配接口的方式实现预警后的后处理。
然而,如果产生预警信息、源数据接口被挂起时,数据有可能在整个数据包的中端发送即被中止,因此需要一解决方式解决该问题,具体地:
在一示例性实施例中,所述数据错误情况包括数据错误类型和对应源数据的数据包名称;将所述数据包名称发送至业务端,以使所述业务端将未发送完成的数据包进行发送。
其中,数据错误类型即包括上述的三次判断(服务端两次、业务端的数据库日志记录一次),而通过数据包名称则可实现数据的继续发送。另外,由于为了避免错误判断继续发送的数据点,因此通过重新发送数据包即可解决该问题。
而为了避免重新发送数据包导致部分数据重复获取(导致大数据获取错误),因此在一示例性实施例中,服务端对重分配接口的业务端的所有数据进行组合处理;其中,对于具有相同数据包名称的数据,自动丢弃数据大小不是最大的对应数据包名称的数据。
在一示例性实施例中,所述预警信息还发送至显示装置,以使管理员或决策者获取各源数据接口的故障情况并进行相应处理。
其中,该显示装置可以为管理员或决策者的移动终端、固定终端等,可以通过邮件/短信/APP的方式实现。当管理员或决策者接收到包括源数据接口ID和数据错误情况在内的预警信息时,管理员或决策者即实时把控各源数据接口的故障情况,以便快速处理。
为了避免出现问题源数据接口在未恢复前即开始使用,因此,在一示例性实施例中,采用下述方式进行解决:
经挂起并释放后的源数据接口相较于未经挂起处理的源数据接口,在预设时间内具有低优先级;在预设时间后或者经管理员或决策者处理后恢复优先级。
其中,对于管理员或决策者处理后的源数据接口,立即恢复优先级,即认为该源数据接口已经恢复正常;而对于管理员或决策者未处理的源数据接口,仅在预设时间后自动恢复优先级,避免源数据接口在被挂起与释放后再次马上被调用再次出现问题的问题。
而另一示例性实施例与上述任意一示例性实施例具有相同的技术启示,提供一种基于大数据的数据治理***,包括服务端,所述服务端包括:
数据治理模式确定模块:根据决策者的选择,确定数据治理模式;
实时模式清洗线程确定模块:当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量。
这里需要说明的是:上述实施例提供的一种基于大数据的数据治理***可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
而另一示例性实施例与上述任意一所述方法的示例性实施例具有相同的技术启示,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的一种基于大数据的数据治理方法的步骤。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行。所述一条或多条计算机指令被处理器执行时能够实现上述基于大数据的数据治理方法中的步骤。
而另一示例性实施例与上述任意一所述方法的示例性实施例具有相同的技术启示,提供一种服务端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的一种基于大数据的数据治理方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种基于大数据的数据治理方法,其特征在于:包括:
服务端根据决策者的选择,确定数据治理模式;
当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量;
所述业务端接入服务端的源数据接口,包括:
服务端检测到业务端接入预定的接口时,建立与业务端的连接,并创建服务线程,以获取并解析来自业务端的请求;
所述服务端的服务线程在解析到来自业务端的请求为源数据调取请求时,建立业务端与源数据接口的连接;
在所述建立业务端与源数据接口的连接后,创建第一监听线程;同时:
所述第一监听线程对源数据调取过程进行监听,判断源数据接口是否能访问成功并成功返回请求数据,同时判断源数据接口接收到的返回的数据是否为有效数据;如果有任意一项不满足,则生成预警信息并发送;
在判断源数据接口能访问成功后,创建对应于所述源数据接口的第二监听线程;
所述第二监听线程轮询式监听业务端的数据库日志记录,验证当前数据是否有效存在;如果不满足,则生成预警信息并发送。
2.根据权利要求1所述的一种基于大数据的数据治理方法,其特征在于:所述方法还包括:
当所述数据治理模式为离线模式时,根据待清洗的源数据大小,设置对所述源数据进行清洗的清洗线程的数量。
3.根据权利要求1所述的一种基于大数据的数据治理方法,其特征在于:所述的判断源数据接口是否能访问成功,具体包括:
通过http协议访问请求源数据接口,验证接口是否正常能调用;
判断成功返回请求数据,具体包括:
采用http协议判断接口请求状态,并根据返回的协议状态码进行验证;
所述的判断源数据接口接收到的返回的数据是否为有效数据,具体包括:
验证数据结构:接口请求成功后返回的数据结构是否满足业务需求;
验证每个数据项格式是否正确,包括字符、数字、汉字和长度在内的字符类型验证;
验证所有返回的数据项是否都是合法有效数据;
所述验证当前数据是否有效存在,具体包括:
在业务端的数据库中以轮询式搜索日志记录的数据表中是否有新数据产生,具体采用任务调度器轮询式使用Tsql脚本语句搜索。
4.根据权利要求1所述的一种基于大数据的数据治理方法,其特征在于:所述源数据接口由服务端的任务调度模块进行调度分配,所述预警信息发送至任务调度模块;所述预警信息包括数据错误情况和源数据接口ID;
当在一段时间多次接收到同一源数据接口ID的预警信息时,将对应源数据接口挂起,自动断开业务端与服务端的连接,并分配新的源数据接口与业务端连接;之后,将挂起的源数据接口释放。
5.根据权利要求4所述的一种基于大数据的数据治理方法,其特征在于:所述数据错误情况包括数据错误类型和对应源数据的数据包名称;将所述数据包名称发送至业务端,以使所述业务端将未发送完成的数据包进行发送;
服务端对重分配接口的业务端的所有数据进行组合处理;其中,对于具有相同数据包名称的数据,自动丢弃数据大小不是最大的对应数据包名称的数据。
6.一种基于大数据的数据治理***,包括服务端,其特征在于,所述服务端包括:
数据治理模式确定模块:根据决策者的选择,确定数据治理模式;
实时模式清洗线程确定模块:当所述数据治理模式为实时模式时,则根据业务端接入服务端的源数据接口的数量,设置用于对通过所述源数据接口调取的源数据进行清洗的清洗线程的数量;
所述业务端接入服务端的源数据接口,包括:
服务端检测到业务端接入预定的接口时,建立与业务端的连接,并创建服务线程,以获取并解析来自业务端的请求;
所述服务端的服务线程在解析到来自业务端的请求为源数据调取请求时,建立业务端与源数据接口的连接;
在所述建立业务端与源数据接口的连接后,创建第一监听线程;同时:
所述第一监听线程对源数据调取过程进行监听,判断源数据接口是否能访问成功并成功返回请求数据,同时判断源数据接口接收到的返回的数据是否为有效数据;如果有任意一项不满足,则生成预警信息并发送;
在判断源数据接口能访问成功后,创建对应于所述源数据接口的第二监听线程;
所述第二监听线程轮询式监听业务端的数据库日志记录,验证当前数据是否有效存在;如果不满足,则生成预警信息并发送。
7.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1-5所述的一种基于大数据的数据治理方法的步骤。
8.一种服务端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1-5所述的一种基于大数据的数据治理方法的步骤。
CN201910864418.XA 2019-09-12 2019-09-12 一种基于大数据的数据治理方法、***、存储介质和服务端 Active CN110569238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864418.XA CN110569238B (zh) 2019-09-12 2019-09-12 一种基于大数据的数据治理方法、***、存储介质和服务端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864418.XA CN110569238B (zh) 2019-09-12 2019-09-12 一种基于大数据的数据治理方法、***、存储介质和服务端

Publications (2)

Publication Number Publication Date
CN110569238A CN110569238A (zh) 2019-12-13
CN110569238B true CN110569238B (zh) 2023-03-24

Family

ID=68779581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864418.XA Active CN110569238B (zh) 2019-09-12 2019-09-12 一种基于大数据的数据治理方法、***、存储介质和服务端

Country Status (1)

Country Link
CN (1) CN110569238B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491905B (zh) * 2020-12-01 2023-05-05 郑州昂视信息科技有限公司 网络设备的性能测试方法、装置及***
CN117234694B (zh) * 2023-11-13 2024-03-01 广州中长康达信息技术有限公司 基于seda线程调度的数据治理方法及***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗***及方法
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合***及方法
CN106156350A (zh) * 2016-07-25 2016-11-23 恒安嘉新(北京)科技有限公司 一种可视化大数据分析方法及***
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106776984A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种分布式***挖掘数据的清洗方法
CN106777933A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据采集方法、装置及***
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
CN108446170A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种基于机器学习的dns线程管理方法、装置和服务器
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109558400A (zh) * 2018-11-28 2019-04-02 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN109635024A (zh) * 2018-11-23 2019-04-16 华迪计算机集团有限公司 一种数据迁移方法及***
CN109857728A (zh) * 2017-11-30 2019-06-07 广州明领基因科技有限公司 针对图书馆的大数据清洗***
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10705977B2 (en) * 2018-03-02 2020-07-07 Intel Corporation Method of dirty cache line eviction

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗***及方法
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合***及方法
CN106156350A (zh) * 2016-07-25 2016-11-23 恒安嘉新(北京)科技有限公司 一种可视化大数据分析方法及***
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106776984A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种分布式***挖掘数据的清洗方法
CN106777933A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据采集方法、装置及***
CN109857728A (zh) * 2017-11-30 2019-06-07 广州明领基因科技有限公司 针对图书馆的大数据清洗***
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
CN108446170A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种基于机器学习的dns线程管理方法、装置和服务器
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109635024A (zh) * 2018-11-23 2019-04-16 华迪计算机集团有限公司 一种数据迁移方法及***
CN109558400A (zh) * 2018-11-28 2019-04-02 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
代理模式在数据交换资源调度中的应用;胡晴晴等;《计算机***应用》;20120430(第4期);全文 *
车间制造过程RFID数据智能清洗方法研究;程晶;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20190515(第5期);全文 *

Also Published As

Publication number Publication date
CN110569238A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
US10348809B2 (en) Naming of distributed business transactions
CN107992398B (zh) 一种业务***的监控方法和监控***
WO2021008031A1 (zh) 基于微服务实现监控智能化的处理方法及电子装置
CN110555019B (zh) 一种基于业务端的数据清洗方法
US20210184947A1 (en) Automatic capture of detailed analysis information based on remote server analysis
US9369356B2 (en) Conducting a diagnostic session for monitored business transactions
CN109672627A (zh) 基于集群服务器的业务处理方法、平台、设备及存储介质
US10230611B2 (en) Dynamic baseline determination for distributed business transaction
CN111045911B (zh) 性能测试方法、性能测试装置、存储介质与电子设备
US20160226728A1 (en) Automatic capture of detailed analysis information for web application outliers with very low overhead
CN110569238B (zh) 一种基于大数据的数据治理方法、***、存储介质和服务端
CN108959029A (zh) 收集和报告服务器异常日志的方法及***
CN110569178B (zh) 基于大数据平台的接口预警方法和***
CN109117279A (zh) 电子装置及其限制进程间通信的方法、存储介质
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN110262955A (zh) 基于pinpoint的应用性能监控工具
CN117370053A (zh) 一种面向信息***业务运行全景监测方法及***
CN106933718B (zh) 性能监控方法及装置
CN115309559A (zh) 一种基于kvm云平台的虚拟化资源统筹优化***
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
CN109995617A (zh) 主机管理特性的自动化测试方法、装置、设备及存储介质
CN110933148A (zh) 一种监控方法、***、设备及存储介质
CN114461233A (zh) 基于云环境实现数据中心软件自动化部署的***及方法
CN117792860A (zh) 一种大数据通信分析管理方法
CN113839993A (zh) 一种可支持海量设备的指令下发***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant