CN109416684B - 分析平台的摄取管理器 - Google Patents

分析平台的摄取管理器 Download PDF

Info

Publication number
CN109416684B
CN109416684B CN201780041160.2A CN201780041160A CN109416684B CN 109416684 B CN109416684 B CN 109416684B CN 201780041160 A CN201780041160 A CN 201780041160A CN 109416684 B CN109416684 B CN 109416684B
Authority
CN
China
Prior art keywords
ingestion
data
analysis
manager
workspaces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780041160.2A
Other languages
English (en)
Other versions
CN109416684A (zh
Inventor
D·S·赖纳
N·南达
T·布鲁斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Publication of CN109416684A publication Critical patent/CN109416684A/zh
Application granted granted Critical
Publication of CN109416684B publication Critical patent/CN109416684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models

Abstract

一个实施例中的装置包括摄取管理器、与摄取管理器相关联的多个摄取引擎、以及被配置为在摄取管理器的控制下从摄取引擎接收数据的分析平台。所述摄取管理器被配置为结合向所述分析平台的多个分析工作空间中的给定分析工作空间提供数据来与所述摄取引擎中的一个或多个交互。例如分析平台的分析工作空间示意性地被配置为在摄取管理器的控制下从摄取引擎的相应潜在不相交的子集接收数据。附加地或替代地,摄取管理器可以被配置为实现分析平台的分析工作空间中的一个或多个的数据即服务功能。

Description

分析平台的摄取管理器
技术领域
该领域通常涉及信息处理***,更具体地涉及信息处理***中的数据摄取。
背景技术
许多不同类型的信息处理***被配置为合并数据分析功能。例如被配置为执行“大数据”分析的许多***在本领域中是已知的。然而,在与来自多个不同数据源的数据的摄取有关的这些***中的一些中可能出现问题。
附图说明
图1是在本发明的示意性实施例中的包括控制用于分析平台的多个不同的摄取引擎的摄取管理器的信息处理***的框图。
图2是用于在示意性实施例中管理从多个不同的摄取引擎到分析平台的摄取的示例处理的流程图。
图3示出了示意性实施例中的分析平台的摄取管理器的更详细视图。
图4和5示出了在示意性实施例中可用于实现信息处理***的至少一部分的处理平台的示例。
具体实施方式
本文将参考示例性信息处理***和相关计算机、服务器、存储设备和其他处理设备来描述本发明的示意性实施例。然而,应了解,本发明的实施例不限于与所示的特定示意性***和装置配置一起使用。因此,本文使用的术语“信息处理***”旨在被广泛地解释,以便涵盖例如包括云计算和存储***的处理***,以及包括物理和虚拟处理资源的各种组合的其他类型的处理***。因此,信息处理***可以包括例如至少一个数据中心或其他类型的基于云的***,其包括托管访问云资源的租户的一个或多个云。
还应注意,本发明的示意性实施例可包括但不限于包括处理器可读存储介质的装置、***、方法和计算机程序产品。
图1示出了根据本发明的示意性实施例配置的信息处理***100。假设信息处理***100构建在至少一个处理平台上,并且为至少一个分析平台提供数据摄取管理的功能。在该实施例中,***100更具体地包括摄取管理器102、耦合到摄取管理器102或以其他方式与摄取管理器102相关联的多个摄取引擎104-1,104-2…104-N、以及分析平台105,其被配置为在摄取管理器102的控制下从摄取引擎104接收数据。分析平台105包括多个分析工作空间106-1,106-2,…106-M。摄取管理器102示意性地被配置为选择摄取引擎104中的一个或多个,以用于向分析平台105的分析工作空间106中的给定分析工作空间106提供数据。
作为示例,在一些实现中,分析平台105的分析工作空间106中的两个或更多个被配置为在摄取管理器102的控制下从摄取引擎104的各个潜在不相交的子集接收数据。尽管可以使用其他类型的数据传递模型,但是这样的功能使用数据即服务模型被示意性地提供。
摄取管理器102示意性地被配置为至少部分地基于诸如数据类型,数据量、数据延迟、预期用途、和服务级别协议(SLA)要求的因素来选择摄取引擎104中的一个或多个以向分析平台105的分析工作空间106中的给定分析工作空间106提供数据。
摄取管理器102还被配置为维护与分析平台105的分析工作空间106中的一个或多个分析工作空间106的数据使用有关的历史信息,并至少部分地基于历史信息来调整摄取引擎104中的一个或多个的选择以向这些分析工作空间106提供数据。
在示意性实施例中,摄取管理器102可以提供许多其他类型的附加或替代数据摄取管理功能。
例如在一些实施例中,摄取管理器102被配置为监视分析平台105的分析工作空间106中的给定一个的摄取数据的使用,以标识响应于监视的相关数据,并控制给定的分析工作空间的相关数据的摄取。在一些情况下,相关数据可以在分析平台105的外部,或者可以先前被摄取到分析工作空间106或相关联的数据容器中的不同的一个中。控制相关数据的摄取可以包括例如首先建议摄取,然后如果建议被批准则编排摄取。
作为另一示例,在一些实施例中,摄取管理器102被配置为允许两个或更多个分析工作空间106注册以从摄取引擎104的相应潜在不相交的子集接收数据。
作为另一示例,在一些实施例中,摄取管理器102被配置为控制将数据摄取到操作性数据容器(ODC)中,操作性数据容器(ODC)可由分析平台105的分析工作空间106的至少一个子集中的每个分析工作空间访问。
附加地或替代地,摄取管理器102可以被配置为代表分析平台105的分析工作空间106中的一个或多个确保符合针对数据摄取的SLA。例如摄取管理器可以被配置为确保符合SLA,SLA要求在给定的工作日内,在这些特定销售数据源的初始可用性的15分钟内从特定销售数据源中摄取运营销售数据。
本文其他地方将提供示意性实施例中的摄取管理功能的许多其他示例。
摄取管理器102可以被配置为控制来自摄取引擎104的各种不同的数据摄取模式,包括例如到达的数据批次的摄取(“批量摄取”)、到达的数据流的摄取(“近-实时”)、历史数据的摄取(“追赶”)、以及对现有数据集合的更新的摄取(“仅改变”,通常称为改变数据捕获(CDC))。数据和元数据可以在摄取之前或与摄取一起在存储***或***100的其他部分中就地被索引。此外,可以发布摄取数据的可用性,以促进在***100内的潜在的以自助方式的数据分发。
数据摄取引擎104可以被配置为从许多不同类型的数据源摄取数据,包括例如关系数据库管理***、分布式NoSQL***、事件流、日志文件和许多其他数据源。可以利用各种不同类型的数据传输机制将数据从数据源传递到摄取引擎104,包括例如通过HTTP或SFTP的文件拷贝、JDBC、REST、Kafka、Flume和特定于供应商的接口。
虽然摄取管理器102及其相关联的摄取引擎104在图1的实施例中被示为与分析平台105分离,但是在一些实施例中,摄取管理器102和摄取引擎104中的一个或多个可以至少部分地实现在分析平台105内。此外,有可能摄取引擎104中的至少部分可以合并到摄取管理器102中,反之亦然。例如摄取管理器102可以包括多个集成的摄取引擎104。作为另一个示例,摄取管理器102的分布式实现可以包括在摄取引擎104中的相应的一些上实现的一个或多个摄取管理模块。
本文使用的术语“分析平台”旨在广义地解释,以涵盖涉及数据分析的各种不同处理环境,包括基于云的环境。术语“分析工作空间”同样旨在被广泛地解释,以涵盖各种不同类型的工作空间,包括例如各种类型的区域、沙箱和至少部分用于数据分析的其他空间、以及其他类型的工作空间,诸如应用开发环境的应用程序开发工作空间。此外,在一些实施例中,整个分析平台本身可以在没有特定定义的分析工作空间的情况下被视为分析工作空间。
在一些实施例中,分析平台105包括至少一个数据湖,诸如商业数据湖或BDL。
本文使用的术语“数据湖”旨在广义地解释为涵盖例如存储数据而不对特定预定类型的分析或其他处理进行优化的数据存储库。例如数据湖可以被配置为以促进灵活和有效地利用所存储的数据的方式来存储数据,以支持在数据存储时可能至少部分未知或以其他方式未定义的处理任务。这与所谓的数据仓库或数据集市形成对比,所述数据仓库或数据集市通常根据特定的预定义数据属性集或者根据预定数据相互关系来存储数据。
此外,在一些实施例中,数据湖可以提供处理在不同分析上下文中的各种不同类型数据的灵活组合的能力。在示意性实施例中可由一个或多个分析平台支持的分析上下文的示例包括金融服务、电信、医疗保健、生命科学、制造、能源、运输、娱乐、数据中心安全、传感器数据处理和许多其他。
可以基于实现特定因素(诸如所摄取的数据类型、所摄取的数据量、所摄取数据的预期用途、以及给定的应用中所需的摄取管理功能)来支持***100的各种不同用例。例如给定实施例可以被配置为在实时监视应用中摄取和分析语音邮件消息。另一个实施例可以被配置为提供用于数据探索和聚类模型开发的分析沙箱。
应当理解,图1中示出的***组件的特定布置仅是示例性的,并且在其他实施例中可以使用许多其他组件布置。
因此,***100可以包括未在图中明确示出的附加或替代组件。例如各自具有图形用户界面(GUI)的一个或多个用户终端可以与摄取管理器102或分析平台105相关联,以便支持***的数据摄取管理功能或数据分析功能的至少部分的用户控制。这样的用户终端可以包括例如台式计算机、膝上型计算机或平板计算机、移动电话或能够通过至少一个网络与摄取管理器102或分析平台105通信的其他类型的处理设备。
此外,图1实施例中的摄取管理器102、摄取引擎104、分析平台105和分析工作空间106的特定布置仅是示意性的,并且可以在其他实施例中变化。
例如摄取引擎104中的一个或多个可以被配置为至少包括本文描述的摄取管理功能的子集,以便在其控制下管理多个附加摄取引擎。这些和其他分级布置可以包括多个级别,每个级别具有一个或多个摄取管理器以及可能的一个或多个摄取引擎。摄取引擎104中的给定的一个可以附加地或替代地被配置为管理其自身功能的某些方面,诸如监视用户的进度。
在一些实施例中,分析平台105被另一种类型的处理环境替换或增强,该处理环境可受益于来自多个摄取引擎的数据的受控摄取。例如本文公开的类型的摄取管理器可以在其他实施例中被配置为控制从摄取引擎到应用开发环境的多个应用开发工作空间、到用于传感器数据的流处理平台、或者到另一类型的处理环境的数据的摄取。
如前所述,在本实施例中假设信息处理***100在包括一个或多个处理设备的给定处理平台上实现。这样的处理平台可以包括物理和虚拟资源的各种组合。下面结合图4和5更详细地描述可用于实现***100的至少一部分的这种处理平台的示意性示例。
图2示出了用于管理从多个不同的摄取引擎到分析平台的数据摄取的示例过程的流程图。该过程示意性地由结合诸如***100的摄取引擎104、分析平台105、和分析工作空间106的其他***组件操作的摄取管理器102来执行,但是可以由许多其他类型的***来执行。所示的过程包括步骤200、202、204和206,尽管在其他实施例中可以使用各种各样的附加或替代数据摄取管理过程。
在步骤200中,多个不同的摄取引擎与摄取管理器相关联。在图1实施例的上下文中,摄取引擎104耦合到摄取管理器102或以其他方式与摄取管理器102相关联。例如摄取管理器102和摄取引擎104可以在公共处理平台上实现并且通过该公共实现配置彼此相关联。可以使用许多其他类型的关联来为摄取管理器102提供用于控制摄取引擎104的某些数据摄取功能的能力。此外,在其他实施例中,可能只有与摄取管理器相关联的单个摄取引擎。
在这方面应该注意,本文在数据摄取的上下文中使用的术语“数据”旨在被广泛地解释。在一些实施例中,这样的数据示意性地包括在本文中被称为“数据集合”的布置。这些数据集合可以包括相应的抽象,每个抽象表示类似结构的数据的集合。
例如本文广泛使用的术语“数据集合”可以被视为例如一个或多个数据项的抽象,诸如表、文档、文件、查询结果、键值对集合、索引、存储块内容、存储器中高速缓存、或其他数据项或其组合,其中给定数据集合的特征在于属性以及与其他数据集合的关系。这些属性和关系由与***100中的数据集合相关联的元数据捕获。例如元数据可用于描述数据集合特征,诸如所有权、类型、内容、模式、分类、匹配模式、文本分析特征、安全分类、出处、可用性、质量、临时用户标签等等。
可以在示意性实施例中使用的数据集合的其他示例在附录中示出。应该注意,这些数据集合特征中的一些可能重叠。例如可以将键值对集合存储为文件。
关于示例性数据集合和表征那些数据集合的元数据的附加细节,以及用于推理这些元数据以及可能还对应数据集合内容的技术,可以在题为“Managing Data Sets byReasoning over Captured Metadata”的美国专利No.8,838,556中、题为“DynamicInformation Assembly for Designated Purpose based on Suitability Reasoningover Metadata”的美国专利No.9,141,908中、和2014年9月16日提交的名称为“Data SetVirtual Neighborhood Characterization,Provisioning and Access”的美国专利申请序列号No.14/487,520中找到,所有这些都与本文一起共同转让,并通过引用并入本文。然而,应该理解,这种数据集合和推理技术仅被认为是示例,并且不需要在其他实施例中使用。
在步骤202中,分析平台的分析工作空间使用数据即服务模型在摄取管理器的控制下从摄取引擎的潜在不相交的子集接收数据。例如数据即服务模型可用于访问给定分析工作空间中的摄取数据。附加地或替代地,数据即服务模型可用于从给定分析工作空间访问本身可能尚未被摄取到工作空间中的数据源。许多其他布置或这种布置的组合是可能的。此外,尽管该步骤参考数据即服务模型,但是可以使用其他类型的数据传递模型,如本文先前所示。
作为图1实施例的上下文中的步骤202的实现的一个示例,摄取管理器102可以选择摄取引擎104的第一子集以向分析工作空间106中的第一个分析工作空间106提供数据,并且选择与第一子集不同的摄取引擎104的第二子集,以向分析工作空间106中的第二个分析工作空间106提供数据。因此,分析工作空间106中的每一个可以在摄取管理器102的控制下从摄取引擎104的不同子集接收数据。
因此,步骤202的一些实现涉及摄取管理器选择摄取引擎中的一个或多个以向分析平台的分析工作空间的给定一个分析工作空间提供数据。在这样的实现中,摄取管理器可以更具体地被配置为至少部分地基于数据类型、数据量、数据延迟、预期用途、和SLA要求中的一个或多个来选择一个或多个摄取引擎,以用于向分析平台的给定分析工作空间提供数据。在其他实施例中,可以在选择过程中利用附加或替代因素。
在摄取管理器的控制下由摄取引擎中的给定的一个提供给分析工作空间之一的数据在该工作空间中例如由人类用户或由自动的或部分自动的工具被利用。
在一些实施例中,可能需要受制于由摄取管理器的选择的摄取引擎向摄取管理器注册或以其他方式向摄取管理器提供在被认为是这种选择的候选者之前支持摄取引擎管理的细节。
图2过程中的摄取管理器可以被配置为允许分析工作空间注册以从摄取引擎的相应潜在不相交的子集接收数据。在一些实施例中的这种注册可能结合发布-订阅数据访问模型的订阅操作来示意性地在数据源或数据集合级别实现。
在一些实施例中,用于向给定分析工作空间提供数据的摄取引擎中的一个或多个的选择至少部分地基于一个或多个摄取引擎的数据变换或数据质量改进能力。因此,摄取引擎可以被配置为执行数据变换或数据质量改进作为摄取的一部分,并且可以至少部分地基于它们这样做的能力而被选择。
摄取管理器示意性地配置为编排由摄取引擎中的至少一个实现的数据摄取过程的一个或多个特征。例如这可能涉及传输、记录或以其他方式处理由摄取引擎遇到或生成的警报或错误。作为另一示例,由摄取引擎实现的摄取过程的摄取管理器编排可以包括重新开始摄取,或者可能重新摄取数据源的一些部分。
摄取管理器还可以被配置为提供摄取引擎中的一个或多个未提供的一个或多个数据摄取功能,从而增强摄取引擎的能力。例如如果给定的摄取引擎不能执行从相关源同时摄取的关系表的连接,则摄取管理器可以被配置为提供在给定摄取引擎的能力之上分层的连接处理。
在一些实施例中,摄取管理器可以被配置为控制将数据摄取到ODC中,该ODC可以被分析平台的分析工作空间的至少一个子集中的每个分析工作空间访问。这样的ODC可以示意性地以也被称为“分段区域”或“着陆区域”的形式实现。这些和其他类型的ODC的使用可以有利地优化摄取并且最小化重新摄取到分析平台的分析工作空间中。在一些实施例中,ODC在多个用户之间被共享,并且至少部分地基于诸如HDFS、MongoDB、MySQL、Hive等已知技术使用数据存储来实现。
在步骤204中,摄取管理器监视分析工作空间中的数据使用并维护对应的历史信息以用于调整特定数据摄取引擎的选择,以用于向分析工作空间中的一个或多个提供数据。这样的布置可以被配置为利用历史摄取引擎选择和摄取结果的历史和用户接受来优化、调整、调谐和增强摄取引擎选择和配置。在一些实施例中,这可以涉及内部或外部主要组件分析或机器学习的使用。
在其他实施例中可以使用其他类型的监视。例如摄取管理器可以被配置为监视分析平台的给定分析工作空间中的摄取数据的使用,以响应于监视来标识相关数据,并且控制由给定分析工作空间摄取相关数据。
在步骤206中,动态更新与摄取管理器相关联的摄取引擎的类型和布置。然后利用摄取引擎的更新类型和布置来重复该过程。应当注意,更新步骤206是可选的,并且可以在其他实施例中被消除,尽管该可选性不应被解释为需要任意其他特定步骤的指示。
如上所述,图2的过程可以包括未在图中明确示出的附加或替代步骤。
例如该过程的其他实现可以与向分析平台的分析工作空间提供数据相结合地合并摄取管理器及其相关的摄取引擎之间的其他类型的交互。
摄取管理器可以执行其他类型的摄取管理操作,诸如代表分析平台的分析工作空间中的一个或多个确保符合针对数据摄取的SLA,代表分析平台的分析工作空间中的一个或多个控制与数据的摄取有关的一个或多个指定策略的实施,或者审核(“auditing”)由分析平台的分析工作空间中的一个或多个从摄取引擎接收的数据的放置。
在一些实施例中,策略实施在摄取管理器的控制下至少部分地在摄取引擎内发生。例如摄取管理器可以将策略实施委托给摄取管理器。作为更具体的示例,摄取管理器可以将数据质量策略的实施委托给摄取引擎。摄取引擎也可能实施摄取管理器可能不知道的其他策略。
附加地或替代地,在一些实施例中,摄取管理器被配置为标识所摄取的数据集合之间的关系并且至少部分地基于所标识的关系来在数据集合之间创建链接。这样的实施例可以利用类似于2016年3月18日提交的名称为“Data Set Discovery Engine ComprisingRelativistic Retriever”的美国专利申请序列号No.15/074,597中公开的类型的相对论检索器的示例性实施例的功能的功能,其通常与本文一起共同转让,并通过引用方式并入本文。
这些相对论检索器技术也可以由摄取管理器或摄取引擎中的一个或多个应用,以识别相对于给定摄取数据集合的一个或多个类似数据集合,并控制所识别的类似数据集合的摄取。这可以包括例如先前摄取的数据集合的较新版本的重新摄取。
在一些实施例中,给定的摄取引擎,无论它是否被注册到摄取管理器,都可以摄取在事实之后由摄取管理器“发现”的数据。在这一点上,摄取管理器可以采取用于将数据带入分析平台的范围的步骤。例如它可以从摄取引擎的日志中取出描述摄取数据的元数据,并将元数据添加到资产注册。从摄取管理器的角度来看,这种布置可以被视为一种“拉取”模型。
结合图2的流程图描述的特定处理操作和其他***功能仅通过示意性示例的方式呈现,并且不应被解释为以任意方式限制本发明的范围。替代实施例可以使用其他类型的处理操作来管理分析平台的分析工作空间的数据摄取。例如处理步骤的顺序在其他实施例中可以改变,或者某些步骤可以至少部分地彼此同时而不是串行地执行。
应当理解,诸如结合图2的流程图描述的功能可以至少部分地以存储在存储器中的一个或多个软件程序的形式实现,并且由诸如计算机或虚拟机的处理设备的处理器执行。如前所述,其中具有在其中体现的这样的程序代码的存储器或其他存储设备是在本文中更一般地称为“处理器可读存储介质”的示例。
图2的过程的示例实现示意性地包括以下摄取管理操作中的至少一个子集:
1.发现其中的数据源和数据集合;
2.对数据集合进行分类,以确定许可、毒性、风险、约束、相关性;
3.实施企业摄取规则;
4.连接到不同类型和各种协议的数据源;
5.提取、分级和分割数据以准备摄取;
6.转换结构或内容,包括数字化、分区、压缩、过滤、重复数据删除、加密、标记化和屏蔽(可以是读取模式、写入模式或混合);
7.利用派生的元数据、标签、标记、分数和上下文来丰富和增强数据;
8.分析和提取特定于域的实体、语音单元、聚合和其他派生数据;
9.确保数据和元数据质量;
10.生成(可能是实时的)通知和警报以及路由数据;
11.索引以支持以后的搜索和访问(索引到位不被视为摄取);
12.将新摄取的数据链接到相关数据(包括处理变化和冲突);
13.复制或移动数据和/或元数据;
14.存档以确保符合;
15.验证安全规则并为摄取数据建立访问权限;
16.保护摄取的数据;
17.记录摄取历史;
18.监测和补救摄取SLA;
19.审计数据安置、移动和监管链;
20.公布所摄取数据的可用性;
21.自动化上述摄取操作中的一个或多个的工作流程;以及
22.最终,根据策略来处理所摄取的数据。
应当理解,这些仅仅是可以由示意性实施例中的摄取管理器执行的摄取管理操作的示例。在给定实施例中应用的特定操作的数量和顺序可以根据特定分析上下文而变化。
现在将参考图3描述另一个示意性实施例。在该实施例中,信息处理***300包括摄取管理器302和耦合到摄取管理器302或以其他方式与摄取管理器302相关联的摄取引擎304的集合。摄取管理器302还包括摄取管理器web门户网站308,其示意性地提供对第一组和第二组组件310和320的基于web的用户访问。第一组和第二组组件310和320被配置为共享底层摄取管理器数据库(DB)315。
第一组组件310包括摄取配置应用程序编程接口(API)集合312以及相关联的源、接收点和提取器元件的集合。提取器元件示意性地被配置为处理模式和数据。摄取任务定义组件314包括注册表元素以及运行、质量、策略和监视元素。
第二组组件集合320包括任务执行API 322以及用于任务调度,执行、监视和状态的相关联元素的集合。执行框架324包括启动器元件以及记录器和***元件。
摄取管理器302示意性地配置为实现上面列出的示例摄取管理操作的至少一个子集。如本文的其他实施例中,图3实施例的特定组件仅以示意性示例的方式提供,并且不应以任意方式视为限制。
示意性实施例可以被配置为相对于传统布置提供许多显著优点。
例如这些实施例中的一个或多个提供了一种摄取管理器,其被配置为以特别高效和有效的方式控制从多个摄取引擎中的所选择的多个摄取引擎摄取结构化和非结构化数据集合到分析平台的分析工作空间中,从而增强数据分析性能和整个***的敏捷性。这种布置可以提供许多摄取管理服务,这些服务与相关联的摄取引擎分开但增强相关联的摄取引擎的数据摄取能力。可以使用针对给定实现或针对不同分析目标所需的众多不同的摄取模式和摄取频率,将各种不同类型的数据集合传递到分析平台的分析工作空间中。
示意性实施例被配置为与包括数据湖的分析平台一起操作,并且可以支持诸如标准化元数据、数据格式和目录布局的特征;标准化的轻量级转换目录,用于诸如安全性和隐私过滤、模式演变和类型转换的功能;数据质量测量和实施机制,诸如模式验证、数据标记和数据审计;以及具有自动缩放和容错功能的可扩展的摄取过程。
一个或多个实施例的其他优点包括通过结合来自多个摄取引擎的数据集合的自动和受控的加入的集中监视和实施的易用性。这样的布置使用户参与数据摄取过程最小化,从而改进灵活性,减少数据延迟,并显著降低成本。
应当理解,前述优点是对某些实施例中提供的优点的说明,并且不需要存在于其他实施例中。
如前所述,可以使用一个或多个处理平台来实现信息处理***100的至少一部分。现在将更详细地描述这种平台的示意性实施例。尽管在***100的上下文中进行了描述,但是这些平台也可以用于实现本发明的其他实施例中的其他信息处理***的至少一部分,诸如图3的信息处理***300。
图4示出了包括云基础设施400的示例处理平台。云基础设施400包括可用于实现信息处理***100的至少一部分的物理和虚拟处理资源的组合。云基础设施400包括使用管理程序404实现的虚拟机(VM)402-1,402-2,...402-L。管理程序404在物理基础设施405上运行。云基础设施400还包括应用410-1,410-2,...410-L的集合,其在管理程序404的控制下在虚拟机402-1,402-2…402-L中的相应的虚拟机上运行。
尽管在图4的实施例中仅示出了单个管理程序404,但是***100当然可以包括多个管理程序,每个管理程序使用至少一个底层物理机器提供虚拟机集合。由一个或多个管理程序提供的不同虚拟机集合可用于配置***100的各种组件的多个实例。
在本发明的一个或多个实施例中可用于实现管理程序404以及可能的信息处理***100的其他部分的商业上可用的管理程序平台的示例是其可具有相关联的虚拟基础设施管理***,诸如/> vCenterTM。底层物理机可以包括一个或多个分布式处理平台,其包括一个或多个存储***。
这样的存储***可以包括各种不同类型的存储装置中的任意一种,包括网络附加存储(NAS)、存储区域网络(SAN)、直接附接存储(DAS)和分布式DAS,以及这些和其他存储类型的组合,包括软件定义的存储。
在示意性实施例中可用于实现给定存储***的特定类型的存储产品包括和Symmetrix />存储阵列、诸如ScaleIOTM和/>的软件定义存储产品、诸如DSSDTM的基于闪存的存储阵列、诸如弹性云存储(ECS)的云存储产品、诸如/>的基于对象的存储产品、诸如XtremIOTM的横向扩展全闪存存储阵列、以及横向扩展NAS群集,包括平台节点和S系列、X系列和NL系列产品线中的相关联的加速器,全部均来自EMC公司。在示意性实施例中,这些和其他存储产品中的多个的组合也可用于实现给定存储***。
如从上面显而易见的,处理模块或***100的其他组件中的一个或多个可各自在计算机、服务器、存储设备或其他处理平台元件上运行。给定的这样的元素可以被视为本文中更一般地称为“处理设备”的对象的示例。图4中示出的云基础设施400可以表示一个处理平台的至少一部分。这种处理平台的另一个示例是图5中所示的处理平台500。
该实施例中的处理平台500包括***100的一部分并且包括多个处理设备,表示为502-1,502-2,502-3,…502-K,其通过网络504彼此通信。
网络504可以包括任意类型的网络,包括例如全球计算机网络,诸如因特网、广域网(WAN)、局域网(LAN)、卫星网络、电话或有线网络、蜂窝网络、诸如WiFi或WiMAX网络的无线网络、或这些和其他类型的网络的各种部分或组合。
处理平台500中的处理设备502-1包括耦合到存储器512的处理器510。
处理器510可以包括微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他类型的处理电路、以及这些电路元件的部分或组合。
存储器512可以包括任意组合的随机存取存储器(RAM)、只读存储器(ROM)或其他类型的存储器。存储器512和本文公开的其他存储器应该被视为存储一个或多个软件程序的可执行程序代码的、更一般地称为“处理器可读存储介质”的对象的示意性示例。
包括这种处理器可读存储介质的制品被认为是本发明的实施例。给定的这种制品可包括例如存储阵列、存储盘、或包含RAM、ROM或其他电子存储器的集成电路、或各种其他类型的计算机程序产品中的任意一个。本文使用的术语“制品”应理解为排除短暂的传播信号。可以使用包括处理器可读存储介质的许多其他类型的计算机程序产品。
处理设备502-1中还包括网络接口电路514,其用于将处理设备与网络504和其他***组件进行对接,并且可以包括传统的收发机。
假设处理平台500的其他处理设备502以与针对图中的处理设备502-1所示的方式类似的方式进行配置。
同样,图中所示的特定处理平台500仅作为示例呈现,并且***100可以包括附加或替代处理平台,以及任意组合的多个不同处理平台,其中每个这样的平台包括一个或多个计算机、服务器、存储设备或其他处理设备。
代替包括虚拟机的虚拟化基础设施或者除了包括虚拟机的虚拟化基础设施以外,例如用于实现本发明实施例的其他处理平台可以包括不同类型的虚拟化基础设施。这种虚拟化基础设施示意性地包括基于容器的虚拟化基础设施,其被配置为提供Docker容器或其他类型的Linux容器(LXC)。
作为另一示例,在一些实施例中,给定处理平台的部分可以包括聚合基础设施,诸如可从VCE(虚拟计算环境公司,现在是EMC公司的聚合平台部门)商业获得的VxRailTM、VxRackTM、VxBlockTM、或聚合基础设施。
因此应该理解,在其他实施例中,可以使用附加或替代元件的不同布置。这些元素的至少一个子集可以在公共处理平台上共同实现,或者每个这样的元素可以在单独的处理平台上实现。
此外,在信息处理***100中计算机、服务器、存储设备或其他组件的许多其他布置是可能的。这些组件可以通过任意类型的网络或其他通信介质来与信息处理***100的其他元件通信。
应再次强调的是,本发明的上述实施例仅出于说明的目的而被呈现。可以使用许多变型和其他替代实施例。例如所公开的技术适用于各种其他类型的信息处理***,其中希望使用多个不同的摄取引擎来提供受控数据摄取。而且,图中所示的***和设备元件的特定配置可以在其他实施例中变化。因此,例如可以改变在给定实施例中部署的特定类型的摄取引擎、摄取管理器、处理环境、工作空间和其他组件以及它们各自的配置。此外,在描述示意性实施例的处理中上面做出的各种假设也应该被视为示例性的而不是对本发明的要求或限制。在所附权利要求范围内的许多其他替代实施例对于本领域技术人员来说是显而易见的。
附录:数据集合示例
/>
/>

Claims (21)

1.一种用于处理数据的装置,包括:
摄取管理器;
多个摄取引擎,与所述摄取管理器相关联;以及
分析平台,被配置为在所述摄取管理器的控制下从所述摄取引擎接收数据,所述分析平台包括多个分析工作空间;
其中所述摄取管理器被配置为:结合向所述分析平台的所述多个分析工作空间提供数据,来与所述摄取引擎中的一个或多个摄取引擎交互;
其中,所述摄取管理器被配置为选择所述摄取引擎的不同子集以用于向所述分析工作空间中的不同的分析工作空间提供数据,并且至少部分基于在这些分析工作空间中被监控的数据的使用,自动修改其对被选择用于与所述分析工作空间中的所述不同的分析工作空间一起使用的所述摄取引擎的所述子集中的一个或多个摄取引擎的选择;
其中,所述摄取管理器选择所述多个摄取引擎的第一子集以用于向所述分析工作空间中的第一分析工作空间提供数据,并且选择所述多个摄取引擎的第二子集以用于向所述分析工作空间中的第二分析工作空间提供数据,所述第二子集不同于所述第一子集;
其中,所述摄取管理器进一步实施处理层,所述处理层增强所述摄取引擎中的所选择的摄取引擎的、与从多个相关源将数据摄取到所述分析工作空间中的对应的分析工作空间有关的至少一个指定摄取过程;
其中摄取管理器包括摄取管理器门户网站,所述摄取管理器门户网站将基于网络的用户访问提供到:
(i)一个或多个摄取配置应用程序编程接口,用于访问所述处理层的第一组一个或多个组件,所述第一组一个或多个组件包括摄取任务定义组件、源元件、接收点元件和提取器元件;和
(ii)一个或多个任务执行应用程序编程接口,用于访问所述处理层的第二组一个或多个组件,所述第二组一个或多个组件包括执行框架、任务调度元件、监视元件和状态元件;以及
其中所述摄取管理器、摄取引擎和分析平台由一个或多个处理设备来实现,所述一个或多个处理设备各自包括耦合到存储器的处理器。
2.根据权利要求1所述的装置,其中所述分析平台的所述分析工作空间的两个或更多个分析工作空间被配置为:在所述摄取管理器的所述控制下从所述摄取引擎的相应潜在不相交的子集接收数据。
3.根据权利要求1所述的装置,其中所述摄取管理器被配置为:实现针对所述分析平台的所述多个分析工作空间的数据即服务功能。
4.根据权利要求1所述的装置,其中所述摄取管理器被配置为至少部分地基于数据类型、数据量、数据延迟、预期用途和服务级别协议要求中的一个或多个,来选择所述一个或多个摄取引擎,以用于向所述分析平台的所述多个分析工作空间提供数据。
5.根据权利要求1所述的装置,其中所述摄取管理器被配置为维护与所述分析平台的所述多个分析工作空间中的数据使用有关的历史信息,并且至少部分基于所述历史信息来调整所述摄取引擎中的一个或多个摄取引擎的选择,以用于向所述多个分析工作空间提供数据。
6.根据权利要求1所述的装置,其中所述摄取管理器被配置为:监视所述分析平台的所述多个分析工作空间中的摄取数据的使用,以响应于所述监视来标识相关数据,并且控制所述多个分析工作空间的所述相关数据的摄取。
7.根据权利要求1所述的装置,其中所述摄取管理器被配置为:允许所述分析工作空间中的两个或更多个分析工作空间注册,以从所述摄取引擎的相应潜在不相交的子集接收数据。
8.根据权利要求1所述的装置,其中所述摄取管理器被配置为控制数据到操作数据容器的摄取,所述操作数据容器对于所述分析平台的所述分析工作空间的至少一个子集中的每个分析工作空间是可访问的。
9.根据权利要求1所述的装置,其中所述摄取管理器被配置为:代表所述分析平台的所述多个分析工作空间,来确保符合用于数据摄取的服务水平协议。
10.根据权利要求1所述的装置,其中所述摄取管理器被配置为:代表所述分析平台的所述多个分析工作空间,来控制与数据摄取有关的一个或多个指定策略的实施。
11.根据权利要求1所述的装置,其中所述摄取管理器被配置为:标识所摄取的数据集合之间的关系,并且至少部分地基于所标识的所述关系来创建所述数据集合之间的链接。
12.根据权利要求1所述的装置,其中所述摄取管理器被配置为审核由所述分析平台的所述多个分析工作空间从所述摄取引擎接收的数据的放置。
13.根据权利要求1所述的装置,其中所述摄取管理器被配置用于以下中的一项或多项:
编排由所述摄取引擎中的至少一个摄取引擎实现的数据摄取过程的一个或多个特征;
选择所述摄取引擎中的一个或多个摄取引擎,用于至少部分地基于所述一个或多个摄取引擎的数据变换或数据质量改进能力,来向所述多个分析工作空间提供数据;以及
提供未由所述摄取引擎中的一个或多个摄取引擎提供的一个或多个数据摄取功能。
14.一种处理数据的方法,包括:
将多个摄取引擎与摄取管理器相关联;以及
在所述摄取管理器中控制由分析平台从所述摄取引擎接收数据,所述分析平台包括多个分析工作空间;
其中控制由所述分析平台从所述摄取引擎接收数据包括:结合向所述分析平台的所述多个分析工作空间提供数据,来与所述摄取引擎中的一个或多个摄取引擎交互;
其中,所述摄取管理器被配置为选择所述摄取引擎的不同子集以用于向所述分析工作空间中的不同的分析工作空间提供数据,并且至少部分基于在这些分析工作空间中被监控的数据的使用,自动修改其对被选择用于与所述分析工作空间中的所述不同的分析工作空间一起使用的所述摄取引擎的所述子集中的一个或多个摄取引擎的选择;
其中,所述摄取管理器选择所述多个摄取引擎的第一子集以用于向所述分析工作空间中的第一分析工作空间提供数据,并且选择所述多个摄取引擎的第二子集以用于向所述分析工作空间中的第二分析工作空间提供数据,所述第二子集不同于所述第一子集;
其中,所述摄取管理器进一步实施处理层,所述处理层增强所述摄取引擎中的所选择的摄取引擎的、与从多个相关源将数据摄取到所述分析工作空间中的对应的分析工作空间有关的至少一个指定摄取过程;
其中摄取管理器包括摄取管理器门户网站,所述摄取管理器门户网站将基于网络的用户访问提供到:
(i)一个或多个摄取配置应用程序编程接口,用于访问所述处理层的第一组一个或多个组件,所述第一组一个或多个组件包括摄取任务定义组件、源元件、接收点元件和提取器元件;和
(ii)一个或多个任务执行应用程序编程接口,用于访问所述处理层的第二组一个或多个组件,所述第二组一个或多个组件包括执行框架、任务调度元件、监视元件和状态元件;以及
其中所述关联和控制由至少一个处理设备执行,所述处理设备包括耦合到存储器的处理器。
15.根据权利要求14所述的方法,其中控制由所述分析平台从所述摄取引擎接收数据还包括:
维护与所述分析平台的所述多个分析工作空间中的数据使用有关的历史信息;以及
至少部分地基于所述历史信息来调整所述摄取引擎中的一个或多个摄取引擎的选择,以用于向所述多个分析工作空间提供数据。
16.根据权利要求15所述的方法,其中控制由所述分析平台从所述摄取引擎接收数据还包括以下至少一项:
允许所述分析工作空间中的两个或更多个分析工作空间注册,以从所述摄取引擎的相应潜在不相交的子集接收数据;
控制数据到操作数据容器中的摄取,所述操作数据容器对于所述分析工作空间中的至少一个子集中的每个分析工作空间是可访问的;
代表所述多个分析工作空间,来确保符合针对数据摄取的服务级别协议;
代表所述分析平台的所述多个分析工作空间,来控制与数据摄取有关的一个或多个指定策略的实施;
标识所摄取的数据集合之间的关系,以及至少部分地基于所标识的所述关系来创建所述数据集合之间的链接;以及
审核由所述分析平台的所述多个分析工作空间从所述摄取引擎接收的数据的放置。
17.根据权利要求14所述的方法,其中所述摄取管理器被配置为至少部分地基于数据类型、数据量、数据延迟、预期用途和服务级别协议要求中的一个或多个,来选择所述一个或多个摄取引擎,以用于向所述分析平台的所述多个分析工作空间提供数据。
18.一种非暂态处理器可读存储介质,所述非暂态处理器可读存储介质具有在其中体现的一个或多个软件程序,其中所述一个或多个软件程序在由至少一个处理设备执行时使得所述至少一个处理设备:
将多个摄取引擎与摄取管理器相关联;以及
在所述摄取管理器中控制由分析平台从所述摄取引擎接收数据,所述分析平台包括多个分析工作空间;
其中控制由所述分析平台从所述摄取引擎接收数据包括:结合向所述分析平台的所述多个分析工作空间提供数据,来与所述摄取引擎中的一个或多个摄取引擎交互;
其中,所述摄取管理器被配置为选择所述摄取引擎的不同子集以用于向所述分析工作空间中的不同的分析工作空间提供数据,并且至少部分基于在这些分析工作空间中被监控的数据的使用,自动修改其对被选择用于与所述分析工作空间中的所述不同的分析工作空间一起使用的所述摄取引擎的所述子集中的一个或多个摄取引擎的选择;
其中,所述摄取管理器选择所述多个摄取引擎的第一子集以用于向所述分析工作空间中的第一分析工作空间提供数据,并且选择所述多个摄取引擎的第二子集以用于向所述分析工作空间中的第二分析工作空间提供数据,所述第二子集不同于所述第一子集;
其中,所述摄取管理器进一步实施处理层,所述处理层增强所述摄取引擎中的所选择的摄取引擎的、与从多个相关源将数据摄取到所述分析工作空间中的对应的分析工作空间有关的至少一个指定摄取过程;
其中摄取管理器包括摄取管理器门户网站,所述摄取管理器门户网站将基于网络的用户访问提供到:
(i)一个或多个摄取配置应用程序编程接口,用于访问所述处理层的第一组一个或多个组件,所述第一组一个或多个组件包括摄取任务定义组件、源元件、接收点元件和提取器元件;和
(ii)一个或多个任务执行应用程序编程接口,用于访问所述处理层的第二组一个或多个组件,所述第二组一个或多个组件包括执行框架、任务调度元件、监视元件和状态元件。
19.根据权利要求18所述的非暂态处理器可读存储介质,其中控制由所述分析平台从所述摄取引擎接收数据包括:
维护与所述分析平台的所述多个分析工作空间中的数据使用相关的历史信息;以及
至少部分地基于所述历史信息来调整所述摄取引擎中的一个或多个摄取引擎的选择,以用于向所述多个分析工作空间提供数据。
20.根据权利要求18所述的非暂态处理器可读存储介质,其中控制由所述分析平台从所述摄取引擎接收数据还包括以下中的至少一项:
允许所述分析工作空间中的两个或更多个分析工作空间注册,以从所述摄取引擎的相应潜在不相交的子集接收数据;
控制数据到操作数据容器中的摄取,所述操作数据容器对于所述分析工作空间中的至少一个子集中的每个分析工作空间是可访问的;
代表所述多个分析工作空间,来确保符合针对数据摄取的服务级别协议;
代表所述分析平台的所述多个分析工作空间,来控制与数据摄取有关的一个或多个指定策略的实施;
标识所摄取的数据集合之间的关系,以及至少部分地基于所标识的所述关系来创建所述数据集合之间的链接;以及
审核由所述分析平台的所述多个分析工作空间从所述摄取引擎接收的数据的放置。
21.根据权利要求18所述的非暂态处理器可读存储介质,其中所述摄取管理器被配置为至少部分地基于数据类型、数据量、数据延迟、预期用途和服务级别协议要求中的一个或多个,来选择所述一个或多个摄取引擎,以用于向所述分析平台的所述多个分析工作空间提供数据。
CN201780041160.2A 2016-06-29 2017-06-16 分析平台的摄取管理器 Active CN109416684B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/197,072 US11055303B2 (en) 2016-06-29 2016-06-29 Ingestion manager for analytics platform
US15/197,072 2016-06-29
PCT/US2017/037831 WO2018005125A1 (en) 2016-06-29 2017-06-16 Ingestion manager for analytics platform

Publications (2)

Publication Number Publication Date
CN109416684A CN109416684A (zh) 2019-03-01
CN109416684B true CN109416684B (zh) 2023-10-17

Family

ID=59227937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780041160.2A Active CN109416684B (zh) 2016-06-29 2017-06-16 分析平台的摄取管理器

Country Status (4)

Country Link
US (1) US11055303B2 (zh)
EP (1) EP3458980A1 (zh)
CN (1) CN109416684B (zh)
WO (1) WO2018005125A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109565452A (zh) * 2017-07-25 2019-04-02 北京嘀嘀无限科技发展有限公司 用于确定最优策略的***和方法
US11163737B2 (en) * 2018-11-21 2021-11-02 Google Llc Storage and structured search of historical security data
CN110297944B (zh) * 2019-07-02 2022-02-11 中国工商银行股份有限公司 分布式xml数据处理方法及***
US11153321B2 (en) 2019-07-26 2021-10-19 Microsoft Technology Licensing, Llc Secure investigations platform
US11212300B2 (en) 2019-07-26 2021-12-28 Microsoft Technology Licensing, Llc Secure incident investigation event capture
US11630684B2 (en) 2019-07-26 2023-04-18 Microsoft Technology Licensing, Llc Secure incident investigation workspace generation and investigation control
TWI732466B (zh) * 2020-02-25 2021-07-01 財金資訊股份有限公司 應用程式介面集中沙盒及其操作方法、電腦可讀取之記錄媒體及電腦程式產品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
CN103530328A (zh) * 2013-09-26 2014-01-22 杭州意能软件有限公司 一种数据统计分析***和方法
CN103714479A (zh) * 2012-10-09 2014-04-09 四川欧润特软件科技有限公司 银行个人业务欺诈行为实时智能化集中监控的方法和***
US8972465B1 (en) * 2013-03-15 2015-03-03 Emc Corporation Burst buffer appliance with small file aggregation
CN105046601A (zh) * 2015-07-09 2015-11-11 传成文化传媒(上海)有限公司 用户数据处理方法和***

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7603358B1 (en) 2005-02-18 2009-10-13 The Macgregor Group, Inc. Compliance rules analytics engine
US20070276676A1 (en) * 2006-05-23 2007-11-29 Christopher Hoenig Social information system
US8266148B2 (en) 2008-10-07 2012-09-11 Aumni Data, Inc. Method and system for business intelligence analytics on unstructured data
US8402098B2 (en) * 2009-08-13 2013-03-19 Clark C. Dircz System and method for intelligence gathering and analysis
US10242406B2 (en) 2009-09-14 2019-03-26 International Business Machines Corporation Analytics integration workbench within a comprehensive framework for composing and executing analytics applications in business level languages
US20110077972A1 (en) 2009-09-24 2011-03-31 Agneta Breitenstein Systems and methods of clinical tracking
US8914539B2 (en) * 2010-03-12 2014-12-16 Salesforce.Com, Inc. Service cloud console
US8910054B2 (en) 2010-04-14 2014-12-09 Bank Of America Corporation Audit action analyzer
US8838556B1 (en) 2011-08-30 2014-09-16 Emc Corporation Managing data sets by reasoning over captured metadata
US9141908B1 (en) 2012-06-29 2015-09-22 Emc Corporation Dynamic information assembly for designated purpose based on suitability reasoning over metadata
WO2014031618A2 (en) * 2012-08-22 2014-02-27 Bitvore Corp. Data relationships storage platform
US20140075506A1 (en) * 2012-09-13 2014-03-13 iJet Technologies, Inc. Extensible and Scalable Distributed Computing and Communication Remote Services Platform for Telemetry Collection Adaptive Data Driven Application Hosting, and Control Services
CN104035939A (zh) 2013-03-08 2014-09-10 Sap股份公司 特有独立规则引擎的灵活监测框架
US9098821B2 (en) * 2013-05-01 2015-08-04 International Business Machines Corporation Analytic solution integration
US9438648B2 (en) * 2013-05-09 2016-09-06 Rockwell Automation Technologies, Inc. Industrial data analytics in a cloud platform
US9495436B2 (en) 2013-05-30 2016-11-15 ClearStory Data Inc. Apparatus and method for ingesting and augmenting data
US9235630B1 (en) * 2013-09-25 2016-01-12 Emc Corporation Dataset discovery in data analytics
WO2015120400A1 (en) * 2014-02-10 2015-08-13 Picofemto LLC Multi-factor brain analysis via medical imaging decision support systems and methods
US9866635B2 (en) 2014-03-26 2018-01-09 Rockwell Automation Technologies, Inc. Unified data ingestion adapter for migration of industrial data to a cloud platform
US10127273B2 (en) * 2014-04-15 2018-11-13 Splunk Inc. Distributed processing of network data using remote capture agents
US9891907B2 (en) * 2014-07-07 2018-02-13 Harman Connected Services, Inc. Device component status detection and illustration apparatuses, methods, and systems
US20160014078A1 (en) * 2014-07-10 2016-01-14 Sven Schrecker Communications gateway security management
CN105518673B (zh) 2014-07-15 2020-07-07 微软技术许可有限责任公司 管理数据摄取
WO2016044403A1 (en) * 2014-09-16 2016-03-24 Mutalik, Madhav Copy data techniques
US9985953B2 (en) * 2014-11-10 2018-05-29 Amazon Technologies, Inc. Desktop application fulfillment platform with multiple authentication mechanisms
US10248653B2 (en) * 2014-11-25 2019-04-02 Lionbridge Technologies, Inc. Information technology platform for language translation and task management
US20180011739A1 (en) * 2015-01-26 2018-01-11 Dragonfly Data Factory Llc Data factory platform and operating system
WO2016160626A1 (en) * 2015-03-27 2016-10-06 Globallogic, Inc. Determining actions based on imputing meaning to sensed information in a distributed computing environment
US20160321034A1 (en) * 2015-05-01 2016-11-03 Sap Se User experience as a service
US10200390B2 (en) * 2016-02-29 2019-02-05 Palo Alto Networks, Inc. Automatically determining whether malware samples are similar
US10432722B2 (en) * 2016-05-06 2019-10-01 Microsoft Technology Licensing, Llc Cloud storage platform providing performance-based service level agreements
US10346429B2 (en) * 2016-06-19 2019-07-09 Data.World, Inc. Management of collaborative datasets via distributed computer networks
US10078537B1 (en) * 2016-06-29 2018-09-18 EMC IP Holding Company LLC Analytics platform and associated controller for automated deployment of analytics workspaces

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
CN103714479A (zh) * 2012-10-09 2014-04-09 四川欧润特软件科技有限公司 银行个人业务欺诈行为实时智能化集中监控的方法和***
US8972465B1 (en) * 2013-03-15 2015-03-03 Emc Corporation Burst buffer appliance with small file aggregation
CN103530328A (zh) * 2013-09-26 2014-01-22 杭州意能软件有限公司 一种数据统计分析***和方法
CN105046601A (zh) * 2015-07-09 2015-11-11 传成文化传媒(上海)有限公司 用户数据处理方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大数据驱动的网络信息平面;尹浩 等;《计算机学报》;第39卷(第01期);126-139 *
流计算大数据技术在运营商实时信令处理中的应用;董斌 等;《电信科学》;第31卷(第10期);172-178 *

Also Published As

Publication number Publication date
CN109416684A (zh) 2019-03-01
WO2018005125A1 (en) 2018-01-04
US11055303B2 (en) 2021-07-06
US20180004826A1 (en) 2018-01-04
EP3458980A1 (en) 2019-03-27

Similar Documents

Publication Publication Date Title
CN109416684B (zh) 分析平台的摄取管理器
US10944688B2 (en) Distributed catalog service for data processing platform
US10541938B1 (en) Integration of distributed data processing platform with one or more distinct supporting platforms
US10999353B2 (en) Beacon-based distributed data processing platform
US10860622B1 (en) Scalable recursive computation for pattern identification across distributed data processing nodes
US10515097B2 (en) Analytics platform for scalable distributed computations
US10331380B1 (en) Scalable distributed in-memory computation utilizing batch mode extensions
CN107003906B (zh) 云计算技术部件的类型到类型分析
US10791063B1 (en) Scalable edge computing using devices with limited resources
US10078537B1 (en) Analytics platform and associated controller for automated deployment of analytics workspaces
US10810316B2 (en) Updating monitoring systems using merged data policies
US20190266496A1 (en) Analytics platform for scalable distributed computations
US8914789B2 (en) Systematic migration of workload based on classification
US10601871B2 (en) Reconfiguration of security requirements for deployed components of applications
US10095883B2 (en) Method/system for the online identification and blocking of privacy vulnerabilities in data streams
US20160171047A1 (en) Dynamic creation and configuration of partitioned index through analytics based on existing data population
US10656861B1 (en) Scalable distributed in-memory computation
US10521442B1 (en) Hierarchical value-based governance architecture for enterprise data assets
US11829496B2 (en) Workflow for evaluating quality of artificial intelligence (AI) services using held-out data
US11782913B2 (en) AI-based data virtualization
US10812341B1 (en) Scalable recursive computation across distributed data processing nodes
US20220374218A1 (en) Software application container hosting
US11537602B2 (en) Computer implemented live cross walks in compliance mappings in response to regulatory changes and assessing risks of changes
US11636386B2 (en) Determining data representative of bias within a model
US20160379134A1 (en) Cluster based desktop management services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant