CN117396891A - 多层存储基础设施中的数据分发和安全性 - Google Patents

多层存储基础设施中的数据分发和安全性 Download PDF

Info

Publication number
CN117396891A
CN117396891A CN202280036862.2A CN202280036862A CN117396891A CN 117396891 A CN117396891 A CN 117396891A CN 202280036862 A CN202280036862 A CN 202280036862A CN 117396891 A CN117396891 A CN 117396891A
Authority
CN
China
Prior art keywords
data
file data
cloud server
user
server application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280036862.2A
Other languages
English (en)
Inventor
C·M·特里姆
S·克瓦特拉
B·普拉布
J·阿鲁姆甘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN117396891A publication Critical patent/CN117396891A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

描述了涉及多层存储基础设施中的数据分发和安全性的技术。一种相关联的计算机实现的方法,包括:接收与用户相关联的文件数据以存储在管理的服务域中;应用集成学习模型以基于与用户相关联的上下文信息来设计针对文件数据的数据分发技术;以及对文件数据进行加密。该方法进一步包括:基于该数据分发技术,通过执行散列变换并应用至少一个循环纠错码,将文件数据进行分割以存储在云计算层、雾计算层和本地计算层之中。在实施例中,该方法进一步包括:接收与该文件数据相关联的数据访问请求;认证该数据访问请求;以及通过解密来恢复文件数据。

Description

多层存储基础设施中的数据分发和安全性
背景技术
本文所描述的各种实施例一般涉及多层存储基础设施中的数据分发和安全性。更具体地,各种实施例描述了在具有包括雾计算层的多层的存储基础设施中分发并保护文件数据的技术。
发明内容
本文所描述的各种实施例提供了数据分发和安全技术。各种实施例进一步提供数据分发之后的数据恢复技术。一种相关联的计算机实现的方法,包括:接收与用户相关联的文件数据以存储在管理的服务域中;应用集成学习模型以基于与用户相关联的上下文信息来设计用于文件数据的数据分布技术;以及对文件数据进行加密。该方法进一步包括:基于该数据分发技术,通过执行散列变换并应用至少一个循环纠错码来在云计算层、雾计算层和本地计算层之间划分该文件数据以进行存储。在实施例中,该方法进一步包括:接收与该文件数据相关联的数据访问请求;认证该数据访问请求;以及通过解密来恢复该文件数据。
一个或多个附加的实施例涉及一种计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序指令。根据这样的实施例,程序指令可由计算设备执行以使计算设备执行与上述计算机实现的方法相关联的一个或多个步骤和/或实现与上述计算机实现的方法相关联的一个或多个实施例。一个或多个进一步的实施例涉及一种***,该***具有至少一个处理器和存储应用程序的存储器,当在至少一个处理器上执行时,该应用程序执行与上述计算机实现的方法相关联的一个或多个步骤和/或实现与上述计算机实现的方法相关联的一个或多个实施例。
附图说明
为了实现并且可以详细地理解上述方面的方式,可以参考附图对以上简要概述的实施例的更具体描述。
然而,要注意的是,附图仅仅示出了本发明的典型实施例,因此,不应被视为限制本发明的范围,因为本发明可以允许其他同样有效的实施例。
图1描绘了根据一个或多个实施例的云计算环境。
图2描绘了根据一个或多个实施例的由云计算环境提供的抽象模型层。
图3描绘了根据一个或多个实施例的与云计算环境相关联的管理服务域。
图4示出了根据一个或多个实施例的与管理服务域相关联的多层存储基础设施。
图5示出了根据一个或多个实施例的处理文件数据的方法。
图6示出了根据一个或多个实施例的应用整体学习模型以基于用户上下文信息设计文件数据的数据分布技术的方法。
图7示出了根据一个或多个实施例的通过将自然语言处理(NLP)应用于用户上下文信息来导出主题上下文数据的方法。
图8示出了根据一个或多个实施方式的创建多个编码的特征向量的方法。
图9示出了根据一个或多个实施例的通过基于导出的主题上下文数据将NLP应用于文件数据来导出多个文件数据部分的方法。
图10示出了根据一个或多个实施例的划分文件数据的方法。
图11示出根据一个或多个实施例的认证数据访问请求的方法。
具体实施方式
本文所描述的各个实施例针对结合云计算层、雾计算层和本地计算层的多层存储基础设施内的数据处理的技术。各个实施例提供了用于在多层存储基础设施内分布和保护文件数据的技术。各个实施例进一步提供用于在接收到经认证的请求时恢复分布式且安全的文件数据的技术。各个实施例进一步提供了结合数据仓的数据备份技术。在各个实施例中,多层存储基础设施的云计算层包括与云计算环境相关联的管理服务域。云计算环境是其中一个或多个计算能力可用作服务的虚拟化环境。被配置成实现与本文中描述的各实施例相关联的数据分发和安全技术的云服务器***可利用机器学习知识模型(具体地,集成学习模型)的人工智能能力,以及与这样的模型相关联的知识库的信息。
各个实施例可具有优于常规技术的优点。例如,在数据中心和/或网络基础设施上存在攻击的情况下,作为服务技术的常规软件可能使远程数据易受安全攻击和/或隐私破坏。各种实施例通过促进文件数据跨多层存储基础设施的多个层的分布来改进计算机技术,从而使得未经授权的用户更难以访问整个文件数据。因为根据各种实施例在存储层之间划分数据,所以需要访问所有层以便恢复跨这些层的所有文件数据。因此,未经授权的用户将在不跨所有层访问整个文件数据的情况下将无法截取可用版本的文件数据。此外,各种实施例促进在多层存储基础设施的本地存储层中包括数据仓,从而在文件数据在一个或多个存储层丢失的情况下能够由授权用户进行完整的数据恢复。不同实施例中的一些可能不包括所有这些优点,并且这些优点不一定是所有实施例所需要的。
在下文中,参考本发明的各种实施方式。然而,应当理解,本发明不限于具体描述的实施例。相反,以下特征和元件的任何组合(无论是否涉及不同实施例)被考虑来实现和实践本发明。此外,尽管实施例可以实现优于其他可能的解决方案和/或优于现有技术的优点,但是无论给定实施例是否实现特定优点都不是限制性的。因此,以下方面、特征、实施例和优点仅仅是说明性的,并且不被认为是所附权利要求的元素或限制,除非在权利要求中明确陈述。同样,对“本发明”的引用不应被解释为在此所披露的任何发明主题的概括,并且不应被认为是所附权利要求的元素或限制,除非在一个或多个权利要求中明确陈述。
本发明可以是任何可能的技术细节集成度的***、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)、以及常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的***、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,连续示出的两个方框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者方框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的***来实现。
具体实施方式描述了涉及多层存储基础设施中的数据分发和安全性的技术。然而,应当理解的是,除了本文中具体描述的那些之外,本文中描述的技术还可以适用于各种目的。因此,对特定实施例的引用被包括在内以是说明性的而非限制性的。
本文所述的不同实施例可通过云计算基础设施被提供给终端用户。应当理解,虽然本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本文所述的不同实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。因此,云计算允许用户访问云中的虚拟计算资源(例如,存储、数据、应用和甚至完整的虚拟化计算***),而不考虑用于提供计算资源的底层物理***(或那些***的位置)。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人工交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制访问,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和个人数字助理(PDA))的使用。
资源池化:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
可测量的服务:云***通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作***、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作***和应用。消费者不管理或控制底层云基础设施,而是具有对操作***、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构由若干组织共享并且支持具有共同关注点(例如,使命、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:云基础架构可用于大众或大型行业团体并且由出售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有云、社区云或公共云)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
图1示出了根据一个或多个实施方式的云计算环境50。如图所示,云计算环境50可包括一个或多个云计算节点10,云消费者使用的本地计算设备(例如,个人数字助理或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机***54N)可与云计算节点10通信。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。因此,云计算环境50可以提供基础设施、平台和/或软件作为云消费者不需要在本地计算设备上维护资源的服务。应当理解,图1中所示的计算装置54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
图2示出了根据一个或多个实施方式的由云计算环境50提供的一组功能抽象层。图2中所示的部件、层和功能仅旨在是示例性的;在此所描述的不同实施例不限于此。如所描述,提供了不同层和对应功能。具体地,硬件和软件层60包括硬件和软件组件。硬件组件的示例可以包括主机61、基于RISC(精简指令集计算机)架构的服务器62、服务器63、刀片服务器64、存储设备65、以及网络和网络组件66。在一些实施例中,软件组件可以包括网络应用服务器软件67和数据库软件68。虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作***74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81可提供计算资源和用于在云计算环境50内执行任务的其他资源的动态采购。计量和定价82可在云计算环境50内利用资源时提供成本跟踪,并为这些资源的消费开账单或***。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83可以为消费者和***管理员提供对云计算环境的访问。服务水平管理84可以提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85可提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
工作负载层90提供可以利用云计算环境50的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;事务处理95;以及数据分发和恢复96。数据分布和恢复96可使得文件数据在存储层之间的分布和响应于根据本文描述的不同实施例的经认证的请求而恢复此类文件数据成为可能。
图3示出了云计算环境50内的管理服务域300。可以在管理服务域300中执行与数据分发和恢复96相关的功能和其他工作负荷/功能。管理服务域300包括云服务器***310。在实施例中,云服务器***310包括云服务器应用315,其被配置成根据本文描述的不同实施例实现和/或促进数据分发和恢复。云服务器应用315代表单个应用或多个应用。云服务器应用315包括或以其他方式可操作地耦合到集成学习模型320。此外,在一个实施例中,管理服务域300包括云计算接口330、数据库***340、目录服务器***350和多个应用服务器集群3601至360n中的一个或多个。云计算接口330实现云服务器***310和与管理的服务域300交互的一个或多个客户端***之间的通信。如关于图4进一步描述的,云计算接口330使得能够与(多个)雾服务器***、(多个)本地机器、和/或与管理服务域300接口连接的其他部件进行通信。此外,在一实施例中,云服务器***310被配置成与数据库***340、目录服务器***350、和/或应用服务器集群3601至360n通信。此外,应用服务器集群3601至360n内的应用服务器可被配置为彼此通信,与其他域中的服务器通信,和/或与其他与被管理服务域300接口连接的组件通信。
数据库***340可选地协调和管理整体学习模型320的知识库。与集体学习模型320相关联的知识库可选地包括与模型相关联的所有储存库、本体、文件和/或文档以及与其相关联的数据处理。数据库***340可包括一个或多个数据库服务器,该数据库服务器可协调和/或管理知识库的各个方面。数据库***340存储集成学习模型320、多个应用服务器集群3601至360n以及知识库之间的关系。在实施例中,经由数据库管理***(DBMS)、可选地关系数据库管理***(RDBMS)来管理数据库***340。在另一实施例中,数据库***340包括一个或多个数据库,其中一些或全部可以是关系数据库。在另一实施例中,数据库***340包括一个或多个本体树或其他本体结构。
目录服务器***350促进管理服务域300中的客户端认证,包括关于应用服务器集群3601至360n中的一个或多个的客户端认证。为了相对于管理服务域300中的多个应用中的一个或多个应用进行认证的目的,客户端可以提供与这样的(一个或多个)应用相关的环境细节和凭证。应用服务器集群3601至360n存储不同应用的各方面以及向一个或多个客户端***提供应用服务。云服务器应用315以及管理服务域300的其他数据收集组件被配置成提供关于任何用户上下文数据收集的适当通知。管理服务域300的一个或多个方面还被配置成向用户提供在任何时间选择加入或选择退出任何这样的用户上下文数据收集的选项。可选地,管理服务域300的一个或多个方面还被配置为在用户指定的基础上(例如,周期性地或每当发生任何这样的用户上下文数据收集时)向任何受影响的用户发送至少一个通知。
图4示出包括云计算层403(即,云层)、雾计算层413(即,雾层)和本地计算层423(即,本地层)的多级存储基础设施400。多级存储基础设施400的云层403包括、可操作地耦合至和/或通信地耦合至云服务器***310和管理服务域300的其他方面。云服务器***310存储云层数据405,云层数据405可选地包括根据本文描述的各实施例分布的文件数据。云服务器***310在与管理的服务域300相关联的一个或多个存储和/或数据库组件内(例如,在关于图3描述的一个或多个组件内和/或在云层403内可选地虚拟化的一个或多个其他基于硬件的存储或数据库组件内)存储或促进云层数据的存储。多级存储基础设施400的雾层413包括雾服务器***4101至410n。雾服务器***4101至410n将雾服务器数据4151至415n分别存储在例如分别与雾服务器***4101至410n相关联的一个或多个基于硬件的存储或数据库组件内。这样的基于硬件的存储或数据库组件可选地被虚拟化在雾层413内。在替代配置中,雾层413包括单个雾服务器***,该单个雾服务器***对应于元素4101至410n中的一个或组合,存储对应于元素4151至415n中的一个或组合的雾层数据。在本文所描述的各个实施例的上下文中,雾层内的雾计算(具体地,图4的上下文中的雾层413)是指涉及位于云资源与本地资源之间的云计算环境***的一个或多个设备或***的分布式计算。与这样的雾层相关联的雾计算可以用作与云层相关联的远程云计算与本地层处的本地计算设备或***(具体地,在图4的上下文中的本地层423)之间的分散中介,云层具体地在图4的上下文中的云层403相关联。雾计算允许将与多个设备相关联的数据聚合到具有区域连通性的存储节点中。
多级存储基础设施400的本地层423包括本地机器4201至420n。本地机器4201至420n中的每一个表示或包括合并至少一个硬件组件的至少一个设备和/或***。本地机器4201至420n例如在分别与本地机器4201至420n相关联的一个或多个基于硬件的存储或数据库组件内分别存储本地层数据4251至425n。此外,本地机器4201至420n分别包括例如在分别与本地机器4201至420n相关联的一个或多个基于硬件的存储或数据库组件内的数据仓4351至435n。雾服务器***4101至410n中的每一个可选地向一个或多个本地机器4201至420n提供区域连通性和/或数据聚合能力。在替代配置中,本地层423包含对应于元件4201到420n中的一者或组合的单个本地机器,其存储对应于元件4251到425n中的一者的本地层数据,且包含(或可操作地耦合到)对应于元件4351到435n中的一者或组合的数据区间。
在替代配置中,多级存储基础设施400除了上述三个层之外还包括多个中间层,例如,云层403与雾层413之间的中间层和/或雾层413与本地层423之间的中间层。这样的中间层可选地缓冲数据以供在云层403、雾层413和/或本地层423之间传输。另外地或替代地,这样的中间层包括相邻层的特性。例如,云层403和雾层413之间的中间层任选地结合云层403和雾层413两者的某些方面。在另一实例中,雾层413与本地层423之间的中间层任选地并入雾层413和本地层423两者的某些方面。
在一个实施例中,管理服务域300是经由至少一个网络连接可通信地耦合至多层存储基础设施400的雾层413的混合云接口。根据这样的实施例,管理服务域300进一步经由至少一个网络连接、可选地经由雾层413可通信地耦合至与多层存储基础设施400的本地层423中的用户相关联的至少一个本地机器(例如,本地机器4201至420n中的至少一个)。根据此类实施例,雾层413可选地是混合云环境内的虚拟私有云的组件,其中可配置资源的按需池被分配给一个或多个指定用户。在另外的实施例中,至少一个本地机器经由促进云连通性的应用编程接口(API)可通信地耦合到管理服务域300(具体地,其一个或多个组件)。在进一步的实施例中,本地机器4201至420n中的至少一个和管理的服务域300的一个或多个部件经由数据交换格式(如JavaScript对象表示法(JSON)或可扩展标记语言(XML))进行通信。在另一实施例中,本地机器4201至420n中的至少一个是边缘计算设备。根据这样的进一步的实施例,如果根据不同实施例待处理的文件数据涉及从传感器或分布式计算位置(例如,在物联网(IoT)基础设施的上下文中)收集的数据,则这样的本地机器可以经由边缘计算设备与云层403和/或雾层413接口。将本地机器4201至420n中的至少一个包括为边缘计算设备实现了多层存储基础设施400内的模糊边缘计算混合实现,从而提供了具有模糊计算的互连性和聚集能力的边缘计算的本地***益处。
图5示出了处理文件数据的方法500。具体地,方法500涉及在多层存储基础设施(例如,多层存储基础设施400)的存储层之间加密和分发文件数据,并且进一步涉及响应于接收到经认证的数据访问请求来解密和恢复文件数据。在一个实施例中,在其中计算能力被提供为服务的环境(例如,云计算环境50)中执行与方法500相关联的一个或多个步骤。根据此类实施例,与该方法500相关联的一个或多个步骤在该环境内的管理服务域(例如,管理服务域300)中执行。该环境任选地是混合云环境。在另一实施例中,在一个或多个其他环境(诸如客户端-服务器网络环境或对等网络环境)中执行与方法500相关联的一个或多个步骤。管理服务域中的集中式云服务器***(例如,管理服务域300中的云服务器***310)可促进根据方法500和本文中进一步描述的其他方法的处理。更具体地,云服务器***中的云服务器应用(例如,云服务器应用315)可执行或促进方法500和本文描述的其他方法的一个或多个步骤的执行。经由管理服务域中的云服务器***促进或以其他方式执行的数据处理技术可与由环境提供的功能抽象层中的工作负荷层内的数据分布和恢复工作负荷(例如,云计算环境50的工作负荷层90内的数据分布和恢复96)相关联。在进一步的实施例中,云服务器应用通过经由高级编程语言(例如,Python、C、C++和/或C#)编码的一个或多个编程指令来执行方法500和本文描述的其他方法的一个或多个步骤。
方法500在步骤505开始,其中,云服务器应用接收与用户相关联的文件数据以用于存储在管理的服务域中。所接收的文件数据可选地是用户或相关联的实体出于隐私、可访问性和/或安全性的目的而旨在存储在多层存储基础设施内的数据。在实施例中,所接收的文件数据来自单个文件。或者,所接收的文件数据来自多个文件。在实施例中,云服务器应用可选地经由云计算接口(例如,云计算接口330)接收管理服务域内的文件数据。根据这样的实施例,云服务器应用接收并继续处理在云服务器***内接收到的文件数据。在进一步的实施例中,在步骤505,云服务器应用经由与用户相关联的客户端接口接收文件数据。根据这样的进一步的实施例和本文描述的其他实施例,客户端界面是图形用户界面(GUI)和/或命令行界面(CLI)形式的用户界面,该用户界面通过安装在多层存储基础设施(例如,多层存储基础设施400内的本地机器4201至420n中的一个)内的用户***或设备上或以其他方式可由其访问或操作地/通信地耦接至多层存储基础设施的至少一个客户端应用来呈现。
在步骤510,云服务器应用程序应用集成学习模型(例如,集成学习模型320)以基于与用户相关联的上下文信息来设计文件数据的数据分布技术。在本文所描述的不同实施例的上下文中,集成学习模型结合多种人工智能技术,包括机器学习技术和可选地深度学习技术,其协同运作以便标识与文件数据相关联的主题和/或主题组并基于这样的主题标识对文件数据进行分类。多种人工智能技术可以包括一个或多个自然语言处理(NLP)模型和/或一个或多个多类分类技术。在本文描述的不同实施例的上下文中,数据分发技术在多层存储基础设施的存储层之间划分文件数据并且进一步在存储层之间分发冗余数据,以便保存文件数据恢复和/或传输所必需的依赖性。云服务器应用基于经由集成学习模型实现的主题标识和分类来设计数据分发技术。数据分发技术将文件数据的部分或其子部分分配给各个存储层。如本文进一步描述的,相应存储层可选地与云服务器应用将文件数据划分成的相应数据桶相关。在不同实施例中,数据桶是被配置来存储分布式数据的数据结构。数据桶可选地是或包括容器或缓冲器。
在根据步骤510的整体学习模型的应用期间,云服务器应用鉴于与用户相关联的上下文信息来局部地分析接收到的文件数据。在实施例中,与用户相关联的上下文信息基于历史和/或当前观察到的应用访问和数据访问的用户模式以及与用户相关联的不同属性。根据这样的实施例,云服务器应用可选地应用集成学习模型以至少部分地基于多个用户上下文因素中的一个或多个来设计数据分发技术。多个用户上下文因素可选地包括:数据使用的用户频率、应用使用的用户频率、用户***配置、用户文件存储模式、用户属性(例如,用户职业、附属于用户的组织、用户的个人或商业联系人)、和/或与历史上、最近或当前使用的应用或文件相关联的用户数据内容(例如,用户数据文件类型和/或大小)。参照图6描述了根据步骤510应用整体学习模型的方法。
在步骤515,云服务器应用对文件数据进行加密。云服务器应用对文件数据进行加密,以便为实施在步骤510设计的数据分发技术做准备。在实施例中,云服务器应用基于用户上下文信息(例如,基于与这样的信息相关联的安全性和/或隐私设置)来设计结合一个或多个加密技术的加密策略。附加地或可替代地,云服务器应用基于与文件数据和/或文件数据的部分相关联的数据类型或数据大小来设计加密策略。在另外的实施例中,云服务器应用在进一步的文件数据处理之前根据步骤515完成加密,以避免与数据拦截相关联的安全风险,例如,中间人(MitM)攻击。根据这样的附加实施例,在根据所设计的数据分发技术来划分文件数据之前,云服务器应用对文件数据进行加密。另外或可替代地,云服务器应用在执行任何散列变换之前加密文件数据。在进一步的实施例中,云服务器应用将第一迭代加密应用于整体文件数据,并且然后将加密的一个或多个后续迭代应用于如通过集成学习模型所确定的有待分布在多级存储基础设施的层之间的相应文件数据部分。在进一步的实施例中,与加密策略相关联的一个或多个加密技术包括对称密钥算法,例如三重数据加密算法(TDES)和高级加密标准算法(AES)。根据这样的另一实施例,云服务器应用可选地通过应用TDES加密文件数据。附加地或可替代地,云服务器应用可选地通过应用AES对文件数据进行加密。在进一步的实施例中,该一种或多种加密技术包括非对称密钥算法,如Rivest–Shamir–Adleman(RSA)。在进一步的实施例中,云服务器应用将多个加密算法应用于文件数据的全部或部分以增强安全性和/或隐私性。根据这样的进一步实施例,云服务器应用可选地将相对更强的加密算法和/或更大数量的加密算法应用于被标记为机密或以其他方式与机密数据相关联的文件数据和/或文件数据的一部分(与非保真数据相反)。
在步骤520处,基于在步骤510处设计的数据分发技术,云服务器应用将在步骤515处加密的文件数据划分以在多层存储基础设施的存储层之间分发和存储。根据步骤520,云服务器应用实现所设计的数据分发技术。在实施例中,云服务器应用在多层存储基础设施的云计算层、雾计算层和本地计算层(例如,多层存储基础设施400的云层403、雾层413和本地层423)之间划分文件数据。在替代实施例中,云服务器应用将文件数据划分在除了云层、雾层和本地层之外的一个或多个中间层之间。这一个或多个中间层可包括云层和雾层之间的中间层,该中间层可选地结合云层和雾层两者的某些方面。附加地或可替代地,这样的一个或多个中间层可包括雾层和本地层之间的中间层,该中间层可选地结合雾层和本地层两者的某些方面。通过在存储层之间划分文件数据,云服务器应用根据所设计的数据分发技术完成文件数据部分的分发。
在根据步骤520划分文件数据的上下文中,云服务器应用执行散列变换并应用至少一个循环纠错码。云服务器应用经由一个或多个密码散列函数的应用来执行散列变换。在实施例中,云服务器应用通过应用MD5消息摘要算法(MD5)来执行散列变换。在另外的实施例中,云服务器应用通过应用安全散列算法2(SHA-2)来执行散列变换。在进一步的实施例中,云服务器应用通过应用多个密码散列函数(例如,MD5和SHA-2的联合应用)来执行散列变换。云服务器应用程序应用一个或多个密码散列函数以生成位阵列形式的散列值。在另一实施例中,云服务器应用程序通过在生成散列值之前将随机串(即,盐)添加到要散列的文件数据串中来随机化这样的散列值,从而在生成散列值的上下文中添加进一步的安全性。在进一步的实施例中,该云服务器应用程序通过对在该多层存储基础设施的每个存储层之间划分的文件数据分开地散列来执行该散列变换,从而使得对分别分布在这些存储层之间的文件数据部分的字符串生成分开的散列值。具体地,云服务器应用可选地生成分配给云计算层的文件数据的第一组散列值、分配给雾计算层的文件数据的第二组散列值、以及分配给本地计算层的文件数据的第三组散列值。根据这样的进一步的实施例,云服务器应用可选地响应于相应计算层处的不同安全要求而应用不同的相应密码散列函数以生成相应散列值集。在进一步的实施例中,云服务器应用将散列变换和纠错码集成到单个算法或过程中。在进一步的实施例中,云服务器应用程序通过应用博斯-查德胡里-霍昆格母(BCH)纠错码类别中的至少一个纠错码(即,通过应用至少一个BCH纠错码)来应用所述至少一个循环纠错码。根据这样的另一实施例,云服务器应用可选地应用BCH纠错码的里德-所罗门子集。参照图10描述了根据步骤520划分文件数据的方法。
在实施例中,云服务器根据步骤510-520通过执行包括与方法步骤相关的一系列任务和子任务的bash脚本来应用整体学习模型、加密文件数据和/或在存储层之间划分文件数据。更具体地,云服务器应用通过基于整体学习模型的输出运行这样的bash脚本来加密文件数据。在各个实施例中,bash脚本是包括一系列命令以促进命令行程序执行的文件。根据这样的实施例,bash脚本促进执行将整体学习过程的所有方面与加密和文件数据分割组合在一起的自动化技术。因此,云服务器应用可选地执行bash脚本以在一个或多个实施例的上下文中使过程流程自动化。在另外的实施例中,云服务器应用还将未分割的文件数据完整存储在与用户的本地机器相关联的基于硬件的或虚拟化的数据仓中(例如,与多层存储基础设施400内的本地机器4201至420n之一相关联的数据仓4351至435n之一)。根据这样的实施例,云服务器应用能够响应于确定分割的文件数据在多层存储基础设施的一个或多个层之间丢失而经由数据仓恢复文件数据。
在步骤525,云服务器应用接收与文件数据相关联的数据访问请求。在实施例中,云服务器应用经由与用户相关联的客户端接口接收数据访问请求。客户端接口可选地是在步骤505接收文件数据的相同接口,或者可替换地是单独的客户端接口。在步骤530,云服务器应用认证数据访问请求。云服务器应用可选地通过利用与被管理的服务域相关联的目录服务器***(例如,目录服务器***350)进行认证。在一个实施例中,云服务器应用通过应用一个或多个密码散列函数来认证数据访问请求,可选地以类似于在步骤520划分文件数据的上下文中应用一个或多个密码散列函数的方式。可选地,当未能认证数据访问请求时,云服务器应用重复步骤530或进行到方法500的结束。参照图11描述了根据步骤530认证数据访问请求的方法。
在步骤535,云服务器应用经由解密来恢复文件数据。在实施例中,云服务器应用以与原始构建的格式相同的格式恢复在多层存储基础设施的存储层之间划分的文件数据。可替代地,云服务器应用根据用户偏好以更改的格式恢复文件数据,例如,以压缩格式和/或以编码格式。在另外的实施例中,通过使用密钥,云服务器应用通过应用与步骤515处应用的一个或多个加密技术相对应的一个或多个解密技术来对文件数据进行解密。在另一实施例中,响应于确定文件数据在一个或多个存储层之间丢失(例如,由于一个或多个存储层中的数据的方面被损坏),云服务器应用通过访问具有以未分隔形式存储的文件数据的数据仓来整体恢复文件数据。在进一步的实施例中,云服务器应用在与步骤505-520分开的过程中执行步骤525-535中的一个或多个。
图6示出了应用整体学习模型的方法600。根据一个或多个实施方式,方法600在方法500的步骤510的上下文中提供子步骤。方法600在步骤605开始,其中云服务器应用通过将NLP应用到与用户相关联的上下文信息来导出主题上下文数据。根据步骤605,云服务器应用将NLP应用于用户上下文信息以便导出主题上下文数据。云服务器应用将一个或多个NLP模型/算法应用于用户上下文信息以便导出主题上下文数据。所导出的主题上下文数据包括与用户上下文信息相关联的主题和/或主题组。这样的主题/主题组可选地包括与多个用户上下文因素中的一个或多个相关联的主题,例如与用户应用活动相关联的主题、与用户数据活动相关联的主题、与用户资源使用或用户存储模式相关联的主题和/或与诸如用户职业、(一个或多个)用户关联组织或(一个或多个)用户联系人之类的用户属性相关联的主题。可选地,所导出的主题上下文数据进一步包括描述所述用户与所述主题/主题组之间的关联和/或描述所述主题/主题组之间的关联的主题元数据。具体地,主题元数据可以描述相应的主题/主题组与用户数据、(或多个)用户应用和/或(或多个)用户属性之间的关系信息,例如关于涉及安全相关主题的用户数据的日期/时间信息或访问信息。
云服务器应用通过NLP将整体学习模型的无监督学习能力应用到在用户上下文信息内标识的用户上下文方面,以便标识用户上下文信息内的主题模式。在实施例中,用户上下文方面包括从多个用户上下文因素中的一个或多个中解析或以其他方式获得的数据方面。在实施例中,云服务器应用可选地通过结合至少一个自然语言理解(NLU)技术将NLP应用于用户上下文信息。附加地或可替代地,云服务器应用通过结合至少一个自动语音识别(ASR)技术将NLP应用于用户上下文信息。在进一步的实施例中,云服务器应用从用户上下文信息的文本方面解析文本以便识别应用NLP的用户上下文方面。附加地或可替代地,云服务器应用通过向用户上下文信息的视听方面应用视听处理来标识用于NLP分析的目的的用户上下文方面。在识别与用户相关联的音频(例如,用户或相关联的联系人的语音话语)时,云服务器应用可选地应用语音识别(例如,语音至文本)以便从音频导出基于文本的方面并且随后将NLP应用于基于文本的方面。另外或可替代地,在识别与用户相关联的视觉图像(例如,用户活动或相关联联系人的活动的静态图片和/或视频)时,云服务器应用可选地应用视频识别(例如,视频至文本)以便从视觉图像导出基于文本的方面并且随后将NLP应用于基于文本的方面。云服务器应用可选地将一个或多个其他形式的视听处理应用于用户上下文信息内的音频和/或视觉图像,以便标识进一步的用户上下文方面。在进一步的实施例中,云服务器应用通过分析与用户相关联地收集的监控数据(例如,在从附接至用户、附接至与用户相关联的设备、和/或安装在与用户相关联的环境内的多个监控传感器收集物联网(IoT)传感器数据之后)来得出用于NLP分析的目的的用户上下文方面。云服务器应用可选地将NLP应用于从传感器数据和/或传感器元数据导出的文本方面。
在实施例中,云服务器应用通过向每个主题和/或每个主题组分配相应的用户上下文得分来对所导出的主题上下文数据之间的主题的相关性进行量化。用户上下文分数指示每个主题和/或每个主题组对用户在文件存储访问方面的相对重要性。云服务器应用可选地对与具有相对较高的用户上下文分数的主题和/或主题组相关联的数据的存储进行优先级排序,以便于相对较快的用户访问。相反,云服务器应用可选地允许与具有相对较低的用户上下文分数的主题和/或主题组相关联的数据的更灵活的存储,例如通过允许将这样的数据存储在具有相对较低的存储成本但导致相对较高的数据访问等待时间的位置处。根据这样的实施例,云服务器应用可选地在预定义的数值标度(例如,从0至100的整数标度)上分配相应的用户上下文分数。
如本文进一步描述的,可选地,云服务器应用基于在用户上下文信息内标识的主题模式编码特征向量,并且基于处理编码的特征向量(例如,经由应用至少一个聚类算法)导出主题上下文数据。在各种实施方式中,特征向量是数字格式的描述该数据点的相应特征的数据点的n维表示。在不同实施例的上下文中,数据点是在数据内表示的实体,例如个体、组织或应用方面。在不同实施例的上下文中,特征是与数据点相关联的可测量属性或特性。参照图7描述了根据步骤605获得主题上下文数据的方法。
在步骤610,云服务器应用通过基于在步骤605导出的主题上下文数据将NLP应用于文件数据来导出多个文件数据部分。根据步骤610,云服务器应用基于所导出的主题上下文数据将NLP应用于文件数据以便导出多个文件数据部分。使用所导出的包括与用户上下文信息相关联的主题/主题组的主题上下文数据作为输入,云服务器应用通过NLP将整体学习模型的无监督学习能力应用于文件数据方面,以便在文件数据中标识主题模式。在一个实施例中,云服务器应用可选地通过结合至少一个NLU技术将NLP应用于文件数据。附加地或可替代地,云服务器应用通过结合至少一种ASR技术将NLP应用于文件数据。在进一步的实施例中,云服务器应用解析来自文件数据的文本方面的文本以便识别向其应用NLP的文件数据方面。另外或可替代地,云服务器应用通过将视听处理应用于文件数据内的视听方面来识别文件数据方面以用于NLP分析的目的。在识别文件数据内的音频(例如,语音话语或其他音频声音)时,云服务器应用可选地应用语音识别(例如,语音至文本)以便从音频识别基于文本的方面并且随后将NLP应用于基于文本的方面。在标识文件数据(例如,静止图像和/或视频)内的视觉影像时,云服务器应用可选地应用视频识别(例如,视频至文本)以便从视觉影像标识基于文本的方面并且随后将NLP应用于基于文本的方面。云服务器应用可选地将一种或多种其他形式的视听处理应用于文件数据内的音频和/或视觉图像,以便标识进一步的文件数据方面。
如本文进一步描述的,基于在文件数据中标识的主题模式,云服务器应用可选地创建多个文件数据部分并且例如经由应用至少一个集群算法将文件数据内的数据点分配给多个文件数据部分。关于图9描述了根据步骤610导出多个文件数据部分的方法。
在步骤615,云服务器应用将至少一个多类分类技术应用于在步骤610导出的多个文件数据部分。根据步骤615,云服务器应用将所导出的文件数据部分和/或其对应的子部分与多个类别中的一个或多个类别相关联。基于经由步骤605-610中应用的NLP确定的主题标记,云服务器应用程序应用集成学习模型的受监督学习能力,以便将导出的文件数据部分或其相应的子部分与多个类别中的一个或多个类别相关联。在实施例中,云服务器应用程序应用随机森林分类器(RFC)决策树集合。另外或可替代地,云服务器应用程序应用支持向量机(SVM)模型,可选地应用SVM总体模型。云服务器应用使用所导出的文件数据部分作为输入来完成受监督的学习。基于在与所述至少一个分类技术中的一个或多个相关联的相应决策树节点处的处理,所述云服务器应用生成包括标识所述相应文件数据部分与所述多个类别中的一个或多个类别之间的关联的信息的输出。在相关实施例中,输出包括数值输出(例如,整数、二进制和/或一热编码矢量输出),该数值输出对应于或以其他方式引用用于相应文件数据部分或其子部分的多个类别中的一个或多个特定类别。在另外的相关实施例中,输出包括与基于多个类的文件数据部分的分布有关的数据,例如与多个类与相应文件数据部分或其子部分之间的关系相关联的统计数据和/或元数据。
根据步骤615,云服务器应用基于用户上下文信息的一个或多个特定方面,例如基于多个用户上下文因素中的一个或多个,将文件数据部分和/或其相应的子部分与多个类别中的一个或多个相关联。在一个实施例中,云服务器应用通过结合多个用户上下文方面对文件数据部分进行分类,所述多个用户上下文方面包括与特定用户任务的上下文中的数据使用频率、数据相关性、数据类型、数据大小、数据复杂度、数据机密性和/或数据优先级有关的一个或多个方面。在进一步的实施例中,云服务器应用基于与相应数据类型的关联来分类(多个)文件数据部分。具体而言,云服务器应用可选地将具有最频繁使用的数据类型(或具有与最频繁使用的应用相关联的数据)的文件数据部分分类成与本地层相关联的一个或多个类别,将与较不频繁使用的数据类型有关的文件数据部分分类成与雾层相关联的一个或多个类别,以及将与最不频繁使用的数据类型有关的文件数据部分分类成与云层相关联的一个或多个类别。附加地或可替代地,云服务器应用基于数据相关性来对文件数据部分进行分类。具体而言,云服务器应用可选地将具有被确定为与用户活动最相关的数据的文件数据部分分类到与本地层相关联的一个或多个类别中,将具有不太相关的数据的文件数据部分分类到与雾层相关联的一个或多个类别中,以及将具有最小相关的数据的文件数据部分分类到与云层相关联的一个或多个类别中。附加地或可替代地,云服务器应用基于应用相关性对文件数据部分进行分类。具体而言,云服务器应用可选地将与在用户活动期间最频繁使用的应用相关的文件数据部分分类成与本地层相关联的一个或多个类别,将与在用户活动期间较不频繁使用的应用相关的文件数据部分分类成与雾层相关联的一个或多个类别,以及将与在用户活动期间最不频繁使用的应用相关的文件数据部分分类成与云层相关联的一个或多个类别。附加地或可替代地,云服务器应用基于文件大小对文件数据部分进行分类。具体地,云服务器应用可选地将与较大的用户文件有关的文件数据部分分类为与云层相关联的一个或多个类别,将与更紧凑的用户文件有关的文件数据部分分类为与雾层相关联的一个或多个类别,以及将与最紧凑的用户文件有关的文件数据部分分类为与本地层相关联的一个或多个类别。
在另外的实施例中,云服务器应用将不太相关、不太紧凑和/或不太频繁使用的(一个或多个)文件数据部分或其(一个或多个)子部分分类成与云层相关联的一个或多个类别,将更相关、更紧凑和/或更频繁使用的(一个或多个)文件数据部分或其(一个或多个)子部分分类成与雾层相关联的一个或多个类别,以及将最相关、最紧凑和/或最频繁使用的(一个或多个)文件数据部分或其(一个或多个)子部分分类成与本地层相关联的一个或多个类别。另外或可替代地,出于可访问性的目的,云服务器应用将具有更复杂和/或机密性质的文件数据部分分类为与云层相关联的一个或多个类别。附加地或可替代地,云服务器应用在用户任务的上下文中将具有最高相对优先级的文件数据部分分类为与所有存储层相关联的类别,以确保在任何数据存储场景中用户对这样的文件数据部分的访问。附加地或可替代地,云服务器应用将远程数据处理所需的和/或与远程数据访问可用性相关联的文件数据部分或其子部分分类成与云层相关联的一个或多个类别和/或分类成与雾层相关联的一个或多个类别。附加地或可替代地,云服务器应用将与本地资源相关联的文件数据部分或其子部分分类成与本地层相关联的一个或多个类别。
在进一步的实施例中,根据步骤615,云服务器应用至少部分地基于在所导出的主题上下文数据之中分配给每个主题或主题组的相应用户上下文分数来将相应文件数据部分和/或其子部分分类成多个类别中的一个或多个类别。根据这样的进一步实施例,云服务器应用可选地向与相对较高的存储优先级相关的多个类别中的一个或多个类别分配与具有相对较高的用户上下文得分的主题和/或主题组相关联的相应文件数据部分或其子部分,以利于相对较快的用户访问。相反,云服务器应用可选地向与更灵活的存储设置相关的多个类别中的一个或多个类别分配与具有相对较低的用户上下文得分的主题和/或主题组相关联的相应文件数据部分或其子部分。
该云服务器应用基于一种或多种分类技术根据步骤615将每个文件数据部分分类到该多个类别中的一个或多个类别中。在一个实施例中,一种或多种分类技术相对于与多层存储基础设施相关联的存储层(例如,云层、雾层和本地层)进行分类。根据第一分类技术,该多个类别中的每个类别与这些存储层中的仅一个存储层相关联。具体地,第一类与云层相关联,第二类与雾层相关联,并且第三类与本地层相关联。根据第一分类技术,云服务器应用将要整体地分布到存储层中的某个层的文件数据部分与同该某个层相关联的单个类别(即,云层类别、雾层类别或本地层类别)相关联。例如,云服务器应用可以将要整体分布到云层的文件数据部分与云层类别相关联。相反,云服务器应用基于层分布,将要分布在多个层中的文件数据部分与多个类中的多个类相关联。在这样的情况下,云服务器应用可以基于相关联的类别将这样的文件数据部分细分成相应的子部分。例如,云服务器应用可以将要分布在云层和雾层中的文件数据部分与云层类别和雾层类别两者相关联,并且在这种情况下,云服务器应用可以基于其与云层类别的关联性来标识文件数据部分的云层子部分,并且还可以基于其与雾层类别的关联性来标识文件数据部分的雾层子部分。
根据第二分类技术,该多个类别中的每个类别可选地与这些存储层之一相关联或其组合。具体地,第一类与云层相关联,第二类与雾层相关联,第三类与本地层相关联,第四类可选地与云层和雾层两者相关联,第五类可选地与云层和本地层两者相关联,第六类可选地与雾层和本地层两者相关联,第七类可选地与云层、雾层和本地层的全部相关联。根据第二分类技术,与第一分类技术一样,云服务器应用将要整体地分布到存储层中的某个层的文件数据部分与同该某个层相关联的单个类别(即,云层类别、雾层类别或本地层类别)相关联。相反,云服务器应用将要分布在多个层中的文件数据部分与反映多个层中的每层的类别相关联。例如,云服务器应用可以将待分布在云层和雾层中的文件数据部分与同云层和雾层两者相关联的类别相关联。
在一个实施例中,云服务器应用将一个或多个数字类别值与多个文件数据部分和/或其各自的子部分中的每一个相关联。根据这样的实施例,云服务器应用可选地创建编码的特征向量,该编码的特征向量包括将一个或多个数字类别值与多个文件数据部分和/或其子部分之中的相应文件数据部分相关联的数字数据。在替代实施例中,根据一个或多个分类技术,除了云层、雾层和本地层之外,云服务器应用还关于与多层存储基础设施相关联的中间层进行分类。根据这样的替换实施例,一种或多种分类技术包括与云层与雾层之间的中间层和/或雾层与本地层之间的中间层相关联的相应类别。
在步骤620,云服务器应用基于至少一个多类别分类技术的应用来确定多个文件数据部分的分发计划。在步骤620确定的分发计划是在步骤510之后设计的数据分发技术的实现。在一个实施例中,云服务器应用程序经由至少一个多类分类技术基于文件数据部分的分类来确定分发计划。基于如之前所讨论的计算智能,云服务器应用计算存储在多级存储基础设施的相应层(例如,云层、雾层和本地层)处的文件数据的分布比例。云服务器应用可选地基于文件数据部分分类到多个类别中来计算分配比例。在另外的实施例中,云服务器应用在分配计划中包括将文件数据分配到云层、雾层和本地层内的相应桶中的过程。根据这样的另外的实施方式,云服务器应用可选地指定分配顺序,该分配顺序指定将文件数据以何种顺序分配到相应的桶中。根据一个分发次序变化,云服务器应用程序可首先将文件数据分配到云层桶,随后分配到雾层桶,随后分配到本地层桶。根据替代的分发顺序变化,云服务器应用可以首先将文件数据分发到云层桶,随后分发到本地层桶,随后分发到雾层桶。根据另一替代分发次序变化,云服务器应用可以首先将文件数据分发到雾层桶,随后分发到云层桶,随后分发到本地层桶。根据另一替代分发次序变化,云服务器应用可以首先将文件数据分发到雾层桶,随后分发到本地层桶,随后分发到云层桶。根据另一替代分发次序变化,云服务器应用可以首先将文件数据分发到本地层桶,随后分发到云层桶,随后分发到雾层桶。根据另一替代分发次序变化,云服务器应用可以首先将文件数据分发到本地层桶,随后分发到雾层桶,随后分发到云层桶。如果多层存储基础设施包括中间层,则除了云层桶、雾层桶和本地层桶之外,分配次序可选地在中间层内合并相应的桶。在进一步的实施例中,云服务器应用基于在步骤605-615中应用的NLP和多类别分类将整体学习元数据附加到文件数据。根据这样的进一步的实施例,云服务器应用可选地利用整体学习元数据来确定多层存储基础设施的各层之间的分布比例。整体学习元数据可选地结合与在步骤610导出的文件数据部分有关的信息。与可选地合并到集成学习元数据中的相应文件数据部分相关的信息包括文件数据部分大小、与文件数据部分相关联的数据类型、与文件数据部分相关联的任何应用、与文件数据部分相关联的主题分类、和/或与文件数据部分相关联的类。
在步骤625,云服务器应用基于在步骤605-615应用的NLP和多类别分类来训练集成学习模型。根据步骤625,云服务器应用基于根据模型应用所推导和/或确定的方面来更新集成学习模型。在一个实施例中,云服务器应用基于在步骤605导出的主题上下文数据来存储一个或多个主题上下文数据方面以用于关于具有相似的数据使用和/或应用使用特性的用户和/或关于用户的未来分析。根据这样的实施例,云服务器应用可选地分析一个或多个主题上下文数据方面,并且基于这样的分析,标识和存储主题上下文数据模式(例如,基于多个用户上下文因素中的一个或多个的主题模式)。云服务器应用可选地利用所存储的主题上下文数据模式来促进未来主题上下文数据处理。在另外的实施例中,云服务器应用基于在步骤610处导出的多个文件数据部分来存储一个或多个文件数据方面,以便促进与用户或具有类似数据和/或应用使用特性的用户相关联的文件数据部分的未来组织。根据这样的附加实施例,云服务器应用可选地分析一个或多个文件数据方面,并且基于这样的分析,标识和存储文件数据模式(例如,文件数据中的主题模式或其他文件数据模式)。云服务器应用可选地利用所存储的文件数据模式来促进未来的文件数据处理。在进一步的实施例中,该云服务器应用存储在步骤615处关于所导出的多个文件数据部分所确定的一个或多个分类方面。根据这样的另一实施例,云服务器应用可选地分析一个或多个分类方面,并且基于这样的分析,识别并存储将一个或多个类别与多个文件数据部分和/或其子部分中的相应文件数据部分相关联的分类模式。具体地,云服务器应用可选地存储将数字类别值与多个文件数据部分和/或其子部分之中的相应文件数据部分相关联的编码特征向量。云服务器应用可选地利用所存储的分类模式来促进未来的多类分类处理。在进一步的实施例中,云服务器应用基于所创建的集成学习元数据和/或基于在方法600的上下文中确定的模式来训练集成学习模型,并且可选地将这样的集成学习元数据和/或模式存储在与集成学习模型相关联的知识库中。
总之,根据方法600应用集成学习模型包括通过将NLP应用于与用户相关联的上下文信息来导出主题上下文数据,通过基于主题上下文数据将NLP应用于文件数据来导出多个文件数据部分,将至少一个多类分类技术应用于所述多个文件数据部分,基于所述至少一个多类分类技术的应用来确定所述多个文件数据部分的分布计划,以及基于所应用的NLP和所应用的至少一个多类别分类技术来训练集成学习模型。
图7示出了获得主题上下文数据的方法700。根据一个或多个实施方式,方法700在方法600的步骤605的上下文下提供子步骤。方法700在步骤705开始,其中云服务器应用通过将至少一个NLP模型应用于与用户相关联的原始数据来创建多个编码的特征向量。根据步骤705,云服务器应用将至少一个NLP模型应用于与用户相关联的原始数据以便创建多个编码的特征向量。云服务器应用基于在原始数据中识别的主题模式创建多个编码的特征向量。与用户相关联的原始数据可选地包括未经NLP处理的用户上下文信息之中的非结构化数据或结构化数据。在一个实施例中,在步骤705应用至少一个NLP模型的情境中,云服务器应用将命名实体识别(NER)模型应用于用户情境方面。这种NER模型通过基于主题对原始数据中的原始文本中的实体进行识别和分类来处理用户上下文信息。NER模型的应用产生至少一个编码的主题分配向量。在另外的实施例中,在应用至少一个NLP模型的情境中,云服务器应用向用户情境方面应用潜在狄利克雷分配(LDA)以便识别主题和文本之间的关系。根据这样的附加实施例,云服务器应用可选地将LDA建模应用于原始数据中的原始文本,以便对在原始文本中表示的数据点进行主题分类。LDA模型的应用导致至少一个编码的主题分配向量。在另一实施例中,在应用至少一个NLP模型的情境中,云服务器应用将来自变换器(BERT)的双向编码器表示应用于用户情境方面。在应用BERT时,云服务器应用应用于利用神经网络关注技术的基于原始数据变换器的NLP之中的原始文本。通过利用神经网络的注意力,云服务器应用增强了对原始文本输入的重要方面的关注以便针对这样的输入执行句子嵌入。BERT模型的应用导致基于句子嵌入的至少一个编码的实数向量。在不同实施例的上下文中,句子嵌入包括用于将句子映射到实数向量的一组技术。
在进一步的实施例中,在应用至少一个NLP模型的情境中,云服务器应用将递归神经网络(RNN)模型应用于用户情境方面以便在与用户情境信息相关联的顺序数据点之间建立基于机器学习(深度学习)的连接。RNN模型的应用导致反映主题和时间序列的组合的至少一个编码的特征向量。根据此类进一步的实施例,云服务器应用可选地利用长短期记忆递归神经网络(LSTM-RNN)架构,该架构被配置为存储关于与原始数据或更一般地用户上下文信息相关联的文本方面的时间序列模式数据。云服务器应用可选地应用LSTM-RNN建模以用于存储时间序列模式数据的目的。在LSTM-RNN建模的上下文中的云服务器应用针对可用作至少一个NLP模型中的一个或多个的输入的每个用户上下文方面存储作为时间函数的使用特性。基于随着时间的变化的关于用户上下文方面的使用特性,云服务器应用可选地使用LSTM-RNN数据来确定用户上下文方面之间的模式。用户上下文方面之间的所确定的模式可选地反映一个或多个先前使用(例如,最近使用或在预定时间段内最近使用)的应用、数据类型或***资源随时间的用户使用。具体而言,使用LSTMT-RNN建模,云服务器应用可选地相对于一个或多个用户上下文方面导出至少一个加时间戳模式,从而基于时间戳识别捕获的数据使用模式、捕获的应用使用模式和/或捕获的***资源使用模式。LSTM模型的应用导致编码的时间序列模式矢量,并且此外,LSTM-RNN建模的应用导致反映主题和时间序列的编码特征向量信息。在进一步的实施例中,云服务器应用将NLP应用于原始数据之中的用户上下文方面或者更一般地结合门控循环单元(GRU)架构的用户上下文信息。基于比LSTM更少的参数,GRU的应用产生编码的时间序列模式矢量。可选地,在应用至少一个NLP模型的情境中,云服务器应用如上所述组合上述模型中的一个或多个的特征。
在进一步的实施例中,在步骤705,云服务器应用向多个编码的特征向量中的每一个分配权重值以指定通过应用至少一个NLP模型之中的每个相应NLP模型创建的特征向量的相对重要性。例如,云服务器应用可向NEP相关编码特征向量分配相对较高的权重值,并且向LDA相关编码特征向量分配相对较低的权重值,以指示在某种情况下NEP模型应用相比于LDA模型应用更高的相对重要性。在进一步的实施例中,云服务器应用通过导出关于应用类型或由用户访问的数据类型的数据表示、应用访问或用户的数据访问的频率、与应用访问或用户的数据访问相关的计算资源使用和/或与应用访问或用户的数据访问相关的存储模式来创建所述多个编码特征向量。参照图8描述了根据步骤705创建多个编码特征向量的方法。
在步骤710,云服务器应用通过将至少一个聚类算法应用于在步骤705创建的多个编码特征向量来获得数字主题输出。根据步骤710,云服务器应用将至少一个聚类算法应用于多个编码的特征向量以便获得数字主题输出。在步骤705处创建的多个编码特征向量或其方面被输入到至少一个聚类算法。在实施方式中,云服务器应用在应用至少一个聚类算法之前连接多个编码的特征向量中的一个或多个。在另外的实施例中,所述云服务器应用基于应用所述至少一个聚类算法之后针对所述相应特征获得的所述数字主题输出将所述多个编码特征向量之一的相应特征与相应主题相关联。例如,云服务器应用可以将获得数字主题输出值“1”的相应特征与安全相关主题相关联,可以将获得数字主题输出值“2”的相应特征与涉及客户端参与的主题相关联,可以将获得数字主题输出值“3”的相应特征与涉及量子计算的主题相关联,等等。根据这样的另外的实施例,云服务器应用基于如在表示如在步骤705创建的数据点的编码特征向量内表示的数据点特征的主题关联,将与用户相关联的原始数据中的数据点与一个或多个相应的主题相关联。例如,云服务器应用可基于具有与安全相关主题和与客户端参与相关的主题相关联的特征的数据点将原始数据之中的数据点与安全相关主题和与客户端参与相关的主题相关联,如由针对这样的特征获得的相应数字主题输出值所确定的。根据这样的附加实施例,云服务器应用可选地通过串联或以其他方式处理数据点的相应特征的相应数字主题输出值,根据步骤710在原始数据中导出数据点的数字主题输出值。数据点的这种数字主题输出值可选地表示为特征向量,即,表示如在步骤705创建的数据点的编码特征向量的聚类导出补充。在进一步的实施例中,所述云服务器应用可选地以二进制形式或以一热编码形式对所述数字主题输出的相应值进行编码。在进一步的实施例中,在步骤710的上下文中应用的至少一个聚类算法包括k均值聚类算法。附加地或可替代地,所述至少一个聚类算法包括期望最大化算法。附加地或可替代地,所述至少一个聚类算法包括层级聚类算法,例如,凝聚层级聚类。另外或替代地,所述至少一个群集算法包含均值移位群集算法。根据步骤705-710的编码和聚类,云服务器应用将用户上下文信息当中的特征与数字主题信息相关联。云服务器应用继而可以利用这样的数字主题信息来处理和分类从用户接收的文件数据。
总之,根据方法700导出主题上下文数据包括通过将至少一个NLP模型应用于与用户相关联的原始数据来创建多个编码的特征向量以及通过将至少一个聚类算法应用于多个编码的特征向量来获得数字主题输出。
图8示出了创建多个编码的特征向量的方法800。根据一个或多个实施例,方法800在方法700的步骤705的背景下提供子步骤。方法800开始于步骤805,其中云服务器应用基于用户访问的应用类型或数据类型导出至少一个数据表示。在实施方式中,编码的矢量表示包括编码的特征向量集。编码的特征向量集包括一个或多个编码的特征向量。可选地,云服务器应用通过基于经由一热编码的应用访问历史导出二进制矢量(例如,比特阵列)来导出编码的特征向量集。根据这样的实施例,一热编码使得能够以二进制矢量格式表示类别变量。附加地或可替代地,云服务器应用经由字嵌入导出编码的特征集。在不同实施例的上下文中,字嵌入指的是基于上下文将相应数值分配给文本字,使得相对较相关字的相应数值在值上比相对较不相关字的相应数值更接近。在相关实施例中,云服务器应用程序应用字嵌入以导出编码特征集,该编码特征集表示在实值矢量内更近的相对更相关的字。在另外的相关实施例中,云服务器应用程序应用字嵌入以导出编码特征集,该编码特征集表示与更接近于实值向量内的用户上下文信息相关联的相对更相关的数据类型。在进一步的实施例中,云服务器应用将数据点与属性值对格式的数据类型相关联。
在步骤810,云服务器应用导出与应用访问或用户的数据访问的频率有关的至少一个数据表示。在实施例中,云服务器应用以属性-值对格式编码关于特定应用或特定数据点的用户访问。这样的属性值对格式可以将特定应用/数据点与描述应用/数据使用的频率、应用/数据使用的日期/时间和/或应用/数据使用的其他方面的元数据标量或向量值相关联。在进一步的实施例中,云服务器应用针对属性-值对格式的特定数据类型对用户访问进行编码。这样的属性-值对格式可以将特定数据类型与描述数据类型使用的频率、数据类型使用的日期/时间和/或数据类型使用的其他方面的元数据向量值相关联。
在步骤815,云服务器应用导出关于与应用访问或用户的数据访问相关的计算资源使用和/或与应用访问或用户的数据访问相关的存储模式有关的至少一个数据表示。在实施例中,云服务器应用收集与关于用户的数据访问的历史存储模式有关的信息。例如,云服务器可以记录反映跨所有存储层的经常使用的用户应用数据的存储的存储模式。云服务器应用可选地以标准化编码格式(例如,二进制向量格式和/或属性值对格式)来存储这样的资源使用信息和/或存储模式信息。云服务器应用将在步骤805-815中导出的数据表示或其方面结合到多个编码的特征向量的一个或多个中。根据不同实施例,云服务器应用可选地执行步骤805-815的子集和/或可选地以任何顺序执行步骤805-815。
总之,根据方法800创建多个编码特征向量包括基于由用户访问的应用类型或数据类型导出至少一个数据表示,导出涉及由用户的应用访问或数据访问的频率的至少一个数据表示,导出涉及与由用户的应用访问或数据访问相关的计算资源使用或存储模式的至少一个数据表示。
图9示出了导出多个文件数据部分的方法900。根据一个或多个实施方式,方法900在方法600的步骤610的上下文中提供子步骤。方法900开始于步骤905,其中云服务器应用通过考虑根据步骤605导出的主题上下文数据应用至少一个NLP模型来在文件数据内的数据点中识别主题模式。根据步骤905,云服务器应用考虑主题上下文数据应用至少一个NLP模型以便识别主题图案。在实施例中,云服务器应用考虑主题上下文数据来导出与文件数据有关的主题信息。根据这样的实施例,云服务器应用可选地通过将文件数据之中的数据点与主题上下文数据内的主题或主题组相关联来识别文件数据部分。具体地,基于主题上下文数据,云服务器应用将至少一个NLP模型应用于文件数据以确定在文件数据内的数据点之间的主题模式。在相关实施例中,云服务器应用基于所标识的主题模式将文件数据数据点的相应特征与相应主题相关联。例如,云服务器应用可响应于标识这样的特征和与这样的安全相关主题相关联的主题上下文数据中的对应特征之间的模式来将文件数据数据点的特征与安全相关主题相关联。根据这种相关实施方式,云服务器应用程序可选地基于这种文件数据数据点的特征的主题关联将文件数据数据点与各自的主题相关联。例如,响应于基于所标识的主题模式确定相应文件数据数据点的特征与安全相关主题和与客户端参与度相关的主题相关联,云服务器应用可以将相应文件数据数据点与安全相关主题和与客户端参与度相关的主题相关联。
在一个实施例中,在步骤905应用至少一个NLP模型的上下文中,云服务器应用将NER模型应用于文件数据当中的文件数据方面。这样的NER模型通过基于主题标识和分类实体,根据主题上下文数据从文件数据中提取信息。基于经由NER模型的主题标识,云服务器应用可选地标识与文件数据相关的主题上下文数据内的所有数据点或数据点的子集。在另一实施例中,在应用至少一个NLP模型的上下文中,云服务器应用程序应用LDA以识别文件数据内的文本中的主题和关系。根据这样的进一步的实施例,云服务器应用可选地鉴于主题上下文数据将LDA建模应用于文件数据方面,以便在主题上对文件数据内所表示的数据点进行分类。在进一步的实施例中,在应用至少一个NLP模型的上下文中,云服务器应用鉴于主题上下文数据将BERT应用于文件数据方面。在应用BERT时,云服务器应用程序应用于利用神经网络关注技术的基于文件数据转换器的NLP内的文本。通过利用神经网络注意力,云服务器应用增强了对原始文本输入的重要方面的关注以便针对这样的输入执行句子嵌入。
在另一实施例中,在应用至少一个NLP模型的上下文中,云服务器应用应用RNN模型以便鉴于主题上下文数据在与文件数据相关联的顺序数据点之间建立基于机器学习的连接。根据此类进一步的实施例,云服务器应用可选地利用被配置为存储关于文件数据方面的时间序列模式数据的LSTM-RNN架构。云服务器应用可选地应用LSTM-RNN建模以用于存储时间序列模式数据的目的。在LSTMT-RNN建模的上下文中,云服务器应用将可用作至少一个NLP模型中的一个或多个的输入的每个文件数据方面的使用特性存储为时间的函数。基于随时间推移的文件数据方面的使用特性,云服务器应用可选地使用LSTM-RNN数据来预测文件数据方面之间的模式,例如,随时间推移文件数据模式与用户使用模式之间的任何确定的关系。具体而言,使用LSTMT-RNN建模,云服务器应用可选地导出关于一个或多个文件数据方面的至少一个带时间戳模式。云服务器应用可选地标识文件数据方面中的一个或多个与一个或多个先前使用的应用、数据点或***资源之间的关系,并且因此可以将这样的一个或多个文件数据方面与相对于一个或多个先前使用的应用、数据点或***资源记录的随时间推移的使用模式相关联。因而,在导出文件数据部分的上下文中,云服务器应用可以至少部分地基于这样的使用模式将这样的一个或多个文件数据方面与一个或多个文件数据部分相关联。例如,响应于确定文件数据方面与用户先前使用(例如,最近使用或在预定时间段内最近使用)的应用相关联,云服务器应用可以将这样的文件数据方面与反映与这样的先前使用的应用的兼容性或其他关联的一个或多个文件数据部分相关联。在进一步的实施例中,云服务器应用结合GRU架构鉴于主题上下文数据将NLP应用于文件数据方面。云服务器应用可选地在NLP技术的应用期间组合上述模型中的一个或多个的特征。基于鉴于主题上下文数据对至少一个NLP模型的应用,云服务器应用将文件数据内的每个数据点与一个或多个识别出的主题模式相关联。
在步骤910,云服务器应用通过基于在步骤905标识的主题模式应用至少一个聚类算法来将文件数据内的数据点分配给多个文件数据部分。根据步骤910,云服务器应用基于所标识的主题模式来应用至少一个聚类算法,以便将文件数据内的数据点分配给多个文件数据部分。基于所识别的与文件数据内的数据点相关联的主题模式(其任选地以编码的特征向量形式表示),云服务器应用程序应用至少一种聚类算法,以便基于数据点之间的主题模式关联将数据点分配至多个文件数据部分。云服务器应用可选地组织每个文件数据部分,使得每个文件数据部分内的相应数据点具有如经由至少一个聚类算法确定的某些主题模式相关性。在一个实施例中,在步骤910的上下文中应用的至少一个聚类算法包括k均值聚类算法。附加地或可替代地,所述至少一个聚类算法包括期望最大化算法。附加地或可替代地,所述至少一个聚类算法包括层级聚类算法,例如,凝聚层级聚类。另外或替代地,所述至少一个群集算法包含均值移位群集算法。在进一步的实施例中,该云服务器应用为该多个文件数据部分中的每个文件数据部分分配数值,例如,整数值、二进制值、或一热编码值。可选地,云服务器应用基于与在步骤605导出的主题上下文数据内的相应方面相关联的相应数值向多个文件数据部分中的每个文件数据部分分配数值。例如,基于关于步骤710讨论的前述示例,云服务器应用可以将数值“1”分配给包括文件数据数据点及其涉及安全的特征的文件数据部分,可以将数值“2”分配给包括涉及客户端参与的数据点及其特征的文件数据部分,可以将数值“3”分配给包括涉及量子计算的数据点及其特征的文件数据部分,等等。响应于确定相应文件数据部分包括与多个主题有关的文件数据数据点及其特征,云服务器应用可选地向对应于多个主题的这样的文件数据部分分配多个数值,或者可替代地向对应于多个主题当中的最相关主题的这样的文件数据部分分配单个数值。
总之,根据方法900导出多个文件数据部分包括通过考虑主题上下文数据应用至少一个NLP模型来在文件数据内的数据点中识别主题模式,并且通过基于所识别的主题模式应用至少一个聚类算法来将文件数据内的数据点分配至多个文件数据部分。
图10示出了划分文件数据的方法1000。根据一个或多个实施方式,方法1000在方法500的步骤520的上下文中提供子步骤。方法1000开始于步骤1005,其中云服务器应用程序在多层存储基础设施的云计算层、雾计算层和本地计算层之间存储文件数据的单独部分。在不同实施例的上下文中,存储单独部分意味着存储非冗余部件。在实施方式中,云服务器应用将在存储层之间划分的数据存储在相应存储层处的桶中。根据这样的实施例,云服务器应用将云数据存储在云层的云服务器桶中,将雾数据存储在雾层的雾服务器桶中,以及将本地数据存储在本地层的本地机器桶中。可选地,云服务器应用基于桶键值索引相应桶,使得具有相同桶键值的文件数据部分或子部分被存储在单个桶中。相应桶的桶键值可选地对应于或以其他方式与分配给文件数据部分或子部分的类别值相关。云服务器应用可选地指定或检索关于每个桶的访问控制数据。可以经由相应的访问控制列表(ACL)为桶指定桶访问控制。在另一实施例中,云服务器桶是主桶,即,云服务器应用根据在步骤510设计的数据分发技术发起文件数据的划分的位置。根据这样的进一步的实施例,云服务器应用对位于主存储桶中的文件数据执行相应的划分,以便将文件数据的单独部分存储在对应于其他存储层的存储桶中。云服务器应用可选地连续地执行相应分区或者可替换地同时执行相应分区。在替代实施例中,在步骤1005,云服务器应用将文件数据的单独部分存储在除了云层、雾层和本地层之外的多层存储基础设施的一个或多个中间层之中。根据这样的替换实施例,云服务器应用可选地将分类用于存储在中间层中的数据存储在与这样的中间层相关联的中间桶中。
在步骤1010,云服务器应用存储多层存储基础设施的云计算层、雾计算层和本地计算层中的每一个之间的冗余依赖性。层之间存储的冗余依赖性包括与文件数据的执行相关的库或其部分/子部分。除此之外或作为另外一种选择,冗余依赖性包括与文件数据或其部分/子部分相关联的应用包。另外或替代地,冗余依赖性包含链接相应文件数据部分或子部分的信息,例如以促进文件数据恢复或传输。在替代实施例中,在步骤1010,云服务器应用存储在除了云计算层、雾计算层和本地计算层之外的多层存储基础设施的一个或多个中间层之间的冗余依赖性。
总之,根据方法1000划分文件数据包括将文件数据的单独部分存储在云计算层、雾计算层和本地计算层之间,并且存储云计算层、雾计算层和本地计算层中的每一个之间的冗余依赖性。
图11示出了认证数据访问请求的方法1100。根据一个或多个实施方式,方法1100在方法500的步骤530的上下文下提供子步骤。方法1100开始于步骤1105,其中云服务器应用从数据访问请求中解析标识和密码。在步骤1110,云服务器应用基于在步骤1105解析的标识来提取与用户相关联的存储的散列值。在实施例中,云服务器应用通过与和被管理的服务域相关联的目录服务器***交互来查找和检索所存储的散列值。在步骤1115,云服务器应用通过向所解析的密码应用与所存储的散列值相对应的一个或多个密码散列函数来散列在步骤1105所解析的密码。在一个实施例中,云服务器应用与目录服务器***通信以促进一个或多个密码散列函数的应用。在步骤1120,云服务器应用确定密码散列的结果是否与所存储的散列值匹配。响应于确定密码散列的结果匹配所存储的散列值,在步骤1125,云服务器应用完成数据访问请求的认证。相反,响应于确定密码散列的结果与所存储的散列值不匹配,云服务器应用继续进行到方法1100的结束而不完成数据访问请求的认证。
总之,根据方法1100认证数据访问请求包括解析来自数据访问请求的标识和密码,基于解析的标识提取与用户相关联的存储散列值,通过向解析的密码应用与存储的散列值对应的一个或多个密码散列函数来散列密码,以及响应于确定密码散列的结果与存储的散列值匹配,完成数据访问请求的认证。
已经出于说明的目的呈现了本发明的各种实施方式的描述,但并不旨在是详尽的或者限于所公开的实施方式。对所描述的实施例和等同布置进行的所有种类的修改应当落入本发明的保护范围内。因此,本发明的范围应当根据以下与具体实施方式相关的权利要求最广泛地解释,并且应当覆盖所有可能的等效变化和等效布置。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。本文使用的术语被选择来最好地解释实施例的原理、实际应用或优于市场中发现的技术的技术改进,或者使得本领域普通技术人员能够理解本文描述的实施例。

Claims (20)

1.一种计算机实现方法,包括:
接收与用户相关联的文件数据以存储在管理服务域中;
应用集成学习模型以基于与所述用户相关联的上下文信息来设计所述文件数据的数据分发技术;
加密所述文件数据;以及
基于所述数据分发技术,通过执行散列变换并应用至少一个循环纠错码,将所述文件数据分割以存储在云计算层、雾计算层和本地计算层之中。
2.根据权利要求1所述的计算机实现的方法,进一步包括:
接收与所述文件数据相关联的数据访问请求;
认证所述数据访问请求;以及
通过解密恢复文件数据。
3.根据权利要求1所述的计算机实现的方法,其中,应用集成学习模型包括:
通过将自然语言处理(NLP)应用于与所述用户相关联的所述上下文信息来导出主题上下文数据。
4.根据权利要求3所述的计算机实现的方法,其中,应用集成学习模型进一步包括:
通过基于所述主题上下文数据将NLP应用于所述文件数据来导出多个文件数据部分。
5.根据权利要求4所述的计算机实现的方法,其中,应用集成学习模型进一步包括:
将至少一个多类分类技术应用于所述多个文件数据部分。
6.根据权利要求5所述的计算机实现的方法,其中,应用所述整体学习模型进一步包括:
基于所述至少一种多类别分类技术的应用来确定所述多个文件数据部分的分布计划。
7.根据权利要求3所述的计算机实现的方法,其中,获得所述主题上下文数据包括:
通过将至少一个NLP模型应用于与所述用户相关联的原始数据创建多个编码特征向量;以及
通过将至少一个聚类算法应用于所述多个编码特征向量来获得数字主题输出。
8.根据权利要求7所述的计算机实现的方法,其中,创建所述多个编码特征向量包括:
基于所述用户访问的应用类型或数据类型导出至少一个数据表示。
9.根据权利要求7所述的计算机实现的方法,其中,创建所述多个编码特征向量包括:
导出与用户的应用访问或数据访问的频率有关的至少一个数据表示;以及
导出涉及计算资源使用或存储模式的至少一个数据表示,所述计算资源使用或存储模式与用户的应用访问或数据访问相关。
10.根据权利要求7所述的计算机实现的方法,其中,所述多个编码特征向量之一的所述相应特征与基于针对相应特征获得的所述数字主题输出的所述相应主题相关联。
11.如权利要求4所述的计算机实现的方法,其中,导出多个文件数据部分包括:
通过考虑主题上下文数据应用至少一个NLP模型在所述文件数据内的数据点中识别主题模式;以及
通过基于所识别的主题模式应用至少一个集群算法来将所述文件数据内的数据点分配至所述多个文件数据部分。
12.根据权利要求1所述的计算机实现的方法,其中,分割文件数据包括:
将文件数据的不同部分存储在所述云计算层、所述雾计算层和所述本地计算层中。
13.根据权利要求1所述的计算机实现的方法,其中,分割文件数据包括:
将冗余依赖性存储在所述云计算层、所述雾计算层和所述本地计算层中的每一个之中。
14.根据权利要求2所述的计算机实现的方法,其中,认证数据访问请求包括:
从所述数据访问请求中解析标识和密码;
基于所解析的标识获取与所述用户预先关联的存储的散列值;
通过向所解析的密码应用与所存储的散列值相对应的一个或多个密码散列函数来对密码进行散列;以及
响应于确定密码散列的结果匹配所存储的散列值,完成所述数据访问请求的认证。
15.一种计算机程序产品,包括具有包含在其中的程序指令的计算机可读存储介质,所述程序指令可由计算设备执行以使所述计算设备:
接收与用户相关联的文件数据以存储在管理服务域中;
应用集成学习模型以基于与所述用户相关联的上下文信息来设计所述文件数据的数据分发技术;
加密所述文件数据;以及
基于所述数据分发技术,通过执行散列变换并应用至少一个循环纠错码,将所述文件数据分割以存储在云计算层、雾计算层和本地计算层之中。
16.根据权利要求15所述的计算机程序产品,其中,所述程序指令进一步使所述计算设备:
接收与所述文件数据相关联的数据访问请求;
认证所述数据访问请求;以及
通过解密恢复文件数据。
17.根据权利要求15所述的计算机程序产品,其中,应用集成学习模型包括:
通过将NLP应用于与所述用户相关联的所述上下文信息来导出主题上下文数据。
18.一种***,包括:
至少一个处理器;以及
存储器,存储应用程序,所述应用程序当在所述至少一个处理器上执行时执行操作,所述操作包括:
接收与用户相关联的文件数据以存储在管理服务域中;
应用集成学习模型以基于与所述用户相关联的上下文信息来设计所述文件数据的数据分布技术;
加密所述文件数据;以及
基于所述数据分发技术,通过执行散列变换并应用至少一个循环纠错码,将所述文件数据分割以存储在云计算层、雾计算层和本地计算层之中。
19.根据权利要求18所述的***,其中,所述操作进一步包括:
接收与所述文件数据相关联的数据访问请求;
认证所述数据访问请求;以及
通过解密恢复文件数据。
20.根据权利要求18所述的***,其中,应用集成学习模型包括:
通过将NLP应用于与所述用户相关联的所述上下文信息来导出主题上下文数据。
CN202280036862.2A 2021-06-04 2022-05-13 多层存储基础设施中的数据分发和安全性 Pending CN117396891A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/339,826 2021-06-04
US17/339,826 US12008120B2 (en) 2021-06-04 2021-06-04 Data distribution and security in a multilayer storage infrastructure
PCT/CN2022/092671 WO2022252962A1 (en) 2021-06-04 2022-05-13 Data distribution and security in multilayer storage infrastructure

Publications (1)

Publication Number Publication Date
CN117396891A true CN117396891A (zh) 2024-01-12

Family

ID=84285152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280036862.2A Pending CN117396891A (zh) 2021-06-04 2022-05-13 多层存储基础设施中的数据分发和安全性

Country Status (6)

Country Link
US (1) US12008120B2 (zh)
JP (1) JP2024522983A (zh)
CN (1) CN117396891A (zh)
DE (1) DE112022002919T5 (zh)
GB (1) GB2621799A (zh)
WO (1) WO2022252962A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117834304A (zh) * 2024-03-05 2024-04-05 东方电气风电股份有限公司 自主可控的主控网络安全防护***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12008418B2 (en) * 2021-08-31 2024-06-11 Dell Products L.P. Automated causal analysis of issues affecting workloads executing in an information technology infrastructure

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050226601A1 (en) * 2004-04-08 2005-10-13 Alon Cohen Device, system and method for synchronizing an effect to a media presentation
US8363519B2 (en) * 2006-06-30 2013-01-29 Seagate Technology Llc Hot data zones
US9137304B2 (en) * 2011-05-25 2015-09-15 Alcatel Lucent Method and apparatus for achieving data security in a distributed cloud computing environment
US20150227964A1 (en) * 2014-02-11 2015-08-13 Adobe Systems Incorporated Revenue Estimation through Ensemble Modeling
US10339455B1 (en) * 2014-03-24 2019-07-02 EMC IP Holding Company LLC Techniques for determining workload skew
US20160132908A1 (en) * 2014-11-11 2016-05-12 Mastercard International Incorporated Methods And Apparatus For Transaction Prediction
US10276261B2 (en) * 2014-11-26 2019-04-30 General Electric Company Patient library interface combining comparison information with feedback
US9898170B2 (en) * 2014-12-10 2018-02-20 International Business Machines Corporation Establishing user specified interaction modes in a question answering dialogue
US20160359664A1 (en) * 2015-06-08 2016-12-08 Cisco Technology, Inc. Virtualized things from physical objects for an internet of things integrated developer environment
US10375032B2 (en) * 2016-01-06 2019-08-06 Thomas Lorini System and method for data segmentation and distribution across multiple cloud storage points
US20190079898A1 (en) 2017-09-12 2019-03-14 Actiontec Electronics, Inc. Distributed machine learning platform using fog computing
CN107871164B (zh) 2017-11-17 2021-05-04 浪潮集团有限公司 一种雾计算环境个性化深度学习方法
US11093152B2 (en) * 2019-01-22 2021-08-17 EMC IP Holding Company LLC Automated storage tiering by access pattern detection and temporal trend prediction
US11599577B2 (en) * 2019-10-10 2023-03-07 Seagate Technology Llc System and method for content-hashed object storage
US11481281B2 (en) 2020-06-11 2022-10-25 International Business Machines Corporation Predictive fog computing in an edge device
CN113014649B (zh) 2021-02-26 2022-07-12 山东浪潮科学研究院有限公司 一种基于深度学习的云物联负载均衡方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117834304A (zh) * 2024-03-05 2024-04-05 东方电气风电股份有限公司 自主可控的主控网络安全防护***
CN117834304B (zh) * 2024-03-05 2024-05-03 东方电气风电股份有限公司 自主可控的主控网络安全防护***

Also Published As

Publication number Publication date
US20220391519A1 (en) 2022-12-08
DE112022002919T5 (de) 2024-04-04
GB2621799A (en) 2024-02-21
GB202318576D0 (en) 2024-01-17
WO2022252962A1 (en) 2022-12-08
US12008120B2 (en) 2024-06-11
JP2024522983A (ja) 2024-06-25

Similar Documents

Publication Publication Date Title
US20200082272A1 (en) Enhancing Data Privacy in Remote Deep Learning Services
CN109725980B (zh) 生成镜像标签的方法、设备以及计算机可读介质
US20210064781A1 (en) Detecting and obfuscating sensitive data in unstructured text
WO2022252962A1 (en) Data distribution and security in multilayer storage infrastructure
US11934891B2 (en) APIA configuration using auto-rationalization and modeling
US11270226B2 (en) Hybrid learning-based ticket classification and response
CN116601644A (zh) 使用分布式分类账提供可解释的机器学习模型结果
US20230067574A1 (en) Contextually irrelevant file segmentation
US20210174216A1 (en) Signaling concept drift during knowledge base population
US11841977B2 (en) Training anonymized machine learning models via generalized data generated using received trained machine learning models
AU2020364386B2 (en) Rare topic detection using hierarchical clustering
WO2023160650A1 (en) Synchronizing a sensor network and an ontology
US11449677B2 (en) Cognitive hierarchical content distribution
WO2022257610A1 (en) Cognitive analysis of hierarchical database elements for generation of microservices
US11874730B2 (en) Identifying log anomaly resolution from anomalous system logs
US11893132B2 (en) Discovery of personal data in machine learning models
US11556558B2 (en) Insight expansion in smart data retention systems
US11567835B2 (en) Data protection and recovery
WO2022041996A1 (en) Intelligent backup and restoration of containerized environment
US11558395B2 (en) Restricting access to cognitive insights
US11645558B2 (en) Automatic mapping of records without configuration information
TW202301832A (zh) 使用基於用戶互動歷史之模型來增強移動設備中之驗證
US11699082B2 (en) Multi-dimensional record correlations
CN116888584A (zh) 数据集成背景中的标准化
US20200097883A1 (en) Dynamically evolving textual taxonomies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination