CN117056060A - 一种基于深度学习的大数据信息处理方法 - Google Patents

一种基于深度学习的大数据信息处理方法 Download PDF

Info

Publication number
CN117056060A
CN117056060A CN202311317069.2A CN202311317069A CN117056060A CN 117056060 A CN117056060 A CN 117056060A CN 202311317069 A CN202311317069 A CN 202311317069A CN 117056060 A CN117056060 A CN 117056060A
Authority
CN
China
Prior art keywords
data
host server
cloud
model
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311317069.2A
Other languages
English (en)
Other versions
CN117056060B (zh
Inventor
王文雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youtejie Information Technology Co ltd
Original Assignee
Beijing Youtejie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youtejie Information Technology Co ltd filed Critical Beijing Youtejie Information Technology Co ltd
Priority to CN202311317069.2A priority Critical patent/CN117056060B/zh
Publication of CN117056060A publication Critical patent/CN117056060A/zh
Application granted granted Critical
Publication of CN117056060B publication Critical patent/CN117056060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于深度学习的大数据信息处理方法,在主机服务器和云服务器之间进行大数据信息处理,利用云上部署的分布式计算模型MapReduce,对主机服务器发布的大数据处理任务进行分布处理,避免Hadoop集群结构的分布网络所导致的技术缺陷,不需要若干物理分机和交换机,大大节省分布计算网络架构成本和时间,利用分布式计算模型MapReduce,可以提高大数据的处理速度,降低主机服务器的运行压力和提高对大数据的响应需求。在云上还利用了特征模型对大数据的数据块进行特征提取和排名,根据排名进行分布计算,可以按照特征价值排名,进一步细化大数据计算结果的应用程度,为企业等用户提供具有高价值的商业数据信息。

Description

一种基于深度学习的大数据信息处理方法
技术领域
本公开涉及大数据应用技术领域,尤其涉及一种基于深度学习的大数据信息处理方法、***和电子设备。
背景技术
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
随着大数据的不断涌现,对多维度信息的分析、排名和有价值提取变得至关重要,从大数据中进行有价值的数据挖掘和分析,能够将大数据最大化地转换,为企业等用户提供具有高价值的商业数据信息。
大数据的信息处理流程,一般分为以下步骤:
1.数据采集:采集需要分析的数据,通常包括结构化数据、半结构化数据和非结构化数据;
2.数据清洗: 对采集到的数据进行处理和清洗、去重等问题;
3.数据转换:将数据转换成适合分析的格式;
4.数据挖掘:使用统计学方法和算法,从数据中找出有用的信息、模式和趋势;
5.数据分析:对挖掘到的数据进行分析,从而得出有用的信息和结论,并给出基于数据的建议和解决方案;
6.数据应用: 将分析结果应用数据计算和共享等等。
然而,对于有价值的大数据情报,需要结合数据特征提取方式,进行有用的信息数据提取,若是需要深度分析和挖掘数据信息,还需要深入数据细节进行把控和数据处理把控:
一方面需要考虑到大数据处理流程的分析模型所带来的数据处理响应效率和成本,对有用、有价值的信息进行细化提取,排除低价值甚至无价值的信息,降低数据容量。
另一方面需要考虑到硬软件对大数据处理的支持能力。但是现有企业等用户部署的数据服务器,对海量的大数据处理,为了降低硬软件成本,基本是采用若干台低成本的服务器进行处理,比如采用附图1所示的普通Hadoop集群结构的分布网络进行大数据分布计算,Hadoop集群结构的分布网络之间通过光纤高速交换机完成彼此的连接与交互,每个机架(Rack) 有30-40个服务器,配置一个1GB的交换机,并向上连接到一个核心交换机或者路由器 (1GB或以上)。虽然Hadoop集群结构的分布网络可以将大数据处理任务进行分散处理,降低主机的运算压力,但是也会造成如下问题:
一是海量低成本的服务器分机,性能低下,运算速度低,分机总控成本占比大;二是主机对各个分机的数据调度存在过于分散、调度繁琐、总耗时大的问题;三是运算的数据量能力优先,当文件过大时,上下数据传输非常消耗时间。
发明内容
为了解决上述问题,本申请提出一种基于深度学习的大数据信息处理方法、***和电子设备。
本申请一方面,提出一种基于深度学习的大数据信息处理方法,基于主机服务器和云服务器之间的数据交互进行实现,包括如下步骤:
在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
按照特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
作为本申请的一可选实施方案,可选地,所述分布式计算模型优选MapReduce。
作为本申请的一可选实施方案,可选地,生成所述分布式计算模型的云计算名单CCL,包括:
预设云计算格式名单;
记录各个分布式部署的所述计算模型的模型ID,并将各个分布式部署的所述计算模型的模型ID依次写入所述云计算格式名单;
由所述云服务器对所述云计算格式名单进行身份统计和识别之后,保存为所述分布式计算模型的云计算名单CCL。
作为本申请的一可选实施方案,可选地,建立主机服务器和所述云服务器之间的访问通信,包括:
所述主机服务器向所述云服务器发起建立大数据交互通信链路的访问请求,其中,所述访问请求中包含所述主机服务器的主机身份信息、安全地址信息和待处理的大数据M的数据领域;
所述云服务器接收并解析所述访问请求,对所述主机服务器进行验证,判断:
(1)所述主机服务器的主机身份信息是否合格;
(2)所述主机服务器的安全地址信息是否具备地址安全认证;
(3)所述主机服务器的待处理的大数据M的数据领域,是否符合自身的云技术服务领域;
若(1)~(3)皆满足,则向所述主机服务器发出接收所述访问请求的反馈信息;
所述主机服务器根据所述云服务器的反馈信息,基于IP协议建立与所述云服务器之间的大数据交互通信链路。
作为本申请的一可选实施方案,可选地,将所述云计算名单CCL备份至所述主机服务器,包括:
所述云服务器向所述主机服务器发出备份所述云计算名单CCL的通告,并判断在预定时间内是否收到所述主机服务器的反馈:
若在预定时间内收到所述主机服务器的接收反馈,则将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
作为本申请的一可选实施方案,可选地,将所述云计算名单CCL备份至所述主机服务器,还包括:
若在预定时间内未收到所述主机服务器的接收反馈,则向所述主机服务器发出大数据领域合格通告,同时将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
作为本申请的一可选实施方案,可选地,将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名,包括:
所述云服务器接收所述数据块{m1,m2,m3......},并将所述数据块{m1,m2,m3......}中的各个数据块随机导入预先部署的深度学习模型;
利用所述深度学习模型,对各个数据块进行数据特征提取,提取得到各个数据块的数据特征p;
使用对应所述深度学习模型的特征重要性评估工具,对各个数据块的所述数据特征p进行特征排名,得到各个数据块的特征排名序列Mp。
作为本申请的一可选实施方案,可选地,按照排名,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器,包括:
读取所述特征排名序列Mp,将所述特征排名序列Mp按照阶梯式排列,得到若干呈阶梯分布的排名子序列Mp0;
将各个所述排名子序列Mp0分发于所述分布式计算模型,让各个分布式部署的所述计算模型,分别处理一个所述排名子序列Mp0对应的所述数据块;
各个所述计算模型分别输出对应所述数据块的数据处理结果,并将所述数据处理结果与所述计算模型的模型ID进行绑定,用于后续所述数据块的追踪查询处理;
由所述云服务器收集本次所有的所述数据处理结果,并按照所述特征排名序列Mp,有序反馈至所述主机服务器。
本申请另一方面,提出一种实现所述基于深度学习的大数据信息处理方法的***,包括:
云计算模型构建模块,用于在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
访问通信建立模块,用于建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
分类模块,用于将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
排名模块,用于将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
分布计算模块,用于按照所述特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
本申请另一方面,还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的一种基于深度学习的大数据信息处理方法。
本发明的技术效果:
本申请在主机服务器和云服务器之间进行大数据信息处理,利用云上部署的分布式计算模型MapReduce,对主机服务器发布的大数据处理任务进行分布处理,整个大数据处理过程在主机服务器和云服务器之间进行,避免了Hadoop集群结构的分布网络所导致的技术缺陷,不需要若干物理分机和交换机,大大节省分布计算网络架构成本和时间,利用云技术的分布式计算模型MapReduce,可以大大提高大数据的处理速度,大大降低主机服务器的运行压力和提高对大数据的响应需求。本方案在云上还利用了特征模型对大数据的数据块进行特征提取和排名,根据排名进行分布计算,可以按照特征价值排名,有序安排计算模型,将有价值的数据特征的计算结果优选输出,按照使得大数据按照特征排名进行输出和应用,进一步细化大数据计算结果的应用程度,最优化利用大数据的处理结果,为企业等用户提供具有高价值的商业数据信息。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为现有Hadoop集群结构的脚骨示意图;
图2示出为本发明的实施流程示意图;
图3示出为本发明主机服务器和云服务器之间的应用组成示意图;
图4示出为本发明建立通信链路的流程图;
图5示出为本发明利用深度学习模型进行大数据处理的模型应用示意图;
图6示出为本发明电子设备的应用示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图2所示,本申请一方面,提出一种基于深度学习的大数据信息处理方法,基于主机服务器和云服务器之间的数据交互进行实现,包括如下步骤:
S1、在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
S2、建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
S3、将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
S4、将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
S5、按照特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
本申请在主机服务器和云服务器之间进行大数据信息处理,利用云上部署的分布式计算模型MapReduce,对主机服务器发布的大数据处理任务进行分散处理,整个大数据处理过程在主机服务器和云服务器之间进行,同时通过云上的特征模型对大数据的数据块进行特征提取和排名,根据排名进行分布计算,进一步细化大数据计算结果的应用程度,最优化利用大数据的处理结果。
下面将具体描述各个步骤。
如图3所示,作为本申请的一可选实施方案,可选地,所述分布式计算模型优选MapReduce。
MapReduce在云计算中的优势:
MapReduce可以将数据分解成小的块,并在多个计算节点上并行处理这些数据块,从而实现分布式计算。这种分布式计算方式可以大大加快处理速度,并且可以处理大规模的数据集。由于MapReduce采用了分布式计算方式,因此可以轻松地增加或减少计算节点来实现水平扩展,从而可以处理更大规模的数据集,可以通过多个低成本的计算节点来完成计算任从而降低计管成本。
因此优选MapReduce作为云上分布式计算模型,用于执行主机服务器下发的大数据处理任务。
作为本申请的一可选实施方案,可选地,生成所述分布式计算模型的云计算名单CCL,包括:
预设云计算格式名单;
记录各个分布式部署的所述计算模型的模型ID,并将各个分布式部署的所述计算模型的模型ID依次写入所述云计算格式名单;
由所述云服务器对所述云计算格式名单进行身份统计和识别之后,保存为所述分布式计算模型的云计算名单CCL。
分布式计算模型由若干个分布部署的计算模型组网构成,在云服务器上进行分布式部署。为了便于云服务器对各个分布部署的计算模型进行管理和任务分配,以及包括后续数据块的处理结果的统一采集和数据反馈,由云服务器来统计各个计算模型的模型ID,各个计算模型的模型ID可以在部署之时由云服务器进行记录,并保存在云服务器上预设的云计算格式名单中。
云计算格式名单,即一份统计各个计算模型的模型ID的清单,可以将各个计算模型的模型ID写入该格式名单中。当模型部署之后,由云服务器将各个模型的模型ID依次写入,由云服务器的后台管理员对该名单上的模型ID进行统计和识别,判断所有的部署模型的模型ID是否都已经写入该名单之中,并判断各个模型的模型身份以及模型属性等等是否正确部署到位,若审核通过,则将该名单保存在云上,将其储存为分布式计算模型的云计算名单CCL,后续云服务器可以基于该云计算名单CCL,按照模型ID对各个模型进行模型部署和模型管理,包括对后续各个分布部署的计算模型的模型计算结果进行绑定和数据处理结果的调取。
作为本申请的一可选实施方案,可选地,建立主机服务器和所述云服务器之间的访问通信,包括:
所述主机服务器向所述云服务器发起建立大数据交互通信链路的访问请求,其中,所述访问请求中包含所述主机服务器的主机身份信息、安全地址信息和待处理的大数据M的数据领域;
所述云服务器接收并解析所述访问请求,对所述主机服务器进行验证,判断:
(1)所述主机服务器的主机身份信息是否合格;
(2)所述主机服务器的安全地址信息是否具备地址安全认证;
(3)所述主机服务器的待处理的大数据M的数据领域,是否符合自身的云技术服务领域;
若(1)~(3)皆满足,则向所述主机服务器发出接收所述访问请求的反馈信息;
所述主机服务器根据所述云服务器的反馈信息,基于IP协议建立与所述云服务器之间的大数据交互通信链路。
如图4所示,本方案,发布大数据处理任务在主机服务器上,由主机服务器按照地址向云服务器发起通信访问请求。云服务器对访问请求进行解析,获得主机服务器的身份信息以及地址信息和主机服务器待处理的大数据的数据处理领域,由云服务器来对主机服务器访问请求中的身份信息、地址信息以及数据领域进行验证,判断三个信息是否符合云服务器的要求:若是身份合格、地址具有安全认证、主机服务器待处理的大数据领域为当前云服务器所适配的处理领域,则可以由云服务器向主机服务器发出接收访问请求的反馈。主机服务器收到反馈之后,可以基于IP通信协议与云服务器建立通信***,通过所构建的大数据交互通信链路进行后续的大数据任务下达,包括大数据处理结果的响应反馈。
基于该大数据交互通信链路,主机服务器还可以实时的向云服务器提出大数据处理进程的查看,可以由云服务器按照模型ID将各个模型的进度进行收集,并将进度统计为进度表,并反馈给主机服务器,由主机服务器按照进度表实现对云服务器的大数据处理进度监督,以此来提高监督效率。
作为本申请的一可选实施方案,可选地,将所述云计算名单CCL备份至所述主机服务器,包括:
所述云服务器向所述主机服务器发出备份所述云计算名单CCL的通告,并判断在预定时间内是否收到所述主机服务器的反馈:
若在预定时间内收到所述主机服务器的接收反馈,则将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
云服务器可以向主机服务器发出是否备份云计算名单CCL的通告,让主机服务器备份该云计算名单CCL,可以让主机服务器同时查看到各个计算模型的模型ID,同时根据名单看到各个计算模型ID所对应的计算模型的处理任务,该计算名单后续将由云服务器在分配对应的数据块处理任务之后,同时将各个计算模型所执行的数据块信息同步写入各个计算模型ID之下,以此可以让主机服务器实时查看各个处理计算模型所处理的数据块信息,让主机管理员了解到各个计算模型所处理的数据块为大数据中的哪一个类别,便于主机服务器详细查看各个计算模型的云计算工作。
同时也便于主机服务器根据该云计算名单与云服务器上的云计算名单进行任务对比,包括计算数据和任务同步,便于主机服务器与云服务器之间进行数据核对、统一管理。
作为本申请的一可选实施方案,可选地,将所述云计算名单CCL备份至所述主机服务器,还包括:
若在预定时间内未收到所述主机服务器的接收反馈,则向所述主机服务器发出大数据领域合格通告,同时将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
云服务器发出通告之后,需要判断主机服务器是否在预定的时间之内接收该通告,并向云服务器发出反馈响应。
若是在预定的时间内,主机服务器发出反馈,则获取到该云计算名单CCR,并保存在主机服务器的数据库中。若是在规定的时间之内没有收到主机服务器向云服务器反馈信息,则云服务器主动向主机服务器发出大数据领域合格通告,并将该名单共享至主主机服务器。
当然,如果是前面验证,发现主机服务器的大数据技术领域不符合云服务器的要求,则云服务器直接拒绝放弃。
采用云服务器主动通告并根据技术领域合格进行主动共享的方式,可以为云服务器提供进一步的经济效益。
在上述安全通信建立之后,将由主机服务器开始执行大数据处理任务。
如图5所示,为本方案模型的数据处理***示意图。
本方案首先由主机服务器对大数据进行分类,再发布处理人员至云服务器,由云服务器对分类的数据块{m1,m2,m3......}进行分布计算,以此让云服务器按照主机服务器的分类要求,进行大数据分类计算,按照分类要求进行大数据结果反馈,以此符合主机的预期。通过主机的预先分类,可以让云服务器明确知道各类数据块{m1,m2,m3......}的数据性质,避免云服务器再次大数据分类工作进行分类处理,盲目进行任务分配、模型分布计算,也便于主机后续对大数据按照分类进行数据分析。
S3、将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
主机服务器可以将待处理的大数据M预先进行分类,便于按照分类对大数据M进行分类管理和结果统计,降低大数据的管理难度。
可以采用机器学习模型中的分类模型,比如文本分类或者图像分类等等,对待处理的大数据M预先进行分类,可以将待处理的大数据M分类为若干数据属性的数据块{m1,m2,m3......}。
比如对于商业购物大数据,按照用户画像或者购买行为或者复购的购物行为属性,将商业购物大数据分为不同购物行为属性的数据块,得到{短期购物人群,中期购物人群,长期购物人群,无意向购物人群......}。
分类模型可以由主机管理员根据大数据M的数据类型具体设定。
作为本申请的一可选实施方案,可选地,将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名,包括:
所述云服务器接收所述数据块{m1,m2,m3......},并将所述数据块{m1,m2,m3......}中的各个数据块随机导入预先部署的深度学习模型;
利用所述深度学习模型,对各个数据块进行数据特征提取,提取得到各个数据块的数据特征p;
使用对应所述深度学习模型的特征重要性评估工具,对各个数据块的所述数据特征p进行特征排名,得到各个数据块的特征排名序列Mp。
主机服务器在将大数据分类之后,可以将数据块儿发送至云服务器,向云服务器下达对数据块的数据处理任务。
云服务器对数据处理任务进行执行,将各个数据块分布发送至各个分布是部署的计算模型进行数据计算。在云服务器分配数据任务之时,可以利用预先部署的深度学习模型,比如说卷积神经网络或者是循环神经网络,对各个数据库进行数据特征提取,得到各个数据库的数据特征。本处采用随机导入深度学习模型比如RNN模型的随机导入方式,可以避免因数据块集中而出现数据不分散的情况。因此采用随机导入的方式可以提高数据的分布性。
在利用深度学习模型比如RNN模型进行数据特征提取的方式,可以具体参考RNN神经网络的应用原理,本实施例不做赘述。
在提取得到各个数据块的数据特征之后,本方案为了按照有价值以及特征重要性的方式,对大数据的各个数据块进行有序处理,优先提取具有高价值的数据特征所对应的数据信息,采用特征重要评性评估工具,对各个数据库儿的数据特征进行特征排名。
本方案采用模型的特征重要性评估工具,比如说随机森林、梯度提升等特征重要性排名工具,对各个数据库的数据特征进行特征排名,以此可以得到各个数据库的特征排名序列,依据该特征排名序列可以快速识别并了解到各个数据块中的数据重要性,按照各个数据库的数据特征的排名,可以让管理员知道各个数据块的所包含的数据特征的重要性,便于按照排名所体现出来的特征重要性,有序对各个数据块中的信息进行有价值信息提取,越排名靠前,表明对应数据块中包含的数据信息越具有价值,优先提取这部分数据块的信息。
对于具体的数据库的价值信息的提取,可以在主机服务器下达任务之时,将对数据提取的要素、指标和要求等等,同步下发给云服务器,让云服务器按照主机服务器的要素、指标和要求提取相应的有价值信息。
作为本申请的一可选实施方案,可选地,按照排名,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器,包括:
读取所述特征排名序列Mp,将所述特征排名序列Mp按照阶梯式排列,得到若干呈阶梯分布的排名子序列Mp0;
将各个所述排名子序列Mp0分发于所述分布式计算模型,让各个分布式部署的所述计算模型,分别处理一个所述排名子序列Mp0对应的所述数据块;
各个所述计算模型分别输出对应所述数据块的数据处理结果,并将所述数据处理结果与所述计算模型的模型ID进行绑定,用于后续所述数据块的追踪查询处理;
由所述云服务器收集本次所有的所述数据处理结果,并按照所述特征排名序列Mp,有序反馈至所述主机服务器。
后续云服务器安排各个计算模型对排名的各个数据块进行具体的数据块分析,将排名成阶梯式排列,优先按照阶梯排名,进行上一步阶梯排名的数据库的分配计算,优先得到对应的数据块处理信息。比如说可以按照1,3,5,7......的阶梯式排列,首先将排名第一阶梯的第一个数据块,优先进行数据处理,再将第二阶梯的“2、3、4”三个数据块,安排三个计算模型进行第二阶梯的数据块数据处理;以此类推。
在各个计算模型分别处理之后,按照同样的按照上述的排名,云服务器采集各个计算模型所处理的结果,并将各个计算模型的处理数据处理结果与各个计算模型的模型ID进行绑定,便于对各个计算模型的数据处理结果进行统一管理。同时方便若是发现数据处理错误的时候,可以按照该模型ID对出现错误的计算模型进行追踪查询处理,以此快速定位,找到出现错误的计算模型,为后续的数据维检提供追踪查询功能。
云服务器收集到所有的计算结果之后,然后将计算结果反馈给主机服务器,主机服务器再按照分类对各个计算结构进行聚合,得到本次大数据的处理结果。
可以按照本方法,得到不同数据块的有价值信息提取,并按照排名的前后顺序,从有最有价值的信息开始读取,以此实现,大数据处理的最优化。
因此,本申请通过在主机和云服务器之间进行分布、特征排名计算,避免了Hadoop集群结构的分布网络所导致的技术缺陷,不需要若干物理分机和交换机,大大节省分布计算网络架构成本和时间,利用云技术的分布式计算模型MapReduce,可以大大提高大数据的处理速度,大大降低主机服务器的运行压力和提高对大数据的响应需求。本方案在云上还利用了特征模型对大数据的数据块进行特征提取和排名,根据排名进行分布计算,可以按照特征价值排名,有序安排计算模型,将有价值的数据特征的计算结果优选输出,按照使得大数据按照特征排名进行输出和应用,进一步细化大数据计算结果的应用程度,最优化利用大数据的处理结果,为企业等用户提供具有高价值的商业数据信息。
分布式计算模型MapReduce,可以参考现有技术中对MapReduce的技术应用描述。
显然,本领域的技术人员应该明白,实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制的实施例的流程。本领域技术人员可以理解,实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例2
基于实施例1的实施原理,本申请另一方面,提出一种实现所述基于深度学习的大数据信息处理方法的***,包括:
云计算模型构建模块,用于在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
访问通信建立模块,用于建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
分类模块,用于将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
排名模块,用于将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
分布计算模块,用于按照所述特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
上述各个模块的功能和交互过程以及原理,详见实施例1的描述,本实施例不再赘述。
上述的本发明的各模块或各步骤可以用通用的计算***来实现,它们可以集中在单个的计算***上,或者分布在多个计算***所组成的网络上,可选地,它们可以用计算***可执行的程序代码来实现,从而,可以将它们存储在存储***中由计算***来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
实施例3
如图6所示,更进一步地,本申请另一方面,还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的一种基于深度学习的大数据信息处理方法。
本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面任一所述的一种基于深度学习的大数据信息处理方法。
此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的电子设备中,还可以包括输入***和输出***。其中,处理器、存储器、输入***和输出***之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器作为一计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种基于深度学习的大数据信息处理方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行电子设备的各种功能应用及数据处理。
输入***可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出***可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种基于深度学习的大数据信息处理方法,基于主机服务器和云服务器之间的数据交互进行实现,其特征在于,包括如下步骤:
在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
按照特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
2.根据权利要求1所述的基于深度学习的大数据信息处理方法,其特征在于,所述分布式计算模型优选MapReduce。
3.根据权利要求1所述的基于深度学习的大数据信息处理方法,其特征在于,生成所述分布式计算模型的云计算名单CCL,包括:
预设云计算格式名单;
记录各个分布式部署的所述计算模型的模型ID,并将各个分布式部署的所述计算模型的模型ID依次写入所述云计算格式名单;
由所述云服务器对所述云计算格式名单进行身份统计和识别之后,保存为所述分布式计算模型的云计算名单CCL。
4.根据权利要求1所述的基于深度学习的大数据信息处理方法,其特征在于,建立主机服务器和所述云服务器之间的访问通信,包括:
所述主机服务器向所述云服务器发起建立大数据交互通信链路的访问请求,其中,所述访问请求中包含所述主机服务器的主机身份信息、安全地址信息和待处理的大数据M的数据领域;
所述云服务器接收并解析所述访问请求,对所述主机服务器进行验证,判断:
(1)所述主机服务器的主机身份信息是否合格;
(2)所述主机服务器的安全地址信息是否具备地址安全认证;
(3)所述主机服务器的待处理的大数据M的数据领域,是否符合自身的云技术服务领域;
若(1)~(3)皆满足,则向所述主机服务器发出接收所述访问请求的反馈信息;
所述主机服务器根据所述云服务器的反馈信息,基于IP协议建立与所述云服务器之间的大数据交互通信链路。
5.根据权利要求4所述的基于深度学习的大数据信息处理方法,其特征在于,将所述云计算名单CCL备份至所述主机服务器,包括:
所述云服务器向所述主机服务器发出备份所述云计算名单CCL的通告,并判断在预定时间内是否收到所述主机服务器的反馈:
若在预定时间内收到所述主机服务器的接收反馈,则将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
6.根据权利要求5所述的基于深度学习的大数据信息处理方法,其特征在于,将所述云计算名单CCL备份至所述主机服务器,还包括:
若在预定时间内未收到所述主机服务器的接收反馈,则向所述主机服务器发出大数据领域合格通告,同时将所述云计算名单CCL共享至所述主机服务器;
所述主机服务器接收并读取所述云计算名单CCL,获得各个分布式部署的所述计算模型的模型ID,并保存在主机数据库中。
7.根据权利要求1所述的基于深度学习的大数据信息处理方法,其特征在于,将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名,包括:
所述云服务器接收所述数据块{m1,m2,m3......},并将所述数据块{m1,m2,m3......}中的各个数据块随机导入预先部署的深度学习模型;
利用所述深度学习模型,对各个数据块进行数据特征提取,提取得到各个数据块的数据特征p;
使用对应所述深度学习模型的特征重要性评估工具,对各个数据块的所述数据特征p进行特征排名,得到各个数据块的特征排名序列Mp。
8.根据权利要求7所述的基于深度学习的大数据信息处理方法,其特征在于,按照排名,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器,包括:
读取所述特征排名序列Mp,将所述特征排名序列Mp按照阶梯式排列,得到若干呈阶梯分布的排名子序列Mp0;
将各个所述排名子序列Mp0分发于所述分布式计算模型,让各个分布式部署的所述计算模型,分别处理一个所述排名子序列Mp0对应的所述数据块;
各个所述计算模型分别输出对应所述数据块的数据处理结果,并将所述数据处理结果与所述计算模型的模型ID进行绑定,用于后续所述数据块的追踪查询处理;
由所述云服务器收集本次所有的所述数据处理结果,并按照所述特征排名序列Mp,有序反馈至所述主机服务器。
9.一种实现权利要求1-8中任一项所述基于深度学习的大数据信息处理方法的***,其特征在于,包括:
云计算模型构建模块,用于在云服务器上构建分布式计算模型,并生成所述分布式计算模型的云计算名单CCL;
访问通信建立模块,用于建立主机服务器和所述云服务器之间的访问通信,并将所述云计算名单CCL备份至所述主机服务器;
分类模块,用于将待处理的大数据M导入所述主机服务器,利用所述主机服务器上预先部署的分类模型,对所述大数据进行信息分类,得到若干不同信息性质的数据块{m1,m2,m3......};
排名模块,用于将所述数据块{m1,m2,m3......}发送至所述云服务器,由所述云服务器对所述数据块{m1,m2,m3......}中各个数据块的数据特征p进行排名;
分布计算模块,用于按照所述特征排名序列,将各个数据块分发于所述分布式计算模型,进行数据处理,并由所述云服务器将处理结果按序反馈至所述主机服务器。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1-8中任一项所述的基于深度学习的大数据信息处理方法。
CN202311317069.2A 2023-10-12 2023-10-12 一种基于深度学习的大数据信息处理方法 Active CN117056060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311317069.2A CN117056060B (zh) 2023-10-12 2023-10-12 一种基于深度学习的大数据信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311317069.2A CN117056060B (zh) 2023-10-12 2023-10-12 一种基于深度学习的大数据信息处理方法

Publications (2)

Publication Number Publication Date
CN117056060A true CN117056060A (zh) 2023-11-14
CN117056060B CN117056060B (zh) 2024-01-09

Family

ID=88663131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311317069.2A Active CN117056060B (zh) 2023-10-12 2023-10-12 一种基于深度学习的大数据信息处理方法

Country Status (1)

Country Link
CN (1) CN117056060B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833516A (zh) * 2012-08-23 2012-12-19 深圳先进技术研究院 基于云计算的智能头盔网络***及其视频信息处理方法
WO2014169381A1 (en) * 2013-04-18 2014-10-23 International Business Machines Corporation Extending infrastructure security to services in a cloud computing environment
CN111857523A (zh) * 2020-08-04 2020-10-30 吉林师范大学 一种计算机大数据处理的采集方法、***、设备及介质
CN112073499A (zh) * 2020-09-02 2020-12-11 浪潮云信息技术股份公司 一种多机型云物理服务器的动态服务方法
CN116302574A (zh) * 2023-05-23 2023-06-23 北京前景无忧电子科技股份有限公司 一种基于MapReduce的并发处理方法
CN116431282A (zh) * 2023-03-29 2023-07-14 度小满科技(北京)有限公司 一种云虚拟主机服务器管理方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833516A (zh) * 2012-08-23 2012-12-19 深圳先进技术研究院 基于云计算的智能头盔网络***及其视频信息处理方法
WO2014169381A1 (en) * 2013-04-18 2014-10-23 International Business Machines Corporation Extending infrastructure security to services in a cloud computing environment
CN111857523A (zh) * 2020-08-04 2020-10-30 吉林师范大学 一种计算机大数据处理的采集方法、***、设备及介质
CN112073499A (zh) * 2020-09-02 2020-12-11 浪潮云信息技术股份公司 一种多机型云物理服务器的动态服务方法
CN116431282A (zh) * 2023-03-29 2023-07-14 度小满科技(北京)有限公司 一种云虚拟主机服务器管理方法、装置、设备及存储介质
CN116302574A (zh) * 2023-05-23 2023-06-23 北京前景无忧电子科技股份有限公司 一种基于MapReduce的并发处理方法

Also Published As

Publication number Publication date
CN117056060B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN102929961A (zh) 基于构建快速数据分级通道的数据处理方法及其装置
CN102694868A (zh) 一种集群***实现及任务动态分配方法
CN101964795A (zh) 日志采集***、日志采集方法和日志回收服务器
Kamal et al. FbMapping: An automated system for monitoring Facebook data
CN110071965B (zh) 一种基于云平台的数据中心管理***
CN109189578B (zh) 存储服务器分配方法、装置、管理服务器以及存储***
CN111522786A (zh) 日志处理***及方法
CN101902497A (zh) 基于云计算的互联网信息监测***及方法
CN105871957A (zh) 监控框架设计方法和监控服务器、代理单元、中控服务器
CN109196807A (zh) 网络节点以及操作网络节点以进行资源分发的方法
CN113688490A (zh) 网络共建共享处理方法、装置、设备及存储介质
WO2021027331A1 (zh) 基于图数据的全量关系计算方法、装置、设备及存储介质
CN107579858A (zh) 云主机的告警方法及装置、通信***
CN101751297A (zh) 一种可承受大量用户登录的信息***及实现方法
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN117056060B (zh) 一种基于深度学习的大数据信息处理方法
CN112307247B (zh) 一种分布式人脸检索***及方法
CN110839061B (zh) 数据分发方法、装置及存储介质
CN109669777B (zh) 工业互联网大数据元需求服务提供方法与***
CN105704173B (zh) 一种集群***数据分布方法及服务器
CN112988829A (zh) 一种大数据分析处理***
CN109992614A (zh) 数据获取方法、装置和服务器
CN113244629B (zh) 流失帐号的召回方法和装置、存储介质及电子设备
CN114356051A (zh) 一种基于云计算及云服务器的电子信息储存技术方法研究
Xiao et al. YISHAN: Managing large-scale cloud database instances via machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant