CN112698988A - 一种基于分布式***的解析超大文本文件处理方法 - Google Patents

一种基于分布式***的解析超大文本文件处理方法 Download PDF

Info

Publication number
CN112698988A
CN112698988A CN202011603232.8A CN202011603232A CN112698988A CN 112698988 A CN112698988 A CN 112698988A CN 202011603232 A CN202011603232 A CN 202011603232A CN 112698988 A CN112698988 A CN 112698988A
Authority
CN
China
Prior art keywords
data
processing
sample
memory
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011603232.8A
Other languages
English (en)
Other versions
CN112698988B (zh
Inventor
李立强
吴福全
王淋淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Dike Digital Gold Technology Co ltd
Original Assignee
Anhui Dike Digital Gold Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Dike Digital Gold Technology Co ltd filed Critical Anhui Dike Digital Gold Technology Co ltd
Priority to CN202011603232.8A priority Critical patent/CN112698988B/zh
Publication of CN112698988A publication Critical patent/CN112698988A/zh
Application granted granted Critical
Publication of CN112698988B publication Critical patent/CN112698988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式***的解析超大文本文件处理方法,获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;对解析分布数据进行分布式分析,得到分布分析数据;根据分布分析数据对样本数据进行划分和分配,得到样本分配集;对样本分配集进行分布式处理,得到样本处理集;将样本处理集进行组合,得到样本解析集;本发明用于解决不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

Description

一种基于分布式***的解析超大文本文件处理方法
技术领域
本发明涉及分布式技术领域,尤其涉及一种基于分布式***的解析超大文本文件处理方法。
背景技术
当计算机的程序和数据通过网络分布在多于一个的计算机上时,计算就成为“分布式的”。以前的计算通常是由计算中心完成的,尽管仍存在这样的计算中心,大小企业却逐渐将应用程序移至(分布到)企业中能最有效地完成计算的地点进行,通常是桌面工作站、局域网服务器、部门服务器、Web服务器和其他服务器的混合。比较流行的是客户/服务器模式,客户机只具有一定的功能,其他的功能需要从提供服务的服务器那里获得。HTTP协议就是一个例子。在分布式计算环境中,数据的存储和处理可在本地工作站上进行;
超大文本文件(如几十G的txt文件)解析,传统技术容易出现OOM问题,通过分布式***可以解决超大文本文件处理的弊端,但仍然存在一定的缺陷。
现有的解析超大文本文件处理方法存在的缺陷是:不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。
发明内容
本发明的目的在于提供一种基于分布式***的解析超大文本文件处理方法,本发明所要解决的技术问题为:
如何解决现有方案中不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。
本发明的目的可以通过以下技术方案实现:一种基于分布式***的解析超大文本文件处理方法,具体的步骤包括:
S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S2:对解析分布数据进行分布式分析,得到分布分析数据;
S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;
S4:对样本分配集进行分布式处理,得到样本处理集;
S5:将样本处理集进行组合,得到样本解析集。
优选的,对解析分布数据进行分布式分析,得到分布分析数据,包括:
S21:获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S22:设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;
S23:获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;
S24:获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;
S25:利用公式获取若干个主机的实运值,该公式为:
Figure BDA0002871966210000031
其中,Qsy表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;
S26:将若干个实运值进行降序排列得到实运排序集;
S27:将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据。
优选的,根据分布分析数据对样本数据进行划分和分配,得到样本分配集,包括:
S31:获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存;
S32:利用公式获取若干个主机的划分值,该公式为:
Figure BDA0002871966210000032
其中,Qhf表示为划分值,β表示为预设的划分修正因子,a1、a2表示为预设的不同比例系数;
S33:将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;
S34:获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;
S35:获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;
S36:将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集。
优选的,对样本分配集进行分布式处理,得到样本处理集,包括:
S41:获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;
S42:获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;
S43:根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储存储和更新未存储内存;
S44:将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;
S45:将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集。
优选的,将样本处理集进行组合,得到样本解析集,包括:
将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联,并将若干个样本解析数据根据降序排列的标号进行组合,得到样本解析集。
本发明的有益效果:
本发明公开的若干个方面,获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;通过采集样本数据和解析分布数据并进行处理,从节点主机的类型、处理速率、处理内存和存储内存以及状态等方面综合考虑主机的处理能力,为样本数据的拆分和分配提供了数据支撑;
对解析分布数据进行分布式分析,得到分布分析数据;通过对解析分布数据进行分析,获取各个节点主机的工作状态和处理能力,便于对不同节点的主机分配不同大小的样本数据来提高整体数据的处理效果;可以达到根据分布主机的工作状态和工作能力进行针对性分发数据和处理,消除整体的数据受到节点主机的影响进而使得数据的处理效率提升的目的;
根据分布分析数据对样本数据进行划分和分配,得到样本分配集;对样本分配集进行分布式处理,得到样本处理集;将样本处理集进行组合,得到样本解析集;通过将样本数据根据各个节点主机进行匹配和划分,经过分布式节点主机处理后将数据进行备份和组合,可以将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的目的。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明一种基于分布式***的解析超大文本文件处理方法的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于分布式***的解析超大文本文件处理方法,具体的步骤包括:
S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
本发明实施例中,样本数据为超大文本文件,解析分布数据为若干个节点的主机信息,包含主机的类型、处理速率、处理内存、存储内存和状态方面数据;
S2:对解析分布数据进行分布式分析,得到分布分析数据;包括:
获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;
获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;
获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;
利用公式获取若干个主机的实运值,该公式为:
Figure BDA0002871966210000071
其中,Qsy表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;
将若干个实运值进行降序排列得到实运排序集;
将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据;
S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;包括:
获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存;
利用公式获取若干个主机的划分值,该公式为:
Figure BDA0002871966210000072
其中,Qhf表示为划分值,β表示为预设的划分修正因子,a1、a2表示为预设的不同比例系数;
将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;
获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;
获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;
将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集;
S4:对样本分配集进行分布式处理,得到样本处理集;包括:
获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;
获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;
根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储存储和更新未存储内存;
将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;
将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集;
S5:将样本处理集进行组合,得到样本解析集,包括:
将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联,并将若干个样本解析数据根据降序排列的标号进行组合,得到样本解析集;
上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式,公式中的系数是由本领域技术人员根据实际情况进行设置。
本发明的工作原理:本发明实施例中,获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;通过采集样本数据和解析分布数据并进行处理,从节点主机的类型、处理速率、处理内存和存储内存以及状态等方面综合考虑主机的处理能力,为样本数据的拆分和分配提供了数据支撑;
对解析分布数据进行分布式分析,利用公式
Figure BDA0002871966210000091
获取若干个主机的实运值;将若干个实运值进行降序排列得到实运排序集,将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据;通过对解析分布数据进行分析,获取各个节点主机的工作状态和处理能力,便于对不同节点的主机分配不同大小的样本数据来提高整体数据的处理效果;可以达到根据分布主机的工作状态和工作能力进行针对性分发数据和处理,消除整体的数据受到节点主机的影响进而使得数据的处理效率提升的目的;
根据分布分析数据对样本数据进行划分和分配,利用公式
Figure BDA0002871966210000092
获取若干个主机的划分值;将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集;对样本分配集进行分布式处理,获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储存储和更新未存储内存;将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集;将样本处理集进行组合,得到样本解析集;通过将样本数据根据各个节点主机进行匹配和划分,经过分布式节点主机处理后将数据进行备份和组合,可以将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的目的。
在本发明所提供的实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另外,在本发明若干个实施例中的各功能模块可以集成在一个控制模块中,也可以是若干个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (5)

1.一种基于分布式***的解析超大文本文件处理方法,其特征在于,具体的步骤包括:
S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S2:对解析分布数据进行分布式分析,得到分布分析数据;
S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;
S4:对样本分配集进行分布式处理,得到样本处理集;
S5:将样本处理集进行组合,得到样本解析集。
2.根据权利要求1所述的一种基于分布式***的解析超大文本文件处理方法,其特征在于,对解析分布数据进行分布式分析,得到分布分析数据,包括:
S21:获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
S22:设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;
S23:获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;
S24:获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;
S25:利用公式获取若干个主机的实运值,该公式为:
Figure FDA0002871966200000021
其中,Qsy表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;
S26:将若干个实运值进行降序排列得到实运排序集;
S27:将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据。
3.根据权利要求1所述的一种基于分布式***的解析超大文本文件处理方法,其特征在于,根据分布分析数据对样本数据进行划分和分配,得到样本分配集,包括:
S31:获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存;
S32:利用公式获取若干个主机的划分值,该公式为:
Figure FDA0002871966200000022
其中,Qhf表示为划分值,β表示为预设的划分修正因子,a1、a2表示为预设的不同比例系数;
S33:将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;
S34:获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;
S35:获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;
S36:将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集。
4.根据权利要求1所述的一种基于分布式***的解析超大文本文件处理方法,其特征在于,对样本分配集进行分布式处理,得到样本处理集,包括:
S41:获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;
S42:获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;
S43:根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储存储和更新未存储内存;
S44:将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;
S45:将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集。
5.根据权利要求1所述的一种基于分布式***的解析超大文本文件处理方法,其特征在于,将样本处理集进行组合,得到样本解析集,包括:
将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联,并将若干个样本解析数据根据降序排列的标号进行组合,得到样本解析集。
CN202011603232.8A 2020-12-30 2020-12-30 一种基于分布式***的解析超大文本文件处理方法 Active CN112698988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011603232.8A CN112698988B (zh) 2020-12-30 2020-12-30 一种基于分布式***的解析超大文本文件处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011603232.8A CN112698988B (zh) 2020-12-30 2020-12-30 一种基于分布式***的解析超大文本文件处理方法

Publications (2)

Publication Number Publication Date
CN112698988A true CN112698988A (zh) 2021-04-23
CN112698988B CN112698988B (zh) 2022-11-29

Family

ID=75512238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011603232.8A Active CN112698988B (zh) 2020-12-30 2020-12-30 一种基于分布式***的解析超大文本文件处理方法

Country Status (1)

Country Link
CN (1) CN112698988B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076561A (zh) * 2021-05-06 2021-07-06 深圳市数存科技有限公司 一种数据块的分拆和重组***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010522A1 (en) * 2002-05-24 2004-01-15 Shulok Thomas Aaron Method and system for detecting significant changes in dynamic datasets
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理***
US20170061285A1 (en) * 2015-08-28 2017-03-02 Ubic, Inc. Data analysis system, data analysis method, program, and storage medium
CN107103332A (zh) * 2017-04-07 2017-08-29 武汉理工大学 一种面向大规模数据集的相关向量机分类方法
CN107329982A (zh) * 2017-06-01 2017-11-07 华南理工大学 一种基于分布式列式存储的大数据并行计算方法及***
US9904707B1 (en) * 2015-03-30 2018-02-27 Quest Software Inc. Systems and methods for optimized database sampling
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
WO2019093695A1 (ko) * 2017-11-13 2019-05-16 한양대학교 산학협력단 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
CN110263155A (zh) * 2019-05-21 2019-09-20 阿里巴巴集团控股有限公司 数据分类方法、数据分类模型的训练方法及***
CN111158900A (zh) * 2019-12-09 2020-05-15 中国船舶重工集团公司第七一六研究所 轻量化分布式并行计算***及方法
CN111864799A (zh) * 2020-07-29 2020-10-30 杭州佐华科技有限公司 一种分布式发电***配置方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010522A1 (en) * 2002-05-24 2004-01-15 Shulok Thomas Aaron Method and system for detecting significant changes in dynamic datasets
US9904707B1 (en) * 2015-03-30 2018-02-27 Quest Software Inc. Systems and methods for optimized database sampling
US20170061285A1 (en) * 2015-08-28 2017-03-02 Ubic, Inc. Data analysis system, data analysis method, program, and storage medium
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理***
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
CN107103332A (zh) * 2017-04-07 2017-08-29 武汉理工大学 一种面向大规模数据集的相关向量机分类方法
CN107329982A (zh) * 2017-06-01 2017-11-07 华南理工大学 一种基于分布式列式存储的大数据并行计算方法及***
WO2019093695A1 (ko) * 2017-11-13 2019-05-16 한양대학교 산학협력단 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN110263155A (zh) * 2019-05-21 2019-09-20 阿里巴巴集团控股有限公司 数据分类方法、数据分类模型的训练方法及***
CN111158900A (zh) * 2019-12-09 2020-05-15 中国船舶重工集团公司第七一六研究所 轻量化分布式并行计算***及方法
CN111864799A (zh) * 2020-07-29 2020-10-30 杭州佐华科技有限公司 一种分布式发电***配置方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周宁等: "基于MapReduce的文本语句向量算法实现", 《电子技术与软件工程》 *
周永章等: "地质大数据分析的若干工具与应用", 《大地构造与成矿学》 *
戴理等: "基于数据流分析的网络协议逆向解析技术", 《计算机应用》 *
赵永彬等: "采用分布式DBSCAN算法的用电行为分析", 《小型微型计算机***》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076561A (zh) * 2021-05-06 2021-07-06 深圳市数存科技有限公司 一种数据块的分拆和重组***

Also Published As

Publication number Publication date
CN112698988B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
Massie et al. The ganglia distributed monitoring system: design, implementation, and experience
US8438276B1 (en) Method of monitoring network and application performance by analyzing web clients and web servers
CN106598735B (zh) 一种分布式计算方法、主控节点和计算***
CN113468226B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN106815254A (zh) 一种数据处理方法和装置
CN112787853B (zh) 网络变更方案的自动生成方法、装置及相关设备
CN113835874A (zh) 深度学习业务调度方法、***、终端及存储介质
CN112698988B (zh) 一种基于分布式***的解析超大文本文件处理方法
Gupta et al. Long range dependence in cloud servers: a statistical analysis based on *** workload trace
CN111858278A (zh) 基于大数据处理的日志分析方法、***及可读存储装置
CN115033616A (zh) 一种基于多轮采样的数据筛查规则验证方法及其装置
CN109446167A (zh) 一种日志数据存储、提取方法及装置
US11374869B2 (en) Managing bandwidth based on user behavior
CN116962419A (zh) 服务器分配策略的生成方法及装置、电子设备及存储介质
CN114168624B (zh) 数据分析方法、计算设备及存储介质
CN115293685A (zh) 物流订单的状态跟踪方法、装置、设备和存储介质
CN115016890A (zh) 虚拟机资源分配方法、装置、电子设备及存储介质
CN114726909A (zh) 云服务迁移信息处理方法、装置、设备、介质及产品
CN110554916B (zh) 基于分布式集群的风险指标计算方法及装置
US20220050729A1 (en) Clustering Processes Using Traffic Data
CN113641301A (zh) 一种数据管理方法及装置
CN112860763A (zh) 实时流数据处理方法、装置、计算机设备和存储介质
US20060143262A1 (en) Fast client boot in blade environment
Słota et al. Algorithms for automatic data replication in grid environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant