CN117312255A - 一种电子文档拆分优化管理方法及*** - Google Patents

一种电子文档拆分优化管理方法及*** Download PDF

Info

Publication number
CN117312255A
CN117312255A CN202311605670.1A CN202311605670A CN117312255A CN 117312255 A CN117312255 A CN 117312255A CN 202311605670 A CN202311605670 A CN 202311605670A CN 117312255 A CN117312255 A CN 117312255A
Authority
CN
China
Prior art keywords
data
water
analyzed
segmentation point
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311605670.1A
Other languages
English (en)
Other versions
CN117312255B (zh
Inventor
李洪波
石文博
米杰
毛伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhongsi Information Technology Co ltd
Original Assignee
Hunan Zhongsi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhongsi Information Technology Co ltd filed Critical Hunan Zhongsi Information Technology Co ltd
Priority to CN202311605670.1A priority Critical patent/CN117312255B/zh
Publication of CN117312255A publication Critical patent/CN117312255A/zh
Application granted granted Critical
Publication of CN117312255B publication Critical patent/CN117312255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种电子文档拆分优化管理方法及***,包括:实时采集工厂内部用水量在预设时间段内不同时刻的实际用水数据,在历史用水量中采集预设时间段内不同时刻的历史用水数据;根据待分析用水数据邻域范围内的待分析用水数据的分布情况,对待分析用水数据进行筛选确定初始分段点;根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点;利用最优分段点对待分析用水数据进行分段压缩处理,将分段压缩后的数据进行存储获得拆分后的用水量电子文档数据。本发明对待分析用水数据进行分段压缩处理的效果较佳。

Description

一种电子文档拆分优化管理方法及***
技术领域
本发明涉及数据处理技术领域,具体涉及一种电子文档拆分优化管理方法及***。
背景技术
工厂内部的用水数据是指工厂内部在每天内每个时刻的用水量的实时数据,为了对工厂内部的用水量情况进行实时监测,需要将实时采集的工厂内部用水量进行存储上传至管理***中。但是由于工厂内部的用水量数据波动较为频繁且波动范围较小,导致每天采集的重复数据较多,使得对工厂内部的用水数据进行压缩存储时的数据冗余程度较大,在对实时采集的用水数据进行拆分压缩时,仅考虑采集到的数据的连续重复情况,直接对实时采集到的用水数据进行拆分压缩处理,并未考虑实时采集到的用水数据与历史中的用水数据之间的冗余关系,导致现有的对用水数据进行拆分压缩方法的处理效果较差。
发明内容
为了解决现有的对用水数据进行拆分压缩方法的处理效果较差的技术问题,本发明的目的在于提供一种电子文档拆分优化管理方法,所采用的技术方案具体如下:
实时采集工厂内部用水量在预设时间段内不同时刻的实际用水数据,在历史用水量中采集预设时间段内不同时刻的历史用水数据;所述实际用水数据和历史用水数据为待分析用水数据;
根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标;根据所述概率指标对待分析用水数据进行筛选确定初始分段点;
根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点;
利用最优分段点对待分析用水数据进行分段压缩处理,将分段压缩后的数据进行存储获得拆分后的用水量电子文档数据。
优选地,所述根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点,具体包括:
根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到初始分段点的效果评价指标;
根据所述效果评价指标对初始分段点进行筛选,确定最优分段点。
优选地,所述根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到初始分段点的效果评价指标,具体包括:
将实际用水数据中的任意一个初始分段点记为第一目标分段点,将第一目标分段点相邻的下一个初始分段点记为第二目标分段点,将历史用水数据中与第一、第二目标分段点在实际用水数据中位置序号相同的初始分段点分别记为第一匹配分段点和第二匹配分段点;
获取第一目标分段点与第二目标分段点之间的实际用水数据构成目标实际数据序列,获取第一目标分段点与第二目标分段点之间的历史用水数据构成目标历史数据序列;获取第一匹配分段点与第二匹配分段点之间的实际用水数据构成匹配实际数据序列,获取第一匹配分段点与第二匹配分段点之间的历史用水数据构成匹配历史数据序列;
根据目标实际数据序列、目标历史数据序列、匹配实际数据序列和匹配历史数据序列中的数据分布情况,得到第二目标分段点和第二匹配分段点的效果评价指标。
优选地,所述效果评价指标的计算公式具体为:
其中,表示第二目标分段点和第二匹配分段点的效果评价指标,r+1表示第r+1个初始分段点,/>表示匹配实际数据序列,/>表示匹配实际数据序列中包含的不同数据数值的数量,/>表示匹配实际数据序列中第x种数值存在的数量,/>表示匹配实际数据序列中第x种数值出现的频率;/>表示匹配历史数据序列,/>表示匹配历史数据序列中包含的不同数据数值的数量,/>表示匹配历史数据序列中第x种数值存在的数量,表示匹配历史数据序列中第x种数值出现的频率;/>表示目标实际数据序列,/>表示目标实际数据序列中包含的不同数据数值的数量,/>表示目标实际数据序列中包含的第x种数值存在的数量,/>表示目标实际数据序列中包含的第x种数值出现的频率;/>表示目标历史数据序列,/>表示目标历史数据序列中包含的不同数据数值的数量,/>表示目标历史数据序列中包含的第x种数值存在的数量,/>表示目标历史数据序列中包含的第x种数值出现的频率。
优选地,所述根据所述效果评价指标对初始分段点进行筛选,确定最优分段点,具体包括:
当第二目标分段点和第二匹配分段点的效果评价指标大于预设数值时,第二匹配分段点为待分析用水数据中的最优分段点;当第二目标分段点和第二匹配分段点的效果评价指标小于预设数值时,第二目标分段点为待分析用水数据中的最优分段点。
优选地,所述根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标,具体包括:
将任意一个待分析用水数据记为选定用水数据,将选定用水数据之前相邻的预设数量个待分析用水数据构成选定用水数据的左侧邻域数据序列;将选定用水数据之后相邻的预设数量个待分析用水数据构成选定用水数据的右侧邻域数据序列;
根据所述左侧邻域数据序列与右侧邻域数据序列的匹配关系,得到选定用水数据为数据分段点的概率指标。
优选地,所述根据所述左侧邻域数据序列与右侧邻域数据序列的匹配关系,得到选定用水数据为数据分段点的概率指标,具体包括:
获取左侧邻域数据序列中所有数据的数值在右侧邻域数据序列中相同的数据数量记为第一数量,获取右侧邻域数据序列中所有数据的数值在左侧邻域数据序列中相同的数据数量记为第二数量;根据第一数量和第二数量中的最大值得到选定用水数据为数据分段点的概率指标,所述最大值与概率指标呈负相关关系。
优选地,所述根据所述概率指标对待分析用水数据进行筛选确定初始分段点,具体包括:
将概率指标大于或等于预设的概率阈值时对应的待分析用水数据记为初始分段点。
优选地,所述利用最优分段点对待分析用水数据进行分段压缩处理,具体包括:
利用最优分段点分别对待分析用水数据中的实际用水数据和历史用水数据进行分段处理,将分段后的数据利用霍夫曼编码算法进行压缩处理。
本发明还提供了一种电子文档拆分优化管理***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现一种电子文档拆分优化管理方法的步骤。
本发明实施例至少具有如下有益效果:
本发明首先采集实际用水数据和历史用水数据,以便后续将两种用水数据进行联合分析,使得数据处理效果较佳。然后,对待分析用水数据邻域范围内的待分析用水数据的分布情况进行分析获得待分析用水数据为数据分段点的概率指标,即反映了待分析用水数据作为数据分段点的概率大小,以对待分析用水数据进行筛选确定初始分段点,初始分段点仅表征了对应的用水数据在其邻域范围内的数据分布情况。进一步的,根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点,即对初始分段点分别在两种数据中的分段情况进行分析,以筛选出在历史与实际用水数据中的分段情况均较佳的数据分段点。最终,利用最优分段点对待分析用水数据进行分段压缩处理的效果较佳,获得的用水量电子文档数据有利于工厂用水量数据的管理工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种电子文档拆分优化管理方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种电子文档拆分优化管理方法及***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种电子文档拆分优化管理方法及***的具体方案。
一种电子文档拆分优化管理方法实施例:
请参阅图1,其示出了本发明一个实施例提供的一种电子文档拆分优化管理方法的方法流程图,该方法包括以下步骤:
步骤一,实时采集工厂内部用水量在预设时间段内不同时刻的实际用水数据,在历史用水量中采集预设时间段内不同时刻的历史用水数据;所述实际用水数据和历史用水数据为待分析用水数据。
首先,从工厂内部的管理***中采集工厂内部用水量在预设时间段内不同时刻的实际用水数据,并且在历史用水量中采集预设时间段内不同时刻的历史用水数据。在本实施例中,将预设时间段的时间长度设置为一天,即24小时,将相邻两个不同时刻之间的时间间隔设置为10分钟,实施者可根据具体实施场景进行设置。
具体地,在每天采集到当天工厂内部的用水量情况时,需要对采集到的数据进行拆分存储,考虑到历史每天的用水量情况与实时采集的用水量情况较为相似,用水量的波动情况也较为相似,故同时采集历史用水量中相同时间长度不同时刻的用水数据。即在本实施例中,实时采集当天每个时刻的实际用水数据,同时,在历史用水量中采集当天的前一天每个时刻的历史用水数据。为了方便后续的数据分析过程,将实际用水数据和历史用水数据均作为待分析用水数据,可以理解的是,本实施例中的待分析用水数据包含两个预设时间段内的用水数据。
步骤二,根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标;根据所述概率指标对待分析用水数据进行筛选确定初始分段点。
由于工厂内部的用水数据频繁波动且每次波动幅度较为接近,使得采集到的用水数据与历史数据中较多的数据数值相同,因此,在对历史数据和实时采集到的数据同时进行拆分压缩处理。虽然历史数据中历史用水数据和实时采集的实际用水数据的数据数量相等,但是两者之间的数据分段点可能不同,使得利用同一个数据分段点分别对历史和实际用水数据进行拆分后,进行数据压缩时,可能会出现整体数据压缩效率较低,拆分压缩处理效果较差的情况,进而则需要对数据分段点进行分析,以确定拆分压缩效果最优时的数据分段点。
首先,则需要对待分析用水数据进行分析,确定用水数据中的数据分段点的位置分布,即根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标。需要说明的是,在对待分析用水数据进行分析筛选确定数据分段点的过程中,实际用水数据和历史用水数据均分别存在每个预设时间段内的数据分段点,在本实施例中,以其中任意一个用水数据为例进行说明。
具体地,将任意一个待分析用水数据记为选定用水数据,将选定用水数据之前相邻的预设数量个待分析用水数据构成选定用水数据的左侧邻域数据序列;将选定用水数据之后相邻的预设数量个待分析用水数据构成选定用水数据的右侧邻域数据序列。
在本实施例中,预设数量的取值为20,以所有实际用水数据中的第i个实际用水数据作为选定用水数据为例进行说明,则第i个实际用水数据可以表示为,选定用水数据即第i个实际用水数据的左侧邻域数据序列可以表示为/>,其中,/>表示所有实际用水数据中第i-20个实际用水数据,/>表示所有实际用水数据中第i-1个实际用水数据。选定用水数据即第i个实际用水数据的右侧邻域数据序列可以表示为/>,其中,/>表示所有实际用水数据中第i+1个实际用水数据,/>表示所有实际用水数据中第i+20个实际用水数据。
需要说明的是,当选定用水数据左侧或者右侧的数据数量不足预设数量个时,不对其进行是否能够作为分段点的分析判断操作,即从实际用水数据中的第21个数据开始进行数据分析,直至实际用水数据中的第n-20个数据结束,n为实际用水数据的总数量。
根据所述左侧邻域数据序列与右侧邻域数据序列的匹配关系,得到选定用水数据为数据分段点的概率指标。即获取左侧邻域数据序列中所有数据的数值在右侧邻域数据序列中相同的数据数量记为第一数量,获取右侧邻域数据序列中所有数据的数值在左侧邻域数据序列中相同的数据数量记为第二数量。
举例说明,假设选定用水数据为1,预设数量取值为4时,对应的左侧邻域数据序列为{1,4,5,3,1},右侧邻域数据序列为{1,1,1,1,4},则左侧邻域数据序列中所有数据的数值在右侧邻域数据序列中相同的数据分别为1,4,1,此时第一数量的取值为3。右侧邻域数据序列中所有数据的数值在左侧邻域数据序列中相同的数据分别为1,1,1,1,4,此时第二数量的取值为5。
根据第一数量和第二数量中的最大值得到选定用水数据为数据分段点的概率指标,所述最大值与概率指标呈负相关关系。以所有实际用水数据中的第i个实际用水数据作为选定用水数据为例进行说明,则第i个实际用水数据为数据分段点的概率指标的计算公式可以表示为:
其中,表示第i个实际用水数据为数据分段点的概率指标,/>表示第一数量,/>表示第二数量,/>表示左侧邻域数据序列或者右侧邻域数据序列中包含的数据数量。
第一数量表征了选定用水数据之前邻域范围内的数据与其之后邻域范围内的数据的重复数量,第二数量表征了选定用水数据之后邻域范围内的数据与其之前邻域范围内的数据的重复数量,表示两者中重复数据较大的部分的占比情况,其取值越大,说明选定用水数据左右两侧的邻域范围内的数据重复程度较高,进而将选定用水数据作为数据分段点的效果较差,即对应的概率指标的取值越小,说明选定用水数据为数据分段点的概率越小。
需要说明的是,利用霍夫曼编码算法对待分析用水数据进行压缩处理时,数据的压缩效果与数据的数值分布有关,当数据的数值在所有待分析用水数据中出现的频率较高时,对应的数据压缩效率较高,进而待分析用水数据左右两侧的邻域范围内数据的重复程度较高时,对其进行分割操作的必要性较低,进而对应的待分析用水数据作为数据分段点的概率也就越低。
基于此,根据所述概率指标对待分析用水数据进行筛选确定初始分段点,即概率指标表征了待分析用水数据作为数据分段点的概率高低,当概率指标大于或等于预设的概率阈值时,说明待分析用水数据作为数据分段点的概率较高,故将其记为初始分段点,即将概率指标大于或等于预设的概率阈值时对应的待分析用水数据记为初始分段点。当概率指标小于预设的概率阈值时,说明待分析用水数据作为数据分段点的概率较低,故不将其作为分段点进行数据分析。
在本实施例中,概率阈值的取值为0.4,实施者可根据具体实施场景进行设置。按照上述方法可以分别获得所有实际用水数据中的所有初始分段点,同时获得所有历史用水数据中的所有初始分段点。
步骤三,根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点。
一天内所有时刻的实际用水数据中存在其对应的数据分段点,一天内所有时刻的历史用水数据中存在其对应的数据分段点,即实际用水数据中的初始分段点是基于实际用水数据的数值分布情况分析获得的,历史用水数据中的初始分段点是基于历史用水数据的数值分布情况进行分析获得的,进而利用实际用水数据中的初始分段点同时对历史用水数据进行拆分时,可能出现拆分效果不佳的情况,同理,利用历史用水数据中的初始分段点同时对实际用水数据进行拆分时,也可能出现拆分效果不佳的情况,故需要结合多种不同的分段结果进行分析,以确定拆分效果最佳的数据分段点。
基于此,根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到初始分段点的效果评价指标。
具体地,将实际用水数据中的任意一个初始分段点记为第一目标分段点,将第一目标分段点相邻的下一个初始分段点记为第二目标分段点,将历史用水数据中与第一、第二目标分段点在实际用水数据中位置序号相同的初始分段点分别记为第一匹配分段点和第二匹配分段点。
在本实施例中,将实际用水数据中的第r个初始分段点作为第一目标分段点,将第r+1个初始分段点记为第二目标分段点,同理,历史用水数据中的第r个初始分段点为第一匹配分段点,第r+1个初始分段点为第二匹配分段点。
获取第一目标分段点与第二目标分段点之间的实际用水数据构成目标实际数据序列,表示为,获取第一目标分段点与第二目标分段点之间的历史用水数据构成目标历史数据序列,表示为/>;获取第一匹配分段点与第二匹配分段点之间的实际用水数据构成匹配实际数据序列,表示为/>,获取第一匹配分段点与第二匹配分段点之间的历史用水数据构成匹配历史数据序列,表示为/>
根据目标实际数据序列、目标历史数据序列、匹配实际数据序列和匹配历史数据序列中的数据分布情况,得到第二目标分段点和第二匹配分段点的效果评价指标。即在本实施例中,实际用水数据中的和历史用水数据中的第r+1个初始分段点的效果评价指标的计算公式可以表示为:
其中,表示第二目标分段点和第二匹配分段点的效果评价指标,r+1表示第r+1个初始分段点,/>表示匹配实际数据序列,/>表示匹配实际数据序列中包含的不同数据数值的数量,/>表示匹配实际数据序列中第x种数值存在的数量,/>表示匹配实际数据序列中第x种数值出现的频率;/>表示匹配历史数据序列,/>表示匹配历史数据序列中包含的不同数据数值的数量,/>表示匹配历史数据序列中第x种数值存在的数量,表示匹配历史数据序列中第x种数值出现的频率;/>表示目标实际数据序列,/>表示目标实际数据序列中包含的不同数据数值的数量,/>表示目标实际数据序列中包含的第x种数值存在的数量,/>表示目标实际数据序列中包含的第x种数值出现的频率;/>表示目标历史数据序列,/>表示目标历史数据序列中包含的不同数据数值的数量,/>表示目标历史数据序列中包含的第x种数值存在的数量,/>表示目标历史数据序列中包含的第x种数值出现的频率。
在每个数据序列中,每种不同的数值出现的频率反映了用水数据在对应数据序列中的重复程度,以匹配实际数据序列为例进行说明,反映了匹配实际数据序列中第x种数据取值的重复概率,利用该种数据取值对应存在的数量作为系数进行乘积计算,能够反映在匹配实际数据序列中第x种数据取值的重复度,其取值越高,说明当前匹配实际数据序列的划分方式效果较好,数据的重复度较高,利用此划分结果进行拆分压缩的效果较佳。
同理,按照同样的分析方式,上述公式中的分子表征了利用历史用水数据中的第r个初始分段点和第r+1个初始分段点,分别对历史用水数据和实际用水数据进行拆分后,数据序列中的重复度情况,其取值越大,说明利用历史用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的效果较佳。
上述公式的分母表征了利用实际用水数据中的第r个初始分段点和第r+1个初始分段点,分别对历史用水数据和实际用水数据进行拆分后,数据序列中的重复度情况,其取值越大,说明利用实际用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的效果较佳。
基于此,在本实施例中,将预设数值的取值设置为1。当第二目标分段点和第二匹配分段点的效果评价指标大于预设数值时,说明上述公式中分子大于分母,进而说明利用历史用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的数据重复度大于,利用实际用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的数据重复度,进而说明历史用水数据中的初始分段点的划分效果较佳,进而将历史用水数据中的第r+1个初始分段点作为最优分段点,即第二匹配分段点为待分析用水数据中的最优分段点。
当第二目标分段点和第二匹配分段点的效果评价指标小于预设数值时,说明上述公式中的分子小于分母,进而说明利用历史用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的数据重复度小于,利用实际用水数据中的第r个初始分段点和第r+1个初始分段点对待分析用水数据进行拆分的数据重复度,进而说明实际用水数据中的初始分段点的划分效果较佳,进而将实际用水数据中的第r+1个初始分段点作为最优分段点,即第二目标分段点为待分析用水数据中的最优分段点。
需要说明的是,当第二目标分段点和第二匹配分段点的效果评价指标等于预设数值时,说明两种划分方式的数据重复度相等,则利用任意一种划分方式均可。同时,初始计算时令r=0,即将一天内的第一个实际用水数据作为数据序列的起始数据,第一个初始分段点作为数据序列的截止数据,依次进行分析。若判断第一个初始分段点为第一个最优分段点时,将第一个最优分段点作为第一目标分段点,将第一个最优分段点相邻的下一个初始分段点作为第二目标分段点,并获取对应的第一匹配分段点和第二匹配分段点,进行最优分段点的获取分析操作,并且以此类推,遍历完所有的实际或者历史用水数据时停止。进而能够获得多个最优分段点,利用最优分段点对实际用水数据和对历史用水数据进行划分的效果均较好。
步骤四,利用最优分段点对待分析用水数据进行分段压缩处理,将分段压缩后的数据进行存储获得拆分后的用水量电子文档数据。
利用最优分段点分别对待分析用水数据中的实际用水数据和历史用水数据进行分段处理,将分段后的数据利用霍夫曼编码算法进行压缩处理,获得分段压缩后的数据,进而将分段压缩后的数据进行存储获得拆分后的用水量电子文档数据。
需要说明的是,获取到的最优分段点可能为历史用水数据中的某个数据也可能为实际用水数据中的某个数据,由于历史用水数据和实际用水数据在一天内每个时刻均存在一定的对应关系,故最优分段点在历史或者实际用水数据中均能够找到对应时刻的用水数据,进而利用对应的用水数据分别对历史或者实际用水数据进行拆分处理,使得拆分处理后的数据进行压缩的效果较佳。
一种电子文档拆分优化管理***实施例:
本实施例提供了一种电子文档拆分优化管理***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现一种电子文档拆分优化管理方法的步骤。由于已经对一种电子文档拆分优化管理方法实施例进行了详细的阐述,此处不再过多介绍。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电子文档拆分优化管理方法,其特征在于,该方法包括以下步骤:
实时采集工厂内部用水量在预设时间段内不同时刻的实际用水数据,在历史用水量中采集预设时间段内不同时刻的历史用水数据;所述实际用水数据和历史用水数据为待分析用水数据;
根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标;根据所述概率指标对待分析用水数据进行筛选确定初始分段点;
根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点;
利用最优分段点对待分析用水数据进行分段压缩处理,将分段压缩后的数据进行存储获得拆分后的用水量电子文档数据。
2.根据权利要求1所述的一种电子文档拆分优化管理方法,其特征在于,所述根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到最优分段点,具体包括:
根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到初始分段点的效果评价指标;
根据所述效果评价指标对初始分段点进行筛选,确定最优分段点。
3.根据权利要求2所述的一种电子文档拆分优化管理方法,其特征在于,所述根据历史用水数据中的初始分段点对待分析用水数据的分段结果以及实际用水数据中的初始分段点对待分析用水数据的分段结果,得到初始分段点的效果评价指标,具体包括:
将实际用水数据中的任意一个初始分段点记为第一目标分段点,将第一目标分段点相邻的下一个初始分段点记为第二目标分段点,将历史用水数据中与第一、第二目标分段点在实际用水数据中位置序号相同的初始分段点分别记为第一匹配分段点和第二匹配分段点;
获取第一目标分段点与第二目标分段点之间的实际用水数据构成目标实际数据序列,获取第一目标分段点与第二目标分段点之间的历史用水数据构成目标历史数据序列;获取第一匹配分段点与第二匹配分段点之间的实际用水数据构成匹配实际数据序列,获取第一匹配分段点与第二匹配分段点之间的历史用水数据构成匹配历史数据序列;
根据目标实际数据序列、目标历史数据序列、匹配实际数据序列和匹配历史数据序列中的数据分布情况,得到第二目标分段点和第二匹配分段点的效果评价指标。
4.根据权利要求3所述的一种电子文档拆分优化管理方法,其特征在于,所述效果评价指标的计算公式具体为:
其中,表示第二目标分段点和第二匹配分段点的效果评价指标,r+1表示第r+1个初始分段点,/>表示匹配实际数据序列,/>表示匹配实际数据序列中包含的不同数据数值的数量,/>表示匹配实际数据序列中第x种数值存在的数量,/>表示匹配实际数据序列中第x种数值出现的频率;/>表示匹配历史数据序列,/>表示匹配历史数据序列中包含的不同数据数值的数量,/>表示匹配历史数据序列中第x种数值存在的数量,/>表示匹配历史数据序列中第x种数值出现的频率;/>表示目标实际数据序列,/>表示目标实际数据序列中包含的不同数据数值的数量,/>表示目标实际数据序列中包含的第x种数值存在的数量,/>表示目标实际数据序列中包含的第x种数值出现的频率;/>表示目标历史数据序列,/>表示目标历史数据序列中包含的不同数据数值的数量,/>表示目标历史数据序列中包含的第x种数值存在的数量,/>表示目标历史数据序列中包含的第x种数值出现的频率。
5.根据权利要求3所述的一种电子文档拆分优化管理方法,其特征在于,所述根据所述效果评价指标对初始分段点进行筛选,确定最优分段点,具体包括:
当第二目标分段点和第二匹配分段点的效果评价指标大于预设数值时,第二匹配分段点为待分析用水数据中的最优分段点;当第二目标分段点和第二匹配分段点的效果评价指标小于预设数值时,第二目标分段点为待分析用水数据中的最优分段点。
6.根据权利要求1所述的一种电子文档拆分优化管理方法,其特征在于,所述根据待分析用水数据邻域范围内的待分析用水数据的分布情况,得到每个待分析用水数据为数据分段点的概率指标,具体包括:
将任意一个待分析用水数据记为选定用水数据,将选定用水数据之前相邻的预设数量个待分析用水数据构成选定用水数据的左侧邻域数据序列;将选定用水数据之后相邻的预设数量个待分析用水数据构成选定用水数据的右侧邻域数据序列;
根据所述左侧邻域数据序列与右侧邻域数据序列的匹配关系,得到选定用水数据为数据分段点的概率指标。
7.根据权利要求6所述的一种电子文档拆分优化管理方法,其特征在于,所述根据所述左侧邻域数据序列与右侧邻域数据序列的匹配关系,得到选定用水数据为数据分段点的概率指标,具体包括:
获取左侧邻域数据序列中所有数据的数值在右侧邻域数据序列中相同的数据数量记为第一数量,获取右侧邻域数据序列中所有数据的数值在左侧邻域数据序列中相同的数据数量记为第二数量;根据第一数量和第二数量中的最大值得到选定用水数据为数据分段点的概率指标,所述最大值与概率指标呈负相关关系。
8.根据权利要求1所述的一种电子文档拆分优化管理方法,其特征在于,所述根据所述概率指标对待分析用水数据进行筛选确定初始分段点,具体包括:
将概率指标大于或等于预设的概率阈值时对应的待分析用水数据记为初始分段点。
9.根据权利要求1所述的一种电子文档拆分优化管理方法,其特征在于,所述利用最优分段点对待分析用水数据进行分段压缩处理,具体包括:
利用最优分段点分别对待分析用水数据中的实际用水数据和历史用水数据进行分段处理,将分段后的数据利用霍夫曼编码算法进行压缩处理。
10.一种电子文档拆分优化管理***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的一种电子文档拆分优化管理方法的步骤。
CN202311605670.1A 2023-11-29 2023-11-29 一种电子文档拆分优化管理方法及*** Active CN117312255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605670.1A CN117312255B (zh) 2023-11-29 2023-11-29 一种电子文档拆分优化管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605670.1A CN117312255B (zh) 2023-11-29 2023-11-29 一种电子文档拆分优化管理方法及***

Publications (2)

Publication Number Publication Date
CN117312255A true CN117312255A (zh) 2023-12-29
CN117312255B CN117312255B (zh) 2024-02-20

Family

ID=89285034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605670.1A Active CN117312255B (zh) 2023-11-29 2023-11-29 一种电子文档拆分优化管理方法及***

Country Status (1)

Country Link
CN (1) CN117312255B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117878A (zh) * 2021-11-29 2022-03-01 中国人民解放军国防科技大学 一种基于改进粒子群寻优的目标运动轨迹分段压缩方法
US20220121695A1 (en) * 2020-01-08 2022-04-21 Ping An Technology (Shenzhen) Co., Ltd. Knowledge graph-based case retrieval method, device and equipment, and storage medium
CN116485445A (zh) * 2023-03-10 2023-07-25 华能昌邑风力发电有限公司 基于数据自动采集处理的新能源电力现货交易辅助***
WO2023207039A1 (zh) * 2022-04-28 2023-11-02 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220121695A1 (en) * 2020-01-08 2022-04-21 Ping An Technology (Shenzhen) Co., Ltd. Knowledge graph-based case retrieval method, device and equipment, and storage medium
CN114117878A (zh) * 2021-11-29 2022-03-01 中国人民解放军国防科技大学 一种基于改进粒子群寻优的目标运动轨迹分段压缩方法
WO2023207039A1 (zh) * 2022-04-28 2023-11-02 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质
CN116485445A (zh) * 2023-03-10 2023-07-25 华能昌邑风力发电有限公司 基于数据自动采集处理的新能源电力现货交易辅助***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周建鸿;: "海量数据库的查询优化研究及实现", 西南民族大学学报(自然科学版), no. 04 *
王保良;范昊;冀海峰;黄志尧;李海青;: "基于分段线性表示k最近邻的水质预测方法", 环境工程学报, no. 02 *

Also Published As

Publication number Publication date
CN117312255B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN106649026B (zh) 适用于运维自动化***的监测数据压缩方法
CN110378468A (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
CN109727446B (zh) 一种用电数据异常值的识别与处理方法
CN102611454B (zh) 一种实时历史数据动态无损压缩方法
CN115359807B (zh) 一种用于城市噪声污染的噪声在线监测***
CN113328755B (zh) 一种面向边缘计算的压缩数据传输方法
CN1866241A (zh) 一种基于最小二乘线性拟合的实时数据压缩方法
CN116208172B (zh) 一种建筑工程项目的数据管理***
CN115987295A (zh) 基于物联网的农作物监控数据高效处理方法
CN116975503B (zh) 一种土壤侵蚀信息管理方法及***
CN116915259B (zh) 基于物联网的仓配数据优化储存方法及***
CN115219067B (zh) 一种用于大蒜仓储实时状态监测方法
CN117316301B (zh) 一种基因检测数据智能压缩处理方法
CN117312255B (zh) 一种电子文档拆分优化管理方法及***
CN117542488B (zh) 一种用于脑肿瘤ct数据的智能处理方法
CN116366069B (zh) 一种高性能混凝土配比数据处理方法
CN113381767B (zh) 用于心电数据压缩的方法、终端及存储介质
CN116631563B (zh) 一种医药行业大数据存储及智能匹配方法
US8878705B1 (en) Variable bit-length reiterative lossless compression system and method
CN116974258A (zh) 基于多维数据的生产过程监测方法
CN116561927A (zh) 数字孪生驱动的小样本旋转机械剩余寿命预测方法及***
CN107783990B (zh) 一种数据压缩方法及终端
WO2016110125A1 (zh) 高维向量的哈希方法、向量量化方法及装置
Wang et al. Zperf: A Statistical Gray-Box Approach to Performance Modeling and Extrapolation for Scientific Lossy Compression
CN117611420B (zh) 基于物联网的电动车还车数据处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant