CN117290364B - 一种市场调查数据智能存储方法 - Google Patents

一种市场调查数据智能存储方法 Download PDF

Info

Publication number
CN117290364B
CN117290364B CN202311575179.9A CN202311575179A CN117290364B CN 117290364 B CN117290364 B CN 117290364B CN 202311575179 A CN202311575179 A CN 202311575179A CN 117290364 B CN117290364 B CN 117290364B
Authority
CN
China
Prior art keywords
data
filling
category
target
small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311575179.9A
Other languages
English (en)
Other versions
CN117290364A (zh
Inventor
邓伟超
程伟
杨丽丹
杨金燕
杨顺作
杨丽香
杨丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Chengcheng High Tech Co ltd
Original Assignee
Shenzhen Chengcheng High Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Chengcheng High Tech Co ltd filed Critical Shenzhen Chengcheng High Tech Co ltd
Priority to CN202311575179.9A priority Critical patent/CN117290364B/zh
Publication of CN117290364A publication Critical patent/CN117290364A/zh
Application granted granted Critical
Publication of CN117290364B publication Critical patent/CN117290364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种市场调查数据智能存储方法,包括:采集市场调查数据集,进行数据填补,得到更新数据集,将更新数据集依次划分为若干个小数据集,获取每个小数据集的填补数据频率统计必要性,从而得到更新数据集中每种填补数据类别的修正数据数量,将更新数据集划分为若干个聚类簇,获取每个聚类簇中每种数据类别的更新出现频率,由此进行压缩编码,得到更新数据集的压缩数据集,将压缩数据集存储至数据库中。本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差,提高数据出现频率计算的准确性,从而提高数据压缩效率,降低市场调查数据所需的存储空间,由此提高存储效率。

Description

一种市场调查数据智能存储方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种市场调查数据智能存储方法。
背景技术
市场调查数据中包含的数据的种类繁多,包括消费者购买频率、市场规模、市场份额等,其中对于数据的记录方式多为汉字与数字同时记录。由于市场调查数据的繁多和复杂,因此对于市场调查数据的存储,成为数据管理的重要步骤,现有的市场调查数据的存储方法的主要为使用霍夫曼编码对数据进行压缩存储。
现有的问题:由于市场数据表现出的复杂性,在采集数据过程中可能存在一些数据缺失的情况,当缺失数据的填补不准确时,会影响数据出现频率的计算,从而导致霍夫曼编码的压缩效率降低,使得市场调查数据的存储需要较大的存储空间,从而降低了市场调查数据的存储效率。
发明内容
本发明提供一种市场调查数据智能存储方法,以解决现有的问题。
本发明的一种市场调查数据智能存储方法采用如下技术方案:
本发明一个实施例提供了一种市场调查数据智能存储方法,该方法包括以下步骤:
采集一段时间内的市场调查数据,得到一个由数值型数据构成的市场调查数据集;对市场调查数据集进行数据填补,得到更新数据集;其中,更新数据集中每个数据对应一个时间点,更新数据集中包含原始数据和填补数据;
使用ISOdata聚类算法,将更新数据集划分为若干个聚类簇;将更新数据集依次划分为若干个小数据集,并得到小数据集序列;在小数据集序列中,根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异,得到每个小数据集的填补数据频率统计必要性;
根据所有小数据集的填补数据频率统计必要性、填补数据数量,得到更新数据集中每种填补数据类别的修正数据数量;
在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率;
根据所有聚类簇中所有数据类别的更新出现频率,进行压缩编码,得到更新数据集的压缩数据集;将更新数据集的压缩数据集存储至数据库中。
进一步地,所述对市场调查数据集进行数据填补,得到更新数据集,包括的具体步骤如下:
将市场调查数据集中的数据,记为原始数据;
使用指数平滑算法对市场调查数据集进行数据填补,得到市场调查数据集中的填补数据;将所有的原始数据和填补数据构成的数据集,记为更新数据集。
进一步地,所述将更新数据集依次划分为若干个小数据集,并得到小数据集序列,包括的具体步骤如下:
在更新数据集中,依次不重复的将每隔q天内的数据构成的数据集,记为小数据集;所述q为预设的时长;
按照时间顺序,对所有小数据集进行排序,得到小数据集序列。
进一步地,所述在小数据集序列中,根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异,得到每个小数据集的填补数据频率统计必要性,包括的具体步骤如下:
将任意一个小数据集,记为目标集;
在小数据集序列中,将目标集和目标集相邻的所有小数据集,记为参考集;
将目标集中任意一个填补数据,记为主数据;将主数据对应的时间点,记为主时间点;
在更新数据集中,计算主时间点分别与所有原始数据对应的时间点的差值的绝对值,将所述绝对值中的最小值,记为主数据的时间间距;
在目标集中,根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异,得到目标集的填补数据频率统计必要性。
进一步地,所述在目标集中,根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异,得到目标集的填补数据频率统计必要性对应的具体计算公式为:
其中H为目标集的填补数据频率统计必要性,为目标集中所有填补数据的时间间距的均值,/>为目标集中所有数据的数据值方差,m为参考集的数量,/>和/>分别表示第i和i+1个参考集,| |为绝对值函数,/>为以自然常数为底的指数函数,k为预设的指数函数调整值,/>为线性归一化函数。
进一步地,所述根据所有小数据集的填补数据频率统计必要性、填补数据数量,得到更新数据集中每种填补数据类别的修正数据数量,包括的具体步骤如下:
在更新数据集中,将数据值相同的所有填补数据构成的类别,记为填补数据类别;
将任意一种填补数据类别,记为目标类别;将目标类别中的数据,记为目标数据;
在小数据集序列中,将存在目标数据的小数据集,记为主小数据集;
根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性,得到目标类别的修正数据数量。
进一步地,所述根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性,得到目标类别的修正数据数量对应的具体计算公式为:
其中A为目标类别的修正数据数量,为第j个主小数据集的填补数据频率统计必要性,/>为第j个主小数据集中的所有目标数据数量,n为主小数据集的数量,/>为第j个主小数据集中的所有填补数据数量,/>为线性归一化函数。
进一步地,所述在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率,包括的具体步骤如下:
在更新数据集划分的所有聚类簇中,将任意一个聚类簇,记为目标簇;
在目标簇中,将数据值相同的所有数据构成的类别,记为数据类别;将任意一种数据类别,记为参考类别;
当参考类别中存在填补数据时,将参考类别中的填补数据对应的填补数据类别,记为参考填补数据类别;
根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量,得到参考类别的更新出现频率;
当参考类别中不存在填补数据时,将参考类别中的数据数量除以目标簇中的数据数量,记为参考类别的更新出现频率。
进一步地,所述根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量,得到参考类别的更新出现频率对应的具体计算公式为:
其中P为参考类别的更新出现频率,为参考填补数据类别的修正数据数量,/>为参考填补数据类别中的填补数据数量,/>为参考类别中的填补数据数量,D为参考类别中的原始数据数量,B为目标簇中的数据数量。
进一步地,所述根据所有聚类簇中所有数据类别的更新出现频率,进行压缩编码,得到更新数据集的压缩数据集,包括的具体步骤如下:
根据每个聚类簇中所有数据类别的更新出现频率,使用霍夫曼编码对每个聚类簇中的数据进行压缩编码,得到每个聚类簇的压缩数据;
将更新数据集划分的所有聚类簇的压缩数据构成的数据集,记为更新数据集的压缩数据集。
本发明的技术方案的有益效果是:
本发明实施例中,采集市场调查数据集,进行数据填补,得到更新数据集。将更新数据集依次划分为若干个小数据集,获取每个小数据集的填补数据频率统计必要性,从而得到更新数据集中每种填补数据类别的修正数据数量。其通过分析填补数据的可信度,修正填补数据对数据出现频率的影响,提高数据出现频率的准确性,从而提高压缩效率。将更新数据集划分为若干个聚类簇,获取每个聚类簇中每种数据类别的更新出现频率,由此进行压缩编码,得到更新数据集的压缩数据集。其通过对数据集分类,分别进行数据压缩,减小了数据压缩过程中因数据量过大造成的运算压力,从而提高压缩效率。最后将更新数据集的压缩数据集存储至数据库中。至此本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差,提高数据出现频率计算的准确性,从而提高数据压缩效率,降低市场调查数据所需的存储空间,由此提高存储效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种市场调查数据智能存储方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种市场调查数据智能存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种市场调查数据智能存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种市场调查数据智能存储方法的步骤流程图,该方法包括以下步骤:
步骤S001:采集一段时间内的市场调查数据,得到一个由数值型数据构成的市场调查数据集;对市场调查数据集进行数据填补,得到更新数据集;其中,更新数据集中每个数据对应一个时间点,更新数据集中包含原始数据和填补数据。
采集一段时间内的市场调查数据,得到一个由数值型数据构成的市场调查数据集。将市场调查数据集中的数据,记为原始数据。
所需说明的是:通过调查问卷或市场数据库等方式获取市场调查数据,如消费意见等、数字信息包括、商品价格、份额占比等。由此获取的数据的数据类型存在差异,一般为数字和汉字。为了方便存储,本实施例的市场调查数据集中的数据只能为数字或者汉字。对于汉字构成的数据集,本实施例使用GBK编码,将汉字转换为数字。由此令采集的市场调查数据集中的数据为数字,方便后续的压缩存储。其中,GBK编码为公知技术,具体方法在此不做介绍。
在霍夫曼编码过程中,需要对数据的出现频率进行统计,在数据量足够大的时候,直接统计总体频率的计算量过大,因此需要先对数据集进行分类,令数据值相似的数据被分为一类。由此可通过使用霍夫曼编码分别对每类数据进行编码压缩,减小了数据的计算量,提高了压缩效率。
由于市场数据表现出的复杂性,在采集数据过程中可能存在一些数据缺失的情况。因此需要先经过数据缺失填补后再进行数据分类。
已知市场调查数据存在时序特征,且其在临近的时间上,表现的数据特征是相似的,例如一个淡季转旺季的市场数据,其持续时间为三个月,则这三个月内的市场数据的波动相对于由淡季转旺季的市场调查数据的波动而言,其波动基本可以忽略不计。而指数平滑算法是一种常用的时间序列预测和数据填补方法。
因此本实施例使用指数平滑算法对市场调查数据集进行数据填补,得到市场调查数据集中的填补数据。
所需说明的是:指数平滑算法为公知技术,具体方法在此不做介绍。平滑因子为指数平滑算法的主要参数,本实施例使用调整法确定平滑因子,即通过尝试不同的平滑因子,比较预测误差或平滑效果,选择效果最好的平滑因子。并且根据指数平滑算法得到的填补数据也会存在对应的时间点。
将所有的原始数据和填补数据构成的数据集,记为更新数据集。所述更新数据集中每个数据对应一个时间点。
步骤S002:使用ISOdata聚类算法,将更新数据集划分为若干个聚类簇;将更新数据集依次划分为若干个小数据集,并得到小数据集序列;在小数据集序列中,根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异,得到每个小数据集的填补数据频率统计必要性。
已知ISOdata聚类算法是一种经典的聚类算法,它可以自动地将数据集中的数据值相似的数据点聚集为一类。
因此本实施例使用ISOdata聚类算法,将更新数据集划分为若干个聚类簇。其中,ISOdata聚类算法为公知技术,具体方法在此不做介绍。
在频率统计过程中,若直接根据相同数据值的数据数量进行频率统计,其并不能有效将数据填补导致的数据误差避免,会影响频率统计结果,从而降低压缩效率。因此数据的频率统计需要通过分析填补数据的可信度,对频率统计进行修正,频率统计的必要性体现在,市场数据缺失的时间并不固定,其中缺失值可能为淡季数据,也可能为旺季数据,当缺失旺季数据时,其在数据填补时的波动数据的极值可能并未达到实际市场数据,由于数据填补的预测数据集为前后数据,即参考的数据可能均为淡季数据,因此最终的填补数据可能不能准确体现市场数据的波动。对于淡季数据而言存在相同的规律。
由上述原因对填补后的市场调查数据进行频率统计,其中填补数据的频率统计的必要性取决于与现有市场调查数据的接近程度,越接近现有的数据,频率统计的必要性越大,越远离现有数据,统计的必要性越小,且当频率统计时,现有数据的波动越大,填补后的数据的可信程度越低,从而频率统计的必要性越小,数据波动越大,频率统计的必要性越大。
本实施例预设的时长q为30天,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。即分析每月之间的数据差异。
在更新数据集中,依次不重复的将每q天内的数据构成的数据集,记为小数据集。
按照时间顺序,对所有小数据集进行排序,得到小数据集序列。
所需说明的是:市场调查数据存在时序特征,因此可根据时间将更新数据集划分,若最后一次划分不满足q天,其也为一个小数据集。
将任意一个小数据集,记为目标集。在小数据集序列中,将目标集和其相邻的所有小数据集,记为参考集。即参考集一般为3个,当目标集在小数据集序列首尾时,参考集为2个。
将目标集中任意一个填补数据,记为主数据。将主数据对应的时间点,记为主时间点。
所需说明的是:若目标集中无填补数据,则另取一个小数据集为目标集。对无填补数据的小数据集不计算填补数据频率统计必要性,其不影响后续分析。
在更新数据集中,计算主时间点分别与所有原始数据对应的时间点的差值的绝对值,将所述绝对值中的最小值,记为主数据的时间间距。
按照上述方式,得到目标集中每个填补数据的时间间距。
由此可知目标集的填补数据频率统计必要性H的计算公式为:
其中H为目标集的填补数据频率统计必要性,为目标集中所有填补数据的时间间距的均值,/>为目标集中所有数据的数据值方差,m为参考集的数量,/>和/>分别表示第i和i+1个参考集。| |为绝对值函数。/>为以自然常数为底的指数函数,本实施例以来呈现反比例关系及归一化处理,实施者可根据实际情况设置反比例函数及归一化函数,k为预设的指数函数调整值,避免指数函数衰减过快。/>为线性归一化函数,将数据值归一化至[0,1]区间内。本实施例设定k为0.1,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。
所需说明的是:当填补数据的时间间距越大时,根据时序特征预测的填补数据越不可信,因此越大,目标集的填补数据误差越大,即目标集中的填补数据进行频率统计的必要性越小。当目标集中的数据波动越大,即数据值方差越大,且与其相邻小数据集中的数据波动差异越大,预测的填补数据越不可信,/>表示相邻小数据集的数据波动的差异,故用/>的归一化值为/>的调整值,由此用/>和/>发反比例归一化值,表示目标集的填补数据频率统计必要性,H越大,对目标集中的填补数据进行频率统计的必要性越大。并且由于参考集处于小数据集序列中,故参考集存在顺序。
按照上述方式,得到每个小数据集的填补数据频率统计必要性。
步骤S003:根据所有小数据集的填补数据频率统计必要性、填补数据数量,得到更新数据集中每种填补数据类别的修正数据数量。
由于填补数据分布在不同的小数据集,且每种数据值相同的填补述数据在每个小数据集的数量占比不同,因此需要结合上述每个小数据集的填补数据频率统计必要性,分析每种数据值相同的填补述数据的修正数量。
在更新数据集中,将数据值相同的所有填补数据构成的类别,记为填补数据类别。
将任意一种填补数据类别,记为目标类别。将目标类别中的数据,记为目标数据。
在小数据集序列中,将存在目标数据的小数据集,记为主小数据集。
由此可知目标类别的修正数据数量A的计算公式为:
其中A为目标类别的修正数据数量,为第j个主小数据集的填补数据频率统计必要性,/>为第j个主小数据集中的所有目标数据数量,n为主小数据集的数量,/>为第j个主小数据集中的所有填补数据数量。/>为线性归一化函数,将数据值归一化至[0,1]区间内。
所需说明的是:越大,说明第j个主小数据集中的填补数据越可信,而/>越大,说明第j个主小数据集中,目标数据数量在填补数据数量中的占比越大,即第j个主小数据集中的目标数据越可信。因此用/>表示第j个主小数据集中的目标数据的可信数量,故用/>表示目标类别的修正数据数量。
按照上述方式,得到每种填补数据类别的修正数据数量。
步骤S004:在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率。
在更新数据集划分的所有聚类簇中,将任意一个聚类簇,记为目标簇。
当填补数据可信度较低时,影响数据的出现频率的准确性,从而降低压缩效率,而本实施例是对每个聚类簇分别进行压缩存储,因此需要进一步分析每个聚类簇中填补数据对应的数据值的出现频率,并进行调整,保障出现频率的准确性,提高压缩效率。
在目标簇中,将数据值相同的所有数据构成的类别,记为数据类别。将任意一种数据类别,记为参考类别。
当参考类别中不存在填补数据时,将参考类别中的数据数量除以目标簇中的数据数量,记为参考类别的更新出现频率。
当参考类别中存在填补数据时,将参考类别中存在的填补数据对应的填补数据类别,记为参考填补数据类别。
由此可知参考类别的更新出现频率P的计算公式为:
其中P为参考类别的更新出现频率,为参考填补数据类别的修正数据数量,/>为参考填补数据类别中的填补数据数量,/>为参考类别中的填补数据数量,D为参考类别中的原始数据数量,B为目标簇中的数据数量。
所需说明的是:表示参考类别中的填补数据数量在该填补数据总数量中的占比,为参考填补数据类别的修正数据数量,即表示该填补数据总数量的修正数量,因此表示该填补数据的修正数量。因此用/>表示参考类别的更新出现频率。
按照上述方式,得到目标簇中每种数据类别的更新出现频率。
步骤S005:根据所有聚类簇中所有数据类别的更新出现频率,进行压缩编码,得到更新数据集的压缩数据集;将更新数据集的压缩数据集存储至数据库中。
根据目标簇中所有数据类别的更新出现频率,使用霍夫曼编码对目标簇中的数据进行压缩编码,得到目标簇的压缩数据。其中,霍夫曼编码为公知技术,具体方法在此不做介绍。
按照上述方式,得到更新数据集划分的每个聚类簇的压缩数据。
将更新数据集划分的所有聚类簇的压缩数据构成的数据集,记为更新数据集的压缩数据集。
将更新数据集的压缩数据集存储至数据库中。
至此,本发明完成。
综上所述,在本发明实施例中,采集市场调查数据集,进行数据填补,得到更新数据集。将更新数据集依次划分为若干个小数据集,根据每个小数据集中的数据差异、填补数据与原始数据的时间差异、相邻小数据集之间的数据差异,得到每个小数据集的填补数据频率统计必要性,从而得到更新数据集中每种填补数据类别的修正数据数量。将更新数据集划分为若干个聚类簇,在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率,由此进行压缩编码,得到更新数据集的压缩数据集,将更新数据集的压缩数据集存储至数据库中。本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差,提高数据出现频率计算的准确性,从而提高数据压缩效率,降低市场调查数据所需的存储空间,由此提高存储效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种市场调查数据智能存储方法,其特征在于,该方法包括以下步骤:
采集一段时间内的市场调查数据,得到一个由数值型数据构成的市场调查数据集;对市场调查数据集进行数据填补,得到更新数据集;其中,更新数据集中每个数据对应一个时间点,更新数据集中包含原始数据和填补数据;
使用ISOdata聚类算法,将更新数据集划分为若干个聚类簇;将更新数据集依次划分为若干个小数据集,并得到小数据集序列;在小数据集序列中,根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异,得到每个小数据集的填补数据频率统计必要性;所述每个小数据集的填补数据频率统计必要性,包括的具体步骤如下:
将任意一个小数据集,记为目标集;
在小数据集序列中,将目标集和目标集相邻的所有小数据集,记为参考集;
将目标集中任意一个填补数据,记为主数据;将主数据对应的时间点,记为主时间点;
在更新数据集中,计算主时间点分别与所有原始数据对应的时间点的差值的绝对值,将所述绝对值中的最小值,记为主数据的时间间距;
在目标集中,根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异,得到目标集的填补数据频率统计必要性对应的具体计算公式为:
其中H为目标集的填补数据频率统计必要性,为目标集中所有填补数据的时间间距的均值,/>为目标集中所有数据的数据值方差,m为参考集的数量,/>和/>分别表示第i和i+1个参考集,| |为绝对值函数,/>为以自然常数为底的指数函数,k为预设的指数函数调整值,/>为线性归一化函数;
根据所有小数据集的填补数据频率统计必要性、填补数据数量,得到更新数据集中每种填补数据类别的修正数据数量;
在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率;
根据所有聚类簇中所有数据类别的更新出现频率,进行压缩编码,得到更新数据集的压缩数据集;将更新数据集的压缩数据集存储至数据库中。
2.根据权利要求1所述一种市场调查数据智能存储方法,其特征在于,所述对市场调查数据集进行数据填补,得到更新数据集,包括的具体步骤如下:
将市场调查数据集中的数据,记为原始数据;
使用指数平滑算法对市场调查数据集进行数据填补,得到市场调查数据集中的填补数据;将所有的原始数据和填补数据构成的数据集,记为更新数据集。
3.根据权利要求1所述一种市场调查数据智能存储方法,其特征在于,所述将更新数据集依次划分为若干个小数据集,并得到小数据集序列,包括的具体步骤如下:
在更新数据集中,依次不重复的将每隔q天内的数据构成的数据集,记为小数据集;所述q为预设的时长;
按照时间顺序,对所有小数据集进行排序,得到小数据集序列。
4.根据权利要求1所述一种市场调查数据智能存储方法,其特征在于,所述根据所有小数据集的填补数据频率统计必要性、填补数据数量,得到更新数据集中每种填补数据类别的修正数据数量,包括的具体步骤如下:
在更新数据集中,将数据值相同的所有填补数据构成的类别,记为填补数据类别;
将任意一种填补数据类别,记为目标类别;将目标类别中的数据,记为目标数据;
在小数据集序列中,将存在目标数据的小数据集,记为主小数据集;
根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性,得到目标类别的修正数据数量。
5.根据权利要求4所述一种市场调查数据智能存储方法,其特征在于,所述根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性,得到目标类别的修正数据数量对应的具体计算公式为:
其中A为目标类别的修正数据数量,为第j个主小数据集的填补数据频率统计必要性,/>为第j个主小数据集中的所有目标数据数量,n为主小数据集的数量,/>为第j个主小数据集中的所有填补数据数量,/>为线性归一化函数。
6.根据权利要求1所述一种市场调查数据智能存储方法,其特征在于,所述在每个聚类簇中,根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量,得到每个聚类簇中每种数据类别的更新出现频率,包括的具体步骤如下:
在更新数据集划分的所有聚类簇中,将任意一个聚类簇,记为目标簇;
在目标簇中,将数据值相同的所有数据构成的类别,记为数据类别;将任意一种数据类别,记为参考类别;
当参考类别中存在填补数据时,将参考类别中的填补数据对应的填补数据类别,记为参考填补数据类别;
根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量,得到参考类别的更新出现频率;
当参考类别中不存在填补数据时,将参考类别中的数据数量除以目标簇中的数据数量,记为参考类别的更新出现频率。
7.根据权利要求6所述一种市场调查数据智能存储方法,其特征在于,所述根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量,得到参考类别的更新出现频率对应的具体计算公式为:
其中P为参考类别的更新出现频率,为参考填补数据类别的修正数据数量,/>为参考填补数据类别中的填补数据数量,/>为参考类别中的填补数据数量,D为参考类别中的原始数据数量,B为目标簇中的数据数量。
8.根据权利要求1所述一种市场调查数据智能存储方法,其特征在于,所述根据所有聚类簇中所有数据类别的更新出现频率,进行压缩编码,得到更新数据集的压缩数据集,包括的具体步骤如下:
根据每个聚类簇中所有数据类别的更新出现频率,使用霍夫曼编码对每个聚类簇中的数据进行压缩编码,得到每个聚类簇的压缩数据;
将更新数据集划分的所有聚类簇的压缩数据构成的数据集,记为更新数据集的压缩数据集。
CN202311575179.9A 2023-11-24 2023-11-24 一种市场调查数据智能存储方法 Active CN117290364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311575179.9A CN117290364B (zh) 2023-11-24 2023-11-24 一种市场调查数据智能存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311575179.9A CN117290364B (zh) 2023-11-24 2023-11-24 一种市场调查数据智能存储方法

Publications (2)

Publication Number Publication Date
CN117290364A CN117290364A (zh) 2023-12-26
CN117290364B true CN117290364B (zh) 2024-01-30

Family

ID=89241055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311575179.9A Active CN117290364B (zh) 2023-11-24 2023-11-24 一种市场调查数据智能存储方法

Country Status (1)

Country Link
CN (1) CN117290364B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851844A (zh) * 2024-03-07 2024-04-09 西安乐驰科技有限公司 用于天气测量***的数据高效存储方法
CN117932310B (zh) * 2024-03-21 2024-06-04 临沂润恒信息科技有限公司 一种科技成果交易转化集成信息智能管理方法及***
CN117997352B (zh) * 2024-04-07 2024-05-31 中国医学科学院阜外医院 一种麻醉机监测数据优化存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862012A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 一种基于lstm模型的运维***异常预警方法、装置及设备
CN114049155A (zh) * 2021-11-17 2022-02-15 浙江华坤道威数据科技有限公司 基于大数据分析的营销运营方法、***
CN114596030A (zh) * 2022-03-10 2022-06-07 南京邮电大学 基于数据挖掘的快递网点运营预测模型
CN116503673A (zh) * 2023-06-26 2023-07-28 亿慧云智能科技(深圳)股份有限公司 一种基于心电图的心律失常识别检测方法及***
WO2023201938A1 (zh) * 2022-04-22 2023-10-26 南京邮电大学 缺失轨迹填补方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10680645B2 (en) * 2017-10-30 2020-06-09 AtomBeam Technologies Inc. System and method for data storage, transfer, synchronization, and security using codeword probability estimation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862012A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 一种基于lstm模型的运维***异常预警方法、装置及设备
CN114049155A (zh) * 2021-11-17 2022-02-15 浙江华坤道威数据科技有限公司 基于大数据分析的营销运营方法、***
CN114596030A (zh) * 2022-03-10 2022-06-07 南京邮电大学 基于数据挖掘的快递网点运营预测模型
WO2023201938A1 (zh) * 2022-04-22 2023-10-26 南京邮电大学 缺失轨迹填补方法及***
CN116503673A (zh) * 2023-06-26 2023-07-28 亿慧云智能科技(深圳)股份有限公司 一种基于心电图的心律失常识别检测方法及***

Also Published As

Publication number Publication date
CN117290364A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN117290364B (zh) 一种市场调查数据智能存储方法
CN115801901B (zh) 一种企业生产排放数据压缩处理方法
CN111898591B (zh) 一种基于剪枝残差网络的调制信号识别方法
CN109189861A (zh) 基于指标的数据流统计方法、服务器及存储介质
CN116915259B (zh) 基于物联网的仓配数据优化储存方法及***
CN116861041B (zh) 一种电子公文处理方法及***
CN116760908B (zh) 基于数字孪生的农业信息优化管理方法及***
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
CN115858476A (zh) 用于web开发***中自定义表单获取数据的高效存储方法
CN113515512A (zh) 一种工业互联网平台数据的质量治理及提升方法
CN112084330A (zh) 一种基于课程规划元学习的增量关系抽取方法
CN115543946A (zh) 一种金融大数据优化存储方法
US20110093477A1 (en) Method for estimation of order-based statistics on slowly changing distributions
CN111625578A (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN117171118B (zh) 一种乡村营销数据智能管理***
CN117743870A (zh) 一种基于大数据的水利数据管理***
CN114880318A (zh) 一种基于数据标准实现自动化数据治理的方法及***
CN108985811A (zh) 用于精准营销的方法、装置及电子设备
CN113656453A (zh) 一种服务供需双边模式关联矩阵构造与更新方法
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
CN117237130B (zh) 一种税务风险数据采集监控方法及***
CN115953166B (zh) 基于大数据智能匹配的客户信息管理方法及***
CN117194490B (zh) 基于人工智能的金融大数据存储查询方法
CN117891411B (zh) 一种海量档案数据优化存储方法
CN116561183B (zh) 一种海量医疗保险数据智能信息检索***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant