CN117290364B

CN117290364B - 一种市场调查数据智能存储方法

Info

Publication number: CN117290364B
Application number: CN202311575179.9A
Authority: CN
Inventors: 邓伟超; 程伟; 杨丽丹; 杨金燕; 杨顺作; 杨丽香; 杨丽霞
Original assignee: Shenzhen Chengcheng High Tech Co ltd
Current assignee: Shenzhen Chengcheng High Tech Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-01-30
Anticipated expiration: 2043-11-24
Also published as: CN117290364A

Abstract

本发明涉及数据处理技术领域，具体涉及一种市场调查数据智能存储方法，包括：采集市场调查数据集，进行数据填补，得到更新数据集，将更新数据集依次划分为若干个小数据集，获取每个小数据集的填补数据频率统计必要性，从而得到更新数据集中每种填补数据类别的修正数据数量，将更新数据集划分为若干个聚类簇，获取每个聚类簇中每种数据类别的更新出现频率，由此进行压缩编码，得到更新数据集的压缩数据集，将压缩数据集存储至数据库中。本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差，提高数据出现频率计算的准确性，从而提高数据压缩效率，降低市场调查数据所需的存储空间，由此提高存储效率。

Description

一种市场调查数据智能存储方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种市场调查数据智能存储方法。

背景技术

市场调查数据中包含的数据的种类繁多，包括消费者购买频率、市场规模、市场份额等，其中对于数据的记录方式多为汉字与数字同时记录。由于市场调查数据的繁多和复杂，因此对于市场调查数据的存储，成为数据管理的重要步骤，现有的市场调查数据的存储方法的主要为使用霍夫曼编码对数据进行压缩存储。

现有的问题：由于市场数据表现出的复杂性，在采集数据过程中可能存在一些数据缺失的情况，当缺失数据的填补不准确时，会影响数据出现频率的计算，从而导致霍夫曼编码的压缩效率降低，使得市场调查数据的存储需要较大的存储空间，从而降低了市场调查数据的存储效率。

发明内容

本发明提供一种市场调查数据智能存储方法，以解决现有的问题。

本发明的一种市场调查数据智能存储方法采用如下技术方案：

本发明一个实施例提供了一种市场调查数据智能存储方法，该方法包括以下步骤：

采集一段时间内的市场调查数据，得到一个由数值型数据构成的市场调查数据集；对市场调查数据集进行数据填补，得到更新数据集；其中，更新数据集中每个数据对应一个时间点，更新数据集中包含原始数据和填补数据；

使用ISOdata聚类算法，将更新数据集划分为若干个聚类簇；将更新数据集依次划分为若干个小数据集，并得到小数据集序列；在小数据集序列中，根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异，得到每个小数据集的填补数据频率统计必要性；

根据所有小数据集的填补数据频率统计必要性、填补数据数量，得到更新数据集中每种填补数据类别的修正数据数量；

在每个聚类簇中，根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量，得到每个聚类簇中每种数据类别的更新出现频率；

根据所有聚类簇中所有数据类别的更新出现频率，进行压缩编码，得到更新数据集的压缩数据集；将更新数据集的压缩数据集存储至数据库中。

进一步地，所述对市场调查数据集进行数据填补，得到更新数据集，包括的具体步骤如下：

将市场调查数据集中的数据，记为原始数据；

使用指数平滑算法对市场调查数据集进行数据填补，得到市场调查数据集中的填补数据；将所有的原始数据和填补数据构成的数据集，记为更新数据集。

进一步地，所述将更新数据集依次划分为若干个小数据集，并得到小数据集序列，包括的具体步骤如下：

在更新数据集中，依次不重复的将每隔q天内的数据构成的数据集，记为小数据集；所述q为预设的时长；

按照时间顺序，对所有小数据集进行排序，得到小数据集序列。

进一步地，所述在小数据集序列中，根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异，得到每个小数据集的填补数据频率统计必要性，包括的具体步骤如下：

将任意一个小数据集，记为目标集；

在小数据集序列中，将目标集和目标集相邻的所有小数据集，记为参考集；

将目标集中任意一个填补数据，记为主数据；将主数据对应的时间点，记为主时间点；

在更新数据集中，计算主时间点分别与所有原始数据对应的时间点的差值的绝对值，将所述绝对值中的最小值，记为主数据的时间间距；

在目标集中，根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异，得到目标集的填补数据频率统计必要性。

进一步地，所述在目标集中，根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异，得到目标集的填补数据频率统计必要性对应的具体计算公式为：

其中H为目标集的填补数据频率统计必要性，为目标集中所有填补数据的时间间距的均值，/>为目标集中所有数据的数据值方差，m为参考集的数量，/>和/>分别表示第i和i+1个参考集，| |为绝对值函数，/>为以自然常数为底的指数函数，k为预设的指数函数调整值，/>为线性归一化函数。

进一步地，所述根据所有小数据集的填补数据频率统计必要性、填补数据数量，得到更新数据集中每种填补数据类别的修正数据数量，包括的具体步骤如下：

在更新数据集中，将数据值相同的所有填补数据构成的类别，记为填补数据类别；

将任意一种填补数据类别，记为目标类别；将目标类别中的数据，记为目标数据；

在小数据集序列中，将存在目标数据的小数据集，记为主小数据集；

根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性，得到目标类别的修正数据数量。

进一步地，所述根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性，得到目标类别的修正数据数量对应的具体计算公式为：

其中A为目标类别的修正数据数量，为第j个主小数据集的填补数据频率统计必要性，/>为第j个主小数据集中的所有目标数据数量，n为主小数据集的数量，/>为第j个主小数据集中的所有填补数据数量，/>为线性归一化函数。

进一步地，所述在每个聚类簇中，根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量，得到每个聚类簇中每种数据类别的更新出现频率，包括的具体步骤如下：

在更新数据集划分的所有聚类簇中，将任意一个聚类簇，记为目标簇；

在目标簇中，将数据值相同的所有数据构成的类别，记为数据类别；将任意一种数据类别，记为参考类别；

当参考类别中存在填补数据时，将参考类别中的填补数据对应的填补数据类别，记为参考填补数据类别；

根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量，得到参考类别的更新出现频率；

当参考类别中不存在填补数据时，将参考类别中的数据数量除以目标簇中的数据数量，记为参考类别的更新出现频率。

进一步地，所述根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量，得到参考类别的更新出现频率对应的具体计算公式为：

其中P为参考类别的更新出现频率，为参考填补数据类别的修正数据数量，/>为参考填补数据类别中的填补数据数量，/>为参考类别中的填补数据数量，D为参考类别中的原始数据数量，B为目标簇中的数据数量。

进一步地，所述根据所有聚类簇中所有数据类别的更新出现频率，进行压缩编码，得到更新数据集的压缩数据集，包括的具体步骤如下：

根据每个聚类簇中所有数据类别的更新出现频率，使用霍夫曼编码对每个聚类簇中的数据进行压缩编码，得到每个聚类簇的压缩数据；

将更新数据集划分的所有聚类簇的压缩数据构成的数据集，记为更新数据集的压缩数据集。

本发明的技术方案的有益效果是：

本发明实施例中，采集市场调查数据集，进行数据填补，得到更新数据集。将更新数据集依次划分为若干个小数据集，获取每个小数据集的填补数据频率统计必要性，从而得到更新数据集中每种填补数据类别的修正数据数量。其通过分析填补数据的可信度，修正填补数据对数据出现频率的影响，提高数据出现频率的准确性，从而提高压缩效率。将更新数据集划分为若干个聚类簇，获取每个聚类簇中每种数据类别的更新出现频率，由此进行压缩编码，得到更新数据集的压缩数据集。其通过对数据集分类，分别进行数据压缩，减小了数据压缩过程中因数据量过大造成的运算压力，从而提高压缩效率。最后将更新数据集的压缩数据集存储至数据库中。至此本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差，提高数据出现频率计算的准确性，从而提高数据压缩效率，降低市场调查数据所需的存储空间，由此提高存储效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种市场调查数据智能存储方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种市场调查数据智能存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种市场调查数据智能存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种市场调查数据智能存储方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集一段时间内的市场调查数据，得到一个由数值型数据构成的市场调查数据集；对市场调查数据集进行数据填补，得到更新数据集；其中，更新数据集中每个数据对应一个时间点，更新数据集中包含原始数据和填补数据。

采集一段时间内的市场调查数据，得到一个由数值型数据构成的市场调查数据集。将市场调查数据集中的数据，记为原始数据。

所需说明的是：通过调查问卷或市场数据库等方式获取市场调查数据，如消费意见等、数字信息包括、商品价格、份额占比等。由此获取的数据的数据类型存在差异，一般为数字和汉字。为了方便存储，本实施例的市场调查数据集中的数据只能为数字或者汉字。对于汉字构成的数据集，本实施例使用GBK编码，将汉字转换为数字。由此令采集的市场调查数据集中的数据为数字，方便后续的压缩存储。其中，GBK编码为公知技术，具体方法在此不做介绍。

在霍夫曼编码过程中，需要对数据的出现频率进行统计，在数据量足够大的时候，直接统计总体频率的计算量过大，因此需要先对数据集进行分类，令数据值相似的数据被分为一类。由此可通过使用霍夫曼编码分别对每类数据进行编码压缩，减小了数据的计算量，提高了压缩效率。

由于市场数据表现出的复杂性，在采集数据过程中可能存在一些数据缺失的情况。因此需要先经过数据缺失填补后再进行数据分类。

已知市场调查数据存在时序特征，且其在临近的时间上，表现的数据特征是相似的，例如一个淡季转旺季的市场数据，其持续时间为三个月，则这三个月内的市场数据的波动相对于由淡季转旺季的市场调查数据的波动而言，其波动基本可以忽略不计。而指数平滑算法是一种常用的时间序列预测和数据填补方法。

因此本实施例使用指数平滑算法对市场调查数据集进行数据填补，得到市场调查数据集中的填补数据。

所需说明的是：指数平滑算法为公知技术，具体方法在此不做介绍。平滑因子为指数平滑算法的主要参数，本实施例使用调整法确定平滑因子，即通过尝试不同的平滑因子，比较预测误差或平滑效果，选择效果最好的平滑因子。并且根据指数平滑算法得到的填补数据也会存在对应的时间点。

将所有的原始数据和填补数据构成的数据集，记为更新数据集。所述更新数据集中每个数据对应一个时间点。

步骤S002：使用ISOdata聚类算法，将更新数据集划分为若干个聚类簇；将更新数据集依次划分为若干个小数据集，并得到小数据集序列；在小数据集序列中，根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异，得到每个小数据集的填补数据频率统计必要性。

已知ISOdata聚类算法是一种经典的聚类算法，它可以自动地将数据集中的数据值相似的数据点聚集为一类。

因此本实施例使用ISOdata聚类算法，将更新数据集划分为若干个聚类簇。其中，ISOdata聚类算法为公知技术，具体方法在此不做介绍。

在频率统计过程中，若直接根据相同数据值的数据数量进行频率统计，其并不能有效将数据填补导致的数据误差避免，会影响频率统计结果，从而降低压缩效率。因此数据的频率统计需要通过分析填补数据的可信度，对频率统计进行修正，频率统计的必要性体现在，市场数据缺失的时间并不固定，其中缺失值可能为淡季数据，也可能为旺季数据，当缺失旺季数据时，其在数据填补时的波动数据的极值可能并未达到实际市场数据，由于数据填补的预测数据集为前后数据，即参考的数据可能均为淡季数据，因此最终的填补数据可能不能准确体现市场数据的波动。对于淡季数据而言存在相同的规律。

由上述原因对填补后的市场调查数据进行频率统计，其中填补数据的频率统计的必要性取决于与现有市场调查数据的接近程度，越接近现有的数据，频率统计的必要性越大，越远离现有数据，统计的必要性越小，且当频率统计时，现有数据的波动越大，填补后的数据的可信程度越低，从而频率统计的必要性越小，数据波动越大，频率统计的必要性越大。

本实施例预设的时长q为30天，以此为例进行叙述，其它实施方式中可设置为其它值，本实施例不进行限定。即分析每月之间的数据差异。

在更新数据集中，依次不重复的将每q天内的数据构成的数据集，记为小数据集。

所需说明的是：市场调查数据存在时序特征，因此可根据时间将更新数据集划分，若最后一次划分不满足q天，其也为一个小数据集。

将任意一个小数据集，记为目标集。在小数据集序列中，将目标集和其相邻的所有小数据集，记为参考集。即参考集一般为3个，当目标集在小数据集序列首尾时，参考集为2个。

将目标集中任意一个填补数据，记为主数据。将主数据对应的时间点，记为主时间点。

所需说明的是：若目标集中无填补数据，则另取一个小数据集为目标集。对无填补数据的小数据集不计算填补数据频率统计必要性，其不影响后续分析。

在更新数据集中，计算主时间点分别与所有原始数据对应的时间点的差值的绝对值，将所述绝对值中的最小值，记为主数据的时间间距。

按照上述方式，得到目标集中每个填补数据的时间间距。

由此可知目标集的填补数据频率统计必要性H的计算公式为：

其中H为目标集的填补数据频率统计必要性，为目标集中所有填补数据的时间间距的均值，/>为目标集中所有数据的数据值方差，m为参考集的数量，/>和/>分别表示第i和i+1个参考集。| |为绝对值函数。/>为以自然常数为底的指数函数，本实施例以来呈现反比例关系及归一化处理，实施者可根据实际情况设置反比例函数及归一化函数，k为预设的指数函数调整值，避免指数函数衰减过快。/>为线性归一化函数，将数据值归一化至[0,1]区间内。本实施例设定k为0.1，以此为例进行叙述，其它实施方式中可设置为其它值，本实施例不进行限定。

所需说明的是：当填补数据的时间间距越大时，根据时序特征预测的填补数据越不可信，因此越大，目标集的填补数据误差越大，即目标集中的填补数据进行频率统计的必要性越小。当目标集中的数据波动越大，即数据值方差越大，且与其相邻小数据集中的数据波动差异越大，预测的填补数据越不可信，/>表示相邻小数据集的数据波动的差异，故用/>的归一化值为/>的调整值，由此用/>和/>发反比例归一化值，表示目标集的填补数据频率统计必要性，H越大，对目标集中的填补数据进行频率统计的必要性越大。并且由于参考集处于小数据集序列中，故参考集存在顺序。

按照上述方式，得到每个小数据集的填补数据频率统计必要性。

步骤S003：根据所有小数据集的填补数据频率统计必要性、填补数据数量，得到更新数据集中每种填补数据类别的修正数据数量。

由于填补数据分布在不同的小数据集，且每种数据值相同的填补述数据在每个小数据集的数量占比不同，因此需要结合上述每个小数据集的填补数据频率统计必要性，分析每种数据值相同的填补述数据的修正数量。

在更新数据集中，将数据值相同的所有填补数据构成的类别，记为填补数据类别。

将任意一种填补数据类别，记为目标类别。将目标类别中的数据，记为目标数据。

在小数据集序列中，将存在目标数据的小数据集，记为主小数据集。

由此可知目标类别的修正数据数量A的计算公式为：

其中A为目标类别的修正数据数量，为第j个主小数据集的填补数据频率统计必要性，/>为第j个主小数据集中的所有目标数据数量，n为主小数据集的数量，/>为第j个主小数据集中的所有填补数据数量。/>为线性归一化函数，将数据值归一化至[0,1]区间内。

所需说明的是：越大，说明第j个主小数据集中的填补数据越可信，而/>越大，说明第j个主小数据集中，目标数据数量在填补数据数量中的占比越大，即第j个主小数据集中的目标数据越可信。因此用/>表示第j个主小数据集中的目标数据的可信数量，故用/>表示目标类别的修正数据数量。

按照上述方式，得到每种填补数据类别的修正数据数量。

步骤S004：在每个聚类簇中，根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量，得到每个聚类簇中每种数据类别的更新出现频率。

在更新数据集划分的所有聚类簇中，将任意一个聚类簇，记为目标簇。

当填补数据可信度较低时，影响数据的出现频率的准确性，从而降低压缩效率，而本实施例是对每个聚类簇分别进行压缩存储，因此需要进一步分析每个聚类簇中填补数据对应的数据值的出现频率，并进行调整，保障出现频率的准确性，提高压缩效率。

在目标簇中，将数据值相同的所有数据构成的类别，记为数据类别。将任意一种数据类别，记为参考类别。

当参考类别中存在填补数据时，将参考类别中存在的填补数据对应的填补数据类别，记为参考填补数据类别。

由此可知参考类别的更新出现频率P的计算公式为：

所需说明的是：表示参考类别中的填补数据数量在该填补数据总数量中的占比，为参考填补数据类别的修正数据数量，即表示该填补数据总数量的修正数量，因此表示该填补数据的修正数量。因此用/>表示参考类别的更新出现频率。

按照上述方式，得到目标簇中每种数据类别的更新出现频率。

步骤S005：根据所有聚类簇中所有数据类别的更新出现频率，进行压缩编码，得到更新数据集的压缩数据集；将更新数据集的压缩数据集存储至数据库中。

根据目标簇中所有数据类别的更新出现频率，使用霍夫曼编码对目标簇中的数据进行压缩编码，得到目标簇的压缩数据。其中，霍夫曼编码为公知技术，具体方法在此不做介绍。

按照上述方式，得到更新数据集划分的每个聚类簇的压缩数据。

将更新数据集的压缩数据集存储至数据库中。

至此，本发明完成。

综上所述，在本发明实施例中，采集市场调查数据集，进行数据填补，得到更新数据集。将更新数据集依次划分为若干个小数据集，根据每个小数据集中的数据差异、填补数据与原始数据的时间差异、相邻小数据集之间的数据差异，得到每个小数据集的填补数据频率统计必要性，从而得到更新数据集中每种填补数据类别的修正数据数量。将更新数据集划分为若干个聚类簇，在每个聚类簇中，根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量，得到每个聚类簇中每种数据类别的更新出现频率，由此进行压缩编码，得到更新数据集的压缩数据集，将更新数据集的压缩数据集存储至数据库中。本发明通过数据集分类、调整因填补数据带来的数据出现频率的误差，提高数据出现频率计算的准确性，从而提高数据压缩效率，降低市场调查数据所需的存储空间，由此提高存储效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种市场调查数据智能存储方法，其特征在于，该方法包括以下步骤：

使用ISOdata聚类算法，将更新数据集划分为若干个聚类簇；将更新数据集依次划分为若干个小数据集，并得到小数据集序列；在小数据集序列中，根据每个小数据集中的数据差异、填补数据与原始数据的时间点的差异、相邻小数据集之间的数据差异，得到每个小数据集的填补数据频率统计必要性；所述每个小数据集的填补数据频率统计必要性，包括的具体步骤如下：

将任意一个小数据集，记为目标集；

在目标集中，根据所有填补数据的时间间距、所有数据的数据值方差、相邻参考集之间的数据差异，得到目标集的填补数据频率统计必要性对应的具体计算公式为：

其中H为目标集的填补数据频率统计必要性，为目标集中所有填补数据的时间间距的均值，/>为目标集中所有数据的数据值方差，m为参考集的数量，/>和/>分别表示第i和i+1个参考集，| |为绝对值函数，/>为以自然常数为底的指数函数，k为预设的指数函数调整值，/>为线性归一化函数；

2.根据权利要求1所述一种市场调查数据智能存储方法，其特征在于，所述对市场调查数据集进行数据填补，得到更新数据集，包括的具体步骤如下：

将市场调查数据集中的数据，记为原始数据；

3.根据权利要求1所述一种市场调查数据智能存储方法，其特征在于，所述将更新数据集依次划分为若干个小数据集，并得到小数据集序列，包括的具体步骤如下：

4.根据权利要求1所述一种市场调查数据智能存储方法，其特征在于，所述根据所有小数据集的填补数据频率统计必要性、填补数据数量，得到更新数据集中每种填补数据类别的修正数据数量，包括的具体步骤如下：

5.根据权利要求4所述一种市场调查数据智能存储方法，其特征在于，所述根据所有主小数据集中的填补数据数量、目标数据数量、填补数据频率统计必要性，得到目标类别的修正数据数量对应的具体计算公式为：

6.根据权利要求1所述一种市场调查数据智能存储方法，其特征在于，所述在每个聚类簇中，根据相同数据值的数据中原始数据和填补数据的数量、填补数据类别的修正数据数量、填补数据类别中的填补数据数量，得到每个聚类簇中每种数据类别的更新出现频率，包括的具体步骤如下：

7.根据权利要求6所述一种市场调查数据智能存储方法，其特征在于，所述根据目标簇中的数据数量、参考类别中的填补数据数量、原始数据数量、参考填补数据类别的修正数据数量、参考填补数据类别中的填补数据数量，得到参考类别的更新出现频率对应的具体计算公式为：

8.根据权利要求1所述一种市场调查数据智能存储方法，其特征在于，所述根据所有聚类簇中所有数据类别的更新出现频率，进行压缩编码，得到更新数据集的压缩数据集，包括的具体步骤如下：