CN104731791A

CN104731791A - 一种市场销售分析数据集市***

Info

Publication number: CN104731791A
Application number: CN201310704005.8A
Authority: CN
Inventors: 韩婕珺; 王小建; 冯怡; 卢杰; 关淑敏
Original assignee: Dongyang Ai Weide Advertisement Media Co Ltd
Current assignee: Dongyang Ai Weide Advertisement Media Co Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2015-06-24

Abstract

本发明提出一种市场销售分析数据集市***，该***模块包括：数据接入层、数据抽取模块、数据转化模块、数据清洗模块、日志与警告发送模块、数据加载模块；数据接入层的数据包括有办公数据、外部数据、业务数据；该***的模型包括数据逻辑模型和数据物理模型；首先分析设计销售数据集市的必要性，然后通过对数据集成方法的讨论，分析ETL数据处理，包括噪声数据处理、数据的一致性和数据质量等问题，并通过数据迁移工具实现对各种数据源进行重新组织和加工。而在数据集市的物理模型中则是依据逻辑模型建立的物理表结构实现。最后，展望数据集市在市场销售分析中的应用前景。

Description

一种市场销售分析数据集市***

技术领域

本发明涉及业务数据分析***，尤其涉及一种方便把业务数据迅速转化成为对市场不断优化，提升对市场变化的响应能力的销售分析数据集市***。

背景技术

目前，对企业中如何把业务数据迅速转化成为对市场、对运营状况的认知，从而辅助企业决策，不断优化决策管理流程，提升对市场变化的响应能力，已经成为销售部门迫切需要解决的问题。因此需要利用数据集市建立完善的部门级数据平台，整合现有的***数据和外部数据，及时有效地反映市场销售的情况，为决策分析支持提供依据。

但是，市场销售分析***中主要存在以下几方面的问题：

1、数据分散，数据交换过于复杂

目前在线运行的子***有多个，其中大部分子***软硬件配置各不相同，普遍存在用于存放各自的管理数据和历史数据的本地数据库；并且源数据在各内部***间的交换过于复杂，期间还夹杂着和外部数据源进行的数据交换。

由于缺乏统一的数据交换平台，数据零散缺乏***管理，形成了错综复杂的数据交换链，一旦链条中某个环节出现问题，会导致部分***受到影响，数据及时查询也会随之失效。此外数据在各***间信息不能完全共享，使用中数据也未能实现闭环利用，造成各数据库之间存在大量冗余数据，数据的一致性差，数据量庞大而无序，严重影响了业务的协同开展，对销售分析决策的准确性和时效性作用都十分有限。

为了在新的竞争条件下取得成功，业务部门必须在很大程度上依靠有关销售信息和市场竞争信息的因素的统一并且及时的信息，例如：客户采购、定单、产品信息、竞争程度及营销效果等等。然而，仅仅拥有这些信息还不够，业务部门还要把恰当的信息交付到公司内部有关人员的手中。

2、报表是静态的，查询性能差异大

用户无法通过交互方式探测报表中的数据以获取更详细的信息，例如他们可以处理Microsoft Office Excel透视表。虽然现有的一组预定义报表足以供许多用户使用，但更高级的用户却需要对数据库进行直接查询访问，以进行交互式查询和访问专用报表。但是，由于当前的数据库***非常复杂，因此，这类用户需要花费大量时间来掌握如何创建有效查询。

用户在对数据库进行操作时，由于所涉及的业务数据量不一样，就会导致有些查询只需几秒钟便可非常迅速地返回结果，而另一些查询需要几分钟才能返回结果。

3、聚合表难以管理、信息难以审核

在尝试缩短查询响应时间方面，技术人员已在数据库中生成几种聚合表。例如，他们生成了一种按月汇总销售额的表。然而，尽管这些聚合表可显著提高查询性能，但是，他们所生成的用于在一段时间内维护这些表的基础结构却容易破坏并出现错误。

业务部门主要把当前数据库当作进行大容量查询的数据源。然后，再将数据下载到单个电子表格中，并花费大量时间准备数据和处理电子表格。因此，很难在整个部门内准备、审核和管理部门的销售报表。

同时，业务用户很难构造一些专用查询，以组合两个相关的信息集（如销售额和销售配额）。此类查询会占用大量的数据库空间。此外，由于这些报表非常复杂，因此用户不愿尝试修改这些报表。

4、综合分析能较弱

目前在现有的***中，已经基本实现了统计查询的***功能。使用统计查询***，可为日常管理业务提供分析报表，以及一定程度的查询功能。但目前的统计分析***是基于联机事务处理***（OLTP）来设计，主要反映当前低层次的小业务量的需求，这种设计方式无法为数据的合成、分析和综合提供强大的功能支持，无法动态反映多个层面，多粒度的信息；但是，随着销售分析管理要求的提高，对统计和查询的需求也不断提高和发展。尤其是，更高层次的、带有分析性质的综合查询统计需求不断被提出来。另一方面，对市场销售的发展调整需要进行科学的预测分析。这些需求，以目前的***架构，是无法满足上述要求的。所以，建立合适数据架构平台、提高销售管理综合分析能力，是当前销售管理中十分紧迫的任务。

综上所述，针对现有技术中存在的缺陷，特别需要一种市场销售分析数据集市***，以解决现有技术的不足。

发明内容

本发明的目的是提供一种市场销售分析数据集市***，通过分析设计销售数据集市的必要性，然后通过对数据集成方法的讨论，分析ETL数据处理，包括噪声数据处理、数据的一致性和数据质量等问题，并通过数据迁移工具实现对各种数据源进行重新组织和加工，以解决现有技术的不足。

本发明为解决其技术问题所采用的技术方案是，

一种市场销售分析数据集市***：

该***模块包括：数据接入层、数据抽取模块、数据转化模块、数据清洗模块、日志与警告发送模块、数据加载模块；

数据接入层的数据包括有办公数据、外部数据、业务数据；

数据抽取模块包含有存放DW的数据库***相同的数据源处理、DW数据库***不同的数据源、增量更新；

数据转换模块中对数据进行不一致数据转换、数据粒度的转换、商务规则的计算；

数据清洗模块包含有三大类：不完整的数据、错误的数据、重复的数据；

日志与警告发送模块记录***运行时的日志及向***管理员发送警告；

数据加载模块包含有数据准备单元、数据加载方式选择单元、大批量数据加载单元；

该***的模型包括数据逻辑模型和数据物理模型；

数据逻辑模型进行分析主题域、粒度层次划分、确定数据分割策略、关系模式定义；

数据物理模型包含有存储结构单元、索引策略单元、存储策略单元。

进一步，所述的数据接入层的数据包括有办公数据主要是指市场销售部门的办公***数据，这些数据分电子数据和非电子数据两种，以电子数据方式保存的数据，主要指电子表格、数据库和文字处理文档等形式保存的数据，非电子数据主要指那些文件、通知等公文，从数据的结构形式看，办公数据有的是以二维表格形式表示的结构化数据，有的是以文字文档处理文件表示的结构化数据，因此办公数据源的数据结构是十分复杂的，这就给数据集市的数据抽取、加载增加了很大的难度，有时甚至需要人工处理以后，才能加载到数据集市中；

外部数据指那些不为市场销售部门所操作、所拥有、所控制的数据，这些数据有的电子形式的，如第三方信息服务商以Web Service方式XML数据，有是非电子形式的，如分销商提供的有关报告文档等，这些数据源的使用难度与处理方式与办公数据大致相同；

业务数据是指从目前正在运行的业务处理***那里收集到，并保存到业务处理***数据库的数据，对业务数据，需要分析哪些数据应该加载到数据集市中。

进一步，所述的数据抽取模块包含有存放DW的数据库***相同的数据源处理中这类数源在设计比较容易，DBMS(包括SQL Server，Oracle)都会提供数据库链接功能，在DW数据库服务器和原业务***之间建立直接的链接关系就可以写Select语句直接访问；

DW数据库***不同的数据源这类数据源一般情况下也可以通过ODBC的方式建立数据库链接，如Oracle和SQL Server之间，如果不能建立数据库链接，可以有两种方式完成，一种是通过工具将源数据导出成.txt或者是.xls文件，然后再将这些源***文件导入到ODS中，另外一种方法通过程序接口来完成；

增量更新中对于数据量大的***，必须考虑增量抽取，一般情况，市场销售业务***会记录业务发生的时间，可以用作增量的标志，每次抽取之前首先判断ODS中记录最大的时间，然后根据这个时间去业务***数据库中取大于这个时间的所有记录。

进一步，所述的数据转换模块：不一致数据转换在市场销售分析***中，来自不同数据源的数据存在数据内容不一致的情况，这就需要创建一个整合的过程，将不同业务***的相同类型的数据统一；

数据粒度的转换在业务***一般存储非常明细的数据，而数据集市中的数据是用来分析的，不需要非常明细的数据，一般情况下，会将业务***数据按照数据集市粒度进行聚合；

商务规则的计算在市场销售分析***中存在着不同的业务规则，不同的数据指标，这些指标有的时候不是简单的加减就能完成，这个时候需要在ETL过程中将这些数据指标计算好了之后存储在数据集市中，供分析使用。

进一步，所述的数据清洗模块中的不完整的数据是一些应该有的信息缺失，如供应商的名称，分公司的名称，客户的区域信息缺失、业务***中主表与明细表不能匹配等，需要将这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全，补全后再写入到数据集市；

错误的数据的产生的原因主要是业务***不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界，这一类数据也要分类，对于类似于全角字符、数据前后有不面见字符的问题可以通过写SQL语句的方式找出来，然后要求客户在业务***修正之后抽取；日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败，这一类错误需要去业务***数据库用SQL的方式挑出来，交给业务部门进行修正，修正之后再抽取；

重复的数据问题在维表中比较常见，将重复的数据的记录所有字段导出来，然后让业务部门确认并整理。

进一步，所述的日志与警告发送模块中的日志包含有三类：

第一类是执行过程日志，是在ETL执行过程中每执行一步的记录，记录每次运行每一步骤的起始时间，影响了多少行数据，流水账形式；

第二类是错误日志，当某个模块出错的时候需要写错误日志，记录每次出错的时间，出错的模块以及出错的信息等；

第三类日志是总体日志，只记录ETL开始时间，结束时间是否成功信息；

警告发送在ETL出错后，不仅要写ETL出错日志而且要向***管理员发送警告，发送警告的方式有多种，常用的就是给***管理员发送邮件，并附上出错的信息，方便管理员排查错误。

进一步，所述的数据加载模块中：

数据准备单元：由于市场销售分析数据集市的数据抽取、清洗、加载需要较长的时间，因此在对数据进行处理时要设置一个作为数据准备区的临时数据库，专门用于数据抽取、清洗和加载的操作，在数据准备区里可以设置数据抽取、清洗和加载的重新启动机制，在数据的抽取、清洗和加载过程中，常常由于***的原因或其它一些不可预知的因素导致这些活动失败，如果失败以后，重新开始将浪费***的大量资源，为此，可以设置数据抽取、清洗和加载的监控机制，对这些活动进行动态监控，一旦失败，就可以从失败处重新启动，而不必从头开始，如某一业务数据的抽取、清洗和加载需要8个步骤才能完成，当***完成了其中的6个步骤，进入第7个步骤后，加载失败，***在重新启动以后，就可以在第7步重新开始，而不必从头开始，为完成这一机制，需要将数据的抽取、清洗和加载活动明确地分成若干步骤，并在进入某一步骤时，保留当前的状态；

数据加载方式选择单元：数据加载的方式一般考虑批处理，因为数据的加载活动涉及的***资源较多，需要数据源和数据集市的处理器、内存和外部存储设备，而大多数数据源会用于业务处理***，在白天需要为用户提供实时服务，因此数据集市的数据加载往往选择在节假日或夜间进行，这就需要数据加载处理与其它相关的业务处理协调好；

大批量数据加载单元：市场销售分析数据集市中有的数据源被禁止用于单纯的大容量数据加载，这就需要采用一些特殊的技术来处理大量数据的加载，在大量数据加载过程中还涉及***资源的使用限制问题，同时需要数据源和数据集市的处理器、网络与内存各方面的支持，而这些宝贵资源在应用中会遇到很大限制，市场销售分析数据集市中大批量数据的加载是通过采用数据复制技术来实现的，数据的复制技术可以保证数据加载过程中的完整性约束，不会受到***失败等不测因素的影响，并且可以对数据的传送过程进行优化处理。

进一步，所述的数据逻辑模：

进行分析主题域：在概念模型设计中，我们确定了几个基本的主题域，但是，数据集市的设计方法是一个逐步求精的过程，在进行设计时，一般是一次一个主题或一次若干个主题地逐步完成的；所以，我们必须对概念模型设计步骤中确定的几个基本主题域进行分析，一并选择首先要实施的主题域；选择第一个主题域所要考虑的是它要足够大，以便使得该主题域能建设成为一个可应用的***;它还要足够小，以便于开发和较快地实施；如果所选择的主题域很大并且很复杂，我们甚至可以针对它的一个有意义的子集来进行开发，在每一次的反馈过程中，都要进行主题域的分析，市场销售分析数据集市的最核心的主题是产品在市场上的销售分析；

粒度层次划分：数据集市逻辑设计中要解决的一个重要问题是决定数据集市的粒度划分层次，粒度层次划分适当与否直接影响到数据集市中的数据量和所适合的查询类型，在数据集市中确定粒度级别时，需要考虑这样一些因素：要接受的分析类型、可接受的数据最低粒度和能存储的数据量，在市场销售分析数据集市中，采用双重数据粒度的方式，对时间较远的销售数据只保留粒度较大的汇总数据，用低粒度数据保存近期的销售数据和汇总数据，这样既可以销售近况进行细节分析，又可以利用汇总数据对销售趋势进行分析；

确定数据分割策略：在这一步里，要选择适当的数据分割的标准，主要考虑以下几方面因素:数据量（而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等，数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据，因为数据分割是跟数据分析处理的对象紧密联系的；我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的；

关系模式定义包含有市场销售分析数据集市的事实表模型、市场销售分析数据集市的维表模型的设计；

市场销售分析数据集市的事实表模型：完成基于商务智能的市场销售分析***数据集市的星形模型设计后，需用进一步确定在数据集市中，怎样的粒度数据才能满足管理人员对数据集市销售分析的需要，在数据集市的设计中一般首先考虑那些由于业务处理而获取的原子型数据，因为那些原子型数据具有高度维结构化，事实度量值越细微、越具有原子性，就能够确切地反映出更多的事实，因此原子型数据可以为管理分析提供最大限度的灵活性，可以接受各种形式的约束，并能以各种可能的形式展现给用户，随时满足用户的各种查询需要；

市场销售分析数据集市的维表模型的设计内包括有日期维、产品维、分销商维、地区维、会计科目维、业务部门维。

本发明的优点在于，本发明首先分析设计销售数据集市的必要性，然后通过对数据集成方法的讨论，分析ETL数据处理，包括噪声数据处理、数据的一致性和数据质量等问题，并通过数据迁移工具实现对各种数据源进行重新组织和加工。在此基础上，在概念模型根据主题分析需要，确定数据集市的多维模型。其中在逻辑模型中确定以企业的产品销售分析为主题，以客户、产品、时间和地区等作为数据集市的维度，采用星型和雪花型数据模型相结合，讨论各个维度的粒度划分层次和数据分割策略。而在数据集市的物理模型中则是依据逻辑模型建立的物理表结构实现。最后，展望数据集市在市场销售分析中的应用前景。

附图说明

下面结合附图和具体实施方式来详细说明本发明：

图1是本发明提出架构示意图；

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例,进一步阐述本发明。

参见图1，本发明提出的一种市场销售分析数据集市***：

数据接入层的数据包括有办公数据、外部数据、业务数据；

该***的模型包括数据逻辑模型和数据物理模型；

市场销售中的数据经过抽取、清理、转换后，进行基本分析，并将数据加载到数据准备区域中，同进也抽取来自其它***的数据，一并将它们加载到数据准备区域中。数据一到准备区域，市场销售数据必须经过许多程序的处理，而且还需要根据用户需求，进一步过滤不需要的数据，有时过滤任务也会在数据加载到数据准备区域时执行。在所有的数据处理成可用形式后，再组装到维表的数据。

ETL***中还包括对数据的后加载处理，后加载处理包括备份超过数据集市时间窗口的旧数据，建立聚合表和对数据库重新编排索引，同时确认最近加载数据的有效性。

对于文件类型数据源(.txt,，xls)，可以借助SQL SERVER2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。

销售分析***中的数据源有很大一部分来自于业务人员提供的Excel文件，在日常工作中，业务人员需要对某些数据进行调整后才能显示正确的报表内容，这就需要把这些数据导入数据集市***中来。

通过SSIS工具的XML Source控件可以很容易的实示对XML文件中数据读取操作。在源数据工具集中选择XML数据源组件，然后指定XML文件所对应的位置，通过设置筛选条件、聚合相应的数据项等方法为目标数据库提供规范有效的数据。

市场销售业务***中储存了分销商产品采购的详细信息，有时候一笔定单中会根据产品类别分成多条数据进行记录，如果把这些数据全部抽取到当前数据集市中，会给数据集市带来很多冗余数据，同时会给数据集市的性能带来严重的影响。因此需要对业务***中的以天为单位进行转换、聚合后，然后存储到数据集市中去。

如市场销售部门的管理人员比较关注于销售量达到一定数量分销商的经营状况，会采取相应的激励措施来继续进行合作，以避免分销商被竞争对手夺走，从而保证产品在市场中的核心竞争力。

市场销售分析***中数据清洗的任务是过滤那些不符合要求的数据，同时将过滤的结果交给业务部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。在市场销售分析***中，不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。

不完整的数据是一些应该有的信息缺失，如供应商的名称，分公司的名称，客户的区域信息缺失、业务***中主表与明细表不能匹配等，需要将这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全，补全后再写入到数据集市；

市场销售分析***中的数据清洗是一个反复的过程，不可能在短期内完成，只有不断的发现问题，解决问题。对于是否过滤、是否修正一般要求业务部门人员进行确认；对于过滤掉的数据，写入Excel文件或者将过滤数据写入数据表，在ETL开发的初期定期向业务人员发送过滤数据的邮件，促使他们尽快的修正错误，同时也可以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉了，对于每个过滤规则认真进行验证，并要业务人员确认后才行。

在市场销售分析***中对客户信息的清洗过程，在对业务***和外部数据中的客户信息进行抽取时，由于数据集市中已经存在客户信息，首先将源数据和数据集市中的数据进行完全匹配，若匹配不成功，则采用模糊匹配的方式，如忽略“,.;:-"'&/\@!?()<>[]{}|#*^%”这些标点信息等，同时设置相似度，如70%，将模糊匹配的数据同完全匹配的数据进行合并，然后更新数据集市中的客户信息，对于模糊匹配不成功的客户信息，通过分组聚合后***到客户信息表中去。

市场销售分析***中的ETL在执行过程中，由于数据质量、网络原因会造成任务执行失败，这就需要对出错信息进行记录，并将日志信息发送给相关负责人员进行处理，

日志与警告发送模块中的日志包含有三类：

进一步，所述的数据加载模块中：

数据模型的是设计数据集市、进行数据整合操作的前提。数据模型是对现实事物的反映和抽象，可以更加清晰地反映客观世界。传统的OLTP***是按照应用来建立它的模型。也就是说，OLTP***是面向应用的。而数据集市是面向主题的，一般按照主题来建模。主题是一个在较高层次将数据进行归类的标准，每个主题基本对应一个宏观的分析领域，满足该领域决策的需要。本文从整个市场销售分析***的角度考虑，其数据模型不再面向个别应用，而是面向整个市场销售分析***的主题，如对分销商、产品、地区、时间、市场销售等主题的抽取是按照分析的要求来确定的。

市场销售分析数据集市的设计并非一件轻而易举的事情。这需要经历一个从现实环境到抽象模型，从抽象模型到具体实现的过程。要完成这一过程，必须依靠各种不同的数据模型。在从现实到抽象的过程中需要依靠概念模型的支持，要将现实的决策分析环境抽象成一个概念数据模型。然后，将此概念模型逻辑化。最后，再将逻辑模型向数据集市的物理模型转化，一旦完成数据集市的物理模型，就可以说数据集市的具体实现有了可靠的设计方案。

逻辑建模是市场销售分析数据集市实施过程中的重要一环，因为它能直接反映出市场销售部门的需求，同时对***的物理实施有着重要的指导作用。通过实体和关系勾勒出真个企业的数据蓝图。在这一步里进行的工作主要有：

数据集市的每个主题都是由多个表来实现的，这些表之间依靠主题的公共码键联系在一起，形成一个完整的主题。在概念模型设计时，就确定了数据集市的基本主题，并对每个主题的公共码键、基本内容等做了描述。在这一步里，我们将要对选定的当前实施的主题进行模式划分，形成多个表，并确定各个表的关系模式。

对逻辑模型的评估，就是对逻辑模型质量的考察，对模型质量要求不仅仅单纯指单纯的业务规则，还包括模型满足用户分析需求的程度，它是一个包含丰富内涵、具有多维因素的综合性概念。

在市场销售业务中涉及到几个主要的业务指标（KPI），如销售量、销售额、库存量和库存数量等，它们日积月累，数量庞大。在设计的时候把这些指标作为事实表的度量。销售发生的时间、分销商及销售的是何种商品等因素是分析销售业务的视角，把它们作为维度。在粒度划分上，时间维可以按日计，也可按周、按月、按季度和按年计，按照“最小粒度原则”，把时间维细化到了“日”的层次；对于商品维，由于分析的时候层次需求较为明显，可以分为商品单品、细分类、小分类、中分类和大分类等层次。其他维度都可以按照类似的方法来确定，最后可以得到销售分析数据集市的逻辑模型。

市场销售分析数据集市的主要采用星形模型的设计模式。它主要由包含市场销售数据的主题表和日期维度表、分销商维度表、产品维度表、地区维度表、会计科目维度表、业务部门维度表等组成。

在市场销售分析主题中，最理想的原子数据是来自业务***的销售事务数据。同时，在构造数据集市模型之前，还需要分析通过哪些角度，即需要通过哪些维来考察、选择销售方案。一般情况下，在确定市场分析策略时，管理人员通过日期、分销商、产品、地区、会计科目、业务部门等六个维对销售方案进行分析，了解销售方案的可用性和效果。

在基于商务智能的销售分析数据集市的逻辑模型设计中，确定事实表模型后，还需要确定数据集市的维模型。在概念模型设计中，已经确定市场销售分析数据集市的销售主题概念模型是星形模型，这里就需要进一步确定维模型中的具体维及层次结构。

市场销售分析数据集市的维表模型的设计包括有日期维、产品维、分销商维、地区维、会计科目维、业务部门维。

（1）日期维

日期维模型是许多数据集市应用中的常用维，其设计方式与其他多数维模型没有差别。具体设计时，日期维表可以存放5-10年的数据行，也可以将3-4年的数据行作为日期维内容。如果对10年的每一天都进行存储，也只需要3650行，这是一个相当小的维表。

日期维表的每列由行所代表的特定日期进行定义。市场销售分析数据集市中的日期是按照公司的财政日期来进行显示的，因为产品是在跨多个时区的范围内进行销售，采用统一的财政时间维可以消除跨时区的销售数据分析的影响。

在日期维表中包含了这样的一些属性：日期关键字、财政年、财政季度、财政月、财政周、日期等。

（2）产品维

市场销售分析数据集市的产品维中的数据主要来源于业务***的数据，当业务***中的产品列表发生变化时，就从业务***中抽取数据并存在到产品维表中。在产品维中还包括对产品分类的层次属性，如产品所属的平台、类别、子类别等属性。

产品维是数据集市中的最基本维之一，有完整的产品维属性才能保证用户的数据分析正确。在对这个维进行操作时，需要特别小心，不能破坏产品维完整性，尤其是商品种类的层次结构。

（3）分销商维

分销商维用于描述负责产品在市场中进行销售的各个分销商的信息。市场销售分析数据集市的分销商维如所示，它包含了分销商的一些基本信息，还包含分销商所属的渠道以及渠道类别等信息。分销商是市场销售分析中比较重要的组成部分，通过对分销商销售信息的分析，可以得到分销商对产品销售的贡献情况。

（4）地区维

地区维是数据集市中的最基本维之一，在销售分析数据集市中，地区维中数据主要来源于业务***，它包含了地区信息的层次结构，如亚洲、东亚、中国、上海。通过地区维的层次结构，可以实现对数据的上卷和下钻的分析需求。一般情况下，地区维中的信息是保持不变的。

（5）会计科目维

市场销售分析数据集市中的会计科目维主要包括与销售相关的会计科目基本信息以及会计科目类别的层次信息。

（6）业务部门维

市场销售分析数据集市的业务部门维表用于描述负责不同产品不同地区的各个销售子部门。通过对业务部门维的分析，就可以了解到各子部门的销售业绩状况，为管理者实施奖励措施提供依据，同时也为产品在地区间销售分配提供决策上依据。

数据物理模型：数据集市的物理模型就是数据集市逻辑模型在物理***中的实现模式。其中包括了逻辑模型中各种实体表的具体化，例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。在进行物理模型的设计实现时，所考虑的因素有：I/O存取时间、空间利用率及维护的代价。

为确定数据集市的物理模型，设计人员必须做这样几方面工作：首先要全面了解所选用的数据库管理***，特别是存储结构和存取方法；其次了解数据环境、数据的使用频率、使用方式、数据规模及响应时间要求等，这些都是对时间和空间效率进行平衡和优化的重要依据；最后还需要了解外部存储设备的特征。只有这样才能在数据的存储需求与外部存储设备条件两者之间获得平衡。

1、存储结构单元

在物理设计时，常常要按数据的重要性、使用频率及对反应时间的要求进行分类，并将不同类型的数据分别存储在不同的存储设备中。重要性高、经常存取并对反应时间要求高的数据存放在高速存储设备上；存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。另外，在设计时还要考虑数据在特定存储介质上的布局。在设计数据的布局时要注意遵循以下原则。

（1）不要把经常需要连接的几张表放在同一存储设备上，这样可以利用存储设备的并行操作功能加快数据查询的速度。

（2）如果几台服务器之间的连接会造成严重的网络业务量的问题，则要考虑服务器复制表格，因为不同服务器之间的数据连接会给网络带来沉重的数据传输负担。

（3）考虑把整个企业共享的细节数据放在主机或其他集中式服务器上，提高这些共享数据的使用速度。

（4）不要把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上，而表格则存放在一般存储设备上，以加快数据的查询速度。

（5）在对服务器进行处理时往往要进行大量的等待磁盘数据的工作，此时，可以在***中使用RAID（Redundant Array of Inexpensive Disk，廉价冗余磁盘阵列）。

2、索引策略单元

数据集市的数据量很大，因而需要对数据的存取路径进行仔细地设计和选择。由于数据集市的数据一般很少更新，所以可以设计索引结构来提高数据存取效率。在数据集市中，设计人员可以考虑对各个数据存储建立专用的索引和复杂的索引，以获取较高的存取效率，虽然建立它们需要付出一定的代价，但建立后一般不需要过多的维护。

数据集市中的表通常要比联机事务处理***（OLTP）中的表建立更多的索引，表中应用的最大索引数应与表格的规模成正比。数据集市是个只读的环境，建立索引可以取得灵活性，对性能极为有利。但是表若有很多索引，那么数据加载时间就会延长，因此索引的建立需要进行综合的考虑。在建立索引时，可以按照索引使用的频率由高到低逐步添加，直到某一索引加入后，使数据加载或重组表的时间过长时，就结束索引的添加。

最初，一般都是按主关键字和大多数外部关键字建立索引，通常不要添加很多的其他索引。在表建立大量的索引后，对表进行分析等具体使用时，可能需要许多索引，这会导致表的维护时间也随之增加。如果从主关键字和外部关键字着手建立索引，并按照需要添加其他索引，就会避免首先建立大量的索引带来的后果。如果表格过大，而且需要另外增加索引，那么可以将表进行分割处理。如果一个表中所有用到的列都在索引文件中，就不必访问事实表，只要访问索引就可以达到访问数据的目的，以此来减少I/O操作。如果表太大，并且经常要对它进行长时间的扫描，那么就要考虑添加一张概括表以减少数据的扫描任务。

3、存储策略单元

确定数据的存储结构和表的索引结构后，需要进一步确定数据的存储位置和存储策略，以提高***的I/O效率。下面介绍几种常见的存储优化方法。

（1）表的归并。当几个表的记录分散存放在几个物理块中时，多个表的存取和连接操作的代价会很大。这时可以将需要同时访问的表在物理上顺序存放，或者直接通过公共关键字将相互关联的记录放在一起。

表的归并只有在访问序列经常出现或者表之间具有很强的访问相关性时才有较好的效果，对于很少出现的访问序列和没有强相关性的表，使用表的归并没有效果。

（2）引入冗余：一些表的某些属性可能在许多地方都要用到，将这些属性复制到多个主题中，可以减少处理时存取表的个数。

（3）其他方法：除了以上2种主要的方法外，还有以下3种方法可以对存储分配进行优化。

建立数据序列：按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中，形成数据序列。

表的物理分割：每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成2个或多个表，将具有相似访问频率的数据组织在一起。

生成派出数据：在原始数据的基础上进行总结或计算，生成派出数据，可以在应用中直接使用这些派出数据，减少I/O次数，免去计算或汇总步骤，在更高级别上建立了公用数据源，避免了不同用户重复计算可能产生的偏差。

物理设计基于数据集市的逻辑模式和工作负荷进行索引的优化选择，并需要考虑所采用的数据库管理***的特殊数据访问结构，索引的选择对数据集市性能起着关键作用[4]。索引问题在许多现有的数据集市解决方案中得到了很好的解决，如SQLServer2005提供的数据集市解决方案、统计分析***（Statistics Analysis System，SAS）的数据集市解决方案。市场销售分析数据集市所选择的解决方案为SQLServer2005数据集市解决方案。

通过BI工具创建市场销售分析数据集市：

用户对数据集市的访问很少直接进行事实表的访问，用户常常通过访问数据集市的多维数据集来对数据集市进行操作。因此，多维数据集的建立是数据集市创建中不可缺少的部分。

1、数据集市数据库的创建

数据集市的物理创建是依据数据集市设计阶段所确定的数据集市物理模型来构造数据库，MS SQL Server主要是利用关系数据库来构建数据集市。在数据集市数据库创建过程中，需要按照数据集市设计中所确定的数据模型来实现数据集市的基本结构—事实表和维表，在市场销售分析数据集市数据库中，主要包括产品销售事实表、日期维表、地区维表、产品维表、分销商维表、会计科目维表、业务部门维表等的创建。数据集市数据库中的数据是经过ETL过程得到的，随着时间的推移，这些表中数据会进行全量更新、增量更新。

2、数据集市维度的创建

在市场销售分析数据集市中，主要包含日期维、分销商维、产品维、地区维、会计科目维、业务部门维等维度类型。如在日期维中，实现对年份、季度、月份的层次结构的定义，这样在对销售数据进行多维分析时，就可以通过选择不同的日期维度层次，观察不同时间粒度上的销售情况。

3、数据集市数据立方体的生成

完成所有的维创建后，就可以将事实表与维表构成多维数据集，即立方体。

在市场销售分析数据集市中，通过向导工具，将事实数据表与维表进行关联，并选择相关的度理值，如产品销售额、产品销售量、利润等，从而生成星形模型的多维数据集。

数据集市的维度更新处理：

维度可以根据变化剧烈程度主要分为无变化维度、缓慢变化维度和剧烈变化维度。例如公司的相关信息，公司代码、公司名称等信息数据属于不变的部分，地址和经营范围属于缓慢变化部分，而员工信息、库存信息和产品销售等在某种程度上属于急剧变化字段[17]。

对于剧烈变化维度，通常情况下都是一分为二进行处理的，把其中不常变动的部分单独抽出来作为一个维表，按照缓慢变化维方式进行处理；另外一部分也单独抽取出来，通常作为维度的属性进行处理。

大多数维度表随时间的迁移是缓慢变化的。比如增加了新的产品，或者产品的ID号码修改了，或者产品增加了一个新的属性，此时，维度表就会被修改或者增加新的记录行。这样，在设计维度和使用维度的过程中，就要考虑到缓慢变化维度的处理。

维度的缓慢变化有3种不同情况，其对应的处理方法也有所不同。

1、历史数据需要修改

这种情况主要是发生在业务数据库中的数据出现错误，在分析过程中需要修改。

处理办法是用直接覆盖法，即使用UPDATE方法来修改维度表中的数据。

2、新增数据维度成员改变了属性

若某维度成员新加入了1列，该列在历史数据中不能基于它浏览，而在当前数据和将来数据中可以按照它浏览。此时的解决方法是增加数据行来记录新成员。可以使用存储过程或程序生成新的维度属性，在后续的数据中将基于新的属性进行查看。

3、历史数据保留，新增数据也要保留

在这种需求下的解决方法是创建额外字段来记录这些数据之间的关系，例如将该维度打上时间戳，即将历史数据生效的时间段作为它的一个属性，在与原始匹配生成事实表时将按照时间段进行关联，这种方法其最大的优点在数据更改时，不需要创建额外的数据行，也不需要改变维表中的键值结构，因此可以在现有的数据行中查看所有历史纪录。而最大的缺点是由时间点来判断更新的数据很难查询，如果数据经常变化，则此方法并不适合。

处理维度的历史记录是ETL解决方案比较复杂的一个原因。对于销售分析体***，维度加载情况不仅涉及处理历史属性和更改属性，还涉及维度更改类型以及与维度关联无法同步的事实数据。

渐变维度处理：

通过SSIS工具可以基本达到这一效果，在SSIS中有一个向导，它基于源维度架构和目标维度架构，通过一系列步骤使开发人员可以确定更改的特征。然后此向导建立处理该维度所需要的转换。即使要求改变，也可以重新调用该向导，通过允许修改原来的选择以便处理新的过程[18]。

对于销售分析***，渐变维度工具很有优势。除了一个星型架构维度表以外，其他所有星型架构维度表都使用渐变维度转换。极大地缩短了维度处理所用的开发时间。为了显示渐变维度向导的工作方式，Store维度提供了该向导最全面的使用方法。Store维度的要求包括：

（1）新建维度成员–新维度成员添加到源中；

（2）更改维度属性–以前的类型1列更改，其中每次源列值更改时历史记录被覆盖；

（3）历史维度属性–以前的类型2列，其中通过添加一个新维度记录将历史记录保存到下一次更改之前，添加的新维度记录与所有新事实数据记录相关联；

（4）推断成员–即在事实数据处理运行之前维度成员尚未加载到维度表中的情况，这样会添加一个占位符记录，一旦完整的源维度可用，该占位符将随后更新。

唯一维处理：

唯一维不使用渐变维度转换的维度处理数据包是Item维度。其要求是唯一，其大小需要对可伸缩性进行特殊处理。

数据集市的事实表更新处理：

事实数据表处理在很大程度上与维度处理不同。并且，一个事实数据表处理与下一个也有很大不同。但是，大多数事实数据表处理包含事实数据行对比和维度键查询。

对事实表的提取主要包括两部分：全部源提取，其中无法标识更改的或新的记录；递增提取，其中只提取新的记录和更改的记录。

全部源提取：

在源***上，这些记录包含在表中，该表不标识新的或已修改的记录，因此ETL过程必须比较库存源和事实数据表之间的记录以标识更改发生的时间。然后正确地处理***或更新。

采取的方法是对源表和目标表使用全部合并连接和完整数据集。全部连接有助于标识记录添加到源中的时间或完全删除的时间。对于此解决方案，要求指定删除的源记录在事实数据表中需要被跟踪为数据库初始化时的位置-使用配置为全部连接的Merge Join转换满足此要求。

递增源提取：

当提取过程可以在源***中隔离一组更新和***时，这可以极大地提高相关ETL过程的性能。如果需要整个数据源（比如说二千万条记录）来处理日常更改，则一天中将没有足够的时间来处理其他任务。但是由于数据可以递增提取，因此处理窗口缩至一个非常易于管理的窗口。

递增提取过程可以使用缓存查询来帮助确定递增记录是***的记录还是更新的记录。有助于此过程的是中间的分段过程，它用来在查询中过滤记录，优化处理，从而有助于总体实现。

市场销售分析数据集市的客户端界面的设计：

完成数据集市模型的设计后，就面临着如何将数据集市中的数据提供给用户使用的问题。一般情况下，是不允许用户直接进入到数据集市进行数据的浏览和使用的。因此需要将一般用户的数据集市应用功能事先设计好，形成定制的报表和浏览数据传送到客户端提供用户使用。

用户对数据集市的使用主要集中在主题多维数据集展现、数据挖掘结果的查看浏览、管理决策的预测和数据集市内容的动态查询。

（1）主题多维数据集的展现。多维数据集是用户使用数据集市的主要方式，市场销售分析***中的用户通过对主题多维数据集的不同维、不同层次的上卷、下钻，可以方便地查看数据集市中的内容。

（2）数据挖掘结果的查看和浏览对数据集市的用户极为重要，许多有价值的管理决策方案往往来自数据挖掘的结果。例如：在产品促销策略分析中，通过对数据挖掘结果的展现，用户可能会发现，某些促销策略的应用会在某些地区、某些时间段、某些商品上发挥极佳的效果；而在其它一些地区、其他一些时间段对其它商品的效果则可能不明显，甚至无效。这将促使管理决策人员对促销策略的制定更加准确和有效。

管理决策的预测。对管理决策的预测是用户使用数据集市的一项主要内容，市场销售管理人员需要将一些成功的促销策略用于从未用过的产品和从未用过的时间段上。此时市场销售部门的管理决策层就需要对促销策略的使用效果进行预测，以确定是否可以采用这些促销策略。

（4）数据集市内容的动态查询。市场销售部门的管理决策层常常需要紧密观察已经或正在执行的促销策略的效果，以根据促销策略的执行效果决定是否继续执行已经开始的促销策略，是否加强促销策略的执行力度。这种动态查询对于管理决策者来说是日常管理工作的一部分。用户在使用数据集市进行动态查询时需要注意数据集市中数据的刷新时间，如果数据集市中的数据是每天加载刷新一次，那管理决策层大可放心动态查询结果的真实性；如果数据集市中的数据是每周甚至每月才加载刷新一次，那就需要管理决策者注意数据查询数据的及时性对管理决策的影响。

在确定了客户端界面展现的内容后，就需要分别将每一个展现内容分配到具体的展现界面上，作为展现界面具体设计的依据。同时在设计展现界面时一定要注意为用户提供人性化的展现界面，使用户能够很容易地从展现界面上了解他所需要的数据内容和其相互关系，使他们很容易从这些数据中了解到管理决策的效果和隐藏在这些数据后面的商务动向。

本***采用ETL的主要用途包括以下几方面：

1、合并来自异类数据存储区的数据

Integration Services包含一些数据源组件，这些组件负责从包含所连接的数据源中的平面文件、Excel电子表格、XML文档和关系数据库中的表及视图提取数据。然后，通常要用Integration Services包含的转换功能对数据进行转换。数据转换为兼容格式后，就可以将其物理合并到一个数据集中。数据在合并成功且应用转换后，通常会被加载到一个或多个目标。Integration Services包含将数据加载到平面文件、原始文件和关系数据库时所用的目标。数据也可以加载到内存中的记录集中，供其他包元素访问。

2、填充数据仓库和数据集市

数据仓库和数据集市中的数据通常会频繁更新，因此数据加载量通常会很大。可以用SSIS包加载数据库中的维度表和事实数据表。如果维度表的源数据存储在多个数据源中，包可以将该数据合并到一个数据集中，并在单个进程中加载维度表，而不是为每个数据源使用单独的进程。IntegrationServices还可以在数据加载到其目标之前计算函数。

3、清除数据和将数据标准化

无论数据是加载到联机事务处理(OLTP)、联机分析处理(OLAP)数据库、Excel电子表格还是加载到文件，都需要在加载前将数据进行清理和标准化。

Integration Services包含一些内置转换，可将其添加到包中以清理数据和将数据标准化、更改数据的大小写、将数据转换为不同类型或格式或者根据表达式创建新列值。例如，包可将姓列和名列连接成单个全名列，然后将字符更改为大写。

Integration Services包还可以使用精确查找或模糊查找来找到引用表中的值，通过将列中的值替换为引用表中的值来清理数据。通常，包首先使用精确查找，如果该查找方式失败，再使用模糊查找。例如，包首先尝试通过使用产品的主键值来查找引用表中的产品名。如果此搜索无法找到产品名，包再尝试使用产品名模糊匹配方式进行搜索。

4、将商业智能置入数据转换过程

数据转换过程需要内置逻辑来动态响应其访问和处理的数据。

可能需要根据数据值对数据进行汇总、转换和分发。根据对列值的评估，该过程甚至可能需要拒绝数据。

Integration Services提供了用于将商业智能置入SSIS包的容器、任务和转换。还可以将一个数据集发送到多个目标，然后对此相同数据应用不同的转换集。例如，一组转换可以汇总此数据，而另一组转换通过查找引用表中的值并添加其他源的数据来扩展此数据。

5、使管理功能和数据加载自动化

管理员经常希望将管理功能自动化，例如备份和还原数据库、复制SQLServer数据库及其包含的对象、复制SQL Server对象和加载数据。Integration Services包可以执行这些功能。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种市场销售分析数据集市***，其特征在于：

数据接入层的数据包括有办公数据、外部数据、业务数据；

该***的模型包括数据逻辑模型和数据物理模型；

2.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据接入层的数据包括有办公数据主要是指市场销售部门的办公***数据，这些数据分电子数据和非电子数据两种，以电子数据方式保存的数据，主要指电子表格、数据库和文字处理文档等形式保存的数据，非电子数据主要指那些文件、通知等公文，从数据的结构形式看，办公数据有的是以二维表格形式表示的结构化数据，有的是以文字文档处理文件表示的结构化数据，因此办公数据源的数据结构是十分复杂的，这就给数据集市的数据抽取、加载增加了很大的难度，有时甚至需要人工处理以后，才能加载到数据集市中；

3.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据抽取模块包含有存放DW的数据库***相同的数据源处理中这类数源在设计比较容易，DBMS(包括SQL Server，Oracle)都会提供数据库链接功能，在DW数据库服务器和原业务***之间建立直接的链接关系就可以写Select语句直接访问；

4.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据转换模块：不一致数据转换在市场销售分析***中，来自不同数据源的数据存在数据内容不一致的情况，这就需要创建一个整合的过程，将不同业务***的相同类型的数据统一；

5.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据清洗模块中的不完整的数据是一些应该有的信息缺失，如供应商的名称，分公司的名称，客户的区域信息缺失、业务***中主表与明细表不能匹配等，需要将这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全，补全后再写入到数据集市；

6.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的日志与警告发送模块中的日志包含有三类：

7.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据加载模块中：

8.根据权利要求1所述的一种市场销售分析数据集市***，其特征在于，所述的数据逻辑模：