CN113987010B

CN113987010B - 一种多维数据集的洞察方法以及装置

Info

Publication number: CN113987010B
Application number: CN202111192547.2A
Authority: CN
Inventors: 程鑫; 张亚东; 苗寒; 邹常林; 张探探; 周成
Original assignee: Beijing Yuannian Technology Co ltd
Current assignee: Beijing Yuannian Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-09-16
Anticipated expiration: 2041-10-13
Also published as: CN113987010A

Abstract

本发明提供了一种多维数据集的洞察方法以及装置，该方法包括：根据接收到的用户的数据洞察请求获取到目标多维数据集；针对目标多维数据集进行数据切片处理，生成多个数据切片；根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；将洞察对象进行数据模式检验，生成数据洞察结果。解决了针对于比较大型的多维数据集，现有技术挖掘出的数据不够深入、价值较低的技术问题。

Description

一种多维数据集的洞察方法以及装置

技术领域

本发明涉及数据挖掘领域，尤其是涉及多维数据集的洞察方法以及装置。

背景技术

数据挖掘主要是面向决策，从海量数据中挖掘不为人知、无法直观得出的结论，例如内容推荐、相关度计算等。数据挖掘的工作更注重数据内在联系，数据仓库组建，分析***开发，挖掘算法设计，往往需要研发人员从ETL开始处理原始数据，因此数据挖掘对研发人员的计算机水平有较高要求。

在现有技术下，在多维数据集中进行数据分析，往往是由专业的数据分析人员在OLAP***上来完成的。OLAP是一个建立数据***的方法，核心思想就是建立多维度的数据立方体，以维度(Dimension)和度量(Measure)为基本概念，辅以元数据，实现可以钻取、切片、切块、旋转等灵活、***、直观的数据展现。

需要说明的是，针对于比较大型的多维数据集，现有技术挖掘出的数据不够深入、价值较低。

发明内容

本发明提供了一种多维数据集的洞察方法以及装置，以解决针对于比较大型的多维数据集，现有技术挖掘出的数据的价值较低的技术问题。

根据本发明的第一方面，提供了一种多维数据集的洞察方法，该方法包括：根据接收到的用户的数据洞察请求获取到目标多维数据集；针对目标多维数据集进行数据切片处理，生成多个数据切片；根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；将洞察对象进行数据模式检验，生成数据洞察结果。

进一步地，将洞察对象进行如下一个或多个的数据模式检验：首位贡献度检验、占比检验、两指标相关性检验、全局离群点检验、趋势检验、周期检验、转折点检验、时序异常检验。

进一步地，数据模式检验的结果为真或者假，其中，将洞察对象进行数据模式检验，生成数据洞察结果的步骤包括：将数据模式检验的结果为真的洞察对象确定为目标洞察对象；根据目标洞察对象生成数据洞察结果。

进一步地，在将洞察对象进行数据模式检验，生成数据洞察结果之后，方法包括：将多个数据洞察结果按照数据范围进行排序；控制将排序后的多个数据洞察结果进行可视化展示。

根据本发明的第二方面，提供了一种多维数据集的洞察装置，装置包括：获取单元，用于根据接收到的用户的数据洞察请求获取到目标多维数据集；成单元，用于针对目标多维数据集进行数据切片处理，生成多个数据切片；确定单元，用于根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；检验单元，用于将洞察对象进行数据模式检验，生成数据洞察结果。

进一步地，数据模式检验的结果为真或者假，其中，生成单元包括：确定模块，用于将数据模式检验的结果为真的洞察对象确定为目标洞察对象；生成模块，用于根据目标洞察对象生成数据洞察结果。

进一步地，装置还包括：排序单元，用于将多个数据洞察结果按照数据范围进行排序；展示单元，用于控制将排序后的多个数据洞察结果进行可视化展示。

根据本发明的第三方面，提供了一种计算机设备，包括存储器和处理器，存储器上存储有计算机指令，计算机指令在由处理器执行时导致上述任一项的方法被执行。

根据本发明的第四方面，提供了一种非暂时性计算机可读存储介质，其上存储有计算机程序，计算机程序在由处理器执行时导致上述任一项的方法被执行。

本发明提供了一种多维数据集的洞察方法以及装置，该方法包括：根据接收到的用户的数据洞察请求获取到目标多维数据集；针对目标多维数据集进行数据切片处理，生成多个数据切片；根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；将洞察对象进行数据模式检验，生成数据洞察结果。解决了针对于比较大型的多维数据集，现有技术挖掘出的数据的价值较低的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的多维数据集的洞察方法的流程图；

图2为本发明实施例一的可选的多维数据集的洞察方法的示意图；

图3为本发明实施例二的多维数据集的洞察装置的示意图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚，下面结合附图进一步描述本发明。应当理解，本文给出的具体实施例是出于向本领域技术人员解释的目的，仅是示例性的，而非限制性的。

在以下描述中，阐述了许多具体细节以提供对本发明的透彻理解。然而，对于本领域普通技术人员来说，明显的是，不需要采用具体细节来实践本发明。在其他情况下，未详细描述众所周知的步骤或操作，以避免模糊本发明。

实施例一

本申请提供了一种多维数据集的洞察方法，如图1所示，该方法包括：

步骤S11，根据接收到的用户的数据洞察请求获取到目标多维数据集。

具体的，在本方案中，本方案的方法步骤可以由服务器或者其他带有处理器的硬件设备来执行，本方案可以接受用户的数据洞察请求，上述数据洞察请求可以为用户针对某目标多维数据集中的数据进行数据洞察的请求，比如，用户希望针对车辆每日销售的明细表进行洞察，本方案则根据用户的数据洞察请求去获取到车辆每日销售的明细表所在的数据库并且获取到目标多维数据集，目标数据多维数据集的例子如下表1所示。需要说明的是，用户输入数据洞察请求，即意味着用于需要这对上述目标多维数据集中通过数据挖掘得到价值度高的数据。

表1：目标数据多维数据集

需要说明的是，在上述表格中，xx网、xx买车为不同的线上汽车销售平台。

步骤S13，针对目标多维数据集进行数据切片处理，生成多个数据切片。

具体的，在本方案中，可以采用BUC的方式来遍历目标多维度数据集，然后完成数据切片，从而生成多个数据切片的结果集，上述目标多维数据集可以为一个立方体，以上表1为例，立方体＝(所有型号、所有渠道、所有类型)，即在上述立方体中包括型号、渠道以及类型三个维度。本方案则采用BUC方式来对上述立方体进行数据切片。需要说明的是，一个数据切片是指在多维数据中任意指定若干维度等于某一成员后得到的相对源数据立方体的在某一个维度上的子集。比如，一个数据集中有三个维度：A、B、C。一个指标:X，那么(a0,b0,c0)所代表的是：在A维度上指定成员为a0，在B维度上指定成员为b0，在C维度上指定成员为c0时的单元，在这个单元里面存放的数据是X＝1。以三个维度A、B、C为例，数据切片(*，b0，*)指的是，在B维度上指定成为为b0，A维度以及B维度为所有成员的数据集切片。

结合上述表1，本方案可以通过上述表1的数据立方体进行BUC数据切片，得到多个数据切片的集合，比如，{(紧凑,*,*)，(紧凑,买车网,*)，(紧凑,买车网,RC01)，(中型车,*,*),....}然后针对上述多个有效的数据切片进行后续的操作，需要说明的是，本方案可以针对多个数据切片筛选出有效的数据切片，具体的可以针对每个数据切片的空数据的多少来判断数据切片的有效性，当数据切片中存在大量的空数据，这个数据集的有效性就会下降，本方案可以通过每个数据切片的空数据的多少来对多个空数据进行排序，当数据切片中存在大量的空数据，这个数据切片的有效性就会下降，这个数据切片的排序就越靠后，本方案可以得到一个关于数据切片次序的LIST，然后本方案可以从上述LIST中选取部分次序靠前的数据切片作为有效切片，并且进行后续的操作。

还需要说明的是，BUC算法(Botom-Up Construction)的本质就是根据数据切片包含的有效数据量进行判断每个切片是否重要的方法。

步骤S15，根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式。

具体的，在本方案中，可以根据多个数据切片确定数据切片的洞察对象，需要说明的是，在本方案中，关于数据洞察的结果最终以数据卡片的形式展示，每一个数据卡片中最小的信息展示单位称为一个洞察对象，洞察对象可以包括如下内容：{筛选维度，展开维度，期间，指标，指标聚合方式}。需要说明的是，筛选维度是指通过BUC方式在多维数据集中的一个切片，展开维度在作用为指标将在展开维度上进行聚合操作，指标可以为数据切片中具体的值，指标的聚合方式是指标的计算方式。以上述数据切片中的筛选维度(RC01,*,*)为例，它的洞察对象为{(RC01,*,*),时间，210901-202012，销量，SUM}，在上述洞察对象中，筛选维度为(RC01,*,*),展开维度为时间，期间为210901-202012，指标为销量，指标的聚合方式为SUM函数。

步骤S17，将洞察对象进行数据模式检验，生成数据洞察结果。

具体的，在确定洞察对象之后，本方案则对洞察对象进行数据模式检验，数据模式检验是对于一个洞察对象需要根据对象的数据特征进行特定的假设检验，通过上述数据模式检验，可以检验出多个洞察对象是否出现异常。在将每个洞察对象都进行数据模式检验之后，将每个洞察对象的结果进行组合，从而生成上述目标多维数据集的数据洞察结果。

具体的，在本方案中，通过上述步骤，可以将大型的多维数据集的立方体进行数据切片，然后针对于每个数据切片包含多个内容的洞察对象，然后针对每个洞察对象进行异常假设检验从而生成数据洞察结果，即本方案在本技术在现有的数据挖掘技术上，进行了一定的优化，在本方案中，将BUC算法切分生成的数据切片进行了组装生成洞察对象，对洞察对象进行假设检验得到满足特定模式的数据(洞察结果)，通过本方案，可以使一些埋藏在数据集深处的信息得以发掘出来，同时本方案完全自动化，可以帮助用户快速得到相对重要的信息，并以自然语言的形式描述该信息，节省了用户大量的时间，因此，本方案解决了针对于比较大型的多维数据集，现有技术挖掘出的数据的价值较低的技术问题。

可选的，将洞察对象中的数据进行如下一个或多个的数据模式检验：首位贡献度检验、占比检验、两指标相关性检验、全局离群点检验、趋势检验、周期检验、转折点检验、时序异常检验。

具体的，上述首位贡献度检验是找出对指标作出突出贡献的成员，比如，在紧凑车型中，特定型号RC06是热销的爆款型号。占比检验是为了找到在总额中占比超过50％的成员，比如在线上渠道，某平台的合计占比超过了50％。两指标相关性检验是找到指标与指标之间的显著相关性关系，比如，补贴金额和销量呈现正相关。全局离群点检验是在聚集的一群离散点中，找到明显偏离群体特征的成员，比如在各B型车的油耗、车重离散点中，型号BC-016明显偏离群体特征。趋势检验，比如时间序列数据趋势检验是找到趋势存在上升或者下降的事件序列数据。周期检验是找到存在周期性的时间序列数据，比如销量在某周期内出现波动。转折点检验是找到时间序列数据中能区分上升和下降两个阶段的时间点。时序异常检验是找到时间序列中的时间点，比如销量异常的时间点。

可选的，数据模式检验的结果为真或者假，其中，步骤S17将洞察对象进行数据模式检验，生成数据洞察结果的步骤可以包括：

步骤S171，将数据模式检验的结果为真的洞察对象确定为目标洞察对象。

步骤S172，根据目标洞察对象生成数据洞察结果。

具体的，假设检验的结果有且仅有true(真)和false(假)两种，指被检数据集是否在特定置信度的情境下满足某种断言，本方案将结果为真的洞察对象确定为目标洞察对象，并且根据真的洞察对象生成数据洞察结果，本方案将每个洞察对象都进行假设检验直到所有的洞察对象都检验完成，并且将真的洞察结果保留。需要说明的是，本方案可以将洞察对象+假设检验结果确定为数据洞察结果，即数据洞察结果＝{筛选维度，展开维度，期间，指标，指标的聚合方式，假设检验结果}。以上述数据切片中的筛选维度(RC01,*,*)为例，该数据切片的数据洞察结果为{(RC01，*，*)，时间，210901-202012，销量，SUM，时间序列异常：true}，在该数据洞察结果中，表示在时间序列上存在异常。

可选的，在步骤S17将洞察对象进行数据模式检验，生成数据洞察结果之后，本申请提出的方法还包括：

步骤S19，将多个数据洞察结果按照数据范围进行排序。

具体的，在本方案中，可以对对洞察结果以其数据范围进行重要性判断。涵盖数据范围越大的洞察结果其重要性也越高，排序也越靠前。

步骤S21，控制将排序后的多个数据洞察结果进行可视化展示。

具体的，前端可以接收洞察结果，然后通过预制的数据卡片模板渲染结果，形成结果卡片进行可视化展示。需要说明的是，结果卡片可以分为三部分：标题、卡片的描述以及数据图表，从结果卡片的该部分可以清晰的看到数据集中的异常情况。还需要说明的是，数据集中的异常情况也提供给运营人员或者商户有价值的情报，比如，网站日访问是一个相对平稳的数据。基本上在100-200人每日波动，突然有一天访问量激增到5000人，运营人员通过本方案能自动识别这种异常行为。再比如，一个商品的日销量维持在一个区间内波动，突然有一天销量急剧下降，商户通过本方案的方法可以快速定位到异常，然后根据需要进行后续经营分析。

结合图2，介绍本方案的一种可选的实施例：

用户可以针对某数据集发出洞察请求，然后本方案的***则对数据集进行切片，接着针对所有数据切片进行洞察对象的封装，接着针对已封装的洞察对象进行数据模式检验，然后返回洞察结果为“真”的对象，前端针对返回数据和检验结果(后端封装好的数据结构)做可视化渲染(洞察卡片)。最后，对所有洞察结果卡片进行排序生成洞察报告。

实施例二

本发明还提供了一种多维数据集的洞察装置，该装置可以用于设置于服务器中，也可以用于执行实施例一中的方法，如图3所示，装置包括：获取单元30，用于根据接收到的用户的数据洞察请求获取到目标多维数据集；生成单元32，用于针对目标多维数据集进行数据切片处理，生成多个数据切片；确定单元34，用于根据数据切片确定数据切片的洞察对象，其中，洞察对象包括数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；检验单元36，用于将洞察对象进行数据模式检验，生成数据洞察结果。

具体的，在本方案中，通过上述各个单元，可以将大型的多维数据集的立方体进行数据切片，然后针对于每个数据切片包含多个内容的洞察对象，然后针对每个洞察对象进行异常假设检验从而生成数据洞察结果，即本方案在本技术在现有的数据挖掘技术上，进行了一定的优化，在本方案中，将BUC算法切分生成的数据切片进行了组装生成洞察对象，对洞察对象进行假设检验得到满足特定模式的数据(洞察结果)，通过本方案，可以使一些埋藏在数据集深处的信息得以发掘出来，同时本方案完全自动化，可以帮助用户快速得到相对重要的信息，并以自然语言的形式描述该信息，节省了用户大量的时间，因此，本方案解决了针对于比较大型的多维数据集，现有技术挖掘出的数据的价值较低的技术问题。

可选的，将洞察对象进行如下一个或多个的数据模式检验：首位贡献度检验、占比检验、两指标相关性检验、全局离群点检验、趋势检验、周期检验、转折点检验、时序异常检验。

可选的，数据模式检验的结果为真或者假，其中，生成单元包括：确定模块，用于将数据模式检验的结果为真的洞察对象确定为目标洞察对象；生成模块，用于根据目标洞察对象生成数据洞察结果。

可选的，装置还包括：排序单元，用于将多个数据洞察结果按照数据范围进行排序；展示单元，用于控制将排序后的多个数据洞察结果进行可视化展示。

本申请还提供了一种计算机设备，包括存储器和处理器，存储器上存储有计算机指令，计算机指令在由处理器执行时导致实施例一中的方法被执行。

本申请还提供了一种非暂时性计算机可读存储介质，其上存储有计算机程序，计算机程序在由处理器执行时导致实施例一中方法被执行。

应理解，本文中前述关于本发明的方法所描述的具体特征、操作和细节也可类似地应用于本发明的装置和***，或者，反之亦然。另外，上文描述的本发明的方法的每个步骤可由本发明的装置或***的相应部件或单元执行。

应理解，本发明的装置的各个模块/单元可全部或部分地通过软件、硬件、固件或其组合来实现。各模块/单元各自可以硬件或固件形式内嵌于计算机设备的处理器中或独立于处理器，也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行各模块/单元的操作。各模块/单元各自可以实现为独立的部件或模块，或者两个或更多个模块/单元可实现为单个部件或模块。

在一个实施例中，提供了一种计算机设备，其包括存储器和处理器，存储器上存储有可由处理器执行的计算机指令，计算机指令在由处理器执行时指示处理器执行本发明的实施例一中的方法的各步骤。该计算机设备可以广义地为服务器、终端，或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施例中，该计算机设备可包括通过***总线连接的处理器、存储器、网络接口、通信接口等。该计算机设备的处理器可用于提供必要的计算、处理和/或控制能力。该计算机设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作***、计算机程序等。该内存储器可为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本发明的方法的步骤。

本发明可以实现为一种计算机可读存储介质，其上存储有计算机程序，计算机程序在由处理器执行时导致本发明实施例一的方法的步骤被执行。在一个实施例中，计算机程序被分布在网络耦合的多个计算机设备或处理器上，以使得计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作，或者两个或更多个方法步骤/操作，可以由单个计算机设备或处理器或由两个或更多个计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行，并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作，或执行两个或更多个方法步骤/操作。

本领域普通技术人员可以理解，本发明的方法步骤可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成，的计算机程序可存储于非暂时性计算机可读存储介质中，该计算机程序被执行时导致本发明的步骤被执行。根据情况，本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。

以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述，但这些技术特征的任何组合都应当被认为由本说明书涵盖，只要这样的组合不存在矛盾。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多维数据集的洞察方法，其特征在于，所述方法包括：

根据接收到的用户的数据洞察请求获取到目标多维数据集；

通过BUC的方式，针对所述目标多维数据集进行数据切片处理，生成多个数据切片；

根据所述数据切片确定所述数据切片的洞察对象，其中，所述洞察对象包括所述数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；

将所述洞察对象进行数据模式检验，生成数据洞察结果；

其中，针对多个数据切片筛选出有效的数据切片，具体的针对每个数据切片的空数据的多少来判断数据切片的有效性，当数据切片中存在大量的空数据，这个数据集的有效性就会下降，通过每个数据切片的空数据的多少来对多个空数据进行排序，当数据切片中存在大量的空数据，这个数据切片的有效性就会下降，这个数据切片的排序就越靠后，得到一个关于数据切片次序的LIST，然后本方案从所述LIST中选取部分次序靠前的数据切片作为有效切片，并且进行后续的操作；

将所述洞察对象进行如下一个或多个的数据模式检验：

首位贡献度检验、占比检验、两指标相关性检验、全局离群点检验、趋势检验、周期检验、转折点检验、时序异常检验；

所述数据模式检验的结果为真或者假，其中，将所述洞察对象进行数据模式检验，生成数据洞察结果的步骤包括：将数据模式检验的结果为真的洞察对象确定为目标洞察对象；根据所述目标洞察对象生成所述数据洞察结果；

将多个数据洞察结果按照数据范围进行排序；

控制将排序后的多个数据洞察结果进行可视化展示。

2.一种多维数据集的洞察装置，其特征在于，所述装置包括：

获取单元，用于根据接收到的用户的数据洞察请求获取到目标多维数据集；

生成单元，用于通过BUC的方式，针对所述目标多维数据集进行数据切片处理，生成多个数据切片；

确定单元，用于根据所述数据切片确定所述数据切片的洞察对象，其中，所述洞察对象包括所述数据切片的筛选维度、展开维度、期间、指标以及指标的聚合方式；

检验单元，用于将所述洞察对象进行数据模式检验，生成数据洞察结果；

将所述洞察对象进行如下一个或多个的数据模式检验：首位贡献度检验、占比检验、两指标相关性检验、全局离群点检验、趋势检验、周期检验、转折点检验、时序异常检验

所述数据模式检验的结果为真或者假，所述检验单元，还用于将数据模式检验的结果为真的洞察对象确定为目标洞察对象；根据所述目标洞察对象生成所述数据洞察结果；

排序单元，用于将多个数据洞察结果按照数据范围进行排序；

展示单元，用于控制将排序后的多个数据洞察结果进行可视化展示。

3.一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机指令，所述计算机指令在由所述处理器执行时导致权利要求1所述的方法被执行。

4.一种非暂时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由处理器执行时导致权利要求1所述的方法被执行。