CN1713180A - 结合多维表达式和数据挖掘扩展来挖掘olap立方体 - Google Patents

结合多维表达式和数据挖掘扩展来挖掘olap立方体 Download PDF

Info

Publication number
CN1713180A
CN1713180A CNA200510074012XA CN200510074012A CN1713180A CN 1713180 A CN1713180 A CN 1713180A CN A200510074012X A CNA200510074012X A CN A200510074012XA CN 200510074012 A CN200510074012 A CN 200510074012A CN 1713180 A CN1713180 A CN 1713180A
Authority
CN
China
Prior art keywords
data
multidimensional
source
olap
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510074012XA
Other languages
English (en)
Other versions
CN1713180B (zh
Inventor
C·J·麦克伦南
P·金
唐朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1713180A publication Critical patent/CN1713180A/zh
Application granted granted Critical
Publication of CN1713180B publication Critical patent/CN1713180B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06CLADDERS
    • E06C1/00Ladders in general
    • E06C1/02Ladders in general with rigid longitudinal member or members
    • E06C1/14Ladders capable of standing by themselves
    • E06C1/16Ladders capable of standing by themselves with hinged struts which rest on the ground
    • E06C1/18Ladders capable of standing by themselves with hinged struts which rest on the ground with supporting struts formed as ladders
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06CLADDERS
    • E06C7/00Component parts, supporting parts, or accessories
    • E06C7/02Extending means
    • E06C7/04Hand-operated extending means carried by the ladder
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06CLADDERS
    • E06C7/00Component parts, supporting parts, or accessories
    • E06C7/06Securing devices or hooks for parts of extensible ladders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种结合多维表达式(例如MDX)和数据挖掘扩展(例如DMX)用于对驻留于OLAP立方体的数据执行数据挖掘操作的语言模式。该模式提供的<source-data-query>可不仅是关系查询,而且是例如使用MDX形成的多维查询。描述了模型创建、训练以及预测的操作。

Description

结合多维表达式和数据挖掘扩展来挖掘OLAP立方体
技术领域
本发明涉及数据库,尤其涉及用于搜索和分析数据库的方法。
技术背景
诸如因特网的全球通信网络的出现一直维持着大量信息的交换。另外,存储和维护这样信息的成本已下降,导致需访问巨大的数据存储结构。大量的数据可以一个数据仓库的方式来存储,即一般表示机构商务历史的数据仓库。该历史数据可用来作支持从各个机构的战略计划到业绩评估的多层次商业决策的分析。它还可涉及获得存储在关系数据库中的数据并处理该数据,以使其成为用于查询和分析的更有效工具。为了以较小规模更有效地管理数据仓库,采用了数据中心的概念,其中仅管理该数据的目标子集。
尽管许多用于数据定义和处理的语言,诸如结构化查询语言(SQL),被设计成检索两维数据,但在另一方面,多维数据可由两维以上的结构来表示。这些多维结构称之为立方体(cube)。立方体是一种类似于3D电子表格来表示数据的多维数据库,而不是关系数据库。通过采用维数和度量的概念,立方体使得数据的不同示图能够快速显示。维数定义立方体的结构(例如地理位置或产品类型),而度量向终端用户提供感兴趣的量值(例如销售额、库存量、以及总支出)。立方体中的单元位置由维数成员的交叉来定义,而度量值可合计提供单元中的值。
数据仓库或数据中心的信息可使用在线分析处理(OLAP)来处理。OLAP按立方体查看数据。OLAP使数据仓库和数据中心能有效地用于在线分析,并对迭代式复杂分析查询提供快速响应。OLAP***提供支持实时分析的速度和灵活性。
可便于OLAP作多维查询和分析的一常规体系架构是MDX(多维表达式)。MDX是一种语法,它支持多维对象和数据的定义和处理从而便于更简便及更直觉地访问来自多维的数据。MDX在许多方式上与SQL(结构化查询语言)语法相似(但并不是SQL语言的扩展)。像SQL查询一样,每个MDX查询都需要数据请求(SELECT语句)、起点(FROM语句)、和过滤器(WHERE语句)。这些和其它关键字提供用以从立方体提取数据特定部分来进行分析的工具。MDX还提供用于处理被查询数据的健壮的功能集,以及使用用户所定义的功能来扩展MDX的能力。
数据挖掘与在数据中查找感兴趣结构(例如模式和规则)有关,这样的结构可解释为有关数据的知识或可用以预测与数据相关的事件。这些结构采用数据集简明描述的模式形式。数据挖掘使得大型数据库的浏览和开采对那些具有数据但却没有统计学或数据分析的若干年经验的人而言简单、方便和实用。由数据挖掘算法所提取的“知识”可具有许多形式和许多用途。它可以是一组规则、决策树、回归模型或一组关联等等的形式。它可用以产生数据的概述,或得以洞察先前未知的相互关系。它还可用以预测与数据有关的事件—例如,丢失数据、某些信息未知的记录等等。有许多不同的数据挖掘技术,其中大多数源自机器学习、统计学、以及数据库编程领域。
所需要的是一种便于跨OLAP立方体数据挖掘操作的交互方案。
发明内容
以下呈现了本发明的简化概述,以便提供对本发明某些方面的基本理解。该概述不是本发明的扩展性纵览。它并非旨在标识本发明的关键或主要元素,或旨在呈现本发明的范围。其唯一目的是以简化形式呈现了本发明的某些概念,作为以下提供的更详细描述的前言。
在此揭示和声明的本发明在其一方面中包括一种正式语言,它结合多维扩展(例如MDX)和数据挖掘扩展(例如DMX)用于在驻留于OLAP立方体的数据上执行数据挖掘操作。数据挖掘操作一般在由<source-data-query>指示的源数据集上执行操作。到此为止,<source-data-query>元素是限于直接根据关系数据库动作的关系查询,或取得关系查询并使它们形成嵌套行集合的SHAPE语句。本发明提供的<source-data-query>可不仅是关系查询,而且是例如使用MDX形成的多维查询。
在本发明另一方面,数据挖掘模型可用以根据OLAP立方体中包含的数据来执行预测。
在其中另一方面,对于模型创建,本发明声明在创建之后直到训练阶段结束为止源数据类型都是未知的且不作设置。在常规***中,模型的“类型”在创建之后即暗示,其源于关系或源于OLAP的模型。
此外,挖掘模型可不管其关系或多维性质而由任意数据源来进行训练。列绑定可通过明确多维和关系源中的列顺序来进行一致的处理,而不像常规***中三维列绑定是通过挖掘模型和OLAP立方体的名字匹配来暗示的。
还有,挖掘模型可不管其关系或多维性质而取作用于预测的数据源、任意数据源。所揭示体系架构使得预测能使用DMX进行,并使OLAP立方体能作源于任何模型的预测而不管它是如何创建或训练的。通常,对OLAP立方体中数据的预测可以MDX的方式执行,且仅使用对同一立方体训练的挖掘模型。
为实现前述及相关结果,本方面的某些说明性方面结合以下说明书和附图在此说明。但这些方面仅仅示出了本发明诸原理可在其中采用的各种方式的其中几种,且本发明旨在包括所有这些方面及其等效方案。结合附图参阅本发明的以下详细说明,本发明的其它优点和新颖特征会变得显而易见。
附图说明
图1示出根据本发明便于多维表达式和数据挖掘扩展结合的***。
图2示出根据本发明一多维数据挖掘方法的流程图。
图3示出根据本发明将多维表达式用作数据挖掘扩展的输入的示例性方法的流程图。
图4示出执行所揭示体系架构的计算机操作的框图。
图5示出根据本发明示例性计算环境的示意框图。
具体实施方式
现在本发明参照附图进行描述,其中相同参考标记贯穿全文用来表示相同元件。在以下描述中为了进行解释,许多特定细节被陈述以便提供本发明的全面理解。然而,很显然,没有这些特定细节也可实现本发明。在其它实例中,众所周知的结构和装置被以框图形式显示,用来有助于描述本发明。
当用于本发明时,术语“组件”和“***”旨在指计算机相关实体:硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是,但不限于是,运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。作为说明,运行于服务器上的应用和服务器都是组件。一个或多个组件可驻留于执行的过程和/或线程中,且组件可在一台计算机上本地化和/或分布在两台或多台计算机之间。
本发明提供用于结合多维表达式和数据挖掘扩展的体系架构,以在驻留于OLAP立方体的数据上执行数据挖掘操作。目前,<source-data-query>元素是限于直接对关系数据库动作的关系查询,或取得关系查询并使它们形成嵌套行集合的SHAPE语句。本发明提供的<source-data-query>可不仅是关系查询,而且是例如使用多维扩展形成的多维查询。
一种这样的方法可通过MDX和DMX实现。MDX是多维表达式的首字母缩写词,由微软公司的OLAP规范的OLE DB定义,在此全文引入作为参考。DMX是数据挖掘规范的首字母缩写词,由微软公司的数据挖掘规范的OLE DB定义,在此全文引入作为参考。为了本说明书,描述模型创建、模型训练、以及根据新数据的预测的操作。
在DMX中,这些操作使用语句CREATE MINGING MODEL、INSERT INTO、以及SELCT...PREDICTION JOIN来执行。例如:
CREATE MINING MODEL MyModel
(
CustomerID LONG         KEY,
Age      LONG          CONTINUOUS,
Gender     TEXT        DISCRETE,
Occupation TEXT        DISCRETE,
HomeOwner  BOOLEAN     DISCRETE,
TotalSales DOUBLE CONTINUOUS
MemberCard TEXT        DISCRETE   PREDICT
Products   TABLE
(
ProductID      TEXT   KEY
)
)USING Microsoft_Decision_Trees
INSERT INTO MyModel(CustomerID,Age,Gender,Occupation,
                         HomeOwner,TotalSales,MemberCard,
           Products(Product))
       <source-data-query>
SELECT Predict(MemberCard)FROM MyModel PREDICTION JOIN
       <source-data-query>as t
ON MyModel.Age=t.Age,MyModel.Gender=t.Gender,...,
       MyModel.Products.ProductID=t.Products.ProductID
现在参看图1,示出根据本发明便于多维表达式和数据挖掘扩展结合的***100。提供了要对其执行数据挖掘的多维数据源(例如OLAP(在线分析处理)立方体)102。数据挖掘组件104包括一多维表达式组件106(例如MDX)以及一数据挖掘扩展组件108,它们一起便于OLAP立方体102的数据挖掘。数据挖掘组件的输出是用作数据挖掘模型创建、训练以及预测的输入的数据。
在可选实施例中,可以理解多维表达式组件106和数据挖掘扩展组件108不需要都驻留于单个总体数据挖掘组件104中。因而,各组件(106和108)可以是独立的,从而一组件可向另一组件供给。
现在参看图2,示出根据本发明一种多维数据挖掘方法的流程图。尽管为了简单解释,在此示出的例如流程图形式的一个或多个方法可视为和描述为一系列动作,可以理解和了解本发明并未限于该动作顺序,因为根据本发明某些动作可以不同顺序发生和/或与在此所示和所述的其它动作同时发生。例如,本领域技术人员将理解和了解方法可任选地表示为一系列相互关联的状态或事件,诸如状态图。此外,并非所有所示动作都是实现根据本发明方法所必须的。
在200,可提供多维数据用于数据挖掘。在202,提供了语言模式,它结合多维表达式和数据挖掘扩展,并在多维数据上操作。在204,由多维数据创建数据挖掘模型。在206,在数据上训练数据挖掘模型。在208,可使用数据挖掘扩展对新数据作预测。然后过程到达结束框。
现在参看图3,示出根据本发明将多维表达式用作数据挖掘扩展的输入的示例性方法的流程图。数据挖掘扩展查询通常期望关系数据库为它们的数据源。这些查询可接受平面表格或通过SHAPE指令的使用创建的嵌套表格作为输入。绑定通过列顺序完成—如在INSERT INTO语句中,或使用ON语句显式映射—如在SELECT...PREDICTION JOIN语句中。例如:
     INSERT INTO MyModel(CustomerID,Age,Gender,Occupation,HomeOwner,
                         TotalSales,MemberCard,
                         Products(SKIP,ProductID))
     SHAPE(SELECT CustomerID,Age,Gender,Occupation,HomeOwner,TotalSales,MemberCard
                   FROM MyTable)
APPEND{(SELECT CustomerID,ProductID From ProductFacts)
        RELATE CustomerID to CustomerID}as Products
SELECT Predict(MemberCard)FROM MyModel PREDICTION JOIN
   SHAPE(SELECT CustomerID,Age,Gender,Occupation,HomeOwner,TotalSales,MemberCard
                   FROM MyTable)
APPEND{(SELECT CustomerID,ProductID From ProductFacts)
       RELATE CustomerID to CustomerID}as Products as t
  ON MyModel.Age=t.Age,MyModel.Gender=t.Gender,...,
          MyModel.Products.ProductID=t.Products.ProductID
本发明允许将多维表达式查询(例如MDX)用作数据挖掘扩展表达式(例如DMX)的输入的多种方法。作为示例而非限制,以下描述使用MDX和DMX作为一种实现本发明的方法。在300,第一种方法是通过用MDX查询简单替换关系查询。例如,查询
SELECT CustomerID,Age,Gender,Occupation,HomeOwner,TotalSales,MemberCard
FROM MyTable
可在MDX立方体中可表达为:
SELECT Measures.TotalSales ON COLUMNS,
Customers.Members DIMENSION PROPERTIES CustomerID,Age,Gender,Occupation,HomeOwner,MemberCard ON ROWS
FROM MyCube
在另一示例中,以下查询
SELECT CustomerID,ProductID From ProductFacts
可表达为:
SELECT,ON COLUMNS,
NON EMPTY CROSSJOIN(Customers,Products)
  DIMENSION PROPERTIES Customer.CustomerID,Products.ProductID ON ROWS
FROM MyCube
因而,采用第一形式,MDX表达式可替代关系查询。
在302,第二种形式通过利用立方体固有的多维结构消除SHAPE结构。以上形式的关系查询可以MDX写为:
SELECT Measures.TotalSales ON COLUMNS,
   Customers.Members DIMENSION PROPERTIES CustomerID,Age,Gender,
Occupation,HomeOwner,MemberCard ON ROWS,
   NON EMPTY Products.Members DIMENSION PROPERTIES ProductID on PAGES
FROM MyCube
附加的嵌套表格可安排在附加轴上。
在304,本发明的第三种形式涉及仅通过名字绑定的语句,例如SELECT、PREDICTION、以及JOIN。在此形式中,数据挖掘扩展处理器利用立方体结构,来允许较简单的查询,以及扩展ON语句从MDX查询中提取信息。例如:
SELECT Predict(MemberCard)FROM MyModel PREDICTION JOIN
SELECT Measures.TotalSales ON COLUMN,
   Customers.Members ON ROWS,
   NON EMPTY Products ON PAGES
FROM MyCube as t
ON MyModel.Age=t.Customers.Age,
     MyModel.Gender=t.Customers.Gender,
     MyModel.Occupation=t.Customers.Occupation,
   ...
   MyModel.TotalSales=t.TotalSales,
   MyModel.Products.ProductID=t.Products.ProductID
对于模型创建,本发明声明在创建之后直到训练阶段源数据类型都为未知且不作设置。在常规***中,模型的“类型”在创建之后即暗示,是源于关系或源于OLAP的模型。
挖掘模型可不管其关系或多维性质而由任意数据源来进行训练。列绑定通过多维和关系源中明确列顺序来进行一致的处理,而不像常规***中列绑定通过挖掘模型和OLAP立方体的名字匹配来暗示。
挖掘模型可不管其关系或多维性质而取作用于预测的数据源、任意数据源。通常,对OLAP立方体中数据的预测是由MDX执行的,且仅使用在对同一立方体中训练的挖掘模型。所揭示体系架构使得预测能使用DMX进行,并使OLAP立方体能作源于任何模型的预测而不管它是如何创建或训练的。
现在参照图4,示出了执行本发明***架构的计算机操作框图。为了提供本发明诸方面的其它环境,图4和以下论述旨在对适合本发明诸方面在其中实现的适当计算环境400提供简要、一般的说明。尽管本发明是在运行于一台或多台计算机上的计算机可执行指令的一般环境中说明的,本领域技术人员将认识到本发明也可结合其它程序模块和/或作为硬件和软件的组合来实现。
通常,程序模块包括执行具体任务或实现具体抽象数据结构的例程、程序、组件、数据结构、等等。另外,本领域技术人员将理解本发明的方法也可通过其它计算机***配置来实践,包括单处理器或多处理器计算机***、微型计算机、大型计算机、以及个人计算机、手持式计算装置、基于微处理器的或可编程的消费电器等等,其中每个装置都可有效地与一个或多个关联装置相耦合。
本发明所说明的诸方面也可在任务由经通信网络连接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中,程序模块可置于本地和远程存储设备。
计算机通常包括各种计算机可读介质。计算机可读介质可以是能被计算机访问的任何可用介质,并包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字化视频光盘(DVD)或其它光学存储技术、磁卡、磁带、磁盘存储或其它磁性存储设备、或任何其它可用于存储所需信息并可由计算机访问的介质。
通信介质通常包括诸如载波或其它传输机制的调制数据信号中的计算机可读指令、数据结构、程序模块、或其它数据,且包括任何信息输送介质。术语“已调数据信号”意指用将信息编码成信号的方式设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括诸如有线网络或直线连接的有线介质,和诸如声学、射频、红外线和其它无线介质的无线介质。以上任何介质的组合也应包括在计算机可读介质的范围中。
再次参看图4,实现本发明各方面的示例性环境400具有计算机402。计算机402具有处理单元404、***存储器406、及***总线408。***总线408耦合***组件包括,但不限于将***存储器406耦合到处理单元404。处理单元404可以是各种可用处理器的任一种。双微处理器和其它多处理器架构也可被用作处理单元404。
***总线408可以是若干类总线结构的任一种,包括存储器总线(具有或不具有存储器控制器)、***总线、和/或使用各种可用总线架构任一种的本地总线。***存储器406具有只读存储器(ROM)410和随机存储器(RAM)412。包含在计算机402硬件间传送如起动时信息的基本例程的基本输入/输出***(BIOS),存储在诸如ROM、EPROM、EEPROM的非易失性存储器410上。RAM 412还包括诸如用来高速缓存数据的静态RAM的高速RAM。
计算机402还包括内部硬盘驱动器(HDD)414(例如EIDE、SATA)(也可配置在适当箱体(未示出)中用来外部使用)、磁性软盘驱动器(FDD)416(例如读取或写入可移动磁盘418)和光盘驱动器420(例如读取CD-ROM 422,或读取或写入其它诸如DVD的大容量光学介质)。硬盘驱动器414、磁盘驱动器416、和光盘驱动器420分别通过硬盘驱动器接口424、磁盘驱动器接口426、和光盘驱动器接口428与***总线408相连。用作外部驱动器实现的接口424包括通用串行总线(USB)和IEEE 1394接口技术的至少其一或全部。
这些驱动器和与之相关联的计算机可读介质为个人计算机50提供数据、数据结构、计算机可读指令等等的非易失性存储。对于计算机402,驱动器和介质容纳了采用适当数字化格式存储的任何数据。尽管以上所述的计算机可读介质是指可移动磁盘HDD和诸如CD或DVD的可移动光学介质,本领域技术人员将理解,其它类型的计算机可读介质,诸如zip盘、磁带、闪存卡、盒式磁带等等,也能用于示例性操作环境,而且,任意这种介质可包含执行本发明方法的计算机可执行指令。
众多程序模块,包括操作***430、一个或多个应用程序430、其它程序模块434、和程序数据436,可存储在驱动器和RAM 412中。操作***、应用、模块、和/或数据的全部或部分也可被高速缓存在RAM 412中。
可以理解本发明可用各种可购买的操作***或操作***的组合来实现。
用户可通过一个或多个有线/无线输入装置如键盘438和诸如鼠标440的定位装置向计算机402输入指令和信息。其它输入装置(未示出)可包括话筒、IR远程控制、游戏杆、游戏垫、触笔、触摸屏等等。这些和其它输入装置通常通过与***总线408耦合的输入装置接口442连接到处理单元404,但也可能通过其它接口相连,如并行端口、IEEE 1344串行端口、游戏端口、USB端口、IR接口等等。
监视器444或其它类型显示装置也通过接口,如视频适配器446和***总线408相连。除了显示器444,个人计算机通常包括其它***输出装置(未示出),如扬声器和打印机等等。
计算机402可以在使用与一台或多台远程计算机,诸如远程计算机448经有线和/或无线通信的逻辑连接的网络化环境中运行。远程计算机448可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐装置、同等装置或其它普通网络节点,而且通常包括上述与个人计算机402相关的许多或全部部件,尽管为简化起见在图1中仅显示了存储器存储装置450。逻辑连接包括局域网(LAN)452和广域网(WAN)453。这样的LAN和WAN网络化环境在办公室、公司内是常见的,并有助于建立诸如企业内部互联网的企业范围计算机网络,所有这些都可连接到诸如因特网的全球通信网络上。
当用于LAN网络环境中时,计算机402通过有线和/或无线的通信网络接口或适配器456与局域网452连接。适配器456可有助于与LAN 452的有线或无线通信,其中包括用于与无线适配器456通信的无线访问节点。当用于WAN网络环境中时,计算机402包括调制解调器458、或连接于LAN上的通信服务器、或其它用于在广域网454如因特网中建立通讯的装置。可以是内置式或外置式、有线或无线装置的调制解调器458与***总线408通过串行端口接口442连接。在网络化环境中,与计算机402相关的程序模块或其一部分可存储在远程存储器/存储装置450中。可以理解的是,所示网络连接是示例性的,且其它用于在计算机间建立通讯连接的技术也可以使用。
计算机402与任意可操作地置于无线通信中的无线装置或实体的通信是可操作的,例如打印机、扫描仪、台式和/或便携式计算机、便携式数据辅助、通信***、任何关联于无线可检测标记的设备或地点(例如亭子、新闻架、厕所)、以及电话。这包括至少Wi-Fi和蓝牙TM无线技术。因而,通信可以是带有常规网络或至少两个装置之间特别通信的预定结构。
Wi-Fi或无线保真,使得家中沙发、旅馆房间内的床、或工作中的会议室无需接线就可与因特网连接。Wi-Fi是促使例如计算机的这种装置在室内和室外收发数据的像蜂巢式电话这类的无线技术;可在基站范围内的任何地方。Wi-Fi网络使用称为IEEE 802.11的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络能用于计算机之间的相互连接、与因特网、有线网络(使用IEEE 802.3或以太网)的连接。Wi-Fi网络带有11兆比特/秒(Mbps)(802.11b)或54Mbps(802.11a)的数率,或包含两个频带(双频带)在无许可证的2.4和5GHz的无线频带上操作,因此网络可提供类似于在许多办公室中使用的基本10BaseT有线以太网的实际性能。
现在参看图5,示出了根据本发明示例性计算环境500的示意框图。***500包括一台或多台客户机502。客户机502可以是硬件和/或软件(例如线程、过程、计算装置)。客户机502可通过采用本发明覆盖cookie和/或相关联的环境信息。***500还可包括一台或多台服务器504。服务器504也可以是硬件和/或软件(例如线程、过程、计算装置)。服务器504可采用本发明覆盖线程来执行变换。在客户机502和服务器504间的一可能通信可能是以适于在两个或多个计算机过程间传送的数据包形式进行。数据包可包括例如cookie和/或相关联的环境信息。***500包括可用来便于客户机502和服务器504间通信的通信框架506(例如诸如因特网的全球通信网络)。
通信可通过有线(包括光纤)和/或无线技术来推动。客户机502可与一个或多个用来存储客户机502本地信息(例如cookie和/或相关联环境信息)的客户机数据存储508可操作连接。类似地,服务器504可与一个或多个用来存储服务器504本地信息的服务器数据存储55可操作连接。
以上所述包括本发明的诸多示例。当然,为描述本发明而对每一能想到的组件或方法组合进行描述是不可能的,但本领域普通技术人员明白本发明的更多排列和组合是可能的。因此,本发明旨在包含所有这样的在所附权利要求书精神和范围内的变更、修改、和变化。此外,就用于具体实施方式或权利要求书的术语“具有”而言,这种术语意在以类似于术语“包括”在权利要求书中作连接词的方式作包含意义解。

Claims (40)

1.一种便于在多维数据立方体上作数据挖掘的***,其特征在于,包括结合多维表达式和数据挖掘扩展以便于所述多维数据立方体的数据挖掘的一组件。
2.如权利要求1所述的***,其特征在于,所述多维数据立方体是在线分析处理(OLAP)立方体。
3.如权利要求1所述的***,其特征在于,所述组件便于数据立方体上多维查询和关系查询的至少之一。
4.如权利要求1所述的***,其特征在于,所述组件便于可在创建时间和训练时间之一上给出其源数据类型的数据挖掘模型的创建。
5.如权利要求1所述的***,其特征在于,所述组件便于与在其上训练的任何源结构独立的数据挖掘模型的创建。
6.如权利要求1所述的***,其特征在于,所述组件便于从任意数据源训练的数据挖掘模型的创建。
7.如权利要求6所述的***,其特征在于,所述任意数据源是关系的和多维的之一。
8.如权利要求1所述的***,其特征在于,所述组件便于一数据挖掘模型的创建,所述模型使用在关系数据源和多维数据源的至少之一中明确列顺序来进行一致处理的列绑定来训练。
9.如权利要求1所述的***,其特征在于,所述组件便于取得任意数据源用于预测过程的数据挖掘模型的创建。
10.如权利要求9所述的***,其特征在于,所述任意数据源是关系的和多维的之一。
11.如权利要求9所述的***,其特征在于,所述预测过程使用所述数据挖掘扩展进行。
12.如权利要求1所述的***,其特征在于,所述数据立方体可不管所述数据挖掘模型是如何创建或训练的而作源于任何数据挖掘模型的预测。
13.如权利要求1所述的***,其特征在于,所述组件便于三维表达式查询作为所述数据挖掘扩展的输入。
14.如权利要求13所述的***,其特征在于,所述输入用多维扩展查询替换关系查询。
15.如权利要求13所述的***,其特征在于,所述输入是通过将形式查询重写为嵌套表格的多维表达式。
16.如权利要求13所述的***,其特征在于,所述输入通过仅由名字绑定的语句。
17.如权利要求1所述的***,其特征在于,所述组件便于使用所述多维表达式形成的可以是关系查询和多维查询的源/数据/查询元素。
18.一种具有存储其上的计算机可执行指令的计算机可读介质,其特征在于,所述指令用于实现如权利要求1所述的***。
19.一种采用如权利要求1所述***的计算机。
20.如权利要求1所述的***,其特征在于,所述多维表达式和数据挖掘扩展与MDX和DMX的至少之一相对应。
21.如权利要求1所述的***,其特征在于,所述组件便于由关系数据源训练的数据模型的创建,并且其中模型可应用于OLAP立方体的预测。
22.如权利要求1所述的***,其特征在于,所述组件便于由OLAP数据源训练的数据模型的创建,并且其中模型可应用于关系数据预测。
23.一种便于OLAP立方体的数据挖掘的***,其特征在于,包括:执行一模式的组件,所述模式结合MDX表达式的多维表达式和DMX扩展的数据挖掘扩展,以便于OLAP数据立方体的数据挖掘。
24.如权利要求23所述的***,其特征在于,所述组件便于由任意数据源训练的数据挖掘模型的创建,所述数据源是关系的和多维的之一。
25.如权利要求23所述的***,其特征在于,所述组件便于一数据挖掘模型的创建,所述模型使用在关系数据源和多维数据源的至少之一中明确列顺序来进行一致处理的列绑定来训练。
26.如权利要求23所述的***,其特征在于,所述组件便于使用DMX取得任意数据源用于预测过程的数据挖掘模型的创建,其中所述随意数据源是关系的和多维的之一。
27.如权利要求23所述的***,其特征在于,所述OLAP立方体可不管所述数据挖掘模型是如何创建或训练的而作源于任何数据挖掘模型的预测。
28.如权利要求23所述的***,其特征在于,所述组件便于MDX查询作为所述DMX扩展的输入,所述输入通过多维扩展查询替换关系查询、将形式查询重写为嵌套表格的多维表达式、以及仅由名字绑定的语句的至少之一。
29.如权利要求23所述的***,其特征在于,所述组件便于使用所述多维表达式形成的可以是关系查询和多维查询至少之一的源/数据/查询元素。
30.一种具有计算机可执行指令的计算机可读介质,所述指令提供挖掘OLAP立方体的数据的方法,其特征在于,所述方法包括:
接收所述OLAP立方体;以及
使用一模式根据所述OLAP立方体来处理查询,所述模式将多维表达式提供为对数据挖掘扩展的输入。
31.如权利要求30所述的方法,其特征在于,所述查询是使用MDX形成的关系查询和多维查询的至少之一。
32.如权利要求30所述的方法,其特征在于,所述多维表达式由MDX定义而所述数据挖掘扩展由DMX定义。
33.如权利要求30所述的方法,其特征在于,还包括由所述OLAP创建挖掘模型,其类型在训练阶段定义。
34.如权利要求30所述的方法,其特征在于,还包括由任意数据源训练挖掘模型,其数据源是关系的和多维的之一。
35.如权利要求30所述的方法,其特征在于,还包括向挖掘模型提供一数据源用于预测过程,其数据源是任意的,且是关系的和多维的之一。
36.如权利要求30所述的方法,其特征在于,还包括通过用MDX查询替换关系查询将MDX表达式的多维表达式输入到DMX扩展的数据挖掘扩展中。
37.如权利要求30所述的方法,其特征在于,还包括通过将SHAPE查询重写为MDX查询将MDX表达式的多维表达式输入到DMX扩展的数据挖掘扩展中。
38.如权利要求30所述的方法,其特征在于,还包括使用由名字绑定的语句将MDX表达式的多维表达式输入到DMX扩展的数据挖掘扩展中。
39.一种便于OLAP立方体的数据挖掘的***,其特征在于,包括:
一装置,用于产生将MDX表达式结合为DMX扩展输入的查询;
一装置,用于根据所述OLAP立方体应用所述查询以产生一挖掘模型;以及
一装置,用于使用所述挖掘模型对所述OLAP的数据执行一预测。
40.如权利要求39所述的***,其特征在于,还包括一装置,用于训练来自任意数据源的所述挖掘模型,其数据源是关系的和多维的之一。
CN200510074012XA 2004-06-22 2005-05-23 结合多维表达式和数据挖掘扩展来挖掘olap立方体 Expired - Fee Related CN1713180B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/873,676 2004-06-22
US10/873,676 US7627555B2 (en) 2004-06-22 2004-06-22 Combining multidimensional expressions and data mining extensions to mine OLAP cubes

Publications (2)

Publication Number Publication Date
CN1713180A true CN1713180A (zh) 2005-12-28
CN1713180B CN1713180B (zh) 2013-05-08

Family

ID=34981588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510074012XA Expired - Fee Related CN1713180B (zh) 2004-06-22 2005-05-23 结合多维表达式和数据挖掘扩展来挖掘olap立方体

Country Status (10)

Country Link
US (1) US7627555B2 (zh)
EP (1) EP1610237A3 (zh)
JP (1) JP4716796B2 (zh)
KR (1) KR101034428B1 (zh)
CN (1) CN1713180B (zh)
AU (1) AU2005201996B2 (zh)
BR (1) BRPI0502063A (zh)
CA (1) CA2506135A1 (zh)
MX (1) MXPA05005536A (zh)
RU (1) RU2398273C2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306176A (zh) * 2011-08-25 2012-01-04 浙江鸿程计算机***有限公司 一种基于数据仓库内在特征的olap关键词查询方法
CN102597992A (zh) * 2009-07-22 2012-07-18 卡罗林·帕特里希亚·麦格瑞戈 用于多维时态数据挖掘的***、方法和计算机程序
CN103164222A (zh) * 2013-02-25 2013-06-19 用友软件股份有限公司 多维建模***和多维建模方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937401B2 (en) * 2004-07-09 2011-05-03 Microsoft Corporation Multidimensional database query extension systems and methods
US20060036939A1 (en) * 2004-08-13 2006-02-16 Microsoft Corporation Support for user-specified spreadsheet functions
US8095499B2 (en) * 2004-10-19 2012-01-10 Microsoft Corporation Query consolidation for structured reports
US7899776B2 (en) * 2007-07-02 2011-03-01 Microsoft Corporation Explaining changes in measures thru data mining
EP2148310B1 (en) * 2008-07-21 2016-07-06 IDT Electronic Products Limited Data retrieval apparatus
US8229923B2 (en) * 2008-09-26 2012-07-24 Microsoft Corporation Multidimensional data space queries with expression evaluation
CA2708911C (en) 2009-07-09 2016-06-28 Accenture Global Services Gmbh Marketing model determination system
CA2712569C (en) 2009-08-31 2016-04-26 Accenture Global Services Gmbh Adaptive analytics multidimensional processing system
KR101117649B1 (ko) * 2010-10-13 2012-03-20 세종대학교산학협력단 Olap 기반의 3차원 공간에서 데이터 분석 객체의 선택 방법 및 시스템
CN102789488B (zh) * 2012-06-29 2016-05-04 用友网络科技股份有限公司 数据查询处理***和数据查询处理方法
CN103235793A (zh) * 2013-04-01 2013-08-07 华为技术有限公司 联机处理数据的方法、设备及***
US10275484B2 (en) * 2013-07-22 2019-04-30 International Business Machines Corporation Managing sparsity in a multidimensional data structure
US9575819B2 (en) 2013-09-06 2017-02-21 Sap Se Local buffers for event handlers
US9430523B2 (en) 2013-09-06 2016-08-30 Sap Se Entity-relationship model extensions using annotations
US9361407B2 (en) 2013-09-06 2016-06-07 Sap Se SQL extended with transient fields for calculation expressions in enhanced data models
US9176801B2 (en) 2013-09-06 2015-11-03 Sap Se Advanced data models containing declarative and programmatic constraints
US9442977B2 (en) 2013-09-06 2016-09-13 Sap Se Database language extended to accommodate entity-relationship models
US9354948B2 (en) 2013-09-06 2016-05-31 Sap Se Data models containing host language embedded constraints
US9639572B2 (en) 2013-09-06 2017-05-02 Sap Se SQL enhancements simplifying database querying
US9619552B2 (en) 2013-09-06 2017-04-11 Sap Se Core data services extensibility for entity-relationship models
CN106528795B (zh) * 2016-11-10 2023-10-13 中国农业银行股份有限公司 一种数据挖掘方法及装置
KR102058124B1 (ko) * 2019-01-25 2019-12-23 (주)비아이매트릭스 피벗 테이블 구조의 olap 결과를 이용한 딥러닝 예측 데이터 반영 시스템
US11868329B2 (en) 2022-05-20 2024-01-09 International Business Machines Corporation Multidimensional cube multivariate regression

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205447B1 (en) * 1997-06-30 2001-03-20 International Business Machines Corporation Relational database management of multi-dimensional data
US6473764B1 (en) * 1999-10-15 2002-10-29 Microsoft Corporation Virtual dimensions in databases and method therefor
US7822629B2 (en) * 1999-12-15 2010-10-26 Hewlett-Packard Development Company, L.P. Customer profiling apparatus for conducting customer behavior pattern analysis, and method for comparing customer behavior patterns
US7007020B1 (en) * 2000-03-10 2006-02-28 Hewlett-Packard Development Company, L.P. Distributed OLAP-based association rule generation method and system
US6917940B1 (en) * 2000-03-10 2005-07-12 Hewlett-Packard Development Company, L.P. Olap-based customer behavior profiling method and system
US6687693B2 (en) * 2000-12-18 2004-02-03 Ncr Corporation Architecture for distributed relational data mining systems
US7099880B2 (en) * 2002-01-31 2006-08-29 International Business Machines Corporation System and method of using data mining prediction methodology
US6931391B2 (en) * 2002-06-21 2005-08-16 Microsoft Corporation Systems and methods for generating prediction queries
US7472127B2 (en) * 2002-12-18 2008-12-30 International Business Machines Corporation Methods to identify related data in a multidimensional database
CN100359495C (zh) * 2003-09-04 2008-01-02 上海格尔软件股份有限公司 基于数据仓库的信息安全审计方法
US7143007B2 (en) * 2003-10-17 2006-11-28 Hydralift Amclyde, Inc. Equipment component monitoring and replacement management system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102597992A (zh) * 2009-07-22 2012-07-18 卡罗林·帕特里希亚·麦格瑞戈 用于多维时态数据挖掘的***、方法和计算机程序
CN102306176A (zh) * 2011-08-25 2012-01-04 浙江鸿程计算机***有限公司 一种基于数据仓库内在特征的olap关键词查询方法
CN103164222A (zh) * 2013-02-25 2013-06-19 用友软件股份有限公司 多维建模***和多维建模方法

Also Published As

Publication number Publication date
BRPI0502063A (pt) 2006-01-10
AU2005201996B2 (en) 2010-07-08
US20050283459A1 (en) 2005-12-22
CN1713180B (zh) 2013-05-08
EP1610237A2 (en) 2005-12-28
JP2006012143A (ja) 2006-01-12
RU2398273C2 (ru) 2010-08-27
JP4716796B2 (ja) 2011-07-06
KR20060047700A (ko) 2006-05-18
RU2005119376A (ru) 2006-12-27
AU2005201996A1 (en) 2006-01-12
MXPA05005536A (es) 2006-01-11
KR101034428B1 (ko) 2011-05-12
CA2506135A1 (en) 2005-12-22
EP1610237A3 (en) 2006-12-13
US7627555B2 (en) 2009-12-01

Similar Documents

Publication Publication Date Title
CN1713180A (zh) 结合多维表达式和数据挖掘扩展来挖掘olap立方体
CN1713179B (zh) 在对象模型中的影响分析
CN1856785A (zh) 用于基于版本控制的触发器的***和方法
CN102929950B (zh) 用于个性化搜索结果的社交网络推荐的内容和推荐成员
CN1758252A (zh) 自动视图选择
CN1815468A (zh) 非关系型查询语言与关系型数据存储的集成
US20150169652A1 (en) Systems and methods for automated report generation
CN1916894A (zh) 元数据编辑控制
CN1677395A (zh) 展平的分层结构中有意义的名字的创建
CN1655120A (zh) 在集成开发环境中作为设计器的主宿的应用程序
CN1841379A (zh) 将文件***模型映射到数据库对象
CN1604025A (zh) 分级原地菜单
CN1855009A (zh) 可搜索控制模板功能的基于任务的界面
CN1542599A (zh) 层次化数据的多方向显示和导航以及显示区消耗的优化
CN1705945A (zh) 全局查询相关属性
CN102047252A (zh) 对分层数据分页
CN1742271A (zh) 使用静态列表管理数据的***和方法
CN104462430A (zh) 关系型数据库的数据处理方法及装置
US20230004571A1 (en) Storing feature sets using semi-structured data storage
CN1758251A (zh) 静态和动态数据集的交互
JP6517930B2 (ja) 正規化されたデータセットの関係認識集約(raa)
CN113946620A (zh) 一种可视化数据创建方法、装置及计算设备
CN1723462A (zh) 用于数据库***中大对象基础结构的***和方法
CN104899300A (zh) 一种设置项的控制方法及电子设备
CN113157825A (zh) 用户行为数据整合方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508