CN104350491A

CN104350491A - 数据采样方法以及数据采样装置

Info

Publication number: CN104350491A
Application number: CN201380030639.8A
Authority: CN
Inventors: 刘焕祚; 吴镇午
Original assignee: Academy Industry Foundation of POSTECH
Current assignee: Academy Industry Foundation of POSTECH
Priority date: 2012-06-13
Filing date: 2013-04-01
Publication date: 2015-02-11
Also published as: KR101350782B1; EP2863319A1; EP2863319A4; KR20130139547A; WO2013187587A1; US20150161231A1

Abstract

本发明公开了一种数据采样方法以及数据采样装置。本发明的一个实施例包括以下步骤：生成基于原始数据反映用户兴趣的兴趣模型；以及根据将基于原始数据采样的模型与兴趣模型进行比较的结果，确定采样模型。根据本发明，可以快速、简单地获取反映用户兴趣的采样模型。

Description

数据采样方法以及数据采样装置

技术领域

本发明涉及数据采样，更加特别地，涉及用于从原始数据采样用户期望的数据的数据采样方法。

背景技术

对于数据处理和数据挖掘而言，采样是基本技术，并且其主要目的在于在维持原始数据集的特征同时减少目标数据集的大小。以此方式，通过减少目标数据集的大小，由此可减少在不同应用中的计算成本。另外，应用适当的采样技术可导致诸如数据分析和数据收集应用的性能改进以及成本降低的附加效应，并且可提供罕见类型问题、网络流量干扰问题等的解决方案。

由于开发在其中不同用户的兴趣被归纳的采样方法非常困难，采样方法基于特定问题以及特定用户兴趣被分别地开发。因为缺少针对采样归纳的框架，研究者们反复实施开发采样方法并验证所开发的采样方法的任务，并且在采样方法开发过程中的低效致使开发适当的采样方法变得困难。

发明内容

技术问题

本发明的目的在于提供一种用于获取反映用户兴趣的采样结果的数据采样方法。

本发明的另一目的在于提供一种用于获取反映用户兴趣的采样结果的数据采样装置。

技术方案

本发明的一方面提供了一种数据采样方法，其通过数据采样装置执行，所述方法包括：基于原始数据，生成反映用户兴趣的兴趣模型；以及根据通过将基于原始数据采样的模型与兴趣模型进行比较获得的结果，确定采样模型。

此处，生成兴趣模型可包括：基于用户兴趣，将包含在原始数据中的元素划分为多个数据组；根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例，计算多个数据组的权重；将数据组转换为根据用户兴趣定义的节点；计算多个节点之间的距离。

此处，确定采样模型可包括：基于包含在原始数据中的元素，生成多个比较模型；计算兴趣模型与多个比较模型之间的距离；以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。

此处，生成多个比较模型可包括：将包含在原始数据中的元素划分为用于兴趣模型的多个数据组；基于包含在多个数据组中的至少一个元素，生成多个比较数据组；将比较数据组转换为根据用户兴趣定义的比较节点；根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，计算多个比较节点的权重；计算多个比较节点之间的距离。

本发明的另一方面提供了一种数据采样装置，包括：第一生成器，其被配置为，基于原始数据，生成反映用户兴趣的兴趣模型；第二生成器，其被配置为，基于包含在原始数据中的元素，生成多个比较模型；确定器，其被配置为，根据通过将兴趣模型与多个比较模型进行比较从而获得的结果，确定采样模型。

此处，第一生成器可基于用户兴趣将包含在原始数据中的元素划分为多个数据组，根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例，计算多个数据组的权重，将数据组转换为根据用户兴趣定义的节点，以及计算多个节点之间的距离。

此处，第二生成器可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组，基于包含在多个数据组中的至少一个元素，生成多个比较数据组，将比较数据组转换为根据用户兴趣定义的比较节点，根据包含在多个比较节点的每个比较节点中至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，计算多个比较节点的权重，以及计算多个比较节点之间的距离。

此处，确定器可计算兴趣模型和多个比较模型之间的距离，以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。

有益效果

根据本发明，兴趣模型基于用户的兴趣被生成，以及根据通过将基于原始数据采样的模型与兴趣模型进行比较而获得的结果，从而确定采样模型。因此，可以简单、快速地获取反映用户兴趣的采样模型。

附图说明

图1为说明根据本发明的具体实施例的数据采样方法的流程图。

图2为说明图1中生成兴趣模型的操作的流程图。

图3为说明图1中确定采样模型的操作的流程图。

图4显示了通过将原始数据划分为多个数据组而获得的结果以及根据所述划分的采样结果的坐标图。

图5显示了通过根据本发明的具体实施例的数据采样方法而生成的兴趣模型的概念图。

图6显示了兴趣模型(或者比较模型)的实施例的概念图。

图7显示了根据采样方法的采样结果的概念图。

图8为显示根据采样方法的采样结果与原始数据之间差值的概念图。

图9为基于采样大小的采样质量变化的坐标图。

图10为根据本发明的具体实施例的数据采样装置的框图。

具体实施例

虽然本发明易于受到各种变型以及替代方式的影响，但是特定实施例在附图中给出并作详细描述。

然而，应当理解的是，描述并不旨在将本发明限定在特定实施例，相反地，本发明涵盖了落入本发明的精神和范围内的所有变型、等同物以及替换物。

尽管此处术语“第一”，“第二”等被用于不同元件，此类元件不应解释为受到这些术语限制。这些术语仅用于把一个元件与另一元件区分开来。例如，在不脱离本发明的范围的情形下，第一元件可被称为第二元件，以及第二元件可被称为第一元件。术语“和/或”包括了一个或者多个相关列举项目的任一或者所有组合。

应当理解的是，当一个元件被提及“连接”或者“耦合”至另一元件时，其可以直接连接或者耦合至另一元件或者也可出现中间元件。相反地，当一个元件被提及“直接连接”或者“直接耦合”至另一元件，则不会出现中间元件。

此处所用的术语仅用作描述特定实施例的目的，并不旨在限定本发明的实施例。除非上下文做出明确的其它指示，此处所用的单数形式“一个”、“所述”同样包括了复数形式。进一步应当理解的是，当此处使用术语“包括”、“包含”和/或“由…组成”时，指定阐明的特征、整体、步骤、操作、元件、部件和/或其组合的出现，但是并不排除一个或者多个其它特征、整体、步骤、操作、元件、部件和/或其组合的出现或者附加。

除非做出其它定义，此处使用的所有的术语(包括技术和学术术语)具有与本发明所属技术领域中普通技术人员通常理解的含义相同的含义。应当进一步理解的是，在公用词典中定义的术语应当解释为具有与相关技术领域上下文中它们的含义相一致的含义，除非特意地如此定义，其不应作理想化或者过于正式的理解的解释。

在下文中，本发明的具体实施例将会结合附图进行详细描述。为了促进本发明的整体理解，附图中相同的部件对应相同的附图标记，并且相同元件的描述将被省略。

图1为说明根据本发明具体实施例的数据采样方法的流程图。图2为说明图1中生成兴趣模型的操作的流程图，以及图3为说明图1中确定采样模型的操作的流程图。

参照图1-3，根据本发明具体实施例的数据采样方法包括：基于原始数据，生成反映用户兴趣的兴趣模型的操作(S100)，以及基于通过将基于原始数据的采样模型与兴趣模型进行比较而获得结果，从而确定采样模型的操作(S200)。

结合基于类的分层采样(下文中称为“情形1”)，基于象限的分层采样(下文中称为“情形2”)，平衡两个类的欠采样或者过采样(下文中称为“情形3”)，以及流量保持轨迹采样(下文中称为“情形4”)，根据本发明具体实施例的数据采样方法将会在下文中详细描述。此处，根据本发明具体实施例的数据采样方法可通过数据采样装置执行。

操作S100可包括操作S110，操作S120，操作130和操作S140，并且操作S200可包括操作S210，操作S220以及操作S230。此外，操作S210可包括操作S211，操作S212，操作S213，操作S214以及操作S215。

数据采样装置可将包含在原始数据中的元素划分为多个数据组(S110)。

在情形1中，用户兴趣为数据类型的比例，因此，数据采样装置可将相同类型的元素划分为一个数据组。参照图4(a)，数据采样装置可根据数据类型将原始数据划分为多个数据组(参见图4(a)的左边的坐标图)。换言之，数据采样装置可将对应相同类型的三角形元素划分为一个数据组并且可将对应相同类型的圆形元素划分为另一数据组。

在情形2中，用户兴趣为包含在象限中的数据比例，因此数据采样装置可将包含在相同象限中的元素划分为一个数据组。参照图4(b)，数据采样装置可根据数据位于其中的象限将原始数据划分为多个数据组(参见图4(b)左边的坐标图)。换言之，数据采样装置可将包含在第一象限中的元素划分为一数据组，将包含在第二象限中元素划分为另一数据组，将包含在第三象限中的元素划分为其它的另一数据组，以及将包含在第四象限中的元素划分为另外的另一数据组。

图4(a)的右边的坐标图显示了基于根据诸如在图4(a)中左边坐标图中数据类型而划分的多个数据组而生成的采样结果，而图4(b)的右边的坐标图显示了基于根据诸如在图4(b)中左边坐标图中数据位于其中的象限而划分的多个数据组而生成的采样结果。从此类采样结果可见：采样结果根据用户兴趣而变化。

在情形3中，用户兴趣为数据类型的比例，因此，数据采样装置可根据数据类型(参见图4(a)左边的坐标图)将原始数据划分为多个数据组。

在情形4中，用户兴趣为在空间-时间中特定点上的流量比例，因此数据采样装置可将在空间-时间中特定点上的流量划分为一个数据组。此处，空间-时间可通过维度、经度和时间进行定义。

在将包含在原始数据中元素划分为多个数据组后，数据采样装置，根据包含在多个数据组的每个数据组中至少一个元素与包含在另一数据组中至少一个元素之间的比例，可计算多个数据组的权重(S120)。

假设原始数据中包含400个元素并且所有数据组权重的总和为1，计算多个数据组权重的方法将会参照图5进行描述。

情形1的特征在于保持数据类型的比例。因此，当数据组C₁中包含100个元素而另一数据组C₂中包含300个元素时，如图5(a)所示，数据采样装置可将多个数据组的权重表达为“C₁＝0.25”以及“C₂＝0.75”(即，C₁＝100/400，以及C₂＝300/400)。

情形2的特征在于保持包含在象限中的数据的比例。因此，当一个数据组Q₁中包含100个元素，另一数据组Q₂中包含100个元素，其它另一数据组Q₃中包含100个元素，以及另外的另一数据组Q₄中包含100个元素时，如图5(b)所示，数据采样装置可将多个数据组的权重表达为“Q₁＝0.25”，“Q₂＝0.25”，“Q₃＝0.25”以及“Q₄＝0.25”(即，Q₁＝100/400，Q₂＝100/400，Q₃＝100/400以及Q₄＝100/400)。

情形3的特征在于保持数据类型相同的比例。因此，数据采样装置可将多个数据组的权重表达为“C1＝0.5”并且“C2＝0.5”，无论图5(c)中所示的数据组中包含的元素的数量如何。换言之，其可使得多个数据组的权重相等。

情形4的特征在于保持流量比例。因此，数据采样装置可将数据组的权重表达为在空间-时间中在特定点上归一化的流量比例。

在计算多个数据组的权重之后，数据采样装置可将数据组转换为基于用户兴趣定义的节点(S130)。此处，节点表示一个点，以及将数据组转换为节点可认为是将包含至少一个元素的数据组归纳为一个节点(即，将图4(a)转换为图5(a)，以及图4(b)转换为图5(b))。

在情形1中，节点表示数据类型，以及数据采样装置可将根据数据类型划分的一个数据组转换为一个节点(参见图4(a)中所示的坐标图以及图5(a))。

在情形2中，节点表示象限，以及数据采样装置可将根据象限划分的一个数据组转换为一个节点(参见图4(b)中所示的坐标图以及图5(b))。

在情形3中，节点表示数据类型，以及数据采样装置可将根据数据类型划分的一个数据组转换为一个节点(参见图4(a)中所示的坐标图以及图5(a))。

在情形4中，轨迹涉及在不同时间的多个点，因此节点为在空间-时间中的特定点。因此，数据采样装置可将根据在时间-空间中的特定点划分的一个数据组转换为一个节点。

在将数据组转换为基于用户兴趣定义的节点后，数据采样装置可计算节点之间的距离(S140)。

在情形1中，节点之间的距离没有意义，因而如图5(a)所示可具有相同的长度(例如长度为1)。然而，当节点间距离彼此不同时，节点间的距离可具有不同长度。例如，当节点1和节点2之间的距离大于节点2和节点1之间的距离，节点之间的距离具有不同的长度。

在情形2中，数据采样装置可计算象限节点之间的长度，并且节点间计算的长度可表达为如图5(b)所示。

在情形3中，与情形1中类似，节点之间的距离没有意义，因而可表达为如图5(c)所示。

在情形4中，节点为在空间-时间中的特定点，并且节点间的距离可使用下列等式1计算。

等式1

D (p, q) = \sqrt{{(p_{x} - q_{x})}^{2} + {(p_{y} - q_{y})}^{2} + {(p_{t} - q_{t})}^{2}}

此处，D(p,q)表示节点p和节点q之间的距离，p_x表示节点p的纬度，p_y表示节点p的经度，p_t表示节点p的时间，q_x表示节点q的纬度，q_y表示节点q的经度，q_t表示节点q的时间。

如上所述，数据采样装置可通过操作S110、操作S120、操作S130以及操作S140生成兴趣模型。

在生成反映用户兴趣的兴趣模型之后，数据采样装置可基于包含在原始数据中元素生成多个比较模型(S210)。

数据采样装置可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组(S211)。

在情形1中，用户兴趣为数据类型的比例，因此，数据采样装置可将相同类型的元素划分为一个数据组。参照图4(a)，数据采样装置可基于数据类型将原始数据划分为多个数据组(参见图4(a)左边的坐标图)。换言之，数据采样装置可将对应相同类型的三角形元素划分为一个数据组而将对应相同类型的圆形元素划分为另一数据组。

在情形2中，用户兴趣为包含在象限中数据的比例，因此数据采样装置可将包含在相同象限中的元素划分为一个数据组。参照图4(b)，数据采样装置可基于数据位于其中的象限而将原始数据划分为多个数据组(参见图4(b)左边的坐标图)。换言之，数据采样装置可将包含在第一象限中的元素划分为一个数据组，将包含在第二象限中的元素划分为另一数据组，将包含在第三象限中的元素划分为其它另一数据组，并且将包含在第四象限中的元素划分为另外的另一数据组。

在情形3中，用户兴趣为数据类型的比例，因此，数据采样装置可基于数据类型将原始数据划分为多个数据组(参见图4(a)左边的坐标图)。

在情形4中，用户兴趣为在空间-时间中特定点上的流量比例，因此，数据采样装置可将在空间-时间中特定点上的流量划分为数据组。此处，空间-时间可以通过纬度、经度和时间定义。

在将包含在原始数据中的元素划分为多个数据组后，数据采样装置可基于包含在多个数据组中的至少一个元素生成多个比较数据组(S212)。换言之，数据采样装置可选择包含在一个数据组中的一些元素并基于选择的元素而生成比较数据组。

在生成多个比较数据组之后，可将比较数据组转换为根据用户兴趣定义的比较节点(S213)。

在情形1中，节点表示数据类型，数据采样装置可将从根据数据类型划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(a)所述的坐标图以及图5(a))。

在情形2中，节点表示象限，数据采样装置可将从根据象限划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(b)的坐标图和图5(b))。

在情形3中，节点表示数据类型，数据采样装置可将从基于数据类型划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(a)中的坐标图以及图5(c))。

在情形4中，轨迹涉及在不同时间的多个点，因此节点为在空间-时间中的特定点。因此，数据采样装置可将从根据在空间-时间中的特定点划分的一个数据组中选择的一些元素转换为一个比较节点。

在将比较数据组转换为比较节点之后，根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，数据采样装置可计算多个比较节点的权重(S214)。

情形1的特征在于保持数据类型比例。因此，当一个比较节点C1中包含100个元素以及另一比较节点C₂中包含300个元素时，如图5(a)所示，数据采样装置可将多个比较节点的权重表达为“C₁＝0.25”以及“C₂＝0.75”。

情形2的特征在于保持包含在象限中数据的比例。因此，当一个比较节点Q₁中包含100个元素，另一比较节点Q₂中包含100个元素，其它另一比较节点Q₃中包含100个元素，另外的另一比较节点Q₄中包含100个元素时，如图5(b)所示，数据采样装置可将多个比较节点的权重表达为“Q₁＝0.25”，“Q₂＝0.25”，“Q₃＝0.25”以及“Q₄＝0.25”。

情形3的特征在于保持数据类型相同的比例。因此，数据采样装置可将多个数据组的权重表达为“C1＝0.5”以及“C2＝0.5”，无论如图5(c)中所示的比较节点包含的元素的数量如何。

情形4的特征在于保持流量比例。因此，数据采样装置可将多个比较节点的权重表达为在空间-时间中特定点上归一化的流量比例。

在根据比较节点中包含的元素的比例而计算比较节点的权重之后，数据采样装置可计算多个比较节点之间的距离(S215)。

在情形1中，比较节点之间的距离没有意义，如图5(a)所示可具有相同的长度(例如长度为1)。然而，当比较节点之间的距离彼此不同时，比较节点之间的距离可具有不同的长度。

在情形2中，数据采样装置可计算象限的比较节点之间的长度，并且计算的比较节点之间的长度可表达为如图5(b)所示。

在情形3中，与情形1中类似，比较节点之间的距离没有意义，因此可表达为如图5(c)所示。

在情形4中，比较节点为在空间-时间中的特定点，并且比较节点之间的距离可使用上述等式1计算。

如上所述，数据采样装置可通过上述操作S211、操作S212、操作S213以及操作S214生成比较模型。

在生成比较模型之后，数据采样装置可计算兴趣模型和比较模型之间的距离(S220)。

参照图6，计算兴趣模型和比较模型之间距离的方法将会在下文中详细介绍。

图6为显示兴趣模型实施例的概念图，其中连接彼此节点的连线上给出的数字表示节点之间的距离，以及节点中的图案表示节点的权重。换言之，具有方格图案的节点的权重为0.5，具有虚线图案的节点的权重为0.25，而没有图案的节点的权重为0。

两个兴趣模型之间(或者兴趣模型与比较模型之间)的距离可根据节点之间的权重差值和距离而被定义。由图6所示的模型直观地可见：由于图6(a)所示的模型的节点n₁与图6(b)所示的模型的节点n₁具有相同的权重并且图6(a)所示的模型的节点n₂与图6(b)所示的模型的节点n₂具有相似的权重，图6(a)所示的模型与图6(b)所示的模型之间的距离小于(即更加相似)图6(a)所示的模型与图6(c)所示的模型之间的距离。

换言之，由此可见，兴趣模型之间(或者兴趣模型与比较模型之间)的相应节点的权重为测量兴趣模型之间(或者兴趣模型和比较模型之间)距离过程中的因子。

同时，在图6(a)、6(c)以及6(d)所示的模型中，具有相同权重的节点的数量彼此相同。特别地，图6(a)所示的模型的节点n₂与图6(c)所示的模型的节点n₂具有相同的权重，并且图6(a)所示的模型的节点n₁与图6(d)所示的模型的节点n₁具有相同的权重。

在此情形下，测量兴趣模型之间(或者兴趣模型与比较模型之间)的距离可充分考虑节点之间的距离。换言之，从图6(a)、6(c)以及6(d)所示的模型可见：由于节点n₁和节点n₃之间的距离小于节点n₂和节点n₄之间的距离，图6(a)所示的模型与图6(c)所示的模型之间的距离小于(即更加相似)图6(a)所示的模型与图6(d)所示的模型之间的距离。这是由于节点n₁和节点n₃交换所需的工作量小于节点n₂和节点n₄交换所需的工作量。

如上所述，计算模型之间距离的问题可被认为是交换节点的问题。

因此，可使用本发明的具体实施例中的陆地移动距离(EMD)计算兴趣模型和比较模型之间的距离。

EMD可表达为下列等式2、等式3以及等式4。

等式2

WORK (S^{+}, S^{-}, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

此处，S⁺表示包含节点{n₁,…,n_k}的坐标图中定义的源极(即可认为是本发明具体实施例中的兴趣模型)，以及S^-表示包含节点{n₁,…,n_k}的坐标图中定义的漏极(sink)(即可认为是本发明具体实施例中的比较模型)。因此，S⁺可表达为“S⁺＝{(n₁,w₁ ⁺),…,(n_k,w_k ⁺)}”，而S^-可表达为“S^-＝{(n₁,w₁ ^-),…,(n_k,w_k ^-)}”。w_k ⁺表示相应源节点的权重，以及wk^-表示相应漏节点的权重。此外，WORK(S⁺,S^-,F)表示使得S^-与S⁺近似或者相同所需的工作量。

在等式2中，f_ij以及d_ij的定义如下列等式3所示。

等式3

f_ij≥0， 1≤i，j≤k

Σ_{j = 1}^{k} f_{ij} \leq w_{i}^{+}, 1 \leq i \leq k

Σ_{i = 1}^{k} f_{ij} \leq w_{j}^{-}, 1 \leq j \leq k

Σ_{i = 1}^{k} Σ_{j = 1}^{k} f_{ij} = \min (Σ_{i = 1}^{k} w_{i}^{+}, Σ_{j = 1}^{k} w_{j}^{-})

此处，f_ij表示从节点n_i至节点n_j的移动量，d_ij表示从节点n_i至节点n_j的距离，以及F为表示f_ij的矩阵(即，F＝[f_ij])。

使用下列基于上述等式2以及等式3定义的等式4，可计算最小工作量。

等式4

D_{EMD} (S^{+}, S^{-}) = \min_{F} WORK (S^{+}, S^{-}, F)

利用等式4，可测量图6中所示模型之间的距离。

等式5

D_EMD(A，B)＝0.25·0.4＝0.1

D_EMD(A，C)＝0.5·0.2＝0.1

D_EMD(A，D)＝0.5·0.4＝0.2

此处，假设图6(a)中所示的模型为兴趣模型A，图6(b)中所示的模型为比较模型B，图6(c)中所示的模型为另一比较模型C，以及图6(d)中所示的模型为其它的另一比较模型D。

从假设可见，由于A和B之间的距离计算为0.1，A和C之间的距离计算为0.1，并且A和D之间的距离计算为0.2，因此B和C与A相较于B和C与D更加接近(或者更加相似)。

在根据本发明的具体实施例的数据采样方法中，具有距兴趣模型最小距离的比较模型被从多个比较模型中确定。因此，确定采样模型的等式可表达为下列等式6。

等式6

\min_{M_{s}} D_{EMD} (M_{u}, M_{s}) = \min_{M_{s}} \min_{F} WORK (M_{u}, M_{s}, F)

此处，M_u表示兴趣模型，以及M_s表示比较模型。

数据采样装置可计算兴趣模型和比较模型之间的距离，并当计算的距离为最小距离时确定比较模型作为采样模型。数据采样装置可对所有比较模型重复这些处理。

同时，在情形4中，使用小波变换，可计算兴趣模型和比较模型之间的距离。

等式7

WEMD (P, Q) = \underset{λ}{Σ} α_{λ} | W_{λ} (P - Q) |

此处，P表示兴趣模型，Q表示比较模型，W_λ(P-Q)表示“P-Q”差值的小波变换系数，并且λ和α_λ的大小取决于上述系数。

前面已经描述了生成兴趣模型，然后生成比较模型。然而，也可以首先生成比较模型，以及然后生成兴趣模型，或者同时生成兴趣模型和比较模型。

至此，根据本发明具体实施例的数据采样方法已经做了详细介绍。参照图7-9，下面将会介绍基于根据本发明具体实施例的数据采样方法的采样结果多大程度上反映原始数据的特征或者用户兴趣。

图7显示了根据采样方法的采样结果的概念图。图7(a)为原始数据，图7(b)为通过随机采样计算得到的采样结果，图7(c)为通过流量保持采样计算得到的采样结果，以及图7(d)为通过具有相同权重的流量保持采样计算得到的采样结果。

从图7可见，当采用图7(c)中的流量保持采样计算时的原始数据的保持(即流量分布)好于当采用图7(b)中的随机采样计算时的原始数据的保持。换言之，图7(a)下面的坐标图包括具有相对大流量的两个大块，以及两个大块之间的块具有相对的低权重。此外，可以看出，通过采用图7(c)中流量保持采样计算好于通过采用图7(b)中随机采样计算的趋势。此外，从图7上面的图可见，当采用图7(c)中流量保持采样计算时原始数据的主要流量轨迹相较于当采用图7(b)中随机采样计算时的反映更好。

图8为显示根据采样方法的采样结果与原始数据之间的差值的概念图，其中X轴表示时间窗，Y轴表示在各个节点上流量比例之间差值的总和。此处，可以看出，基于根据本发明具体实施例的流量保持采样的采样结果与原始数据之间的差值小于基于随机采样的采样结果与原始数据之间的差值。

图9显示了基于采样大小的采样质量变化的坐标图，其中X轴表示采样大小以及Y轴表示原始数据与每个采样模型之间的距离。图9(a)显示了利用1-标准(1-norm)距离计算得到每个采样模型与原始数据之间的距离，可以看出，流量保持采样模型与原始数据之间的距离小于随机采样模型与原始数据之间的距离。图9(b)显示了采用EMD距离计算得到的每个采样模型与原始数据之间的距离，并且可以看出，流量保持采样模型和原始数据之间的距离小于随机采样模型与原始数据之间的距离。

根据本发明具体实施例的数据采样装置将会在下面进行详细描述。

图10为根据本发明具体实施例的数据采样装置的框图。

参照图10，根据本发明具体实施例的数据采样装置包括第一发生器10，第二发生器20以及确定器30，其中，第一发生器10基于原始数据生成反映用户兴趣的兴趣模型，第二发生器20基于包含在原始数据中的元素生成多个比较模型，确定器30根据通过将兴趣模型与多个比较模型相比较而获得的结果而确定采样模型。

第一发生器10可基于用户兴趣将包含在原始数据中的元素划分为多个数据组，根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例，计算多个数据组的权重，将数据组转换为根据用户兴趣定义的节点，以及计算多个节点之间的距离。此处，通过第一生成器10生成兴趣模型的细节与上述操作S100相同。

第二生成器20可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组，基于包含在多个数据组中的至少一个元素，生成多个比较数据组，将比较数据组转换为根据用户兴趣定义的比较节点，基于包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，计算多个比较节点的权重，以及计算多个比较节点之间的距离。此处，通过第二生成器20生成比较模型的细节与上述操作S210相同。

确定器30可计算兴趣模型与多个比较模型之间的距离，并确定具有从计算得到的距离中符合预定标准的距离的比较模型作为采样模型。此处，通过确定器30计算兴趣模型和比较模型之间距离的细节与上述操作S220相同，并且确定采样模型的细节与上述操作S230相同。

第一生成器10、第二生成器20以及确定器30执行的功能可由任意处理器执行(例如，中央处理单元(CPU))，以及图1至图3的各个操作可由任意处理器完成。

此外，第一生成器10、第二生成器20以及确定器30可在一个整体、一个物理装置或者一个模块中实现。进一步地，第一生成器10、第二生成器20以及确定器30中的每一个可执行为多个物理装置或者物理群而非一个物理装置或者物理群。

尽管参照其具体实施例对本发明进行了介绍和描述，对本领域普通技术人员而言，在不脱离本发明的精神和范围的前提下在形式和细节上做出的各种变化均已被权利要求书所定义。

Claims

1.一种数据采样方法，其通过数据采样装置执行，所述方法包括：

基于原始数据，生成反映用户兴趣的兴趣模型；以及

根据通过将基于原始数据采样的模型与兴趣模型进行比较获得的结果，确定采样模型。

2.根据权利要求1所述的方法，其中，生成兴趣模型包括：

基于用户兴趣，将包含在原始数据中的元素划分为多个数据组；

根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例，计算多个数据组的权重；

将数据组转换为根据用户兴趣定义的节点；

计算多个节点之间的距离。

3.根据权利要求2所述的方法，其中，确定采样模型包括：

基于包含在原始数据中的元素，生成多个比较模型；

计算兴趣模型与多个比较模型之间的距离；以及

确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。

4.根据权利要求3所述的方法，其中，生成多个比较模型包括：

将包含在原始数据中的元素划分为用于兴趣模型的多个数据组；

基于包含在多个数据组中的至少一个元素，生成多个比较数据组；

将比较数据组转换为根据用户兴趣定义的比较节点；

根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，计算多个比较节点的权重；

计算多个比较节点之间的距离。

5.一种数据采样装置，包括：

第一生成器，基于原始数据，生成反映用户兴趣的兴趣模型；

第二生成器，基于包含在原始数据中的元素，生成多个比较模型；以及

确定器，根据通过将兴趣模型与多个比较模型进行比较从而获得的结果，确定采样模型。

6.根据权利要求5所述的装置，其中，第一生成器基于用户兴趣将包含在原始数据中的元素划分为多个数据组，根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例，计算多个数据组的权重，将数据组转换为根据用户兴趣定义的节点，以及计算多个节点之间的距离。

7.根据权利要求6所述的装置，其中，第二生成器将包含在原始数据中的元素划分为用于兴趣模型的多个数据组，基于包含在多个数据组中的至少一个元素，生成多个比较数据组，将比较数据组转换为根据用户兴趣定义的比较节点，根据包含在多个比较节点的每个比较节点中至少一个元素与包含在另一比较节点中的至少一个元素之间的比例，计算多个比较节点的权重，以及计算多个比较节点之间的距离。

8.根据权利要求5所述的装置，其中，确定器计算兴趣模型与多个比较模型之间的距离，以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。