CN104350491A - 数据采样方法以及数据采样装置 - Google Patents

数据采样方法以及数据采样装置 Download PDF

Info

Publication number
CN104350491A
CN104350491A CN201380030639.8A CN201380030639A CN104350491A CN 104350491 A CN104350491 A CN 104350491A CN 201380030639 A CN201380030639 A CN 201380030639A CN 104350491 A CN104350491 A CN 104350491A
Authority
CN
China
Prior art keywords
model
data
node
data group
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380030639.8A
Other languages
English (en)
Inventor
刘焕祚
吴镇午
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Industry Foundation of POSTECH
Original Assignee
Academy Industry Foundation of POSTECH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Industry Foundation of POSTECH filed Critical Academy Industry Foundation of POSTECH
Publication of CN104350491A publication Critical patent/CN104350491A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据采样方法以及数据采样装置。本发明的一个实施例包括以下步骤:生成基于原始数据反映用户兴趣的兴趣模型;以及根据将基于原始数据采样的模型与兴趣模型进行比较的结果,确定采样模型。根据本发明,可以快速、简单地获取反映用户兴趣的采样模型。

Description

数据采样方法以及数据采样装置
技术领域
本发明涉及数据采样,更加特别地,涉及用于从原始数据采样用户期望的数据的数据采样方法。
背景技术
对于数据处理和数据挖掘而言,采样是基本技术,并且其主要目的在于在维持原始数据集的特征同时减少目标数据集的大小。以此方式,通过减少目标数据集的大小,由此可减少在不同应用中的计算成本。另外,应用适当的采样技术可导致诸如数据分析和数据收集应用的性能改进以及成本降低的附加效应,并且可提供罕见类型问题、网络流量干扰问题等的解决方案。
由于开发在其中不同用户的兴趣被归纳的采样方法非常困难,采样方法基于特定问题以及特定用户兴趣被分别地开发。因为缺少针对采样归纳的框架,研究者们反复实施开发采样方法并验证所开发的采样方法的任务,并且在采样方法开发过程中的低效致使开发适当的采样方法变得困难。
发明内容
技术问题
本发明的目的在于提供一种用于获取反映用户兴趣的采样结果的数据采样方法。
本发明的另一目的在于提供一种用于获取反映用户兴趣的采样结果的数据采样装置。
技术方案
本发明的一方面提供了一种数据采样方法,其通过数据采样装置执行,所述方法包括:基于原始数据,生成反映用户兴趣的兴趣模型;以及根据通过将基于原始数据采样的模型与兴趣模型进行比较获得的结果,确定采样模型。
此处,生成兴趣模型可包括:基于用户兴趣,将包含在原始数据中的元素划分为多个数据组;根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例,计算多个数据组的权重;将数据组转换为根据用户兴趣定义的节点;计算多个节点之间的距离。
此处,确定采样模型可包括:基于包含在原始数据中的元素,生成多个比较模型;计算兴趣模型与多个比较模型之间的距离;以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。
此处,生成多个比较模型可包括:将包含在原始数据中的元素划分为用于兴趣模型的多个数据组;基于包含在多个数据组中的至少一个元素,生成多个比较数据组;将比较数据组转换为根据用户兴趣定义的比较节点;根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,计算多个比较节点的权重;计算多个比较节点之间的距离。
本发明的另一方面提供了一种数据采样装置,包括:第一生成器,其被配置为,基于原始数据,生成反映用户兴趣的兴趣模型;第二生成器,其被配置为,基于包含在原始数据中的元素,生成多个比较模型;确定器,其被配置为,根据通过将兴趣模型与多个比较模型进行比较从而获得的结果,确定采样模型。
此处,第一生成器可基于用户兴趣将包含在原始数据中的元素划分为多个数据组,根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例,计算多个数据组的权重,将数据组转换为根据用户兴趣定义的节点,以及计算多个节点之间的距离。
此处,第二生成器可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组,基于包含在多个数据组中的至少一个元素,生成多个比较数据组,将比较数据组转换为根据用户兴趣定义的比较节点,根据包含在多个比较节点的每个比较节点中至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,计算多个比较节点的权重,以及计算多个比较节点之间的距离。
此处,确定器可计算兴趣模型和多个比较模型之间的距离,以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。
有益效果
根据本发明,兴趣模型基于用户的兴趣被生成,以及根据通过将基于原始数据采样的模型与兴趣模型进行比较而获得的结果,从而确定采样模型。因此,可以简单、快速地获取反映用户兴趣的采样模型。
附图说明
图1为说明根据本发明的具体实施例的数据采样方法的流程图。
图2为说明图1中生成兴趣模型的操作的流程图。
图3为说明图1中确定采样模型的操作的流程图。
图4显示了通过将原始数据划分为多个数据组而获得的结果以及根据所述划分的采样结果的坐标图。
图5显示了通过根据本发明的具体实施例的数据采样方法而生成的兴趣模型的概念图。
图6显示了兴趣模型(或者比较模型)的实施例的概念图。
图7显示了根据采样方法的采样结果的概念图。
图8为显示根据采样方法的采样结果与原始数据之间差值的概念图。
图9为基于采样大小的采样质量变化的坐标图。
图10为根据本发明的具体实施例的数据采样装置的框图。
具体实施例
虽然本发明易于受到各种变型以及替代方式的影响,但是特定实施例在附图中给出并作详细描述。
然而,应当理解的是,描述并不旨在将本发明限定在特定实施例,相反地,本发明涵盖了落入本发明的精神和范围内的所有变型、等同物以及替换物。
尽管此处术语“第一”,“第二”等被用于不同元件,此类元件不应解释为受到这些术语限制。这些术语仅用于把一个元件与另一元件区分开来。例如,在不脱离本发明的范围的情形下,第一元件可被称为第二元件,以及第二元件可被称为第一元件。术语“和/或”包括了一个或者多个相关列举项目的任一或者所有组合。
应当理解的是,当一个元件被提及“连接”或者“耦合”至另一元件时,其可以直接连接或者耦合至另一元件或者也可出现中间元件。相反地,当一个元件被提及“直接连接”或者“直接耦合”至另一元件,则不会出现中间元件。
此处所用的术语仅用作描述特定实施例的目的,并不旨在限定本发明的实施例。除非上下文做出明确的其它指示,此处所用的单数形式“一个”、“所述”同样包括了复数形式。进一步应当理解的是,当此处使用术语“包括”、“包含”和/或“由…组成”时,指定阐明的特征、整体、步骤、操作、元件、部件和/或其组合的出现,但是并不排除一个或者多个其它特征、整体、步骤、操作、元件、部件和/或其组合的出现或者附加。
除非做出其它定义,此处使用的所有的术语(包括技术和学术术语)具有与本发明所属技术领域中普通技术人员通常理解的含义相同的含义。应当进一步理解的是,在公用词典中定义的术语应当解释为具有与相关技术领域上下文中它们的含义相一致的含义,除非特意地如此定义,其不应作理想化或者过于正式的理解的解释。
在下文中,本发明的具体实施例将会结合附图进行详细描述。为了促进本发明的整体理解,附图中相同的部件对应相同的附图标记,并且相同元件的描述将被省略。
图1为说明根据本发明具体实施例的数据采样方法的流程图。图2为说明图1中生成兴趣模型的操作的流程图,以及图3为说明图1中确定采样模型的操作的流程图。
参照图1-3,根据本发明具体实施例的数据采样方法包括:基于原始数据,生成反映用户兴趣的兴趣模型的操作(S100),以及基于通过将基于原始数据的采样模型与兴趣模型进行比较而获得结果,从而确定采样模型的操作(S200)。
结合基于类的分层采样(下文中称为“情形1”),基于象限的分层采样(下文中称为“情形2”),平衡两个类的欠采样或者过采样(下文中称为“情形3”),以及流量保持轨迹采样(下文中称为“情形4”),根据本发明具体实施例的数据采样方法将会在下文中详细描述。此处,根据本发明具体实施例的数据采样方法可通过数据采样装置执行。
操作S100可包括操作S110,操作S120,操作130和操作S140,并且操作S200可包括操作S210,操作S220以及操作S230。此外,操作S210可包括操作S211,操作S212,操作S213,操作S214以及操作S215。
数据采样装置可将包含在原始数据中的元素划分为多个数据组(S110)。
在情形1中,用户兴趣为数据类型的比例,因此,数据采样装置可将相同类型的元素划分为一个数据组。参照图4(a),数据采样装置可根据数据类型将原始数据划分为多个数据组(参见图4(a)的左边的坐标图)。换言之,数据采样装置可将对应相同类型的三角形元素划分为一个数据组并且可将对应相同类型的圆形元素划分为另一数据组。
在情形2中,用户兴趣为包含在象限中的数据比例,因此数据采样装置可将包含在相同象限中的元素划分为一个数据组。参照图4(b),数据采样装置可根据数据位于其中的象限将原始数据划分为多个数据组(参见图4(b)左边的坐标图)。换言之,数据采样装置可将包含在第一象限中的元素划分为一数据组,将包含在第二象限中元素划分为另一数据组,将包含在第三象限中的元素划分为其它的另一数据组,以及将包含在第四象限中的元素划分为另外的另一数据组。
图4(a)的右边的坐标图显示了基于根据诸如在图4(a)中左边坐标图中数据类型而划分的多个数据组而生成的采样结果,而图4(b)的右边的坐标图显示了基于根据诸如在图4(b)中左边坐标图中数据位于其中的象限而划分的多个数据组而生成的采样结果。从此类采样结果可见:采样结果根据用户兴趣而变化。
在情形3中,用户兴趣为数据类型的比例,因此,数据采样装置可根据数据类型(参见图4(a)左边的坐标图)将原始数据划分为多个数据组。
在情形4中,用户兴趣为在空间-时间中特定点上的流量比例,因此数据采样装置可将在空间-时间中特定点上的流量划分为一个数据组。此处,空间-时间可通过维度、经度和时间进行定义。
在将包含在原始数据中元素划分为多个数据组后,数据采样装置,根据包含在多个数据组的每个数据组中至少一个元素与包含在另一数据组中至少一个元素之间的比例,可计算多个数据组的权重(S120)。
假设原始数据中包含400个元素并且所有数据组权重的总和为1,计算多个数据组权重的方法将会参照图5进行描述。
情形1的特征在于保持数据类型的比例。因此,当数据组C1中包含100个元素而另一数据组C2中包含300个元素时,如图5(a)所示,数据采样装置可将多个数据组的权重表达为“C1=0.25”以及“C2=0.75”(即,C1=100/400,以及C2=300/400)。
情形2的特征在于保持包含在象限中的数据的比例。因此,当一个数据组Q1中包含100个元素,另一数据组Q2中包含100个元素,其它另一数据组Q3中包含100个元素,以及另外的另一数据组Q4中包含100个元素时,如图5(b)所示,数据采样装置可将多个数据组的权重表达为“Q1=0.25”,“Q2=0.25”,“Q3=0.25”以及“Q4=0.25”(即,Q1=100/400,Q2=100/400,Q3=100/400以及Q4=100/400)。
情形3的特征在于保持数据类型相同的比例。因此,数据采样装置可将多个数据组的权重表达为“C1=0.5”并且“C2=0.5”,无论图5(c)中所示的数据组中包含的元素的数量如何。换言之,其可使得多个数据组的权重相等。
情形4的特征在于保持流量比例。因此,数据采样装置可将数据组的权重表达为在空间-时间中在特定点上归一化的流量比例。
在计算多个数据组的权重之后,数据采样装置可将数据组转换为基于用户兴趣定义的节点(S130)。此处,节点表示一个点,以及将数据组转换为节点可认为是将包含至少一个元素的数据组归纳为一个节点(即,将图4(a)转换为图5(a),以及图4(b)转换为图5(b))。
在情形1中,节点表示数据类型,以及数据采样装置可将根据数据类型划分的一个数据组转换为一个节点(参见图4(a)中所示的坐标图以及图5(a))。
在情形2中,节点表示象限,以及数据采样装置可将根据象限划分的一个数据组转换为一个节点(参见图4(b)中所示的坐标图以及图5(b))。
在情形3中,节点表示数据类型,以及数据采样装置可将根据数据类型划分的一个数据组转换为一个节点(参见图4(a)中所示的坐标图以及图5(a))。
在情形4中,轨迹涉及在不同时间的多个点,因此节点为在空间-时间中的特定点。因此,数据采样装置可将根据在时间-空间中的特定点划分的一个数据组转换为一个节点。
在将数据组转换为基于用户兴趣定义的节点后,数据采样装置可计算节点之间的距离(S140)。
在情形1中,节点之间的距离没有意义,因而如图5(a)所示可具有相同的长度(例如长度为1)。然而,当节点间距离彼此不同时,节点间的距离可具有不同长度。例如,当节点1和节点2之间的距离大于节点2和节点1之间的距离,节点之间的距离具有不同的长度。
在情形2中,数据采样装置可计算象限节点之间的长度,并且节点间计算的长度可表达为如图5(b)所示。
在情形3中,与情形1中类似,节点之间的距离没有意义,因而可表达为如图5(c)所示。
在情形4中,节点为在空间-时间中的特定点,并且节点间的距离可使用下列等式1计算。
等式1
D ( p , q ) = ( p x - q x ) 2 + ( p y - q y ) 2 + ( p t - q t ) 2
此处,D(p,q)表示节点p和节点q之间的距离,px表示节点p的纬度,py表示节点p的经度,pt表示节点p的时间,qx表示节点q的纬度,qy表示节点q的经度,qt表示节点q的时间。
如上所述,数据采样装置可通过操作S110、操作S120、操作S130以及操作S140生成兴趣模型。
在生成反映用户兴趣的兴趣模型之后,数据采样装置可基于包含在原始数据中元素生成多个比较模型(S210)。
数据采样装置可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组(S211)。
在情形1中,用户兴趣为数据类型的比例,因此,数据采样装置可将相同类型的元素划分为一个数据组。参照图4(a),数据采样装置可基于数据类型将原始数据划分为多个数据组(参见图4(a)左边的坐标图)。换言之,数据采样装置可将对应相同类型的三角形元素划分为一个数据组而将对应相同类型的圆形元素划分为另一数据组。
在情形2中,用户兴趣为包含在象限中数据的比例,因此数据采样装置可将包含在相同象限中的元素划分为一个数据组。参照图4(b),数据采样装置可基于数据位于其中的象限而将原始数据划分为多个数据组(参见图4(b)左边的坐标图)。换言之,数据采样装置可将包含在第一象限中的元素划分为一个数据组,将包含在第二象限中的元素划分为另一数据组,将包含在第三象限中的元素划分为其它另一数据组,并且将包含在第四象限中的元素划分为另外的另一数据组。
在情形3中,用户兴趣为数据类型的比例,因此,数据采样装置可基于数据类型将原始数据划分为多个数据组(参见图4(a)左边的坐标图)。
在情形4中,用户兴趣为在空间-时间中特定点上的流量比例,因此,数据采样装置可将在空间-时间中特定点上的流量划分为数据组。此处,空间-时间可以通过纬度、经度和时间定义。
在将包含在原始数据中的元素划分为多个数据组后,数据采样装置可基于包含在多个数据组中的至少一个元素生成多个比较数据组(S212)。换言之,数据采样装置可选择包含在一个数据组中的一些元素并基于选择的元素而生成比较数据组。
在生成多个比较数据组之后,可将比较数据组转换为根据用户兴趣定义的比较节点(S213)。
在情形1中,节点表示数据类型,数据采样装置可将从根据数据类型划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(a)所述的坐标图以及图5(a))。
在情形2中,节点表示象限,数据采样装置可将从根据象限划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(b)的坐标图和图5(b))。
在情形3中,节点表示数据类型,数据采样装置可将从基于数据类型划分的一个数据组中选择的一些元素转换为一个比较节点(参见图4(a)中的坐标图以及图5(c))。
在情形4中,轨迹涉及在不同时间的多个点,因此节点为在空间-时间中的特定点。因此,数据采样装置可将从根据在空间-时间中的特定点划分的一个数据组中选择的一些元素转换为一个比较节点。
在将比较数据组转换为比较节点之后,根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,数据采样装置可计算多个比较节点的权重(S214)。
情形1的特征在于保持数据类型比例。因此,当一个比较节点C1中包含100个元素以及另一比较节点C2中包含300个元素时,如图5(a)所示,数据采样装置可将多个比较节点的权重表达为“C1=0.25”以及“C2=0.75”。
情形2的特征在于保持包含在象限中数据的比例。因此,当一个比较节点Q1中包含100个元素,另一比较节点Q2中包含100个元素,其它另一比较节点Q3中包含100个元素,另外的另一比较节点Q4中包含100个元素时,如图5(b)所示,数据采样装置可将多个比较节点的权重表达为“Q1=0.25”,“Q2=0.25”,“Q3=0.25”以及“Q4=0.25”。
情形3的特征在于保持数据类型相同的比例。因此,数据采样装置可将多个数据组的权重表达为“C1=0.5”以及“C2=0.5”,无论如图5(c)中所示的比较节点包含的元素的数量如何。
情形4的特征在于保持流量比例。因此,数据采样装置可将多个比较节点的权重表达为在空间-时间中特定点上归一化的流量比例。
在根据比较节点中包含的元素的比例而计算比较节点的权重之后,数据采样装置可计算多个比较节点之间的距离(S215)。
在情形1中,比较节点之间的距离没有意义,如图5(a)所示可具有相同的长度(例如长度为1)。然而,当比较节点之间的距离彼此不同时,比较节点之间的距离可具有不同的长度。
在情形2中,数据采样装置可计算象限的比较节点之间的长度,并且计算的比较节点之间的长度可表达为如图5(b)所示。
在情形3中,与情形1中类似,比较节点之间的距离没有意义,因此可表达为如图5(c)所示。
在情形4中,比较节点为在空间-时间中的特定点,并且比较节点之间的距离可使用上述等式1计算。
如上所述,数据采样装置可通过上述操作S211、操作S212、操作S213以及操作S214生成比较模型。
在生成比较模型之后,数据采样装置可计算兴趣模型和比较模型之间的距离(S220)。
参照图6,计算兴趣模型和比较模型之间距离的方法将会在下文中详细介绍。
图6为显示兴趣模型实施例的概念图,其中连接彼此节点的连线上给出的数字表示节点之间的距离,以及节点中的图案表示节点的权重。换言之,具有方格图案的节点的权重为0.5,具有虚线图案的节点的权重为0.25,而没有图案的节点的权重为0。
两个兴趣模型之间(或者兴趣模型与比较模型之间)的距离可根据节点之间的权重差值和距离而被定义。由图6所示的模型直观地可见:由于图6(a)所示的模型的节点n1与图6(b)所示的模型的节点n1具有相同的权重并且图6(a)所示的模型的节点n2与图6(b)所示的模型的节点n2具有相似的权重,图6(a)所示的模型与图6(b)所示的模型之间的距离小于(即更加相似)图6(a)所示的模型与图6(c)所示的模型之间的距离。
换言之,由此可见,兴趣模型之间(或者兴趣模型与比较模型之间)的相应节点的权重为测量兴趣模型之间(或者兴趣模型和比较模型之间)距离过程中的因子。
同时,在图6(a)、6(c)以及6(d)所示的模型中,具有相同权重的节点的数量彼此相同。特别地,图6(a)所示的模型的节点n2与图6(c)所示的模型的节点n2具有相同的权重,并且图6(a)所示的模型的节点n1与图6(d)所示的模型的节点n1具有相同的权重。
在此情形下,测量兴趣模型之间(或者兴趣模型与比较模型之间)的距离可充分考虑节点之间的距离。换言之,从图6(a)、6(c)以及6(d)所示的模型可见:由于节点n1和节点n3之间的距离小于节点n2和节点n4之间的距离,图6(a)所示的模型与图6(c)所示的模型之间的距离小于(即更加相似)图6(a)所示的模型与图6(d)所示的模型之间的距离。这是由于节点n1和节点n3交换所需的工作量小于节点n2和节点n4交换所需的工作量。
如上所述,计算模型之间距离的问题可被认为是交换节点的问题。
因此,可使用本发明的具体实施例中的陆地移动距离(EMD)计算兴趣模型和比较模型之间的距离。
EMD可表达为下列等式2、等式3以及等式4。
等式2
WORK ( S + , S - , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
此处,S+表示包含节点{n1,…,nk}的坐标图中定义的源极(即可认为是本发明具体实施例中的兴趣模型),以及S-表示包含节点{n1,…,nk}的坐标图中定义的漏极(sink)(即可认为是本发明具体实施例中的比较模型)。因此,S+可表达为“S+={(n1,w1 +),…,(nk,wk +)}”,而S-可表达为“S-={(n1,w1 -),…,(nk,wk -)}”。wk +表示相应源节点的权重,以及wk-表示相应漏节点的权重。此外,WORK(S+,S-,F)表示使得S-与S+近似或者相同所需的工作量。
在等式2中,fij以及dij的定义如下列等式3所示。
等式3
fij≥0,  1≤i,j≤k
Σ j = 1 k f ij ≤ w i + , 1 ≤ i ≤ k
Σ i = 1 k f ij ≤ w j - , 1 ≤ j ≤ k
Σ i = 1 k Σ j = 1 k f ij = min ( Σ i = 1 k w i + , Σ j = 1 k w j - )
此处,fij表示从节点ni至节点nj的移动量,dij表示从节点ni至节点nj的距离,以及F为表示fij的矩阵(即,F=[fij])。
使用下列基于上述等式2以及等式3定义的等式4,可计算最小工作量。
等式4
D EMD ( S + , S - ) = min F WORK ( S + , S - , F )
利用等式4,可测量图6中所示模型之间的距离。
等式5
DEMD(A,B)=0.25·0.4=0.1
DEMD(A,C)=0.5·0.2=0.1
DEMD(A,D)=0.5·0.4=0.2
此处,假设图6(a)中所示的模型为兴趣模型A,图6(b)中所示的模型为比较模型B,图6(c)中所示的模型为另一比较模型C,以及图6(d)中所示的模型为其它的另一比较模型D。
从假设可见,由于A和B之间的距离计算为0.1,A和C之间的距离计算为0.1,并且A和D之间的距离计算为0.2,因此B和C与A相较于B和C与D更加接近(或者更加相似)。
在根据本发明的具体实施例的数据采样方法中,具有距兴趣模型最小距离的比较模型被从多个比较模型中确定。因此,确定采样模型的等式可表达为下列等式6。
等式6
min M s D EMD ( M u , M s ) = min M s min F WORK ( M u , M s , F )
此处,Mu表示兴趣模型,以及Ms表示比较模型。
数据采样装置可计算兴趣模型和比较模型之间的距离,并当计算的距离为最小距离时确定比较模型作为采样模型。数据采样装置可对所有比较模型重复这些处理。
同时,在情形4中,使用小波变换,可计算兴趣模型和比较模型之间的距离。
等式7
WEMD ( P , Q ) = Σ λ α λ | W λ ( P - Q ) |
此处,P表示兴趣模型,Q表示比较模型,Wλ(P-Q)表示“P-Q”差值的小波变换系数,并且λ和αλ的大小取决于上述系数。
前面已经描述了生成兴趣模型,然后生成比较模型。然而,也可以首先生成比较模型,以及然后生成兴趣模型,或者同时生成兴趣模型和比较模型。
至此,根据本发明具体实施例的数据采样方法已经做了详细介绍。参照图7-9,下面将会介绍基于根据本发明具体实施例的数据采样方法的采样结果多大程度上反映原始数据的特征或者用户兴趣。
图7显示了根据采样方法的采样结果的概念图。图7(a)为原始数据,图7(b)为通过随机采样计算得到的采样结果,图7(c)为通过流量保持采样计算得到的采样结果,以及图7(d)为通过具有相同权重的流量保持采样计算得到的采样结果。
从图7可见,当采用图7(c)中的流量保持采样计算时的原始数据的保持(即流量分布)好于当采用图7(b)中的随机采样计算时的原始数据的保持。换言之,图7(a)下面的坐标图包括具有相对大流量的两个大块,以及两个大块之间的块具有相对的低权重。此外,可以看出,通过采用图7(c)中流量保持采样计算好于通过采用图7(b)中随机采样计算的趋势。此外,从图7上面的图可见,当采用图7(c)中流量保持采样计算时原始数据的主要流量轨迹相较于当采用图7(b)中随机采样计算时的反映更好。
图8为显示根据采样方法的采样结果与原始数据之间的差值的概念图,其中X轴表示时间窗,Y轴表示在各个节点上流量比例之间差值的总和。此处,可以看出,基于根据本发明具体实施例的流量保持采样的采样结果与原始数据之间的差值小于基于随机采样的采样结果与原始数据之间的差值。
图9显示了基于采样大小的采样质量变化的坐标图,其中X轴表示采样大小以及Y轴表示原始数据与每个采样模型之间的距离。图9(a)显示了利用1-标准(1-norm)距离计算得到每个采样模型与原始数据之间的距离,可以看出,流量保持采样模型与原始数据之间的距离小于随机采样模型与原始数据之间的距离。图9(b)显示了采用EMD距离计算得到的每个采样模型与原始数据之间的距离,并且可以看出,流量保持采样模型和原始数据之间的距离小于随机采样模型与原始数据之间的距离。
根据本发明具体实施例的数据采样装置将会在下面进行详细描述。
图10为根据本发明具体实施例的数据采样装置的框图。
参照图10,根据本发明具体实施例的数据采样装置包括第一发生器10,第二发生器20以及确定器30,其中,第一发生器10基于原始数据生成反映用户兴趣的兴趣模型,第二发生器20基于包含在原始数据中的元素生成多个比较模型,确定器30根据通过将兴趣模型与多个比较模型相比较而获得的结果而确定采样模型。
第一发生器10可基于用户兴趣将包含在原始数据中的元素划分为多个数据组,根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例,计算多个数据组的权重,将数据组转换为根据用户兴趣定义的节点,以及计算多个节点之间的距离。此处,通过第一生成器10生成兴趣模型的细节与上述操作S100相同。
第二生成器20可将包含在原始数据中的元素划分为用于兴趣模型的多个数据组,基于包含在多个数据组中的至少一个元素,生成多个比较数据组,将比较数据组转换为根据用户兴趣定义的比较节点,基于包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,计算多个比较节点的权重,以及计算多个比较节点之间的距离。此处,通过第二生成器20生成比较模型的细节与上述操作S210相同。
确定器30可计算兴趣模型与多个比较模型之间的距离,并确定具有从计算得到的距离中符合预定标准的距离的比较模型作为采样模型。此处,通过确定器30计算兴趣模型和比较模型之间距离的细节与上述操作S220相同,并且确定采样模型的细节与上述操作S230相同。
第一生成器10、第二生成器20以及确定器30执行的功能可由任意处理器执行(例如,中央处理单元(CPU)),以及图1至图3的各个操作可由任意处理器完成。
此外,第一生成器10、第二生成器20以及确定器30可在一个整体、一个物理装置或者一个模块中实现。进一步地,第一生成器10、第二生成器20以及确定器30中的每一个可执行为多个物理装置或者物理群而非一个物理装置或者物理群。
尽管参照其具体实施例对本发明进行了介绍和描述,对本领域普通技术人员而言,在不脱离本发明的精神和范围的前提下在形式和细节上做出的各种变化均已被权利要求书所定义。

Claims (8)

1.一种数据采样方法,其通过数据采样装置执行,所述方法包括:
基于原始数据,生成反映用户兴趣的兴趣模型;以及
根据通过将基于原始数据采样的模型与兴趣模型进行比较获得的结果,确定采样模型。
2.根据权利要求1所述的方法,其中,生成兴趣模型包括:
基于用户兴趣,将包含在原始数据中的元素划分为多个数据组;
根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例,计算多个数据组的权重;
将数据组转换为根据用户兴趣定义的节点;
计算多个节点之间的距离。
3.根据权利要求2所述的方法,其中,确定采样模型包括:
基于包含在原始数据中的元素,生成多个比较模型;
计算兴趣模型与多个比较模型之间的距离;以及
确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。
4.根据权利要求3所述的方法,其中,生成多个比较模型包括:
将包含在原始数据中的元素划分为用于兴趣模型的多个数据组;
基于包含在多个数据组中的至少一个元素,生成多个比较数据组;
将比较数据组转换为根据用户兴趣定义的比较节点;
根据包含在多个比较节点的每个比较节点中的至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,计算多个比较节点的权重;
计算多个比较节点之间的距离。
5.一种数据采样装置,包括:
第一生成器,基于原始数据,生成反映用户兴趣的兴趣模型;
第二生成器,基于包含在原始数据中的元素,生成多个比较模型;以及
确定器,根据通过将兴趣模型与多个比较模型进行比较从而获得的结果,确定采样模型。
6.根据权利要求5所述的装置,其中,第一生成器基于用户兴趣将包含在原始数据中的元素划分为多个数据组,根据包含在多个数据组的每个数据组中的至少一个元素与包含在另一数据组中的至少一个元素之间的比例,计算多个数据组的权重,将数据组转换为根据用户兴趣定义的节点,以及计算多个节点之间的距离。
7.根据权利要求6所述的装置,其中,第二生成器将包含在原始数据中的元素划分为用于兴趣模型的多个数据组,基于包含在多个数据组中的至少一个元素,生成多个比较数据组,将比较数据组转换为根据用户兴趣定义的比较节点,根据包含在多个比较节点的每个比较节点中至少一个元素与包含在另一比较节点中的至少一个元素之间的比例,计算多个比较节点的权重,以及计算多个比较节点之间的距离。
8.根据权利要求5所述的装置,其中,确定器计算兴趣模型与多个比较模型之间的距离,以及确定具有在计算得到的距离中满足预定标准的距离的比较模型作为采样模型。
CN201380030639.8A 2012-06-13 2013-04-01 数据采样方法以及数据采样装置 Pending CN104350491A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20120063086A KR101350782B1 (ko) 2012-06-13 2012-06-13 데이터 샘플링 방법 및 장치
KR10-2012-0063086 2012-06-13
PCT/KR2013/002700 WO2013187587A1 (ko) 2012-06-13 2013-04-01 데이터 샘플링 방법 및 장치

Publications (1)

Publication Number Publication Date
CN104350491A true CN104350491A (zh) 2015-02-11

Family

ID=49758378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380030639.8A Pending CN104350491A (zh) 2012-06-13 2013-04-01 数据采样方法以及数据采样装置

Country Status (5)

Country Link
US (1) US20150161231A1 (zh)
EP (1) EP2863319A4 (zh)
KR (1) KR101350782B1 (zh)
CN (1) CN104350491A (zh)
WO (1) WO2013187587A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150007113A1 (en) * 2013-06-28 2015-01-01 Silicon Graphics International Corp. Volume rendering for graph renderization
US20150243279A1 (en) * 2014-02-26 2015-08-27 Toytalk, Inc. Systems and methods for recommending responses
KR20220023639A (ko) 2020-08-21 2022-03-02 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20220105941A (ko) * 2021-01-21 2022-07-28 삼성전자주식회사 포스 터치를 식별하는 전자 장치 및 그 동작 방법
EP4099142A4 (en) 2021-04-19 2023-07-05 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD OF OPERATION

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001519070A (ja) * 1997-03-24 2001-10-16 クイーンズ ユニバーシティー アット キングストン 一致検出の方法、製品および装置
KR20020007742A (ko) * 2000-07-18 2002-01-29 김민욱 사용자별 정보선호 분석 및 정보 내용 인기도 평가를 통한정보추천 방법 및 그 시스템
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US20070300265A1 (en) * 2006-06-21 2007-12-27 Nokia Corporation User behavior adapted electronic service guide update
KR100856916B1 (ko) * 2007-01-16 2008-09-05 (주)첫눈 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
KR20090100326A (ko) * 2009-08-07 2009-09-23 주식회사 비즈모델라인 고객 성향 데이터 운용 시스템
KR20110028067A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 사용자의 관심도를 반영한 콘텐츠 스케줄링 장치 및 방법
US8756184B2 (en) * 2009-12-01 2014-06-17 Hulu, LLC Predicting users' attributes based on users' behaviors
KR101095069B1 (ko) * 2010-02-03 2011-12-20 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
US9158775B1 (en) * 2010-12-18 2015-10-13 Google Inc. Scoring stream items in real time

Also Published As

Publication number Publication date
KR101350782B1 (ko) 2014-01-16
EP2863319A1 (en) 2015-04-22
EP2863319A4 (en) 2015-11-18
KR20130139547A (ko) 2013-12-23
WO2013187587A1 (ko) 2013-12-19
US20150161231A1 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN104350491A (zh) 数据采样方法以及数据采样装置
CN103294848B (zh) 基于混合自回归滑动平均模型的卫星太阳能电池阵寿命预测方法
CN104506378B (zh) 一种预测数据流量的装置及方法
Koyuncu et al. Calibration estimator using different distance measures in stratified random sampling
CN106254010A (zh) 一种时变海洋信道建模方法
CN105895089A (zh) 一种语音识别方法及装置
Lindström et al. Spatiotemporal: An r package for spatio-temporal modelling of air-pollution
CN110716998B (zh) 一种精细尺度人口数据空间化方法
CN103310122A (zh) 一种并行随机采样一致方法及其装置
US8335660B2 (en) Method and system of confidence interval methodology for ratio means
De Souza e Silva et al. The TANGRAMII integrated modeling environment for computer systems and networks
Wang et al. Impulsive problems for fractional evolution equations and optimal controls in infinite dimensional spaces
Ye et al. A study of destination selection model based on link flows
Huoh Sensitivity analysis of stochastic simulators with information theory
CN102123053B (zh) 水平分解的多类闭合分叉-汇集排队网络性能分析方法
CN103559587A (zh) 一种基于行为模式的模型变化区域责任分析***
CN104008305B (zh) 用于千万千瓦风电基地的可发电风资源分布估计方法
CN103149551B (zh) 基于线性组合的凸优化测距定位方法
CN105138819A (zh) 空间计算域计算强度表面生成方法
Jansen et al. Graphical representation of certain moment dualities and application to population models with balancing selection
Chen et al. Performance analysis of Gini correlator for detecting known signals in impulsive noise
Morohosi et al. Hypercube simulation analysis for a large-scale ambulance service system
Mészáros et al. Canonical form of order-2 non-stationary Markov arrival processes
Pinto et al. Improving Markov chain Monte Carlo estimators by coupling to an approximating chain
CN114743379B (zh) 基于北斗的城市大面积路网交通感知方法、***及云平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150211

WD01 Invention patent application deemed withdrawn after publication