CN110832514A

CN110832514A - 由个别的海关交易记录临近预报抽象的调查

Info

Publication number: CN110832514A
Application number: CN201880041731.7A
Authority: CN
Inventors: J.S.普伦蒂斯; P.G.斯瓦茨; J.R.普索塔
Original assignee: Panjiva Inc
Current assignee: Panjiva Inc
Priority date: 2017-04-22
Filing date: 2018-04-23
Publication date: 2020-02-21
Also published as: US11551244B2; WO2018195553A1; US20180308112A1

Abstract

在颗粒数据值与目标数据值之间定义信号关系。颗粒数据值的至少部分对应于颗粒时延值，所述颗粒时延值比与目标数据值对应的目标数据时延值更小。与颗粒数据值对应的颗粒数据被解释。颗粒数据响应于信号关系而被聚合。对于所选择的时间参考的目标数据值的值被估计，并且，目标数据值的所估计的值被提供作为目标数据值的临近预报预测。

Description

由个别的海关交易记录临近预报抽象的调查

对相关申请的交叉引用

本申请要求提交于2017年4月22日的、序列号为62/488730的美国临时专利申请的益处以及对其的优先权，该美国临时专利申请的全部内容通过引用而合并于本文中。

技术领域

本申请一般涉及用于预测性分析的包括计算机程序产品的***、方法以及设备，并且特别地涉及用于交易级记录的同时进行的层次聚合的***、方法以及设备。

背景技术

预测性分析法在几个商业领域中普遍地用于基于历史数据而做出关于未来行为模式或事件的预测。例如，预测性分析法能够用于基于运送记录和调查数据而分析并且预测进口和出***动。然而，确定到具体国家中的与进口有关的数据提出了许多挑战。来自代理机构的数据报告已加入时间延迟，所述时间延迟随着被报告的数据的类型而变化。另外，所报告的数据可能是不完整的、被编校和/或具有差错。例如，往往以比实际运送重量更低的值来报告运送重量数据。此外，运送记录上的一个或多个数据元素往往被编校或是缺失的。在仍有的另一示例中，运送数据可能延迟几天或几周，并且，某些类型的数据（例如，个别的运送记录）的延迟可能具有与其它类型的数据（例如，调查统计）不同的延迟时期。

因此，在了解到某个国家中的实际进口、进口分类和量以及来自感兴趣的国家的整体进口的方面提出了挑战。

发明内容

因此，需要用于基于不远的过去、目前和/或不远的未来或更远的未来的时间尺度而准确地预测进口信息的***、方法以及设备。该信息对于诸如经济规划、投资决策和/或物流规划的许多行业是重要的。

在一个方面，本技术以方法为特征。在颗粒数据值与目标数据值之间定义信号关系。颗粒数据值的至少部分对应于颗粒时延值，所述颗粒时延值比与目标数据值对应的目标数据时延值更小。与颗粒数据值对应的颗粒数据被解释。颗粒数据响应于信号关系而被聚合。对于所选择的时间参考的目标数据值的值被估计，并且，目标数据值的所述估计的值被提供作为目标数据值的临近预报预测。

本技术能够包括以下特征中的任一个。在一些实施例中，使颗粒数据聚合包括使颗粒数据值以层次格式聚合。在一些实施例中，颗粒数据在聚合之前被处理。在一些实施例中，处理能够进一步包括响应于层次格式而索引颗粒数据。在一些实施例中，处理进一步包括响应于信号关系而索引颗粒数据。在一些实施例中，处理能够进一步包括响应于在聚合期间产生的至少一个子聚合而验证信号关系。在一些实施例中，处理能够进一步包括填充（complete）颗粒数据中的差距。在一些实施例中，处理能够进一步包括校正颗粒数据中的差错数据。

在一些实施例中，估计进一步包括基于所选择的时间参考而将时间序列变换应用于颗粒数据。在一些实施例中，应用时间序列变换进一步包括实行差分操作、到百分率改变的转换、卷积滤波、趋势回归、循环回归、幂变换（power transform）以及平滑化操作中的一个或多个。

在一些实施例中，估计进一步包括将机器学习模型应用于时间序列变换的输出。在一些实施例中，应用机器学习模型进一步包括实行线性回归、正则化回归、应用支持向量机、基于树的方法、应用神经网络、确定时域分布以及确定多个维度中收敛性中的一个或多个。

在一些实施例中，颗粒数据的至少两个数据字段之间的层次关系被标识。在一些实施例中，标识层次关系进一步包括接收数据结构，所述数据结构定义颗粒数据的至少两个数据字段之间的层次关系。

在一些实施例中，对于所选择的时间参考的目标数据值的值被加权。在一些实施例中，加权包括实行线性回归、正则化回归、应用支持向量机、基于树的方法、应用神经网络、确定时域分布以及确定多个维度中收敛性中的一个或多个。

在一些实施例中，颗粒数据的至少一个数据字段的改变与目标数据值的改变相关。

在一些实施例中，高速缓存的数据结构基于颗粒数据的聚合而被生成。高速缓存的数据结构包括从颗粒数据提取的多个数据字段。在一些实施例中，索引基于从颗粒数据的聚合提取的至少两个数据字段而被生成。

本发明的其它方面和优点将结合附图而从以下详述变得显而易见，仅经由示例来说明本发明的原理。

附图说明

本公开和以下的对本公开的某些实施例的详述可以通过参考以下的图而理解：

图1描绘本文中所描述的临近预报的方法和***的框图。

图2描绘索引的聚合数据集的图。

图3描绘对于临近预报的中间聚合的图。

图4是描绘用于预测感兴趣的时间序列的过程工作流的图。

图5A描绘基于美国调查数据的美国自中国进口的百分率改变的图表和使用根据本文中所描述的技术的实施例的临近预报技术的所预测的百分率改变的图表。

图5B描绘基于美国调查数据的美国自韩国进口的百分率改变的图表和使用根据本文中所描述的技术的实施例的临近预报技术的所预测的百分率改变的图表。

图5C描绘基于美国调查数据的美国自日本进口的百分率改变的图表和使用根据本文中所描述的技术的实施例的临近预报技术的所预测的百分率改变的图表。

具体实施方式

如本文中所利用的术语“临近预报”应当被广义地理解。临近预报参考所了解的直到不远的过去（例如，过去的一周、过去的两周、过去的一个月和/或更早的过去）、直到目前（例如，今天和/或在下一个报告间隔）或直到短期的未来（例如，在指定的报告日期，诸如，临近某个月的15号或30号、将来两周、将来一个月、将来两个月、将来一年、将来到感兴趣的季节性日期和/或将来到特定于个别行业、公司或国家的感兴趣的日期）为止的进口信息。所参考的时间帧是非限制性示例。

用于临近预报诸如到某个国家中的进口信息的数据集的示例方法包括定义颗粒数据（例如，具体运送记录）与期望的目标数据之间的信号关系。例如，可确定的是，一个群组的车辆进***易记录与整体接收到某个国家中的装运、与从某个国家发送的装运和/或从某个区域（例如，东亚、欧洲等等）发送的装运具有指定关系。另外或备选地，一个群组的交易记录可与到感兴趣的进口国家内的具体区域的递送具有指定关系。在某些实例中，数据集与感兴趣的值之间的关系在本文中被描述为“信号关系”。例如，能够被确定为预测来自具体国家、区域或产品类型的装运的一系列的交易记录能够被描述为与那些装运具有信号关系。

在一个示例中，按实体、原产地或其它定义参数的一系列交易记录可以被确定为与感兴趣的输出（诸如，来自某个国家的整体装运、来自某个国家的指定类型的装运和/或某个国家的经济活动）具有信号关系。在某些实施例中，诸如交易记录的数据元素被确定为与许多感兴趣的输出的信号关系的一部分，并且可与每个感兴趣的输出具有不同的关系。例如，数据元素可以具有与第一输出（诸如来自给定国家的感兴趣的装运）的正相关性和与第二输出（诸如来自某个国家的总体经济活动）的负相关性（例如，某个行业随着经济输出而负向发展的情况是经济输出的先行或滞后指标等等）。另外或备选地，数据元素与感兴趣的输出之间的信号关系能够随着临近预报时间尺度而变化（例如，给定交易可以与当前装运的增加和某些时间尺度下的未来装运的减少相关）。信号关系可以在原始数据（例如，装运体积）、经处理的数据（例如，改变率、频率分量、积分等等）上确定，和/或利用其它信息来确定信号关系。其它信息能够包括但不限于对于数据的归一化值（例如，通常被观察到或已知存在的数据值（诸如，容量、数据的易失性、产品的制造利用率等等）的范围）。在某些实施例中，其它信息包括其它经济指标（例如，工作报告、所选择的国家或行业的经济输出、商品价格、通货膨胀报告等等）和/或新闻事件（例如，诸如来自OPEC或其它行业群组的具体公告、与基于历史观察的经济指示相关的任何事件）。

示例方法进一步包括使颗粒信息（例如，运送交易和/或海关记录）以层次格式聚合。例如，颗粒信息可以按国家聚合，然后按区域聚合，并且然后聚合成全数据集。层次聚合虑及更快速地并行处理，从而为更迅速的解决方案（其具有针对计算机的给定量的处理能力）作准备。另外或备选地，层次聚合虑及要被确定和/或校验的额外相关性，从而不仅为更准确的回答（例如，校验同时以已知或观察的方式发展的国家或区域）作准备，而且为高效地确定差错很可能在何处被传播并且更高效地对信号关系进行更新作准备。例如，如果中国和韩国到美国的电子设备出口具有已知关系，则针对中国和韩国的关于聚合数据的校验能够提供对韩国电子设备装运数据中的异常的迅速检测，从而虑及如下的额外处理：在不等待完全聚合数据集示出异常（更长的检测异常的延迟时间）的情况下针对韩国数据校验信号关系，并且然后必须确定在数据集内何处发生异常（缺乏对标识异常输入数据的指引）。

另外或备选地，层次聚合虑及在实行临近预报之前，高效处理颗粒数据。例如，在实行临近预报之前，诸如运送记录的颗粒数据能够基于聚合参数而被索引，从而虑及更迅速地执行临近预报、降低的通信带宽使用率以及降低的存储器使用率，这是因为仅每个聚合度下的相关数据需要被处理、传递和/或在可适用的计算资源上存储。

在某些实施例中，层次聚合为正交（或至少部分正交）的维度中的校验和额外信号关系确定作准备。例如，从国家到区域的聚合如前所述地为改进的准确度和效率作准备，但数据不是独立的，这是因为数据在平行维度中被聚合。在某些实施例中，行业、港口、运送实体、产品价值和/或聚合运送重量的信号关系为正交数据作准备，所述正交数据能够被利用来产生聚合的输出中的更高置信度。在实行颗粒数据的索引的情况下，在某些实施例中，考虑到任何或所有聚合维度而实行索引。

示例方法进一步包括提供输出数据，所述输出数据包括以下项的临近预报：到感兴趣的国家中的总体进口和/或出口（允许例如确定贸易逆差、港口利用率等等）、感兴趣的港口处的活动、到感兴趣的区域的装运、感兴趣的公司（例如，感兴趣的装运的执行方和/或一个或多个系列的感兴趣的装运的接收方）的供应链表现、针对感兴趣的行业或实体的库存的估计和/或附属进口或出口（ancillary import or export）。例如，在颗粒数据涉及海上运送数据的情况下，与航空货运数据的相关性能够利用于确定到感兴趣的国家的基于航空货运的进口、出口或内部活动。示例包括跟踪航空货运与海上货运之间的历史关系，该历史关系可以进一步包括基于行业、货运价值、货运重量和/或国家或行业中趋势的相关性。

示例方法进一步包括校正颗粒数据和/或填充颗粒数据中的差距。例如，来自数据的其它字段的相关性和/或历史运送信息能够确定颗粒数据记录中的缺失信息（诸如，运送实体、价值或其它信息）。在另一示例中，关于重量的历史信息对比所报告的重量能够利用于校正运送重量数据中的***性或个别的差错。

对于交易数据的差错检测及校正技术在序号为9898767的美国专利（在下文中为“‘767专利”）中描述，该美国专利提交于2014年9月17日并且标题为“促进交易的市场平台”，其全部内容特此通过引用而合并于本文中。‘767专利描述了包括三角剖分的技术，通过三角剖分而将公共（例如，海关）记录和私人（例如，第三方）记录两者都用于确定运送重量数据差错校正、值校正、大小校正等等。‘767专利中所描述的技术包括检测公共交易记录和私人交易记录的相似性，以促进确定缺失信息，诸如，托运方、供应方、买方、重量等等。这些技术可以对具有不完整数据的记录有用，而与缺失数据的原因无关；然而，甚至可以克服故意编校。

序列号为15/254714的美国申请（在下文中为“‘714申请”）（该美国申请提交于2016年9月1日并且标题为“用于实体解析的自然语言处理”，其全部内容特此通过引用而合并于本文中）提供用于校正数据差错（诸如，缺失数据等等）的额外技术。一项这样的技术是使用自然语言处理（NLP）来促进装运记录的自由文本字段的语言不可知处理。这样的处理可以促进验证对装运价值、重量等等的用户指定申报。这样的技术还可以利用将颗粒装运记录分类到协调关税税则（Harmonized Tariff Schedule，HTS）以进一步验证装运信息。这可以通过各种各样的途径（其包括将HTS分类和价值映射到重量、体积等等的自更新矩阵）来实现。另外，‘714申请描述了相似性匹配的自然语言处理，所述相似性匹配的自然语言处理实行学习和/或术语频率运算，所述学习和/或术语频率运算可以促进颗粒记录验证、校正或缺失信息的确定。‘714申请还提供基于向量和n元的相似性确定技术，以用于促进颗粒交易记录的相关性，所述颗粒交易记录的相关性可以实现验证、校正或确定缺失数据。

示例方法进一步包括例如在颗粒数据、国家聚合数据、区域聚合数据和/或行业聚合数据之间的相关性随时间推移而改变的情况下，随时间推移而更新信号关系。在另外的实施例中，相关性的周期和/或长期趋势改变可以在确定信号关系随时间推移的改变中被检测并且被利用。例如，在某个行业显示出周期行为的情况下，信号关系能够取决于在周期中在何处实行临近预报而改变。在另一示例中，观察到信号关系中的更长期的趋势，并且，作为循环校正的备选或除循环校正之外，趋势能够根据临近预报正在确定输出数据的时间帧而应用于临近预报。

示例方法包括更新多个信号关系，以找到针对输出数据和/或信号关系的解决方案。例如，在给定临近预报事件基于稍后公布的数据而适当地预测了到美国的总体进口，但临近预报事件尚未提供对于石油进口或车辆进口的准确结果的情况下，对于一个或多个聚合维度的信号关系被调整，以提供对于个别的结果的更准确结果以及维持整体预测。因此，使用信号关系的多个维度虑及未来预测将正确的更大置信度，并且虑及甚至在给定预测之前准确的情况下更新***知识。

示例方法包括：利用具有不同时间尺度的颗粒数据；以及对数据与输出之间的信号关系进行建模以匹配时间尺度。例如，在一个数据元素具有一周滞后时间，并且，另一数据元素具有三周滞后时间的情况下，该方法包括：预测在延迟一周的情况下的三周滞后时间数据的值；以及然后使数据元素相关，以确定在感兴趣的时间的聚合值。该方法描述了使滞后的数据提前，尽管可以利用任何参考时间，包括使预测之前向后一周的数据提前，或者选择另一时间参考并且将数据元素调整到所选择的时间参考。在某些实施例中，所选择的时间参考是能够调整（包括周期地和/或呈某一趋势地（例如，根据底层数据集最准确和/或最新的时机）调整）的优化参数。

参考图1，描绘示例***100。示例***100被结构化以实行本文中所描述的方法的任何一个或多个操作。示例***100包括解释颗粒数据103（诸如，运送记录）的数据采集电路102。示例***进一步包括数据预处理电路104，所述数据预处理电路104提供经处理的数据集106（其中经处理的数据集在一个或多个聚合维度中被索引）和/或使数据差距在颗粒数据上被填充。在某些实施例中，数据预处理电路104另外校正颗粒数据的一个或多个方面，诸如，运送重量、实体名称和/或原产地国家。用于预处理颗粒交易记录以便于校正颗粒数据的一个或多个方面的技术在‘767专利和‘714申请中被描述。‘767专利中所描述的技术包括三角剖分，诸如，通过使用公共（例如，海关）记录和私人（例如，第三方）记录两者来确定运送重量数据差错校正、值校正、大小校正等等。‘767专利中所描述的技术包括检测公共交易记录和私人交易记录的相似性，以促进确定缺失信息，诸如，托运方、供应方、买方、重量等等。这些技术可以对具有不完整数据的记录有用而与缺失数据的原因无关；然而，甚至可以克服故意编校。

‘714申请提供用于校正数据差错（诸如，缺失数据等等）的额外的技术。一项这样的技术是使用自然语言处理（NLP）来促进装运记录的自由文本字段的语言不可知处理。这样的处理可以促进验证对装运价值、重量等等的用户指定申报。这样的技术还可以利用将颗粒装运记录分类到协调关税税则（HTS），以进一步验证装运信息。这可以通过各种各样的途径（其包括将HTS分类和价值映射到重量、体积等等的自更新矩阵）来实现。另外，‘714申请描述了相似性匹配的自然语言处理，所述相似性匹配的自然语言处理实行学习和/或术语频率运算，所述学习和/或术语频率运算可以促进颗粒记录验证、校正或缺失信息的确定。‘714申请还提供基于向量和n元的相似性确定技术，以用于促进颗粒交易记录的相关性，所述颗粒交易记录的相关性可以实现验证、校正或确定缺失数据。

示例***进一步包括数据关系电路109，所述数据关系电路109定义颗粒数据103和/或经处理的数据106与输出值108之间的信号关系111。示例和非限制性的输出值包括：商品索引；石油进口和/或出口；车辆进口和/或出口；聚合的贸易索引，诸如，运送体积（例如，二十英尺等量单位）、进口或出口总货币价值和/或贸易逆差；聚合的国家级指标；聚合的区域级指标；公司价值和/或体量（volume）；港口价值和/或体量；前述项中的任何的组合；和/或前述项中的任何的行业特定方面。另外的示例和非限制性的输出值108包括：到感兴趣的国家中的总体进口和/或出口（允许例如确定贸易逆差、港口利用率等等）、感兴趣的港口处的活动、到感兴趣的区域的装运、感兴趣的公司（例如、感兴趣的装运的执行方和/或一个或多个系列的感兴趣的装运的接收方）的供应链表现、针对感兴趣的行业或实体的库存的估计、和/或补充进口或出口。所描述的示例输出值是非限制性示例。示例输出值是在任何所选择的时间参考的临近预报值。

示例***100进一步包括聚合电路110，所述聚合电路110使颗粒数据103和/或经处理的数据106聚合。示例聚合电路110使颗粒数据103和/或经处理的数据106以层次格式聚合。在示例***100中，描绘层次聚合数据112的三个级，尽管聚合可以利用任何数量的层次级，其包括并行层次分支（例如，第一分支中的地理层次和第二分支中的子行业/行业层次）。例如，颗粒信息可以按国家聚合，然后按区域聚合，并且然后聚合成全数据集。在某些实施例中，聚合电路110利用多个处理器和/或处理核来在并行处理操作中使数据聚合（例如，在第一处理资源上使第一个国家或国家的第一集合聚合，并且在第二处理资源上使第二个国家或国家的第二集合聚合）。

示例***100进一步包括信号关系校验电路114，所述信号关系校验电路114响应于信号关系111和聚合数据112而确定输出值108的准确度值。例如，信号关系校验电路114确保每个聚合数据112值在预期范围内，和/或示出与预定信号关系111一致的关系。在一些实施例中，预定信号关系111基于某些交易记录中所包含的数据与数据对预测有用的（一个或多个）输出之间的已知关系。

示例信号关系校验电路114响应于信号关系111和聚合数据112而确定输出值108，和/或更新信号关系111，其中聚合数据112与先前的数据和/或数据趋势组合而指示信号关系111很可能已改变。在某些实施例中，数据采集电路102确定反馈数据118（例如，可在稍后的时间里利用的、与输出值108确定有关的调查报告），并且，信号关系校验电路114响应于反馈数据118而进一步更新信号关系111。

示例***100包括报告电路116，报告电路116提供输出值108，其中，输出值108包括临近预报结果。在颗粒数据103被更新时，示例报告电路116以所选择的时间间隔（例如，每天）、在所选择的日历日期和/或持续地提供输出值108。在某些实施例中，例如，当某些数据方面可利用或已被更新（例如，从韩国运送的电子设备）时，和/或当数据趋势或阈值在输出值108中被确定（例如，行业产出、价值或成交量中高于阈值的每周10%的增长等等）时，报告电路116响应于来自接收方的请求而提供输出值108。示例报告电路116将输出值108提供作为警告（例如，与移动装置的消息或应用通信、电子邮件和/或网站上的显眼通知（其中，感兴趣的参数可以是可利用的）），对网站或网络位置公布输出值108，和/或使得输出值108诸如对针对一个或多个用户可访问的数据库、通过应用和/或作为订阅服务而是可利用的。在某些实施例中，示例报告电路116将输出值108提供作为授权的用户服务，其中，数据接收方利用用户名和/或密码登录到应用、网站等等。本公开的另外的实施例可以包括：在提供输出值的时间与使用输出值的时间之间，存在足够长的持续时间的时间延迟，其中移动装置关于交互进入休眠模式，并且客户端装置在收到警告时不再处于休眠模式而被激活。

示例***100包括用户交互电路116，用户交互电路116进一步将通知108提供作为警告，所述警告被发送到用户的移动装置。示例***100进一步包括通知响应值108，所述通知响应值108包括通知类型值和/或通知位置值。示例通知值包括要发送到移动装置的警告，并且，示例通知位置值包括到用户的移动装置的通信信道。示例和非限制性的通信信道包括用户电话号码、通告***用户名（messaging system username）或配置名（profilename）和/或通信应用用户名或配置名。示例警告激活移动装置的图形用户界面，以使得警告显示于移动装置上，并且以实现响应于移动设备被激活而与图形用户界面连接。在某些实施例中，警告能够将装置从休眠模式或非激活模式唤醒。另外或备选地，在另一应用或用户的操作唤醒和/或激活装置时，警告能够提供图形用户界面。示例图形用户界面给用户提供所选择的信息，所述选择的信息来自输出值108的全部或部分，和/或提供打开应用以存取临近预报结果或其部分的途径。

图2描绘数据维度的图 200，其具有自然层次结构，例如，地理位置，能够分组为国家，然后区域，然后最终所有数据。这样的层次性质可以在处理期间用于将数据排序，以支持通过并行的不同处理而沿着层次的不同级来高效聚合。在图2中作为示例而描绘两级层次，但原则上能够容纳任何数量的级。描绘层次结构201的抽象表示和变成数据202上的排序顺序的转化。

图3描绘包括用于基于多级聚合的预测的流水线型架构的实施例300。每个方框是一个计算任务，其可以或可以不实现为在一个或多个计算机上运行的独立过程。聚合任务302可以对应于图2中所描绘的层次201中的节点。每个任务使其传入的数据聚合，将输出发送到下一个更高的级中的聚合节点并且同时发送到预处理器304并且最后发送到预测模型308。最终预测从预测模型308流出。该架构允许并发地执行任务，从而由于例如同时执行同一数据流的聚合和预处理而导致省时。

在一些实施例中，通过本文中所描述的方法和***而产生的抽象经济数据能够通过高度高效的计算架构而自动地计算机生成，所述高度高效的计算架构促进交易级记录的同时进行的独立多级聚合并且实现高效地使用计算资源。数据记录到聚合群组（诸如，实体或国家）中的并行聚合能够在同时进一步被聚合为区域特定数据集（其还可以被二次处理，而与国家特定二次处理无关）时，转发到诸如针对国家内的产品类型等等的二次处理上。初次和二次聚合可以基于层次布置（诸如，港口-国家-区域等等）。聚合的每个级可以被处理并且存储于索引的数据结构中，所述索引的数据结构促进对中间聚合的高效存取。因此，作为示例，二次处理能够经由索引来存取初次聚合数据，所述索引提供对初次处理/聚合结果的就绪存取而不必处理原始源数据。这能够改进在一定范围的处理动作的期间（包括但不限于当新交易集被处理时等等）的计算性能。另外，并行聚合能够利用可能的分布式计算资源。该途径能够通过允许不考虑资源的物理位置而使用可利用的计算资源来进一步改进计算机性能。在示例中，对于第一管辖范围的交易记录由第一处理器处理，所述第一处理器与正在处理对于第二管辖范围的交易记录的第二处理器不同。然后，所得到的中间聚合结果通过依赖于索引的中间聚合数据结构而可以由第三个不同的处理器高效地处理。促进计算机操作中的改进的实施例的其它示例应当被读者理解为合并于本文中。

由***100的部件处理的数据记录典型地具有三种类型的字段：日期/时间、聚合密钥以及能够被聚合的一个或多个定量值。下面示出示范性数据记录：

Record =

{

date: 4/1/2018,

transport_mode: Maritime,

port: Shanghai,

company: ABC Corp.,

product_code: 123456

weight: 1000 kg,

volume: 2 TEU

}

示范性数据记录包括三个聚合密钥：transport_mode、port、company以及product_code。能够被聚合的定量值是weight和volume。

聚合密钥中的每个能够分组为其自身的相继聚合的层次***。例如，某个公司属于某个行业，所述行业属于某个部门。***配置成使数据记录中所包含的数据组织成与这些可能的级的聚合中的每个相关联的时间序列，并且使得该数据可被预测性模型利用，所述预测性模型估计感兴趣的信号。

在一些实施例中，***经由元数据来配置，所述元数据定义可能的聚合密钥及其成为层次级的组织。下面示出示范性元数据：

TreeMetadata =

{

:transport mode,

{region: {country: {port cluster: :port}}}},

{sector: {industry: :company}},

{product_category: {product_subcategory: :product_code}},

}

元数据“TreeMetadata”定义树结构，其中，每个节点是叶节点或另一节点的父类（parent）。例如，port_cluster是port的父类，并且，sector是industry的父类。在此情况下，叶节点是transport_mode、port、company以及product_code。这些叶节点中的每个对应于上文中示范性数据记录中所定义的字段。除了叶节点之外，元数据树还定义许多聚合的节点，诸如，region、industry、product_category等等。

另外并且未在上文中示出，元数据树中的每个节点展开出许多可能的值，所述许多可能的值作为元数据结构的部分而被列举。例如，区域的可能的值包括亚洲、北美洲、南美洲等等，在该上下文中，区域被称为密钥并且其值是对于区域的可能的值中的一个。

树的每个节点（例如，密钥）与以下的三个工作器（worker）过程相关联：聚合器、变换器以及估计器。图4是描绘根据本技术的实施例的用于预测感兴趣的时间序列的过程工作流的图400。

每个聚合器过程（例如，聚合器_n、聚合器_n+1）从其子类取得数据记录输入并且输出形式 {time:, key:, value1, value2, ….}的聚合的记录。对于节点的每个值，将存在一个这样的时间序列输出。此外，对于每个叶节点的到聚合器的输入是个别的数据记录（例如，记录405）。每个聚合器将其输出发送到树中的其父类聚合器，以及若存在，则也发送到下一个工作器过程，变换器。例如，聚合器_n将其输出发送到聚合器_n+1并且到变换器_n。如聚合器_n+1上方的省略号所指代的，一些实施例包括一个或多个额外的聚合器/变换器/估计器过程。

每个变换器过程（例如，变换器_n、变换器_{n +1}）将一个或多个标准时间序列变换应用于其输入，包括但不限于差分、到百分率改变的转换、卷积滤波等等。每个变换器过程将对于每个变换的一个时间序列输出到下一个工作者过程（估计器）。每个估计器过程（例如，估计器_n、估计器_{n +1}）将机器学习或其它预测性模型应用于根据其输入估计感兴趣的信号。

能够针对树的非依赖性分支而同时地并行实施聚合、变换以及估计阶段。每个父类聚合器能够在其子类聚合器完成其输出时开始进行工作。因而，数据流程的若干流水线并行运行：对于每个树节点的聚合器 → 变换器 → 估计器的流水线，以及从每个聚合器沿着树往上运行到其父的聚合流水线。

输出估计器过程（例如，输出估计器410）从每个树节点取得估计器分数来作为其输入，并且将机器学习或系综学习技术应用于加权或选择个别的估计器分数，以便产生作为模型的完整输出的单个时间序列（例如，预测的时间序列415）。

如将理解的，通过图400中所示出的过程而向上移动对应于从子类沿着元数据树往上到父类行进。另外并且未示出，存在对于兄类非依赖性树分支（sibling non-dependent tree branch）的类似流水线（例如，针对从部门开始的分支的一个流水线，以及针对区域的另一流水线）。除了来自记录405的共同输入和对输出估计器410的共同输出以外，这些流水线不具有其间的数据流程。这些流水线能够在图400中设想为复制在此示出的结构的、从页面显现的第三维度。

对于高效检索和应用（例如，在在线预测框架中或者为了利用在不同目标信号上被训练的不同估计器来再次使用聚合器 + 变换器的输出），聚合器的集体输出能够高速缓存到下面示出的形式的数据结构中：

CachedAggregateRecord = {

agg_key: country,

agg_value: China,

date: 4/1/2018,

weight: 10,000 kg

}

应当理解，所示出的字段和值仅仅是示范性的。例如，能够以重量字段替代上述的定量测量中的任一个（例如，体积）。

在一些实施例中，高速缓存的数据结构被索引，以允许通过每个聚合器节点而对这些聚合的记录进行高效检索。在一些示例中，实现（agg_key, agg_value）字段或具有（agg_key, agg_value）作为其密钥的哈希表上的B-树索引。本领域技术人员将认识到，在不背离本文中所描述的技术的精神的情况下，可以采用其它索引方案。

为了控制对所得到的时间序列进行过拟合，***的用户可以选择在高级的聚合下截断树，在此情况下所有节点都将运行聚合器过程，但仅顶节点将运行变换器和估计器。

本文中所描述的方法和***可以促进根据可能不完整的个别的装运交易记录来针对一个或多个管辖范围而生成多维、粗略和/或宏观级经济数据。交易记录可能缺少诸如对于交易的一方或多方（例如，买方、供应方、银行方、保险方等等）的信息，可能包括错误的装运重量，可能缺少足以直接确定原产地国家的上下文等等。所产生的经济数据可以解决高级度量，诸如，商品索引，美国进口和出口调查，管辖范围特定的贸易流，实体级交易业务，港口特定的贸易流，库存、储备、供应水平（例如、美国石油储备）等等的改变，供应链健康，美国贸易逆差，行业表现索引等等。即使当关键信息（诸如，对于被报告的时期的航空货运交易）不可利用时，本文中所描述的方法和***也可以产生具有高置信度水平的这样的抽象的、高级度量。

在一些实施例中，通过本文中所描述的方法和***而产生的抽象经济数据能够利用在本文中和在所合并的‘767专利和‘714申请中描述的技术来通过个别的装运交易记录（例如，海关记录）的处理而自动地计算机生成，所述技术在新记录诸如在每天的基础上或另一可利用性的基础上可利用时促进解析实体、确定适当的装运重量和值等等。

用于根据个别的数据记录生成多维临近预报和/或更长范围的预报的方法和***还可包括根据缺少信息（诸如交易中的一个或多个参与方（诸如，买方、卖方、托运方等等））的个别的记录进行这些。为了有效地使用个别的交易而可能要求的管辖范围、区域、国家、港口以及其它信息也可能缺失。通过在本文中和在‘767专利和‘714申请中描述的各种方法和***来处理这样的交易记录，能够确定这样的缺失信息的某部分。本文中所描述的技术可以包括在本文中和在‘767专利和‘714申请中描述的各种实体解析算法等等，这些实体解析算法等等可能依赖于例如记录之间的信息的相似性或与其它信息的相似性，所述其它信息可以被处理器可访问以确定信息的缺失项中的一个或多个。由于实体有时根据海关交易记录而被编校，因此记录于这样的记录中的装运重量往往是误导性的。在本文中和在‘767专利和‘714申请中描述的技术可以基于例如在别处检测的信息（其关于更准确的产品重量信息）而调整来自交易记录的重量信息。这可以与诸如容器大小等等的信息组合，以除了其它之外还提供更好并且更准确的重量、价值以及大小信息。该改进的信息然后还可以在本文中所描述的聚合及其它处理步骤的期间用于尽管存在原始交易记录中显而易见的差错仍然产生度量、抽象临近预报以及预报信息等等。本文中所描述的用于校正缺失和/或不准确信息的各种技术可以自动地由本文中所描述的计算资源实行，所述各种技术的实行通过本文中所描述的算法而被改进。

即使当对于运输模式中的一些的个别的装运交易记录不是直接可利用时，本文中所描述的方法和***也可以促进针对多个运输模式而生成对于一个或多个实体、管辖范围、地理区域、港口等等的多维、粗略和/或宏观级经济数据。在示例中，两个国家之间的经济贸易度量的调查可以针对航海货运和航空货运两者而合并交易/装运。然而，仅利用原始航海货运交易数据，机器学习模型可以配置成基于航海货运分配与航空货运分配之间的已知关系而提供这样的调查度量。另外，机器学习模型可以合并关于产品的信息（诸如，重量、体积、价值等等），以提供在产品或产品线的基础上进行的对这样的分配的精细化调整。作为示例，价值更高、重量更轻的电子产品（例如，个人音频支付器、相机、电话等等）可能与作为海洋货运相比更有可能通过航空货运来运送。应用于生成调查及其它与经济或贸易有关的数据的机器学习模型可以配置成接受诸如产品重量、大小等等的输入，以即使在没有直接航空货运交易记录的情况下，也自动地将产品装运的合适分配标识成航空货运。一个这样的示例可以包括将历史第三方调查数据用作对于机器学习算法的输入信号。另一示例可以包括趋势分析。在海上装运比早期更高50%的时段内，人们可以预期航空装运示出类似增长，这或许是因为航空装运和海上装运两者都可以由类似经济因素驱动。只要存在可在统计上确定的海上装运与航空装运之间的相关性，就可以准确地估计航空装运。通过考虑相较于航海一些产品更有可能通过航空来运送（诸如，更轻的更昂贵或对时间更敏感的产品）的处理，能够如本文中所描述地使该关系精细化。

可以促进根据个别的装运交易记录针对一个或多个管辖范围而生成多维、粗略和/或宏观级经济度量的本文中所描述的方法和***可以包括高效地根据单个交易记录针对多个维度而使交易信息聚合。单个交易记录可以有助于多个不同的经济度量等等。在示例中，一个度量可以基于来源国家，另一度量可以基于目的地国家，第三度量可以基于产品部门，第四度量可以基于支付类型（例如，信贷对比现金、信贷来源（诸如，银行）等等）。其它类型的度量还可以从单个交易记录是可推导的。收集有助于若干不同度量的信息的一个途径是通过针对不同度量而使信息聚合的单个模型来处理记录。虽然这可能偶尔可接受地起作用，但它提出了对于模型的维护等的艰难挑战。由本文中所描述的方法和***所支持的备选途径可以包括在单独的模型中对每个期望的维度进行建模，所述单独的模型能够在源数据上独立执行。这样的途径要求在每个模型中处理更少的变量。例如，单个记录能够被聚合为“国家”宏信号或“部门”宏信号两者。第一途径使用具有“国家”和“部门”输入/特征两者的单个模型，而后一个途径使用各自具有单个时间序列输入/特征的两个模型，单独的国家和部门模型。因此，后一个途径每一模型处置更少的变量。

在单独的模型中对每个期望维度进行建模还实现独立处理单个记录，由此提高处理资源利用率等等。这样的途径还与本文中所描述的其它技术（诸如，高效索引的中间聚合结果处理）一起协同工作。可以针对国家和区域两者而处理单个交易记录。虽然两个单独的模型可以配置成针对国家并且针对包括该国家的区域而独立地处理记录，但每个国家可以被聚合为可以如本文中所描述地被索引的中间聚合输出，并且然后通过二次处理活动（所述二次处理活动参考针对国家（所述国家组成该区域）的中间结果）而进一步被聚合。这样的方法和***的灵活性给***设计人员提供在处理中间聚合时利用更大的计算资源或更少的计算资源的可利用性的选项。

调查的示范性实施例可以包括美国与中国之间的总贸易量。本文中所描述的方法和***可以促进早其并经常生成总贸易量。对于某一时段（诸如，最近一个月、当月至今等等）的贸易量可以除了其它之外还基于大量个别的交易记录的抽象化。通过本文中所描述的机器学习、聚合以及二次度量生成处理步骤，在使得新记录可利用（诸如每周、每天等等）时，可以产生贸易量的临近预报。使用这样的低时延信息可能引起若并非更经常则至少每天提供贸易量调查。在没有至少在‘767专利和‘714申请中描述的某些实体解析、缺失和错误的交易数据处理技术的情况下，交易数据可能未以任何合理程度的准确度来有效产生总体贸易。

能够参考技术的若干使用案例而说明本文中所描述的方法和***的另外的特征和优点。

使用案例1 - 两个国家之间的总贸易量

指示两个国家（例如，美国和中国）之间的总贸易量的贸易量统计被周期性地报告，但典型地包括某一量的滞后时间。在所报告的统计之前具有两个国家之间的总贸易量的预测能够是有用的。因此，本文中所描述的方法和***能够用于临近预报两个国家之间的总贸易量。

预测贸易量统计要求原始数据与不同的源数据的变换，因为，根据贸易量公开而可利用的原始数据在没有转换的情况下不可用于先前已知的临近预报。作为示例，虽然对于大部分产品类型，区域或国家数据可能能够从可利用的聚合的海关报告（尽管具有实质性差错）推导，但是在没有本文中所公开的实体解析处理的情况下，针对个别的实体而推导数据至少是不可能的。因为需要使用某一级的聚合报告，所以先前已知的***不能与使用每日原始交易数据的所公开的***一样快地提供临近预报或不能与使用每日原始交易数据的所公开的***一样频繁地对这些数据进行更新。

所公开的***能够在不直接访问该交易数据的情况下，就产生对于基于航空货运的活动的临近预报和预报。在一个示例中，对于海上货运的源数据是可利用的，但关于基于航空货运的活动的信息是缺失或不完整的。尽管如此，所公开的***能够针对两者而预测数据。

现有的预测性***和方法使用基于简单假设的途径来预测活动。例如，对于其中海上装运比早期高50%的给定时段，基于航空装运由类似经济因素驱动并且因此与海上装运具有1:1关系的假设，航空装运被预期为示出类似增长。基于这样的假设的预测高度地容易出错，因为，相较于航海一些产品更有可能通过航空来运送（例如，更轻的更昂贵的产品、对运送时间敏感的产品等等）。

使用颗粒数据，本文中所描述的***能够提供海上货运数据与航空货运数据之间的关系的以及一般航空货运信息的更准确预测。例如，该***确定先前的预测性结果数据与针对海上货运和航空货运而单独分解的调查数据之间的历史关系，并且，该***能够在预测航空货运时使用数据的该分解。机器学习方法能够用于在数据中寻找信号关系。

然而，如上文中所提到的，某些产品能够通过航海或通过航空运送。一种这样的类型的产品是电子部件。因此，在一些实施例中，针对不同产品和对于那些产品的对应信号关系而创建单独的模型。模型能够是基于对于每个产品的历史调查数据的。对应的调查数据能够用作对于该模型的机器学习训练集。仅海上电子设备装运和/或电子设备装运的总体是对所训练模型的示例输入。

使用层次地操作的变量选择处理（如在本文中的其它地方所描述），模型自动地确定何时针对特定产品而创建单独的模型。具体地，技术构造一系列的产品特定模型以及在处理所有产品的聚合模型两者。然后，使用来自机器学习文献的标准系综学习（standardensemble learning）和特征选择技术来比较、加权并且选择不同的模型。在一些实施例中，用户能够将***配置成仅构建聚合的产品模型，而不构建个别的产品模型。

关于使用细粒数据的一个问题是所要求的全部中间步骤。将与这些步骤相关联的处理和管理开销相加给出粗略结果。因此，本文中所描述的***通过将数据以某些维度（例如，国家、产品分类、公司、行业、具体港口等等）拆分而使用聚合技术来达到效率改进，从而要求更少的中间步骤。

本文中所描述的技术能够提供进一步支持聚合操作的特征。在一些实施例中，在聚合之前，通过（一个或多个）感兴趣的维度而对数据进行索引，并且，存储数据的所索引的表示。另外，许多数据聚合是层次的。一个这样的示例是区域关系（例如，“远东”与特定的国家的集合相关联）。在一些实施例中，***能够在生成区域聚合时再次使用较低级的聚合的信号（例如，国家特定的）。层次结构能够被调整，以管理所创建的许多中间聚合，以调整可利用于再次使用的元素（例如，国家数据、按行业的国家等等），以调整可利用于交叉相关性的元素，和/或以提供针对并行处理（例如，通过所要求的处理操作、所要求的通信带宽和/或所要求的存储器存储）的所定义的数据集。

在一些实施例中，***使用并行性来达到另外的效率。例如，***能够并行地（例如，按国家）实行***对层次的每级的聚合的计算，然后取得总数，以得到层次的下一级。

对于一些应用，可期望的是，基于其它数据而估计当前时间的感兴趣的时间序列的值（所述当前时间的感兴趣的时间序列的值在其发生时难以测量）或未来的感兴趣的时间序列的值（所述未来的感兴趣的时间序列的值由于其尚未发生而不可能测量）。所描述的***的实施例能够配置成用于使用感兴趣的时间序列（诸如，国际贸易数据）来临近预报并且预报。特别地，***能够使用交易级贸易数据来预测其它感兴趣的时间序列（索引等等）。在一些实施例中，所预测的时间序列是商品索引（例如，石油进口/出口，车辆进口/出口）、聚合的贸易索引（例如，TEU体积、进口/出口总货币价值、贸易逆差）、聚合的国家级指标及在行业中已知的其它金融索引中的一个或多个的绝对值、增长量/下降量和/或其它推导的测量。

在一些实施例中，交易级时间序列数据是描述了感兴趣的相关流的低时延数据。示例交易级数据包括装运数据（其具有相对低的时延）及其导数。***使用低时延数据来估计和/或预报更高的时延数据。例如，美国进***易级装运数据能够被认为是低时延预测因子（low-latency predictor），因为，该数据每天更新，并且仅滞后实际装运大约一周。除了是低时延和高频率之外，该数据还高度地颗粒化，从而反映每个个别的装运交易。相比之下，关于贸易流的美国调查数据能够被认为是更高的时延预测因子，因为，该数据每月公布，具有一个月的延迟。相较于交易级数据，该数据具有非常低的颗粒度，因为，该数据在潜在地成千上万的个别的装运交易上被聚合。

在一些实施例中，本文中所描述的预测性技术与其它数据源组合而使用期望的感兴趣的索引或流的历史时间序列值。例如，技术能够使用来自时间序列的数据，诸如，关于所涉及的参与方或国家的信息、时间序列的贸易流的重量、计数、体积、产品、时间序列的贸易流的一年中的时间（time of year of the trade flows of the time series）、感兴趣的这些流的自动相关性（例如，计算时间序列与滞后一个月的它自己之间的相关性系数）等等。

其它数据源可以包括较低时延的数据（例如，如上文中所标识的所处理的交易级装运数据）。在一些实施例中，技术处理用于感兴趣的流的历史时间序列的所有特性。在一些实施例中，其它数据源包括关于所涉及的节点或参与方的信息（例如，企业办公室和设施位置、进行贸易的历史产品、关于公司的地理位置数据等等）。

使用上述的数据源，本技术能够充分利用贸易数据处理和丰富化技术来容纳偏置或缺失数据。在一些实施例中，数据能够被技术用于实体解析/标识、重量校正、产品分类、检测缺失的观察以及国家分类和基于非结构化地址的地理位置。

本技术还提供某些所推导的特征。在一些实施例中，本技术提供时间序列之间的自动相关性的测量。在一些实施例中，本技术采用组合上文中的数据的交互与降维变换的合成特征。例如，如果来自中国的贸易流高于或低于给定的水平，则能够基于该流而确定不同的影响（例如，不同的信号关系）。在一些实施例中，信号关系基于体积、价值、重量或其它阈值中的一个或多个而被调整。

如显而易见的，本技术广泛适用于在发布宏观经济指标（例如，调查、商品索引等等）之前或在发生底层事件（所述指标基于所述底层事件）之前估计宏观经济指标的值。因此，本文中所描述的***和方法的使用能够有利地允许相较于先前利用现有预测性技术而可能的时间更早地做出与如以下项的此类事件有关的决策：金融和投资、企业和国家规划以及生产运行的开始。

作为一个示例，如调查部所报告的美国车辆进口（例如，高时延数据）的估计能够在其发布之前使用美国交易级进口数据（例如，低时延数据）来生成。在一个示例中，在美国车辆进口统计的延迟的发布之前，***估计在当前日期的美国车辆进口数据。例如，在公开地发布反映已经发生的进口的聚合值之前，基于与那些进口直接相关的数据而估计该聚合值。在另一示例中，估计美国车辆进口数据的未来值。例如，趋势分析，如果在当前的汽车进口（实际数据或估计的数据）上运行，以预测未来的汽车进口。这是与目前时间估计根本上不同的估计，并且，虽然能够使用相同源数据，但是针对未来值估计从该数据提取不同的信号关系。

在一些实施例中，对于当前时期或未来时期的国际贸易中的给定实体或汇总（rollup）（在本文中也被称为“节点”）的贸易流能够在其有关统计正式发布之前被估计。例如，能够在正式发布和可利用业务统计之前针对节点（诸如给定公司、给定贸易港口、国家的海岸、商业产品或其它任意节点）而估计这些统计。

当前的技术能够应用于若干其它应用。在一些实施例中，即使在存在偏置或编校的源数据的情况下，也能够对于给定节点而针对当前时间段或未来时间段估计贸易流统计。例如，颗粒数据（诸如，某些美国进***易级数据）能够被编校，以使诸如贸易的原产地国家和企业实体名称的信息模糊。在一些实施例中，关于贸易（其是某些在策略上重要的产品的贸易）的记录是完全缺失的或是与在政治上敏感的国家的贸易。同样对于颗粒数据而言常见的是包含对于某些数据（例如，装运重量）的差错或不准确值。而且，如上文中所讨论的，预测涵盖海上运输和航空运输的宏信号能够是可期望的，但贸易交易记录仅可以提供与海上运输有关的信息。根据交易记录独自地重构海上信号将产生宏信号，该宏信号在其***性地缺失航空分量所作出的贡献的意义上向下偏置。本技术通过发现海上信号的分量（所述海上信号的分量与缺失的航空货运信号高度地相关并且因此是缺失的航空货运信号的预测）从而阻碍将偏置引入宏信号中。所得到的宏信号被（例如，向上）调整，以避免将偏置引入所得到的宏信号中。因此，尽管如此，本技术能够使用参考数据（其具有偏置或编校的交易级记录）来针对贸易流数据而估计“真值”。

本技术进一步配置成容纳具有若干不同格式或布局或采用感兴趣的整体时间序列的任意分段（例如，按国家、按产品、按港口、按重量范围等等）的记录。以此方式，本技术能够使用任意时间序列或其推导的测量来操作。例如，给定的时段内的流（比如说，给定的月份内的装运、对于公司X的、在给定的月份内的鞋的装运）。

在一些实施例中，本文中所描述的***和方法针对特定节点而估计储备数据和/或供应水平（诸如，商品储备）。例如，美国石油储备能够基于美国进口数据和对于墨西哥的对应数据而被估计。在一些实施例中，通过基于交易级贸易数据而估计当前税收来确定公司的金融健康。在一些实施例中，通过在例如在收益报告中报告供应链中的流之前估计供应链中的流而确定供应链的健康。

有利地，本技术配置成实现将各种预测和回归算法合并到本文中所描述的整体层次时间序列分解架构中。在一些实施例中，本技术合并以下算法或技术中的一个或多个：线性回归、正则化回归、支持向量机（“SVM”）、基于树的方法、神经网、时域分布（例如、频率数据、周期/周期性作用）的确定、多个维度中收敛性的确定以增强置信度（例如、使重量和价值；区域和个别的国家；按实体的装运；等等匹配）等等。在一些实施例中，（一个或多个）预测算法实现适于时间序列数据的训练验证（诸如，自动相关性和数据验证的合并，该合并不允许跨在时间上接近而发生的群组/折叠（fold）的信息的“泄漏”）。

由本技术的层次时间序列分解架构提供的另外的优点是能够以其完成预测性操作的速度。充分利用所描述的就地计算基础设施（in-place computationinfrastructure）。

本文实现预测的快速和高效计算。例如，所描述的技术包括索引，所述索引虑及迅速查询新数据、性能好的机器学***衡算法。特别地，***和方法配置成沿着不同维度探索交易级数据的可能的聚合的大的空间，以便标识预测目标的那些数据。***和方法进一步配置成从颗粒交易级数据推导粗粒预测。

本文中所描述的技术通过在一个或多个或所有感兴趣维度上构建排序的索引而实现同时沿着许多维度（例如，所涉及的公司、运送的产品、装运的国家）高效聚合。在大部分情况下，感兴趣的聚合维度具有自然层次结构。例如，地理位置能够分组为国家并且然后区域，产品能够分组为渐增一般分类的层次，并且公司能够分组为行业和部门。作为对于预测模型的预测性信号，能够单独地对每个层次级感兴趣。

本技术利用该层次结构来使聚合操作加速。例如，首先使最低层次级聚合（例如，在每个国家内使数据聚合）。结果作为输入特征而被存储并且供给到所采用的预测模型以及到聚合层次的下一级。在下一级的聚合，来自先前级的结果被聚合，得到相较于再次直接使原始数据聚合大得多的效率。而且，为了甚至更好的性能，能够并行实行在每个级的聚合。例如，每个国家的信号能够在独立的过程中被聚合，并且结果能够作为输入而一起被收集到随后的过程，所述随后的过程实行区域聚合。

在一些实施例中，通过将建模任务相对于多个处理核和/或多个服务器装置而分配来进一步提高***所进行的预测性操作的速度，这样做的目标为同时针多个索引来对预测进行建模并且提供预测。

根据本技术的实施例，多个感兴趣的、作为目标的时间序列能够同时被建模，以从其间的相关性获益。根据颗粒交易级数据预测粗粒目标数据的所描述的方法提供优于现有预测性***和方法的增强，这是因为所描述的技术有权使用解释目标变量之间关系的信号。即，在个别的装运交易中，存在到目标的共同原产地中的可见性。作为该“多输出回归”的说明性示例，能够创建同时对与国家A的贸易和货物Z的贸易流进行建模的模型。例如，能够同时对与中国的贸易和电子设备的贸易进行建模。所得到的模型有权使用与个别的装运交易有关的数据（其包括与中国进行的电子设备产品的贸易、与中国进行的非电子设备产品的贸易、中国境外进行的电子设备产品的贸易以及中国境外进行的非电子设备产品的贸易）。该模型学习预测目标信号的所有这些子分类的适当加权。

使用案例2 - 预测美国贸易逆差

示范性方法包括下载前一个月的总体海上运输进口加上所选择的额外的颗粒数据（例如，10个关键国家和6个关键部门），以创建关于什么正在驱动进口的初始视图。该下载的数据能够被分析，以产生初始贸易逆差报告。使用该潜在数据来准备该初始报告的总耗费时间是大约3小时。继续该示例，在一个月的大约15号，实行从一个月的10号起的数据的刷新，以捕获推迟递送的数据，和/或以考虑来自劳工***的定价数据的影响。继续该示例，在一个月的大约23号，数据作为对于贸易逆差估计的最终预览而再次被刷新（例如，以考虑来自关键美国港口的出口数据）。在一些实施例中，通过使用信号关系信息来配置关键国家、部门和/或港口，从而改进示范性方法的操作。在一些实施例中，通过预先索引如本文中所描述的颗粒数据，从而改进示范性方法的操作。示范性方法提供一个月的历程中的预测集（例如，输出值108），每一个预测集具有比上一个预测集更多的信息和/或更高的与预测集的准确度相关联的置信度。在一些实施例中，输出值108中的每个能够比先前已知的报告信息（例如，高时延调查报告）而更早被提供，以较少资源的消耗而被提供，和/或以比先前可利用的置信度和/或准确度更高的置信度和/或准确度而被提供。

本文中所描述的另外的示范性临近预报技术利用低时延个别的海关交易数据，该低时延个别的海关交易数据不限于10个关键国家和6 个关键部门，和/或包括关键参数（例如，国家、部门、区域等等），所述关键参数具有与输出值（例如，总体海上运输进口）的高置信度信号关系值。因此，通过处理交易数据并且跨过多个维度使它聚合和/或索引它，从而能够频繁地（诸如，每天）准备对于许多国家、部门、港口等等的进口和出口数据。因此，能够每天生成对于任何先前的时期（诸如，过去的30天、上一个日历月、年初至今等等）的贸易逆差报告。在该示例中，能够以更高的准确度并且以实质上更小的计算机利用率在前一个月的最后一天、新的一个月的第一天等等自动地产生前一个月的贸易逆差。

使用案例3 - 跟踪行业表现索引

在另外的示范性实施例中，一旦行业标准索引被标识，现有方法就搜索协调关税制度（harmonized tariff system ，“HTS”）代码和/或关键词，以标识最佳查询集群。该搜索是漫长（典型地，6至10小时）手动的过程，分析人员通过该过程而充分利用领域知识来选择已筛选的时间序列，所述已筛选的时间序列被认为是很可能与感兴趣的信号有关。分析在三至四个月的历程的期间重新运行，以验证有效性。然后，能够每月一次对该过程进行更新。通过使用信号关系信息来配置HTS代码、关键词和/或其它***参数、通过预先索引颗粒数据和/或通过本文中所描述的其它***和操作，从而改进该现有方法的某些操作。而且，通过高效地使数据沿着许多不同的维度分解成许多不同的时间序列而使搜索过程自动化，并且使用机器学习来以最佳地预测感兴趣的信号的方式而选择或组合时间序列，由此，所描述的方法增强现有方法。

本文中所描述的新方法能够进一步包括测试要匹配先前数据的许多信号关系场景。例如，该方法能够提供前瞻性输出值108（例如，本月底、未来下一个月、下一个季节性数据、即将到来的一年等等）。另外，该方法能够提供与目前的时间对应、在任何所选择的时间，和/或在请求时的更新的输出值108。新方法的另外的操作包括敏感性分析，以确定缺失数据的作用（例如，一个或多个数据集被推迟报告和/或具有指示潜在排除的差错（根据分析）），以确定保证额外处理资源（其用于模型的精细化）的信号关系元素，和/或以确定敏感性随时间推移的改变（例如，以用于对信号关系的周期的、季节性的或阈值驱动的调整）。

另外或备选地，该新方法能够使许多查询集群的分析自动化，以确定最有效的信号关系，并且能够对查询集群进行再分组，以确定集群的数据的更好集合是否可利用于确定某些期望的输出值108。例如，许多潜在原始数据输入可以被考虑（例如，各自按国家、区域、实体、港口、行业、和/或产品的前十体积、前十价值、前十装运量和/或这些项的随机化或选择的混合等等）。在一个潜在原始数据输入的成员被确定为具有预测性值的情况下，查询集群能够被调整成包括更多的预测性成员。 “前十”分组的使用是非限制性示例，并且，可以利用群组的任何数量的成员和/或群组的所有成员。在某些实施例中，可以（例如，取决于群组大小和/或个别的成员相对于群组的大小）选择群组的在统计上显著数量的成员，和/或可以自动地包括某些成员或群组，以确保考虑因素（例如，所选择的群组的国家中的每一个可以通过设计而被包括在查询集群中）。

使用案例4 - 出于风险管理的目的而实时跟踪企业表现

在另一示范性方法中，诸如基于与具体事件、实体或其相邻项（例如，类似公司或行业）有关的新闻流而标识事件。示例可以是对以下项的报告：比对于特定部门的、与特定国家的预期美国贸易逆差更高、预期或报告的体积、销售额和/或库存的改变、来自SEC归档或类似文档的信息等等。示范性方法包括针对聚合表现加上国家、订约方以及HTS披露的HTS-代码或关键词搜索。另外的示例包括基于贯穿数据集而确定的信号关系和/或基于响应于所标识的类型的事件而确定的信号关系来实行搜索。用来实行该方法的典型耗费时间是每案例3小时。该过程导致提供增强的信息的表现跟踪，其优于先前已知的响应于新闻事件而进行的对信息的更新。另外或备选地，响应于事件类型而确定的信号关系能够用于标识很可能已发生但尚未被报告的事件。例如，其中，信号与已基于数据而标识的事件一致，但该事件尚未被报告。

先前已知的技术包括诸如每月或基于所观察的新兴事件的标准更新速率。本文中所描述的方法为以下项作准备：高速率、持续和/或可选择的更新速率；增强的预测集，其利用信号关系和/或响应于事件而修改的信号关系，和/或预测事件（例如，与数据中的信号一致的具体事件或广义事件）已发生，以及在通常调度的预测值更新之前潜在地触发更新的预测值。

本文中所公开的临近预报***和方法利用海关或其它交易记录的每天累积、和/或另外的信息（其来自可能具有不同和/或可变延迟时间的其它记录类型）以及确定已超出正常或预期范围的临近预报（输出值108）。这能够通过将计算机机器学习及其它自动化异常检测技术应用于颗粒交易数据而自动地被确定。通过如本文中所描述的多维聚合技术和/或信号关系处理和利用技术，能够在所选择的间隔（诸如，例如持续地和/或每天）产生表现度量，这是因为，颗粒数据是可利用的而非依赖于高滞后概要数据，和/或作为基于新闻报告的事后活动而可能不再相关的数据集内的信号指示符。能够在新闻报告发布之前，以更大的准确度和置信度和/或以更低的资源利用率（诸如，处理时间、处理周期、通信带宽和/或存储器利用率）来有效地确定信号，所述信号可以指示原本可能仅通过新闻报告才可见的表现的改变。

图5A、图5B以及图5C分别描绘图表505、510以及515，图表505、510以及515包括指代基于美国调查数据的在前一个月期间对于美国从特定国家（例如，分别从中国、韩国以及日本）的进口的百分率改变的曲线。图5A、图5B以及图5C各自还描绘表示使用根据本文中所描述的技术的实施例的临近预报技术的对于特定国家的所预测的百分率改变的曲线。在每个图表中，指代临近预报-预测的进口数据的曲线密切地跟踪指代从美国调查获得的实际进口数据的曲线。

本文中所描述的方法和***可以部分地或全部地通过具有计算机、计算装置、处理器、电路和/或服务器的机器而部署，所述计算机、计算装置、处理器、电路和/或服务器执行计算机可读指令、程序代码、指令，和/或包括配置成在功能上执行本文中所公开的方法和***的一个或多个操作的硬件。如本文中所利用的，术语计算机、计算装置、处理器、电路和/或服务器应当被广义地理解。

术语计算机、计算装置、处理器、电路和/或服务器中的任何一个或多个包括能够诸如在非暂时性计算机可读介质上存取所存储的、与其通信的指令的任何类型的计算机，因此在执行指令时计算机实行本文中所描述的***或方法的操作。在某些实施例中，这样的指令本身包括计算机、计算装置、处理器、电路和/或服务器。另外或备选地，计算机、计算装置、处理器、电路和/或服务器可以是单独的硬件装置、跨硬件装置分布的一个或多个计算资源，和/或可以包括如以下项的这样的方面：逻辑电路、嵌入式电路、传感器、致动器、输入和/或输出装置、网络和/或通信资源、任何类型的存储器资源、任何类型的处理资源和/或配置成响应于所确定的条件而在功能上执行本文中的***和方法的一个或多个操作的硬件装置。

网络和/或通信资源包括但不限于局域网、广域网、无线、互联网或任何其它已知的通信资源和协议。示例和非限制性的硬件、计算机、计算装置、处理器、电路和/或服务器包括但不限于通用计算机、服务器、嵌入式计算机、移动装置、虚拟机和/或这些项中的一个或多个的仿真版本。示例和非限制性的硬件、计算机、计算装置、处理器、电路和/或服务器可以是物理的、逻辑的或虚拟的。计算机、计算装置、处理器、电路和/或服务器可以是：分布式资源，其作为若干装置的一个方面而被包括；和/或作为可互相操作的资源的集合而被包括，以实行计算机、计算装置、处理器、电路和/或服务器的所描述的功能，以致于分布式资源一起起作用以实行计算机、计算装置、处理器、电路和/或服务器的操作。在某些实施例中，每个计算机、计算装置、处理器、电路和/或服务器可以位于单独的硬件上，和/或一个或多个硬件装置可以包括计算机、计算装置、处理器、电路和/或服务器（所述计算机、计算装置、处理器、电路和/或服务器例如作为存储于硬件装置上的可单独地执行指令和/或作为可执行指令的集合的在逻辑上划分的方面）中的多于一个的方面，其中硬件装置的一些方面包括第一计算机、计算装置、处理器、电路和/或服务器的部分，并且，硬件装置的一些方面包括第二计算机、计算装置、处理器、电路和/或服务器的部分。

计算机、计算装置、处理器、电路和/或服务器可以是服务器、客户端、网络基础设施、移动计算平台、固定式计算平台或其它计算平台的部分。处理器可以是能够执行程序指令、代码、二进制指令等等的任何种类的计算或处理装置。处理器可以是或包括信号处理器、数字处理器、嵌入式处理器、微处理器或可以直接地或间接地促进其上存储的程序代码或程序指令的执行的任何变型，诸如协同处理器（数学协同处理器，图形协同处理器，通信协同处理器等等）等等。另外，处理器可以实现多个程序、线程以及代码的执行。线程可以同时执行，以增强处理器的性能并且以促进应用的同时操作。经由实现，本文中所描述的方法、程序代码、程序指令等等可以在一个或多个线程中实现。该线程可以派生其它线程，所述其它线程可以已指派与它们相关联的优先级；处理器可以基于优先级或基于在程序代码中提供的指令的任何其它顺序而执行这些线程。处理器可以包括存储如在本文中和在其它地方描述的方法、代码、指令以及程序的存储器。处理器可以通过接口而存取存储介质，所述存储介质可以存储如在本文中和在其它地方描述的方法、代码以及指令。与用于存储方法、程序、代码、程序指令或能够被计算或处理装置执行的其它类型的指令的处理器相关联的存储介质可以包括但可能不限于CD-ROM、DVD、存储器、硬盘、闪盘驱动器、RAM、ROM、高速缓存等等中的一个或多个。

处理器可以包括可以提高多处理器的速度和性能的一个或多个核。在实施例中，该处理可以是使两个或更多个独立的核（被称为管芯）组合的双核处理器、四核处理器、其它芯片级多处理器等等。

本文中所描述的方法和***可以部分地或全部地通过执行计算机可读指令的机器而部署在服务器、客户端、防火墙、网关、集线器、路由器或其它这样的计算机和/或网络化硬件上。计算机可读指令可以与服务器相关联，该服务器可以包括文件服务器、打印服务器、域服务器、互联网服务器、企业网服务器及诸如二次服务器、主机服务器、分布式服务器等等的其它变型。服务器可以包括存储器、处理器、计算机可读暂时性和/或非暂时性介质、存储介质、端口（物理的和虚拟的）、通信装置以及能够通过有线或无线介质等等而访问其它服务器、客户端、机器以及装置的接口中的一个或多个。如在本文中和在其它地方描述的方法、程序或代码可以由服务器执行。另外，执行如在本申请中描述的方法所要求的其它装置可以被认为是与服务器相关联的基础设施的部分。

服务器可以提供对包括但不限于客户端、其它服务器、打印机、数据库服务器、打印服务器、文件服务器、通信服务器、分布式服务器等等的其它装置的接口。另外，该耦合和/或连接可以促进跨网络远程执行指令。在不背离本公开的范围的情况下，这些装置中的一些或全部的网络化可以促进在一个或多个位置处并行处理程序代码、指令和/或程序。另外，通过接口而附接到服务器的所有装置都可以包括能够存储方法、程序代码、指令和/或程序的至少一个存储介质。中央仓库可以提供要在不同装置上执行的程序指令。在该实现中，远程仓库可以充当对于方法、程序代码、指令和/或程序的存储介质。

方法、程序代码、指令和/或程序可以与客户端相关联，该客户端可以包括文件客户端、打印客户端、域客户端、互联网客户端、企业网客户端及诸如二次客户端、主机客户端、分布式客户端等等的其它变型。客户端可以包括存储器、处理器、计算机可读暂时性和/或非暂时性介质、存储介质、端口（物理的和虚拟的）、通信装置以及能够通过有线或无线介质等等而访问其它客户端、服务器、机器以及装置的接口中的一个或多个。如在本文中和在其它地方描述的方法、程序代码、指令和/或程序可以由客户端执行。另外，用于执行如在本申请中描述的方法的其它装置可以被认为是与客户端相关联的基础设施的部分。

客户端可以提供对包括但不限于服务器、其它客户端、打印机、数据库服务器、打印服务器、文件服务器、通信服务器、分布式服务器等等的其它装置的接口。另外，该耦合和/或连接可以促进跨网络远程执行方法、程序代码、指令和/或程序。在不背离本公开的范围的情况下，这些装置中的一些或全部的网络化可以促进在一个或多个位置处并行处理方法、程序代码、指令和/或程序。另外，通过接口而附接到客户端的所有装置都可以包括能够存储方法、程序代码、指令和/或程序的至少一个存储介质。中央仓库可以提供要在不同装置上执行的程序指令。在该实现中，远程仓库可以充当对于方法、程序代码、指令和/或程序的存储介质。

本文中所描述的方法和***可以通过网络基础设施而部分地或全部地部署。网络基础设施可以包括诸如如在本领域中已知的计算装置、服务器、路由器、集线器、防火墙、客户端、个人计算机、通信装置、路由装置及其它有源和无源装置、模块和/或部件的元件。与网络基础设施相关联的（一个或多个）计算和/或非计算装置可以除了其它部件之外还包括诸如闪速存储器、缓冲器、堆栈、RAM、ROM等等的存储介质。在本文中和在其它地方描述的方法、程序代码、指令和/或程序可以由网络基础设施元件中的一个或多个执行。

在本文中和在其它地方描述的方法、程序代码、指令和/或程序可以在具有多个小区的蜂窝网络上实现。蜂窝网络可以是频分多址（FDMA）网络或码分多址（CDMA）网络。蜂窝网络可以包括移动装置、小区站点、基站、中继器、天线、塔等等。

在本文中和在其它地方描述的方法、程序代码、指令和/或程序可以在移动装置上实现或通过移动装置实现。移动装置可以包括导航装置、蜂窝电话、移动电话、移动个人数字助理、膝上型电脑、掌上型电脑、上网本、寻呼机、电子书阅读器、音乐播放器等等。这些移动装置可以除了其它部件之外还包括诸如闪速存储器，缓冲器、RAM、ROM以及一个或多个计算装置的存储介质。可以实现与移动装置相关联的计算装置，以执行存储于其上的方法、程序代码、指令和/或程序。备选地，移动装置可以配置成与其它装置合作而执行指令。移动装置可以和与服务器通过接口连接的基站通信，并且配置成执行方法、程序代码、指令和/或程序。移动装置可以在对等网络、网状网络或其它通信网络上通信。方法、程序代码、指令和/或程序可以存储于与服务器相关联的存储介质上并且由嵌入于服务器内的计算装置执行。基站可以包括计算装置和存储介质。存储装置可以存储由与基站相关联的计算装置执行的方法、程序代码、指令和/或程序。

可以在可包括以下项的机器可读暂时性和/或非暂时性介质上存储和/或存取方法、程序代码、指令和/或程序：保留用于针对某个时间间隔计算的数字数据的计算机部件、装置以及记录介质；被认为是随机存取存储器（RAM）的半导体存储设备；典型地用于更永久存储的海量存储设备（诸如，光盘、如硬盘、带、鼓、卡及其它类型那样的磁存储设备的形式）；处理器寄存器、高速缓存存储器、易失性存储器、非易失性存储器；光存储设备（诸如，CD、DVD）；可移除介质（诸如，闪速存储器（例如，USB棒或密钥）、软盘、磁带、纸带、穿孔卡、独立式RAM盘、Zip驱动器、可移除海量存储设备、离线式存储设备等等）；其它计算机存储器（诸如，动态存储器，静态存储器，读/写存储设备，可变存储设备，只读、随机存取、顺序存取、位置可寻址、文件可寻址、内容可寻址、网络附接式存储设备，存储区域网，条形码、磁性墨水等等）。

本文中所描述的某些操作包括解释、接收和/或确定一个或多个值、参数、输入、数据或其它信息。包括解释、接收和/或确定任何值参数、输入、数据和/或其它信息的操作包括但不限于：经由用户输入接收数据；通过任何类型的网络接收数据；从与接收装置通信的存储器位置读取数据值；利用默认值作为所接收的数据值；基于对接收装置可利用的其它信息而估计、运算或推导数据值；和/或响应于稍后接收的数据值而更新这些项中的任一个。在某些实施例中，作为接收数据值的部分，数据值可以通过第一操作而接收，并且稍后通过第二操作而更新。例如，当通信被减弱、间歇进行或中断时，可以实行用来解释、接收和/或确定数据值的第一操作，并且，当恢复通信时，可以实行更新的操作，所述更新的操作用来解释、接收和/或确定数据值。

提供本文中的操作的某些逻辑分组（例如，本公开的方法或过程），以说明本公开的方面。示意性地描述和/或描绘本文中所描述的操作，并且，可以以与本文中的本公开一致的方式组合、划分、重新排序、添加或去除操作。理解到，操作描述的上下文可以要求针对一个或多个操作进行排序，和/或对于一个或多个操作的顺序可被明确地公开，但操作顺序应当被广义地理解，其中提供等效操作结果的任何等效操作分组具体地在本文中被预期。例如，如果值在一个操作步骤中被使用，则确定该值可能在某些上下文（例如，其中，对于达到某一作用的操作的数据的时间延迟是重要的）中在那个操作步骤之前被要求，但可能在其它上下文（例如，其中，使用来自操作的先前执行周期的值将对于那些目的而言是足够的）中在那个操作步骤之前不被要求。因此，在某些实施例中，如所描述的操作分组和操作的顺序在本文中明确地被预期，并且，在某些实施例中，操作的不同分组、细分和/或重新排序在本文中明确地被预期。

本文中所描述的方法和***可以将物理和/或无形项目从一个状态变换到另一状态。本文中所描述的方法和***还可以将表示物理和/或无形项目的数据从一个状态变换到另一状态。

在本文中（包括在流程图、框图和/或操作描述中）描述并且描绘的元件出于说明的目的而描绘和/或描述元件的具体示例布置。然而，所描绘和/或描述的元件、其功能和/或这些元件的布置可以诸如通过计算机可执行暂时性和/或非暂时性介质（其具有能够执行其上存储的程序指令的处理器）而在机器上实现，和/或实现为逻辑电路或硬件布置。编程指令的示例布置至少包括：指令的整体结构；对于元件或其部分的指令的独立式模块；和/或如采用外部例程、代码、服务等等的指令的模块；和/或这些项的任何组合，并且，所有这样的实现都被预期在本公开的实施例的范围内。这样的机器的示例包括但不限于个人数字助理、膝上型电脑、个人计算机、移动电话、其它手持式计算装置、医疗设备、有线或无线通信装置、换能器、芯片、运算器、卫星、平板个人电脑、电子书、小配件、电子装置、具有人工智能的装置、计算装置、网络化设备、服务器、路由器等等。此外，在本文中描述和/或描绘的元件和/或任何其它逻辑部件可以在能够执行程序指令的机器上实现。因而，虽然前述的流程图、框图和/或操作描述阐明所公开的***的功能方面，但实现这些功能方面的程序指令的任何布置都在本文中被预期。类似地，将意识到，在上文中标识并且描述的各种步骤可能变化，并且步骤的顺序可以适于本文中所公开的技术的特定应用。另外，任何步骤或操作都可以以提供与所描述的操作类似的功能性的任何方式被划分和/或组合。所有的这样的变型和修改都在本公开中被预期。上述的方法和/或过程及其步骤可以在硬件、程序代码、指令和/或程序中或者适合于特定应用的硬件和方法、程序代码、指令和/或程序的任何组合中实现。示例硬件包括用来实行方法和/或***的操作中的一个或多个的专用计算装置或具体计算装置、具体计算装置的特定方面或部件、和/或硬件部件和/或逻辑电路的布置。过程可以在一个或多个微处理器、微控制器、嵌入式微控制器、可编程数字信号处理器或其它可编程装置中连同内部和/或外部存储器来实现。过程还可以或替代地体现在专用集成电路、可编程门阵列、可编程阵列逻辑或可以配置成处理电子信号的任何其它装置或装置的组合中。将进一步意识到，过程中的一个或多个可以实现为能够在机器可读介质上执行的计算机可执行代码。

计算机可执行代码可以使用结构化编程语言（诸如C）、面向对象的编程语言（诸如，C++）或可以存储、编译或解释以在上述装置（以及处理器的异构组合、处理器架构或不同硬件和计算机可读指令的组合或能够执行程序指令的任何其它机器）之一上运行的任何其它高级或低级编程语言（包括汇编语言、硬件描述语言以及数据库编程语言和技术）。

因而，在一个方面，上述的每个方法及其组合可以在计算机可执行代码中体现，所述计算机可执行代码当在一个或多个计算装置上执行时实行其步骤。在另一方面，方法可以在实行其步骤的***中体现，并且可以以许多方式跨装置分布，或所有的功能性都可以集成到专用的独立式装置或其它硬件中。在另一方面，用于实行与上述过程相关联的步骤的手段可以包括上述计算机可读指令和/或硬件中的任一个。所有的这样的排列和组合都在本公开的实施例中被预期。示例计算装置包括能够存取所存储的、与其通信的指令（诸如在非暂时性计算机上）的任何类型的计算机。

除非另外明确地陈述或从文本清楚可见，否则本文中以单数形式对项目进行的引用应当理解成包括以复数形式的项目，并且反之亦然。除非另外陈述或从上下文清楚可见，否则语法连词旨在表达连结的从句、句子，单词等等的任何和所有分离和连接的组合。

虽然已与详细示出并且描述的某些实施例结合来公开本公开，但对这些实施例的各种修改和改进将变得容易对本领域技术人员显而易见。因此，本公开的精神和范围将不受前述示例所限制，而是将在由法律可允许的最广泛的意义上来理解。

Claims

1.一种方法，包括：

定义颗粒数据值与目标数据值之间的信号关系，其中，所述颗粒数据值的至少部分对应于颗粒时延值，所述颗粒时延值比与所述目标数据值对应的目标数据时延值更小；

解释与所述颗粒数据值对应的颗粒数据；

响应于所述信号关系而使所述颗粒数据聚合；

针对所选择的时间参考而估计所述目标数据值的值；以及

将所述目标数据值的所述估计的值提供作为所述目标数据值的临近预报预测。

2.根据权利要求1所述的方法，其中，聚合包括使所述颗粒数据值以层次格式聚合。

3.根据权利要求2所述的方法，进一步包括在所述聚合之前处理所述颗粒数据，其中，所述处理进一步包括响应于所述层次格式而索引所述颗粒数据。

4.根据权利要求2所述的方法，进一步包括在所述聚合之前处理所述颗粒数据，其中，所述处理进一步包括响应于所述信号关系而索引所述颗粒数据。

5.根据权利要求2所述的方法，进一步包括在所述聚合之前处理所述颗粒数据，其中，所述处理进一步包括响应于在所述聚合期间产生的至少一个子聚合而验证所述信号关系。

6.根据权利要求2所述的方法，进一步包括在所述聚合之前处理所述颗粒数据，其中，所述处理包括填充所述颗粒数据中的差距。

7.根据权利要求2所述的方法，进一步包括在所述聚合之前处理所述颗粒数据，其中，所述处理包括校正所述颗粒数据中的差错数据。

8.根据权利要求1所述的方法，其中，估计进一步包括基于所述选择的时间参考而将时间序列变换应用于所述颗粒数据。

9.根据权利要求8所述的方法，其中，应用所述时间序列变换进一步包括实行差分操作、到百分率改变的转换、卷积滤波、趋势回归、循环回归、幂变换以及平滑化操作中的一个或多个。

10.根据权利要求8所述的方法，其中，估计进一步包括将机器学习模型应用于所述时间序列变换的输出。

11.根据权利要求10所述的方法，其中，应用所述机器学习模型进一步包括实行线性回归、正则化回归、应用支持向量机、基于树的方法、应用神经网络、确定时域分布以及确定多个维度中收敛性中的一个或多个。

12.根据权利要求1所述的方法，进一步包括标识所述颗粒数据的至少两个数据字段之间的层次关系。

13.根据权利要求12所述的方法，其中，标识所述层次关系进一步包括接收数据结构，所述数据结构定义所述颗粒数据的所述至少两个数据字段之间的所述层次关系。

14.根据权利要求10所述的方法，进一步包括针对所述选择的时间参考而对所述目标数据值的值进行加权。

15.根据权利要求14所述的方法，其中，加权包括实行线性回归、正则化回归、应用支持向量机、基于树的方法、应用神经网络、确定时域分布以及确定多个维度中收敛性中的一个或多个。

16.根据权利要求1所述的方法，进一步包括使所述颗粒数据的至少一个数据字段的改变与所述目标数据值的改变相关。

17.根据权利要求1所述的方法，进一步包括基于所述颗粒数据的聚合而生成高速缓存的数据结构，所述高速缓存的数据结构包括从所述颗粒数据的所述聚合提取的多个数据字段。

18.根据权利要求17所述的方法，进一步包括基于从所述颗粒数据的所述聚合提取的至少两个数据字段而生成索引。