CN110709861A - 用于训练非线性模型的方法和*** - Google Patents

用于训练非线性模型的方法和*** Download PDF

Info

Publication number
CN110709861A
CN110709861A CN201880037651.4A CN201880037651A CN110709861A CN 110709861 A CN110709861 A CN 110709861A CN 201880037651 A CN201880037651 A CN 201880037651A CN 110709861 A CN110709861 A CN 110709861A
Authority
CN
China
Prior art keywords
entropy
fracture
training data
linear model
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880037651.4A
Other languages
English (en)
Inventor
石宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Publication of CN110709861A publication Critical patent/CN110709861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于训练模型的***和由计算机实现的方法。所述由计算机实现的方法可以包括通过通信接口获取训练数据,例如天气、时间、交通状况等。所述由计算机实现的方法还可以包括由处理器在训练数据中的至少两个断裂线位置处放置至少两个断裂线。所述由计算机实现的方法还可以包括由所述处理器确定每个断裂线位置的熵变,并且由所述处理器选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联。所述由计算机实现的方法可以进一步包括由所述处理器根据至少一个所选断裂线位置将训练数据分成至少两个片段,并且由所述处理器基于所述片段生成非线性模型。

Description

用于训练非线性模型的方法和***
技术领域
本文涉及训练一种非线性模型,具体的是训练一种基于训练数据信息熵变的非线性模型。
背景技术
在机器学习中,基于训练数据(例如,包括样本数据和监督信号)来训练模型是至关重要的。训练的模型可以反映样本数据和监督信号之间的对应关系。训练的模型随后可以应用于新的输入数据,以根据训练的对应关系提供估计的结果。通常,实际的对应关系是非线性的。例如,通过互联网提供服务依赖于对用户需求、服务能力、交通状况、可能性等的估计,并且所有这些结果与多种因素非线性相关,例如天气、白天时间、位置服务等。因此,估计需要使用非线性模型。
图1A是与训练数据相关联的示例性非线性对应关系。然而,反映对应关系的训练的模型可以是线性的。图1B是对应于训练数据的示例性训练的模型。例如,如图1A所示,实际的对应关系可以用y=f(x)表示,其中f(x)是非线性函数。如果线性模型用于训练,则训练的模型将反映t=kx的线性关系(例如,如图1B所示)。图1C是示例性非线性对应关系(实线)和示例性训练的线性模型(虚线)的比较。尽管线性模型追踪非线性模型的一般形状,但它过度概括了实际的模型,并且在许多部分中,丢失了对未来应用至关重要的细节。因此,线性模型经常无法在将来的应用中产生正确的结果。
本申请的实施例通过基于训练数据的信息熵变训练非线性模型来解决上述问题,以准确地反映训练数据中的实际非线性对应关系。
发明内容
本申请的实施例提供了一种由计算机实现的用于训练非线性模型的机器学习方法。该方法可以包括通过通信接口获取训练数据。该方法还可以包括由处理器在所述训练数据中的至少两个断裂线位置处放置至少两个断裂线。该方法还可以包括由所述处理器确定每个断裂线位置的熵变。该方法可以进一步包括由所述处理器选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联,并且处理器根据选择的至少一个断裂线位置将训练数据分成所述的至少两个片段。该方法还可以包括由所述处理器基于所述片段生成非线性模型。
本发明实施例还提供了一种用于训练非线性模型的机器学习***。该***可以包括通信接口被配置为接收训练数据,以及内存被配置用于存储训练数据和非线性模型。该***还可以包括至少一个处理器,该处理器被配置用于在所述训练数据中的至少两个断裂线位置处放置至少两个断裂线。所述至少一个处理器可以进一步被配置用于确定每个断裂线位置的熵变。所述至少一个处理器也可以被配置用于选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联,并且根据所选至少一个断裂线位置将训练数据分成至少两个片段。所述至少一个处理器还可以进一步被配置以基于所述片段生成非线性模型。
本申请的实施例还提供了一种存储一组指令的非暂时性计算机可读介质。当指令由电子设备的至少一个处理器执行时,指令使电子设备执行用于训练非线性模型的方法。该方法可以包括获取训练数据,以及在所述训练数据中的至少两个断裂线位置放置至少两个断裂线。该方法还可以包括确定每个断裂线位置的熵变。该方法还可以包括选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联。该方法还可以包括根据至少一个所选断裂线位置将训练数据分成至少两个片段,并基于所述片段生成非线性模型。
应当理解,前面的一般性描述和下面的详细描述都只是示例性和说明性的,并不是对要求保护的本发明的限制。
附图说明
图1A是与训练数据相关联的示例性非线性对应关系。
图1B是对应于训练数据的示例性训练的线性模型。
图1C是与训练数据相关联的示例性非线性对应关系和示例性训练的线性模型的比较。
图2是根据本申请的实施例的用于训练模型的示例性过程。
图3是根据本申请的实施例的示例性训练***的示意图。
图4是根据本申请的实施例的示例性分段训练数据的示意图。
图5是根据本申请的实施例的用于训练非线性模型的示例性方法的流程图。
具体实施方式
现在将详细参考示例性实施例,其示例在附图中示出。只要有可能,在整个附图中将使用相同的附图标记来表示相同或相似的部分。
本申请的一个方面涉及一种用于训练非线性模型的***。
图2示出了根据本申请的实施例的用于训练模型的示例性过程。如图2所示,训练***200获得用于训练模型204的训练数据202。训练数据202可包括与模型204相关联的历史数据。在一些实施例中,当模型用于估计运输服务被多于一个乘客共享的概率(例如,拼车的概率)时,训练数据可包括历史运输服务的请求信息和关于历史运输服务是否被共享的结果信息。因此,历史运输服务的请求信息可以是训练的样本数据(被称为“训练数据”),并且关于历史运输服务是否被共享的结果信息可以是训练的监督信号。例如,当历史交通服务被多于一名乘客共享时,监督信号可以被指定为“1”。否则,当历史运输服务未能共享时,监督信号可以被指定为“0”。样本数据(例如,历史交通服务的请求信息)可以包括起点、目的地、出发时间、乘客数量等中的至少一个。因此,在该示例中,样本数据是多维数据,并且监督信号是一维数据。可以设想,训练数据可以包括一维数据或多维数据,并且不限于上述示例。同样,训练的模型可以是一维的或多维的。被正确训练的训练模型可以反映出行程参数(包括起点、目的地、出发时、乘客人数等)和共享成功之间的对应关系,并且可以被配置为产生运输服务被多于一名乘客共享的概率,并进一步产生运输服务的价格。可以设想,根据本申请中公开的***和方法,用于各种其他应用的非线性模型可以被训练和使用。
图3示出了根据本申请的实施例的示例性训练***200的示意图。可以设想,训练***200可以是单独的***(例如,服务器)或服务器的集成元件。因为训练模型可能需要大量的计算资源,所以在一些实施例中,训练***200可能更倾向于作为单独的***来实现。在一些实施例中,训练***200可以包括子***,其中一些子***可以是远程的。
训练***200可以是通用服务器或专为训练模型设计的专用设备。在一些实施例中,如图3所示,训练***200可包括通信接口302、处理器304和内存316。处理器304还可以包括多个功能模块,例如断裂线放置单元306、断裂线位置选择单元308、分段单元310、模型生成单元312等。断裂线位置选择单元308还可以包括熵变确定单元314。这些模块(以及任何相应的子模块或子单元)可以是处理器304的硬件单元(例如,集成电路的部分),其被设计用于与其他组件一起使用或执行程序的一部分。程序可以存储在计算机可读介质上,并且当由处理器304执行时,它可以执行一个或多个以上的功能。尽管图3示出了在一个处理器304内的所有单元306-314,但是可以设想这些单元可以分布在彼此靠近或远离的多个处理器之间。在一些实施例中,训练***200可以在云中实现,或者在单独的计算机/服务器上实现。
通信接口302可以被配置为接收训练数据。在一些实施例中,训练数据可包括样本输入数据和相应的监督信号。样本输入数据可以是历史数据和监督信号可以是输出值(例如,“0”或“1”),用于指示与样本数据相关联的结果。例如,训练数据可用于训练模型以确定车辆被多于一名乘客共享的概率,并进一步确定运输服务的价格。
通信接口302可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器,以提供数据通信连接。又例如,通信接口302可以是局域网(LAN)卡,以提供与兼容性LAN的数据通信连接。无线链接也可以通过通信接口302实现。在任何这样的实现中,通信接口302可以经由网络发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。网络通常可以包括蜂窝通信网络、无线局域网(WLAN)、广域网(WAN)等。
内存316可以实现为任何类型的易失性或非易失性存储器设备或其组合,诸如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存或磁盘或光盘。内存316可以存储可由处理器304执行的指令,以使***200执行训练模型的功能。
断裂线放置单元306可以在训练数据中的至少两个断裂线位置处放置至少两个断裂线。对应的断裂线位置处的每个断裂线可以指示训练数据的特定数据结构。在一些实施例中,对于训练数据“1222211111”,它可以具有任意两个数字之间的断裂线。例如,第一断裂线可以放在“1”和“222211111”之间,因此数据被划分为“1|222211111”。类似地,第二断裂线可以将数据划分为“12|22211111”。可以设想,可以通过放置在不同断裂线位置的多于一个断裂线将数据划分为多个假设片段。例如,上述训练数据可以通过三个断裂线分成四段,即“12|222|111|11”。尽管使用一维数据作为示例,但是可以设想训练数据可以是高维的并且包括若干节点(节点是一维中的数字)。
断裂线位置选择单元308可以选择至少一个断裂线位置。在一些实施例中,如图3所示,断裂线位置选择单元308还可以包括熵变确定单元314,其被配置用于确定每个断裂线位置的熵变。熵是衡量数据状态不可预测性的指标。对于数据U(u1、u2、u3、…、un),可以根据下面的公式确定熵值E。
Figure BDA0002305712180000051
其中pi表示数据U中ui的概率,i=1、2、3、…、n。
基于概率,熵值E可以测量数据U的不可预测性。除了作为不可预测性的度量之外,E(U)还可以指示信息内容的量。具有较高熵值的数据表明数据包含大量信息内容,因此难以预测。具有较小熵值的数据表示数据包含少量信息内容,因此易于预测。可以设想,当数据有序排列(例如,线性)时,数据的熵将相对较小。也就是说,数据越线性,熵就越小。
为了确定熵变,熵变确定单元314可以基于训练数据确定原始熵,基于由断裂线划分的假设片段的熵来确定断裂熵,并且基于原始熵和断裂熵确定与断裂线位置相关联的熵变。
根据上述公式1,可以基于训练数据(例如,“1222111111”)整体地确定原始熵Eo。例如,对于“1222111111”,Eo=4.3417。然后,熵变确定单元314可以使用一个或以上断裂线将原始数据划分为多于一个假设片段,并确定每个假设片段的子熵。例如,考虑具有一个断裂线的训练数据(例如,“1222|111111”),熵变确定单元314可以确定第一假设片段“1222”的第一子熵(例如,0.9769),和第二假设片段“111111”的第二子熵(例如,0)。熵变确定单元314可以基于第一和第二子熵确定训练数据的断裂熵。在一些实施例中,可以基于第一和第二熵的加权和来确定断裂熵。例如,训练数据的断裂熵可以根据下面的公式确定。
其中S表示整个原始训练数据,Sv表示假设片段,|Sv|/|S|表示相应片段的熵E的权值。
例如,原始训练数据(例如,“1222111111”)包括10个数字。数据可以被两个断裂线划分(例如,如“12|221|11111”)。第一假设片段“12”包括两个数字,第二假设片段“221”包括三个数字,第三假设片段“11111”包括五个数字。相应地,第一子熵的权值可以是2/10,第二子熵的权值可以是3/10,第三子熵的权值可以是5/10。第一假设片段具有0.1505的第一子熵,第二假设片段具有0.3938的第二子熵,并且第三假设片段具有0的第三子熵。在一些实施例中,与第一断裂线相关联的断裂熵作为加权和,可以被确定为0.1505×0.2+0.3938×0.3=0.14824,并且与第二断裂线相关联的断裂熵可以被确定为0.3938×0.3+0×0.6=0.118144。
基于原始熵和断裂熵,熵变确定单元314可以确定对应断裂线位置的熵变为:
第一熵变:4.3417-0.14824=4.19346
第二熵变:4.3417-0.11814=4.22356
在上述用于确定断裂熵的方法中,第一假设片段(例如,“12”)在第一断裂线位置和训练数据的第一位数字之间,并且第一位数字可以被认为是第一断裂线位置的相邻断裂线位置。可以设想,训练数据的第一位和最后一位都可以被认为是断裂线位置。第二假设片段(例如,“221”)位于第一断裂线位置和第二断裂线位置之间,第二断裂线位置是第一断裂线位置的相邻断裂线位置。
可以设想,用于确定断裂熵的方法可以与上述示例性方法不同。例如,在上述示例性方法中,它基于两个相邻断裂线之间的假设片段的子熵来确定断裂熵。还可以基于假设片段和训练数据的其余部分来确定断裂熵。子熵的权重也应相应调整。
原始熵和断裂熵的熵变也可以被称为信息增强,其表示训练数据的线性度的变化。可以设想,训练***200可以确定每个断裂线位置的熵变。基于熵变,训练***200可以选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联。预定阈值可以是经验值,或者可以根据要训练的模型来调整。例如,预定阈值可以与模型的深度相关联。在机器学习中,可以使用包括若干层的神经网络,并且,层的数量(即,深度)可以与预定的阈值相关联。如上所述,更大的熵表示更小的线性。因此,当与断裂线相关联的熵变大于预定阈值时,表示训练数据的线性度已经提高。例如,当预定阈值设置为4.2时,将选择第二断裂线,因为其相关的熵变大于阈值。参考上述例子,通过将具有较小线性度的训练数据分成两个具有更好线性度的片段,可以提高训练数据的线性度。换句话说,训练数据的每个片段可以比原始训练数据更线性。因此,线性模型更可能适合根据所选择的至少一个断裂线位置生成的片段。
分段单元310可以根据所选择的断裂线位置将训练数据分成至少两个片段,并且这些片段用作用于建模的训练数据。
模型生成单元312可以基于片段生成非线性模型。在一些实施例中,模型生成单元312可以生成至少两个片段的线性子模型,并通过集合子模型来生成非线性模型。如上所述,机器学习可用于训练子模型。线性子模型可以很好地拟合至少两个片段,因为这些片段各自具有更好的线性。模型生成单元312可以按训练数据中的各个片段的顺序连接子模型,以便生成非线性模型。
图4示出了根据本申请的实施例的示例性分段训练数据的示意图。例如,在至少两个断裂线位置(例如,多于4个断裂线位置)中,断裂线位置#1,#2,#3和#4的熵变大于预定阈值。在根据本申请的实施例分段的示例性训练数据中,片段(O-x1),(x1-x2),(x2-x3),(x3-x4),和(x4-E)是线性的,因此可以分别适合线性模型。然后可以将这些线性模型聚合成非线性模型,以更准确地拟合原始的,未分段的训练数据。
本申请的另一方面涉及一种用于训练非线性模型的方法。
图5示出了根据本申请的实施例的用于训练非线性模型的示例性方法500的流程图。例如,方法500可以由训练***200执行,并且可以包括如下所述的步骤S502-S510。
在步骤S502,训练***200可以获取训练数据。训练数据可以是历史数据并且包括样本输入数据和相应的监督信号,并且监督信号可以是用于指示与样本数据相关联的结果的输出值(例如,“0”或“1”)。例如,训练数据可用于训练模型以确定车辆被多于一名乘客共享的概率,并进一步确定运输服务的价格。
在步骤S504,训练***200可以在训练数据中的至少两个断裂线位置放置至少两个断裂线。在相应的断裂线位置处的每个断裂线可以指示训练数据的特定数据结构。在一些实施例中,对于训练数据“1222211111”,它可以具有任意两个数字之间的断裂线。例如,第一断裂线可以放在“1”和“222211111”之间,因此数据被划分为“1|222211111”。可以设想,可以通过放置在不同断裂线位置的多于一个断裂线将数据分成多个假设片段。
在步骤S506,训练***200可以选择至少一个断裂线位置。在一些实施例中,训练***200可以进一步确定每个断裂线位置的熵变。熵是衡量数据状态不可预测性的指标。如上所述,当数据有序排列(例如,线性)时,数据的熵将相对较小。也就是说,数据越线性,熵就越小。
为了确定熵变,训练***200可以基于训练数据确定原始熵,基于由断裂线位置划分的假想片段的熵来确定断裂熵,并且基于原始熵和断裂熵确定与断裂线位置相关联的熵变。
作为整体,可以基于训练数据确定原始熵。然后,训练***200可以使用一个或以上断裂线将原始训练数据划分为多于一个假设片段,并确定每个假设区段的子熵。例如,断裂线可以生成训练数据的第一子集和第二子集,因此可以确定对应于第一子集和第二子集的第一子熵和第二子熵。训练***200可以基于例如第一和第二子熵来确定与断裂线位置相关联的断裂熵。在一些实施例中,可以基于第一和第二熵的加权和来确定断裂熵。例如,可以根据上面讨论的公式2确定断裂熵。关于公式2的详细描述可参考以上描述,为清楚起见,将不再重复。
基于原始熵和断裂熵,训练***200可以通过确定原始熵和断裂熵之间的差异来确定对应的断裂线位置的熵变。
在上述确定断开熵的方法中,第一假设片段可以位于第一断裂线位置与训练数据的第一节点(例如,数据为一维时的第一位数字)之间,第一节点可以被认为是第一断裂线位置的邻近断裂线位置。可以想到,训练数据的第一节点和最后一个节点都可以被认为是断裂线位置。第二假设片段(例如,“221”)位于第一断裂线位置和第二断裂线位置之间,第二断裂线位置是第一断裂线位置的相邻断裂线位置。
可以设想,用于确定断裂熵的方法可以与上述示例性方法不同。例如,在上述示例性方法中,基于两个相邻断裂线之间的假设片段的子熵来确定断裂熵。还可以基于假设片段和训练数据的其余部分来确定断裂熵。例如,可以基于“12”和“2211111”的熵确定第一断裂熵,并且可以基于“221”和“11111”的熵确定第二断裂熵。断裂熵的权重也应相应改变。因此,断裂熵的确定可以不受上述示例的限制。
熵变也可以被称为信息增强,其表示训练数据的线性度的变化。可以想到,训练***200可以确定每个断裂线位置的熵变。基于熵变,训练***200可以选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联。预定阈值可以是经验值,或者可以根据要训练的模型来调整。如上所述,更大的熵表示更小的线性。因此,当与断裂线相关联的熵变大于预定阈值时,表明训练数据的线性度已大大提高。通过将具有较小线性的训练数据分成两个具有较高线性度的假设片段,可以提高整个训练数据的线性度。换句话说,训练数据的每个片段可以比原始训练数据更线性。因此,更有可能生成精确拟合根据所选择的至少一个断裂线位置生成的片段的线性模型。
在步骤S508,训练***200可以根据所选择的断裂线位置将训练数据分成至少两个片段,并且这些片段可以用作训练数据用于建模。
在步骤S510,基于所述片段,训练***200可以生成非线性模型。在一些实施例中,训练***200可以为至少两个片段生成线性子模型,并且还通过集合子模型来生成非线性模型。如上所述,机器学习可用于训练子模型。线性子模型可以很好地拟合至少两个片段,因为这些片段各自具有更好的线性。训练***200可以按训练数据中的各个片段的顺序连接子模型,以便生成非线性模型。
本申请的另一方面涉及一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使得一个或以上处理器执行如上所述的方法。所述计算机可读介质包括易失性或非易失性、磁性、半导体、磁带、光学、可移动、不可移动或其他类型的计算机可读介质或计算机可读存储设备。例如,如本申请的计算机可读介质可以是存储设备或其上存储有计算机指令的存储模块。在一些实施例中,计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。
对于本领域普通技术人员显而易见的是,可以对所公开的定位***和相关方法进行各种修改和变化。考虑到本申请的***和相关方法的说明书和实践,其他实施例对于本领域普通技术人员是显而易见的。尽管使用一维数据作为示例描述了上述实施例,但是所描述的训练数据可以包括具有多于一个维度的任何可能的数据。本申请中的说明书和示例的目的仅被认为是示例性的,真正的范围由以下权利要求及其等同物限定。

Claims (20)

1.一种由计算机实现的用于训练非线性模型的机器学习方法,包括:
通过通信接口获取训练数据;
通过处理器在所述训练数据中的至少两个断裂线位置放置至少两个断裂线;
通过所述处理器确定每个断裂线位置的熵变;
通过所述处理器选择至少一个断裂线位置,每个位置与大于预定阈值的熵变相关联;
根据所述至少一个所选断裂线位置,通过所述处理器,将所述训练数据分成至少两个片段;以及
基于所述片段,由所述处理器生成所述非线性模型。
2.根据权利要求1所述的方法,其中所述预定阈值根据所述非线性模型的深度确定。
3.根据权利要求1所述的方法,其中确定每个断裂线位置的熵变还包括:
基于所述未分段的训练数据确定原始熵;
根据与所述断裂线位置相关的所述训练数据的假设片段确定断裂熵;以及
根据所述原始熵和所述断裂熵确定所述断裂线位置的所述熵变。
4.根据权利要求1所述的方法,其中生成所述非线性模型还包括:
为所述至少两个分段生成子模型,以及
通过集合所述子模型生成所述非线性模型。
5.根据权利要求3所述的方法,其中所述假设片段包括第一假设片段和第二假设片段,其中确定断裂熵还包括:
确定所述训练数据的所述第一假设片段的第一熵;
确定所述训练数据的所述第二假设片段的第二熵;以及
根据所述第一熵和所述第二熵确定与所述断裂线位置相关的所述断裂熵。
6.根据权利要求5所述的方法,其中所述断裂熵基于所述第一熵和所述第二熵的加权和确定。
7.根据权利要求5所述的方法,其中所述第一假设片段位于所述断裂线位置和所述断裂线位置的第一邻近断裂线位置之间,并且所述第二假设片段位于所述断裂线位置与所述断裂线位置的第二邻近断裂线位置之间。
8.根据权利要求4所述的方法,其中每个所述子模型都是线性模型。
9.根据权利要求4所述的方法,其中集合所述子模型包括以所述训练数据中的所述各个片段的顺序连接所述子模型。
10.根据权利要求1所述的方法,其中所述非线性模型被配置用于生成运输服务的价格。
11.一种用于训练非线性模型的机器学习***,包括:
通信接口,被配置为接收训练数据;
存储器,被配置为存储所述训练数据和所述非线性模型;以及
至少一个处理器,被配置为
在所述训练数据的至少两个断裂线位置放置至少两个断裂线;
确定每个断裂线位置的熵变;
选择至少一个断裂线位置,每个位置与大于预定阈值的熵变相关联;
根据所述至少一个所选断裂线位置,将所述训练数据分成至少两个片段;以及
基于所述片段生成所述非线性模型。
12.根据权利要求11所述的***,其中所述预定阈值根据所述非线性模型的深度确定。
13.根据权利要求11所述的***,其中所述处理器还被配置为:
根据所述未分段训练数据确定原始熵;
根据与所述断裂线位置相关的所述训练数据的假设片段确定断裂熵;以及
根据所述原始熵和所述断裂熵确定所述断裂线位置的所述熵变。
14.根据权利要求11所述的***,其中所述处理器还被配置为:
生成所述至少两个片段的子模型;以及
通过集合所述子模型生成所述非线性模型。
15.根据权利要求13所述的***,其中所述段包括第一假设片段和第二假设片段,其中所述处理器还被配置为:
确定所述训练数据的所述第一假设片段的第一熵;
确定所述训练数据的所述第二假设片段的第二熵;以及
根据所述第一熵和所述第二熵,确定与所述断裂线位置相关的所述断裂熵。
16.根据权利要求15所述的***,其中所述断裂熵是基于所述第一熵和所述第二熵的加权和确定的。
17.根据权利要求14所述的***,其中所述第一假设片段位于所述断裂线位置和所述断裂线位置的第一邻近断裂线位置之间,并且所述第二假设片段位于所述断裂线位置与所述断裂线位置的第二邻近断裂线位置之间。
18.根据权利要求14所述的***,其中每个所述子模型中都是线性模型。
19.根据权利要求11所述的***,其中所述非线性模型被配置用于生成运输服务的价格。
20.一种非暂时性计算机可读介质,其存储一组指令,当由电子设备的至少一个处理器执行时,使得所述电子设备执行训练非线性模型的方法,所述方法包括:
获得训练数据;
在所述训练数据的至少两个断裂线位置放置至少两个断裂线;
确定每个断裂线位置的熵变;
选择至少一个断裂线位置,每个断裂线位置与大于预定阈值的熵变相关联;
根据所述至少一个所选断裂线位置将所述训练数据分成至少两个片段;以及
基于所述片段生成所述非线性模型。
CN201880037651.4A 2018-03-13 2018-03-13 用于训练非线性模型的方法和*** Pending CN110709861A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/078866 WO2019173972A1 (en) 2018-03-13 2018-03-13 Method and system for training non-linear model

Publications (1)

Publication Number Publication Date
CN110709861A true CN110709861A (zh) 2020-01-17

Family

ID=67908557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880037651.4A Pending CN110709861A (zh) 2018-03-13 2018-03-13 用于训练非线性模型的方法和***

Country Status (3)

Country Link
JP (1) JP2020530607A (zh)
CN (1) CN110709861A (zh)
WO (1) WO2019173972A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
US20100256977A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Maximum entropy model with continuous features
CN102298569A (zh) * 2010-06-24 2011-12-28 微软公司 在线学习算法的并行化
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
CN106934514A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种回归模型的生成方法以及装置
CN107563410A (zh) * 2017-08-04 2018-01-09 中国科学院自动化研究所 基于局部类别一致聚类和多任务学习的分类方法及设备
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103616687B (zh) * 2013-12-05 2015-10-28 西安电子科技大学 分段线性估计的多项式拟合isar包络对齐方法
EP3214584A4 (en) * 2014-10-28 2018-07-25 Nec Corporation Region linear model optimization system, method, and program
JP2018026020A (ja) * 2016-08-10 2018-02-15 日本電信電話株式会社 予測器学習方法、装置、及びプログラム
CN107357761A (zh) * 2017-06-28 2017-11-17 西安交通大学 一种量化的最小误差熵计算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
US20100256977A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Maximum entropy model with continuous features
CN102298569A (zh) * 2010-06-24 2011-12-28 微软公司 在线学习算法的并行化
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
CN106934514A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种回归模型的生成方法以及装置
CN107563410A (zh) * 2017-08-04 2018-01-09 中国科学院自动化研究所 基于局部类别一致聚类和多任务学习的分类方法及设备
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阮祥超;万定生;: "一种基于信息熵的数据预处理技术", 微电子学与计算机, no. 02, 5 February 2018 (2018-02-05) *

Also Published As

Publication number Publication date
JP2020530607A (ja) 2020-10-22
WO2019173972A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
CN109872535B (zh) 一种智慧交通通行预测方法、装置及服务器
CN111046027B (zh) 时间序列数据的缺失值填充方法和装置
US20150254554A1 (en) Information processing device and learning method
CN112085739A (zh) 基于弱监督的语义分割模型的训练方法、装置及设备
CN112288572A (zh) 业务数据处理方法及计算机设备
CN110704668B (zh) 基于网格的协同注意力vqa方法和装置
CN110442764B (zh) 基于数据爬取的合约生成方法、装置和计算机设备
CN116071077A (zh) 一种违规账户的风险评估与识别方法及装置
CN113643311B (zh) 一种对边界误差鲁棒的图像分割方法和装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN113825165B (zh) 基于时间图网络的5g切片网络拥塞预警方法及装置
CN110709861A (zh) 用于训练非线性模型的方法和***
CN116883815A (zh) 遥感类增量语义分割模型的训练方法、装置、设备及介质
CN115049836A (zh) 图像分割方法、装置、设备及存储介质
CN115880533A (zh) 基于自适应子集搜索和深度学习的桥梁表观裂缝识别方法
CN114693352A (zh) 一种客户访问量预测方法及装置
CN117668378A (zh) 路线推荐方法和装置
CN111507902B (zh) 一种高分辨率图像获取方法及装置
CN111767934B (zh) 一种图像识别方法、装置及电子设备
CN117271819B (zh) 图像数据的处理方法和装置、存储介质及电子装置
CN117744547B (zh) 电路器件资源的预估方法、装置、电子设备及存储介质
CN117132177B (zh) 基于多重假设检验的径流预报模型构建和径流预报方法
CN118313445A (zh) 一种基于受约束梯度更新的联邦类增量学习方法及***
CN117422265A (zh) 一种供需预测方法、装置、电子设备及存储介质
CN114743167A (zh) 网点选址预测方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination