CN107004159B - 主动机器学习 - Google Patents

主动机器学习 Download PDF

Info

Publication number
CN107004159B
CN107004159B CN201580066625.0A CN201580066625A CN107004159B CN 107004159 B CN107004159 B CN 107004159B CN 201580066625 A CN201580066625 A CN 201580066625A CN 107004159 B CN107004159 B CN 107004159B
Authority
CN
China
Prior art keywords
machine learning
document classifier
classifier
document
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580066625.0A
Other languages
English (en)
Other versions
CN107004159A (zh
Inventor
D·M·奇克林
C·A·米克
P·Y·西马德
R·K·伊耶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107004159A publication Critical patent/CN107004159A/zh
Application granted granted Critical
Publication of CN107004159B publication Critical patent/CN107004159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文描述了用于主动机器学习的技术。一种主动机器学习方法可以包括:通过主动机器学习***发起主动机器学习,主动机器学习***被配置为对辅助机器学习模型进行训练,以产生至少一个新的被标记的观察;基于主动机器学习改善目标机器学习模型的容量;以及在改善目标机器学习模型的容量之后,利用至少一个新的被标记的观察重新训练辅助机器学习模型。另外,根据本文提供的描述,目标机器学习模型是有限容量的机器学习模型。

Description

主动机器学习
背景技术
机器学习一般包括可以根据数据进行学习的机器学习算法的构造或生成。这些算法用于基于特征来构建用于生成针对特定目的的分类器的模型。主动机器学习是一种“老师”(例如用户)提供训练样本来训练模型的函数的方法。
历史上,训练样本是被标记的还是未被标记的基于特定的目的。例如,在现有***中,用于实现对关于棒球的主题的文档进行分类的分类器的训练样本通常包括被标记为与棒球有关的文档样本以及被标记为与棒球无关的文档样本。
其它现有训练样本是未被标记的。例如,未被标记的样本可能与棒球有关或者可能与棒球无关。因此,第三方(例如老师)必须对现有的未被标记的训练样本进行标记,使得模型具有有价值的输入,通过该输入来学习相关联的函数。
具体地,主动学习需要相对高质量的被标记训练样本,使得模型能够充分学习期望的函数,以用于将来对任意数量的未被标记的输入文档进行分类。然而,在实际上无限数量的未被标记文档中发现可用于机器学习算法的高质量的被标记训练样本通常是很耗费成本的。例如,许多用户被雇佣来解释未被标记的文档,以确定用于机器学习目的的可行性。然而,如果需要对被现有机器学习算法训练的特定模型进行限制,则每个可能候选用于被标记的训练样本的可行性必须被甚至更仔细地考虑,并且成本可能超过期望的目标。
发明内容
本文讨论的技术通过利用辅助机器学习模型递增地特征化目标机器学习模型来便于主动机器学习。辅助机器学习模型可以是与目标机器学习模型相比具有相对较大范围的机器学习模型。
上述技术方案还可以被实现为计算机控制装置、计算机过程、计算***、或例如计算机存储介质的制品。提供该“发明内容”是为了以简化形式介绍将在下文在“具体实施方式”中进一步描述的技术的精华。该发明内容并不旨在标识所要求保护技术方案的关键特征或必要特征,该发明内容也不旨在用于限制所要求保护技术方案的范围。术语“技术”例如可以指代***、方法、计算机可读介质、计算机可执行指令、模块、算法、硬件逻辑(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)),和/或上述上下文和贯穿本文档允许的技术。此外,所要求保护的技术方案不限于解决在本公开的任何部分中提到的任意或所有缺点的例子。
附图说明
参考附图描述具体实施方式。在图中,附图标记的最左侧数字标识该附图标记第一次出现的附图。在不同图中的相同附图标记表示类似或相同的项目。
图1是示出了示例性操作环境和本文描述的技术提供的若干部件的各方面的图。
图2是示出了本文所描述的用于主动机器学习的一个示例性方法的各方面的流程图。
图3是示出了本文描述的包括选择具有多样性的未被标记观察的用于主动机器学习的一个示例性方法的各方面的流程图。
图4是示出了本文描述的包括考虑来自辅助机器学习模型和目标机器学习模型两者的输出的用于主动机器学习的一个示例性方法的各方面的流程图。
图5示出的图描绘了本文中所描述的示例性辅助机器学习模型的输出分数和用于实现未被标记观察的选择的多样性的相关联的子集标记集合。
图6是示出了示例性计算机硬件和软件架构的计算机架构图。
具体实施方式
概述
后续具体实施方式针对的是可以由软件产品或一组软件产品提供的用于主动机器学习的技术。本文呈现的技术便于相对准确地识别高质量的训练样本以用于主动机器学习算法或者相关联的模型。此外,所述技术可以提高对有限容量的模型进行训练的效率。此外,所述技术可以便于针对有限容量的模型进行递增的特征化,以实现来自通过有限容量模型创建的分类器的准确和期望的输出。
如本文使用的,短语“有限容量的模型”及其变型指的是在容量方面有限或受限的机器学习模型。一个示例性有限容量的模型是具有有限数量的特征的机器学习模型。然而,所述特征可以包括正特征和负特征。另一示例性有限容量的模型是寻找的n元语法(例如,在文档中寻找的词语或词语元组)的总数量有限或受限的机器学习模型。有限容量的模型允许部署尺寸也有限的分类器,以在存储器效率方面实现增益。另外,传输有限容量的模型和/或尺寸也有限的分类器可以减少移动网络中的网络业务,例如在将分类器和/或模型传输到移动设备用于部署时。
如本文使用的,短语“色盲”及其变型指的是目标机器学习模型缺乏区别单独的或不同的观察的能力,虽然这些不同的观察在定义方式上不同。例如,在目标机器学习模型中训练的分类器可能对描述鸟笼的网页和描述击球笼的网页之间的差别是“色盲的”。然而,相同的分类器可能对棒球棒的广告和与有翼球棒的博物馆展示有关的广告之间的区别并不是“色盲的”。
如本文使用的,短语“多样性”及其变型指的是观察集合在该集合中的个体观察之间存在许多差别。例如,多样化的观察集合包括跨包含于其中的观察的许多或所有观察的多样性。
如上面简单提到的,特征是本文描述的机器学习模型的部件。术语“特征”及其变型指的是包含于机器学习模型中的数据。特征的例子包括词、短语、n元语法以及词典编纂的数据。另外,如本文使用的,短语“递增特征化”及其变型具体是指以递增的方式从目标机器学习模型添加或移除特征。相反,传统的机器学习技术通常以非递增方式添加多个特征或者操纵机器学习模型。
一般而言,本文描述的用于主动机器学习的技术包括基于第二辅助机器学习模型的主动机器学习,通过递增特征化和/或通过改善目标机器学习模型的容量,来训练目标机器学习模型。辅助机器学习模型可以具有无限容量,或者与目标机器学习模型相比可以具有相对较大的容量。主动机器学习***可以利用辅助机器学习模型的主动机器学习,来识别目标机器学习模型的色盲的范围。之后,在识别了色盲的范围之后,可以产生新的高质量的被标记训练样本,并将新的高质量的被标记训练样本用于确定要从目标机器学习模型添加或移除的特征。目标机器学习模型的色盲、其范围和其它属性将在下文参考附图更全面地描述。
在辅助机器学习模型的主动机器学习中实现多样性能够至少部分地提高本文描述的技术的效率。例如,主动机器学习***可以选择新的未被标记观察,其跨所有选择的未被标记观察是多样性的。以这种方式,主动机器学习***可以组装较高质量的训练集合。可以以多种不同方式实现多样性,这将在下文参考图5更全面地描述。
如上文额外简单讨论的,软件产品或一组软件产品可以提供一些或所有本文描述的涉及主动机器学习的功能。例如,可以通过服务提供商网络(例如,利用操作***和/或应用程序)部署网络服务。网络服务可以允许第三方使用本文描述的技术用于基于具有相对较大容量的辅助机器学习模型的主动机器学习来训练有限容量的机器学习模型。可以跨一个或多个主机处理器、计算机、服务器、或其它计算机硬件来部署网络服务,并可以通过一个或多个网络连接提供网络服务。另外,根据至少一个例子,涉及被标记的训练观察的尺寸和属性的知识可以存储或保持在服务提供商网络处。因此,如果期望的话,可以在预先被标记的数据上构建新的分类器,与从头实现新分类器相比减少了构建成本。
虽然本文描述的技术方案是在结合在计算机***上执行操作***和应用程序而执行的程序模块的通用上下文中给出的,但是本领域技术人员将认识到可以组合其它类型的程序模块执行其它例子。一般而言,程序模块包括例程、程序、部件、数据结构、以及执行特定任务或实现特定抽象数据类型的其它类型的结构。此外,本领域技术人员可以理解的是,本文描述的技术方案可以利用各种计算机***配置来实施,包括单处理器或多处理器***、单核或多核处理器、基于微处理器的或可编程的消费电子产品、手持计算设备、迷你计算机、个人计算机、大型计算机、其组合等等。
在后续详细描述中,参考附图,附图形成详细描述的一部分并且通过图示特定例子来示出。
示例性环境
图1示出了包括通过本文描述的技术提供的若干部件的示例性操作环境100的各方面。图1的环境100包括一个或多个未被标记观察池102,其内设置有多个未被标记观察104。未被标记观察104可以替代地跨多个不同的池或者在图1中未特别示出的其它设备/部件分散。
在机器学习中,分类是基于训练数据集合来识别新的观察属于种类(例如,子种群、类别等)集合中的哪个类别的问题,训练数据集合包含成员种类已知或已被标记的观察。一般而言,未被标记的观察104是成员的特定种类或类别未知的观察。基于任意期望属性,类别可以包括任意数量的类别。例如,类别可以包括“SPAM消息”、“网页”、“棒球文档”、或任意其它类别。因此,本文提供的描述不应限制为特定类别或特定类型的类别,而是应该理解为涵盖任意适当类别或观察分类。
环境100包括一个或多个被标记观察池106,其内设置有多个被标记观察108。被标记观察108可以替代地以关于未被标记观察104描述的类似方式跨许多不同的池106或未在图1特别示出的其它设备/部件分散。
一般而言,被标记观察是成员的特定种类或类别已知的观察。被标记观察可以包括与其相关联的尤其调出相关联的类别的元数据、其是否属于该类别的二进制表示(例如,“是/否”标签)和/或其它形式的被标记观察和相关联标记的存储。
环境100包括主动机器学习***110,其与未被标记观察池102和被标记观察池106操作地通信。可以在网络或其它通信介质上发生这种主动通信,所述其它通信介质能够便于在主动机器学习***110和未被标记观察池102和/或被标记观察池106之间通信和转移信息。
在一些例子中,主动机器学习***110可以被实现为一个或多个部件,例如在一个或多个计算中在一个或多个处理器上执行的软件模块。在各种例子中,主动机器学习***110可以被实现为离散的部件,其具有与其相关联的硬件和软件用于实现本文描述的一些或所有功能。另外,其它例子包括主动机器学习***110在上述服务提供商网络上的虚拟化、被配置为引导处理器实现主动机器学习***110的计算机可执行指令的分布以及其它适当的实现方式。
主动机器学习***110可以包括辅助机器学习模型112和目标机器学习模型114。与目标机器学习模型114相比,辅助机器学习模型112可以包括具有相对较大的容量的任意期望的模型。在至少一个例子中,辅助机器学习模型112是词袋机器学习模型,其使用词袋中的每个词语的出现频率作为用于训练分类器的特征。在一些例子中,辅助机器学习模型112是语义机器学习模型或类似于词袋模型的分类器,其能够具有无限或基本无限容量的基本特征。辅助机器学习模型112的其它例子是可能的。目标机器学习模型114是如上定义的有限容量的模型。
如图1所示,被配置为用于训练辅助机器学习模型112以学习期望的函数的主动学习例程选择试样的未被标记观察116。之后,辅助机器学习模型112可以产生供比较部件118、标记部件120和特征化部件122解释的输出。例如,比较部件118可以将由辅助机器学习模型112产生的分数传递给标记部件120和特征化部件122。
当接收到分数时,标记部件120可以基于接收到的分数将试样的未被标记观察116转换为新的被标记观察124。标记部件120然后可以使得新的被标记观察124存储于被标记观察池106中,以用于训练辅助机器学习模型112。
另外,当接收到分数时,特征化部件122可以基于分数来识别要从目标机器学习模型114添加或移除的可能特征126。容量改善部件128可以处理可能的特征126来确定要从目标机器学习模型114递增地添加或移除的特征130。
应该理解的是,容量改善部件128可以采取任意适当形式。根据至少一个例子,容量改善部件128包括用户接口,用于接受从可能的特征126选择特征130的输入。根据其它例子,容量改善部件128可以包括用于从可能的特征126自动选择特征130的方法。
另外,可以以多种不同形式实现比较部件118、标记部件120和特征化部件122。将参考图2-4更全面地描述比较部件118、标记部件120和特征化部件122中的每一个的特定操作。
根据至少一个例子,目标机器学习模型114也能够接收通过辅助机器学习模型112的主动机器学习选择的试样的未被标记观察116。之后,目标机器学习模型114可以产生表示处理试样的未被标记观察116的第二分数,使得比较部件118能够比较来自辅助机器学习模型112的第一分数和来自目标机器学习模型114的第二分数,以确定目标机器学习模型已经产生了假肯定或假阴结果或错误的可能性。因此,标记部件120和特征化部件122可以考虑所述可能性,以产生更好的可能特征126并生成有质量的新的被标记观察124。
示例性过程
之后,参考图2-4提供主动机器学习***110和相关联部件的功能的更详细描述。虽然描述为按顺序发生,但是应该理解的是,可以并行处理下面描述的个体方法的任何操作,并且在一些环境下可以省略一些操作,而不背离本文描述的技术。
图2是示出了根据至少一个例子的用于主动机器学习的一个示例性方法200的各方面的流程图。主动机器学习的方法200可以包括:在框202处,利用辅助机器学习模型112发起主动学习过程。例如,主动机器学习***110可以引导辅助机器学习模型112选择一个或多个试样的未被标记观察116,以用于处理和输出分数。特征化部件122可以处理该分数。
之后,在框204处,特征化部件122可以基于所述分数改善目标机器学习模型的容量。例如,基于来自辅助机器学习模型112的分数,特征化部件122可以确定应该从目标机器学习模型添加或移除一个或多个可能的特征126,例如,最高分数、最低分数、在定义范围内的分数等。一般而言,所述分数表示试样的未被标记观察是否属于或不属于特定类别。因此,如果分数表示未被标记观察属于一个类别,则可以从被标记观察(例如,被标记观察132)中提取一个或多个可能的特征126,用于训练目标机器学习模型以将类似的未被标记观察识别为属于该类别。如果分数表示未被标记观察不属于一个类别,则可以从被标记观察132中提取一个或多个可能的特征126,用于训练目标机器学习模型以将类似的未被标记观察识别为不属于该类别。基于这些可能的特征126,容量改善部件118可以通过递增地添加特征130到目标机器学习模型114/从目标机器学习模型114移除特征130,来改善目标机器学习模型114的容量。
在改善目标机器学习模型114的容量之后,方法200还包括:在框206处,利用被标记观察132重新训练辅助机器学习模型。例如,主动机器学习***110可以提供新被标记的观察124以及来自被标记观察池106的一个或多个被标记观察132,以保持或修改辅助机器学习模型112。因为辅助机器学习模型112的容量不受限,所以重新训练辅助机器学习模型112能够提高目标机器学习模型114的被标记训练集合的质量,而不影响目标机器学习模型114的容量。
如图2所示,方法200可以迭代框202-206,以递增地改善目标机器学习模型114的容量,并基于新被标记的观察124重新训练辅助机器学习模型112。这种递增的改善允许将目标机器学习模型114的有限容量维持在期望的限制或约束内。例如,可能期望的是对包含于目标机器学习模型114内的特征的整体数量维持特定的范围限制,以产生紧凑的分类器。在该情况下,所述方法200可以基于目标机器学习模型114的添加和移除特征的递增本质便于分类器的紧凑性。
辅助机器学习模型112选择多样化的试样的未被标记观察116的集合能够导致较高质量的目标机器学习模型114和/或在训练目标机器学习模型114的效率方面的至少部分增益。例如,多样化的观察集合可以包括跨包含于其中的许多观察或全部观察的多样性。
图3是示出了根据至少一个例子包括选择具有多样性的未被标记观察的用于主动机器学习的一个示例性方法300的各方面的流程图。方法300包括:在框302处,辅助机器学习模型112选择一个或多个试样的未被标记观察116。
辅助机器学习模型112可以选择一个或多个试样的未被标记观察116,使得被标记观察池106是多样化的。例如,可以通过辅助机器学习模型112选择试样的未被标记观察116,使得它们跨所有所选的未被标记观察是多样化的。以这种方式,可以组装被标记观察108的较高质量的训练集合。
辅助机器学习模型112可以以多种方式在选择试样的未被标记观察116时实现多样性。根据一个例子,辅助机器学习模型112可以实现一个或多个函数,称作次模函数,用于选择新的试样的未被标记观察116。根据另一例子,辅助机器学习模型112可以确定例如来自被标记观察132的子集标记集合,其中从子集标记集合中进行选择提供了对至少最小级别的多样性的保证。将参考图5更全面地描述用于多样性的次模函数和用于确定子集标记集合的基于阈值的方法两者。
返回到图3,在框304处,标记部件120可以将一个或多个试样的未被标记观察116转换为新的被标记观察124。在一些例子中,转换可以包括:标记部件120选择一个或多个试样的未被标记观察116。之后,在框306处,容量改善部件128可以改善目标机器学习模型114。在框308处,主动机器学习***110的辅助机器学习模型112可以经历重新训练。在一些例子中,在框306和308中描述的改善和重新训练本质上分别类似于上面参考框204和206描述的改善和重新训练。因此,出于简洁的原因,在此省略类似的细节。
如图3所示,方法300可以迭代框302-308以基于在辅助机器学习模型112的重新训练期间获得的新的被标记观察,来递增地改善目标机器学习模型114的容量。在该例子中,新被标记的观察可以基于多样性的未被标记观察集合。因此,对目标机器学习模型114的递增改善可以基于来自辅助机器学习模型112的更多样化的输出,并且与传统方法相比能够应用更少的改善操作或迭代。
如上面简单描述的,主动机器学习***110还可以操作以允许目标机器学习模型114提供输出以用于比较,并进一步改善其中包含的特征。图4是示出了根据至少一个例子的包括考虑来自辅助机器学习模型和目标机器学习模型的输出的用于主动机器学习的一个示例性方法400的各方面的流程图。
方法400包括:在框402处,辅助机器学习模型112选择试样的未被标记观察116。特定的未被标记观察可以选自未被标记观察104,例如,因为不知道未被标记观察属于多个类别中的哪个类别。
之后,方法400包括:在框404处,利用辅助机器学习模型112向未被标记观察分配第一分数。此外,方法400可以包括:在框406处,利用目标机器学习模型114向未被标记观察分配第二分数。
在框408处,比较部件118比较第一分数和第二分数,以确定目标机器学习模型114返回假肯定或假否定结果的可能性。在一些例子中,在分别通过辅助机器学习模型112和目标机器学习模型114分配第一分数和第二分数时,比较部件118比较第一分数和第二分数。
一般而言,比较可以包括确定在第一分数和第二分组之间的差的幅度。之后,在幅度为负时比较部件118可以确定目标机器学习模型114已经返回假肯定。另外,在幅度为正时比较部件118可以确定目标机器学习模型114已经返回假否定。
应该理解的是,通过识别假肯定和假否定结果,目标机器学习模型114的色盲范围变得清楚。例如,可能比较罕见的是辅助机器学习模型112和目标机器学习模型114“不一致”并表示假肯定和假否定。在这些实例中,假肯定或假否定的原因可以提供关于有限容量的目标机器学习模型114的限制或“色盲”的有价值的信息。该信息可以被保持以由特征化部件122和容量改善部件128使用,以通过目标机器学习模型114的迭代改善实现更好的精度。
在框410处,至少基于所述可能性,标记部件120将未被标记观察116转换为新的被标记观察124。在一些例子中,在比较部件118确定了假肯定或假否定的可能性之后,标记部件120执行转换。因此,新的被标记观察124可以代表帮助至少部分地缩小目标机器学习模型114的色盲的缝隙的样本。
之后,在框412处,根据可能的特征126,特征化部件122可以确定要从目标机器学习模型114添加或移除的特征130。可以基于框408和410的比较裁剪可能的特征126,并因此还可以帮助缩小通过比较两个输出暴露的色盲的缝隙。在框414处,容量改善部件128随后可以基于特征130改善目标机器学习模型114。
目标机器学***的粒度被修改为包括这两个概念。例如,可以在方法200和400中的一个或两个中实现来自方法300的选择多样性。类似地,可以在方法200和300中的一个或两个中实现方法400中的确定辅助机器学习模型112和目标机器学习模型114之间的不一致。按照这些方法,将参考图5描述与在任意上述方法中实现选择多样性相关的示例性个体细节。
图5示出的示例性曲线502的图描绘了根据至少一个例子一个或多个辅助机器学习模型的输出分数和用于实现未被标记观察选择中的多样性的相关联的子集标记集合504。曲线502表示辅助机器学习模型112基于观察池(例如,池102和/或106)的输出。
如图5所示,曲线502的y轴表示观察池中的观察的数量。例如,与选择多样性有关的观察池一般被理解为是未被标记观察,例如,未被标记观察104。然而,在一些例子中,选择包括被标记观察108的多样化的训练集合也是可应用的。曲线502的x轴一般表示从辅助机器学习模型112输出的分数。例如,所述分数可以是在0和1之间标准化的分数。
如在图5的例子中进一步示出的,当观察的数量增加时,分数减少。另外,当观察的数量减少时(或如果仅做出观察的多样化选择),则分数增加。因此,可以针对特定的一个或多个观察池识别未被标记观察的子集标记集合。之后,辅助机器学习模型112可以被配置为仅从子集标记集合选择试样的未被标记观察,以在未被标记样本中增加多样性。
如上面简单提到的,子集标记集合可以基于次模函数或基于阈值的方法的实现。其它例子也是可能的。
关于基于阈值的方法,可以选择阈值506,使得期望的分数是0.5或更大。之后,仅在子集标记集合中进行采样,并且均匀地选择样本。在(例如,通过比较部件118)接收到针对采样的未被标记观察的实际分数的反馈之后,可以自动校准阈值以维持预期的分数0.5或更大。因此,0.5的阈值可以沿着x轴自动校准,使得阈值的不同值是可能的。
关于次模函数的实现,辅助机器学习模型112被配置为选择未被标记观察的集合用于后续标记。一般地,给定基于辅助机器学习模型112训练的当前分类器,过滤未被标记项目的子集(U_f)。应该过滤子集U_f以包括相等数量的正负观察结果。在过滤子集U_f之后,定义两个次模函数。第一次摸函数用于设施定位(facility location),并由如下等式1表示:
等式1:f(X)=\sum_{i\in U_f}\max_{j\in X}s_{ij}
在等式1中,s_{ij}是在观察i和观察j之间的相似性。第二次模函数是基于特征的函数,并由如下等式2表示:
等式2:f(X)=\sum_{i\in F}\log m_f(X)
在等式2中,m_f(j)=观察j中特征f的TF-IDF分数。
一轮未被标记观察选择包括解决下面给出的等式3所表示的优化问题:
等式3:\max_{X\subseteq U_f,|X|\leq B}f(X\cup L)
在至少一个例子中,每一轮的未被标记观察选择都包括解决由等式3表示的优化问题。在一些例子中,在定义次模函数时执行至少一轮的未被标记观察选择。在等式3中,L是被标记观察的集合。因此,如上所述,在本文中已经提出了实现用于选择未被标记观察的多样性的至少两种方式。然而,具有不同方案的额外例子也是可应用的。
应该理解的是,上述逻辑操作可以实现为(1)一系列计算机实现的动作或在计算***上运行的程序模块,和/或(2)计算***内的互连机器逻辑电路或电路模块。实现方式是取决于计算***的性能和其它要求进行选择的问题。因此,本文描述的逻辑操作被多样地称为状态操作、动作或模块。这些操作、动作和/或模块可以被实现于软件、固件、专用数字逻辑、硬件及其任意组合中。还应该理解的是,与图中所示和本文描述相比,可以执行更多或更少的操作。这些操作还可以以不同于本文描述的次序来执行。
图6是示出了能够执行本文描述的用于以上面给出的方式进行主动机器学习的软件部件的计算机600的示例性计算机架构。图6中示出的计算机架构示出了示例性计算机***配置,并且计算机600可以用于执行本文给出的被描述为在主动机器学习***110上执行的部件和/或模块或者与其通信的任意部件的任意方面。
图6中示出的计算机架构包括:处理单元602(例如,中央处理单元“CPU”、图形处理单元“GPU”、或本文描述的其它处理单元);计算机可读介质,其可以包括一个或多个***存储器608,包括随机存取存储器614(“RAM”)和只读存储器(“ROM”)616;以及***总线604,其将存储器耦合到处理单元602。包含帮助在计算机600内的元件之间例如在启动时转移信息的基本例程的基本输入/输出***存储于ROM 616中。计算机600还包括大容量存储设备610,用于存储操作***618、应用程序、以及其它程序模块,将在下文更详细地描述。
大容量存储设备610通过连接到总线604上的大容量存储控制器(未示出)连接到处理单元602。大容量存储设备610及其相关联的计算机可读介质为计算机600提供非易失性存储。虽然包含于此的计算机可读介质的描述涉及大容量存储设备,例如,硬盘或CD-ROM驱动,但是本领域技术人员应该理解的是,计算机可读介质可以包括能由计算机600访问的任意可用的计算机存储介质或通信介质。
通信介质包括计算机可读指令、数据结构、程序模块、或在已调数据信号(例如载波)里的其它数据。如本文使用的,术语“已调数据信号”表示这样一种信号:其特性中的一个或多个以将信息编码在该信号中的方式被改变或设置。通过示例而非限制,支持通信介质的操作的物理部件包括:有线介质,例如有线网络或直连线连接;以及无线介质,例如声、RF、红外以及其它无线介质。上述任意组合也应该包含于计算机可读介质的范围内。
通过示例而非限制,计算机存储介质可以包括易失性和非易失性、可移除和不可移除介质,其实现于存储信息(例如,计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中。例如,计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(“DVD”)、HD-DVD、蓝光、或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者能够用于存储期望信息并能够由计算机600访问的任何其它介质。如本文使用的,“计算机存储介质”并不包括“通信介质”。
根据各种例子,计算机600可以在网络环境中利用通过网络(例如,网络620)的去往远程计算机的逻辑连接进行操作。计算机600可以通过连接到总线604上的网络接口单元606连接到网络620。应该理解的是,网络接口单元606还可以用于连接到其它类型的网络和远程计算机***。计算机600还可以包括输入/输出控制器612,用于接收和处理来自多个其它设备的输入,包括键盘、鼠标、或电子铁笔、摄像机、触摸接口等。类似地,输入/输出控制器可以将输出提供给显示屏、打印机、或其它类型的输出设备。
如上简述的,多个程序模块和数据文件可以存储于计算机600的大容量存储设备610和RAM 614中,包括适于控制网络台式计算机、膝上型计算机或服务器计算机的操作的操作***618。大容量存储设备610和RAM 614还可以存储一个或多个程序模块,例如如上所述的辅助机器学习模型112、目标机器学习模型114、比较部件118、标记部件120、特征化部件122、和/或容量改善部件128。大容量存储设备610和RAM 614还可以存储其它类型的程序模块、服务和数据。
应该理解的是,本文描述的软件部件可以在被加载到处理单元602并被执行时,将处理单元602和整个计算机架构600从通用计算***转变为定制为便于本文提出的功能的专用计算***。可以从任意数量的可以单独地或统一地呈现任何数量的状态的晶体管或其它分立电路元件来构造处理单元602。更具体地,响应于包含于本文公开的软件模块内的可执行指令,处理单元602可以作为有限状态机进行操作。这些计算机可执行指令可以通过指定处理单元602如何在状态之间转换而转变处理单元602,由此转变构成处理单元602的晶体管或其它分立硬件元件。
对本文给出的软件模块进行编码还可以转变本文给出的计算机可读介质的物理结构。在该描述的不同实现方式中,物理结构的特定转变可以取决于各种因素。这些因素的例子可以包括但不限于:用于实现计算机可读介质的技术,计算机可读介质是特征化为主要的还是次要的存储设备,等等。例如,如果计算机可读介质实现为基于半导体的存储器,则可以通过转变半导体存储器的物理状态而在计算机可读介质上编码本文公开的软件。例如,软件可以转变晶体管、电容器或构成半导体存储器的其它分立电路元件的状态。软件还可以转变这些部件的物理状态,以便在其上存储数据。
作为另一例子,本文描述的计算机可读介质可以利用磁或光技术实现。在这种实现方式中,当在其中编码软件时,本文给出的软件可以转变磁或光介质的物理状态。这些转变可以包括改变给定磁介质内的特定位置的磁特性。这些转变还可以包括改变给定的光介质内的特定位置的物理特征或特性,以改变这些位置的光特性。物理介质的其它转变是可能的,而不背离本描述的范围和精神,其中仅提供前述例子以便于该描述。
鉴于以上,应该理解的是,在计算机架构600中发生许多类型的物理转变,以便存储和执行本文提出的软件部件。还应该理解的是,计算机架构600可以包括其它类型的计算设备,包括手持计算机、嵌入式计算机***、个人数字助理、以及本领域技术人员已知的其它类型的计算设备。也能够料想到的是,计算机架构600可能不包括图6中所示的所有部件,可能包括在图6中没有明确示出的其它部件,或者可能利用不同于图6所示的架构。
示例性条目
A:一种方法,包括:通过主动机器学习***发起主动机器学习,所述主动机器学习***被配置为训练辅助机器学习模型,以产生至少一个新的被标记的观察;至少基于主动机器学习来改善目标机器学习模型,其中目标机器学习模型包括有限容量的机器学习模型;以及在改善目标机器学习模型的容量之后,利用至少一个新的被标记的观察来重新训练辅助机器学习模型。
B:根据段落A所述的方法,其中,改善包括:改善目标机器学习模型的容量。
C:根据段落A或B所述的方法,其中,辅助机器学习模型包括比目标机器学习模型大的容量。
D:根据段落A-C中任一项所述的方法,其中,所述辅助机器学习模型包括语义机器学习模型。
E:根据段落D所述的方法,其中,语义机器学习模型包括词袋机器学习模型。
F:根据段落A-E所述的方法,其中,发起主动机器学习包括:从未被标记的观察的池中选择一个或多个未被标记的观察。
G:根据段落F所述的方法,其中,改善容量包括:基于辅助机器学习模型响应于处理一个或多个未被标记的观察的输出,从目标机器学习模型递增地添加或移除特征。
H:根据段落A-G中任一项所述的方法,其中,改善容量包括:至少基于辅助机器学习模型的发起的主动机器学习,从目标机器学习模型递增地添加或移除特征。
I:根据段落A-H中任一项所述的方法,还包括:通过至少一个次模函数在发起的主动机器学习中实现多样性。
J:根据段落A-I中任一项所述的方法,还包括:通过在未被标记观察池中建立子集标记集合来在发起的主动机器学习中实现多样性,所述子集标记集合被配置为从所述子集标记集合提供多样化的未被标记观察。
K:根据段落J所述的方法,还包括:从子集标记集合中选择一个或多个未被标记的观察,以供辅助机器学习模型处理。
L:根据段落A-K中任一项所述的方法,还包括:至少基于辅助机器学习模型和目标机器学习模型之间的不一致,来减少目标机器学习模型的色盲。
M:一种计算机可读介质,包括计算机可执行指令,用于执行段落A-L中任一项所述的方法。
N:一种计算机,包括:处理单元;以及计算机可读介质,其包括计算机可执行指令,用于执行段落A-L中任一项所述的方法。
O:一种***,包括:用于处理的单元;用于通过主动机器学习***发起主动机器学习的单元,主动机器学习***被配置为训练辅助机器学习模型,以产生至少一个新的被标记的观察;用于至少基于主动机器学习改善目标机器学习模型的单元,其中所述目标机器学习模型包括有限容量的机器学习模型;以及用于在改善目标机器学习模型的容量之后,利用至少一个新的被标记的观察重新训练辅助机器学习模型的单元。
P:根据段落O所述的***,其中,用于改善的单元包括用于改善目标机器学习模型的容量的单元。
Q:根据段落O或P所述的***,其中,辅助机器学习模型包括比目标机器学习模型大的容量。
R:根据段落O-Q中任一项所述的***,其中,辅助机器学习模型包括语义机器学习模型。
S:根据段落R所述的***,其中,所述语义机器学习模型包括词袋机器学习模型。
T:根据段落O-S中任一项所述的***,其中,用于发起主动机器学习的单元包括:用于从未被标记的观察的池中选择一个或多个未被标记的观察的单元。
U:根据段落T所述的***,其中,用于改善容量的单元包括:用于基于辅助机器学习模型响应于处理一个或多个未被标记的观察的输出,从目标机器学习模型递增地添加或移除特征的单元。
V:根据段落O-U中任一项所述的***,其中,用于改善容量的单元包括:用于至少基于辅助机器学习模型的发起的主动机器学习,从目标机器学习模型递增地添加或移除特征的单元。
W:根据段落O-V中任一项所述的***,还包括:用于通过至少一个次模函数在发起的主动机器学习中实现多样性的单元。
X:根据段落O-W中任一项所述的***,还包括:用于通过在未被标记观察池中建立子集标记集合来在发起的主动机器学习中实现多样性的单元,所述子集标记集合被配置为从所述子集标记集合提供多样化的未被标记的观察。
Y:根据段落X所述的***,还包括:用于从子集标记集合中选择一个或多个未被标记的观察以供辅助机器学习模型处理的单元。
Z:根据段落O-Y中任一项所述的***,还包括:用于至少基于辅助机器学习模型和目标机器学习模型之间的不一致而减少目标机器学习模型的色盲的单元。
AA:一种计算机可读介质,其上具有计算机可执行指令,当被计算机执行时,所述指令使得计算机执行包括以下的操作:通过辅助机器学习模型从未被标记的观察的池中选择未被标记的观察,其中未被标记的观察属于多个类别中的哪个类别并不是已知的;基于辅助机器学习模型响应于未被标记的观察的输出,将未被标记的观察转换为新的被标记的观察;基于所述转换改善目标机器学习模型的容量,其中所述目标机器学习模型是有限容量的机器学习模型;以及在改善目标机器学习模型的容量之后,利用新的被标记的观察重新训练辅助机器学习模型。
AB:根据段落AA所述的计算机可读介质,其中,改善容量包括:基于包含于新的被标记的观察内的特征,向目标机器学习模型递增地添加至少一个特征;以及基于包含于新的被标记的观察内的特征,从目标机器学习模型递增地移除至少一个特征。
AC:根据段落AA或AB所述的计算机可读介质,其中,选择未被标记的观察包括:至少基于至少一个次模函数的优化来选择未被标记的观察。
AD:根据段落AA-AC中任一项所述的计算机可读介质,其中,选择未被标记的观察包括:从未被标记的观察的池中的子集标记集合中选择未被标记的观察,所述子集标记集合被配置为提供多样化的未被标记观察。
AE:根据段落AA-AD中任一项所述的计算机可读介质,其中,改善目标机器学习模型的容量包括:至少基于辅助机器学习模型和目标机器学习模型之间的不一致,减少目标机器学习模型的色盲。
AF:一种计算机,包括:处理单元;以及根据段落AA-AE中任一项所述的计算机可读介质。
AG:一种***,包括:辅助机器学习模型,被配置为将第一分数分配给未被标记的观察;目标机器学习模型,其被配置为将第二分数分配给未被标记的观察,其中所述目标机器学习模型和所述辅助机器学习模型来自不同的机器学习模型类别,并且其中所述目标机器学习模型是有限容量的机器学习模型;比较部件,其被配置为比较所述第一分数和第二分数,以确定所述目标机器学习模型已经返回假肯定或假否定结果的可能性;以及特征化部件,其被配置为接收所述比较部件的输出。
AH:根据段落AG所述的***,其中,被配置为比较第一分数和第二分数的所述比较部件还被配置为执行比较,包括:确定在第一分数和第二分数之间的差的幅度;在所述幅度为负时,确定所述目标机器学习模型已经返回假肯定;以及在所述幅度为正时,确定所述目标机器学习模型已经返回假否定。
AI:根据段落AG或AH所述的***,还包括容量改善部件,其与所述特征化部件可操作地通信,所述容量改善部件被配置为:当所述目标机器学习模型已经返回假肯定时,将目标机器学习模型的范围延伸为包括先前不在目标机器学习模型的范围内的新特征。
AJ:根据段落AG-AI中任一项所述的***,还包括容量改善部件,其与所述特征化部件可操作地通信,所述容量改善部件被配置为:当所述目标机器学习模型已经返回假肯定时,将目标机器学习模型的范围缩小为移除先前在目标机器学习模型的范围内的特征。结论
虽然已经以特定于结构特征和/或方法动作的语言描述了技术方案,但是应该理解的是,在随附权利要求中定义的技术方案不必局限于所描述的特定特征或动作。而是,特定的特征和步骤被公开作为实现权利要求的示例性形式。
所有上述方法和过程可以体现在以及完全自动的经由由一个或多个通用计算机或处理器执行的软件代码模块。代码模块可以存储于任意类型的计算机可读存储介质或其它计算机存储设备。一些或所有方法可以替代地体现在专用计算机硬件中。
条件语言例如“能够”、“可以”、“能”或“可”,除非另有明确指出,否则在上下文中被理解为表示特定的例子包括而其它例子不包括特定的特征、元件和/或步骤。因此,这种条件语言一般不旨在暗示特定的特征、元件和/或步骤以任何方式被要求用于一个或多个例子或者一个或多个例子必须包括在具有或不具有用户输入或提示的情况下用于决定特定的特征、元件和/或步骤是否被包含在任何特定例子中或被执行于任意特定例子的逻辑。
诸如短语“X、Y或Z中的至少一个”的连接语言除非另有明确陈述,否则将被理解为表示项目、术语等可以是X、Y或X或其组合。
在本文描述的和/或在附图中描绘的流程图中的任意例程描述、元件或框应该被理解为可能表示包括一个或多个可执行指令的代码的模块、段或一部分,一个或多个可执行指令用于在例程中实现特定逻辑功能或元件。替代的例子包含于本文描述的例子的范围内,其中取决于所涉及的功能,可以删除元件或功能、或以不同于图示或讨论的次序执行元件或功能(包括本质上同步地或以相反的次序),这对于本领域技术人员是可以理解的。
应该强调的是,可以对上述例子进行许多变型和修改,其元件可以被理解为处于其它可接受的例子中。所有这种修改和变型旨在被包含于本公开的范围内并由后续权利要求保护。

Claims (20)

1.一种主动文档分类***,所述***包括:
至少一个处理器;以及
存储器,包括指令,所述指令在被所述至少一个处理器执行时使所述至少一个处理器执行操作以:
使用辅助文档分类器将第一分数分配给未被标记的文档;
使用目标文档分类器将第二分数给所述未被标记的文档,其中所述目标文档分类器和所述辅助文档分类器来自不同的文档分类器类别,并且其中所述目标文档分类器是有限容量的文档分类器;
比较所述第一分数和所述第二分数,以计算所述第一分数和所述第二分数之间的差的幅度;
使用所述幅度识别机器学习特征;
至少基于使用所述机器学习特征的改善来更新所述目标文档分类器;
在所述目标文档分类器的所述更新之后,利用至少一个新的被标记的文档来重新训练所述辅助文档分类器,其中在改善所述目标文档分类器的所述容量之后,所述辅助文档分类器的重新训练的版本使用来自所述未被标记的文档的所述机器学习特征,产生至少一个所述新的被标记的文档;以及
将更新的所述目标文档分类器提供给能够使用更新的所述目标文档分类器来计算设备标签的计算设备。
2.根据权利要求1所述的***,其中比较所述第一分数和所述第二分数的所述指令还包括用于以下操作的指令:
在所述幅度为负时,确定所述目标文档分类器已经返回假肯定;以及
在所述幅度为正时,确定所述目标文档分类器已经返回假否定。
3.根据权利要求2所述的***,还包括用于以下操作的指令:
在所述目标文档分类器已经返回假肯定时,延伸所述目标文档分类器的范围以包括先前不在所述目标文档分类器的所述范围内的新特征。
4.根据权利要求2所述的***,还包括用于以下操作的指令:
在所述目标文档分类器已经返回假肯定时,缩小所述目标文档分类器的范围以移除先前在所述目标文档分类器的所述范围内特征。
5.一种方法,包括:
通过主动文档分类***发起主动机器学习,所述主动文档分类***被配置为训练辅助文档分类器;
使用所述辅助文档分类器来评估未被标记的文档以生成第一分数;
使用目标文档分类器来评估所述未被标记的文档以生成第二分数;
比较所述第一分数和所述第二分数,以计算所述第一分数和所述第二分数之间的差的幅度;
使用所述幅度识别机器学习特征;
至少基于使用所述机器学习特征的改善来更新所述目标文档分类器,其中所述目标文档分类器包括有限容量的文档分类器;
在更新所述目标文档分类器之后,利用至少一个新的被标记的文档来重新训练所述辅助文档分类器,其中在改善所述目标文档分类器的所述容量之后,所述辅助文档分类器的重新训练的版本使用来自所述未被标记的文档的所述机器学习特征,产生所述至少一个新的被标记的文档;以及
将更新的所述目标文档分类器提供给能够使用更新的所述目标文档分类器来计算设备标签的计算设备。
6.根据权利要求5所述的方法,其中,发起所述主动机器学习包括:从未被标记的文档的池中选择一个或多个未被标记的文档。
7.根据权利要求6所述的方法,其中,改善所述容量包括:
基于所述辅助文档分类器的、响应于处理所述一个或多个未被标记的文档的输出,从所述目标文档分类器中递增地添加或移除特征。
8.根据权利要求5所述的方法,其中,改善所述容量包括:
至少基于所述辅助文档分类器的、被发起的所述主动机器学习,从所述目标文档分类器中递增地添加或移除特征。
9.根据权利要求5所述的方法,还包括:通过至少一个次模函数来实现被发起的所述主动机器学习的多样化。
10.根据权利要求5所述的方法,还包括:通过在未被标记的文档的池中建立子集标记集合,来实现被发起的所述主动机器学习的多样化,所述未被标记的文档的池被配置为从所述子集标记集合提供多样化的未被标记的文档。
11.根据权利要求10所述的方法,还包括:从所述子集标记集合中选择一个或多个未被标记的文档,以由所述辅助文档分类器处理。
12.根据权利要求5所述的方法,还包括:至少基于所述辅助文档分类器和所述目标文档分类器之间的不一致,减少所述目标文档分类器的色盲。
13.根据权利要求5所述的方法,其中,所述辅助文档分类器包括比所述目标文档分类器大的容量。
14.根据权利要求5所述的方法,其中,所述辅助文档分类器包括语义文档分类器。
15.根据权利要求14所述的方法,其中,所述语义文档分类器包括词袋文档分类器。
16.一种非瞬态计算机可读介质,其上具有计算机可执行指令,所述计算机可执行指令在被计算机执行时,使所述计算机执行操作,所述操作包括:
通过辅助文档分类器从未被标记的文档的池中选择未被标记的文档,其中所述未被标记的文档属于多个类别中的哪个类别是未知的;
使用辅助文档分类器来评估所述未被标记的文档以生成第一分数;
使用目标文档分类器来评估所述未被标记的文档以生成第二分数;
比较所述第一分数和所述第二分数,以计算所述第一分数和所述第二分数之间的差的幅度;
使用所述幅度识别机器学习特征;
基于使用所述机器学习特征的改善来更新所述目标文档分类器,其中所述目标文档分类器是有限容量的文档分类器;
在更新所述目标文档分类器之后,利用至少一个新的被标记的来重新训练所述辅助文档分类器,其中在改善所述目标文档分类器的所述容量之后,所述辅助文档分类器的重新训练的版本使用来自所述未被标记的文档的所述机器学习特征,产生所述至少一个新的被标记的文档;以及
将更新的所述目标文档分类器提供给能够使用更新的所述目标文档分类器来计算设备标签的计算设备。
17.根据权利要求16所述的计算机可读介质,其中,改善所述容量包括:
基于被包含在所述新的被标记的文档中的特征,向所述目标文档分类器递增地添加至少一个特征;以及
基于被包含在所述新的被标记的文档中的所述特征,从所述目标文档分类器递增地移除至少一个特征。
18.根据权利要求16所述的计算机可读介质,其中,选择所述未被标记的文档包括:至少基于对至少一个次模函数的优化来选择所述未被标记的文档。
19.根据权利要求16所述的计算机可读介质,其中,选择所述未被标记的文档包括:从所述未被标记的文档的池中的子集标记集合中选择所述未被标记的文档,所述子集标记集合被配置为提供多样化的未被标记的文档。
20.根据权利要求16所述的计算机可读介质,其中改善所述目标文档分类器的所述容量包括:至少基于所述辅助文档分类器和所述目标文档分类器之间的不一致,减少所述目标文档分类器的色盲。
CN201580066625.0A 2014-12-07 2015-11-28 主动机器学习 Active CN107004159B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/562,747 US10262272B2 (en) 2014-12-07 2014-12-07 Active machine learning
US14/562,747 2014-12-07
PCT/US2015/062853 WO2016094091A1 (en) 2014-12-07 2015-11-28 Active machine learning

Publications (2)

Publication Number Publication Date
CN107004159A CN107004159A (zh) 2017-08-01
CN107004159B true CN107004159B (zh) 2024-03-01

Family

ID=54884402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580066625.0A Active CN107004159B (zh) 2014-12-07 2015-11-28 主动机器学习

Country Status (4)

Country Link
US (1) US10262272B2 (zh)
EP (1) EP3227836B1 (zh)
CN (1) CN107004159B (zh)
WO (1) WO2016094091A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430180B2 (en) * 2010-05-26 2019-10-01 Automation Anywhere, Inc. System and method for resilient automation upgrade
US10558935B2 (en) 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US10282789B1 (en) 2015-12-29 2019-05-07 State Farm Mutual Automobile Insurance Company Method of controlling for undesired factors in machine learning models
WO2017188048A1 (ja) * 2016-04-28 2017-11-02 日本電信電話株式会社 作成装置、作成プログラム、および作成方法
US10282668B2 (en) * 2017-03-09 2019-05-07 Thomas Danaher Harvey Devices and methods to detect compliance with regulations
WO2018178026A1 (en) 2017-03-30 2018-10-04 British Telecommunications Public Limited Company Hierarchical temporal memory for access control
US11341237B2 (en) * 2017-03-30 2022-05-24 British Telecommunications Public Limited Company Anomaly detection for computer systems
EP3625677A4 (en) * 2017-05-14 2021-04-21 Digital Reasoning Systems, Inc. SYSTEMS AND METHODS FOR QUICKLY CREATING, MANAGING AND SHARING LEARNING MODELS
US11468286B2 (en) * 2017-05-30 2022-10-11 Leica Microsystems Cms Gmbh Prediction guided sequential data learning method
US10581953B1 (en) * 2017-05-31 2020-03-03 Snap Inc. Real-time content integration based on machine learned selections
CN107679625B (zh) * 2017-08-30 2019-09-17 第四范式(北京)技术有限公司 针对数据记录执行机器学习的分布式***及其方法
CN107679564A (zh) * 2017-09-20 2018-02-09 北京百度网讯科技有限公司 样本数据推荐方法及其装置
GB2567148A (en) * 2017-09-28 2019-04-10 Warwick Analytical Software Ltd Methods and apparatuses relating to data classification
US10794609B2 (en) * 2018-02-05 2020-10-06 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for personalized heating, ventilation, and air conditioning
JP7024515B2 (ja) * 2018-03-09 2022-02-24 富士通株式会社 学習プログラム、学習方法および学習装置
US10162850B1 (en) * 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
US10902065B1 (en) * 2018-05-04 2021-01-26 Massachusetts Mutual Life Insurance Company Systems and methods for computational risk scoring based upon machine learning
US11875230B1 (en) 2018-06-14 2024-01-16 Amazon Technologies, Inc. Artificial intelligence system with intuitive interactive interfaces for guided labeling of training data for machine learning models
US11120364B1 (en) 2018-06-14 2021-09-14 Amazon Technologies, Inc. Artificial intelligence system with customizable training progress visualization and automated recommendations for rapid interactive development of machine learning models
US11868436B1 (en) 2018-06-14 2024-01-09 Amazon Technologies, Inc. Artificial intelligence system for efficient interactive training of machine learning models
DE102018212246A1 (de) * 2018-07-24 2020-01-30 Robert Bosch Gmbh Verbesserte Objektmarkierung in Sensordaten
US11960984B2 (en) 2018-09-24 2024-04-16 Schlumberger Technology Corporation Active learning framework for machine-assisted tasks
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
CN112446404A (zh) * 2019-09-04 2021-03-05 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于主动学习的在线图像样本标注***、标注方法及其应用
US11373045B2 (en) * 2019-09-24 2022-06-28 ContactEngine Limited Determining context and intent in omnichannel communications using machine learning based artificial intelligence (AI) techniques
US10803586B1 (en) 2019-09-26 2020-10-13 Aiforia Technologies Oy Image analysis in pathology
US11769180B2 (en) * 2019-10-15 2023-09-26 Orchard Technologies, Inc. Machine learning systems and methods for determining home value
US11669753B1 (en) 2020-01-14 2023-06-06 Amazon Technologies, Inc. Artificial intelligence system providing interactive model interpretation and enhancement tools
US11941496B2 (en) * 2020-03-19 2024-03-26 International Business Machines Corporation Providing predictions based on a prediction accuracy model using machine learning
US10963792B1 (en) * 2020-03-26 2021-03-30 StradVision, Inc. Method for training deep learning network based on artificial intelligence and learning device using the same
US11587314B2 (en) * 2020-04-08 2023-02-21 Micron Technology, Inc. Intelligent correction of vision deficiency
US20220237234A1 (en) * 2021-01-22 2022-07-28 Microsoft Technology Licensing, Llc Document sampling using prefetching and precomputing
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys
US20230222778A1 (en) * 2021-12-17 2023-07-13 Lodestar Software Inc. Core set discovery using active learning
US11651093B1 (en) * 2022-02-24 2023-05-16 LendingClub Bank, National Association Automated fraudulent document detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
CN102915450A (zh) * 2012-09-28 2013-02-06 常州工学院 一种在线自适应调整的目标图像区域跟踪方法
CN103063217A (zh) * 2013-01-08 2013-04-24 北京航空航天大学 一种基于星历修正的深空探测器天文/无线电组合导航方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7894677B2 (en) * 2006-02-09 2011-02-22 Microsoft Corporation Reducing human overhead in text categorization
US8086549B2 (en) 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
US8180112B2 (en) * 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
TWI385492B (zh) * 2008-12-16 2013-02-11 Ind Tech Res Inst 機台設備的維護分析系統及其方法
US8140450B2 (en) 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
US9292797B2 (en) * 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
US20140229407A1 (en) * 2013-02-14 2014-08-14 Salesforce.Com, Inc. Distributing relevant information to users of an enterprise network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
CN102915450A (zh) * 2012-09-28 2013-02-06 常州工学院 一种在线自适应调整的目标图像区域跟踪方法
CN103063217A (zh) * 2013-01-08 2013-04-24 北京航空航天大学 一种基于星历修正的深空探测器天文/无线电组合导航方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A methodology for improving active learning engineering courses with a large number of students and teachers through feedback gathering and iterative refinement;Iria Este´vez-Ayres 等;《nternational Journal of Technology and Design Education》;387-408 *
Active Learning with Feedback on Both Features and Instances;Hema Raghavan 等;《Journal of Machine Learning Research》;1655-1686 *
基于嵌入式Bootstrap的主动学习示例选择方法;田春娜 等;《计算机研究与发展》(第10期);30-36 *
基于稀疏模型的模式识别应用;朱文杰;《万方数据》;全文 *

Also Published As

Publication number Publication date
US20160162802A1 (en) 2016-06-09
EP3227836A1 (en) 2017-10-11
CN107004159A (zh) 2017-08-01
US10262272B2 (en) 2019-04-16
WO2016094091A1 (en) 2016-06-16
EP3227836B1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN107004159B (zh) 主动机器学习
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
WO2022037573A1 (zh) 表单识别方法、装置、设备及计算机可读存储介质
US9633002B1 (en) Systems and methods for coreference resolution using selective feature activation
CN111274394A (zh) 一种实体关系的抽取方法、装置、设备及存储介质
JP2018501579A (ja) 画像の内容の意味表現
CN113434858B (zh) 基于反汇编代码结构和语义特征的恶意软件家族分类方法
CN112632269A (zh) 一种文档分类模型训练的方法和相关装置
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
Patel et al. Dynamic lexicon generation for natural scene images
CN114691525A (zh) 测试用例的选择方法及装置
US20230138491A1 (en) Continuous learning for document processing and analysis
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
US20230342534A1 (en) Machine learning based processing of design files for electronics hardware design
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN112417147A (zh) 训练样本的选取方法与装置
CN115035890B (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
US20230134218A1 (en) Continuous learning for document processing and analysis
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant