CN108463795B

CN108463795B - 自助分类***

Info

Publication number: CN108463795B
Application number: CN201780006568.6A
Authority: CN
Inventors: S·赫兹; H·扎罗西姆; O·哈扎伊; O·罗姆; E·阿济克利; L·温特劳布; Y·林德曼; E·魏因雷布; S·卡拉曼; Y·本什洛莫; D·莱文森; E·沙拉比; A·R·戈德什拉格
Original assignee: Financial and Risk Organisation Ltd
Current assignee: Thomson Reuters Global Resources ULC
Priority date: 2016-04-05
Filing date: 2017-04-04
Publication date: 2022-03-08
Anticipated expiration: 2037-04-04
Also published as: US10990897B2; CA3008462A1; WO2017176749A1; AU2019236757A1; AU2019236756A1; HK1258866A1; AU2017246552A1; AU2019236757B2; CN108463795A; AU2017246552B2; SG11201805746YA; US20170286869A1

Abstract

公开了用于生成定制的分类模型的***、技术和方法。该***和技术(诸如Thomson Reuters Self‑Service Classification^TM)部分采用机器学习，并部分采用用户交互式方法以生成定制的分类模型。该***结合了一种新颖的文本分类方法，其使用较小的初始数据集来启动训练，并且具有用于定制的独特的工作流程和用户交互。

Description

自助分类***

2017Thomson Reuters。

相关申请的交叉引用

本申请要求于2016年4月5日提交的标题为“自助分类(Self-ServiceClassification)”的美国临时申请第62/318,412号，以及于2016年8月17日提交的标题为“自助分类(Self-Service Classification)”的美国临时申请第62/376,039号的优先权。本段中提到的每个申请都通过引用整体并入本文。

技术领域

本公开涉及文档的分类，并且更具体地涉及用于生成定制的分类模型的方法和***。

背景技术

许多公司正在积累大量的数据。他们每天都会生成和接收无数的文档、电子邮件、报告和其他内容。将文档分类到特定主题并创建分类模型的能力可以改进文档搜索、提高生产力、降低存储成本并且帮助进行分析以更好地利用数据。专业人员通常需要在大量非结构化文档中标识特定信息。例如，对“黄金开采”感兴趣的专业人士不可能去阅读所有提到“黄金”一词的新闻文档。由于缺乏适当的工具，许多组织和用户依靠手动分类文档的方式。该手动分类过程可能需要大量人力、耗时、昂贵并且容易出错。

手动分类的替代方法是训练将用来执行分类的机器学习模型。但是，为这些模型创建训练数据可能需要大量人力，并且建立和训练这些模型需要机器学习方面的专业知识。

通常，将用广泛的训练集开始分类过程，其明确标识涵盖主题的肯定的和否定的文档。例如，对于50个主题，用户需要标记具有至少20000个文档的集合，并且通过标记和标识文档涵盖的每个主题来详尽地标记每个文档。由于这种进行标记的数量太大而令人望而生畏，用户可能会转而采用基于特定规则的解决方案，但是它们存在不足且难以维护。另外地，典型的用户不是计算机科学专业人员，并且可能没有办法开发机器学习解决方案来加速这一过程。

因此，目前用于生成分类模型的工具需要广泛的训练集，它们很难进行管理，并且不允许用户改善模型的基准质量。我们的***和技术解决了这两个问题。

发明内容

公开了用于生成定制的分类模型的***、技术和方法。该***和技术(诸如汤森路透自助分类(Thomson Reuters Self-Service Classification^TM))部分采用机器学习，并部分采用用户交互式方法生成定制的分类模型。该***结合了一种新颖的文本分类方法，其使用较小的初始数据集来启动训练，并且具有用于定制的独特的工作流程和用户交互。

该***的各个方面涉及生成定制的分类模型。例如，根据一个方面，一种计算机实现的方法包括接收包含肯定标记的文档集和未标记文档集的文档集，处理文档集以移除文档内的副本文档和噪声，生成针对主题集中的每个主题的初步模型，训练初步模型以基于文档集确定附加的肯定的和否定的文档集，其中训练包含部分地标识来自文档集中的否定的文档，使用训练的初步模型和附加的肯定的和否定的文档集生成定制的分类模型，并且提供定制的分类模型并且至少提供模型的精度或查全率值。

肯定标记的文档是已知包含或讨论期望主题的文档。如本文所用，标记的文档是指包含与文档的主题相关的标识符的文档。它也可称为标签文档。当确定一个文档在讨论主题时是肯定的或否定的后，它可能分别被称为肯定标记的文档或否定标记的文档。如果尚未对文档进行确定，则可能会将其描述为未标记文档。

在一个实施方式中，训练初步模型包含应用最近相邻链接算法。

在进一步的实施方式中，该方法包含使用分类规则、特征选择、用户反馈或它们的组合中的一个来调整初步模型和定制的分类模型，基于定制的分类模型，并且提供定制的分类模型并且至少提供模型的精度或查全率值。

在一个实施方式中，使用分类规则的调整方法包含向用户界面提供短语列表，并且响应于包含或排除选项，将选择的短语列表应用于该文档集，其中文档包含指示所选主题的一个或多个来自短语列表中的短语。

在另一个实施方式中，使用特征选择进行调整的方法包含向用户界面提供特征列表，该特征列表进一步包含表征与主题相关联的文档的短语列表，并且响应于包含或排除选项，将选择的特征列表应用于该文档集。该方法还可以进一步包括基于排名来加权特征列表。

在另一个进一步的实施方式中，使用用户反馈进行调整的方法包含在用户界面上提供可选对话框以指示对与主题相关的文档进行的确认。

在又另一个进一步的实施方式中，该方法包含在预定的测试文档集上测试定制的分类模型，并向用户呈现与该测试相关联的精度和查全率值。该方法还可以进一步包含发布定制的分类模型。该发布可以是针对生产服务器的(诸如汤森路透自助分类(ThomsonReuters Self-Service Classification^TM)。

有利地，该训练过程的特征在于数据准备量最少，使得可以快速获得***生成的初始分类模型。该***通过应用文本分析技术来提取隐藏在内容中的含义来分类非结构化内容。通常，该***不像常规文本分类***那样需要肯定和否定实例的大数据集，而是使用小的肯定的文档集和未标记文档集，从中选择否定的文档和附加的肯定的文档，来创建训练分类模型所需要的训练集。

此外，该***还允许用户通过执行一系列任务来调整和改进模型。我们已经设计出并实现了一种工作流程，使非计算机科学家的用户能够为他们自己的数据开发和部署分类模型。该工作流程包括其他***中没有的模型调整功能。用户在调整阶段的交互可以改善和调整分类模型。

根据以下具体实施方式、附图和权利要求书，附加的特征和优点将变得显而易见。

附图说明

图1是该***的示例性架构图；

图2是本公开的一个实施方式的示例性流程图；

图3示出了示例性文档集；

图4示出了来自文档集中的示例性文档；并且

图5-图11b示出了对应于图2的示例性步骤的示例性图形用户界面(GUI)。

具体实施方式

在以下描述中，参考构成描述一部分的附图，并且其中以图示方式显示了在其中可以实践本公开的特定实施方式。应当理解，在不脱离本公开的范围的情况下可以利用其他实施方式并且可以进行结构改变。

图1示出了用于提供自助分类的示例性***100。如图1中所示，在一个实施方式中，***100配置为包括通过网络160与分类服务器110进行通信的访问设备170。访问设备170可以包括个人计算机、膝上型计算机或其他类型的电子设备，诸如移动电话、智能电话、平板电脑、PDA或PDA电话。在一个实施方式中，例如，访问设备170耦合到I/O设备(未示出)，其包括与诸如鼠标的定点设备结合的键盘，用于向分类服务器110发送分类请求。优选地，访问设备170的存储器(未示出)配置为包括用于从分类服务器110请求和接收信息的用户界面174。在一个实施方式中，用户界面174可以是web浏览器(未示出)的一部分，其允许用户访问并从分类服务器110检索信息。访问设备170的用户界面174和服务器110之间的通信可以利用一个或多个网络协议，其可以包括HTTP、HTTPS、RTSP或RTMP。尽管在图1中示出了一个访问设备170，但是***100可以支持一个或多个访问设备。

网络160可以包括以内联网、外联网或因特网配置连接的各种设备，诸如路由器、服务器和交换元件。在一些实施方式中，网络160使用有线通信来在访问设备170和服务器110之间传送信息。在另一个实施方式中，网络160采用无线通信协议。在又其他实施方式中，网络160采用有线和无线技术的组合。

如图1中所示，在一个实施方式中，分类服务器110可以是专用服务器，并且优选地包括处理器112(诸如中央处理单元(“CPU”))、随机存取存储器(“RAM”)114、输入输出设备116(诸如显示设备(未示出))，以及非易失性存储器120，它们全部经由公共总线111互连并且由处理器112控制。

在一个实施方式中，如图1的示例中所示，非易失性存储器120配置为包括接收模块122，用于从用户访问设备170上的用户界面174接收数据文件。从用户界面174接收的文件可以是但不限于文档集、数据集或文档库。在一个实施例中，通过网络160将文件从用户界面174传送到服务器110。在进一步的实施方式中，接收的数据可以存储在用户数据存储142中。

非易失性存储器120还包括用于处理由接收模块122接收的数据的过滤模块124。处理的数据然后可以存储在过滤的用户数据存储144中。在一个实施方式中，数据的处理可以包含但不限于移除副本文档、消除文档中的噪声或移除不正确格式或大小的文档。

非易失性存储器120还配置为包括用于生成分类模型的建模模块126，分类模型的示例可以是初步分类模型或定制的分类模型。建模模块126然后可以将分类模型分别存储在初步模型数据存储146和定制的分类模型数据存储148中。建模模块126还可以计算模型的精度、查全率，以及F1值或F1分数。如本文所用，术语“F1值”、“F1分数”或“F-量度”可互换使用，并且指精度和查全率的平均值。

如图1的示例中所示，非易失性存储器120还可以配置为包括用于分析文档的训练模块128。训练模块128还可以从文档集中确定肯定的和否定的文档(或附加的肯定的和否定的文档)。这些确定的肯定的和否定的文档可以用于建模模块126的训练和模型生成。

非易失性存储器120还进一步配置为包括调整模块130，用于接收来自用户界面174的输入并将接收到的输入应用于初步分类模型和定制的分类模型。

非易失性存储器120还配置为包括用于测试由建模模块125生成的模型的测试模块132。测试模块132还可以计算与数据集测试相关的精度和查全率以及F1分数。

非易失性存储器120还进一步配置有发布模块134，用于在用户核准后发布模型。在一个实施方式中，当精度和查全率值满足用户期望值时，发布模型。

如示例性图1中所示，提供了数据存储140，其被软件模块122、124、126、128、130、132和134中的一个或多个用来访问和存储与创建模型相关的信息。在一个实施方式中，数据存储140是关系数据库。在一个实施方式中，数据存储140是文件服务器。在又另一些实施方式中，数据存储140是事件检测服务器110的非易失性存储器120中的配置区域。尽管图1中所示的数据存储140是分类服务器110的一部分，但本领域技术人员将会理解，数据存储140可以分布在各种服务器上并且可以通过网络160由服务器110访问。

如图1中所示，在一个实施方式中，数据存储140配置为包括用户数据存储142、过滤的用户数据存储144、初步模型数据存储146、定制的分类模型数据存储148，以及分类数据存储150。

用户数据存储142包括由用户提供并由接收模块122接收的数据。在一个实施方式中，数据可以是包含肯定标记的文档集和未标记文档集的文档集。

过滤的用户数据存储144包括已经通过过滤模块124进行处理的数据。例如，删除了重复项和噪声的文档集。

初步模型数据存储146包括由建模模块126基于过滤的数据集144生成的初步模型，其由用于主题集中的每个主题的初步模型组成。在一个实施方式中，初步模型部分基于肯定的文档集和未标记文档集，并且可以被模块126、128、130、132用于确定附加的肯定的和否定的文档。初步模型可以包含由建模模块126计算的精度和查全率值。

定制的分类模型数据存储148包括在训练模块128训练数据集并将确定的肯定的和否定的文档应用于初步模型之后由建模模块126生成的模型。定制的分类模型可以包含由建模模块126计算的精度和查全率值。

分类数据存储150包括供***使用的分类集。在一个实施方式中，可以由过滤模块124生成分类。在另一个实施方式中，分类可以基于来自服务器180中的生产数据集182或测试数据集184的确定的分类。

在进一步的实施方式中，如图1中所示，生产服务器180包括处理器(未示出)、随机存取存储器(未示出)和非易失性存储器(未示出)，它们经由公共总线互连并由处理器控制。在一个实施方式中，生产服务器180中的数据可以包含生产数据集182和测试数据集184，它们可以通过网络160通信并由分类服务器110使用。

应当注意，图1中所示的***100是本公开的一个实施方式。本公开的其他***实施方式可以包括未示出的附加结构，诸如次级存储和附加计算设备。另外，本公开的各种其他实施方式包括比图1中所示的更少的结构。

现在参考图2，公开了生成定制的分类模型的示例性方法200。

如图2中所示，在步骤202处，由用户通过访问设备172的用户界面174提供数据文件，并由接收模块122接收。在一个实施方式中，数据文件可以是上传的文档集，部分地包含但不限于肯定标记的文档集(即，讨论主题并标记为肯定的文档)，以及未标记文档集(即，对于讨论一个主题没有被指定为肯定或否定的文档)。在替代的实施例中，用户可以利用***中已有的数据集，例如存储在生产服务器180中的数据集。

在图3中示出了由用户通过用户界面174提供的文档集的示例性数据文件。来自文档集的示例性文档在图4中以单个XML文件的形式示出。虽然示出了示例性XML文件，但***也可以使用诸如PDF、文本等另外的文件格式。

在接收到文档集后，接收模块122将数据存储到用户数据存储142中。在另一个实施例中，文档被编制索引并使用ElasticSearch进行存储。

接下来在步骤204，过滤模块124从用户数据存储142中检索文档集并处理检索到的文档。过滤模块124的示例性处理可以包括标识上传的文档中的重复(即，如果所接收的文档集包含同一文档的多个副本)并且将它们从该文档集中移除。

在另一个实施方式中，过滤模块124使用在Broder的“识别和过滤近乎重复的文件(Identifying and Filtering Near-Duplicate Documents)”(组合模式匹配《Combinatorial Pattering Matching》，11th Annual Symposium，CPM 2000，蒙特利尔，加拿大，2000年6月21-23日)中提出的算法来标识重复。对于每组近乎重复的文档，***选择一个文档作为该组的代表，并丢弃其所有副本文档。

在进一步的实施方式中，过滤模块124还可以处理文档集中的每个文档以标识噪声或不相关区域(即，文档中不用于分类的区域)并将它们从文档集中移除。

示例性噪声可以是但不限于名字、电子邮件地址、链接、新闻来源名称或对其他新闻报道的引用，出现在诸如文档中的页眉或页脚的区域中，因为它们可能与文档分类不相关。如示例性图4中所示，噪声404是指与分类无关的文本。处理的文档然后可以存储在过滤的用户数据存储144中。

在另一个实施方式中，在检测到上传文档中出现的重复模式之后，可以通过过滤模块124来标识包含噪声的区域。对于每个这样的模式，过滤模块124可以确定由该模式的频率连同在出现该模式的文档中的平均位置组成的不相关分数。过滤模块124可清理文档或创建新文件，使得每个文档仅包含移除了不相关模式或区域的相关文本。

在又进一步的实施方式中，过滤模块124可以移除超过预定最大允许文件大小的文件或者不是特定格式的文件(即，不是XML格式的文件)。

在步骤206处，一旦在文档集上完成过滤，由建模模块126为来自过滤的用户数据存储144的文档集的主题集中的每个主题生成初步模型。在一个实施方式中，建模模块126用文档集中的信息构建分类，该文档集可以包括但不限于肯定标记的文档集和未标记文档集。该分类可以然后存储在分类数据存储150中。

在另一个实施方式中，基于过滤的肯定标记的文档集和从用户接收的未标记文档集生成初步模型。所生成的初步模型然后存储在初步模型数据存储146中。

继续到步骤208，训练模块128从初步模型数据存储146中取回初步模型，并检测文档集中的主题。训练主题会为该主题生成分类模型。在训练期间，训练模块128解析肯定的文档和未标记文档以找出讨论该主题的文档的特征。基于该信息，***定义了分类规则和模型特征，它们决定了模型如何标识主题。

在一个实施方式中，训练模块126使用肯定的文档集和未标记文档集从文档集中检测否定标记的文档(即，未提及主题的文档)。

在另一个实施方式中，通过用户界面174提供对文档集中的文档类型的计数。如果需要附加的否定的文档来训练主题，则在用户界面174上提示用户(类似于图6中所示的)以将附加的文档添加到文档集。这可以是用户修改的初始文档集(即，在步骤202中发送的文档集)，然后将经修改的初始文档集发送或上传到新项目。

在进一步的实施方式中，针对主题的肯定的文档集可以由几百个文档组成，而未标记的文档库的大小可以是成千上万的，其中大多数可能与主题不相关。计算出区分了潜在肯定的文档和明确否定的文档的短语集。在一个实施方式中，来自已知肯定的文档的线索有助于产生明确否定的文档，然后将它们从未标记文档集中移除。

在一个实施方式中，训练模块128可以标识肯定的文档必须遵循的规则集(即，分类规则)，并使用其来排除不遵循这些规则的文档库中的任何文档，从而标识明确否定的文档并排除它们。例如，在主题是“黄金开采”的情况下，规则可以是该文档必须包含短语“黄金”。短语“黄金”可以是短语集中的示例性短语。但是，在应用此规则后，所有剩余的文档(其中一些可能是否定的文档)都包含术语“黄金”。例如，肯定的文档讨论了“黄金开采”，否定的文档则可能会讨论其他主题，诸如“关于金牌的体育文档”。由于剩余文档是一个小而集中的文档集，分类器可以更好地提取出共同的否定特征。在这个示例中，特征“奖牌”可以是一个否定的特征。

在进一步的实施方式中，为了获得将由规则集应用的短语集，可以使用贪婪算法，其将肯定的文档中的短语的频率与它们在文档库中的频率进行比较，并找到覆盖肯定的集合中所有区域的最小短语集。

一旦应用了规则，就留下了原始标记的肯定的文档和遵循规则的未标记文档库的小子集，该文档集可以称为缩减的文档库或训练产生的文档集。

训练模块128然后通过选择与主题相关的预定数量的特征(即，单词或术语)并且生成每个主题最重要的特征的列表来从产生的文档集(即，缩减的文档库)中提取肯定的和否定的文档。每个主题可以有十二个选项，“十二个”是示例性数量并不限于此。

在进一步的实施方式中，训练模块128可以对文档集或缩减的文档库使用最近相邻分析。对于每个文档，使用与确定为特征的术语或单词的相似度计算其k个最近的邻居。在缩减的文档库连同针对兴趣主题的标记的肯定的文档集中，选择k个最近的邻居。用包含k个最近的邻居内的相似特征词或术语的文档集(即，肯定的文档)确定肯定性分数。为缩减的文档库中的每个文档计算该肯定性分数。缩减的文档库中具有高肯定性分数的文档选为肯定的，并且具有低肯定性分数的文档选为否定的，并且具有中等肯定性分数的文档可被忽略或丢弃。建议忽略或丢弃的文档集尽可能小。在进一步的实施方式中，肯定性分数可以包含由***定义的预定阈值，其中超过或不超过阈值分别指示文档为肯定标记的文档或否定标记的文档。

一旦由训练模块128完成训练，继续到步骤210，建模模块126将步骤208产生的确定的肯定标记的和否定标记的文档集(即，训练数据、训练集、附加的肯定的和否定的文档集、附加的肯定标记的和否定标记的文档集，或者训练和/或调整和/或测试产生的更新的文档集)应用到初步模型以生成定制的分类模型。建模模块126还计算定制的分类模型和定制的分类模型的每个主题的精度和查全率值。定制的分类模型然后可存储到定制的分类模型数据存储148中。

接下来在步骤212处，使用肯定标记的和否定标记的文档集，训练模块128可以使用标准机器学习分类算法来训练该主题的定制的分类模型。该***还会生成可疑文档列表，即其不能以高度确定性确定为否定的或肯定的文档。

在一个实施方式中，线性SVM(Thorsten Joachims，“使用支持向量机进行文本分类：学习许多相关的功能(Text categorization with support vector machines:learning with many related features)”，《Springer》，1998)与保序回归(BiancaZadronzny和Charles Elkan，“将分类器分数转换为准确的多级概率估计(Transformingclassifier scores into accurate multiclass probability estimates)”，八个ACMSIGKDD知识发现与数据挖掘国际会议《Proceedings of the Eight ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining》，KDD 2002，694页-699页)一起使用以训练模型，其中特征集由词袋(bag-of-words)、单字(unigram)、双字(bigrams)和跳字(skip-grams)组成。LibLinear也可以用于训练(Fan等人，“Liblinear:用于大型线性分类的库(A library for large linear classification)”，机器学习研究杂志《The Journal of Machine Learning Research》，9:871-1874，2008)用于大规模线性分类的开源库并提供了SVM算法的实施方式。

另外，对文档集应用双重交叉验证，其为训练集中的每个文档提供置信度分数。在进一步的实施方式中，对文档集应用多重交叉验证，例如10重交叉验证。这个置信度分数衡量每个文档对于训练数据的肯定性(即，文档中确实讨论了主题)，并被用于调整阶段中。在一个实施方式中，***标识了肯定性分数和置信度分数之间出现矛盾的文档。这些文档标记为可疑文档，并分配了不确定性分数。含有高不确定性分数的文档是用于用户反馈或进一步改进的候选文档。

一旦已经完成定制的分类模型的训练，继续到步骤214，由建模模块126生成一个或多个近似分数并通过用户界面174连同定制的分类模型一起呈现给用户。在一个实施方式中，分数可以是但不限于模型的精度和查全率值。精度衡量了模型在标识给定文档的主题时的准确性。查全率衡量了针对某个主题检索的相关文档的百分数。最初，精度和查全率值是粗略的估计值，但随着训练和调整了越多的模型，这些值越能精确反映真实模型质量。最初粗略的估计值是由于未标记文档库的影响。然而，一旦用户上传了完全标记的测试集，如稍后关于步骤220所描述的那样，如果测试集代表了真正的生产分布，不管调整次数如何，精度和查全率值(即，P/R值)都是可靠的。如果用户通过用户界面174确定模型的分数不符合他们的喜好(即，精度和查全率值不满足)，则用户可能想要对模型执行额外的改进并前进到步骤216以调整模型。调整会影响定制的分类模型和初步模型这两者。

在一个实施方式中，调整模块130进行的调整包含但不限于将分类规则、特征选择、用户反馈或它们的组合中的一个应用到定制的模型。

通过分类规则进行调整允许用户通过包括或排除(启用或禁用)规则或添加分类规则来修改初始分类规则。当增加分类规则时，建议了整个单词系列(即，输入、录入、获取、获得)和也表征讨论主题的文档的相关同义词(收购、并购、购买、接管)。如示例性图8中所示，在一个实施方式中，在用户界面174上向用户呈现包含分类规则列表的交互屏幕，该分类规则列表可以包括由下划线符号表示的停用词，并具有用于禁用或启用规则的可选选项。继续上述“黄金开采”的示例，用户可能希望进一步包括术语“八月”，使得肯定的文档可以与“八月”发布的黄金开采有关。反之亦然，如果用户想要移除术语“八月”，他们可能会禁用“八月”的规则。调整分类规则直接影响查全率，其中查全率衡量了针对某个主题检索的相关文档的百分数。作为示例，如果分类器标识十个文档中的九个是关于主题的话，则查全率为90％。

按特征调整需要启用或禁用先前由***确定的特征或添加特征。特征可以是与主题相关的一个或多个单词或术语。特征也是分类器将用来标识哪些候选文档讨论了主题的特征短语。在一个实施方式中，特征可以是最近相邻特征。如示例性图9a和图9b中所示，在用户界面174上向用户呈现包含了特征列表的交互式屏幕，其具有用于禁用或启用特征或添加特征的可选选项。在添加特征时，类似于添加分类规则，还会建议整个单词系列和相关同义词。禁用列表中靠前的特征会比禁用列表中靠后出现的特征的影响更大。调整模型特征直接影响精度(即，主题标签的准确性)。作为示例，如果标识为关于某个主题的10个文档中的8个确实是关于该主题的话，则精度为80％。

通过反馈进行调整是***经由用户界面174向用户呈现可疑文档，以允许用户修改标记的文档。如示例性图10中所示，在一个实施方式中，基于步骤212中确定的不确定性分数，在用户界面174上向用户呈现包含可疑文档列表的交互式屏幕。然后用户可选择“是”或“否”来确认文档是否与主题相关。

调整之后，肯定标记的和否定标记的文档可能会发生变化。继续到步骤218，训练模块128应用来自步骤216的用户指示的改变，然后如前所述重复步骤206、208、210、212、214。

回到步骤214，一旦用户对定制的分类模型的质量满意，用户就可以在示例性测试数据集上测试定制的分类模型的质量。

继续到步骤220，训练模块132可以将一个或多个测试数据集应用到定制的分类模块并生成测试结果。测试数据集是预先准备的主题或几个主题的标记的文档集。在一个实施方式中，测试数据集可以是来自生产服务器180并且通信到测试模块132的测试数据集184。在另一个实施方式中，用户可以通过访问设备172的用户界面174提供测试数据集并且由测试模块132接收。在进一步的实施方式中，可以在测试过程中使用先前确定的分类，如存储在分类数据存储150中的分类。

如图11a中所示，示例性测试结果通过用户界面174呈现给用户。测试结果可以包含但不限于由验证模型质量的测试模块132计算的精度和查全率值。也可以通过测试模块132来计算F1分数，然而其可以或可以不呈现给用户。如果在步骤220处用户对质量不满意，则用户可以进一步调整模型，然后重复步骤216、218、206、208、210、212、214、220直到测试结果指示出了期望的质量。

最后，在步骤224处，如果精度和查全率值满足用户的要求，则将定制的分类模型保存在定制的分类模型数据存储148中并且可以由发布模块134进行发布。在一个实施方式中，将定制的分类模型的发布到生产环境中，诸如汤森路透智能标记(TRIT)服务^TM(ThomsonReuters Intelligence Tagging (TRIT)Service^TM)或汤森路透OneCalais^TM(ThomsonReuters OneCalais^TM)。

图3示出了文档集的示例性数据文件。在一个实施方式中，数据文件可以是步骤202中描述的用户上传文件，并且包含文档ID列302，列出n个文档的文档集中的所有文档310a-310n，每个文档可以是但不限于xml文件。该文件还包括指示主题的标记304列和指示文档对该主题是否为肯定的isPostive306列，其中“是”表示肯定，“否”表示否定。如果文档可以分配多个相关主题，则文件中的文件名会列出多次，每个主题一次。

图4示出了来自包含文本402和噪声404的主体的文档集的示例性文档。虽然这个示例性文档是新闻文章，但来自文档集的文档可能与其他主题或形式有关。过滤模块124检测并移除噪声404(如图2的步骤204中所述)，使得诸如“你觉得这篇文章有用吗？为什么不订阅波士顿商业期刊……”并不用于分类，因为它不涉及实际的报道内容。

现在转向图5，公开了可用于访问设备170的用户界面174的示例性图形用户界面(GUI)。在一个实施方式中，用户界面174包括应用界面500，其包括指示分类过程的步骤的页眉502。在图5的示例中，页眉502代表上传阶段，如图2的步骤202-204中所述。应用界面500可以包括但不限于上传文件510a-510n的列表。

在进一步的实施方式中，应用界面500还可以包括具有与上传文档的质量有关的信息的部分520。在这个示例中，可以由精度值522和查全率值524以及F-测量值526来指定质量，该F-测量值可以是精度和查全率值的调和平均值。F-测量值允许用一个数字来描述模型的质量，从而简化对两个不同模型进行的比较。

在进一步的实施方式中，应用界面500还可以包括指示分类进度的部分530，并且具有用于设置532的进度、文档534的进度和训练536的进度的示例性数值指示器。

在另一个进一步的实施方式中，应用界面500还可以包括指示与上传的文档有关的统计数据的部分540。示例性统计数据可以是但不限于总文档的数量542和总主题的数量544。

在又另一个实施方式中，应用界面500还可以包括与指示器和引导相关的部分550，其可以是上传过程的状态和过滤模块124的处理的状态的视觉说明(即，移除重复、清理)。

继续到图6，公开了可用于访问设备170的用户界面174的示例性图形用户界面(GUI)。在一个实施方式中，用户界面174包括应用界面600，其包括指示分类过程的步骤为“验证训练集”(validate training set)的页眉602。可以按主题名称612列出训练集，并列出主题610a-610n和相应的标记的文档的数量614。在进一步的实施方式中，如果标记的文档的数量不满足由过滤模块124确定的预定阈值要求，则可以显示错误消息616并带有添加更多文档的注释。

在进一步的实施方式中，应用界面600可以包括具有与训练集的质量有关的信息的部分620。在该示例中，可以由精度值622和查全率值624以及F-测量值626来指定质量。

在又进一步的实施方式中，应用界面600可以包括具有关于分类进度的信息的部分630，类似于图5中描绘的532-536，具有用于设置632的进度、文档634的进度和训练636的进度的示例性数值指示器。一旦由用户通过用户界面174验证了训练集，则用户可以选择“下一步”640以继续该过程。

图7中描绘的应用界面示出了下一个步骤“训练主题”702，如图2的步骤208、212和218中所述的。在一个实施方式中，应用界面700可以呈现主题名称712列以及主题列表710a-710n；相应的肯定的文档的计数714；相应的精度值716和相应的查全率值718。用户可以基于对与主题相关的度量714-718的用户分析通过用户界面174来选择选项以训练所有主题720或训练单独主题722或调整单独主题724。一旦已经完成对主题的训练，可以由建模模块126生成定制的分类模型或者更新的初步模型和更新的分类模型，如图2的步骤206和210中所述。

然而，如果用户决定需要调整主题，则在选择调整724时，可以向用户呈现如图8中描绘的应用界面800。在一个实施方式中，如图2的步骤214-216中所述的，用户界面800可以呈现调整的页眉802以及调整分类规则804的选项。在图8的示例中，分类规则是针对“回购”主题。用户可以选择查看842所有分类规则、启用的分类规则或禁用的分类规则。在进一步的实施方式中，可以向用户呈现描述启用/禁用状态812、术语名称814、在文档库中找到的文档的计数816(即，其中发现该术语的文档库文档的数量。文档库指的是上传的未标记文档的整个文档库加上为该主题上传的标记的训练集)，以及在训练集中找到的文档的计数818(即，其中发现该术语的肯定的文档的数量，以及由用户作为文档集的一部分的肯定的文档初始发送的肯定的文档、由训练阶段标识的肯定的文档和由用户从反馈手动指定为肯定的任何文档的数量)的列，以及每个术语的行810a-810n。

列816和818中反映的数量可以提供对相应术语的深入了解，例如如果术语出现在不相称的大量文档库文档中，则该术语可能过于笼统。在另一个实例中，如果对于一个明显重要的术语而言肯定的文档的数量较少，那么可能需要仔细检查发送的肯定标记的集合。用户可以选择更改每个术语的禁用或启用状态。精度822和查全率值824也可以呈现在应用界面800中。

在另一个实施方式中，用户可以具有搜索特定分类规则830或添加分类规则832的选项。一旦用户对启用和禁用他们期望的术语感到满意，用户可以点击重新计算834以重新训练模型，如图2的步骤218中所述。用户也可以基于“反馈”836继续调整文档。

在进一步的实施方式中，用户可以使用如图9a和图9b中描绘的模型“特征”904进行调整。通过由用户选择或禁用行910a-910n中列出的特征来通过模型特征进行调整。类似于图8的“术语”，每个“特征”具有用于启用/禁用的对应列912、特征名称914、文档库中发现的文档的数量916，以及训练集中发现的文档的数量918。此外，还可以使用916和918中的对于特征的对应数量来做出如关于图8所述的类似推导。(即，关于短语的笼统性或有问题的初始数据集的推导)

在一个实施方式中，根据特征对分类的影响量而显示出特征。影响最大的特征出现在列表的顶部，而影响最小的特征出现在列表的底部。在另一个实施方式中，可以自动启用第一预定数量的特征。然而，如图9b中所示的一些禁用的特征可能是相关的，并且它们可以由用户手动启用。用户也可以仅通过如图9a中所示的启用的特征来过滤视图，或者通过如图9b中所示的禁用的特征来过滤视图。用户还可以搜索特征930、添加特征932、在改变特征的启用/禁用状态之后刷新列表934，或者继续基于“反馈”进行调整936。

转到图10，示出了用于调整反馈文档1004的示例性应用界面1000。在一个实施方式中，应用界面1000可以向用户呈现列出可疑文档1030、与主题相关的文档1032，以及不与该主题相关的文档1034的标签。用户还可以使用搜索栏1036搜索文档。用于用户反馈的可疑文档的示例性提示1012连同用于用户评估的突出显示了涉及字段的文档的预览1014一起呈现。在一个实施方式中，如在步骤218中所述的，当接收到用户反馈时，重新训练模型。调整和重新训练对初步模型和定制的分类模型都有影响。

在进一步的实施方式中，也可以在应用界面1000中同时显示根据用户输入实时重新计算的精度1022和查全率值1024。一旦用户对模型的调整感到满意，用户可以通过选择测试选项1040来选择测试数据集，并且最终将呈现如图11a中所示的测试结果。

如图11a中所示，通过用户界面174将示例性应用界面1100呈现给用户。在一个实施方式中，应用界面1100可以示出测试中的主题1102，以及其主题名称、文档计数的相应数量和相应的精度和查全率值。在进一步的实施方式中，模型的精度和查全率值可以以图形形式1112呈现，其可以是但不限于图形形式的历史值。

在又进一步的实施方式中，查全率1122和精度值1124可以在具有编辑1126数值的选项的单独部分中显示。为特定主题和为测试集中的所有主题提供精度和查全率值。

图11b是在用户选择“编辑”1126时显示的部分的示例，其向用户提供可调节滑块1130来将数值改变为期望的精度和查全率值。虽然在图11b中示出滑块1130，但是用户可以利用其他形式的图形输入来改变这些值。可以向用户呈现范围从0到1的置信度分数1132，其指示文档中确实讨论了主题的概率(即，值越高，概率越高)，并且还可以提供提议1134，其指示了对于最好结果的建议的精度和查全率值。一般来说，将滑块朝“精度”方向移动可通过忽略分数低于预定级别的某些主题实现更高准确度的结果，同时将滑块朝“查全率”的方向移动将通过接受更多较低分数的主题来实现更高的覆盖范围。更改精度和查全率阈值不会影响***标识和分配主题的方式，而是会定义过滤器来确定输出中包含哪些主题。用户然后可以选择应用1140来用修改的值继续，这将触发如图2中所述的步骤216、218、206、208、210、212、214、220、222。

返回图11a，如果用户对所呈现的度量(即，精度和查全率值)满意，则他们可以选择发布1150来将定制的分类模型发布到生产服务器。发布的定制的分类模型然后可以成为生产数据集182的一部分。

图1到图11b是给出了对本公开的解释的概念图。***的各种特征可以以硬件、软件或者硬件与软件的组合的方式实现。例如，***的一些特征可以在可编程计算机上执行的一个或多个计算机程序中实现。可以以高级程序语言或面向对象的编程语言实现每个程序来与计算机***或其他机器的通信。此外，每个这样的计算机程序可以存储在诸如通用或专用可编程计算机或处理器可读的只读存储器(ROM)的存储介质上，用于配置和操作计算机以执行上述功能。

值得注意的是，上面的附图和示例并不意味着将本公开的范围限制为单个实施方式，因为可能通过部分或全部互换所述或所示的元素的方式来实现其他实施方式。此外，在本公开的某些元素可以使用已知部件部分或全部实现的情况下，仅描述了在这些已知部件中对于理解本公开所必需的那些部分，并且省略了对这些已知部件的其他部分的详细描述以免混淆本公开。在本说明书中，除非本文另外明确指出，否则示出了单个部件的实施方式不一定受限于包括多个相同部件的其他实施方式，并且反之亦然。此外，申请人不旨在将说明书或权利要求中的任何术语归于不常见或特殊的含义，除非明确这样阐述。

Claims

1.一种自助分类方法，包含：

接收包含肯定标记的文档集和未标记文档集的文档集，其中所述肯定标记的文档集为包含或讨论一个主题的文档，所述未标记文档集为对于讨论一个主题没有被指定为肯定或否定的文档；

处理所述文档集以移除所述文档内的副本文档和噪声；

为所述文档集中的主题集中的每个主题生成初步模型；

训练所述初步模型以基于缩减的文档集来确定附加的肯定的和否定的文档集，其中所述缩减的文档集包括肯定标记的文档集和所述未标记文档集的小子集，其中所述训练包括：

识别所述文档集中的肯定文档所遵循的规则集；

通过所识别的规则集来识别并排除所述未标记文档集中的明确否定文档，所述明确否定文档为不遵循所述规则集的文档，且所述明确否定文档被从所述未标记文档集中移除，以留下遵循所述规则集的所述未标记文档集的所述小子集；并且

从所述缩减的文档集中提取所述附加的肯定的和否定的文档集；并且

使用所述训练的初步模型和所述附加的肯定的和否定的文档集生成定制的分类模型，其中生成所述定制的分类模型包括将所述确定的附加的肯定的和否定的文档集应用于所述初步模型。

2.根据权利要求1所述的方法，其中训练所述初步模型进一步包含应用最近相邻链接算法。

3.根据权利要求1所述的方法，进一步包含：

在预定的测试文档集上测试所述定制的分类模型，并向用户呈现与所述测试相关的精度和查全率值。

4.根据权利要求1所述的方法，进一步包含：

提供所述定制的分类模型并且至少提供精度和查全率值。

5.根据权利要求1所述的方法，进一步包含：

使用分类规则、特征选择、用户反馈或它们的组合中的一个来调整所述初步模型和所述定制的分类模型；

生成调整的初步模型和调整的定制的分类模型；并且

提供所述调整的定制的分类模型并且至少提供更新的精度和查全率值。

6.根据权利要求5所述的方法，其中使用分类规则进行调整包含：

向用户界面提供短语列表；并且

响应于包含或排除选项，将选择的短语列表应用于所述文档集，其中文档包含指示所选主题的一个或多个来自所述短语列表中的短语。

7.根据权利要求5所述的方法，其中使用特征选择进行调整包含向用户界面提供特征列表，所述特征列表进一步包含表征与主题相关联的文档的短语列表，并且响应于包含或排除选项，将选择的特征列表应用于所述文档集。

8.根据权利要求5所述的方法，其中使用用户反馈进行调整包含在用户界面上提供可选对话框以指示对与主题相关的文档进行的确认。

9.根据权利要求7所述的方法，进一步包含基于排名来加权所述特征列表。

10.根据权利要求5所述的方法，进一步包含发布所述调整的定制的分类模型。

11.根据权利要求1所述的方法，进一步包含：

使用所述肯定标记的文档集和所述否定的文档集验证所述主题集。

12.根据权利要求11所述的方法，进一步包含通过用户界面确定主题具有足够用于验证的文档。

13.一种自助分类***，包含：

包括处理器和存储指令的存储器的分类服务器，存储的指令响应于接收到包含肯定标记的文档集和未标记文档集的文档集而使得所述处理器，其中所述肯定标记的文档集为包含或讨论一个主题的文档，所述未标记文档集为对于讨论一个主题没有被指定为肯定或否定的文档：

处理所述文档集以移除文档内的副本文档和噪声；

为所述文档集中的主题集中的每个主题生成初步模型；

识别所述文档集中的肯定文档所遵循的规则集；

使用所述训练的初步模型和所述附加的肯定的和否定的文档集生成定制的分类模型，其中生成所述定制的分类模型包括将所确定的附加的肯定的和否定的文档集应用于所述初步模型。

14.根据权利要求13所述的***，其中所述初步模型应用最近相邻链接算法。

15.根据权利要求13所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

16.根据权利要求13所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

提供所述定制的分类模型并且至少提供精度和查全率值。

17.根据权利要求16所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

生成调整的初步模型和调整的定制的分类模型；并且

提供所述调整的定制的分类模型并且至少提供所述精度和查全率值。

18.根据权利要求17所述的***，其中分类规则向用户界面提供短语列表，并响应于包含或排除选项，将选择的短语列表应用于所述文档集，其中文档包含指示所选主题的一个或多个来自所述短语列表中的短语。

19.根据权利要求17所述的***，其中特征选择向用户界面提供特征列表，所述特征列表进一步包含表征与主题相关联的文档的短语列表，并且响应于包含或排除选项，将选择的特征列表应用于所述文档集。

20.根据权利要求17所述的***，其中用户反馈在用户界面上提供可选对话框以指示对与主题相关的文档进行的确认。

21.根据权利要求19所述的***，其中基于排名来加权所述特征列表。

22.根据权利要求17所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

发布所述调整的定制的分类模型。

23.根据权利要求13所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

24.根据权利要求23所述的***，其中所述存储器存储的指令响应于接收到包含所述肯定标记的文档集和所述未标记文档集的所述文档集而使得所述处理器：

通过用户界面确定主题具有足够用于验证的文档。