CN112749547A

CN112749547A - 文本分类器训练数据的产生

Info

Publication number: CN112749547A
Application number: CN202010315731.0A
Authority: CN
Inventors: J·阿姆里特; E·斯基尔斯; W·麦克尼尔
Original assignee: Inspire Cognition Co ltd
Current assignee: Inspire Cognition Co ltd
Priority date: 2019-10-30
Filing date: 2020-04-21
Publication date: 2021-05-04
Also published as: US10853580B1

Abstract

本申请案涉及文本分类器训练数据的产生。一种方法包含：接收指定文档语料库的文档中的所关注术语的输入，及确定代表目标词组的目标上下文嵌入，所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述方法还包含从所述文档语料库当中标识在语义上类似于所述目标词组的第一候选词组及在语义上不类似于所述目标词组的第二候选词组。所述方法进一步包含接收用户输入，所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联，并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述方法还包含基于所述用户输入产生经标记训练数据以训练文本分类器。

Description

文本分类器训练数据的产生

技术领域

本申请案涉及文本分类器。

背景技术

文本分类器是一种数据模型，其用于评估文本并将标记指派到文本，以将文本与一或多个类别相关联。举例来说，文本分类器可用于将文档(或另一文本样本)分类为主题类别，例如“传记”、“神秘”、“地质”、“宗教”等。

文本分类器通常是领域特定的。举例来说，可针对与特定主题相关或由特定实体拥有或操持的第一数据集定制第一文本分类器，且可针对与不同主题相关或由不同实体拥有或操持的第二数据集定制第二文本分类器。此类文本分类器的定制性质是归因于例如使用文本分类器或数据集的实体的不同关注及重点，是归因于数据集的固有差异，或两者兼而有之。

通常使用有监督机器学习技术及经标记训练数据来训练文本分类器。对于定制文本分类器，产生合适经标记训练数据可能有挑战性。举例来说，如果使用一组合适代表性经标记样本来训练文本分类器，那么文本分类器通常更可靠。还可通过为一些标记提供肯定及否定样本两者来改进可靠性。在此上下文中，肯定样本是应与特定标记相关联的样本，且否定样本是不应与特定标记相关联的样本。

对于既不熟悉数据集又不熟悉实体目标的人来说，使用文本分类器来适当地标记数据样本可能会很困难。既熟悉数据集又熟悉实体目标的主题专家可用来标记文本样本以产生经标记训练数据；然而，此类主题专家常常是高级的、高技能的员工或外部专家，其进行例如阅读文本及指派标记或在数据集中搜索代表性文本样本的任务所花费的时间是昂贵的。

发明内容

本文中描述用于简化产生针对文本分类器的训练数据的***及方法的特定实施方案。特定***通过辅助用户标识类似于经标记文本样本的其它文本样本以便标记肯定样本、否定样本或两者来简化经标记训练数据的产生。

在特定方面中，一种用于产生用于文档语料库的文本分类器的***包含一或多个处理器及耦合到所述一或多个处理器的一或多个存储器装置。所述一或多个存储器装置存储可由所述一或多个处理器执行以执行操作的指令，所述操作包含接收指定所述文档语料库的文档中的所关注术语的输入。所述操作还包含确定代表所述所关注术语的目标术语嵌入，及基于所述目标术语嵌入与代表来自所述文档语料库的术语的术语嵌入之间的距离，确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语。所述操作进一步包含确定代表目标词组的目标上下文嵌入。所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述操作还包含基于所述目标上下文嵌入与在语义上类似于所述目标词组的第一候选词组的上下文嵌入之间的距离，从所述文档语料库当中标识所述第一候选词组。所述操作进一步包含基于所述目标上下文嵌入与在语义上不类似于所述目标词组的第二候选词组的上下文嵌入之间的距离，从所述文档语料库的包含所述所关注术语或语义类似术语的词组当中标识所述第二候选词组。所述操作包含经由用户界面呈现包含所述第一候选词组及所述第二候选词组的输出，及经由所述用户界面接收用户输入。所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联，并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述操作还包含基于所述用户输入产生经标记训练数据以训练所述文本分类器。

在另一特定方面中，一种产生用于文档语料库的文本分类器的方法包含在计算装置处接收指定所述文档语料库的文档中的所关注术语的输入，及确定代表所述所关注术语的目标术语嵌入。所述方法还包含基于所述目标术语嵌入与代表来自所述文档语料库的术语的术语嵌入之间的距离，确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语。所述方法进一步包含确定代表目标词组的目标上下文嵌入。所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述方法还包含基于所述目标上下文嵌入与在语义上类似于所述目标词组的第一候选词组的上下文嵌入之间的距离，从所述文档语料库当中标识所述第一候选词组。所述方法进一步包含基于所述目标上下文嵌入与在语义上不类似于所述目标词组的第二候选词组的上下文嵌入之间的距离，从所述文档语料库的包含所述所关注术语或语义类似术语的词组当中标识所述第二候选词组。所述方法包含经由用户界面呈现包含所述第一候选词组及所述第二候选词组的输出，及经由所述用户界面接收用户输入。所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联，并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述方法还包含基于所述用户输入产生经标记训练数据以训练所述文本分类器。

在另一特定方面中，一种计算机可读存储装置存储可由处理器执行以执行操作的指令，所述操作包含接收指定文档语料库的文档中的所关注术语的输入，及确定代表所述所关注术语的目标术语嵌入。所述操作还包含基于所述目标术语嵌入与代表来自所述文档语料库的术语的术语嵌入之间的距离，确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语。所述操作进一步包含确定代表目标词组的目标上下文嵌入。所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述操作还包含基于所述目标上下文嵌入与在语义上类似于所述目标词组的第一候选词组的上下文嵌入之间的距离，从所述文档语料库当中标识所述第一候选词组。所述操作进一步包含基于所述目标上下文嵌入与在语义上不类似于所述目标词组的第二候选词组的上下文嵌入之间的距离，从所述文档语料库的包含所述所关注术语或语义类似术语的词组当中标识所述第二候选词组。所述操作包含经由用户界面呈现包含所述第一候选词组及所述第二候选词组的输出，及经由所述用户界面接收用户输入。所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联，并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述操作进一步包含基于所述用户输入产生经标记训练数据以训练文本分类器。

附图说明

图1说明可操作以产生经标记训练数据以训练文本分类器的***的特定实例。

图2说明由图1的***执行以产生经标记训练数据并训练文本分类器的操作的特定实例。

图3说明由图1的***执行以产生用于包含所关注术语及上下文术语的文本样本的嵌入数据的操作的特定实例。

图4说明产生经标记训练数据的方法的特定实例的流程图。

图5说明计算机***的特定实例，所述计算机***包含经配置以产生经标记训练数据以训练文本分类器的硬件及软件。

具体实施方案

图及以下描述说明了特定示范性实施例。应了解，所属领域的技术人员将能够设计出各种布置，所述布置尽管未在本文中明确地描述或展示，但体现本文中所描述的原理并包含在所附权利要求书的范围内。此外，本文中所描述的任何实例希望帮助理解本发明的原理，并应被认作没有限制。因此，本发明不限于下文所描述的特定实施例或实例，而是由权利要求书及其等效物限制。

本文中参考图式描述了特定实施方案。在描述中，贯穿图式，共同特征由共同参考数字指定。如本文中所使用，各种术语仅出于描述特定实施方案的目的，而并非希望是限制性的。举例来说，单数形式“一”及“所述”也希望包含复数形式，除非上下文另有明确指示。此外，本文中所描述的一些特征在一些实施方案中是单数，而在其它实施方案中是复数。本文中，为便于参考，除非正在描述与多个特征有关的方面，否则通常将此类特征介绍为“一或多个”特征，并随后以单数形式提及。

术语“包括”与“包含”可互换地使用。另外，术语“其中(wherein)”与术语“其中(where)”可互换地使用。如本文中所使用，“示范性”指示实例、实施方案及/或方面，且不应被认作限制或指示偏好或优选实施方案。如本文中所使用，用于修饰例如结构、组件、操作等的元素的序数术语(例如“第一”、“第二”、“第三”等)本身并不指示所述元素关于另一元素的任何优先级或顺序，而仅仅是区分所述元素与具有相同名称的另一元素(如果没有使用序数术语)。如本文中所使用，术语“集”是指一或多个元素的分组，且术语“多个”是指多个元素。

如本文中所使用，除非上下文另有指示，否则“产生”、“计算”、“使用”、“选择”、“存取”及“确定”是可互换的。举例来说，“产生”、“计算”或“确定”参数(或信号)可指主动地产生、计算或确定参数(或信号)，或可指使用、选择或存取已经例如由另一组件或装置产生的参数(或信号)。如本文中所使用，“耦合”可包含“通信耦合”、“电耦合”或“物理耦合”，并还可(或替代地)包含其任何组合。两个装置(或组件)可经由一或多个其它装置、组件、导线、总线、网络(例如有线网络、无线网络或其组合)等直接或间接耦合(例如通信耦合、电耦合或物理耦合)。电耦合的两个装置(或组件)可包含在同一装置或不同装置中，并可经由电子装置、一或多个连接器或电感耦合而连接，这是作为说明性、非限制性实例。在一些实施方案中，通信耦合(例如进行电通信)的两个装置(或组件)可直接或间接(例如经由一或多个导线、总线、网络等)发送及接收电信号(数字信号或模拟信号)。如本文中所使用，“直接耦合”用于描述耦合(例如通信耦合、电耦合或物理耦合)而没有介入组件的两个装置。

如本文中所使用，“术语”是指一或多个词(例如单个词、短语、从句等)、一或多个缩写(例如简缩词、首字母缩略词、首字母缩写词、缩约词等)或其组合。此外，如本文中所使用，“语义类似性”是指两个或更多个术语的类似度或相关度。举例来说，语义类似性可基于嵌入空间中的两个术语之间的距离来确定或测量。“语义不类似性”是指两个或更多个术语的不类似度，并可基于嵌入空间中的两个或更多个术语之间的距离来确定或测量。

图1说明可操作以产生经标记训练数据180以训练文本分类器178的***100的特定实例。***100包含计算装置102，其包含一或多个处理器104及耦合到处理器104的一或多个存储器装置108。计算装置102还包含一或多个接口装置106，以使计算装置102能够与输入/输出装置、其它计算装置等通信。存储器装置108存储指令110，其可由处理器104执行以执行下文所描述的操作以基于文档语料库114产生经标记训练数据180。

在下文描述中，指令110被描述为包含各种功能指令集，其包含：训练数据产生器172及分类器训练器174。将指令110划分为所描述功能指令集仅仅是出于便于促进由指令110执行的各种操作的描述的目的，而不是限制性的。在一些实施方案中，指令110包含比参考图1所描述的更少的功能指令集。举例来说，训练数据产生器172及分类器训练器174可组合在单个功能指令集中，例如文本分类应用程序。在其它实施方案中，指令110包含比参考图1所描述的更多的功能指令集。举例来说，指令110可包含预处理指令集，其促进在训练数据产生器172的执行之前获取文档语料库114的文档。

另外，依据各种功能指令集描述训练数据产生器172，所述功能指令集包含：术语编码器160、类似性检测器162、上下文解析器164、上下文编码器166、类似性搜索引擎168及不类似性搜索引擎170。将训练数据产生器172划分为所描述功能指令集仅仅是出于便于促进由训练数据产生器172执行的各种操作的描述的目的，而不是限制性的。在一些实施方案中，训练数据产生器172包含比参考图1所描述的更少的功能指令集。举例来说，类似性搜索引擎168及不类似性搜索引擎170可组合在单个搜索引擎中。在其它实施方案中，训练数据产生器172包含比参考图1所描述的更多的功能指令集。

图1还说明多个用户界面，包含第一用户界面120及第二用户界面140，其可响应于指令110的执行而呈现(例如经由显示装置)给用户。用户界面120、140使用户能够提供用户输入(例如用户输入136及用户输入152)以指导或影响在指令110的执行期间执行的操作。在一些实施方案中，指令110还可产生其它用户界面，接收其它用户输入，从其它来源(例如其它计算机***)接收输入，或产生输出。

在图1中，用户界面120及140是用于提供信息以辅助用户向文档语料库114的文档指派标记的用户界面的实例。第一用户界面120描绘文档样本122及各种可选择显示元素以指导搜索及文件标记功能，例如标记输入可选择项目134、关键词搜索可选择项目128及“相似检索”(more like this；MLT)搜索可选择项目130，下文描述了其中的每一者。在其它实施方案中，第一用户界面120可包含更多、更少或不同的特征或显示元素。用户界面120、140的可选择显示元素(例如可选择项目128、130及134)可包含按钮、下拉菜单、复选框或其它输入或导览控制元素。

文档样本122对应于文档语料库114的文档或文档的一部分，其显示给用户以使用户能够将至少一个标记指派到文档(或到文档样本122)。对于文本分类，通常期望用户检视足够的文档以理解使用特定术语的上下文。因此，在图1中，文档样本122包含所关注术语(TOI)126及在文档中出现在TOI 126附近的上下文词124。TOI 126可包含单个词或一组词。在图1的上下文中，TOI 126被用户关注为潜在地与待由文本分类器178使用的标记(例如类别标记)相关联。TOI 126的特定内容可取决于文档语料库114、用户的目标或意图，及其它可能因素。作为特定实例，如果用户是音乐历史学家，且文档语料库114包含正在针对与历史上重要的音乐团体有关的内容进行评估的新闻文章，那么TOI 126可包含乐队或音乐场所的名称。

为了说明，作为所关注术语的术语“女王”可指君主或乐队。此实例突出显示可能会导致无效文本分类器的情形—具体来说，取决于上下文，一个术语可具有不同的含义(语义内容)。关键词搜索可选择项目128使用户能够在文档语料库114中搜索词女王；然而，有可能的是(取决于文档语料库114的内容)，所返回的搜索结果将混合，包含对君主的一些参考及对女王乐队的一些参考。为避免或减少错误标记，用户将需要阅读与关键词相关联的内容(例如上下文词124)以决定应是否或如何标记每一搜索结果。

为简化此过程，第一用户界面120包含MLT搜索可选择项目130以使用户能够执行MLT搜索。为执行MLT搜索，用户在文档样本122中提供指定TOI 126的输入(例如用户输入136)，并选择MLT搜索可选择项目130。在一些实施方案中，用户还或替代地在启动MLT搜索之前或与之同时将TOI 126指派到文本分类类别(即，将标记指派到TOI 126)。

响应于用户输入136，指令110可由处理器104执行以标识目标词组，其包含TOI126及文档样本122中靠近TOI 126的上下文词。指令110致使处理器104使用目标词组以在文档语料库114中搜索语义类似词组。语义类似词组是在上下文嵌入空间中接近(例如在阈值距离内)目标词组的一组词。在一些实施方案中，指令110还致使处理器104使用目标词组以在文档语料库114中搜索语义不类似词组。语义不类似词组是包含TOI 126并在上下文嵌入空间中远离(例如大于阈值距离)目标词组的一组词。在一些实施方案中，语义类似词组、语义不类似词组或两者可包含在语义上类似于TOI 126而不是包含TOI 126的术语。举例来说，在搜索语义类似词组或语义不类似词组之前，指令110可致使处理器104搜索在语义上类似于TOI 126(例如在术语嵌入空间中TOI 126的阈值距离内)的术语，并使用上下文词124及在语义上类似于TOI 126的术语以产生用于搜索语义类似或语义不类似词组的额外目标词组。

指令110可由处理器104执行以产生输出138以标识语义类似词组、语义不类似词组或两者。举例来说，输出138包含或用于产生第二用户界面140，其包含一或多个文档样本142。文档样本142包含文档语料库114的文档的包含语义类似词组、语义不类似词组或两者的部分。为了说明，第一文档样本144可包含语义类似词组，且第二文档样本146可包含语义不类似词组。尽管在图1中说明两个文档样本144及146，但MLT搜索结果可标识两个以上词组，且第二用户界面140可包含对应于MLT搜索结果的两个以上文档样本142。

用户可经由第二用户界面140将文档样本142中的一或多者指派到相应文本分类类别。为了说明，在图1中，用户可选择与第一文档样本144相关联的复选框148，并选择标记输入可选择项目134以指示第一文档样本144与由特定标记代表的特定文本分类类别相关联。在其它实施方案中，第二用户界面140可包含其它可选择控制元素(例如复选框150)以接收将文档样本142中的一或多者指派到相应文本分类类别的用户输入(例如用户输入152)。

在特定实施方案中，第二用户界面140使用户能够基于MLT搜索指定特定文本分类类别的肯定及否定实例两者。举例来说，第二用户界面140包含MLT搜索结果中的至少一些，并在视觉上区分文档样本142中的TOI 126或在语义上类似于TOI 126的术语。因此，用户可看到每一文档样本142中的哪个术语致使在MLT搜索结果中列出文档样本142。如上文所解释，MLT搜索结果可列出一或多个不类似词组，其对应于文档样本142中的一或多者，例如第二文档样本146。在MLT搜索结果中标识不类似词组以改进文本分类器区分与文本分类类别相关联的TOI 126(或语义类似术语)的使用与不与文本分类类别相关联的TOI 126(或语义类似术语)的使用的能力。为了说明，在检视第二文档样本146之后，用户可确定在第二文档样本146中使用的TOI 126不具有与文本分类类别相关联的含义。举例来说，如果TOI 126是“女王”，且用户正在标记与“音乐团体”文本分类类别相关联的文档样本142，那么用户可检视第二文档样本146并确定在第二文档样本146中的术语“女王”的使用是对君主而不是对女王乐队的参考。因此，第二文档样本146可被指定为文本分类类别的否定实例。

在一些实施方案中，用户界面120允许用户指定一个以上TOI 126或在两个或更多个相异上下文中指定TOI 126以促进区分两个或更多个术语。举例来说，当文档语料库114很可能含有两个或更多个令人困惑的类似术语时，例如“女王”是指乐队且“女王”是指君主，那么可使用用户界面120来指定第一上下文中的第一术语(即，第一TOI 126A)及第二上下文中的第二术语(即，第二TOI 126B)。在此实例中，第一TOI 126A可对应于女王，其中上下文是对乐队的论述，且第二TOI 126B可对应于女王，其中上下文是对君主的论述。在此实例中，当执行MLT搜索时，类似性搜索引擎168标识在语义上类似于第一TOI 126A的第一组术语及在语义上类似于第二TOI 126B的第二组术语。此外，不类似性搜索引擎170标识在语义上不类似于第一TOI 126A及第二TOI 126B两者的第三组术语。

第三组术语中的每一术语含有TOI 126A或126B中的一者或语义类似术语，但第三组术语中的每一术语在语义上不类似于第一TOI 126A或第二TOI 126B。因此，除非用户能够提供区分实例，否则第三组术语中的术语很可能会由经训练分类器误分类。在此情形中，第二用户界面140显示来自第三组术语的实例以促进标识区分实例。

指令110可由处理器104执行以基于由用户指派的标记来产生经标记训练数据180。在图1的***的技术利益上的是在MLT搜索结果列表中包含语义类似词组及语义不类似词组两者，这与仅寻找特定词的出现而不考虑上下文语义类似性的问题的传统的关键词搜索结果相反。此外，通过在MLT搜索结果列表中包含语义类似及语义不类似词组两者，与传统的技术相比，计算装置102减少了在经标记训练数据180中产生肯定及否定实例所需的处理时间及资源(以及用户时间及努力)。在经标记训练数据180中使用肯定及否定实例可由文本分类器178(例如改进其操作)改进类别指派的准确性。

参考图2描述***100的特定操作实例的细节。在图2中，说明指令110的各种功能指令集以及输入到功能指令集中的每一者或由其输出的数据的实例。

在图2中，例如图1的计算装置102的计算装置接收指定文档语料库114的文档202中的TOI 126的输入。举例来说，用户可使用图1的第一用户界面120以检视文档202(作为一或多个文档样本122)。在此实例中，用户可在特定文档样本122中选择TOI 126以产生指定TOI 126的用户输入136。

计算装置102基于文档202及指定TOI 126的输入来执行上下文解析器164以标识上下文词124。在特定实施方案中，上下文词124对应于或包含围绕文档202中的TOI 126的特定数目个词。举例来说，上下文词124可包含在文档202中的TOI 126之前(例如紧接在其之前)的五个词及在文档202中的TOI 126之后(例如紧随其后)的五个词。在其它实例中，上下文词124包含更多词(例如在TOI 126之前的十个词及在TOI 126之后的十个词)或更少词(例如在TOI 126之前的三个词及在TOI 126之后的三个词)。此外，在一些实例中，上下文词124在TOI 126之前包含与在TOI 126之后不同数目的词，例如在TOI 126之前的七个词及在TOI 126之后的十个词。

在另一特定实施方案中，上下文解析器164标识包含TOI 126的语法结构(例如句子或段落)，并选择语法结构的其余词作为上下文词124。举例来说，当语法结构是句子时，上下文解析器164选择除TOI 126之外的句子的词作为上下文词124。为了说明，上下文解析器164可扫描一遍文档202的位于TOI 126之前的部分以标识指示句子开始的第一标点符号，扫描一遍文档202的位于TOI 126之后的部分以标识指示句子结束的第二标点符号，并在第一标点符号与第二标点符号之间选择除TOI 126之外的所有词作为上下文词124。在一些实施方案中，上下文解析器164可在上下文词124中包含一或多个邻近句子的词。举例来说，上下文解析器164可从包含TOI 126的第一句子、位于第一句子之后的第二句子及位于第一句子之前的第三句子选择上下文词124。

在其它实施方案中，上下文解析器164使用语法结构及词计数的组合来标识上下文词124。举例来说，上下文词124可包含完整句子或规定数目个词中的较短者。为了说明，上下文解析器164可从TOI 126开始并在两个方向上扫描文档202以标识多达十个上下文词124。在此说明性实例中，如果上下文解析器164在已标识十个上下文词124之前到达指示句子结束的标点符号，那么上下文解析器164在TOI 126之后停止搜索上下文词124，但继续在TOI 126之前搜索上下文词124，直到已标识十个上下文词124或到达句子开始。因此，在此实例中，如果包含TOI 126的句子在TOI 126之前包含五个词并在TOI 126之后包含五个词，那么上下文词124包含在TOI 126之前的五个词及在TOI 126之后的五个词。然而，如果句子在TOI 126的第一侧上包含少于五个词并在TOI 126的第二侧上的包含多于五个词，那么上下文词124在TOI 126的第一侧上包含少于五个词并在TOI 126的第二侧上包含多于五个词。如果句子的总长度小于十个词加上TOI 126的长度，那么上下文词124包含少于十个词。

计算装置102执行术语编码器160，以将TOI 126及每一上下文词124映射到术语嵌入空间中。举例来说，术语编码器160确定代表TOI 126的目标术语嵌入206，并确定代表上下文词124的上下文词嵌入204。目标术语嵌入206及上下文词嵌入204是术语嵌入222的例子，这与上下文嵌入226相异，上下文嵌入226包含在嵌入数据中并在下文被进一步描述。术语嵌入222是代表经分析的一组文档中的词之间的句法及语义关系的值的向量。所述一组文档可包含或对应于文档语料库114，或所述一组文档可独立于文档语料库114。举例来说，当文档语料库114包含呈英语的文档时，术语嵌入222可基于英语语言文档的相异数据集的分析而产生。在此实例中，术语嵌入222一般代表英语语言词之间的句法及语义关系，而不是特定来说代表文档语料库114中的文档。替代地，可基于文档语料库114中的文档来确定术语嵌入222，例如经由连续词袋(continuous bag of words；CBOW)过程或跳字(skip-gram)过程。

在特定实施方案中，术语嵌入222存储在数据库112中，例如存储在嵌入数据116的查找表或其它数据结构中，且通过在术语嵌入222中查找对应术语来确定目标术语嵌入206、上下文词嵌入204或两者。举例来说，文档语料库114可用于产生标识出现在文档语料库114中的所有术语(或词)的术语列表220，且嵌入数据116可包含用于术语列表220中的每一术语的术语嵌入222。在此实例中，术语编码器160在嵌入数据116中查找TOI 126以确定目标术语嵌入206，并查找上下文词124中的每一者以确定相应上下文词嵌入204。

在另一特定实施方案中，通过将代表待映射的每一术语的数据作为输入提供到经训练术语嵌入网络来动态地确定目标术语嵌入206、上下文词嵌入204或两者。在此实施方案中，响应于对应于特定词或术语的输入，经训练术语嵌入网络产生对应于代表词或术语的术语嵌入的输出。举例来说，当将TOI 126作为输入提供到经训练术语嵌入网络时，经训练术语嵌入网络输出目标术语嵌入206。同样地，当将上下文词124中的一者作为输入提供到经训练术语嵌入网络时，经训练术语嵌入网络输出代表上下文词的上下文词嵌入204。

在一些实施方案中，目标术语嵌入206被提供到类似性检测器162。在此类实施方案中，类似性检测器162比较目标术语嵌入206与嵌入数据116的术语嵌入222，以确定文档语料库114是否包含在语义上类似于TOI 126的一或多个术语。如果类似性检测器162确定文档语料库114包含在语义上类似于TOI 126的一或多个术语，那么类似性检测器162产生语义类似术语列表并使用语义类似术语列表来标识上下文嵌入226的子集208，其中子集208包含针对包含语义类似术语的词组224的上下文嵌入226。类似性检测器162还可或可替代地包含在子集208中的包含所关注术语126的词组224的上下文嵌入226。因此，子集208包含代表包含TOI 126的词组224的上下文嵌入226，针对包含在语义上类似于TOI 126的术语的词组224，或两者。

类似性检测器162基于目标术语嵌入206与代表来自文档语料库114的术语的术语嵌入222之间的距离来标识语义类似术语。举例来说，类似性检测器162可确定目标术语嵌入206与术语列表220中的术语的术语嵌入222之间的距离度量的值。相对于目标术语嵌入206满足类似性度量(例如在术语嵌入空间中的目标术语嵌入206的阈值距离内)的由术语嵌入222代表的术语被标识为TOI 126的语义类似术语。

计算装置102执行上下文编码器166以确定代表目标词组的目标上下文嵌入210，其中目标词组包含TOI 126及上下文词124。目标上下文嵌入210是代表文档语料库114的多组词之间的句法及语义关系的值的向量。值的向量代表特征空间(在本文中被称为上下文嵌入空间)中的点。

在特定实施方案中，通过将代表目标词组的术语嵌入(例如目标术语嵌入206及上下文词嵌入204)作为输入提供到经训练上下文嵌入网络来确定代表目标词组的目标上下文嵌入210。在另一实施方案中，嵌入数据116包含用于文档语料库114的每一词组224的向量(例如上下文嵌入226)。在此实施方案中，通过在上下文嵌入226中查找代表目标词组的目标上下文嵌入210来确定目标上下文嵌入210。

在一些实施方案中，可使用经训练上下文嵌入网络来预先(例如作为在接收指示TOI126的输入之前的预处理操作)确定代表文档语料库114的词组224的上下文嵌入226。举例来说，在图2中，嵌入数据116包含标识文档语料库114的词组224的数据。在上下文解析器164使用来标识上下文词124的相同基础上标识每一词组224。举例来说，如果上下文解析器164选择上下文词124，使得上下文词124包含文档202的特定数目个词(例如包含TOI 126的十一个词)，那么词组224对应于来自文档语料库114的文档的特定数目个词(例如十一个词)的块。为了说明，可通过使用十一个词的滑动窗口以解析文档语料库114的每一文档来确定词组224。在另一实例中，如果上下文解析器164基于语法结构(例如句子)选择上下文词124，那么词组224对应于文档语料库114的对应语法结构(例如句子)中的词的块。为了说明，文档语料库114的每一句子可对应于词组224。

在特定实施方案中，经训练上下文嵌入网络包含具有一或多个循环结构(例如一或多个长短期记忆层)的神经网络，如参考图3进一步所描述。在此实施方案中，代表词组224的词的术语嵌入222作为有序序列的输入向量输入到神经网络，其中有序序列的输入向量的每一输入向量代表词组224的对应词。举例来说，如果TOI 126是单个词，且上下文解析器164在TOI 126的任一侧选择三个词作为上下文词，那么目标词组包含七个词(例如三个先前上下文词、TOI 126，及三个后继上下文词)。在此实例中，将代表目标词组的词的术语嵌入222作为输入以所述词出现在文档中的顺序提供到经训练上下文嵌入网络：对应于第一先前上下文词的第一上下文词嵌入、对应于第二先前上下文词的第二上下文词嵌入、对应于第三先前上下文词的第三上下文词嵌入、目标术语嵌入、对应于第一后继上下文词的第四上下文词嵌入、对应于第二后继上下文词的第五上下文词嵌入、对应于第三后继上下文词的第六上下文词嵌入。在其它实例中，此顺序反转，使得首先输入对应于第三后继上下文词的第六上下文词嵌入，且最后输入对应于第一先前上下文词的第一上下文词嵌入。

在一些实施方案中，将目标上下文嵌入210作为输入提供到类似性搜索引擎168。类似性搜索引擎168从上下文嵌入226或子集208当中标识对应于第一候选词组212的一或多个上下文嵌入。基于目标上下文嵌入210与第一候选词组212的上下文嵌入之间的距离，第一候选词组212中的每一词组在语义上类似于目标词组。举例来说，每一上下文嵌入是代表上下文嵌入空间中的点的值的向量。类似性搜索引擎168确定代表上下文嵌入空间中的两个点之间的距离的距离度量(例如欧几里得距离、余弦距离、曼哈顿距离等)的值，其中所述点中的一者代表目标上下文嵌入210且另一点对应于嵌入数据116或子集208的上下文嵌入226中的一者。

由类似性搜索引擎168输出的第一候选词组212对应于文档语料库114的最类似于(例如在上下文嵌入空间中最接近)目标上下文嵌入210的词组。在一些实施方案中，第一候选词组212包含文档语料库114的最类似于目标上下文嵌入210的规定数目个词组224，例如三个最类似的词组。在其它实施方案中，第一候选词组212各自包含文档语料库114的词组224，其满足类似性阈值(例如在上下文嵌入空间中到目标上下文嵌入210的阈值距离内)。在其它实施方案中，类似性搜索引擎168使用另一选择标准来选择第一候选词组212，或使用选择标准的组合。为了说明，第一候选词组212可包含文档语料库114的满足类似性阈值的多达规定数目个词组224。在此实例中，如果没有词组满足类似性阈值，那么返回空搜索结果。

在一些实施方案中，子集208仅包含针对包含TOI 126的词组224的上下文嵌入226，且由类似性搜索引擎168从子集208当中选择第一候选词组212。因此，在此类实施方案中，第一候选词组212中的每一者包含TOI 126。在其它实施方案中，子集208包含针对包含TOI 126的词组224及针对包含在语义上类似于TOI 126的术语的词组224的上下文嵌入226。在此类实施方案中，由类似性搜索引擎168选择的第一候选词组212中的每一者包含TOI 126或在语义上类似于TOI 126的术语。

在一些实施方案中，还将目标上下文嵌入210作为输入提供到不类似性搜索引擎170。不类似性搜索引擎170从子集208当中标识对应于第二候选词组214的一或多个上下文嵌入。第二候选词组214的每一词组包含TOI 126或在语义上类似于TOI 126的术语，并基于目标上下文嵌入210与第二候选词组214的上下文嵌入之间的距离在语义上不类似于目标词组。举例来说，不类似性搜索引擎170确定代表上下文嵌入空间中的两个点之间的距离的距离度量(例如欧几里得距离、余弦距离、曼哈顿距离等)的值，其中所述点中的一者代表目标上下文嵌入210且另一点对应于子集208的上下文嵌入226中的一者。在此实例中，当距离度量满足不类似标准时，不类似搜索引擎170确定词组在语义上不类似于目标词组。当上下文嵌入与目标上下文嵌入210之间的在上下文嵌入空间中的距离大于阈值时，或当上下文嵌入距目标上下文嵌入210的距离大于子集208的其它上下文嵌入距目标上下文嵌入210的距离时，通过特定上下文嵌入满足不类似性标准。举例来说，由不类似性搜索引擎170输出的第二候选词组214可对应于子集208的距上下文嵌入空间中的目标上下文嵌入210最远的上下文嵌入。在此实例中，第二候选词组214可包含文档语料库114的最不类似于目标词组的规定数目个词组224，例如三个最不类似的词组。在另一实例中，第二候选词组214各自包含在子集208中代表的词组，其比不类似性阈值更远(例如比上下文嵌入空间中的阈值距离距目标上下文嵌入210更远)。在其它实施方案中，不类似性搜索引擎170使用另一选择标准来选择第二候选词组214，或使用选择标准的组合。为了说明，第二候选词组214可包含满足不类似性阈值的多达规定数目个词组224。在此实例中，如果没有词组满足不类似性阈值，那么返回空搜索结果。

第一候选词组212、第二候选词组214或两者作为输出经由用户界面140提供到用户。举例来说，用户界面140将第一候选词词组212标识为文档样本142的一或多个文档样本，并将第二候选词组214标识为文档样本142的一或多个其它文档样本。

用户可与用户界面140交互以将文档样本142中的一或多者(例如第一候选词组212、第二候选词组214或两者中的一或多者)指派到文本分类类别。举例来说，用户可提供第一标记输入216以将特定标记(例如文本分类类别标识符)指派到第一候选词组212中的一或多者。在此实例中，基于第一标记输入216，训练数据产生器172存储与第一标记输入216相关联的第一候选词组212中的一或多者作为与特定标记相关联的文本分类类别的肯定实例。用户还可或替代地提供第二标记输入218以指示第二候选词组214中的一或多者是特定标记的否定实例(例如文本分类类别标识符)。基于第二标记输入218，训练数据产生器172存储与第二标记输入218相关联的第二候选词组214中的一或多者作为与特定标记相关联的文本分类类别的否定实例。

在一些情形中，用户可提供第一标记输入216以将特定标记指派到第二候选词组214中的一或多者，或可提供第二标记输入218以将特定标记指派到第一候选词组212中的一或多者。如上文所指示，第一候选词组212是文档语料库114的由类似性搜索引擎168标识为在语义上类似于目标词组的词组，且第二候选词组214是文档语料库114的由不类似性搜索引擎170发现为在语义上不类似于目标词组的词组。然而，此类自动化语义类似性/不类似性搜索过程可能会以对于主题专家标识来说简单的方式对一些词组进行误分类。举例来说，当上下文解析器164将文档解析为个别句子时，类似性搜索引擎168及不类似性搜索引擎170各自一次分析一个句子的上下文嵌入。然而，在一些文档中，可能需要阅读整个段落来理解正确的上下文。在此类情形中，即使段落整体上将向人类主题专家指示句子不与目标词组的同一主题相关(例如在语义上不类似于目标词组)，类似性搜索引擎168也可能会确定所述句子应包含在第一候选词组212中。替代地，即使段落整体上将向人类主题专家指示句子与目标词组的同一主题相关(例如在语义上类似于目标词组)，不类似性搜索引擎170也可能会确定所述句子应包含在第二候选词组214中。在这些情形中的任一者中，用户在检视用户界面140中呈现的文档样本142之后可校正错误并适当地将文档样本142指派为特定标记的肯定或否定实例。由用户进行的此类校正可显著地改进文本分类器在指派分类标记时的准确性。

训练数据产生器172产生经标记训练数据180。举例来说，训练数据产生器172存储或修改一或多个数据结构(例如数据表)以指示第一候选词组212及第二候选词组214中的哪些词组被指派为一或多个标记(或文本分类类别)中每一者的肯定或否定实例。

在许多情况下，用户可使用计算装置102以基于若干MLT搜索、多个TOI 126等来标记词组，以产生代表文档语料库114及用户的目标及关注的一组完整经标记训练数据180。在此类情况下，用户可在训练文本分类器178之前重复上文所描述的操作。举例来说，用户可执行文档语料库的关键词搜索以寻找应被指派为特定标记的肯定实例的关键词的出现。用户可在用户界面120的文档样本122中的一者中将关键词的出现指定为TOI 126，并基于文档样本执行MLT搜索。用户可将响应于MLT搜索而显示的文档样本142中的一或多者指定为特定标记的肯定或否定实例，以致使产生额外经标记训练数据。

将经标记训练数据180作为输入提供到分类器训练器174。分类器训练器174使用经标记训练数据180执行有监督学习操作以产生文本分类器178。特定有监督学习操作可取决于所产生的文本分类器178的类型。在一些实施方案中，分类器训练器174经配置以基于经标记训练数据180产生多个文本分类器(例如多个初步文本分类器)。在此类实施方案中，多个初步文本分类器可属于不同类型，例如基于神经网络的分类器、基于决策树的分类器、基于支持向量机的分类器、基于回归的分类器、基于感知机的分类器、基于朴素贝叶斯的分类器、使用另一机器学习过程的文档分类器，或其组合。在此类实施方案中，多个初步文本分类器中的表现最佳者可被指定为文本分类器178。

图3说明由图1的***执行以产生用于包含所关注术语及上下文术语的文本样本的嵌入数据的操作的特定实例300。在图3中，说明了文档语料库114的特定文档样本122。文档样本122包含实例句子“英国摇滚女王乐队计划重聚巡演”，其中术语“女王”是TOI 126。

在图3的实例中，上下文解析器164将文档解析为句子以标识包含TOI 126及上下文词124的目标词组302，上下文词124对应于句子的除TOI 126之外的其它词。因此，在图3中，目标词组302包含词“一”、“乐队”、“英国”、“计划”、“女王”、“重聚”、“摇滚”及“巡演”。

在图3中所说明的实例中，嵌入数据116包含用于文档语料库114中的每一术语的术语嵌入222。每一术语嵌入是代表嵌入空间中的位置的值的向量。尽管图3将值说明为整数，但在其它实施方案中，值是浮点值，例如在0与1之间的值。

在图3中所说明的实例中，术语编码器160查找目标词组302的术语的术语嵌入222以标识目标词组嵌入306，其对应于针对目标词组302的词的词嵌入。如参考图2所描述，在一些实施方案中，术语编码器160使用经训练嵌入网络(例如神经网络)来产生目标词组嵌入306，而不是查找所述目标词组嵌入306。

将目标词组嵌入306作为有序序列的输入向量310提供到上下文编码器166。举例来说，基于文档中的目标词组的顺序以有序序列的输入向量310来布置对应于目标词组嵌入306的向量。为了说明，有序序列的输入向量310的第一输入向量对应于词“英国”，其为文档样本122中对应于目标词组302的句子的第一个词。同样地，有序序列的输入向量310的最后输入向量对应于词“巡演”，其为文档样本122中对应于目标词组302的句子的最后一个词。在其它实施方案中，有序序列的输入向量310的顺序反转。为了说明，在此类实施方案中，图3中所说明的有序序列的输入向量310将具有对应于作为第一输入向量的“巡演”的向量及对应于作为最后输入向量的“英国”的向量。

上下文编码器166包含基于神经网络的嵌入网络，其具有一或多个循环结构以考虑输入向量的顺序。在图3中所说明的实例中，循环结构包含或对应于一或多个长短期记忆(LSTM)层312。上下文编码器166响应于有序序列的输入向量310的输入而产生目标上下文嵌入210。

图4说明产生经标记训练数据以训练用于文档语料库的文本分类器的方法400的特定实例的流程图。方法400可由执行图1的指令110的处理器104启动、执行或控制。

方法400包含：在402处，在计算装置处接收指定文档语料库的文档中的所关注术语的输入。举例来说，用户可在用户界面120中的文档样本122的显示中选择或以其它方式指定TOI 126。在一些实施方案中，用户可经由关键词搜索来指定TOI 126，且文档样本122可对应于或包含关键词搜索结果列表。在此类实施方案中，用户可从文档样本122选择在适当的上下文中包含TOI 126的特定文档样本。用户可基于特定文档样本及TOI 126来实施MLT搜索。

方法400包含：在404处，确定代表所关注术语的目标术语嵌入。举例来说，术语编码器160可确定目标术语嵌入206，如参考图1及2所描述。为了说明，术语编码器160可包含嵌入网络，其将TOI 126作为输入并使用经训练神经网络产生目标术语嵌入206。在另一实例中，术语编码器160可在与文档语料库114相关联的嵌入数据116中查找目标术语嵌入206。

方法400包含：在406处，基于目标术语嵌入与代表来自文档语料库的术语的术语嵌入之间的距离，确定文档语料库是否包含在语义上类似于所关注术语的一或多个术语。举例来说，可将目标术语嵌入206及与文档语料库114相关联的术语嵌入222视为词嵌入空间中的点。在此实例中，类似性检测器162可计算目标术语嵌入206与术语嵌入222的一或多个其它点之间的距离度量(例如欧几里得距离、余弦距离、曼哈顿距离等)。在此实例中，如果距离度量满足(例如距离小于或等于)距离阈值，那么术语被认为是在语义上类似于TOI126。

方法400包含：在408处，确定代表目标词组的目标上下文嵌入，其中目标词组包含所关注术语及位于文档中靠近所关注术语的上下文词。举例来说，上下文编码器166可使用目标术语嵌入206及上下文词嵌入204来确定目标上下文嵌入210，如参考图3详细地所描述。

方法400包含：在410处，基于目标上下文嵌入与在语义上类似于目标词组的第一候选词组的上下文嵌入之间的距离，从文档语料库当中标识第一候选词组。举例来说，目标上下文嵌入210及与文档语料库114相关联的上下文嵌入226可被视为上下文嵌入空间中的点。在此实例中，类似性搜索引擎168可计算目标上下文嵌入210与上下文嵌入子集208的一或多个其它点之间的距离度量(例如欧几里得距离、余弦距离、曼哈顿距离等)，其中上下文嵌入子集208对应于文档语料库114的包含TOI 126的词组224的上下文嵌入。在一些实施方案中，子集208还可包含文档语料库114的包含在语义上类似于TOI 126的术语的词组224的上下文嵌入。在此实例中，如果距离度量满足(例如距离小于或等于)阈值距离，那么词组被认为在语义上类似于目标词组302。

方法400包含：在412处，基于目标上下文嵌入与在语义上不类似于目标词组的第二候选词组的上下文嵌入之间的距离，从文档语料库的包含所关注术语或语义类似术语的词组当中标识第二候选词组。举例来说，不类似性搜索引擎170可计算目标上下文嵌入210与上下文嵌入子集208的一或多个其它点之间的距离度量(例如欧几里得距离、余弦距离、曼哈顿距离等)，其中上下文嵌入子集208对应于文档语料库114的包含TOI 126的词组224及文档语料库114的包含在语义上类似于TOI 126的术语的词组224的上下文嵌入。在此实例中，如果距离度量满足(例如距离大于或等于)不类似性阈值，那么词组被认为在语义上不类似于目标词组302。

方法400包含：在414处，经由用户界面呈现包含第一候选词组及第二候选词组的输出。举例来说，计算装置102可产生用户界面140，其包含对应于或包含第一候选词组及第二候选词组的文档样本142。在一些实施方案中，可在每一文档样本142中在视觉上区分TOI126或在语义上类似于TOI 126的术语。

方法400包含：在416处，经由用户界面接收用户输入，其中用户输入将第一候选词组的至少一部分标识为与第一标记相关联，并将第二候选词组的至少一部分标识为未与第一标记相关联。举例来说，用户可经由用户界面140提供用户输入152。在此实例中，用户输入152可包含将文档样本142中的一或多者指定为特定文本分类类别(例如第一标记)的肯定实例的信息，并可包含将文档样本142中的一或多者指定为特定文本分类类别(例如第一标记)的否定实例的信息。

方法400包含：在418处，基于用户输入产生经标记训练数据以训练文本分类器。举例来说，训练数据产生器172可接收用户输入152，并存储将特定文档样本或词组与经标记训练数据180中的特定标记相关联(作为肯定实例或作为否定实例)的标记或其它数据。

方法400还可包含使用经标记训练数据180产生文本分类器178。举例来说，分类器训练器174可使用一或多种机器学习技术来训练文本分类器178。因此，方法400通过辅助用户标识类似于经标记文本样本的其它文本样本以便标记肯定样本、否定样本或两者而简化了经标记训练数据180的产生及文本分类器178的产生。因此，减少了产生文本分类器178所需的处理时间及资源。此外，可通过提供特定文本分类类别的肯定实例及否定实例两者来改进文本分类器178的准确性。

图5是特定计算机***500的框图，特定计算机***500经配置以启动、执行或控制参考图1到4所描述的操作中的一或多者。举例来说，计算机***500可包含图1的计算装置102或包含在图1的计算装置102内。计算机***500可经实施为各种其它装置中的一或多者或并入到各种其它装置中的一或多者中，例如个人计算机(PC)、平板PC、服务器计算机、个人数字助理(PDA)、膝上型计算机、桌上型计算机、通信装置、无线电话，或能够执行一组指令(循序或以其它方式)的任一其它机器，所述指令规定待由所述机器采取的动作。此外，尽管说明了单个计算机***500，但术语“***”包含个别地或联合地执行一组或多组指令以执行一或多个计算机功能的***或子***的任一集合。

尽管图5说明了特定计算机***500的一个实例，但其它计算机***或计算架构及配置可用于实行本文中所揭示的自动化模型构建操作。计算机***500包含一或多个处理器104。一或多个处理器104中的每一处理器可包含单个处理核心或多个处理核心，其循序地、并行地或有时循序地并在其它时间并行地操作。一或多个处理器104中的每一处理器包含定义多个逻辑电路504、工作存储器506(例如寄存器及高速缓冲存储器)、通信电路等的电路***，其一起使处理器能够控制由计算机***500执行的操作，并使处理器能够基于特定数据的分析及特定指令的执行来产生有用的结果。

处理器104经配置以经由总线560与计算机***500的其它组件或子***交互。总线560说明用于链接计算机***500的子***、外部子***或装置或其任一组合的任何互连方案。总线560包含多个导体，以促进计算机***500的组件或子***之间的电及/或电磁信号的通信。另外，总线560包含一或多个总线控制器或其它电路(例如发射器及接收器)，其管理经由多个导体的发信并致使发送给多个导体的信号符合特定通信协议。

计算机***500还包含一或多个存储器装置108。存储器装置108包含任何合适计算机可读存储装置，这取决于例如数据存取需要是双向还是单向、所需的数据存取速度、所需的存储器容量、与数据存取相关的其它因素，或其任一组合。一般来说，存储器装置108包含易失性存储器装置及非易失性存储器装置的一些组合，但在一些实施方案中，可仅存在一者或另一者。易失性存储器装置及电路的实例包含寄存器、高速缓冲存储器、锁存器、许多类型的随机存取存储器(RAM)，例如动态随机存取存储器(DRAM)等。非易失性存储器装置及电路的实例包含硬盘、光盘、快闪存储器，及某一类型的RAM，例如电阻性随机存取存储器(ReRAM)。也可或替代地使用易失性存储器装置及非易失性存储器装置两者的其它实例，只要此类存储器装置将信息存储在物理有形媒体中即可。因此，存储器装置108包含电路及结构，而不仅仅是信号或其它瞬时现象。

存储器装置108存储可由处理器104执行以执行各种操作及功能的指令110。指令110包含用于使计算机***500的各种组件及子***能够操作、彼此交互并与用户交互的指令，例如输入/输出***(BIOS)514及操作***(OS)516。另外，指令110包含一或多个应用程序518、脚本或其它程序代码以使处理器104能够执行本文中所描述的操作。举例来说，指令110可包含训练数据产生器172及分类器训练器174，如参考图1到4所解释。

在图5中，计算机***500还包含一或多个输出装置530、一或多个输入装置520及一或多个接口装置106。输出装置530、输入装置520及接口装置106中的每一者可经由端口或连接器耦合到总线560，所述端口或连接器是例如通用串行总线端口、数字视觉接口(DVI)端口、串行ATA(SATA)端口、小型计算机***接口(SCSI)端口、高清媒体接口(HMDI)端口或另一串行或并行端口。在一些实施方案中，输出装置530、输入装置520、接口装置106中的一或多者耦合到具有处理器104及存储器装置108的壳体或集成在具有处理器104及存储器装置108的壳体内，在此情况下，到总线560的连接可为内部的，例如经由扩展插槽或其它卡对卡连接器。在其它实施方案中，处理器104及存储器装置108集成在包含一或多个外部端口的壳体内，且输出装置530、输入装置520、接口装置106中的一或多者经由外部端口耦合到总线560。

输出装置530的实例包含显示装置、扬声器、打印机、电视机、投影仪或其它装置以便以由用户可感知的方式提供数据的输出，例如经由用户界面120/140。输入装置520的实例包含按钮、开关、旋钮、键盘522、指向装置524、生物测定装置、麦克风、运动传感器，或用于检测用户输入动作的另一装置。指向装置524包含例如鼠标、触控笔、轨迹球、笔、触摸板、触摸屏、平板计算机、可用于与图形用户界面交互的另一装置或其任一组合中的一或多者。

接口装置106经配置以使计算机***500能够经由一或多个网络542与一或多个其它计算机***544通信。接口装置106以使用预定义通信协议传输到其它计算机***544的电及/或电磁信号的方式对数据进行编码。可无线地(例如经由通过自由空间的传播)、经由一或多个导线、缆线、光纤或经由有线及无线传输的组合来传输电及/或电磁信号。

在替代实施例中，可构造例如专用集成电路、可编程逻辑阵列及其它硬件装置的专用硬件实施方案来实施本文中所描述的操作中的一或多者。因此，本发明涵盖软件、固件及硬件实施方案。

应理解，本文中所描述的步骤的划分及排序仅出于说明性目的，且不被认为是限制性的。在替代实施方案中，某些步骤可组合，而其它步骤可细分为多个步骤。此外，步骤的排序可改变。

可依据功能块组件、屏幕截图、任选选择及各种处理步骤来描述本文中所说明的***及方法。应了解，可由经配置以执行规定功能的任何数目个硬件及/或软件组件实施此类功能块。举例来说，***可采用各种集成电路组件，例如存储器元件、处理元件、逻辑元件、查找表等，其可在一或多个微处理器或其它控制装置的控制下实行各种功能。类似地，***的软件元素也可使用任何编程或脚本语言来实施，例如C、C++、C#、Java、JavaScript、VBScript、Macromedia Cold Fusion、COBOL、Microsoft Active Server Pages、汇编语言(assembly)、PERL、PHP、AWK、Python、Visual Basic、SQL存储过程(SQL StoredProcedures)、PL/SQL、任何UNIX外壳脚本(UNIX shell script)及可扩展标示语言(XML)，其中用数据结构、对象、过程、例程或其它编程元件的任一组合来实施各种算法。此外，应注意，***可采用任何数目种技术来进行数据传输、发信、数据处理、网络控制等。

本发明的***及方法可被体现为现有***、附加产品、执行升级软件的处理设备、独立***、分布式***、方法、数据处理***、用于数据处理的装置及/或计算机程序产品的定制。因此，***或模块的任何部分可采取执行代码的处理设备、基于因特网的(例如云计算)实施例、完全硬件实施例或组合因特网、软件及硬件的方面的实施例的形式。此外，***可采取计算机可读存储媒体或装置上的计算机程序产品的形式，所述计算机可读存储媒体或装置具有体现或存储在所述存储媒体或装置中的计算机可读程序代码(例如指令)。可利用任何合适计算机可读存储媒体或装置，包含硬盘、CD-ROM、光存储装置、磁存储装置及/或其它存储媒体。如本文中所使用，“计算机可读存储媒体”或“计算机可读存储装置”不是信号。

可将计算机程序指令加载到计算机或其它可编程数据处理设备上以产生机器，使得在计算机或其它可编程数据处理设备上执行的指令创建用于实施流程图框中规定的操作或功能的构件。这些计算机程序指令还可存储在计算机可读存储器或装置中，所述计算机可读存储器或装置可指导计算机或其它可编程数据处理设备以特定方式起作用，使得存储在计算机可读存储器中的指令产生制品，其包含实施流程图框中规定的操作或功能的指令构件。也可将计算机程序指令加载到计算机或其它可编程数据处理设备上，以致使一系列操作步骤在计算机或其它可编程设备上执行，以产生计算机实施的过程，使得在计算机或其它可编程设备上执行的指令提供用于实施流程图框中规定的操作或功能的步骤。

因此，框图及流程图图示的功能块支持用于执行规定功能的构件的组合、用于执行规定功能的步骤的组合，及用于执行规定功能的程序指令构件。还将理解，框图及流程图图示的每一功能块以及框图及流程图图示的功能块的组合可由执行规定功能或步骤的基于专用硬件的计算机***或专用硬件及计算机指令的合适组合来实施。

尽管本发明可包含一种方法，但预期到，本发明可被体现为例如磁或光存储器或磁或光盘的有形计算机可读媒体上的计算机程序指令。所属领域的一般技术人员已知的上述示范性实施例的元件的所有结构、化学及功能等效物以引用的方式明确地并入本文中，并希望由本权利要求书涵盖。此外，装置或方法不必解决本发明寻求解决的每一个问题，这是因为其由本权利要求书涵盖。此外，无论在权利要求书中是否明确地叙述本发明中的元件、组件或方法步骤，都不希望将其献给公众。

在不脱离本发明的范围的情况下，可对所揭示实施例进行改变及修改。如所附权利要求书中所表达，这些及其它改变或修改希望包含在本发明的范围内。

Claims

1.一种产生用于文档语料库的文本分类器的方法，所述方法包括：

在计算装置处接收指定所述文档语料库的文档中的所关注术语的输入；

确定代表所述所关注术语的目标术语嵌入；

基于所述目标术语嵌入与代表来自所述文档语料库的术语的术语嵌入之间的距离，确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语；

确定代表目标词组的目标上下文嵌入，所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词；

基于所述目标上下文嵌入与在语义上类似于所述目标词组的第一候选词组的上下文嵌入之间的距离，从所述文档语料库当中标识所述第一候选词组；

基于所述目标上下文嵌入与在语义上不类似于所述目标词组的第二候选词组的上下文嵌入之间的距离，从所述文档语料库的包含所述所关注术语或语义类似术语的词组当中标识所述第二候选词组；

经由用户界面呈现包含所述第一候选词组及所述第二候选词组的输出；

经由所述用户界面接收用户输入，所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联，并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联；及

基于所述用户输入产生经标记训练数据以训练所述文本分类器。

2.根据权利要求1所述的方法，其中指定所述所关注术语的所述输入包含在所述文档中选择所述所关注术语并将所述所关注术语与所述第一标记相关联的用户输入。

3.根据权利要求1所述的方法，其中所述目标词组对应于所述文档中的单个句子。

4.根据权利要求1所述的方法，其中所述目标词组包含围绕所述文档中的所述所关注术语的规定数目个词。

5.根据权利要求1所述的方法，其中确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语包含：比较所述目标术语嵌入与代表来自所述文档语料库的所述术语的所述术语嵌入，及将由在距所述目标术语嵌入的阈值距离内的术语嵌入代表的特定术语标识为语义类似术语。

6.根据权利要求1所述的方法，其中确定代表所述所关注术语的所述目标术语嵌入包含：在与所述文档语料库相关联的嵌入数据中查找所述目标术语嵌入。

7.根据权利要求1所述的方法，其中确定代表所述所关注术语的所述目标术语嵌入包含：将代表所述所关注术语的数据作为输入提供到经训练术语嵌入网络。

8.根据权利要求1所述的方法，其中确定代表所述目标词组的所述目标上下文嵌入包含：在与所述文档语料库相关联的嵌入数据中查找所述目标上下文嵌入。

9.根据权利要求1所述的方法，其中确定代表所述目标词组的所述目标上下文嵌入包含：将代表所述目标词组的术语嵌入作为输入提供到经训练上下文嵌入网络。

10.根据权利要求9所述的方法，其中所述经训练上下文嵌入网络包含具有一或多个长短期记忆层的神经网络，且其中所述术语嵌入作为有序序列的输入向量输入到所述神经网络，所述有序序列的输入向量中的每一输入向量代表所述目标词组的对应词且所述有序序列的输入向量的顺序对应于所述文档中的所述目标词组中的词的顺序。

11.根据权利要求1所述的方法，其中标识所述第一候选词组包含从所述文档语料库选择一组候选词组，其由在所述文档语料库中的词组当中最接近所述目标上下文嵌入的上下文嵌入代表，其中所述第一候选词组是所述一组候选词组中的一者。

12.根据权利要求1所述的方法，其中标识所述第二候选词组包含：

从所述文档语料库选择一组候选词组，其包含所述所关注术语或所述语义类似术语；及

从所述一组候选词组选择候选词组子集，其由在所述一组候选词组当中最远离所述目标上下文嵌入的上下文嵌入代表，其中所述第二候选词组是所述候选词组子集中的一者。

13.根据权利要求1所述的方法，其进一步包括使用所述经标记训练数据来训练所述文本分类器，其中，在所述文本分类器的训练期间，所述第一候选词组用作所述第一标记的肯定实例，且所述第二候选词组用作所述第一标记的否定实例。

14.根据权利要求1所述的方法，其中所述输出在视觉上区分所述第一候选词组中的所述所关注术语或所述语义类似术语与所述第一候选词组的其它术语，并在视觉上区分所述第二候选词组中的所述所关注术语或所述语义类似术语与所述第二候选词组的其它术语。

15.根据权利要求1所述的方法，其中所述术语嵌入是独立于所述文档语料库产生的。

16.一种用于产生用于文档语料库的文本分类器的***，所述***包括：

一或多个处理器；及

一或多个存储器装置，其耦合到所述一或多个处理器，所述一或多个存储器装置存储能够由所述一或多个处理器执行以执行操作的指令，所述操作包括：

接收指定所述文档语料库的文档中的所关注术语的输入；

确定代表所述所关注术语的目标术语嵌入；

17.根据权利要求16所述的***，其中所述一或多个存储器装置进一步存储与所述文档语料库相关联的嵌入数据，且确定代表所述所关注术语的所述目标术语嵌入包含：在所述嵌入数据中查找所述目标术语嵌入。

18.根据权利要求16所述的***，其中所述一或多个存储器装置进一步存储经训练术语嵌入网络，且确定代表所述所关注术语的所述目标术语嵌入包含：将代表所述所关注术语的数据作为输入提供到所述经训练术语嵌入网络。

19.根据权利要求16所述的***，其中所述一或多个存储器装置进一步存储与所述文档语料库相关联的嵌入数据，且确定代表所述目标词组的所述目标上下文嵌入包含：在所述嵌入数据中查找所述目标上下文嵌入。

20.根据权利要求16所述的***，其中所述一或多个存储器装置进一步存储经训练上下文嵌入网络，且确定代表所述目标词组的所述目标上下文嵌入包含：将代表所述目标词组的术语嵌入作为输入提供到所述经训练文本嵌入网络。

21.根据权利要求20所述的***，其中所述经训练上下文嵌入网络包含具有一或多个长短期记忆层的神经网络，且其中所述术语嵌入作为有序序列的输入向量输入到所述神经网络，所述有序序列的输入向量中的每一输入向量代表所述目标词组的对应词且所述有序序列的输入向量的顺序对应于所述文档中的所述目标词组中的词的顺序。

22.一种计算机可读存储装置，其存储能够由处理器执行以执行操作的指令，所述操作包含：

接收指定文档语料库的文档中的所关注术语的输入；

确定代表所述所关注术语的目标术语嵌入；

基于所述用户输入产生经标记训练数据以训练文本分类器。

23.根据权利要求22所述的计算机可读存储装置，其中指定所述所关注术语的所述输入包含在所述文档中选择所述所关注术语并将所述所关注术语与所述第一标记相关联的用户输入。

24.根据权利要求22所述的计算机可读存储装置，其中所述目标词组对应于所述文档中的单个句子。

25.根据权利要求22所述的计算机可读存储装置，其中所述目标词组包含围绕所述文档中的所述所关注术语的规定数目个词。

26.根据权利要求22所述的计算机可读存储装置，其中确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语包含：比较所述目标术语嵌入与代表来自所述文档语料库的所述术语的所述术语嵌入，及将由在距所述目标术语嵌入的阈值距离内的术语嵌入代表的特定术语标识为语义类似术语。