CN108604228A

CN108604228A - 用于多层单词表示的语言特征生成的***和方法

Info

Publication number: CN108604228A
Application number: CN201780010468.0A
Authority: CN
Inventors: E.施纳奇; R.莱维; N.斯洛尼姆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2016-02-09
Filing date: 2017-01-19
Publication date: 2018-09-28
Anticipated expiration: 2037-01-19
Also published as: GB2562983A; US10073834B2; JP6781760B2; WO2017137859A1; CN108604228B; JP2019511036A; GB201814449D0; US20170228365A1

Abstract

提供了一种计算机实现的方法，用于输出一个或多个跨层模式以识别文本中的目标语义现象，该方法包括：对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词，提取由各个层定义的多个特征值；统计分析为多个训练文本片段识别的多个特征值，以识别包括表示共同模式的多个层的一个或多个跨层模式，共同跨层模式定义一个或多个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值；并输出所识别的跨层图案以识别表示目标语义现象的文本片段。

Description

用于多层单词表示的语言特征生成的***和方法

背景技术

本发明在其一些实施例中涉及机器学习，并且更具体地但非排他地，涉及用于识别人类可读文本中的目标的自动机器学习的***和方法。

已经开发了不同的方法来识别人类可读文本中的模式。例如，已经开发了一些方法来识别文本中的一对单词(主要是名词)，这些单词在特定的、明确定义的语义关系中彼此相关。例如，作者标题，人物生日，上位词和缩写词。

发明内容

根据本发明的一些实施例的一方面，提供了一种用于输出一个或多个跨层模式以识别文本中的目标语义现象的计算机实现的方法，该方法包括：对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词，提取由各个层定义的多个特征值；统计分析为多个训练文本片段识别的多个特征值，以识别包括表示多个训练文本片段的共同模式的多个层的一个或多个跨层模式，共同跨层模式定义至少一个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值；和输出所识别的跨层模式，用于识别表示目标语义现象的文本片段。

可选地，该方法还包括训练统计分类器，以通过将从新文本片段提取的特征值与至少一个跨层模式匹配或相关来识别目标语义现象；存储或传输经过训练的统计分类器，用于分析新文本以识别代表该文本的新文本片段目标语义现象。可选地，对训练指定为不表示目标语义现象的文本片段执行识别，并且基于从被指定为不表示目标语义现象的训练文本片段中提取的特征值来训练分类器。

可选地，跨层模式包括至少一个负特征值，其不出现在包括目标语义现象的文本片段中。

可选地，跨层模式的每层是选自由以下各项组成的组的成员：语义，句法，领域知识，和通过任务专家的知识注入。可选地或另外地，跨层模式的每一层是选自由以下各项组成的组的成员：单词的词性(POS)标签，单词的上位词，由单词表示的命名实体，单词表示的情感，在预定词典中出现的单词。

可选地，跨层模式包括与多个不同层相关联的文本片段中的一个或多个单词。

可选地，针对一个或多个单词组合多个不同的层。

可选地，跨层模式包括文本片段中的两个或更多个不同的单词，每个单词与不同的层相关联。

可选地，与两个或更多个不同单词相关联的不同层由跨层模式内的顺序定义。

可选地，目标语义现象是由以下各项组成的组的成员：定义，提供支持或反对主题的证据的陈述，由实体在没有证据情况下做出的关于某个主题的事情就是这样的陈述，以及一个实体就某个主题表达的情感。

可选地，跨层模式包括在两个或更多个层之间的至少一个限定的间隙，每个层来自不同的单词。

可选地，通过迭代地组合特征来创建跨层模式以生成更长的跨层模式。可选地，该方法还包括在每次迭代结束时应用贪婪分析以识别根据准确预测的概率排序的顶部预定义数量的跨层模式。可选地，基于与其他先前选择的较高等级特征的相关性要求来选择顶部预定义数量的跨层模式。可选地或另外地，通过组合和按顺序添加另一个单词的另一个特征来执行组合特征。可选地或另外地，通过组合地添加相同单词的另一特征来执行组合特征。

根据本发明的一些实施例的一方面，提供了一种计算机实现的方法，用于将至少一个跨层模式应用于至少一个文本片段以识别目标语义现象，该方法包括：提取来自人类可读文本的每个文本片段中的至少一些单词的多个特征值，每个特征值由相应的层定义；将多个特征值与至少一个跨层模式匹配或相关；当找到匹配或相关时，在每个相应的文本片段中输出目标语义现象的指示。

可选地，通过将训练的统计分类器应用于多个特征值来执行与至少一个跨层模式的匹配或关联。

根据本发明的一些实施例的一方面，提供了一种识别文本中的目标语义现象的***，包括：数据接口，用于接收表示目标语义现象的多个训练文本片段；存储代码的程序存储器；处理器，耦合到数据接口和程序存储器，用于实现存储的代码，该代码包括：用于为多个训练文本片段中的至少一些单词的每个单词提取由各层定义的多个特征值的代码；用于统计分析多个特征值以识别至少一个跨层模式的代码，所述跨层模式包括表示多个训练文本片段的共同模式的多个层，所述共同跨层模式定义至少一个特征值至少一个单词的相应层和另一个单词的另一个相应层的至少另一个特征值；和用于输出所识别的至少一个跨层模式，用于识别表示目标语义现象的文本片段。

除非另外定义，否则本文使用的所有技术和/或科学术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。尽管与本文描述的那些类似或等同的方法和材料可用于实践或测试本发明的实施方案，但下文描述了示例性方法和/或材料。如有冲突，本专利说明书将控制，包括定义。另外，材料，方法和实施例仅是说明性的，并非旨在限制。

附图说明

仅通过举例的方式，本文中参考附图描述了本发明的一些实施例。现在详细地具体参考附图，要强调的是，所示的细节是作为示例并且出于说明性讨论本发明的实施例的目的。在这方面，通过附图进行的描述使得本领域技术人员清楚如何实施本发明的实施例。

在图中

图1是根据本发明的一些实施例的用于输出识别文本中的目标语义现象的至少一个跨层模式的计算机实现的方法的流程图；

图2是根据本发明的一些实施例的应用至少一个跨层模式以识别文本中的目标语义现象的***的框图；

图3是根据本发明的一些实施例的示例性计算机实现的方法的流程图，该方法组合特征以创建指示表示目标语义现象的文本片段的统计上显著的跨层模式；

图4是根据本发明的一些实施例的用于将至少一个跨层模式应用于文本以识别目标语义现象的存在的计算机实现的方法的流程图；和

图5是根据本发明的一些实施例的用于识别在句子中进行的声明的存在的示例性跨层模式的列表。

具体实施方式

在本发明的一些实施例中，本发明涉及机器学习，并且更具体地但非排他地，涉及用于识别人类可读文本中的目标的自动机器学习的***和方法。

本发明的一些实施例的一方面涉及输出至少一个跨层模式的***和/或方法(例如，执行实现该方法的指令的代码的处理器)，该跨层模式识别人类可读的目标语义现象。文本片段内的文本(例如，存储为文件，可选地文本文件)，例如，短语，预定数量的单词(例如，窗口)，句子，预定数量的句子或文本的段落。***和/或方法可以训练统计分类器以使用所识别的跨层模式来识别目标语义现象。目标语义现象可以是抽象的或难以使用一组人类输入的指令来定义，但是可以通过阅读例如其中实体(例如，个人，组织)提出声明的句子来识别人类。(即，关于特定主题的断言，某些事情是真实的而不一定提供证据)。本文描述的***和/或方法可以输出一个或多个跨层模式，其指示实体对句子中的主题做出声明。训练的统计分类器可以通过将从文本片段的单词提取的特征值与一个或多个跨层模式相关联和/或匹配来应用跨层模式来识别新文本中的目标语义现象。

跨层模式可以被认为是通用或通用指纹或模板，其基于从文本提取的特征值来识别多单词文本中的目标语义现象，诸如文本片段，短语，预定义的窗口定义了被分析的多个单词(例如，3个，5个，10个单词)，单个句子，多个句子和/或段落。

跨层模式表示对于表示目标语义现象的多个句子(或其他文本片段)共同的一组层。跨层模式概括了从多个短语，文本片段或句子中的多个单词提取的多个特征值，其可以包括来自相同单词的多个特征值，和/或来自不同单词的不同特征值。跨层模式可以定义特征值的顺序和/或特征值的组合。特征值可以与处理器相关联地存储在存储器中，例如，作为特征值矢量。

每个特征值基于至少一个层。每个单词可以包括从同一层的不同级别提取的特征值，和/或来自不同层的特征值。

示例性层包括：一个或多个语义类别(例如，单词的含义)，一个或多个句法类别(例如，单词的顺序和/或结构)，一个或多个领域知识类别(例如，该词属于哪个领域，和/或域的哪一层)，一个或多个知识注入(例如，由任务专家提供)，该词的词性(POS)(例如，猫是一个名词)，一个单词的上位词(一个由词典定义的更通用的单词，例如，一个动物是单词猫的上位词)，一个命名的实体和由该单词表示的类型(例如，单词IBM是一个公司类型的命名实体)，以及由单词(例如，良好)表示的情感，以及单词是否出现在预定义词典中(并且可选地如果是，则是哪个词典，例如，为每个词典定义的单词数据库)。

可选地，跨层模式包括一个或多个负特征值和/或层。负特征值表示未出现在包含目标语义现象的文本中的特征值。句子(或其他文本片段)中的负特征值的存在指示句子(或其他文本片段)不包括目标语义现象。

可选地，跨层模式包括在句子(或其他文本片段)中一个接一个地出现的一系列属性和/或特征值。跨层模式可以包括属性和/或特征值之间的间隙，例如，间隙表示未找到指示模式的单词，因此被跳过。

本发明的一些实施例的一方面涉及将一个或多个识别的跨层模式应用于多单词人类可读文本(例如，作为文本文件存储在存储器中)的***和/或方法(例如，执行实现该方法的指令的代码的处理器)，以将目标语义现象识别为出现在文本的某些短语，句子和/或段落中。可选地，应用使用所识别的跨层模式训练的统计分类器。***和/或方法从文本的每个文本片段的多个单词中提取多个特征值，并且可选地使用训练的统计分类器将提取的特征值匹配和/或关联到一个或多个跨层模式。与一个或多个跨层模式的匹配和/或相关性指示从中提取特征值的文本片段表示目标语义现象。识别目标语义现象的文本的句子，文本片段和/或短语可以被标记为在显示器上呈现给用户，例如，标记有虚拟标签，存储为列表，用颜色突出显示，和/或在窗口中呈现。

本文描述的***和/或方法提供了技术问题的技术解决方案，该技术问题是自动确定(即，由处理器执行的指令代码)一组单词(例如，句子，文本片段，短语)，其可以存储在计算机的存储器中的文本文件中，是否表示目标语义现象。目标语义现象可以由人阅读该组词容易地识别，但是人类可能难以将其定义为由处理器执行的代码识别的一组指令，例如，因为文本的单词之间的关系片段和目标语义现象可能是难以捉摸的，非显而易见的，也是非直观的。人类可能不知道如何编写代码来识别文本片段中的目标语义现象。这里描述的***和/或方法包括自动识别文本片段中的目标语义现象而不需要对目标语义现象进行手动人类定义的过程。

本文描述的***和/或方法(例如，由***组件实现的方法)改善计算机的性能，例如，通过降低处理资源要求(例如，处理器利用率)和/或存储要求(例如，存储空间)，和/或通过使用可用计算资源提供实时处理(例如，大约几秒或几分钟)。例如，可以通过选择跨层模式中使用的特征值的组合的***和/或方法(例如，由***组件实现)来获得改进的性能。

本文描述的***和/或方法(例如，由***组件实现的方法)以训练的统计分类器和/或跨层模式的结构(其可以由统计分类器使用)的形式创建新数据。

本文描述的***和/或方法涉及自动化机器学习领域的改进。因此，这里描述的***和/或方法(例如，由***组件实现的方法)必须植根于计算机技术中，以克服自动机器学习技术领域中出现的实际技术问题。

在详细解释本发明的至少一个实施例之前，应理解，本发明不一定限于其应用于下面阐述的构造细节和部件和/或方法的布置。描述和/或在附图和/或实施例中说明。本发明能够具有其他实施例或者能够以各种方式实践或实施。

本发明可以是***，方法和/或计算机程序产品。该计算机程序产品可以包括计算机可读存储介质(或介质)，其上具有计算机可读程序指令，用于使处理器执行本发明的各方面。

计算机可读存储介质可以是有形设备，其可以保留和存储指令以供指令执行设备使用。计算机可读存储介质可以是例如但不限于电子存储设备，磁存储设备，光存储设备，电磁存储设备，半导体存储设备或前述的任何合适组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容：便携式计算机磁盘，硬盘，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编程读取器-仅存储器(EPROM或闪存)，静态随机存取存储器(SRAM)，便携式光盘只读存储器(CD-ROM)，数字通用光盘(DVD)，记忆棒，软盘，机械编码装置，例如在其上记录有指令的凹槽中的穿孔卡或凸起结构，以及前述的任何合适的组合。这里使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波，通过波导或其他传输介质传播的电磁波(例如，通过的光脉冲)光纤电缆)或通过电线传输的电信号。

本文描述的计算机可读程序指令可以经由网络从计算机可读存储介质或外部计算机或外部存储设备下载到相应的计算/处理设备，例如，因特网，局域网，广域区域网络和/或无线网络。网络可以包括铜传输电缆，光传输光纤，无线传输，路由器，防火墙，交换机，网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令，指令集架构(ISA)指令，机器指令，机器相关指令，微代码，固件指令，状态设置数据，或源代码或对象。以一种或多种编程语言的任意组合编写的代码，包括诸如Smalltalk，C++等的面向对象的编程语言，以及诸如“C”编程语言或类似编程语言的传统过程编程语言。计算机可读程序指令可以完全在用户的计算机上，部分在用户的计算机上，作为独立的软件包，部分地在用户的计算机上，部分地在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(用于例如，通过互联网使用互联网服务提供商)。在一些实施例中，包括例如可编程逻辑电路，现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路以执行计算机可读程序指令。，以执行本发明的各方面。

这里参考根据本发明实施例的方法，装置(***)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给通用计算机，专用计算机或其他可编程数据处理装置的处理器以产生机器，使得指令通过计算机的处理器或其他执行。可编程数据处理装置，创建用于实现流程图和/或框图块中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，该计算机可读存储介质可以指示计算机，可编程数据处理装置和/或其他设备以特定方式起作用，使得计算机可读存储介质具有存储在其中的指令。本发明包括一种制品，包括实现流程图和/或框图块中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机，其他可编程数据处理装置或其他设备上，以使得在计算机，其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机上执行的该计算机可读程序指令，其他可编程装置或其他设备上执行的指令实现在流程图和/或框图块中指定的功能/动作。

附图中的流程图和框图显示了根据本发明的各种实施例的***，方法和计算机程序产品的可能实现的架构，功能和操作。在这方面，流程图或框图中的每个框可以表示模块，段或指令的一部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中提到的功能可以不按图中所示的顺序发生。例如，连续示出的两个方框实际上可以基本上同时执行，或者这些方框有时可以以相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图说明的每个框以及框图和/或流程图说明中的框的组合可以由执行特定功能或动作的基于专用硬件的***来实现，或由专用硬件和计算机指令的组合来执行或运行。

如本文所使用的，以下术语可以彼此互换，以表示如本文所述的被分析的文本单元：句子，短语，预定数量的单词(例如，分析窗口)，文本片段，文本的预定义数量的句子，段落或多个段落。

如本文所使用的，术语统计分类器被广泛使用，以包括一个或多个机器学习方法，其接收多个特征作为输入并输出目标语义现象的指示(例如，其存在，其不存在，和/或存在或不存在的概率)。统计分类器表示例如查找表，一组模板，一组函数或一组函数，将输入映射到输出类别的统计分类器，确定性分类器，散列表，映射函数，和/或其他方法。

如本文所使用的，术语特征值是指基于句子的实际单词提取的值。如这里所使用的，术语“层”是指添加关于相应单词的附加信息的单词的分类类别和/或方面。特征值由相应的层定义。从每个句子中提取与不同层相关联的不同特征值，例如，从不同的词中提取。例如，从第一单词提取由第一层定义的第一特征值，并且从第二(不同)单词提取由第二(不同)层定义的第二(不同)特征值。在另一示例中，对于相同的词，从同一个词中提取由第一和第二层定义的第一和第二特征值。例如，对于单词猫，可以提取第一特征值名词(即，猫是名词)。特征值名词由第一层定义，即词性(POS)层，其可以是句法层。对于相同的单词猫，可以提取第二特征值上位词(即，动物是猫的上位词)。第二特征值可以由第二层(词典)定义。

现在参考图1，其是根据本发明的一些实施例的用于输出识别人类可读文本中的目标语义现象(例如，多个单词，短语，句子)的至少一个跨层模式的计算机实现的方法的流程图。跨层模式可以用于训练统计分类器以输出句子是否表示目标语义现象的指示。现在参照图2，图2是根据本发明的一些实施例的***200的框图，该***200输出识别文本中的目标语义现象的至少一个跨层模式。该方法和/或***200允许用户定义表示目标语义现象的文本(例如，多个句子)(其可以是抽象的和/或难以定义用于识别的指令)并且自动识别表示文本中存在目标语义现象的一个或多个跨层模式(基于从文本中提取的特征值)。

图1的方法的动作可以由***200的组件执行，可选地，由计算单元204的处理单元202执行作为程序存储器206中的代码存储的指令。

***200包括计算单元204，其可以被实现为例如服务器(例如，经由数据接口208通过网络连接向一个或多个客户端终端提供服务)，作为web服务器(例如，使用web浏览器向客户终端提供服务)，和/或运行本地存储的代码的客户端。计算单元204可以实现为硬件组件(例如，独立计算单元)，软件组件(例如，在现有计算单元内实现)，和/或实现为***现有计算单元的硬件组件(例如，插卡，可连接单元)。服务器实现可以通过提供软件即服务(SAAS)来向客户端终端提供服务，提供可以安装在与服务器通信的客户端上的应用程序，和/或使用远程访问会话提供功能。计算单元204的其他示例性实现包括例如移动设备，台式计算机，瘦客户端，智能电话，平板电脑，膝上型计算机，可穿戴计算机，眼镜计算机和手表计算机。

处理单元202可以被实现为例如中央处理单元(CPU)，图形处理单元(GPU)，现场可编程门阵列(FPGA)，数字信号处理器(s)(DSP)和专用集成电路(ASIC)。处理单元202可以包括一个或多个处理器(同构的或异构的)，其可以被布置用于并行处理，作为群集和/或作为一个或多个多核处理单元。

程序存储器206存储由处理单元202执行的代码指令，例如，随机存取存储器(RAM)，只读存储器(ROM)和/或存储设备，例如，非易失性存储器，磁性介质，半导体存储设备，硬盘驱动器，可移动存储设备和光学介质(例如，DVD，CD-ROM)。

计算单元204包括用于存储数据的数据储存库210，例如，存储器，硬盘驱动器，光盘，存储单元，到远程存储服务器的接口，以及到云服务器的接口，以及/或其他存储单元。数据储存库210可以包括训练文本储存库210A，其存储用于训练统计分类器的文本(例如，如本文所述)，分类器储存库210B，其存储训练的统计分类器以识别不同的目标语义现象(例如，如本文所述)，跨层模式储存库210C存储所识别的跨层模式(例如，如本文所述)，以及存储用于从句子中提取特征值的指令的特征值储存库210D(例如，作为脚本，规则集，代码或其他实现)。

计算单元204包括用户界面212(或可与显示器214集成，或实现为单独的设备)或与之通信，例如，触摸屏，键盘，鼠标和语音激活使用扬声器和麦克风的软件

在102处，计算单元204接收包括多个训练句子的训练文本，并且可以将训练文本存储在训练文本储存库210A中。训练文本可以包括段落和/或短语。训练文本可以存储为例如文件，可选地文本文件，文字处理文件，二进制文件或其他格式。

如本文所使用的，术语句子有时意味着和/或有时可以与包括多个词的短语或其他文本部分互换，所述多个词一起形成概念或上下文。

训练文本可以由用户手动输入，例如，使用键盘(即，用户界面212)和/或触摸屏(例如，显示器214)，通过网络传输(例如，作为文件，作为网络消息，作为分组，可选地经由数据接口208)，和/或从存储位置(例如，从盘，可移动存储器，存储服务器和/或其他存储设备)检索，和/或指定为链接到远程位置(例如，指向包括文本的网页的链接)。文本示例包括：在线新闻文章，书籍的段落和报告中的段落。

在104处，计算单元204接收表示目标语义现象的训练文本中的一个或多个训练句子的指定。用户可以使用用户界面212手动输入指定(例如，使用在显示器214上呈现的图形用户界面)，例如，点击，突出显示和/或检查表示目标语义现象的训练句子的框。该指定可以由用户提供，例如，通过提供表示目标语义现象的句子列表，例如在指定的存储文件中。

可选地，计算单元204接收训练文本中不表示目标语义现象的一个或多个训练句子的指定，例如，通过用户提供不表示目标语义现象的句子列表(例如，在与表示目标语义现象的文件不同的文件中)，和/或标记不表示目标语义现象的训练句子(例如，使用与表示目标语义现象的句子的指定不同的标记)。或者，没有提供不代表目标语义现象的句子的明确指定。代码可以自动地假设非指定句子(即，未指定为表示目标语义现象)不表示目标语义现象。

注意，块102和104可以同时执行，例如，用户使用数据接口208上传两个文件，第一文件包括表示目标语义现象的句子，第二文件包括不表示目标语义现象的句子。

示例性目标语义现象包括：定义句子(即，解释术语或概念的句子)，提供针对主题或针对主题的证据的陈述，由实体在无证据情况下做出的关于某主题的事情就是这样的陈述(即包括宣称的句子)，以及实体就某一主题表达的情感。

在106处，由处理单元202执行的存储在程序存储器206中的代码针对训练文本的每个训练句子的至少一些单词的每个单词(或由多个单词组成的短语)提取一个或多个特征值，一个或多个特征值表示一个或多个层(例如，一个或多个分类类别)。注意，可以跳过一些单词，例如，连词。或者，考虑所有单词，甚至是连词。

可以通过代码自动识别特征值，例如，基于存储在特征储存库210D中的预定义特征值(例如，数据库，提取特征值的代码，定义特征值的基于文本的规则，和/或其他实现)，其可以存储在数据储存库210和/或其他位置中。

可选地，一个或多个层包括具有多个级别的层级。可以基于层级的一个或多个级别来提取特征值。可选地，一个或多个层包括平坦级别，具有没有层级的单个级别。可以基于层的平坦级别来提取特征值。这里描述的***和/或方法可以识别最合适的层次结构级别，其表示不同句子中的单词，同时排除未出现在句子中的其他单词。当训练句子集包括深红色，紫色和薰衣草色时，可以选择来自第二级的紫色。可能不一定选择来自第一级的特征颜色，因为颜色可能过于笼统，包含第二级别上未包括在训练句子中的其他颜色。当分析包括黄色的新训练句子时，可以选择特征值颜色。

示例性层包括：语义，句法，领域知识，任务专家的知识注入，单词的词性(POS)标签，单词的上位词，由单词表示的命名实体，由单词表示的情感，出现在预定义词典中的单词。

在108处，对每个训练句子识别和/或提取的特征值进行统计分析(例如，通过由处理单元202执行的程序存储206中存储的代码)，以识别该集合共有的跨层模式(例如，所有收到的)训练句子。跨层模式包括从每个句子的至少两个单词中提取的多个特征值，每个特征值表示不同的层。跨层模式表示从表示目标语义现象的句子的单词中提取的特征值集合之间的共性的概括。与所接收的训练语句集合中的目标语义现象相关的跨层模式可以由相关性要求来定义，例如，统计概率阈值和/或范围。基于新句子中提取的特征来识别跨层模式是表示目标语义现象的新句子的表示。

跨层模式表示表示目标语义现象的句子的共同一般结构。跨层模式基于识别最能代表不同句子之间的共性的单词。识别不同层的概括以捕获句子之间的一般共性。

可选地，跨层模式包括一个或多个负特征值，这些负特征值不出现在被指定为表示目标语义现象的句子中。负特征值可能出现在不代表目标语义现象的句子中。例如，跨层模式[无数字][动词][情感]标识不包含数字的句子，并且具有动词词后跟情感词(可选地在词之间具有间隙)。

可选地，跨层模式包括用多个不同层标识的句子中的一个或多个单词。每个层可以基于从相同单词提取的不同特征值。

可选地，跨层模式包括用不同层标识的句子中的两个或更多个不同的单词。可以从不同的单词中提取不同的特征值。

可选地，跨层模式包括两个或更多个层的限定组合和/或顺序。该组合基于同时出现在同一个单词内的两个或多个特征值(来自不同的层)。该顺序基于同时出现在同一句子的不同单词内的两个或更多个特征值(来自不同的c层)。顺序可以由句子中单词的顺序来定义。顺序可以包括多个选项，例如，顺序的不同排列，例如特征值1，其后是特征值2，或特征值2，其后是特征值1。

可选地，跨层模式包括特征值之间的一个或多个限定的间隙，例如两个或更多个层之间的间隙。间隙可以被定义为在从相邻单词提取的特征值之间发生，例如从中没有提取特征值的单词。间隙可以定义为组合和/或顺序。

现在提供跨层模式的示例。以下三个句子被指定为包括宣称(即，由某个实体，例如个人，组织或当事方关于某个主题的断言)。每个句子的每个主张都与不同的主题相关：

(1)反对者认为开放初选是违宪的。

(2)Richard说专有软件通常包含恶意特征。

(3)多数人表示第一修正案不保证冒犯他人的权利。

针对上述三个句子识别的跨层模式基于三个句子共享的共同结构，其可以表示为：

[某人][争辩/说/声明][那][与主题相关的事情]

可以用于识别新句子中的声明的存在的针对上述三个句子识别的跨层模式可以由以下一组特征值的组合形式地表示：

[名词][动词表达的上位词][that连接词][名词和主题词汇中的单词]

现在参照图3，图3是根据本发明的一些实施例的示例性计算机实现的方法的流程图，该方法组合特征值以创建指示表示目标语义现象的相应句子的统计上显著的跨层模式。该方法的动作可以由存储在计算单元204的程序存储器206中的代码执行，由处理单元202执行。该方法可以通过以下方式提高计算资源的利用率(例如，降低的处理器和/或存储器要求和/或利用率)。有效地自动构建跨层模式。

图3的方法(例如，存储在实现该方法的程序存储器206中的代码)接收被指定为表示目标语义现象的训练句子，并且可选地训练被指定为不表示目标语义现象的句子，如参考图1所述。

在302处，从每个句子中提取多个特征值。可选地，为每个句子的每个单词提取多个特征值(可以跳过一些单词)。提取的特征值可以基于，例如，用于提取的自动特征值集合(例如，提取所有可能特征的强力方法)，手动定义的特征值集合(例如，由用户定义在文件中作为脚本或其他指令)，和/或由数据库，代码，脚本，文件或其他实现定义。

在304处，可以滤除非频繁特征值，例如，出现在小于预定百分比的训练句子中的特征值，例如，小于约0.1％，或0.5％，或1％或其他值。过滤非频繁特征值可以从处理中排除罕见的特征值，这可以减少跨层模式的存储器存储大小，和/或通过防止尝试提取稀有特征值来提高处理器利用率。

在306处，对提取的特征值进行排序。排序可以基于由相应特征值提供的信息增益。可以通过计算具有和不具有相应特征值的熵来计算信息增益。信息增益可以表示相应特征值对正确识别句子中目标语义现象的存在的能力(例如，概率)的贡献。

在308处，选择顶部特征值。可以基于预定数量的顶部特征值，高于信息增益阈值的所有特征值或其他方法来选择顶部特征值。

可以基于未与其他先前选择的更高排名的特征值相关(或小于预定义的相关性要求的相关性)来选择特征值。可以通过属性之间的归一化相互信息来测量相关性，例如种子特征值。对于负特征值，每个种子特征可以加倍其负值。

在310处，将每个单特征值模式生长为多特征值模式。每个单独的特征值(例如，[名词])表示通过添加其他特征值而生长的种子。

可选地，将每个单独的特征值添加到另一个单词的另一个特征值，以创建特征值的组合。可以将特征值的顺序定义为特征值组合的一部分。通过考虑特征值单词之前的单词和/或特征值单词之后的单词，可以使特征值生长到左侧和/或右侧。例如，([名词]，[情感])。

可替代地或另外地，特定单词的每个单独特征值与同一单词的另一特征值组合。其他特征值可以是不同的分类类别，和/或相同分类类别的不同层。例如，([名词，dobj])。

在312处，可选地使用贪婪分析来分析所创建的特征模式(即，特征值的组合，也称为跨层模式)，以识别跨层模式的顶部(例如，预定义数量)。根据信息增益和/或准确预测的概率对跨层模式进行排序(例如，如参考框306所讨论的)。

在314处，选择顶部(例如，预定义数量)的跨层模式。可以基于与其他先前选择的较高等级特征值的相关性要求来选择模式，例如，如参考框308所描述的。

在316处，通过迭代地组合(相同单词和/或其他单词的)附加特征值来生长每个跨层模式，以生成更长的跨层模式。生成跨层模式直到满足停止条件，例如，模式的最大存储大小，模式中的最大特征值数量，使用该模式的新句子的最大估计处理时间，或者其他停止条件方法。

在318处，所创建的跨层模式存储在数据储存库210的跨层模式库210C中，存储在另一位置(例如，远程服务器，云服务器)中和/或被发送(例如，通过到服务器和/或客户终端的网络)。

现在返回参考图1，在110处，由计算单元204的处理单元202执行的存储在程序存储器206中的代码训练统计分类器以识别包括一个或多个新句子的下一文本中的目标语义现象。统计分类器处理从新文本中提取的特征值，以识别新文本的新句子中的跨层模式，其指示表示目标语义现象的新句子。

可以使用每个相应训练句子的识别的跨层模式(其可以定义提取的特征值)和目标语义现象(或者不存在目标语义现象)作为输入来训练统计分类器。统计分类器识别跨层模式和目标语义现象之间的相关性，使得针对新句子提取的特征可以与目标语义现象相关联。

可以训练单类分类器和/或多个单类分类器，和/或多类分类器，和/或多个多类分类器。例如，可以训练分类器的组合以识别不同的目标语义现象，例如分类器的级联，分类器的增强拓扑或并行分类方案。

可选地，基于监督学习训练分类器。用于训练分类器的代码指令的示例包括：神经网络，支持向量机，决策树，硬/软阈值，朴素贝叶斯分类器，或任何其他合适的分类***和/或方法。可替代地或另外地，基于无监督学习来训练分类器(和/或进行机器学习)，例如，k-最近邻居(KNN)聚类，高斯混合模型(GMM)参数化，或其他合适的无监督方法。

经训练的统计分类器可输出指示正确识别目标语义现象的准确性的概率。

可选地，训练多个训练的统计分类器。每个分类器可以识别一种类型的目标语义现象。

在112处，训练的统计分类器被存储(例如，在分类器储存库210B中的数据储存库210中)或经由数据接口208(例如，通过网络)发送到远程服务器以供客户端终端本地使用和/或或用于远程存储。训练的统计分类器用于分析新文本以识别表示目标语义现象的一个或多个新句子。替代地或另外地，存储和/或发送所识别的跨层图案。跨层模式可以用于识别句子中的目标语义现象(例如，通过匹配或关联从句子提取的特征值)，和/或跨层模式可以由另一个过程使用(例如外部计算单元，例如客户终端或服务器)，以训练统计分类器。

现在参照图4，其是根据本发明的一些实施例用于将跨层模式(可选地，训练的统计分类器)应用于新的人类可读文本(例如，包括至少一个句子或短语)以识别目标语义现象的存在的计算机实现的方法的流程图。该方法可以由计算单元204的处理单元202执行存储在程序存储器206中的代码指令来实现。

在402处，提供一个或多个跨层模式，其可选地实施为经过训练以识别文本中的句子以表示目标语义现象的统计分类器。注意，可以应用多个统计分类器和/或多个跨层模式。可以训练每个统计分类器以识别一种类型的目标语义现象。可选地或另外地，可以训练相同的统计分类器以识别多种类型的目标语义现象。可以从存储单元(例如，分类器储存库210B)获得训练的统计分类器。

在404，计算单元204接收包括一个或多个句子或短语的新文本。例如，可以通过用户通过手动输入文本(例如，使用键盘)来接收新文本，通过存储文本的文本文件，使用指向托管具有文本的网页的Web服务器的链接或其他方法。

在406，代码从每个句子中的至少一些单词(例如，所有单词)中提取特征值。每个提取的特征值表示相应的层。可以基于由训练的统计分类器定义的跨层模式来提取特征值。可选地，提取包括在不同跨层模式中的所有(或子集)特征值。

在408处，可以针对每个句子聚合所提取的特征值。聚合的特征值可以组织为特征值向量。

在410处，将训练的统计分类器应用于每个聚合特征集(例如，应用于特征值向量)。经训练的统计分类器可将聚合的特征值与一个或多个预定义的跨层模式匹配或关联，以识别目标语义现象的存在。

可选地，训练的统计分类器输出识别目标语义现象的存在的准确性的概率，例如，当聚合的特征值与一个或多个预定义的跨层模式相关联时，但不是匹配模式100％。或者，仅当聚合的特征值与跨层模式中的一个匹配时才进行目标语义现象的存在的识别。

在412处，提供目标语义现象的存在(或不存在)的指示的输出。输出可以在显示器214上呈现，例如，在GUI内，其可以标记表示目标语义现象的文本的句子(例如，具有突出显示，具有下划线，具有粗体字母或其他方法)。在另一示例中，可以创建包括表示目标语义现象的句子的文件并将其保存在存储器中。

图5中提供了从训练句子中学习以识别在句子中进行的宣称的存在的跨层模式的示例。基于训练句子训练的统计分类器包括多个跨层模式，并且当其中一个跨层模式与从新句子提取的特征值匹配(或相关)时，将新句子标识为包括宣称。从新句子提取的特征值可以包括在跨层模式内表示的特征值的所有(或选择的子集)。

说明：

@句法属性

<语义属性

<<语义属性

^基于句法的属性

TOPIC(主题)：该术语出现在运动(motion)主题中

TOPIC_LEX_MATCH：该术语出现在运动主题词的词典中

CLAIM_LEX_MATCH：该术语出现在权利要求词词典中

SENTIMENT(情感)：该术语出现在情感词汇词典中

[]单个术语的属性集(可以包括多个属性)

{}整个模式，单个术语之间可能出现间隙

已经出于说明的目的给出了对本发明的各种实施例的描述，但是并不旨在穷举或限制于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理，实际应用或对市场中发现的技术的技术改进，或者使本领域普通技术人员能够理解本文公开的实施例。

预期在本申请成熟的专利期间，将开发许多相关的统计分类器和计算单元，并且术语统计分类器和计算单元的范围旨在包括所有这些新技术的先验。

如本文所用，术语“约”是指±10％。

术语“包含”，“包含”，“包括”，“包括”，“具有”及其组合物表示“包括但不限于”。该术语包括术语“由......组成”和“基本上由......组成”。

短语“基本上由......组成”是指组合物或方法可包括另外的成分和/或步骤，但仅在其他成分和/或步骤不实质上改变要求保护的组合物或方法的基本和新颖特征的情况下。

如本文所用，单数形式“一”，“一个”和“该”包括复数指代，除非上下文另有明确说明。例如，术语“化合物”或“至少一种化合物”可包括多种化合物，包括其混合物。

本文使用词语“示例性”来表示“用作示例，实例或说明”。被描述为“示例性”的任何实施例不必被解释为比其他实施例优选或有利和/或排除将特征与其他实施例结合。

本文使用的“可选地”一词意味着“在一些实施例中提供而在其他实施例中未提供”。除非这些特征冲突，否则本发明的任何特定实施例可包括多个“可选”特征。

在整个本申请中，本发明的各种实施例可以以范围形式呈现。应当理解，范围形式的描述仅仅是为了方便和简洁，不应该被解释为对本发明范围的不灵活限制。因此，应该认为范围的描述具体公开了所有可能的子范围以及该范围内的各个数值。例如，应该认为对诸如1至6的范围的描述具有特别公开的子范围，例如从1到3,1到4,1到5,2到4，从2到6，从3到6等，在该范围内的个别数字，例如，1,2,3,4,5和6。无论范围的广度如何，这都适用。

无论何时在本文中指示数值范围，其意图包括在所指示的范围内的任何引用的数字(分数或积分)。短语“范围/范围在”第一指示数字和第二指示数字和“范围/范围从”第一指示数字“到”第二指示数字在本文中可互换使用并且意味着包括第一和第二指示数字以及它们之间的所有分数和整数数字。

应当理解，为了清楚起见，在单独的实施方案的上下文中描述的本发明的某些特征也可以在单个实施方案中组合提供。相反，为了简洁起见，在单个实施方案的上下文中描述的本发明的各种特征也可以单独提供或以任何合适的子组合提供或者在本发明的任何其他描述的实施方案中合适提供。在各种实施例的上下文中描述的某些特征不被认为是那些实施例的必要特征，除非该实施例在没有那些元件的情况下不起作用。

尽管已经结合本发明的具体实施方案描述了本发明，但显然许多替代，修改和变化对于本领域技术人员而言是显而易见的。因此，旨在涵盖落入所附权利要求的精神和广泛范围内的所有这些替代，修改和变化。

本说明书中提及的所有出版物，专利和专利申请均通过引用整体并入本说明书中，其程度如同每个单独的出版物，专利或专利申请被具体和单独地指出通过参考方式并入本文中。另外，本申请中任何参考文献的引用或标识不应被解释为承认这样的参考文献可用作本发明的现有技术。在使用章节标题的范围内，它们不应被解释为必然限制。

Claims

1.一种计算机实现的方法，用于输出至少一个跨层模式以识别文本中的目标语义现象，该方法包括：

对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词，提取由各个层定义的多个特征值；

统计分析为多个训练文本片段识别的多个特征值，以识别包括表示多个训练文本片段的共同模式的多个层的至少一个跨层模式，共同跨层模式定义至少一个单词的相应层的至少一个特征值和另一个单词的另一个相应层的至少另一个特征值；和

输出所识别的至少一个跨层模式，用于识别表示目标语义现象的文本片段。

2.如权利要求1所述的方法，还包括：

通过将从新文本片段提取的特征值与至少一个跨层模式中的至少一个进行匹配或相关来训练统计分类器以识别目标语义现象；和

存储或发送训练的统计分类器以分析新文本以识别表示目标语义现象的至少一个新文本片段。

3.如权利要求2所述的方法，其中，执行由各个层定义的多个特征值的提取，用于训练被指定为不表示目标语义现象的文本片段，并且基于从该被指定为不表示目标语义现象的文本片段的训练中提取的特征值来训练所述分类器。

4.如权利要求1所述的计算机实现的方法，其中，所述跨层模式包括至少一个负特征值，所述负特征值不出现在包括所述目标语义现象的文本片段中。

5.如权利要求1所述的计算机实现的方法，其中，所述至少一个跨层模式的所述多个层中的每个层是从由以下各项组成的组中选择的成员：语义，句法，领域知识，通过任务专家的知识注入，单词的词性(POS)标签，单词的上位词，由单词表示的命名实体，由单词表示的情感，出现在预定义词典中的单词。

6.如权利要求1所述的计算机实现的方法，其中，所述跨层模式包括与多个不同层相关联的文本片段中的至少一个单词。

7.如权利要求1所述的计算机实现的方法，其中针对所述至少一个单词组合所述多个不同的层。

8.如权利要求1所述的计算机实现的方法，其中，所述跨层模式包括文本片段中的至少两个不同的单词，每个单词与不同的层相关联。

9.如权利要求1所述的计算机实现的方法，其中与所述至少两个不同的单词相关联的不同的层由所述跨层模式内的顺序定义。

10.如权利要求1所述的计算机实现的方法，其中所述目标语义现象是由以下各项组成的组的成员：定义，提供支持或反对主题的证据的陈述，由实体在没有证据情况下做出的关于主题的事情就是这样的陈述，以及实体对某个主题表达的情感。

11.根据权利要求1所述的计算机实现的方法，其中，所述跨层模式包括至少两个层之间的至少一个限定的间隙，每个层来自不同的单词。

12.如权利要求1所述的计算机实现的方法，其中通过迭代地组合特征来创建所述跨层模式以生成更长的跨层模式。

13.如权利要求12所述的计算机实现的方法，还包括在每次迭代结束时应用贪婪分析以识别根据准确预测的概率排序的顶部预定义数量的跨层模式。

14.如权利要求13所述的计算机实现的方法，其中，基于与其他先前选择的较高等级特征的相关性要求来选择所述顶部预定义数量的跨层模式。

15.如权利要求12所述的计算机实现的方法，其中，通过组合和按顺序添加另一个单词的另一个特征来执行组合特征。

16.如权利要求12所述的计算机实现的方法，其中，通过组合地添加相同单词的另一特征来执行组合特征。

17.一种***，包括适于执行根据任何前述方法权利要求的方法的所有步骤的装置。

18.一种计算机程序，包括用于在计算机***上运行所述计算机程序时执行根据任何前述方法权利要求的方法的所有步骤的指令。