CN112084784A

CN112084784A - 预测语义角色标注的功能性标记

Info

Publication number: CN112084784A
Application number: CN202010528591.5A
Authority: CN
Inventors: 尹培风; 李蕴瑶; 中村大贺
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-13
Filing date: 2020-06-11
Publication date: 2020-12-15
Also published as: US20200394553A1

Abstract

本发明涉及一种预测语义角色标注的功能性标记。根据一个实施例的计算机实现的方法包括在调度器处接收训练数据实例和目标实例，由调度器从训练数据实例和目标实例生成输入序列，从调度器向编码器发送输入序列，由编码器将输入序列映射到特征向量，将特征向量从编码器发送到调度器，将特征向量从调度器发送到预测器，以及由预测器将特征向量映射到类向量以创建目标实例的标签。

Description

预测语义角色标注的功能性标记

技术领域

本发明涉及文本分析，更具体地说，本发明涉及进行自然语言处理中的语义角色标注。

背景技术

语义角色标注(SRL)又称浅层语义分析，是自然语言处理(NLP)中与理解句子意义相关的重要任务。语义角色标注旨在通过将这些信息标识为功能性标记来回答这样的问题：“谁与谁做什么，何时何地，如何以及为什么”。SRL提供了有利于诸如信息提取、问答(QA)、机器翻译等广泛的应用的有用特征。然而，当前的标注实现标识功能性标记的方式效率不高，因为这种实现侧重于识别输入文本数据中的核心参数。

发明内容

根据一个实施例的计算机实现的方法，包括在调度器处接收训练数据实例和目标实例；由调度器从训练数据实例和目标实例生成输入序列；从调度器向编码器发送输入序列；由编码器将输入序列映射到特征向量；将特征向量从编码器发送到调度器；将特征向量从调度器发送到预测器；以及由预测器将特征向量映射到类向量以创建目标实例的标签。

根据另一个实施例，一种用于预测语义角色标注的功能性标记的计算机程序产品包括体现有程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使处理器：在调度器处利用处理器接收训练数据实例和目标实例；由调度器利用处理器从训练数据实例和目标实例生成输入序列；利用处理器从调度器向编码器发送输入序列；由编码器利用处理器将输入序列映射到特征向量；利用处理器将特征向量从编码器发送到调度器；利用处理器将特征向量从调度器发送到预测器；以及由预测器利用处理器将特征向量映射到类向量以创建目标实例的标签。

根据一个实施例，一种***包括处理器和与处理器集成的、可由处理器执行的、或与处理器集成的并且可由处理器执行的逻辑，所述逻辑被配置用以在调度器处接收训练数据实例和目标实例；由调度器从训练数据实例和目标实例生成输入序列；从调度器向编码器发送输入序列；由编码器将输入序列映射到特征向量；将特征向量从编码器发送到调度器；将特征向量从调度器发送到预测器；以及由预测器将特征向量映射到类向量以创建目标实例的标签。

本发明的其他方面和实施例显见于以下的具体实施方式，以下具体实施方式结合附图通过示例说明了本发明的原理。

附图说明

图1示出了根据本发明的一个实施例的网络架构。

图2示出了根据本发明的一个实施例的可与图1的服务器和/或客户端关联的代表性硬件环境。

图3示出了根据本发明的一个实施例的用于预测语义角色标注的功能性标记的方法。

图4示出了根据本发明的一个实施例的示例性语义角色标注环境。

图5示出了根据本发明一个实施例的示例性句子的语义标签(semantic labels)。

图6示出了根据本发明一个实施例的预测处理的流水线。

图7示出了根据本发明的一个实施例，通过挑出调度器并将其他组件封装在黑盒环境中而从图6重新绘制的流水线。

图8示出了根据本发明的一个实施例的用于预测句子中语义角色标注(SRL)的功能性标记的方法。

具体实施方式

以下描述是为了说明本发明的一般原理，并不意味着限制本文要求保护的创造性概念。此外，本文描述的特定特征，可以结合其它特征以各种可能的组合和排列的每个组合和排列而使用。

除非本文另有明确定义，否则所有术语均应给出其尽可能广泛的解释，包括说明书中隐含的含义以及本领域技术人员理解的和/或词典、论文等中定义的含义。

还必须注意，如在说明书和所附权利要求书中所使用的，除非另有规定，否则单数形式“a”、“an”和“the”包括多个参照物。应进一步理解，术语“包含”和/或“包括”在本说明书中使用时，规定了所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除存在一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。

下面的描述公开了用于预测语义角色标注的功能性标记的***、方法和计算机程序产品的几个优选实施例。

在一个一般性实施例中，计算机实现的方法包括在调度器处接收训练数据实例和目标实例；由调度器从训练数据实例和目标实例生成输入序列；从调度器向编码器发送输入序列；由编码器将输入序列映射到特征向量；将特征向量从编码器发送到调度器；将特征向量从调度器发送到预测器；以及由预测器将特征向量映射到类向量以创建目标实例的标签。

在另一个一般性实施例中，一种用于预测语义角色标注的功能性标记的计算机程序产品包括体现有程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使处理器：在调度器处利用处理器接收训练数据实例和目标实例；由调度器利用处理器从训练数据实例和目标实例生成输入序列；利用处理器从调度器向编码器发送输入序列；由编码器利用处理器将输入序列映射到特征向量；利用处理器将特征向量从编码器发送到调度器；利用处理器将特征向量从调度器发送到预测器；以及由预测器利用处理器将特征向量映射到类向量以创建目标实例的标签。

在另一个一般性实施例中，一种***包括处理器和与处理器集成的、可由处理器执行的、或与处理器集成的并且可由处理器执行的逻辑，所述逻辑被配置用以在调度器处接收训练数据实例和目标实例；由调度器从训练数据实例和目标实例生成输入序列；从调度器向编码器发送输入序列；由编码器将输入序列映射到特征向量；将特征向量从编码器发送到调度器；将特征向量从调度器发送到预测器；以及由预测器将特征向量映射到类向量以创建目标实例的标签。

图1示出了根据一个实施例的架构100。如图1所示，提供多个远程网络102，包括第一远程网络104和第二远程网络106。网关101可以耦合在远程网络102和近邻网络108之间。在本架构100的语境中，网络104、106可以各自采取任何形式，包括但不限于局域网(LAN)、诸如因特网的广域网(WAN)、公共交换电话网(PSTN)、内部电话网等。

在使用中，网关101用作从远程网络102到近邻网络108的入口点。因此，网关101可以用作能够将到达网关101的给定数据分组定向的路由器，并且可以用为给定分组提供进出网关101的实际路径的交换机。

还包括耦合到近邻网络108的至少一个数据服务器114，该数据服务器114可经由网关101从远程网络102访问。应当注意，数据服务器114可以包括任何类型的计算设备/群件(groupware)。多个用户设备116耦合到每个数据服务器114。用户设备116也可以通过网络104、106、108之一直接连接。这样的用户设备116可以包括台式计算机、膝上计算机、手持计算机、打印机或任何其他类型的逻辑。应当注意，在一个实施例中，用户设备111也可以直接耦合到任何网络。

***设备120或一系列***设备120，例如传真机、打印机、网络和/或本地存储单元或***等，可以耦合到网络104、106、108中的一个或多个。应注意，数据库和/或额外的组件可与耦合到网络104、106、108的任何类型的网络元件一起使用，或者集成到耦合到网络104、106、108的任何类型的网络元件中。在本说明书的语境中，网络元件可以指网络的任何组件。

根据一些方法，本文所描述的方法和***可以使用虚拟***和/或模拟一个或多个其他***的***实现，和/或在虚拟***和/或模拟一个或多个其他***的***上实现，这样的虚拟***和/或模拟一个或多个其他***的***诸如是模拟IBM z/OS环境的UNIX***；虚拟托管MICROSOFT WINDOWS环境的UNIX***；模拟IBM z/OS环境等的MICROSOFTWINDOWS***。在一些实施例中，这种虚拟化和/或模拟可以通过使用VMWARE软件来增强。

在更多方法中，一个或多个网络104、106、108可以代表通常称为“云”的***集群。在云计算中，以按需关系向云中的任何***提供共享资源，例如处理能力、***设备、软件、数据、服务器等，从而允许跨多个计算***访问和分发服务。云计算通常涉及在云中操作的***之间的互联网连接，但也可以使用连接***的其他技术。

图2示出了根据一个实施例的与图1的用户设备116和/或服务器114相关联的代表性硬件环境。此图示出了一种具有中央处理单元210(例如微处理器)和经由***总线212互连的许多其它单元的工作站的典型硬件配置。

图2中所示的工作站包括随机存取存储器(RAM)214；只读存储器(ROM)216；输入/输出(I/O)适配器218，用于将磁盘存储单元220等***设备连接到总线212；用户接口适配器222，用于将键盘224、鼠标226、扬声器228、麦克风232和/或诸如触摸屏和数字相机(未示出)之类的其他用户接口设备连接到总线212；用于将工作站连接到通信网络235(例如数据处理网络)的通信适配器234；以及用于将总线212连接到显示设备238的显示适配器236。

工作站可以具有驻留在其上的操作***，例如Microsoft

操作***(OS)、MAC OS、UNIX OS等。应当理解，优选实施例也可以在上述平台和操作***以外的平台和操作***上实现。优选实施例可以使用可扩展标记语言(XML)、C和/或C++语言或其他编程语言以及面向对象的编程方法编写。面向对象编程(OOP)已经越来越多地被用于开发复杂的应用程序。

现在参考图3，示出根据一个实施例的方法300的流程图。在各种实施例中，方法300可根据本发明在诸如图1、2、5、6和7所示的环境之类的任何环境中执行。当然，在方法300中可以包括比图3中具体描述的操作更多或更少的操作，这是本领域技术人员在阅读本说明书时可以理解的。

方法300的每个步骤可由操作环境的任何适当组件执行。例如，在各种实施例中，方法300可部分或全部由一个或多个服务器、计算机或其中具有一个或多个处理器的某些其他设备执行。在任何设备中，可以利用例如处理电路、芯片和/或以硬件和/或软件实现的模块并且优选地具有至少一个硬件组件的处理器来执行方法300的一个或多个步骤。说明性处理器包括但不限于中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等及其组合，或本领域已知的任何其他合适的计算设备。

如图3所示，方法300可以用操作302启动，其中在调度器处接收一个训练数据实例和一个目标实例。在一个实施例中，训练数据实例可以包括表示为依赖关系树(dependencytree)的文本句子。在另一实施例中，训练数据实例可以包括多个经过标识和标记的依赖关系(dependencies)。

另外，在一个实施例中，目标实例可以包括依赖关系树的一部分(例如依赖关系树内的一个子树、句子的一部分等)。在另一实施例中，调度器可以策略性地调用一个编码器和一个预测器来执行一个或多个操作。

此外，方法300可以继续到操作304，其中调度器从训练数据实例和目标实例生成一个输入序列(input sequence)。在一个实施例中，生成输入序列可以包括由调度器解析训练数据实例和目标实例。例如，可以由调度器基于解析生成输入序列。在另一示例中，输入序列可以包括编码器可理解的一个重构的(restructured)训练数据实例和目标实例。

此外，在一个实施例中，调度器可以包括逻辑回归(logistic regression)、支持向量机(SVM)、全连接神经网络等中的一个或多个。在另一个实施例中，可以基于一个预定的策略来生成输入序列。

例如，该策略可以包括一种冷启动(cold start)策略。例如，调度器可以采用均匀分布(uniform distribution)来生成输入序列。在另一个例子中，该策略可以包括一种预热(warmup)策略。例如，调度器可以采用epsilon贪心法来生成输入序列。在另一个例子中，该策略可以包括一种热收敛(heat convergence)策略。例如，调度器可以采用最大似然动作来生成输入序列。

此外，方法300可以继续到操作306，其中，将输入序列从调度器发送到编码器。在一个实施例中，调度器可以通过向编码器发送输入序列来调用编码器。在另一实施例中，编码器可以包括递归神经网络(RNN)、隐马尔可夫模型、长短期存储器(long-short termmemory)等中的一个或多个。

此外，方法300可以继续到操作308，其中，由编码器将输入序列映射到一个特征向量。在一个实施例中，特征向量可以包括训练数据实例内的目标实例的一个或多个特征。

此外，方法300可以继续到操作310，其中，将特征向量从编码器发送到调度器。此外，方法300可以继续到操作312，其中，将特征向量从调度器发送到预测器。在一个实施例中，调度器可以通过向预测器发送特征向量来调用预测器。在另一实施例中，可以基于一个或多个准则，有条件地向预测器发送特征向量。

此外，在一个实施例中，调度器可以确定特征向量是否足以调用预测器。例如，可以响应于确定特征向量足以调用预测器而将特征向量发送给预测器。在另一实施例中，响应于确定特征向量不足以调用预测器而不将特征向量发送到预测器。

此外，在一个实施例中，调度器可以将特征向量映射到一个动作排序(actionranking)向量。在另一实施例中，预测器可包括逻辑回归、SVM、全连接神经网络等中的一个或多个。

此外，方法300可以继续到操作314，其中，由预测器将特征向量映射到一个类(class)向量以创建目标实例的标签(label)。例如，类向量可以包括预定的特征与预定的类或标签之间的相关性(correlation)。在一个实施例中，标签可以包括一个预测的非功能性标签(nonfunctional label)。例如，预测的非功能性标签可以包括关于目标实例是否是一个功能性标记(functional tag)的预测。在另一示例中，功能性标记可以包括句子的一部分，该部分包括关于在句子中执行的动作的细节(例如，位置、时间、细节等)。

这样，预测器就可以为目标实例创建一个标签，该标签指示目标实例是否是一个功能性标记。

此外，在一个实施例中，可以将标签与一个预定训练标签进行比较，以确定标签与预定训练标签之间的差异。例如，可由将预定训练标签与训练数据实例和目标实例一起提供给调度器。在另一示例中，预定的训练标签可以包括训练数据实例的基本事实(groundtruth)标签。在又一示例中，预定训练标签可包括一个指示目标实例是否为功能性标记的预定标签。

此外，在一个实施例中，可以基于差异来调整预测器。例如，可以调整由预测器执行的映射以减小或消除该差异。这样，可以利用差异来训练预测器。

此外，在一个实施例中，可以将差异从预测器发送到调度器。在另一实施例中，可以基于差异来调整调度器。例如，可以调整调度器对编码器和预测器的调用以减小或消除该差异。这样，在调度器、预测器和编码器的训练期间，可以利用强化学习来优化调度器。

此外，在一个实施例中，可以对调整后的调度器应用一个模型。例如，该模型可以包括一个表示为依赖关系树的句子，以及依赖关系树中一个标识的子树。在另一示例中，调整后的调度器可以从模型生成一个输入序列。然后，调整后的调度器可以将输入序列发送到编码器。编码器随后可以将输入序列映射到特征向量，然后将特征向量返回给调整后的调度器。调整后的调度器可以将特征向量发送到调整后的预测器。然后，调整后的预测器可以将特征向量映射到一个类向量，以为标识的子树创建一个标签(例如，子树是功能性的(functional)还是非功能性的(non-functional)，等等)。

这样，可以训练专门关注功能性标记的识别的分析，并将其应用于表示为依赖关系树的句子。这可以改进这些句子中功能性标记的预测，这可以减少执行这种预测所需的处理量。这反过来可以提高执行这种预测的一个或多个计算设备的性能。

图4示出了根据一个实施例的示例性语义角色标注环境400。如图所示，包括依赖关系树404和目标406的训练数据402被输入到调度器408中。调度器408创建被发送到编码器412的输入序列410。

此外，编码器412将输入序列410映射到特征向量414，然后将其返回给调度器408。调度器408分析特征向量414，并且在确定特征向量414足以调用预测器416时，调度器408将特征向量414发送到预测器416。

此外，响应于接收到特征向量414，预测器416将特征向量414映射到类向量以为目标406创建标签418。将这个创建的标签418与目标406的基本事实标签420进行比较，并且将任何误差发送到预测器416和调度器408，以便可以对它们进行调整，以最小化将来的误差。

协调神经网络：结合递归神经网络和强化学习以预测语义角色标注的功能性标记

PropBank是一个用于英文的标注方案。它用三种类型的标签—谓词、编号的参数和功能性标记—来注释句子。每个谓词(通常是动词)表示句子中的一个主要动作，每个编号的参数都是中心谓词的关联参数。特别是，有一个框架文件(frame file)列出了每个谓词的所有可能的编号的参数。最后，功能性标记是谓词的修饰语(mofifiers)的标签，提供诸如时间、位置、方式和原因等的辅助信息。图5显示了语句“He bought a hammer from alocal store on Monday morning.”(他在星期一早上从当地商店买了一把锤子。)的语义标签502A-E。图中可见，“He”504和“a hammer”506是谓词(即本例中的“bought”508)的参数，而“from…”510和“on…”512则是功能性标记，分别表示位置(AM-LOC)502D和时间(AM-TMP)502E。

可以用一般的方法来预测所有语义角色。然而，并不是所有的语义角色都是平等的。功能性标记比谓词和编号参数灵活得多。首先，功能性标记没有预定义的框架。因此，不能依赖框架文件作为知识库来帮助进行预测。此外，在一个句子中功能性标记可能是缺失的，因为它们只提供相关的信息。由此产生的低出现频率(frequency of occurrence)使得基于实例的方法很难找到相似的案例。最后，功能性标记在句子中的位置是高度变异的。例如，句子“On Monday morning he bought a hammer”(星期一早上他买了一把锤子)和句子“He bought a hammer on Monday morning”并非不同。同样，“She picks a coin out ofthe pocket”(她从口袋里掏出一枚硬币)和“She picks out of the pocket a coin”这两个句子都有道理。这种灵活性影响了分类器(classifier)训练中位置相关特征的有效性。此外，它还会影响生成全局序列特征(global sequential features)以进行预测的端到端(end-to-end)模型。

我们认为应该采用特殊的方法来处理功能性标记。在这项工作中，我们开发了一个模型—称为协调神经网络(CoNN—Coordinate Neural Network)，用以预测功能性标记。CoNN将预测任务视为玩一个益智游戏，玩家需要收集碎片化的提示并做出最终的猜测。特别是，给定一个解析的依赖关系树，该模型从目标项的根符记(token)开始，根据所学到的“意义”，沿着子项(child)或父项(parent)随机移动。一旦它对收集到的信息感到自信，它就会停下来做一个预测。路径导航、信息采集和决策是由CoNN的不同组件完成的。虽然不同组件具有不同的局部目标函数和对整个过程的局部控制，但它们相互协调，共同完成预测任务。

为了说明模型是如何工作的，我们使用图5中的示例。为了预测“on Mondaymorning”的功能性标记，CoNN从符记“on”512开始。CoNN觉得目前为止的信息还不够充分，因此决定继续移动到它的子项。现实中，单词“on”512可以表示位置(AM-LOC)502D也可以表示时间(AM-TMP)502E，这依赖于跟在该单词后面的词语。到达符记“morning”后，CoNN更新信息并决定停止并预测标记(tag)，因为“morning”是AM-TMP 502E的强信号。同样，为了预测“from a local store”的功能性标记，CoNN从根符记“from”510开始。有了这个信息，它决定继续前进，因为在训练数据中，这个符记可以表示方向(AM-DIR)或位置(AM-LOC)502D，这取决于上下文。模型CoNN决定不访问其子项，而是访问其父项，即符记“buy”508。然后，模型CoNN感到自信，于是预测角色标签，这是因为，谓词“buy”与方向标记(tag)关联的概率很低。值得注意的是，在实现时，模型不可能有这样的人类可读的规则。相反，它将所有访问的符记编码为一个潜在的特征向量，并根据该特征向量来做出决策。

本文公开的贡献有三个方面。首先，我们将功能性标记的预测从一个普通SRL任务中分离出来，并提出一个模型来解决它。我们实验结果表明，我们的方法对功能性标记的预测的准确率，高于那些关注所有语义角色的方法。此外，我们还开发了强化学习，量身定制了Q学习技术，以明智地细化局部信息，帮助对功能性标记的预测。与扫描整个句子以获取全局特征的方法相比，本发明方法效率更高，所需的模型的复杂性也更小。最后，我们进行了大量的实验来研究不同的模型结构和配置对性能的影响。

CoNN结构

控制器由三个主要部件组成，即调度器、编码器和预测器。调度程序负责从解析的依赖关系树生成输入序列。编码器将输入序列转换为隐藏的特征向量，最后，预测器对其语义角色标签进行预测。该预测过程600的流水线如图6所示。

如图6所示，预测流水线从目标子树602开始，调度器604从目标子树602确定要传递给编码器608的符记x 606。编码器608接收符记x 606，将其与当前的隐藏状态相结合，并将其映射到新的符记h 610。然后，基于更新的隐藏状态，调度器604作出关于如何继续的决定，即，选择更多符记以馈送到编码器608(直到没有更多可用符记为止)或停止。当符记馈送停止时，预测器612对语义角色标签进行预测y 614。在训练期间，预测的误差616被反向传播到预测器612和编码器608以调整其参数。同时，该误差被转换成测量生成的符记序列的质量的某种奖励(reward)分数618。该分数618被传回调度器604以优化其符记生成策略。此外，实心箭头表示预测期间的数据馈送，而虚线箭头表示训练期间的反馈。

调度器的模型

调度器的作用是明智地调度输入序列，以便最终预测器能够给出语义角色标签的正确预测。对于调度器来说，编码器和预测器的运行机制是完全透明的。图7示出了通过挑出调度器并将其他组件封装在黑盒环境中而从图6重新绘制的流水线。结果代表了强化学习的经典情形。

对于每个目标实例，我们将初始隐藏状态设置为使用对应目标依赖树的根符记编码的状态。动作空间包括i)得到父项ii)得到子项和iii)停止。前两种动作是获得依赖树702中当前符记的父项符记/子项符记，最后一种动作是激活预测器704以基于最新隐藏状态给出预测。特别地，当一个节点有多个子项时，将对子项的访问顺序限制为在它们在原始语句中出现的顺序。最后，对于奖励规则来说，生成新符记(动作i和ii)有0个即时奖励，而停止(动作iii)有1/-1个即时奖励，其中的值取决于预测是否正确。

形式上，设w_ha表示动作排名参数，给定隐藏状态h，则从动作空间

中选择一个特定动作a的概率被定义为所有动作的软最大值(softmax)，如下式(1)所示：

其中，h^T表示向量的转置，w_ha(:；a)表示矩阵的第a列。调度器的目标是通过调整参数w_ha的值，使期望的奖励随着时间的推移而最大化。一般来说，将目标函数定义为即时奖励和折扣的未来奖励之和，如下式(2)所示：

其中，γ∈[0，1]是未来奖励的折扣值，通常设置为0.99。为了有效地优化调度程序，我们可以应用一种常规Q-学习技术，将从时间t开始的估计累积奖励与时间t+1时的实际奖励回报加上预期的未来累积回报之间的差异最小化：

其中，r_t代表在隐藏状态h_t下采取行动a_t后获得的即时奖励。Q评估函数可以简单地定义为无softmax的动作值估计：

Q(a|w_ha，h)＝h^T·w_ha(：，a) (4)

然而，由于语义角色预测的特殊设置，可以采取捷径来加速学习过程。

编码器和预测器的模型

在本节中，我们将描述编码器和预测器的结构，因为二者是作为整体工作的。具体来说，编码器是Elman递归神经网络，预测器是前馈神经网络。对于调度器馈送的每个新符记x_t，编码器使用输入-到-隐藏(input-to-hidden)矩阵w_ih和隐藏-到-隐藏(hidden-to-hidden)矩阵w_hh来更新更新隐藏状态，如下所示：

其中，b_h是偏差标量，tanh()是双曲正切函数。预测器仅在最终的输入符记x_T处被激活，并基于最新的隐藏状态h_T进行预测。具体地说，输出y_T是一个向量，其维数与候选标签的总数相同。与式(1)类似，应用softmax归一化函数来获得每个可能选择的似然性。注意，对于中间隐藏状态{h_t|1≤t＜T}，预测器也可以产生“虚拟输出”y_t。这些输出不影响最终预测，仅被用来优化调度器。

编码器和预测器作为一个整体工作，共享相同的目标，即最大化正确预测的数量。从数学上讲，它是通过在给定输入序列分布的情况下，最大化真实标签的期望对数似然来实现的。形式上，给定有标注的依赖关系树的数据集

设θ_e，θ_p分别表示编码器和预测器的参数，则目标函数可以写成式(6)：

d,l表示目标实例及其语义角色标签。Distr(d，w_ha，θ_e)表示由调度器生成的输入序列的分布。给定一个实例，由于等式(1)中定义的动作选择的随机策略，生成的输入符记顺序可能不同。最后，实际标签的概率P(l|·)是输出向量y_T的第l个元素值。

CoNN学习

在本节中，我们介绍模型推断。具体来说，我们首先描述为了优化调度器而改进的Q-学习技术。然后我们讨论整个模型的训练。对于编码器和预测器，训练采用标准的反向传播。

定制的Q-学习

如前面在式(2)中所示，Q-学习的关键思想是使用t时刻的即时奖励和从t+1时刻开始的估计的未来累积奖励(带折扣)来调整t时刻的估计。更一般地，可以跟踪动作的τ时间步和隐藏状态，并进行一系列调整。在这种情况下，估计的误差梯度在式(7)中表示：

为简单起见，我们省略了Q评估函数中的w_ha参数。

可以看出，对隐藏状态h_t的准确估计高度依赖于所有可能的h_t+1的完整遍历。这是一个通用的强化学习技术，用于奖励无限的游戏。然而，在我们的例子中，假定折扣参数γ是非负值且不大于1，即时奖励要么是0、1，要么是-1，因此Q-函数是严格地在[-1；1]的界限内。此外，调度器的目标是生成一个良好的输入序列，其中编码器和预测器具有较高的预测精度。因此，调度器需要避免具有负奖励的隐藏状态。这种倾向提供了定制通用Q-学习技术的机会。最后，对于每个隐藏状态，调度器都可以激活预测器，以获得实际即时奖励的虚拟输出。这种机制也有助于提高学习速度。

综上所述，我们设计了调度器训练期间的两个规则，如下所示：

·奖励限制。此规则用于将传播到最后一个隐藏状态时的估计的奖励限制在-1和1的范围内。

·全是坏消息。此规则对负的即时奖励不应用折扣，以增加避免调度器的“故障隐藏状态”的概率。

表1例示该学习算法.

表1

如表1所示，给定某个数据实例的采样隐藏状态序列及其真实标签，该算法首先逆扫描每个隐藏状态h_t和执行的动作a_t。对于每个状态，它将激活预测器以获得如果在隐藏状态停止的即时奖励。这个值是确定的，因此直接被用于更新Q函数(第6行)。然后，对于实际执行的动作a_t，它用r_t来更新Q函数，其记录下一个时间戳的估计最佳奖励(定义见第13行)。接下来，该算法估计当前时间戳下的折扣后的最佳奖励，并反向传播。特别地，只有当当前传播的奖励不是-1时才应用折扣(第10行到第11行)。这是因为rt＝-1表示未来的预测失败，应该避免。最后，将估计的奖励限制在-1和1内(第14行)以匹配设置。

整个模型的训练

尽管调度器、编码器和预测器具有在式(2)和式(6)中定义的不同的目标函数，但它们通过隐藏状态和预测性能相互影响。训练是交替进行的。编码器和预测器根据调度器生成的输入符记序列的分布情况进行自身优化，以提高预测精度。然后，使用固定的编码器和预测器，调度器学习预测器“偏爱”哪个序列，并朝生成有偏序列的方向调整其参数。当输入序列的分布发生变化时，编码器和预测器再次进行调整并适应新的序列。

对于调度器生成序列，我们依次采用三种策略，即均匀随机、有偏随机和最大策略。第一种策略(均匀随机)随机选择动作，以生成序列，而不考虑动作评估函数或隐藏状态。它用于所有模型参数随机初始化的早期训练阶段(冷启动)。在过了早期阶段之后，将均匀随机逐步切换到有偏随机策略，即根据式(1)中定义的动作评估函数选择动作。最后，在最后阶段，调度器程序使用最大策略(即，采取评估得分最高的动作)。该策略固定了所得到的序列，整个模型的性能波动较小，收敛较快。

表2例示学习算法的伪代码。

表2

给定数据集

该学习采取I迭代.对于每次迭代，随机采样大小为

的数据子集

然后生成输入序列，记为函数Gen()。这里的第二个参数是具有对应于上述三种策略的均匀、随机或最大的值的选择策略。

具体地说，当迭代超过某个预定阈值1<I*<I时，学习进入热收敛阶段，使用最大策略。否则，将选择从0到1的随机数(0；1)来选择均匀策略或有偏策略。可以注意到，决策界线是

其中α是影响预热速度的非负变量，i是迭代次数。一般来说，随着迭代的增加，更有可能选择一个有偏策略。还要注意，对于最大策略，每个数据实例只生成一个输入序列，而对于其他两个策略来说则生成m个输入序列。对于某个数据实例来说，生成的输入序列总是与最大策略相同，因此一个输入序列就足够了。最后，将生成的序列

反馈，用于交替地训练编码器、预测器和调度器。

在一个实施例中，迭代地训练编码器、预测器和调度器。根据调度器状态将整个训练分为三个阶段：

冷启动：调度器随机地“调度”序列

预热：调度器减少了随机性，使得生成的序列的分布更加一致

热收敛：调度器允许零随机性，使得分布固定

我们建议用CoNN来在SRL中预测功能性标记。这种实现采用RNN作为编码器对输入序列进行编码，采用前馈神经网络作为预测器。此外，还设计了一个调度器，并使用定制的强化学习技术进行训练，以有效地生成输入序列。评估结果表明CoNN的性能优于关注所有SRL标记的现有技术方法，证实了我们的论点，即功能性标记需要单独进行建模才能获得更好的总体准确性。

在一个实施例中，用于预测句子中语义角色标注(SRL)的功能性标记的方法可以包括：接收训练数据，其中每个训练数据包括一个依赖关系树，依赖关系树具有零个或更多个用基本事实(ground-truth)功能性标记标注的子树；训练包括调度器、编码器和预测器的模型，其中(i)调度器是将特征向量映射到动作排序向量的任何函数(包括但不限于逻辑回归、SVM、全连接神经网络等)；确定要传递给编码器的符记，并决定何时调用预测器，(ii)编码器是将输入数据序列映射到特征向量的任何函数(包括但不限于递归神经网络、隐马尔可夫模型、长短期存储器(Long-short Term Memory)等)，(iii)预测器是将特征向量映射到功能性标记向量的任何函数(包括但不限于逻辑回归、SVM、全连接神经网络等)，和(iv)其中，在训练期间，将预测的误差用于调整预测器、编码器和调度器的参数，并应用训练后的模型来预测句子中的功能性标记。

此外，训练策略可以包括：调度器使用的冷启动策略，通过采用动作的均匀分布来生成动作排序向量；调度器使用的预热策略，通过采用epsilon贪心法来修改动作排序向量，即，部分地基于估计的动作概率，部分地基于均匀分布；以及调度器使用的热收敛策略，通过采用最大似然动作来修改动作排序向量。

现在参考图8，示出了根据一个实施例示的用于预测句子中语义角色标注(SRL)的功能性标记的方法800的流程图。在各种实施例中，方法800可根据本发明在图1、2、5、6和7所示的任何环境等环境中执行。当然，本领域技术人员在阅读本说明书时可以理解，方法800可以包括比图8中具体描述的操作更多或更少的操作。

方法800的每个步骤可由操作环境的任何适当组件执行。例如，在各种实施例中，方法800可部分或全部由一个或多个服务器、计算机或其中具有一个或多个处理器的某些其他设备执行。可以在任何设备中利用处理器，例如处理电路、芯片和/或以硬件和/或软件实现的并且优选地具有至少一个硬件部件的模块，来执行方法800的一个或多个步骤。说明性处理器包括但不限于中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等及其组合，或本领域已知的任何其他合适的计算设备。

如图8所示，方法800可始于操作802，在此接收训练数据，其中每个训练数据包括一个依赖关系树，依赖关系树具有零个或更多个用基本事实功能性标记标注的(labeled)子树。另外，方法800可以进行操作804，在此训练一个模型，其中模型包括调度器、编码器和预测器。

此外，在一个实施例中，调度器可以包括将特征向量映射到动作排序向量的任何函数(包括但不限于逻辑回归、SVM、全连接神经网络等)，确定要传递给编码器的符记，并决定何时调用预测器。

在另一实施例中，编码器可以包括将输入数据序列映射到特征向量的任何函数(包括但不限于递归神经网络、隐马尔可夫模型、长-短期存储器等)。在又一实施例中，预测器可以包括将特征向量映射到功能性标记向量的任何函数(包括但不限于逻辑回归、SVM、全连接神经网络等)。

在另一个实施例中，在训练期间，使用预测的误差来调整预测器、编码器和调度器的参数。此外，方法800可以继续操作806，其中将训练后的模型应用于预测句子中的功能性标记。

此外，在一个实施例中，训练策略可以包括以下的一个或多个：由调度器使用的冷启动策略，其通过采用动作的均匀分布来生成动作排序向量；由调度器使用的预热策略，其通过采用epsilon贪心法来修改动作排序向量(即，部分基于估计的动作概率、部分基于均匀分布)；以及由调度器使用的热收敛策略，其通过采用最大似然动作来修改动作排序向量。

在任何可能的技术细节结合层面，本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以在时间上部分或完全重叠的方式作为一个步骤完成、并行地执行、基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

此外，根据各种实施例的***可以包括处理器和与处理器集成和/或由处理器可执行的逻辑，所述逻辑被配置为执行本文所述的一个或多个处理步骤。处理器可以是如本文所述的任何配置，例如分立的处理器或包括许多组件(例如处理硬件、存储器、I/O接口等)的处理电路。所谓与处理器集成，意思是处理器具有嵌入其中的逻辑作为硬件逻辑，例如由处理器执行的专用集成电路(ASIC)、FPGA等。所谓由处理器可执行，意思是所述逻辑是硬件逻辑、诸如固件的软件逻辑、操作***的一部分、应用程序的一部分等、或硬件和软件逻辑的某种组合，其是处理器可访问的并被配置为在由处理器执行时使处理器执行某些功能。软件逻辑可以存储在本领域已知的任何存储器类型的本地和/或远程存储器上。可以使用本领域已知的任何处理器，例如软件处理器模块和/或硬件处理器，例如ASIC、FPGA、中央处理器(CPU)、集成电路(IC)、图形处理单元(GPU)等。

显然，可以以任何方式组合上述***和/或方法的各种特征，从而根据上述描述创建多个组合。

将进一步理解，本发明的实施例可以以服务的形式被提供，该服务代表客户被部署以按需提供服务。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的方法，包括：

在调度器处接收训练数据实例和目标实例；

由调度器从训练数据实例和目标实例生成输入序列；

从调度器向编码器发送输入序列；

由编码器将输入序列映射到特征向量；

将特征向量从编码器发送到调度器；

将特征向量从调度器发送到预测器；以及

由预测器将特征向量映射到类向量以创建目标实例的标签。

2.根据权利要求1所述的计算机实现方法，其中：

训练数据实例包括表示为依赖关系树的句子，

目标实例包括依赖关系树的一部分，

输入序列包括编码器可以理解的重组后的训练数据实例和目标实例，

特征向量包括训练数据实例中的目标实例的一个或多个特征，类向量包括预定特征和预定标签之间的相关性，以及

标签包括一个预测的非功能性标签，其预测目标实例是否为功能性标记。

3.根据权利要求1所述的计算机实现方法，其中，训练数据实例包括一个表示为依赖关系树的句子。

4.根据权利要求1所述的计算机实现方法，其中，训练数据实例包括多个经过标识和标注的依赖关系。

5.根据权利要求1所述的计算机实现方法，其中，目标实例包括依赖关系树的一部分。

6.根据权利要求1所述的计算机实现方法，其中，目标实例包括依赖关系树的子树。

7.根据权利要求1所述的计算机实现方法，其中，特征向量包括训练数据示例内的目标实例的一个或多个特征。

8.根据权利要求1所述的计算机实现方法，其中，调度器是从由逻辑回归模块、支持向量机(SVM)和全连接神经网络组成的组中选择的。

9.根据权利要求1所述的计算机实现方法，其中，编码器是从递归神经网络(RNN)、隐马尔可夫模型和长短期存储器组成的组中选择的。

10.根据权利要求1所述的计算机实现方法，其中，预测器是从由逻辑回归模块、支持向量机(SVM)和全连接神经网络组成的组中选择的。

11.根据权利要求1所述的计算机实现方法，其中，响应于确定特征向量足以调用预测器而将特征向量发送到预测器。

12.根据权利要求1所述的计算机实现方法，还包括：

将标签与预定训练标签进行比较，以确定标签与预定训练标签之间的差异；以及

基于差异来调整预测器和调度器。

13.根据权利要求12所述的计算机实现方法，还包括对经过调整的调度器应用模型。

14.根据权利要求1所述的计算机实现方法，其中，输入序列是基于预定策略生成的。

15.根据权利要求14所述的计算机实现方法，其中，预定策略包括包括冷启动策略，其中调度器采用均匀分布来生成输入序列。

16.根据权利要求14所述的计算机实现方法，其中，预定策略包括预热策略，其中调度器采用epsilon贪心法来生成输入序列。

17.根据权利要求14所述的计算机实现方法，其中，预定策略包括热收敛策略，其中调度器采用最大似然动作来生成输入序列。

18.一种用于预测语义角色标注的功能性标记的计算机程序产品，所述计算机程序产品包括体现有程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使处理器执行根据权利要求1至17中的任何一项所述的方法的步骤。

19.一种装置，包含一个或多个模块，所述一个或多个模块被设置得用于实现根据权利要求1至17中的任何一项所述的方法的步骤。

20.一种***，包括：

处理器；和

与处理器集成的、可由处理器执行的、或与处理器集成的并且可由处理器执行的逻辑，所述逻辑被配置得用以实现根据权利要求1至17中的任何一项所述的方法的步骤。

21.一种计算机实现的方法，包括：

接收训练数据，其中每个训练数据包括具有零个或更多个子树的依赖关系树，子树上标注有基本事实功能性标记；

训练包括调度器、编码器和预测器的模型，其中：

(i)调度器是将特征向量映射到动作排序向量、确定要传递给编码器的符记以及决定何时调用预测器的任何函数；

(ii)编码器是将输入数据序列映射到特征向量的任何函数；

(iii)预测器是将特征向量映射到功能性标记向量的任何函数；以及

(iv)其中在训练期间，使用预测的误差来调整预测器、编码器和调度器的参数；以及

应用训练后的模型来预测句子中的功能性标记。

22.一种计算机程序产品，所述计算机程序产品包括体现有程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使处理器执行根据权利要求21所述的方法的步骤。

23.一种装置，包含一个或多个模块，所述一个或多个模块被设置得用于实现根据权利要求21所述的方法的步骤。

24.一种***，包括：

处理器；和

与处理器集成的、可由处理器执行的、或与处理器集成的并且可由处理器执行的逻辑，所述逻辑被配置得用以实现根据权利要求21所述的方法的步骤。