CN108604227B

CN108604227B - 用于神经临床释义生成的***和方法

Info

Publication number: CN108604227B
Application number: CN201780008325.6A
Authority: CN
Inventors: S·S·阿尔哈桑; 刘波; O·F·法里; 柳俊毅; A·普拉卡什
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2016-01-26
Filing date: 2017-01-23
Publication date: 2023-10-24
Anticipated expiration: 2037-01-23
Also published as: EP3408755A1; US20190034416A1; JP2019510290A; CN108604227A; JP6876061B2; US11068660B2; WO2017130089A1

Abstract

本公开涉及释义生成***。所述***包括一个或多个硬件处理器和/或其他部件。所述***被配置为获得训练语料库。所述训练语料库包括语言和对语言的已知释义。所述***被配置为基于所述训练语料库来生成基于单词级关注的模型和基于字符级关注的模型。所述***被配置为基于所述基于单词级关注的模型和所述基于字符级关注的模型两者来提供自然语言输入的一个或多个候选释义。所述基于单词级关注的模型是单词级双向长短期记忆(LSTM)网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。所述单词级LSTM网络和所述字符级LSTM网络是基于所述训练语料库中的单词和字符来生成的。在一些实施例中，所述LSTM网络是堆叠的残余LSTM网络，其包括给定LSTM网络的堆叠层之间的残余连接。

Description

用于神经临床释义生成的***和方法

技术领域

本公开涉及一种释义生成***，其被配置为提供对自然语言输入的一个或多个释义。

背景技术

神经机器翻译***是已知的。现有的神经机器翻译***通常使用编码器-解码器方法(例如，其中，根据源句子来生成固定长度矢量用于形成目标句子)或基于关注的软搜索方法(例如，其中，模型能够学习联合对齐和翻译，这有助于通过使用最相关源词的上下文向量来改进相对长句中的目标词预测)方法，经由单词级计算执行双语机器翻译。给定未知源词，这些方法不能准确地预测目标词(例如，未包括在神经网络的训练数据集中的词)。

发明内容

因此，本公开的一个或多个方面涉及一种***，其被配置为包括一个或多个硬件处理器和/或其他部件的释义生成***。所述一个或多个硬件机处理器通过计算机可读指令被配置为：获得训练语料库，所述训练语料库包括语言和所述语言的释义；基于所述训练语料库来生成基于单词级关注的模型和基于字符级关注的模型；并且基于所述单词级和字符级基于关的注模型两者来提供自然语言输入的一个或多个候选释义。在一些实施例中，所述一个或多个硬件处理器被配置为使得基于单词级关注的模型是单词级双向长短期记忆(LSTM)网络，并且基于字符级关注的模型是字符级双向LSTM网络。基于训练语料库中的单词和字符来生成单词级和字符级LSTM网络。在一些实施例中，所述一个或多个硬件处理器被配置为基于训练语料库来生成基于句子级关注的模型，并基于句子级、单词级和基于字符级关注的模型来提供自然语言输入的一个或多个候选释义。在一些实施例中，所述一个或多个硬件处理器被配置为使用训练语料库来确定单词级、字符级和句子级嵌入；基于根据现有知识库已知的语义关系来更新单词级、字符级和句子级嵌入；基于经更新的单词级和字符级嵌入来生成单词级和基于字符级关注的模型；并且基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来提供一个或多个候选释义。在一些实施例中，所述一个或多个硬件处理器被配置为使用递归神经网络(RNN)和/或卷积神经网络(CNN)来确定句子级、单词级和字符级嵌入。在一些实施例中，所述一个或多个硬件处理器被配置为使得提供所述一个或多个候选释义包括确定针对强化学习模型的奖励函数，所述强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且根据所述比较来输出候选释义。在一些实施例中，所述一个或多个硬件处理器被配置为使得所述基于单词级关注的模型是堆叠的残余单词级双向LSTM网络，并且所述基于字符级关注的模型是堆叠的残余字符级双向LSTM网络。所述堆叠的残余LSTM网络包括给定LSTM网络的堆叠层之间的残余连接。

本公开的另一方面涉及一种利用所述释义生成***来生成释义的方法。所述方法包括：获得训练语料库，所述训练语料库包括语言和所述语言的释义；基于所述训练语料库来生成基于单词级关注的模型和基于字符级关注的模型；并且基于所述单词级和基于字符级关注的模型两者来提供自然语言输入的一个或多个候选释义。在一些实施例中，所述基于单词级关注的模型是单词级双向LSTM网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。基于训练语料库中的单词和字符来生成单词级和字符级LSTM网络。在一些实施例中，所述方法还包括基于训练语料库来生成基于句子级关注的模型，并且基于句子级、单词级和基于字符级关注的模型来提供自然语言输入的一个或多个候选释义。在一些实施例中，所述方法还包括：使用训练语料库来确定单词级、字符级和句子级嵌入；基于根据现有知识库已知的语义关系来更新单词级、字符级和句子级嵌入；基于经更新的单词级和字符级嵌入来生成单词级和基于字符级关注的模型；并且基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来提供一个或多个候选释义。在一些实施例中，使用RNN和/或CNN来确定句子级、单词级和字符级嵌入。在一些实施例中，提供一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。在一些实施例中，基于单词级关注的模型是堆叠的残余单词级双向LSTM网络，并且基于字符级关注的模型是堆叠的残余字符级双向LSTM网络。所述堆叠的残余LSTM网络包括给定LSTM网络的堆叠层之间的残余连接。

本公开的又一方面涉及一种用于生成释义的***。所述***包括：用于获得训练语料库的单元，所述训练语料库包括语言和所述语言的释义；用于基于所述训练语料库来生成基于单词级关注的模型和基于字符级关注的模型的单元；以及用于基于所述单词级和字符级基于关的注模型两者来提供自然语言输入的一个或多个候选释义的单元。在一些实施例中，所述基于单词级关注的模型是单词级双向LSTM网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。基于训练语料库中的单词和字符来生成单词级和字符级LSTM网络。在一些实施例中，所述***还包括用于基于训练语料库来生成基于句子级关注的模型并且基于句子级、单词级和基于字符级关注的模型来提供自然语言输入的一个或多个候选释义的单元。在一些实施例中，所述***还包括用于使用训练语料库来确定单词级、字符级和句子级嵌入的单元；用于基于根据现有知识库已知的语义关系来更新单词级、字符级和句子级嵌入的单元；用于基于经更新的单词级和字符级嵌入来生成单词级和基于字符级关注的模型的单元；以及用于基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来提供一个或多个候选释义的单元。在一些实施例中，使用RNN和/或CNN来确定句子级、单词级和字符级嵌入。在一些实施例中，提供一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。在一些实施例中，基于单词级关注的模型是堆叠的残余单词级双向LSTM网络，并且基于字符级关注的模型是堆叠的残余字符级双向LSTM网络。所述堆叠的残余LSTM网络包括给定LSTM网络的堆叠层之间的残余连接。

本发明的这些和其他目的、特征和特性，以及相关结构元件的操作方法和功能以及部件组合和制造经济性将在参考附图理解本发明和权利要求后变得更加明显，所有附图均形成说明书的一部分，其中，在各个附图中，相同的附图标记指代对应的部件。然而，要明确理解，附图仅出于图示和说明的目的并且不旨在作为对本公开的限度的限制。

附图说明

图1是释义生成***的示意图。

图2图示了多层CNN架构。

图3图示了多层RNN架构。

图4A图示了LSTM网络。

图4B图示了堆叠的残余双向LSTM网络。

图5图示了强化学习架构。

图6图示了由***执行的一部分操作。

图7图示了利用释义生成***来生成释义的方法。

具体实施方式

本文中使用的单数形式的“一”、“一个”以及“该”包括多个指代物，除非上下文中明确地另行规定。本文中所用的两个或多个零件或部件被“耦合”的表述将意味着所述零件直接或间接地(即，通过一个或多个中间零件或部件，只要发生连接)被结合到一起或一起工作。本文中所用的“直接耦合”意指两个元件彼此直接接触。本文中所用的“固定耦合”或“固定”意指两个部件被耦合以作为一体移动，同时维持相对于彼此的固定取向。

本文中所用的词语“一体的”意指部件被创建为单件或单个单元。亦即，包括单独创建并然后被耦合到一起成为单元的多件的部件不是“一体的”部件或体。本文中采用的两个或多个零件或部件相互“接合”的表述将意味着所述零件直接地或通过一个或多个中间零件或部件而相互施加力。本文中采用的术语“若干”将意味着一或大于一的整数(即，多个)。

本文中使用的方向短语，例如但不限于，顶部、底部、左、右、上、下、前、后以及它们的派生词涉及附图中所示的元件的取向，并且不对权利要求构成限制，除非在权利要求中明确记载。

图1是释义生成***10的示意图。释义包括使用文本替代来表达由源内容表达的相同和/或相似的含义。释义在各种自然语言处理(NLP)应用中被使用，例如搜索总结、问答、信息提取、信息检索和自然语言生成。***10通过将释义生成任务作为单语神经机器翻译问题来促进基于深度神经网络的组合的释义生成(例如，临床释义生成)的整体方法。***10被配置为变换文本以提高可读性，同时保持整体意义完整。例如，临床释义生成对于开发以患者为中心的临床决策支持(CDS)应用具有价值，其中，用户能够通过更容易的替代释义和/或其他应用来理解复杂的临床术语。

传统释义生成方法利用手工制作的规则，自动学习的复杂的释义模式，基于词库的或语义分析驱动的自然语言生成方法，和/或利用统计机器学习理论。现有的神经机器翻译***使用编码器-解码器方法(例如，其中，根据源句子来生成固定长度矢量用于形成目标句子)或基于关注的软搜索方法(例如，其中，模型能够学习联合对齐和翻译，这有助于通过使用最相关源词的上下文向量来改进相对长句中的目标词预测)，经由单词级计算来执行双语机器翻译。然而，这些方法在给定未知源词预测目标词(例如，未包括在神经网络的训练数据集中的词)的能力方面受到限制。

***10是被配置用于临床和/或其他释义生成的深度神经网络，其克服了神经机器翻译的传统方法的限制。***10被配置为通过执行字符级建模和/或其他操作来克服现有***的限制，以解释未知的(例如，未包括在训练数据库中的单词和/或其他单词)源单词。在一些实施例中，***10组合卷积神经网络(CNN)，递归神经网络(RNN)，长短期记忆(LSTM)网络和强化学习操作来形成用于释义生成的系集架构。在一些实施例中，***10包括在层之间具有残余连接的多个堆叠LSTM网络。

本说明书通常提及“临床”释义生成。这并不旨在限制。***10可以生成如本文所述的用于临床、非临床和/或其他应用的释义。临床释义生成被用作一个方便的示例，因为有各种不同类型和风格的临床文献。这样的文档在其描述中通常是冗长的，并且通常忙碌的护理人员和/或其他用户12(例如，临床医师，医师，护士，护理机构工作人员，家庭成员，朋友等)将优选对由这样的文档所传达的信息的释义概述(例如，在与用户12相关联的计算设备18的用户接口16中呈现)。这样的文档通常还包括释义生成***先前未遇到的单词(例如，如上所述的“未知”单词)。特定用户12可能仅对报告中传达的信息的一部分感兴趣，例如，作为医学干预、处置规划期间和/或其他时间的提醒。使用临床释义生成作为示例，***10被配置为在临床文档中对语言进行释义，使得用户12可以快速地跟上与特定患者相关的最新信息。

在一些实施例中，***10包括计算设备18(包括用户接口16)、一个或多个处理器20、电子存储器22、外部资源24和/或其他部件。

计算设备18被配置为提供用户12与***10之间的接口。计算设备18被配置为向用户12和/或其他用户提供信息和/或从用户12和/或其他用户接收信息。计算设备18包括用户接口16和/或其他部件。用户接口16被配置为从用户12接收对信息的输入和/或选择。用户接口16被配置为向用户12和/或其他用户呈现所生成的释义。在一些实施例中，用户接口16包括例如与计算设备18、处理器20和/或***10的其他部件相关联的多个单独的接口。在一些实施例中，***10包括与多个用户12相关联的多个计算设备18。

在一些实施例中，给定计算设备18被配置为向***10提供用户接口16、处理能力、数据库和/或电子存储设备。这样，计算设备18可以包括处理器20、电子存储设备22、外部资源24和/或***10的其他部件。在一些实施例中，计算设备18被连接到网络(例如，互联网)。在一些实施例中，计算设备18不包括处理器20、电子存储设备22、外部资源24和/或***10的其他部件，而是经由网络与这些部件通信。例如，处理器20、电子存储设备22和外部资源24、和/或***10的其他部件可以位于“公有云”或“私有云”(下文中称为“云”)中。在一些实施例中，计算设备18例如是接收在公有云或私有云中存储和处理的信息的哑设备。与网络的连接可以是无线的或有线的。例如，处理器20可以位于远程服务器中，并且可以生成并无线地使得经由用户接口16在计算设备18上向用户12显示释义。在一些实施例中，计算设备18是膝上型计算机，台式计算机，智能电话，平板计算机和/或其他计算设备。

适合包含在用户接口16中的接口设备的示例包括触摸屏、小键盘、触敏和/或物理按钮、开关、键盘、旋钮、控制杆、显示器、扬声器、麦克风、指示灯、听觉警报、打印机和/或其他接口设备。本公开还预期计算设备18包括可移除存储接口。在该示例中，信息可以从可移动存储设备(例如，智能卡、闪存驱动器、可移动磁盘)加载到计算设备18中，该可移动存储设备使得用户12和/或其他用户能够定制计算设备18的实现方式。适于与计算设备18和/或用户接口16一起使用的其他示例性输入设备和技术包括但不限于RS-232端口、RF链路、IR链路、调制解调器(电话，电缆等)和/或其他设备。

处理器20被配置为在***10中提供信息处理能力(例如，使用标准图形处理单元(GPU)和/或其他部件)。这样，处理器20可以包括以下中一个或多个：数字处理器、逻辑处理器、被设计为处理信息的数字电路、被设计为处理信息的逻辑电路、状态机、和/或用于电子地处理信息的其他机制。虽然处理器20在图1中被示为单个实体，但是这仅出于说明目的。在一些实施例中，处理器20可包括多个处理单元。这些处理单元可以物理地位于同一设备(例如，服务器)内，或者处理器20可以表示协同操作的多个设备的处理功能(例如，一个或多个服务器、计算设备18、作为外部资源24的一部分的设备、电子存储设备22和/或其他设备)。

在一些实施例中，处理器20、外部资源24、计算设备18、电子存储器22和/或其他部件可以经由一个或多个电子通信链路可操作地链接。例如，这样的电子通信链路可以至少部分地经由诸如因特网之类的网络和/或其他网络来建立。应当理解，这不是旨在进行限制，并且本公开的范围包括这些部件可以经由某些其他通信介质可操作地链接的实施例。在一些实施例中，处理器20被配置为根据客户端/服务器架构、对等架构和/或其他架构来与外部资源24、计算设备18、电子存储设备22和/或其他部件进行通信。

如图1中所示，处理器20被配置为经由机器可读指令来执行一个或多个计算机程序部件。一个或多个计算机程序部件可以包括以下中的一个或多个：训练语料库部件3、嵌入生成部件32、模型部件34、系集学习部件36、强化学习部件38、输出部件40和/或其他部件。处理器20可以被配置为通过软件执行部件30、32、34、36、38和/或40；硬件；固件；软件、硬件和/或固件的某种组合；和/或用于在处理器20上配置处理能力的其它机构。

应当理解，尽管部件30、32、34、36、38和/或40在图1中示出为共同定位于单个处理单元中，但是在处理器20包括多个处理单元的实施例中，部件30、32、34、36、38和/或40中的一个或多个可以被定位为远离其他部件。以下描述的不由同部件30、32、34、36、38和/或40提供的功能仅用于说明的目的，并不旨在作为限制，因为部件30、32、34、36、38和/或40可以提供比所描述的更多或更少的功能。例如，可以去除部件30、32、34、36、38和/或40中的一个或多个，并且其功能的一些或全部可以由其他部件30、32、34、36、38和/或40提供。作为另一示例，处理器20可以被配置为执行一个或多个额外的部件，其可以执行以下归属于部件30、32、34、36、38和/或40中的一个的功能的一些或全部。

训练语料库部件30被配置为获得训练语料库。训练语料库包括语言、语言的释义和/或其他信息。该语言由作者以特定方式(例如，作为医学报告，医学记录等)排列的个体句子、短语、单词、字符(例如，字母)和/或其他成分形成。释义是与语言(例如，医学报告，医学记录等)相对应的字符、单词和/或其他符号，并且传达与由该语言传达的信息相同和/或类似的信息，但是以缩短的和/或缩写方式。例如，训练语料库可以包括临床语言(例如，句子，短语，单词，字符等)和以预定方式对应于临床语言的已知释义。

在一些实施例中，训练语料库部件30被配置为使得基于临床和/或非临床语言、数据和/或其他信息来确定训练语料库。非临床语言、数据和/或信息可以从非临床公开可用的释义数据库(例如，paraphrase.org等)和/或其他来源获得。临床语言、数据和/或其他信息可以从开源临床本体(例如，SNOMED CT中临床概念的唯一指定名称和相应同义词的集合)和/或其他来源获得。例如，像这样的信息源可以包括在外部资源24中。训练语料库部件30被配置为使得非临床和/或临床语言、数据和/或其他信息被组合以生成具有源语言和已知对应释义的训练语料库(例如，以诸如英语的个体语言，使得释义生成的任务作为单语翻译问题)。训练语料库部件30被配置为使得获得训练语料库还包括通过执行标记化和词汇生成来预处理语料库。例如，语料库中可用的唯一单词在适当的数据结构中被索引(例如，用于稍后确定单词级信息)；并且类似地索引唯一字符(例如，用于稍后在确定字符级信息中使用)。

嵌入部件32被配置为使用训练语料库来确定单词级、字符级和句子级嵌入，并基于根据现有知识库已知的语义关系来更新单词级、字符级和句子级嵌入。在一些实施例中，使用RNN和/或CNN来确定句子级、单词级和字符级嵌入。

如在图2(CNN)和图3(RNN)中所示，多层CNN和/或RNN架构200和300(分别)用于执行训练语料库的无监督预训练以学***移不变性来帮助降低整个网络的计算复杂度。在一些实施例中，平移不变性可能是对NLP问题的限制，因为对可变大小的输入句子应用了大的最大池(而可能需要保留序列/排序)。在图2中，权重(W)W1和W4是共享的，W2和W5是共享的，并且W3和W6是共享的。

如图3中所示，RNN可以解决这样的序列预测问题，因为它们通常在网络上拥有三组共享参数：输入到隐藏权重(W)302，隐藏到隐藏权重(U)304，以及隐藏到输出权重(V)306。这种权重共享属性允许RNN适用于NLP问题中的可变大小输入。(如图3中所示，RNN包括输入层308、隐藏层310和输出层312。)在图3中，X_0,1,...t指时间t处的输入单词/字符；h_0,1,...t指时间t处的相应隐藏状态；并且y表示输出。在一些实施例中，嵌入部件32被配置为使得RNN是双向RNN。双向RNN基于以下假设：时间t处的输出可能不仅取决于序列中的先前元素，而且取决于未来元素。例如，为了预测序列中缺失的单词/字符，可能需要考虑序列中缺失单词左侧的上下文和序列中缺失单词右侧的上下文。因此，双向RNN架构遵循RNN编码器-解码器方法，其中两个RNN被用于对源句子进行编码，以便在前向和后向两个方向上捕获句子中的单词的上下文属性；然后将一个RNN用作解码器以生成目标句子。在一些实施例中，双向RNN架构被多次馈送输入源句子序列。基于关注的模型中的术语“关注”表示在解码过程中强调(即，进行关注)某些源词。基于关注的解码机制允许模型在预测下一个目标词的同时搜索最相关的源词，这减轻了与相对长的句子中的长程依赖性相关的问题。

在一些实施例中，所学习的嵌入(CNN和/或RNN的输出)包括表示与训练语料库中的句子、单词、字符和/或其他信息相关联的上下文信息的向量。在一些实施例中，嵌入部件32被配置为使用从现有知识库(例如，图1中所示的外部资源24中包括的***，PubMed文章等)获得的语义关系来更新学习的嵌入。经更新的单词和字符级嵌入分别用于初始化基于注意的单词级和字符级双向LSTM网络(例如，如下所述)。

在一些实施例中，CNN和/或RNN架构包括多层高速公路网络，其特征在于在“信息高速公路”上跨越若干层的基本上无阻碍的信息流。可以使用随机梯度下降直接训练具有数百层的公路网络，从而开辟了研究极其深入和高效的架构的可能性。例如，公路网络的概念可以允许图2和图3中所示的架构中的更多层，通过允许远处层中的神经元与经修改的门控功能之间的直接连接，使得模型能够训练非常深的神经网络以改善模型性能。

回到图1，模型部件34被配置为生成基于单词级关注的模型，基于字符级关注的模型和/或其他模型。如上所述，在一些场景中，单独的单词级模型可能不会基于先前未知的源(输入)单词准确地预测目标单词(例如，释义)。***10通过除了单词级模型之外还确定字符级模型来解决此问题。当使用字符级模型时，用于构成临床语言和/或文档的可用字符(例如，字母)的数量是有限的(与作者可用的无限数量的可能单词和/或句子不同)，从而便于准确预测一个或多个目标词(例如，通过减少可能的候选释义的集合，减少准确预测目标词所需的计算资源的量等)。

在一些实施例中，所述基于单词级关注的模型是单词级双向LSTM网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。图4A图示了LSTM网络的框图400以及描述LSTM网络的功能的对应方程402。LSTM网络是RNN，其在单独的时间步骤增加了内部记忆单元c_t∈Rⁿ。LSTM网络单元在单独时间的步骤取得三个输入x_t；h_t-1；c_t-1并且产生时间步长t的隐藏状态h_t和内部记忆状态c_t。记忆单元经由三个学习门来控制：输入i，忘记f，输出o。这些记忆单元使用相对于时间的梯度的添加，从而最小化任何梯度***。在图4A中所示的等式中，W_x和W_h分别是x和h的学习参数；σ和tanh表示逐元素的S形和双曲正切函数；⊙是逐元素的乘法运算符；并且b表示增加的偏置。

如上所述，在一些实施例中，基于经更新的单词级和/或字符级嵌入生成单词级和字符级LSTM网络。在一些实施例中，基于训练语料库的单词、字符和/或其他特征来生成单词级和字符级LSTM网络(例如，不需要单词和/或字符级嵌入)。在这样的实施例中，单词级序列到序列模型是堆叠的残余单词级双向LSTM网络，并且字符级序列到序列模型是堆叠的残余字符级双向LSTM网络。堆叠的残余LSTM网络包括给定LSTM网络的堆叠层之间的残余连接和/或其他信息。

图4B图示了堆叠的残余双向LSTM网络。在一些实施例中，模型部件34(图1)被配置为使得单词级和/或字符级LSTM网络包括垂直堆叠，其中，LSTM网络的前一层的输出作为输入馈送到后续层。在一些实施例中，在时间步骤t输入的除第一层之外的所有层都从前一层h_lt的隐藏状态传递，其中l表示层。因此，对于层1，激活被描述为：

其中，递归地确定隐藏状态h，并且在t＝0和l＝0处的h_t ^(l)由下式给出(例如，如图4A所示)：

h_t＝o_t⊙tanh(c_t)。

在一些实施例中，如4B中所示，向正在学习的函数(例如，堆叠的LSTM网络406和408)添加残量x 404便于更深的网络训练而不过度拟合数据(在图4B的描述中，使用H'代替F以便避免与上述忘记门符号混淆；同样，如在图4A中，图4B中的“X”表示输入)。应注意，不一定在LSTM网络的每个堆叠层之后添加残余连接。例如，在四层堆叠LSTM网络中(例如，对于字符级和/或单词级模型中的任一个和/或两者)，可以在第二层添加残余连接作为逐点添加，使得输入需要与h_t的输出处于相同的维度。模型部件34(图1)被配置为便于LSTM网络的上一隐藏单元堆叠，其允许剪切h_t以匹配x_t-2的尺寸(在它们不相同时)。通过填充x以匹配尺寸可以获得类似的结果。因此，针对具有残余连接的层学习的函数H'由下式给出：

有利地，添加残余连接不会增加可学习的参数以增加模型的复杂性。

返回图1，系集部件36被配置为提供一个或多个候选释义。一个或多个候选释义是自然语言输入的释义。候选释义是基于单词级和基于字符级关注的模型来确定的。以此方式，例如，除了基于单词级关注的模型之外，还可以使用基于字符级关注的模型，以克服单独使用单词级模型的一个或多个潜在缺陷(例如，以生成准确的以前未知单词的释义)。另外，在某些情况下，单独使用字符级模型进行释义生成可能会周期性地产生不正确的字符排序，从而产生不寻常和/或非智能的单词。系集部件36利用系集学习架构，其利用单词级和字符级模型的长处。

系集部件36被配置为基于单词级LSTM模型和字符-LSTM模型两者来确定多个候选释义。在一些实施例中，单词级和字符级模型可以单独地生成两组或更多组候选释义。例如，可以通过模型来生成单词级和字符级候选释义确定，其中，模型可以在输入层取得单词级/字符级输入并在预测/输出层生成单词级/字符级输出(它们组合在一起包括四组候选释义)。类似地，可以组合用于生成模型本身的多种方法(例如，双向编码器-解码器，基于关注的软搜索、堆叠残余LSTM网络等)以从相同的训练语料库产生多个学习模型，这可以贡献候选临床释义的多个不同的集合。

在一些实施例中，基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来确定所述一个或多个候选释义。在一些实施例中(例如，当基于单词级关注的模型是堆叠的残余单词级双向LSTM网络并且基于字符级关注的模型是堆叠的残余字符级双向LSTM网络时)所述一个或多个候选释义仅基于训练语料库确定，而不需要单词级和/或字符级嵌入。

增强部件38被配置为确定和/或利用奖励函数强化学习模型。奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子和/或其他信息进行比较。增强部件38从由系集部件36确定的可能释义中选择单独的候选释义，并使用奖励函数来确定候选释义相对于目标句子的好坏程度。奖励函数对候选释义与源/目标句子上下文的接近程度进行量度。奖励函数可以由任何句子相似性函数定义，该函数可以在意义、新颖性和语法性方面测量两个句子之间的相似性。可以基于单词选择与句子嵌入所传达的上下文信息的比较来基本上确定对个体可能释义的奖励。增强部件38被配置为使得由***10生成的释义是候选释义中最高排序(例如，基于比较和/或“奖励”)的一个。

增强部件38被配置为使用图5中所示的强化学习架构。如图5中所示，在强化学习架构500中，代理502与环境504交互。响应于个体动作506，环境504生成状态508奖励510对，并且代理502基于其从状态508奖励510对学习的内容来生成后续动作。增强部件38和系集部件36被配置为使得生成候选释义是“动作”506(例如，其中，操作由对应于代理502的系集部件36执行)以及对候选释义词的语义相似性和新颖性与对应于状态508奖励510对的目标句子的选择的比较的结果。

回到图1，输出部件40被配置为输出对自然语言输入的释义。输出的释义可以是由系集部件36提供的候选释义之一。可以基于增强部件38的比较，由系集部件36确定的一个或多个候选释义，单词级和字符级模型和/或其他信息来确定输出释义。输出部件可以将释义输出到计算设备18以经由用户接口16显示，将输出释义存储在电子存储器22中，将输出释义传送到外部资源24和/或执行其他操作。

图6总结了由***10(图1中所示)执行的一部分操作。图6总结了由***10的实施例执行的操作，其中，基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来确定所述一个或多个候选释义(与其中为以下情况的实施例不同：基于单词级关注的模型是堆叠的残余单词级双向LSTM网络，基于字符级关注的模型是堆叠的残余字符级双向LSTM网络，并且所述一个或多个候选释义仅基于训练语料库确定，而不需要单词级和/或字符级嵌入)。例如，如图6中所示，***10(例如，图1中示出并在此描述的训练语料库部件30)被配置为获得600训练语料库。***10(例如，嵌入部件32)被配置为使用训练语料库来确定602、604单词级、字符级和句子级嵌入。在一些实施例中，使用RNN和/或CNN来确定句子级、单词级和字符级嵌入。***10被配置为基于根据现有知识库610、612中已知的语义关系来更新606、608单词级、字符级和句子级嵌入。***10(例如，模型部件34)被配置为生成614单词级和基于字符级关注的模型。在一些实施例中，所述基于单词级关注的模型是单词级双向LSTM网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。基于经更新的单词级和字符级嵌入和/或其他信息来生成单词级和字符级LSTM网络。***10(例如，系集部件36)被配置为提供616候选释义。在该实施例中，如图6中所示，***10(例如，系集部件36)被配置为使得基于基于单词级和字符级关注的模型，经更新的句子级嵌入和/或其他信息来确定一个或多个候选释义。***10(例如，增强部件38和/或输出部件40)被配置为确定618奖励函数强化学习模型，其被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较620，并基于比较来输出622对自然语言输入624的候选释义。

返回图1，电子存储设备22包括电子地存储信息的电子存储设备介质。电子存储设备22的电子存储介质可以包括与***10一体地(即，基本上不可移除)提供的***存储器和/或可经由例如端口(例如，USB端口，火线端口等)或驱动器(例如，磁盘驱动器等)可移除地可连接到***10的可移除存储器中的一个或两者。电子存储设备22可以(整体地或部分地)是***10内的分开的部件，或者电子存储设备22可以(整体地或部分地)与***10的一个或多个其他部件(例如，计算设备18，处理器20等)被集成提供。在一些实施例中，电子存储设备22可以与处理器20一起定位于服务器中，定位于为外部资源24的一部分的服务器中，定位于与对象12相关联的计算设备18中，和/或定位于其他位置。电子存储设备22可以包括以下中的一个或多个：光学可读存储介质(例如光盘等)、磁性可读存储介质(例如磁带、磁硬盘驱动器、软盘驱动器等)、基于电荷的存储介质(例如EPROM、RAM等)，固态存储介质(例如闪速驱动器等)、和/或其他电子地可读的存储介质。电子存储设备22可以存储软件算法，由处理器20确定的信息(例如，候选释义)，经由计算设备18和/或用户接口16和/或其他外部计算***接收的信息，从外部资源24接收的信息，和/或使***10能够如本文所述起工作的其他信息。

外部资源24包括信息的源(例如，数据库；网站；训练语料库源，例如paraphrase.org，SNOMED CT等；由嵌入部件32用于更新单词级、字符级和句子级嵌入的现有知识库；参与***10的外部实体(例如，存储可由***10释义的临床记录的健康护理提供者的电子数据库***)，***10外部的一个或多个服务器，网络(例如，互联网)，电子存储设备，与Wi-Fi技术相关的设备，与蓝牙技术相关的设备，数据输入设备，传感器，扫描仪和/或其他资源。在一些实现中，本文中归属到外部资源24的功能中的一些或全部可以由包括在***10中的资源来提供。外部资源24可以被配置为经由有线和/或无线连接、经由网络(例如，局域网和/或互联网)、经由蜂窝技术、经由Wi-Fi技术和/或经由其他资源来与处理器20、计算设备18、电子存储设备22和/或***10的其他部件通信。

图7示出了利用释义生成***来生成释义的方法700。所述***包括计算设备，所述计算设备包括一个或多个硬件处理器和/或其他部件。所述一个或多个硬件处理器由机器可读指令配置为执行计算机程序部件。计算机程序部件包括训练语料库部件、嵌入部件、模型部件、系集部件、增强部件、输出部件和/或其他部件。以下呈现的方法700的操作旨在是说明性的。在一些实施例中，方法700可以利用一个或多个未描述的额外的操作来完成、或者在没有所讨论的操作中的一个或多个的情况下完成。另外，在图7中图示并且在以下描述的方法700的操作的顺序不旨在限制。

在一些实施例中，方法700可以在一个或多个处理设备(例如，数字处理器、逻辑处理器、被设计为处理信息的数字电路、被设计为处理信息的逻辑电路、状态机、和/或用于电子地处理信息的其他机构)中实施。所述一个或多个处理设备可以包括响应于电子地存储在电子存储设备介质中的指令来执行方法700的操作中的一些或全部的一个或多个设备。所述一个或多个处理设备可以包括通过硬件、固件、和/或软件被专门设计为执行方法700的操作中的一个或多个设备。

在操作702，获得训练语料库。训练语料库包括语言、语言的释义和/或其他信息。该语言由作者以特定方式(例如，作为医学报告，医学记录等)排列的个体句子、短语、单词、字符(例如，字母)和/或其他成分形成。释义是与语言(例如，医学报告，医学记录等)相对应的字符、单词和/或其他符号，并且传达与由该语言传达的信息相同和/或类似的信息，但是以缩短的和/或缩写方式。例如，训练语料库可以包括临床语言(例如，句子，短语，单词，字符等)和以预定方式对应于临床语言的已知释义。在一些实施例中，操作702由与(在图1中所示并且在本文中描述的)训练语料库部件30相同或相似的一个或多个处理器来执行。

在操作704，生成单词级和基于字符级关注的模型。在一些实施例中，所述基于单词级关注的模型是单词级双向LSTM网络，并且所述基于字符级关注的模型是字符级双向LSTM网络。基于训练语料库的单词、字符和/或其他特征来生成单词级和字符级LSTM网络。在一些实施例中，基于单词级关注的模型是堆叠的残余单词级双向LSTM网络，并且基于字符级关注的模型是堆叠的残余字符级双向LSTM网络。堆叠的残余LSTM网络包括给定LSTM网络的堆叠层之间的残余连接和/或其他信息。

在一些实施例中，操作704包括：使用训练语料库确定单词级、字符级和句子级嵌入；基于根据现有知识库已知的语义关系来更新单词级、字符级和句子级嵌入；并且基于经更新的单词级和字符级嵌入来生成单词级和基于字符级关注的模型；在一些实施例中，使用RNN和/或CNN来确定句子级、单词级和字符级嵌入。在一些实施例中，操作704由与(在图1中所示并且在本文中描述的)嵌入部件32和/或模型部件34相同或相似的一个或多个处理器来执行。

在操作706，提供候选释义。一个或多个候选释义是自然语言输入的释义。候选释义是基于单词级和基于字符级关注的模型来确定的。在一些实施例中，基于单词级和基于字符级关注的模型以及所述经更新的句子级嵌入来确定所述一个或多个候选释义。在一些实施例中，提供一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。在一些实施例中，操作706由与(在图1中所示并且在本文中描述的)系集部件36、增强部件38和/或输出部件40相同或相似的一个或多个处理器来执行。

尽管以上提供的说明出于基于当前认为最优选和现实的实施例的提供了说明的目的细节，但是应理解，这样的细节仅用于该目的并且本公开不限于明确公开的实施例，而是相反，旨在涵盖在随附权利要求书的精神和范围之内的修改和等价布置。例如，应该理解，本公开预期，在可能的范围内，任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征相组合。

在权利要求中，置于括号之间的任何附图标记都不应被解释为对权利要求的限制。词语“包括”或“包含”不排除存在多于权利要求中列出的那些之外的元件或步骤的存在。在枚举了若干器件的装置型权利要求中，这些装置中的若干个可以由相同的硬件项来实现。元件前的词语“一”或“一个”不排除存在多个这样的元件。在枚举了若干器件的任何装置型权利要求中，这些装置中的若干个可以由同一硬件项来实现。尽管在互不相同的从属权利要求中记载了特定元件，但是这并不指示不能有利地使用这些元件的组合。

Claims

1.一种包括通过机器可读指令配置的一个或多个硬件处理器（20）的释义生成***（10），所述机器可读指令用于：

获得训练语料库，所述训练语料库包括语言和所述语言的释义；

使用所述训练语料库来确定单词级嵌入和字符级嵌入；

基于根据现有知识库已知的语义关系来更新所述单词级嵌入和所述字符级嵌入；

基于所述训练语料库以及经更新的单词级嵌入和经更新的字符级嵌入来生成基于单词级关注的模型和基于字符级关注的模型；并且

基于所述基于单词级关注的模型和所述基于字符级关注的模型两者来提供自然语言输入的一个或多个候选释义。

2.根据权利要求1所述的***，其中，所述一个或多个硬件处理器被配置为使得所述基于单词级关注的模型是单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是字符级双向长短期记忆网络，并且其中，所述单词级双向长短期记忆网络和所述字符级双向长短期记忆网络是基于所述训练语料库中的单词和字符来生成的。

3.根据权利要求1所述的***，其中，所述一个或多个硬件处理器被配置为基于所述训练语料库来生成基于句子级关注的模型，其中，所述一个或多个硬件处理器被配置为基于所述基于句子级关注的模型、所述基于单词级关注的模型和所述基于字符级关注的模型来提供所述自然语言输入的所述一个或多个候选释义。

4.根据权利要求1所述的***，其中，所述一个或多个硬件处理器还被配置为：使用所述训练语料库来确定句子级嵌入；基于根据现有知识库已知的语义关系来更新所述句子级嵌入；并且还基于经更新的句子级嵌入来提供所述一个或多个候选释义。

5.根据权利要求4所述的***，其中，所述一个或多个硬件处理器被配置为使用递归神经网络（RNN）和/或卷积神经网络（CNN）来确定所述单词级嵌入、所述字符级嵌入和所述句子级嵌入。

6.根据权利要求1所述的***，其中，所述一个或多个硬件处理器被配置为使得提供所述一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。

7.根据权利要求1所述的***，其中，所述一个或多个硬件处理器被配置为使得所述基于单词级关注的模型是堆叠的残余单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是堆叠的残余字符级双向长短期记忆网络，所述堆叠的残余单词级双向长短期记忆网络和所述堆叠的残余字符级双向长短期记忆网络包括给定长短期记忆网络的堆叠层之间的残余连接。

8.一种利用释义生成***（10）来生成释义的方法，所述***包括通过机器可读指令配置的一个或多个硬件处理器（20），所述方法包括：

获得训练语料库，所述训练语料库包括语言和对所述语言的释义；

使用所述训练语料库来确定单词级嵌入和字符级嵌入；

基于所述训练语料库并且基于经更新的单词级嵌入和经更新的字符级嵌入来生成基于单词级关注的模型和基于字符级关注的模型；并且

9.根据权利要求8所述的方法，其中，所述基于单词级关注的模型是单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是字符级双向长短期记忆网络，并且其中，所述单词级双向长短期记忆网络和所述字符级双向长短期记忆网络是基于所述训练语料库中的单词和字符来生成的。

10.根据权利要求8所述的方法，还包括：基于所述训练语料库来生成基于句子级关注的模型，并且基于所述基于句子级关注的模型、所述基于单词级关注的模型和所述基于字符级关注的模型来提供所述自然语言输入的所述一个或多个候选释义。

11.根据权利要求8所述的方法，还包括：使用所述训练语料库来确定句子级嵌入；基于根据现有知识库已知的语义关系来更新所述句子级嵌入；并且基于经更新的句子级嵌入来提供所述一个或多个候选释义。

12.根据权利要求11所述的方法，其中，使用递归神经网络（RNN）和/或卷积神经网络（CNN）来确定所述句子级嵌入、所述单词级嵌入和所述字符级嵌入。

13.根据权利要求8所述的方法，其中，提供所述一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。

14.根据权利要求8所述的方法，其中，所述基于单词级关注的模型是堆叠的残余单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是堆叠的残余字符级双向长短期记忆网络，所述堆叠的残余单词级双向长短期记忆网络和所述堆叠的残余字符级双向长短期记忆网络包括给定长短期记忆网络的堆叠层之间的残余连接。

15.一种用于生成释义的***（10），所述***包括：

用于获得训练语料库的单元，所述训练语料库包括语言和对所述语言的释义；

用于使用所述训练语料库来确定单词级嵌入和字符级嵌入的单元；

用于基于根据现有知识库已知的语义关系来更新所述单词级嵌入和所述字符级嵌入的单元；

用于基于所述训练语料库和经更新的单词级嵌入和经更新的字符级嵌入来生成基于单词级关注的模型和基于字符级关注的模型的单元；以及

用于基于所述基于单词级关注的模型和所述基于字符级关注的模型两者来提供自然语言输入的一个或多个候选释义的单元。

16.根据权利要求15所述的***，其中，所述基于单词级关注的模型是单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是字符级双向长短期记忆网络，并且其中，所述单词级双向长短期记忆网络和所述字符级双向长短期记忆网络是基于所述训练语料库中的单词和字符来生成的。

17.根据权利要求15所述的***，还包括：用于基于所述训练语料库来生成基于句子级关注的模型并且基于所述基于句子级关注的模型、所述基于单词级关注的模型和所述基于字符级关注的模型来提供所述自然语言输入的所述一个或多个候选释义的单元。

18.根据权利要求15所述的***，还包括：用于使用所述训练语料库来确定句子级嵌入的单元；用于基于根据现有知识库已知的语义关系来更新所述句子级嵌入的单元；以及用于基于经更新的句子级嵌入来提供一个或多个候选释义的单元。

19.根据权利要求18所述的***，其中，使用递归神经网络（RNN）和/或卷积神经网络（CNN）来确定所述句子级嵌入、所述单词级嵌入和所述字符级嵌入。

20.根据权利要求15所述的***，其中，提供所述一个或多个候选释义包括确定奖励函数强化学习模型，所述奖励函数强化学习模型被配置为将候选释义词选择的语义相似性和新颖性与目标句子进行比较，并且基于所述比较来输出候选释义。

21.根据权利要求15所述的***，其中，所述基于单词级关注的模型是堆叠的残余单词级双向长短期记忆（LSTM）网络，并且所述基于字符级关注的模型是堆叠的残余字符级双向长短期记忆网络，所述堆叠的残余单词级双向长短期记忆网络和所述堆叠的残余字符级双向长短期记忆网络包括给定长短期记忆网络的堆叠层之间的残余连接。