CN116134432A

CN116134432A - 用于提供对查询的答案的***和方法

Info

Publication number: CN116134432A
Application number: CN202180020914.2A
Authority: CN
Inventors: 伯特·斯道布; 桑贾伊·夏尔马; 索哈·阿拉布卡扎利; 德鲁夫·萨卡利; 查德·莫里斯; 桑尼·邱-韦伯斯特; 夏伊·马泰; 贾纳德哈纳·普努鲁; 萨钦·库马尔; 基肖尔·伊瑟拉杰; 亚伦·波尔
Original assignee: Bo TeSidaobu; Cha DeMolisi; De LufuSakali; Ji XiaoerYiselajie; Jia NadehanaPunulu; Sa QinKumaer; Sang JiayiXiaerma; Sang NiQiu Weibosite; Suo HaAlabukazhali; Xia YiMatai; Ya LunBoer; Rex Co ltd
Current assignee: Bo TeSidaobu; Cha DeMolisi; De LufuSakali; Ji XiaoerYiselajie; Jia NadehanaPunulu; Sa QinKumaer; Sang JiayiXiaerma; Sang NiQiu Weibosite; Suo HaAlabukazhali; Xia YiMatai; Ya LunBoer; Rex Co ltd
Priority date: 2020-01-14
Filing date: 2021-01-14
Publication date: 2023-05-16
Also published as: WO2021146388A1; US20210216576A1

Abstract

公开了用于开放域问题回答的***和方法。在一个实施例中，一种提供对问题的答案的方法包括：由计算设备检索与搜索查询相关的多个段落；生成多个问题‑段落对，其中每个问题‑段落对包括搜索查询和多个段落中的单独段落；以及使用计算机模型来确定多个问题‑段落对中的至少一些问题‑段落对中的每个问题‑段落对的段落是对由搜索查询提出的问题的答案的概率。该方法还包括：在电子显示器上显示问题‑段落对的选定段落，该选定段落具有最高概率是作为对由搜索查询提出的问题的答案的段落。

Description

用于提供对查询的答案的***和方法

相关申请交叉引用

本申请根据35U.S.C.§119要求于2020年1月14日提交的题为“LEGAL DOMAINRETRIEVAL-BASED QUESTION ANSWERING WITH LEGAL BERT(用法律BERT进行基于法律域检索的问题回答)”的美国临时申请第62/960,749号和2020年6月30日提交的题为“LEGALOPEN QUESTION ANSWERING SYSTEMS AND METHODS(法律开放式问题回答***和方法)”的临时申请第63/046,144号的优先权权益，上述申请的内容通过引用以其整体结合于此。

背景技术

一旦法律研究者有处于证据开示(discovery)程序中的案件，她就有一组要调查的法律问题。她使用答案为案件的各阶段制定不同的文档，诸如撰写简报和动议。研究者可能知道或可能不知道她列表中的每个问题的答案。无论她关于特定法律议题的知识如何，法律研究者都再次寻找答案，因为她在正在制定的文档中引用该答案。另外，考虑到案情和管辖权，她可能找到更近期的案例或更好的案例。遵循先例是法律先例的原则，其规定可以基于在适当管辖权中具有相似议题和/或事实的较早案件来裁决后来的案件。该原则强制对每个值得注意的法律声明使用引文。

法律问题回答不应仅针对事实性(factoid)问题。事实性问题可能仅覆盖低百分比的律师问题。对律师问题的分析已经显示它们中的大部分都是描述性问题。即使在“什么”问题情况或是/否问题中，答案也不是短篇的文本。它们是通常包括推理和引用的多句法律声明。这些声明应被进一步研究以被选择为权威法律声明。

在法律域，有时不存在唯一的答案。在许多情况下，不同管辖权的答案是相互矛盾的。发展中的法律领域里的答案可能随时间流逝而改变。如果你从不同角度来看，答案可能是不同的。这些复杂性继承自法律域以及人、社会、规则与政府之间的关系。

开放域问题回答是有挑战性和高要求的领域。开放域问题回答***使用大量段落/文档语料库来回答各种各样且自由格式的问题。在这些***中，不存在与各个问题相关联的预选段落。

当前***可能为研究者呈现不是最佳可能答案的答案。例如，一段落可能在语义上与提出的问题相似，但是是完全离题和不相关的。这些问题令研究者不愉快并且可能使研究者不信任问题回答***。

需要用于为使用开放域提问的问题选择和呈现最优答案的替代方法。

发明内容

本公开的实施例涉及开放域提问方法和***，其包括两步架构以提供来自词汇和语义检索段落的最佳重新排名段落。更具体地，在第一信息检索步骤中，使用词汇和语义搜索***检索第一组段落。接下来，在答案查找器步骤中，对段落进行评估以对段落进行重新排名并且显示最佳段落作为对查询的答案。

在一个实施例中，一种提供对问题的答案的方法包括：由计算设备检索与搜索查询相关的多个段落；生成多个问题-段落对，其中每个问题-段落对包括搜索查询和多个段落中的单独段落；以及使用计算机模型来确定多个问题-段落对中的至少一些问题-段落对中的每个问题-段落对的段落是对由搜索查询提出的问题的答案的概率。该方法还包括：在电子显示器上显示问题-段落对的选定段落，该选定段落具有最高概率是作为对由搜索查询提出的问题的答案的段落。

在另一实施例中，一种用于提供对问题的答案的***包括：一个或多个处理器，以及存储计算机可读指令的非瞬态计算机可读介质，该计算机可读指令在由一个或多个处理器执行时，使一个或多个处理器进行以下步骤：检索与搜索查询相关的多个段落；以及生成多个问题-段落对，其中每个问题-段落对包括搜索查询和多个段落中的单独段落。该计算机可读指令进一步使一个或多个处理器使用计算机模型来确定多个问题-段落对中的至少一些问题-段落对中的每个问题-段落对的段落是对由搜索查询提出的问题的答案的概率；以及在电子显示器上显示问题-段落对的选定段落，该选定段落具有最高概率是作为对由搜索查询提出的问题的答案的段落。

应当理解的是，以上一般描述和以下详细描述所呈现的实施例均旨在提供用于理解所要求保护的权利要求的本质和特性的概观或框架。包括附图以提供对本公开的进一步理解，且附图被结合到本说明书中并构成本说明说的一部分。附图示出了各实施例，并与说明书一起用于解释原理和操作。

附图说明

图1是根据本文描述和示出的一个或多个实施例的示例开放域提问***的示意图；

图2是根据本文描述和示出的一个或多个实施例的图1的示例开放域提问***的进一步示意图；

图3是根据本文描述和示出的一个或多个实施例的图1的示例开放域提问***的进一步示意图；

图4是根据本文描述和示出的一个或多个实施例的示例开放域提问***的示例离线***的示意图；

图5是根据本文描述和示出的一个或多个实施例的示例答案查找器模块的示例BERT序列二进制分类器的示意图；

图6是根据本文描述和示出的一个或多个实施例的前端应用的示例图形用户界面的示意图；

图7是根据本文描述和示出的一个或多个实施例的示出成为针对不同的检索和排名方法的好答案的平均概率的图表；

图8是根据本文描述和示出的一个或多个实施例的示出答案查找器模块的概率与主题专家的分数之间的相关性的图表；以及

图9是根据本文描述和示出的一个或多个实施例的开放域提问***的示例计算设备的示意图。

具体实施方式

本公开的实施例涉及响应于用户的自然语言查询而查找并显示最佳答案的开放域提问方法和***。例如，用户可以将自然语言查询输入到图形用户界面的文本框中。作为非限制性示例，用户可以键入自然语言问题“航空公司是否对其飞行员的过失负责？”.用户将期望答案与她的研究相关并且有帮助。

在实施例中，***使用信息检索过程来检索潜在回答问题的段落。例如，可以通过相关性对这些段落进行排名。随后将这些段落中的一些或全部提供给答案查找器模块，该答案查找器模块基于每个段落是对自然语言查询的正确答案的概率来对段落进行重新排名。段落中的一个或多个段落被选为用于在电子显示器中显示给用户的(多个)答案。答案查找器显著减少用户搜索她的问题的答案的时间量，并且还减少计算时间量和功率，因为用户需要提交更少的查询以找到问题的正确答案。

下面详细描述开放域提问***和方法的各种实施例。

现在参考图1，示意性地示出了示例开放域提问***100。***100被配置成执行初始信息检索步骤110以检索段落，并且执行后续的排名步骤120以确定用于向用户显示的一个或多个最优答案。***100包括一个或多个信息检索***112，该一个或多个信息检索***112配置成检索可能是接收到的自然语言查询的答案的段落。一个或多个信息检索***112扫描文档语料库以检索顶部段落114。图2更详细地示出了图1的示例开放域提问***100。在图2的非限制性示例中，问题102(例如，以查询的形式)被提供给一个或多个信息检索***112，在此情况下，该一个或多个信息检索***112包括BM25搜索***112A、GloVe搜索***112B和BERT(来自转换器的双向编码器表示)搜索***112C。应理解，可以使用更多、更少和/或不同的搜索***。在一些实施例中，这些搜索***中的每一者检索随后与所呈现的问题102(即，自然语言查询)配对的段落。

参考图1和图2两者，问题-段落对被提供给答案查找器122，问题-段落对可以各自被分配有标识号，答案查找器122针对每个问题-段落对确定该段落是问题的答案的概率。排名最高的段落被选择为答案124并在电子显示器中呈现给用户。

信息检索***可以依赖于向量空间。从引入用于信息检索的TF-IDF开始，已经开发了像BM25以及诸如BM25F和LambdaRank之类的变型的大量方法。按文档查询方法(QBD)(也称为“相似检索(More Like This)”)在搜索平台中是常见的。尽管已经证明不同的BM25方法带来高度相关的文档，但此类词汇所述***对于查询语言非常敏感。如果用户没有包括在语料库的内容内和在内容的索引内使用的相同字词，则她可能得到令人失望的搜索结果。因此，检索***通过添加同义词来优化搜索以减轻该问题。

降低词汇敏感性的另一方法是添加语义索引。每个查询或文档用基于预训练嵌入模型的压缩向量表示。例如，基于根据在相邻字词的固定窗口中的其他字词预测中心字词或反之来预训练Word2vec模型。被称为GloVe(全局向量)的另一种流行的字词嵌入方法是基于字词共现概率的比率。这些字词嵌入方法对于每个字词仅具有一个向量，即使该字词是歧义字词也是如此。为了解决字词歧义性，ELMo(来自语言模型的嵌入)表示字词在其上下文中的含义。

诸如BERT之类的使用诸如多堆叠转换器的上下文预训练模型也针对字词或整个输入文本提供上下文向量(具有512个令牌的限制)；然而，作为语言模型的BERT不是基于句子相似性训练的，其更适合于信息检索任务。使用BERT架构的句子-BERT提供了使用连体网络(Siamese network)针对句子相似性进行微调的句子嵌入。其他搜索***可以通过检索器和读取器从问题-段落对的共同学习或在检索任务中预训练语言表示来改进检索。

在本公开的实施例中，从信息检索开始，每个文档都是段落。即，语料库是由作为摘要(Headnote)和RFC(引用理由)的组合的段落组成的。作为非限制性示例，摘要是法官撰写的案件中表达的法律观点，该观点被编辑摘录并且有时稍作编辑，作为一般的法律观点。RFC是案件的段落，该段落包含表明(多个)引用理由(RFC)的在文档引用(诸如法院案件引用)附近的句子。段中存在引用是该段的法律法律意义的标志。语料库也可以由其他内容类型(诸如，法规、法律论文等)组成。

词汇搜索检索***部分可由BM25(相似检索)112A来执行。用于语义信息检索的替代方法可以是使用GloVe嵌入112B和连体BERT嵌入112C来检索相似的段落。

与简单的word2vec模型相比，GloVe嵌入是基于字词的共现矩阵来构建的。由于需要协方差矩阵，因此它需要额外传递数据。然而，由于GloVe考虑到全局共现，因此与word2vec算法相比，它给出了对词汇表的更好表示。

图3示意性地更详细示出了示例开放域提问***100。特别地，图3根据在线***140和离线***150来说明***100。用户130通过前端应用135(诸如网页或独立应用)与开放域提问***100交互。用户可以将搜索查询(诸如自然语言搜索查询)输入到前端应用135的文本字段中，并且接收在电子显示器上显示在前端应用135中的答案集。

离线***150接收、准备和存储用于搜索和检索的数据。通常，离线***包括离线嵌入***151、数据分析引擎152和数据存储***153(例如，数据湖)。数据存储***153可以存储任何数据，诸如文档(例如，法律文档，诸如法律意见)、段落、句子、片段等。数据分析引擎152协调诸如文档摄取、数据处理、嵌入协调和索引之类的任务。

图4更详细地示出了离线***150和数据分析引擎152。数据分析引擎152可通过任何方式来编程。作为非限制性示例，数据分析引擎152可被配置为具有多种功能的ApacheSpark^TM集群。图4示出了数据分析引擎152的非限制性功能。应理解，可以执行更多或更少的功能。

数据分析引擎152被编程为在框161处从数据存储***153检索文档，数据存储***153可被配置为数据湖，数据存储***153存储多个文档。在法律的上下文中，数据存储***153可以存储法律意见、法律简报、动议、法规等。然而，虽然在法律领域的上下文中描述本公开的实施例，但是实施例不限于此。实施例可用于任何类型的文档语料库(例如，工程、医药、天文学等)。

在框162处，从所检索的文档中提取自然段、段落和元数据。还可以提取其他信息。作为非限制性示例，段落可以是摘要和RFC。关于从文档提取RFC的信息在美国专利第6,856,988号中找到，该专利通过引用以其整体结合于此。元数据可包括但不限于主题分类、时间线和管辖权信息。

在一些实施例中，数据分析引擎152可在框163处执行对所提取信息(诸如自然段和段落)的后处理。在该步骤中，可以根据需要清理和/或移除所提取的信息。移除段落减小所得索引的大小并且还降低噪音。例如，完全重复的段落或找到的没有其他较大段落的段落可被移除。引用和字母字符也可被移除。作为另一示例，可以执行段落的语义相似性，并且与另一段落具有高于阈值的语义相似性的段落可被移除。

所提取的信息也可以被增强，诸如通过列表汇总(例如，将项目符号列表(bulleted list)串联成单个段落以形成连贯的答案段落)、地理映射、数据验证(例如，在文档上加盖的日期，其用于解析将显示给用户的日期)以及语料库聚合来增强。地理映射是指使用段落内的上下文线索(例如，州)来推断管辖权，使得段落可能更与上下文相关。此外，可以使用段落来自哪里的信息用于推断管辖权信息。关于语料库聚合，段落首先作为文档开始处理，然后被分成段落。出于显示或排名的目的，可以在整个语料库上发生额外的处理以生成可以与段落相关联的额外元数据。这种情况的非限制性示例包括用于识别相似段落的引用计数和相似性度量。

在后处理之后，数据分析引擎152被配置成在框164处协调段落的内容嵌入。特别地，数据分析引擎152与诸如GloVe和BERT嵌入服务之类的嵌入服务151对接。下面参照示例描述关于GLoVe和BERT嵌入处理的额外信息。嵌入服务可由离线硬件或在线硬件来执行。段落的嵌入由在线***140用来查找与用户查询相关的段落。

作为非限制性示例，嵌入服务可以采用基于法律语料库进行训练的经预训练的BERT语言模型。该法律BERT是基于数百万个法律示例(诸如判例法摘要和RFC)和二次来源(诸如论文)进行训练的。在该示例中，由离线***150使用的法律BERT包括从整个语料库中生成的高度优化的密集向量索引，以用于执行关于在线处理的查询的相似性搜索的目的。数据分析引擎152被配置成使用法律BERT嵌入服务151将法律内容转换为嵌入。

在一些实施例中，嵌入可被高速缓存在数据存储154中。用于表示向量的较小的文本单位增加了文本将与现有向量表示相同的可能性。嵌入的数据存储154提供了复用现有向量以降低成本、嵌入花费的时间的能力，并且(如果被使用)降低在线嵌入服务的使用以避免终端用户中断。

在框165处，框164处的嵌入与元数据提取物组合。被嵌入的文本在嵌入过程期间被剥离元数据。仅对不具有向量表示的文本进行嵌入。随后将该嵌入存储回高速缓存中。所得向量被接合回元数据，为注入索引做准备。

在框166处，框164处准备的数据被摄入索引148，这可以使用速率限制来完成以维持健康且反应迅速的搜索引擎。作为非限制性示例，索引148可以是能够由ElasticSearch搜索引擎进行搜索的ElasticSearch索引。应理解，这里使用的ElasticSearch仅是作为示例，并且实施例不限于任何特定搜索引擎或索引。

索引148是用于段落的嵌入(即，段落的向量)以及嵌入的元数据和底层文本的内容储存库。元数据被提供在索引的附加字段中，附加字段可用于在搜索和检索阶段期间调节评分、排名和过滤。索引148可包括多个索引，对于每个内容类型(例如，法律判例、法规、论文等)具有单独的索引。作为非限制性示例，对于判例法内容类型，可能存在超过1亿个段落。在一些实施例中，嵌入(即，向量)可被存储在一个索引中，段落存储在另一个索引中，而元数据存储在又另一个存储中。在其他实施例中，嵌入、元数据和文本被存储在单个索引中。

作为非限制性示例，索引148可被配置为分层可导航小世界(HNSW)，分层可导航小世界是完全基于图的增量k-ANN结构，该结构通过允许少量误差来放松精确搜索的条件，与k-ANN算法的其他版本相比，该结构具有更好的对数复杂度缩放。在一些实施例中，非度量空间库和替代的Fiass库可以与HNSW算法一起使用。NMSLIB和Fiass两者是HNSW算法的高效和可扩展的实现。使用NMSLIB或Fiass，可以针对一定范围的嵌入和相似性空间生成各种高度优化的密集向量索引，该密集向量索引用于通过问题嵌入/编码来寻找最近邻的相似性搜索。

因此，离线***150产生索引148，该索引148包括存储在数据存储***153中的文档段落的嵌入和元数据。索引148可以随着新文档被添加到数据存储***153而被持续更新。例如，新的法律意见被持续发布并添加到数据存储***153。

再次参考图3，现在将描述在线***140。如上所述，用户130通过前端应用135向***100提交查询。查询从前端应用135传递到编排器模块141。应理解，实施例可以不包括编排器模块141，和/或可以包括执行本文描述的功能的不同在线***模块。

在实施例中，编排器模块141是开放域提问***100的主控制器。它协调问题识别、协调查询参与决策、预处理问题、发起搜索和检索工作流、聚合来自不同来源的搜索结果、发起答案查找器(即，重排名器)工作流、并对结果进行后处理。

在接收到查询时，编排器模块141将该查询传递到问题识别器模块142，问题识别器模块142包括问题分类器功能、意图识别功能和管辖权/法院识别功能。应理解，在法律上下文之外操作的实施例将不具有管辖权/法院识别功能。取决于应用，问题识别器模块142可具有更多或更少的功能。

问题识别器模块142的问题分类器功能确定查询的类型。查询类型包括但不限于自然语言问题(即，显式的、格式良好的自然语言问题)、自然语言查询(即，未被表述为问题的自然语言查询)、布尔查询、单个文档检索查询、以及区段搜索查询。因此，问题识别器模块142识别已被输入***100的查询的类型。问题分类防止无法回答的查询对***100造成过载。问题分类器从其余的查询中识别显式和隐式问题。这些显式和隐式问题将被传递***以提供答案。

问题识别器模块142的意图识别功能预测用户关于她期望作为答案看到的信息类型的意图。示例信息类型包括但不限于词典事实(例如，定义、原则)、判例法事实(例如，要素、诉讼时效、举证责任、审查标准)、以及实体(例如，法官、专家)。特别地，针对定义、原则、要素、诉讼时效、举证责任、审查标准、法官和专家查询进行目标术语识别。目标术语识别可通过统计模型及深度学习方法来执行。

内联管辖权识别可以用统计模型(诸如条件随机场)来完成。当在查询中识别出管辖权时，可以将该管辖权移出查询，但随后将该管辖权添加为过滤器。

问题识别器模块142的查询参与功能过滤掉不适合答案查找器模块的查询。不合适的查询不会被路由到答案查找器模块。合适的和由答案查找器处理的查询是具有已知意图的自然语言问题和自然语言查询。不合适的和不被答案查找器处理的查询是具有未知意图的自然语言查询和任何其他查询。查询参与功能确保由适当的搜索引擎执行查询参与，并且防止不可回答的查询/对查询的差质量答案对***100造成过载。

仍参考图3，编排器模块141还协调搜索和检索过程。在搜索段落时可以使用多个搜索引擎。例如，可以使用词汇和语义搜索引擎两者。在所示实施例中，编排器模块141与事实搜索引擎143和嵌入搜索引擎144。

事实搜索引擎的主要功能是执行词汇搜索。作为非限制性示例，词汇搜索可以通过使用键索引查找或通过使用由亚马逊Web服务(Amazon Web Services)提供的DynamoDB来执行。DynamoDB表是键值对，其中键对应于诸如“邮件欺诈”之类的目标术语，而值对应于和与键值相关的挖掘出的答案相关的要素。例如，如果事实意图是诉讼时效并且目标术语是“主要欺诈”，则被存储为值的答案卡将具有相关联内容。

事实搜索引擎143被配置成检索短事实答案，诸如词典、判例法和实体事实。在一些实施例中，事实搜索引擎被配置成检索对问题的准备好的/编策的事实答案。对于法律上下文的词典的非限制性示例包括巴伦丁法律词典、布维耶法律词典和法律词典(The LawDictionary)。判例法内容类型的事实示例包括如由主题专家编策的“……的要素”、“诉讼时效”、“举证责任”和“审查标准”。事实搜索引擎143还可被配置成(诸如通过管辖权或法院)来过滤结果。

可由在线和离线部件使用的在线嵌入服务147生成输入文本的向量(即，嵌入)表示。例如，在线嵌入服务147可以为输入查询生成向量。在线嵌入服务147可以创建任何类型的嵌入。作为非限制性示例，在线嵌入服务147提供BERT嵌入(例如，BERT即服务)和/或GloVe(例如，GloVe即服务)。注意，尽管离线嵌入服务151和在线嵌入服务147在图3中被示出为分开的部件，但离线嵌入服务151和在线嵌入服务147可以共享相同逻辑并且可以是单个部件。作为非限制性示例，如果存在额外的变换，并且为了避免对客户正在使用的资产造成额外负载，离线嵌入服务151和在线嵌入服务147可以是分开的。此外，数据嵌入要求可以是不同的(例如，单个查询可以在运行时/在线时处理，而离线时需要尽可能快地处理超过1亿个段落)。

如上所述，可以使用法律BERT预训练的模型。使用法律BERT，当查询进来时，生成该查询的维度表示。作为非限制性示例，查询的表示可具有1024个维度。该表示将用于具有被索引在索引148(例如，NMSLIB索引)中的内容嵌入的相似性搜索，以检索作为查询的潜在答案的段落。

嵌入服务147和索引148可由其他嵌入客户149访问，其他嵌入客户149可用于多种任务，诸如用于搜索算法和推荐引擎的特征。推荐引擎(例如，简报分析判例法推荐)可以使用在线嵌入服务147嵌入数据(简报段落)，然后使用索引148执行搜索以生成用于推荐的内容。

嵌入搜索引擎144可被配置为任何嵌入搜索引擎。嵌入搜索引擎144通过词汇和/或语义搜索和检索功能来允许开放问题-答案搜索能力。作为非限制性示例，嵌入搜索引擎144是嵌入问题回答服务(EQAS)。

EQAS是采用嵌入来执行搜索功能的搜索引擎。EQAS使用用于执行语义搜索的用户查询的嵌入表示以及用于执行传统词汇搜索的用户查询的纯文本表示这两者。两种类型的搜索并行地同时运行。两个返回的搜索结果被组合成一个单一答案集。因为每种搜索方法有时可能有一些重叠(共同的答案)，所以嵌入搜索引擎144还执行去重(deduping)操作，使得该单一答案集仅由唯一的答案组成。

嵌入搜索引擎144的主要功能是执行语义(或密集向量)搜索和词汇(或稀疏向量)搜索。对于语义搜索，嵌入搜索引擎144可以对索引148使用诸如在线嵌入服务147之类的搜索服务、或运行亚马逊Web服务ElasticSearch k-最近邻(k-NN)。嵌入搜索引擎144使用嵌入服务147来首先将用户查询(纯文本)转换为嵌入表示。接下来，嵌入搜索引擎144对ElasticSearch索引148运行k-NN搜索。对于词汇搜索，实施例可以对索引148运行“相似检索”查询。

语义搜索查找在语义上与查询相似的段落。用于与索引148中的嵌入向量进行k-NN比较的两个非限制性相似性度量包括：

余弦相似度：

其中x和y是维度为n的嵌入向量。

欧几里得L2相似度：

其中x和y是维度为n的嵌入向量。

任何其他向量相似性度量都可用于替代这些常用的度量，以在不同的精度和期望行为水平上实现相同的目标。

索引148还可以执行对结果的过滤。如果用户指示，则由嵌入搜索引擎144构造的语义搜索和词汇搜索查询可以可选地包括过滤器子构造。例如，如果用户明确指定要在一个或多个管辖权(例如，州或省)内执行搜索，则将适当的过滤器子结构传递到ElasticSearch索引148。我们支持的其他过滤器类型是法院、时间线、法律主题等。

索引148还可以执行对结果的增强。更具体地，当ElasticSearch 148返回经排序/排名的搜索结果集时，嵌入搜索引擎144请求对搜索结果中来自较高级别法院(其意见/裁定具有较高权威)的答案段落和来自较近期法院案件(例如，来自近10年或15年的案件)给予增强(相对较大的权重)。

事实搜索引擎143和嵌入搜索引擎144两者将段落返回给编排器。段落是对由查询呈现的问题的潜在答案。如参照图2所述，段落与问题配对以形成多个问题-段落对114。这些问题-段落对中的每一者可以被给予识别号。在一些实施例中，问题-段落对可以按相关性排名。例如，问题-段落对可以各自基于段落与问题之间的相似性被分配相关性分数。

再次参考图3，编排器141接收问题-段落对并将它们提供给答案查找器模块145，答案查找器模块145是在问题-段落对中选择(多个)最佳的段落作为查询的答案的重排名器。

答案查找器模块的主要责任是，在给定问题和段落对的情况下，计算该段落是该间题的答案的概率。答案查找器模块145包括基于问题-段落对训练的BERT序列二进制分类器。

图5示意性地示出了答案查找器模块145的BERT序列二进制分类器180。给定作为令牌序列X＝(x0，x1，...，xn-1)的输入文本，BERT输出上下文向量序列186。为了将问题和段落作为输入令牌序列传递，问题和段落令牌将被附接在一起。除了添加[CLS]令牌作为第一令牌和[SEP]令牌作为最终令牌之外，还将在问题和段落之间***[SEP]令牌。BERT二进制序列分类器将序列的第一令牌[CLS]的向量表示Y＝(y0，y1，...，ym-1)发送到二节点密度层，以在“有效问题答案”和“无效问题答案”这两个类别之间进行分类。输出是分对数(logit)Z＝(z0，z1)(即，类别标签188)。BERT分类器具有多个头部注意力层。这些注意力层使模型学习不同位置的不同令牌之间的关系。通过从足够的数据学习，模型可以识别问题和答案的好的“要素”是什么样的。

答案查找器模块基于法律BERT被微调。额外的SoftMax层被添加到分类器以提供输入问题-段落隶属于每个类别的概率P＝softm(Z)。Softmax函数将输出归一化为预测的输出类别(“无效的”和“有效的”问题和答案对)上的概率分布。答案查找器的主要输出是P1＝softm(Z)[1]，这是答案查找器模块关于问题-段落对是好的问题-段落对的可能性的预测。

开源问题-答案数据集被用作训练数据集。然而，特定于域的数据集可用于训练目的。发明人选择由谷歌提供的自然问题(N Q)作为训练集，这是因为可用的长答案，也是因为段落来自针对真实的用户发布的问题所检索的文档。问题不是基于段落而创建的。

NQ数据集包含307,372个问题。针对每个问题大约存在三十个段落。长答案被标记为长答案，并且其他答案被认为是负实例。长答案可以是自然段、列表或表格。如果有的话，短答案也被标记在这些段落中。聚焦于长的上下文答案，仅选择具有长自然段答案的问题(107,089个)并将其用于训练数据。

对于负采样，建立两步微调过程。在第一轮中，针对每个问题选择随机的负段落。在基于该数据集微调答案查找器模块之后，运行答案查找器模块以对所有负样本产生概率。然后，针对每个问题，选择有最高概率成为好答案的负答案作为负样本。以此方式，在基于随机负样本进行学习之后，该模型将聚焦于从吹毛求疵(较难预测)的负样本学习。1,450个具有正段落和负段落的法律问题也被添加到第二数据集。该模型用这些超参数在TeslaK80(12GB GPU内存)上进行训练：learning_rate：2e-5；max_seq_length:512；num_train_epochs:3；do_lower_case:True；batch_size＝8。在这组实验之后，发现使用max_seq_length:128不会显著降低度量值。

再次参考图1-3，答案查找器模块145返回被选择为针对该查询的答案124的一个或多个段落。这些段落具有成为查询的答案的最高概率。(多个)答案随后被显示在电子显示设备上的前端应用135内。在一些实施例中，答案可以通过由浓化服务146提供的额外信息来增强。额外信息可包括法院处理信息(例如，由律商联讯(LexisNexis)提供的谢泼德信息、论文信息和其他信息)。

在一些实施例中，重复的答案被滤除。许多时候，案件可包括相同段落，诸如法律原则的相同表述。***可以过滤掉重复的答案，使得仅向用户显示一个答案。替代地，相似的答案可以被分组并呈现给用户。

图6示出了被配置为用于在电子显示器上显示的图形用户界面200的非限制性示例前端应用。图形用户界面200包括文本框202，文本框202为用户提供输入自然语言查询的位置，该自然语言查询可以是自然语言问题的形式。在图6的示例中，用户已经将自然语言问题“一级谋杀与二级谋杀之间的区别是什么”键入到文本框202中。***首先通过以下方式来找到段落：搜索索引148并根据相关性对问题-段落对进行排名，然后确定每个段落作为所问问题的正确答案的概率。示例图形用户界面200包括答案区域204，在答案区域204中，最佳段落(例如，具有由答案查找器模块145确定为具有最高概率成为答案的那些段落)中的一者或多者被示出为答案。在所示示例中，答案124A、124B和124C被示出在答案区域204中。应理解，可以提供任何数量的答案。例如，高于概率阈值的答案可供用户在答案区域204中查看。

索引148还存储关于段落中的每一者的元数据，该元数据随后可在图形用户界面200中显示给用户。在图6的示例中，关于每个段落的答案文本、案件的管辖权、案件的引用、案件时间和谢泼德信号的元数据被存储在索引中，然后显示在图形用户界面200中。应理解，取决于引用，可以显示其他类型的信息。

用户可以选择答案以打开底层文档。例如，答案124A是案件。通过选择答案124A，案件杨诉州被打开，使得案件的文本被完整显示。然后，用户可以浏览案件以执行期望的研究。

因此，本文描述的实施例提供了自然语言查询的最佳可能答案，这同时缩短了获得答案需要的所需研究，并且向研究人员灌输了她已经获得问题的(多个)最佳可能答案的信心。

示例

为了说明答案查找器模块在寻找最佳答案中的使用，执行了实验。主题专家对用使用和不使用答案查找器模块的BM25(相似搜索)、使用和不使用答案查找器模块的法律孪生BERT、以及使用和不使用答案查找器模块的法律GloVe所递送的答案进行评分。

索引(诸如图3所示的索引148)包括由摘要和RFC的组合定义的数百万个段落。法律孪生BERT和法律GloVe被训练以提供语义嵌入。由BM25(相似搜索)执行词汇信息检索，并且由法律孪生BERT和法律GloVe执行语义信息检索。

法律域的GloVe嵌入构建在64千兆字节的法律文本上，具有200个维度嵌入并且运行了多个周期(epoch)。词汇表的大小为300,000。一旦构建了法律文本的嵌入，就通过在移除停用字词(stop word)之后获取相应字词的嵌入的平均值来构建输入问题和段落的嵌入。

法律孪生BERT被训练以在段落级别的上下文向量空间中检索相似段落。为了创建摘要的样本集的训练数据，将(使用BM25(相似搜索)的)最相似的摘要认为是正相似段落。五个随机摘要被添加作为负实例。为了进行训练，选择具有余弦损失的回归目标函数。输入嵌入由均值池化令牌呈现为句子嵌入，其中基于法律BERT的模型(L＝768)作为嵌入模型。我们用train_batch_size＝16对模型进行训练，对于将预热步骤设置为94的1个周期，计算为：(0.10*训练示例的数量*周期数)/训练批次大小。采用斯皮尔曼相关和皮尔逊相关的上升趋势作为收敛的指示符。

关于答案查找器过程，NQ数据集被用于训练如上所述的答案查找器模块。

开发了一组100个问题。问题中的50％是历史上的真实用户查询，并且其他50％是由主题专家创建的。主题专家被要求创建可能对法律研究者有用的不同种类的问题，包括内容问题、实体问题和分析问题，尽管该解决方案仅聚焦于回答内容问题。

使用包括BM25(相似搜索)、法律孪生BERT和法律GloVe的不同方法来查询段落。选择每个方法的前三个段落进行评估。为了评估答案查找器模块，由BM25、法律GloVe和法律孪生BERT得到的前三十个检索的段落被馈送到答案查找器，并且针对每种检索方法基于答案概率选择前三个段落。这些通过不同方法得到的前三个段落被传递给主题专家，以-1到3的量表进行注释。每个问题的段落被随机排序以防止朝向任何方法的偏差。

主题专家在下面的表1中定义了用于评估关于每个问题的答案的评分准则(rubric)。这些分级比训练答案查找器模块的“有效”和“无效”答案更细化。

表1：评估答案的评分准则

下面的表2示出了针对给定问题(“航空公司是否对其飞行员的过失负责？”)的检索段落和答案以及由主题专家提供的标签的示例。在该特定示例中，BM25(相似搜索)拾取了很长的段落，其中多次出现“航空公司”、“飞行员”、“负责”和“过失”，但是根据主题专家的评估，该段落是离题的。法律GloVe和法律孪生BERT拾取了在语义上与问题类似的短段落，尽管该段落中不包含词语“飞行员”。该段落是关于正确的主题，但没有回答问题。基于BM25(相似搜索)的答案查找器拾取了是好答案的段落。该段落具有问题的所有要素和参与者，并且讨论了在什么情况下承运商(航空公司)对飞行员的过失负责。注意，该段落最初在根据相关性排名的前30个BM25(相似搜索)检索的段落中位于第27位，但是答案查找器模块将其提升到了顶部。因此，在不使用答案查找器模块的情况下，该答案将不会被突出显示给用户。

表2：问题和段落的样本(bm25_mlt：BM25相似搜索；L S BERT：孪生法律GloVe；AF：答案查找器)

虽然主题专家的分数有5个等级，但是主题专家通常认为“2”和“3”的答案是可接受的答案，而其他答案是不可接受的。通过将该映射应用于测试集，计算出了表3所示的F1度量和准确度。基于主题专家之间的评分者间一致性(IRR)实验，所估计的人类准确度为89％。

模型：	F1度量	准确度
			答案查找器	0.64	0.81

表3：关于答案查找器分类器的度量

F1度量和准确度是分类器的合适度量。然而，用例示出了对法律研究者的问题的三个答案。DCG(折损累积收益)、MRR(均值倒数排名)和MAP(均值平均精度)是对用例进行匹配的完善建立的度量。除了使用答案查找器模块作为重排名器之外，答案查找器模块概率还可用于设置阈值以过滤低于该阈值的答案并且向用户返回少于3个答案，而不是使用0.5的普通二进制分类器阈值，可以使用其他阈值以消除不太可能的答案和传递其他答案。

在表4中，可以比较不同的实验设置。突出显示明确的赢家是困难的，因为应考虑像用户体验、成本和潜在增长之类的多个因素。在下表中，突出显示了较有前景的行中的一些行。在表格和图表中，当答案查找器模块组合了超过一种检索方法时，来自每种方法的三十个段落被传递给答案查找器模块。

表4：所选方法的DCG、MRR和MAP(bm25_mlt：BM25相似搜索；SiL BERT：孪生法律BERT；L GloVe：法律GloVe；AF：答案查找器)

图7是示出基于答案在结果列表中的位置的对于100个问题使用不同方法得到好答案的平均概率的图表。

曲线301是基于BM25+L S BERT运行的答案查找器，曲线302是基于bm25运行的答案查找器，曲线303是基于L S BERT运行的答案查找器，曲线304是基于法律GloVe运行的答案查找器，曲线305是bm25(相似搜索)，曲线306是法律孪生BERT，并且曲线307是法律GloVe。使用答案查找器模块，基于答案概率来对答案进行排序。因此，具有较高概率的答案被提升到列表顶部，并且列表顶部的答案更可能是对用户问题的好答案。

图8是示出答案查找器的概率与主题专家的分数之间的可接受相关性的图表。答案查找器模块可以以非常高的准确度识别“2”、“3”和“-1”的答案。在识别大多数“0”答案方面也是成功的，但是在识别其中一些和识别“1”的答案方面有困难。在实验中，主题专家对这些量表也有较低一致性。基于大多数开源问题-答案来训练“二进制”分类器可能是该问题的来源。使用法律问题-答案进行训练可以改善对“0”和“1”的答案的识别。

示例硬件***

本公开的实施例可由计算设备实现，并且可以体现为存储在非瞬态存储器设备上的计算机可读指令。图9描绘了被配置成执行本文描述的功能的示例计算设备500。示例计算设备500提供根据本文示出和描述的实施例的被体现为硬件、软件和/或固件的用于搜索答案检索的自然语言查询的***和/或具有用于搜索答案检索的自然语言查询的计算机可读程序代码的非瞬态计算机可用介质。虽然在一些实施例中，计算设备500可以被配置为具有必要硬件、软件、和/或固件的通用计算机，但是在一些实施例中，计算设备500可以被配置为用于执行本文所描述的功能而专门设计的专用计算机。应理解，图9中描绘的软件、硬件和/或固件部件也可以提供在计算设备500外部的其他计算设备(例如，数据存储设备、远程服务器计算设备等)中。

如也在图9中所示的，计算设备500(或其他附加计算设备)可包括：处理器530、输入/输出硬件532、网络接口硬件534、数据存储部件536(其可存储语料库数据538A、索引538B和任何其他数据538C)、以及非瞬态存储器部件540。存储器部件540可以被配置为易失性和/或非易失性计算机可读介质，并且由此，可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、光盘(CD)、数字多功能光盘(DVD)，和/或其他类型的存储部件。另外，存储器部件540可以被配置成存储操作逻辑541、嵌入逻辑542、检索逻辑543、答案查找器逻辑544、以及图形用户界面(GUI)逻辑545(作为示例，这些逻辑中的每一个逻辑可以体现为计算机可读程序代码、固件或硬件)。本地接口546也被包括在图9中并且可以被实现为总线或其他接口，以促进计算设备500的部件之间的通信。

处理器530可以包括被配置为接收和执行计算机可读代码指令(诸如来自数据存储部件536和/或存储器部件540)的任何处理部件。输入/输出硬件532可以包括电子显示设备、键盘、鼠标、打印机、相机、麦克风、扬声器、触摸屏和/或用于接收、发送和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件534可包括任何有线或无线联网硬件，诸如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件、和/或用于与其他网络和/或设备通信(例如，诸如从各种来源接收语料库数据538A)的其他硬件。

应理解，数据存储部件536可以驻留在计算设备500的本地和/或远程，并且可以被配置为存储一个或多个数据片段以供计算设备500和/或其他部件访问。如图9所示，数据存储部件536可包括包含文档的语料库数据538A，从该文档提取段落(例如，法律判例、意见、法规、法律审查文章等)。数据存储部件536还包括索引数据538B，索引数据538B可包括从语料库数据538A提取的段落以及文档元数据和嵌入。用于执行本文描述的功能的其他数据538C(例如，缓存数据、其他嵌入、浓化服务数据(例如，谢泼德数据))也可以存储在数据存储部件536中。

包括在存储器部件540中的可以是操作逻辑541、嵌入逻辑542、检索逻辑543、答案查找器逻辑544和GUI逻辑545。操作逻辑541可包括用于管理计算设备500的部件的操作***和/或其他软件。类似地，检索逻辑542可驻留在存储器部件540中，并且可配置成搜索。图形用户界面逻辑544可被配置成生成本文描述的图形用户界面，以查看自然语言查询的最佳答案。嵌入逻辑542被配置成根据一个或多个嵌入技术生成段落内容和查询的向量。嵌入逻辑542可以在计算设备500本地或由远程嵌入服务提供。检索逻辑543被配置成关于由用户输入的查询来搜索索引数据的段落。可由检索逻辑(例如，BM25、BM25(相似搜索)、word2vec、BERT、GloVe等)提供任何数量的查询类型。检索逻辑返回与查询相关的段落，并且在一些实施例中，生成问题-段落对，随后根据相关性对问题-段落对进行排名。答案查找器逻辑544包括答案查找器模块，并且从检索逻辑542接收相关问题-段落对。答案查找器逻辑544被配置成通过确定问题-段落对中的每个段落是正确答案的概率来寻找查询的最佳答案。将问题-段落对中具有最大概率的(多个)段落选择为查询的(多个)答案。GUI逻辑545被配置成生成用于在电子显示设备上显示的前端应用，该前端应用用于用户输入查询并且还显示由答案查找器逻辑544生成答案。

现在应理解，本公开的实施例涉及寻找并显示用户查询的一个或多个最优答案的开放域提问方法和***。信息检索过程用于最初检索潜在的回答问题的段落。随后将这些段落中的一些或全部提供给答案查找器模块，该答案查找器模块基于每个段落是对自然语言查询的正确答案的概率来对段落进行重新排名。答案查找器显著减少用户搜索她的问题的答案的时间量，并且还减少计算时间量和功率，因为用户需要提交更少的查询以找到问题的正确答案。

本文描述的***和方法不限于法律领域，并且可以适用于任何类型的内容(无论是静态的还是动态的)，而不会增加架构的复杂性。实施例进一步提供跨许多不同数据集(例如，判例法、法规、论文等)的词汇和语义搜索的组合。因此，与传统搜索方法相比，需要更少的处理资源和时间来提供问题的切题答案。

对本领域技术人员显而易见的是，在不背离本文描述的实施例的精神或范围的情况下可做出各种修改和变化。由于本领域技术人员可以想到包括本文描述的实施例的精神和实质的本文描述的实施例的修改、组合、子组合和变体，因此，本文描述的实施例应该被解释为包括在所附权利要求书及其等效物的范围内的一切。

Claims

1.一种提供对查询的答案的方法，所述方法包括以下步骤：

由计算设备检索与搜索查询相关的多个段落；

生成多个问题-段落对，其中每个问题-段落对包括所述搜索查询和所述多个段落中的单独段落；

使用计算机模型来确定所述多个问题-段落对中的至少一些问题-段落对中的每个问题-段落对的段落是对由所述搜索查询提出的问题的答案的概率；以及

在电子显示器上显示问题-段落对的选定段落，所述选定段落具有最高概率是作为对由所述搜索查询提出的所述问题的所述答案的段落。

2.如权利要求1所述的方法，进一步包括以下步骤：

在确定所述概率之前，基于相关性分数来排名所述多个段落；以及

基于每个问题-段落对的所述概率对所述多个问题-段落对进行重新排名。

3.如权利要求1所述的方法，其特征在于，所述段落包括摘要和引用理由中的一者或多者。

4.如权利要求1所述的方法，其特征在于，所述检索步骤通过一个或多个词汇检索过程和一个或多个语义检索过程来执行。

5.如权利要求4所述的方法，其特征在于，所述一个或多个词汇检索过程包括BM25。

6.如权利要求5所述的方法，进一步包括以下步骤：通过一个或多个语义嵌入过程使用语义嵌入来嵌入所述多个段落和所述搜索查询。

7.如权利要求6所述的方法，其特征在于，所述一个或多个语义嵌入过程包括word2vec、GloVe和来自转换器的双向编码器表示(BERT)，并且所述一个或多个语义检索过程使用所述搜索查询的向量来查询所述语义嵌入。

8.如权利要求1所述的方法，其特征在于，所述计算机模型包括BERT序列二进制分类器。

9.如权利要求8所述的方法，其特征在于，所述BERT序列二进制分类器通过以下步骤进行训练：

提供多个训练问题-段落对作为输入；

在第一训练轮中，针对每个问题选择随机负段落；

对于每个负样本，确定所述负样本是对所述多个训练问题-段落对中的单独问题的答案的概率；以及

在第二训练轮中，针对每个问题选择具有最高概率的负段落。

10.如权利要求8所述的方法，其特征在于，所述计算机模型进一步包括SoftMax层，所述SoftMax层至少部分地基于所述BERT序列二进制分类器的输出来确定所述概率。

11.一种用于提供对查询的答案的***，所述***包括：

一个或多个处理器；以及

存储计算机可读指令的非瞬态计算机可读介质，所述计算机可读指令在由所述一个或多个处理器执行时，使所述一个或多个处理器进行以下步骤：

检索与搜索查询相关的多个段落；

12.如权利要求11所述的***，其特征在于，所述计算机可读指令进一步使所述一个或多个处理器进行以下步骤：

13.如权利要求11所述的***，其特征在于，所述段落包括摘要和引用理由中的一者或多者。

14.如权利要求11所述的***，其特征在于，所述检索步骤通过一个或多个词汇检索过程和一个或多个语义检索过程来执行。

15.如权利要求14所述的***，其特征在于，所述一个或多个词汇检索过程包括BM25。

16.如权利要求15所述的***，其特征在于，所述计算机可读指令进一步使所述一个或多个处理器通过一个或多个语义嵌入过程使用语义嵌入来嵌入所述多个段落和所述搜索查询。

17.如权利要求16所述的***，其特征在于，所述一个或多个语义嵌入过程包括word2vec、GloVe和来自转换器的双向编码器表示(BERT)，并且所述一个或多个语义检索过程使用所述搜索查询的向量来查询所述语义嵌入。

18.如权利要求11所述的***，其特征在于，所述计算机模型包括BERT序列二进制分类器。

19.如权利要求18所述的***，其特征在于，所述BERT序列二进制分类器通过以下步骤进行训练：

提供多个训练问题-段落对作为输入；

在第一训练轮中，针对每个问题选择随机负段落；

20.如权利要求19所述的***，其特征在于，所述计算机模型进一步包括SoftMax层，所述SoftMax层基于所述BERT序列二进制分类器的输出来确定所述概率。