CN109815459A

CN109815459A - 生成被调整到目标受众词汇的文本内容的目标概要

Info

Publication number: CN109815459A
Application number: CN201811050696.3A
Authority: CN
Inventors: S·沙玛; K·克里什那; B·V·西里尼瓦桑; A·姆赫卡尔
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2017-11-17
Filing date: 2018-09-10
Publication date: 2019-05-28
Also published as: DE102018007055A1; GB201814861D0; GB2568571A; AU2018226402B2; AU2018226402A1; US10409898B2; US20190155877A1; US20190266228A1; US10534854B2

Abstract

在数字媒体环境中生成被调整到目标受众词汇的文本内容的目标概要。词语生成模型获得文本内容，并生成文本内容的目标概要。在目标概要的生成期间，使用语言偏好模型将由词语生成模型生成的目标概要的词语调整到目标受众词汇。使用对与目标受众词汇的文本的语料库相对应的目标受众训练数据的机器学习来训练语言偏好模型，以学习相似词语(例如，同义词)之间的目标受众词汇的词语偏好。在使用词语生成模型和语言偏好模型来生成每个词语之后，将关于所生成的词语的反馈提供回词语生成模型。词语生成模型利用反馈来生成概要的后续词语。

Description

生成被调整到目标受众词汇的文本内容的目标概要

背景技术

文本内容的自动概要可以通过提供可由用户快速阅读的文本内容(例如，文档或文章)的概述来用于为最终用户节省时间。传统的提取概要技术从输入文本内容中提取出关键短语，然后选择这些短语的子集以放置在概要中。然而，由这些传统的概要技术生成的概要通常不像人类那样。此外，一些传统的概要技术生成概要，然后可以在概要的生成之后将概要“调整”到目标受众作为后处理步骤。然而，在概要被生成后将概要调整到目标受众通常会导致改变原始文本的含义。例如，考虑句子“整个旅程比团队更大”。基于目标受众的语言偏好，词语“总共”可能优于词语“整个”，并且词语“旅行”可能优于词语“旅程”。虽然这两个词语都是原始词语的精细替换，但是通过替换这些词语形成的结果句子，例如“总共旅行比团队更大”，并不具有与原始句子相同的含义。此外，现有的概要技术无法生成被调整到不同的目标受众词汇的多个概要。

发明内容

为了克服这些问题，在数字媒体环境中生成被调整到目标受众词汇的文本内容的目标概要。词语生成模型获得文本内容，并生成文本内容的目标概要。在目标概要的生成期间，使用语言偏好模型将由词语生成模型生成的目标概要的词语调整到目标受众词汇。使用对与目标受众词汇的文本的语料库相对应的目标受众训练数据的机器学习来训练语言偏好模型，以学习相似词语(例如，同义词)之间的目标受众词汇的词语偏好。在使用词语生成模型和语言偏好模型生成每个词语之后，将关于所生成的词语的反馈提供回词语生成模型。词语生成模型利用反馈来生成概要的后续词语，使得文本文档的上下文和概要的已生成的词语被保持。

本发明内容以简化的形式介绍了一些概念，这些概念将在下面的具体实施方式中进一步描述。因此，本发明内容不旨在标识所要求保护的主题的必要特征，也不旨在用作辅助确定所要求保护的主题的范围。

附图说明

参考附图描述了详细描述。

图1是示例实现中的数字媒体环境的图示，该数字媒体环境可操作用于采用生成被调整到本文描述的目标受众词汇技术的目标概要。

图2描绘了其中使用对目标受众训练数据上的机器学习来训练语言偏好模型的示例实现中的***。

图3描绘了其中图1的词语生成模型生成被调整到目标受众词汇的文本内容的目标概要的示例实现中的***。

图4图示了根据一个或多个实现的当被配置为神经编码器时图1和图3的词语生成模型的示例。

图5图示了使用不同的概要技术生成的输入文章的各种概要的示例。

图6图示了各种概要技术的基于度量的评估的结果。

图7描绘了使用机器意向和目标受众训练数据来训练语言偏好模型的示例过程。

图8描绘了生成被调整到目标受众词汇的文本内容的目标概要的示例过程。

图9描绘了生成被调整到目标受众词汇的文本内容的目标概要的附加示例过程。

图10图示了包括表示可以实现本文描述的各种技术的一个或多个计算***和/或设备的示例计算设备的示例***。

具体实施方式

概述

本文描述了用于在数字媒体环境中生成被调整到目标受众词汇的文本内容的目标概要的技术。利用词语生成模型的与目标受众词汇相关联的语言偏好模型，来生成被调整到目标受众词汇的文本内容的概要。词语生成模型可以对应于机器学***、年龄或性别)。

为了生成目标概要，词语生成模型获得文本内容，并使用一种或多种概要技术来生成文本内容的概要。与将目标受众的语言偏好考虑为后处理步骤的现有技术不同，所描述的技术在概要的生成期间使用语言偏好模型来将由词语生成模型生成的词语调整到目标受众词汇。在使用词语生成模型和语言偏好模型生成每个词语之后，将关于所生成的词语的反馈提供回词语生成模型。词语生成模型可以使用反馈来调整概要的后续词语生成。值得注意的是，由于在概要的生成期间发生对目标受众词汇的调整，因此概要是基于输入文本和概要的已生成词语的词语而被生成。这样，使用所描述的技术生成的概要生成被调整到目标受众词汇的文本内容的概要，其比用调整到目标受众的后处理生成的概要更易读。此外，所描述的技术的概要比甚至人类生成的概要被更好地调整到目标受众，所述人类生成的概要是在没有目标受众词汇的机器训练知识的情况下生成的。

在以下讨论中，首先描述可以采用本文描述的技术的示例环境。然后描述可以在示例环境以及其他环境中执行的示例实现细节和过程。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

示例环境

图1是示例实现中的数字媒体环境100的图示，该数字媒体环境100可操作用于采用生成被调整到本文描述的目标受众词汇技术的目标概要。所图示的环境100包括经由网络106通信地耦合的服务提供商***102和客户端设备104。实现服务提供商***102和客户端设备104的计算设备可以以各种方式被配置。

例如，计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设诸如平板计算机或移动电话的手持配置)等。因此，计算设备可以在从具有大量存储器和处理器资源的完整资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)的范围变化。另外，计算设备可以代表多个不同的设备，诸如由企业利用的用于“在云上”执行操作的多个服务器，如图10中所描述的。

客户端设备104被图示为包括通信模块108，通信模块108表示例如使用浏览器、支持网络的应用、操作***等经由网络106与服务提供商***102进行通信的功能。例如，通信模块108可以形成针对被调整到目标受众114的文本内容112的概要的请求110。如本文所述，文本内容112可以包括任何类型的文本内容，诸如文章、文字处理文档、网页上的文本、PDF等。如本文所述，目标受众词汇114可以基于一种类型的词语(例如，简单、复杂)或人的人口统计(例如，大学教育、居住在英国、收入水平、年龄、性别等等)。请求110可以经由网络106被传送到服务提供商***102。响应于请求110，服务提供商***102生成并返回被调整到目标受众词汇114的输入文本内容112的目标概要116。如本文所述，目标概要116对应于考虑目标受众的词汇的输入文本内容112的简短版本。尽管图示为远离客户端设备104被实现，但是所图示的服务提供商***102的功能也可以全部或部分地在客户端设备104处被实现。例如，目标概要模块118可以在客户端设备104处被实现以本地生成目标概要116，从该客户端设备104接收请求110。

为了生成目标概要116，服务提供商***102采用目标概要模块118，目标概要模块118被配置为生成被调整到所请求的目标受众词汇114的目标概要116。目标概要模块118利用词语生成模型120和语言偏好模型122两者，词语生成模型120被配置为生成文本内容的概要，并且语言偏好模型122被训练以捕获目标受众词汇114的词语偏好。词语生成模型120可以对应于可以生成文本内容的概要的任何类型的词语生成模型或算法。在一些情况下，使用机器学习(例如，神经网络)来训练词语生成模型120以生成文本内容的概要。例如，词语生成模型120可以实现为提取概要算法、抽象概要算法、序列到序列神经编码器等。

服务提供商***进一步被图示为包括语言偏好训练模块124(“训练模块124”)，其训练语言偏好模型122以学习各种目标受众词汇114的词语偏好。训练模块124使用应用于目标受众训练数据126(“训练数据126”)的机器学习来训练语言偏好模型122。训练数据126对应于利用目标受众词汇114生成的文本内容的语料库。训练模块124通常基于在意味着相同事物的不同词语(例如，同义词)中，更常用的词语是更偏好的洞察来训练语言偏好模型122。因此，语言偏好模型122学习词语偏好，该词语偏好可以在词语w1与其同义词w2之间的目标受众偏好方面在相对情景中定义。从针对特定目标受众词汇114的训练数据126开始，训练模块124基于在训练数据126中的词语使用的频率连同训练数据126中的其使用上下文来构建概率映射P_pref(w1|w2)，其指示词语w1相对于w2被偏好的概率。下面关于图2讨论训练语言偏好模型122的进一步讨论。

在一个或多个实现中，词语生成模型120使用“逐词语”概要过程来生成目标概要116的词语。为了生成目标概要116的每个“下一词语”，词语生成模型120基于文本内容112的输入文本和已经生成的目标概要的文本的组合来计算概率分布。在目标概要116的每个词语被生成之后，词语生成模型120接收关于所生成的词语的反馈。该反馈由该词语生成模型使用来生成目标概要116的后续词语。与现有词语生成技术不同，词语生成模型120基于输入文本内容112的上下文和到目前为止已生成的概要的词语两者来生成用于目标概要的词语。

为了使目标概要116被调整到目标受众词汇114的语言偏好，词语生成模型120所采用的逐词语生成过程在概要的生成期间受到语言偏好模型122的所学习的语言偏好的约束。这可以通过用“较多偏好”的替代词语替换“较少偏好”的词语来实现，该“较多偏好”的替代词语具有与较少偏好的词语相似的含义。然而，这可能导致由文本内容概要所传达的含义的完全改变。因此，目标概要模块118可以通过修改与语言偏好模型122一致的词语生成概率来将目标概要调整到目标受众的语言偏好。下面参考图3讨论利用词语生成模型120和语言偏好模型122来生成被调整到目标受众的语言偏好的目标概要的进一步讨论。

目标概要模块118可以被实现以为各种不同的用例提供标概要。在一些实例中，目标概要模块118可以由文本内容112的内容作者(例如，文章、报纸或书籍的内容作者)利用，以快速且自动地生成其文本内容112的概要。目标概要模块118使得内容作者能够将概要调整到特定目标受众的词汇，这可以使得作者能够将概要调整到多个不同的目标受众。例如，内容作者可能想要基于频繁使用这些平台的不同受众在不同平台上提供不同的概要。在其他实例中，目标概要模块118可以由文本内容的客户或最终消费者利用。在此上下文中，目标概要模块118可以辅助提供可以通过移动通知或在可穿戴设备上容易地消费的较长文章或报纸的消费者特定概要。在这个实例中，可以实现目标概要模块118以确定最终用户的人口统计信息，并且然后将概要调整为与用户的人口统计信息相对应的词汇。

通常，可以在本节中描述的示例过程的上下文中采用关于以上和以下示例描述的功能、特征和概念。此外，关于本文档中的不同附图和示例描述的功能、特征和概念可以彼此互换，并且不限于在特定附图或过程的上下文中的实现。此外，与本文中的不同代表性过程和对应附图相关联的框可以一起应用和/或以不同方式组合。因此，关于本文中的不同示例环境、设备、组件、附图和过程描述的单独功能、特征和概念可以以任何合适的组合使用，并且不限于本说明书中列举的示例所表示的特定组合。

语言偏好模型训练

可以使用一种或多种机器学习技术来训练语言偏好模型122，以基于目标受众词汇中的词语使用频率来学习目标受众词汇的词语偏好概率。为此，语言偏好训练模块124标识目标受众训练数据126中的词语，然后标识词语的一个或多个同义词。然后，对于每个词语-同义词对，基于目标受众词汇中的词语和同义词的相应频率，为每个相应的词语-同义词对生成词语偏好概率。

更详细地，考虑图2，其描绘了示例实现中的***200，其中语言偏好模型是使用对目标受众训练数据上的机器学习来训练的。

在***200中，训练模块124获得目标受众训练数据126，其对应于相应目标受众词汇114的文本内容的语料库。例如，训练数据126可包括使用预期目标受众词汇114生成的多个(例如，一万)片段文本内容(例如，文章、报纸、书籍)。训练模块124使用训练数据126来学习语言偏好模型122的词语偏好概率202。词语偏好概率202指示目标受众词汇114中具有相似含义的词语(例如，同义词)之间的相对偏好。词语偏好概率202的确定可以基于训练数据126中的词语使用的频率，使得如果第一个词语在训练数据126中更频繁地出现，则第一词语比作为第一个词语的同义词的第二词语被偏好。然而，在不脱离所描述技术的精神或范围的情况下，其他度量也可以用于确定相似词语相对于彼此的重要性。

在***200中，为了训练语言偏好模型122，将训练数据126中的每个候选词语204被传递给由语言偏好训练模块124所采用的配对模块206。配对模块206标识给定候选词语204的所有词义208以及候选词语204的各种词义208的所有同义词210。在语言学中，“词义”是词语的含义之一。有些词语有多种含义，而其他词语只有一种含义。例如，词语“play”可以具有超过50种不同的意义，每种意义基于词语在句子中的使用的上下文而具有不同的含义。配对模块206为每个相应候选词语204生成词义-同义词对212。在一些情况下，词义-同义词对212被变形为适合于基于形态分析来替换候选词语204的形式。

然后将词义-同义词对212传递到训练模块124的频率模块214。频率模块214分别为词义同义词对212的每个词义208和同义词210确定词义频率216和同义词频率218。频率216和218对应于训练数据126中每个词语的出现次数。

接下来，训练模块124的词语偏好概率模块220获得每个相应词义-同义词对212的词义频率216和同义词频率218，并为相应词义-同义词对212生成词语偏好概率202。如果同义词的频率大于目标受众训练数据中词语的频率，则给定词语-同义词对的词语偏好概率指示同义词比词语(或词语的词义)被偏好。

在一个或多个实现中，词语(w_i)比词语(w_j)被偏好的词语偏好概率202由词语偏好概率模块220使用以下算法来确定：P_pref(w_i|w_j)由下式给出，

在该算法中，f_wi是由频率模块214确定的训练数据126中的词语w_i的频率。条件f_wi≥f_wi确保作为w_j的同义词的词语w_i在训练数据126中被更频繁地使用，并因此是更被偏好的。分母中的和仅包含具有较高频率以及因此比w_j更偏好的词语。

一旦训练，针对给定目标受众词汇114的语言偏好模型122的学习词语偏好概率202然后可由目标概要模块118使用以将由词语生成模型120生成的概要调整到目标受众词汇，下面将参考图3进一步详细讨论。

生成被调整到目标受众词汇的目标概要

图3描绘了示例实现中的***300，其中图1的词语生成模型120生成被调整到目标受众词汇114的文本内容112的目标概要116。

在***300中，目标概要模块118接收用于生成被调整到目标受众词汇114的文本内容112的目标概要的请求110。在一些情况下，请求可以从文本内容112的内容作者接收，诸如文章、书籍的作者等。替代地，请求可以从文本内容112的消费者接收，以便生成文本内容的概要。

请求110可以包括目标受众的指示。例如，文本内容的内容作者可以经由用户界面提交请求，该用户界面使得内容作者能够为概要选择目标受众词汇。以这种方式，内容作者可以选择目标受众，其例如可以对应于内容的预期受众。值得注意的是，内容作者能够使用本文描述的技术生成多个不同的概要，使得可以针对不同的目标受众生成不同的概要。替代地，目标受众可以由目标概要模块118自动确定。例如，目标受众可以基于与请求概要的最终消费者相关联的人口统计信息来确定。

目标概要模块118将文本内容112提供给词语生成模型120，并将所请求的目标受众词汇提供给语言偏好模型122。在***300中，词语生成模型120的关注解码器302接收文本内容112作为输入，并且生成文本内容112中的词语306的关注分布304。关注分布304针对每个词语306指示选择概率值308。选择概率值308指示对应词语306被选择作为目标概要116的下一生成词语的概率。关注解码器302基于输入的文本内容112中的词语以及已经由词语生成模型120生成的目标概要116的词语来确定选择概率值308。

词语生成模型120还被图示为包括选择模块310，选择模块310被配置为基于关注分布304和语言偏好模型122来为目标概要116选择下一生成词语312，关注分布304由词语生成模型120的关注解码器302生成，语言偏好模型122在与对应于目标受众词汇114的训练数据126上被训练，如上参考图2所述。

为了鼓励目标受众词汇114的最偏好词语的生成，选择模块310利用由语言偏好模型122学习的目标受众的词语偏好概率202来修改关注分布304的选择概率值308。因此，选择模块310通过基于关注分布304从输入文本内容112中选择词语，或者通过用如由语言偏好模型122的词语偏好概率202所指示的、目标受众的更偏好的同义词替换输入文本内容112中的词语来选择下一生成的词语312。选择模块310可以使用各种不同的词语生成技术来选择目标概要116的下一生成的词语312。在该示例中，选择模块310可以使用统计替换的生成314或概率重新加权的生成316来选择下一生成的词语312。

在统计替换的生成技术中，由词语生成模型生成的词语被替换为由语言偏好模型122定义的更偏好的同义词。为此，针对目标受众偏好的词语，关注分布304中的选择概率值308被提升。这样做可确保最偏好的词语用于当前上下文，并在后续生成中被利用。由于词语生成模型120使用该信息用于随后的词语生成，所以词语生成模型120能够生成完整的句子，该完整的句子即使在来自文本内容的词语被用由语言偏好模型所标识的更偏好的词语替换之后，是有意义的。值得注意的是，当首先生成完整概要，然后在生成完整概要之后，生成的概要的词语然后被用最偏好的同义词天真地替换时，通常不会出现这种情况。

为了使用统计替换的生成314选择下一生成的词语312，选择模块用如由语言偏好模型122所确定的更偏好的相似词语替换关注分布304中的词语306。在一些情况下，这意味着关注分布中的词语被替换为他们最偏好的同义词。在一个或多个实现中，选择模块310使用以下算法用于统计替换的生成：

在上述算法中，P(w)对应于由关注解码器302生成的给定词语的选择概率308，并且P_pref(w_i|w_k)对应于由语言偏好模型122学习的词语的词语偏好概率202。项基于其在整个目标受众词汇114上的偏好概率来对词语w_i产生“偏好分数”。通过用生成概率对得到的分数进行加权，该方案标识最偏好词语与最佳可能的生成概率的组合。

虽然统计替换的生成314在词语生成期间标识最偏好的词语替换，但是它不考虑用于生成的候选者之间的最偏好词语。为了实现这一点，选择模块310可以使用概率重新加权的生成316来选择下一生成的词语312。在概率重新加权的生成316中，词语被选择的概率取决于它用于替换较不偏好的同义词的可能性，由其首先用于将被生成的较不偏好的同义词的可能性加权。为了使用概率重新加权的生成316来生成下一词语31，可以使用以下算法：

注意，在这种情况下的偏好分数是通过对词语的生成的概率进行加权来获得的，当前候选词语相对于该词语被更偏好。因此，概率重新加权的生成316选择相对于用于生成的整个候选项最偏好的候选词语，并且用相应的生成概率对它们进行加权，以同时选择最可能在给定输入的上下文中生成的最偏好的词语。

在选择模块310选择下一生成的词语312之后，将生成的词语添加到目标概要116。此外，反馈模块318将生成的词语反馈320提供给关注解码器302，其可由关注解码器302用于选择目标概要116的后续词语，从而保持目标概要116的词语生成中的一致性。

经由神经编码器的词语生成模型

图4图示了根据一个或多个实现的当配置为神经编码器时图1和图3的词语生成模型120的示例400。

在示例400中，词语生成模型120被实现为神经编码器，神经编码器可以被实现为将词语序列映射到另一个词语序列。例如，通过对英语句子及其法语翻译的大语料库进行训练，词语生成模型120可以学习输出输入句子的法语翻译。该概念可以被应用于配置词语生成模型120以生成文本内容的概要。为了确保概要的下一生成的词语不仅仅依赖于先前生成的词语，词语生成模型120可以利用长短期记忆(LSTM)架构。LSTM架构使用门控机制，该门控机制将信息保留在内存中，或丢弃先前的信息。

在示例400中，基于LSTM的编码器接收输入文本内容112的词语嵌入向量(“w_i”)作为输入，并计算编码器隐藏状态402(“h_i”)的序列。最终的隐藏状态被传递到解码器，解码器还计算解码器隐藏状态404(“s_t”)并且在每个解码时间步骤处生成目标词语的词语嵌入(“y_t”)。

在生成目标概要116的词语时，与其他部分相比，词语生成模型120将更多的关注集中在输入文本内容112的某些部分上。例如，在示例***400中，词语生成模型120正在为输入文本内容112生成目标概要116：“德国沉浸以在2-0赢得阿根廷的胜利中”(“Germanyemerges victorious in a 2-0win against Argentina”)。词语生成模型120可以通过对词语“胜利”和“赢”付出更高的关注来学习生成词语“打败”(“beat”)。为此，词语生成模型120使用以下算法来计算文本内容112中的所有词语上的关注分布304：

a^t＝softmax(e^t)

在上面的关注分布算法中，使用机器学习技术在文本内容的语料库上训练v、W_h、W_s和b_att。如上所述，关注分布304可以被认为是从训练语料库中学习的输入文本内容112中的词语上的概率分布。上下文向量(编码器隐藏状态402的加权和)用于基于已经在定义的“上下文”窗口内生成的词语来确定要生成的概要的下一词语。

为了重新产生输入文本内容112的事实片段，词语生成模型120可以被扩展以包括用于决定是否如前所述生成词语或从输入文本内容112中挑选以复制事实细节的概率术语。在解码器的每个阶段，计算概率p_gen，p_gen指示是否从词汇生成词语，或者使用关注分布304从源文本内容112复制词语。可以使用以下算法计算该概率：

在上面的算法中，基于训练文本的语料库来训练。然后可以使用p_gen来确定关于由算法给出的词汇中的词语的关注分布304：

第二项允许词语生成模型120使用关注分布304从输入文本内容112中选择要复制的词语。在给定当前词语和上下文时，P(w)产生正被生成的下一词语的概率。

概要生成比较和结果

图5图示了使用不同概要技术生成的输入文章502的各种概要的示例500。

输入文章502的人为生成的概要504包括文本：“Bafetimbi Gomis在托特纳姆开球后10分钟内崩溃”。输入文章502的指针生成模型概要506包括文本：“具有昏厥历史的法国前锋Bafetimbi Gomis说在周三在英超联赛中斯旺西以3-2输给托特纳姆期间崩溃后他现在感觉良好”。关于后期处理508的概要包括文本“具有昏厥历史的法国前锋BafetimbiGomis告诉在…之后他现在看起来很好”。

值得注意的是，具有后处理508的概要已经将来自输入文章502中文本“昏厥历史”替换为“昏厥的故事”，因为它已经确定词语“故事”是更简单的词语，并且因此根据训练数据集合为更偏好的。然而，本概要的第二个短语在这个上下文中没有意义。指针生成概要506已将短语“感觉良好”替换为“看起来很好”，这完全改变了含义。

相反，所描述的技术的统计替换的生成概要510和概率重新加权的生成概要512已经生成了不包括这些传统技术的上下文错误的概要。相反，所描述的统计替换的生成概要510和概率重新加权的生成概要512将输入文章502的短语“感觉良好”替换为“良好”，因为根据目标词汇的训练数据语料库文本，良好是更偏好的。值得注意的是，术语“良好”在概要和输入文章的上下文中也是有意义的，并且不会改变输入文章502的含义。

图6图示了各种概要技术的基于度量的评估的结果600。结果600将使用指针生成、后处理以及所描述的PRG和SRG技术生成的概要进行比较。在该示例中，语言偏好模型122使用大约目标受众词汇的10,000个文章进行训练。值得注意的是，用于训练语言偏好模型122的10,000篇文章与用于训练词语生成模型120的训练数据不同。

结果600包括质量比较602、可读性比较604和偏好分数比较606。质量比较602基于ROGUE分数，其测量相对于参考人生成概要的生成概要中n-gram的出现的精确度、召回率和f-量度。在此示例中，使用了ROUGE-L变体，该变体查看参考概要和机器生成的概要之间的最长公共子序列。

可读性比较604基于Flesch读取容易度，其量化所生成的概要的可读性。Flesch可读性分数使用等式中句子长度(每个句子的词语的数量)和每个词语的音节的数目来计算阅读容易度。具有非常高的Flesch阅读容易度分数(约100)的文本非常容易阅读。更高的分数指示更好的可读性和更好的一致性，因此更有意义。

偏好分数比较606使用所生成的概要中的词语的平均偏好分数(∑_wP_pref(w_i|w))来量化在概要中捕获的语言偏好。

如从比较602、604和606可以看出，所有比较的概要技术都获得了可比较的、指示所生成的概要的相似质量的经色(“rouge”)分数。所描述的技术的统计替换的生成(“SRG”)和概率重新加权的生成(“PRG”)技术已经产生了具有比基线和人生成的概要更高的偏好分数的概要，因为它们被附加地调整到目标词汇。值得注意的是，后处理技术已经生成了与所描述的SRG和PRG技术类似的偏好分数，然而后处理的概要以指示后处理输出的质量的下降的较低可读性的成本产生较高的偏好分数。人的概要具有较低的偏好分数，因为它们是在不知道目标词汇的情况下生成的。

已经讨论了用于被调整到目标受众词汇的文本内容的已生成的目标概要的技术的示例细节，现在考虑一些示例过程来说明该技术的附加方面。

示例程序

本部分描述用于生成被调整到目标受众词汇的文本内容的目标概要的示例过程。过程的各方面可以用硬件、固件或软件或其组合来实现。这些过程被示出为块集合，其指定由一个或多个设备执行的操作，并且不一定限于所示的用于执行由各个框的操作的命令。

图7描绘了使用机器意向和目标受众训练数据来训练语言偏好模型的示例过程700。

最初，获得与针对目标受众词汇的文本内容的语料库相对应的目标受众训练数据(框702)。例如，语言偏好训练模块124获得目标受众训练数据126，其对应于相应目标受众词汇114的文本内容的语料库。例如，训练数据126可包括使用预期目标受众词汇114生成的多个(例如，一万个)片段的文本内容(例如，文章、论文、书籍)。

语言偏好模型被使用一种或多种机器学习技术来训练，以基于目标受众词汇中的词语使用频率来学习目标受众词汇的词语偏好概率(框704)。例如，训练模块124使用训练数据126来学习语言偏好模型122的词语偏好概率202。词语偏好概率202指示目标受众词汇114中具有相似含义的词语(例如，同义词)之间的相对偏好。在一些情况下，词语偏好概率202的确定基于训练数据126中的词语使用的频率，使得如果第一词语更频繁地出现在训练数据126中，则第一词语比作为第一词语的同义词的第二词语更被偏好。

在一个或多个实现中，为了训练语言偏好模型122，训练数据126中的每个候选词语204被传递给由语言偏好训练模块124所采用的配对模块206。配对模块206识别给定候选词语204的所有词义208和候选词语204的各个词义208的所有同义词210。然后，配对模块206为每个相应的候选词语204生成词义同义词对212。然后，将词义-同义词对212传递到训练模块124的频率模块214。频率模块214分别为词义-同义词对212的每个词义208和同义词210确定词义频率216和同义词频率218。频率216和218对应于训练数据126中每个词语的出现次数。接下来，训练模块124的词语偏好概率模块220获得针对每个相应的词义-同义词对212的词义频率216和同义词频率218，并为相应的词义-同义词对212生成词语偏好概率202。

图8描绘了使用词语生成模型和语言偏好模型来生成文本内容的目标概要的示例过程800。

通过词语生成模型生成文本内容的目标概要(框802)。作为示例，文本内容112的目标概要116由词语生成模型120生成。

在目标概要的生成期间，使用语言偏好模型将由词语生成模型生成的目标概要的词语调整到目标受众词汇，其中使用对包括目标受众词汇的文本的语料库的数据的目标受众训练数据的机器学习来训练语言偏好模型，以学习相似词语之间的目标受众词汇的词语偏好(框804)。作为示例，在目标概要116的生成期间，使用语言偏好模型122将由词语生成模型120生成的目标概要的词语调整到目标受众词汇114。使用对目标受众训练数据126的机器学习来训练语言偏好模型122，以学习相似词语(例如，同义词)之间的目标受众词汇的词语偏好。

在概要的生成期间，将概要的每个生成的词语的反馈提供给词语生成模型，其中由词语生成模型利用的反馈用于生成目标概要的后续词语(框806)。作为示例，反馈模块318在目标概要116的生成期间将生成的词语反馈320提供给词语生成模型120。然后，词语生成模型120利用反馈320来生成目标概要116的后续词语。

图9描绘了生成被调整到目标受众词汇的文本内容的目标概要的附加的示例过程900。

接收请求以生成被调整到目标受众词汇的文本内容的目标概要(框902)。作为示例，目标概要模块118接收用于生成被调整到目标受众词汇114的文本内容112的目标概要的请求110。

通过词语生成模型生成关注分布，该关注分布包括来自文本内容和目标受众词汇的词语以及关注分布中的每个词语的选择概率值，其中选择概率值指示每个词语被选择作为文本内容的目标概要的下一词语的相应概率(框904)。作为示例，词语生成模型120生成文本内容112和目标受众词汇114中的词语306连同每个词语的选择概率值308的关注分布304。选择概率值308指示每个词语被选择作为目标概要116的下一生成词语的相应概率。词语生成模型120的关注解码器302可以基于输入的文本内容112中的词语以及已经由词语生成模型120生成的目标概要116的词语来确定选择概率值308。

基于关注分布和指示目标受众词汇的词语偏好概率的语言偏好模型来选择目标概要的下一词语(框906)。例如，选择模块310基于由词语生成模型120的关注解码器302生成的关注分布304，以及对对应于目标受众词汇114的训练数据126进行训练的语言偏好模型122，为目标概要116选择下一生成的词语312。

在一些情况下，为了鼓励目标受众词汇114的最偏好词语的生成，选择模块310可以用由语言偏好模型122学习的目标受众的词语偏好概率202来修改关注分布304的选择概率值308。因此，选择模块310通过基于注意分布304从输入文本内容112中选择词语，或者通过用如语言偏好模型122的词语偏好概率202所指示的目标受众的最偏好的同义词来替换来自输入文本内容112中的词语来选择下一生成的词语312。选择模块310可以使用诸如统计替换的生成314或概率重新加权的生成316的各种不同的词语生成技术来选择目标概要116的下一生成的词语312。

将所选择的下一词语的反馈提供给词语生成模型，该反馈使得词语生成模型基于下一所选词语的反馈来修改针对目标概要的后续词语的选择的关注分布(框908)。举例而言，在选择模块310选择下一生成的词语312之后，将生成的词语添加到目标概要116。此外，反馈模块318将生成的词语反馈320提供给关注解码器302，这是可由词语生成模型120的关注解码器302使用，以选择目标概要116的后续词语。

已经根据一个或多个实现描述了示例过程，现在考虑可以用于实现本文描述的各种技术的示例***和设备。

示例***和设备

图10图示了通常在1000处的示例***，其包括示例计算设备1002，其表示可以实现本文描述的各种技术的一个或多个计算***和/或设备。这通过包括目标概要模块118来说明。计算设备1002可以是例如服务提供商的服务器、与客户端(例如，客户端设备)相关联的设备、片上***、和/或任何其他合适的计算设备或计算***。

如图所示的示例计算设备1002包括彼此通信地耦合的处理***1004、一个或多个计算机可读介质1006、以及一个或多个I/O接口1008。虽然未图示，但是计算设备1002还可以包括***总线或将各种组件彼此耦合的其他数据和命令传输***。***总线可以包括不同总线结构中的任何一个或组合，诸如存储器总线或存储器控制器、***总线、通用串行总线、和/或利用各种总线架构中的任意一个的处理器或本地总线。还构想了各种其他示例，诸如控制和数据线。

处理***1004表示使用硬件来执行一个或多个操作的功能。因此，处理***1004被图示为包括可以被配置为处理器、功能块等的硬件元件1010。这可以包括在硬件中作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件的实现。硬件元件1010不受形成它们的材料或其中采用的处理机制的限制。例如，处理器可以包括半导体和/或晶体管(例如，电子集成电路(IC))。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质1006被图示为包括存储器/存储装置1012。存储器/存储装置1012表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件1012可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储组件1012可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如，闪存、可移动硬盘驱动器、光盘等)。计算机可读介质1006可以以如下面进一步描述的各种其他方式配置。

输入/输出接口1008表示用于允许用户向计算设备1002输入命令和信息的功能，并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或其他传感器)、相机(例如，可以是采用可见或诸如红外频率的不可见的波长来将运动识别为不涉及触摸的手势)等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1002可以以下面进一步描述的各种方式配置以支持读取器交互。

本文在软件、硬件元件或程序模块的一般上下文中可以描述各种技术。通常，这样的模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种商业计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质发送。计算机可读介质可以包括可以由计算设备1002访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以指代与仅仅信号发送、载波或信号本身相比能够实现信息的持久和/或非暂态存储的介质和/或设备。因此，计算机可读存储介质指的是非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或存储设备的硬件，该存储设备以适于诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据的信息的存储的方法或技术实现。计算机可读存储介质的示例可包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储、硬盘、磁带盒、磁带、磁盘存储或其他磁存储设备、或适于存储所需信息并且可由计算机访问的其他存储设备、有形介质或制品。

“计算机可读信号介质”可以指信号承载介质，其被配置为诸如经由网络将指令发送到计算设备1002的硬件。信号介质通常可以实施计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波、数据信号或其他传输机制。信号媒体还包括任何信息传递媒体。术语“已调制数据信号”表示具有以对信号中的信息进行编码的方式设置或改变的其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外和其他无线介质的无线介质。

如前所述，硬件元件1010和计算机可读介质1006表示以硬件形式实现的模块、可编程设备逻辑和/或固定设备逻辑，其可以在一些实施例中被采用以用于实现本文描述的技术的至少一些方面，诸如执行一个或多个指令。硬件可以包括集成电路或片上***的组件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实现。在此上下文中，硬件可以作为执行由硬件实施的指令和/或逻辑定义的程序任务的处理设备以及用于存储用于执行的指令的硬件(例如，先前描述的计算机可读存储介质)进行操作。

还可以采用前述的组合来实现本文描述的各种技术。因此，软件、硬件或可执行模块可以实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1010实现的一个或多个指令和/或逻辑。计算设备1002可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，可以由计算设备1002作为软件执行的模块的实现可以至少部分地以硬件实现，例如，通过计算机可读存储介质和/或处理***1004的硬件元件1010的使用。指令/或功能可以由一个或多个制品(例如，一个或多个计算设备1002和/或处理***1004)执行/操作，以实现本文描述的技术、模块和示例。

本文描述的技术可以由计算设备1002的各种配置支持，并且不限于本文描述的技术的特定示例。该功能还可以全部或部分地通过分布式***的使用来实现，诸如通过如下所述的平台1016在“云”1014上实现。

云1014包括和/或代表用于资源1018的平台1016。平台1016抽象出云1014的硬件(例如，服务器)和软件资源的底层功能。资源1018可以包括计算机处理在远离计算设备1002的服务器上执行时可以利用的应用和/或数据。资源1018还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1016可以抽象资源和功能以将计算设备1002与其他计算设备连接。平台1016还可以用于抽象资源缩放以向经由平台1016实现的资源1018的所面临需求提供对应级别的缩放。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个***1000中。例如，功能可以部分地在计算设备1002上以及经由抽象云1014的功能的平台1016来实现。

结论

尽管已经用结构特征和/或方法动作专用的语言描述了本发明，但是应该理解，所附权利要求中限定的本发明不一定限于所描述的具体特征或动作。相反，具体特征和动作被公开为实现所要求保护的发明的示例形式。

Claims

1.一种在数字媒体环境中由至少一个计算设备实现的方法，所述数字媒体环境用于生成被调整到目标受众词汇的文本内容的目标概要，所述方法包括：

由所述至少一个计算设备接收用于生成被调整到所述目标受众词汇的文本内容的所述目标概要的请求；

由词语生成模型生成关注分布，所述关注分布包括来自所述文本内容和所述目标受众词汇的词语、以及针对所述关注分布中的每个词语的选择概率值，所述选择概率值指示每个词语被选择作为所述文本内容的所述目标概要的下一词语的相应概率；

基于所述关注分布和语言偏好模型来为所述目标概要选择所述下一词语，所述语言偏好模型指示针对所述目标受众词汇的词语偏好概率；以及

向所述词语生成模型提供所选择的所述下一词语的反馈，所述反馈使得所述词语生成模型基于下一生成的词语的所述反馈来修改针对所述目标概要的后续词语的选择的所述关注分布。

2.根据权利要求1所述的方法，其中为所述目标概要选择所述下一词语还包括：

基于所述关注分布来选择由所述词语生成模型生成的至少一个词语；以及

用由所述语言偏好模型识别的所述目标受众词汇的较偏好的相似词语来替换所选择的所述至少一个词语。

3.根据权利要求1所述的方法，其中为所述目标概要选择所述下一词语还包括：用所述语言偏好模型的对应词语偏好概率来修改所述关注分布中的所述词语的所述选择概率值。

4.根据权利要求1所述的方法，其中为所述目标概要选择所述下一词语还包括：用由所述语言偏好模型标识的较偏好的相似词语来替换所述关注分布中的词语。

5.根据权利要求1所述的方法，其中所述语言偏好模型是使用对包括所述目标受众词汇的语料库的目标受众训练数据的机器学习而被训练的。

6.根据权利要求5所述的方法，其中所述词语偏好概率基于所述目标受众训练数据中的候选词语和相似词语的使用频率，来指示所述候选词语和所述相似词语之间的相对偏好。

7.根据权利要求1所述的方法，其中所述词语生成模型包括使用一种或多种机器学习技术训练的提取概要算法或抽象概要算法。

8.根据权利要求7所述的方法，其中所述词语生成模型能够被利用用于通过使用与相应目标受众词汇相对应的不同的相应语言偏好模型，来生成被调整到多个不同目标受众词汇的目标概要，而无需重新训练所述词语生成模型。

9.根据权利要求1所述的方法，其中所述反馈在所述概要的生成期间被提供给所述词语生成模型。

10.一种在数字媒体环境中由至少一个计算设备实现的方法，所述数字媒体环境用于使用目标受众训练数据来训练语言偏好模型，所述方法包括：

由所述至少一个计算设备获得目标受众训练数据，所述目标受众训练数据包括针对目标受众词汇的文本内容的语料库；以及

使用一种或多种机器学习技术来训练所述语言偏好模型，以基于所述目标受众词汇中的词语使用的频率来学习所述目标受众词汇的词语偏好概率。

11.根据权利要求10所述的方法，其中使用一种或多种机器学习技术来训练所述语言偏好模型以学习所述目标受众词汇的词语偏好概率还包括：

标识所述目标受众训练数据中的词语；

标识所述词语的一个或多个同义词；以及

针对每个词语-同义词对，基于所述目标受众词汇中的所述词语和所述同义词的相应频率，针对相应的词语-同义词对生成所述词语偏好概率。

12.根据权利要求11所述的方法，其中如果所述同义词的所述频率大于所述目标受众训练数据中的所述词语的所述频率，则所述词语-同义词对的所述词语偏好概率指示所述同义词比所述词语更被偏好。

13.根据权利要求11所述的方法，其中所述词语偏好概率是针对所述词语的多个词义而被生成的。

14.根据权利要求10所述的方法，还包括：利用所述语言偏好模型的所确定的所述词语偏好概率，将由词语生成模型生成的文本内容的概要调整到所述语言偏好模型的给定目标受众词汇。

15.一种在数字媒体环境中实现的***，所述数字媒体环境用于生成被调整到目标受众词汇的文本内容的目标概要，所述***包括：

至少一个处理器；

存储器，具有存储在其上的计算机可读指令，所述计算机可读指令由所述处理器可执行以实现用于执行操作的目标概要模块，所述操作包括：

通过词语生成模型生成文本内容的目标概要；以及

在所述概要的生成期间，使用语言偏好模型将由所述词语生成模型生成的所述目标概要的所述词语调整到目标受众词汇，所述语言偏好模型使用对目标受众训练数据的机器学习而被训练，

以学习相似词语之间的所述目标受众词汇的词语偏好，所述目标受众训练数据包括所述目标受众词汇的文本的语料库。

16.根据权利要求15所述的***，其中所述操作还包括：在所述概要的生成期间，向所述词语生成模型提供所述概要的每个生成的词语的反馈，所述反馈被所述词语生成模型利用以选择生成所述目标概要的后续词语。

17.根据权利要求15所述的***，其中调整所述目标概要的所述词语包括：用由所述语言偏好模型标识的较偏好的同义词来替换文本内容的一个或多个词语。

18.根据权利要求15所述的***，其中所述语言偏好模型包括词语偏好概率，所述词语偏好概率基于所述目标受众训练数据中的给定词语和相似词语的使用频率，来指示所述给定词语和所述相似词语之间的相对偏好。

19.根据权利要求15所述的***，其中所述词语生成模型包括使用一种或多种机器学习技术训练的提取概要算法或抽象概要算法。

20.根据权利要求19所述的***，其中所述词语生成模型能够被利用用于通过使用与相应目标受众词汇相对应的不同的相应语言偏好模型，来生成被调整到多个不同目标受众词汇的目标概要，而无需重新训练所述词语生成模型。