CN109710915A

CN109710915A - 复述语句生成方法及装置

Info

Publication number: CN109710915A
Application number: CN201711015214.6A
Authority: CN
Inventors: 蒋欣; 尚利峰; 李航; 李梓超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2019-05-03
Anticipated expiration: 2037-10-26
Also published as: US11586814B2; CN109710915B; WO2019080648A1; US20200250377A1

Abstract

本申请提供了一种复述语句生成方法及装置，旨在提高生成的复述语句的准确性。该方法包括：获取第一语句；根据第一语句和复述生成模型生成m条第二语句，第二语句与第一语句之间存在复述关系；根据复述匹配模型确定m条第二语句与第一语句的匹配度，一条第二语句与第一语句匹配度越高，则该第二语句与第一语句之间互为复述的概率越大；根据m条第二语句与第一语句的匹配度在m条第二语句中确定n条第二语句，n条第二语句为第一语句的复述语句，m为大于0的整数，n为大于0小于等于m的整数；复述生成模型和复述匹配模型均由深度神经网络构成，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习训练得到。本申请涉及自然语言处理研究领域。

Description

复述语句生成方法及装置

技术领域

本申请涉及自然语言处理研究领域，尤其涉及一种复述语句生成方法及装置。

背景技术

所谓复述，就是对相同语义的不同表达方式，是自然语言中比较普遍的一个现象，它集中反映了语言的灵活性和多样性。复述研究的一大类即复述生成，复述生成在自然语言处理的诸多方向均有重要应用。目前，在生成一条语句的复述语句时，直接通过由复述平行语料训练得到的复述生成器生成该语句的复述语句，该种生成复述语句的方法准确性不高。

发明内容

本申请实施例提供了一种复述语句生成方法及装置，旨在提高生成的复述语句的准确性。

为达到上述目的，本申请实施例提供如下技术方案：

第一方面，提供了一种复述语句生成方法，该方法包括：获取第一语句；根据第一语句和复述生成模型生成m条第二语句，第二语句与第一语句之间存在复述关系；根据复述匹配模型确定m条第二语句与第一语句的匹配度，一条第二语句与第一语句匹配度越高，则该第二语句与第一语句之间互为复述的概率越大；根据m条第二语句与第一语句的匹配度在m条第二语句中确定n条第二语句，n条第二语句为第一语句的复述语句，其中，m为大于0的整数，n为大于0小于等于m的整数；其中，复述生成模型和复述匹配模型均由深度神经网络构成，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习训练得到。第一方面提供的方法，一方面，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习训练得到，强化学习的特点即在于能够使得模型进行改进，在本申请中，在对复述生成模型进行强化学习的过程中可以不断的改进复述生成模型，使得复述生成模型生成正确的复述语句的趋势增强，从而使得复述生成模型能够更加准确的生成第一语句的复述语句，即生成的m条第二语句为第一语句的复述语句的概率更大，另一方面，复述语句生成装置可以先根据复述生成模型生成m条第二语句，再根据复述匹配模型在m条第二语句中确定出n条第二语句，通过复述匹配的过程，使得n条第二语句为第一语句的复述语句的概率更大，从而增强生成的复述语句的准确性。

在一种可能的设计中，奖励为复述匹配模型确定的第一输入语句和第一输出语句的匹配度，第一输入语句为复述生成模型的输入语句，第一输出语句为复述生成模型根据第一输入语句生成的语句，第一输入语句和第一输出语句之间存在复述关系。该种可能的实现方式，复述生成模型根据复述匹配模型反馈的奖励调整其模型参数，依靠这种机制，不断训练和调整复述生成模型中的模型参数，能够使得复述生成模型更加准确和可控的生成复述语句。

在一种可能的设计中，复述生成模型为根据策略梯度算法对复述生成模型进行强化学习后得到的模型，策略梯度算法的输入包括第一输入语句、第一输出语句和奖励。

在一种可能的设计中，复述生成模型包括主生成模型，主生成模型为根据复述平行语料训练得到的模型，复述平行语料包括至少一个复述语句对，复述语句对包括两个互为复述的语句。

在一种可能的设计中，复述生成模型还包括辅生成模型，复述生成模型为将主生成模型和辅生成模型融合后得到的模型，辅生成模型为根据复述生成规则集合生成的模型，复述生成规则集合包括至少一个复述生成规则。该种可能的实现方式，复述生成模型在概率模型中融合了复述生成规则，同时有效利用复述平行语料和复述生成规则，从而使得复述生成模型生成的第二语句更加的准确。

在一种可能的设计中，主生成模型和辅生成模型采用注意力机制融合，注意力机制用于在复述生成模型生成m条第二语句的过程中动态调整第一语句中的词汇和复述生成规则的关注度，关注度通过注意力向量集合表征。该种可能的实现方式，通过采用注意力机制融合主生成模型和辅生成模型得到复述生成模型，可以使得复述生成模型仍然是一个机器学习模型，可以进行端到端的训练，从而能够简化***的复杂度。并且复述生成模型能够数据驱动，并同时融合复述生成规则知识，有利于提升复述生成的训练效率和使用效果。

在一种可能的设计中，注意力向量集合包括与至少一个复述生成规则一一对应的注意力向量，第一复述生成规则对应的注意力向量根据第一复述语句对计算得到，第一复述语句对满足第一复述生成规则，第一复述生成规则为至少一个复述生成规则中的任意一个复述生成规则。

在一种可能的设计中，复述匹配模型包括主匹配模型，主匹配模型为根据复述匹配语料训练得到的模型，复述匹配语料包括至少一个匹配语句对，匹配语句对包括两个互为复述或者不互为复述的语句。

在一种可能的设计中，复述匹配模型还包括至少一个辅匹配模型，复述匹配模型为将主匹配模型和至少一个辅匹配模型进行融合得到的模型；辅匹配模型为根据复述匹配规则生成的模型。该种可能的实现方式，在复述匹配规则多样化的情况下，可以从不同的维度衡量两条语句匹配的程度。

第二方面，提供了一种复述语句生成装置，该装置具有实现第一方面提供的任意一种方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的单元。该装置可以以芯片的产品形态存在。

第三方面，提供了一种复述语句生成装置，包括：存储器和处理器；存储器用于存储计算机执行指令，处理器执行存储器存储的计算机指令以执行以下动作：获取第一语句；根据第一语句和复述生成模型生成m条第二语句，第二语句与第一语句之间存在复述关系；根据复述匹配模型确定m条第二语句与第一语句的匹配度，一条第二语句与第一语句匹配度越高，则该第二语句与第一语句之间互为复述的概率越大；根据m条第二语句与第一语句的匹配度在m条第二语句中确定n条第二语句，n条第二语句为第一语句的复述语句，其中，m为大于0的整数，n为大于0小于等于m的整数；其中，复述生成模型和复述匹配模型均由深度神经网络构成，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习训练得到。该装置可以以芯片的产品形态存在。

在一种可能的设计中，奖励为复述匹配模型确定的第一输入语句和第一输出语句的匹配度，第一输入语句为复述生成模型的输入语句，第一输出语句为复述生成模型根据第一输入语句生成的语句，第一输入语句和第一输出语句之间存在复述关系。

在一种可能的设计中，复述生成模型还包括辅生成模型，复述生成模型为将主生成模型和辅生成模型融合后得到的模型，辅生成模型为根据复述生成规则集合生成的模型，复述生成规则集合包括至少一个复述生成规则。

在一种可能的设计中，主生成模型和辅生成模型采用注意力机制融合，注意力机制用于在复述生成模型生成m条第二语句的过程中动态调整第一语句中的词汇和复述生成规则的关注度，关注度通过注意力向量集合表征。

在一种可能的设计中，复述匹配模型还包括至少一个辅匹配模型，复述匹配模型为将主匹配模型和至少一个辅匹配模型进行融合得到的模型；辅匹配模型为根据复述匹配规则生成的模型。

第四方面，提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行第一方面提供的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面提供的任意一种方法。

第二方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种复述语句生成装置的硬件结构示意图；

图2为本申请实施例提供的一种复述语句生成方法的流程图；

图3为本申请实施例提供的一种复述生成模型和复述匹配模型的训练及应用过程示意图；

图4为本申请实施例提供的一种复述生成模型和复述匹配模型生成复述语句的过程示意图；

图5为本申请实施例提供的一种复述匹配模型向复述生成模型反馈奖励的示意图；

图6为本申请实施例提供的一种复述生成模型和复述匹配模型的连接示意图；

图7为本申请实施例提供的一种生成第二语句中的词汇的示意图；

图8为本申请实施例提供的又一种生成第二语句中的词汇的示意图；

图9为本申请实施例提供的一种复述匹配的过程示意图；

图10为本申请实施例提供的一种复述语句生成装置的组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“多个”是指两个或多于两个。

为了便于理解本申请，以下对与本申请相关的内容做简单介绍。

复述(paraphrase)：复述是指对于相同语义的不同表达。例如，“太阳到地球的距离是多少”、“太阳离地球有多远”、“从地球到太阳有多少公里”、“地球距离太阳多少千米”、“地球与太阳相距多远”、“地日距离是多少”等句子都表达了询问太阳与地球之间的距离的相同语义，则他们互为“复述”。复述是自然语言中的普遍现象，集中反映了自然语言的复杂性和多样性。

复述分为不同的层次：

词汇级别，即通常所说的同义词。例如，“番茄”和“西红柿”。

短语级别，例如，“北京大学”和“北大”，“考虑(consider)”和“将…考虑在内(take…into consideration)”。

句子级别，例如，“姚明的身高是多少？”和“姚明有多高？”，“梅西为西班牙甲级联赛的巴塞罗那队踢球。(Messi plays for FC Barcelona in the Spanish PrimeraLeague.)”和“梅西是西班牙甲级联赛的巴塞罗那队的球员。(Messi is a player ofBarca in La Liga.)”。

复述的识别(paraphrase identification)：判断两句话是否是复述关系，即两句话的意思是否匹配。例如判断“太阳到地球的距离是多少”和“地球与太阳相距多远”是复述关系，而“太阳到地球的距离是多少”和“月亮到地球的距离是多少”不是复述关系。

复述的生成(paraphrase generation)：给一句话，生成这句话的(若干)复述语句。例如，给出“姚明的身高是多少？”，生成“姚明有多高？”，“姚明的个子多高？”等。

由于复述在自然语言中的普遍性，自然语言处理的很多领域里都涉及到复述的识别和生成问题，这使得复述研究有着重要的应用。例如，可以应用在机器翻译、问答***(question answering system)、信息抽取、信息检索和自动摘要等领域中。

在机器翻译中，可以使用复述生成技术，对待翻译进行同义改写，以生成更容易翻译的句子。例如，将灵活而不规范的口语复述为规范的句子，从而使翻译得到更好的结果；其次，复述的生成技术，也可以缓解机器翻译***数据稀疏的问题，即通过复述生成增加翻译的训练语料。

在问答***中，可以使用复述生成技术将问句进行同义扩展，即生成与原问句意义相同的多个问句，从而解决相同问题不同表达的问题，提升问答***的召回率。具体的实现方式有两种，一种是将用户提交给问答***的问题进行在线改写，然后都提交给问答***召回结果；另一种将知识库中的部分文本内容进行复述扩展，并加入知识库。

在信息抽取中，复述生成技术能够帮助自动生成大量的抽取模板，从而提高抽取***的性能。

在信息检索中，与问答***类似，复述生成技术可以用来进行查询词的改写和扩展，从而优化搜索的质量。

在自动摘要中，复述生成技术可以用来帮助计算句子的相似度，从而更好的进行句子聚类、选择等；其次，与在机器翻译中的应用类似，可以帮助改进自动摘要的评价。

本申请实施例主要提供了一种生成复述语句的方法，具体过程参见下文中的相应部分的描述，如图1所示，本申请实施例还提供了一种复述语句生成装置10的硬件结构示意图，该复述语句生成装置10包括至少一个处理器101，通信总线102，存储器103以及至少一个通信接口104。

处理器101可以是一个通用中央处理器(central processing unit，简称CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，简称ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线102可包括一通路，在上述组件之间传送信息。

通信接口104，可以为任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，简称RAN)，无线局域网(wireless localarea networks，简称WLAN)等。

存储器103可以是只读存储器(read-only memory，简称ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，简称RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，简称EEPROM)、只读光盘(compact disc read-only memory，简称CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器103用于存储执行本申请方案的应用程序代码，并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码，从而实现下文中本申请实施例提供的方法。

在具体实现中，作为一种实施例，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在具体实现中，作为一种实施例，复述语句生成装置10可以包括多个处理器，例如图1中的处理器101和处理器108。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，复述语句生成装置10还可以包括输出设备105和输入设备106。

本申请实施例提供了一种复述语句生成方法，如图2所示，该方法包括：

201、获取第一语句。

本申请实施例提供的方法的执行主体可以为复述语句生成装置，该装置可以为具备计算和处理能力的电子设备，例如，该装置可以为计算机，移动设备(例如，手机、平板电脑)等。

其中，复述语句生成装置获取到的第一语句可以为用户输入的或者复述语句生成装置从存储器中读出的或者其他设备向复述语句生成装置发送的，当然，也可以为通过其他方式获取到的。

202、根据第一语句和复述生成模型生成m条第二语句，第二语句与第一语句之间存在复述关系。

具体的，可以将第一语句作为复述生成模型的输入，则复述生成模型会输出m条第二语句。其中，复述生成模型为通过训练得到的模型，用于生成一条语句的若干条与该条语句具备复述关系的语句。需要说明的是，第一语句与第二语句的复述关系可以强也可以弱，第一语句与第二语句的复述关系越强，第一语句和第二语句互为复述的概率越大。

203、根据复述匹配模型确定m条第二语句与第一语句的匹配度，一条第二语句与第一语句匹配度越高，则该第二语句与第一语句之间互为复述的概率越大。

其中，复述生成模型和复述匹配模型均由深度神经网络构成，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习(reinforcement learning)训练得到。

204、根据m条第二语句与第一语句的匹配度在m条第二语句中确定n条第二语句，n条第二语句为第一语句的复述语句。

其中，m为大于0的整数，n为大于0小于等于m的整数。

复述匹配模型为通过训练得到的模型，用于评价两条语句的匹配度，匹配度越高，两条语句互为复述的概率越大。需要说明的是，训练复述生成模型和/或复述匹配模型的设备可以为复述语句生成装置，也可以不为复述语句生成装置，而为其他设备，例如，复述生成模型和/或复述匹配模型的训练在服务器集群上训练，然后将模型拿到移动设备(如智能手机)上使用。复述生成模型和/或复述匹配模型可以在其他设备上训练完成后，以硬件(例如，芯片)和/或软件(例如，应用程序)形式安装或运行在复述语句生成装置上。

参见图3，复述生成模型和复述匹配模型可以通过训练得到(即图3中所示的训练阶段)，训练完成后可以用于生成n条第二语句(即图3中所示的应用阶段)，复述生成模型可以为根据复述匹配模型反馈的奖励通过强化学习训练得到。图3中所示的参数的含义可以参见下文。

在具体实现时，可以通过复述匹配模型将m条第二语句中的每条第二语句与第一语句进行匹配，复述匹配模型可以输出m条第二语句中的每条第二语句与第一语句的匹配度，在n的值确定的情况下，复述语句生成装置可以确定m条第二语句中的n条与第一语句匹配度最大的语句为第一语句的复述语句；也可以设置一个预设阈值，该情况下，复述语句生成装置可以确定m条第二语句中的与第一语句的匹配度大于或等于预设阈值的第二语句为第一语句的复述语句，该情况下，m条第二语句中的与第一语句的匹配度大于或等于预设阈值的第二语句的条数有多少，n的值即为多少。

其中，预设阈值可以根据实际的应用场景进行确定，示例性的，预设阈值可以为0.4或0.6。

示例性的，参见图4，若第一语句为“太阳到地球的距离是多少”，则复述生成模型根据第一语句可以生成4条第二语句(即m条第二语句)，分别为“地日距离是多少”、“太阳和月球的距离是多少”、“太阳与地球相距多少公里”和“太阳距地球有多远”。复述匹配模型可以计算每条第二语句与第一语句的匹配度，假设这4条第二语句与第一语句的匹配度分别为-0.1、-0.3、0.5和0.8，若预设阈值为0.4，则复述语句生成装置最终将“太阳与地球相距多少公里”和“太阳距地球有多远”这两条第二语句(即n条第二语句)确定为第一语句的复述语句。

本申请实施例提供的方法，一方面，复述生成模型为根据复述匹配模型反馈的奖励通过强化学习训练得到，强化学习的特点即在于能够使得模型进行改进，在本申请中，在对复述生成模型进行强化学习的过程中可以不断的改进复述生成模型，使得复述生成模型生成正确的复述语句的趋势增强，从而使得复述生成模型能够更加准确的生成第一语句的复述语句，即生成的m条第二语句为第一语句的复述语句的概率更大，另一方面，复述语句生成装置可以先根据复述生成模型生成m条第二语句，再根据复述匹配模型在m条第二语句中确定出n条第二语句，通过复述匹配的过程，使得n条第二语句为第一语句的复述语句的概率更大，从而增强生成的复述语句的准确性。

可选的，奖励为复述匹配模型确定的第一输入语句和第一输出语句的匹配度，第一输入语句为复述生成模型的输入语句，第一输出语句为复述生成模型根据第一输入语句生成的语句，第一输入语句和第一输出语句之间存在复述关系。

上述反馈机制，需要借助强化学习的方法进行训练。这里，复述生成模型相当于主体(Agent)，复述匹配模型构成了环境(Environment)。复述生成模型生成复述语句可以看作一系列的动作(Action)，复述匹配模型的匹配结果则作为这些动作的奖励(Reward)，并将其反馈给复述生成模型。在这种机制下，使用强化学习方法对复述生成模型进行学习，使得复述生成模型能得到更高的回报(Return)，即生成的复述语句与输入语句可以被复述匹配模型判别的匹配度更高。

需要说明的是，复述匹配模型向复述生成模型反馈的奖励一般有多个，复述生成模型可以依次根据每个奖励对复述生成模型进行强化学习。复述生成模型进行强化学习的过程可以在训练阶段完成，也可以在应用阶段完成，或者，复述生成模型在训练阶段进行强化学习后，还可以在应用阶段进一步进行强化学习。示例性的，在应用阶段，复述匹配模型可以将根据第一语句和每个第二语句确定的奖励向复述生成模型反馈，复述生成模型根据复述匹配模型反馈的奖励对复述生成模型进行强化学习。

复述生成模型根据复述匹配模型反馈的奖励调整其模型参数，当奖励越大时，根据奖励进行强化学习后的复述生成模型根据第一输入语句生成第一输出语句的概率越大。依靠这种机制，不断训练和调整复述生成模型中的模型参数，能够使得复述生成模型更加准确和可控的生成复述语句。

可选的，复述生成模型为根据策略梯度算法对复述生成模型进行强化学习后得到的模型，策略梯度算法的输入包括第一输入语句、第一输出语句和奖励。

示例性的，策略梯度算法可以为REINFORCE算法，下文中以该算法为例，对复述生成模型根据复述匹配模型反馈的奖励进行强化学习的过程作示例性说明。

将复述生成模型记为：其中各个参数的含义参见下文。参见图5(附图中的标号为步骤的先后顺序)，复述生成模型对于输入语句x，生成复述语句y，复述匹配模型根据x和y给出奖励：f_reward(x,y)，f可以是一个神经网络，具体可以是一个深度神经网络。根据REINFORCE算法，结合了奖励的复述生成模型的梯度的计算方式为：即将奖励直接乘在梯度的值上，由该公式可以看出，策略梯度算法的输入包括x、y和f_reward(x,y)。为梯度向量，其中包含了复述生成模型中的每个参数对应的梯度，复述生成模型可以根据对模型参数进行调整，得到强化学习后的复述生成模型。在对复述生成模型进行强化学习之后，复述生成模型可以提升或降低根据x生成y的概率。在强化学习的机制下，复述生成模型能够进一步优化，使得生成的复述语句更符合复述匹配模型的要求，也更加贴近实际应用中的目标，从而更加准确和可控。

可选的，复述生成模型包括主生成模型，主生成模型为根据复述平行语料训练得到的模型，复述平行语料包括至少一个复述语句对，复述语句对包括两个互为复述的语句。

其中，复述平行语料可以表示为表示复述平行语料中共有E(E为大于0的整数)个复述语句对，第e(e为大于0小于等于E的整数)个复述语句对可以表示为{x^(e)，y^(e)}，x^(e)和y^(e)均为文字序列，且x^(e)和y^(e)互为复述。示例性的，当e＝1时，{x⁽¹⁾,y⁽¹⁾}可以为{太阳到地球的距离是多少，太阳离地球有多远}。

基于该复述平行语料，可以训练得到主生成模型，主生成模型为一个序列生成模型，主生成模型可以表示为其中，θ为主生成模型中的参数。在根据复述平行语料训练得到主生成模型之后，θ即为确定的值，那么，对于给定的输入序列x＝{x₁,x₂,...,x_I}，可以通过P(y|x；θ)生成至少一个输出序列y＝{y₁,y₂,...,y_J}，输入序列中的词汇为组成第一语句的词汇，每个输出序列中的词汇可以组成一个第二语句，其中，I为第一语句中的词汇的个数，J为第二语句中的词汇的个数，y_j表示第二语句中的第j(j为大于0小于等于J的整数)个词汇，I和J均为大于0的整数。示例性的，在训练主生成模型时，可以采用反向传播(back propagation)算法进行训练。

示例性的，若第一语句为“太阳到地球的距离是多少”，则主生成模型的输入序列x＝{太阳，到，地球，的，距离，是，多少}，通过P(y|x；θ)生成的序列y＝{太阳，离，地球，有，多，远}，则根据主生成模型生成的第二语句为“太阳离地球有多远”。

可选的，主生成模型为序列到序列(Sequence-to-sequence)模型，具体可以为编码器-解码器模型。

本申请实施例中以主生成模型为编码器-解码器模型为例对本申请实施例提供的方法作示例性说明。其中，编码器和解码器可以均为递归神经网络(recurrent neuralnetwork，简称RNN)模型，还可以均为卷积神经网络(convolutional neural network，简称CNN)模型，还可以编码器为CNN模型，解码器为RNN模型，或者，编码器和/或解码器还可以为其他自定义架构的神经网络模型。主生成模型中的编码器和解码器可以称为生成编码器和生成解码器。

可选的，复述生成模型还包括辅生成模型，复述生成模型为将主生成模型和辅生成模型融合后得到的模型，辅生成模型为根据复述生成规则集合生成的模型，复述生成规则集合包括至少一个复述生成规则。

其中，复述生成规则集合可以表示为表示共有K(K为大于0的整数)个复述生成规则，r_k表示第k(k为大于0小于等于K的整数)个复述生成规则，p_k→p′_k表示复述生成规则为将p_k改写为p′_k，p_k和p′_k互为复述，p_k表示复述生成规则的条件，p′_k表示复述生成规则的结果。复述生成规则可以人为拟定。

示例性的，若一个复述生成规则为：“距离是多少”→“相距多远”。该情况下，p为“距离是多少”，p′为“相距多远”。若输入语句为“北京和上海距离是多少”，由于该输入语句能满足复述生成规则的条件p，则可以根据该复述生成规则生成输入语句的复述语句“北京和上海相距多远”。若输入语句为“北京和上海的距离为多少”，由于该输入语句不满足复述生成规则的条件p，则无法根据该复述生成规则生成输入语句的复述语句。

在本申请中，根据复述生成规则集合生成的辅生成模型，可以将复述生成规则集合中的复述生成规则中的两个短文本p和p′进行编码得到一系列向量，用于计算复述生成规则对应的注意力向量，因此，辅生成模型中包括编码器和解码器，下文中称为规则编码器和规则解码器，规则编码器和规则解码器的类型可以参见上文中的生成解码器和生成编码器的类型。

基于上述描述，复述生成模型可以表示为该情况下，复述生成模型中的θ包括主生成模型中的生成编码器和生成解码器中的参数，还包括辅生成模型中的规则编码器和规则解码器中的参数。该模型仍然是一个机器学***行语料和复述生成规则，从而使得复述生成模型生成的第二语句更加的准确。

示例性的，参见图6，一种可实现的方式，生成编码器、规则编码器和规则解码器均与生成解码器相连接，可选的，生成编码器还可以与规则编码器和规则解码器相连接，从而形成完整的可微分的复述生成模型，并且复述生成模型能够进行统一的、端到端的训练。

本申请实施例中的复述生成模型的训练中能够融合复述生成规则，并可以进行端到端的训练，从而能够简化***的复杂度。复述生成模型能够数据驱动，并同时融合复述生成规则知识，有利于提升复述生成的训练效率和使用效果。

可选的，主生成模型和辅生成模型采用注意力机制(Attention mechanism)融合，注意力机制用于在复述生成模型生成m条第二语句的过程中动态调整第一语句中的词汇和复述生成规则的关注度，关注度通过注意力向量集合表征。

可选的，注意力向量集合包括与至少一个复述生成规则一一对应的注意力向量，第一复述生成规则对应的注意力向量根据第一复述语句对计算得到，第一复述语句对满足第一复述生成规则，第一复述生成规则为至少一个复述生成规则中的任意一个复述生成规则。

注意力向量集合中还可以包括第二语句中的每个词汇对应的注意力向量。

注意力机制为一种通过计算神经网络模型中的各个部分的注意力权重、并合并成注意力向量，从而在神经网络模型中动态控制对神经网络模型中各个部分或某一部分的关注度的机制。在本申请实施例中，在生成第二语句中的第j个词汇时，可以通过计算得到的第一语句中的每个词汇的注意力权重，并合并成第j个词汇对应的注意力向量和复述生成规则对应的注意力向量计算生成第j个词汇的概率，计算过程中结合了对第一语句中的每个词汇的关注度和对每个复述生成规则的关注度。

需要说明的是，复述生成模型可以依次生成第二语句中的第1至第J个词汇，将第1至第J个词汇进行串联得到第二语句。

具体的，生成编码器用于计算第一语句中的每个词汇的隐藏状态变量(hiddenstate)；生成解码器用于计算第二语句中的第j个词汇对应的注意力向量和与复述生成规则集合中的复述生成规则一一对应的注意力向量，并根据与复述生成规则集合中的复述生成规则一一对应的注意力向量、第二语句中的第j-1个词汇、第二语句中的第j-1个词汇的隐藏状态变量和第二语句中的第j个词汇对应的注意力向量计算第二语句中的第j个词汇的生成概率。

示例性的，参见图7，若第一语句为“太阳到地球的距离是多少”，则复述生成模型中的生成编码器的输入序列x＝{太阳，到，地球，的，距离，是，多少}，输入序列中的第i个词记为x_i，i为大于0小于等于I的整数，输入序列中的每个词汇可以对应一个隐藏状态变量，x_i对应的隐藏状态变量记为h_i，h_i＝f_h(x_i,h_i-1)。一种简单的实现的方式是f_h(x_i,h_i-1)＝φ(Ux_i+Wh_i-1)，其中φ是一个sigmoid函数，U和W为函数中的参数。示例性的，实际中，往往使用更复杂的长短期记忆网络(longshort-term memory，简称LSTM)或者门限递归单元(gated recurrent unit，简称GRU)来对f进行建模。

本申请在复述生成模型中引入了注意力机制，具体的，在生成解码器生成第二语句中的第j个词时，计算第j个词对应的注意力向量其中是注意力权重(attention weights)，注意力权重α_ji具有一定的物理意义，即表示生成解码器输出第j个词时，对输入序列中的第i个词的关注度。计算e_ji的一种通常的方法为：e_ji＝v^Ttanh(Ws_j-1+Uh_i)，其中v,W,U为参数矩阵。那么，其中，s_j-1为第二语句中的第j-1个词汇的隐藏状态变量，v^T是指v的转置矩阵。由此可知，第二语句中的每个词汇对应的注意力向量的计算需要用到第一语句中的全部词汇的隐藏状态变量。

在复述生成模型中未引入注意力机制之前，生成解码器可以根据第二语句中的J个词汇的隐藏状态变量确定第二语句。将第二语句中的J个词汇的隐藏状态变量记为{s₁,s₂,...,s_J}，第二语句中的第j个词的隐藏状态变量的计算方法可以为s_j＝f_s(y_j-1,s_j-1)。第j个词输出的概率为p(y_j|y₁,...,y_j-1)＝g_s(s_j,y_j-1)＝φ(Ey_j-1+W_os_j)，其中，g为一个神经网络，具体可以为一个深度神经网络，E和W_o为其中的参数，当第二语句中的每个隐藏状态变量确定后，生成解码器能够不断产生词，并最终构成一个序列(即构成第二语句的词汇组成的序列)。

在复述生成模型中引入注意力机制之后，第二语句中的第j个词的隐藏状态变量可以根据第二语句中的第j个词的注意力向量确定，即之前计算第二语句中的第j个词的隐藏状态变量的计算方法可以修改为：s_j＝f_s(y_j-1,s_j-1,c_j)，一种实现方式是s_j＝f_s(y_j-1,s_j-1,c_j)＝φ(Uy_j-1+Ws_j-1+Cc_j)，其中，U、W和C为其中的参数；生成解码器生成第j个词的概率变为：p(y_j|y₁,...,y_j-1)＝g_s(s_j,y_j-1,c_j)＝φ(Ey_j-1+W_os_j+C_oc_j)，其中，E、W_o和C_o为其中的参数。

本申请实施例中还引入了辅生成模型，生成解码器还可以计算每个复述生成规则对应的注意力向量，该情况下，生成解码器可以根据与复述生成规则集合中的复述生成规则一一对应的注意力向量、第二语句中的第j-1个词汇、第二语句中的第j-1个词汇的隐藏状态变量和第二语句中的第j个词汇的注意力向量采用神经网络模型计算第二语句中的第j个词汇的生成概率，示例性的，神经网络模型可以为多层感知机(multilayerperceptron，简称MLP)。

示例性的，参见图7，当生成解码器需要计算在第二语句中输出“太阳”和“到”之后输出“地球”的概率时，若复述生成模型中结合了两个复述生成规则，其对应的注意力向量分别为c'₁和c'₂，则生成解码器可以根据“离”、s₂、c₃、c'₁和c'₂计算在第二语句中输出“太阳”和“到”之后输出“地球”的概率。

需要说明的是，生成解码器可以先在词库中确定第二语句中的第j个词汇，再计算第j个词汇的生成概率，当该概率大于某个值(例如，0.5或0.6)时，可以确定该词汇可以作为第二语句的第j个词汇，否则，确定该词汇不为第二语句的第j个词汇，该情况下，生成解码器可以在词库中确定其他词作为第二语句中的第j个词汇，再次计算该词汇的生成概率，直至确定出一个或多个第二语句的第j个词汇。

本申请实施例中提出了一种基于注意力机制的方案，使得主生成模型和辅生成模型能够融合，从而使得复述生成模型能够进行端到端的训练。

示例性的，参见图8，以下基于图8所示的示例对复述生成模型生成第二语句中的第3个词汇的过程作简单介绍：

11)计算c₃，计算方法可参见上文，此时注意力权重主要集中在“地球”两个词上。

12)使用辅生成模型中的规则编码器和规则解码器对复述生成规则中的文本p和p′进行编码得到一系列的向量，该一系列的向量包括文本p和p′中的词汇的隐藏状态变量，用于计算复述生成规则对应的注意力向量。

基于图8所示的示例，该示例中可以包括两个复述生成规则，分别为：“太阳到地球”→“太阳离地球”，“距离”→“相距”。则辅生成模型编码得到的第一个复述生成规则的向量包括：h_太阳，h_到，h_地球，s_太阳，s_离，s_地球；编码得到的第二个复述生成规则的向量包括：h_距离，s_相距。

13)计算c₃与规则编码器针对每个复述生成规则的编码结果的匹配权重。

针对第一个复述生成规则，计算c₃与h_太阳，h_到，h_地球的匹配权重，针对第二个复述生成规则，计算c₃与h_距离的匹配权重。

步骤13)在具体实现时，复述生成模型可以采用神经网络模型计算c₃与规则编码器针对每个复述生成规则的编码结果的匹配权重。示例性的，c₃与第一个复述生成规则的匹配权重为m₃₁＝φ(Mc₃+N(h_太阳+h_到+h_地球)/3)，c₃与第二个复述生成规则的匹配权重为m₃₂＝φ(Mc₃+Nh_距离)，其中M和N为参数矩阵。

此时，匹配权重主要集中在第一个复述生成规则上，即m₃₁值相对较大。

14)根据c₃和规则解码器针对每个复述生成规则的编码结果计算c'₁和c'₂。

针对第一个复述生成规则，根据c₃、s_太阳、s_离、s_地球计算c'₁，针对第二个复述生成规则，根据c₃、s_相距计算c'₂。示例性的，c₁′＝α_太阳s_太阳+α_离s_离+α_地球s_地球，其中α表示注意力权重。示例性的，计算方式为其中e_太阳＝v^Ttanh(Pc₃+Qs_太阳)，其中P和Q为参数矩阵。c'₂的计算方法同理，在此不再赘述。

此时，对于第一个复述生成规则，注意力权重主要集中在“地球”上，即α_地球值相对较大。

15)根据c₃与规则编码器针对每个复述生成规则的编码结果的匹配权重m₃₁和m₃₂，c₃、c'₁、c'₂、s₂和“离”计算“地球”的生成概率。

示例性的，计算“地球”的隐藏状态变量s₃＝φ(Uy₂+Ws₂+Cc₃+B(m₃₁c₁′+m₃₂c′₂)/2)，然后再计算出“地球”的生成概率p(y₃|y₁,y₂)＝φ(Ey₂+Fs₃+Gc₃)，其中U，W，C，B，E，F，G均为参数矩阵。

此时，“地球”的生成概率最大，即p(y_地球|y_太阳,y_离)概率最大。

可选的，复述匹配模型包括主匹配模型，主匹配模型为根据复述匹配语料训练得到的模型，复述匹配语料包括至少一个匹配语句对，匹配语句对包括两个互为复述或者不互为复述的语句。

其中，复述匹配语料可以表示为表示共有Q个匹配语句对，x^(q),z^(q)为一个匹配语句对，x^(q)和z^(q)均为文字序列，±1表示x^(q)和z^(q)是否构成复述，+1可以表示x^(q)和z^(q)构成复述，-1可以表示x^(q)和z^(q)不构成复述，当然，也可以+1表示x^(q)和z^(q)不构成复述，-1表示x^(q)和z^(q)构成复述。

通过复述匹配语料可以训练得到主匹配模型，主匹配模型可以表示为f_D(x,z；η)，其中η为主匹配模型中的参数，主匹配模型可以判断输入的两条语句构成复述的程度，即匹配度。

可选的，主匹配模型可以为CNN模型，还可以为其他自定义的神经网络模型。

本申请实施例中以主匹配模型为CNN模型为例对主匹配模型判断两条语句的匹配度的过程作示例性说明。

示例性的，参见图9，图9所示的为CNN模型的模型架构。具体的，对于每个输入语句(示例性的，参见图9，输入语句可以为“太阳到地球的距离是多少”和“地球和月球的距离远吗”)，先将输入语句中的每个词映射为词向量(word embedding)，再通过卷积(convolution)加池化(pooling)的计算方式，将输入语句转化为定长的向量表示。两条输入语句采用相同的处理计算方式，且共享相同参数。然后，将两条输入语句的向量合并(concatenate)，并通过一个MLP，得到对于两条输入语句匹配度的估计。将上述计算过程，总结为函数f_CNN(x,z；η)，其中η为模型中的参数，包括词向量参数、卷积核参数、MLP的参数。使用复述匹配语料作为训练集合，采用反向传播(Backpropagation)算法训练，可以训练得到该复述匹配模型。

上述计算过程中，对主匹配模型的一条输入语句x作卷积的一种计算方式为：其中表示对x作卷积后第p个窗口的第q个特征的值，k表示滑动窗口的长度，W^q和b_q为卷积计算中的参数，为用于表示x中的第p个词汇的向量的转置。池化的一种计算方式为求最大值g^q为第q个特征的池化后的值。这种卷积和池化的方式可以反复多次进行。对主匹配模型的其他输入语句作卷积的计算方式同样可以采用这种方式。

基于神经网络计算两句话匹配度的模型，称为深度匹配模型(deep matchingmodel)。深度匹配模型有很多种，上述只是其中一种实现方式。而其他的类似模型，也可以应用于本申请实施例提供的方法。

可选的，复述匹配模型还包括至少一个辅匹配模型，复述匹配模型为将主匹配模型和至少一个辅匹配模型进行融合得到的模型；辅匹配模型为根据复述匹配规则生成的模型。

可选的，复述匹配模型为将主匹配模型和至少一个辅匹配模型进行加权求和得到的模型。

其中，复述匹配规则集合可以表示为表示共有S(S为大于0的整数)个规则，f_s(x,z)表示第s(s为大于0小于等于S的整数)条规则，复述匹配规则可以理解为判断两句话是否满足复述要求的某个准则。

示例性的，复述匹配规则1可以为：当两条语句的编辑距离大于第一预设值时，判断这两条语句满足复述差异化的要求。该复述匹配规则可以使得这两条语句字面差别较大，避免两条语句过于雷同(例如“太阳到地球的距离是多少”和“太阳到地球距离是多少”)。两条语句的编辑距离可以表示为f₁(x,z)＝EditDistance(x,z)(即根据复述匹配规则1生成的辅匹配模型)，x和z为这两条语句。

复述匹配规则2可以为：当一条语句的复述语句与该条语句的语言模型概率得分差值大于第二预设值时，判断该条语句的复述语句满足复述流畅性的要求。该匹配规则可以使得该条语句的复述语句相比于该条语句更加简洁通顺或更容易被理解(例如，该条语句可以为“太阳到地球的距离是多少”，该条语句的复述语句可以为“太阳到地球多远”)。两条语句的语言模型概率得分差值可以表示为f₂(x,z)＝logP_LM(z)-logP_LM(x)(即根据复述匹配规则2生成的辅匹配模型)，其中，P_LM是指语言模型的概率得分，x为该条语句，z为该条语句的复述语句。

其中，第一预设值和第二预设值可以根据实际的应用场景进行确定。

将上述根据复述匹配规则确定的辅匹配模型与训练得到的主匹配模型融合，构成最终的复述匹配模型。示例性的，辅匹配模型和主匹配模型可以采用线性模型进行融合：f(x,z)＝w₀f_CNN(x,z；η)+w₁f₁(x,z)+w₂f₂(x,z)，其中w₀为主匹配模型对应的权重，w₁和w₂分别为两个辅匹配模型对应的权重，w₀、w₁和w₂可以人工设置也可以采用某种规则确定。在后续流程中，使用f(x,z)作为复述匹配模型。在本申请实施例中，该复述匹配模型能从语义相似度、字面变化程度、流畅度等多个维度衡量两条语句的匹配度。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是，上述复述语句生成装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对复述语句生成装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

示例性的，图10示出了上述实施例中所涉及的复述语句生成装置100的一种可能的结构示意图，该装置100包括处理单元1001和获取单元1002，还可以包括存储单元1003。处理单元1001用于对复述语句生成装置100的动作进行控制管理，例如，处理单元1001用于支持复述语句生成装置100执行图2所示的方法，和/或本申请实施例中所描述的其他过程中的复述语句生成装置100执行的动作。获取单元1002用于支持复述语句生成装置100获取输入语句(例如，第一语句或复述平行语料)，示例性的，获取单元1002可以为通信接口，该情况下，通信接口可以与其他设备进行通信获取输入语句。存储单元1003用于存储复述语句生成装置100的程序代码和数据。

其中，处理单元1001可以是处理器或控制器，获取单元1002可以是通信接口、收发器、收发电路或者复述语句生成装置中的读取数据的模块等，其中，通信接口是统称，可以包括一个或多个接口。存储单元1003可以是存储器。当处理单元1001为处理器，获取单元1002为通信接口，存储单元1003为存储器时，本申请实施例所涉及的复述语句生成装置可以为图1所示的复述语句生成装置10。其中，处理器101对复述语句生成装置10的动作进行控制管理，例如，处理器101用于支持复述语句生成装置10执行图2所示的方法，和/或本申请实施例中所描述的其他过程中的复述语句生成装置10执行的动作。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，简称SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种复述语句生成方法，其特征在于，所述方法包括：

获取第一语句；

根据所述第一语句和复述生成模型生成m条第二语句，所述第二语句与所述第一语句之间存在复述关系；

根据复述匹配模型确定所述m条第二语句与所述第一语句的匹配度，一条第二语句与所述第一语句匹配度越高，则该第二语句与所述第一语句之间互为复述的概率越大；

根据所述m条第二语句与所述第一语句的匹配度在所述m条第二语句中确定n条第二语句，所述n条第二语句为所述第一语句的复述语句，其中，m为大于0的整数，n为大于0小于等于m的整数；

其中，所述复述生成模型和所述复述匹配模型均由深度神经网络构成，所述复述生成模型为根据所述复述匹配模型反馈的奖励通过强化学习训练得到。

2.根据权利要求1所述的方法，其特征在于，所述奖励为所述复述匹配模型确定的第一输入语句和第一输出语句的匹配度，所述第一输入语句为所述复述生成模型的输入语句，所述第一输出语句为所述复述生成模型根据所述第一输入语句生成的语句，所述第一输入语句和所述第一输出语句之间存在复述关系。

3.根据权利要求2所述的方法，其特征在于，所述复述生成模型为根据策略梯度算法对所述复述生成模型进行强化学习后得到的模型，所述策略梯度算法的输入包括所述第一输入语句、所述第一输出语句和所述奖励。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述复述生成模型包括主生成模型，所述主生成模型为根据复述平行语料训练得到的模型，所述复述平行语料包括至少一个复述语句对，所述复述语句对包括两个互为复述的语句。

5.根据权利要求4所述的方法，其特征在于，所述复述生成模型还包括辅生成模型，所述复述生成模型为将所述主生成模型和所述辅生成模型融合后得到的模型，所述辅生成模型为根据复述生成规则集合生成的模型，所述复述生成规则集合包括至少一个复述生成规则。

6.根据权利要求5所述的方法，其特征在于，所述主生成模型和所述辅生成模型采用注意力机制融合，所述注意力机制用于在所述复述生成模型生成所述m条第二语句的过程中动态调整所述第一语句中的词汇和所述复述生成规则的关注度，所述关注度通过注意力向量集合表征。

7.根据权利要求6所述的方法，其特征在于，所述注意力向量集合包括与所述至少一个复述生成规则一一对应的注意力向量，第一复述生成规则对应的注意力向量根据第一复述语句对计算得到，所述第一复述语句对满足所述第一复述生成规则，所述第一复述生成规则为所述至少一个复述生成规则中的任意一个复述生成规则。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述复述匹配模型包括主匹配模型，所述主匹配模型为根据复述匹配语料训练得到的模型，所述复述匹配语料包括至少一个匹配语句对，所述匹配语句对包括两个互为复述或者不互为复述的语句。

9.根据权利要求8所述的方法，其特征在于，所述复述匹配模型还包括至少一个辅匹配模型，所述复述匹配模型为将所述主匹配模型和所述至少一个辅匹配模型进行融合得到的模型；所述辅匹配模型为根据复述匹配规则生成的模型。

10.一种复述语句生成装置，其特征在于，所述装置包括：

获取单元，用于获取第一语句；

处理单元，用于根据所述第一语句和复述生成模型生成m条第二语句，所述第二语句与所述第一语句之间存在复述关系；

所述处理单元，还用于根据复述匹配模型确定所述m条第二语句与所述第一语句的匹配度，一条第二语句与所述第一语句匹配度越高，则该第二语句与所述第一语句之间互为复述的概率越大；

所述处理单元，还用于根据所述m条第二语句与所述第一语句的匹配度在所述m条第二语句中确定n条第二语句，所述n条第二语句为所述第一语句的复述语句，其中，m为大于0的整数，n为大于0小于等于m的整数；

11.根据权利要求10所述的装置，其特征在于，所述奖励为所述复述匹配模型确定的第一输入语句和第一输出语句的匹配度，所述第一输入语句为所述复述生成模型的输入语句，所述第一输出语句为所述复述生成模型根据所述第一输入语句生成的语句，所述第一输入语句和所述第一输出语句之间存在复述关系。

12.根据权利要求11所述的装置，其特征在于，所述复述生成模型为根据策略梯度算法对所述复述生成模型进行强化学习后得到的模型，所述策略梯度算法的输入包括所述第一输入语句、所述第一输出语句和所述奖励。

13.根据权利要求10-12任一项所述的装置，其特征在于，所述复述生成模型包括主生成模型，所述主生成模型为根据复述平行语料训练得到的模型，所述复述平行语料包括至少一个复述语句对，所述复述语句对包括两个互为复述的语句。

14.根据权利要求13所述的装置，其特征在于，所述复述生成模型还包括辅生成模型，所述复述生成模型为将所述主生成模型和所述辅生成模型融合后得到的模型，所述辅生成模型为根据复述生成规则集合生成的模型，所述复述生成规则集合包括至少一个复述生成规则。

15.根据权利要求14所述的装置，其特征在于，所述主生成模型和所述辅生成模型采用注意力机制融合，所述注意力机制用于在所述复述生成模型生成所述m条第二语句的过程中动态调整所述第一语句中的词汇和所述复述生成规则的关注度，所述关注度通过注意力向量集合表征。

16.根据权利要求15所述的装置，其特征在于，所述注意力向量集合包括与所述至少一个复述生成规则一一对应的注意力向量，第一复述生成规则对应的注意力向量根据第一复述语句对计算得到，所述第一复述语句对满足所述第一复述生成规则，所述第一复述生成规则为所述至少一个复述生成规则中的任意一个复述生成规则。

17.根据权利要求10-16任一项所述的装置，其特征在于，所述复述匹配模型包括主匹配模型，所述主匹配模型为根据复述匹配语料训练得到的模型，所述复述匹配语料包括至少一个匹配语句对，所述匹配语句对包括两个互为复述或者不互为复述的语句。

18.根据权利要求17所述的装置，其特征在于，所述复述匹配模型还包括至少一个辅匹配模型，所述复述匹配模型为将所述主匹配模型和所述至少一个辅匹配模型进行融合得到的模型；所述辅匹配模型为根据复述匹配规则生成的模型。

19.一种复述语句生成装置，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机执行指令，所述处理器执行所述存储器存储的所述计算机执行指令，以使复述语句生成装置实现权利要求1-9中的任意一项权利要求提供的方法。