CN110688832A

CN110688832A - 一种评论生成方法、装置、设备及存储介质

Info

Publication number: CN110688832A
Application number: CN201910959216.3A
Authority: CN
Inventors: 赵鑫; 李军毅; 付瑞吉; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: Hebei Xunfei Institute Of Artificial Intelligence
Current assignee: Hebei Xunfei Institute Of Artificial Intelligence
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-14
Anticipated expiration: 2039-10-10
Also published as: CN110688832B

Abstract

本申请提供了一种评论生成方法、装置、设备及存储介质，其中，方法包括：获取目标对象的上下文信息，其中，目标对象的上下文信息包括目标对象的标识、购买目标对象的用户的标识和购买目标对象的用户对目标对象的评分；利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。本申请提供的评论生成方法利用评论生成模型能够自动生成对目标对象进行准确和全面评价的评论文本。

Description

一种评论生成方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种评论生成方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，越来越多的用户选择在电商网站上购买自己需要的物品或服务，用户对物品或服务的评论对商家和消费者两方的影响都很大。

可以理解的是，大多数消费者在针对物品或服务做出购买决策之前，通常会阅读针对物品或服务的用户评论，并且，消费者的购买行为会受评论内容的影响。另外，商家也会根据用户对已购物品或服务的评论调整服务方向。因此，优质的用户评论是帮助消费者发现产品质量和做出相应决策的重要信息源，也是帮助商家提升服务质量的催化剂。

编写一段语义丰富、语法结构正确的评论需要用户花费较多的时间和精力，然而，大多数用户并不愿意花较多的时间和精力对其购买的物品或服务进行评论，这导致用户评论并不能对产品或服务进行准确全面的评价，用户评论不能对产品或服务进行准确评价不利于商家提升服务质量，同时在一定程度上也影响潜在消费者的购买决策。

发明内容

有鉴于此，本申请提供了一种评论生成方法、装置、设备及存储介质，用以生成能够对目标对象进行准确评价的评论文本，其技术方案如下：

一种评论生成方法，包括：

获取目标对象的上下文信息，其中，所述上下文信息包括所述目标对象的标识、购买所述目标对象的用户的标识，所述用户对所述目标对象的评分；

利用预先建立的评论生成模型以及所述目标对象的上下文信息，生成针对所述目标对象的目标评论文本。

可选的，所述利用预先建立的评论生成模型以及所述目标对象的上下文信息，生成针对所述目标对象的目标评论文本，包括：

通过所述评论生成模型和所述目标对象的上下文信息，预测能够反映待生成的所述目标评论文本的整体内容走向的评论主题序列；

通过所述评论生成模型和所述评论主题序列，生成评论模板，其中，所述评论模板中包括表征粗粒度语义的词，缺失表征细粒度语义的词；

通过所述评论生成模型为所述评论模板补充所述表征细粒度语义的词，获得所述目标评论文本。

可选的，所述通过所述评论生成模型和所述目标对象的上下文信息，预测能够反映待生成的所述目标评论文本的整体内容走向的评论主题序列，包括：

通过所述评论生成模型的上下文编码器，将所述目标对象的上下文信息编码为上下文向量；

通过所述评论生成模型的主题解码器和所述上下文向量，预测所述评论主题序列。

可选的，所述通过所述评论生成模型和所述评论主题序列，生成评论模板，包括：

通过所述评论生成模型的模板解码器，为所述评论主题序列中的每个主题预测一个评论模板，获得所述评论主题序列中每个主题对应的评论模板。

可选的，所述通过所述评论生成模型为所述评论模板补充所述表征细粒度语义的词，获得所述目标评论文本，包括：

通过所述评论生成模型的模板编码器，对所述评论模板进行编码，获得所述评论模板的向量表示；

通过所述评论生成模型的评论解码器和所述评论模板的向量表示，预测所述评论模板缺失的表征细粒度语义的词，并将预测出的词补充至所述评论模板中。

可选的，预先建立所述评论生成模型的过程包括：

获取训练数据集，其中，所述训练数据集中包括多条训练数据，每条训练数据包括一训练上下文信息、该训练上下文信息对应的真实评论文本、该训练上下文信息对应的真实主题序列以及该训练上下文信息对应的真实评论模板；

利用所述训练数据集中的训练数据训练评论生成模型。

可选的，所述评论生成模型包括上下文编码器、主题解码器、模板解码器、模板编码器和评论解码器；

所述利用所述训练数据集中的训练数据训练评论生成模型，包括：

利用训练数据中的训练上下文信息训练所述上下文编码器；

利用训练数据中的训练上下文信息和该训练上下文信息对应的真实主题序列，训练主题解码器；

利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器；

利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器。

可选的，所述利用训练数据中的训练上下文信息和训练上下文信息对应的真实主题序列，训练所述主题解码器，包括：

通过训练得到的上下文编码器，将训练上下文信息编码为上下文向量，得到该训练上下文信息对应的上下文向量；

将该训练上下文信息对应的上下文向量输入主题解码器，获得主题解码器预测的主题序列，作为该训练上下文信息对应的预测主题序列；

根据该训练上下文信息对应的预测主题序列、该训练上下文信息对应的真实主题序列，以及预设的第一损失函数，更新主题解码器的参数。

可选的，所述通过训练得到的上下文编码器，将训练上下文信息编码为上下文向量，包括：

利用预先构建的用户标识词典确定训练上下文信息中用户标识的索引标识，利用预先构建的对象标识词典确定该训练上下文信息中对象标识的索引标识，利用预先构建的评分词典确定该训练上下文信息中评分的索引标识；

分别将所述用户标识的索引标识、所述对象标识的索引标识和所述评分的索引标识向量化，获得能够分别表征该训练上下文信息中用户标识、对象标识和评分的三个向量；

通过所述训练得到的上下文编码器，将所述能够分别表征该训练上下文信息中用户标识、对象标识和评分的三个向量编码为一个上下文向量。

可选的，所述利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器，包括：

通过模板解码器为训练上下文信息对应的真实主题序列预测评论模板，得到该训练上下文信息对应的预测评论模板，其中，每个主题对应一个评论模板；

根据该训练上下文信息对应的预测评论模板、该训练上下文信息对应的真实评论模板，以及预设的第二损失函数，更新模板解码器的参数。

可选的，所述通过模板解码器为训练上下文信息对应的真实主题序列预测评论模板，包括：

利用预先构建的主题词典，确定训练上下文信息对应的真实主题序列中每个主题的索引标识，获得评论主题索引标识序列；

将所述评论主题索引标识序列输入模板解码器，获得该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识；

利用预先建立的评论模板词典和该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识，确定该训练上下文信息对应的真实主题序列中每个主题对应的评论模板。

可选的，预先构建所述评论模板词典的过程包括：

获取评论文本集；

对于所述评论文本集中的任一评论文本，对该评论文本中的每个词进行词性标注，得到该评论文本的词性标签序列，以得到所述评论文本集中每个评论文本的词性标签序列；

对于所述评论文本集中的任一评论文本，根据该评论文本的词性标签序列和预先构建的主题代表词集合，对该评论文本中的非主题代表词用对应的词性标签替换，获得该评论文本对应的初始评论模板，以得到所述评论文本集中每个评论文本对应的初始评论模板；其中，所述主题代表词集合包括所述评论文本集中的评论文本所属的所有主题分别对应的代表词集合；

对于所述评论文本集中的任一评论文本，根据该评论文本、该评论文本对应的初始评论模板以及预先构建的高频词条集合，生成该评论文本对应的评论模板，以得到所述评论文本集中每个评论文本对应的评论模板；其中，所述高频词条集合包括所述评论文本集中的评论文本中出现的高频词条；

由获得的所有评论模板构建所述评论模板词典。

可选的，所述利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器，包括：

通过模板编码器，将训练上下文信息对应的真实评论模板编码为向量表示，得到该训练上下文信息对应的真实评论模板的向量表示；

通过评论解码器和该训练上下文信息对应的真实评论模板的向量表示，预测该训练上下文信息对应的真实评论模板中缺失的词，并将预测出的词补充至该训练上下文信息对应的真实评论模板中，得到该训练上下文信息对应的预测评论文本；

根据该训练上下文信息对应的预测评论文本、该训练上下文信息对应的真实评论文本，以及预设的第三损失函数，更新模板编码器和评论解码器的参数。

可选的，所述通过模板编码器，将训练上下文信息对应的真实评论模板编码为向量表示，得到该训练上下文信息对应的真实评论模板的向量表示，包括：

根据预先创建的评论模板词典，确定训练上下文信息对应的真实评论模板的索引标识；将该训练上下文信息对应的真实评论模板的索引标识输入模板编码器进行编码，得到该训练上下文信息对应的真实评论模板的向量表示；

通过评论解码器和该训练上下文信息对应的真实评论模板的向量表示，预测该训练上下文信息对应的真实评论模板中缺失的词，包括：

将该训练上下文信息对应的真实评论的向量表示输入评论解码器，获得该训练上下文信息对应的真实评论模板中缺失的词的索引标识；根据预先构建的词汇表和获得的索引标识，确定该训练上下文信息对应的真实评论模板中缺失的词，其中，所述词汇表中的每个词对应一索引标识。

一种评论生成装置，包括：上下文信息获取模块和评论生成模块；

所述上下文信息获取模块，用于获取目标对象的上下文信息，其中，所述上下文信息包括所述目标对象的标识、购买所述目标对象的用户的标识，所述用户对所述目标对象的评分；

所述评论生成模块，用于利用预先建立的评论生成模型以及所述目标对象的上下文信息，生成针对所述目标对象的目标评论文本。

可选的，所述评论生成模块包括评论主题序列预测模块、评论模板预测模块和评论文本预测模块；

所述评论主题序列预测模块，用于通过所述评论生成模型和所述目标对象的上下文信息，预测能够反映待生成的所述目标评论文本的整体内容走向的评论主题序列；

所述评论模板预测模块，用于通过所述评论生成模型和所述评论主题序列，生成评论模板，其中，所述评论模板中包括表征粗粒度语义的词，缺失表征细粒度语义的词；

所述评论文本预测模块，用于通过所述评论生成模型为所述评论模板补充所述表征细粒度语义的词，获得所述目标评论文本。

一种评论生成设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的评论生成方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的评论生成方法的各个步骤。

经由上述方案可知，本申请提供的评论生成方法、装置、设备及存储介质，首先获取目标对象的上下文信息，然后，利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。本申请提供的评论生成方法，一方面使得购买目标对象的用户在评论目标对象时，只需要针对目标对象给出一个整体评价即可，另一方面使得商家可以获得能够对用户已购买对象进行准确全面评价的评论文本，进而使得商家能够根据对用户已购买对象生成的评论文本调整服务方向和服务质量，同时，生成的评论文本还能为潜在消费者的购买决策起到较好的指导作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的评论生成方法的流程示意图；

图2为本申请实施例提供的利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本的流程示意图；

图3为本申请实施例提供的评论生成模型的一示例的示意图；

图4为本申请实施例提供的构建评论生成模型的流程示意图；

图5为本申请实施例提供的利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本的一具体实例的流程示意图；

图6为本申请实施例提供的评论生成装置的结构示意图；

图7为本申请实施例提供的评论生成设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到用户并不愿意花较多的时间和精力评价其购买的对象，而商家又希望能够获得用户对其购买对象的准确评价，本案发明人想到可以根据用户对于其购买对象的评论信息生成能够对已购对象进行准确全面评价的评论文本，为了达到上述目的，本案发明人进行了研究，起初的思路是：

根据人工设定的评论模板构造相应的评论模板，每个评论模板中包括一些变量和常量，在获得用户针对已购买对象的评论信息时，将用户的评论信息作为字符串填充到评论模板中替换变量。

发明人经研究发现，虽然上述基于模板的评论生成方法实现比较简单，但是，由于模板预先确定，基于模板生成的评论多样性不足，基于模板的评论生成方法并不适用于对评论多样性要求比较严格的应用领域，即，基于模板的评论生成方法不具通用性。

鉴于基于模板的评论生成方法存在的问题，本案发明人继续进行深入研究，最终提出了一种效果较好的评论生成方法，该评论生成方法不但能够根据用户对已购对象的整体评价自动生成准确全面的评论文本，且该评论生成方法具有通用性，适用于任何领域，该评论生成方法可应用于具有数据处理能力的终端，也可应用于服务器。接下来通过下述实施例对本申请提供的评论生成方法进行介绍。

请参阅图1，示出了本申请实施例提供的评论生成方法的流程示意图，该方法可以包括：

步骤S101：获取目标对象的上下文信息。

其中，目标对象的上下文信息包括目标对象的标识、购买目标对象的用户的标识以及用户对目标对象的评分。

需要说明的是，目标对象的标识、购买目标对象的用户的标识以及用户对目标对象的评分为针对目标对象生成评论所需的基本信息，本申请并不限定目标对象的上下文信息只包括上述信息，还可以根据具体应用或需求包括其它信息。

步骤S102：利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。

具体的，将目标对象的上下文信息输入预先建立的评论生成模型，获得评论生成模型输出的针对目标对象的目标评论文本。本实施例中的评论生成模型能够根据目标对象的上下文信息自动生成对目标对象进行准确、全面评论的目标评论文本。

本申请实施例提供的评论生成方法，首先获取目标对象的上下文信息，然后，利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。本申请实施例提供的评论生成方法，一方面使得购买目标对象的用户在评论目标对象时，只需要针对目标对象给出一个整体评价即可，另一方面使得商家可以获得能够对用户已购买的对象进行准确和全面评价的评论文本，进而使得商家能够根据对用户已购买对象生成的评论文本调整服务方向和服务质量，同时，生成的评论文本还能为潜在消费者的购买决策起到较好的指导作用。

以下对上述实施例中的“步骤S102：利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本”进行介绍。

请参阅图2，示出了利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本的流程示意图，可以包括：

步骤S201：通过评论生成模型和目标对象的上下文信息，预测评论主题序列。

其中，评论主题序列能够反映待生成的目标评论文本的整体内容走向。需要说明的是，评论主题序列可以理解为粗粒度的评论表示。

步骤S202：通过评论生成模型和评论主题序列，生成评论模板。

本实施例针对评论主题序列中的每个主题生成一个评论模板。

本步骤生成的评论模板相对于评论主题序列而言，更接近具体的语义内容，评论模板可以理解为较细粒度的评论表示。

需要说明的是，评论模板中包含能够表征粗粒度语义的词(比如高频词)，但缺失表征细粒度语义的词。在一种可能的实现方式中，缺失的表征细粒度语义的词在评论模板中以语义槽的形式出现。

步骤S203：通过评论生成模型为评论模板补充表征细粒度语义的词，获得目标评论文本。

下面通过一个具体的例子对上述生成目标评论文本的过程进行说明：

目标对象为耳机，目标对象的上下文信息包括耳机的标识、购买耳机的用户的标识和购买耳机的用户对耳机的评分：

首先通过评论生成模型和耳机的上下文信息确定评论主题序列，假设确定出的评论主题序列为“Sound→Service→Price”；然后，通过评论生成模型分别为主题“Sound”、主题“Service”和主题“Price”生成评论模板，假设为主题“Sound”生成的评论模板为“thisNN sounds pretty_well”，为主题“Service”生成的评论模板为“iVBD VB this productfast IN the NN”，为主题“Price”生成的评论模板为“price was WP it would cost onthe JJ NN”，其中，模板中的“NN”、“JJ”、“IN”、“VBD”、“VB”为语义槽，语义槽处缺失表征细粒度语义的词，最后，通过评论生成模型和主题“Sound”对评论模板“this NN soundspretty_well”中的语义槽进行填充，同样的，通过评论生成模型和主题“Service”对评论模板“iVBD VB this product fast IN the NN”中的语义槽进行填充，通过评论生成模型和主题Price对评论模板“price was WP it would cost on the JJ NN”中的语义槽进行填充，填充后得到最终的目标评论文本“this microphone sounds pretty_well.iVBD VBthis product fast through the mail.price was what it would cost on the openmarket.”。

接下来对预先建立评论生成模型的过程进行介绍。

在本实施例中，预先建立评论生成模型的过可以包括：获取训练数据集，利用训练数据集中的训练数据训练评论生成模型。其中，训练数据集中包括多条训练数据，每条训练数据包括一训练上下文信息(即用户标识、对象标识、评分)，该训练上下文信息对应的真实主题序列、该训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，其中，真实评论文本为对对应对象进行准确全面评价的评论文本。

在一种可能的实现方式中，评论生成模型可以包括上下文编码器、主题编码器、模板解码器、模板编码器和评论解码器，请参阅图3，示出了评论生成模型的一示例的示意图。

在上述结构的评论生成模型的基础上，请参阅图4，示出了利用训练数据集中的训练数据训练评论生成模型的流程示意图，可以包括：

步骤S401：利用训练数据中的训练上下文信息训练上下文编码器。

步骤S402：利用训练数据中的训练上下文信息和该训练上下文信息对应的真实主题序列，训练主题解码器。

步骤S403：利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器。

步骤S404：利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器。

以下分别对上述的步骤S401～S404进行介绍。

首先对“步骤S401：利用训练数据中的训练上下文信息训练上下文编码器”进行介绍。

本实施例利用训练上下文信息(用户标识、对象标识、评分)训练上下文编码器，从而使得上下文编码器能够将上下文信息编码为上下文向量。

具体的，利用上下文编码器将上下文信息编码为上下文向量的过程可以包括：

步骤a1、利用预先构建的用户标识词典确定上下文信息中用户标识的索引标识，利用预先构建的对象标识词典确定该上下文信息中对象标识的索引标识，利用预先构建的评分词典确定该上下文信息中评分的索引标识。

其中，用户词典、对象词典和评分词典根据预先构建的目标数据集构建，目标数据集中包括多条数据，每条数据包括一上下文信息(包括用户标识、对象标识、评分)、该上下文信息对应的真实评论文本、该上下文信息对应的真实评论主题序列、该上下文信息对应的真实评论模板。用户词典中包括目标数据集中出现的所有用户标识，对象词典中包括目标数据集中出现的所有对象标识，评分词典中包括目标数据集中出现的所有评分。

用户词典中的每个用户标识对应有一索引标识，对象词典中的每个对象标识对应有一索引标识，评分词典中的每个评分对应有一索引标识，假设用户词典中包括100个用户标识，则100个用户标识分别对应的索引标识可以为1、2、3、…、100，对象词典和评分词典类似。

步骤a2、分别将用户标识的索引标识、对象标识的索引标识和评分的索引标识向量化，获得能够分别表征该上下文信息中用户标识、对象标识和评分的三个向量。

具体的，分别将用户标识的索引标识、对象标识的索引标识和评分的索引标识经过一层嵌入层，获得能够分别表征上下文信息中用户标识、对象标识和评分的三个向量。

步骤a3、通过上下文编码器将能够分别表征该上下文信息中用户标识、对象标识和评分的三个向量编码为上下文向量。

可选的，上下文编码器可由多层感知器MLP组成，通过MLP可将能够分别表征上下信息中用户标识、对象标识和评分的三个向量编码为一个上下文向量，具体计算方式如下：

v_c＝MLP([v_u；v_i；v_r]) (1)

其中，v_c为上下文向量，v_u、v_i、v_r分别为表征用户标识的向量、表征对象标识的向量、表征评分的向量，MLP表示多层感知器。

接下来对“步骤S402：利用训练数据中的训练上下文信息和该训练上下文信息对应的真实主题序列，训练主题解码器”进行介绍。

利用训练数据中的训练上下文信息和该训练上下文信息对应的真实主题序列，训练主题解码器的过程可以包括：

步骤S4021、通过训练得到的上下文编码器将训练数据中的训练上下文信息编码为上下文向量，作为该训练上下文信息对应的上下文向量。

通过训练得到的上下文编码器将训练数据中的训练上下文信息编码为上下文向量的过程可参见上述步骤a1～a3。

步骤S4022、将该训练上下文信息对应的上下文向量输入主题解码器，获得主题解码器预测的主题序列，作为该训练上下文信息对应的预测主题序列。

可选的，本实施例中的主题解码器可由循环神经网络(RNN)的门循环模块(GRU)组成，可参见图3中的主题解码器。

表示主题解码器中维度为

的第j步隐藏向量，其计算公式如下：

其中，

和为门循环模块第j步的输入，

表示第j-1步预测的主题a_j-1的向量表示，

是第j-1步的隐藏向量。

需要说明的是，主题解码器的初始隐藏向量

第0步输入主题a₀是一个特殊的符号<sos>，表示解码开始，同时，如果在预测下一步的主题时生成特殊符号<eos>，则表示解码结束。如图3所示，第j步预测的主题是“sound”。

另外，考虑到不同用户对不同对象有着不同的主题倾向，基于此，可以使用注意力机制加强上下文信息在生成评论主题序列时的影响。主题解码器第j步的注意力权重和注意力向量的计算公式如下：

其中，

表示第j步时，

对于上下文c_k的注意力权重，

表示注意力向量。

最后通过下式计算下一个主题a_j出现的概率：

其中，W₁，W₂，W₃和W₄是需要学习的权重，b₁是需要学习的偏置向量。

步骤S4023、根据该训练上下文信息对应的预测主题序列、该训练上下文信息对应的真实主题序列，以及预设的第一损失函数，更新主题解码器的参数。

具体的，可根据训练上下文信息对应的预测主题序列、训练上下文信息对应的真实主题序列以及预设的第一损失函数确定主题解码器的预测损失，根据主题解码器的预测损失更新主题解码器的参数。可选的，第一损失函数可以为交叉熵损失函数。

另外，本实施例中的训练数据集中的训练数据来自上述目标数据集(可将目标数据集中的一部分数据作为训练数据，一部分作为测试数据)，目标数据集中的每条数据包括一上下文信息、该上下文信息对应的真实评论文本、该上下文信息对应的真实评论主题序列和该上下文信息对应的真实评论模板，其中，上下文信息和上下文信息对应的评论文本可直接收集得到，而上下文信息对应的真实主题序列需要根据上下文信息对应的评论文本确定。以下对目标数据集中各上下文信息对应的真实主题序列的确定方式进行介绍。

需要说明的是，不同的应用领域包含不同的主题，例如，酒店评论的主题包括价格、位置、服务等，基于此，本实施例对评论文本集(由目标数据集中的所有评论文本组成)中的评论文本按应用领域划分，如此可获得多个应用领域的评论文本，接下来分别对每个应用领域下的评论文本进行主题抽取，获得每个应用领域下的评论文本对应的评论主题序列，如此可获得评论文本集中各评论文本分别对应的评论主题序列，进而可获得目标数据集中各上下文信息分别对应的真实评论主题序列(一上下文信息对应的真实主题序列即为该上下文信息对应的评论文本所对应的评论主题序列)。

可选的，可利用主题模型对每个应用领域的评论文本进行主题抽取，通过主题模型可获得评论文本中每个句子对应的主题，从而可获得评论文本对应的评论主题序列。可选的，主题模型可以为LDA，通过主题模型除了可以获得评论文本中每个句子对应的主题外，还可获得每个主题的单词概率分布。

接下来，对上述“步骤S403：利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器”的实现过程进行介绍。

利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器的实现过程可以包括：

步骤S4031、通过模板解码器为训练上下文信息对应的真实主题序列预测评论模板，得到该训练上下文信息对应的预测评论模板，其中，每个主题对应一个评论模板。

具体的，可首先利用预先构建的主题词典，确定训练上下文信息对应的真实主题序列中每个主题的索引标识，获得评论主题索引标识序列；然后将评论主题索引标识序列输入模板解码器，获得该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识；最后利用预先建立的评论模板词典和该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识，确定该训练上下文信息对应的真实主题序列中每个主题对应的评论模板。

需要说明的是，主题词典是在上述获得目标数据集中各上下文信息分别对应的真实评论主题序列的基础上构建的，主题词典中包括目标数据集中各上下文信息分别对应的真实评论主题序列中出现的所有主题。

评论模板词典是在确定出目标数据集中各上下文信息分别对应的真实评论模板的基础上构建的，其包括了目标数据集中出现的所有真实评论模板。以下对确定目标数据集中各上下文信息分别对应的真实评论模板的过程进行介绍：

步骤b1、对于评论文本集(由目标数据集中的所有评论文本组成)中的任一评论文本，对该评论文本中的每个词进行词性标注，得到该评论文本的词性标签序列，以得到评论文本集中每个评论文本的词性标签序列。

具体的，对于评论文本集中的每个评论文本进行如下操作：先对评论文本进行分词处理，然后对分词处理得到的每个词进行词性标注。

可选的，可使用NLTK中的分词工具对评论文本进行分词，使用斯坦福的词性标注工具(StanfordPostagger)对每个词进行词性标注。词性标签一般有35个，比如，NN、JJ、CC、VBZ、DT、RB等，其中，NN表示普通名词，JJ表示形容词，CC表示连词，VBZ表示动词第三人称单数，RB表示副词。

示例性的，一评论文本为“this microphone sounds pretty well”，该评论文本经过词性标注后，可获得词性标签序列“DT NN VBZ RB RB”。

步骤b2、对于评论文本集中的任一评论文本，根据该评论文本的词性标签序列和预先构建的主题代表词集合，对该评论文本中的非主题代表词用对应的词性标签替换，获得该评论文本对应的初始评论模板，以得到评论文本集中每个评论文本对应的初始评论模板。

其中，主题代表词集合包括评论文本集中的评论文本所属的所有主题分别对应的代表词集合。前述内容提到，通过主题模型除了可以获得评论文本中每个句子对应的主题标签外，还可获得每个主题的单词概率分布，基于此，本实施例可根据每个主题的单词概率分布，构建每个主题对应的代表词集合，可选的，对于任一主题，可根据该主题的单词概率分布，选取概率排前50的词组成该主题对应的代表词集合。

对于评论文本集中任一评论文本中的每个词，若该词出现在该词所在句子对应的主题所对应的代表词集合中，则不对该词进行替换，若该词未出现在该词所在句子对应的主题所对应的代表词集合中，则根据该评论文本的词性标签序列，将该词替换为对应的词性标签，如此，可获得该评论文本对应的初始评论模板。按该方式对评论文本集中每个评论文本的每个词进行操作，以得到评论文本集中每个评论文本对应的初始评论模板。

示例性的，一评论文本为“this microphone sounds pretty well”，其对应的词性标签序列为“DT NN VBZ RB RB”，其对应的主题为“sound”，由于单词“sounds”是主题“sound”对应的代表词集合中的词，因此，不对其进行替换，由于其余词均不在主题“sound”对应的代表词汇集合中，因此，将其余词分别替换为对应的词性标签，如此可得到初始评论模板“DT NN sounds RB RB”。

步骤b3、对于评论文本集中的任一评论文本，根据该评论文本、该评论文本对应的初始评论模板以及预先构建的高频词条集合，生成该评论文本对应的评论模板，以得到评论文本集中每个评论文本对应的评论模板。

在本实施例中，高频词条集合可基于评论文本集中各评论文本的分词结果构建，具体的，对评论文本集中的所有评论文本中出现的单因子词条、双因子词条、三因子词条进行计数，在此基础上，可选取出现次数大于第一预设次数(比如，50)的单因子词条、出现次数大于第二预设次数(比如100)的双因子词条、出现次数大于第三预设次数(比如100)的三因子词条组成高频词条集合。

需要说明的是，一个词即为单因子词条，两个连续词即为双因子词条，三个连续词即为三因子词条。示例性的，评论文本为“this microphone sounds pretty well”，该评论文本中的单因子词条包括“this”、“microphone”、“sounds”、“pretty”、“well”，该评论文本中的双因子词条包括“this microphone”，“microphone sounds”、“sounds pretty”、“pretty well”，该评论文本中的三因子词条包括“this microphone sounds”、“microphone sounds pretty”、“sounds pretty well”。

高频单因子词条通常包括一些功能性词汇和人称词，如“I”，“you”，“this”等，这些单词没有特别的含义，在评论文本集中出现次数也比较多，将它们作为评论的骨架可以初步描绘出评论文本的一个结构关系。高频双因子词条和高频三因子词条则包括一些经常一起使用的词搭配，如“looks well”，“sounds great”，“works pretty well”等，这些搭配表示人们日常使用单词的习惯，将它们作为评论的骨架可以增加评论文本的流畅性和自然性。双因子词条和三因子词条在语义上有着整体性和统一性，为了保持这些特性，可对高频词条集合中的双因子词条和三因子词条中的词通过连接符连接，可选的，连接符可以为下划线“_”，比如“pretty_well”，当然，本实施例并不限定连接符为下划线“_”，还可以为其它，比如可以为短划线“-”等。

获得高频词汇集合之后，便可根据预先构建的高频词条集合和评论文本集中每个评论文本对应的初始评论模板，生成评论文本集中每个评论文本对应的评论模板。具体的，对于任一评论文本，若该评论文本中出现高频词条，则将该评论文本对应的初始模板中的对应词性标签替换为该高频词条，从而得到该评论文本对应的评论模板。

示例性的，一评论文本为“this microphone sounds pretty well”，该评论文本对应的初始评论模板为“DT NN sounds RB RB”，由于“this”和“pretty_well”出现在高频词条集合中，因此，“this”和“pretty_well”为高频词条，将初始评论模板“DT NN soundsRB RB”中的词性标签“DT”替换为“this”，“RB RB”替换为“pretty_well”，如此可获得评论模板“this NN sounds pretty_well”。

由上述评论模板“this NN sounds pretty_well”可以看出，这个评论模板具有一定的通用性，只要对“NN”进行不同语义的填充，描述的对象就会发生变化，同时这个模板又是主题感知的，因为受到其中的主题代表性词“sounds”的影响，并且，“NN”这个位置只能填充属于主题“sound”的单词，如“microphone”、图3中的“vocals”等。

获得了评论文本集中每个评论文本对应的评论模板便获得了目标数据集中各上下文信息对应的真实评论模板(一上下文信息对应的真实评论模板即为该上下文信息对应的评论文本所对应的评论模板)。

可选的，本实施例中的模板解码器可由循环神经网络的门循环模块(GRU)组成，如图3示出的模板解码器。对于主题序列a^1:m中的主题a_j，模板解码器会为其生成评论模板。

表示主题a_j对应的评论模板S_j的第t步隐藏向量，其计算公式如下：

门循环模块第t步的输入包括和其中，

表示第t-1步的隐藏向量，

由两部分组成，包括

和表示第t-1步生成的模板单词s_j,t-1的向量表示，

是当前主题a_j的向量表示，⊙表示向量点乘操作。在

输入到门循环模块之前与主题向量

进行点乘的原因是为了增加主题信息对评论模板生成过程的影响，因为，不同主题对应的评论模板是不同的。特别地，第j个模板解码器的初始隐藏向量

第0步输入的模板单词S_j,0是一个特殊的符号<sos>，表示解码开始，同时，如果在预测下一步的主题时生成特殊符号<eos>，则表示解码结束。

同样的，在模板解码器中也可利用注意力机制加强上下文信息的影响，因为，不同的用户对不同的对象有着不同的词倾向，比如，某些用户喜欢用褒义词，而某些用户喜欢用贬义词。注意力权重和注意力向量的计算公式可参阅上述的公式(3)和(4)。

最后，利用下式计算下一个模板单词s_j,t出现的概率：

其中，W₅，W₆和b₂是需要学习的权重矩阵和偏置向量。同样地，在计算模板单词生成概率的时候加入主题a_j的向量

也是为了再次加强主题信息对模板生成过程的影响。

步骤S4032、根据该训练上下文信息对应的预测评论模板、该训练上下文信息对应的真实评论模板，以及预设的第二损失函数，更新模板解码器的参数。

具体的，可根据训练上下文信息对应的预测评论模板、训练上下文信息对应的真实评论模板，以及预设的第二损失函数确定模板解码器的预测损失，根据模板解码器的预测损失更新模板解码器的参数。可选的，第二损失函数可以为交叉熵损失函数。

接下来，对上述“步骤S404：利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器”的实现过程进行介绍。

利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器的过程可以包括：

步骤S4041、通过模板编码器，将训练上下文信息对应的真实评论模板编码为向量表示，得到该训练上下文信息对应的真实评论模板的向量表示。

具体的，可首先根据预先创建的评论模板词典，确定训练上下文信息对应的真实评论模板的索引标识；然后将该训练上下文信息对应的真实评论模板的索引标识输入模板编码器进行编码，得到该训练上下文信息对应的真实评论模板的向量表示。

前述内容提到，评论模板中缺少表征细粒度语义的词，因此，需要在评论模板中补充表征细粒度语义的词，以得到语义完整的评论文本。为了获得语义完整的评论文本，本申请将在评论模板中补充表征细粒度语义的词的过程转换为序列到序列(sequence-to-sequence)的任务。实现序列到序列的任务的框架包括两个部分，即编码器和解码器，将输入序列输入到编码器中，编码器将输入序列编码成一个向量表示，解码器对这个向量表示进行解码输出，得到输出序列。

基于此，本申请首先定义一个模板编码器，目的是，接收评论模板的输入，将评论模板编码为向量表示。在一种可能的实现方式中，模板编码器可采用单向循环神经网络，然而，考虑到评论模板语义不完整，且模板中缺失的语义信息以语义槽的形式出现，在对语义槽进行填充时，需要同时考虑语义槽前后文本的信息，例如，在对评论模板“this NNsounds pretty_well”中的语义槽“NN”进行填充时，既需要考虑语义槽“NN”前的文本“this”的影响，又要考虑语义槽“NN”后的文本“sounds”的影响，然而，单向循环神经网络却无法同时考虑语义槽前后文本的信息(其无法考虑语义槽后文本的信息)，有鉴于此，在另一种较优选的实现方式中，模板编码器采用双向循环神经网络，即，本申请优选为采用双向循环神经网络将评论模板编码为向量表示。

模板编码器采用双向循环神经网络时，由双向循环神经网络的双向门循环模块(Bi-GRU)组成，具体可参考图3中的模板编码器。

表示第j个模板编码器的第t步的隐藏向量，其计算公式如下：

其中，门循环模块第t步的输入包括和

其中，

表示第j个模板的第t个模板词s_j，t的向量表示，

表示模板编码器前向的第t-1步的隐藏向量，

表示模板编码器后向的第t+1步的隐藏向量，[·]表示两个向量的拼接操作。

输入的评论模板

在经过模板编码器的处理之后，被编码为一个向量表示序列

这些向量包含了整个评论模板的全局信息。

步骤S4042、通过评论解码器和该训练上下文信息对应的真实评论模板的向量表示，预测该训练上下文信息对应的真实评论模板中缺失的词，并将预测出的词补充至该训练上下文信息对应的真实评论模板中，得到该训练上下文信息对应的预测评论文本。

具体的，首先将该训练上下文信息对应的真实评论模板的向量表示输入评论解码器，获得该训练上下文信息对应的真实评论模板中缺失的词的索引标识；然后根据预先构建的词汇表和获得的索引标识，确定该训练上下文信息对应的真实评论模板中缺失的词。其中，词汇表中的每个词对应一索引标识，词汇表中包含上述评论文本集中各评论文本中出现的所有词。

根据前述提到的序列到序列的框架，本申请还需要定义一个评论解码器。评论模板输入到模板编码器中，可得到评论模板的向量表示，之后，本申请利用一个评论解码器对评论模板的向量表示进行解码，对评论模板中缺失的语义信息进行补充(即对语义槽进行填充)，得到语义完整的评论文本。

需要说明的是，评论解码器只对评论模板中以词性标签掩盖的语义槽进行填充，其它词(比如主题代表词、高频词条)不做修改，待所有语义槽填充完毕之后，去掉所有高频词条中的连接符(比如下划线“_”)即可得到最终的评论文本。

示例的，评论模板为“this NN sounds pretty_well”，通过评论解码器对语义槽“NN”进行预测，假设预测的词为“microphone”，则将评论模板中的“NN”替换为“microphone”，其它词不做修改，即可得到评论文本“this microphone sounds pretty_well”，最后，去除高频词汇“pretty_well”的下划线“_”，即可得到最终的评论文本“thismicrophone sounds pretty well”。

优选的，评论解码器同样可由循环神经网络的门循环模块(GRU)组成，具体可参考图3中的评论解码器。

表示第j个评论解码器第t步的隐藏向量，其计算公式如下：

其中，

和

为门循环模块第t步的输入，

表示第t-1步单词y_j，t-1的向量表示，

表示评论解码器第t-1步的隐藏向量，

是模板编码器输出的向量表示，

表示两个向量拼接操作。第j个评论解码器在第t时刻需要对第j个模板编码器第t时刻的输出表示

进行预测，预测需要填充的词。如果模板词s_j，t是语义槽(即词性标签)，则需要对做接下来的预测计算；如果是代表词或高频词则不做预测计算，则

只作为第j个评论解码器第t+1时刻的输入。

优选的，在评论解码器中也可利用注意力机制加强上下文信息的影响，因为，针对不同的对象需要对语义槽填充不同的词，不同的用户对不同词的倾向程度也不一样。预测需要填充的词的计算公式如下：

其中，

为模板中词S_j，t的向量表示

将其加入预测过程中是为了使评论解码器在对语义槽(即词性标签)预测需要填充的词时，关注到词性的影响，

表示主题a_j下的词分布，是为了再次加强主题下的词对预测填充词的影响。

经过上述计算过程之后，评论解码器将预测出，预先构建的词汇表索引标识上的概率分布，取概率最大的索引标识，利用词汇表确定概率最大的索引标识对应的词y_j，t，将确定出的词填充到评论模板中，如此便可获得语义完整的评论文本。

步骤S4043、根据该训练上下文信息对应的预测评论文本、该训练上下文信息对应的真实评论文本，以及预设的第三损失函数，更新模板编码器和评论解码器的参数。

具体的，可根据训练上下文信息对应的预测评论文本、训练上下文信息对应的真实评论文本以及预设的第三损失函数确定评论解码器的预测损失，根据评论解码器的预测损失更新模板编码器和评论解码器的参数。可选的，第三损失函数可以为交叉熵损失函数。

在构建好评论生成模型后，便可利用构建的评论生成模型和目标对象的上下文信息，生成针对目标对象的目标评论文本。

请参阅图5，示出了利用构建的评论生成模型和目标对象的上下文信息，生成针对目标对象的目标评论文本的一具体实现过程的流程示意图，可以包括：

步骤S501：通过评论生成模型的上下文编码器，将目标对象的上下文信息编码为上下文向量，作为目标上下文向量。

步骤S502：通过评论生成模型的主题解码器和目标上下文向量，预测评论主题序列，作为目标评论主题序列。

步骤S503：通过评论生成模型的模板解码器，为目标评论主题序列中的每个主题预测一个评论模板，获得目标评论主题序列中每个主题对应的评论模板。

步骤S504：通过评论生成模型的模板编码器，分别将目标评论主题序列中每个主题对应的评论模板编码为向量表示，获得目标评论主题序列中每个主题对应的评论模板的向量表示。

步骤S505：通过评论生成模型的评论解码器和目标评论主题序列中每个主题对应的评论模板的向量表示，预测目标评论文本。

具体的，通过评论生成模型的评论解码器和目标评论主题序列中每个主题对应的评论模板的向量表示，预测目标评论主题序列中每个主题对应的评论模板中缺失的词，并将预测出的词补充至对应的评论模板中，如此可获得目标评论主题序列中每个主题对应的评论文本，由目标评论主题序列中各个主题对应的评论文本组成目标评论文本。

本实施中各步骤的具体实现过程可参见上述实施例中相关部分的介绍，本实施例在此不做赘述。

本申请实施例将生成评论文本的过程分解为三个子过程：其一，通过主题解码器预测能否反映整体评论文本内容走向的评论主题序列，评论主题序列是粗粒度的评论表示；其二，通过模板解码器对主题序列中的每一个主题生成其满足语法要求的评论模板，评论模板相对于评论主题而言更加接近具体的语义内容，评论模板是较细粒度的评论表示，但是，评论模板只包括粗粒度语义的词，比如一些高频词、主题代表词，缺少细粒度语义的词；其三，通过评论解码器对评论模板中缺失的词进行补充，这是对评论文本中具体的细粒度语义进行预测。本申请实施例在评论生成的过程中考虑了语义和语法信息，这使得生成的评论文本具有较好的可读性和流畅性。

下面对本申请实施例提供的评论生成装置进行描述，下文描述的评论生成装置与上文描述的评论生成方法可相互对应参照。

请参阅图6，示出了本申请实施例提供的一种评论生成装置的结构示意图，该评论生成装置可以包括：上下文信息获取模块601和评论生成模块602。

上下文信息获取模块601，用于获取目标对象的上下文信息，其中，上下文信息包括目标对象的标识、购买目标对象的用户的标识，用户对目标对象的评分。

评论生成模块602，用于利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。

本申请实施例提供的评论生成装置，可利用预先建立的评论生成模型以及目标对象的上下文信息，生成针对目标对象的目标评论文本。本申请实施例提供的评论生成装置，一方面使得购买目标对象的用户在评论目标对象时，只需要针对目标对象给出一个整体评价即可，另一方面使得商家可以获得能够对用户已购买的对象进行准确和全面评价的评论文本，进而使得商家能够根据对用户已购买对象生成的评论文本调整服务方向和服务质量，同时，生成的评论文本还能为潜在消费者的购买决策起到较好的指导作用。

在一种可能的实现方式中，上述实施例提供的评论生成装置中的评论生成模块602包括：评论主题序列预测模块、评论模板预测模块和评论文本预测模块。

评论主题序列预测模块，用于通过评论生成模型和目标对象的上下文信息，预测能够反映待生成的目标评论文本的整体内容走向的评论主题序列。

评论模板预测模块，用于通过评论生成模型和评论主题序列，生成评论模板，其中，评论模板中包括表征粗粒度语义的词，缺失表征细粒度语义的词。

评论文本预测模块，用于通过评论生成模型为评论模板补充表征细粒度语义的词，获得目标评论文本。

在一种可能的实现方式中，评论主题序列预测模块，具体用于通过评论生成模型的上下文编码器，将目标对象的上下文信息编码为上下文向量；通过评论生成模型的主题解码器和上下文向量，预测评论主题序列。

在一种可能的实现方式中，评论模板预测模块，具体用于通过评论生成模型的模板解码器，为评论主题序列中的每个主题预测一个评论模板，获得评论主题序列中每个主题对应的评论模板。

在一种可能的实现方式中，评论文本预测模块，具体用于通过评论生成模型的模板编码器，对评论模板进行编码，获得评论模板的向量表示；通过评论生成模型的评论解码器和评论模板的向量表示，预测评论模板缺失的表征细粒度语义的词，并将预测出的词补充至评论模板中。

上述实施例提供的评论生成装置还可以包括：模型构建模块。

模型构建模块包括：训练数据集获取模块和模型训练模块。

训练数据集获取模块，用于获取训练数据集，其中，训练数据集中包括多条训练数据，每条训练数据包括一训练上下文信息、该训练上下文信息对应的真实评论文本、该训练上下文信息对应的真实主题序列以及该训练上下文信息对应的真实评论模板。

模型训练模块，用于利用训练数据集中的训练数据训练评论生成模型。

在一种可能的实现方式中，评论生成模型包括上下文编码器、主题解码器、模板解码器、模板编码器和评论解码器，则模型训练模块包括：

利用训练数据集中的训练数据训练评论生成模型，包括：上下文编码器训练模块、主题解码器训练模块、模板解码器训练模块、模板编码器和评论解码器训练模块。

上下文编码器训练模块，用于利用训练数据中的训练上下文信息训练上下文编码器。

主题解码器训练模块，用于利用训练数据中的训练上下文信息和该训练上下文信息对应的真实主题序列，训练主题解码器。

模板解码器训练模块，用于利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器。

模板编码器和评论解码器训练模块，用于利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器。

在一种可能的实现方式中，主题解码器训练模块包括：第一训练子模块和第一参数更新子模块。

第一训练子模块，用于通过训练得到的上下文编码器，将训练上下文信息编码为上下文向量，得到该训练上下文信息对应的上下文向量；将该训练上下文信息对应的上下文向量输入主题解码器，获得主题解码器预测的主题序列，作为该训练上下文信息对应的预测主题序列。

第一参数更新子模块，用于根据该训练上下文信息对应的预测主题序列、该训练上下文信息对应的真实主题序列，以及预设的第一损失函数，更新主题解码器的参数。

在一种可能的实现方式中，第一训练子模块在通过训练得到的上下文编码器，将训练上下文信息编码为上下文向量时，具体用于利用预先构建的用户标识词典确定训练上下文信息中用户标识的索引标识，利用预先构建的对象标识词典确定该训练上下文信息中对象标识的索引标识，利用预先构建的评分词典确定该训练上下文信息中评分的索引标识；分别将用户标识的索引标识、对象标识的索引标识和评分的索引标识向量化，获得能够分别表征该训练上下文信息中用户标识、对象标识和评分的三个向量；通过训练得到的上下文编码器，将能够分别表征该训练上下文信息中用户标识、对象标识和评分的三个向量编码为一个上下文向量。

在一种可能的实现方式中，模板解码器训练模块包括：第二训练子模块和第二参数更新子模块。

第二训练子模块，用于通过模板解码器为训练上下文信息对应的真实主题序列预测评论模板，得到该训练上下文信息对应的预测评论模板，其中，每个主题对应一个评论模板。

第二参数更新子模块，用于根据该训练上下文信息对应的预测评论模板、该训练上下文信息对应的真实评论模板，以及预设的第二损失函数，更新模板解码器的参数。

在一种可能的实现方式中，第二训练子模块，具体用于利用预先构建的主题词典，确定训练上下文信息对应的真实主题序列中每个主题的索引标识，获得评论主题索引标识序列；将评论主题索引标识序列输入模板解码器，获得该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识；利用预先建立的评论模板词典和该训练上下文信息对应的真实主题序列中每个主题对应的评论模板索引标识，确定该训练上下文信息对应的真实主题序列中每个主题对应的评论模板。

上述实施例提供的评论生成装置还可以包括：评论模板词典构建模块。

评论模板词典构建模块包括：评论文本集获取子模块、词性标注子模块、初始评论模板确定子模块、评论模板确定子模块和评论模板词典构建子模块。

评论文本集获取子模块，用于获取评论文本集。

词性标注子模块，用于对于评论文本集中的任一评论文本，对该评论文本中的每个词进行词性标注，得到该评论文本的词性标签序列，以得到评论文本集中每个评论文本的词性标签序列。

初始评论模板确定子模块，用于对于评论文本集中的任一评论文本，根据该评论文本的词性标签序列和预先构建的主题代表词集合，对该评论文本中的非主题代表词用对应的词性标签替换，获得该评论文本对应的初始评论模板，以得到评论文本集中每个评论文本对应的初始评论模板；其中，主题代表词集合包括评论文本集中的评论文本所属的所有主题分别对应的代表词集合。

评论模板确定子模块，用于对于评论文本集中的任一评论文本，根据该评论文本、该评论文本对应的初始评论模板以及预先构建的高频词条集合，生成该评论文本对应的评论模板，以得到评论文本集中每个评论文本对应的评论模板；其中，高频词条集合包括评论文本集中的评论文本中出现的高频词条。

评论模板词典构建子模块，用于由获得的所有评论模板构建评论模板词典。

在一种可能的实现方式中，模板编码器和评论解码器训练模块包括：第三训练子模块和第三参数更新子模块。

第三训练子模块，用于通过模板编码器，将训练上下文信息对应的真实评论模板编码为向量表示，得到该训练上下文信息对应的真实评论模板的向量表示；通过评论解码器和该训练上下文信息对应的真实评论模板的向量表示，预测该训练上下文信息对应的真实评论模板中缺失的词，并将预测出的词补充至该训练上下文信息对应的真实评论模板中，得到该训练上下文信息对应的预测评论文本。

第三参数更新子模块，用于根据该训练上下文信息对应的预测评论文本、该训练上下文信息对应的真实评论文本，以及预设的第三损失函数，更新模板编码器和评论解码器的参数。

在一种可能的实现方式中，第三训练子模块，具体用于根据预先创建的评论模板词典，确定训练上下文信息对应的真实评论模板的索引标识；将该训练上下文信息对应的真实评论模板的索引标识输入模板编码器进行编码，得到该训练上下文信息对应的真实评论模板的向量表示；将该训练上下文信息对应的真实评论的向量表示输入评论解码器，获得该训练上下文信息对应的真实评论模板中缺失的词的索引标识；根据预先构建的词汇表和获得的索引标识，确定该训练上下文信息对应的真实评论模板中缺失的词，其中，词汇表中的每个词对应一索引标识。

本申请实施例还提供了一种评论生成设备，请参阅图7，示出了该评论生成设备的结构示意图，该评论生成设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能包括中央处理器CPU，还可能包括图形处理器GPU，处理器701还可能是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种评论生成方法，其特征在于，包括：

2.根据权利要求1所述的评论生成方法，其特征在于，所述利用预先建立的评论生成模型以及所述目标对象的上下文信息，生成针对所述目标对象的目标评论文本，包括：

3.根据权利要求2所述的评论生成方法，其特征在于，所述通过所述评论生成模型和所述目标对象的上下文信息，预测能够反映待生成的所述目标评论文本的整体内容走向的评论主题序列，包括：

4.根据权利要求2所述的评论生成方法，其特征在于，所述通过所述评论生成模型和所述评论主题序列，生成评论模板，包括：

5.根据权利要求2所述的评论生成方法，其特征在于，所述通过所述评论生成模型为所述评论模板补充所述表征细粒度语义的词，获得所述目标评论文本，包括：

6.根据权利要求1所述的评论生成方法，其特征在于，预先建立所述评论生成模型的过程包括：

利用所述训练数据集中的训练数据训练评论生成模型。

7.根据权利要求6所述的评论生成方法，其特征在于，所述评论生成模型包括上下文编码器、主题解码器、模板解码器、模板编码器和评论解码器；

利用训练数据中的训练上下文信息训练所述上下文编码器；

8.根据权利要求7所述的评论生成方法，其特征在于，所述利用训练数据中的训练上下文信息和训练上下文信息对应的真实主题序列，训练所述主题解码器，包括：

9.根据权利要求8所述的评论生成方法，其特征在于，所述通过训练得到的上下文编码器，将训练上下文信息编码为上下文向量，包括：

10.根据权利要求7所述的评论生成方法，其特征在于，所述利用训练数据中训练上下文信息对应的真实主题序列和该训练上下文信息对应的真实评论模板，训练模板解码器，包括：

11.根据权利要求10所述的评论生成方法，其特征在于，所述通过模板解码器为训练上下文信息对应的真实主题序列预测评论模板，包括：

12.根据权利要求7所述的评论生成方法，其特征在于，所述利用训练数据中训练上下文信息对应的真实评论模板和该训练上下文信息对应的真实评论文本，训练模板编码器和评论解码器，包括：

13.一种评论生成装置，其特征在于，包括：上下文信息获取模块和评论生成模块；

14.根据权利要求13所述的评论生成装置，其特征在于，所述评论生成模块包括评论主题序列预测模块、评论模板预测模块和评论文本预测模块；

15.一种评论生成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～12中任一项所述的评论生成方法的各个步骤。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～12中任一项所述的评论生成的各个步骤。