CN111914566A

CN111914566A - 一种评论自动生成方法

Info

Publication number: CN111914566A
Application number: CN202010754601.7A
Authority: CN
Inventors: 张京鹏; 蔡博克; 贲忠奇; 冷若冰; 阚野; 张云
Original assignee: Chaos Times Beijing Education Technology Co ltd
Current assignee: Chaos Times Beijing Education Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-10

Abstract

本发明提出了一种评论自动生成方法，涉及机器学习领域。一种评论自动生成方法，包含获取评价内容，将评价内容输入GPT‑2训练模型中以确定回复内容，其中，GPT‑2训练模型为使用多组评论数据通过机器学习训练得到，多组评论数据包含第一类数据和第二类数据，第一类数据的每组数据均包含评论信息及标识评论信息的内容属性的属性标识，第二类数据的每组数据均包含评论信息及标识多组评论信息的内容质量的质量标识；根据评价内容的行业属性选择属性标识以确定评论信息的选取范围，并根据质量标识选择评论信息的内容以生成回复内容。本发明能够对不同领域的信息进行迁移，并且适应于评论性内容。

Description

一种评论自动生成方法

技术领域

本发明涉及机器学习领域，具体而言，涉及一种评论自动生成方法。

背景技术

互联网用户社区建设增长迅速，为了增加用户的活跃度和体验，需要对用户内容进行及时的评论。在以往的技术中，大多数是使用人工或者采用语术模板而进行，耗费人力。也有运用语义检索技术从已有的评论库中寻找合适的评论，这种技术方式需要维护一个大规模的评论库，也只能产生已有的评论，对陌生领域无法做迁移。

随着深度学习在自然语言领域的发展，NLG(自然语言生成)技术也得到了很大的发展，

特别是近两年GPT2的生成效果更是让人惊艳。但该模型在针对短文本评论场景，需要将自动评论转换成对话领域，但这种方式适用于闲聊，在意见、评价和探讨类的评论性内容并不合适。

发明内容

本发明的目的在于提供一种自动评论生成方法，其能够对不同领域的信息进行迁移，并且适应于评论性内容。

本发明的实施例是这样实现的：

本申请实施例提供一种评论自动生成方法，包含获取评价内容，将上述评价内容输入GPT-2训练模型中以确定回复内容，其中，上述GPT-2训练模型为使用多组评论数据通过机器学习训练得到，多组上述评论数据包含第一类数据和第二类数据，上述第一类数据的每组数据均包含评论信息及标识上述评论信息的内容属性的属性标识，上述第二类数据的每组数据均包含评论信息及标识多组上述评论信息的内容质量的质量标识；根据上述评价内容的行业属性选择上述属性标识以确定上述评论信息的选取范围，并根据上述质量标识选择上述评论信息的内容以生成上述回复内容。

在本发明的一些实施例中，上述内容质量根据上述评论信息的长度、图片、段落、标题、字体和意见性导语中的一种或多种对上述评论信息进行质量评价并生成质量标识。

在本发明的一些实施例中，上述意见性导语包含认为、观点、觉得、看法、赞同、支持、反对、同意、总的来说、一般和通常中的任意一项或多项。

在本发明的一些实施例中，根据上述评价内容分析上述行业属性，根据上述行业属性与上述属性标识的匹配度确定上述评论信息的上述选取范围。

在本发明的一些实施例中，上述评论信息通过新闻资讯类网站获取。

在本发明的一些实施例中，上述新闻资讯类网站包含新闻评价用语、互联网社评和***中的任意一种或多种。

在本发明的一些实施例中，将多组上述评论信息的内容进行语义分析，并根据多组上述评论信息与上述评价内容的匹配度计算相似内容的出现频率，从而生成回复内容。

在本发明的一些实施例中，上述评论信息包含评价用语和评论。

在本发明的一些实施例中，根据上述评论信息中上述评价用语的出现频率生成评价用语模板，并通过评价用语数据库存储上述评价用语模板，从而通过上述评价用语模板调用上述评价用语并生成上述回复内容。

在本发明的一些实施例中，根据上述评论信息中上述评论的出现频率生成评论模板，并通过评论数据库存储上述评论模板，从而通过上述评价用语模板调用上述评论并生成上述回复内容。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

一种评论自动生成方法，包含获取评价内容，将评价内容输入GPT-2训练模型中以确定回复内容，其中，GPT-2训练模型为使用多组评论数据通过机器学习训练得到，多组评论数据包含第一类数据和第二类数据，第一类数据的每组数据均包含评论信息及标识评论信息的内容属性的属性标识，第二类数据的每组数据均包含评论信息及标识多组评论信息的内容质量的质量标识；根据评价内容的行业属性选择属性标识以确定评论信息的选取范围，并根据质量标识选择评论信息的内容以生成回复内容。

本发明通过获取评价内容，将评价内容输入GPT-2训练模型中以确定评价内容的回复内容，实现了评论性内容的回复；第一类数据中的评论信息及标识评论信息的内容属性的属性标识，第一类数据通过机器学习得到GPT-2训练模型，从而将不同领域的信息进行迁移，产生新的回复内容；第二类数据中的评论数据中的评论信息及标识多组评论信息的内容质量的质量标识，第二类数据通过机器学习得到GPT-2训练模型，从而利用评论信息的内容质量生成回复内容，使得回复内容认真度更高，更符合用户要求；根据评价内容的行业属性选择属性标识以确定评论信息的选取范围，从而利用评价内容的行业属性选择评论信息中更为合适的回复内容，提高回复内容的准确度；根据质量标识选择评论信息的内容以生成回复内容，从而选择评论信息的内容以组合成新的回复内容，提高回复内容的价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例评论自动生成方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1，图1所示为本申请实施例提供的评论自动生成方法的流程示意图。评论自动生成方法，包含获取评价内容，将上述评价内容输入GPT-2训练模型中以确定回复内容，其中，上述GPT-2训练模型为使用多组评论数据通过机器学习训练得到，多组上述评论数据包含第一类数据和第二类数据，上述第一类数据的每组数据均包含评论信息及标识上述评论信息的内容属性的属性标识，上述第二类数据的每组数据均包含评论信息及标识多组上述评论信息的内容质量的质量标识；根据上述评价内容的行业属性选择上述属性标识以确定上述评论信息的选取范围，并根据上述质量标识选择上述评论信息的内容以生成上述回复内容。

详细的，GPT-2训练模型根据评价内容确定回复内容，可以通过输入[用户内容][Comment]得到自动生成的评论。GPT-2训练模型为使用多组评论数据通过机器学习训练得到。GPT-2训练模型是一个语言模型，能够根据上文预测下一个单词，所以它就可以利用预训练已经学到的知识来生成文本，如生成新闻。也可以使用另一些数据进行微调，生成有特定格式或者主题的文本，如诗歌和戏剧。

其中，多组评论数据包含第一类数据和第二类数据。第一类数据的每组数据均包含评论信息及标识评论信息的内容属性的属性标识，第二类数据的每组数据均包含评论信息及标识多组评论信息的内容质量的质量标识。根据评价内容的行业属性选择属性标识以确定评论信息的选取范围，并根据质量标识选择评论信息的内容以生成回复内容。详细的，第一类数据通过评论信息的内容属性添加属性标识，第二类数据通过评论信息的内容质量添加质量标识，从而利用属性标识查找符合评价内容要求的评论信息，并且利用评论信息的内容质量筛选评论信息中有价值的内容，进而生成评价内容的回复内容。通过评价内容的行业属性选择属性标识，从而利用评价内容的行业属性选择具有针对性的评论信息。行业属性可以为不同应用领域、主题或者应用方式的关键词。行业属性可以由评价内容获取，也可以通过数据扩充技术和人工辅助输入。行业属性可以为多个，同一行业属性可以对应多个属性标识。

详细的，评论信息的内容可以包含所有内容，也可以只包含评论性语言。由于评论性内容相对于其他数据比重较小，因此在多组评论数据采集时，可以通过特定标识如质量标识筛选属于评价性内容的语句。

可以理解，图1所示的流程仅为示意，评论自动生成方法还可包括比图1中所示更多或者更少的步骤，或者具有与图1所示不同的配置。图1所示流程中各组件可以采用硬件、软件或其组合实现。

在上述应用场景中，本申请实施方式的动作描述可以由处理器执行，也可以由用户终端执行，或者还可以部分由用户终端执行、部分由处理器执行。本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

详细的，内容质量可以根据评论信息的长度大小、是否有图片***、段落分布规则、在段落之间是否存在小标题、是否为特殊字体、是否包含意见性导语，从而对评论信息进行评价，进而判断评论信息的编辑认真度。其中，特殊字体可以是加黑、斜体、加粗或带颜色。可以根据内容质量进行评级，从而根据内容质量的不同等级标记质量标识。从而利用是否存在质量标识或者质量标识的个数、等级进行筛选，从而快速查找出评论相关领域的标志性内容，进而产生具有深度的评论内容。

详细的，意见性导语包含表达观点的词语或句子，可以通过“认为”、“觉得”、“赞同”、“支持”和“想法”等词语表达。也可以加入主语，例如“我认为”和“笔者认为”，从而快速筛选出评论信息中表达观点的评价语。

详细的，根据评价内容分析行业属性，从而根据评价内容的行业属性和评论信息的属性标识计算匹配度，从而选择将相同或相似领域的评价信息。其中，可以通过语义匹配技术对评论信息和评价信息进行匹配。

在本发明的一些实施例中，上述评论信息通过新闻资讯类网站获取。可选的，上述新闻资讯类网站包含新闻评价用语、互联网社评和***中的任意一种或多种。

可选的，可以通过新闻资讯类网站获取评论信息的评价用语或评论。GPT2是以Transformer Decoder为基础的大规模语言模型，需要非常大的高质量评价用语，考虑到应用场景是评论生成，在语言形式上偏向口语化。因此，除了新闻评价用语，互联网社评，维基等中文评价用语外，还着重对互联网资讯的评论信息进行了抓取以丰富训练评价用语。

在本发明的一些实施例中，将多组上述评论信息的内容进行语义分析，并根据多组上述评论信息的与上述评价内容的匹配度计算相似内容的出现频率，从而生成回复内容。

详细的，通过语义匹配技术对评论信息的内容进行语义分析，从而将相同或相似的内容与评价内容相匹配，并根据评论信息和评价内容的匹配度将相似程度高的评论信息筛选出来，并根据出现频率高的相似内容进行选择，从而生成回复内容。通过匹配度查找到相似内容，并根据相似内容预测出下一个语句出现的概率。

在本发明的一些实施例中，上述评论信息包含评价用语和评论。可选的，根据上述评论信息中上述评价用语的出现频率生成评价用语模板，并通过评价用语数据库存储上述评价用语模板，从而通过上述评价用语模板调用上述评价用语并生成上述回复内容。详细的，通过调用评价用语模板，便于将评论直接加入评价用语模板，使得评论回复的内容更具人性化。可选的，评论可以通过人工辅助进行单独清洗，从而去除低质量和广告类的内容。

在本发明的一些实施例中，根据上述评论信息中上述评论的出现频率生成评论模板，并通过评论数据库存储上述评论模板，从而通过上述评价用语模板调用上述评论并生成上述回复内容。详细的，通过调用评论模板，便于根据属性标识直接调用对应评论生成回复内容并添加到评价用语，提高了评价内容的回复效率。

综上所述，本申请实施例提供的一种评论自动生成方法，通过获取评价内容，将评价内容输入GPT-2训练模型中以确定评价内容的回复内容，实现了评论性内容的回复；第一类数据中的评论信息及标识评论信息的内容属性的属性标识，第一类数据通过机器学习得到GPT-2训练模型，从而将不同领域的信息进行迁移，产生新的回复内容；第二类数据中的评论数据中的评论信息及标识多组评论信息的内容质量的质量标识，第二类数据通过机器学习得到GPT-2训练模型，从而利用评论信息的内容质量生成回复内容，使得回复内容认真度更高，更符合用户要求；根据评价内容的行业属性选择属性标识以确定评论信息的选取范围，从而利用评价内容的行业属性选择评论信息中更为合适的回复内容，提高回复内容的准确度；根据质量标识选择评论信息的内容以生成回复内容，从而选择评论信息的内容以组合成新的回复内容，提高回复内容的价值。通过属性标识和质量标识判定内容质量能够自动产生有深度，有针对性的评论内容，同时得益于大规模评价用语的GPT-2训练模型，对跨领域的内容生成具备迁移成本低的优势。在评论生成领域可以直观地引导GPT-2训练模型对特定内容进行评论，避免了深度学习领域无法解释和微调的局限。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种评论自动生成方法，其特征在于，包含：获取评价内容，将所述评价内容输入GPT-2训练模型中以确定回复内容，其中，所述GPT-2训练模型为使用多组评论数据通过机器学习训练得到，多组所述评论数据包含第一类数据和第二类数据，所述第一类数据的每组数据均包含评论信息及标识所述评论信息的内容属性的属性标识，所述第二类数据的每组数据均包含评论信息及标识多组所述评论信息的内容质量的质量标识；根据所述评价内容的行业属性选择所述属性标识以确定所述评论信息的选取范围，并根据所述质量标识选择所述评论信息的内容以生成所述回复内容。

2.如权利要求1所述的一种评论自动生成方法，其特征在于，所述内容质量根据所述评论信息的长度、图片、段落、标题、字体和意见性导语中的一种或多种对所述评论信息进行质量评价并生成质量标识。

3.如权利要求2所述的一种评论自动生成方法，其特征在于，所述意见性导语包含认为、观点、觉得、看法、赞同、支持、反对、同意、总的来说、一般和通常中的任意一项或多项。

4.如权利要求1所述的一种评论自动生成方法，其特征在于，根据所述评价内容分析所述行业属性，根据所述行业属性与所述属性标识的匹配度确定所述评论信息的所述选取范围。

5.如权利要求1所述的一种评论自动生成方法，其特征在于，所述评论信息通过新闻资讯类网站获取。

6.如权利要求5所述的一种评论自动生成方法，其特征在于，所述新闻资讯类网站包含新闻评价用语、互联网社评和***中的任意一种或多种。

7.如权利要求5所述的一种评论自动生成方法，其特征在于，将多组所述评论信息的内容进行语义分析，并根据多组所述评论信息与所述评价内容的匹配度计算相似内容的出现频率，从而生成回复内容。

8.如权利要求7所述的一种评论自动生成方法，其特征在于，所述评论信息包含评价用语和评论。

9.如权利要求8所述的一种评论自动生成方法，其特征在于，根据所述评论信息中所述评价用语的出现频率生成评价用语模板，并通过评价用语数据库存储所述评价用语模板，从而通过所述评价用语模板调用所述评价用语并生成所述回复内容。

10.如权利要求8或9所述的一种评论自动生成方法，其特征在于，根据所述评论信息中所述评论的出现频率生成评论模板，并通过评论数据库存储所述评论模板，从而通过所述评价用语模板调用所述评论并生成所述回复内容。