CN117216241A

CN117216241A - 文本信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN117216241A
Application number: CN202310162229.4A
Authority: CN
Inventors: 王励; 单子非; 陈谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-12-12

Abstract

本申请公开了一种文本信息处理方法、装置、电子设备及存储介质，应用于人工智能技术领域，该方法包括：获取多媒体内容的至少一种评论信息子集；对至少一种评论信息子集进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息；将至少一个代表评论信息和预设长度限制信息进行拼接处理得到的长度限制评论信息，输入评论摘要生成模型，在学习预设长度限制信息的语义信息的基础上，提取摘要信息，得到所述每一评论信息子集对应的评论摘要信息；评论摘要生成模型为基于对应多种长度限制信息的多个样本长度限制评论信息对预设深度学习模型进行摘要生成训练得到的。利用本申请提供的技术方案可以提升摘要生成模型适用场景的全面性。

Description

文本信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本信息处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，大量社交平台也在不断的升级，可以发表视频、文章、图文信息等各种多媒体内容，多媒体内容发表后，往往有非常多的评论信息，这些评论信息中有大量重复信息、有不同的观点表达；因此，生成不同观点的摘要信息，可以帮助用户快速了解大量评论信息。

相关技术中，常常结合人工智能技术中的深度学习训练出可以用于生成文本摘要的模文本摘要生成模型，但不同场景下对文本摘要的长度需求不同，相关技术中往往需要训练不同的摘要生成模型，导致相关技术中文本摘要生成模型存在适用局限性，模型训练成本和资源消耗较大等问题。因此，需要提供更可靠或更高效的方案。

发明内容

本申请提供了一种文本信息处理方法、装置、设备、存储介质及计算机程序产品，可以对生成的评论摘要信息进行长度限制，实现基于单个评论摘要生成模型适用不同摘要长度限制需求，大大提升摘要生成模型适用场景的全面性；且可以有效降低多长度限制需求场景下，摘要生成模型的训练成本和训练过程中的资源消耗。

一方面，本申请提供了一种文本信息处理方法，所述方法包括：

获取多媒体内容对应的至少一种评论信息子集；

对所述至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息；

对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息；

将所述至少一个长度限制评论信息输入评论摘要生成模型，在学习所述预设长度限制信息的语义信息的基础上，从所述至少一个长度限制评论信息中提取所述至少一个代表评论信息对应的摘要信息，得到所述每一评论信息子集对应的评论摘要信息；

其中，所述评论摘要生成模型为基于多个样本长度限制评论信息对预设深度学习模型进行摘要生成训练得到的，所述多个样本长度限制评论信息对应多种长度限制信息，所述多种长度限制信息包括所述预设长度限制信息。

另一方面提供了一种文本信息处理装置，所述装置包括：

评论信息子集获取模块，被配置为执行获取多媒体内容对应的至少一种评论信息子集；

代表评论提取处理模块，被配置为执行对所述至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息；

拼接处理模块，被配置为执行对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息；

评论摘要生成模块，被配置为执行将所述至少一个长度限制评论信息输入评论摘要生成模型，在学习所述预设长度限制信息的语义信息的基础上，从所述至少一个长度限制评论信息中提取所述至少一个代表评论信息对应的摘要信息，得到所述每一评论信息子集对应的评论摘要信息；

另一方面提供了一种电子设备，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的文本信息处理方法。

另一方面提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一项所述的文本信息处理方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的文本信息处理方法。

本申请提供的文本信息处理方法、装置、设备、存储介质及计算机程序产品，具有如下技术效果：

本申请通过对多媒体内容对应的至少一种评论信息子集，分别进行代表评论提取处理，可以得到不同评论观点对应的代表评论信息；接着，将不同评论观点对应的代表评论信息和多媒体内容对应的预设长度限制信息进行拼接后的长度限制评论信息，输入评论摘要生成模型，在学习预设长度限制信息的语义信息的基础上，从至少一个长度限制评论信息中提取至少一个代表评论信息对应的摘要信息，可以在获取不同评论观点的评论摘要信息的同时，实现对评论摘要信息的长度控制，且评论摘要生成模型在提取评论摘要信息过程中，是通过学习预设长度限制信息的语义信息的方式，来实现对生成的评论摘要信息进行长度限制，使得评论摘要生成模型可以基于对应多种长度限制信息的多个样本长度限制评论信息，对预设深度学习模型进行摘要生成训练得到的，进而可以基于单个评论摘要生成模型适用不同摘要长度限制需求，大大提升摘要生成模型适用场景的全面性；且可以有效降低多长度限制需求场景下，摘要生成模型的训练成本和训练过程中的资源消耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种文本信息处理方法的流程示意图；

图3是本申请实施例提供的一种对至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息的流程示意图；

图4是本申请实施例提供的另一种文本信息处理方法的流程示意图；

图5是本申请实施例提供的另一种文本信息处理方法的流程示意图；

图6是本申请实施例提供的一种文本信息处理装置的结构示意图；

图7是本申请实施例提供的一种用于文本信息处理的电子设备的框图；

图8是本申请实施例提供的另一种用于文本信息处理的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的自然语言处理、深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该应用环境至少可以包括服务器100和终端200。

在一个可选的实施例中，服务器100可以用于进行评论信息的摘要生成、评论分析等处理，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。

在一个可选的实施例中，终端200可以用于面向用户提供访问多媒体内容的展示服务，以及针对多媒体内容的评论服务等。具体的，终端200可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备、车载终端、智能电视等类型的电子设备；也可以为运行于上述电子设备的软体，例如应用程序、小程序等。本申请实施例中电子设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。

此外，需要说明的是，图1所示的仅仅是一种文本信息处理方法的应用环境，本说明书实施例并不以上述为限。

本说明书实施例中，上述服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以下介绍本申请一种文本信息处理方法，图2是本申请实施例提供的一种文本信息处理方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，方法可以包括：

S201：获取多媒体内容对应的至少一种评论信息子集。

在一个具体的实施例中，多媒体内容可以为视频、图像、文本等已发布的内容。多媒体内容对应的至少一种评论信息子集可以为多媒体内容对应的至少一种评论观点，每一种评论信息子集中的评论信息表达同一种观点，多个评论信息子集可以为观点不重复的多个评论文本类簇。

在一个可选的实施例中，可以获取多媒体内容对应的评论信息集，并对结合评论信息集中每个评论信息的特征信息，对评论信息集中的评论信息进行聚类处理，以得到至少一个评论信息集。具体的，评论信息的特征信息可以为评论信息的语义特征向量。多媒体内容对应的评论信息集可以为针对多媒体内容的评论信息的集合。

在一个可选的实施例中，可以采用基于密度的文本聚类方法对评论信息集中的评论信息进行聚类处理，进而将文本距离(特征信息间的距离)相近的文本聚集到一个评论信息子集中。可选的，可以结合预先训练好的文本特征向量提取模型提取评论信息的特征信息。

S203：对至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息。

在一个具体的实施例中，可以从每一评论信息子集选出至少一个评论信息，以作为该评论信息子集的至少一个代表评论信息。在一个可选的实施例中，如图3所示，上述对至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息可以包括：

S2031：获取每一评论信息子集中每一评论信息对应的代表筛选属性信息；

S2033：基于代表筛选属性信息，确定每一评论信息子集中每一评论信息对应的代表指标数据；

S2035：基于代表指标数据，从每一评论信息子集中筛选出每一评论信息子集对应的至少一个代表评论信息。

在一个具体的实施例中，上述代表筛选属性信息可以为表征每一评论信息的观点具有代表性的属性信息。可选的，上述代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度中的至少一种；

在一个具体的实施例中，可以评论信息对应的评论交互数据可以为点赞数、转发数等针对评论信息的交互操作数。评论信息对应的评论长度信息可以为该评论信息包含的词数量。评论信息对应的语义通顺度可以为表征评论信息语义通顺程度的指标数据；可选的，可以将评论信息输入预先训练好的语义通顺度识别模型进行通顺度识别，得到语义通顺度。评论信息对应的丰富度可以为表征评论信息语义丰富程度的指标数据；可选的，可以将评论信息输入预先训练好的语义丰富度识别模型进行丰富度识别，得到语义丰富度。

在一个可选的实施例中，评论信息对应的代表指标数据可以表征该评论信息为该评论信息所在评论信息子集的代表观点的概率；可选的，代表指标数据越大，该评论信息为该评论信息所在评论信息子集的代表观点的概率越大。

在一个可选的实施例中，在代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度的情况下，基于代表筛选属性信息，确定每一评论信息子集中每一评论信息对应的代表指标数据包括：

对每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度进行融合处理，得到每一评论信息对应的代表指标数据。

在一个具体的实施例中，上述对每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度进行融合处理，得到每一评论信息对应的代表指标数据可以包括：对每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度进行归一化处理；并将归一化后的评论交互数据、归一化后的评论长度信息、归一化后的语义通顺度和归一化后的语义丰富度相加，得到上述每一评论信息对应的代表指标数据。

上述实施例中，结合每一评论信息对应的评论交互数据、评论长度信息、语义通顺度和语义丰富度，来生成每一评论信息对应的代表指标数据，可以丰富代表指标数据的计算依据，大大提升代表指标数据的有效性，进而可以提升从每一评论信息子集中选出的代表评论信息的精准性。

在一个具体的实施例中，在代表筛选属性信息为评论交互数据的情况下，可以将评论交互数据作为代表指标数据；可选的，在代表筛选属性信息为评论长度信息的情况下，可以将评论长度信息作为代表指标数据。在代表筛选属性信息为语义通顺度的情况下，可以将语义通顺度作为代表指标数据。在代表筛选属性信息为语义丰富度的情况下，可以将语义丰富度作为代表指标数据。

在一个具体的实施例中，在代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度中至少两种属性信息的情况下，可以对至少两个属性信息进行归一化，并将至少两个属性信息对应的归一化后数据相加，得到评论信息对应的代表指标数据。

在一个具体的实施例中，可以每种评论信息子集中筛选出的代表评论信息的数量(预设数量)可以结合实际应用需求预先设置，相应的，可以选出代表指标数据较大的预设数量个评论信息作为相应评论信息子集对应的至少一个代表评论信息(即预设数量个代表评论信息)。

上述实施例中，结合能够表征每一评论信息的观点具有代表性的属性信息，来确定代表指标数据，进而可以结合代表指标数据，快速精准从每一评论信息子集中筛选出每一评论信息子集对应的至少一个代表评论信息。

S205：对至少一个代表评论信息和多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息；

在一个具体的实施例中，不同场景下对摘要信息的长度限制不同，相应的，可以结合多媒体内容对应的场景需求来确定预设长度限制信息；具体的，预设长度限制信息可以为描述多媒体内容对应场景需求的摘要长度限制的文本信息，具体的，以多媒体内容对应的场景需求的摘要长度限制为10，预设长度限制信息可以为“生成10字以内摘要:”。

在一个可选的实施例中，上述对至少一个代表评论信息和多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息可以包括：

将至少一个代表评论信息分别与预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息；

或者，

将至少一个代表评论信息进行拼接处理，得到每一评论信息子集对应的评论拼接信息；

将评论拼接信息和预设长度限制信息进行拼接处理，得到每一评论信息子集对应长度限制评论信息。

在一个具体的实施例中，在将至少一个代表评论信息分别与预设长度限制信息进行拼接处理的情况下，每一代表评论信息可以对应一个长度限制评论信息。可选的，假设某一代表评论信息为“这集真的太好看了，点赞点赞”，且上述预设长度限制信息为“生成10字以内摘要:”，相应的，长度限制评论信息可以为“生成10字以内摘要:这集真的太好看了，点赞点赞”。在将至少一个代表评论信息进行拼接处理后，再与预设长度限制信息进行拼接处理的情况下，至少一个代表评论信息对应一个长度限制评论信息。

上述实施例中，通过将代表评论信息与预设长度限制信息进行拼接，可以使得后续用于生成摘要的长度限制评论信息中包括长度限制的语义，可以保证文本资源生成模型在提取评论信息的主要信息的过程中，学习到摘要的长度限制语义，进而可以对生成的摘要进行长度限制。

S207：将至少一个长度限制评论信息输入评论摘要生成模型，在学习预设长度限制信息的语义信息的基础上，从至少一个长度限制评论信息中提取至少一个代表评论信息对应的摘要信息，得到每一评论信息子集对应的评论摘要信息；

在一个具体的实施例中，上述评论摘要生成模型可以为基于多个样本长度限制评论信息对预设深度学习模型进行摘要生成训练得到的，多个样本长度限制评论信息对应多种长度限制信息，多种长度限制信息包括预设长度限制信息。预设深度学习模型可以为预先设置的深度学习文本生成模型，可选的，模型结构可以结合实际应用进行设置。具体的，多个样本长度限制评论信息可以为基于多个样本多媒体内容对应的至少一个样本评论信息子集对应的样本代表评论信息和多个样本多媒体内容各自的长度限制信息；可选的，多个样本多媒体内容各自的长度限制信息包括上述多种长度限制信息。

在一个可选的实施例中，上述评论摘要生成模型可以结合下述方式训练得到：将多个样本长度限制评论信息输入预设深度学习模型中，在学习多个样本长度限制评论信息各自对应长度限制信息的语义信息的基础上，从多个样本长度限制评论信息中提取样本代表评论信息的摘要信息，得到每个样本长度限制评论信息对应的样本评论摘要信息，基于多个样本长度限制评论信息各自对应的样本评论摘要信息和多个样本长度限制评论信息各自对应的预设评论摘要信息，确定摘要生成损失；基于摘要生成损失，更新预设深度学习模型的模型参数，并基于更新后的预设深度学习模型，重复上述将多个样本长度限制评论信息输入预设深度学习模型中，在学习多个样本长度限制评论信息各自对应长度限制信息的语义信息的基础上，从多个样本长度限制评论信息中提取样本代表评论信息的摘要信息，得到每个样本长度限制评论信息对应的样本评论摘要信息，至基于摘要生成损失，更新预设深度学习模型的模型参数的训练迭代步骤，直至满足预设训练收敛条件；将满足预设训练收敛条件时的预设深度学习模型作为评论摘要生成模型。

在一个可选的实施例中，在至少一个长度限制评论信息为多个长度限制评论信息的情况下，每一评论信息子集对应的评论摘要信息包括多个初始评论摘要信息；每一长度限制评论信息对应一个初始评论摘要信息；如图4所示，上述方法还可以包括：

S209：获取多个初始评论摘要信息各自的摘要筛选属性信息；

S211：基于摘要筛选属性信息，对多个初始评论摘要信息进行筛选处理，得到每一评论信息子集对应的目标评论摘要信息。

在一个具体的实施例中，上述摘要筛选属性信息可以为预设的评论摘要信息的筛选属性；可选的，上述摘要筛选属性信息可以包括摘要长度信息；上述基于摘要筛选属性信息，对多个初始评论摘要信息进行筛选处理，得到每一评论信息子集对应的目标评论摘要信息可以包括：

确定至少一个初始评论摘要信息中对应的摘要长度信息与预设长度限制信息匹配的至少一个匹配评论摘要信息；

根据至少一个匹配评论摘要信息，确定目标评论摘要信息。

在一个具体的实施例中，每一初始评论摘要信息对应的摘要长度信息可以为该初始评论摘要信息中的词数量。具体的，摘要长度信息与预设长度限制信息匹配可以为摘要长度信息与预设长度限制信息对应的长度信息一致。在一个可选的实施例中，在至少一个匹配评论摘要信息为一个匹配评论摘要信息的情况下，根据至少一个匹配评论摘要信息，确定目标评论摘要信息可以包括：将一个匹配评论摘要信息，作为目标评论摘要信息。

上述实施例中，结合至少一个初始评论摘要信息中对应的摘要长度信息与预设长度限制信息的匹配情况，优先选择摘要长度信息与预设长度限制信息匹配的初始评论摘要信息为评论信息子集最终的目标评论摘要信息，可以大大提升目标评论摘要信息与场景需求的匹配度。

在一个可选的实施例中，在至少一个匹配评论摘要信息为多个匹配评论摘要信息的情况下，上述摘要筛选属性信息还可以包括多个匹配评论摘要信息对应评论信息的评论交互数据；相应的，上述根据至少一个匹配评论摘要信息，确定目标评论摘要信息可以包括：

根据多个匹配评论摘要信息各自对应的评论交互数据，对多个匹配评论摘要信息进行筛选处理，得到目标评论摘要信息。

在一个具体的实施例中，以评论交互数据为点赞数为例，可以将点赞数最高的匹配评论摘要信息作为目标评论摘要信息。可选的，若点赞数最高的匹配评论摘要信息有至少两个，相应的，可以随机从点赞数最高的至少两个匹配评论摘要信息中选择一个匹配评论摘要信息作为目标评论摘要信息。

上述实施例中，在摘要长度信息与预设长度限制信息相匹配的评论摘要信息有多个的情况下，可以结合为多个匹配评论摘要信息各自对应的评论交互数据，对多个匹配评论摘要信息进行筛选处理，进而可以使得最终的目标评论摘要信息满足场景需求的基础上，得到更多用户的支持。

在一个可选的实施例中，上述方法还可以包括：

在每一评论信息子集对应的至少一个代表评论信息中包括目标代表评论信息的情况下，将目标代表评论信息作为每一评论信息子集对应的评论摘要信息；具体的，目标代表评论信息为对应的评论长度信息与预设长度限制信息匹配的每一代表评论信息；

相应的，上述对至少一个代表评论信息和多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息包括：

在每一评论信息子集对应的至少一个代表评论信息中不包括目标代表评论信息的情况下，对至少一个代表评论信息和多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息。

上述实施例中，在每种评论信息子集中选出的代表评论信息对应的评论长度信息与预设长度限制信息匹配的情况下，可以直接将每一匹配的代表评论信息作为评论摘要信息，进而提升评论摘要信息确定效率。

在一个可选的实施例中，如图5所示，上述方法还可以包括：

S213：基于至少一种评论信息子集对应的评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果。

在一个具体的实施例中，可以结合实际应用需求，从相应的分析维度对多媒体内容进行评论分析处理。可选的，多媒体内容的评论分析维度可以包括但不限于评论情感分析、恶意评论检测、观点关联分析等维度。可选的，以评论情感分析维度为例，可以将评论摘要信息输入预先训练好的评论情感分析模型进行评论情感分，得到对应的评论信息子集的评论情感分析结果(评论分析结果)；可选的，评论情感分析结果可以为正面评论、负面评论或中性评论等，具体的，评论情感分析结果不限于上述这种情感类别设计，还可以包含更丰富的评论情感分析结果。可选的，以恶意评论检测维度为例，可以将评论摘要信息输入预先训练好的恶意评论检测模型进行恶意评论检测，得到对应的评论信息子集的恶意评论检测结果(评论分析结果)；可选的，恶意评论检测结果可以为是否是恶意评论或恶意程度等。可选的，以观点关联分析维度为例，可以将两个评论信息子集对应的评论摘要信息输入预先训练好的观点关联分析模型进行观点关联分析，得到观点关联分析结果(评论分析结果)；可选的，观点关联分析结果可以为两个评论信息子集间的观点相关或观点冲突等。

此外，需要说明的是，上述基于至少一种评论信息子集对应的评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果可以包括：

基于至少一种评论信息子集对应的目标评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果。

具体的，基于至少一种评论信息子集对应的目标评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果可以参见基于至少一种评论信息子集对应的评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果的相关细化，在此不再赘述。

上述实施例中，结合多媒体内容对应的至少一种评论信息子集对应的评论摘要信息进行多媒体内容的评论分析处理，可以提升评论分析的有效性，进而提升评论分析结果的准确性。

在一个可选的实施例中，上述方法还可以包括：

查询每一评论信息子集中评论信息对应的评论交互数据；

在查询到每一评论信息子集中至少一个评论信息对应的评论交互数据的情况下，基于每一评论信息子集中评论信息对应的评论交互数据，生成每一评论信息子集对应的摘要支持指标数据，摘要支持指标数据表征每一评论信息子集对应的评论摘要信息的支持度；

相应的，上述基于至少一种评论信息子集对应的评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果可以包括：

基于至少一种评论信息子集对应的评论摘要信息和至少一种评论信息子集对应的摘要支持指标数据，对多媒体内容进行评论分析处理，得到评论分析结果。

在实际应用中，一些评论分析场景中，可以结合每一评论信息子集对应的评论摘要信息的支持度，例如恶意评论检测等。

在一个具体的实施例中，可以将评论信息子集中评论信息对应的评论交互数据之和(例如点赞数之和)作为该评论信息子集对应的摘要支持指标数据。

在一个具体的实施例中，以恶意评论检测为例，可以将每一评论信息子集对应的评论摘要信息和每一评论信息子集对应的摘要支持指标数据输入预先训练好的恶意评论检测模型，得到对应的评论信息子集的恶意评论检测结果。可选的，摘要支持指标数据越大，即每一评论信息子集对应的评论摘要信息的支持度越大，相应的，在评论摘要信息具有恶意评论语义的情况下，评论信息子集的恶意评论检测结果为属于恶意评论的概率越高。

在一个可选的实施例中，上述方法还可以包括：

在未查询到每一评论信息子集中任一评论信息对应的评论交互数据的情况下，获取每一评论信息子集中评论信息的数量；

基于每一评论信息子集中评论信息的数量，生成每一评论信息子集对应的摘要支持指标数据。

在一个可选的实施例中，可以将每一评论信息子集中评论信息的数量作为该评论信息子集对应的摘要支持指标数据。此外，在实际应用中，评论信息子集对应的摘要支持指标数据并仅限于采用上述的方式确定，还可以采用其他方式来确定，例如以评论交互数据和或评论信息数量为输入，结合预先训练好的支持指标识别模型来确定等。

上述实施例中，在对多媒体内容进行评论分析处理过程中，结合表征每一评论信息子集对应的评论摘要信息支持度的摘要支持指标数据，可以更好的提升评论分析结果的有效性和准确性。

由以上本说明书实施例提供的技术方案可见，本说明书通过对多媒体内容对应的至少一种评论信息子集，分别进行代表评论提取处理，可以得到不同评论观点对应的代表评论信息；接着，将不同评论观点对应的代表评论信息和多媒体内容对应的预设长度限制信息进行拼接后的长度限制评论信息，输入评论摘要生成模型，在学习预设长度限制信息的语义信息的基础上，从至少一个长度限制评论信息中提取至少一个代表评论信息对应的摘要信息，可以在获取不同评论观点的评论摘要信息的同时，实现对评论摘要信息的长度控制，且评论摘要生成模型在提取评论摘要信息过程中，是通过学习预设长度限制信息的语义信息的方式，来实现对生成的评论摘要信息进行长度限制，使得评论摘要生成模型可以基于对应多种长度限制信息的多个样本长度限制评论信息，对预设深度学习模型进行摘要生成训练得到的，进而可以基于单个评论摘要生成模型适用不同摘要长度限制需求，大大提升摘要生成模型适用场景的全面性；且可以有效降低多长度限制需求场景下，摘要生成模型的训练成本和训练过程中的资源消耗。

本申请实施例还提供了一种文本信息处理装置，如图6所示，上述装置包括：

评论信息子集获取模块610，被配置为执行获取多媒体内容对应的至少一种评论信息子集；

代表评论提取处理模块620，被配置为执行对所述至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息；

拼接处理模块630，被配置为执行对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息；

评论摘要生成模块640，被配置为执行将所述至少一个长度限制评论信息输入评论摘要生成模型，在学习所述预设长度限制信息的语义信息的基础上，从所述至少一个长度限制评论信息中提取所述至少一个代表评论信息对应的摘要信息，得到所述每一评论信息子集对应的评论摘要信息；

在一个可选的实施例中，所述代表评论提取处理模块620包括：

代表筛选属性信息获取单元，被配置为执行获取所述每一评论信息子集中每一评论信息对应的代表筛选属性信息，所述代表筛选属性信息为表征所述每一评论信息的观点具有代表性的属性信息；

代表指标数据确定单元，被配置为执行基于所述代表筛选属性信息，确定所述每一评论信息子集中每一评论信息对应的代表指标数据，所述代表指标数据表征所述每一评论信息为所述每一评论信息所在评论信息子集的代表观点的概率；

代表评论信息筛选单元，被配置为执行基于所述代表指标数据，从所述每一评论信息子集中筛选出所述每一评论信息子集对应的至少一个代表评论信息。

在一个可选的实施例中，所述代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度中的至少一种；

在所述代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度的情况下，所述代表指标数据确定单元具体被配置为执行对所述每一评论信息对应的评论交互数据、所述每一评论信息对应的评论长度信息、所述每一评论信息对应的语义通顺度和所述每一评论信息对应的语义丰富度进行融合处理，得到所述每一评论信息对应的代表指标数据。

在一个可选的实施例中，在所述至少一个长度限制评论信息为多个长度限制评论信息的情况下，所述每一评论信息子集对应的评论摘要信息包括多个初始评论摘要信息；所述装置还包括：

摘要筛选属性信息获取模块，被配置为执行获取所述多个初始评论摘要信息各自的摘要筛选属性信息；

摘要筛选处理模块，被配置为执行基于所述摘要筛选属性信息，对所述多个初始评论摘要信息进行筛选处理，得到所述每一评论信息子集对应的目标评论摘要信息。

在一个可选的实施例中，所述摘要筛选属性信息包括摘要长度信息；所述摘要筛选处理模块包括：

匹配评论摘要信息确定单元，被配置为执行确定所述至少一个初始评论摘要信息中对应的摘要长度信息与所述预设长度限制信息匹配的至少一个匹配评论摘要信息；

目标评论摘要信息确定单元，被配置为执行根据所述至少一个匹配评论摘要信息，确定所述目标评论摘要信息。

在一个可选的实施例中，在所述至少一个匹配评论摘要信息为多个匹配评论摘要信息的情况下，所述摘要筛选属性信息还包括所述多个匹配评论摘要信息对应评论信息的评论交互数据；所述目标评论摘要信息确定单元具体被配置为执行根据所述多个匹配评论摘要信息各自对应的评论交互数据，对所述多个匹配评论摘要信息进行筛选处理，得到所述目标评论摘要信息。

在一个可选的实施例中，所述装置还包括：

评论摘要信息确定模块，被配置为执行在所述每一评论信息子集对应的至少一个代表评论信息中包括目标代表评论信息的情况下，将所述目标代表评论信息作为所述每一评论信息子集对应的评论摘要信息；所述目标代表评论信息为对应的评论长度信息与所述预设长度限制信息匹配的每一代表评论信息；

所述拼接处理模块630具体被配置为执行在所述每一评论信息子集对应的至少一个代表评论信息中不包括目标代表评论信息的情况下，对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息。

在一个可选的实施例中，所述拼接处理模块630包括：

第一拼接处理单元，被配置为执行将所述至少一个代表评论信息分别与所述预设长度限制信息进行拼接处理，得到每一评论信息子集对应的所述至少一个长度限制评论信息；

或者，

第二拼接处理单元，被配置为执行将所述至少一个代表评论信息进行拼接处理，得到每一评论信息子集对应的评论拼接信息；

第三拼接处理单元，被配置为执行将所述评论拼接信息和所述预设长度限制信息进行拼接处理，得到每一评论信息子集对应长度限制评论信息。

在一个可选的实施例中，所述装置还包括：

评论分析处理模块，被配置为执行基于所述至少一种评论信息子集对应的评论摘要信息，对所述多媒体内容进行评论分析处理，得到评论分析结果。

在一个可选的实施例中，所述装置还包括：

评论交互数据查询模块，被配置为执行查询所述每一评论信息子集中评论信息对应的评论交互数据；

第一摘要支持指标数据生成模块，被配置为执行在查询到所述每一评论信息子集中至少一个评论信息对应的评论交互数据的情况下，基于所述每一评论信息子集中评论信息对应的评论交互数据，生成所述每一评论信息子集对应的摘要支持指标数据，所述摘要支持指标数据表征所述每一评论信息子集对应的评论摘要信息的支持度；

所述评论分析处理模块具体被配置为执行基于所述至少一种评论信息子集对应的评论摘要信息和所述至少一种评论信息子集对应的摘要支持指标数据，对所述多媒体内容进行评论分析处理，得到所述评论分析结果。

在一个可选的实施例中，所述装置还包括：

评论信息数量获取模块，被配置为执行在未查询到所述每一评论信息子集中任一评论信息对应的评论交互数据的情况下，获取所述每一评论信息子集中评论信息的数量；

第二摘要支持指标数据生成模块，被配置为执行基于所述每一评论信息子集中评论信息的数量，生成所述每一评论信息子集对应的摘要支持指标数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是本申请实施例提供的一种用于文本信息处理的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图8是本申请实施例提供的另一种用于文本信息处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图8所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息处理方法。

本领域技术人员可以理解，图7或图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的文本信息处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的文本信息处理方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的文本信息处理方法。

可以理解的是，在本申请的具体实施方式中，涉及到用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本信息处理方法，其特征在于，所述方法包括：

获取多媒体内容对应的至少一种评论信息子集；

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一种评论信息子集分别进行代表评论提取处理，得到每一评论信息子集对应的至少一个代表评论信息包括：

获取所述每一评论信息子集中每一评论信息对应的代表筛选属性信息，所述代表筛选属性信息为表征所述每一评论信息的观点具有代表性的属性信息；

基于所述代表筛选属性信息，确定所述每一评论信息子集中每一评论信息对应的代表指标数据，所述代表指标数据表征所述每一评论信息为所述每一评论信息所在评论信息子集的代表观点的概率；

基于所述代表指标数据，从所述每一评论信息子集中筛选出所述每一评论信息子集对应的至少一个代表评论信息。

3.根据权利要求2所述的方法，其特征在于，所述代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度中的至少一种；

在所述代表筛选属性信息包括每一评论信息对应的评论交互数据、每一评论信息对应的评论长度信息、每一评论信息对应的语义通顺度和每一评论信息对应的语义丰富度的情况下，所述基于所述代表筛选属性信息，确定所述每一评论信息子集中每一评论信息对应的代表指标数据包括：

对所述每一评论信息对应的评论交互数据、所述每一评论信息对应的评论长度信息、所述每一评论信息对应的语义通顺度和所述每一评论信息对应的语义丰富度进行融合处理，得到所述每一评论信息对应的代表指标数据。

4.根据权利要求1所述的方法，其特征在于，在所述至少一个长度限制评论信息为多个长度限制评论信息的情况下，所述每一评论信息子集对应的评论摘要信息包括多个初始评论摘要信息；所述方法还包括：

获取所述多个初始评论摘要信息各自的摘要筛选属性信息；

基于所述摘要筛选属性信息，对所述多个初始评论摘要信息进行筛选处理，得到所述每一评论信息子集对应的目标评论摘要信息。

5.根据权利要求4所述的方法，其特征在于，所述摘要筛选属性信息包括摘要长度信息；所述基于所述摘要筛选属性信息，对所述多个初始评论摘要信息进行筛选处理，得到所述每一评论信息子集对应的目标评论摘要信息包括：

确定所述至少一个初始评论摘要信息中对应的摘要长度信息与所述预设长度限制信息匹配的至少一个匹配评论摘要信息；

根据所述至少一个匹配评论摘要信息，确定所述目标评论摘要信息。

6.根据权利要求5所述的方法，其特征在于，在所述至少一个匹配评论摘要信息为多个匹配评论摘要信息的情况下，所述摘要筛选属性信息还包括所述多个匹配评论摘要信息对应评论信息的评论交互数据；所述根据所述至少一个匹配评论摘要信息，确定所述目标评论摘要信息包括：

根据所述多个匹配评论摘要信息各自对应的评论交互数据，对所述多个匹配评论摘要信息进行筛选处理，得到所述目标评论摘要信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述每一评论信息子集对应的至少一个代表评论信息中包括目标代表评论信息的情况下，将所述目标代表评论信息作为所述每一评论信息子集对应的评论摘要信息；所述目标代表评论信息为对应的评论长度信息与所述预设长度限制信息匹配的每一代表评论信息；

所述对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息包括：

在所述每一评论信息子集对应的至少一个代表评论信息中不包括目标代表评论信息的情况下，对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息。

8.根据权利要求1所述的方法，其特征在于，所述对所述至少一个代表评论信息和所述多媒体内容对应的预设长度限制信息进行拼接处理，得到每一评论信息子集对应的至少一个长度限制评论信息包括：

将所述至少一个代表评论信息分别与所述预设长度限制信息进行拼接处理，得到每一评论信息子集对应的所述至少一个长度限制评论信息；

或者，

将所述至少一个代表评论信息进行拼接处理，得到每一评论信息子集对应的评论拼接信息；

将所述评论拼接信息和所述预设长度限制信息进行拼接处理，得到每一评论信息子集对应长度限制评论信息。

9.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

基于所述至少一种评论信息子集对应的评论摘要信息，对所述多媒体内容进行评论分析处理，得到评论分析结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

查询所述每一评论信息子集中评论信息对应的评论交互数据；

在查询到所述每一评论信息子集中至少一个评论信息对应的评论交互数据的情况下，基于所述每一评论信息子集中评论信息对应的评论交互数据，生成所述每一评论信息子集对应的摘要支持指标数据，所述摘要支持指标数据表征所述每一评论信息子集对应的评论摘要信息的支持度；

所述基于所述至少一种评论信息子集对应的评论摘要信息，对多媒体内容进行评论分析处理，得到评论分析结果包括：

基于所述至少一种评论信息子集对应的评论摘要信息和所述至少一种评论信息子集对应的摘要支持指标数据，对所述多媒体内容进行评论分析处理，得到所述评论分析结果。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

在未查询到所述每一评论信息子集中任一评论信息对应的评论交互数据的情况下，获取所述每一评论信息子集中评论信息的数量；

基于所述每一评论信息子集中评论信息的数量，生成所述每一评论信息子集对应的摘要支持指标数据。

12.一种文本信息处理装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至11中任一项所述的文本信息处理方法。

14.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11中任一项所述的文本信息处理方法。