CN111782761A

CN111782761A - 评论信息的确定方法、装置、电子设备及存储介质

Info

Publication number: CN111782761A
Application number: CN202010398921.3A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-10-16
Anticipated expiration: 2040-05-12
Also published as: CN111782761B

Abstract

本发明实施例提供了一种评论信息的确定方法、装置、电子设备及存储介质。该方法包括：从多个多媒体对象中，确定出不相似对象对；获取每一个不相似对象对中的多媒体对象的评论信息中的相同评论信息，并确定为候选信息；获取候选信息的出现次数；根据候选信息的出现次数，从候选信息中选出至少部分信息，并确定为通用型评论；剔除多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息，因此，本发明的方案，可以解决现有技术中从多媒体对象的评论信息中，提取通用型评论的准确度较低，从而不利于后续对多媒体对象的分析和理解的问题。

Description

评论信息的确定方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种评论信息的确定方法、装置、电子设备及存储介质。

背景技术

各短视频平台上的视频在被用户评论后，经常出现很多没有意义的通用型评论比如“666”、“赞赞赞”、“玫瑰玫瑰”。这些评论对视频的分析和理解是不利的。因此，可以借助算法的能力识别并剔除掉这些通用型评论，然后保留与视频有较大信息关联的评论，从而帮助后续的视频理解和分析。

其中，现有技术中，为了获取上述通用型的评论，往往将全部视频下的评论进行计数统计，然后取评论数最多的前几条评论作为通用型评论信息。然而，此种方式所提取的通用型评论中往往也会包括较多与视频有较大信息关联的相似评论，从而在将这些评论也当作通用型评论剔除时，不便于后续对视频的理解和分析。

由此可见，现有技术中，从多媒体对象的评论信息中，提取通用型评论的准确度较低，从而不利于后续对多媒体对象的分析和理解。

发明内容

本发明实施例提供一种评论信息的确定方法、装置、电子设备及存储介质，以解决现有技术中从多媒体对象的评论信息中，提取通用型评论的准确度较低，从而不利于后续对多媒体对象的分析和理解的问题。

根据本发明实施例的第一方面，提供一种评论信息的确定方法，包括：

从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个所述多媒体对象，且一个所述不相似对象对中包括的两个所述多媒体对象的相似度小于第一预设阈值；

获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息；

获取所述候选信息中的每一种候选信息的出现次数；

根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论；

剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

可选的，所述从多个多媒体对象中，确定出不相似对象对，包括：

获取每一个所述多媒体对象的特征信息；

根据所述特征信息，确定所述多媒体对象的特征向量；

获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度；

将小于所述第一预设阈值的相似度对应的两个所述多媒体对象，确定为一个不相似对象对。

可选的，所述获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度，包括：

采用余弦相似度算法，获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度。

可选的，所述根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论，包括：

将所述候选信息中出现次数大于第二预设阈值的候选信息，确定为通用型评论。

按照所述出现次数由大到小的顺序，对所述候选信息进行排序；

将所述排序中，位于前预设数量的候选信息，确定为通用型评论。

根据本发明实施例的第二方面，提供一种评论信息的确定装置，包括：

对象对确定模块，被配置为从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个所述多媒体对象，且一个所述不相似对象对中包括的两个所述多媒体对象的相似度小于第一预设阈值；

候选信息确定模块，被配置为获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息；

次数统计模块，被配置为获取所述候选信息中的每一种候选信息的出现次数；

筛选模块，被配置为根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论；

目标评论信息确定模块，被配置为剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

可选的，所述对象对确定模块包括：

特征信息确定单元，被配置为获取每一个所述多媒体对象的特征信息；

特征向量确定单元，被配置为根据所述特征信息，确定所述多媒体对象的特征向量；

相似度计算单元，被配置为获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度；

对象对确定单元，被配置为将小于所述第一预设阈值的相似度对应的两个所述多媒体对象，确定为一个不相似对象对。

可选的，所述相似度计算单元具体被配置为：

可选的，所述筛选模块包括：

第一筛选单元，被配置为将所述候选信息中出现次数大于第二预设阈值的候选信息，确定为通用型评论。

可选的，所述筛选模块包括：

排序单元，被配置为按照所述出现次数由大到小的顺序，对所述候选信息进行排序；

第二筛选单元，被配置为将所述排序中，位于前预设数量的候选信息，确定为通用型评论。

根据本发明实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现上述所述的评论信息的确定方法所执行的操作。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种以实现上述所述的评论信息的确定方法所执行的操作。

与现有技术相比，本发明具有以下优点：

本发明的实施例，从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个相似度小于第一预设阈值的多媒体对象，然后获取每一个不相似对象对中的两个多媒体对象的评论信息中的相同评论信息，再根据这些相同评论信息的出现次数，筛选出通用型评论，进而从上述多个多媒体对象的评论信息中将出现的通用型评论剔除，则可以获取到这些多媒体对象的目标评论信息(即有效性评论信息)。其中，不相似的多媒体对象的评论信息中的相同评论信息中不可能包括与多媒体对象的特征有较大关联的相似评论，因而，本发明的实施例，从多媒体对象的特征出发，在不相似的多媒体对象的评论信息中的相同评论信息中，提取通用型评论，可以在一定程度上避免将与多媒体对象的特征有较大信息关联的相似评论确定为通用型评论，从而提升了通用型评论的准确度，亦即提升了确定有效性评论信息的准确度，进而有利于后续根据有效性评论信息分析和理解多媒体对象。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一的评论信息的确定方法的流程图；

图2是本发明实施例二的评论信息的确定方法的流程图；

图3是本发明实施例三的评论信息的确定装置的结构框图；

图4是本发明实施例四的评论信息的确定装置的结构框图；

图5是本发明实施例五的电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了本发明实施例一的一种评论信息的确定方法，该评论信息的确定方法可以包括以下步骤：

步骤101：从多个多媒体对象中，确定出不相似对象对。

其中，一个不相似对象对中包括两个所述多媒体对象，且一个所述不相似对象对中包括的两个所述多媒体对象的相似度小于第一预设阈值。两个多媒体对象的相似度是针对多媒体对象自身的特征，即一个不相似对象对中的两个多媒体对象的特征信息的相似度小于第一预设阈值。

另外，本发明实施例中的多媒体对象为被评论对象，例如可以为视频、图片、音频、文本等。

此外，可选的，第一预设阈值，还可根据用户的操作进行相应调整。

对于上述多个多媒体对象，例如包括对象A、对象B和对象C，且对象A与对象B不相似，对象A与对象C相似，对象B与对象C不相似，则从对象A、对象B和对象C中，可以获得两个不相似对象对，一个不相似对象对中包括对象A与对象B，一个不相似对象对中包括对象B和对象C。

步骤102：获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息。

其中，相同评论信息即为在两个多媒体对象的评论信息中共同出现的评论信息。

例如步骤101中获取到的不相似对象对包括第一不相似对象对和第二不相似对象对，其中第一不相似对象对包括对象A和对象B，第二不相似对象对包括对象B和对象C，其中，若对象A的评论信息包括信息a、信息b、信息a(即对象A的评论信息中信息a出现两次，信息b出现一次)；对象B的评论信息包括信息a、信息c；对象C的评论信息包括信息a、信息c、信息c(即对象C的评论信息中信息c出现两次，信息a出现一次)；则第一不相似对象对中的相同评论信息为信息a，第二不相似对象对中的相同评论信息为信息a和信息c。其中，无论在一个对象的评论信息中某一个评论信息出现多少次，只要其在某个不相似对象对的两个对象的评论信息中都出现过，则该评论信息即为该不相似对象对中的一种相同评论信息。

步骤103：获取所述候选信息中的每一种候选信息的出现次数。

例如，上述步骤102中获取到的不相似对象对的相同评论信息具体为：第一不相似对象对中的相同评论信息为信息a，第二不相似对象对中的相同评论信息为信息a和信息c，则从所有不相似对象对中包括的对象的评论信息中提取的相同评论信息包括信息a和信息c，则信息a和信息c作为了候选信息，进而获取候选信息中的信息a和信息c的出现次数，分别为信息a出现两次，信息c出现一次。

步骤104：根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论。

其中，通用型评论即为可用于评论多个对象的评论信息，亦即通用型评论在评论多个对象时，在语义方面，该通用型评论与该对象是匹配的。

步骤105：剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

其中，目标评论信息为与多媒体对象的特征信息关联性较大的评论信息，因而目标评论信息针对其对应的多媒体对象而言，属于有效的评论信息。

本发明的实施例中，确定出通用型评论之后，从上述多个多媒体对象的评论信息中剔除出现的通用型评论，则剩余的评论信息属于与多媒体对象的特征信息关联性较大的评论信息，即目标评论信息，亦即有效性评论信息。因而，利用与多媒体对象的特征信息关联性较大的评论信息，对多媒体对象进行分析和理解(例如对多媒体对象进行分类)，可以获得多媒体对象更加准确的特征，因此，利用剩余的评论信息对多媒体对象进行分析和理解，能够使得对多媒体对象的分析和理解更加准确。例如多媒体对象为视频时，则可以从多个视频的评论信息中提取出通用型评论之后(例如可以将“666”、“赞赞赞”、“玫瑰玫瑰”，这类评论，从对视频的评论信息中剔除)，利用剩余的评论信息对这些视频进行分类，从而使得视频的分类更加准确。

由上述可知，本发明的实施例，从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个相似度小于第一预设阈值的多媒体对象，然后获取每一个不相似对象对中的两个多媒体对象的评论信息中的相同评论信息，再根据这些相同评论信息的出现次数，筛选出通用型评论，进而从上述多个多媒体对象的评论信息中将出现的通用型评论剔除，则可以获取到这些多媒体对象的目标评论信息(即有效性评论信息)。其中，不相似的多媒体对象的评论信息中的相同评论信息中不可能包括与多媒体对象的特征有较大关联的相似评论，因而，本发明的实施例，从多媒体对象的特征出发，在不相似的多媒体对象的评论信息中的相同评论信息中，提取通用型评论，可以在一定程度上避免将与多媒体对象的特征有较大信息关联的相似评论确定为通用型评论，从而提升了通用型评论的准确度，亦即提升了确定有效性评论信息的准确度，进而有利于后续根据有效性评论信息分析和理解多媒体对象。

此外，通过步骤101～104确定的通用型评论，还可以应用在步骤101～104中所述的多个多媒体对象之外的其他多媒体对象的分析和理解中。其中，为了便于描述，此处将步骤101～104中的多媒体对象称为第一对象，将步骤101～104中的多媒体对象之外的其他对象称为第二对象，则可选的，在步骤104之后，还可包括：

获取待分析的第二对象的评论信息；

判断所述第二对象的评论信息中是否存在所述通用型评论；

若存在，则剔除所述第二对象的评论信息中出现的通用型评论，并将剩余的评论信息确定为目标评论信息；

若不存在，则将所述第二对象的评论信息均确定为目标评论信息。

由此可知，通过步骤101～104获取到的通用型评论，还可作为确定其他多媒体对象的目标评论信息(即有效性评论信息)的依据。

实施例二

参照图2，示出了本发明实施例二的一种评论信息的确定方法，该评论信息的确定方法可以包括以下步骤：

步骤201：获取每一个所述多媒体对象的特征向量。

其中，多媒体对象为被评论对象，例如可以为视频、图片、音频、文本等。所述特征向量是根据多媒体对象的特征信息获得的，其中，该特征信息包括描述多媒体对象的特征的词语。例如，多媒体对象为视频时，视频的特征信息可以包括视频内容所表达的主题、视频中出现的角色的名称、视频中出现的角色的演员的名字；多媒体对象为图片时，图片的特征信息可以包括图片内容所表达的主题、图片中的对象的名称；多媒体对象为音频时，特征信息可以包括音频的名称、音频所涉及的乐器、音频内容所表达的主题、音频中的关键词语；多媒体对象为文本时，文本的特征信息可以包括文本所表达的主题、文本的关键词。

当多媒体对象是视频时，在获取视频的特征向量时，可以将视频输入到预训练好的视频理解模型中提取出包含视频高维语义特征的视频特征，作为视频的语义表示，亦即得到该视频的特征向量。

其中，目前视频理解模型已开源到互联网，这些模型可以直接使用，比如I3D(Inflated 3D ConvNet，膨胀3D卷积)、S3D(Separable 3D CNN，可分三维卷积神经网络)、ECO(高效卷积网络)等视频分类算法。

另外，预训练好的视频理解模型，为一深度算学习网络，其中，深度学习网络包括多层，而其最后一层一般是一个一维的向量，例如可以是2048维的向量。此外，网络越靠后，语义越丰富、越高维，因而，在网络的最后一层，可以提取更高维的语义特征。

步骤202：获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度。

例如上述多个多媒体对象中包括对象A、对象B和对象C，则需要获取对象A与对象B的特征向量的相似度，对象A与对象C的特征向量的相似度，对象B和对象C的特征向量的相似度。

即可以利用两个多媒体对象的特征向量的余弦距离表示两个多媒体对象的特征向量的相似度，其中，余弦距离越大，相似度越小。

例如现有视频E和视频F，以及这两个视频分别提取的视频特征为向量X与向量Y，则视频E与视频F的相似度可以用余弦距离表示，即：

其中，θ表示向量X和向量Y的夹角，|x|表示向量X的模，|y|表示向量Y的模。

其中，可以理解的是，对于两个所述多媒体对象的特征向量的相似度的计算方式，还可采用其他方式，并不局限于此。

步骤203：将小于所述第一预设阈值的相似度对应的两个所述多媒体对象，确定为一个不相似对象对。

其中，可选的，第一预设阈值，还可根据用户的操作进行相应调整。

由上述可知，本发明实施例中，两个多媒体对象的相似度是针对多媒体对象自身的特征，即一个不相似对象对中的两个多媒体对象的特征信息的相似度小于第一预设阈值。

另外，对于上述多个多媒体对象，例如包括对象A、对象B和对象C，且对象A与对象B不相似，对象A与对象C相似，对象B与对象C不相似，则从对象A、对象B和对象C中，可以获得两个不相似对象对，一个不相似对象对中包括对象A与对象B，一个不相似对象对中包括对象B和对象C。

步骤204：获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息。

例如步骤203中获取到的不相似对象对包括第一不相似对象对和第二不相似对象对，其中第一不相似对象对包括对象A和对象B，第二不相似对象对包括对象B和对象C，其中，若对象A的评论信息包括信息a、信息b、信息a(即对象A的评论信息中信息a出现两次，信息b出现一次)；对象B的评论信息包括信息a、信息c；对象C的评论信息包括信息a、信息c、信息c(即对象C的评论信息中信息c出现两次，信息a出现一次)；则第一不相似对象对中的相同评论信息为信息a，第二不相似对象对中的相同评论信息为信息a和信息c。其中，无论在一个对象的评论信息中某一个评论信息出现多少次，只要其在某个不相似对象对的两个对象的评论信息中都出现过，则该评论信息即为该不相似对象对中的一种相同评论信息。

步骤205：获取所述候选信息中的每一种候选信息的出现次数。

例如，上述步骤204中获取到的不相似对象对的相同评论信息具体为：第一不相似对象对中的相同评论信息为信息a，第二不相似对象对中的相同评论信息为信息a和信息c，则从所有不相似对象对中包括的对象的评论信息中提取的相同评论信息包括信息a和信息c，则信息a和信息c作为了候选信息，进而获取候选信息中的信息a和信息c的出现次数，分别为信息a出现两次，信息c出现一次。

由步骤204及步骤205可知，本发明的实施例中，基于所有不相似对象对，来获取不相似对象对的评论信息中共同出现的评论信息，其中，假设不相似对象对中共同出现了评论信息T，且无论该信息T在同一个不相似对象对的评论信息中出现多少次，这个信息T的计数都加1，亦即某个信息在不同的不相似对象对中出现，才会累积出现次数，在同一个不相似对象对中出现多次也被记为一次。

步骤206：根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论。

例如上述候选信息中的信息a的出现次数为两次，信息c的出现次数为一次，且第二预设阈值为一次，则将出现次数大于一次的信息确定为通用型评论，即将信息a确定为通用型评论。

例如上述候选信息中的信息a的出现次数为两次，信息c的出现次数为一次，则按照出现次数由小到大的顺序，对候选信息进行排序，即为信息a-信息c，则可以将该排序中的第一个信息确定为通用型评论，即将信息a确定为通用型评论。

其中，也可以将按照所述候选信息的出现次数由小到大的顺序，对所述候选信息进行排序；然后将所述排序中，距离最后一个候选信息中预设数量的候选信息，确定为通用型评论。

由上述可知，本发明的实施例，可以将出现次数大于第二预设阈值的候选信息，确定为通用型评论，也可以按照出现次数由大到小的顺序或者由小到大的顺序进行排序，然后选取排序中的若干个候选信息，作为通用型评论。其中，可以理解的是，对于根据候选信息的出现次数，从候选信息中选出通用型评论的具体方式，并不局限于此。

步骤207：剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

其中，目标评论信息即为与多媒体对象的特征信息关联性较大的评论信息，因而目标评论信息针对其对应的多媒体对象而言，属于有效的评论信息。

本发明的实施例中，确定出通用型评论之后，从上述多个多媒体对象的评论信息中剔除出现的通用型评论，则剩余的评论信息属于与多媒体对象的特征信息关联性较大的评论信息，即目标评论信息，亦即。因而，利用与多媒体对象的特征信息关联性较大的评论信息，对多媒体对象进行分析和理解(例如对多媒体对象进行分类)，可以获得多媒体对象更加准确的特征，因此，利用剩余的评论信息对多媒体对象进行分析和理解，能够使得对多媒体对象的分析和理解更加准确。

综上所述，本发明的实施例，从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个相似度小于第一预设阈值的多媒体对象，然后获取每一个不相似对象对中的两个多媒体对象的评论信息中的相同评论信息，再根据这些相同评论信息的出现次数，筛选出通用型评论，进而从上述多个多媒体对象的评论信息中将出现的通用型评论剔除，则可以获取到这些多媒体对象的目标评论信息，(即有效性评论信息)。其中，不相似的多媒体对象的评论信息中的相同评论信息中不可能包括与多媒体对象的特征有较大关联的相似评论，因而，本发明的实施例，从多媒体对象的特征出发，在不相似的多媒体对象的评论信息中的相同评论信息中，提取通用型评论，可以在一定程度上避免将与多媒体对象的特征有较大信息关联的相似评论确定为通用型评论，从而提升了通用型评论的准确度，亦即提升了确定有效性评论信息的准确度，进而有利于后续根据有效性评论信息分析和理解多媒体对象。

例如关于“狗”的类型的视频占总视频量为90％，剩余的10％是“搞笑段子”，“狗”类型下面的视频可能有“好好看啊”这种类型的评论。如果是采用现有技术中基于全量视频的统计，则“好好看啊”可能会被判定为通用型评论信息，然而，“好好看啊”是不适用于“搞笑段子”的。而采用本发明实施例的评论信息的确定方法，并不会将相似的视频的评论信息中共同出现的信息作为通用型评论的候选信息，因而按照本发明实施例的评论信息的确定方法，并不会将“好好看啊”确定为通用型评论。

此外，通过步骤201～206确定的通用型评论，还可以应用在步骤201～206中所述的多个多媒体对象之外的其他多媒体对象的分析和理解中。其中，为了便于描述，此处将步骤201～206中的多媒体对象称为第三对象，将步骤201～206中的多媒体对象之外的其他对象称为第四对象，则可选的，在步骤206之后，还可包括：

获取待分析的第四对象的评论信息；

判断所述第四对象的评论信息中是否存在所述通用型评论；

若存在，则剔除所述第四对象的评论信息中出现的通用型评论，并将剩余的评论信息确定为目标评论信息；

若不存在，则将所述第四对象的评论信息均确定为目标评论信息。

由此可知，通过步骤201～206获取到的通用型评论，还可作为确定其他多媒体对象的目标评论信息(即有效性评论信息)的依据。

综上所述，采用本发明实施例的评论信息的确定方法的具体实例可如下所述：

首先，从短视频平台上随机挑选获取M个视频，其中，这M个视频中可能有拍摄“猫”、“狗”，也可能是做菜、自然风景、吃东西的视频等等；

然后，获取这M个视频的视频特征，从而获取每个视频的特征向量；

再次，分别对这M个视频计算它与其他(M-1)个视频的相似度，即计算这M个视频的特征向量与其他(M-1)个视频的特征向量的余弦距离，亦即利用余弦距离表示两个视频的相似度；其中，总共可以得到M*(M-1)/2个视频对的相似度。当相似度小于特定阈值R时，则认为这个视频对不够相似。比如视频中包含“狗”的视频和拍摄大海的视频大概率是不相似的，而视频中包含“狗”的视频和包含“猫”的视频大概率是相似的。

再次，对所有不相似的视频对，比如上面提到的“狗”和大海这个视频对(狗,大海)提取这两个视频下面所有的评论中的相同评论，比如用户会对这两个视频都评论“666”、“好棒啊”、“真好看”；然后，将提取出的上述评论中的各种评论的出现次数进行计数；

最后，参考计数结果，对计数后的评论进行逆序排列(即按照计数从大到小的顺序进行排序)，则排在最前面的就是最通用的评论，比如“666”这个评论就可以放在任何视频中，则可以把topN即前N条评论信息认为是通用型评论。

其中，得到通用型评论后，在使用评论进行数据处理时，则可以直接把这些无用的评论(即通用型评论)删除掉，直接分析剩余的非通用型评论。比如“这条狗真好看”，这个就只能评论拍摄“狗”的视频，这条评论对分析这个视频便是有价值的；而“666”这个评论与视频内容没关系，则认为该评论对分析这个视频没有价值，即相当于过滤掉对视频分析无用的噪音，使得对视频处理过程中使用到的评论更纯粹。

实施例三

参照图3，示出了本发明实施例三的一种评论信息的确定装置，该评论信息的确定装置30可以包括：

对象对确定模块301，被配置为从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个所述多媒体对象，且一个所述不相似对象对中包括的两个所述多媒体对象的相似度小于第一预设阈值；

候选信息确定模块302，被配置为获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息；

次数统计模块303，被配置为获取所述候选信息中的每一种候选信息的出现次数；

筛选模块304，被配置为根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论；

目标评论信息确定模块305，被配置为剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

实施例四

参照图4，示出了本发明实施例三的一种评论信息的确定装置，该评论信息的确定装置40可以包括：

对象对确定模块401，被配置为从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个所述多媒体对象，且一个所述不相似对象对中包括的两个所述多媒体对象的相似度小于第一预设阈值；

候选信息确定模块402，被配置为获取每一个所述不相似对象对中的所述多媒体对象的评论信息中的相同评论信息，并确定为候选信息；

次数统计模块403，被配置为获取所述候选信息中的每一种候选信息的出现次数；

筛选模块404，被配置为根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论；

目标评论信息确定模块405，被配置为剔除所述多个多媒体对象的评论信息中出现的所述通用型评论，并将剩余的评论信息确定为目标评论信息。

可选的，如图4所示，所述对象对确定模块401包括：

特征向量确定单元4011，被配置为获取每一个所述多媒体对象的特征向量；

相似度计算单元4012，被配置为获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度；

对象对确定单元4013，被配置为将小于所述第一预设阈值的相似度对应的两个所述多媒体对象，确定为一个不相似对象对。

可选的，所述相似度计算单元4012具体被配置为：

可选的，如图4所示，所述筛选模块404包括：

第一筛选单元4041，被配置为将所述候选信息中出现次数大于第二预设阈值的候选信息，确定为通用型评论。

可选的，如图4所示，所述筛选模块404包括：

排序单元4042，被配置为按照所述出现次数由大到小的顺序，对所述候选信息进行排序；

第二筛选单元4043，被配置为将所述排序中，位于前预设数量的候选信息，确定为通用型评论。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例五

参照图5，示出了本发明实施例四的一种电子设备的结构框图。

本发明实施例的电子设备可以包括：存储器、处理器及存储在存储器上并可在处理器上运行的用于确定动作执行的程序，用于确定动作执行程序被处理器执行时实现本发明中所述的任意一种评论信息的确定方法的步骤。

图5是根据一示例性实施例示出的一种电子设备500的框图。例如，电子设备500可以是移动电话，计算机，数字广播电子设备，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，电子设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件514可以检测到电子设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，装置500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行评论信息的确定方法，具体地该评论信息的确定方法包括：

获取所述候选信息中的每一种候选信息的出现次数；

获取每一个所述多媒体对象的特征向量；

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由电子设备500的处理器520执行以完成上述评论信息的确定方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本发明中所述的任意一种用于确定动作执行的方法的步骤。

本发明的实施例，从多个多媒体对象中，确定出不相似对象对，其中，一个不相似对象对中包括两个相似度小于第一预设阈值的多媒体对象，然后获取每一个不相似对象对中的两个多媒体对象的评论信息中的相同评论信息，再根据这些相同评论信息的出现次数，筛选出通用型评论，进而从上述多个多媒体对象的评论信息中将出现的通用型评论剔除，则可以获取到这些多媒体对象的目标评论信息(即有效性评论信息)。其中，不相似的多媒体对象的评论信息中的相同评论信息中不可能包括与多媒体对象的特征有较大关联的相似评论，因而，本发明的实施例，从多媒体对象的特征出发，在不相似的多媒体对象的评论信息中的相同评论信息中，提取通用型评论，可以在一定程度上避免将与多媒体对象的特征有较大信息关联的相似评论确定为通用型评论，从而提升了通用型评论的准确度，进而有利于后续对多媒体对象的分析和理解，亦即提升了确定有效性评论信息的准确度，进而有利于后续根据有效性评论信息分析和理解多媒体对象。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的信息提取方案不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的信息提取方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种评论信息的确定方法，其特征在于，包括：

获取所述候选信息中的每一种候选信息的出现次数；

2.根据权利要求1所述的评论信息的确定方法，其特征在于，所述从多个多媒体对象中，确定出不相似对象对，包括：

获取每一个所述多媒体对象的特征向量；

3.根据权利要求2所述的评论信息的确定方法，其特征在于，所述获取所述多个多媒体对象中，每两个所述多媒体对象的特征向量的相似度，包括：

4.根据权利要求1所述的评论信息的确定方法，其特征在于，所述根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论，包括：

5.根据权利要求1所述的评论信息的确定方法，其特征在于，所述根据所述出现次数，从所述候选信息中选出至少一种候选信息，并确定为通用型评论，包括：

6.一种评论信息的确定装置，其特征在于，包括：

7.根据权利要求6所述的评论信息的确定装置，其特征在于，所述对象对确定模块包括：

8.根据权利要求7所述的评论信息的确定装置，其特征在于，所述相似度计算单元具体被配置为：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现如权利要求1至5中任一项所述的评论信息的确定方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种以实现如权利要求1至5中任一项所述的评论信息的确定方法所执行的操作。