CN104951558A

CN104951558A - 一种视频待改善项确定方法及装置

Info

Publication number: CN104951558A
Application number: CN201510386162.8A
Authority: CN
Inventors: 王雷
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-09-30

Abstract

本发明实施例公开了一种视频待改善项确定方法及装置。一种视频待改善项确定方法，可以包括以下步骤：从多个网站上获得针对目标视频的多条评论数据；根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项；对每条评论数据：根据该条评论数据的文本内容与预先设定的每个评论等级对应的关键词的匹配程度，确定该条评论数据的评论等级；对所确定的每个评论项：根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，并判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。应用本发明实施例所提供的技术方案，可以及时确定出目标视频的待改善项，时效性较强。

Description

一种视频待改善项确定方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种视频待改善项确定方法及装置。

背景技术

随着互联网技术的快速发展，互联网上的视频的数量越来越多，视频提供商越来越注重用户体验。视频提供商通常以设置多个投诉选项的方式收集用户的投诉信息，如设置演员投诉项、价格投诉项、剧情投诉项等，当用户对某视频的某些方面不满意时，可以选择与该方面相应的投诉选项进行投诉，视频提供商对收集到的每个投诉选项的投诉信息进行统计，确定出投诉信息较多的投诉选项，并将确定出的投诉选项作为该视频待改善项，在该方面做出相应的改善，以提升用户体验。

这种视频待改善项确定方法存在一定的缺点，因为大多用户可能只是将观看视频作为其休闲娱乐的一种方式，当用户对某视频的某些方面不是很满意时，可能并没有投诉的想法，也就不会选择投诉选项进行投诉，使得视频提供商收集到的投诉信息较少，统计样本较小，导致统计结果不准确，而且即使用户选择投诉选项进行了投诉，视频提供商得到投诉信息后才能进行相应的改善，时效性较差。

发明内容

为解决上述问题，本发明实施例公开了一种视频待改善项确定方法及装置。技术方案如下：

一种视频待改善项确定方法，包括：

从多个网站上获得针对目标视频的多条评论数据；

根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项；

对每条评论数据：根据该条评论数据的文本内容与预先设定的每个评论等级对应的关键词的匹配程度，确定该条评论数据的评论等级；

对所确定的每个评论项：根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，并判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。

在本发明的一种具体实施方式中，在所述从多个网站上获得针对目标视频的多条评论数据之后，在所述根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项之前，所述方法还包括：

对获得的每条评论数据进行去噪处理；

所述根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项，包括：

根据进行去噪处理后的每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

在本发明的一种具体实施方式中，还包括：

根据评论项与改善方案的预设的对应关系，将与所确定的待改善项所对应的改善方案确定为执行方案。

在本发明的一种具体实施方式中，所述从多个网站上获得针对目标视频的多条评论数据，包括：

获得目标视频的关键词；

根据所述目标视频的关键词，从多个网站爬取所述目标视频的多条评论数据。

在本发明的一种具体实施方式中，所述根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，包括：

针对该评论项对应的每条评论数据：根据该条评论数据的评论等级，确定该条评论数据的评论分值，并根据该条评论数据的来源网站，确定该条评论数据的评论分值的权重；

根据该评论项对应的每条评论数据的评论分值及该评论项对应的每条评论数据的评论分值的权重，确定该评论项的评论分值。

一种视频待改善项确定装置，包括：

评论数据获得模块，用于从多个网站上获得针对目标视频的多条评论数据；

评论项确定模块，用于根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项；

评论等级确定模块，用于对每条评论数据：根据该条评论数据的文本内容与预先设定的每个评论等级对应的关键词的匹配程度，确定该条评论数据的评论等级；

评论分值确定模块，用于对所确定的每个评论项：根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值；

待改善项确定模块，用于对所确定的每个评论项，判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。

在本发明的一种具体实施方式中，还包括：

去噪模块，用于在所述评论数据获得模块从多个网站上获得针对目标视频的多条评论数据之后，在所述评论项确定模块根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项之前，对获得的每条评论数据进行去噪处理；

所述评论项确定模块，具体用于根据进行去噪处理后的每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

在本发明的一种具体实施方式中，还包括：

执行方案确定模块，用于根据评论项与改善方案的预设的对应关系，将与所确定的待改善项所对应的改善方案确定为执行方案。

在本发明的一种具体实施方式中，所述评论数据获得模块，包括：

关键词获得子模块，用于获得目标视频的关键词；

评论数据获得子模块，用于根据所述目标视频的关键词，从多个网站爬取所述目标视频的多条评论数据。

在本发明的一种具体实施方式中，所述评论分值确定模块，包括：

权重确定子模块，用于针对该评论项对应的每条评论数据：根据该条评论数据的评论等级，确定该条评论数据的评论分值，并根据该条评论数据的来源网站，确定该条评论数据的评论分值的权重；

评论分值确定子模块，用于根据该评论项对应的每条评论数据的评论分值及该评论项对应的每条评论数据的评论分值的权重，确定该评论项的评论分值。

应用本发明实施例所提供的技术方案，通过分析从多个网站获得的针对目标视频的多条评论数据，确定该目标视频的各评论项的评论分值，进而确定出目标视频的待改善项。由于用户对于所关注视频的想法多通过评论的方式表达出来，从大量的评论数据中可以确定用户对于目标视频的哪些评论项不满意，从而可以及时确定出目标视频的待改善项，时效性较强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种视频待改善项确定方法的实施流程图；

图2为本发明实施例中视频内容模型的示意图；

图3为本发明实施例中一种视频待改善项确定装置的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例中所提供的一种视频待改善项确定方法的实施流程图，该方法可以包括以下步骤：

S110：从多个网站上获得针对目标视频的多条评论数据。

在如今的互联网时代，各类视频大量涌现，关注视频、观看视频的用户数量越来越多，视频提供商希望能够在视频相关的各项目上为用户提供更好的服务，以提升用户体验。不同的用户对于所关注视频的满意程度不尽相同。很多大型门户网站、微博或者影评网站等为用户提供了评论功能，用户可以在各类网站相应的评论区域发表自己对于所关注视频的相关项目的看法。这些网站上每天都会产生大量的评论数据。可以从多个网站上获得针对目标视频的多条评论数据。需要说明的是，本发明实施例中的多个网站可以是预先设定的，还可以是根据运营人员指令进行确定的，本发明实施例对此不做限定。

在本发明的一种具体实施方式中，可以先获得目标视频的关键词，再根据目标视频的关键词，从多个网站爬取目标视频的多条评论数据。

可以理解的是，每个视频都可以使用一个或多个关键词进行表达，某个视频的关键词可以是该视频的视频名称、该视频中演员名称、该视频中角色名称、该视频所表现的主题等。在实际应用中，可以通过接收运营人员输入目标视频的关键词的方式获得目标视频的关键词，还可以通过接收运营人员输入的目标视频的视频名称，根据视频名称进一步确定该目标视频的关键词的方式获得目标视频的关键词。获得目标视频的关键词后，通过爬虫从多个网站爬取目标视频的多条评论数据。爬虫爬取评论数据的网站可以预先设定，还可以对爬虫爬取的历史数据进行分析，以确定比较有效的评论数据集中于哪些网站中。

S120：根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

所述评论项为预先设定的与所述目标视频相关的可评论的项目。

用户在评论某视频时，一般情况下会针对该视频的一个或多个评论项进行评论，即一条评论数据可能对应一个或多个评论项。在实际应用中，可以针对不同类型的视频建立不同的视频内容模型，视频内容模型中的各实体属性即为该视频内容模型所对应视频的评论项。参见图2所示，针对某视频建立的视频内容模型中，该视频的评论项分别是：题材、剧情、影院效果、演员、导演等等。

可以理解的是，每条评论数据都是用户所发表的对其所关注视频的某一个或多个评论项的想法，多以文本形式体现。在步骤S110获得多条评论数据后，可以根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

在实际应用中，可以针对每个评论项确定出表征该评论项的关键词，比如，当目标视频的评论项为演员时，可以将目标视频的各个演员的名称确定为该评论项的关键词，如果某条评论数据的文本内容中出现其中某个或某几个演员的名称，则可以确定该条评论数据所对应的评论项为演员，其他评论项的确定方法与此类似。

在实际应用中，还可以对获得的评论数据进行结构化整理，即进行数据库理论中E-R(Entity Relationship Diagram，实体-联系)关系模型处理，使得每条杂乱无章的评论数据可以进行所属关系的划分，以确定每条评论数据所对应的评论项。

在本发明的一种具体实施方式中，在步骤S110之后，在步骤S120之前，还可以包括以下步骤：

对获得的每条评论数据进行去噪处理。

可以理解的是，通过爬虫爬取的评论数据或者通过其他方式获得的评论数据都是普通的文本数据，其中可能包含网址超链接、表情符号、超文本标记语言HTML标签、某人、转发自等噪声数据，可以通过正则匹配方法去除这些噪声数据。当然，在获得的评论数据中还可能包含一些灌水数据，可以通过现有技术中的聚类算法进行识别后去除。

相应的，在步骤S120中，需要根据进行去噪处理后的每条评论数据中的文本内容，确定每条评论数据所对应的评论项，这样可以减小运算量。

S130：对每条评论数据：根据该条评论数据的文本内容与预先设定的每个评论等级对应的关键词的匹配程度，确定该条评论数据的评论等级。

用户针对所关注的视频的评论项进行评论时，可能会表达出自己对于该评论项的情感。在实际应用中，可以根据语义分析或者机器学习的方法进行情感模型的建立。不同程度的情感模型可以使用不同的关键词进行表达。比如，对于喜欢情感模型的关键词可以是赞、喜欢、太棒了、开心等，对于不喜欢情感模型的关键词可以是不喜欢、垃圾、无趣等等。不同的情感的情感模型对应于不同的评论等级，如用户所表达的情感为喜欢，对应的评论等级可以为一级，如用户所表达的情感为中立，对应的评论等级可以为二级，如用户所表达的情感为不喜欢，对应的评论等级可以为三级。情感模型的关键词即为相应评论等级的关键词。当然，也可以按照其他方式划分评论等级，本发明实施例对此不做限定。

对于每条评论数据，可以分别将该条评论数据的文本内容与预先设定的每个评论等级对应的关键词进行匹配，得到该条评论数据与每个评论等级对应的关键词的匹配程度，可以将匹配程度最高的评论等级确定为该条评论数据的评论等级。

在实际应用中，可以分别针对每条评论数据的文本内容进行分词处理，并识别具有语义的命名实体，确定每条评论数据的命名实体与预先设定的每个评论等级的关键词的匹配程度，可以减少匹配计算量。具体的，可以根据每个与评论等级对应的关键词相同或者语义相近的命名实体在该条评论数据的文本内容中出现的频次，确定匹配程度。

需要说明的是，本发明实施例对于步骤S120和步骤S130的执行顺序不做限定，这两个步骤可以按照先后顺序执行，还可以同时执行。

S140：对所确定的每个评论项：根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，并判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。

在步骤S120确定了每条评论数据所对应的评论项，对于每一个评论项来说，其对应于一条或多条评论数据。在步骤S130确定了每条评论数据的评论等级，那么，对于每个评论项来说，可以根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值。具体的，可以先根据每条评论数据的评论等级，分别赋予每个评论等级不同的评论分值，比如，如果某条评论数据的评论等级为一级，则可以赋予该评论数据的评论分值为+1，如果某条评论数据的评论等级为二级，则可以赋予该评论数据的评论分值为0，如果某条评论数据的评论等级为三级，则可以赋予该评论数据的评论分值为-1。针对每个评论项，将该评论项所对应的评论数据的评论分值相加即可得到该评论项的评论分值。对于每个评论项的评论分值可以参见图2所示。

在本发明的一种具体实施方式中，所述根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，可以包括以下步骤：

第一个步骤：针对该评论项对应的每条评论数据：根据该条评论数据的评论等级，确定该条评论数据的评论分值，并根据该条评论数据的来源网站，确定该条评论数据的评论分值的权重；

第二个步骤：根据该评论项对应的每条评论数据的评论分值及该评论项对应的每条评论数据的评论分值的权重，确定该评论项的评论分值。

为方便理解，将上述两个步骤结合起来进行说明。

可以理解的是，不同网站的评论数据的重要程度不同，对其他用户的影响力不同，所以，针对某一评论项所对应的每条评论数据，根据该条评论数据的评论等级，确定该条评论数据的评论分值后，可以进一步根据该条评论数据的来源网站，确定该条评论数据的评论分值的权重，这样，在确定该评论项的评论分值时，可以根据该评论项对应的每条评论数据的评论分值及该评论项对应的每条评论数据的评论分值的权重进行确定，如根据该评论项对应的所有评论数据的评论分值的加权和或加权乘积得到该评论项的评论分值。

为方便理解，举例说明。

假设某一评论项，其对应评论数据1、评论数据2、评论数据3、评论数据4和评论数据5，这五条评论数据的信息如下表所示。

评论数据	评论等级	评论分值	来源网站	权重
					评论数据1	一级	+1	网站A	0.8
评论数据2	二级	0	网站B	0.2
					评论数据3	一级	+1	网站B	0.2
评论数据4	三级	-1	网站A	0.8
					评论数据5	三级	-1	网站B	0.2

表1

由表1可以得到该评论项的评论分值为：(+1)*0.8+0*0.2+(+1)*0.2+(-1)*0.8+(-1)*0.2＝0。

当然，对于评论等级所对应评论分值及来源网站所对应的权重均可根据实际情况进行设定和调整，本发明实施例对此不做限定。

确定每个评论项的评论分值后，针对每个评论项，可以判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。在实际应用中，可以针对不同的评论项预先设定相同或不同的阈值，当某个评论项的评论分值低于该评论项对应的预设阈值时，可以将该评论项确定为该目标视频的待改善项。视频提供商可以针对该视频的待改善项进行相应的改善。

在本发明的一个实施例中，该方法还可以包括以下步骤：

在实际应用中，可以预先针对每个评论项设定与该评论项对应的改善方案，比如，针对剧情评论项，设定其对应的改善方案为：在相应网站增加更为详尽的剧情介绍，针对影院票价，设定其对应的改善方案为：在相应网站增加网络购票的优惠信息。根据评论项与改善方案的预设的对应关系，将与所确定的待改善项所对应的改善方案确定为执行方案，进行相应方案的执行，可以提升用户体验。

相应于上面的方法实施例，本发明实施例还提供了一种视频待改善项确定装置，参见图3所示，该装置可以包括以下模块：

评论数据获得模块210，用于从多个网站上获得针对目标视频的多条评论数据；

评论项确定模块220，用于根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项；

评论等级确定模块230，用于对每条评论数据：根据该条评论数据的文本内容与预先设定的每个评论等级对应的关键词的匹配程度，确定该条评论数据的评论等级；

评论分值确定模块240，用于对所确定的每个评论项：根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值；

待改善项确定模块250，用于对所确定的每个评论项，判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。

在如今的互联网时代，各类视频大量涌现，关注视频、观看视频的用户数量越来越多，视频提供商希望能够在视频相关的各项目上为用户提供更好的服务，以提升用户体验。不同的用户对于所关注视频的满意程度不尽相同。很多大型门户网站、微博或者影评网站等为用户提供了评论功能，用户可以在各类网站相应的评论区域发表自己对于所关注视频的相关项目的看法。这些网站上每天都会产生大量的评论数据。可以从多个网站上获得针对目标视频的多条评论数据。

用户在评论某视频时，一般情况下会针对该视频的一个或多个评论项进行评论，即一条评论数据可能对应一个或多个评论项。可以理解的是，每条评论数据都是用户所发表的对其所关注视频的某一个或多个评论项的想法，多以文本形式体现，可以根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

对于每个评论项来说，可以根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值。确定每个评论项的评论分值后，针对每个评论项，可以判断该评论项的评论分值是否低于与该评论项对应的预设值，如果是，则将该评论项确定为所述目标视频的待改善项。在实际应用中，可以针对不同的评论项预先设定相同或不同的阈值，当某个评论项的评论分值低于该评论项对应的预设阈值时，可以将该评论项确定为该目标视频的待改善项。视频提供商可以针对该视频的待改善项进行相应的改善。

应用本发明实施例所提供的装置，通过分析从多个网站获得的针对目标视频的多条评论数据，确定该目标视频的各评论项的评论分值，进而确定出目标视频的待改善项。由于用户对于所关注视频的想法多通过评论的方式表达出来，从大量的评论数据中可以确定用户对于目标视频的哪些评论项不满意，从而可以及时确定出目标视频的待改善项，时效性较强。

在本发明的一个实施例中，该装置还可以包括以下模块：

去噪模块，用于在所述评论数据获得模块210从多个网站上获得针对目标视频的多条评论数据之后，在所述评论项确定模块220根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项之前，对获得的每条评论数据进行去噪处理；

所述评论项确定模块220，具体用于根据进行去噪处理后的每条评论数据中的文本内容，确定每条评论数据所对应的评论项。

可以理解的是，通过爬虫爬取的评论数据或者通过其他方式获得的评论数据都是普通的文本数据，其中可能包含网址超链接、表情符号、超文本标记语言HTML标签、某人、转发自等噪声数据，可以通过正则匹配方法去除这些噪声数据。当然，在获得的评论数据中还可能包含一些灌水数据，可以通过现有技术中的聚类算法进行识别后去除。根据进行去噪处理后的每条评论数据中的文本内容，确定每条评论数据所对应的评论项，这样可以减小运算量。

在本发明的一个实施例中，该装置还可以包括以下模块：

在本发明的一种具体实施方式中，所述评论数据获得模块210，可以包括以下子模块：

关键词获得子模块，用于获得目标视频的关键词；

在本发明的一种具体实施方式中，所述评论分值确定模块240，可以包括以下子模块：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频待改善项确定方法，其特征在于，包括：

从多个网站上获得针对目标视频的多条评论数据；

2.根据权利要求1所述的方法，其特征在于，在所述从多个网站上获得针对目标视频的多条评论数据之后，在所述根据每条评论数据中的文本内容，确定每条评论数据所对应的评论项之前，所述方法还包括：

对获得的每条评论数据进行去噪处理；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述从多个网站上获得针对目标视频的多条评论数据，包括：

获得目标视频的关键词；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据该评论项对应的每条评论数据的评论等级，确定该评论项的评论分值，包括：

6.一种视频待改善项确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，还包括：

9.根据权利要求6所述的装置，其特征在于，所述评论数据获得模块，包括：

关键词获得子模块，用于获得目标视频的关键词；

10.根据权利要求6至9任一项所述的装置，其特征在于，所述评论分值确定模块，包括：