CN110460903A

CN110460903A - 基于语音分析对节目评论的方法、装置和计算机设备

Info

Publication number: CN110460903A
Application number: CN201910651425.1A
Authority: CN
Inventors: 赵付利; 文莉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-15
Also published as: WO2021008025A1

Abstract

本申请揭示了一种基于语音分析对节目评论的方法、装置和计算机设备，其中方法包括：接收终端采集的视频信息；分析所述视频信息，得到所述视频信息对应的节目信息；加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；将用户通过所述语音端口输入的语音信息转换成文字；将所述文字上传到评论界面。本申请接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。

Description

基于语音分析对节目评论的方法、装置和计算机设备

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种基于语音分析对节目评论的方法、装置和计算机设备。

背景技术

网络电视节目或电台节目进行评论时，从用户的角度来说，无论用户是否观看或收听过该节目，均可以对该节目进行评论，而从时间的角度来说，用户在该节目开始播放之前、播放过程中以及播放结束之后，均可以对该节目进行评论。

但是用户在观看节目的时候进行文字评论，打字需要一定的时间，这样会错过节目内容。而且文字的描述比较花费时间，不能很迅速的反应出用户对节目的观点。另外，文字表述的内容单一，不能很准确的表达出用户对节目的观点。

发明内容

本申请的主要目的为提供一种的基于语音分析对节目评论的方法、装置和计算机设备，旨在解决上述评论节目耗时较多的问题。

为了实现上述发明目的，本申请提出一种基于语音分析对节目评论的方法，包括：

接收终端采集的视频信息；

分析所述视频信息，得到所述视频信息对应的节目信息；

加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；

将用户通过所述语音端口输入的语音信息转换成文字；

将所述文字上传到评论界面。

进一步地，所述将所述文字上传到评论界面的步骤，包括：

根据所述语音信息获取用户的第一情绪；

根据所述第一情绪，在表情库中查找与所述第一情绪对应的表情；

将所述文字以及所述表情上传到评论界面。

进一步地，所述根据所述语音信息获取用户的第一情绪的步骤，包括：

提取出文字中的情绪词语；

根据所述情绪词语，调用情绪词与情绪的对应关系，获取用户的第一情绪。

将所述语音信息输入到预设的语音情绪识别模型中，输出所述语音信息对应的第一情绪。

进一步地，所述视频信息是来自终端的摄像头拍摄得到的视频信息，所述分析所述视频信息，得到所述视频信息对应的节目信息的步骤，包括：

提取所述视频信息的至少两帧画面以及服务器中的一个节目视频；

将至少两帧所述画面分别与所述节目视频中的每一帧进行相似度计算，得到与至少两帧所述画面一一对应的至少两个节目帧以及对应的相似度值；

若至少两个所述相似度值均高于预设的相似度阈值，则计算至少两帧所述画面与对应的至少两个节目帧的时间间隔是否相同；

若是，则判定所述节目是所述视频信息对应的节目。

进一步地，所述将所述文字以及所述表情上传到评论界面的步骤之前，包括：

控制终端的摄像头采集用户的脸部信息；

将所述脸部信息输入到预设的人脸情绪识别模型中，输出所述脸部信息对应的第二情绪；

判断所述第一情绪与所述第二情绪是否相同；

若是，生成将所述文字以及所述表情上传到评论界面的指令。

进一步地，所述加载节目信息中的评论界面到终端的步骤，包括：

获取用户的评论类型；

加载节目信息中与评论类型对应的评论界面到终端。

本申请还提供一种基于语音分析对节目评论的装置，包括：

接收模块，用于接收终端采集的视频信息；

分析模块，用于分析所述视频信息，得到所述视频信息对应的节目信息

加载模块，用于加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；

转换模块，用于将用户通过所述语音端口输入的语音信息转换成文字；

上传模块，用于将所述文字上传到评论界面。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于语音分析对节目评论的预测方法、装置和计算机设备，接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。在转换成文字时，自动根据语音中的文字，添加与文字对应的表情，同时，还根据用户发表语音时的情绪，自动添加与情绪对应的表情，这样更直观的表达用户对节目的评论感情。还提取用户的面部表情，根据用户的面部表情添加对应的表情。通过多个技术，获取到用户在观看节目时的情绪，并根据情绪添加对应的表情，更加真实迅速的对节目进行评论，而且不影响用户的观看节目的体验。

附图说明

图1为本申请一实施例的基于语音分析对节目评论的方法的流程示意图；

图2为本申请一实施例的基于语音分析对节目评论的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于语音分析对节目评论的方法，包括步骤：

S1、接收终端采集的视频信息；

S2、分析所述视频信息，利到所述视频信息对应的节目信息；

S3、加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；

S4、将用户通过所述语音端口输入的语音信息转换成文字；

S5、将所述文字上传到评论界面。

本实施例中，终端采集的视频信息可以是终端自身播放的视频信息，也可以是终端通过摄像头拍摄产生的视频信息。在第一种情况中，终端播放视频信息时，服务器在终端上加载一个发送视频信息的窗口，用户点击该发送视频信息的窗口后，终端将视频信息发送给服务器，服务器接收终端发送的视频信息。在第二种情况中，服务器在终端上加载一个拍摄视频信息的窗口，用户点击该窗口后，终端启动摄像头进行拍摄并将拍摄的视频信息实时发送给服务器，服务器接收终端拍摄的视频信息。

当服务器接收到视频信息后，在第一种情况中，视频信息包括视频内容、视频时长、比特率、帧速率、视频名称等各与视频相关的各种信息，其中视频内容即是指节目信息，如电视剧名称、综艺节目名称、电影名称等。读取视频信息中的视频内容，分析得到视频信息中的节目信息。在第二种情况中，服务器读取视频信息中的画面，将画面与服务器中存储的多个节目进行比对，查找出画面相同的节目，然后读取与画面相同的节目的信息，从而分析出视频信息对应的节目信息。在第二种情况中，进一步地，还可以通过分析视频信息中的声音，将声音转换成文字，即获取视频信息中的声音，来通过声音对应的文字来判断视频信息对应的节目信息。同时，服务器得到视频信息对应的节目信息后，同时也可以将其他用户对该节目的评论加载在终端上，便于用户查看其他用户对节目的评论，便于与其他用户进行交流。

获取到节目信息后，在服务器中调用评论该节目信息的评论界面，然后加载在终端上，当服务器中没有该节目信息的评论界面，则调用服务器中的评论模板，将节目信息加载在评论模板中的对应位置，以形成该节目信息的评论界面，然后将评论界面加载在终端上。评论界面上具有用户输入评论的端口，用户在该端口上输入评论的文字，也可以通过该端口输入语音以对该节目信息进行评论。

当用户是输入语音对节目进行评论时，服务器将终端通过该端口采集的语音信息通过语音分析技术转换成文字，然后将该文字上传到评论界面，这样用户就可以迅速的通过语音立刻对看到的节目进行评论，而且不影响观看节目。

在一个实施例中，上述将所述文字上传到评论界面的步骤，包括：

S51、根据所述语音信息获取用户的第一情绪；

S52、根据所述第一情绪，在表情库中查找与所述第一情绪对应的表情；

S53、将所述文字以及所述表情上传到评论界面。

本实施例中，用户在发送语音时，根据对节目的喜爱与厌恶或对节目中的角色进行评论时，带有自己的感情色彩，根据语音信息可以提取出用户的情绪，即用户对节目评论的第一情绪。情绪包括多种，如悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨等。服务器根据语音信息获取到用户的第一情绪，然后将第一情绪对应的表情加载出来，供用户选择，然后将用户对节目发表的评论的语音信息对应的文字以及语音信息对应的表情上传到评论界面，在上传前，先加载出文字，然后加载出表情，使上述文字以及表情作为一条评论共同出现在评论界面，以便更直观的表达出对节目信息的评论，让其他用户可以迅速的了解到该用户对这个节目的评论。表情库中具有多个表情，每个表情均带有一个情绪的标签，工作人员将表情添加了一个情绪标签后，将表情上传到表情库中。表情库存储在服务器中的指定空间。人们在发送消息时，采用语音消息会更快；而人们在阅读消息时，阅读图片信息最快，其次是文字信息，再次是语音信息。本方案将语音信息转换成文字信息以及图片信息，方便其他用户迅速的了解用户对该节目的评论。

在一个实施例中，上述根据所述语音信息获取用户的第一情绪的步骤，包括：

S511、提取出文字中的情绪词语；

S512、根据所述情绪词语，调用情绪词与情绪的对应关系，获取用户的第一情绪。

本实施例中，上述文字是指将语音信息转换得到的文字。情绪词语是存储在情绪词库中。服务器将语音信息转换得到文字后，将文字中与情绪词库中词语相同的词提取出来，即提取出文字中的情绪词语。然后调用情绪词语与情绪的对应关系，获取到用户的第一情绪。情绪词语是工作人员整理出来的，并集合起来，然后将情绪词语与情绪对应起来，一个情绪可以对应多个情绪词语。在一具体实施例中，情绪词语与情绪的对应关系为：

情绪词语	情绪
		烦、郁闷、恶心	生气
喔喔、嗨森、跳舞、唱歌	开心
		恐怖、颤抖	害怕
哭、眼泪、焦虑	伤心

S513、将所述语音信息输入到预设的语音情绪识别模型中，输出所述语音信息对应的第一情绪。

本实施例中，用户带有不同的情绪说话时，对应的语音信息对应的信号是不相同的。当用户说两段话时情绪相同时，两段语音信息中的能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征等均有明显的共性。将语音信息输入到语音情绪识别模型中，经过语音情绪识别模型计算，输出得到上述语音信息对应的第一情绪。

在一个实施例中，上述视频信息是来自终端的摄像头拍摄得到的视频信息，上述分析所述视频信息，得到所述视频信息对应的节目信息的步骤，包括：

S21、提取所述视频信息的至少两帧画面以及服务器中的一个节目视频；

S22、将至少两帧所述画面分别与所述节目视频中的每一帧进行相似度计算，得到与至少两帧所述画面一一对应的至少两个节目帧以及对应的相似度值；

S23、若至少两个所述相似度值均高于预设的相似度阈值，则计算至少两帧所述画面与对应的至少两个节目帧的时间间隔是否相同；

S24、若是，则判定所述节目是所述视频信息对应的节目。

本实施例中，终端是用户的手机，用户在看电视时，看到一个综艺节目，想对该综艺节目进行评论，拿起手机，打开其中用于评论节目的功能或应用，手机的摄像头控制摄像头进行拍照或录像，如果是拍照，则至少拍两张，且拍摄两张的间隔时间至少是5秒；如果是录像，则至少录制5秒的视频，选取录像的第一帧画面以及最后一帧画面。实现通过手机提取出了视频信息的两帧画面。同时手机还访问该功能或应用中指定的服务器，提取服务器中的一个节目视频，然后将这两帧画面与节目视频中的所有帧画面计算相似度，每一帧视频信息的画面与节目视频的所有帧画面均计算一次相似度，选取最高的相似度值，得到两个相似度值，然后判断这两个相似度值是否均高于预设的相似度值，如果均高于，说明服务器中的该节目视频有可能与用户正在看的视频信息是一样的。则提取出计算出两个相似度值最高的对应的节目视频中的画面帧的信息，然后计算这相似度最高的节目信息中的两帧画面在节目信息中的第一时间间隔，同时获得用户的手机拍摄或拍照时的获得的视频信息中的两帧画面的第二时间间隔，如果第一时间间隔与第二时间间隔相等或差距小于预设的间隔阈值，则判定用户看的视频信息是该节目，对应的弹出评论界面到用户的手机上，以供用户进行评论。

在一个实施例中，上述将所述文字以及所述表情上传到评论界面的步骤之前，包括：

S531、控制终端的摄像头采集用户的脸部信息；

S532、将所述脸部信息输入到预设的人脸情绪识别模型中，输出所述脸部信息对应的第二情绪；

S533、判断所述第一情绪与所述第二情绪是否相同；

S534、若是，生成将所述文字以及所述表情上传到评论界面的指令。

本实施例中，用户带有不同的情绪时，脸部的肌肉、器官均会有不同的形态。脸部信息的不同形态同样也可以判断用户的情绪，此处用于确认经语音情绪识别模型计算出的语音信息中的情绪是否正确。服务器生成采集脸部信息的指令，然后控制终端的摄像头启动，优先控制终端的前置摄像头启动，采集周围的图像，并识别出图像中的最大的人脸信息，即用户的脸部信息。然后将脸部信息输入到人脸情绪识别模型中，输出基于脸部信息计算得到的用户的第二情绪。服务器再将第二情绪与第一情绪进行比较，看二者是否一致，如果一致，则生成将所述文字以及所述表情上传到评论界面的指令。然后控制将文字以及第一情绪对应的表情上传到评论界面。

在一个实施例中，上述加载节目信息中的评论界面到终端的步骤，包括：

S31、获取用户的评论类型；

S32、加载节目信息中与评论类型对应的评论界面到终端。

本实施例中，评论类型可以从不同的层面分成多种类型。在一具体实施例中，评论类型根据是否包含剧透信息分成剧透类型和非剧透类型。服务器分析得到节目信息后，调用节目信息，查找到节目信息对应的评论界面，再加载两种评论类型到终端供用户选择。然后接收到用户的选择后，将用户选择的评论类型的评论界面加载到终端。用户在观看评论界面中的评论时，均看到的是用户希望看到的评论。尤其可以避免不喜欢剧透的用户在观看评论时看到关于剧透的评论，给用户更好的体验效果。

在一个实施例中，上述将所述文字上传到评论界面的步骤之前，包括：

S501、将样本数据输入到神经网络模型中，所述样本数据包括多个语音信息以及各语音信息分别对应的情绪；

S502、将所述神经网络模型进行训练，得到基于神经网络的语音情绪识别模型。

本实施例中，在使用语音情绪识别模型时，首先训练出一个语音情绪识别模型。采用一个神经网络模型，工作人员采集多段不同情绪的语音信息，每一个语音信息以及对应的情绪构成一个样本数据，将每一个语音信息以及对应的情绪特征输入到神经网络模型中，神经网络模型对同一情绪特征对应的语音信息进行归纳计算，得出每一个情绪对应的语音情绪识别系数，构成了基于神经网络的语音情绪识别模型。

综上所述，本申请的基于语音分析对节目评论的预测方法，接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。在转换成文字时，自动根据语音中的文字，添加与文字对应的表情，同时，还根据用户发表语音时的情绪，自动添加与情绪对应的表情，这样更直观的表达用户对节目的评论感情。还提取用户的面部表情，根据用户的面部表情添加对应的表情。通过多个技术，获取到用户在观看节目时的情绪，并根据情绪添加对应的表情，更加真实迅速的对节目进行评论，而且不影响用户的观看节目的体验。

参照图2，本申请实施例中还提供一种基于语音分析对节目评论的装置，包括：

接收模块1，用于接收终端采集的视频信息；

分析模块2，用于分析所述视频信息，得到所述视频信息对应的节目信息；

加载模块3，用于加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；

转换模块4，用于将用户通过所述语音端口输入的语音信息转换成文字；

上传模块5，用于将所述文字上传到评论界面。

本实施例中，终端采集的视频信息可以是终端自身播放的视频信息，也可以是终端通过摄像头拍摄产生的视频信息。在第一种情况中，终端播放视频信息时，接收模块1在终端上加载一个发送视频信息的窗口，用户点击该发送视频信息的窗口后，终端将视频信息发送给接收模块1，接收模块1接收终端发送的视频信息。在第二种情况中，接收模块1在终端上加载一个拍摄视频信息的窗口，用户点击该窗口后，终端启动摄像头进行拍摄并将拍摄的视频信息实时发送给接收模块1，接收模块1接收终端拍摄的视频信息。

当接收模块1接收到视频信息后，在第一种情况中，视频信息包括视频内容、视频时长、比特率、帧速率、视频名称等各与视频相关的各种信息，其中视频内容即是指节目信息，如电视剧名称、综艺节目名称、电影名称等。分析模块2读取视频信息中的视频内容，分析得到视频信息中的节目信息。在第二种情况中，服务器读取视频信息中的画面，分析模块2将画面与服务器中存储的多个节目进行比对，查找出画面相同的节目，然后读取与画面相同的节目的信息，从而分析出视频信息对应的节目信息。在第二种情况中，进一步地，还可以通过分析视频信息中的声音，将声音转换成文字，即获取视频信息中的声音，来通过声音对应的文字来判断视频信息对应的节目信息。同时，服务器得到视频信息对应的节目信息后，同时也可以将其他用户对该节目的评论加载在终端上，便于用户查看其他用户对节目的评论，便于与其他用户进行交流。

分析模块2分析获取到节目信息后，加载模块3在服务器中调用评论该节目信息的评论界面，然后加载在终端上，当服务器中没有该节目信息的评论界面，则加载模块3调用服务器中的评论模板，将节目信息加载在评论模板中的对应位置，以形成该节目信息的评论界面，然后将评论界面加载在终端上。评论界面上具有用户输入评论的语音端口，用户通过该端口输入语音以对该节目信息进行评论。

当用户输入语音对节目进行评论时，转换模块4将终端通过该端口采集的语音信息通过语音分析技术转换成文字，然后上传模块5将该文字上传到评论界面，这样用户就可以迅速的通过语音立刻对看到的节目进行评论，而且不影响观看节目。

在一个实施例中，所述上传模块5包括：

获取情绪单元，用于根据所述语音信息获取用户的第一情绪；

查找单元，用于根据所述第一情绪，在表情库中查找与所述第一情绪对应的表情；

上传单元，用于将所述文字以及所述表情上传到评论界面。

本实施例中，用户在发送语音时，根据对节目的喜爱与厌恶或对节目中的角色进行评论时，带有自己的感情色彩，获取情绪单元根据语音信息可以提取出用户的情绪，即用户对节目评论的第一情绪。情绪包括多种，如悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨等。获取情绪单元根据语音信息获取到用户的第一情绪，然后查找单元将第一情绪对应的表情加载出来，供用户选择，然后上传单元将用户对节目发表的评论的语音信息对应的文字以及语音信息对应的表情上传到评论界面，在上传前，先加载出文字，然后加载出表情，使上述文字以及表情作为一条评论共同出现在评论界面，以便更直观的表达出对节目信息的评论，让其他用户可以迅速的了解到该用户对这个节目的评论。表情库中具有多个表情，每个表情均带有一个情绪的标签，工作人员将表情添加了一个情绪标签后，将表情上传到表情库中。表情库存储在服务器中的指定空间。人们在发送消息时，采用语音消息会更快；而人们在阅读消息时，阅读图片信息最快，其次是文字信息，再次是语音信息。本方案将语音信息转换成文字信息以及图片信息，方便其他用户迅速的了解用户对该节目的评论。

在一个实施例中，上述获取情绪单元包括：

提取子单元，用于提取出文字中的情绪词语；

获取子单元，用于根据所述情绪词语，调用情绪词与情绪的对应关系，获取用户的第一情绪。

本实施例中，上述文字是指将语音信息转换得到的文字。情绪词语是存储在情绪词库中。服务器将语音信息转换得到文字后，提取子单元将文字中与情绪词库中词语相同的词提取出来，即提取出文字中的情绪词语。然后获取子单元调用情绪词语与情绪的对应关系，获取到用户的第一情绪。情绪词语是工作人员整理出来的，并集合起来，然后将情绪词语与情绪对应起来，一个情绪可以对应多个情绪词语。在一具体实施例中，情绪词语与情绪的对应关系为：

在一个实施例中，上述获取情绪单元包括：

模型子单元，用于将所述语音信息输入到预设的语音情绪识别模型中，输出所述语音信息对应的第一情绪。

本实施例中，用户带有不同的情绪说话时，对应的语音信息对应的信号是不相同的。当用户说两段话时情绪相同时，两段语音信息中的能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征等均有明显的共性。模型子单元将语音信息输入到语音情绪识别模型中，经过语音情绪识别模型计算，输出得到上述语音信息对应的第一情绪。

在一个实施例中，上述视频信息是来自终端的摄像头拍摄得到的视频信息，上述分析模块2包括：

提取单元，用于提取所述视频信息的至少两帧画面以及服务器中的一个节目视频；

第一计算单元，用于将至少两帧所述画面分别与所述节目视频中的每一帧进行相似度计算，得到与至少两帧所述画面一一对应的至少两个节目帧以及对应的相似度值；

第二计算单元，用于若至少两个所述相似度值均高于预设的相似度阈值，则计算至少两帧所述画面与对应的至少两个节目帧的时间间隔是否相同；

判定单元，用于若至少两帧所述画面与对应的至少两个节目帧的时间间隔相同，则判定所述节目是所述视频信息对应的节目。

本实施例中，终端是用户的手机，用户在看电视时，看到一个综艺节目，想对该综艺节目进行评论，拿起手机，打开其中用于评论节目的功能或应用，手机的摄像头控制摄像头进行拍照或录像，如果是拍照，则至少拍两张，且拍摄两张的间隔时间至少是5秒；如果是录像，则至少录制5秒的视频，选取录像的第一帧画面以及最后一帧画面。提取单元通过手机提取出了视频信息的两帧画面。同时第一计算单元还访问该功能或应用中指定的服务器，提取服务器中的一个节目视频，然后第一计算单元将这两帧画面与节目视频中的所有帧画面计算相似度，每一帧视频信息的帧画面与节目视频的所有帧画面均计算一次相似度，选取最高的相似度值，得到两个相似度值，然后判断这两个相似度值是否均高于预设的相似度值，如果均高于，说明服务器中的该节目信息有可能与用户正在看的视频信息是一样的。则第二计算单元提取出计算出两个相似度值最高的对应的节目视频中的画面帧的信息，然后第二计算单元计算这相似度最高的节目视频中的两帧画面在节目信息中的第一时间间隔，同时获得用户的手机拍摄或拍照时的获得的视频信息中的两帧画面的第二时间间隔，如果第一时间间隔与第二时间间隔相等或差距小于预设的间隔阈值，则判定单元判定用户看的视频信息是该节目，对应的弹出评论界面到用户的手机上，以供用户进行评论。

在一个实施例中，上述基于语音分析对节目评论的装置还包括：

采集模块，用于控制终端的摄像头采集用户的脸部信息；

识别情绪模块，用于将所述脸部信息输入到预设的人脸情绪识别模型中，输出所述脸部信息对应的第二情绪；

判断模块，用于判断所述第一情绪与所述第二情绪是否相同；

指令模块，用于若所述第一情绪与所述第二情绪相同，生成将所述文字以及所述表情上传到评论界面的指令。

本实施例中，用户带有不同的情绪时，脸部的肌肉、器官均会有不同的形态。脸部信息的不同形态同样也可以判断用户的情绪，此处用于确认经语音情绪识别模型计算出的语音信息中的情绪是否正确。生成采集脸部信息的指令，然后采集模块控制终端的摄像头启动，优先控制终端的前置摄像头启动，采集周围的图像，并识别出图像中的最大的人脸信息，即用户的脸部信息。然后识别情绪模块将脸部信息输入到人脸情绪识别模型中，输出基于脸部信息计算得到的用户的第二情绪。判断模块再将第二情绪与第一情绪进行比较，看二者是否一致，如果一致，则指令模块生成将所述文字以及所述表情上传到评论界面的指令。然后控制将文字以及第一情绪对应的表情上传到评论界面。

在一个实施例中，上述加载模块3包括：

获取评论单元，用于获取用户的评论类型；

加载单元，用于加载节目信息中与评论类型对应的评论界面到终端。

本实施例中，评论类型可以从不同的层面分成多种类型。在一具体实施例中，评论类型根据是否包含剧透信息分成剧透类型和非剧透类型。服务器分析得到节目信息后，调用节目信息，获取评论单元查找到节目信息对应的评论界面，再加载两种评论类型到终端供用户选择。然后接收到用户的选择后，加载单元将用户选择的评论类型的评论界面加载到终端。用户在观看评论界面中的评论时，均看到的是用户希望看到的评论。尤其可以避免不喜欢剧透的用户在观看评论时看到关于剧透的评论，给用户更好的体验效果。

综上所述，本申请的基于语音分析对节目评论的预测装置，接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。在转换成文字时，自动根据语音中的文字，添加与文字对应的表情，同时，还根据用户发表语音时的情绪，自动添加与情绪对应的表情，这样更直观的表达用户对节目的评论感情。还提取用户的面部表情，根据用户的面部表情添加对应的表情。通过多个技术，获取到用户在观看节目时的情绪，并根据情绪添加对应的表情，更加真实迅速的对节目进行评论，而且不影响用户的观看节目的体验。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频信息、节目信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音分析对节目评论的方法。

上述处理器执行上述基于语音分析对节目评论的方法的步骤：接收终端采集的视频信息；分析所述视频信息，得到所述视频信息对应的节目信息；加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；将用户通过所述语音端口输入的语音信息转换成文字；将所述文字上传到评论界面。

在一个实施例中，上述处理器执行所述将所述文字上传到评论界面的步骤，包括：根据所述语音信息获取用户的第一情绪；根据所述第一情绪，在表情库中查找与所述第一情绪对应的表情；将所述文字以及所述表情上传到评论界面。

在一个实施例中，上述处理器执行所述根据所述语音信息获取用户的第一情绪的步骤，包括：提取出文字中的情绪词语；根据所述情绪词语，调用情绪词与情绪的对应关系，获取用户的第一情绪。

在一个实施例中，上述处理器执行所述根据所述语音信息获取用户的第一情绪的步骤，包括：将所述语音信息输入到预设的语音情绪识别模型中，输出所述语音信息对应的第一情绪。

在一个实施例中，上述视频信息是来自终端的摄像头拍摄得到的视频信息，上述处理器执行所述分析所述视频信息，得到所述视频信息对应的节目信息的步骤，包括：提取所述视频信息的至少两帧画面以及服务器中的一个节目视频；将至少两帧所述画面分别与所述节目视频中的每一帧进行相似度计算，得到与至少两帧所述画面一一对应的至少两个节目帧以及对应的相似度值；若至少两个所述相似度值均高于预设的相似度阈值，则计算至少两帧所述画面与对应的至少两个节目帧的时间间隔是否相同；若是，则判定所述节目是所述视频信息对应的节目。

在一个实施例中，上述处理器执行所述将所述文字以及所述表情上传到评论界面的步骤之前，包括：控制终端的摄像头采集用户的脸部信息；将所述脸部信息输入到预设的人脸情绪识别模型中，输出所述脸部信息对应的第二情绪；判断所述第一情绪与所述第二情绪是否相同；若是，生成将所述文字以及所述表情上传到评论界面的指令。

在一个实施例中，上述处理器执行所述加载节目信息中的评论界面到终端的步骤，包括：获取用户的评论类型；加载节目信息中与评论类型对应的评论界面到终端。

综上所述，本申请的计算机设备，接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。在转换成文字时，自动根据语音中的文字，添加与文字对应的表情，同时，还根据用户发表语音时的情绪，自动添加与情绪对应的表情，这样更直观的表达用户对节目的评论感情。还提取用户的面部表情，根据用户的面部表情添加对应的表情。通过多个技术，获取到用户在观看节目时的情绪，并根据情绪添加对应的表情，更加真实迅速的对节目进行评论，而且不影响用户的观看节目的体验。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于语音分析对节目评论的方法，具体为：接收终端采集的视频信息；分析所述视频信息，得到所述视频信息对应的节目信息；加载节目信息中的评论界面到终端，评论界面包括用户输入评论的语音端口；将用户通过所述语音端口输入的语音信息转换成文字；将所述文字上传到评论界面。

综上所述，本申请的计算机可读存储介质，接收用户输入的语音信号，并自动转换成文字，以进行评论，相较用户打字输入，节省输入评论的时间，不影响用户观看节目。在转换成文字时，自动根据语音中的文字，添加与文字对应的表情，同时，还根据用户发表语音时的情绪，自动添加与情绪对应的表情，这样更直观的表达用户对节目的评论感情。还提取用户的面部表情，根据用户的面部表情添加对应的表情。通过多个技术，获取到用户在观看节目时的情绪，并根据情绪添加对应的表情，更加真实迅速的对节目进行评论，而且不影响用户的观看节目的体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于语音分析对节目评论的方法，其特征在于，包括：

接收终端采集的视频信息；

分析所述视频信息，得到所述视频信息对应的节目信息；

将用户通过所述语音端口输入的语音信息转换成文字；

将所述文字上传到评论界面。

2.如权利要求1所述的基于语音分析对节目评论的方法，其特征在于，所述将所述文字上传到评论界面的步骤，包括：

根据所述语音信息获取用户的第一情绪；

将所述文字以及所述表情上传到评论界面。

3.如权利要求2所述的基于语音分析对节目评论的方法，其特征在于，所述根据所述语音信息获取用户的第一情绪的步骤，包括：

提取出文字中的情绪词语；

4.如权利要求2所述的基于语音分析对节目评论的方法，其特征在于，所述根据所述语音信息获取用户的第一情绪的步骤，包括：

5.如权利要求1所述的基于语音分析对节目评论的方法，其特征在于，所述视频信息是来自终端的摄像头拍摄得到的视频信息，所述分析所述视频信息，得到所述视频信息对应的节目信息的步骤，包括：

若是，则判定所述节目是所述视频信息对应的节目。

6.如权利要求2所述的基于语音分析对节目评论的方法，其特征在于，所述将所述文字以及所述表情上传到评论界面的步骤之前，包括：

控制终端的摄像头采集用户的脸部信息；

判断所述第一情绪与所述第二情绪是否相同；

7.如权利要求1所述的基于语音分析对节目评论的方法，其特征在于，所述加载节目信息中的评论界面到终端的步骤，包括：

获取用户的评论类型；

加载节目信息中与评论类型对应的评论界面到终端。

8.一种基于语音分析对节目评论的装置，其特征在于，包括：

接收模块，用于接收终端采集的视频信息；

上传模块，用于将所述文字上传到评论界面。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。