CN109640112B - 视频处理方法、装置、设备及存储介质 - Google Patents

视频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109640112B
CN109640112B CN201910037302.9A CN201910037302A CN109640112B CN 109640112 B CN109640112 B CN 109640112B CN 201910037302 A CN201910037302 A CN 201910037302A CN 109640112 B CN109640112 B CN 109640112B
Authority
CN
China
Prior art keywords
video
information
processed
characteristic information
audio characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910037302.9A
Other languages
English (en)
Other versions
CN109640112A (zh
Inventor
乔文彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Information Technology Co Ltd
Original Assignee
Guangzhou Huya Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Information Technology Co Ltd filed Critical Guangzhou Huya Information Technology Co Ltd
Priority to CN201910037302.9A priority Critical patent/CN109640112B/zh
Publication of CN109640112A publication Critical patent/CN109640112A/zh
Application granted granted Critical
Publication of CN109640112B publication Critical patent/CN109640112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例公开了一种视频处理方法、装置、设备及存储介质。所述方法包括:获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;根据所述音频特征信息确定所述待处理视频对应的视频特征参数;将所述视频特征参数对应的视频标签添加至所述待处理视频。通过本发明的技术方案,能够提高视频标签的丰富程度,提升观看者对视频内容理解的质量。

Description

视频处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及视频处理技术,尤其涉及一种视频处理方法、装置、设备及存储介质。
背景技术
随着网络视频的逐渐发展和视频内容的逐渐丰富,用户对于视频观看体验的要求也越来越高。
现有技术中,对游戏视频进行标签提取处理的方式主要是,通过对视频画面进行识别来提供视频标签内容,因而提供的视频标签仅限于画面能够显示的内容,使得视频标签内容过于单一,降低了观看者在观看游戏视频时对游戏视频理解的质量。
发明内容
本发明实施例提供一种视频处理方法、装置、设备及存储介质,以提高视频标签的丰富程度,提升观看者对视频内容理解的质量。
第一方面,本发明实施例提供了一种视频处理方法,包括:
获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;
根据所述音频特征信息确定所述待处理视频对应的视频特征参数;
将所述视频特征参数对应的视频标签添加至所述待处理视频。
第二方面,本发明实施例还提供了一种视频处理装置,该装置包括:
信息获取模块,用于获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;
参数确定模块,用于根据所述音频特征信息确定所述待处理视频对应的视频特征参数;
标签添加模块,用于将所述视频特征参数对应的视频标签添加至所述待处理视频。
第三方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的视频处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的视频处理方法。
本发明实施例通过获取待处理视频中的音频特征信息,该音频特征信息包括声道信息、声纹信息以及***语音提示信息中的至少一项,并根据该音频特征信息确定待处理视频对应的视频特征参数,将该视频特征参数对应的视频标签添加至待处理视频,利用了视频中的音频特征信息获取更丰富的视频标签,解决了现有技术中仅通过视频画面提供视频标签内容,而导致的视频标签内容过于单一、降低视频理解质量的问题,提高了视频标签的丰富程度,提升了观看者对视频内容理解的质量。
附图说明
图1a是本发明实施例一提供的一种视频处理方法的流程示意图;
图1b是本发明实施例一适用的一种视频标签显示方式的示意图;
图2是本发明实施例二提供的一种视频处理方法的流程示意图;
图3是本发明实施例三提供的一种视频处理装置的结构示意图;
图4是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的一种视频处理方法的流程示意图。该方法可适用于对视频内容进行标签化处理的情况,该方法可以由视频处理装置来执行,该装置可由硬件和/或软件组成,并一般可集成在服务器以及所有包含视频处理功能的计算机设备中。具体包括如下:
S110、获取待处理视频中的音频特征信息,音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项。
本实施例主要针对目前单纯依靠图像无法识别到的标签,利用视频的音频特征信息来进行精确识别,以在视频加工和直播过程中,从多个维度增加标签的丰富程度。其中,视频标签可以是用于对视频精彩内容进行标注的关键词信息。
本实施例中,待处理视频例如可以是游戏类视频,其可以是录制的视频片段,也可以是正在直播的实时视频流,在此不作限定。待处理视频中的音频特征信息可以是视频的声音数据,例如游戏视频的视频音效,其包括声道信息、声纹信息以及***语音提示信息中的至少一项。其中,声道信息可以是具有立体声道的多维声音信息,声纹信息可以是声音音量的大小、声波特征等信息,***语音提示信息例如可以是触发***关键事件时发出的关键事件提示音等。
S120、根据音频特征信息确定待处理视频对应的视频特征参数。
本实施例中,视频特征参数可以是用于表征视频中关键事件内容的特征参数,例如游戏视频中玩家的精彩操作时刻所识别出的数据。由于某些操作数据不会直接显示在游戏视频画面上,因此,可通过对视频的音频特征信息进行分析,得到这部分视频特征参数。例如,游戏视频中敌方玩家开枪时,敌方射击距离值由于没有显示在视频画面上,因此无法直接通过视频画面来判断该距离值,但可通过枪声的大小确定敌方射击距离值。
示例性的,可采用预设算法对待处理视频中提取的音频特征信息进行识别,根据识别结果获取待处理视频对应的视频特征参数。例如,可将待处理视频中提取的音频特征信息进行文字化识别,在文字识别结果中筛选出与预设关键词相匹配的文字或数据信息,作为待处理视频的视频特征参数。
利用音频特征信息确定待处理视频对应的视频特征参数的有益效果在于,可多维度更全面的抽象出更多有帮助的标签,创造图像识别无法触达的标签维度,从而大幅提升视频观看者对视频内容理解的质量。
S130、将视频特征参数对应的视频标签添加至待处理视频。
本实施例中,不同的视频特征参数可对应于不同的视频标签,以对视频特征参数进行标签化处理,例如,识别出的待处理视频对应的视频特征参数为敌方射击距离值100米,则对应的视频标签可以是“100”。其中,一个视频特征参数可对应于一个视频标签,也可多个视频特征参数综合对应于一个视频标签,在此不作限定。
在一种可选实施方式中,可将视频标签作为该待处理视频的关键词,显示在待处理视频对应显示界面的下方,以便于观看者根据视频标签选择自己感兴趣的视频进行观看。
在另一种可选实施方式中,将视频特征参数对应的视频标签添加至待处理视频,包括:获取待处理视频中与视频特征参数对应的视频时间段;在视频时间段对应的视频显示画面中,显示视频特征参数对应的视频标签。
示例性的,可通过记录视频特征参数获取时间对应的视频播放时间,来获取基于该视频播放时间之后的预设播放时间段,并将该时间段作为待处理视频中与该视频特征参数对应的视频时间段。在该视频时间段对应的视频显示画面中,添加并显示相应的视频标签,以帮助观看者更好的理解视频内容。
举一个实际例子,例如图1b中,当视频播放时间为3分05秒时,识别出视频特征参数为敌方射击距离值100米,则从该视频播放3分05秒-3分35秒内对应的视频显示画面1中,显示视频标签11。
在上述实施例的基础上,可选的,在将视频特征参数对应的视频标签添加至待处理视频之后,还包括:根据视频标签对待处理视频进行评分;按照评分的高低对待处理视频进行推荐显示。
具体评分方式可以是,每个视频标签可对应有相应的分数值,根据待处理视频中添加的视频标签进行分数值的累加和计算,将计算结果作为该待处理视频的评分,将评分高的视频进行优先推荐显示。当然,还可将视频标签分为不同的种类,不同种类的标签具有不同的权重,在计算评分时,将视频标签所属种类对应的权重值乘以视频标签对应的分数值,再对该待处理视频中添加的所有视频标签进行累加和计算。上述两种方式均可适用于本实施例,在此不作限定。
本实施例的技术方案,通过获取待处理视频中的音频特征信息,该音频特征信息包括声道信息、声纹信息以及***语音提示信息中的至少一项,并根据该音频特征信息确定待处理视频对应的视频特征参数,将该视频特征参数对应的视频标签添加至待处理视频,利用了视频中的音频特征信息获取更丰富的视频标签,解决了现有技术中仅通过视频画面提供视频标签内容,而导致的视频标签内容过于单一、降低视频理解质量的问题,提高了视频标签的丰富程度,提升了观看者对视频内容理解的质量。
实施例二
图2为本发明实施例二提供的一种视频处理方法的流程示意图。本实施例以上述实施例为基础进行优化,提供了优选的视频处理方法,具体是,将根据音频特征信息确定待处理视频对应的视频特征参数进一步优化为,包括:将音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数。
本实施例提供的视频处理方法具体包括如下步骤:
S210、获取待处理视频中的音频特征信息,音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项。
S220、将音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数。
本实施例中,可先对音频特征信息进行向量化处理,再将处理后得到的特征向量输入至预先训练的声音识别模型。其中,声音识别模型可用于对输入的音频特征信息进行识别,以输出对应的视频特征参数。具体的,声音识别模型可以是按照预设机器学习算法训练出来的模型。
声音识别模型的工作原理可以是,当输入音频特征信息时,声音识别模型对输入的音频特征信息进行声音识别,对识别出的特征信息进行分析,判断输入的音频特征信息中是否包含有相应的特征参数,若有,则将该特征参数输出,作为该待处理视频的视频特征参数,若没有,则无输出。例如,将包含有敌方枪声的游戏视频输入至声音识别模型中,声音识别模型对该视频的音频特征信息进行声音识别和特征分析后,可输出相应的敌方射击距离值。
本实施例中使用声音识别模型来进行声音识别的有益效果在于,可提高声音识别的准确性和实时性,进而在视频标签添加的过程可提高视频标签添加的精确性。
可选的,在将音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数之前,还包括:获取具有目标视频特征参数标签的音频特征信息样本;使用音频特征信息样本对设定人工智能模型进行训练,得到声音识别模型。
其中,音频特征信息样本可以从网络直播平台中的各直播视频中提取,也可以通过特定搜索引擎从互联网上下载,在此不作限定。以从网络直播平台中的各直播视频中提取音频特征信息样本为例,从目标网络直播平台中搜索游戏类的多个直播间,然后从多个直播间中分别提取多段具有典型声音特征的音频信号,对提取到的多段音频信号标注相应的视频特征参数标签,从而获得音频特征信息样本。具体的,对获取的音频特征信息样本进行标注的方式具体可以是人工评估标注方式,也即通过人工的方式将从各直播间中获取的具有典型声音特征的音频信号标注上相应的视频特征参数标签,以作为不同视频特征参数下的音频特征信息样本。
本实施例中设定人工智能模型可以是基于机器学习算法建立的训练模型,例如循环神经网络(Recurrent neural Network,RNN),RNN是一种节点定向连接成环的人工神经网络,这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。具体的,对人工智能模型训练的过程可以是调整各神经网络参数的过程,经过不断的训练,获得最优的神经网络参数,具有最优神经网络参数的设定人工智能模型即为最终要获得的模型。示例性的,在获得多个具有目标视频特征参数标签的音频特征信息样本后,使用该多个音频特征信息样本对设定人工智能模型进行训练,不断调整设定人工智能模型中的神经网络参数,使得设定人工智能模型具有从输入的音频特征信息中识别出目标视频特征参数的能力,从而获得声音识别模型。
可选的,待处理视频包括射击游戏类视频;相应的,将音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数,包括:将音频特征信息中的声道信息输入至预先训练的声音识别模型中,得到射击游戏类视频对应的敌方所处方向;或,将音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到射击游戏类视频对应的敌方所处方向以及敌方射击距离;或,将音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到射击游戏类视频对应的敌方所处方向、敌方射击距离以及枪械种类。
示例性的,在射击游戏类视频中,由于枪械射击发出的音效声音可通过声道、声纹来识别,因此,可通过将声道信息和/或声纹信息输入至预先训练的声音识别模型中,来获取具体的射击数据信息。具体的,将带有敌方射击音效的声道信息输入至声音识别模型中,可从声音识别模型输出得到敌方所处方向;将带有敌方射击音效的声纹信息输入至声音识别模型中,可输出得到敌方射击距离和/或敌方所使用的枪械种类;将带有我方射击音效的声纹信息输入至声音识别模型中,可输出得到我方所使用的枪械种类。
可选的,待处理视频包括多人在线战术竞技游戏类视频;相应的,将音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数,包括:将音频特征信息中的***语音提示信息输入至预先训练的声音识别模型中,得到多人在线战术竞技游戏类视频对应的游戏事件关键词。
示例性的,在MOBA(Multiplayer Online Battle Arena,多人在线战术竞技)游戏类视频中,由于玩家所使用角色会发出特定的声音,或者玩家触发特定游戏事件时,***会发出语音提示,因此,可通过将***语音提示信息输入至预先训练的声音识别模型中,来获取具体的玩家操作数据。具体的,将带有连续击杀语音提示的***语音提示信息输入至预先训练的声音识别模型中,可从声音识别模型输出得到游戏连续击杀事件的关键词,例如玩家连续击杀数目。
S230、将视频特征参数对应的视频标签添加至待处理视频。
本实施例的技术方案,通过在获取到待处理视频中的音频特征信息后,将该音频特征信息输入至预先训练的声音识别模型中,得到待处理视频对应的视频特征参数,并将该视频特征参数对应的视频标签添加至待处理视频,利用声音识别模型来识别视频音效,从更多维度获取丰富的视频标签,在提高视频标签丰富程度以及观看者对视频内容理解质量的同时,提高了声音识别的准确性和实时性,以及视频标签添加的精确性。
实施例三
图3为本发明实施例三提供的一种视频处理装置的结构示意图。参考图3,视频处理装置包括:信息获取模块310、参数确定模块320以及标签添加模块330,下面对各模块进行具体说明。
信息获取模块310,用于获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;
参数确定模块320,用于根据所述音频特征信息确定所述待处理视频对应的视频特征参数;
标签添加模块330,用于将所述视频特征参数对应的视频标签添加至所述待处理视频。
本实施例提供的视频处理装置,通过获取待处理视频中的音频特征信息,该音频特征信息包括声道信息、声纹信息以及***语音提示信息中的至少一项,并根据该音频特征信息确定待处理视频对应的视频特征参数,将该视频特征参数对应的视频标签添加至待处理视频,利用了视频中的音频特征信息获取更丰富的视频标签,解决了现有技术中仅通过视频画面提供视频标签内容,而导致的视频标签内容过于单一、降低视频理解质量的问题,提高了视频标签的丰富程度,提升了观看者对视频内容理解的质量。
可选的,参数确定模块320可以包括:
信息输入子模块,用于将所述音频特征信息输入至预先训练的声音识别模型中,得到所述待处理视频对应的视频特征参数。
可选的,参数确定模块320还可以包括:
样本获取子模块,用于在将所述音频特征信息输入至预先训练的声音识别模型中,得到所述待处理视频对应的视频特征参数之前,获取具有目标视频特征参数标签的音频特征信息样本;
模型训练子模块,用于使用所述音频特征信息样本对设定人工智能模型进行训练,得到所述声音识别模型。
可选的,所述待处理视频包括射击游戏类视频;
相应的,信息输入子模块具体可以用于:
将所述音频特征信息中的声道信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向;或,
将所述音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向以及敌方射击距离;或,将所述音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向、敌方射击距离以及枪械种类。
可选的,所述待处理视频包括多人在线战术竞技游戏类视频;
相应的,信息输入子模块具体可以用于:
将所述音频特征信息中的***语音提示信息输入至预先训练的声音识别模型中,得到所述多人在线战术竞技游戏类视频对应的游戏事件关键词。
可选的,标签添加模块330具体可以用于:
获取所述待处理视频中与所述视频特征参数对应的视频时间段;
在所述视频时间段对应的视频显示画面中,显示所述视频特征参数对应的视频标签。
可选的,视频处理装置还可以包括:
视频评分模块,用于在将所述视频特征参数对应的视频标签添加至所述待处理视频之后,根据所述视频标签对所述待处理视频进行评分;
视频推荐模块,用于按照所述评分的高低对所述待处理视频进行推荐显示。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,本实施例提供的一种计算机设备,包括:处理器41和存储器42。该计算机设备中的处理器可以是一个或多个,图4中以一个处理器41为例,所述计算机设备中的处理器41和存储器42可以通过总线或其他方式连接,图4中以通过总线连接为例。
本实施例中计算机设备的处理器41中集成了上述实施例提供的视频处理装置。此外,该计算机设备中的存储器42作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中视频处理方法对应的程序指令/模块(例如,附图3所示的视频处理装置中的模块,包括:信息获取模块310、参数确定模块320以及标签添加模块330)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例中视频处理方法。
存储器42可包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器41执行时,程序进行如下操作:
获取待处理视频中的音频特征信息,音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;根据音频特征信息确定待处理视频对应的视频特征参数;将视频特征参数对应的视频标签添加至待处理视频。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被视频处理装置执行时实现如本发明实施例一提供的视频处理方法,该方法包括:获取待处理视频中的音频特征信息,音频特征信息包括:声道信息、声纹信息以及***语音提示信息中的至少一项;根据音频特征信息确定待处理视频对应的视频特征参数;将视频特征参数对应的视频标签添加至待处理视频。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序被执行时不限于实现如上所述的方法操作,还可以实现本发明任意实施例所提供的视频处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述视频处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种视频处理方法,其特征在于,包括:
获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息中的至少一项;
根据所述音频特征信息确定所述待处理视频对应的视频特征参数,其中,所述视频特征参数用于表征视频中关键事件内容;
所述根据所述音频特征信息确定所述待处理视频对应的视频特征参数,包括:采用预设算法对待处理视频中提取的音频特征信息进行识别,根据识别结果获取待处理视频对应的视频特征参数;
将所述视频特征参数对应的视频标签添加至所述待处理视频;
所述待处理视频包括射击游戏类视频;
相应的,将所述音频特征信息输入至预先训练的声音识别模型中,得到所述待处理视频对应的视频特征参数,包括:
将所述音频特征信息中的声道信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向。
2.根据权利要求1所述的方法,其特征在于,在将所述音频特征信息输入至预先训练的声音识别模型中,得到所述待处理视频对应的视频特征参数之前,还包括:
获取具有目标视频特征参数标签的音频特征信息样本;
使用所述音频特征信息样本对设定人工智能模型进行训练,得到所述声音识别模型。
3.根据权利要求1所述的方法,其特征在于,所述待处理视频包括射击游戏类视频;
相应的,将所述音频特征信息输入至预先训练的声音识别模型中,得到所述待处理视频对应的视频特征参数,还包括:
将所述音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向以及敌方射击距离;或,
将所述音频特征信息中的声道信息和声纹信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向、敌方射击距离以及枪械种类。
4.根据权利要求1所述的方法,其特征在于,将所述视频特征参数对应的视频标签添加至所述待处理视频,包括:
获取所述待处理视频中与所述视频特征参数对应的视频时间段;
在所述视频时间段对应的视频显示画面中,显示所述视频特征参数对应的视频标签。
5.一种视频处理装置,其特征在于,包括:
信息获取模块,用于获取待处理视频中的音频特征信息,所述音频特征信息包括:声道信息、声纹信息中的至少一项;
参数确定模块,用于根据所述音频特征信息确定所述待处理视频对应的视频特征参数,其中,所述视频特征参数用于表征视频中关键事件内容;
所述根据所述音频特征信息确定所述待处理视频对应的视频特征参数,包括:采用预设算法对待处理视频中提取的音频特征信息进行识别,根据识别结果获取待处理视频对应的视频特征参数;
标签添加模块,用于将所述视频特征参数对应的视频标签添加至所述待处理视频;
所述视频处理装置还包括信息输入子模块;
所述待处理视频包括射击游戏类视频;相应的,信息输入子模块具体用于:
将所述音频特征信息中的声道信息输入至预先训练的声音识别模型中,得到所述射击游戏类视频对应的敌方所处方向。
6.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的视频处理方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的视频处理方法。
CN201910037302.9A 2019-01-15 2019-01-15 视频处理方法、装置、设备及存储介质 Active CN109640112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910037302.9A CN109640112B (zh) 2019-01-15 2019-01-15 视频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910037302.9A CN109640112B (zh) 2019-01-15 2019-01-15 视频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109640112A CN109640112A (zh) 2019-04-16
CN109640112B true CN109640112B (zh) 2021-11-23

Family

ID=66061982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910037302.9A Active CN109640112B (zh) 2019-01-15 2019-01-15 视频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109640112B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677722A (zh) * 2019-09-29 2020-01-10 上海依图网络科技有限公司 视频处理方法及其装置、介质和***
CN111031392A (zh) * 2019-12-23 2020-04-17 广州视源电子科技股份有限公司 媒体文件的播放方法、***、装置、存储介质和处理器
CN111447489A (zh) * 2020-04-02 2020-07-24 北京字节跳动网络技术有限公司 视频处理方法、装置、可读介质及电子设备
CN111885414B (zh) * 2020-07-24 2023-03-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及可读存储介质
CN114095738A (zh) * 2020-07-30 2022-02-25 京东方科技集团股份有限公司 视频及直播处理方法、直播***、电子设备、终端、介质
CN111901668B (zh) * 2020-09-07 2022-06-24 三星电子(中国)研发中心 视频播放方法和装置
CN113038175B (zh) * 2021-02-26 2023-03-24 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN107357875A (zh) * 2017-07-04 2017-11-17 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
CN107483879A (zh) * 2016-06-08 2017-12-15 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和***
CN107507625A (zh) * 2016-06-14 2017-12-22 讯飞智元信息科技有限公司 声源距离确定方法及装置
CN107770614A (zh) * 2016-08-18 2018-03-06 中国电信股份有限公司 多媒体内容的标签制作方法及装置
CN108563670A (zh) * 2018-01-12 2018-09-21 武汉斗鱼网络科技有限公司 视频推荐方法、装置、服务器及计算机可读存储介质
CN109126132A (zh) * 2018-08-02 2019-01-04 Oppo广东移动通信有限公司 游戏角色的位置提示方法、装置、存储介质和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio
CN102483918B (zh) * 2009-11-06 2014-08-20 株式会社东芝 声音识别装置
CN107527617A (zh) * 2017-09-30 2017-12-29 上海应用技术大学 基于声音识别的监控方法、装置及***
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN108962216B (zh) * 2018-06-12 2021-02-02 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN109166586B (zh) * 2018-08-02 2023-07-07 平安科技(深圳)有限公司 一种识别说话人的方法及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN107483879A (zh) * 2016-06-08 2017-12-15 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和***
CN107507625A (zh) * 2016-06-14 2017-12-22 讯飞智元信息科技有限公司 声源距离确定方法及装置
CN107770614A (zh) * 2016-08-18 2018-03-06 中国电信股份有限公司 多媒体内容的标签制作方法及装置
CN107357875A (zh) * 2017-07-04 2017-11-17 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
CN108563670A (zh) * 2018-01-12 2018-09-21 武汉斗鱼网络科技有限公司 视频推荐方法、装置、服务器及计算机可读存储介质
CN109126132A (zh) * 2018-08-02 2019-01-04 Oppo广东移动通信有限公司 游戏角色的位置提示方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN109640112A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109640112B (zh) 视频处理方法、装置、设备及存储介质
CN108769823B (zh) 直播间显示方法、装置、设备
US10824874B2 (en) Method and apparatus for processing video
WO2019228302A1 (zh) 直播间显示方法、装置、设备及存储介质
CN107463698B (zh) 基于人工智能推送信息的方法和装置
US20170169018A1 (en) Method and Electronic Device for Recommending Media Data
CN110347872B (zh) 视频封面图像提取方法及装置、存储介质及电子设备
CN109194978A (zh) 直播视频剪辑方法、装置和电子设备
CN110557659B (zh) 视频推荐方法、装置、服务器及存储介质
CN109788345B (zh) 直播控制方法、装置、直播设备及可读存储介质
US20160317933A1 (en) Automatic game support content generation and retrieval
CN111757170B (zh) 一种视频分段和标记的方法及装置
CN110267116A (zh) 视频生成方法、装置、电子设备和计算机可读介质
CN111147871B (zh) 直播间歌唱识别方法、装置及服务器、存储介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN109618236A (zh) 视频评论处理方法和装置
JP2018525675A (ja) 過去のブロードキャストテキストを用いてライブテキストブロードキャストコンテンツを生成する方法およびデバイス
Habibian et al. Recommendations for recognizing video events by concept vocabularies
CN110072140A (zh) 一种视频信息提示方法、装置、设备及存储介质
CN114095742A (zh) 一种视频推荐方法、装置、计算机设备及存储介质
KR102586286B1 (ko) 상황적 디지털 미디어 처리 시스템 및 방법
CN113497946A (zh) 视频处理方法、装置、电子设备和存储介质
CN113220940B (zh) 视频分类方法、装置、电子设备及存储介质
CN105848737B (zh) 解析装置、记录媒体和解析方法
CN114283349A (zh) 一种数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant