CN110751030A - 一种视频分类方法、设备及*** - Google Patents

一种视频分类方法、设备及*** Download PDF

Info

Publication number
CN110751030A
CN110751030A CN201910866433.8A CN201910866433A CN110751030A CN 110751030 A CN110751030 A CN 110751030A CN 201910866433 A CN201910866433 A CN 201910866433A CN 110751030 A CN110751030 A CN 110751030A
Authority
CN
China
Prior art keywords
video
audio
classified
features
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910866433.8A
Other languages
English (en)
Inventor
刘卓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Wangsu Co Ltd
Original Assignee
Xiamen Wangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Wangsu Co Ltd filed Critical Xiamen Wangsu Co Ltd
Priority to CN201910866433.8A priority Critical patent/CN110751030A/zh
Priority to US17/641,823 priority patent/US20240046644A1/en
Priority to EP19944760.8A priority patent/EP4016375A1/en
Priority to PCT/CN2019/110772 priority patent/WO2021046957A1/zh
Publication of CN110751030A publication Critical patent/CN110751030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频分类方法、设备及***,其中,所述方法包括:将待分类视频划分为多个视频片段,并针对每个视频片段,提取所述视频片段中各个视频帧的帧特征,以及提取所述各个视频帧对应的音频数据的音频特征;将提取的各个所述帧特征整合为所述视频片段的视频特征,并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征;根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。本申请提供的技术方案,能够提高视频分类的精度。

Description

一种视频分类方法、设备及***
技术领域
本发明涉及互联网技术领域,特别涉及一种视频分类方法、设备及***。
背景技术
在各类视频服务中,对视频进行分类并打上类别标签已经是一种广泛采用的做法。对视频内容进行分类,一方面可以让用户快速定位到自己感兴趣的内容,另一方面,各种视频推荐技术也可以基于视频的类别标签进行更好的实施。
在过去,视频服务提供商通常使用人工标注的方式来对视频进行分类。但随着视频数量的急剧增大、人工成本的增高以及机器学习的发展,使用机器学习技术对视频进行分类的方式逐渐取代了人工分类。
目前,可以通过递归神经网络(Recurrent Neural Network,RNN)、局部聚合描述符(Vector of Locally Aggregated Descriptors,VLAD)神经网络(例如netVLAD、neXtVLAD)等方式来自动对视频进行分类。然而,这些机器学习的方式也会存在一定的缺陷。例如,RNN可以学习大量的长期信息,能够用于处理具备前后依赖性的数据,但是RNN可记忆的信息长度有限,对于较长的视频无法具备较高的分类精度。NetVLAD和neXtVLAD在对视频进行分类时,通常是将整个视频数据一并处理,但是这样会忽略视频中前后场景之间的联系,也会导致分类精度不够高的问题。
发明内容
本申请的目的在于提供一种视频分类方法、设备及***,能够提高视频分类的精度。
为实现上述目的,本申请一方面提供一种视频分类方法,所述方法包括:将待分类视频划分为多个视频片段,并针对每个视频片段,提取所述视频片段中各个视频帧的帧特征,以及提取所述各个视频帧对应的音频数据的音频特征;将提取的各个所述帧特征整合为所述视频片段的视频特征,并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征;根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
为实现上述目的,本申请另一方面还提供一种视频分类设备,所述视频分类设备包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的视频分类方法。
为实现上述目的,本申请另一方面还提供一种视频分类***,待分类视频被划分为多个视频片段,所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络,其中,所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络,所述第二网络分支中包括第二卷积神经网络,其中:所述第一卷积神经网络用于针对每个视频片段,提取所述视频片段中各个视频帧的帧特征;所述局部聚合描述符神经网络,用于将提取的各个所述帧特征整合为所述视频片段的视频特征;所述第二卷积神经网络,用于提取所述各个视频帧对应的音频数据的音频特征;所述递归神经网络,用于接收由所述视频特征和所述音频特征拼接而成的音视频特征,并根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
由上可见,本申请提供的技术方案,可以将VLAD神经网络和RNN相结合,从而通过结合后的***解决彼此的缺陷。具体地,在对视频进行分类时,可以采用两个网络分支,其中,第一网络分支可以用于处理视频片段中的视频帧,第二网络分支可以用于处理视频片段对应的音频数据。在第一网络分支中,可以通过第一CNN提取出视频片段中各个视频帧的帧特征。后续,VLAD神经网络可以将视频片段的各个帧特征整合为该视频片段的视频特征。需要说明的是,由第一CNN提取出的帧特征,可以是一个特征向量,由于视频片段中包含多个视频帧,那么各个帧特征便可以构成一个特征矩阵。而经过VLAD神经网络后,可以将该特征矩阵降维成一个一维数组,这样便可以实现数据的压缩。后续,VLAD神经网络输出的结果可以与第二网络分支输出的音频特征进行拼接,从而得到该视频片段的音视频特征。
经过上述的处理方式,每个视频片段都可以具备自身的音视频特征,并且该音视频特征是降维后的结果。这样,假设待分类视频中具备L个视频帧,而每个视频片段中具备N个视频帧,那么待分类视频经过上述的处理,便可以得到L/N个音视频特征,这样,相当于极大地压缩了待分类视频的长度。后续,将压缩得到的音视频特征依次输入RNN,便可以利用RNN的记忆特性,对存在前后关联的音视频特征进行分析。同时,由于RNN并非是对待分类视频进行逐帧分析,而是分析压缩后的音视频特征,因此需要记忆的数据量会大幅减少,从而符合RNN无法记忆过长信息的特性,进而能够得到比较精确的分类结果。
此外,本申请提供的技术方案,不仅仅对视频片段的视频帧进行分析,同时还会对视频片段对应的音频数据进行同步分析,从而利用了视频帧与音频数据之间的强关联性,进一步保证了视频分类的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施方式中视频分类***的结构示意图;
图2是本发明实施方式中视频分类方法的步骤示意图;
图3是本发明实施方式中RNN的数据处理示意图;
图4是本发明实施方式中标题数据的预测示意图;
图5是本发明实施方式中视频分类设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本申请提供一种视频分类方法,该方法可以应用于如图1所示的视频分类***中。具体地,请参阅图1,视频分类***可以包括两个网络分支,其中,第一网络分支可以包括第一CNN和VLAD神经网络,VLAD神经网络例如可以是netVLAD或者neXtVLAD。第二网络分支可以包括第二CNN。两个网络分支的结果可以经过拼接之后,进入RNN,并由RNN预测出待分类视频所属的视频种类。
需要说明的是,通过机器学习的方式来预测视频种类,通常都会存在两个阶段,一个是训练阶段,另一个是预测阶段。在训练阶段和预测阶段中,对于待分类视频而言,***的处理方式都是类似的。只不过,在训练阶段,待分类视频已经经过人工标注的方式,预先知晓了待分类视频的实际视频种类。已经标识了实际视频种类的待分类视频,可以作为训练阶段的训练样本。视频分类***对上述的待分类视频进行预测后,可以根据预测结果与实际视频种类之间的偏差,来对视频分类***进行校正,使得校正后的视频分类***能够更加准确地进行视频分类。完成训练后的视频分类***,便可以进入预测阶段。在预测阶段,针对输入的待分类视频,无法知晓它所属的实际视频种类。而是经过完成训练的视频分类***,对该待分类视频的数据进行处理,并将最终的输出结果表征的视频种类,作为该待分类视频预测得到的视频种类。
请参阅图1和图2,本申请一个实施方式中,上述的视频分类方法可以包括以下步骤。
S1:将待分类视频划分为多个视频片段,并针对每个视频片段,提取所述视频片段中各个视频帧的帧特征,以及提取所述各个视频帧对应的音频数据的音频特征。
在本实施方式中,可以预先将待分类视频划分为多个视频片段。在进行视频片段的划分时,可以确定各个视频片段中包含的视频帧的数量,并根据该数据量进行视频片段的划分。例如,假设各个视频片段中可以包含N个视频帧,而待分类视频的总帧数为L,那么待分类视频便可以被划分为L/N个视频片段。通常而言,L可以是N的整数倍,这样可以保证划分得到的各个视频片段中都包含相同的视频帧数量,从而为后续的数据处理提供一个统一的前提。当然,在实际应用中,L也可以不是N的整数倍。这样,划分得到的最后一个视频片段中,视频帧的数量通常会小于N。为了保证后续数据处理的统一性,可以通过视频帧补足的方式,将最后一个视频片段中的视频帧扩充至N。视频帧补足的方式也可以多种多样,例如可以对最后一个视频片段进行视频帧插值,在相邻的两个视频帧之间,通过插值的方式构建出一个新的视频帧,从而扩充视频帧的数量。又例如,还可以将最后一个视频帧复制多遍,直至视频片段中的视频帧数量达到N为止。
在本实施方式中,在将待分类视频划分为多个视频片段后,可以针对每个视频片段进行相同的处理。具体地,可以通过第一CNN提取视频片段中各个视频帧的帧特征。
在一个实施方式中,首先可以将视频片段中的各个视频帧转换为对应的位图图像。具体地,可以检测视频帧中各个像素点的像素值,并将视频帧转换为由像素值表示的位图图像。该位图图像中的各个像素值,可以与视频帧中各个像素点的排列顺序保持一致。
在本实施方式中,在将视频片段中的各个视频帧转换为位图图像后,可以将转换得到的位图图像依次输入第一CNN,从而通过第一CNN分别提取各个位图图像的特征向量,该特征向量便可以作为各个视频帧的帧特征。在实际应用中,CNN中可以包括多个层结构,例如,CNN中可以包括卷积层、激活函数层、池化层以及全连接层等,其中,每个层结构的数量也可以不止一个。在卷积层中,可以通过预先选择的卷积核,依次对位图图像中的各个局部图像进行卷积运算,从而得到由卷积值构成的卷积图像。后续,通过激活函数层和池化层,可以进一步地筛选卷积图像中局部图像的取值。最终,通过全连接层,可以将原本通过矩阵表示的位图图像,处理为一个特征向量,该特征向量便可以作为经过第一CNN提取的视频帧的帧特征。这样,对于视频片段中的每个视频帧而言,经过第一CNN处理后,均可以具备自身的帧特征。
考虑到视频片段的画面与声音通常会具备较强的关联性,因此为了利用这种强关联性,在本实施方式中,可以采用第二CNN,提取视频片段对应的音频数据的音频特征。具体地,可以从待分类视频中截取出视频片段对应的音频数据,并将该音频数据转换为量化数据。在实际应用中,可以对音频数据进行多种数学运算,从而得到对应的量化数据。例如,可以求取音频数据的频谱图或者语谱图,并将频谱图或者语谱图作为音频数据的量化数据。此外,还可以计算计算音频数据的功率谱密度或者短时自相关函数,并将功率谱密度或者短时自相关函数作为音频数据的量化数据。
在本实施方式中,在得到音频数据的量化数据后,可以将该量化数据输入第二CNN进行处理。第二CNN可以根据多个层结构,将矩阵形式的量化数据转换为特征向量。这样,从量化数据中提取出的特征向量,便可以作为音频数据的音频特征。
S3:将提取的各个所述帧特征整合为所述视频片段的视频特征,并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征。
如果直接将第一CNN提取得到的各个视频帧的帧特征输入RNN中,那么当待分类视频的时长较长时,RNN在处理比较靠后的帧特征时,会由于可记忆的信息长度有限,导致比较靠前的帧特征的缺失,从而会导致最终的分类结果不精确。鉴于此,在本实施方式中,在经过第一CNN得到视频片段的各个视频帧的帧特征后,可以通过VLAD神经网络,将各个帧特征整合为视频片段的视频特征。这样,对于同一个视频片段而言,其对应的就不是多个帧特征,而是可以对应一个视频特征。通过这样的处理方式,假设待分类视频共计有L个视频帧,每个视频片段具备N个视频帧,那么便可以将待处理的特征数据的数量从L降低至L/N。
在本实施方式中,VLAD神经网络可以包括netVLAD或者neXtVLAD,在实际应用中,可以根据所需处理的数据量灵活选用。VLAD神经网络可以将视频片段视为一个整体进行处理,从而得到该视频片段的一个一维数组。具体地,经过第一CNN之后,视频片段的每个帧特征可以通过特征向量来表示,那么可以根据各个帧特征表征的特征向量构建一个特征矩阵。在该特征矩阵中,每一行可以代表一个特征向量,因此,该特征矩阵的行数,可以与视频片段中包含的视频帧的数量一致。在构建得到特征矩阵后,可以将该特征矩阵输入VLAD神经网络,从而利用VLAD神经网络的特性,将该特征矩阵处理为一个一维数组。该一维数组,便可以作为该视频片段的视频特征。这样,原先每个视频片段对应的特征矩阵,可以通过VLAD神经网络,降维成一个一维数组。
在本实施方式中,由于音频数据经过第二CNN处理后的音频特征也是一个一维数组(实际上就是一个特征向量),那么,为了体现音频片段的视频帧和音频数据之间的关联性,可以将视频特征和音频特征进行拼接,从而作为一个整体进行后续的数据分析。具体地,可以将两个一维数组拼接为一个一维数组,并将拼接得到的一维数组作为视频片段的音视频特征。举例来说,假设视频片段的视频特征为(1,2,3),该视频片段的音频数据的音频特征为(4,5,6),那么拼接后的音视频特征可以是(1,2,3,4,5,6)。
S5:根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
在本实施方式中,待分类视频中的各个视频片段均可以按照上述的方式处理得到音视频特征。由于待分类视频中各个视频片段的内容是具备前后关联性的,因此通过RNN来处理待分类视频的各个音视频特征可以具备较好的分类精度。请参阅图3,各个视频片段的音视频特征可以依次输入RNN模型中,当各个视频片段的音视频特征均输入完毕后,RNN模型可以输出最后的分类结果。
如图3所示,各个视频片段的音视频数据,可以按照视频片段在待分类视频中的播放顺序,被依次输入RNN模型。RNN模型在得到第一个音视频特征的处理结果后,可以将第一个音视频特征的处理结果作为辅助数据,连同第二个音视频特征一并处理,从而体现出前后音视频特征之间的关联性。也就是说,RNN在对当前视频片段的音视频特征进行处理时,可以将上一个视频片段的处理结果作为辅助数据,与当前视频片段的音视频特征一并处理,从而得到当前视频片段的处理结果。该处理结果又可以作为下一个音视频特征的辅助数据进行处理,从而延续前面的音视频特征对后面的音视频特征的影响。当RNN对各个视频片段的音视频特征均完成处理后,便可以将输出结果表征的视频种类作为待分类视频所属的视频种类。
具体地,RNN的输出结果可以是一个概率向量,概率向量中的各个向量元素可以是不同的概率值,这些向量元素可以与不同的预测结果一一对应。例如,当前待确定的视频种类为娱乐、旅游、动作、科幻、动画这五大类,那么概率向量中可以具备与这五大类一一对应的五个概率值。在确定待分类视频所属的视频种类时,可以从概率向量中识别出最大的概率值,并将该最大的概率值对应的视频种类,作为待分类视频预测得到的视频种类。
在一个实施方式中,为了增强视频分类***的泛用性,可以在RNN之前添加一个全连接层(fully connected layer)。这样,拼接得到的音视频特征可以经过全连接层的处理后再输入RNN。
在一个实施方式中,为了进一步提高视频分类的准确度,可以根据待分类视频的标题数据进行视频种类的预测,并将两种预测结果进行综合比对,从而确定出待分类视频的最终视频种类。请参阅图4,在本实施方式中,在获取到待分类视频的标题数据后,可以通过常规的分词处理,从而标题数据中提取出具备实际含义的词汇。然后,可以将提取出的词汇作为词汇序列输入至自然语言处理(Natural Language Processing,NLP)模型中。在实际应用中,NLP模型可以采用BERT(Bidirectional Encoder Representations fromTransformers,基于变换器的双向编码描述)网络,在BERT网络中,可以将输入的词汇序列中各个词汇转换为对应的词向量,并通过MLM(Masked Language Model,完形填空)和NSP(Next Sentence Prediction,下一语句预测)策略,对词向量进行分析,最终确定出输入的词汇序列对应的视频种类。
在本实施方式中,BERT网络的输出结果也可以是一个概率向量,该概率向量也可以与待确定的视频种类一一对应。这样,基于音视频特征和标题数据可以分别得到第一预测结果和第二预测结果,后续,可以根据第一预测结果和第二预测结果确定待分类视频的最终视频种类。由于第一预测结果和第二预测结果均可以为概率向量,那么可以采用加权平均的方式来计算最终的概率向量。具体地,可以分别为两个概率向量分配各自的权重系数,这两个权重系数的和可以是1,根据分配的权重系数可以按照以下公式对两个概率向量进行加权平均运算:
Pc=a·P1+(1-a)P2
其中,Pc表示加权平均后的概率向量,a表示第一预测结果的权重系数,P1表示第一预测结果表征的概率向量,P2表示第二预测结果表征的概率向量。
在本实施方式中,在加权平均得到概率向量后,可以识别加权平均运算后的概率向量中概率值最大的目标向量元素,并将目标向量元素表征的视频种类作为待分类视频的最终视频种类。这样,通过综合两个预测结果,可以使得最终的分类结果更加精确。
在一个实施方式中,在训练阶段,可以通过比对预测结果和真实结果,不断地对各个神经网络中的参数进行调节。此外,还可以对视频片段中包含的视频帧的数量以及上述的权重系数进行调节。具体地,若待分类视频的最终视频种类与待分类视频的实际视频种类不一致,可以对上述的权重系数进行调整,以使得根据调整后的权重系数确定的最终视频种类与实际视频种类保持一致。另外,若预测得到的待分类视频的视频种类与待分类视频的实际视频种类不一致,还可以对各个视频片段中包含的视频帧的数量进行调整,以使得根据调整后的视频帧的数量预测得到的视频种类与实际视频种类保持一致。上述的参数调整过程,可以择一进行,也可以同时进行,本申请对此并不做限定。
请参阅图5,本申请还提供一种视频分类设备,所述视频分类设备包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,可以实现上述的视频分类方法。
请参阅图1,本申请还提供一种视频分类***,待分类视频被划分为多个视频片段,所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络,其中,所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络,所述第二网络分支中包括第二卷积神经网络,其中:
所述第一卷积神经网络用于针对每个视频片段,提取所述视频片段中各个视频帧的帧特征;
所述局部聚合描述符神经网络,用于将提取的各个所述帧特征整合为所述视频片段的视频特征;
所述第二卷积神经网络,用于提取所述各个视频帧对应的音频数据的音频特征;
所述递归神经网络,用于接收由所述视频特征和所述音频特征拼接而成的音视频特征,并根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
在一个实施方式中,所述视频分类***还包括BERT网络和综合预测单元,其中:
所述BERT网络,用于根据所述待分类视频的标题数据预测所述待分类视频所属的视频种类;
所述综合预测单元,用于根据基于音视频特征得到的第一预测结果和基于标题数据得到的第二预测结果,确定所述待分类视频的最终视频种类。
在一个实施方式中,所述综合预测单元包括:
加权平均模块,用于分别为两个概率向量分配各自的权重系数,并根据分配的所述权重系数对所述两个概率向量进行加权平均运算;
概率值识别模块,用于识别加权平均运算后的概率向量中概率值最大的目标向量元素,并将所述目标向量元素表征的视频种类作为所述待分类视频的最终视频种类。
由上可见,本申请提供的技术方案,可以将VLAD神经网络和RNN相结合,从而通过结合后的***解决彼此的缺陷。具体地,在对视频进行分类时,可以采用两个网络分支,其中,第一网络分支可以用于处理视频片段中的视频帧,第二网络分支可以用于处理视频片段对应的音频数据。在第一网络分支中,可以通过第一CNN提取出视频片段中各个视频帧的帧特征。后续,VLAD神经网络可以将视频片段的各个帧特征整合为该视频片段的视频特征。需要说明的是,由第一CNN提取出的帧特征,可以是一个特征向量,由于视频片段中包含多个视频帧,那么各个帧特征便可以构成一个特征矩阵。而经过VLAD神经网络后,可以将该特征矩阵降维成一个一维数组,这样便可以实现数据的压缩。后续,VLAD神经网络输出的结果可以与第二网络分支输出的音频特征进行拼接,从而得到该视频片段的音视频特征。
经过上述的处理方式,每个视频片段都可以具备自身的音视频特征,并且该音视频特征是降维后的结果。这样,假设待分类视频中具备L个视频帧,而每个视频片段中具备N个视频帧,那么待分类视频经过上述的处理,便可以得到L/N个音视频特征,这样,相当于极大地压缩了待分类视频的长度。后续,将压缩得到的音视频特征依次输入RNN,便可以利用RNN的记忆特性,对存在前后关联的音视频特征进行分析。同时,由于RNN并非是对待分类视频进行逐帧分析,而是分析压缩后的音视频特征,因此需要记忆的数据量会大幅减少,从而符合RNN无法记忆过长信息的特性,进而能够得到比较精确的分类结果。
此外,本申请提供的技术方案,不仅仅对视频片段的视频帧进行分析,同时还会对视频片段对应的音频数据进行同步分析,从而利用了视频帧与音频数据之间的强关联性,进一步保证了视频分类的准确性。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对***和设备的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种视频分类方法,其特征在于,所述方法包括:
将待分类视频划分为多个视频片段,并针对每个视频片段,提取所述视频片段中各个视频帧的帧特征,以及提取所述各个视频帧对应的音频数据的音频特征;
将提取的各个所述帧特征整合为所述视频片段的视频特征,并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征;
根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
2.根据权利要求1所述的方法,其特征在于,提取所述视频片段中各个视频帧的帧特征包括:
将所述视频片段中的各个视频帧转换为对应的位图图像;
分别提取各个所述位图图像的特征向量,并将提取的各个所述特征向量作为各个所述视频帧的帧特征。
3.根据权利要求1或2所述的方法,其特征在于,将提取的各个所述帧特征整合为所述视频片段的视频特征包括:
根据各个所述帧特征表征的特征向量构建特征矩阵,并将所述特征矩阵处理为一维数组;所述一维数组作为整合后的所述视频特征。
4.根据权利要求1所述的方法,其特征在于,提取所述各个视频帧对应的音频数据的音频特征包括:
将所述音频数据转换为量化数据,并提取所述量化数据的特征向量;所述量化数据的特征向量作为所述音频数据的音频特征。
5.根据权利要求1所述的方法,其特征在于,所述视频特征和所述音频特征均为一维数组;将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征包括:
将两个一维数组拼接为一个一维数组,并将拼接得到的一维数组作为所述音视频特征。
6.根据权利要求1或5所述的方法,其特征在于,根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类包括:
根据视频片段在所述待分类视频中的播放顺序,依次将各个所述视频片段的音视频特征输入递归神经网络中;其中,所述递归神经网络在对当前视频片段的音视频特征进行处理时,将上一个视频片段的处理结果作为辅助数据,与所述当前视频片段的音视频特征一并处理,以得到所述当前视频片段的处理结果;
当所述递归神经网络对各个所述视频片段的音视频特征均完成处理后,将输出结果表征的视频种类作为所述待分类视频所属的视频种类。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待分类视频的标题数据,并根据所述标题数据预测所述待分类视频所属的视频种类;
根据基于音视频特征得到的第一预测结果和基于标题数据得到的第二预测结果,确定所述待分类视频的最终视频种类。
8.根据权利要求7所述的方法,其特征在于,所述第一预测结果和所述第二预测结果均为概率向量;确定所述待分类视频的最终视频种类包括:
分别为两个概率向量分配各自的权重系数,并根据分配的所述权重系数对所述两个概率向量进行加权平均运算;
识别加权平均运算后的概率向量中概率值最大的目标向量元素,并将所述目标向量元素表征的视频种类作为所述待分类视频的最终视频种类。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述待分类视频的最终视频种类与所述待分类视频的实际视频种类不一致,对所述权重系数进行调整,以使得根据调整后的权重系数确定的最终视频种类与所述实际视频种类保持一致。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若预测得到的所述待分类视频的视频种类与所述待分类视频的实际视频种类不一致,对各个所述视频片段中包含的视频帧的数量进行调整,以使得根据调整后的视频帧的数量预测得到的视频种类与所述实际视频种类保持一致。
11.一种视频分类设备,其特征在于,所述视频分类设备包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至10中任一所述的方法。
12.一种视频分类***,其特征在于,待分类视频被划分为多个视频片段,所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络,其中,所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络,所述第二网络分支中包括第二卷积神经网络,其中:
所述第一卷积神经网络用于针对每个视频片段,提取所述视频片段中各个视频帧的帧特征;
所述局部聚合描述符神经网络,用于将提取的各个所述帧特征整合为所述视频片段的视频特征;
所述第二卷积神经网络,用于提取所述各个视频帧对应的音频数据的音频特征;
所述递归神经网络,用于接收由所述视频特征和所述音频特征拼接而成的音视频特征,并根据各个所述视频片段的音视频特征,预测所述待分类视频所属的视频种类。
13.根据权利要求12所述的视频分类***,其特征在于,所述视频分类***还包括BERT网络和综合预测单元,其中:
所述BERT网络,用于根据所述待分类视频的标题数据预测所述待分类视频所属的视频种类;
所述综合预测单元,用于根据基于音视频特征得到的第一预测结果和基于标题数据得到的第二预测结果,确定所述待分类视频的最终视频种类。
14.根据权利要求13所述的视频分类***,其特征在于,所述综合预测单元包括:
加权平均模块,用于分别为两个概率向量分配各自的权重系数,并根据分配的所述权重系数对所述两个概率向量进行加权平均运算;
概率值识别模块,用于识别加权平均运算后的概率向量中概率值最大的目标向量元素,并将所述目标向量元素表征的视频种类作为所述待分类视频的最终视频种类。
CN201910866433.8A 2019-09-12 2019-09-12 一种视频分类方法、设备及*** Pending CN110751030A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910866433.8A CN110751030A (zh) 2019-09-12 2019-09-12 一种视频分类方法、设备及***
US17/641,823 US20240046644A1 (en) 2019-09-12 2019-10-12 Video classification method, device and system
EP19944760.8A EP4016375A1 (en) 2019-09-12 2019-10-12 Video classification method, device and system
PCT/CN2019/110772 WO2021046957A1 (zh) 2019-09-12 2019-10-12 一种视频分类方法、设备及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910866433.8A CN110751030A (zh) 2019-09-12 2019-09-12 一种视频分类方法、设备及***

Publications (1)

Publication Number Publication Date
CN110751030A true CN110751030A (zh) 2020-02-04

Family

ID=69276383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910866433.8A Pending CN110751030A (zh) 2019-09-12 2019-09-12 一种视频分类方法、设备及***

Country Status (4)

Country Link
US (1) US20240046644A1 (zh)
EP (1) EP4016375A1 (zh)
CN (1) CN110751030A (zh)
WO (1) WO2021046957A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401317A (zh) * 2020-04-13 2020-07-10 Oppo广东移动通信有限公司 视频分类方法、装置、设备及存储介质
CN111901668A (zh) * 2020-09-07 2020-11-06 三星电子(中国)研发中心 视频播放方法和装置
CN112016613A (zh) * 2020-08-26 2020-12-01 广州市百果园信息技术有限公司 视频内容分类模型的训练方法、装置、计算机设备及介质
CN112380954A (zh) * 2020-11-10 2021-02-19 四川长虹电器股份有限公司 一种基于图像识别的视频分类截取***及方法
CN113326760A (zh) * 2021-05-26 2021-08-31 上海哔哩哔哩科技有限公司 视频分类方法及装置
CN113392269A (zh) * 2020-10-22 2021-09-14 腾讯科技(深圳)有限公司 一种视频分类方法、装置、服务器及计算机可读存储介质
CN113573097A (zh) * 2020-04-29 2021-10-29 北京达佳互联信息技术有限公司 视频推荐方法、装置、服务器及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301386B (zh) * 2021-05-21 2023-04-07 北京达佳互联信息技术有限公司 视频处理方法、装置、服务器以及存储介质
CN113673364A (zh) * 2021-07-28 2021-11-19 上海影谱科技有限公司 一种基于深度神经网络的视频暴力检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081082A1 (en) * 2009-10-07 2011-04-07 Wei Jiang Video concept classification using audio-visual atoms
CN107944409A (zh) * 2017-11-30 2018-04-20 清华大学 视频分析方法及装置
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN109992679A (zh) * 2019-03-21 2019-07-09 腾讯科技(深圳)有限公司 一种多媒体数据的分类方法及装置
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
CN102567512B (zh) * 2011-12-27 2014-12-17 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
US20130251340A1 (en) * 2012-03-21 2013-09-26 Wei Jiang Video concept classification using temporally-correlated grouplets
CN105654130A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的复杂图像文字序列识别***
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network
US11295140B2 (en) * 2018-03-14 2022-04-05 Comcast Cable Communications, Llc Methods and systems for determining object activity within a region of interest
CN110147711B (zh) * 2019-02-27 2023-11-14 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081082A1 (en) * 2009-10-07 2011-04-07 Wei Jiang Video concept classification using audio-visual atoms
CN107944409A (zh) * 2017-11-30 2018-04-20 清华大学 视频分析方法及装置
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN109992679A (zh) * 2019-03-21 2019-07-09 腾讯科技(深圳)有限公司 一种多媒体数据的分类方法及装置
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401317A (zh) * 2020-04-13 2020-07-10 Oppo广东移动通信有限公司 视频分类方法、装置、设备及存储介质
CN113573097A (zh) * 2020-04-29 2021-10-29 北京达佳互联信息技术有限公司 视频推荐方法、装置、服务器及存储介质
CN112016613A (zh) * 2020-08-26 2020-12-01 广州市百果园信息技术有限公司 视频内容分类模型的训练方法、装置、计算机设备及介质
CN111901668A (zh) * 2020-09-07 2020-11-06 三星电子(中国)研发中心 视频播放方法和装置
CN113392269A (zh) * 2020-10-22 2021-09-14 腾讯科技(深圳)有限公司 一种视频分类方法、装置、服务器及计算机可读存储介质
CN112380954A (zh) * 2020-11-10 2021-02-19 四川长虹电器股份有限公司 一种基于图像识别的视频分类截取***及方法
CN113326760A (zh) * 2021-05-26 2021-08-31 上海哔哩哔哩科技有限公司 视频分类方法及装置

Also Published As

Publication number Publication date
US20240046644A1 (en) 2024-02-08
EP4016375A1 (en) 2022-06-22
WO2021046957A1 (zh) 2021-03-18

Similar Documents

Publication Publication Date Title
CN110751030A (zh) 一种视频分类方法、设备及***
CN109190482B (zh) 多标签视频分类方法及***、***训练方法及装置
CN109710800B (zh) 模型生成方法、视频分类方法、装置、终端及存储介质
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN110475129B (zh) 视频处理方法、介质及服务器
US20200043474A1 (en) System and method for neural network orchestration
EP3885966B1 (en) Method and device for generating natural language description information
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN112492343A (zh) 一种视频直播监控方法及相关装置
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及***
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN114282047A (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
CN114494981A (zh) 一种基于多层次运动建模的动作视频分类方法及***
CN111327946A (zh) 视频质量评价和特征字典的训练方法、装置和介质
CN113239975A (zh) 一种基于神经网络的目标检测方法和装置
Wang et al. Attention-based lip audio-visual synthesis for talking face generation in the wild
JPWO2016125500A1 (ja) 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体
CN114973086A (zh) 视频处理方法、装置、电子设备及存储介质
CN114363695A (zh) 视频处理方法、装置、计算机设备和存储介质
CN113537215A (zh) 一种视频标签标注的方法及设备
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
WO2022141094A1 (zh) 模型生成方法、图像处理方法、装置及可读存储介质
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204