CN105677735B - 一种视频搜索方法及装置 - Google Patents

一种视频搜索方法及装置 Download PDF

Info

Publication number
CN105677735B
CN105677735B CN201511017439.6A CN201511017439A CN105677735B CN 105677735 B CN105677735 B CN 105677735B CN 201511017439 A CN201511017439 A CN 201511017439A CN 105677735 B CN105677735 B CN 105677735B
Authority
CN
China
Prior art keywords
video
video frame
search
label
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511017439.6A
Other languages
English (en)
Other versions
CN105677735A (zh
Inventor
肖瑛
杨振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201511017439.6A priority Critical patent/CN105677735B/zh
Publication of CN105677735A publication Critical patent/CN105677735A/zh
Priority to PCT/CN2016/112390 priority patent/WO2017114388A1/zh
Priority to US15/712,316 priority patent/US10642892B2/en
Application granted granted Critical
Publication of CN105677735B publication Critical patent/CN105677735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频搜索方法及装置,其中该方法包括:利用预设的分类模型,预测待标注视频中视频帧的视频帧标签;将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签;在候选视频中查找标注有视频帧标签的目标视频;对目标视频进行展示。本发明实施例通过对视频帧标签进行预测、合并以及标注,从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,即利用预先标注的视频帧标签对视频的内容进行搜索,相对于基于人工添加标题的方式,大大的提高了视频搜索的效率以及搜索结果的准确率。

Description

一种视频搜索方法及装置
技术领域
本发明属于通信技术领域,尤其涉及一种视频搜索方法及装置。
背景技术
随着互联网技术的迅速发展,互联网上可供用户搜索查询的网络资源也越来越多,在这众多的资源中,准确搜索出用户需要的资源也显得尤为重要。
以视频资源为例,通常情况下采用人工运营的方式,将视频进行拆分和剪辑,编辑出多个片段视频,并添加相关标题。用户通过统一的综合搜索框,输入搜索词进行全网搜索,若搜索词跟添加的标题完全匹配时,展示搜索结果。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于现有技术中从视频的拆分、剪辑到标题的添加,都需要人工进行,人工运营成分较多,容易出现标题不全面或不准确的现象,因此会直接导致视频搜索效率低以及搜索结果准确率不高的问题。
发明内容
本发明的目的在于提供一种视频搜索方法及装置,旨在提高搜索效率以及搜索结果的准确率。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种视频搜索方法,其中包括:
获取待标注视频,并利用预设的分类模型,预测所述待标注视频中视频帧的视频帧标签;
将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对所述待标注视频标注相应的视频帧标签;
在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签;
在候选视频中,查找标注有所述视频帧标签的目标视频,并对所述目标视频进行展示。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种视频搜索装置,其中包括:
标签预测单元,用于获取待标注视频,并利用预设的分类模型,预测所述待标注视频中视频帧的视频帧标签;
第一标注单元,用于将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对所述待标注视频标注相应的视频帧标签;
标签确定单元,用于在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签;
查找单元,用于在候选视频中,查找标注有所述视频帧标签的目标视频;
展示单元,用于对所述目标视频进行展示。
相对于现有技术,本发明实施例,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,并将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;其后,在接收到用户指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示;本实施例中,通过对视频帧标签进行预测、合并以及标注,从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,即利用预先标注的视频帧标签对视频的内容进行搜索,相对于基于人工添加标题的方式,大大的提高了视频搜索的效率以及搜索结果的准确率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1a是本发明实施例提供的视频搜索装置的场景示意图;
图1b是本发明第一实施例提供的视频搜索方法的流程示意图;
图2a至图2h为本发明第二实施例提供的视频搜索方法的场景示意图;
图3a为本发明第三实施例提供的视频搜索装置的结构示意图;
图3b为本发明第三实施例提供的视频搜索装置的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算***、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器***、微电脑为主的***、主架构型计算机、及分布式运算环境,其中包括了任何的上述***或装置。
本发明实施例提供一种视频搜索方法及装置。
参见图1a,该图为本发明实施例提供的视频搜索装置所处***的场景示意图,该视频搜索***可以包括视频搜索装置,主要用于利用预设的分类模型,预测待标注视频中视频帧的视频帧标签,并将时间相邻的且具有相同的视频帧标签的视频帧进行合并,从而实现对待标注视频标注相应的视频帧标签;其后,接收用户输入的指示搜索视频的搜索请求,如指示搜索“A剧集吻戏”、“B剧集搞笑戏”等等,基于视频帧标签的标注结果,确定与搜索请求相应的视频帧标签,接着,在候选视频中,如某一指定视频、或者全网视频等,查找出标注有该视频帧标签的目标视频,最后对目标视频进行展示。
此外,该视频搜索***还可以包括视频库,主要用于存储待标注视频,以使视频搜索装置可以对待标注视频标注相应的视频帧标签;该视频库中还存储有实际场景中涉及到的搜索内容以及与所述搜索内容对应的意图标签,以使得视频搜索装置基于此进行训练,生成神经网络模型;另外,该视频库还存储有大量候选视频,以供视频搜索装置从中查找出目标视频,等等。当然,该视频搜索***还可以包括用户终端,用于通过输入装置,如键盘、鼠标等,接收用户直接输入搜索请求,并在确定出目标视频后,通过输出装置,如终端屏幕等,对目标视频进行播放。
以下将分别进行详细说明。
第一实施例
在本实施例中,将从视频搜索装置的角度进行描述,该视频搜索装置具体可以集成在服务器或网关等网络设备中。
一种视频搜索方法,包括:获取待标注视频,并利用预设的分类模型,预测待标注视频中视频帧的视频帧标签;将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签;在候选视频中,查找标注有该视频帧标签的目标视频,并对该目标视频进行展示。
请参阅图1b,图1b是本发明第一实施例提供的视频搜索方法的流程示意图,具体流程可以包括:
在步骤S101中,获取待标注视频,并利用预设的分类模型,预测所述待标注视频中视频帧的视频帧标签。
在步骤S102中,将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签。
在步骤S103中,在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签。
其中,所述步骤S101至步骤S103可具体为:
可以理解的是,一方面,在对搜索请求进行处理前,需要先对全网视频标注视频帧标签,即利用预设的分类模型,预测待标注视频中视频帧的视频帧标签,将时间相邻的且具有相同的视频帧标签的视频帧进行合并,并对待标注视频标注相应的视频帧标签,从而得到视频帧标签的标注结果。
也就是说,本实施例提供的视频搜索实质上是为基于内容的视频搜索,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,预测后,对这些视频帧进行整理,将时间相邻且视频帧标签相同的视频帧进行合并,从而可以得到一视频片段,最后,给这些视频片段分别标注上相应的视频帧标签,从而得到视频片段的标注结果,完成待标注视频的视频帧标签标注。
进一步的,“利用预设的分类模型,预测待标注视频中视频帧的视频帧标签”可以具体如下:
(11)利用关键帧提取算法提取待标注视频的视频帧,并确定为第一视频帧;
(12)获取每个第一视频帧的图像特征,并确定为第一图像特征;
(13)根据确定出的第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签。
可以理解的是,为便于区分理解,本实施例将待标注视频的视频帧称为第一视频帧,将第一视频帧的图像特征称为第一图像特征,不构成对方案实现的限定。
基于此,“将时间相邻的且具有相同的视频帧标签的视频帧进行合并”可以具体为:将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并。
其中,关键帧提取算法就是在视频序列上进行镜头分割,再在镜头内提取出能够代表镜头内容的关键帧,利用从关键帧提取的低层特征(颜色、纹理、形状等)进行镜头的索引和检索。其中,关键帧提取可以基于镜头边界进行提取、也可以基于内容分析进行提取、也可以基于聚类进行提取等等,此处不作具体限定。
又比如,在提取完标注视频的视频帧(即第一视频帧)后,可以采用深度学习模型(GoogLeNet)获取每个第一视频帧图像特征(即第一图像特征),从而再利用预设的分类模型,如支持向量机(SVM,Support Vector Machine)分类模型预测每个第一视频帧的视频帧标签。
更进一步的,在对全网视频标注视频帧标签之前,还可以先对分类模型进行确定,比如,可以具体如下:
a、收集预先已进行场景标签标注的原有视频;
b、利用关键帧提取算法提取原有视频的视频帧,并确定为第二视频帧;
c、根据场景标签,对第二视频帧标注视频帧标签;
d、获取每个第二视频帧的图像特征,并确定为第二图像特征;
e、基于对第二视频帧标注的视频帧标签以及第二图像特征进行训练,生成分类模型。
容易想到的是,为便于区分理解,本实施例将已进行场景标签标注的原有视频的视频帧称为第二视频帧,将第二视频帧的图像特征称为第二图像特征,不构成对方案实现的限定。
基于此,“根据第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签”可以具体为:根据第一图像特征,利用所述分类模型预测第一视频帧的视频帧标签。
可具体的,比如,将已进行人工标注场景标签的视频片段(可称为原有视频),以及视频片段对应的场景标签作为训练数据,利用与上述同样的关键帧提取算法提取原有视频的视频帧,以及利用与上述同样的方式获取原有视频的视频帧的图像特征,通过SVM支持向量机训练算法,训练出所述SVM分类模型,完成训练过程。
可以理解的是,在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签(步骤S103)的方式有很多,比如:
(21)在接收到指示搜索视频的搜索请求时,基于预设的神经网络模型,对所述搜索请求进行语义识别;
(22)结合语义识别的结果以及视频帧标签的标注结果,确定所述搜索请求相应的视频帧标签。
也就是说,在另一方面,在对搜索请求进行处理前,需要确定进行语义识别的网络模型,比如,可以具体如下:
收集搜索内容以及与所述搜索内容对应的意图标签,基于所述搜索内容以及所述意图标签进行训练,生成神经网络模型。
其中,搜索内容以及对应的意图标签,可以从实际用户搜索请求中获取,比如,将搜索内容以及对应的意图标签作为训练数据,训练深层神经网络(DNN,Deep NeuralNetwork),从而生成神经网络模型。
基于此,“基于预设的神经网络模型,对所述搜索请求进行语义识别,确定相应的视频帧标签”可以具体为:基于所述神经网络模型,对所述搜索请求进行语义识别,确定相应的视频帧标签。
在步骤S104中,在候选视频中,查找标注有该视频帧标签的目标视频,并对目标视频进行展示。
在一种可能的实施方式中,当所述候选视频为一个当前播放的视频时,“接收指示搜索视频的搜索请求”可以具体为:在所述当前播放的视频对应的搜索框中,接收指示搜索视频的搜索请求;
基于此,“对所述目标视频进行展示”可以具体为:在所述当前播放的视频的播放进度条中,确定出所述目标视频的播放位置,并基于所述播放位置进行标注提示,以供用户选择进行段落播放。
也就是说,在该实施方式中,针对一个当前视频的播放页,会设置有一搜索框,在该搜索框中进行视频搜索,可以获取到该视频下的目标视频,此处目标视频属于该当前视频的某一段落。
在另一种可能的实施方式中,当所述候选视频为全网视频集合时,“接收指示搜索视频的搜索请求”可以具体为:在全网搜索框中,接收指示搜索视频的搜索请求;
基于此,“对所述目标视频进行展示”可以具体为:将所述目标视频以及目标视频的属性信息以列表形式进行展示。
也就是说,在该实施方式中,是针对全网的视频进行目标视频搜索,搜索到目标视频后,将目标视频以列表形式进行展示;由于全网搜索得到的搜索结果较多,因此,还会将该目标视频对应的属性信息一并进行展示,其中,属性信息可以包括电视剧名、集数、综艺名、期数、片断时长、出场人物等信息中的一个或多个组合。
由上述可知,本实施例提供的视频搜索方法,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,并将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;其后,在接收到用户指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示;本实施例中,通过对视频帧标签进行预测、合并以及标注,从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,即利用预先标注的视频帧标签对视频的内容进行搜索,相对于基于人工添加标题的方式,大大的提高了视频搜索的效率以及搜索结果的准确率。
第二实施例
根据第一实施例所描述的方法,以下将举例作进一步详细说明。
现有技术中,在视频搜索前,首先利用人工运营的方式,将视频进行拆分和剪辑,编辑出多个片段视频,并添加相关标题,请参考图2a,为现有技术中一种视频搜索的示意图,用户通过统一的综合搜索框(用黑边框标示)输入搜索词进行全网搜索,搜索内容可以包括电影、电视、综艺节目等OGC(Occupationally-generated-Content,职业生产内容)、PGC(Professionally-generated Content,专业生产内容)视频或者长尾的UGC(User-generated-Content,用户生产内容)视频;当搜索词跟添加的标题完全匹配时,展示搜索结果,当搜索词跟添加的标题不匹配时,展示未收到相关视频的提示信息。
本发明实施例中,首先,基于现有的已进行场景标签标注的原有视频进行训练学习,生成一分类模型;并且,利用该分类模型,预测出视频中视频帧的视频帧标签并标注;同时,基于实际应用中收集到的搜索内容及相应的意图标签进行训练学习,生成一神经网络模型;从而,在接收到搜索视频内容的搜索请求时,利用前述神经网络模型对搜索请求进行语义识别,确定相应的视频帧标签,并查找标注有该视频帧标签的视频内容,以向用户展示播放。
本技术可以在指定剧集、或全网视频中进行视频内容搜索,并标识出相关视频片段;采用了高级语义识别技术,大大提高了口语化搜索的结果准确率,在很大程度上解放人力,同时给用户提供更为丰富的场景维度搜索。以下将进行详细说明。
(一)对当前正在观看中的视频进行视频内容搜索
可具体的,本发明实施例中,首先,如图2b所示,在视频播放页的一角(如右上角)设置有一个搜索icon标识(用黑边框标示),如图2c所示,当鼠标移入该标识,可以打开搜索框(用黑边框标示),用户可以搜索框内进行搜索词输入,按“enter键”/或“搜索icon”视为提交该搜索请求,并设定在一短时间范围内(如3秒、5秒等)无任何操作,该搜索框自动收回。
基于此,当用户在该搜索框内输入想要搜索的视频(也可称视频片段),确认后,该视频播放页下方的视频播放播放进度条中对想要搜索的视频片段,在对应的播放位置进行标注提示,如图2d所示,用户根据提示点击对应的播放位置,可以对该视频片段进行播放,比如,在该搜索框内输入搜索词“吻戏”,确认后,在当前播放视频的进度条中对匹配的两个视频片段进行提示。
可一并参考图2e,为搜索流程示意,包括:S21、用户输入搜索词;S22、语义识别;S23、若相关则返回视频片段结果;S24、若相似则返回同类视频结果;S25、若无匹配则返回未找到视频结果的提示。即,在视频搜索过程中,查询到标注有相应视频帧标签,可以包括:如果能匹配到相关的用户搜索的视频片段,则在下方给出相应片段的标注提示;若未匹配到相关的用户搜索的视频片段,但有相似片段,可给出提示;另外,若未匹配用户搜索视频片段也无相似片段,则给出未找到结果的提示。
(二)对全网视频进行视频内容搜索
如图2f所示,在综合搜索框(用黑边框标示)直接输入需要查找的视频内容,如输入“韩剧的吻戏”,***识别出需求后,从全网的视频集合中,返回提取好的视频片段结果列表,并将视频片段的标题(电视剧名、集数、综艺名、期数等)、片断时长和时间、出场人物等属性信息进行展示,以供用户选择。
以下对技术架构方案分别陈述。
1)如何自动识别视频片段对应的视频帧标签
比如,请参考图2g,为基于现有的已进行场景标签标注的原有视频进行训练学习,生成一分类模型;以及,利用该分类模型,预测出视频中视频帧的视频帧标签并标注的过程示意。
可具体的,在模型训练时,首先从现有的已进行场景标签人工标注视频库中,获取视频片段(可称为原有视频或现有视频)和该片段对应的场景标签,作为训练数据,利用关键帧提取算法提取原有视频中关键帧图片(即第二视频帧),并依据原有视频的场景标签给这这些图片打上视频帧标签。
针对每帧图片,利用训练好的GoogleNet网络提取1024维浮点数作为图像特征(即第二图像特征),再结合视频帧标签,采用支持向量机SVM训练算法训练出SVM分类模型,至此完成训练过程。其中,SVM分类模型是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。
在预测即视频帧标签自动标注时,首先采用与训练过程相同的关键帧提取算法提取视频片段(即待标注视频)的视频帧(即第一视频帧),对每个视频帧同样采用GoogleNet获取1024维图像特征(即第一图像特征),然后再利用训练过程输出的SVM分类模型预测每个视频帧的视频帧标签,最后将时间相邻的且具有相同的视频帧标签的视频帧进行归并,得到该视频片段的标注结果。
2)如何对用户的搜索词进行语义识别
比如,请参考图2h,为基于实际应用中收集到的搜索内容及相应的意图标签进行训练学习,生成一神经网络模型,以及利用神经网络模型对搜索请求进行语义识别的过程示意。
在训练时,先收集实际应用中涉及的搜索内容以及与搜索内容对应的意图标签,即以真实Query(询问、即搜索内容)和Query对应的搜索意图标签为训练数据,训练出深层神经网络DNN(即神经网络模型),最小化分类的交叉熵损失函数,使得Query和Query对应标签的cos距离较小。
在预测时,首先利用训练好的网络模型,将搜索Query在语义的层面与视频帧标签进行相关性计算,即,将用户的Query转化为128维的向量,然后将此向量与所有视频帧标签对应的128维向量分别求cos距离,将cos距离最小的标签作为预测输出。
由上述可知,本实施例提供的视频搜索方法,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,并将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;其后,在接收到用户指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示;本实施例中,通过对视频帧标签进行预测、合并以及标注,从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,即利用预先标注的视频帧标签对视频的内容进行搜索,相对于基于人工添加标题的方式,大大的提高了视频搜索的效率以及搜索结果的准确率。
第三实施例
为便于更好的实施本发明实施例提供的视频搜索方法,本发明实施例还提供一种基于上述视频搜索方法的装置。其中名词的含义与上述视频搜索的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3a,图3a为本发明实施例提供的视频搜索装置的结构示意图,该装置可以包括标签预测单元301、第一标注单元302、标签确定单元303、查找单元304以及展示单元305。
其中,所述标签预测单元301,用于获取待标注视频,并利用预设的分类模型,预测所述待标注视频中视频帧的视频帧标签;第一标注单元302,用于将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对所述待标注视频标注相应的视频帧标签。
可以理解的是,一方面,在对搜索请求进行处理前,需要先对全网视频标注视频帧标签,即利用预设的分类模型,预测待标注视频中视频帧的视频帧标签,将时间相邻的且具有相同的视频帧标签的视频帧进行合并,并对待标注视频标注相应的视频帧标签,从而得到视频帧标签的标注结果。
也就是说,本实施例提供的视频搜索实质上是为基于内容的视频搜索,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,预测后,对这些视频帧进行整理,将时间相邻且视频帧标签相同的视频帧进行合并,从而可以得到一视频片段,最后,给这些视频片段分别标注上相应的视频帧标签,从而得到视频片段的标注结果,完成待标注视频的视频帧标签标注。
标签确定单元303,用于在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签;查找单元304,用于在候选视频中,查找标注有所述视频帧标签的目标视频;展示单元305,用于对所述目标视频进行展示。
进一步的,所述标签预测单元301可以包括:
(11)提取子单元,用于利用关键帧提取算法提取所述待标注视频的视频帧,并确定为第一视频帧;
(12)获取子单元,用于获取每个所述第一视频帧的图像特征,并确定为第一图像特征;
(13)预测子单元,用于根据所述第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签。
可以理解的是,为便于区分理解,本实施例将待标注视频的视频帧称为第一视频帧,将第一视频帧的图像特征称为第一图像特征,不构成对方案实现的限定。
基于此,所述第一标注单元302,可以具体用于将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并,并对所述待标注视频标注相应的视频帧标签。
其中,关键帧提取算法就是在视频序列上进行镜头分割,再在镜头内提取出能够代表镜头内容的关键帧,利用从关键帧提取的低层特征(颜色、纹理、形状等)进行镜头的索引和检索。其中,关键帧提取可以基于镜头边界进行提取、也可以基于内容分析进行提取、也可以基于聚类进行提取等等,此处不作具体限定。
又比如,在提取完标注视频的视频帧(即第一视频帧)后,可以采用深度学习模型(GoogLeNet)获取每个第一视频帧图像特征(即第一图像特征),从而再利用预设的分类模型,如支持向量机SVM分类模型预测每个第一视频帧的视频帧标签。
更进一步的,可一并参考图3b,为视频搜索装置的另一结构示意图,在对全网视频标注视频帧标签之前,还可以先对分类模型进行确定,比如,所述装置还可以包括:
a、第一收集单元306,用于收集预先已进行场景标签标注的原有视频;
b、提取单元307,用于利用关键帧提取算法提取所述原有视频的视频帧,并确定为第二视频帧;
c、第二标注单元308,用于根据所述场景标签,对所述第二视频帧标注视频帧标签;
d、第二获取单元309,甩获取每个所述第二视频帧的图像特征,并确定为第二图像特征;
e、第一训练单元310,用于基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练,生成分类模型。
容易想到的是,为便于区分理解,本实施例将已进行场景标签标注的原有视频的视频帧称为第二视频帧,将第二视频帧的图像特征称为第二图像特征,不构成对方案实现的限定。
基于此,所述预测子单元可以具体用于:根据所述第一图像特征,利用所述分类模型预测第一视频帧的视频帧标签。
可具体的,比如,将已进行人工标注场景标签的视频片段(可称为原有视频),以及视频片段对应的场景标签作为训练数据,利用与上述同样的关键帧提取算法提取原有视频的视频帧,以及利用与上述同样的方式获取原有视频的视频帧的图像特征,通过SVM支持向量机训练算法,训练出所述SVM分类模型,完成训练过程。
可以理解的是,所述标签确定单元303确定所述搜索请求相应的视频帧标签的方式有很多,比如,可以具体包括:
(21)接收子单元,用于接收指示搜索视频的搜索请求;
(22)识别子单元,用于基于预设的神经网络模型,对所述搜索请求进行语义识别;
(23)标签确定子单元,用于结合语义识别的结果以及视频帧标签的标注结果,确定所述搜索请求相应的视频帧标签。
也就是说,在另一方面,在对搜索请求进行处理前,需要确定进行语义识别的网络模型,比如,述装置还可以包括:
第二收集单元311,用于收集搜索内容以及与所述搜索内容对应的意图标签;
第二训练单元312,用于基于所述搜索内容以及所述意图标签进行训练,生成神经网络模型。
其中,搜索内容以及对应的意图标签,可以从实际用户搜索请求中获取,比如,将搜索内容以及对应的意图标签作为训练数据,训练深层神经网络DNN,从而生成神经网络模型。
基于此,所述识别子单元可以具体用于:基于所述神经网络模型,对所述搜索请求进行语义识别。
对所述目标视频进行展示,在一种可能的实施方式中,当所述候选视频为一个当前播放的视频时,所述接收子单元具体用于:在所述当前播放的视频对应的搜索框中,接收指示搜索视频的搜索请求;
基于此,所述展示单元305可以具体用于:在所述当前播放的视频的播放进度条中,确定出所述目标视频的播放位置,并基于所述播放位置进行标注提示,以供用户选择进行段落播放。
也就是说,在该实施方式中,针对一个当前视频的播放页,会设置有一搜索框,在该搜索框中进行视频搜索,可以获取到该视频下的目标视频,此处目标视频属于该当前视频的某一段落。
在另一种可能的实施方式中,当所述候选视频为全网视频集合时,所述接收子单元具体用于:在全网搜索框中,接收指示搜索视频的搜索请求;
基于此,所述展示单元305可以具体用于:将所述目标视频以及目标视频的属性信息以列表形式进行展示。
也就是说,在该实施方式中,是针对全网的视频进行目标视频搜索,搜索到目标视频后,将目标视频以列表形式进行展示;由于全网搜索得到的搜索结果较多,因此,还会将该目标视频对应的属性信息一并进行展示,其中,属性信息可以包括电视剧名、集数、综艺名、期数、片断时长、出场人物等信息中的一个或多个组合。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该视频搜索装置具体可以集成在服务器或网关等网络设备中。
由上述可知,本实施例提供的视频搜索装置,首先利用预设的分类模型,对待标注视频中视频帧的视频帧标签进行预测,并将时间相邻的且具有相同的视频帧标签的视频帧进行合并,对待标注视频标注相应的视频帧标签;其后,在接收到用户指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示;本实施例中,通过对视频帧标签进行预测、合并以及标注,从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签,即利用预先标注的视频帧标签对视频的内容进行搜索,相对于基于人工添加标题的方式,大大的提高了视频搜索的效率以及搜索结果的准确率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对视频搜索方法的详细描述,此处不再赘述。
本发明实施例提供的所述视频搜索装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述视频搜索装置与上文实施例中的视频搜索方法属于同一构思,在所述视频搜索装置上可以运行所述视频搜索方法实施例中提供的任一方法,其具体实现过程详见所述视频搜索方法实施例,此处不再赘述。
需要说明的是,对本发明所述视频搜索方法而言,本领域普通测试人员可以理解实现本发明实施例所述视频搜索方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述视频搜索方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read OnlyMemory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述视频搜索装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种视频搜索方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种视频搜索方法,其特征在于,包括:
获取待标注视频;
利用关键帧提取算法提取所述待标注视频的视频帧,并确定为第一视频帧;获取每个所述第一视频帧的图像特征,并确定为第一图像特征;根据所述第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签,其中所述预设的分类模型是基于已进行场景标签标注的原有视频以及对应的场景标签作为训练数据,并对所述训练数据进行训练学习而生成;
将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并,对所述待标注视频标注相应的视频帧标签;
在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签;
在候选视频中,查找标注有所述视频帧标签的目标视频,并对所述目标视频进行展示,所述候选视频包括当前播放的视频以及全网视频集合。
2.根据权利要求1所述的视频搜索方法,其特征在于,所述获取待标注视频之前,还包括:
收集预先已进行场景标签标注的原有视频;
利用关键帧提取算法提取所述原有视频的视频帧,并确定为第二视频帧;
根据所述场景标签,对所述第二视频帧标注视频帧标签;
获取每个所述第二视频帧的图像特征,并确定为第二图像特征;
基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练,生成分类模型;
所述根据所述第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签具体为:根据所述第一图像特征,利用所述分类模型预测第一视频帧的视频帧标签。
3.根据权利要求1或2所述的视频搜索方法,其特征在于,所述在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签,包括:
在接收到指示搜索视频的搜索请求时,基于预设的神经网络模型,对所述搜索请求进行语义识别;
结合语义识别的结果以及视频帧标签的标注结果,确定所述搜索请求相应的视频帧标签。
4.根据权利要求3所述的视频搜索方法,其特征在于,所述在接收到指示搜索视频的搜索请求时,基于预设的神经网络模型,对所述搜索请求进行语义识别之前,还包括:
收集搜索内容以及与所述搜索内容对应的意图标签;
基于所述搜索内容以及所述意图标签进行训练,生成神经网络模型;
所述基于预设的神经网络模型,对所述搜索请求进行语义识别具体为:基于所述神经网络模型,对所述搜索请求进行语义识别。
5.根据权利要求1所述的视频搜索方法,其特征在于,
当所述候选视频为一个当前播放的视频时,所述接收到指示搜索视频的搜索请求具体为:在所述当前播放的视频对应的搜索框中,接收到指示搜索视频的搜索请求;
所述对所述目标视频进行展示具体为:在所述当前播放的视频的播放进度条中,确定出所述目标视频的播放位置,并基于所述播放位置进行标注提示,以供用户选择进行段落播放。
6.根据权利要求1所述的视频搜索方法,其特征在于,
当所述候选视频为全网视频集合时,所述接收到指示搜索视频的搜索请求具体为:在全网搜索框中,接收到指示搜索视频的搜索请求;
所述对所述目标视频进行展示具体为:将所述目标视频以及目标视频的属性信息以列表形式进行展示。
7.一种视频搜索装置,其特征在于,包括:
标签预测单元包括:提取子单元,获取子单元以及预测子单元;
所述提取子单元,用于获取待标注视频,利用关键帧提取算法提取所述待标注视频的视频帧,并确定为第一视频帧;
所述获取子单元,用于获取每个所述第一视频帧的图像特征,并确定为第一图像特征;
所述预测子单元,用于根据所述第一图像特征,利用预设的分类模型预测第一视频帧的视频帧标签,其中所述预设的分类模型是基于已进行场景标签标注的原有视频以及对应的场景标签作为训练数据,并对所述训练数据进行训练学习而生成;
第一标注单元,用于将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并,对所述待标注视频标注相应的视频帧标签;
标签确定单元,用于在接收到指示搜索视频的搜索请求时,基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签;
查找单元,用于在候选视频中,查找标注有所述视频帧标签的目标视频,所述候选视频包括当前播放的视频以及全网视频集合;
展示单元,用于对所述目标视频进行展示。
8.根据权利要求7所述的视频搜索装置,其特征在于,所述装置还包括:
第一收集单元,用于收集预先已进行场景标签标注的原有视频;
提取单元,用于利用关键帧提取算法提取所述原有视频的视频帧,并确定为第二视频帧;
第二标注单元,用于根据所述场景标签,对所述第二视频帧标注视频帧标签;
第二获取单元,用于获取每个所述第二视频帧的图像特征,并确定为第二图像特征;
第一训练单元,用于基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练,生成分类模型;
所述预测子单元具体用于:根据所述第一图像特征,利用所述分类模型预测第一视频帧的视频帧标签。
9.根据权利要求7或8所述的视频搜索装置,其特征在于,所述标签确定单元,包括:
接收子单元,用于接收指示搜索视频的搜索请求;
识别子单元,用于基于预设的神经网络模型,对所述搜索请求进行语义识别;
标签确定子单元,用于结合语义识别的结果以及视频帧标签的标注结果,确定所述搜索请求相应的视频帧标签。
10.根据权利要求9所述的视频搜索装置,其特征在于,所述装置还包括:
第二收集单元,用于收集搜索内容以及与所述搜索内容对应的意图标签;
第二训练单元,用于基于所述搜索内容以及所述意图标签进行训练,生成神经网络模型;
所述识别子单元具体用于:基于所述神经网络模型,对所述搜索请求进行语义识别。
11.根据权利要求9所述的视频搜索装置,其特征在于,
当所述候选视频为一个当前播放的视频时,所述接收子单元具体用于:在所述当前播放的视频对应的搜索框中,接收指示搜索视频的搜索请求;
所述展示单元具体用于:在所述当前播放的视频的播放进度条中,确定出所述目标视频的播放位置,并基于所述播放位置进行标注提示,以供用户选择进行段落播放。
12.根据权利要求9所述的视频搜索装置,其特征在于,
当所述候选视频为全网视频集合时,所述接收子单元具体用于:在全网搜索框中,接收指示搜索视频的搜索请求;
所述展示单元具体用于:将所述目标视频以及目标视频的属性信息以列表形式进行展示。
13.一种计算机可读存储介质,其存储有计算机程序,其中,所述计算机程序使得计算机执行如权利要求1至6任一项所述的方法。
CN201511017439.6A 2015-12-30 2015-12-30 一种视频搜索方法及装置 Active CN105677735B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201511017439.6A CN105677735B (zh) 2015-12-30 2015-12-30 一种视频搜索方法及装置
PCT/CN2016/112390 WO2017114388A1 (zh) 2015-12-30 2016-12-27 一种视频搜索方法及装置
US15/712,316 US10642892B2 (en) 2015-12-30 2017-09-22 Video search method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511017439.6A CN105677735B (zh) 2015-12-30 2015-12-30 一种视频搜索方法及装置

Publications (2)

Publication Number Publication Date
CN105677735A CN105677735A (zh) 2016-06-15
CN105677735B true CN105677735B (zh) 2020-04-21

Family

ID=56189754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511017439.6A Active CN105677735B (zh) 2015-12-30 2015-12-30 一种视频搜索方法及装置

Country Status (3)

Country Link
US (1) US10642892B2 (zh)
CN (1) CN105677735B (zh)
WO (1) WO2017114388A1 (zh)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677735B (zh) 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
KR101769071B1 (ko) * 2016-05-10 2017-08-18 네이버 주식회사 비디오 태그 제작 및 활용을 위한 방법 및 시스템
CN106572394B (zh) * 2016-08-30 2020-04-14 上海二三四五网络科技有限公司 一种影视数据导航方法
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
CN106919652B (zh) * 2017-01-20 2018-04-06 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与***
CN107071542B (zh) * 2017-04-18 2020-07-28 百度在线网络技术(北京)有限公司 视频片段播放方法及装置
CN107205016B (zh) * 2017-04-18 2020-01-21 中国科学院计算技术研究所 物联网设备的检索方法
CN107229737A (zh) * 2017-06-14 2017-10-03 广东小天才科技有限公司 一种视频搜索的方法及电子设备
CN107291904A (zh) * 2017-06-23 2017-10-24 百度在线网络技术(北京)有限公司 一种视频搜索方法和装置
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质
CN107704525A (zh) * 2017-09-04 2018-02-16 优酷网络技术(北京)有限公司 视频搜索方法和装置
CN107818180B (zh) * 2017-11-27 2021-07-06 北京小米移动软件有限公司 视频关联方法、视频显示方法、装置及存储介质
CN109963164A (zh) * 2017-12-14 2019-07-02 北京搜狗科技发展有限公司 一种在视频中查询对象的方法、装置和设备
US11252477B2 (en) 2017-12-20 2022-02-15 Videokawa, Inc. Event-driven streaming media interactivity
WO2019125704A1 (en) 2017-12-20 2019-06-27 Flickray, Inc. Event-driven streaming media interactivity
CN108229363A (zh) 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
CN108235116B (zh) * 2017-12-27 2020-06-16 北京市商汤科技开发有限公司 特征传播方法和装置、电子设备和介质
CN110209877A (zh) * 2018-02-06 2019-09-06 上海全土豆文化传播有限公司 视频分析方法及装置
CN110309353A (zh) * 2018-02-06 2019-10-08 上海全土豆文化传播有限公司 视频索引方法及装置
CN108460122B (zh) * 2018-02-23 2021-09-07 武汉斗鱼网络科技有限公司 基于深度学习的视频搜索方法、存储介质、设备及***
CN108537134B (zh) * 2018-03-16 2020-06-30 北京交通大学 一种视频语义场景分割及标注方法
CN108491930B (zh) * 2018-03-23 2022-04-15 腾讯科技(深圳)有限公司 一种样本数据的处理方法以及数据处理装置
CN108228915B (zh) * 2018-03-29 2021-10-26 华南理工大学 一种基于深度学习的视频检索方法
CN108920507A (zh) * 2018-05-29 2018-11-30 宇龙计算机通信科技(深圳)有限公司 自动搜索方法、装置、终端及计算机可读存储介质
CN108960316B (zh) * 2018-06-27 2020-10-30 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN109116718B (zh) * 2018-06-29 2021-10-22 上海掌门科技有限公司 设置闹钟的方法及设备
JP7257756B2 (ja) * 2018-08-20 2023-04-14 キヤノン株式会社 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN109189978B (zh) * 2018-08-27 2020-06-30 广州酷狗计算机科技有限公司 基于语音消息进行音频搜索的方法、装置及存储介质
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
CN109151615B (zh) * 2018-11-02 2022-01-25 湖南双菱电子科技有限公司 视频处理方法、计算机设备和计算机存储介质
KR102604937B1 (ko) * 2018-12-05 2023-11-23 삼성전자주식회사 캐릭터를 포함하는 동영상을 생성하기 위한 전자 장치 및 그에 관한 방법
CN111314775B (zh) 2018-12-12 2021-09-07 华为终端有限公司 一种视频拆分方法及电子设备
CN109885730A (zh) * 2018-12-27 2019-06-14 北京春鸿科技有限公司 在wifi存储设备中视频搜索方法
CN111382620B (zh) * 2018-12-28 2023-06-09 阿里巴巴集团控股有限公司 视频标签添加方法、计算机存储介质和电子设备
CN109688475B (zh) * 2018-12-29 2020-10-02 深圳Tcl新技术有限公司 视频播放跳转方法、***及计算机可读存储介质
US10860860B1 (en) * 2019-01-03 2020-12-08 Amazon Technologies, Inc. Matching videos to titles using artificial intelligence
CN109688484A (zh) * 2019-02-20 2019-04-26 广东小天才科技有限公司 一种教学视频学习方法及***
CN109977239B (zh) * 2019-03-31 2023-08-18 联想(北京)有限公司 一种信息处理方法和电子设备
KR102656963B1 (ko) 2019-04-03 2024-04-16 삼성전자 주식회사 전자 장치 및 전자 장치의 제어 방법
CN110446063B (zh) * 2019-07-26 2021-09-07 腾讯科技(深圳)有限公司 视频封面的生成方法、装置及电子设备
CN110781323A (zh) * 2019-10-25 2020-02-11 北京达佳互联信息技术有限公司 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN110781818B (zh) * 2019-10-25 2023-04-07 Oppo广东移动通信有限公司 视频分类方法、模型训练方法、装置及设备
CN110781960B (zh) * 2019-10-25 2022-06-28 Oppo广东移动通信有限公司 视频分类模型的训练方法、分类方法、装置及设备
CN110826471B (zh) * 2019-11-01 2023-07-14 腾讯科技(深圳)有限公司 视频标签的标注方法、装置、设备及计算机可读存储介质
WO2021091893A1 (en) * 2019-11-06 2021-05-14 Betterplay Ai Table Tennis Ltd. Method for efficient and accurate identification of sequences
CN112988671A (zh) * 2019-12-13 2021-06-18 北京字节跳动网络技术有限公司 媒体文件处理方法、装置、可读介质及电子设备
CN113132752B (zh) * 2019-12-30 2023-02-24 阿里巴巴集团控股有限公司 视频处理方法及装置
CN113128285A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种处理视频的方法及装置
CN111263186A (zh) * 2020-02-18 2020-06-09 中国传媒大学 视频生成、播放、搜索以及处理方法、装置和存储介质
CN111432138B (zh) * 2020-03-16 2022-04-26 Oppo广东移动通信有限公司 视频拼接方法及装置、计算机可读介质和电子设备
CN111405197B (zh) * 2020-03-19 2022-11-08 京东科技信息技术有限公司 一种视频裁剪方法、图像处理方法及装置
CN113553469B (zh) * 2020-04-23 2023-12-22 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111400553A (zh) * 2020-04-26 2020-07-10 Oppo广东移动通信有限公司 视频搜索方法、视频搜索装置及终端设备
CN111708909B (zh) * 2020-05-19 2023-11-24 北京奇艺世纪科技有限公司 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111708908B (zh) * 2020-05-19 2024-01-30 北京奇艺世纪科技有限公司 视频标签的添加方法及装置、电子设备、计算机可读存储介质
KR20210118203A (ko) * 2020-06-28 2021-09-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이모티콘 패키지 생성 방법 및 기기, 전자 기기 및 매체
CN111767838A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 视频审核方法和***、计算机***和计算机可读存储介质
CN111797801B (zh) * 2020-07-14 2023-07-21 北京百度网讯科技有限公司 用于视频场景分析的方法和装置
CN111866568B (zh) * 2020-07-23 2023-03-31 聚好看科技股份有限公司 一种显示设备、服务器及基于语音的视频集锦获取方法
CN111901668B (zh) * 2020-09-07 2022-06-24 三星电子(中国)研发中心 视频播放方法和装置
CN112261491B (zh) 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN112989114B (zh) * 2021-02-04 2023-08-29 有米科技股份有限公司 应用于视频筛选的视频信息生成方法及装置
CN115119062A (zh) * 2021-03-20 2022-09-27 海信集团控股股份有限公司 一种视频拆分方法、显示设备及显示方法
CN113329268A (zh) * 2021-04-28 2021-08-31 王可 一种影视作品情节筛选***及方法
US11776261B2 (en) 2021-04-30 2023-10-03 Spherex, Inc. Context-aware event based annotation system for media asset
CN113139093A (zh) * 2021-05-06 2021-07-20 北京百度网讯科技有限公司 视频搜索方法及装置、计算机设备和介质
CN113742585A (zh) * 2021-08-31 2021-12-03 深圳Tcl新技术有限公司 内容搜索方法、装置、电子设备和计算机可读存储介质
CN113672764A (zh) * 2021-09-03 2021-11-19 海信电子科技(武汉)有限公司 视频数据检索方法、装置、设备、介质及产品
CN113806588B (zh) * 2021-09-22 2024-04-12 北京百度网讯科技有限公司 搜索视频的方法和装置
CN114390368B (zh) * 2021-12-29 2022-12-16 腾讯科技(深圳)有限公司 直播视频数据的处理方法及装置、设备、可读介质
CN114449346B (zh) * 2022-02-14 2023-08-15 腾讯科技(深圳)有限公司 视频处理方法、装置、设备以及存储介质
US20230394081A1 (en) * 2022-06-01 2023-12-07 Apple Inc. Video classification and search system to support customizable video highlights
CN116843643B (zh) * 2023-07-03 2024-01-16 北京语言大学 一种视频美学质量评价数据集构造方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739599B2 (en) * 2005-09-23 2010-06-15 Microsoft Corporation Automatic capturing and editing of a video
US8631439B2 (en) * 2007-04-06 2014-01-14 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for implementing a navigational search structure for media content
WO2009046324A2 (en) * 2007-10-05 2009-04-09 Flickbitz Corporation Online search, storage, manipulation, and delivery of video content
CN101566998B (zh) * 2009-05-26 2011-12-28 华中师范大学 一种基于神经网络的中文问答***
CN102207966B (zh) * 2011-06-01 2013-07-10 华南理工大学 基于对象标签的视频内容快速检索方法
CN102360431A (zh) * 2011-10-08 2012-02-22 大连海事大学 一种自动进行描述图像的方法
CN102663015B (zh) * 2012-03-21 2015-05-06 上海大学 基于特征袋模型和监督学习的视频语义标注方法
US9280742B1 (en) * 2012-09-05 2016-03-08 Google Inc. Conceptual enhancement of automatic multimedia annotations
US10623821B2 (en) * 2013-09-10 2020-04-14 Tivo Solutions Inc. Method and apparatus for creating and sharing customized multimedia segments
CN103761284B (zh) * 2014-01-13 2018-08-14 中国农业大学 一种视频检索方法和***
CN104133875B (zh) * 2014-07-24 2017-03-22 北京中视广信科技有限公司 一种基于人脸的视频标注方法和视频检索方法
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置

Also Published As

Publication number Publication date
US10642892B2 (en) 2020-05-05
CN105677735A (zh) 2016-06-15
WO2017114388A1 (zh) 2017-07-06
US20180025079A1 (en) 2018-01-25

Similar Documents

Publication Publication Date Title
CN105677735B (zh) 一种视频搜索方法及装置
CN108319723B (zh) 一种图片分享方法和装置、终端、存储介质
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
Mahrishi et al. Video index point detection and extraction framework using custom YoloV4 Darknet object detection model
CN109218750B (zh) 视频内容检索的方法、装置、存储介质和终端设备
CN110990597B (zh) 基于文本语义映射的跨模态数据检索***及其检索方法
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN102236714A (zh) 一种基于xml的交互应用多媒体信息检索方法
CN113596601A (zh) 一种视频画面的定位方法、相关装置、设备及存储介质
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Truong et al. Video search based on semantic extraction and locally regional object proposal
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN113407775B (zh) 视频搜索方法、装置及电子设备
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
CN110351183B (zh) 即时通讯中的资源收藏方法以及装置
Yen et al. Visual lifelog retrieval: humans and machines interpretation on first-person images
Yang et al. Lecture video browsing using multimodal information resources
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
Aygun et al. Multimedia retrieval that works
CN114490993A (zh) 小样本意图识别方法、***、设备及存储介质
CN114428881A (zh) 媒资视频的推送方法及装置、存储介质及电子设备
KR20120133149A (ko) 데이터 태깅 장치, 그의 데이터 태깅 방법 및 데이터 검색 방법
CN112417095A (zh) 语音消息处理方法和装置
Le-Quynh et al. Enhancing video retrieval with robust clip-based multimodal system
Nguyen et al. Semantic extraction and object proposal for video search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant