CN110225367A - 一种视频中对象信息的显示、识别方法及装置 - Google Patents

一种视频中对象信息的显示、识别方法及装置 Download PDF

Info

Publication number
CN110225367A
CN110225367A CN201910567695.4A CN201910567695A CN110225367A CN 110225367 A CN110225367 A CN 110225367A CN 201910567695 A CN201910567695 A CN 201910567695A CN 110225367 A CN110225367 A CN 110225367A
Authority
CN
China
Prior art keywords
video
image
identification information
video image
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910567695.4A
Other languages
English (en)
Inventor
赵月
金艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910567695.4A priority Critical patent/CN110225367A/zh
Publication of CN110225367A publication Critical patent/CN110225367A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了一种视频中对象信息的显示、识别方法及装置,应用于终端,包括:在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;发送所述视频标识及所述播放时间点至服务器;接收并显示所述识别信息。应用于服务器,包括:接收终端发送的视频标识及播放时间点;查找所述视频标识对应的目标视频;截取所述目标视频中所述播放时间点对应的视频图像;对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;将所述识别信息发送至所述终端。采用本发明实施例,终端在播放视频过程中获取到对象识别指令时,无需暂停视频播放也能显示视频中对象信息供用户观看,提升用户体验。

Description

一种视频中对象信息的显示、识别方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种视频中对象信息的显示、识别方法及装置。
背景技术
用户在观看视频的过程中,可能有了解视频中对象信息的需求,对象可以是视频中的人物、动物、车辆、建筑等。例如,若对象为视频中的人物,对象信息可以为人物的姓名、生日、作品等。
目前,识别视频中对象信息的方式一般为基于语音识别的方式。具体来说,终端接收用户发出的语音指令时,对当前播放的视频画面进行截图,并将截图得到的图像发送至服务器。服务器接收到该图像后对该图像进行图像识别,进而确定对象信息并发送至终端,最后由终端显示对象信息以供用户查看。
在上述识别视频中对象信息的方式中,终端接收到用户发出的语音指令时需要对当前播放的视频画面进行截图,由于终端无法同时播放视频和进行截图操作,所以,终端对当前播放的视频画面进行截图时会暂停播放视频,导致用户体验较差。
发明内容
本发明实施例的目的在于提供一种视频中对象信息的显示、识别方法及装置,以使终端在播放视频过程中获取到对象识别指令时,无需暂停视频播放也能显示视频中对象信息供用户观看。具体技术方案如下:
第一方面,本发明实施例提供了一种视频中对象信息的显示方法,应用于终端,所述方法包括:
在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;
发送所述视频标识及所述播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
接收并显示所述识别信息。
可选的,在所述确定当前播放的视频的视频标识及播放时间点的步骤之前,所述方法还包括:
在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;
如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;
所述获取到对象识别指令的步骤,包括:
获取用户基于所述对象识别引导信息发出的对象识别指令。
可选的,所述判断当前播放的视频画面是否满足预设的识别条件的步骤,包括:
判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积;
如果达到所述预设面积,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长;
如果达到所述预设时长,确定所述当前播放的视频画面满足预设的识别条件。
可选的,所述识别信息包括目标图像,其中,所述目标图像为所述服务器根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域得到的图像;
所述接收并显示所述识别信息的步骤,包括:
接收所述服务器发送的所述目标图像;
在当前播放的视频画面中预设位置显示所述目标图像。
第二方面,本发明实施例提供了一种视频中对象信息的识别方法,应用于服务器,所述方法包括:
接收终端发送的视频标识及播放时间点,其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间点;
查找所述视频标识对应的目标视频;
截取所述目标视频中所述播放时间点对应的视频图像;
对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
可选的,所述对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息的步骤,包括:
将所述视频图像输入对象识别模型,根据所述视频图像的图像特征进行对象识别,得到所述视频图像对应的对象标识,其中,所述对象识别模型包括图像特征与图像中包括的对象的对象标识之间的对应关系;
根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息。
可选的,所述对象识别模型的输出结果还包括所述对象在所述视频图像中位置;
在所述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息的步骤之后,所述方法还包括:
根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;
将所述目标图像作为所述识别信息发送至所述终端。
可选的,所述对象识别模型的训练方式,包括:
获取初始对象识别模型及多个视频图像样本;
按照预设规则标记每个视频图像样本中的对象标识及对象在其所属的视频图像样本中位置,得到每个视频图像样本的检测标签;
将所述视频图像样本输入初始对象识别模型,得到预测标签;
基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度达到预设值,停止训练,得到所述对象识别模型。
第三方面,本发明实施例提供了一种视频中对象信息的显示装置,应用于终端,所述装置包括:
视频标识确定模块,用于在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;
视频标识发送模块,用于发送所述视频标识及所述播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
识别信息显示模块,用于接收并显示所述识别信息。
可选的,所述装置还包括:
视频画面判断模块,用于在所述确定当前播放的视频的视频标识及播放时间点之前,在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;
引导信息显示模块,用于如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;
所述视频标识确定模块包括:
识别指令获取子模块,用于获取用户基于所述对象识别引导信息发出的对象识别指令。
可选的,所述视频画面判断模块包括:
面积判断子模块,用于判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积;
时长记录子模块,用于如果达到所述预设面积,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长;
识别条件确定子模块,用于如果达到所述预设时长,确定所述当前播放的视频画面满足预设的识别条件。
可选的,所述识别信息包括目标图像,其中,所述目标图像为所述服务器根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域得到的图像;
所述识别信息显示模块包括:
目标图像接收子模块,用于接收所述服务器发送的所述目标图像;
目标图像显示子模块,用于在当前播放的视频画面中预设位置显示所述目标图像。
第四方面,本发明实施例提供了一种视频中对象信息的识别装置,应用于服务器,所述装置包括:
视频标识接收模块,用于接收终端发送的视频标识及播放时间点,其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间点;
目标视频查找模块,用于查找所述视频标识对应的目标视频;
视频图像截取模块,用于截取所述目标视频中所述播放时间点对应的视频图像;
识别信息确定模块,用于对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
识别信息发送模块,用于将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
可选的,所述对象识别模型的输出结果还包括所述对象在所述视频图像中位置;
所述装置还包括:
目标图像生成子模块,用于在所述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的标识信息之后,根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;
目标图像发送子模块,用于将所述目标图像作为所述识别信息发送至所述终端。
可选的,所述模型训练模块包括:
图像样本获取子模块,用于获取初始对象识别模型及多个视频图像样本;
检测标签生成子模块,用于按照预设规则标记每个视频图像样本中的对象标识及对象在所述视频图像样本中位置,得到每个视频图像样本的检测标签;
预测标签生成子模块,用于将所述视频图像样本输入初始对象识别模型,得到检测标签;
模型生成子模块,用于基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度到到预设值,停止训练,得到所述对象识别模型。
第五方面,本发明实施例提供了一种终端,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的视频中对象信息的显示方法步骤。
第六方面,本发明实施例提供了一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的视频中对象信息的识别方法步骤。
第七方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时上述任一所述的视频中对象信息的显示方法的步骤。
第八方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频中对象信息的识别方法的步骤。
本发明实施例提供的一种视频中对象信息的显示、识别方法及装置,终端可以在获取到对象识别指令时确定当前播放的视频的视频标识及播放时间点,并将视频标识及播放时间点发送至服务器,进而,服务器接收视频标识及播放时间点后,查找上述视频标识对应的目标视频,截取目标视频中上述播放时间点对应的视频图像,对视频图像进行图像识别,确定视频图像中包括的对象的识别信息并将识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种视频中对象信息的显示方法的流程图;
图2为本发明实施例所提供的对象识别引导信息的一种示意图;
图3为本发明实施例所提供的识别条件判断方式的一种流程图;
图4为本发明实施例所提供的目标图像的一种示意图;
图5为本发明实施例所提供的一种视频中对象信息的识别方法的流程图;
图6为本发明实施例所提供的对象识别模型的训练方式的一种流程图;
图7为本发明实施例所提供的一种视频中对象信息的显示装置的结构示意图;
图8为本发明实施例所提供的一种视频中对象信息的识别装置的结构示意图;
图9为本发明实施例所提供的一种终端的结构示意图;
图10为本发明实施例所提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了避免显示视频中对象信息过程中出现终端暂停播放视频的问题,提升用户体验,本发明实施例提供了一种视频中对象信息的显示方法及装置、识别方法及装置、终端、服务器及计算机可读存储介质。
下面首先对本发明实施例所提供的一种视频中对象信息的显示方法进行介绍。
本发明实施例所提供的一种视频中对象信息的显示方法可以应用于终端,终端可以为:智能手机、平板电脑、智能电视、个人计算机等设备,终端的操作***可以是Android(安卓)、IOS(苹果操作***)或者Windows操作***等等,这都是合理的,另外,可以理解的是,为了适用于某一操作***,实现本实施例所提供的视频中对象信息的识别方法的程序代码可以根据该操作***的特点进行编写。
如图1所示,一种视频中对象信息的显示方法,应用于终端,所述方法包括:
S101,确定当前播放的视频的视频标识及播放时间点;
S102,发送所述视频标识及播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
S103,接收并显示所述识别信息。
可见,本发明实施例所提供的方案中,终端可以在获取到对象识别指令时确定当前播放的视频的视频标识及播放时间点,并将视频标识及播放时间点发送至服务器,进而,服务器接收视频标识及播放时间点后,查找上述视频标识对应的目标视频,截取目标视频中上述播放时间点对应的视频图像,对视频图像进行图像识别,确定视频图像中包括的对象的识别信息并将识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。可见,由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
在上述步骤S101中,用户在需要查看视频中对象的相关信息时,可以发出对象识别指令,进而,终端便可以获取到该对象识别指令。终端可以提供用户接口,用户可以通过该用户接口发出对象识别指令,该用户接口可以为按钮等,用户点击该按钮便可以发出对象识别指令。当然,终端也可以具有语音识别功能,那么用户可以通过语音发出对象识别指令,终端接收到用户发出的语音便可以获取到对象识别指令。
终端在获取到对象识别指令时,为了告知服务器用户想要查看的对象信息对应的对象所在视频中位置,可以确定当前播放的视频的视频标识及播放时间点。其中,视频标识为用于标识不同视频而预先设置的标识,例如,可以为视频名称的拼音缩写,或者可以为视频的数字编号等;播放时间点为获取到对象识别指令时当前视频所播放到的时间点,可以采用时间戳、时间标识等方式表示。
例如,用户在观看电视剧A的过程中,获取到用户发出的对象识别指令,那么终端便可以确定当前播放的视频的视频标识为电视剧A的标识,当前电视剧A播放至5分30秒,那么终端便可以确定当前播放的视频的播放时间点为5分30秒。
在上述步骤S102中,终端确定当前播放的视频的视频标识及播放时间点后,可以将上述视频标识及播放时间点发送至服务器。这样,服务器在接收到终端发送的视频标识及播放时间点后,便可以查找该视频标识对应的目标视频,进而截取目标视频中该播放时间点对应的视频图像,然后对视频图像进行图像识别,确定视频图像中包括的对象的识别信息,并将识别信息发送至终端。
例如,若终端确定的当前播放的视频的视频标识为A1,播放时间点为5分30秒,则终端可以将视频标识A1及播放时间点5分30秒发送至服务器。服务器接收到终端发送的视频标识A1及播放时间点5分30秒后,根据视频标识A1查找其对应的目标视频,然后截取该目标视频5分30秒的视频图像。进而,服务器根据上述截取到的视频图像进行图像识别,确定上述截取到的视频图像中的对象的识别信息,最后将上述识别信息发送至终端。
终端便可以接收到服务器发送的识别信息,进而显示该识别信息,以供用户查看。其中,识别信息为用户需要查看的视频中的对象的相关信息,例如,若上述对象为某个明星,识别信息可以包括该明星的姓名、扮演角色的名称、生日、作品等;若上述对象为某个动物,识别信息可以包括该动物的种类、习性、常见生活地带等;若上述对象为某个建筑,识别信息可以为该建筑的名称、建筑风格、所在地址等。
作为本发明实施例的一种实施方式,在上述确定当前播放的视频的视频标识及播放时间点的步骤之前,上述方法还可以包括:
在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;如果当前播放的视频画面满足预设的识别条件,不显示对象识别引导信息。
为了引导用户对视频中可以识别的对象发出对象识别指令,终端可以判断当前播放的视频画面是否满足预设的识别条件。如果终端确定当前播放的视频画面满足预设的识别条件,说明当前播放的视频画面中包括可以被识别的对象,那么便可以显示对象识别引导信息;如果终端确认当前播放的视频画面不满足预设的识别条件,说明当前播放的视频画面中不包括可以被识别的对象,那么便可以不显示对象识别引导信息。
上述预设的识别条件,可以为当前终端播放的视频画面中某对象的面积大小达到要求面积,也可以为当前终端播放的视频画面中某对象出现的时长达到要求时长。
例如,若上述预设的识别条件为当前终端播放的视频画面中某对象的面积大小达到要求面积,在当前终端播放的视频画面中某对象A的面积不小于要求面积时,终端可以确定当前播放的视频画面满足预设的识别条件,进而显示对象识别引导信息。
在一种实施方式中,终端显示的对象识别引导信息可以包括标记当前播放的视频画面中对象面部区域的标记框及引导文字等。例如,如图2所示,在当前播放的视频画面200符合预设的识别条件时,终端可以在当前播放的视频画面200中显示标记对象203面部区域的标记框201及引导文字202。
相应的,上述获取到对象识别指令的步骤,可以包括:
获取用户基于所述对象识别引导信息发出的对象识别指令。
终端显示上述对象识别引导信息后,用户可以观看到终端显示的对象识别引导信息,进而可以根据上述对象识别引导信息发出对象识别指令。例如,如图2所示,用户在观看到标记对象203面部区域的标记框201及引导文字202后,可以按遥控器的上键以发出对象识别指令,终端便可以接收到用户发出的对象识别指令。
又例如,终端显示的对象识别引导信息可以为“双击触摸屏幕以识别视频画面中的人物”,那么,用户在观看到终端显示的对象识别引导信息后,可以按照对象识别引导信息的内容,在终端的触摸屏幕上进行双击操作,终端便可以捕获上述操作手势,也就可以获取到用户基于对象识别引导信息发出的对象识别指令。
可见,在本实施例中,终端在播放视频时,可以判断当前播放的视频画面是否满足预设的识别条件,如果当前播放的视频画面满足预设的识别条件,终端可以显示对象识别引导信息,进而获取用户基于对象识别引导信息发出的对象识别指令。这样,用户可以根据终端显示的对象识别引导信息进行操作以发出对象识别指令,方便用户操作。
作为本发明实施例的一种实施方式,如图3所示,上述判断当前播放的视频画面是否满足预设的识别条件的步骤,可以包括:
S301,判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积,如果达到所述预设面积,执行步骤S302;如果未达到所述预设面积,确定所述当前播放的视频画面不满足预设的识别条件;
由于在当前播放的视频画面中的对象面积较小时,一般用户不会注意到该对象,也就不会想要查看该对象的对象信息,所以终端可以判断当前播放的视频画面中各个对象的面积是否达到预设面积,如果对象的面积达到预设面积,说明该对象在视频画面中的面积较大,容易引起用户注意,所以终端可以执行步骤S302;如果对象的面积达不到预设面积,说明该对象在视频画面中的面积较小,不容易引起用户注意,所以终端可以确定当前播放的视频画面不满足预设的识别条件。
在一种实施例中,终端可以将预设面积设置为x×y,其中,x、y为预设参数,终端可以根据视频画面的大小、视频画面中对象的密集程度等因素确定,例如,x×y可以为5×6、10×15、15×15等,在此不做具体限定。
S302,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长,如果达到所述预设时长,执行步骤S303;如果未达到所述预设时长,确定所述当前播放的视频画面不满足预设的识别条件;
由于在当前播放的视频画面中达到预设面积的对象显示时间过短时,说明该对象在视频画面中一闪而过,一般用户不会注意到该对象,也就不会想要查看该对象的对象信息,因此终端可以记录上述到达预设面积的对象的面积不小于预设面积的时长,进而判断所记录的时长是否达到预设时长。
如果对象的面积不小于预设面积的时长达到预设时长,说明该对象在视频画面中显示的时长较长,容易引起用户的注意,那么终端便可以执行步骤S303;如果对象的面积不小于预设面积的时长达不到预设时长,说明该对象在视频画面中显示的时长较短,不容易引起用户的注意,那么终端便可以确定当前播放的视频画面不满足预设的识别条件。
上述预设时长可以根据人眼观看事物的习惯等因素确定,例如,可以为3秒、5秒、10秒等,在此不做具体限定。例如,预设时长为5秒,某视频画面中对象面积达到预设面积时对应的播放时间点为3分21秒,若该视频画面中对象的面积从3分21秒开始到3分26秒一直达到预设面积,持续时长为5秒,所以终端可以确定对象在当前播放的视频画面中的面积达到预设面积的时长达到预设时长,终端也就可以执行步骤S303。
S303,确定所述当前播放的视频画面满足预设的识别条件。
由于对象在当前播放的视频画面中的面积达到预设面积,并且对象的面积不小于预设面积的时长达到预设时长时,说明该对象在视频画面中所占面积较大,并且持续时长较长,很容易引起用户的注意,所以,终端可以确定当前播放的视频画面满足预设的识别条件,进而在当前播放的视频画面中显示对象识别引导信息。
例如,预设时长为5秒,某视频画面中对象面积达到预设面积时对应的播放时间点为10分46秒,若该视频画面中对象的面积从10分46秒开始到10分52秒一直不小于预设面积,那么该对象的面积达到预设面积的时长为6秒,大于预设时长5秒,终端便可以确定当前播放的视频画面满足预设的识别条件,进而可以显示对象识别引导信息。
可见,在本实施例中,终端可以判断对象在当前播放的视频画面中的面积是否达到预设面积,如果达到预设面积,然后可以记录对象在当前播放的视频画面中的面积达到预设面积的时长,并判断上述时长是否达到预设时长,如果达到所述预设时长,进而可以确定所述当前播放的视频画面满足预设的识别条件。这样,终端可以在确定当前播放的视频画面存在能够引起用户注意的对象时显示对象识别引导信息,避免在用户不想查看对象信息时,频繁显示对象识别引导信息给用户带来的不便。
作为本发明实施例的一种实施方式,上述识别信息可以包括目标图像,其中,目标图像可以为服务器根据对象在视频图像中位置,在视频图像中标记对象所在区域得到的图像。
服务器对视频图像进行图像识别时,可以得到被识别的对象在上述视频图像中位置,服务器可以在视频图像中相应位置进行标记,得到目标图像。进而,将该目标图像作为识别信息发送至终端。
相应的,上述接收并显示所述识别信息的步骤,可以包括:
接收所述服务器发送的所述目标图像;在当前播放的视频画面中预设位置显示所述目标图像。
由于在服务器对视频画面中的对象进行识别得到识别信息的过程中,终端可能持续播放视频,那么终端当前播放的视频画面很可能不是上述对象所在的视频画面了,所以,为了方便用户查看识别信息,终端可以在接收到服务器发送的目标图像后,将目标图像显示在当前播放的视频画面中,这样,用户便可以清楚地知道识别信息对应的对象为哪个视频画面中的哪个对象。
在一种实施方式中,终端可以将目标图像显示在在当前播放的视频画面中的预设位置,例如,显示在当前播放的视频画面的左下角区域、中央区域、右上角区域等。如图4所示,终端接收到目标图像404后,可以在当前播放的视频画面400的左下角区域显示目标图像404,其中,矩形框403标记的对象401即为识别信息所对应的对象,识别信息还可以包括相关文字信息402。
可见,在本实施例中,终端可以接收服务器发送的目标图像,然后可以在当前播放的视频画面中预设位置显示上述目标图像。这样,用户可以查看目标图像,更容易地获知识别信息所对应的对象,提高用户体验。
相应于上述视频中对象信息的显示方法,本发明实施例还提供了一种视频中对象信息的识别方法。下面对本发明实施例所提供的一种视频中对象信息的识别方法进行介绍。
本发明实施例所提供的一种视频中对象信息的识别方法可以应用于服务器,该服务器可以与上述终端通信连接,以进行数据交互。
如图5所示,一种视频中对象信息的识别方法,应用于服务器,所述方法包括:
S501,接收终端发送的视频标识及播放时间点;
其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间点。
S502,查找所述视频标识对应的目标视频;
S503,截取所述目标视频中所述播放时间点对应的视频图像;
S504,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
S505,将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
可见,本发明实施例所提供的方案中,服务器可以接收终端发送的视频标识及播放时间点,查找上述视频标识对应的目标视频,然后截取目标视频中上述播放时间点对应的视频图像,进而对上述视频图像进行图像识别,确定在上述视频图像中包括的对象的识别信息并将上述识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
在上述步骤S501中,用户在需要查看视频中对象的相关信息时可以发出对象识别指令。终端在获取对象识别指令时,为了告知服务器用户想查看的对象信息对应的对象所在视频中位置,可以确定的当前播放的视频的视频标识及播放时间点,并将该当前播放的视频的视频标识及播放时间点发送至服务器,服务器便可以接收该视频标识及播放时间点。
在上述步骤S502中,服务器可以按照接收的视频标识,从服务器存储的视频中查找与上述视频标识对应的目标视频。
一般情况下,服务器存储有大量视频,在接受到终端发送的视频标识后,服务器可以查找出与该视频标识对应的目标视频,该目标视频即为终端当前播放的视频。进而,服务器可以依据接收的播放时间点,截取目标视频中与上述播放时间点对应的视频图像,也就是执行步骤S503。
由于用户想要查看的对象信息对应的对象存在于目标视频中播放时间点处的视频画面中,所以,服务器可以截取目标视频中与该播放时间点对应的视频图像。
例如,若服务器接收的视频标识为p*,播放时间点为5分30秒,服务器可以查找视频标识为p*对应的目标视频,进而截取目标视频中5分30秒处的视频画面,作为视频图像。
服务器在截取目标视频中与上述播放时间点对应的视频图像之后,为了得到视频图像中包含的对象的识别信息,可以对上述视频图像进行图像识别,进而确定上述视频图像中包括的对象的识别信息,也就是执行上述步骤S504。
在一种实施方式中,服务器可以将视频图像输入对象识别模型,对象识别模型可以根据视频图像的图像特征进行对象识别,得到识别信息。对象识别模型可以是预先训练的用于识别图像中对象得到识别信息的深度学习模型,例如,可以为卷积神经网络、循环神经网络等。
在上述步骤S505中,服务器在确定上述视频图像中包括的对象的识别信息之后,为了将识别信息呈现给用户,可以将上述识别信息发送至终端。终端在接收到服务器发送的识别信息之后,便可以将识别信息显示在当前播放的视频画面中,供用户查看。
作为本发明实施例的一种实施方式,上述对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息的步骤,可以包括:
将所述视频图像输入对象识别模型,根据所述视频图像的图像特征进行对象识别,得到所述视频图像对应的对象标识;根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息。
其中,所述对象识别模型包括图像特征与图像中包括的对象的对象标识之间的对应关系。
服务器在获取到视频图像后,为了确定该视频图像中包含的对象的识别信息,可以将该视频图像输入对象识别模型,对象识别模型可以根据该视频图像的图像特征,进行对象识别,确定该视频图像中包含的对象的对象标识。其中,对象标识为用于区分不同对象的标识。
上述对象识别模型可以预先利用图像样本对初始对象识别模型进行训练得到。在训练过程中,初始对象识别模型可以学习图像样本的图像特征与对象的对象标识的对应关系。这样,在将视频图像输入对象识别模型后,对象识别模型便可以提取视频图像的图像特征,根据自身包括的图像特征与对象的对象标识的对应关系,确定视频图像所对应的对象标识,进而输出该对象标识。
服务器在获取到该对象标识后,可以对预先建立的识别信息数据库进行检索,确定与该对象标识匹配的识别信息。其中,识别信息数据库为服务器预先建立的储存有识别信息与对象标识对应关系的数据库。
例如,服务器获取到的对象标识为qa1,识别信息数据库储存的识别信息与对象标识对应关系如下表所示:
序号 对象标识 识别信息
1 qa1 Ta
2 qa2 Tb
3 qa3 Tc
4 qa4 Td
那么,服务器便可以查找该识别信息数据库储存的识别信息与对象标识对应关系,确定对象标识为qa1对应的识别信息为Ta。
可见,在本实施例中,服务器可以将视频图像输入对象识别模型,根据上述视频图像的图像特征进行对象识别,得到上述视频图像对应的对象标识,进而根据上述对象标识及预先建立的识别信息数据库,从上述识别信息数据库中确定与上述对象标识匹配的识别信息。这样,服务器可以快速准确地对视频图像进行识别,得到用户需要查看的视频中对象的识别信息。
作为本发明实施例的一种实施方式中,上述对象识别模型的识别结果还可以包括对象在上述视频图像中的位置;
相应的,在上述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息的步骤之后,所述方法还包括:
根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;将所述目标图像作为所述识别信息发送至所述终端。
由于在服务器对视频画面中的对象进行识别得到识别信息的过程中,终端可能持续播放视频,那么终端当前播放的视频画面很可能不是上述对象所在的视频画面了。所以,为了方便用户查看识别信息,服务器可以依据被识别对象在视频图像中位置,在视频图像中相应位置进行标记,得到目标图像,进而,将目标图像作为识别信息发送至终端。这样,用户便可以清楚地知道识别信息对应的对象为哪个视频画面中的哪个对象。
在一种实施方式中,服务器可以依据被识别对象在视频图像中位置,标记被识别对象的预设区域,例如,标记被识别对象的上半身区域、面部区域、肩部以上区域等。
在一种实施方式中,服务器可以依据被识别对象在视频图像中位置,采用不同方式标记被识别对象所在区域,例如,服务器可以采用箭头、框图等方式标记被识别对象所在区域。
可见,在本实施例中,服务器可以根据对象在视频图像中位置,在上述视频图像中标记上述对象所在区域,得到目标图像,进而将上述目标图像作为所述识别信息发送至所述终端。这样,识别信息中可以包括目标图像,用户在查看识别信息时可以更容易地获知识别信息所对应的对象,提高用户体验。
作为本发明实施例提供的一种实施方式,如图6所示,上述对象识别模型的训练方式,包括:
S601,获取初始对象识别模型及多个视频图像样本;
其中,上述多个视频图像样本中均包含对象。初始对象识别模型可以为卷积神经网络等深度学习模型,其参数可以随时初始化,对于初始对象识别模型的结构不做具体限定。
S602,按照预设规则标记每个视频图像样本中的对象标识及对象在其所属的视频图像样本中位置,得到每个视频图像样本的检测标签;
获取上述多个视频图像样本后,由于训练得到的对象识别模型需要对视频图像进行处理,确定视频图像中每个对象的对象标识及每个对象在其所属的视频图像样本中位置,所以服务器可以对每个视频图像样本中每个对象的对象标识及每个对象在其所属的视频图像样本中位置进行标定,作为每个图像样本的检测标签。
S603,将所述视频图像样本输入初始对象识别模型,得到预测标签;
对视频图像样本进行标记得到上述检测标签后,服务器可以将视频图像样本输入上述初始对象识别模型,初始对象识别模型可以基于当前参数对视频图像样本进行处理,根据视频图像样本的图像特征确定视频图像中每个对象的对象标识及每个对象在其所属的视频图像样本中位置,也就是预测标签。
S604,基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度达到预设值,停止训练,得到所述对象识别模型。
由于初始对象识别模型还无法准确对视频图像样本进行处理得到准确的输出结果,所以得到上述预测标签及检测标签后,服务器可以将上述预测标签与对应的检测标签进行对比,进而根据预测标签与对应的检测标签之间的差异,调整初始对象识别模型的参数,以使初始对象识别模型的参数更加合适。其中,调整初始对象识别模型的参数的方式可以为随机梯度下降算法等模型参数调整方式,在此不做具体限定及说明。
如果初始对象识别模型的迭代次数达到预设次数,或,初始对象识别模型输出的预测标签的准确度达到预设值,说明当前初始对象识别模型已经可以对图像进行处理得到准确的输出结果,所以此时可以停止训练,得到上述对象识别模型。
其中,上述预设次数可以根据识别要求、模型结构等因素设定,例如,可以为5000次、10000次、12000次等,在此不做具体限定。预设值可以根据识别要求、模型结构等因素限定,例如可以为99%、99.1%、99.2%等,在此不做具体限定。
可见,在本实施例中,服务器可以获取初始对象识别模型及多个视频图像样本,然后按照预设规则标记每个视频图像样本中的对象标识及对象在其所属的视频图像样本中位置,得到每个视频图像样本的检测标签,进而将上述视频图像样本输入初始对象识别模型,得到预测标签,最终基于上述预测标签及对应的视频图像样本的检测标签,调整上述初始对象识别模型的参数,直到上述对象识别模型的迭代次数达到预设次数,或,上述初始对象识别模型输出的预测标签的准确度达到预设值,停止训练,得到对象识别模型。这样,服务器可以对比上述检测标签与上述预测标签,根据比较结果调整初始对象识别模型的参数,得到符合要求的对象识别模型,进而准确对视频图像进行识别。
相应于上述视频中对象信息的显示方法,本申请实施例还提供了一种视频中对象信息的显示装置。下面对本申请实施例所提供的一种视频中对象信息的显示装置进行介绍。
如图7所示,一种视频中对象信息的显示装置的结构示意图,该装置包括如下模块:
视频标识确定模块701,用于在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;
视频标识发送模块702,用于发送所述视频标识及所述播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
识别信息显示模块703,用于接收并显示所述识别信息。
可见,本发明实施例所提供的方案中,终端可以在获取到对象识别指令时确定当前播放的视频的视频标识及播放时间点,并将视频标识及播放时间点发送至服务器,进而,服务器接收视频标识及播放时间点后,查找上述视频标识对应的目标视频,截取目标视频中上述播放时间点对应的视频图像,对视频图像进行图像识别,确定视频图像中包括的对象的识别信息并将识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
作为本发明实施例的一种实施方式,上述视频中对象信息的显示装置还可以包括:
视频画面判断模块(图7中未示出),用于在所述确定当前播放的视频的视频标识及播放时间点之前,在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;
引导信息显示模块(图7中未示出),用于如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;
所述视频标识确定模块包括:
识别指令获取子模块(图7中未示出),用于获取用户基于所述对象识别引导信息发出的对象识别指令。
作为本发明实施例的一种实施方式,上述视频画面判断模块包括:
面积判断子模块(图7中未示出),用于判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积;
时长记录子模块(图7中未示出),用于如果达到所述预设面积,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长;
识别条件确定子模块(图7中未示出),用于如果达到所述预设时长,确定所述当前播放的视频画面满足预设的识别条件。
作为本发明实施例的一种实施方式,上述识别信息包括目标图像;
其中,所述目标图像为上述服务器根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域得到的图像。
上述识别信息显示模块包括:
目标图像接收子模块(图7中未示出),用于接收所述服务器发送的所述目标图像;
目标图像显示子模块(图7中未示出),用于在当前播放的视频画面中预设位置显示所述目标图像。
相应于上述视频中对象信息的识别方法,本申请实施例还提供了一种视频中对象信息的识别装置。下面对本申请实施例所提供的一种视频中对象信息的识别装置进行介绍。
如图8所示,一种视频中对象信息的识别装置的结构示意图,该装置包括如下模块:
视频标识接收模块801,用于接收终端发送的视频标识及播放时间点;
其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间。
目标视频查找模块802,用于查找所述视频标识对应的目标视频;
视频图像截取模块803,用于截取所述目标视频中所述播放时间点对应的视频图像;
识别信息确定模块804,用于对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
识别信息发送模块805,用于将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
可见,本发明实施例所提供的方案中,服务器可以接收终端发送的视频标识及播放时间点,查找上述视频标识对应的目标视频,然后截取目标视频中上述播放时间点对应的视频图像,进而对上述视频图像进行图像识别,确定在上述视频图像中包括的对象的识别信息并将上述识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
作为本发明实施的一种实施方式,上述识别信息确定模块包括:
对象识别子模块(图8中未示出),用于将所述视频图像输入对象识别模型,根据所述视频图像的图像特征进行对象识别,得到所述视频图像对应的对象标识;
其中,所述对象识别模型包括图像特征与图像中包括的对象的对象标识之间的对应关系,所述对象识别模型为模型训练模块基于视频图像样本及其检测标签预先训练完成的。
识别信息确定子模块(图8中未示出),用于根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息。
作为本发明实施例的一种实施方式,上述对象识别模型的输出结果还包括所述对象在所述视频图像中位置;
上述识别信息确定模块还包括:
目标图像生成子模块(图8中未示出),用于在所述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的标识信息之后,根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;
目标图像发送子模块(图8中未示出),用于将所述目标图像作为所述识别信息发送至所述终端。
作为本发明实施例的一种实施方式,上述模型训练模块包括:
图像样本获取子模块(图8中未示出),用于获取初始对象识别模型及多个视频图像样本;
检测标签生成子模块(图8中未示出),用于按照预设规则标记每个视频图像样本中的对象标识及对象在所述视频图像样本中位置,得到每个视频图像样本的检测标签;
预测标签生成子模块(图8中未示出),用于将所述视频图像样本输入初始对象识别模型,得到检测标签;
模型生成子模块(图8中未示出),用于基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度到到预设值,停止训练,得到所述对象识别模型。
相应于上述视频图像中对象信息的显示方法,本发明实施例还提供了一种终端,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述任一实施例所述的视频中对象信息的显示方法。
可见,本发明实施例所提供的方案中,终端可以在获取到对象识别指令时确定当前播放的视频的视频标识及播放时间点,并将视频标识及播放时间点发送至服务器,进而,服务器接收视频标识及播放时间点后,查找上述视频标识对应的目标视频,截取目标视频中上述播放时间点对应的视频图像,对视频图像进行图像识别,确定视频图像中包括的对象的识别信息并将识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
相应于上述视频图像中对象信息的识别方法,本发明实施例还提供了一种服务器,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现上述任一实施例所述的视频中对象信息的识别方法。
可见,本发明实施例所提供的方案中,服务器可以接收终端发送的视频标识及播放时间点,查找上述视频标识对应的目标视频,然后截取目标视频中上述播放时间点对应的视频图像,进而对上述视频图像进行图像识别,确定在上述视频图像中包括的对象的识别信息并将上述识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
相应于上述视频图像中对象信息的显示方法,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,应用于终端,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的视频中对象信息的显示方法的步骤。
可见,本发明实施例所提供的方案中,终端可以在获取到对象识别指令时确定当前播放的视频的视频标识及播放时间点,并将视频标识及播放时间点发送至服务器,进而,服务器接收视频标识及播放时间点后,查找上述视频标识对应的目标视频,截取目标视频中上述播放时间点对应的视频图像,对视频图像进行图像识别,确定视频图像中包括的对象的识别信息并将识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。可见,由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
相应于上述视频图像中对象信息的识别方法,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,应用于服务器,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的视频中对象信息的识别方法的步骤。
可见,本发明实施例所提供的方案中,服务器可以接收终端发送的视频标识及播放时间点,查找上述视频标识对应的目标视频,然后截取目标视频中上述播放时间点对应的视频图像,进而对上述视频图像进行图像识别,确定在上述视频图像中包括的对象的识别信息并将上述识别信息发送至终端,终端便可以接收并显示识别信息,以供用户查看。由于终端在获取到对象识别指令时将当前播放的视频的视频标识及播放时间点发送至服务器,无需进行截图操作,服务器可以根据视频标识及播放时间点获取视频图像,因此,终端在播放视频过程中获取到对象识别指令时,可以无需暂停视频播放,也能显示视频中对象信息供用户观看,可以提高用户体验。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (20)

1.一种视频中对象信息的显示方法,其特征在于,应用于终端,所述方法包括:
在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;
发送所述视频标识及所述播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
接收并显示所述识别信息。
2.根据权利要求1所述的方法,其特征在于,在所述确定当前播放的视频的视频标识及播放时间点的步骤之前,所述方法还包括:
在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;
如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;
所述获取到对象识别指令的步骤,包括:
获取用户基于所述对象识别引导信息发出的对象识别指令。
3.根据权利要求2所述的方法,其特征在于,所述判断当前播放的视频画面是否满足预设的识别条件的步骤,包括:
判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积;
如果达到所述预设面积,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长;
如果达到所述预设时长,确定所述当前播放的视频画面满足预设的识别条件。
4.根据权利要求1所述的方法,其特征在于,所述识别信息包括目标图像,其中,所述目标图像为所述服务器根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域得到的图像;
所述接收并显示所述识别信息的步骤,包括:
接收所述服务器发送的所述目标图像;
在当前播放的视频画面中预设位置显示所述目标图像。
5.一种视频中对象信息的识别方法,其特征在于,应用于服务器,所述方法包括:
接收终端发送的视频标识及播放时间点,其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间点;
查找所述视频标识对应的目标视频;
截取所述目标视频中所述播放时间点对应的视频图像;
对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息的步骤,包括:
将所述视频图像输入对象识别模型,根据所述视频图像的图像特征进行对象识别,得到所述视频图像对应的对象标识,其中,所述对象识别模型包括图像特征与图像中包括的对象的对象标识之间的对应关系;
根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息。
7.根据权利要求6所述的方法,其特征在于,所述对象识别模型的输出结果还包括所述对象在所述视频图像中位置;
在所述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息的步骤之后,所述方法还包括:
根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;
将所述目标图像作为所述识别信息发送至所述终端。
8.根据权利要求7所述的方法,其特征在于,所述对象识别模型的训练方式,包括:
获取初始对象识别模型及多个视频图像样本;
按照预设规则标记每个视频图像样本中的对象标识及对象在其所属的视频图像样本中位置,得到每个视频图像样本的检测标签;
将所述视频图像样本输入初始对象识别模型,得到预测标签;
基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度达到预设值,停止训练,得到所述对象识别模型。
9.一种视频中对象信息的显示装置,其特征在于,应用于终端,所述装置包括:
视频标识确定模块,用于在获取到对象识别指令时,确定当前播放的视频的视频标识及播放时间点;
视频标识发送模块,用于发送所述视频标识及所述播放时间点至服务器,以使所述服务器查找所述视频标识对应的目标视频,截取所述目标视频中所述播放时间点对应的视频图像,对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息,并将所述识别信息发送至所述终端;
识别信息显示模块,用于接收并显示所述识别信息。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
视频画面判断模块,用于在所述确定当前播放的视频的视频标识及播放时间点之前,在播放视频时,判断当前播放的视频画面是否满足预设的识别条件;
引导信息显示模块,用于如果当前播放的视频画面满足预设的识别条件,显示对象识别引导信息;
所述视频标识确定模块包括:
识别指令获取子模块,用于获取用户基于所述对象识别引导信息发出的对象识别指令。
11.根据权利要求10所述的装置,其特征在于,所述视频画面判断模块包括:
面积判断子模块,用于判断所述对象在所述当前播放的视频画面中的面积是否达到预设面积;
时长记录子模块,用于如果达到所述预设面积,记录所述对象在当前播放的视频画面中的面积达到预设面积的时长,并判断所述时长是否达到预设时长;
识别条件确定子模块,用于如果达到所述预设时长,确定所述当前播放的视频画面满足预设的识别条件。
12.根据权利要求9所述的装置,其特征在于,所述识别信息包括目标图像,其中,所述目标图像为所述服务器根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域得到的图像;
所述识别信息显示模块包括:
目标图像接收子模块,用于接收所述服务器发送的所述目标图像;
目标图像显示子模块,用于在当前播放的视频画面中预设位置显示所述目标图像。
13.一种视频中对象信息的识别装置,其特征在于,应用于服务器,所述装置包括:
视频标识接收模块,用于接收终端发送的视频标识及播放时间点,其中,所述视频标识及播放时间点为:所述终端在获取到对象识别指令时,确定的当前播放的视频的视频标识及播放时间点;
目标视频查找模块,用于查找所述视频标识对应的目标视频;
视频图像截取模块,用于截取所述目标视频中所述播放时间点对应的视频图像;
识别信息确定模块,用于对所述视频图像进行图像识别,确定所述视频图像中包括的对象的识别信息;
识别信息发送模块,用于将所述识别信息发送至所述终端,以使所述终端接收并显示所述识别信息。
14.根据权利要求13所述的装置,其特征在于,所述识别信息确定模块包括:
对象识别子模块,用于将所述视频图像输入对象识别模型,根据所述视频图像的图像特征进行对象识别,得到所述视频图像对应的对象标识,其中,所述对象识别模型包括图像特征与图像中包括的对象的对象标识之间的对应关系,所述对象识别模型为模型训练模块基于视频图像样本及其检测标签预先训练完成的;
识别信息确定子模块,用于根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的识别信息。
15.根据权利要求14所述的装置,其特征在于,所述对象识别模型的输出结果还包括所述对象在所述视频图像中位置;
所述装置还包括:
目标图像生成子模块,用于在所述根据所述对象标识及预先建立的识别信息数据库,从所述识别信息数据库中确定与所述对象标识匹配的标识信息之后,根据所述对象在所述视频图像中位置,在所述视频图像中标记所述对象所在区域,得到目标图像;
目标图像发送子模块,用于将所述目标图像作为所述识别信息发送至所述终端。
16.根据权利要求15所述的装置,其特征在于,所述模型训练模块包括:
图像样本获取子模块,用于获取初始对象识别模型及多个视频图像样本;
检测标签生成子模块,用于按照预设规则标记每个视频图像样本中的对象标识及对象在所述视频图像样本中位置,得到每个视频图像样本的检测标签;
预测标签生成子模块,用于将所述视频图像样本输入初始对象识别模型,得到检测标签;
模型生成子模块,用于基于所述预测标签及对应的视频图像样本的检测标签,调整所述初始对象识别模型的参数,直到所述初始对象识别模型的迭代次数达到预设次数,或,所述初始对象识别模型输出的预测标签的准确度到到预设值,停止训练,得到所述对象识别模型。
17.一种终端,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
18.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求5-8任一所述的方法步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求5-8任一所述的方法步骤。
CN201910567695.4A 2019-06-27 2019-06-27 一种视频中对象信息的显示、识别方法及装置 Pending CN110225367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567695.4A CN110225367A (zh) 2019-06-27 2019-06-27 一种视频中对象信息的显示、识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567695.4A CN110225367A (zh) 2019-06-27 2019-06-27 一种视频中对象信息的显示、识别方法及装置

Publications (1)

Publication Number Publication Date
CN110225367A true CN110225367A (zh) 2019-09-10

Family

ID=67815100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567695.4A Pending CN110225367A (zh) 2019-06-27 2019-06-27 一种视频中对象信息的显示、识别方法及装置

Country Status (1)

Country Link
CN (1) CN110225367A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825909A (zh) * 2019-11-05 2020-02-21 北京字节跳动网络技术有限公司 视频图像的识别方法、装置、服务器、终端和存储介质
CN110933456A (zh) * 2019-12-17 2020-03-27 北京爱奇艺科技有限公司 一种基于视频的交互***、方法、装置及电子设备
CN111147891A (zh) * 2019-12-31 2020-05-12 杭州威佩网络科技有限公司 视频画面中对象的信息的获取方法、装置及设备
CN111275911A (zh) * 2020-01-16 2020-06-12 珠海格力电器股份有限公司 一种危险提示方法、设备和计算机可读存储介质
CN111432277A (zh) * 2020-04-01 2020-07-17 咪咕视讯科技有限公司 视频播放方法、电子设备及计算机可读存储介质
CN112423062A (zh) * 2020-10-30 2021-02-26 深圳Tcl新技术有限公司 视频人物信息显示方法、装置、终端设备及存储介质
CN112686230A (zh) * 2021-03-12 2021-04-20 腾讯科技(深圳)有限公司 对象识别方法、装置、设备以及存储介质
CN112822539A (zh) * 2020-12-30 2021-05-18 咪咕文化科技有限公司 信息显示方法、装置、服务器及存储介质
CN114443897A (zh) * 2022-02-10 2022-05-06 北京字跳网络技术有限公司 一种视频推荐方法、装置、电子设备和存储介质
WO2022127719A1 (zh) * 2020-12-16 2022-06-23 花瓣云科技有限公司 在图像画面中显示标签的方法、终端设备及存储介质
WO2022262649A1 (zh) * 2021-06-15 2022-12-22 北京字跳网络技术有限公司 视频互动方法、装置、电子设备和存储介质
WO2023045917A1 (zh) * 2021-09-27 2023-03-30 华为技术有限公司 一种多媒体信息的识别方法以及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499915A (zh) * 2008-02-03 2009-08-05 突触计算机***(上海)有限公司 互联网中为用户提供多媒体内容描述信息的方法和装置
CN103079092A (zh) * 2013-02-01 2013-05-01 华为技术有限公司 在视频中获取人物信息的方法和装置
CN103188516A (zh) * 2011-12-27 2013-07-03 华为终端有限公司 一种节目简介获取方法以及相关装置
CN106339719A (zh) * 2016-08-22 2017-01-18 微梦创科网络科技(中国)有限公司 一种图像识别方法及装置
CN106372106A (zh) * 2016-08-19 2017-02-01 无锡天脉聚源传媒科技有限公司 一种提供视频内容辅助信息的方法及装置
CN107886076A (zh) * 2017-11-13 2018-04-06 四川长虹电器股份有限公司 基于图像识别的电视内容识别***
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
CN108702550A (zh) * 2016-02-26 2018-10-23 三星电子株式会社 用于识别内容的方法及设备
CN109274999A (zh) * 2018-10-08 2019-01-25 腾讯科技(深圳)有限公司 一种视频播放控制方法、装置、设备及介质
CN109391834A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 一种播放处理方法、装置、设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499915A (zh) * 2008-02-03 2009-08-05 突触计算机***(上海)有限公司 互联网中为用户提供多媒体内容描述信息的方法和装置
CN103188516A (zh) * 2011-12-27 2013-07-03 华为终端有限公司 一种节目简介获取方法以及相关装置
CN103079092A (zh) * 2013-02-01 2013-05-01 华为技术有限公司 在视频中获取人物信息的方法和装置
CN108702550A (zh) * 2016-02-26 2018-10-23 三星电子株式会社 用于识别内容的方法及设备
US20190050666A1 (en) * 2016-02-26 2019-02-14 Samsung Electronics Co., Ltd. Method and device for recognizing content
CN106372106A (zh) * 2016-08-19 2017-02-01 无锡天脉聚源传媒科技有限公司 一种提供视频内容辅助信息的方法及装置
CN106339719A (zh) * 2016-08-22 2017-01-18 微梦创科网络科技(中国)有限公司 一种图像识别方法及装置
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
CN109391834A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 一种播放处理方法、装置、设备和存储介质
CN107886076A (zh) * 2017-11-13 2018-04-06 四川长虹电器股份有限公司 基于图像识别的电视内容识别***
CN109274999A (zh) * 2018-10-08 2019-01-25 腾讯科技(深圳)有限公司 一种视频播放控制方法、装置、设备及介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825909A (zh) * 2019-11-05 2020-02-21 北京字节跳动网络技术有限公司 视频图像的识别方法、装置、服务器、终端和存储介质
CN110933456A (zh) * 2019-12-17 2020-03-27 北京爱奇艺科技有限公司 一种基于视频的交互***、方法、装置及电子设备
CN111147891A (zh) * 2019-12-31 2020-05-12 杭州威佩网络科技有限公司 视频画面中对象的信息的获取方法、装置及设备
CN111275911A (zh) * 2020-01-16 2020-06-12 珠海格力电器股份有限公司 一种危险提示方法、设备和计算机可读存储介质
CN111275911B (zh) * 2020-01-16 2021-02-26 珠海格力电器股份有限公司 一种危险提示方法、设备和计算机可读存储介质
CN111432277B (zh) * 2020-04-01 2022-10-14 咪咕视讯科技有限公司 视频播放方法、电子设备及计算机可读存储介质
CN111432277A (zh) * 2020-04-01 2020-07-17 咪咕视讯科技有限公司 视频播放方法、电子设备及计算机可读存储介质
CN112423062A (zh) * 2020-10-30 2021-02-26 深圳Tcl新技术有限公司 视频人物信息显示方法、装置、终端设备及存储介质
CN112423062B (zh) * 2020-10-30 2023-11-10 深圳Tcl新技术有限公司 视频人物信息显示方法、装置、终端设备及存储介质
WO2022127719A1 (zh) * 2020-12-16 2022-06-23 花瓣云科技有限公司 在图像画面中显示标签的方法、终端设备及存储介质
CN112822539A (zh) * 2020-12-30 2021-05-18 咪咕文化科技有限公司 信息显示方法、装置、服务器及存储介质
CN112686230A (zh) * 2021-03-12 2021-04-20 腾讯科技(深圳)有限公司 对象识别方法、装置、设备以及存储介质
WO2022262649A1 (zh) * 2021-06-15 2022-12-22 北京字跳网络技术有限公司 视频互动方法、装置、电子设备和存储介质
WO2023045917A1 (zh) * 2021-09-27 2023-03-30 华为技术有限公司 一种多媒体信息的识别方法以及电子设备
CN114443897A (zh) * 2022-02-10 2022-05-06 北京字跳网络技术有限公司 一种视频推荐方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110225367A (zh) 一种视频中对象信息的显示、识别方法及装置
CN111541936A (zh) 视频及图像处理方法、装置、电子设备、存储介质
US20170289619A1 (en) Method for positioning video, terminal apparatus and cloud server
CN107316520B (zh) 视频教学互动方法、装置、设备及存储介质
EP2728859B1 (en) Method of providing information-of-users' interest when video call is made, and electronic apparatus thereof
CN105933783B (zh) 一种弹幕的播放方法、装置和终端设备
JP2018530804A5 (ja) 多センサ事象相関システム
WO2015183397A1 (en) Control and modification of live presentation
CN105072460B (zh) 一种基于视频内容元素的信息标注和关联方法、***和设备
CN105808182B (zh) 显示控制方法及***、广告破口判断装置、影音处理装置
CN106570100A (zh) 信息搜索方法和装置
CN106024009A (zh) 音频处理方法及装置
CN106708823A (zh) 一种搜索处理方法、装置及***
CN110175223A (zh) 一种实现问题生成的方法及装置
US10701301B2 (en) Video playing method and device
CN109089172A (zh) 一种弹幕显示方法、装置及电子设备
CN106210770A (zh) 一种显示弹幕信息的方法和装置
CN108833991A (zh) 视频字幕显示方法及装置
CN106708905A (zh) 视频内容搜索方法和装置
CN104866322A (zh) 一种数据信息的传输显示方法和电子设备
CN102802073B (zh) 图像处理设备、和方法
US7657061B2 (en) Communication apparatus and system handling viewer image
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
US20150026744A1 (en) Display system, display apparatus, display method, and program
CN106993085A (zh) 定位结果显示方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910

RJ01 Rejection of invention patent application after publication