CN106576151A - 视频处理装置和方法 - Google Patents
视频处理装置和方法 Download PDFInfo
- Publication number
- CN106576151A CN106576151A CN201580042171.3A CN201580042171A CN106576151A CN 106576151 A CN106576151 A CN 106576151A CN 201580042171 A CN201580042171 A CN 201580042171A CN 106576151 A CN106576151 A CN 106576151A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- representative
- input
- representative frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000009897 systematic effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/775—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/93—Regeneration of the television signal or of selected parts thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
提供了视频处理方法和装置。视频处理方法包括:获取包括多个视频帧和多个音频帧的输入视频;将输入视频分割成一个或多个区段;针对一个或多个区段中的每一区段从多个视频帧中确定代表性视频帧;以及获取包括代表性视频帧的幻灯片视频。
Description
技术领域
一个或多个示例性实施方式涉及视频处理装置和方法,更具体地,涉及这样的视频处理装置和方法,利用该视频处理装置和方法能够从视频中包括的多个视频帧中获取包括代表性视频帧的幻灯片视频。
背景技术
随着具有智能功能的电视(TV)的开发,TV可具有根据用户的偏好处理内容的功能以及基本的TV功能(即,接收和再现包括图像信号和语音信号的内容)。因此,具有对可加载在智能TV上的内容进行处理的功能的装置或应用的重要性增加。对于智能TV,开发这种内容处理功能已变为重要的成功因素。
发明内容
技术问题
当存储容量不足以应对全帧视频时,难以在存储器中记录并保存全帧视频。因此,存在将全帧视频转换成幻灯片视频以减小记录的视频的文件大小并以新格式创建新内容的技术需求。
技术方案
一个或多个示例性实施方式包括能够从输入视频获取包括代表性视频帧和音频的幻灯片视频的视频处理装置和方法。
一个或多个示例性实施方式包括计算机可读记录介质,该计算机可读记录介质上实施有用于在计算机中执行视频处理方法的程序。
附加方面将在以下描述中部分地陈述,并且将通过描述部分地明显,或可通过实践所提出的示例性实施方式而习得。
根据一个或多个示例性实施方式,视频处理方法包括:获取包括多个视频帧和多个音频帧的输入视频;将输入视频分割成一个或多个区段;针对一个或多个区段中的每一区段从多个视频帧中确定代表性视频帧;以及获取包括代表性视频帧的幻灯片视频,其中,代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长,以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。
可执行输入视频的分割以使得一个或多个区段具有相同的长度。
当与观众对包括在输入视频中的多个视频帧的偏好相关的信息被提供时,代表性视频帧的确定可基于与观众的偏好相关的信息来执行。
代表性视频帧的确定可基于对音频帧和多个视频帧中的至少一个的分析来执行。
当从音频帧中检测到特定声音时,可基于该特定声音再现的位置确定代表性视频帧。
当由输入视频提供的特定对象包含在视频帧中时,包含该特定对象的视频帧可被确定为代表性视频帧。
视频处理方法还可包括:当文本信息与输入视频一起被提供时,提取与代表性视频帧对应的代表性文本,以及其中,获取幻灯片视频可包括获取包括与代表性视频帧对应的代表性文本的幻灯片视频。
根据一个或多个示例性实施方式,视频处理装置包括输入单元和视频处理单元,其中:输入单元配置成接收包括多个视频帧和多个音频帧的输入视频;视频处理单元配置成将输入视频分割成一个或多个区段,针对一个或多个区段中的每一区段从每一区段中包括的多个视频帧中确定代表性视频帧,以及获取包括代表性视频帧的幻灯片视频,其中,代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长,以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。
视频处理单元可分割输入视频以使得一个或多个区段具有相同的长度。
当与观众对包括在输入视频中的多个视频帧的偏好相关的信息与输入视频一起被提供时,视频处理单元还可配置成基于与观众的偏好相关的信息确定代表性视频帧。
根据权利要求8所述的图像处理装置,其中,视频处理单元还可配置成基于对音频帧和多个视频帧中的至少一个的分析来确定代表性视频帧。
当从音频帧中检测到特定声音时,视频处理单元还可配置成基于该特定声音再现的位置确定代表性视频帧。
当由输入视频提供的特定对象包含在视频帧中时,视频处理单元还可配置成将包含该特定对象的视频帧确定为代表性视频帧。
输入单元还可配置成:当文本信息与输入视频一起被提供时获取该文本信息,以及视频处理单元可配置成:从文本信息提取与代表性视频帧对应的代表性文本以及获取包括有与代表性视频帧对应的代表性文本的幻灯片视频。
根据一个或多个示例性实施方式,提供这样的计算机可读记录介质,该计算机可读记录介质上实施有用于执行视频处理方法的计算机程序。
有益效果
用于幻灯片视频的视频处理方法可不仅应用于智能TV,还可应用于传统TV。具体地,当存储容量不足以应对全帧视频时,用于幻灯片视频的视频处理方法可以是节省存储容量的良好方案。
当诸如USB或HDD的存储设备连接至TV时,不包括PVR(个人视频记录器)***的TV可通过将生成的幻灯片存储在存储设备中来提供与PVR类似的功能。此外,可利用用于幻灯片视频的视频处理方法从现有视频获取新内容。
附图说明
通过以下结合附图对示例性实施方式的描述,这些和/或其它方面将变得明显且更容易理解,附图中:
图1是根据示例性实施方式的幻灯片视频的示图;
图2是根据示例性实施方式的视频处理装置的框图;
图3是示出了确定代表性视频帧的示例的示图;
图4是示出了确定代表性视频帧的另一示例的示图;
图5是示出了在幻灯片视频上显示文本的示例的示图;
图6是根据示例性实施方式的视频处理方法的流程图;
图7幻灯片视频文件的示图;以及
图8A至图8D是示出了具有幻灯片视频生成功能和幻灯片视频再现功能的程序的示例的示图。
实现本发明的最佳方式
根据一个或多个示例性实施方式,视频处理方法包括:获取包括多个视频帧和多个音频帧的输入视频;将输入视频分割成一个或多个区段;针对一个或多个区段中的每一区段从多个视频帧中确定代表性视频帧;以及获取包括代表性视频帧的幻灯片视频,其中,代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长,以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。
根据一个或多个示例性实施方式,视频处理装置包括输入单元和视频处理单元,其中:输入单元配置成接收包括多个视频帧和多个音频帧的输入视频;视频处理单元配置成将输入视频分割成一个或多个区段,针对一个或多个区段中的每一区段从每一区段中包括的多个视频帧中确定代表性视频帧,以及获取包括代表性视频帧的幻灯片视频,其中,代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长,以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。
具体实施方式
现在将详细参照示例性实施方式,示例性实施方式的示例在附图中示出,其中,全部附图中相同的附图标记代表相同的元件。就此而言,本示例性实施方式可具有不同形式,并且不应被理解为限于本文中所陈述的描述。相应地,以下仅仅是为了说明本说明书的诸方面而通过参照附图对示例性实施方式进行描述。如本文中所使用的,术语“和/或”包括相关所列项中的一个或多个的任何和全部组合。当诸如“……中的至少一个”的表述在元件的列表之后时,修饰元件的整个列表,而不修饰列表中的单个元件。
图1是根据示例性实施方式的幻灯片视频的示图。
上框100显示根据时间的推移在视频处理装置处理之前的输入视频的音频数据110和多个视频帧120、122、124、126、128以及130。虽然为了便于描述仅在上框100中示出了六个视频帧120、122、124、126、128以及130,但输入视频可包括更多视频帧。左侧的视频帧早于右侧的视频帧。因此,在时间上,最左侧的视频帧120是最早的视频帧,而最右侧的视频帧130是最晚的视频帧。音频数据110包括与视频帧对应的多个音频帧(未在图1中绘出)。
上框100可以以中心虚线125为基准被分割成两个区段。视频帧120、视频帧122和视频帧124包括在以虚线125为基准的左侧的区段中。视频帧126、视频帧128和视频帧130包括在虚线125的右侧的区段中。例如,在每一区段中确定代表性视频帧。根据图1的示例,视频帧122被确定为虚线125的左区段中的代表性视频帧,以及视频帧128被确定为虚线125的右区段中的代表性视频帧。
下框150包括幻灯片视频的音频数据160以及代表性视频帧170和代表性视频帧172。下框150的音频160可与上框100的音频110相同。参照图1,由于视频帧122被确定为左侧的代表性视频帧,因此代表性视频帧170与视频帧122相同。此外,由于视频帧128被确定为右侧的代表性视频帧,因此代表性视频帧172与视频帧128相同。音频数据160包括与视频帧对应的多个音频帧(未在图1中绘出)。音频数据110可与音频数据160相同。
在幻灯片视频中,代表性视频帧170在再现输入视频中的视频帧120、视频帧122和视频帧124的时段期间显示。同样地,代表性视频帧172在再现输入视频中的视频帧126、视频帧128和视频帧130的时段期间显示。
在图1中,为了便于描述,代表性视频帧显示为与三个视频帧相关,但代表性视频帧可显示为更少或更多视频帧相关。
图2是根据示例性实施方式的视频处理装置200的框图。
视频处理装置200可包括输入单元210、视频处理单元220、存储单元230以及输出单元240。在图2中,输入单元210和输出单元240示出为分离的单元,但根据一些实施方式,输入单元210和输出单元240可结合为一个单元。同样地,视频处理单元220可与输入单元210和输出单元240中的至少一个结合。在图2中,输入单元210、视频处理单元220、存储单元230以及输出单元240位于视频处理装置200中;然而,输入单元210、视频处理单元220、存储单元230以及输出单元240无需彼此相邻。因此,根据一些实施方式,输入单元210、视频处理单元220、存储单元230以及输出单元240可分散开。图2的视频处理装置200不限于物理装置。例如,视频处理装置200中的一些功能可实施为软件而不是硬件。
输入单元210可获取包括多个视频帧和音频的输入视频。输入单元210可在获取输入视频的同时获取多种种类的数据。例如,如果输入视频包括诸如字幕的文本信息,则输入单元210还可获取该文本信息。作为另一示例,如果输入视频包括与输入视频的制作者、播放时间以及编码类型相关的元数据,则输入单元210还可获取该元数据。
输入单元210可从多种源获取输入视频。例如,输入单元210可以实时地以固定间隔从广播信号210获取输入视频。作为另一示例,输入单元210可从外部输入源214(诸如CD、DVD、USB或HDMI)获取输入视频。输入单元210可实施为发送器、CD读取器、DVD读取器、处理器或者可读取视频数据和音频数据的设备。此外,输入单元210可实施为执行向处理器220输入视频数据和音频数据的软件。
视频处理单元220可包括视频处理器222、音频处理器228以及幻灯片视频生成器229。视频处理单元220可实施为多个处理器中的一个。
视频处理器222可包括输入视频分割单元224和代表性视频帧确定器226,并且从输入视频中确定代表性视频帧。
输入视频分割单元224可将输入视频分割成至少一个区段。输入视频分割单元224可分割输入视频以使得每一分割区段具有固定长度。例如,输入视频分割单元224可分割输入视频以使得分割区段具有相等数量的视频帧。
根据一些实施方式,输入视频分割单元224可分割输入视频以使得分割区段具有彼此不同的长度。例如,如果输入视频包括与人之间的对话相关的文本,则输入视频分割单元224可分割输入视频以使得分割区段具有依赖于文本的大小而变化的不同的长度。
代表性视频帧确定器226可从由输入视频分割单元224分割的每一区段所包括的视频帧中确定代表性视频帧。代表性视频帧确定器226可基于多种标准确定代表性视频帧。例如,如果输入单元210获取与观众对包括在输入视频中的帧的偏好相关的信息,则代表性视频帧确定器226可基于观众偏好信息确定代表性视频帧。作为另一示例,代表性视频帧确定器226可基于对音频和视频帧中的至少一个的分析来确定代表性视频帧。基于对音频和视频帧的分析确定代表性视频帧的示例参照图3和图4示出。
代表性视频帧确定器226对所确定的代表性视频帧进行编码,并输出所确定的代表性视频帧。例如,代表性视频帧确定器226可将代表性视频帧编码成诸如jpg、gif或png的文件格式,并输出经编码的代表性视频帧。
音频处理器228可从输入视频提取音频数据。音频处理器228可对提取的音频数据进行编码并输出经编码的音频数据。例如,音频处理器228可将音频数据编码成诸如mp3或wma的文件格式,并可输出经编码的音频数据。
幻灯片视频生成器229可通过使从视频处理器222输出的代表性视频帧和从音频处理器228输出的音频数据彼此同步来生成幻灯片视频。例如,如果代表性视频帧A代表包括在输入视频的从00:00至00:05时间段中的视频帧,则代表性视频帧A可与音频数据中对应于时间段00:00至00:05的部分同步。如上生成的幻灯片视频在00:00至00:05的区段中播放音频数据中与时间段00:00至00:05对应的部分,并且同时显示代表性视频帧A。
幻灯片视频生成器229可使与输入视频一起提供的元数据包括在幻灯片视频中。例如,幻灯片视频生成器229可使与输入视频的制作者、播放时间以及编码类型相关的元数据包括在幻灯片视频中。
此外,如果输入单元210在获取输入视频的同时获取文本信息,则幻灯片视频生成器229从文本信息提取与代表性视频帧对应的代表性文本,并将代表性文本添加至被确定为代表性视频帧的视频帧中。将代表性文本添加至代表性视频帧的示例在图5中示出。
存储单元230可存储通过处理单元220获取的幻灯片视频。存储单元230可以是易失性存储器、非易失性存储器、内部存储器、外部存储器或其组合。例如,存储单元230可以是诸如非易失性随机存取存储器(NVRAM)、闪存和磁盘存储设备的非易失性存储设备,或诸如静态随机存取存储器(SRAM)的易失性存储设备。
存储单元230可存储配置幻灯片视频的代表性视频帧和音频以及幻灯片视频。此外,如果幻灯片视频提供输入视频的文本信息(诸如,字幕)或元数据,则存储单元230可存储文本信息或元数据。
输出单元240可将通过处理单元220获取的幻灯片视频或存储在存储单元230中的幻灯片视频输出至视频处理装置200的外部设备。输出单元240可以以多种方式连接至外部设备。输出单元240可实施为发送器或向外部设备发送数据的各种设备。此外,输出单元可实施为再现幻灯片视频的显示器。
图3和图4示出了基于对音频或视频帧的分析通过图2的视频帧确定器226确定代表性视频帧。
图3是示出了通过分析视频帧确定代表性视频帧的示例的示图。
上框300显示根据时间流逝的输入视频的多个视频帧310、320、330和340。为了便于描述,上框300仅包括四个视频帧,但输入视频中可包括更多视频帧。位于左侧的视频帧在时间上早于位于右侧的视频帧。因此,位于最左侧的视频帧310是最早的视频帧,而位于最右侧的视频帧340是最晚的视频帧。
上框300以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧310和视频帧320。虚线的右区段包括视频帧330和视频帧340。每一区段具有代表性视频帧。
区段中包含特定对象的视频帧可被确定为代表性视频帧。在图3中,包含人的视频帧被确定为代表性视频帧。因此,包含人的视频帧310和视频帧330被确定为代表性视频帧,而不包含人的视频帧320和视频帧340未被确定为代表性视频帧。因此,下框350中的代表性视频帧360与视频帧310相同。此外,代表性视频帧370与视频帧330相同。
在图3中,代表性视频帧代表两个视频帧显示,但一个或多个实施方式不限于此。即,在实际情况中,代表性视频帧可代表多于三个的视频帧显示。
图4是示出了通过分析音频来确定代表性视频帧的示例的示图。
上框400显示根据时间流逝的输入视频的多个视频帧410、420、430以及440。为了便于描述,上框400仅包括四个视频帧410、420、430以及440,但输入视频中可包括更多视频帧。
位于左侧的视频帧在时间上早于位于右侧的视频帧。因此,位于最左侧的视频帧410是最早的视频帧,而位于最右侧的视频帧440是最晚的视频帧。
上框400以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧410和视频帧420。虚线的右区段包括视频帧430和视频帧440。每一区段中具有代表性视频帧。
如果从每一区段的音频中检测到特定声音,则可基于检测出该特定声音的位置而确定代表性视频帧。在图4中,与识别到人类语音的位置接近的视频帧被确定为代表性视频帧。因此,当显示视频帧410和视频帧430时,检测到人类语音,以及当显示视频帧420和视频帧440时,未检测到人类语音。因此,视频帧410被确定为虚线的左区段中的代表性视频帧,以及视频帧420被确定为虚线的右区段中的代表性视频帧。因此,下框450中的代表性视频帧460与视频帧410相同。同样地,代表性视频帧470与视频帧430相同。
在图4中,为了便于描述,代表性视频帧代表两个视频帧显示,但在实际情况中,代表性视频帧可代表多于两个的视频帧显示。
图5是示出了根据一个或多个示例性实施方式的在代表性视频帧上显示代表性文本的示例的示图。
上框500显示根据时间流逝的输入视频的多个视频帧510、520、530以及540。根据图5,为了便于描述,上框500包括四个视频帧510、520、530以及540,但输入视频中可包括更多视频帧。
上框500以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧510和视频帧520。虚线的右区段包括视频帧530和视频帧540。在每一区段中确定一个代表性视频帧。
当显示最左侧的视频帧510时,检测到语音“你好”。当显示视频帧520时,检测到语音“最近怎么样?”。当显示视频帧530时,检测到语音“还不错”。当显示视频帧540时,检测到语音“你呢?”。
幻灯片视频可识别在与代表性视频帧对应的区段中检测到的语音,并且可显示代表性视频帧以及与识别的语音对应的文本。例如,代表性帧560在其下部上显示有文本“你好,最近怎么样?”565,该文本是从视频帧510和视频帧520检测的语音的组合。代表性视频帧570在其下部上显示有文本“还不错,你呢?”575,该文本是从视频帧530和视频帧540检测的语音的组合。
在图5中,与检测到的语音对应的文本在代表性视频帧的下部中显示,但根据一些实施方式,文本可显示在另一部分中。
如果与输入视频的音频相关的文本信息与输入视频一起被获取,则可从文本信息中提取与检测到的语音对应的文本并显示该文本,而无需识别检测到的语音。
图6是根据一个或多个示例性实施方式的视频处理方法600的流程图。
在操作S610中,获取包含多个视频帧和多个音频帧的输入视频。与观众对输入视频的视频帧的偏好相关的信息可与输入视频一起被获取。此外,可获取与输入视频相关的文本信息。
在操作S620中,将输入视频分割成一个或多个区段。输入视频可被分割为使得每一区段具有彼此相同的长度。
在操作S630中,针对一个或多个区段中的每一区段,从每一区段中包括的视频帧中确定代表性视频帧。如果观看偏好信息(包括观众对输入视频中包括的视频帧的反应)与输入视频一起被提供,则可基于观众偏好信息来确定代表性视频帧。
此外,可通过分析音频和视频帧中的至少一个来确定代表性视频帧。例如,如果从音频检测到特定声音,则可基于该特定声音再现的位置确定代表性视频帧。作为另一示例,如果视频帧包含输入视频中的特定对象,则可将包含该特定对象的视频帧确定为代表性视频帧。
在操作S640中,代表性视频帧中的每一个与音频同步,然后,获取显示为同与代表性视频帧对应的区段的再现时间一样长的幻灯片视频。
图7是根据一个或多个示例性实施方式的幻灯片视频文件的示图。
图2的存储单元230可存储幻灯片视频718以及包括在幻灯片视频718中的代表性视频帧图像710和音频714。此外,存储单元230可包括输入视频712,输入视频712为幻灯片视频718的原始视频。
代表性视频帧图像710可压缩为诸如jpg或gif的文件格式。代表性视频帧图像710的文件名可被确定为与幻灯片视频718的文件名有关。参照图7,如果幻灯片视频718的文件名被确定为A.PLT 750,则代表性视频帧图像710的文件名可根据显示代表性视频帧图像的顺序而确定为A_001.jpg、A_002.jpg,……734。
包括在输入视频中的音频714可存储为具有诸如wav、mp3或wma扩展的音频文件。音频714的文件名可被确定成与幻灯片视频718的文件名有关。参照图7,如果幻灯片视频718的文件名被确定为A.PLT 750,则音频714的文件名可根据显示代表性视频帧的顺序而确定为A.wav 744。
幻灯片视频718可存储为具有预定扩展的文件。根据图7,例如,幻灯片视频文件的扩展可以是PLT。幻灯片视频文件可包括与代表性视频帧和音频相关的数据。因此,在没有与代表性视频帧图像相关的文件和与关于幻灯片视频的音频数据相关的文件的情况下,幻灯片视频可单独地再现。
相反,幻灯片视频文件可包括与代表性视频帧和音频的数据所存储的位置相关的信息,而不是包括与代表性视频帧和音频相关的数据。例如,A.PLT750可包括与文件A_001.jpg、A_002.jpg,……734和A.wav744的位置相关的信息。
代表性视频帧图像710、音频714以及幻灯片视频718不必存储在相同的存储设备中,而可分散地存储。
图8A至图8D是根据一个或多个示例性实施方式的能够生成并再现幻灯片视频的程序的示图。
图8A示出了用于激活幻灯片视频生成功能的应用的显示页面800。应用的显示页面800显示幻灯片视频记录802和基本记录设备804。当幻灯片视频记录802被选择时,可确定是否在显示页面800上显示用于激活幻灯片视频生成功能的应用。当幻灯片视频记录802的选项被选择为“开(on)”时,基本记录设备804可被选择。当基本记录设备804被选择时,可确定将执行幻灯片视频生成功能的设备。
图8B示出了用于再现视频的显示器820。当视频处理装置的用户选择显示在显示器820的上端部上的开始记录按钮822时,通过利用在显示器820上再现的视频作为输入视频来生成幻灯片视频。此外,用户可选择显示在显示器820的上端部上的内容搜索按钮824来搜索已生成的幻灯片视频。
图8C示出了显示幻灯片视频的生成的显示器840。视频处理装置的用户选择显示在显示器840的上端部上的记录停止按钮842以停止生成幻灯片视频。此外,即使在生成幻灯片视频时,用户也可选择显示在显示器840的上端部上的内容搜索按钮844来搜索已生成的幻灯片视频。当生成幻灯片视频时,记录符号846可显示在输入视频的上端部上。此外,可显示已生成的幻灯片视频的播放时间。
图8D示出了具有内容搜索功能的应用的执行页面860。执行页面860可显示包含与幻灯片视频文件864相关的图像和音频文件的文件夹862、幻灯片视频文件864以及与选择的内容相关的信息866。与选择的内容相关的信息866可包括与输入视频的制作者、播放时间以及编码类型相关的元数据。用户可通过利用应用来搜索幻灯片视频文件以及与幻灯片视频文件相关的图像或音频文件。
示例性实施方式可被写为计算机程序,并且可在使用计算机可读记录介质执行程序的通用数字计算机中实施。计算机可读记录介质的示例包括磁存储介质(例如,ROM、软盘、硬盘等)、光记录介质(例如,CD-ROM或DVD)等。
应理解的是,本文所描述的示例性实施方式应当仅以描述性含义理解,而并非出于限制的目的。对每一示例性实施方式中的特征或方面的描述应当通常理解为可用于其它示例性实施方式中的其它类似特征或方面。
虽然已参照附图描述了一个或多个示例性实施方式,但本领域普通技术人员将理解的是,在不背离由所附权利要求所限定的精神和范围的情况下,可在形式和细节方面对示例性实施方式作出多种改变。
Claims (15)
1.视频处理方法,包括:
获取包括多个视频帧和多个音频帧的输入视频;
将所述输入视频分割成一个或多个区段;
针对所述一个或多个区段中的每一区段,从所述多个视频帧中确定代表性视频帧;以及
获取包括所述代表性视频帧的幻灯片视频,
其中,所述代表性视频帧中的每一个显示为同与所述代表性视频帧中的每一个对应的区段的播放时间一样长,以及所述代表性视频帧中的每一个与对应于所述代表性视频帧的区段的音频帧同步。
2.根据权利要求1所述的视频处理方法,其中,所述输入视频的分割被执行为使得所述一个或多个区段具有相同的长度。
3.根据权利要求1所述的视频处理方法,其中,当与观众对包括在所述输入视频中的所述多个视频帧的偏好相关的信息被提供时,所述代表性视频帧的确定基于与观众的偏好相关的信息来执行。
4.根据权利要求1所述的视频处理方法,其中,所述代表性视频帧的确定基于对所述音频帧和所述多个视频帧中的至少一个的分析来执行。
5.根据权利要求4所述的视频处理方法,其中,当从所述音频帧中检测到特定声音时,所述代表性视频帧基于所述特定声音再现的位置来确定。
6.根据权利要求4所述的视频处理方法,其中,当由所述输入视频提供的特定对象被包含在视频帧中时,包含所述特定对象的视频帧被确定为所述代表性视频帧。
7.根据权利要求1所述的视频处理方法,还包括:当文本信息与所述输入视频一起被提供时,提取与所述代表性视频帧对应的代表性文本,以及
其中,获取所述幻灯片视频包括:获取包括与所述代表性视频帧对应的所述代表性文本的幻灯片视频。
8.视频处理装置,包括:
输入单元,配置成接收包括多个视频帧和多个音频帧的输入视频;以及
视频处理单元,配置成:
将所述输入视频分割成一个或多个区段;
针对所述一个或多个区段中的每一区段,从所述每一区段中包括的所述多个视频帧中确定代表性视频帧;以及
获取包括所述代表性视频帧的幻灯片视频,
其中,所述代表性视频帧中的每一个显示为同与所述代表性视频帧中的每一个对应的区段的播放时间一样长,以及所述代表性视频帧中的每一个与对应于所述代表性视频帧的区段的音频帧同步。
9.根据权利要求8所述的视频处理装置,其中,所述视频处理单元将所述输入视频分割成使得所述一个或多个区段具有相同的长度。
10.根据权利要求8所述的视频处理装置,其中,当与观众对包括在所述输入视频中的所述多个视频帧的偏好相关的信息与所述输入视频一起被提供时,所述视频处理单元还配置成基于与观众的偏好相关的信息来确定所述代表性视频帧。
11.根据权利要求8所述的图像处理装置,其中,所述视频处理单元还配置成基于对所述音频帧和所述多个视频帧中的至少一个的分析来确定所述代表性视频帧。
12.根据权利要求11所述的图像处理装置,其中,当从所述音频帧中检测到特定声音时,所述视频处理单元还配置成基于所述特定声音再现的位置来确定所述代表性视频帧。
13.根据权利要求11所述的图像处理装置,其中,当由所述输入视频提供的特定对象被包含在视频帧中时,所述视频处理单元还配置成将包含所述特定对象的视频帧确定为所述代表性视频帧。
14.根据权利要求8所述的视频处理装置,其中,所述输入单元还配置成当文本信息与所述输入视频一起被提供时获取所述文本信息,以及所述视频处理单元配置成从所述文本信息提取与所述代表性视频帧对应的代表性文本以及获取包括与所述代表性视频帧对应的所述代表性文本的幻灯片视频。
15.计算机可读记录介质,所述计算机可读记录介质上实施有用于执行根据权利要求1至7中任一项所述的视频处理方法的计算机程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140140171A KR102340196B1 (ko) | 2014-10-16 | 2014-10-16 | 동영상 처리 장치 및 방법 |
KR10-2014-0140171 | 2014-10-16 | ||
PCT/KR2015/006112 WO2016060358A1 (en) | 2014-10-16 | 2015-06-17 | Video processing apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106576151A true CN106576151A (zh) | 2017-04-19 |
CN106576151B CN106576151B (zh) | 2021-06-15 |
Family
ID=55746867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580042171.3A Expired - Fee Related CN106576151B (zh) | 2014-10-16 | 2015-06-17 | 视频处理装置和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10014029B2 (zh) |
EP (1) | EP3143764A4 (zh) |
KR (1) | KR102340196B1 (zh) |
CN (1) | CN106576151B (zh) |
WO (1) | WO2016060358A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108174269A (zh) * | 2017-12-28 | 2018-06-15 | 优酷网络技术(北京)有限公司 | 可视化音频播放方法及装置 |
CN110534085A (zh) * | 2019-08-29 | 2019-12-03 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111741359A (zh) * | 2020-05-28 | 2020-10-02 | 杨伟 | 一种视频转pptx的方法及*** |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102414783B1 (ko) * | 2017-11-01 | 2022-06-30 | 삼성전자주식회사 | 전자 장치 및 이의 제어방법 |
KR102085908B1 (ko) | 2018-05-10 | 2020-03-09 | 네이버 주식회사 | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 |
KR102142623B1 (ko) * | 2018-10-24 | 2020-08-10 | 네이버 주식회사 | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 |
KR102154312B1 (ko) | 2018-10-31 | 2020-09-10 | 네이버 주식회사 | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 |
CN109819346A (zh) * | 2019-03-13 | 2019-05-28 | 联想(北京)有限公司 | 视频文件处理方法及装置、计算机***和可读存储介质 |
CN110602525B (zh) * | 2019-08-23 | 2021-09-17 | 江西憶源多媒体科技有限公司 | 一种视频分析结果与图像帧绑定传输的方法 |
CN114173177B (zh) * | 2021-12-03 | 2024-03-19 | 北京百度网讯科技有限公司 | 一种视频处理方法、装置、设备及存储介质 |
US11804245B2 (en) * | 2022-01-21 | 2023-10-31 | Kyndryl, Inc. | Video data size reduction |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998034182A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel |
US6342904B1 (en) * | 1998-12-17 | 2002-01-29 | Newstakes, Inc. | Creating a slide presentation from full motion video |
US6804295B1 (en) * | 2000-01-07 | 2004-10-12 | International Business Machines Corporation | Conversion of video and audio to a streaming slide show |
CN1538351A (zh) * | 2003-04-01 | 2004-10-20 | 视觉上代表性的视频缩略图的生成 | |
CN1685344A (zh) * | 2002-11-01 | 2005-10-19 | 三菱电机株式会社 | 用于概括未知视频内容的方法 |
US20090007202A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Forming a Representation of a Video Item and Use Thereof |
CN101395607A (zh) * | 2006-03-03 | 2009-03-25 | 皇家飞利浦电子股份有限公司 | 用于自动生成多个图像的概要的方法和设备 |
CN101398855A (zh) * | 2008-10-24 | 2009-04-01 | 清华大学 | 一种视频关键帧提取方法和*** |
CN102184221A (zh) * | 2011-05-06 | 2011-09-14 | 北京航空航天大学 | 一种基于用户偏好的实时视频摘要生成方法 |
CN102332001A (zh) * | 2011-07-26 | 2012-01-25 | 深圳市万兴软件有限公司 | 一种视频缩略图生成方法及装置 |
CN102611910A (zh) * | 2011-01-19 | 2012-07-25 | 北京东方文骏软件科技有限责任公司 | 基于关键帧图像质量加权的无参考视频质量客观评价方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4292627B2 (ja) * | 1999-06-07 | 2009-07-08 | ソニー株式会社 | 動画像記録再生装置および方法、並びに記録媒体 |
US7131059B2 (en) * | 2002-12-31 | 2006-10-31 | Hewlett-Packard Development Company, L.P. | Scalably presenting a collection of media objects |
US20070154164A1 (en) * | 2005-01-12 | 2007-07-05 | Liu Samson J | Converting a still image in a slide show to a plurality of video frame images |
US8615573B1 (en) | 2006-06-30 | 2013-12-24 | Quiro Holdings, Inc. | System and method for networked PVR storage and content capture |
WO2008113064A1 (en) * | 2007-03-15 | 2008-09-18 | Vubotics, Inc. | Methods and systems for converting video content and information to a sequenced media delivery format |
US20090150784A1 (en) | 2007-12-07 | 2009-06-11 | Microsoft Corporation | User interface for previewing video items |
US20090209237A1 (en) * | 2007-12-11 | 2009-08-20 | Scirocco Michelle Six | Apparatus And Method For Slideshows, Thumbpapers, And Cliptones On A Mobile Phone |
US20090196574A1 (en) * | 2008-02-06 | 2009-08-06 | Lidestri James M | Still Image Promotion |
KR101032634B1 (ko) * | 2008-06-17 | 2011-05-06 | 삼성전자주식회사 | 미디어 파일 재생 방법 및 장치 |
KR101327298B1 (ko) * | 2009-08-20 | 2013-11-20 | 후지쯔 가부시끼가이샤 | 동화상 처리 장치, 섬네일 화상 생성 프로그램을 저장한 매체 및 섬네일 화상 생성 방법 |
KR20120040816A (ko) * | 2010-10-20 | 2012-04-30 | 삼성전자주식회사 | 파일 통합 운용 방법 및 이를 지원하는 휴대 단말기 |
KR101205388B1 (ko) | 2011-05-13 | 2012-11-27 | 한국과학기술원 | 강의 동영상과 강의노트 동기화를 통해 동영상 프레임을 슬라이드 주요 제목으로 색인하는 방법 |
US8995307B2 (en) * | 2012-06-18 | 2015-03-31 | Cisco Technology, Inc. | Multicast media notification for queued calls |
KR101541495B1 (ko) * | 2012-08-17 | 2015-08-05 | 네이버 주식회사 | 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
-
2014
- 2014-10-16 KR KR1020140140171A patent/KR102340196B1/ko active IP Right Grant
-
2015
- 2015-06-17 US US15/324,019 patent/US10014029B2/en active Active
- 2015-06-17 CN CN201580042171.3A patent/CN106576151B/zh not_active Expired - Fee Related
- 2015-06-17 WO PCT/KR2015/006112 patent/WO2016060358A1/en active Application Filing
- 2015-06-17 EP EP15850379.7A patent/EP3143764A4/en not_active Ceased
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998034182A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel |
US6342904B1 (en) * | 1998-12-17 | 2002-01-29 | Newstakes, Inc. | Creating a slide presentation from full motion video |
US6804295B1 (en) * | 2000-01-07 | 2004-10-12 | International Business Machines Corporation | Conversion of video and audio to a streaming slide show |
CN1685344A (zh) * | 2002-11-01 | 2005-10-19 | 三菱电机株式会社 | 用于概括未知视频内容的方法 |
CN1538351A (zh) * | 2003-04-01 | 2004-10-20 | 视觉上代表性的视频缩略图的生成 | |
CN101395607A (zh) * | 2006-03-03 | 2009-03-25 | 皇家飞利浦电子股份有限公司 | 用于自动生成多个图像的概要的方法和设备 |
US20090007202A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Forming a Representation of a Video Item and Use Thereof |
CN101398855A (zh) * | 2008-10-24 | 2009-04-01 | 清华大学 | 一种视频关键帧提取方法和*** |
CN102611910A (zh) * | 2011-01-19 | 2012-07-25 | 北京东方文骏软件科技有限责任公司 | 基于关键帧图像质量加权的无参考视频质量客观评价方法 |
CN102184221A (zh) * | 2011-05-06 | 2011-09-14 | 北京航空航天大学 | 一种基于用户偏好的实时视频摘要生成方法 |
CN102332001A (zh) * | 2011-07-26 | 2012-01-25 | 深圳市万兴软件有限公司 | 一种视频缩略图生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
曹晋高: "视频关键帧提取方法研究", 《中国优秀硕士学位论文全文数据库》 * |
蒲筱哥: "基于内容的视频检索关键技术研究综述", 《情报科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108174269A (zh) * | 2017-12-28 | 2018-06-15 | 优酷网络技术(北京)有限公司 | 可视化音频播放方法及装置 |
CN108174269B (zh) * | 2017-12-28 | 2021-02-26 | 阿里巴巴(中国)有限公司 | 可视化音频播放方法及装置 |
CN110534085A (zh) * | 2019-08-29 | 2019-12-03 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN110534085B (zh) * | 2019-08-29 | 2022-02-25 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111741359A (zh) * | 2020-05-28 | 2020-10-02 | 杨伟 | 一种视频转pptx的方法及*** |
Also Published As
Publication number | Publication date |
---|---|
EP3143764A1 (en) | 2017-03-22 |
US20170206929A1 (en) | 2017-07-20 |
US10014029B2 (en) | 2018-07-03 |
WO2016060358A1 (en) | 2016-04-21 |
CN106576151B (zh) | 2021-06-15 |
KR102340196B1 (ko) | 2021-12-16 |
EP3143764A4 (en) | 2017-12-27 |
KR20160044981A (ko) | 2016-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106576151A (zh) | 视频处理装置和方法 | |
TWI259719B (en) | Apparatus and method for reproducing summary | |
CN101645089B (zh) | 图像处理设备、成像装置、图像处理方法 | |
CN101202864B (zh) | 动画再现装置 | |
US9966112B1 (en) | Systems and methods to associate multimedia tags with user comments and generate user modifiable snippets around a tag time for efficient storage and sharing of tagged items | |
US9594957B2 (en) | Apparatus and method for identifying a still image contained in moving image contents | |
KR101268987B1 (ko) | 메타데이터를 자동적으로 생성/갱신하는 멀티미디어 데이터기록 방법 및 장치 | |
KR101440168B1 (ko) | 개요 및 리포트를 이미 포함하는 시청각 도큐먼트의 새로운 개요를 생성하기 위한 방법 및 상기 방법을 구현할 수 있는 수신기 | |
JP3781715B2 (ja) | メタデータ制作装置及び検索装置 | |
KR101486772B1 (ko) | 재생 위치에 따라 디지털 컨텐츠를 관리하는 방법과 장치및 실행하는 방법 및 장치 | |
KR101755238B1 (ko) | 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법 | |
KR101477492B1 (ko) | 동영상 콘텐츠 편집 및 재생을 위한 장치 및 그 방법 | |
JP2006332765A (ja) | コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体 | |
KR101709053B1 (ko) | 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치 | |
JP2007201815A (ja) | 表示装置、再生装置、方法、及びプログラム | |
KR100606516B1 (ko) | 디지털 녹화기에서의 오디오 및 비디오 분리 녹화 및재생장치 및 방법 | |
KR101007645B1 (ko) | 인덱싱 기능을 갖는 데이터 저장 장치 및 인덱싱 방법 | |
JP5065813B2 (ja) | 動画像処理装置及び方法 | |
KR20090078198A (ko) | 스크립트를 기반으로 하는 동영상 부가정보 처리 장치 및방법 | |
JP5299043B2 (ja) | 映像記録再生装置、映像記録再生方法、映像記録再生プログラム | |
JP2009239695A (ja) | コンテンツ再生装置 | |
JP2006108729A5 (zh) | ||
JP2004253050A (ja) | 情報再生装置および情報記録装置 | |
JP2011004197A (ja) | 録画再生装置及び再生方法 | |
JP2006180056A (ja) | 番組録画装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210615 |