CN111918145A - 视频分段方法和视频分段装置 - Google Patents

视频分段方法和视频分段装置 Download PDF

Info

Publication number
CN111918145A
CN111918145A CN201910376477.2A CN201910376477A CN111918145A CN 111918145 A CN111918145 A CN 111918145A CN 201910376477 A CN201910376477 A CN 201910376477A CN 111918145 A CN111918145 A CN 111918145A
Authority
CN
China
Prior art keywords
video
point
information
segmentation
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910376477.2A
Other languages
English (en)
Other versions
CN111918145B (zh
Inventor
苏芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910376477.2A priority Critical patent/CN111918145B/zh
Priority to PCT/CN2020/083397 priority patent/WO2020224362A1/zh
Publication of CN111918145A publication Critical patent/CN111918145A/zh
Application granted granted Critical
Publication of CN111918145B publication Critical patent/CN111918145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供一种视频分段方法和视频分段装置,该方法包括:视频分段装置根据事先上传的用于描述待处理视频内容的内容描述信息和待处理视频中演示的演示文稿中的至少一个和该待处理视频的语音信息,对该待处理视频进行分段。上述技术方案可以结合除待处理视频本身的内容以外的信息,对该待处理视频进行分段,从而可以提高分段的准确性。

Description

视频分段方法和视频分段装置
技术领域
本申请涉及信息技术领域,更具体地,涉及视频分段方法和视频分段装置。
背景技术
为了便于方便地观看视频,可以将一个完整的视频划分为多个分段。这样,用户可以直接观看感兴趣的分段。
目前一种常见的视频分段方法是基于视频中的文字信息对视频分段的。上述视频中的文字信息可以是视频中的字幕,或者是对视频进行语音识别得到的文字。换句话说,目前对视频进行分段的基础都是来自于视频本身。此外,目前这种基于视频中的文字信息视频分段需要获取视频的全部文字信息。直播视频的视频流是实时产生的。因此,只有在视频直播结束之后,才能得到视频的全部文字信息。因此,上述方法并不能对直播视频进行实时分段。此外上述方法只是根据视频的文字信息对视频进行分段。这样可能会造成确定的分段点并不一定是合适的分段点。
发明内容
本申请提供一种视频分段方法和视频分段装置,能够提高视频分段的准确性。
第一方面,本申请实施例提供一种视频分段方法,包括:视频分段装置获取待处理视频的文本信息和该待处理视频的语音信息,其中该文本信息包括该待处理视频中的演示文稿和该待处理视频的内容描述信息中的至少一个;该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点;该视频分段装置根据该分段点,对该待处理视频进行分段。上述技术方案可以结合除待处理视频本身的内容以外的信息,对该待处理视频进行分段,从而可以提高分段的准确性。
结合第一方面,在第一方面的一种可能的实现方式中,在该文本信息包括该演示文稿的情况下,该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点,包括:确定该演示文稿的切换点,该演示文稿在该切换点前后呈现的内容不同;根据该语音信息,确定至少一个停顿点;根据该切换点和该至少一个停顿点,确定该分段点。演示文稿发生切换往往意味着演讲人的演讲的内容发生了变化。因此,上述技术方案通过考虑演示文稿的变化,将待处理视频划分为不用的分段,可以合理地快速确定待处理视频的分段点。另外,上述技术方案在确定待处理视频的分段点时,只需要基于演示文稿的切换点以及切换点附近的停顿点。因此,上述技术方案不需要获取完成的视频文件,就可以对视频进行分段。换句话说,利用上述技术方案可以实时对待处理视频进行分段。因此,上述技术方案可应用于直播视频的分段处理。
结合第一方面,在第一方面的一种可能的实现方式中,该根据该切换点和该至少一个停顿点,确定该分段点,包括:在确定该切换点与该至少一个停顿点中的一个停顿点相同的情况下,确定该切换点为该分段点;在确定该至少一个停顿点中的任一个停顿点与该切换点的均不相同的情况下,确定该至少一个停顿点中距离该切换点最近的一个停顿点为该分段点。
结合第一方面,在第一方面的一种可能的实现方式中,该确定该演示文稿的切换点,包括:确定获取到用于指示切换该演示文稿的内容的切换信号的时刻为该切换点。
结合第一方面,在第一方面的一种可能的实现方式中,该文本信息还包括该内容描述信息,在该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点之前,该方法还包括:确定该演示文稿的当前页的演示时长小于或等于第一预设时长且大于第二预设时长。
结合第一方面,在第一方面的一种可能的实现方式中,在该文本信息包括该内容描述信息的情况下,该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点,包括:根据该语音信息、该内容描述信息的关键词和该语音信息中的停顿点,确定该待处理视频的分段点。内容描述信息是用户提前输入的用于描述待处理视频的信息。内容描述信息通常可以包括待处理视频中的一些关键信息,例如关键词,重点内容等。因此,基于内容描述信息可以更准确地确定待处理视频不同分段中描述的重点内容,从而更准确的对待处理视频进行分段。
结合第一方面,在第一方面的一种可能的实现方式中,该语音信息包括第一语音信息片段和第二语音信息片段,其中该第二语音信息片段是在该第一语音信息片段之前且与该第一语音信息片段相邻的语音信息片段,根据该语音信息、该内容描述信息的关键词和该语音信息中的停顿点,确定该待处理视频的分段点,包括:根据该第一语音信息片段、该第二语音信息片段、该内容描述信息的关键词和该语音信息中的停顿点,确定第一分段点,其中该待处理视频的分段点包括该第一分段点。另外,上述技术方案在确定待处理视频的分段点时,只需要基于内容描述信息的关键词和两个相邻视频片段中的语音信息就可以确定分段点的位置。视频片段的划分可以按照固定时间和步长实现。因此,在视频播放过程中就可以对已播放的视频划分出视频片段。这样,可以不需要获取完成的视频文件,就可以对视频进行分段。换句话说,利用上述技术方案可以实时对待处理视频进行分段。因此,上述技术方案可应用于直播视频的分段处理。
结合第一方面,在第一方面的一种可能的实现方式中,根据该第一语音信息片段、该第二语音信息片段、该内容描述信息的关键词和该语音信息中的停顿点,确定第一分段点,包括:根据该第一语音信息片段的关键词、该第二语音信息片段的关键词、该第一语音信息片段的内容、该第二语音信息片段的内容和该内容描述信息的关键词,确定该第一语音信息片段和该第二语音信息片段的相似度;确定该第一语音信息片段和该第二语音信息片段的相似度小于相似度阈值;根据该语音信息中的停顿点,确定该第一分段点。
结合第一方面,在第一方面的一种可能的实现方式中,该语音信息中的停顿点包括该第一语音信息片段内的停顿点或与该第一语音信息片段相邻的停顿点,根据该语音信息中的停顿点,确定该第一分段点,包括:根据该第一语音信息片段内的停顿点数目、与该第一语音信息片段相邻的停顿点数目、停顿时长以及与停顿点相邻的词中的至少一个,确定该第一分段点。
结合第一方面,在第一方面的一种可能的实现方式中,该第一语音信息片段内的停顿点包括K个,或,与该第一语音信息片段相邻的停顿点包括K个。该根据该第一语音信息片段内的停顿点数目、与该第一语音信息片段相邻的停顿点数目、停顿时长以及与停顿点相邻的词中的至少一个,确定该第一分段点包括:在K等于1的情况下,确定该K个停顿点为该分段点;在K为大于或等于2的正整数且与该K个停顿点相邻的K个词中包括一个预设词的情况下,确定与该一个预设词相邻的停顿点为该分段点;在K为大于或等于2的正整数且该K个词中包括至少两个该预设词的情况下,确定与至少两个该预设词相邻的至少两个停顿点中停顿时长最长的停顿点为该分段点;在K为大于或等于2的正整数且该K个词中不包括该预设词的情况下,确定该K个停顿点中停顿时长最长的停顿点为该分段点。
结合第一方面,在第一方面的一种可能的实现方式中,该文本信息还包括该演示文稿,在该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点之前,该方法还包括:确定该演示文稿的当前页的演示时长大于第一预设时长;或者确定该演示文稿的当前页的演示时长小于或等于第二预设时长。上述技术方案可以避免演示文稿长期不变或者变化非常迅速导致的分段不合适的情况下发生。
结合第一方面,在第一方面的一种可能的实现方式中,该方法还包括:该视频分段装置根据分段语音信息的内容、该分段语音信息的关键词和目标文本的关键词,确定该分段的摘要,其中该目标文本包括该演示文稿和该内容描述信息中的至少一个。基于上述技术方案,用户在回看视频时可以利用摘要快速确定希望回看的位置。此外,上述技术方案在确定摘要的过程中考虑到了待处理视频以外的信息。这样可以提高确定出的摘要的准确性,以及提高确定摘要的速度。
结合第一方面,在第一方面的一种可能的实现方式中,该视频分段装置根据分段语音信息的内容、该分段语音信息的关键词和目标文本的关键词,确定该分段的摘要,包括:根据分段语音信息的内容、该分段语音信息的关键词和目标文本的关键词,确定第三关键词向量;根据该第三关键词向量,确定该分段的摘要。
结合第一方面,在第一方面的一种可能的实现方式中,该视频分段装置根据该第三关键词向量,确定该分段的摘要,包括:根据该目标文本与该分段语音信息,确定参考文本,其中该参考文本包括J个句子,J为大于或等于1的正整数;根据该分段语音信息的关键词、该目标文本的关键词和该J个句子中的每个句子,确定J个关键词向量;根据该第三关键词向量和该J个关键词向量,确定该分段的摘要。
结合第一方面,在第一方面的一种可能的实现方式中,根据该目标文本与该分段语音信息,确定参考文本,包括:在该目标文本中包括冗余的句子的情况下,将该目标文本中的该冗余的句子删除,得到修正目标文本并将该修正目标文本与该分段语音信息合并,得到该参考文本;在该目标文本不包括该冗余的句子的情况下,将该目标文本与该分段语音信息合并,得到该参考文本。
结合第一方面,在第一方面的一种可能的实现方式中,根据该第三关键词向量和该J个关键词向量,确定该分段的摘要,包括:根据该第三关键词向量和该J个关键词向量,确定J个距离,其中该J个距离中的第j个距离是根据该第三关键词向量和该J个关键词向量中的第j个关键词向量确定的,j为大于或等于1且小于或等于J的正整数;确定该J个距离中距离最短的R个距离,R为大于或等于1且小于J的正整数;确定该分段的摘要,其中该分段的摘要包括与该R个距离对应的句子。
结合第一方面,在第一方面的一种可能的实现方式中,待处理视频为实时视频流,该待处理视频的语音信息为该实时视频流从该实时视频流的起始时刻或者上一分段点到当前时刻的语音信息。上述技术方案可以实现对视频的实时分段。换句话说,利用上述技术方案对视频进行分段时,并不需要获取该待处理视频的全部内容。因此,上述技术方案可以实现对直播视频的实时分段。
第二方面,本申请实施例提供一种视频分段装置,该装置包括用于执行第一方面或第一方面的任一种可能的实现方式的单元。
可以选的,第二方面的视频分段装置可以为计算机设备,或者可以为可用于计算机设备的部件(例如芯片或者电路等)。
第三方面,本申请实施例提供一种存储介质,该存储介质存储用于实现第一方面或第一方面的任一种可能的实现方式所述的方法的指令。
第四方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第一方面的任一种可能的实现方式所述的方法。
附图说明
图1是一个可以应用本申请实施例提供的视频分段方法的***的示意图;
图2是另一个可以应用本申请实施例提供的视频分段方法的***的示意图;
图3是根据本申请实施例提供的视频分段方法的示意性流程图;
图4是根据本申请实施例提供的视频会议流程的示意图;
图5是根据本申请实施例提供的视频分段方法的示意性流程图;
图6是根据本申请实施例提供的一种视频分段的方法的示意性流程图;
图7是根据本申请实施例提供的视频分段装置的结构框图;
图8是根据本申请实施例提供的视频分段装置的结构框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下中的至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a、b、c、a-b、a-c、b-c、或a-b-c,其中a、b、c可以是单个,也可以是多个。另外,在本申请的实施例中,“第一”、“第二”等字样并不对数量和执行次序进行限定。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,CD)、数字通用盘(digital versatile disc,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasable programmable read-only memory,EPROM)、卡、棒或钥匙驱动器等)。另外,本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
图1是一个可以应用本申请提供的视频分段方法的***的示意图。图1示出了一个视频会议***,该***中包括会议控制服务器101、会议终端111、会议终端112和会议终端113。会议终端111、会议终端112和会议终端113可以通过会议控制服务器101建立会议。
视频会议通常会包括至少两个会场。每个会场可以通过一个会议终端接入会议控制服务器。该会议终端可以是用于接入视频会议的设备。该会议终端可以用于接收会议数据,并根据该会议数据在显示装置上呈现会议内容。该会议终端可以包括主机和显示装置。该主机可以通过通信接口接收会议数据,根据接收到的会议数据,生成视频信号,并将该视频信号通过有线或者无线的方式输出至该显示装置。该显示装置根据接收到的视频信号,呈现会议内容。可选的,在一些实施例中,该显示装置可以是内置在该主机中的。例如,该会议终端可以是笔记本电脑、平板电脑、智能手机等内置有显示装置的电子设备。可选的,在另一些实施例中,该显示装置可以是外置于主机的显示装置。例如,该主机可以是计算机主机,该显示装置可以是显示器、电视机或者投影仪。又如,即使该主机中内置有显示装置,用于呈现会议内容的显示装置也可以是外置于该主机的显示装置。例如,该主机可以是笔记本电脑,该显示装置可以是外接于该笔记本电脑的显示器、电视机或者投影仪。
在一些情况下,视频会议可能会包括一个主会场和至少一个分会场。在这种情况下,主会场中的会议终端(例如会议终端111)可以将采集到的主会场的媒体流上传至会议控制服务器101。会议控制服务器101可以根据接收到的媒体流,生成会议数据,并将会议数据发送至分会场中的会议终端(例如会议终端112和会议终端113)。会议终端112和会议终端113中可以根据接收到的会议数据在显示装置上呈现会议内容。
在另一些情况下,视频会议中的至少两个会场可能并没有主、次之分。每个会场中的会议终端都可以将采集到的媒体流上传至会议控制服务器101。例如,假设会议终端111是会场1中用于接入视频会议的会议终端,会议终端112是会场2中用于接入视频会议的会议终端,会议终端的113是会场3中用于接入视频会议的会议终端。会议终端111可以将采集到的会场1的媒体流上传至会议控制服务器101,会议控制服务器101可以根据会场1的媒体流生成会议数据1,并将该会议数据1发送至会议终端112和会议终端113,会议终端112和会议终端113可以根据接收到的会议数据1在显示装置上呈现会议内容。类似的,会议终端112也可以将采集到的会场2的媒体流上传至会议控制服务器,会议控制服务器101可以根据会场2的媒体流生成会议数据2,并将该会议数据2发送至会议终端111和会议终端113,会议终端111和会议终端113可以根据接收到的会议数据2在显示装置上呈现会议内容;会议终端113也可以将采集到的会场3的媒体流上传至会议控制服务器,会议控制服务器101可以根据会场3的媒体流生成会议数据3,并将该会议数据3发送至会议终端111和会议终端112,会议终端111和会议终端112可以根据接收到的会议数据3在显示装置上呈现会议内容。
可选的,在一些实施例中,该媒体流可以是音频流。可选的,在另一些实施例中,该媒体流可以是视频流。负责采集媒体流的媒体设备可以是内置在会议终端内的(例如会议终端内的摄像头和麦克风),也可以是外接于该会议终端的,本申请实施例对此并不限定。
可选的,在一些实施例中,会议的发言人在发言过程中使用演示文稿。在此情况下,该媒体流可以是该发言人发言的音频流。该发言人在发言过程中使用的演示文稿可以通过辅流(也可以称为数据流、计算机屏幕流)上传至会议控制服务器101。会议控制服务器101根据接收到的音频流和辅流,生成会议数据。可选的,在一些可能的实现方式中,该会议数据可以包括接收到的音频流和辅流。可选的,在另一些可能的实现方式中,该会议数据可以包括对接收到的音频流进行处理后得到的处理后的音频流以及该辅流。对接收到的音频流进行处理可以是对接收到的音频流进行转码操作,例如可以降低该音频流的码率,以便减少向其他会议终端传输该音频流所需的数据量。可选的,在另一些可能的实现方式中,该会议数据可以包括接收到的音频流、与接收到的音频流码率不同的音频流以及该辅流。这样,会议终端可以根据网络状况和/或接入会议的方式选择合适的音频流。例如,若会议终端的网络状况较好或者利用Wi-Fi接入会议,则可以选择码率较高的音频流,这样可以收听到更清晰的声音。又如,若会议终端的网络状况较差,则可以选择码率较低的音频流,这样可以减少因网络状况不好导致的会议直播中断的情况发生。又如,若会议终端利用移动网络接入会议,则可以选择码率较低的音频流,这样可以减少流量的消耗。可选的,在另一些可能的实现方式中,该会议数据中除了包括至少一种码率的音频流以及辅流外,还可以包括对应于发言人发言的字幕。该字幕可以是基于语音识别技术,将发言人的发言进行语音-文字转换生成的,也可以是人工记录的发言人的发言,或者,也可以是在语音-文字转换的基础上结合人工修改生成的。
可选的,在另一些实施例中,该媒体流可以是发言人在发言过程中的视频流。换句话说,该媒体流中可以同时包括发言人在发言过程中的声音信息和画面信息。相应的,上传至会议控制服务器101的媒体流是该视频流。在一些情况下,假设该发言人在发言过程中使用了演示文稿,并且使用输出装置(例如投影仪、电视机等)展示演示文稿。该媒体流中的画面信息中包括该发言人展示的演示文稿。因此,上传至会议控制服务器101的视频流中包括该演示文稿。在此情况下,会议控制服务器101可以直接根据该视频流确定会议数据。在另一些情况下,发言人在发言过程中使用的演示文稿可以通过辅流的方式上传至会议控制服务器101。会议控制服务器101可以根据采集到的视频流和该辅流,生成会议数据。可选的,在一些可能的实现方式中,该会议数据可以包括采集到的视频流和辅流。可选的,在另一些可能的实现方式中,该会议数据可以包括对采集到的视频流进行处理后得到的处理后的视频以及该辅流。对采集到的视频流进行处理可以是对采集到的视频流进行转码操作,例如可以降低该视频流的分辨率,以便减少向其他会议终端传输该视频流所需的数据量。可选的,在另一些可能的实现方式中,该会议数据可以包括采集到的视频流、与采集到的视频流的分辨率不同的视频流以及该辅流。这样,会议终端可以根据网络状况和/或接入会议的方式选择合适的视频流。例如,若会议终端的网络状况较好或者利用Wi-Fi接入会议,则可以选择分辨率较高的视频流,这样可以使得观众看到更清晰的画面。又如,若会议终端的网络状况较差,则可以选择分辨率较低的视频流,这样可以减少因网络状况不好导致的会议直播中断的情况发生。又如,若会议终端利用移动网络接入会议,则可以选择分辨率较低的视频流,这样可以减少流量的消耗。可选的,在另一些可能的实现方式中,该会议数据中除了包括至少一种分辨率的视频流以及辅流外,还可以包括对应于发言人发言的字幕。该字幕可以是基于语音识别技术,将发言人的发言进行语音-文字转换生成的,也可以是人工记录的发言人的发言,或者,也可以是在语音-文字转换的基础上结合人工修改生成的。
图2是另一个可以应用本申请提供的视频分段方法的***的示意图。图2示出了一个远程教育***,该***中包括课程服务器201、主设备211、客户端设备212和客户端设备213。
主设备211可以将采集到的媒体流上传至课程服务器201。课程服务器201可以根据该媒体流生成课程数据,并将该课程数据发送至客户端设备212和客户端设备213,客户端设备212和客户端设备213可以根据接收到的课程数据在显示装置上呈现课程内容。
主设备211可以是一个笔记本电脑、台式计算机。客户端设备212和客户端设备213可以是笔记本电脑、台式计算机、平板电脑、智能手机等。
可选的,在一些实施例中,负责讲课的老师在讲课过程中使用演示文稿。在此情况下,该媒体流可以是该老师讲课的音频流。该老师在讲课过程中使用的演示文稿可以通过辅流上传至课程服务器201。课程服务器201根据接收到的音频流和辅流,生成课程数据。
可选的,在另一些实施例中,该媒体流可以是老师在讲课过程中的视频流。换句话说,该媒体流中可以同时包括该老师在讲课过程中的声音信息和画面信息。相应的,上传至课程服务器201的媒体流是该视频流。在一些情况下,假设该老师在讲课过程中使用了演示文稿,并且使用输出装置(例如投影仪、电视机等)展示演示文稿。该媒体流中的画面信息中包括该老师展示的演示文稿。因此,上传至课程服务器201的视频流中包括该演示文稿。在此情况下,课程服务器201可以直接根据该视频流确定课程数据。在另一些情况下,该老师在讲课过程中使用的演示文稿可以通过辅流的方式上传至课程服务器201。课程服务器201可以根据采集到的视频流和该辅流,生成课程数据。
课程数据的具体内容与会议数据的具体内容相似,为了简洁,就不再赘述。
图3是根据本申请实施例提供的视频分段方法的示意性流程图。图3所示的方法可以由视频分段装置执行。该视频分段装置可以是能够实现本申请实施例提供的方法的计算机设备,例如个人计算机、笔记本电脑、平板电脑、服务器等,也可以是能够实现本申请实施例提供的方法的设置在计算机设备内部的硬件,例如显卡、图形处理器(GraphicsProcessing Unit,GPU),或者,也可以是一个用于实现本申请实施例提供的方法的专用装置。例如,在一些实施例中,该视频分段装置可以是如图1所示***中的会议控制服务器101或者设置在会议控制服务器101中的一个硬件。又如,在另一些实施例中,该视频分段装置可以是如图1所示的***中的上传媒体流的会议终端或者该会议终端中的一个硬件。又如,在另一些实施例中,该视频分段装置可以是如图2所示的***中的主设备211或者设置在主设备211中的一个硬件。又如,在另一些实施例中,该视频分段装置可以是如图2所示实施例中的课程服务器201或者课程服务器201中的一个硬件。
为了便于描述,假设图3所示的方法是应用在如图1所示的***中。
301,视频分段装置获取待处理视频的文本信息和该待处理视频的语音信息,其中该文本信息包括该待处理视频中的演示文稿和该待处理视频的内容描述信息中的至少一个。
该演示文稿是指会议的发言人在发言过程中演示的文稿。本申请实施例对演示文稿的文件格式并不限定,只要该是在发言人的发言过程中通过显示装置展示的文稿都可以是该演示文稿。例如,该演示文稿可以是ppt格式或者pptx格式的文稿。又如,该演示文稿可以是PDF格式的文稿。又如,该演示文稿也可以是word格式或者txt格式的文稿。
该内容描述信息是会议的发言人或者会议的主持人在开始进行会议之前上传的用于描述发言内容的信息。可选的,在一些实施例中,该内容描述信息中包括该发言人在视频会议中的发言内容的提纲、摘要和/或关键信息。例如,该内容描述信息中可以包括该发言人的发言内容的关键词。又如,该内容描述信息中可以包括该发言人的发言内容的摘要。又如,该发言人的发言内容可以包括多个部分,该内容描述信息中可以包括该多个部分中的每个部分的主题、摘要和/或关键词。
该语音信息可以包括对该发言人的发言进行语音-文字转换得到对应的文字。本申请实施例对语音-文字转换的具体实现方式并不限定,只要能够将识别到的语音转换为对应的文字即可。该语音信息还可以包括对该发言人的发言进行语音识别得到的至少一个停顿点。停顿点表示说话者在说话过程中的自然停顿。
302,该视频分段装置根据该文本信息和该语音信息,确定该待处理视频的分段点。
如上所述,该文本信息可以包括该演示文稿和该内容描述信息中的至少一个。换句话说,该文本信息可以存在以下三种情况:
情况1:该文本信息中只包括该演示文稿;
情况2:该文本信息中只包括该内容描述信息;
情况3:该文本信息中包括该演示文稿和该内容描述信息。
换句话说,在一些情况下,该发言人可以仅在发言过程中展示该演示文稿,而并不会提前上传该内容描述信息。因此可能出现上述情况1。在另一些情况下,该发言人可以仅提前上传该内容描述信息,而并不会在发言过程中展示演示文稿。因此,可能出现上述情况2。在另一些情况下,该发言人可以即在发言过程中展示该演示文稿,也会提前上传该内容描述信息。因此,可能书写上述情况3。
对于上述情况1,该视频分段装置可以根据该演示文稿,确定该待处理视频的分段点。
对于上述情况2,该视频分段装置可以根据该内容描述信息,确定该待处理视频的分段点。
可选的,在一些实施例中,对于上述情况3,该视频分段装置可以根据该演示文稿和该内容描述信息中的一个,确定该待处理视频的分段点。换句话说,在该文本信息中包括该演示文稿和该内容描述信息的情况下,该视频分段装置可以根据该演示文稿或该内容描述信息,确定该待处理视频的分段点。
可选的,在一些实施例中,在该文本信息包括该演示文稿和该内容描述信息的情况下,该视频分段装置可以确定该演示文稿的当前页的演示时长,并根据该演示文稿的当前页的演示时长,确定是根据该演示文稿确定待处理视频的分段点,还是根据该内容描述信息确定该待处理视频的分段点。
可选的,在一些实施例中,该视频分段装置可以在该演示文稿的当前页的演示时大于第一预设时长的情况下,根据该内容描述信息和该语音信息,确定该待处理视频的分段点。这样,可以避免因发言人长时间演示相同的内容导致的视频的一个分段过长的情况发生。该第一预设时长可以根据需要设定。例如,该第一预设时长可以是10分钟。又如,该第一预设时长可以为15分钟。
可选的,在一些实施例中,该视频分段装置可以在该演示文稿的当前页的演示时长小于或等于第二预设时长的情况下,根据该内容描述信息和该语音信息,确定该待处理视频的分段点。这样,可以避免因发言人频繁地切换演示文稿的显示内容导致的视频的一个分段过短的情况发生。与该第一预设时长类似,该第二预设时长可以根据需要设定。例如,该第二预设时长可以为20秒。又如,该第二预设时长可以为10秒。
第一预设时长大于第二预设时长。
可选的,在一些实施例中,该视频分段装置可以在该演示文稿的当前页的演示时长大于该第二预设时长且小于或等于该第一预设时长的情况下,根据该演示文稿和该语音信息,确定该待处理视频的分段点。
可选的,在另一些实施例中,也可以只设置该第一预设时长。若该演示文稿在当前页的演示时长大于该第一预设时长,则根据该内容描述信息和该语音信息,确定该待处理视频的分段点。若该演示文稿在当前页的演示时长不大于该第一预设时长的情况下,则可以根据该演示文稿和该语音信息,确定该待处理视频的分段点。该演示文稿的当前页的演示时长是该演示文稿停留在当前页的时长。
可选的,在一些实施例中,该演示文稿的当前页的演示时长的起始时刻是演示文稿切换到当前页的时刻,该演示文稿的当前页的演示时长的结束时刻是演示文稿从当前页切换到其他页的时刻。
例如,若演示文稿在T1时刻切换到第n页(n为大于或等于1的正整数),则该视频分段装置可以从T1时刻开始计时。若在计时时长超过该第一预设时长的情况下,该演示文稿还未切换到第n+1页,则该视频分段装置可以根据该内容描述信息和该语音信息,确定该待处理视频的分段点。若在T2时刻(T2大于T1)该演示文稿切换到第n+1页,且从T1时刻到T2时刻的时长小于或等于该第二预设时长,则该视频分段装置可以根据该内容描述信息和该语音信息,确定该待处理视频的分段点。若从T1时刻到T2时刻的时长小于或等于该第一预设时长并且大于该第二预设时长,则该视频分段装置可以根据该演示文稿和该语音信息,确定该待处理视频的分段点。更具体地,该视频分段装置可以根据第n页的演示文稿和该语音信息,确定该待处理视频的分段点。
可选的,在另一些实施例中,该演示文稿的当前页的演示时长的起始时刻可以是上一分段点,该演示文稿的当前页的演示时长的结束时刻是演示文稿从当前页切换到其他页的时刻。
例如,假设演示文稿在T3时刻切换到第n页(n为大于或等于1的正整数),且该演示文稿在第n页的停留时长大于该第一预设时长。在此情况下,该视频分段装置根据该内容描述信息和该语音信息,确定该待处理视频的一个分段点为T4时刻。该视频分段装置可以从T4时刻开始计时。若在计时时长超过该第一预设时长的情况下,该演示文稿还未切换到第n+1页,则该视频分段装置可以根据该内容描述信息和该语音信息,确定该待处理视频的分段点。若在T5时刻(T5大于T4)该演示文稿切换到第n+1页,且从T4时刻到T5时刻的时长不大于该第一预设时长并大于该第二预设时长,则该视频分段装置可以根据该演示文稿和该语音信息,确定该待处理视频的分段点。更具体地,该视频分段装置可以根据第n页的演示文稿和该语音信息,确定该待处理视频的分段点。
可选的,在另一些实施例中,在该文本信息包括该演示文稿和该内容描述信息的情况下,该视频分段装置可以根据该演示文稿和该语音信息,确定该待处理视频的分段点。换句话说,即使文本信息同时包括该演示文稿和该内容描述信息,该视频分段装置也可以只参考该演示文稿和该语音信息(即不会使用该内容描述信息),确定该待处理视频的分段点。
可选的,在另一些实施例中,在该文本信息包括该演示文稿和该内容描述信息的情况下,该视频分段装置可以根据该内容描述信息和该语音信息,确定该待处理视频的分段点。换句话说,即使文本信息同时包括该演示文稿和该内容描述信息,该视频分段装置也可以只参考该内容描述信息和该语音信息(即不会使用该演示文稿),确定该待处理视频的分段点。
该视频分段装置根据该演示文稿和该语音信息,确定该待处理视频的分段点可以包括:该视频分段装置确定该演示文稿的切换点,该演示文稿在该切换点前后呈现的内容不同;该视频分段装置根据该语音信息,确定至少一个停顿点;该视频分段装置根据该切换点和该至少一个停顿点,确定该分段点。
演示文稿的切换点是指演示文稿发生切换的时刻。演示文稿发生切换可以是指演示文稿翻页。例如从第1页切换到第2页。演示文稿发生切换也可以是指在没有翻页的情况下,演示文稿的内容发生变化。例如,在演示文稿是文本文档的情况下,发言人可能仅展示该演示文稿的某一页的一部分(例如上半部分),然后滚动到该页的剩余部分(例如下半部分)。虽然此时演示文稿并非翻页,但是演示文稿中的内容发生了变化。
可选的,在一些实施例中,该视频分段装置可以获取到用于指示切换该演示文稿的内容的切换信号。在此情况下,该视频分段装置可以确定获取到该切换信号的时刻为该切换点。
可选的,在一些实施例中,该视频分段装置可以获取到该演示文稿的内容。在此情况下,该视频分段装置可以根据该演示文稿的内容的变化来确定该切换点。例如,该视频分段装置可以在确定该待处理视频在第一时刻所呈现的演示文稿的内容与在第二时刻所呈现的演示文稿的内容不同的情况下,确定该第一时刻为该切换点。可选的,在一些实施例中,该第一时刻与该第二时刻是相邻的时刻,且该第一时刻在该第二时刻之前。可选的,在另一些实施例中,该第一时刻在该第二时刻之前且该第一时刻与该第二时刻间隔时长少于一个预设时长。换句话说,在此情况下,该视频分段装置可以每隔一段时长检测一下演示文稿呈现的内容是否发生变化。
可选的,在一些实施例中,该视频分段装置可以结合获取到用于指示切换该演示文稿的内容的切换信号和该演示文稿所呈现的内容,确定该切换点。例如,该视频分段装置在T1时刻获取到该切换信号。该视频分段装置可以获取该演示文稿在T1时刻的前F1帧呈现的内容以及T1时刻之后的F2帧呈现的内容,F1和F2为大于或等于1的正整数。可选的,在一些实施例中,F1和F2可以取较小的值,例如F1和F2可以等于2。这样可以减少计算量。如果该演示文稿在F1帧和F2帧中的连续两帧呈现的内容不同,则可以确定该演示文稿呈现内容发生变化的帧所在的时刻为该切换点。例如假设F1和F2的值均为2。若该演示文稿在四帧中的第2帧和第3帧呈现的内容不同,则可以确定第2帧所在的时刻为该切换点。利用切换信号和该演示文稿呈现的内容确定切换点,可以避免切换信号和演示文稿的画面切换不同步导致的确定出的切换点不准确的情况发生。
可选的,在一些实施例中,该视频分段装置可以根据以下方式确定演示文稿在不同时刻(或者不同帧)呈现的内容是否相同:该视频分段装置比较该演示文稿在不同时刻(或者不同帧)在相同位置的像素值的变化超过预设变化值的个数P,若P大于第一预设阈值P1,则该视频分段装置该演示文稿呈现的内容发生了变化。可选的,在一些实施例中,像素值的变化可以通过计算像素灰度值的差值的绝对值确定。可选的,在另一些实施例中,像素值的变化可以通过计算三个色彩通道中的差值的绝对值的和确定。
可选的,在一些实施例中,若P大于第二预设阈值P2(P2小于P1),则该视频分段装置可以根据在后的演示文稿,确定关键词。例如,该视频分段装置确定T1时刻的演示文稿和T2时刻的演示文稿(T2时刻晚于T1时刻)在相同位置的像素值的变化超过该预设变化值的个数大于P2且小于P1。在此情况下,该视频分段装置可以根据T2时刻的演示文稿确定关键词。
如上所述,该语音信息中还可以包括至少一个停顿点。可选的,在一些实施例中,用于确定分段点的至少一个停顿点可以是从起始时刻到当前时刻的全部停顿点。若步骤302确定的分段点是该待处理视频的第一个分段点,则该起始时刻是该待处理视频的起始时刻。若步骤302确定的分段点是该待处理视频的第k个分段点(k为大于或等于2的正整数),则该起始时刻是第k-1个分段点所在的时刻。可选的,在另一些实施例中,该视频分段装置还可以根据切换点所在的时刻,确定一个时间范围内的停顿点,该切换点在这个时间范围内。例如,若该切换点位于T1时刻,则该视频分段装置可以确定出T1-t到T1+t时刻的停顿点。
该视频分段装置在确定该切换点与至少一个停顿点中的一个停顿点相同的情况下,确定该切换点为该分段点。该视频分段装置在确定该切换点与该至少一个停顿点中的任一个停顿点均不相同的情况下,确定该至少一个停顿点中距离该切换点最近的一个停顿点为该分段点。停顿点与切换点的距离是指停顿点与切换点的时间差。例如,假设该切换点位于T1时刻,该至少一个停顿点中的一个停顿点位于T2时刻,T2与T1的差为t。假设该至少一个停顿点中除该T2时刻停顿点外的停顿点到T1时刻的差均大于t,则该T2时刻的停顿点为该分段点。若该至少一个停顿点中有两个停顿点到该切换点的距离相同且小于除该两个停顿点外的其他停顿点到该切换点的距离,则可以确定该两个停顿点中的任一个停顿点为该切换点。
该视频分段装置根据该内容描述信息和该语音信息,确定该待处理视频的分段点可以包括:该视频分段装置根据该语音信息、该内容描述信息的关键词和该语音信息中的停顿点,确定该待处理视频的分段点。
可选的,在一些可能的实现方式中,该待处理视频中可以被划分为多个语音信息片段。第一语音信息片段和第二语音信息片段是该多个语音信息片段中的两个连续的语音信息片段。该第一语音信息片段在该第二语音信息片段之后。该视频分段装置可以根据该第一语音信息片段、该第二语音信息片段、该内容描述信息的关键词和该语音信息中的停顿点,确定第一分段点,该第一分段点是该待处理视频包括的至少一个分段点中的一个。
该视频分段装置可以以窗口长度W和步长S,在该语音信息上截取文字段。该视频分段装置可以截取出至少一个长度为W的文字段。每个长度为W的文字段就是一个语音信息片段。
该视频分段装置可以确定第一语音信息片段是否与第二语音信息片段相似。如果该第一语音信息片段与该第二语音信息片段不相似,则可以确定该待处理视频的一个分段点在该第一语音信息片段附近。如果该第二语音信息片段与该第一语音信息片段相似,则继续确定与该第一语音信息片段相邻且位于该第一语音信息片段之后的第三语音信息片段与该第一语音信息片段是否相似。
相似度可以作为用于衡量第一语音信息片段与第二语音信息片段是否相似的一个标准。若该第一语音信息片段和该第二语音信息片段的相似度大于或等于一个相似度阈值,则可以认为第一语音信息片段与第二语音信息片段相似;若该第一语音信息片段和该第二语音信息片段的相似度小于该相似度阈值,则可以认为该第一语音信息片段与该第二语音信息片段不相似。
可选的,在一些可能的实现方式中,该视频分段装置可以根据该第一语音信息片段的关键词、该第二语音信息片段的关键词、该第一语音信息片段的内容、该第二语音信息片段的内容和该内容描述信息的关键词,确定该第一语音信息片段和该第二语音信息片段的相似度。
该视频分段装置可以确定该第一语音信息片段的关键词。假设从该第一语音信息片段中确定出的关键词数目为N,从该内容描述信息中确定的关键词数目为M,该M个关键词和该N个关键词中没有重复的关键词。
该视频分段装置可以根据以下方式确定关键词:
步骤1,根据预先设置的停用词表或者根据文本中的每个词的词性,去掉不代表实际意义的词,例如“的”、“这个”、“然后”等。停用词(Stop Words)是人工输入的,非自动化生成的一些字或词。这些词不表示实际意义,在处理自然语言数据之前或之后会被过滤掉。由停用词组成的停用词集合可以称为停用词表。
步骤2,统计剩余的词中的每个词在文本中出现的频率。每个词在文本中出现的频率可以根据以下公式确定:
TF(n)=N(n)/All_N,公式1.1
其中,TF(n)表示经过了步骤1后,该文本的剩余的词中的第n个词在该文本中出现的频率,N(n)表示该第n个词出现的次数,All_N表示剩余的词的总数目。
步骤3,确定出现频率最高的至少一个词为该文本的关键词。
例如若该文本是内容描述信息,则可以确定出现频率最高的M个词为该内容描述信息的关键词,其中M为大于或等于1的正整数。若该文本是该第一语音信息片段,则可以确定出现频率最高的N个词为该第一语音信息片段的关键词,N为大于或等于1的正整数。若确定出该第一语音信息片段中出现频率该N个词中的一个或多个词与该内容描述信息的关键词相同,则该N个词中删除重复的词,选择后面的词作为该第一语音信息片段的关键词。例如,假设N等于2,M等于1,该内容描述信息的关键词包括“学生”。假设确定出的该第一语音信息片段中出现频率最高的词为“学生”,那么继续确定出现频率第二高的词。若出现频率第二高的词为“学校”,则可以确定“学校”是该第一语音信息片段的一个关键词,继续确定出现频率第三高的词。假设出现频率第三高的词为“课程”,则可以确定“课程”是该第一语音信息片段的另一个关键词。若该文本是该第二语音信息片段,则可以确定出现频率最高的N个词为该第二语音信息片段的关键词,N为大于或等于1的正整数。若确定出该第二语音信息片段中出现频率该N个词中的一个或多个词与该内容描述信息的关键词相同,则该N个词中删除重复的词,选择后面的词作为该第二语音信息片段的关键词。
可选的,在一些实施例中,该视频分段装置可以根据该第一语音信息片段的关键词、该内容描述信息的关键词和该第一语音信息片段的内容,确定第一关键词向量。具体地,该视频分段装置可以确定该第一语音信息片段的关键词、该内容描述信息的关键词在该第一语音信息片段的内容中出现的频率,该频率就是该第一关键词向量。语音信息片段的内容是指语音信息片段中包括的全部词。例如,假设该内容描述信息的关键词为“学生”,该第一语音信息片段的关键词为“课程”和“学校”。假设上述三个关键词在该第一语音信息片段中出现的频率为分别为0.1,0.2和0.3,则该第一关键词向量为(0.3,0.2,0.1)。
类似的,该视频分段装置也可以根据该第二语音信息片段的关键词、该内容描述信息的关键词和该第二语音信息片段的内容,确定第二关键词向量。具体地,该视频分段装置可以确定该第二语音信息片段的关键词、该内容描述信息的关键词在该第二语音信息片段的内容中出现的频率,该频率就是该第二关键词向量。例如,假设该内容描述信息的关键词为“学生”,该第一语音信息片段的关键词为“早餐”和“营养”。假设上述三个关键词在该第二语音信息片段中出现的频率为分别为0.3,0.25和0.05,则该第二关键词向量为(0.3,0.25,0.05)。
该视频分段装置根据该第一关键词向量和该第二关键词向量确定的距离,若该距离大于预设距离,则可以认为该第一语音信息片段和该第二语音信息片段的相似度小于相似度阈值。在此情况下,该视频分段装置根据该第一语音信息片段确定该分段点。
该视频分段装置可以根据以下方式根据该第一关键词向量和该第二关键词向量的确定一个距离:
步骤1,将该第一关键词向量扩展为第一向量,将该第二关键词向量扩展为第二向量,其中该第一向量对应的关键词和该第二向量对应的关键词包括该第一语音信息片段的关键词、该第二语音信息片段的关键词和该内容描述信息的关键词,且该第一向量对应的关键词中没有重复的关键词、该第二向量对应的关键词中没有重复的关键词。
例如,假设该第一关键词向量为(0.3,0.2,0.1),对应的关键词为“学校”、“课程”和“学生”,假设该第二关键词向量为(0.3,0.25,0.05),对应的关键词为“学生”、“早餐”和“营养”。在此情况下,该第一向量为(0.3,0.1,0,0.2,0),对应的关键词为“学校”、“学生”、“早餐”、“课程”、“营养”,该第二向量为(0,0.3,0.25,0,0.05),对应的关键词为“学校”、“学生”、“早餐”、“课程”、“营养”。
步骤2,计算该第一向量和该第二向量之间的距离。该第一向量和该第二向量之间的距离就是根据该第一关键词向量和该第二关键词向量确定的距离。
可选的,在一些实施例中,该第一向量和该第二向量之间的距离可以是欧氏距离。由于前后两个语音信息片段中相同的关键词可能会很少。因此如果该第一向量和该第二向量之间的距离是余弦距离,则计算结果中可能会出现很多的0值。因此,选择欧氏距离作为该第一向量和该第二向量之间的距离可能更合适。
可选的,在另一些实施例中,该第一向量和该第二向量之间的距离可以是余弦距离。
除了利用两个相邻语音信息片段的词频向量来确定两个语音信息片段是否相似外,也可以利用其他方式确定两个语音信息片段是否相似。
例如,第一关键词向量和第二关键词向量也可以是词频-逆文档频率、二值词频等。确定该第一关键词向量和该第二关键词向量的距离可以是确定该第一关键词向量和该第二关键词向量的n-范数距离(n为大于或等于1的正整数),确定该第一关键词向量和该第二关键词向量的相对熵距离。
还以上述第一向量(即(0.3,0.1,0,0.2,0))和第二向量(即(0,0.3,0.25,0,0.05))为例,可以对该第一向量和该第二向量进行2值化处理。2值化处理后的第一向量为(1,1,0,1,0),2值化处理后的第二向量为(0,1,1,0,1)。然后计算1-范数距离,得到第一语音信息片段的关键词和第二语音信息片段的关键词的重复度。关键词的重复度可以认为是一种距离的特殊形式。可以利用关键词的重复度确定第一语音信息片段和该第二语音信息片段是否相似。若该关键词的重复度大于或等于一个预设重复度,则可以认为该第一语音信息片段和该第二语音信息片段相似;若关键词的重复度小于该预设重复度,则可以认为该第一语音信息片段和该第二语音信息片段不相似。可以看出在此情况下该预设重复度可以认为是相似度阈值。
可选的,在另一些实施例中,关键词的提取也可以根据词频-逆文档频率来确定。词频可以基于公式1.1确定。逆文档频率可以根据以下公式确定:
IDF(n)=log(Num_Doc/(Doc(n)+1),公式1.2
其中IDF(n)表示第n个词的逆文档频率,Num_Doc表示语料库中文档总数,Doc(n)表示语料库中包含第n个词的文档数。
词频-逆文档频率可以根据以下公式确定:
TF-IDF(n)=TF(n)×IDF(n),公式1.3
其中TF-IDF(n)表示第n个词的词频-逆文档频率。如果关键词是根据词频-逆文档频率确定的,则第一关键词向量是由关键词的词频-逆文档频率组成。
在根据词频-逆文档频率确定关键词时,可以不需要先将无意义的词去除。
可选的,在另一些实施例中,关键词的提取也可以基于词图的文本排名(TextRank)方法。如果关键词是根据基于词图的TextRank确定的,则第一关键词向量可以由词的权值组成。
在该第一语音信息片段和该第二语音信息片段不相似的情况下,该视频分段装置可以根据该第一语音信息片段,确定该分段点。
该视频分段装置可以先确定该第一语音信息片段中是否包括停顿点。如果该第一语音信息片段中包括一个停顿点,则可以确定该停顿点是该分段点。如果该第一语音信息片段中包括多个停顿点,则可以确定该多个停顿点中的每个停顿点后的词是否是预设词。该预设词包括有分段意义的连词,例如“接下来”、“下面”、“下一点”等。停顿点后的词是指位于停顿点后的与停顿点相邻的词。如果该多个停顿点中的只有一个停顿点后的词是预设词,则可以确定该停顿点是分段点。如果该多个停顿点中有至少两个停顿点后面的词是预设词,则可以确定该至少两个停顿点中停顿时长的停顿点为该分段点。如果该多个停顿点后面的词都不是该预设词,则可以确定该多个停顿点中停顿时长最长的停顿点为该分段点。如果该第一语音信息片段中没有包括停顿点,则可以根据与该第一语音片段相邻的停顿点确定该分段点。可以理解,与该第一语音片段相邻的停顿点可以有两个,一个位于该第一语音片段之前,另一个位于该第一语音片段之后。该视频分段装置可以根据这两个停顿点到该第一语音信息片段之间的距离,确定该分段点。若停顿点在该第一语音信息片段之前,则该停顿点到该第一语音信息片段之间的距离可以是该停顿点到该第一语音信息片段的起始位置之间的字数或者时间差。若该停顿点在该第一语音信息片段之后,则该停顿点到该第一语音信息片段之间的距离可以是该停顿点到该第一语音信息片段的结束位置之间的字数或者时间差。为便于描述,以下将位于该第一语音信息片段之前的与该第一语音信息片段相邻的停顿点称为前停顿点,该前停顿点到该第一语音信息片段之间的距离称为距离1;将位于该第一语音片段之后的与该第一语音片段相邻的停顿点称为后停顿点,该后停顿点到该第一语音信息片段之前的距离称为距离2。若距离1小于距离2,则可以确定该前停顿点为该分段点;若距离1大于距离2,则可以确定该后停顿点为该分段点。若距离1等于距离2,则可以确定前停顿点后的词(以下简称词1)和后停顿点后的词(以下简称词2);若词1为该预设词且词2不是该预设词,则确定该前停顿点为该分段点;若词1不是该预设词且词2是该预设词,则确定该后停顿点为该分段点;若词1和词2均为该预设词或者均不是该预设词,则可以确定该前停顿点和该后停顿点中停顿时间最长的一个为该分段点。
如上所述,停顿点是说话者的自然的停顿。因此,该停顿点是有一定时长的。可选的,在一些实施例中,若确定停顿点是分段点,可以确定停顿点的中间时刻为该分段点。可选的,在另一些实施例中,若确定停顿点是分段点,可以确定停顿点的结束时刻为该分段点。可选的,在另一些实施例中,若确定停顿点是分段点,可以确定停顿点的起始时刻为该分段点。
303,该视频分段装置根据该分段点,对该待处理视频进行分段。
若该分段点是该待处理视频的第一个分段点,则该分段的起始时刻是该待处理视频的起始时刻,该分段的结束时刻是该分段点。若该分段点是该待处理视频的第k个分段(k为大于或等于2的正整数),则该分段的起始时刻是第k-1个分段点,该分段的结束时刻是该分段点。
在确定了分段后,该视频分段装置还可以确定该分段的摘要。
304,该视频分段装置可以根据分段语音信息的内容、该分段语音信息的关键词和目标文本的关键词,确定该分段的摘要。该目标文本包括该演示文稿和该内容描述信息中的至少一个。
可选的,在一些实施例中,该视频分段装置可以先确定第三关键词向量,然后根据该第三关键词向量确定该分段的摘要。
该视频分段装置可以根据分段语音信息的内容、该分段语音信息的关键词和该目标文本的关键词,确定第三关键词向量,其中该分段语音信息的内容是指组成该分段的语音信息的全部句子。
可以理解的是,若该文本信息中只包括该演示文稿,则该目标文本包括该演示文稿;若该文本信息中只包括该内容描述信息,则该目标文本包括该内容描述信息;若该文本信息中包括该演示文稿和该内容描述信息,则该目标文本包括该演示文稿和该内容描述信息。
该视频分段装置确定该分段语音信息的关键词的实现方式、该视频分段装置确定该目标文本的关键词的实现方式与该视频分段装置确定该第一语音信息分段的关键词的实现方式类似。
可选的,在一些实施例中,若该视频分段装置比较该演示文稿在不同时刻(或者不同帧)在相同位置的像素值的变化超过预设变化值的个数P大于第二预设阈值P2(P2小于P1),则该视频分段装置可以根据在后的演示文稿,确定该目标文本的关键词。例如,该视频分段装置确定T1时刻的演示文稿和T2时刻的演示文稿(T2时刻晚于T1时刻)在相同位置的像素值的变化超过该预设变化值的个数大于P2且小于P1。在此情况下,该视频分段装置可以根据T2时刻的演示文稿确定该目标文本的关键词。
例如,假设从该演示文稿确定出的关键词数目为L,从该内容描述信息中确定的关键词数目为M,从该分段语音信息中确定的关键词数目为Q,该L个关键词、该M个关键词和该Q个关键词中没有重复的关键词。
具体地,该视频分段装置可以先从该内容描述信息中确定M个关键词,然后确定该演示文稿中出现频率最高的L个词。如果该L个词中的一个或多个词也属于该M个关键词,则将该一个或多个词从该L个词中删除,然后继续从该演示文稿中确定出现频率次高的词,直到确定出的L个关键词和该M个关键词没有交集。在此之后,该视频分段装置从该分段语音信息中确定出Q个词。如果该Q个词中的一个或多个词属于该M个关键词或该L个关键词,则将该一个或多个词从该Q个词中删除,然后继续从该分段语音信息中确定出现频率次高的词,直到确定出的Q个关键词与L个关键词和M个关键词都没有交集。
该第三关键词向量包括该Q个关键词、该L个关键词和该M个关键词在该分段语音信息中出现的频率。可以理解的是,如果该目标文本中不包括该内容描述信息,则M的值为0;如果该目标文本中不包括该演示文稿,则L的值为0。
该视频分段装置可以根据确定的该第三关键词向量,确定该分段的摘要。
具体地,该视频分段装置可以根据该目标文本与该分段语音信息的内容,确定参考文本,其中该参考文本包括J个句子,J为大于或等于1的正整数;根据该分段语音信息的关键词、该目标文本的关键词和该J个句子中的每个句子,确定J个关键词向量;根据该第三关键词向量和该J个关键词向量,确定该分段的摘要。该J个关键词向量中的第j个关键词向量是该分段语音信息的关键词和该目标文本的关键词在第j个句子中出现的频率。
在该目标文本中包括冗余的句子的情况下,将该目标文本中的该冗余的句子删除,得到修正目标文本并将该修正目标文本与该分段语音信息的内容合并,得到该参考文本;在该目标文本不包括该冗余的句子的情况下,将该目标文本与该分段语音信息的内容合并,得到该参考文本。换句话说,在该目标文本包括该演示文稿和该内容描述信息的情况下,该演示文稿中的一个或多个句子可能在该内容描述信息中也出现。在此情况下,将该演示文稿中与该内容描述信息相同的一个或多个句子删除,然后将删除了冗余的句子的演示文稿、内容描述信息和该分段语音信息的内容合并,得到该参考文本。如果该目标文本中不包括冗余的句子,例如该演示文稿中的任一个句子在该内容描述信息中均为出现,或者该目标文本中仅包括该演示文稿和该内容描述信息中的一个,则可以直接将该目标文本与该分段语音信息的内容进行和并,得到该参考文本。
该视频分段装置根据该第三关键词向量和该J个关键词向量,确定该分段的摘要,包括:该视频分段装置根据该第三关键词向量和该J个关键词向量,确定J个距离,其中该J个距离中的第j个距离是根据该第三关键词向量和该J个关键词向量中的第j个关键词向量确定的,j为大于或等于1且小于或等于J的正整数;确定该J个距离中距离最短的R个距离,R为大于或等于1且小于J的正整数;确定该分段的摘要,其中该分段的摘要包括与该R个距离对应的句子。该视频分段装置根据该第三关键词向量和第j个关键词向量确定第j个距离的具体实现方式与该视频分段装置根据该第一关键词向量和该第二关键词向量确定距离的实现方式类似,区别在于:根据该第三关键词向量和第j个关键词向量确定的第j个距离是欧氏距离;根据该第一关键词向量和该第二关键词向量确定的距离可以是欧氏距离距离,也可以是余弦距离。该第三关键词向量和第j个关键词向量确定的第j个距离不可以是余弦距离的原因是在计算余弦距离时会对第j个关键词向量进行归一化。但是第j个管检测你向量的模长度恰好反映了句子j还有关键词的整体频率,因此不能被归一化。
上述向量(例如第一关键词向量、第二关键词向量、第三关键词向量和第j个关键词向量)都是关键词在特定文本中出现的频率(即词频)。在另一些实施例中,上述向量也可以根据词到向量(word to vector,word2vec)确定的词向量确定。例如,第一关键词向量可以通过以下步骤确定:利用word2vex确定每个关键词的词向量;将所有关键词的词向量相加后取平均,得到该第一关键词向量。第二关键词向量和第一关键词向量的确定方式类似,在此就不必赘述。又如,第三关键词向量可以通过以下步骤确定:利用word2vex确定每个关键词的词向量;确定每个关键词的词频;根据每个关键词的词频,对全部关键词的词向量取加权平均,得到该第三关键词向量。又如,第j个关键词向量可以通过以下步骤确定:对第j个句子进行分词和去除停用词;利用word2vex确定剩下的每个词的词向量;将所有词向量相加取平均,得到第j个关键词向量。在关键词向量是基于word2vex确定的情况下,第三关键词向量和第j个关键词向量直接的距离可以是余弦距离。
图4是根据本申请实施例提供的会议流程的示意图。
401,会议终端1向会议控制服务器传输音视频流1。
402,会议终端2向会议控制服务器传输音视频流2。
403,会议终端3向会议控制服务器传输音视频流3。
404,会议控制服务器确定主会场。
假设会议控制服务器确定的主会场是会议终端1所在的会场。
405,会议控制服务器将会议数据发送至会议终端2和会议终端3。
406,会议终端2和会议终端3存储会议数据。
可选的,在一些实施例中,会议控制服务器也可以将会议数据发送至会议终端1,会议终端1也可以存储会议数据。
407,会议控制服务器实时对音视频流1进行分段(即确定分段点)并提取各个分段的摘要。
408,会议控制服务器将分段点和摘要发送至会议终端2和会议终端3。这样,会议终端2和会议终端3可以自主选择回看点播放回看视频。当然,在一些实现方式中,会议控制服务器也可以将分段点和摘要发送至会议终端1。
图5是根据本申请实施例提供的视频分段方法的示意性流程图。
501,视频分段装置确定会议预定中是否包括会议内容相关文字。换句话说,视频分段装置可以确定该待处理视频是否包括内容描述信息。若确定结果为是(即该待处理视频包括内容描述信息),则执行步骤502;若确定结果为否(即该待处理视频不包括内容描述信息),则执行步骤503。
502,该视频分段装置提取该会议内容相关文字的关键词。换句话说,该视频分段装置确定该内容描述信息的关键词。
在确定了该内容描述信息的关键词后,可以执行步骤503。
503,该视频分段装置确定待处理视频中是否有屏幕展示演示文稿。换句话说,该视频分段装置可以确定该待处理视频是否包括演示文稿,且该演示文稿是通过屏幕展示的。若确定结果为是(即该待处理视频包括演示文稿),则执行步骤504。若确定结果为否(即该待处理视频不包括演示文稿),则执行步骤505。504,该视频分段装置确定用于展示该演示文稿的屏幕的位置。该视频分段装置在确定了该屏幕的位置之后,可以执行步骤506。
505,该视频分段装置确定是否有通过辅流传输的演示文稿。换句话说,在一些可能的实现方式中,会议发言人可能不会通过屏幕展示演示文稿,但是会通过辅流将演示文稿上传至会议控制服务器。其他会场中的会议终端可以根据该辅流获取该会议发言人在发言过程中使用的演示文稿。若确定结果为是(即有通过辅流传输的演示文稿),则执行步骤506。若确定结果为否(即没有通过辅流传输的演示文稿),则可以根据语音信息,确定该待处理视频的分段点。
506,该视频分段装置确定上一分段点到当前时刻的时长是否超过第一预设时长。若该视频分段装置确定上一分段点到当前时刻的时长大于该第一预设时长(即确定结果为是),则执行步骤507。若该视频分段装置确定上一分段点到当前时刻的时长不大于该第一预设时长,则执行步骤508。可以理解的是,若该视频分段装置确定的分段点是第一个分段点,则上一分段点是指待处理视频的起始时刻。为了便于描述,可以将上衣分段点到当前时刻的时长称为演示时长。
507,该视频分段装置根据内容描述信息和语音信息,确定该待处理视频的分段点。
508,该视频分段装置根据演示文稿和语音信息,确定该待处理视频的分段点。该视频分段装置根据该演示文稿和语音信息,确定该待处理视频的分段点的具体实现方式,可以参考图3所示的实施例,在此就不必赘述。
该视频分段装置在确定了该待处理视频的分段点后,可以执行步骤509和步骤510。
509,该视频分段装置确定分段语音信息以及该分段语音信息的关键词,分段语音信息是在分段点的上一个分段点和该分段点之间的语音信息。可以理解的是,若该分段点是待处理视频的第一个分段点,则该分段语音信息是该待处理视频的起始时刻到该分段点之间的语音信息。
510,该视频分段装置根据该分段语音信息,该分段语音信息的关键词和目标文本的关键词,确定分段摘要。步骤509和510的具体实现方式可以参考图3所示的实施例,在此就不必赘述。
可以理解的是,在另一些可能的实现方式中,该视频分段装置在对视频进行分段和提取摘要的过程中,可以先确定待处理视频中是否有通过屏幕展示的演示文稿,然后再确定会议预定中是否包括会议内容相关文字,最后再确定是否有通过辅流传输演示文稿。在另一些可能的实现方式中,该视频分段装置还可以先确定是否有通过辅流传输的演示文稿,然后在确定会议预定中是否包括会议内容相关文字,最后再确定待处理视频中是否有通过屏幕展示的演示文稿。
下面将结合图6对该视频分段装置如何根据内容描述信息和语音信息,确定该待处理视频的分段点进行描述。此外,该视频分段装置如何根据该语音信息,确定该待处理视频的分段点的实现方式也可以参见图6。
图6是根据本申请实施例提供的一种视频分段的方法的示意性流程图。
601,该视频分段装置以窗口长度W和步长S,持续在该语音信息上截取语音信息片段。
602,该视频分段装置提取每个语音信息片段的关键词。具体地,该视频分段装置从每个语音信息片段中提取N个关键词。
如果该视频分段装置提取过内容描述信息的关键词,则在步骤602之后可以执行步骤603;若该视频分段装置没有提取过内容描述信息的关键词,则在步骤602之后可以执行步骤604。该视频分段装置提取过内容描述信息的关键词意味着该视频分段装置确定该待处理视频包括内容描述信息。在此情况下,该视频分段装置确定的分段点是根据内容描述信息和语音信息确定的。该视频分段装置没有提取过内容描述信息的关键词意味着该视频分段装置确定该待处理视频不包括内容描述信息。在此情况下,该视频分段装置确定的分段点是根据语音信息确定的。
603,该视频分段装置确定第i个语音信息片段中的关键词和该内容描述信息的关键词在第i个语音信息片段中的词频向量C_i。
用于确定第i个语音信息片段中的关键词的方法可以参见图3所示的实施例。具体地,可以参考图3所示实施例中确定该第一语音信息片段的关键词的确定方法,在此就不必赘述。用于确定该内容描述信息的关键词的方法可以参加图3所示的实施例,在此就不必赘述。该视频分段装置确定第i个语音信息片段中的关键词和该内容描述信息的关键词在第i个语音信息片段中的词频向量的实现方式可以参加图3所示实施例中确定第一关键词向量的确定方式,在此就不必赘述。
604,该视频分段装置确定第i个语音信息片段中的关键词在第i个语音信息片段中的词频向量C_i。第i个语音信息片段中的关键词在第i个语音信息片段中的词频向量的确定方式与第i个语音信息片段中的关键词和该内容描述信息的关键词在第i个语音信息片段中的词频向量C_i确定方式类似,在此就不必赘述。
该视频分段装置在执行了步骤603或步骤604之后,可以依次执行步骤605和步骤606。
605,该视频分段装置确定C_i和C_(i-1)之间的距离。C_(i-1)是该视频分段装置确定第i-1个语音信息片段的关键词(或者第i-1个语音信息片段的关键词和该内容描述信息的关键词)在第i-1个语音信息片段中的词频向量。第i-1个语音信息片段是第i个语音信息片段之前的一个语音信息片段
606,若C_i和C_(i-1)之间的距离大于预设距离,则可以确定分段点位于第i个语音信息片段前后。该视频分段装置在确定出分段点位于第i个语音信息片段前后的情况下,可以根据停顿点确定该分段点。该视频分段装置根据停顿点确定分段点的具体实现方式可以参考图3所示的实施例,在此就不必赘述。
若C_i和C_(i-1)之间的距离小于或等于该预设距离,则可以认为分段点不在第i个语音信息片段和第i-1个语音信息片段中。在此情况下,可以继续确定下一个语音信息片段的词频向量和第i个语音信息片段的词频向量。
图7是根据本申请实施例提供的视频分段装置的结构框图。如图7所示,视频分段装置700包括获取单元701和处理单元702。
获取单元701,用于获取待处理视频的文本信息和该待处理视频的语音信息,其中该文本信息包括该待处理视频中的演示文稿和该待处理视频的内容描述信息中的至少一个。
处理单元702,用于根据该文本信息和该语音信息,确定该待处理视频的分段点。
处理单元702,还用于根据该分段点,对该待处理视频进行分段。
获取单元701和处理单元702的具体功能和有益效果可以参见图3至图6所示的方法,在此就不再赘述。
图8是根据本申请实施例提供的视频分段装置的结构框图。图8所示的视频分段装置800包括:处理器801、存储器802和收发器803。
处理器801、存储器802和收发器803之间通过内部连接通路互相通信,传递控制和/或数据信号。
上述本申请实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的指令,结合其硬件完成上述方法的步骤。
可选的,在一些实施例中,存储器802可以存储用于执行如图3至图6所示方法中视频分段装置执行的方法的指令。处理器801可以执行存储器802中存储的指令结合其他硬件(例如收发器803)完成如图3至图6所示方法中视频分段装置的步骤,具体工作过程和有益效果可以参见图3至图6所示实施例中的描述。
本申请实施例还提供一种芯片,该芯片包括收发单元和处理单元。其中,收发单元可以是输入输出电路、通信接口;处理单元为该芯片上集成的处理器或者微处理器或者集成电路。该芯片可以执行上述方法实施例中视频分段装置的方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中视频分段装置的方法。
本申请实施例还提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中视频分段装置的方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (24)

1.一种视频分段方法,其特征在于,包括:
视频分段装置获取待处理视频的文本信息和所述待处理视频的语音信息,其中所述文本信息包括所述待处理视频中的演示文稿和所述待处理视频的内容描述信息中的至少一个;
所述视频分段装置根据所述文本信息和所述语音信息,确定所述待处理视频的分段点;
所述视频分段装置根据所述分段点,对所述待处理视频进行分段。
2.如权利要求1所述的方法,其特征在于,在所述文本信息包括所述演示文稿的情况下,所述视频分段装置根据所述文本信息和所述语音信息,确定所述待处理视频的分段点,包括:
确定所述演示文稿的切换点,所述演示文稿在所述切换点前后呈现的内容不同;
根据所述语音信息,确定至少一个停顿点;
根据所述切换点和所述至少一个停顿点,确定所述分段点。
3.如权利要求2所述的方法,其特征在于,所述根据所述切换点和所述至少一个停顿点,确定所述分段点,包括:
在确定所述切换点与所述至少一个停顿点中的一个停顿点相同的情况下,确定所述切换点为所述分段点;
在确定所述至少一个停顿点中的任一个停顿点与所述切换点的均不相同的情况下,确定所述至少一个停顿点中距离所述切换点最近的一个停顿点为所述分段点。
4.如权利要求2或3所述的方法,其特征在于,所述确定所述演示文稿的切换点,包括:确定获取到用于指示切换所述演示文稿的内容的切换信号的时刻为所述切换点。
5.如权利要求2至4中任一项所述的方法,其特征在于,所述文本信息还包括所述内容描述信息,在所述视频分段装置根据所述文本信息和所述语音信息,确定所述待处理视频的分段点之前,所述方法还包括:
确定所述演示文稿的当前页的演示时长小于或等于第一预设时长且大于第二预设时长。
6.如权利要求1所述的方法,其特征在于,在所述文本信息包括所述内容描述信息的情况下,所述视频分段装置根据所述文本信息和所述语音信息,确定所述待处理视频的分段点,包括:
根据所述语音信息、所述内容描述信息的关键词和所述语音信息中的停顿点,确定所述待处理视频的分段点。
7.如权利要求6所述的方法,其特征在于,所述语音信息包括第一语音信息片段和第二语音信息片段,其中所述第二语音信息片段是在所述第一语音信息片段之前且与所述第一语音信息片段相邻的语音信息片段,
所述根据所述语音信息、所述内容描述信息的关键词和所述语音信息中的停顿点,确定所述待处理视频的分段点,包括:
根据所述第一语音信息片段、所述第二语音信息片段、所述内容描述信息的关键词和所述语音信息中的停顿点,确定第一分段点,其中所述待处理视频的分段点包括所述第一分段点。
8.如权利要求7所述的方法,其特征在于,所述根据所述第一语音信息片段、所述第二语音信息片段、所述内容描述信息的关键词和所述语音信息中的停顿点,确定第一分段点,包括:
根据所述第一语音信息片段的关键词、所述第二语音信息片段的关键词、所述第一语音信息片段的内容、所述第二语音信息片段的内容和所述内容描述信息的关键词,确定所述第一语音信息片段和所述第二语音信息片段的相似度;
确定所述第一语音信息片段和所述第二语音信息片段的相似度小于相似度阈值;
根据所述语音信息中的停顿点,确定所述第一分段点。
9.如权利要求8所述的方法,其特征在于,所述语音信息中的停顿点包括所述第一语音信息片段内的停顿点或与所述第一语音信息片段相邻的停顿点,所述根据所述语音信息中的停顿点,确定所述第一分段点,包括:
根据所述第一语音信息片段内的停顿点数目、与所述第一语音信息片段相邻的停顿点数目、停顿时长以及与停顿点相邻的词中的至少一个,确定所述第一分段点。
10.如权利要求6至9中任一项所述的方法,其特征在于,所述文本信息还包括所述演示文稿,在所述视频分段装置根据所述文本信息和所述语音信息,确定所述待处理视频的分段点之前,所述方法还包括:
确定所述演示文稿的当前页的演示时长大于第一预设时长;或者
确定所述演示文稿的当前页的演示时长小于或等于第二预设时长。
11.如权利要求1至10中任一项所述的方法,其特征在于,所述方法还包括:所述视频分段装置根据分段语音信息的内容、所述分段语音信息的关键词和目标文本的关键词,确定所述分段的摘要,其中所述目标文本包括所述演示文稿和所述内容描述信息中的至少一个。
12.如权利要求1至11中任一项所述的方法,其特征在于,所述待处理视频为实时视频流,所述待处理视频的语音信息为所述实时视频流从所述实时视频流的起始时刻或者上一分段点到当前时刻的语音信息。
13.一种视频分段装置,其特征在于,包括:
获取单元,用于获取待处理视频的文本信息和所述待处理视频的语音信息,其中所述文本信息包括所述待处理视频中的演示文稿和所述待处理视频的内容描述信息中的至少一个;
处理单元,用于根据所述文本信息和所述语音信息,确定所述待处理视频的分段点;
所述处理单元,还用于根据所述分段点,对所述待处理视频进行分段。
14.如权利要求13所述的视频分段装置,其特征在于,所述处理单元,具体用于在所述文本信息包括所述演示文稿的情况下,根据所述文本信息和所述语音信息,确定所述演示文稿的切换点,所述演示文稿在所述切换点前后呈现的内容不同;
根据所述语音信息,确定至少一个停顿点;
根据所述切换点和所述至少一个停顿点,确定所述分段点。
15.如权利要求14所述的视频分段装置,其特征在于,所述处理单元,具体用于
在确定所述切换点与所述至少一个停顿点中的一个停顿点相同的情况下,确定所述切换点为所述分段点;
在确定所述至少一个停顿点中的任一个停顿点与所述切换点的均不相同的情况下,确定所述至少一个停顿点中距离所述切换点最近的一个停顿点为所述分段点。
16.如权利要求14或15所述的视频分段装置,其特征在于,所述处理单元,具体用于确定获取到用于指示切换所述演示文稿的内容的切换信号的时刻为所述切换点。
17.如权利要求14至16中任一项所述的视频分段装置,其特征在于,所述处理单元,还用于在所述文本信息还包括所述内容描述信息的情况下,在根据所述文本信息和所述语音信息,确定所述待处理视频的分段点之前,确定所述演示文稿的当前页的演示时长小于或等于第一预设时长且大于第二预设时长。
18.如权利要求13所述的视频分段装置,其特征在于,所述处理单元,具体用于在所述文本信息包括所述内容描述信息的情况下,根据所述语音信息、所述内容描述信息的关键词和所述语音信息中的停顿点,确定所述待处理视频的分段点。
19.如权利要求18所述的视频分段装置,其特征在于,所述语音信息包括第一语音信息片段和第二语音信息片段,其中所述第二语音信息片段是在所述第一语音信息片段之前且与所述第一语音信息片段相邻的语音信息片段,
所述处理单元,具体用于根据所述第一语音信息片段、所述第二语音信息片段、所述内容描述信息的关键词和所述语音信息中的停顿点,确定第一分段点,其中所述待处理视频的分段点包括所述第一分段点。
20.如权利要求19所述的视频分段装置,其特征在于,所述处理单元,具体用于根据所述第一语音信息片段的关键词、所述第二语音信息片段的关键词、所述第一语音信息片段的内容、所述第二语音信息片段的内容和所述内容描述信息的关键词,确定所述第一语音信息片段和所述第二语音信息片段的相似度;
确定所述第一语音信息片段和所述第二语音信息片段的相似度小于相似度阈值;
根据所述语音信息中的停顿点,确定所述第一分段点。
21.如权利要求20所述的视频分段装置,其特征在于,所述语音信息中的停顿点包括所述第一语音信息片段内的停顿点或与所述第一语音信息片段相邻的停顿点,所述处理单元,具体用于根据所述第一语音信息片段内的停顿点数目、与所述第一语音信息片段相邻的停顿点数目、停顿时长以及与停顿点相邻的词中的至少一个,确定所述第一分段点。
22.如权利要求18至21中任一项所述的视频分段装置,其特征在于,所述处理单元,还用于在所述文本信息还包括所述演示文稿的情况下,在根据所述文本信息和所述语音信息,确定所述待处理视频的分段点之前,确定所述演示文稿的当前页的演示时长大于第一预设时长;或者
确定所述演示文稿的当前页的演示时长小于或等于第二预设时长。
23.如权利要求13至22中任一项所述的视频分段装置,其特征在于,所述处理单元还用于根据分段语音信息的内容、所述分段语音信息的关键词和目标文本的关键词,确定所述分段的摘要,其中所述目标文本包括所述演示文稿和所述内容描述信息中的至少一个。
24.如权利要求13至23中任一项所述的视频分段装置,其特征在于,所述待处理视频为实时视频流,所述待处理视频的语音信息为所述实时视频流从所述实时视频流的起始时刻或者上一分段点到当前时刻的语音信息。
CN201910376477.2A 2019-05-07 2019-05-07 视频分段方法和视频分段装置 Active CN111918145B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910376477.2A CN111918145B (zh) 2019-05-07 2019-05-07 视频分段方法和视频分段装置
PCT/CN2020/083397 WO2020224362A1 (zh) 2019-05-07 2020-04-05 视频分段方法和视频分段装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376477.2A CN111918145B (zh) 2019-05-07 2019-05-07 视频分段方法和视频分段装置

Publications (2)

Publication Number Publication Date
CN111918145A true CN111918145A (zh) 2020-11-10
CN111918145B CN111918145B (zh) 2022-09-09

Family

ID=73051391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376477.2A Active CN111918145B (zh) 2019-05-07 2019-05-07 视频分段方法和视频分段装置

Country Status (2)

Country Link
CN (1) CN111918145B (zh)
WO (1) WO2020224362A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363695A (zh) * 2021-11-11 2022-04-15 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和***
CN114173191B (zh) * 2021-12-09 2024-03-19 上海开放大学 一种基于人工智能的多语言答疑方法和***
CN114245229B (zh) * 2022-01-29 2024-02-06 北京百度网讯科技有限公司 一种短视频制作方法、装置、设备以及存储介质
CN115209233B (zh) * 2022-06-25 2023-08-25 平安银行股份有限公司 视频播放方法以及相关装置、设备
CN118012979B (zh) * 2024-04-10 2024-06-14 济南宝林信息技术有限公司 一种普通外科手术智能采集存储***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030187642A1 (en) * 2002-03-29 2003-10-02 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及***
WO2013097101A1 (zh) * 2011-12-28 2013-07-04 华为技术有限公司 分析视频文件的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8693842B2 (en) * 2011-07-29 2014-04-08 Xerox Corporation Systems and methods for enriching audio/video recordings
CN104519401B (zh) * 2013-09-30 2018-04-17 贺锦伟 视频分割点获得方法及设备
CN104540044B (zh) * 2014-12-30 2017-10-24 北京奇艺世纪科技有限公司 一种视频分段方法及装置
CN106982344B (zh) * 2016-01-15 2020-02-21 阿里巴巴集团控股有限公司 视频信息处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030187642A1 (en) * 2002-03-29 2003-10-02 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及***
WO2013097101A1 (zh) * 2011-12-28 2013-07-04 华为技术有限公司 分析视频文件的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363695A (zh) * 2021-11-11 2022-04-15 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质
CN114363695B (zh) * 2021-11-11 2023-06-13 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111918145B (zh) 2022-09-09
WO2020224362A1 (zh) 2020-11-12

Similar Documents

Publication Publication Date Title
CN111918145B (zh) 视频分段方法和视频分段装置
US11625920B2 (en) Method for labeling performance segment, video playing method, apparatus and system
CN109218629B (zh) 视频生成方法、存储介质和装置
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
JP2009076970A (ja) 要約コンテンツ生成装置およびコンピュータプログラム
CN108073572B (zh) 信息处理方法及其装置、同声翻译***
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US11871084B2 (en) Systems and methods for displaying subjects of a video portion of content
US20200151208A1 (en) Time code to byte indexer for partial object retrieval
JP6690442B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
US20120154514A1 (en) Conference support apparatus and conference support method
JP2010039877A (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
US11128927B2 (en) Content providing server, content providing terminal, and content providing method
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
US11736744B2 (en) Classifying segments of media content using closed captioning
US9402047B2 (en) Method and apparatus for image display
RU2654126C2 (ru) Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных
KR20160055511A (ko) 리듬을 이용하여 동영상을 검색하는 장치, 방법 및 시스템
US20160275967A1 (en) Presentation support apparatus and method
CN110727854B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
US20210089781A1 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
US20210089577A1 (en) Systems and methods for displaying subjects of a portion of content and displaying autocomplete suggestions for a search related to a subject of the content
US20210089268A1 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
CN109977239B (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant