CN115767207A - 视频摘要生成的方法、装置、电子设备及存储介质 - Google Patents

视频摘要生成的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115767207A
CN115767207A CN202211462698.XA CN202211462698A CN115767207A CN 115767207 A CN115767207 A CN 115767207A CN 202211462698 A CN202211462698 A CN 202211462698A CN 115767207 A CN115767207 A CN 115767207A
Authority
CN
China
Prior art keywords
video
comment information
target video
time period
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211462698.XA
Other languages
English (en)
Inventor
王建国
李鹏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211462698.XA priority Critical patent/CN115767207A/zh
Publication of CN115767207A publication Critical patent/CN115767207A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种视频摘要生成的方法、装置、电子设备及存储介质,具体可以包括:确定对于目标视频的评论信息;利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段;利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。上述方法可以用于视频理解领域,以观赏者的角度对目标视频进行解析,可以更贴近用户的想法。随着评论信息的增加和变化,对目标视频的切分也会随之而改变,从而切分的结果更为丰富。

Description

视频摘要生成的方法、装置、电子设备及存储介质
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频摘要生成的方法、装置、电子设备及存储介质。
背景技术
视频的分段和视频摘要有助于用户在观看视频的时候能够从宏观层面对整个视频内容进行了解。通常视频的分段和视频摘要是根据对视频本身的内容的理解来进行的。由此导致对视频的分段和视频摘要生成的结果较为单一。
发明内容
本申请实施例提供一种视频摘要生成的方法、装置、电子设备及存储介质,以观赏者的角度对视频进行解析,可以更贴近用户的想法。随着用户评论信息的增加和变化,对目标视频的切分也会随之而改变,从而更为丰富。
第一方面,本申请实施例提供了一种视频摘要生成的方法,该方法可以包括:
确定对于目标视频的评论信息;
利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段;
利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。
第二方面,本申请实施例提供了一种视频摘要生成的装置,该装置可以包括:
评论信息确定模块,用于确定对于目标视频的评论信息;
视频分段模块,用于利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段;
摘要生成模块,用于利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本申请具有如下优点:
目标视频的评论信息可以用户发出的是多维的信息。由此,依据本申请实施例,可以以观赏者的角度对目标视频进行解析,可以更贴近用户的想法。例如,一部分评论信息是某男演员的影迷集中于第一时间段对目标视频进行评价,而另一部分评论信息是某女演员的影迷集中于第二时间段对目标视频进行评价。基于此,在对目标视频进行切分时,便可以依据不同演员进行,并基于评价的内容生成对应视频的摘要。又例如,在包含道具的镜头中,评论信息是对视频中道具的评价,而在包含演员的镜头中,一部分评论信息是对视频中演员的服装或妆容的评价。基于此,对目标视频进行切分时,便可依据镜头不同内容进行,并基于评价的内容生成对应视频的摘要。即,通过上述过程,可以基于用户视角对目标视频进行分段,基于评论信息的不同,分段结果和摘要结果也会丰富多彩。进一步的,随着用户评论信息的增加和变化,对目标视频的切分也会随之而改变,从而更为灵活。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请提供的视频摘要生成的方法的场景示意图;
图2为本申请一实施例的视频摘要生成的方法的流程图之一;
图3为本申请一实施例的对目标视频进行分段处理的流程图;
图4为本申请一实施例的对评论信息的内容特征的确定方式的流程图;
图5为本申请一实施例的视频摘要生成的方法的流程图之二;
图6为本申请一实施例的视频摘要生成的方法的流程图之三;
图7为本申请一实施例的视频摘要生成的方法的流程图之四;
图8是本申请视频摘要生成的装置的结构框图之一;
图9是本申请视频摘要生成的装置的结构框图之二;以及
图10为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的构思或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的,而非限制性的。
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。
首先对本申请所涉及的名词进行解释。
中文多模态预训练模型(M6,Multi-Modality to Multi-Modality MultitaskMega-Transformer):该模型是基于翻译模型(Transformer)为基础模型,通过多个任务进行预训练得到的。预训练使该模型具有单模态和多模态的理解和生成能力。中文多模态预训练模型可以应用于一系列下游应用,例如,可以包括应用于对象的描述生成、视觉问答、中文诗词生成等。
文字摘要生成算法:文字摘要生成算法是一种从一个或多个信息源中抽取关键信息的方法。以信息源中的词、句为基础,基于词频、句子位置等文字特征从信息源中生成候选内容。随后借助外部语义资源的方法从候选内容中选取关键词、关键句,从而生成相应摘要。
时间分割算法:可以利用指定规则,在时间维度对视频进行切分,得到多个视频片段。例如,指定规则可以是镜头相似规则、场景相似规则等。
图1为示例性的用于实现本申请实施例的方法的一个应用场景的示意图。在用户利用手机或平板电脑等智能终端观看目标视频时,会通过添加对目标视频的评论信息(弹幕)的方式与其他用户进行互动。基于此,可以以获取到的不同用户的评论信息为参考,生成对目标视频进行分段的依据,即生成时间片段。所谓时间片段可以是视频的第i-n秒至视频的第i秒,作为第一个时间分段。视频的第i秒至视频的第i+m秒,作为第二个时间分段。i、n、m都可以是自然数。示例性地,以评论信息为参考,生成对目标视频进行分段的依据可以包括对评论信息的密度(单位时间内评论信息的数量)进行统计。例如,在一个时间段内,评论信息的数量是其他时间段的评论数量的倍数,那么可以确定该时间段所对应的视频片段为视频的精彩片段,由此对目标视频进行切分。或者,可以对评论信息的内容进行识别,当部分评论信息的内容是评论目标视频的A段落,而另外一部分评论信息的内容是评论目标视频的B段落时,可以以评论信息的内容作为对目标视频进行分段的依据。对评论信息的内容进行识别可以是基于自然语言处理技术,基于评论信息的文字特征进行的。
可依据时间片段对目标视频进行分段处理,得到多个视频片段。进一步的,可以针对每个视频片段中对应的评论信息进行分析,以得到每个视频片段对应的文字摘要。最终,可以得到目标视频的至少一个视频片段以及该视频片段的摘要。上述视频片段以及该视频片段的摘要可以用于目标视频的预览。例如,可以预先构建至少一个预览窗口,在接收到用户对于目标视频的选择指令的情况下,可以在预览窗口展示视频片段以及视频片段的摘要,从而便于用于对目标视频的快速预览。相比于基于视频内容进行视频的分段,以观赏者的角度对视频进行解析,可以更贴近用户的想法。并且,随着用户评论信息的增加和变化,对目标视频的切分也会随之而改变,从而更为灵活。
本申请实施例提供了一种视频摘要生成的方法,如图2所示为本申请一实施例的视频摘要生成的方法的流程图,可以包括:
步骤S201:确定对于目标视频的评论信息。
本申请实施例的执行主体可以是云端,也可以是客户端。目标视频可以是电影、电视剧等视频,也可以是电视直播内容或短视频等。确定目标视频的评论信息可以包括区分出目标视频的字幕、电视直播对应的信息栏和评论信息。
示例性地,对于一般情况而言,信息栏会出现在目标视频的底部。字幕会出现在目标视频的下部。评论信息会以由左至右滚动的形式出现在目标视频的上部,或者以自下而上滚动的形式出现在目标视频的左侧等。基于此,可以通过位置识别,确定对于目标视频的评论信息。
步骤S202:利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段。
评论信息的密度可以基于单位时间和评论信息的数量确定。示例性地,单位时间可以根据目标视频的长度确定。如电影或者电视剧等时间较长的目标视频,单位时间可以设置为1分钟,2分钟等。如短视频等时间较短的目标视频,单位时间可以是5秒、10秒等。基于在单位时间中评论信息的数量,可以确定不同时间段评论信息出现的密度。
评论信息的内容特征可以基于自然语言处理技术对评论信息进行识别,从而得到的评论信息的文字特征表示。自然语言处理技术可以包括中文多模态预训练模型。利用中文多模态预训练模型的文本特征编码能力,可以确定评论信息的文字特征。
基于时间分割算法,利用不同时间段的评论信息出现的密度,以及评论信息的内容特征可以得到对目标视频进行切分的切分节点。基于切分节点,即可实现对于目标视频的切分。最终将目标视频切分为至少两个视频片段。
步骤S203:利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。
针对不同的视频片段,可以选择与视频片段对应的评论信息作为候选评论信息。例如,视频片段为目标视频在第4分钟至第5分钟的片段。基于此,可以将出现在第4分钟至第5分钟的评论信息作为候选评论信息。
基于对候选评论信息的过滤、去重和内容识别等方式,在候选评论信息中确定关键词、关键句。候选评论信息中的关键词、关键句可以表示为
Figure BDA0003954128450000041
t1、t2可以分别对应视频片段的起始时间点和终止时间点。利用文字摘要生成算法,基于评论信息的文字特征,最终得到视频片段的摘要。
相比于基于视频内容进行视频的分段,本实施方式以观赏者的角度对目标视频进行解析,可以更贴近用户的想法。例如,对某男演员的影迷集中于第一时间段对目标视频进行评价,而某女演员的影迷集中于第二时间段对目标视频进行评价。基于此,在对目标视频进行切分时,便可以依据不同演员进行,并基于评价的内容生成对应视频的摘要。即,通过上述过程,可以基于用户视角对目标视频进行分段,基于评论信息的不同,分段结果和摘要结果也会丰富多彩。进一步的,随着用户评论信息的增加和变化,对目标视频的切分也会随之而改变,从而更为灵活。
如图3所示,在一种可能的实施方式中,步骤S202中涉及的利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段,包括:
步骤S301:利用评论信息的密度和评论信息的内容特征,确定目标视频的切分节点。
可以根据目标视频的时长设置时间间隔,时间间隔可以是10秒、30秒、1分钟等。统计每个时间间隔中的评论信息出现的密度和评论信息的内容特征,可以得到统计结果。根据统计结果确定相邻两个时间间隔的评论信息的相似情况,以判断相邻两个时间间隔是否相似。如果相邻两个时间间隔的统计结果相似,则相邻两个时间间隔可以合成为一个时间间隔。反之,如果相邻两个时间间隔的统计结果不相似,则相邻两个时间间隔之间的时间节点可以作为目标视频的切分节点。例如,如果时间间隔为10秒,得到10秒至20秒的第一个时间间隔的统计结果,以及20秒至30秒的第二个时间间隔的统计结果。如果两个统计结果相似,则可以将10秒至30秒合成为一个时间间隔。此后,如果30秒至40秒的第三个时间间隔的统计结果与第二个时间间隔的统计结果相似,可以将10秒至40秒合成为一个时间间隔。反之,如果30秒至40秒的第三个时间间隔的统计结果与第二个时间间隔的统计结果不相似,可以将第30秒作为目标视频的切分节点。
步骤S302:利用切分节点对目标视频进行分段处理,得到多个视频片段。
利用确定出的目标视频的切分节点,可以对目标视频进行分段处理。从而将目标视频切分成多个视频片段。
在一种可能的实施方式中,步骤S2021中涉及的利用评论信息的密度和评论信息的内容特征,确定目标视频的切分节点,可以包括:
步骤S303:利用目标视频在第i个时间段的评论信的密度和在第i个时间段的评论信息的内容特征,确定第i个时间段的时间段特征,i为正整数。
基于第i个时间段的评论信息的数量,可以得到评论信息在第i个时间段的密度。可以直接采用密度数值作为密度特征;也可以对密度进行向量表示,即可得到第i个时间段的密度特征。第i个时间段的评论信息的密度特征可以表示为
Figure BDA0003954128450000051
此外,可以对第i个时间段的评论信息进行过滤、去重以及聚合等处理后,得到可以使用的评论信息。可以利用文字识别技术,得到评论信息的内容特征。第i个时间段的评论信息的内容特征可以表示为
Figure BDA0003954128450000053
将第i个时间段的评论信息的密度特征和第i个时间段的评论信息的内容特征进行拼接,即可得到第i个时间段的时间段特征。第i个时间段的时间段特征可以表示为
Figure BDA0003954128450000052
步骤S304:在第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异大于对应差异阈值的情况下,将第i个时间段和第i-1个时间段之间的时间节点确定为切分节点;第i个时间段和第i-1个时间段是根据预定策略对目标视频进行预切分得到的。
第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异可以采用特征比较的方式进行。在确定出的差异大于对应的差异阈值的情况下,可以表示第i个时间段和第i-1个时间段的评论信息的差异较大。基于此,可以认为目标视频在第i个时间段出现变化。从而可以将第i个时间段和第i-1个时间段之间的时间节点确定为切分节点。
第i个时间段和第i-1个时间段可以是根据预定策略对目标视频进行预切分得到的。预定策略可以是每间隔1分钟进行一次切分,也可以是大于10秒,小于30秒的任意时间段进行随机切分等。
如图4所示,在一种可能的实施方式中,评论信息的内容特征的确定方式,可以包括:
步骤S401:对评论信息中的分词进行特征提取处理,得到分词对应的词特征向量。
对于评论信息,可以首先进行过滤处理。例如,可以将无效信息进行过滤。其次,可以将内容相同或内容相似的评论信息进行聚类处理。例如,“太棒了”、“太精彩了”、“刚才那段可真有意思”等内容相似的评论信息,都可以聚类为相同内容。对聚类处理后的评论信息,可以进行分词处理。提取评论信息中的分词,得到分词对应的词特征向量。
步骤S402:利用词特征向量得到评论信息的内容特征向量。
对词特征向量进行拼接处理,可以得到单条评论信息的内容特征向量。示例性地,在进行拼接处理时,可以基于自然语言处理技术,将词特征向量按照符合汉语表达的顺序进行拼接。
步骤S403:对多个评论信息的内容特征向量进行平均池化处理,得到评论信息的内容特征。
在当前时间段的评论信息的数量为多个的情况下,还可以对多个评论信息的内容特征向量进行平均池化处理,得到特征向量的平均结果。该平均结果即可作为当前时间段的评论信息的内容特征。
在一种可能的实施方式中,差异的确定方式,可以包括:
为评论信息的密度分配第一初始权重。
为评论信息的内容特征分配第二初始权重。
根据指定规则,对第一初始权重和第二初始权重进行动态调整,得到动态调整结果,指定规则是根据评论信息数量或评论信息的重复情况确定的。
基于动态调整结果,确定第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异。
在进行差异比较时,可以同时参考评论信息的密度特征和评论信息的内容特征。具体而言,可以首先为二者分配初始权重。示例性地,初始权重可以各是50%,也可以是基于经验值将初始权重设置为45%和55%等,当前实施方式中对具体数值不进行限定。
进一步的,初始权重是可以被动态调整的。对初始权重进行动态调整的依据可以是评论信息的数量或是评论信息的重复情况。例如,可以基于评论信息的数量进行调整。在评论信息的数量少于对应的数量阈值的情况下,可以降低评论信息的密度特征的权重。又例如,可以基于评论信息的内容重复性进行调整。在重复性内容的比例超过对应比例阈值的情况下,可以降低评论信息的内容特征的权重。
动态调整结果可以对应评论信息的密度的第一初始权重的调整结果和评论信息的内容特征的第二初始权重的调整结果。在进行差异比较时,可以将调整结果作为系数。基于系数进行比较,从而可以得到较为客观的比较结果。
如图5所示,在一种可能的实施方式中,还可以包括:
步骤S501:利用候选评论信息的质量,确定视频片段的得分。
候选评论信息的质量可以基于候选评论信息的数量以及候选评论信息的内容确定。候选评论信息的内容可以从以下几个维度确定:情感维度、内容重复性维度、用户数量维度等。
以情感维度为示例,基于文字识别技术,可以确定候选评论信息的情感分类。粗粒度而言,情感分类可以包括正面情感、中性情感和负面情感。例如:“太有意思了”、“这段可太逗了”等,可以认为是正面情感。“还行”、“说得过去”等,可以认为是中性情感。“太尬了”、“没意思、无聊”等,可以认为是负面情感。
内容重复性维度可以是基于候选评论信息的聚类处理,得到的聚类结果。例如,可以设置数量阈值N。如果聚类的结果小于N,可以认为候选评论信息的内容重复性较高,即大多候选评论信息都是相同内容。如果聚类的结果不小于N,可以认为候选评论信息的内容重复性较低,即候选评论信息是丰富多彩的。
用户数量维度可以是发出候选评论信息的用户的数量。例如,在极端情况下,候选评论信息可以是单个用户发出的。基于此,可以认为用户数量很低。反之,如果每个,候选评论信息都对应不同的用户,则可以认为用户数量很高。
基于上述不同维度,可以确定出候选评论信息的质量。基于候选评论信息的质量可以对每个视频片段进行评分,从而可以得到视频片段的得分。
步骤S502:基于视频片段的得分,确定目标视频的精彩片段。
可以将视频片段的得分进行排序,从中选择指定数量的视频片段作为目标视频的精彩片段。
如图6所示,在一种可能的实施方式中,还可以包括:
步骤S601:将视频片段与目标视频进行关联。
对于同一个目标视频,可以切分得到多个视频片段。每个视频片段可以均与目标视频进行关联,以表征于每个视频片段都是由目标视频得来的。视频片段可以以进度条的方式展示。
步骤S602:在接收到视频片段展示指令的情况下,在目标视频的视频预览窗口展示视频片段。
视频片段展示指令可以是语音形式、动作形式等。例如,语音形式可以是“播放某某视频的视频片段”。动作形式可以是通过动作选择的待播放片段的目标视频。展示可以包括:在目标视频的视频预览窗口以进度条的方式展示视频片段。并且在指定位置显示视频片段的摘要。
上述视频摘要生成的方法可以是用户终端本地的一个应用程序(APP),或者是一个APP中的一个功能模块,也可以是云端提供的一种服务,用户调用该服务对应的调用接口,将关注信息上传至云端,并接收云端反馈的结果,例如视频的视频片段、视频摘要。
示例性地,在云端可以部署有若干分布式计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供视频摘要生成方法中的某一个或某几个服务;或者,可以组织由多个计算节点来提供视频摘要生成的方法中的某一个或某几个服务。示例性地,服务可以包括确定对于目标视频的评论信息;利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段;利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。
针对本发明实施例提供的方案,云端可以提供有信息识别服务的服务接口,称为目标服务接口。当用户需要查看视频摘要的时候,通过用户设备调用该目标服务接口,以向云端触发调用该目标服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行本申请实施例所提供的各步骤。
本申请实施例提供了一种视频摘要生成的方法,如图7所示为本申请一实施例的视频摘要生成的方法的流程图,可以包括:
步骤S701:在接收到目标视频的摘要生成指令的情况下,获取所述目标视频的多个视频片段;所述视频片段包含摘要;所述视频片段是在确定出对于目标视频的评论信息后,利用所述所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理得到的,所述摘要是利用与所述视频片段对应的候选评论信息生成的;所述候选评论信息为针对所述视频片段的评论信息。
本申请实施例的执行主体可以是如智能手机、电视或平板电脑等设备的客户端。目标视频可以是电影、电视剧等视频,也可以是电视直播内容或短视频等。摘要生成指令可以是用户通过动作、语音等方式下达的指令。下达摘要生产指令的场景可以包括视频预览、视频摘要制作等。
确定目标视频的评论信息可以包括区分出目标视频的字幕、电视直播对应的信息栏和评论信息。摘要生成指令可以是语音形式、动作形式等。例如,语音形式可以是“播放某某视频的视频片段”。动作形式可以是通过动作选择的待播放片段的目标视频。
评论信息的密度可以基于单位时间和评论信息的数量确定。示例性地,单位时间可以根据目标视频的长度确定。
评论信息的内容特征可以基于自然语言处理技术对评论信息进行识别,从而得到的评论信息的文字特征表示。自然语言处理技术可以包括中文多模态预训练模型。利用中文多模态预训练模型的文本特征编码能力,可以确定评论信息的文字特征。
基于时间分割算法,利用不同时间段的评论信息出现的密度,以及评论信息的内容特征可以得到对目标视频进行切分的切分节点。基于切分节点,即可实现对于目标视频的切分。最终将目标视频切分为至少两个视频片段。
针对不同的视频片段,可以选择与视频片段对应的评论信息作为候选评论信息。基于对候选评论信息的过滤、去重和内容识别等方式,在候选评论信息中确定关键词、关键句。利用文字摘要生成算法,根据语法结构将关键词、关键句进行组合,最终得到视频片段的摘要。
步骤S702:在目标视频的视频预览窗口展示视频片段以及与视频片段对应的摘要。
视频预览窗口可以是预先指定的窗口,例如,可以是弹窗的形式,或者画中画的形式等。展示可以包括:在目标视频的视频预览窗口以进度条的方式展示视频片段。并且在指定位置显示视频片段的摘要。
与本申请实施例提供的方法的应用场景以及方法相对应地,本申请实施例还提供一种视频摘要生成的装置。如图8所示为本申请一实施例的视频摘要生成的装置的结构框图,该视频摘要生成的装置可以包括:
评论信息确定模块801,用于确定对于目标视频的评论信息;
视频分段模块802,用于利用评论信息的密度和评论信息的内容特征,对目标视频进行分段处理,得到多个视频片段;
摘要生成模块803,用于利用与视频片段对应的候选评论信息,生成视频片段的摘要;候选评论信息为针对视频片段的评论信息。
在一种可能的实施方式中,视频分段模块802,可以包括:
切分节点确定子模块,用于利用评论信息的密度和评论信息的内容特征,确定目标视频的切分节点;
视频分段执行子模块,用于利用切分节点对目标视频进行分段处理,得到多个视频片段。
在一种可能的实施方式中,切分节点确定子模块,可以包括:
时间段特征确定单元,用于利用目标视频在第i个时间段的评论信的密度和在第i个时间段的评论信息的内容特征,确定第i个时间段的时间段特征,i为正整数;
切分节点确定执行单元,用于在第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异大于对应差异阈值的情况下,将第i个时间段和第i-1个时间段之间的时间节点确定为切分节点;第i个时间段和第i-1个时间段是根据预定策略对目标视频进行预切分得到的。
在一种可能的实施方式中,视频分段模块802,还可以包括:
词特征向量确定子模块,用于对评论信息中的分词进行特征提取处理,得到分词对应的词特征向量;
内容特征向量确定子模块,用于利用词特征向量得到评论信息的内容特征向量;
内容特征确定子模块,用于对多个评论信息的内容特征向量进行平均池化处理,得到评论信息的内容特征。
在一种可能的实施方式中,切分节点确定执行单元,可以包括:
第一初始权重分配子单元,用于为评论信息的密度分配第一初始权重;
第二初始权重分配子单元,用于为评论信息的内容特征分配第二初始权重;
权重动态调整子单元,用于根据指定规则,对第一初始权重和第二初始权重进行动态调整,得到动态调整结果,指定规则是根据评论信息数量或评论信息的重复情况确定的;
差异确定子单元,用于基于动态调整结果,确定第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异。
在一种可能的实施方式中,还可以包括:
得分确定模块,用于利用候选评论信息的质量,确定视频片段的得分;
精彩片段确定模块,用于基于视频片段的得分,确定目标视频的精彩片段。
在一种可能的实施方式中,还可以包括:
关联模块,用于将视频片段与目标视频进行关联;
展示模块,用于在接收到视频片段展示指令的情况下,在目标视频的视频预览窗口展示视频片段。
与本申请实施例提供的方法的应用场景以及方法相对应地,本申请实施例还提供一种视频摘要生成的装置。如图9所示为本申请一实施例的视频摘要生成的装置的结构框图,该视频摘要生成的装置可以包括:
关注信息发送模块901,用于在接收到目标视频的摘要生成指令的情况下,获取所述目标视频的多个视频片段;所述视频片段包含摘要;所述视频片段是在确定出对于目标视频的评论信息后,利用所述所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理得到的,所述摘要是利用与所述视频片段对应的候选评论信息生成的;所述候选评论信息为针对所述视频片段的评论信息;
视频摘要展示模块902,用于在目标视频的视频预览窗口展示视频片段以及与视频片段对应的摘要。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,并具备相应的有益效果,在此不再赘述。
图10为用来实现本申请实施例的电子设备的框图。如图10所示,该电子设备包括:存储器1010和处理器1020,存储器1010内存储有可在处理器1020上运行的计算机程序。处理器1020执行该计算机程序时实现上述实施例中的方法。存储器1010和处理器1020的数量可以为一个或多个。
该电子设备还包括:
通信接口1030,用于与外界设备进行通信,进行数据交互传输。
如果存储器1010、处理器1020和通信接口1030独立实现,则存储器1010、处理器1020和通信接口1030可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponent Interconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1010、处理器1020及通信接口1030集成在一块芯片上,则存储器1010、处理器1020及通信接口1030可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(Advanced RISC Machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机访问存储器(RandomAccess Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM均可用。例如,静态随机访问存储器(Static RAM,SRAM)、动态随机访问存储器(Dynamic RandomAccess Memory,DRAM)、同步动态随机访问存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机访问存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机访问存储器(Enhanced SDRAM,ESDRAM)、同步链接动态随机访问存储器(Sync link DRAM,SLDRAM)和直接内存总线随机访问存储器(Direct RambusRAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中描述的或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请记载的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种视频摘要生成的方法,其特征在于,包括:
确定对于目标视频的评论信息;
利用所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理,得到多个视频片段;
利用与所述视频片段对应的候选评论信息,生成所述视频片段的摘要;所述候选评论信息为针对所述视频片段的评论信息。
2.根据权利要求1所述的方法,其特征在于,所述利用所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理,得到多个视频片段,包括:
利用所述评论信息的密度和所述评论信息的内容特征,确定所述目标视频的切分节点;
利用所述切分节点对所述目标视频进行分段处理,得到所述多个视频片段。
3.根据权利要求2所述的方法,其特征在于,所述利用所述评论信息的密度和所述评论信息的内容特征,确定所述目标视频的切分节点,包括:
利用所述目标视频在第i个时间段的评论信的密度和在所述第i个时间段的评论信息的内容特征,确定所述第i个时间段的时间段特征,所述i为正整数;
在所述第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异大于对应差异阈值的情况下,将所述第i个时间段和所述第i-1个时间段之间的时间节点确定为所述切分节点;所述第i个时间段和所述第i-1个时间段是根据预定策略对目标视频进行预切分得到的。
4.根据权利要求1至3任一所述的方法,其特征在于,所述评论信息的内容特征的确定方式,包括:
对所述评论信息中的分词进行特征提取处理,得到所述分词对应的词特征向量;
利用所述词特征向量得到所述评论信息的内容特征向量;
对多个所述评论信息的内容特征向量进行平均池化处理,得到所述评论信息的内容特征。
5.根据权利要求3所述的方法,其特征在于,所述差异的确定方式,包括:
为所述评论信息的密度分配第一初始权重;
为所述评论信息的内容特征分配第二初始权重;
根据指定规则,对所述第一初始权重和所述第二初始权重进行动态调整,得到动态调整结果,所述指定规则是根据所述评论信息数量或所述评论信息的重复情况确定的;
基于所述动态调整结果,确定第i个时间段的时间段特征和第i-1个时间段的时间段特征的差异。
6.根据权利要求1所述的方法,其特征在于,还包括:
利用所述候选评论信息的质量,确定所述视频片段的得分;
基于所述视频片段的得分,确定所述目标视频的精彩片段。
7.根据权利要求1至6任一所述的方法,其特征在于,还包括:
将所述视频片段与所述目标视频进行关联;
在接收到视频片段展示指令的情况下,在所述目标视频的视频预览窗口展示所述视频片段。
8.一种视频摘要生成的方法,其特征在于,包括:
在接收到目标视频的摘要生成指令的情况下,获取所述目标视频的多个视频片段;所述视频片段包含摘要;所述视频片段是在确定出对于目标视频的评论信息后,利用所述所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理得到的,所述摘要是利用与所述视频片段对应的候选评论信息生成的;所述候选评论信息为针对所述视频片段的评论信息;
在所述目标视频的视频预览窗口展示所述视频片段以及与所述视频片段对应的摘要。
9.一种视频摘要生成的装置,其特征在于,包括:
评论信息确定模块,用于确定对于目标视频的评论信息;
视频分段模块,用于利用所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理,得到多个视频片段;
摘要生成模块,用于利用与所述视频片段对应的候选评论信息,生成所述视频片段的摘要;所述候选评论信息为针对所述视频片段的评论信息。
10.一种视频摘要生成的装置,其特征在于,包括:
视频摘要生成模块,用于在接收到目标视频的摘要生成指令的情况下,获取所述目标视频的多个视频片段;所述视频片段包含摘要;所述视频片段是在确定出对于目标视频的评论信息后,利用所述所述评论信息的密度和所述评论信息的内容特征,对所述目标视频进行分段处理得到的,所述摘要是利用与所述视频片段对应的候选评论信息生成的;所述候选评论信息为针对所述视频片段的评论信息;
视频摘要展示模块,用于在所述目标视频的视频预览窗口展示所述视频片段以及与所述视频片段对应的摘要。
11.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现权利要求1-8中任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202211462698.XA 2022-11-21 2022-11-21 视频摘要生成的方法、装置、电子设备及存储介质 Pending CN115767207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211462698.XA CN115767207A (zh) 2022-11-21 2022-11-21 视频摘要生成的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211462698.XA CN115767207A (zh) 2022-11-21 2022-11-21 视频摘要生成的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115767207A true CN115767207A (zh) 2023-03-07

Family

ID=85334556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211462698.XA Pending CN115767207A (zh) 2022-11-21 2022-11-21 视频摘要生成的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115767207A (zh)

Similar Documents

Publication Publication Date Title
JP6824332B2 (ja) 動画サービス提供方法およびこれを用いるサービスサーバ
CN109408639B (zh) 一种弹幕分类方法、装置、设备和存储介质
US8064641B2 (en) System and method for identifying objects in video
US20160014482A1 (en) Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
CN109218629B (zh) 视频生成方法、存储介质和装置
WO2018177139A1 (zh) 一种视频摘要生成方法、装置、服务器及存储介质
US20150293928A1 (en) Systems and Methods for Generating Personalized Video Playlists
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN111258995B (zh) 数据处理方法、装置、存储介质及设备
US20070297643A1 (en) Information processing system, information processing method, and program product therefor
Tapaswi et al. Aligning plot synopses to videos for story-based retrieval
JP2009043156A (ja) 番組検索装置および番組検索方法
CN111161725B (zh) 一种语音交互方法、装置、计算设备及存储介质
CN112733654B (zh) 一种视频拆条的方法和装置
CN108073292B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN111159546A (zh) 事件推送方法、装置、计算机可读存储介质和计算机设备
Bost et al. Remembering winter was coming: Character-oriented video summaries of TV series
CN110879839A (zh) 一种热词识别方法、装置及***
CN109600646B (zh) 语音定位的方法及装置、智能电视、存储介质
CN107515870B (zh) 一种搜索方法和装置、一种用于搜索的装置
KR20210134866A (ko) 동영상 내부의 정보를 검색하는 방법 및 장치
CN114090766A (zh) 视频文本筛选方法、装置及电子设备
US20140223466A1 (en) Method and Apparatus for Recommending Video from Video Library
Tarvainen et al. Film mood and its quantitative determinants in different types of scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination