CN109218629B - 视频生成方法、存储介质和装置 - Google Patents

视频生成方法、存储介质和装置 Download PDF

Info

Publication number
CN109218629B
CN109218629B CN201811071707.6A CN201811071707A CN109218629B CN 109218629 B CN109218629 B CN 109218629B CN 201811071707 A CN201811071707 A CN 201811071707A CN 109218629 B CN109218629 B CN 109218629B
Authority
CN
China
Prior art keywords
analyzed
picture
video
pictures
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811071707.6A
Other languages
English (en)
Other versions
CN109218629A (zh
Inventor
谢攀
赖长铃
何健
柳瑞超
杨建军
杜玉强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201811071707.6A priority Critical patent/CN109218629B/zh
Publication of CN109218629A publication Critical patent/CN109218629A/zh
Application granted granted Critical
Publication of CN109218629B publication Critical patent/CN109218629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种视频生成方法、存储介质和装置,该方法包括:步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。基于本发明的方法,可以基于单张或多张图片生成其对应的视频,提升用户体验,降低视频制作成本。

Description

视频生成方法、存储介质和装置
技术领域
本发明涉及计算机领域,特别涉及一种视频生成方法、存储介质和装置。
背景技术
相比文字、语音和图片,视频是一种更好的呈现方式,但视频制作依赖人力,成本较高。现存的大量的静态图片,例如绘本,都需要更佳的视频呈现方法。如何将静态图片自动生成视频,是目前急需解决的技术问题。
发明内容
有鉴于此,本发明提供一种视频生成方法、存储介质和装置,以解决如何基于图片自动生成视频的问题。
本发明提供一种视频生成方法,该方法包括:
步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;
步骤14:将每张待分析图片的文字信息转换为音频数据;
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明上述的视频生成方法中的步骤。
本发明还提供一种视频生成装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明使用对抗式生成网络将静态图片生成连续性的视频,本发明设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频,进而确保本发明的视频生成方法可以产生真正的视频。
附图说明
图1为本发明视频生成方法的流程图;
图2为本发明视频生成装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明的视频生成方法包括:
步骤11:选定至少一张待分析图片,确定待分析图片的先后次序。
其中,确定待分析图片的先后次序可以自动依据图片的生成时间确定,如果图片是绘本,还可以自动依据页码确定先后次序,或用户人工确定图片的先后次序。
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15。
识别文字信息可以利用光学字符识别技术,例如利用现有的CNN+BLSTM+CTC组合模型识别并提取每张待分析图片中的文字信息,其中CNN为卷积神经网络,BLSTM为双向长短时记忆循环神经网络,CTC为时序分类算法。绘本的图片上一般都会附带相关的文字信息。
当图片上没有附带文字信息时,例如照片,则用户可以输入相关的文字作为该图片的文字信息。
步骤14:将每张待分析图片的文字信息转换为音频数据。
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频。
现有的生成式对抗网络的输入一般为图片,本发明设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频。
如果待分析图片包含多张图片,可以每次将一张图片及其文字信息输入生成式对抗网络,生成式对抗网络输出该图片相关的子视频,或者一次将所有图片及其文字信息输入生成式对抗网络,生成式对抗网络输出每张图片相关的子视频。一次将所有图片输入生成式对抗网络,有利于生成式对抗网络更好地理解所有图片综合表达的内容。
本发明生成式对抗网络训练方法包括:
步骤201:样本数据准备,从互联网下载视频,将同一场景的视频分割成独立的n个子部分,每个子部分的时长为3-4秒,为每个子部分添加的描述文字;
步骤202:取每个子视频的第一帧备用,通过2D卷积获取该第一帧的特征图向量;将子视频的描述文字转换成向量;并和图像特征向量融合,作为生成式对抗网络的生成器的输入;
步骤203:由生成器预测第一帧后续的数十帧,产生3~4秒的短视频(标准动画的帧率为24fps);
步骤204:生成器产生的短视频作为生成式对抗网络判别器的输入,判别器通过比较子视频(真视频)与短视频(假视频)的偏差来校对生成式对抗网络内的参数。
步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
可选地,在步骤14和步骤15之后,以及步骤17之前还包括:
步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
当每张待分析图片的音频数据的时长与其子视频的时长不同时,可使用ffmpeg调节子视频的播放速度以调整视频时长,或调节音频的比特率来调节音频的时长。考虑到调节比特率会影响音频的播放效果,因此一般采用调节视频时长来匹配音频时长。
在图1中,步骤14的一种实现方式为:
步骤141:通过语音合成TTS(Text To Speech)技术将每张待分析图片的文字信息转换为相应的音频数据。
在图1中,步骤14的另一种实现方式为:
步骤141-1:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
步骤141-2:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
上述CNN+LSTM模型中CNN用于特征提取可采用现有模型。
其中LSTM的训练方法如下:
步骤301:将样本图片输入已经训练好的开源物体检测模型(SSD,YOLO等),开源物体检测模型输出样本图片的多标签属性表;
根据使用场景不同,比如针对动画绘本,可以采集对应的数据集,通过迁移学习微调网络,使得识别效果更出色。
步骤302:识别样本图片所包含的文字信息,并对其进行分词后,匹配上述多标签属性表,如果多标签属性表中的任一标签出现在文字信息中,则增加该标签在多标签属性表中的属性值;比如:文字信息中包含了“鸟”,则将属性表中的“鸟”对应的属性(或称为概率)从0修改为1.0;
步骤303:将多标签属性表输入长短期记忆网络LSTM,LSTM输出该标签属性表的文字增强描述;
步骤304:通过比较文字增强描述和样本图片对应的样本描述之间的差异来训练LSTM。
进一步地,步骤17还包括:将每张图片的文字增强描述以字幕的形式添加到所有待分析图片对应的视频中。
用户在观看合成视频的时候,可以选择是否显示字幕。
本发明的方法可用于儿童绘本,基于绘本图片,将绘本故事转换为视频,用于儿童辅助教育。
本发明的方法还可以用于动画行业,基于少量的画面例如动漫,生成动画,减少动画制作的人力成本。
本发明的方法还用于手机相册的“故事模块”,由用户自己选择,或者根据用户拍摄的时间、地点以及场景的关联性,手动或自动从用户的相册中选取多张图片,然后基于选择的图片生成真实的视频,让“故事模块”可以真正的讲故事,更具趣味性。
本发明的方法还可用于制作社交网站或新闻行业的短视频素材,基于拍摄的原始照片素材,快速生成一段新闻视频。
本发明旨在提供一种新颖的视频生成方式,通过现有的单张或多张静态图片生成其对应的视频,有效提高了信息呈现的可读性,提升用户体验,并减少人力制作视频的成本。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明上述的视频生成方法中的步骤。
本发明还提供一种视频生成装置,包括处理器和上述的非瞬时计算机可读存储介质。
如图2所示,本发明的视频生成装置包括:
图片输入模块:选定至少一张待分析图片,确定待分析图片的先后次序;
文字信息模块:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行音频生成模块和音频生成模块;
音频生成模块:将每张待分析图片的文字信息转换为音频数据;
视频生成模块:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
音视频合成模块:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为待分析图片对应的视频。
可选地,在音频生成模块和视频生成模块之后,以及音视频合成模块之前还包括:
匹配调整模块:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
可选地,在文字信息模块中,识别并提取每张待分析图片中的文字信息包括:基于CNN+BLSTM+CTC模型识别并提取每张待分析图片中的文字信息。
可选地,音频生成模块包括:通过语音合成TTS技术将每张待分析图片的文字信息转换为相应的音频数据。
进一步地,音频生成模块包括:
文字增强模块:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
音频转换模块:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
可选地,音视频合成模块还包括:将每张图片的文字增强描述以字幕的形式添加到待分析图片对应的视频中。
需要说明的是,本发明的视频生成装置的实施例,与视频生成方法的实施例原理相同,相关之处可以互相参照。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种视频生成方法,其特征在于,所述方法包括:
步骤11:选定至少一张待分析图片,确定所述待分析图片的先后次序;
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;
步骤14:将每张待分析图片的文字信息转换为音频数据;
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
步骤17:根据所述待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
2.根据权利要求1所述的方法,其特征在于,在所述步骤14和步骤15之后,以及所述步骤17之前还包括:
步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整所述待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
3.根据权利要求1所述的方法,其特征在于,步骤13中,所述识别并提取每张待分析图片中的文字信息包括:
基于CNN+BLSTM+CTC模型识别并提取每张待分析图片中的文字信息。
4.根据权利要求1所述的方法,其特征在于,所述步骤14包括:
步骤141:通过语音合成TTS技术将每张待分析图片的文字信息转换为相应的音频数据。
5.根据权利要求1所述的方法,其特征在于,所述步骤14包括:
步骤141-1:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
步骤141-2:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
6.根据权利要求5所述的方法,其特征在于,所述步骤17包括:将每张图片的文字增强描述以字幕的形式添加到所有待分析图片对应的视频中。
7.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一所述的视频生成方法中的步骤。
8.一种视频生成装置,其特征在于,包括处理器和如权利要求7所述的非瞬时计算机可读存储介质。
CN201811071707.6A 2018-09-14 2018-09-14 视频生成方法、存储介质和装置 Active CN109218629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811071707.6A CN109218629B (zh) 2018-09-14 2018-09-14 视频生成方法、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811071707.6A CN109218629B (zh) 2018-09-14 2018-09-14 视频生成方法、存储介质和装置

Publications (2)

Publication Number Publication Date
CN109218629A CN109218629A (zh) 2019-01-15
CN109218629B true CN109218629B (zh) 2021-02-05

Family

ID=64983902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811071707.6A Active CN109218629B (zh) 2018-09-14 2018-09-14 视频生成方法、存储介质和装置

Country Status (1)

Country Link
CN (1) CN109218629B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800730B (zh) * 2019-01-30 2022-03-08 北京字节跳动网络技术有限公司 用于生成头像生成模型的方法和装置
CN110164412A (zh) * 2019-04-26 2019-08-23 吉林大学珠海学院 一种基于lstm的音乐自动合成方法及***
CN112037801B (zh) * 2019-05-15 2022-04-29 北京字节跳动网络技术有限公司 用于生成音频的方法和装置
CN110287848A (zh) * 2019-06-19 2019-09-27 北京卡路里信息技术有限公司 视频的生成方法及装置
CN111343512B (zh) * 2020-02-04 2023-01-10 聚好看科技股份有限公司 信息获取方法、显示设备及服务器
CN111538851B (zh) * 2020-04-16 2023-09-12 北京捷通华声科技股份有限公司 自动生成演示视频的方法、***、设备及存储介质
CN113938745B (zh) * 2020-07-14 2023-05-09 Tcl科技集团股份有限公司 一种视频生成方法、终端及存储介质
CN112164130B (zh) * 2020-09-07 2024-04-23 北京电影学院 基于深度对抗网络的视频-动画风格迁移方法
WO2022116487A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 基于生成对抗网络的语音处理方法、装置、设备及介质
CN113207044A (zh) * 2021-04-29 2021-08-03 北京有竹居网络技术有限公司 视频处理方法、装置、电子设备和存储介质
CN117173646A (zh) * 2023-08-17 2023-12-05 金陵科技学院 高速公路障碍物检测方法、***、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650002A (zh) * 2011-05-06 2014-03-19 西尔股份有限公司 基于文本的视频生成
CN104520923A (zh) * 2012-08-10 2015-04-15 卡西欧计算机株式会社 内容再现控制设备、内容再现控制方法和程序
CN107943839A (zh) * 2017-10-30 2018-04-20 百度在线网络技术(北京)有限公司 基于图片和文字生成视频的方法、装置、设备及存储介质
CN107968962A (zh) * 2017-12-12 2018-04-27 华中科技大学 一种基于深度学习的两帧不相邻图像的视频生成方法
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7882258B1 (en) * 2003-02-05 2011-02-01 Silver Screen Tele-Reality, Inc. System, method, and computer readable medium for creating a video clip
CN105262959A (zh) * 2015-10-16 2016-01-20 北京易视通科技有限公司 一种基于“互联网+”模式的微视频生成的***和方法
US10664645B2 (en) * 2016-10-07 2020-05-26 Alltherooms System and method for transposing web content
WO2018069787A1 (en) * 2016-10-14 2018-04-19 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device, broadcasting system, and electronic device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650002A (zh) * 2011-05-06 2014-03-19 西尔股份有限公司 基于文本的视频生成
CN104520923A (zh) * 2012-08-10 2015-04-15 卡西欧计算机株式会社 内容再现控制设备、内容再现控制方法和程序
CN107943839A (zh) * 2017-10-30 2018-04-20 百度在线网络技术(北京)有限公司 基于图片和文字生成视频的方法、装置、设备及存储介质
CN107968962A (zh) * 2017-12-12 2018-04-27 华中科技大学 一种基于深度学习的两帧不相邻图像的视频生成方法
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Generating videos with Scene Dynamics;C.Vondrick et.al;《29th Conference on Neural Information Processing Systems》;20160930;全文 *
MoCoGAN:Decomposing Motion and Content for Video Generation;S.Tulyakov et.al;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;全文 *
Text to Game Characterization:A Starting Point for Generative Adversarial Video Composition;Dongkun Lee et.al;《18 IEEE International Conference on Big Data and Smart Computing》;20180117;正文第IV、V部分,附图2 *

Also Published As

Publication number Publication date
CN109218629A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109218629B (zh) 视频生成方法、存储介质和装置
CN110781347B (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
CN111488489B (zh) 视频文件的分类方法、装置、介质及电子设备
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN107222795B (zh) 一种多特征融合的视频摘要生成方法
CN111708915B (zh) 内容推荐方法、装置、计算机设备和存储介质
US20170300752A1 (en) Method and system for summarizing multimedia content
EP3499900A2 (en) Video processing method, apparatus and device
US10326829B2 (en) Television key phrase detection
CN109660865B (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
US11868738B2 (en) Method and apparatus for generating natural language description information
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
EP3992924A1 (en) Machine learning based media content annotation
CN111372141B (zh) 表情图像生成方法、装置及电子设备
CN113766299B (zh) 一种视频数据播放方法、装置、设备以及介质
CN112738557A (zh) 视频处理方法及装置
CN113014988B (zh) 视频处理方法、装置、设备以及存储介质
CN110717421A (zh) 一种基于生成对抗网络的视频内容理解方法及装置
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
CN110418148B (zh) 视频生成方法、视频生成设备及可读存储介质
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant