CN114401431B - 一种虚拟人讲解视频生成方法及相关装置 - Google Patents

一种虚拟人讲解视频生成方法及相关装置 Download PDF

Info

Publication number
CN114401431B
CN114401431B CN202210061976.4A CN202210061976A CN114401431B CN 114401431 B CN114401431 B CN 114401431B CN 202210061976 A CN202210061976 A CN 202210061976A CN 114401431 B CN114401431 B CN 114401431B
Authority
CN
China
Prior art keywords
video
virtual person
field
database
voice audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210061976.4A
Other languages
English (en)
Other versions
CN114401431A (zh
Inventor
涂必超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210061976.4A priority Critical patent/CN114401431B/zh
Publication of CN114401431A publication Critical patent/CN114401431A/zh
Application granted granted Critical
Publication of CN114401431B publication Critical patent/CN114401431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例公开了一种虚拟人讲解视频生成方法及相关装置,所述虚拟人讲解视频生成方法包括:接收用户输入的提问信息;从数据库中获取与所述提问信息相关的目标文档;基于所述目标文档生成动画视频,所述动画视频包括有语音音频;从所述数据库中获取人物图像以及标准人物模型,并基于所述人物图像和标准人物模型形成虚拟人;将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频。本申请实施例中,通过生成虚拟人讲解视频解答用户发起的提问信息,进而解决用户的疑惑,虚拟人讲解视频通过虚拟人模拟真人讲课的情形,方便用户理解虚拟人讲解视频要呈现的内容含义。

Description

一种虚拟人讲解视频生成方法及相关装置
技术领域
本发明涉及数据转换技术领域,特别是涉及一种虚拟人讲解视频生成方法及相关装置。
背景技术
现有技术中,当用户存有疑问时,通过搜索引擎搜索相关的文档,搜索的文档中具有大量的文字,用户通过阅读文档中的文字以理解文档中的内容含义的过程比较枯燥,有些用户无法静下心来阅读文档中的文字,有些用户在理解文档的过程中容易分神,导致理解不到位,综上,当用户存有疑问时,通过搜索相关文档以获得答案具有较大的局限性,文档通过文字表达其蕴含的意思内容不够生动,导致用户理解文档蕴含的意思内容时效率比较低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种虚拟人讲解视频生成方法及相关装置,通过生成虚拟人讲解视频解答用户发起的提问信息,进而解决用户的疑惑,虚拟人讲解视频通过虚拟人模拟真人讲课的情形,方便用户理解虚拟人讲解视频要呈现的内容含义。
第一方面,本申请实施例提供一种虚拟人讲解视频生成方法,包括:
接收用户输入的提问信息;
从数据库中获取与所述提问信息相关的目标文档;
基于所述目标文档生成动画视频,所述动画视频包括有语音音频;
从所述数据库中获取人物图像以及标准人物模型,并基于所述人物图像和标准人物模型形成虚拟人;
将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频。
在一种可能的实现方式中,所述从数据库中获取与所述提问信息相关的目标文档,包括:
解读所提问信息,以得到所述提问信息的意思内容;
从所述意思内容中提取关键词;
基于所述关键词从所述数据库中获取与所述意思内容相符的目标文档。
在一种可能的实现方式中,所述基于所述关键词从数据库中获取与所述意思内容相符的目标文档,包括:
将所述关键词输入至数据库中以查询得到与所述关键词相关联的预存文档集合;
从所述预存文档集合中筛选出与所述意思内容一致的目标文档。
在一种可能的实现方式中,所述基于所述目标文档生成动画视频,包括:
获取目标文档的字段;
基于所述字段生成所述语音音频;
从数据库中与所述字段匹配的视频模板;
将所述字段、语音音频***到所述视频模板中,以形成所述动画视频。
在一种可能的实现方式中,所述将所述字段、语音音频***到所述视频模板中,以形成所述动画视频,包括:
解码所述视频模板,得到多个视频帧,所述视频帧具有可***字段的字幕框;
将所述语音音频的起始时间点、结束时间点分别与所述视频模板的起始视频帧、结束视频帧对齐,以确定所述语音音频与多个所述视频帧的对应关系;
拆分所述字段以形成多个子字段,并确定所述多个子字段与所述视频模板中多个视频帧的对应关系;
将各个所述子字段分别***至与之对应的视频帧中的字幕框内,以形成动画视频。
在一种可能的实现方式中,所述基于所述人物图像和标准人物模型形成虚拟人,包括:
采集所述人物图像的特征参数以及标准人物模型参数;
基于所述特征参数、所述标准人物模型参数形虚拟人。
在一种可能的实现方式中,所述语音音频包括多个读音,所述将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频,包括:
根据所述语音音频的各个读音确定所述虚拟人与各个读音对应的嘴型;
基于所述虚拟人与各个读音对应的嘴型确定所述虚拟人的唇部运动轨迹;
使所述虚拟人的唇部的运动轨迹与所述语音音频同步以形成虚拟人讲解视频。
第二方面,本申请实施例提供一种虚拟人讲解视频生成装置,所述虚拟人讲解视频生成装置包括:
接收模块,用于接收用户输入的提问信息;
获取模块,用于从数据库中获取与所述提问信息相关的目标文档;
动画视频生成模块,用于基于所述目标文档生成动画视频,所述动画视频包括有语音音频;
虚拟人形成模块,用于从所述数据库中获取人物图像以及标准人物模型,并基于所述人物图像和标准人物模型形成虚拟人;
融合模块,用于将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括储存器和处理器,所述储存器用于储存计算机指令,所述处理器用于调用所述计算机指令以执行如上所述的方法。
第四方面,本申请实施例提供一种计算机储存介质,所述计算机储存介质存储有计算机指令,所述计算机指令被处理器执行时实现如上所述的方法。
在本申请提供的实施例中,所述虚拟人讲解视频生成装置在接收到用户的提问信息后,从数据库查询与所述提问信息相关的目标文档,并基于所述目标文档生成动画视频,并将生成的虚拟人融合到动画视频中以生成虚拟人讲解视频,通过虚拟人讲解视频回答用户提出的问题信息,以解读用户的疑惑,同时方便用户理解目标文档的内容含义,提高用户的理解目标文档的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种虚拟人讲解视频生成方法的流程示意图;
图2是本申请实施例提供的一种虚拟人讲解视频生成装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现有技术中,当用户存有疑问时,通过搜索引擎搜索相关的文档,搜索的文档中具有大量的文字,用户通过阅读文档中的文字以理解文档中的内容含义的过程比较枯燥,有些用户无法静下心来阅读文档中的文字,有些用户在理解文档的过程中容易分神,导致理解不到位,综上,当用户存有疑问时,通过搜索相关文档以获得答案具有较大的局限性,文档通过文字表达其蕴含的意思内容不够生动,导致用户理解文档蕴含的意思内容时效率比较低。
请参见图1,本申请实施例公开了一种虚拟人讲解视频生成方法,所述方法包括但不限于步骤S1-S5。
S1,接收用户输入的提问信息。
所述方法的执行主体可以虚拟人讲解视频生成装置100,所述虚拟人讲解视频生成装置100可以是电脑、手机等智能设备。
在本申请提供的实施例中,所述提问信息可以是用户通过语音向所述虚拟人讲解视频生成装置100发出的提问,还可以是用户通过手动在所述虚拟人讲解视频生成装置100输入的提问。
对应地,所述虚拟人讲解视频生成装置100可以接收用户通过语音发出的提问,还可以接收用户通过手动输入的提问信息,示例性地,所述提问信息可以是“具有腰腿疼适合购买什么样的保险”。
S2,从数据库中获取与所述提问信息相关的目标文档。
在本申请提供的实施例中,所述虚拟人讲解视频生成装置100在接收目标提问信息后,解读所述提问信息,识别出所述提问信息的意思内容,然后在数据中查询与所述提问相关联的目标文档,其中,所述目标文档中的内容用于回答所述提问信息,示例性的,当所述提问信息为“买保险有什么作用”时,所述目标文档的内容可以是“保险可以帮助个人或机构减少经济危害,增强其风险管理意识,保证其在受到损害时及时的恢复和转移风险”等内容。
在本申请提供的实施例中,所述数据库一早预存有多个文档,当虚拟人讲解视频生成装置100接收到提问信息时,所述虚拟人讲解视频生成装置100从数据库中获取能够解答所述提问信息的目标文档。
S3,基于所述目标文档生成动画视频,所述动画视频包括有语音音频。
在本申请提供的实施例中,所述目标文档可以具有字段和图像,在基于所述目标文档生成动画视频时,可以将目标文档中的图像作为视频帧,根据所述目标文档中的字段生成语音音频,将所述语音音频和所述视频合并形成所述动画视频。
在基于所述目标文档生成动画视频时,可以基于所述目标文档的字段生成语音音频,在从数据库中选择视频模板,将所述语音音频***到所述视频模板中以形成所述动画视频。
在本申请提供的实施例中,动画视频具有语音音频,所述语音音频对应目标文档的字段,在生成所述虚拟人讲解视频后,所述虚拟人讲解视频生成装置100可以播放语音音频以回答用户的提问,方便用户理解。
S4,从数据库中获取人物图像以及标准人物模型,并基于所述人物图像和标准人物模型形成虚拟人;
在本申请提供的实施例中,数据预存有人物图像和标准人物模型,通过所述人物图像和标准人物模型可以构建虚拟人。
所述人物图像为二维图像,标准人物模块可以是三维人物模型,在构建虚拟人时,可以获取二维图像的特征参数和标准人物模块参数,根据二维图像的特征参数和标准人物模块参数生成所述虚拟人。
S5,将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频。
在本申请提供的实施例中,将所述虚拟人***到动画视频,当形成的虚拟人讲解视频在播放时,视频画面中具有所述虚拟人。
具体地,在将所述虚拟人***到所述动画视频中后,当播放所述动画视频时,可驱动所述虚拟人的动作表情与播出的语音同步,以模拟虚拟人在说话的情形。
在本申请提供的实施例中,所述虚拟人讲解视频生成装置100在接收到用户的提问信息后,从数据库查询与所述提问信息相关的目标文档,并基于所述目标文档生成动画视频,并将生成的虚拟人融合到动画视频中以生成虚拟人讲解视频,通过虚拟人讲解视频回答用户提出的问题信息,以解读用户的疑惑,同时方便用户理解目标文档的内容含义,提高用户的理解目标文档的效率。
所述从数据库中获取与所述提问信息相关的目标文档,包括:
解读所提问信息,以得到所述提问信息的意思内容;
从所述意思内容中提取关键词;
基于所述关键词从所述数据库中获取与所述意思内容相符的目标文档。
在本申请提供的实施例中,用户输入的提问信息可能是用户通过语音口头表达的,所述虚拟人讲解视频生成装置100需要理解所述提问信息,将所述提问新整理后提取关键词。
示例性地,当用户输出的提问信息为“具有腰腿疼适合购买什么样的保险”,所述虚拟人讲解视频生成装置100可以提取“腰腿疼”、“保险”等关键词,在通过所述关键词从数据库中获取意思内容与所述提问信息相符的目标文档。
所述基于所述关键词从数据库中获取与所述意思内容相符的目标文档,包括:
将所述关键词输入至数据库中查询得到与所述关键词相关联的预存文档集合;
从所述预存文档集合中筛选出与所述意思内容一致的目标文档。
在本申请实施例中,数据库中预先储存有各种各样的预存文档,当所述虚拟人讲解视频生成装置100通过“腰腿疼”、“保险”可以在所述数据库中查询到关于“腰腿痛”、“保险”的预存文档,查询到的预存文档的数量可能比较多,在具体获取目标文档时,从预存文档中筛选出与所述提问信息最相符的目标文档。
在本申请提供的实施例中,从预存文档中筛选出与所述提问信息最相符的目标文档时,可以根据关键词查询与目标文档相关联的预存文档,计算各个预存文档中含有所述关键词的数量,对所述预存文档进行排名,将含有所述关键词数量最多的预存文档确定为目标文档。
在本申请提供的实施例中,在基于所述目标文档生成动画视频时,获取目标文档的字段,所述字段可以包括多个文字,所述字段的语种可以是汉语、英语等,所述字段还可以同时包含多个语种混杂的文字。
在本申请提供的实施例中,将所述目标文档的字段转化为语音音频,具体地,通过解读所述目标问题中字段的意思内容,得出所述字段中各个文字的读音,将所述字段的各个文字的读音串联起来形成所述语音音频。
在本申请提供的实施例中,以字段的类型为汉语为例,字段中文字可能会存在多音字,具体在生成所述读音音频时,要根据所述多音字所在子字段的整体意思进行判断,通过识别子字段的内容意义,进而可确定子字段中各个文字的读音。
当所述字段包括多个语种混杂的文字时,以所述字段含有汉字和英文单词为例,在基于所述字段生成所述语音音频时,汉字以汉语进行发音,英文单词以英语进行发音。
在本申请提供的实施例中,可以从数据库中获取视频模板,所述视频模板的时长大于等于所述语音音频的时长。
在本申请提供的实施例中,当所述视频模板的时长大于所述语音音频的时长时,可以对所述视频模板进行剪辑,使所述语音音频的时长与所述视频模板的时长相同。
在本申请提供的实施例中,可以将所述目标文档的字段***到视频模板中,以作为所述视频模板的字幕,再将所述语音音频***到所述视频模板以形成所述动画视频,其中,在播放所述动画视频时,所述字段作为字幕的展示进程与所述语音音频的播放进程同步。
将所述字段***到视频模板中以作为所述视频模板的字幕时,可将所述字段拆分为多个子字段,在播放所述动画视频时,可以使多个子字段逐个展示。
在本申请提供的实施例中,在形成所述动画视频时,可以解码所述视频模板,得到多个视频帧,其中,所述视频帧具有可***字段的字幕框。
在本申请提供的实施例中,所述视频帧具有可***图像的图像框,在形成所述动画视频时,所述虚拟人讲解视频生成装置100可以对目标文档的字段进行分析,以识别所述目标文档的内容含义,再基于所述目标文档的内容含义从数据库中查询与所述内容含义相关的图像,再将所述图像***到所述图像框中。
具体地,所述字段具有多个子字段,每个子字段对应至少一个视频帧,在将所述图像***到所述图像框中时,具体解析各个子字段的内容含义,根据所述内容含义从数据库中查询图像,当所述子字段对应多个视频帧时,所述虚拟人讲解视频生成装置100可以从数据库中查询多张连贯的与所述子字段内容含义相关联的图像,并将多张所述图像分别***到多个视频帧的图像框中,其中,从数据库中查询的多张连贯图像的数量与所述子字段对应的视频帧的数量可以相同,也可以不同;当多张连贯图像的数量大于所述子字段对应的视频帧的数量,可以将多个图像同时***到一个视频帧的图像框中,当多张连贯图像的数量小于所述子字段对应的视频帧的数量时,所述子字段中对应的部分视频帧中可以不***图像。
在一种可能的实现方式中,在形成所述动画视频时,可以将视频模板中的各个视频帧的背景都去掉,然后在各个所述视频帧的图像框中***从数据库中查询得到的图像,以所述图像作为所述视频帧的背景。
在本申请提供的实施例中,所述语音音频具有起始时间点和结束时间点,所述视频模板具有起始时间点和结束时间,在将所述语音音频***到所述动画视频中时,将所述语音音频的起始时间点、结束时间点分别与所述视频模板的起始视频帧、结束视频帧对齐,此时,可以确定所述语音音频与多个所述视频帧的对应关系。
在本申请提供的实施例中,各个视频帧的字幕框的尺寸可以预先设定,子字段中的文字大小可以通过人为设定,预先设定的字幕框在***子字段时,所述字幕框中可***的子字段的字符的数量为有限的,示例性地,当子字段的字符数量为20个,而所述子字段所对应的视频帧的字幕框的字符数量限制为15时,可以将子字段拆分两个分子字段,可以将两个分子字段的数量都需要小于15个,具体地,可以将字符数量为20的子字段拆分为两个字符数量为10的分子字段,也可以将字符数量为20的子字段拆分为第一分子字段和第二分子字段,所述第一分子字段的字符数量为15,第二分子字段的数量为5,在将所述子字段拆分两个分子字段时,不改变所述子字段原本的意思内容。
具体地,在将所述目标文档中的字段拆分为多个子字段时,所述读音音频对应拆分为多个子读音音频,当所述语音音频的起始时间点、结束时间点分别与所述视频模板的起始视频帧、结束视频帧对齐时,可以确定各个子字段所对应的视频帧,同时可以确定各个子语音音频所对应的视频帧。
在确定各个子字段与所述视频模板中视频帧的对应关系后,将各个所述子字段分别***至与之对应的视频帧中的字幕框内。
在本申请实施例中,在形成所述虚拟人时,可以通过采集所述人物图像的特征参数和标准人物模型参数,然后基于所述人物图像的特征参数和标准人物模型参数形成所述虚拟人。
在本申请提供的实施例中,所述语音音频包括多个读音,所述将所述虚拟人融合到所述动画视频时,使所述虚拟人的运动轨迹与所述语音音频同步,以模拟虚拟人说话的情形。
具体地,虚拟人模拟说话的情形时,所述虚拟人的唇部需具有运动轨迹,在本申请提供的实施例中,根据所述语音音频的各个读音确定所述虚拟人与各个读音对应的嘴型。
基于所述虚拟人与各个读音对应的嘴型确定所述虚拟人的唇部运动轨迹,使得所述虚拟人的运动轨迹与所述语音音频同步。
请参见图2,本申请实施例还提供一种虚拟人讲解视频生成装置100,所述虚拟人讲解视频生成装置100包括:
接收模块110,用于接收用户输入的提问信息;
获取模块120,用于从数据库中获取与所述提问信息相关的目标文档;
动画视频生成模块130,用于基于所述目标文档生成动画视频,所述动画视频包括有语音音频;
虚拟人形成模块140,用于从数据库中获取人物图像以及标准人物模型,并基于所述人物图像和标准人物模型形成虚拟人;
融合模块150,用于将所述虚拟人融合到所述动画视频中,以形成虚拟人讲解视频。
该装置所涉及的与本申请实施例提供的技术方案相关的概念,解释和详细说明及其他步骤请参见前述方法或其他实施例中关于装置执行的方法步骤的内容的描述,此处不做赘述。
请参见图3,为本申请实施例提供的电子设备,所述电子设备可包括处理器210、储存器220和通信接口230。处理器210、储存器220和通信接口230通过总线240连接,该储存器220用于存储指令,该处理器210用于执行该储存器220存储的指令。
处理器210用于执行该储存器220存储的指令,以控制通信接口230接收和发送信号,完成上述方法中的步骤。其中,所述储存器220可以集成在所述处理器210中,也可以与所述处理器210分开设置。
在一种可能的实现方式中,通信接口230的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器210可以考虑通过专用处理芯片、处理电路、处理器或者通用芯片实现。
本申请实施例还提供一种计算机储存介质,所述计算机储存介质存储有计算机指令,所述计算机指令被处理器执行时实现上述的方法。
在另一种可能的实现方式中,可以考虑使用通用计算机的方式来实现本申请实施例提供的装置。即将实现处理器210,通信接口230功能的程序代码存储在储存器220中,通用处理器通过执行储存器220中的代码来实现处理器210,通信接口230的功能。
该装置所涉及的与本申请实施例提供的技术方案相关的概念,解释和详细说明及其他步骤请参见前述方法或其他实施例中关于装置执行的方法步骤的内容的描述,此处不做赘述。
作为本实施例的另一种实现方式,提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中的方法。
本领域技术人员可以理解,在实际的终端或服务器中,可以存在多个处理器和储存器。储存器也可以称为存储介质或者存储设备等,本申请实施例对此不做限制。
应理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
还应理解,本申请实施例中提及的储存器可以是易失性储存器或非易失性储存器,或可包括易失性和非易失性储存器两者。其中,非易失性储存器可以是只读储存器(Read-Only Memory,简称ROM)、可编程只读储存器(Programmable ROM,简称PROM)、可擦除可编程只读储存器(Erasable PROM,简称EPROM)、电可擦除可编程只读储存器(Electrically EPROM,简称EEPROM)或闪存。易失性储存器可以是随机存取储存器(RandomAccess Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取储存器(Static RAM,简称SRAM)、动态随机存取储存器(Dynamic RAM,简称DRAM)、同步动态随机存取储存器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取储存器(Double Data RateSDRAM,简称DDR SDRAM)、增强型同步动态随机存取储存器(Enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取储存器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取储存器(Direct Rambus RAM,简称DRRAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,储存器(存储模块)集成在处理器中。
应注意,本文描述的储存器旨在包括但不限于这些和任意其它适合类型的储存器。
该总线除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线。
还应理解,本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机储存器,闪存、只读储存器,可编程只读储存器或者电可擦写可编程储存器、寄存器等本领域成熟的存储介质中。该存储介质位于储存器,处理器读取储存器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,简称ILB)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种虚拟人讲解视频生成方法,其特征在于,包括:
接收用户输入的提问信息;
从数据库中获取与所述提问信息相关的目标文档;
获取目标文档的字段;通过解读所述目标文档中字段的意思内容,得出所述字段中各个文字的读音,将所述字段的各个文字的读音串联起来形成语音音频;从数据库中获取与所述字段匹配的视频模板;解码所述视频模板,得到多个视频帧,所述视频帧具有可***字段的字幕框;将所述语音音频的起始时间点、结束时间点分别与所述视频模板的起始视频帧、结束视频帧对齐,以确定所述语音音频与多个所述视频帧的对应关系;拆分所述字段以形成多个子字段,并确定所述多个子字段与所述视频模板中多个视频帧的对应关系;将各个所述子字段分别***至与之对应的视频帧中的字幕框内,再将所述语音音频***到所述视频模板中;以形成动画视频;
从所述数据库中获取人物图像以及标准人物模型,采集所述人物图像的特征参数以及标准人物模型参数;基于所述特征参数和所述标准人物模型参数形成虚拟人;
根据所述语音音频的各个读音确定所述虚拟人与各个读音对应的嘴型;基于所述虚拟人与各个读音对应的嘴型确定所述虚拟人的唇部运动轨迹;使所述虚拟人的唇部的运动轨迹与所述语音音频同步,将所述虚拟人融合到所述动画视频中,以形成用于解答所述提问信息的虚拟人讲解视频。
2.如权利要求1所述的一种虚拟人讲解视频生成方法,其特征在于,所述从数据库中获取与所述提问信息相关的目标文档,包括:
解读所提问信息,以得到所述提问信息的意思内容;
从所述意思内容中提取关键词;
基于所述关键词从所述数据库中获取与所述意思内容相符的目标文档。
3.如权利要求2所述的一种虚拟人讲解视频生成方法,其特征在于,所述基于所述关键词从数据库中获取与所述意思内容相符的目标文档,包括:
将所述关键词输入至数据库中以查询得到与所述关键词相关联的预存文档集合;
从所述预存文档集合中筛选出与所述意思内容一致的目标文档。
4.一种虚拟人讲解视频生成装置,其特征在于,包括:
接收模块,用于接收用户输入的提问信息;
获取模块,用于从数据库中获取与所述提问信息相关的目标文档;
动画视频生成模块,用于获取目标文档的字段;通过解读所述目标文档中字段的意思内容,得出所述字段中各个文字的读音,将所述字段的各个文字的读音串联起来形成语音音频;从数据库中获取与所述字段匹配的视频模板;解码所述视频模板,得到多个视频帧,所述视频帧具有可***字段的字幕框;将所述语音音频的起始时间点、结束时间点分别与所述视频模板的起始视频帧、结束视频帧对齐,以确定所述语音音频与多个所述视频帧的对应关系;拆分所述字段以形成多个子字段,并确定所述多个子字段与所述视频模板中多个视频帧的对应关系;将各个所述子字段分别***至与之对应的视频帧中的字幕框内,再将所述语音音频***到所述视频模板中;以形成动画视频;
虚拟人形成模块,用于从所述数据库中获取人物图像以及标准人物模型,采集所述人物图像的特征参数以及标准人物模型参数;基于所述特征参数和所述标准人物模型参数形成虚拟人;
融合模块,用于根据所述语音音频的各个读音确定所述虚拟人与各个读音对应的嘴型;基于所述虚拟人与各个读音对应的嘴型确定所述虚拟人的唇部运动轨迹;使所述虚拟人的唇部的运动轨迹与所述语音音频同步,将所述虚拟人融合到所述动画视频中,以形成用于解答所述提问信息的虚拟人讲解视频。
5.一种电子设备,其特征在于,所述电子设备包括储存器和处理器,所述储存器用于储存计算机指令,所述处理器用于调用所述计算机指令以执行如权利要求1-3任一项所述的方法。
6.一种计算机储存介质,其特征在于,所述计算机储存介质存储有计算机指令,所述计算机指令被处理器执行时实现上述权利要求1-3任意一项所述的方法。
CN202210061976.4A 2022-01-19 2022-01-19 一种虚拟人讲解视频生成方法及相关装置 Active CN114401431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210061976.4A CN114401431B (zh) 2022-01-19 2022-01-19 一种虚拟人讲解视频生成方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210061976.4A CN114401431B (zh) 2022-01-19 2022-01-19 一种虚拟人讲解视频生成方法及相关装置

Publications (2)

Publication Number Publication Date
CN114401431A CN114401431A (zh) 2022-04-26
CN114401431B true CN114401431B (zh) 2024-04-09

Family

ID=81231643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210061976.4A Active CN114401431B (zh) 2022-01-19 2022-01-19 一种虚拟人讲解视频生成方法及相关装置

Country Status (1)

Country Link
CN (1) CN114401431B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115515002A (zh) * 2022-09-22 2022-12-23 深圳市木愚科技有限公司 基于虚拟数字人的智能化慕课生成方法、装置及存储介质
CN115761114B (zh) * 2022-10-28 2024-04-30 如你所视(北京)科技有限公司 视频生成方法、装置及计算机可读存储介质
CN116520982B (zh) * 2023-04-18 2023-12-15 云南骏宇国际文化博览股份有限公司 一种基于多模态数据的虚拟人物切换方法及***
CN117221465B (zh) * 2023-09-20 2024-04-16 北京约来健康科技有限公司 一种数字视频内容合成方法及***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN104731959A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 基于文本的网页内容生成视频摘要的方法、装置及***
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110381266A (zh) * 2019-07-31 2019-10-25 百度在线网络技术(北京)有限公司 一种视频生成方法、装置以及终端
JP2020005309A (ja) * 2019-09-19 2020-01-09 株式会社オープンエイト 動画編集サーバおよびプログラム
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110876024A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
JP2020065307A (ja) * 2020-01-31 2020-04-23 株式会社オープンエイト サーバおよびプログラム、動画配信システム
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム
CN112328742A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于人工智能的培训方法、装置、计算机设备及存储介质
CN112785667A (zh) * 2021-01-25 2021-05-11 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113160366A (zh) * 2021-03-22 2021-07-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种3d人脸动画合成方法及***
CN113781610A (zh) * 2021-06-28 2021-12-10 武汉大学 一种虚拟人脸的生成方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN104731959A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 基于文本的网页内容生成视频摘要的方法、装置及***
CN110876024A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110381266A (zh) * 2019-07-31 2019-10-25 百度在线网络技术(北京)有限公司 一种视频生成方法、装置以及终端
JP2020005309A (ja) * 2019-09-19 2020-01-09 株式会社オープンエイト 動画編集サーバおよびプログラム
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
JP2020065307A (ja) * 2020-01-31 2020-04-23 株式会社オープンエイト サーバおよびプログラム、動画配信システム
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム
CN112328742A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于人工智能的培训方法、装置、计算机设备及存储介质
CN112785667A (zh) * 2021-01-25 2021-05-11 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113160366A (zh) * 2021-03-22 2021-07-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种3d人脸动画合成方法及***
CN113781610A (zh) * 2021-06-28 2021-12-10 武汉大学 一种虚拟人脸的生成方法

Also Published As

Publication number Publication date
CN114401431A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN114401431B (zh) 一种虚拟人讲解视频生成方法及相关装置
CN109195007B (zh) 视频生成方法、装置、服务器及计算机可读存储介质
CN114390220B (zh) 一种动画视频生成方法及相关装置
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和***
CN109979450B (zh) 信息处理方法、装置及电子设备
CN109558513A (zh) 一种内容推荐方法、装置、终端及存储介质
CN111666006B (zh) 画作问答方法及装置、画作问答***、可读存储介质
CN108846378A (zh) 手语识别处理方法及装置
CN111107442A (zh) 音视频文件的获取方法、装置、服务器及存储介质
CN112287168A (zh) 用于生成视频的方法和装置
US11929100B2 (en) Video generation method, apparatus, electronic device, storage medium and program product
CN107729491B (zh) 提高题目答案搜索的准确率的方法、装置及设备
CN110489674B (zh) 页面处理方法、装置及设备
CN116702749A (zh) 多媒体内容分析方法、装置、设备及存储介质
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN111859970B (zh) 用于处理信息的方法、装置、设备和介质
CN114443938A (zh) 多媒体信息的处理方法、装置、存储介质和处理器
CN113542797A (zh) 视频播放中的互动方法、装置及计算机可读存储介质
WO2021102754A1 (zh) 数据处理方法、装置和存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN112784527B (zh) 一种文档合并方法、装置及电子设备
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN114913042A (zh) 教学课件生成方法、装置、电子设备及存储介质
CN108280118A (zh) 文本播读方法、装置及客户端、服务器和存储介质
CN114037946A (zh) 视频分类的方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant