CN115148187A - 一种智能人物复刻终端的***实现方法 - Google Patents

一种智能人物复刻终端的***实现方法 Download PDF

Info

Publication number
CN115148187A
CN115148187A CN202210773471.0A CN202210773471A CN115148187A CN 115148187 A CN115148187 A CN 115148187A CN 202210773471 A CN202210773471 A CN 202210773471A CN 115148187 A CN115148187 A CN 115148187A
Authority
CN
China
Prior art keywords
target
video
past
deceased
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210773471.0A
Other languages
English (en)
Other versions
CN115148187B (zh
Inventor
司马华鹏
刘杰
周雪兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
Nanjing Silicon Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Silicon Intelligence Technology Co Ltd filed Critical Nanjing Silicon Intelligence Technology Co Ltd
Priority to CN202210773471.0A priority Critical patent/CN115148187B/zh
Publication of CN115148187A publication Critical patent/CN115148187A/zh
Application granted granted Critical
Publication of CN115148187B publication Critical patent/CN115148187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供了一种智能人物复刻终端的***实现方法,包括:获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频;所述过往图像包括所述逝者的面部图像,所述逝者面部视频用于指示所述面部图像按照预设方式进行表情变化;根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型;将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;根据所述逝者过往的音频片段训练预设的语音合成模型以获取目标语音合成模型;将所述目标文本内容输入至所述目标语音合成模型中,生成目标音频;根据所述逝者面部视频中所述逝者的面部表情变化同步输出所述目标音频至用户。

Description

一种智能人物复刻终端的***实现方法
技术领域
本申请涉及智能终端领域,具体而言,涉及一种智能人物复刻终端的***实现方法。
背景技术
作为使用者进行祭拜或祭祀对象的传统的祖先龛,祖先龛内部所放置的遗像及牌位等图像,其均为静态的。随着时代变迁,新一代的后代子孙无法了解先人的过往。对于祖先的音容样貌也完全生疏,大大增加了后人祭拜先人的过程中体验感差与先人感觉生疏的问题。
而现有的祖先龛透露关于逝者的有限信息,诸如姓名、寿命或至多具有相片;难以保存祖先历史。加大了通过祭拜祖先对年轻一代进行有关祖先伟大善行的教育而致敬的困难。许多时候,对于年轻一代而言对于关于祖先存在如果有任何记忆的话也只是一种模糊记忆。随着时间的推移,这会弱化家族内的联系;有可能断绝家族的联系。
针对相关技术中,使用者进行祭拜时对祖先存在生疏感的问题,相关技术中尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种智能人物复刻终端的***实现方法,以至少解决相关技术中用户在进行祭拜时对祖先存在生疏感的技术问题。
本申请提供了一种智能人物复刻终端的***实现方法,包括:获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频;其中,所述过往图像包括所述逝者的面部图像,所述逝者面部视频用于指示所述面部图像按照预设方式进行表情变化;根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型;将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;根据所述逝者过往的音频片段训练预设的语音合成模型以获取目标语音合成模型;将所述目标文本内容输入至所述目标语音合成模型中,生成目标音频;根据所述逝者面部视频中所述逝者的面部表情变化同步输出所述目标音频至用户。
在一种实现方式中,所述获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频,具体包括:获取所述逝者对应的过往图像;将所述过往图像输入至预先训练的人脸识别模型中,识别所述逝者过往图像中的人脸区域,提取所述逝者对应的人脸图像;对所述人脸图片进行复原处理,提升所述人脸图像的清晰度;通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频;提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频;对所述超分处理视频进行清晰化处理,获取逝者面部视频。
在一种实现方式中,所述通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频,具体包括:设定一驱动视频,所述驱动视频为真人按预设的表情变化方式进行表情变化并录制的真人视频,或包括所述预设的表情变化方式的其他视频;将所述驱动视频与所述人脸图像同步输入至预先训练的表情迁移模型中;通过所述表情迁移模型,将所述驱动视频中的人物表情变化迁移至所述人脸图像上,获取与所述人脸图像对应的表情迁移视频。
在一种实现方式中,提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频,具体包括:设定所述表情迁移视频的初始分辨率;对所述表情迁移视频进行逐帧提升,将所述表情迁移视频的分辨率提升至目标分辨率。
在一种实现方式中,根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型,包括:获取所述逝者过往的语言片段;将所述逝者过往的语言片段作为训练样本,对预设的所述语言模型进行训练以生成具有所述逝者的语言特征以及语言习惯的目标语言模型;将目标缅怀主题输入至所述目标语言模型,以生成与所述目标缅怀主题对应的目标文本内容,所述目标文本内容为按照所述目标语言模型学习到的所述逝者的语言特征以及语言习惯对应生成的文本内容。
在一种实现方式中,所述逝者过往的语言片段为所述用户提供的所述逝者与所述用户之间的过往沟通文本,或针对特定事件所进行交流的过往语言资料文本,或所述逝者撰写的文本。
在一种实现方式中,还可以通过不同专业领域的专业样本,对所述语言模型进行训练,以使所述语言模型根据所述专业领域生成专业主题文本。
在一种实现方式中,根据所述逝者对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型,具体包括:获取所述逝者对应的过往音频片段;将所述逝者对应的过往音频片段作为训练样本,对预设的语音合成模型进行训练以生成具有所述逝者音频特征的目标语音合成模型;将所述目标文本内容输入至所述目标语音合成模型,生成与所述目标文本内容对应的音频并输出至所述用户。
在一种实现方式中,所述用户所要缅怀的逝者可以为一个,或,同一逝者的对应不同年龄阶段,或,多个不同的逝者。
在一种实现方式中,所述逝者对应的过往图像还包括所述逝者的其他部位图像,通过所述预设的语音合成模型以及语言模型对所述逝者其他部位图像进行训练以生成所述逝者的其他部位动态视频。
由以上技术方案可知,基于本申请提供的一种智能人物复刻终端的***实现方法可实现用户与缅怀对象之间进行实时的视频、音频以及语言交互,以从视频、音频以及语言风格三个维度建立缅怀对象并呈现给用户,使用户与缅怀对象之间形成有效的交互,让用户形成缅怀对象仍在身边的真实感。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一种智能人物复刻终端的***实现方法的流程示意图;
图2为本申请实施例获取用户所要缅怀的逝者对应的过往图像,并根据过往图像生成逝者面部视频的流程示意图;
图3为本申请实施例通过预设的驱动视频,对人脸图像进行人脸表情迁移,获取与人脸图像对应的表情迁移视频的流程示意图;
图4为本申请实施例根据逝者过往的语言片段训练预设的语言模型以获取目标语言模型的流程示意图;
图5为本申请实施例根据逝者对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型的流程示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
如图1所示,本申请实施例提供了一种智能人物复刻终端的***实现方法,方法包括:
S1,获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频;其中,所述过往图像包括所述逝者的面部图像,所述逝者面部视频用于指示所述面部图像按照预设方式进行表情变化。
在一些实施例中,所述用户所要缅怀的逝者可以为一个,或同一逝者的对应不同年龄阶段,或多个不同的逝者。
需要说明的是,在本申请中,所要缅怀的逝者可指示用户的祖先,也可以为用户其它过世的亲友,或供用户及大众缅怀的对象。进一步的,所要缅怀的逝者可以为多个,分别对应逝者的不同年龄段,例如,可根据逝者18至30岁、40至60岁、70至90岁三个年龄段的形象分别对应建立三个对象。
在一些实施例中,所述获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频,如图2所示,具体包括:S11,获取所述逝者对应的过往图像;S12,将所述过往图像输入至预先训练的人脸识别模型中,识别所述逝者过往图像中的人脸区域,提取所述逝者对应的人脸图像;S13,对所述人脸图片进行复原处理,提升所述人脸图像的清晰度;S14,通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频;S15,提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频;S16,对所述超分处理视频进行清晰化处理,获取逝者面部视频。
示例性的,上述过往图像为用户所提供的逝者的照片。上述人脸区域识别的方法可以为将用户所要缅怀的逝者对应的过往图像输入至预先训练的人脸识别模型中,以识别过往图像中的人脸区域,提取对应的人脸图像;人脸识别模型具体可采用OpenFace等。若提取出的人脸图像分辨率较低,则可复原此人脸,以提升人脸图像的清晰度。
在一些实施例中,所述通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频,如图3所示,具体包括:S111,设定一驱动视频,所述驱动视频为真人按预设的表情变化方式进行表情变化并录制的真人视频,或包括所述预设的表情变化方式的其他视频;S112,将所述驱动视频与所述人脸图像同步输入至预先训练的表情迁移模型中;S113,通过所述表情迁移模型,将所述驱动视频中的人物表情变化迁移至所述人脸图像上,获取与所述人脸图像对应的表情迁移视频。
具体的,预先设定一驱动视频,将该驱动视频中的人物表情变化迁移至上述人脸图像上,以获取人脸图像对应的表情迁移视频;该表情迁移视频指人脸图像按照驱动视频中的人物表情变化方式进行相应的表情变化的视频。
上述驱动视频可以为真人按照预设的表情变化方式进行表情变化并录制的真人视频,也可采用其它包括预设的表情变化方式的视频,如动画人物视频,电影/电视片段等。上述表情变化迁移的具体过程为,将驱动视频与人脸图像同步输入至预先训练的表情迁移模型中,以输出表情迁移视频。表情迁移视频具体可采用ReenactGAN等。
在一些实施例中,提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频,具体包括:设定所述表情迁移视频的初始分辨率;对所述表情迁移视频进行逐帧提升,将所述表情迁移视频的分辨率提升至目标分辨率。
具体的,设定表情迁移视频的原分辨率为256x256,可对表情迁移视频进行逐帧提升,以将表情迁移视频的分辨率升至512x512,进而实现表情迁移视频的超分处理。
结合上述超分处理后的表情迁移视频中相邻帧的信息,进一步提升表情迁移视频的清晰度,获得目标视频;该目标视频为目标图像中的人脸部分按照上述S1中设定的方式进行面部表情动作的动态照片。
在一些实施例中,所述逝者对应的过往图像还包括所述逝者的其他部位图像,通过所述预设的语音合成模型以及语言模型对所述逝者其他部位图像进行训练以生成所述逝者的其他部位动态视频。
需要说明的是,本申请提供的一种智能人物复刻终端的***实现方法不限于单纯的人脸,对于逝者的其它部位,亦可通过上述方式,通过相应的模型进行其它部位动态图像的生成。
本申请提供的一种智能人物复刻终端的***实现方法可以针对逝者的同一张过往图像,分别执行上述步骤以生成多个逝者面部视频,进而分别对应同一过往图像采用不同的表情变化;以此,可根据不同的设定展示不同的逝者面部视频。
S2,根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型;
在一些实施例中,根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型,如图4所示,包括:S21,获取所述逝者过往的语言片段;S22,将所述逝者过往的语言片段作为训练样本,对预设的所述语言模型进行训练以生成具有所述逝者的语言特征以及语言习惯的目标语言模型;S23,将目标缅怀主题输入至所述目标语言模型,以生成与所述目标缅怀主题对应的目标文本内容,所述目标文本内容为按照所述目标语言模型学习到的所述逝者的语言特征以及语言习惯对应生成的文本内容。
进一步的,所述目标语言为所述用户提供的所述逝者与所述用户之间的沟通文本,或针对特定事件所进行交流的语言资料文本,或所述逝者撰写的文本。
所述目标语言还包括针对不同专业领域的专业样本,通过所述专业样本对所述语言模型进行训练,以使所述语言模型根据所述专业领域生成专业主题文本。
具体的,获取逝者对应的过往语言片段。通常而言,该过往语言片段为用户所提供的逝者生前与用户之间日常进行交流的语言资料,或针对特定事件所进行交流的语言资料,或逝者的笔记、书信等;上述过往语言片段以文本的方式呈现。
进一步的,通过上述基于过往语言片段对语言模型的训练,可令语言模型所输出的内容参照过往语言片段对应的用户祖先对应的语言风格、习惯等。所述语言模型具体可采用GPT-2、GPT-3等。
S3,将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;
具体的,将目标缅怀主题输入至所述目标语言模型中,即可根据目标缅怀主题生成相应的目标文本内容,该目标文本内容为按照语言模型所学习到的逝者的语言风格、习惯等对应生成的内容。
通常而言,语言模型自身可实现对通识性问题根据用户的输入确定相应的输出,即上述目标缅怀主题;因此,对于通识领域,可直接采用已有的语言模型针对用户输入以生成对应的目标主题。如若用户期望输出可依据逝者的经历或观念对应生成的文本内容,则需将上述文本内容按照问答样本的形式整理,以此对语言模型进行训练,进而令语言模型可根据逝者的经历或观念生成目标主题,并进一步依据逝者的语言习惯、风格等生成目标文本内容。如若用户期望输出可对于针对性领域对应生成的文本内容,例如心理学领域,则需采用心理学领域的专业样本对语言模型进行训练,进而令语言模型可根据该领域内的专业知识生成目标主题,并进一步依据逝者的语言习惯、风格等生成目标文内容本。
S4,根据所述逝者过往的音频片段训练预设的语音合成模型以获取目标语音合成模型;
在一些实施例中,根据所述逝者对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型,如图5所示,具体包括:S41,获取所述逝者对应的过往音频片段;S42,将所述逝者对应的过往音频片段作为训练样本,对预设的语音合成模型进行训练以生成具有所述逝者音频特征的目标语音合成模型;S43,将所述目标文本内容输入至所述目标语音合成模型,生成与所述目标文本内容对应的音频并输出至所述用户。
在上述实施例中,获取逝者对应的过往音频,通常而言,该过往音频为用户所提供的逝者的音频资料。将所述过往音频作为训练样本,对预设的语音合成模型进行训练。通过前述基于过往音频对语音合成模型的训练,可令语音合成模型所输出的音频参照过往音频对应的逝者的声音。该语音合成模型具体可采用Merlin***、端到端***等。
在一些实施例中,所述逝者过往的语言片段为所述用户提供的所述逝者与所述用户之间的过往沟通文本,或针对特定事件所进行交流的过往语言资料文本,或所述逝者撰写的文本。
在一些实施例中,还可以通过不同专业领域的专业样本,对所述语言模型进行训练,以使所述语言模型根据所述专业领域生成专业主题文本。
S5,将所述目标文本内容输入至所述目标语音合成模型中,生成目标音频;
具体的,所述目标音频为将待所述目标文本内容以所述逝者的声音进行阐述的音频。
特别的,所述目标文本内容可以为预先设定的,例如,在预设节日或日期中主动向用户播报设定好的祝福或期许等;所述目标文本内容也可以是对用户的反馈,例如,针对用户的输入通过关键字库或语言模型所确定的反馈内容。
S6,根据所述逝者面部视频中所述逝者的面部表情变化同步输出所述目标音频至用户。
具体的,由训练得到的目标语言模型生成相应的目标文本内容,并进一步由训练得到的目标语音合成模型根据所述目标文本内容生成相应的输出音频以进行输出。
以上为对本申请提供的一种智能人物复刻终端的***实现方法中各步骤的细节描述。下面为本申请提供的具体实施例。
示例性实施例1
本示例性实施例中,所要缅怀的逝者为单一的用户祖先。
(1)获取用户祖先对应的过往图像,并根据所述过往图像生成面部视频;
(2)根据所述用户祖先对应的过往语言片段训练预设的语言模型以获取目标语言模型;
(3)将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;
(4)根据所述用户祖先对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型;
(5)将所述目标文本内容输入至所述目标语音合成模型中,生成与所述目标文本内容对应的音频;
(6)根据所述面部视频中所述用户祖先的面部表情变化同步输出所述音频至用户。
该示例性实施例中,分别获取该用户祖先的过往图像、过往音频片段与过往语言片段,根据过往图像生成视频,根据过往音频片段完成语音合成模型的训练,根据过往语言片段完成语言模型的训练。过往音频片段可为该祖先在世时的影像资料,过往语言片段可为用户与该祖先在世时通过社交软件的交流记录,或该祖先亲自书写的文章等。
示例性实施例2
本示例性实施例中,所述逝者为单一的用户祖先。
(1)获取用户祖先对应的过往图像,并根据所述过往图像生成面部视频;
(2)根据所述用户祖先对应的过往语言片段训练预设的语言模型以获取目标语言模型;
(3)将目标缅怀主题输入至所述目标语言模型中,获取与所述目标主题对应的目标文本内容;
(4)根据所述用户祖先对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型;
(5)将所述目标文本内容输入至所述目标语音合成模型中,生成与所述目标文本内容对应的音频;
(6)根据所述面部视频中所述用户祖先的面部表情变化同步输出所述音频至用户。
本示例性实施例中,过往图像可对应生成多个面部视频(即通过选取多个驱动视频,分别对应不同的表情变化),以对应用户祖先不同的表情变化。
该示例性实施例中,可以根据季节,节日,以及用户的输入选取不同的表情变化进行输出。
示例性实施例3
本示例性实施例中,逝者为三个,分别对应用户祖先18至30岁、40至60岁、70至90岁三个年龄段。
(1)获取用户祖先18至30岁、40至60岁、70至90岁三个年龄段对应的过往图像,并根据所述过往图像生成面部视频;
(2)根据所述用户祖先18至30岁、40至60岁、70至90岁三个年龄段对应的过往语言片段训练预设的语言模型以获取目标语言模型;
(3)将目标缅怀主题输入至所述目标语言模型中,获取与所述目标主题对应的目标文本内容;
(4)根据所述用户祖先18至30岁、40至60岁、70至90岁三个年龄段对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型;
(5)将所述目标文本内容输入至所述目标语音合成模型中,生成与所述目标文本内容对应的音频;
(6)根据所述面部视频中所述用户祖先的面部表情变化同步输出所述音频至用户。
本示例性实施例中,对于可获取的过往音频片段与过往语言片段,即采用对应的音频与文本;对于不可获取的过往音频片段与过往语言片段,例如该祖先在18至30岁年龄段未能记载下相应的音频与文本,则采用该年龄段类似人的音频,以及该祖先18至30岁年龄段对应年代的公开文本作为用户祖先的过往音频与语言。
示例性实施例4
本示例性实施例中,逝者为多个,分别对应用户家族中的不同祖先(以下描述为家庭成员A、B、C、D,其中,A为B的父亲,B为C的弟弟,B为D的父亲,D为用户的父亲)。
(1)分别获取A、B、C、D对应的过往图像,并根据所述过往图像生成面部视频;
(2)根据所述A、B、C、D对应的过往语言片段训练预设的语言模型以获取目标语言模型;
(3)将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;
(4)根据所述A、B、C、D对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型;
(5)将所述目标文本内容输入至所述目标语音合成模型中,生成与所述目标文本内容对应的音频;
(6)根据所述目标视频中所述所述A、B、C、D对应的面部表情变化同步输出所述音频至用户。
通过上述示例性实施例,本申请提供的一种智能人物复刻终端的***实现方法,可使用户祖先与用户之间形成视频、音频及语言三个层面的交互,从而让子孙更多的了解祖先的音容笑貌,增加亲切感。
本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等,意味着结合该实施例描述的具体特征,部件或特性包括在至少一个实施例中,因此,本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等,并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、部件或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型皆包括在本申请的范围之内。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种智能人物复刻终端的***实现方法,其特征在于,方法包括:
获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频;其中,所述过往图像包括所述逝者的面部图像,所述逝者面部视频用于指示所述面部图像按照预设方式进行表情变化;
根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型;
将目标缅怀主题输入至所述目标语言模型中,获取与所述目标缅怀主题对应的目标文本内容;
根据所述逝者过往的音频片段训练预设的语音合成模型以获取目标语音合成模型;
将所述目标文本内容输入至所述目标语音合成模型中,生成目标音频;
根据所述逝者面部视频中所述逝者的面部表情变化同步输出所述目标音频至用户。
2.根据权利要求1所述的方法,其特征在于,所述获取用户所要缅怀的逝者对应的过往图像,并根据所述过往图像生成逝者面部视频,具体包括:
获取所述逝者对应的过往图像;
将所述过往图像输入至预先训练的人脸识别模型中,识别所述逝者过往图像中的人脸区域,提取所述逝者对应的人脸图像;
对所述人脸图片进行复原处理,提升所述人脸图像的清晰度;
通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频;
提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频;
对所述超分处理视频进行清晰化处理,获取逝者面部视频。
3.根据权利要求2所述的方法,其特征在于,所述通过预设的驱动视频,对所述人脸图像进行人脸表情迁移,获取与所述人脸图像对应的表情迁移视频,具体包括:
设定一驱动视频,所述驱动视频为真人按预设的表情变化方式进行表情变化并录制的真人视频,或包括所述预设的表情变化方式的其他视频;
将所述驱动视频与所述人脸图像同步输入至预先训练的表情迁移模型中;
通过所述表情迁移模型,将所述驱动视频中的人物表情变化迁移至所述人脸图像上,获取与所述人脸图像对应的表情迁移视频。
4.根据权利要求2所述的方法,其特征在于,提升所述表情迁移视频的分辨率,对所述表情迁移视频进行超分处理,获取超分处理视频,具体包括:
设定所述表情迁移视频的初始分辨率;
对所述表情迁移视频进行逐帧提升,将所述表情迁移视频的分辨率提升至目标分辨率。
5.根据权利要求1所述的方法,其特征在于,根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型,包括:
获取所述逝者过往的语言片段;
将所述逝者过往的语言片段作为训练样本,对预设的所述语言模型进行训练以生成具有所述逝者的语言特征以及语言习惯的目标语言模型;
将目标缅怀主题输入至所述目标语言模型,以生成与所述目标缅怀主题对应的目标文本内容,所述目标文本内容为按照所述目标语言模型学习到的所述逝者的语言特征以及语言习惯对应生成的文本内容。
6.根据权利要求5所述的方法,其特征在于,所述逝者过往的语言片段为所述用户提供的所述逝者与所述用户之间的过往沟通文本,或针对特定事件所进行交流的过往语言资料文本,或所述逝者撰写的文本。
7.根据权利要求5所述的方法,其特征在于,还可以通过不同专业领域的专业样本,对所述语言模型进行训练,以使所述语言模型根据所述专业领域生成专业主题文本。
8.根据权利要求1所述的方法,其特征在于,根据所述逝者对应的过往音频片段训练预设的语音合成模型以获取目标语音合成模型,具体包括:
获取所述逝者对应的过往音频片段;
将所述逝者对应的过往音频片段作为训练样本,对预设的语音合成模型进行训练以生成具有所述逝者音频特征的目标语音合成模型;
将所述目标文本内容输入至所述目标语音合成模型,生成与所述目标文本内容对应的音频并输出至所述用户。
9.根据权利要求1所述的方法,其特征在于,所述用户所要缅怀的逝者可以为一个,或,同一逝者的对应不同年龄阶段,或多个不同的逝者。
10.根据权利要求1所述的方法,其特征在于,所述逝者对应的过往图像还包括所述逝者的其他部位图像,通过所述预设的语音合成模型以及语言模型对所述逝者其他部位图像进行训练以生成所述逝者的其他部位动态视频。
CN202210773471.0A 2022-07-01 2022-07-01 一种智能人物复刻终端的***实现方法 Active CN115148187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210773471.0A CN115148187B (zh) 2022-07-01 2022-07-01 一种智能人物复刻终端的***实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210773471.0A CN115148187B (zh) 2022-07-01 2022-07-01 一种智能人物复刻终端的***实现方法

Publications (2)

Publication Number Publication Date
CN115148187A true CN115148187A (zh) 2022-10-04
CN115148187B CN115148187B (zh) 2023-08-22

Family

ID=83409741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210773471.0A Active CN115148187B (zh) 2022-07-01 2022-07-01 一种智能人物复刻终端的***实现方法

Country Status (1)

Country Link
CN (1) CN115148187B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3093733A1 (en) * 2015-05-13 2016-11-16 King's Metal Fiber Technologies Co., Ltd. Situational simulation system
CN111317642A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 基于ai模拟逝去人声进行人机对话的骨灰盒
CN111652121A (zh) * 2020-06-01 2020-09-11 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN111857343A (zh) * 2020-07-21 2020-10-30 潘晓明 一种能部分实现数字永生并可与用户交互的***
CN112669422A (zh) * 2021-01-07 2021-04-16 深圳追一科技有限公司 仿真3d数字人生成方法、装置、电子设备及存储介质
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质
CN112926338A (zh) * 2021-03-04 2021-06-08 北京云迹科技有限公司 一种语音生成方法及装置
US20210174089A1 (en) * 2019-12-10 2021-06-10 Accenture Global Solutions Limited Utilizing machine learning models to identify context of content for policy compliance determination
CN114048299A (zh) * 2021-11-23 2022-02-15 深圳前海微众银行股份有限公司 对话方法、装置、设备、计算机可读存储介质及程序产品
CN114168713A (zh) * 2021-12-10 2022-03-11 中国人民解放军空军军医大学 一种智能语音ai安抚方法
CN114283783A (zh) * 2021-12-31 2022-04-05 科大讯飞股份有限公司 语音合成方法、模型训练方法、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3093733A1 (en) * 2015-05-13 2016-11-16 King's Metal Fiber Technologies Co., Ltd. Situational simulation system
CN111317642A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 基于ai模拟逝去人声进行人机对话的骨灰盒
US20210174089A1 (en) * 2019-12-10 2021-06-10 Accenture Global Solutions Limited Utilizing machine learning models to identify context of content for policy compliance determination
CN111652121A (zh) * 2020-06-01 2020-09-11 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN111857343A (zh) * 2020-07-21 2020-10-30 潘晓明 一种能部分实现数字永生并可与用户交互的***
CN112669422A (zh) * 2021-01-07 2021-04-16 深圳追一科技有限公司 仿真3d数字人生成方法、装置、电子设备及存储介质
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质
CN112926338A (zh) * 2021-03-04 2021-06-08 北京云迹科技有限公司 一种语音生成方法及装置
CN114048299A (zh) * 2021-11-23 2022-02-15 深圳前海微众银行股份有限公司 对话方法、装置、设备、计算机可读存储介质及程序产品
CN114168713A (zh) * 2021-12-10 2022-03-11 中国人民解放军空军军医大学 一种智能语音ai安抚方法
CN114283783A (zh) * 2021-12-31 2022-04-05 科大讯飞股份有限公司 语音合成方法、模型训练方法、设备及存储介质

Also Published As

Publication number Publication date
CN115148187B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US20160283465A1 (en) Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
Soysal Labor to culture: Writing Turkish migration to Europe
Erens Textual politics
CN115148187A (zh) 一种智能人物复刻终端的***实现方法
US11658928B2 (en) Virtual content creation method
Spiers Daddy's little girl: Multigenerational queer relationships in Bechdel's Fun Home
Biltereyst et al. Introduction: Movie Magazines, Digitization and New Cinema History
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
WO2022069929A1 (en) System and method for creative learning
Skarpelis Horror vacui: Racial misalignment, symbolic repair, and imperial legitimation in German national socialist portrait photography
Corey Siting the Artist’s Voice
Amideo Undoing Black Masculinity: Isaac Julien’s Alternative Grammar of Visual Representation
De Bruyn Lost and found: an avant-garde trajectory into the audiovisual essay
CN114666307B (zh) 会议互动方法、会议互动装置、设备及存储介质
Zipes Sensationalist Scholarship: A Putative “New” History of Fairy Tales
Villarejo Queer Film and Performance:" In Theory"
Klotz Many Voices, One Page: Poetic Innovation and Intercultural Protest in" The Cherokee Mother"
Sopranzetti et al. The Possibilities of Graphic Ethnography: An Interview with Claudio Sopranzetti, Sara Fabbri and Chiara Natalucci
Fox Charting the yeast radio virus: exploring the potential of critical virology
Mittenentzwei et al. Ai-Assisted Character Design in Medical Storytelling with Stable Diffusion
CN117668191A (zh) 一种用于葬礼的个性化对话生成***和方法
Kućma et al. A Photograph’s Life and Afterlives
CN117521603A (zh) 一种短视频文案语言模型构建训练方法
CN113901786A (zh) 一种利用图片生成自然语言的方法及***
Nkoala The Message, the Medium and the Means of Argumentation: Towards a More Holistic Approach to the Rhetorical Criticism of Television News Reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant