CN115155058A - 一种捏脸方法、捏脸***及存储介质 - Google Patents

一种捏脸方法、捏脸***及存储介质 Download PDF

Info

Publication number
CN115155058A
CN115155058A CN202211081372.2A CN202211081372A CN115155058A CN 115155058 A CN115155058 A CN 115155058A CN 202211081372 A CN202211081372 A CN 202211081372A CN 115155058 A CN115155058 A CN 115155058A
Authority
CN
China
Prior art keywords
face
natural language
image
language description
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211081372.2A
Other languages
English (en)
Other versions
CN115155058B (zh
Inventor
华菁云
王宇龙
马超
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanzhou Technology Co ltd
Original Assignee
Beijing Lanzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanzhou Technology Co ltd filed Critical Beijing Lanzhou Technology Co ltd
Priority to CN202211081372.2A priority Critical patent/CN115155058B/zh
Publication of CN115155058A publication Critical patent/CN115155058A/zh
Application granted granted Critical
Publication of CN115155058B publication Critical patent/CN115155058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/52Controlling the output signals based on the game progress involving aspects of the displayed game scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及自然语言领域,特别涉及一种捏脸方法、捏脸***及存储介质,本发明的捏脸方法包括以下步骤:获取对目标人脸图像的自然语言描述;随机生成一组人脸图像;计算自然语言描述与一组人脸图像中各图像的相关性;筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。本发明通过用户输入自然语言描述即可获得用户想象中的目标人脸图像,操作简单;此外,本发明获取第一目标人脸图像的时候就已经考虑到人脸图像与自然语言描述之间的相关性,因此获取的第一目标人脸图像效果更好。本发明还提供一种捏脸***与存储介质,该捏脸***与存储介质与上述捏脸方法具有相同的有益效果。

Description

一种捏脸方法、捏脸***及存储介质
技术领域
本发明涉及人脸图像生成技术领域,特别涉及一种捏脸方法、捏脸***及存储介质。
背景技术
捏脸在网络游戏中泛指对虚拟角色样貌进行DIY的数据操作,目前,用户在进入游戏或者登录某个网站或进入元宇宙空间时,想要一个想象中的人脸图像作为头像需要通过满是复杂的拖动条的控制面板来生成用户预期的头像,而对于一般的用户而已,这种操作方式较为复杂,且最终获得的头像往往与用户想象中的样子相差较大。
发明内容
为降低捏脸难度,本发明提供了一种捏脸方法、捏脸***及存储介质。
本发明解决技术问题的方案是提供一种捏脸方法,包括以下步骤:
获取对目标人脸图像的自然语言描述;
随机生成一组人脸图像;
计算所述自然语言描述与所述一组人脸图像中各图像的相关性;
筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。
优选地,筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像之后还包括以下步骤:
判断是否有新的对人像的自然语言描述;
若有,则获取新的对人像的自然语言描述并基于新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。
优选地,所述自然语言描述的包括语音模态的自然语言描述以及文本模态的自然语言描述。
优选地,随机生成一组人脸图像的步骤包括;
通过对抗网络生成器随机生成一组人脸图像。
优选地,计算所述自然语言描述与所述一组人脸图像中各图像的相关性的步骤包括:
通过多模态双塔架构模型逐一计算所述自然语言描述与所述一组人脸图像中各图像的相关性。
优选地,计算所述自然语言描述与所述一组人脸图像中各图像的相关性之后的步骤还包括:
判断所述自然语言描述与所述一组人脸图像中各图像的相关性是否超过预设阈值;
若所述自然语言描述与所述一组人脸图像中各图像之间的相关性均未超过预设阈值,则重新生成一组新的人脸图像。
本发明为解决上述技术问题还提供一种捏脸***,包括输入模块、人像生成模块、文本与图像匹配模块;所述文本与图像匹配模块分别与所述输入模块以及所述人像生成模块信号连接;
所述输入模块用于获取自然语言描述;
所述人像生成模块用于随机生成一组人脸图像;
所述文本与图像匹配模块用于获取第一目标人脸图像。
优选地,所述捏脸***还包括优化模块,所述优化模块分别与所述输入模块以及所述文本与图像匹配模块信号连接;所述优化模块用于对第一目标人脸图像进行修改得到第二目标人脸图像。
优选地,所述文本与图像匹配模块包括比较模块,所述比较模块用于比较对目标人脸图像的自然语言描述与所述一组人脸图像中各图像之间的相关性是否大于预设阈值;所述自然语言描述包括文本模态的自然语言描述与语音模态的自然语言描述;所述输入模块包括语音转文字模块,所述语音转文字模块用于将语音模态的自然语言描述转换成文本模态的自然语言描述。
本发明为解决上述技术问题还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述捏脸方法。
与现有技术相比,本发明的一种捏脸方法、捏脸***及存储介质具有以下优点:
1、本发明的捏脸方法包括以下步骤:获取对目标人脸图像的自然语言描述;随机生成一组人脸图像;计算自然语言描述与一组人脸图像中各图像的相关性;筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。可以理解,使用本发明的捏脸方法用户通过直接输入自然语言描述即可生成和调整人脸图像以获取用户想要的人脸图像即第一目标人脸图像或第二目标人脸图像,而无需通过满是复杂的拖动条的控制面板来进行捏脸,极大地降低了捏脸难度进而降低了用户操作门槛。另外,本发明在获取第一目标人脸图像时就已经考虑到了第一目标人脸图像与目标人脸图像的自然语言描述之间的相关性,不仅提高了第一目标人脸图像的生成效率,同时第一目标人脸图像与目标人脸图像的自然语言描述十分接近,极大地提高了第一目标人脸图像的生成效果,并且可能出现第一目标人脸图像即为用户想要的人脸图像的情况。
2、本发明筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像之后还包括以下步骤:判断是否有新的对人像的自然语言描述;若有,则获取新的对人像的自然语言描述并基于新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。可以理解,在第一目标人脸图像不符合用户预期的情况下,用户会输入新的对人像的自然语言描述对第一目标人脸图像进行修改获得用户预期人脸图像即第二目标人脸图像,极大地提高了用户获得预期人脸图像的可能性。
3、本发明的自然语言描述的包括语音模态的自然语言描述以及文本模态的自然语言描述,因此用户除了可以通过输入对人像的文字描述生成和调整人脸图像外,还可以通过语音直接说出对人像的描述生成和调整人脸图像,因此,通过本发明提供的语音交互形式来生成和调整头像就是一种更便捷灵活的方式;在用户凭想象想要构建虚拟形象时,可以零门槛通过本发明的语音交互形式来生成想要的虚拟形象,如软件中使用到的客服形象、客服头像等,交互方便无门槛,灵活易用。
4、本发明随机生成一组人脸图像的步骤包括;
通过对抗网络生成器随机生成一组人脸图像。本发明通过对抗网络中的生成器生成的一组人脸图像为虚假的人脸图像,避免了侵犯肖像权的问题出现。
5、本发明计算自然语言描述与一组人脸图像中各图像的相关性的步骤包括:通过多模态双塔架构模型逐一计算自然语言描述与一组人脸图像中各图像的相关性,有利于提高初始目标人脸图像生成的效率以及初始目标人脸图像的生成效果。
6、本发明计算自然语言描述与一组人脸图像中各图像的相关性之后的步骤还包括:判断自然语言描述与一组人脸图像中各图像的相关性是否超过预设阈值;若自然语言描述与一组人脸图像中各图像之间的相关性均未超过预设阈值,则重新生成一组新的人脸图像。本发明通过多次随机生成一组人脸图像,直至得到相关性与对目标人脸图像的自然语言描述大于预设阈值的图像,将其作为第一目标人脸图像,若一组人脸图像中存在多个与对人像的自然语言描述相关性大于预设阈值的人脸图像,则将其中相关性最高的人脸图像作为第一目标人脸图像,可以极大地提高第一目标人脸图像的生成效果。
7、本发明还提供一种捏脸***,具有与上述捏脸方法相同的有益效果,在此不做赘述。
8、本发明还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述捏脸方法,具有与上述捏脸方法相同的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的捏脸方法的步骤流程图。
图2是本发明第一实施例提供的捏脸方法的示例图一。
图3是本发明第一实施例提供的捏脸方法的示例图二。
图4是本发明第一实施例提供的捏脸方法的示例图三。
图5是本发明第二实施例提供的捏脸***的框图。
附图标识说明:
1、捏脸***;
10、输入模块;20、人像生成模块;30、文本与图像匹配模块;40、优化模块;
100、语音转文字模块;300、比较模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“左上”、“右上”、“左下”、“右下”以及类似的表述只是为了说明的目的。
请参阅图1,本发明第一实施例提供一种捏脸方法,包括以下步骤:
S1、获取对目标人脸图像的自然语言描述;
S2、随机生成一组人脸图像;
S3、计算自然语言描述与一组人脸图像中各图像的相关性;
S4、筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。
可以理解,本发明中步骤S1与步骤S2不分先后顺序,也可以同时进行。
可以理解,本发明在获取第一目标人脸图像时就已经考虑到了输入的自然语言描述的实际语义,不仅提高了第一目标人脸图像的生成效率,同时第一目标人脸图像与目标人脸图像的自然语言描述十分接近,极大地提高了第一目标人脸图像的生成效果,并且可能出现第一目标人脸图像即为用户想要的人脸图像的情况,当第一目标人脸图像为用户想要的人脸图像时即可结束流程不再进行后续步骤。
进一步地,若第一目标人脸图像不是用户想要的人脸图像时,还可以对第一目标人脸图像进行修改以得到用户想要的人脸图像。因此,筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像之后还包括以下步骤:
S5、判断是否有新的对人像的自然语言描述;
S6、若有,则获取新的对人像的自然语言描述并基于新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。
可以理解,当用户对第一目标人脸图像不满意时,用户就会输入新的对人像的自然语言描述对第一目标人脸图像进行修改,因此就会识别到新的对人像的自然语言描述,并进行后续操作。
进一步地,基于新的对人像的自然语言描述对第一目标人脸图像进行修改包括对第一目标人脸图像进行一次或多次修改;若对第一目标人脸图像进行多次修改,则每次修改之前均需要重新获取新的对人像的自然语言描述。因此,步骤S5与步骤S6可以重复进行无限次直至最终获得用户想要的第二目标人脸图像为止。可以理解,新的对人像的自然语言描述为用户每次输入的不同的对人像的自然语言描述。
进一步地,S3之后的步骤还包括:
S31、判断自然语言描述与一组人脸图像中各图像的相关性是否超过预设阈值;
S32、若自然语言描述与一组人脸图像中各图像之间的相关性均未超过预设阈值,则重新生成一组新的人脸图像。
可以理解,当一组人脸图像中各人脸图像与自然语言描述之间的相关性均低于预设阈值时,重新生成一组新的人脸图像,然后再执行S3,直至进入S4为止。
进一步地,自然语言描述的包括语音模态的自然语言描述以及文本模态的自然语言描述。语音模态的自然语言描述即用户直接说出来的对人像的描述内容,文本模态的自然语言描述即用户通过文本输入的对人像的描述内容。
可以理解,在进入游戏或者登录某个网站或进入元宇宙空间时,用户想要一个想象中的人脸图像作为头像时,采用本发明提供的捏脸方法可以通过语音交互形式来生成和调整人脸图像,相比操作满是复杂的拖动条的控制面板来生成和调整人脸图像而言本发明提供的捏脸方法更便捷灵活,操作更容易;在用户凭想象想要构建虚拟形象时,可以零门槛通过本发明的语音交互形式来生成想要的虚拟形象,如游戏头像、软件中使用到的客服形象、客服头像等。另外,除使用语音外本发明也支持用户输入文字,这样,在用户不方便使用语音的时候,也可以通过打字的方式生成和调整人脸图像以获取用户期望的人脸图像,相对于操作满是复杂的拖动条的控制面板而言,通过输入文字描述的方式生成和调整人脸图像也更加便捷,操作门槛更低,更容易获得满足用户预期的人脸图像。
具体地,当自然语言描述为语音模态的自然语言描述时,会通过ASR(语音识别)模型将语音模态的自然语言描述转换为文本模态的自然语言描述,然后再进行后续步骤处理,便于计算机处理。
进一步地,步骤S2具体为通过对抗网络生成器随机生成一组人脸图像。其中,一组人脸图像为128张人脸图像。
可以理解,本发明的对抗网络生成器需要提前预训练好。生成对抗网络模型包含两部分:生成器和判别器。生成器基于随机噪声生成伪造图片,判别器来区分伪造图片和真实图片。本发明使用真实图片数据集训练一个生成对抗网络模型,在***的实施使用过程中,只使用生成对抗网络模型的生成器部分,用以生成虚假人脸,因此,本发明中的人脸图像均为虚假的人脸图像。所以使用本发明的捏脸方法不需要雇真人模特进行拍照,也不存在侵犯肖像权问题,并且交互方便无门槛,灵活易用。
进一步地,步骤S3具体为通过多模态双塔架构模型逐一计算自然语言描述与一组人脸图像中各图像的相关性。
进一步地,多模态双塔架构模型通过海量的图像与自然语言数据配对预训练。多模态双塔架构模型的训练过程大致如下:数据集为海量的图文对齐数据集即数据集中每一个样本中的自然语言为对应图像内容的贴切描述,该模型的输入是文本模态的自然语言与虚假人脸图像。一个batch size(batch size为128)的文本模态的自然语言通过textencoder编码器转化为text embedding,一个batch size的人脸图像通过image encoder编码器转化为image embedding,训练模型的损失函数为text embedding与image embedding的交叉熵(cross entropy)。通过反向传播的方式对模型进行训练直到模型loss收敛。
进一步地,为了使初始目标人脸图像与对人像的自然语言描述更加贴近,本发明步骤S4中的预设阈值为0.8。
进一步地,步骤S6的具体步骤包括:
S61、基于第一目标人脸图像与第二目标人脸图像的差异获取新的对人像的自然语言描述;
S62、基于大规模预训练多模态模型根据新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。
可以理解,新的对人像的自然语言描述为计算机获取的用户对第一目标人脸图像进行修改输入的内容,只有当用户要进行修改时才会获取到新的对人像的自然语言描述,且新的对人脸的自然语言描述为用户基于第一目标人脸图像与第二目标人脸图像之间的差异输入的内容。
可以理解,本发明的大规模预训练多模态模型为预训练好的视觉-语言模型,通过基于大规模视觉-语言预训练模型设计图文损失函数,并通过梯度反向传播算法不断优化图像,使其更加满足用户输入的人脸描述。
可以理解,本发明的捏脸方法对初始目标人脸图像进行修改可以进行无限次,直至最终得到满足用户预期的第二目标人脸图像。
可以理解,本发明提供的捏脸方法并非只依靠通过一段自然语言描述直接生成用户想要的人脸图像,而是支持通过多次输入自然语言描述无限次对第一目标人脸图像进行修改,直到获取满足用户预期的人脸图像为止,更贴近在游戏或元宇宙等场景中用户捏脸时的使用场景。此外,使用本发明提供的捏脸方法,用户只需要将修改想法直接说出来就可以对初始目标人脸图像进行修改,降低了捏脸的技术门槛,操作简单容易,也更容易获得满足用户预期的人脸图像。
示例性地,请结合图2至图4,用户想要获得一张男孩的人脸图像可以通过以下步骤获得:
用户输入对目标人脸图像的自然语言描述,如:我想要一张卷发阳光男孩的人脸图像,输出如图2所示人脸图像,图2所示的人脸图像即为第一目标人脸图像。此时,若用户觉得图2所示的人脸图像就是自己想要的人脸图像,则可结束流程,不再进行下一步;若用户觉得图2所示的人脸图像不是自己想要的图像,则用户可以对图2所示的人脸图像进行修改,修改步骤如下:
用户输入新的对人像的自然语言描述,如:我想让他表现得生气,输出如图3所示的人脸图像。此时,若用户觉得图3所示的人脸图像就是自己想要的人脸图像,则图3所示的人脸图像为第二目标人脸图像,结束流程;若用户觉得图3所示的人脸图像不是自己想要的人脸图像,则用户可以继续对图3所示的人脸图像进行修改。
继续修改的步骤为用户重新输入新的对人脸的自然语言描述,如:我想让他微笑,输出如图4所示的人脸图像。同理,若用户觉得图4所示的人脸图像就是自己想要的人脸图像,则图4所示的人脸图像为第二目标人脸图像,结束流程;若用户觉得图4所示的人脸图像不是自己想要的人脸图像,则用户可以继续对图4所示的人脸图像进行修改,修改步骤同上,直至最终得到用户想要的人脸图像即第二目标人脸图像。
可以理解,对第一目标人脸图像的修改可以进行无限次,直至最终得到满足用户预期的目标人脸图像为止。
可以理解,对人脸图像的修改包括对五官的修改、对发型的修改、对肤色的修改、对表情的修改、对发色的修改、对妆容的修改、对头饰的修改等。
可以理解,用户输入的内容可以是用户通过说出来的方式输入的语音内容,也可以是用户通过打字的方式输入的文字内容,极大地降低了用户操作门槛。
综上,采用本发明提供的捏脸方法,捏脸门槛低,用户操作简单、容易,并且获得用户想要的人脸图像的效率高,获得的人脸图像效果好更贴近用户想象中的样子。另外,生成的人脸图像为虚假图像不会出现侵犯肖像权的情况。
请参阅图5,本发明第二实施例提供一种捏脸***1,包括输入模块10、人像生成模块20、文本与图像匹配模块30以及优化模块40;输入模块10与文本与图像匹配模块30以及优化模块40信号连接,文本与图像匹配模块30与人像生成模块20以及优化模块40信号连接。
其中,输入模块10用于获取自然语言描述;人像生成模块20用于随机生成一组人脸图像;文本与图像匹配模块30用于获取第一目标人脸图像;优化模块40用于对第一目标人脸图像进行修改以输出第二目标人脸图像。
进一步地,输入模块10包括语音转文字模块100,语音转文字模块100用于将语音模态的自然语言描述转换成文本模态的自然语言描述,便于计算机后续处理。
进一步地,文本与图像匹配模块30包括比较模块300,比较模块300用于比较对目标人脸图像的自然语言描述与一组人脸图像中各图像之间的相关性是否大于预设阈值。
可以理解,用户可以通过语音或文本输入对人像的自然语言描述到输入模块10,当用户通过语音输入对人像的自然语言描述时,输入的语音内容会通过语音转文字模块100转换成文本模态的自然语言描述。
进一步地,语音转文字模块100内设有ASR模型;人像生成模块20内设有预训练后的生成对抗网络生成器;文本与图像匹配模块30内设有预训练后的多模态双塔架构模型;优化模块内设有预训练后的大规模预训练多模态模型。
进一步地,本发明的捏脸***1的工作过程大致如下:
首先,输入模块10输出对目标人脸图像的文本模态的自然语言描述,人像生成模块20的生成对抗网络生成器生成一组人脸图像,其中,一组人脸图像为128张。
可以理解,当用户输入的是语音模态的自然语言描述时,输入模块10通过语音转文字模块100内的ASR模型将语音模态的自然语言描述转换成文本模态的自然语言描述后输出。
然后,文本与图像匹配模块30通过多模态双塔架构模型逐一计算人像生成模块20生成的一组人脸图像中各人脸图像与输入模块10输出的对目标人脸图像的文本模态的自然语言描述之间的相关性,当至少有一张人脸图像与对人像的文本模态的自然语言描述之间的相关性超过预设阈值时,选取相关性最高的那一张人脸图像作为第一目标人脸图像输出,其中,预设阈值为0.8。否则,人像生成模块20重新生成一组人脸图像,同样为128张,然后文本与图像匹配模块30再按照同样的方法计算相关性,直到输出第一目标人脸图像为止。
最后,优化模块40还可以通过大规模预训练多模态模型对第一目标人脸图像进行一次或多次修改,包括对五官、发型、表情等细节进行修改,直至输出满足用户预期的人脸图像即第二目标人脸图像。
可以理解,本发明第二实施例提供的捏脸***1可以与本发明第一实施例提供的捏脸方法配合实现捏脸过程,并且本发明第二实施例提供的捏脸***1与本发明第一实施提供的捏脸方法有益效果相同,在此不做赘述。
进一步地,本发明第三实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一实施例提供的捏脸方法。可以理解,本发明第三实施例提供的存储介质与本发明第一实施例提供的捏脸方法具有相同的有益效果,在此不做赘述。
可以理解地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明的一种捏脸方法、捏脸***及存储介质具有以下优点:
1、本发明的捏脸方法包括以下步骤:获取对目标人脸图像的自然语言描述;随机生成一组人脸图像;计算自然语言描述与一组人脸图像中各图像的相关性;筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。可以理解,使用本发明的捏脸方法用户通过直接输入自然语言描述即可生成和调整人脸图像以获取用户想要的人脸图像即第一目标人脸图像或第二目标人脸图像,而无需通过满是复杂的拖动条的控制面板来进行捏脸,极大地降低了捏脸难度进而降低了用户操作门槛。另外,本发明在获取第一目标人脸图像时就已经考虑到了第一目标人脸图像与目标人脸图像的自然语言描述之间的相关性,不仅提高了第一目标人脸图像的生成效率,同时第一目标人脸图像与目标人脸图像的自然语言描述十分接近,极大地提高了第一目标人脸图像的生成效果,并且可能出现第一目标人脸图像即为用户想要的人脸图像的情况。
2、本发明筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像之后还包括以下步骤:判断是否有新的对人像的自然语言描述;若有,则获取新的对人像的自然语言描述并基于新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。可以理解,在第一目标人脸图像不符合用户预期的情况下,用户会输入新的对人像的自然语言描述对第一目标人脸图像进行修改获得用户预期人脸图像即第二目标人脸图像,极大地提高了用户获得预期人脸图像的可能性。
3、本发明的自然语言描述的包括语音模态的自然语言描述以及文本模态的自然语言描述,因此用户除了可以通过输入对人像的文字描述生成和调整人脸图像外,还可以通过语音直接说出对人像的描述生成和调整人脸图像,因此,通过本发明提供的语音交互形式来生成和调整头像就是一种更便捷灵活的方式;在用户凭想象想要构建虚拟形象时,可以零门槛通过本发明的语音交互形式来生成想要的虚拟形象,如软件中使用到的客服形象、客服头像等,交互方便无门槛,灵活易用。
4、本发明随机生成一组人脸图像的步骤包括;
通过对抗网络生成器随机生成一组人脸图像。本发明通过对抗网络中的生成器生成的一组人脸图像为虚假的人脸图像,避免了侵犯肖像权的问题出现。
5、本发明计算自然语言描述与一组人脸图像中各图像的相关性的步骤包括:通过多模态双塔架构模型逐一计算自然语言描述与一组人脸图像中各图像的相关性,有利于提高初始目标人脸图像生成的效率以及初始目标人脸图像的生成效果。
6、本发明计算自然语言描述与一组人脸图像中各图像的相关性之后的步骤还包括:判断自然语言描述与一组人脸图像中各图像的相关性是否超过预设阈值;若自然语言描述与一组人脸图像中各图像之间的相关性均未超过预设阈值,则重新生成一组新的人脸图像。本发明通过多次随机生成一组人脸图像,直至得到相关性与对目标人脸图像的自然语言描述大于预设阈值的图像,将其作为第一目标人脸图像,若一组人脸图像中存在多个与对人像的自然语言描述相关性大于预设阈值的人脸图像,则将其中相关性最高的人脸图像作为第一目标人脸图像,可以极大地提高第一目标人脸图像的生成效果。
7、本发明还提供一种捏脸***,具有与上述捏脸方法相同的有益效果,在此不做赘述。
8、本发明还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述捏脸方法,具有与上述捏脸方法相同的有益效果,此处不再赘述。
以上对本发明实施例公开的一种捏脸方法、捏脸***及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (10)

1.一种捏脸方法,其特征在于:包括以下步骤:
获取对目标人脸图像的自然语言描述;
随机生成一组人脸图像;
计算所述自然语言描述与所述一组人脸图像中各图像的相关性;
筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像。
2.如权利要求1所述的捏脸方法,其特征在于:筛选相关性高于预设阈值的人脸图像,以相关性最高的人脸图像作为第一目标人脸图像之后还包括以下步骤:
判断是否有新的对人像的自然语言描述;
若有,则获取新的对人像的自然语言描述并基于新的对人像的自然语言描述对第一目标人脸图像进行修改得到第二目标人脸图像。
3.如权利要求1所述的捏脸方法,其特征在于:所述自然语言描述的包括语音模态的自然语言描述以及文本模态的自然语言描述。
4.如权利要求1所述的捏脸方法,其特征在于:随机生成一组人脸图像的步骤包括;
通过对抗网络生成器随机生成一组人脸图像。
5.如权利要求1所述的捏脸方法,其特征在于:计算所述自然语言描述与所述一组人脸图像中各图像的相关性的步骤包括:
通过多模态双塔架构模型逐一计算所述自然语言描述与所述一组人脸图像中各图像的相关性。
6.如权利要求1所述的捏脸方法,其特征在于:计算所述自然语言描述与所述一组人脸图像中各图像的相关性之后的步骤还包括:
判断所述自然语言描述与所述一组人脸图像中各图像的相关性是否超过预设阈值;
若所述自然语言描述与所述一组人脸图像中各图像之间的相关性均未超过预设阈值,则重新生成一组新的人脸图像。
7.一种捏脸***,其特征在于:包括输入模块、人像生成模块、文本与图像匹配模块;所述文本与图像匹配模块分别与所述输入模块以及所述人像生成模块信号连接;
所述输入模块用于获取自然语言描述;
所述人像生成模块用于随机生成一组人脸图像;
所述文本与图像匹配模块用于获取第一目标人脸图像。
8.如权利要求7所述的捏脸***,其特征在于:所述捏脸***还包括优化模块,所述优化模块分别与所述输入模块以及所述文本与图像匹配模块信号连接;所述优化模块用于对第一目标人脸图像进行修改得到第二目标人脸图像。
9.如权利要求7所述的捏脸***,其特征在于:所述文本与图像匹配模块包括比较模块,所述比较模块用于比较对目标人脸图像的自然语言描述与所述一组人脸图像中各图像之间的相关性是否大于预设阈值;所述自然语言描述包括文本模态的自然语言描述与语音模态的自然语言描述;所述输入模块包括语音转文字模块,所述语音转文字模块用于将语音模态的自然语言描述转换成文本模态的自然语言描述。
10.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-6任一项所述的捏脸方法。
CN202211081372.2A 2022-09-06 2022-09-06 一种捏脸方法、捏脸***及存储介质 Active CN115155058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211081372.2A CN115155058B (zh) 2022-09-06 2022-09-06 一种捏脸方法、捏脸***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211081372.2A CN115155058B (zh) 2022-09-06 2022-09-06 一种捏脸方法、捏脸***及存储介质

Publications (2)

Publication Number Publication Date
CN115155058A true CN115155058A (zh) 2022-10-11
CN115155058B CN115155058B (zh) 2023-02-03

Family

ID=83482132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211081372.2A Active CN115155058B (zh) 2022-09-06 2022-09-06 一种捏脸方法、捏脸***及存储介质

Country Status (1)

Country Link
CN (1) CN115155058B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116741197A (zh) * 2023-08-11 2023-09-12 上海蜜度信息技术有限公司 多模态图像生成方法、装置、存储介质及电子设备
CN117839222A (zh) * 2023-12-28 2024-04-09 腾讯科技(深圳)有限公司 三维角色的个性化脸部显示方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259698A (zh) * 2018-11-30 2020-06-09 百度在线网络技术(北京)有限公司 用于获取图像的方法及装置
CN112132912A (zh) * 2019-06-25 2020-12-25 北京百度网讯科技有限公司 建立人脸生成模型以及生成人脸图像的方法、装置
JP6843409B1 (ja) * 2020-06-23 2021-03-17 クリスタルメソッド株式会社 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
CN113642359A (zh) * 2020-04-27 2021-11-12 北京达佳互联信息技术有限公司 人脸图像生成方法、装置、电子设备及存储介质
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN114187165A (zh) * 2021-11-09 2022-03-15 阿里巴巴云计算(北京)有限公司 图像处理方法和装置
CN114359423A (zh) * 2020-10-13 2022-04-15 四川大学 一种基于深度对抗生成网络的文本生成人脸方法
CN114625897A (zh) * 2022-03-21 2022-06-14 腾讯科技(深圳)有限公司 多媒体资源处理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259698A (zh) * 2018-11-30 2020-06-09 百度在线网络技术(北京)有限公司 用于获取图像的方法及装置
CN112132912A (zh) * 2019-06-25 2020-12-25 北京百度网讯科技有限公司 建立人脸生成模型以及生成人脸图像的方法、装置
CN113642359A (zh) * 2020-04-27 2021-11-12 北京达佳互联信息技术有限公司 人脸图像生成方法、装置、电子设备及存储介质
JP6843409B1 (ja) * 2020-06-23 2021-03-17 クリスタルメソッド株式会社 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
CN114359423A (zh) * 2020-10-13 2022-04-15 四川大学 一种基于深度对抗生成网络的文本生成人脸方法
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN114187165A (zh) * 2021-11-09 2022-03-15 阿里巴巴云计算(北京)有限公司 图像处理方法和装置
CN114625897A (zh) * 2022-03-21 2022-06-14 腾讯科技(深圳)有限公司 多媒体资源处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANIMESH KAMEWAR: """T2F:所述即所见,使用深度学习,文本一键生成人脸"", 《HTTPS://WWW.CLOUD.TENCENT.COM/DEVELOPER/NEWS/272688》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116741197A (zh) * 2023-08-11 2023-09-12 上海蜜度信息技术有限公司 多模态图像生成方法、装置、存储介质及电子设备
CN116741197B (zh) * 2023-08-11 2023-12-12 上海蜜度信息技术有限公司 多模态图像生成方法、装置、存储介质及电子设备
CN117839222A (zh) * 2023-12-28 2024-04-09 腾讯科技(深圳)有限公司 三维角色的个性化脸部显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115155058B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN115155058B (zh) 一种捏脸方法、捏脸***及存储介质
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
KR102627802B1 (ko) 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
WO2022166709A1 (zh) 虚拟视频直播处理方法及装置、存储介质、电子设备
CN110706692B (zh) 儿童语音识别模型的训练方法及***
WO2020215551A1 (zh) 合成中文语音的方法、装置、设备及存储介质
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
JP7479750B2 (ja) 仮想ビデオライブ放送処理方法及び装置、電子機器
CN111401101A (zh) 基于人像的视频生成***
US20220335079A1 (en) Method for generating virtual image, device and storage medium
CN112837669B (zh) 语音合成方法、装置及服务器
CN115631267A (zh) 生成动画的方法及装置
CN113793398A (zh) 基于语音交互的绘画方法与装置、存储介质和电子设备
KR20210078863A (ko) 아바타 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN109961152A (zh) 虚拟偶像的个性化互动方法、***、终端设备及存储介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与***
KR102318150B1 (ko) 생성적 적대 신경망 기반 수어 영상 생성 시스템
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
CN116309994A (zh) 虚拟人物面部驱动方法、装置、存储介质及电子设备
CN116168108A (zh) 文本生成图像的方法及装置、存储介质及电子设备
CN116129853A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
JP7352243B2 (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
Viswanathan et al. Text to image translation using generative adversarial networks
CN113160799B (zh) 视频生成方法和装置、计算机可读存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant