CN116091667B - 一种基于aigc技术的人物艺术形象生成*** - Google Patents

一种基于aigc技术的人物艺术形象生成*** Download PDF

Info

Publication number
CN116091667B
CN116091667B CN202310200611.XA CN202310200611A CN116091667B CN 116091667 B CN116091667 B CN 116091667B CN 202310200611 A CN202310200611 A CN 202310200611A CN 116091667 B CN116091667 B CN 116091667B
Authority
CN
China
Prior art keywords
character
generation
image
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310200611.XA
Other languages
English (en)
Other versions
CN116091667A (zh
Inventor
张卫平
张伟
李显阔
王丹
郑小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Digital Group Co Ltd
Original Assignee
Global Digital Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Digital Group Co Ltd filed Critical Global Digital Group Co Ltd
Priority to CN202310200611.XA priority Critical patent/CN116091667B/zh
Publication of CN116091667A publication Critical patent/CN116091667A/zh
Application granted granted Critical
Publication of CN116091667B publication Critical patent/CN116091667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Architecture (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于AIGC技术的人物艺术形象生成***;所述生成***以包括有目标人物形象说明的预设信息训练生成***的AIGC核心,标记出在预设信息中目标人物的至少一个期望特征;再通过参考信息作为训练材料,使生成***学习并训练生成目标人物的相关特征;并且,包括向生成***提供两个或以上目标人物的关系并标记这些目标人物的至少一个特征作为对抗特征,以作为这些目标人物的最大相关性或相异性的特征;进一步地,所述生成***以所述对抗特征作为生成的起点,遵循预置的生成逻辑执行人物形象的生成步骤,最终高效并且产生个性鲜明且具有强烈相似性或相对性的大量人物形象,适用于动画、电影以及其他包括大量角色形象的艺术创作需求。

Description

一种基于AIGC技术的人物艺术形象生成***
技术领域
本发明涉及人工智能处理设备领域。具体而言,涉及一种基于AIGC技术的人物艺术形象生成***。
背景技术
AIGC(Artificial Intelligence Generated Content)即人工智能生成内容,该技术可以用于创造各种艺术内容,包括文字内容、影像图画、音乐;同时基于其对影像图画的创造能力,还可以利用其进行人物形象。通过机器学习和深度学习算法,AIGC可以生成具有逼真外表和行为的人物形象。这种技术可以用于电影、游戏、广告、动画等领域,可以节省制作成本和时间。同时,随着当前电影、游戏的画面特技要求快速增加,通过AIGC辅助生成多个基于特定目标的人物形象,预期将节省以往通过人工设计人物形象的大量工作时间和成本,更有利于创造场景更为宏大,内容更丰富或更具创造性、随机性的人物形象和内容。
根据已公开的技术方案,公开号为CN111768334A的技术方案提出将五官的每个部分在数据库中进行搜索以及多次比对,从而在设计过程中对五官不断作出优化调整;公开号为WO2013120453A1的技术方案提出一种自然人数字化形象设计***,其通过将人物形象分为多个细分特征的分类库,由设计人员将每个特征进行选择、调节后作匹配组合从而形成细节化的形象设计;公开号为WO2011123802A1的技术方案提出将动画人物形象进行三维化设计的***,通过动画师输入多个二维平面的设计,从而将人物形象实现三维化。
以上技术方案均提及到关于人物形象的设计与生成***,然而设计本身需要消耗大量人力资源成本,并且对创意性的要求极高;当前在人工智能技术的高速发展下,应该更好地利用相关方面的技术辅助形象设计领域的应用拓展。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
发明内容
本发明的目的在于,提供一种基于AIGC技术的人物艺术形象生成***;所述生成***以包括有目标人物形象说明的预设信息训练生成***的AIGC核心,标记出在预设信息中目标人物的至少一个期望特征;再通过参考信息作为训练材料,使生成***学习并训练生成目标人物的相关特征;并且,包括向生成***提供两个或以上目标人物的关系并标记这些目标人物的至少一个特征作为对抗特征,以作为这些目标人物的最大相关性或相异性的特征;进一步地,所述生成***以所述对抗特征作为生成的起点,遵循预置的生成逻辑执行人物形象的生成步骤,最终高效并且产生个性鲜明且具有强烈相似性或相对性的大量人物形象,适用于动画、电影以及其他包括大量角色形象的艺术创作需求。
本发明采用如下技术方案:
一种基于AIGC技术的人物艺术形象生成***,所述生成***包括处理器以及用于存储指令和信息数据的存储器;当所述指令由所述处理器执行时,使所述生成***执行:
获取预设信息以及参考信息,并将以上信息传输到存储器;
对所述预设信息中目标人物进行分析,确定目标人物的至少一个特征,并且确定目标人物的至少一个特征的特征数值;
通过预置的识别模型以及基于目标人物的特征,识别参考信息中与目标人物相关的信息,并且提取相关信息中基于特征参数下的多个子参数,以生成每个特征参数对应的子参数集;
生成目标人物形象;
验证生成的人物形象的合理性和创造性;
其中,所述生成***包括分析两个或以上目标人物的联系,确定两个或以上目标人物的逻辑上的相似性关系和相异性关系;
选定上述两个或以上目标人物形象的一个或以上的特征成为对抗特征,对所述对抗特征的特征数值进行设定,以符合上述两个或以上目标人物的逻辑相似性或相异性关系;
优选地,所述生成***包括一个或以上的处理器和存储器,并且处理器和存储器分别配置于运行生成模块和判别模块;其中
所述生成模块,用于生成目标人物的形象;
所述判别模块,用于评估生成模块产生的人物形象与已存在人物形象之间的相似度,从而提供反馈信息来指导所述生成模块生成更为贴近需求的人物形象;
优选地,所述预设信息以及所述参考信息包括:文字信息、视频信息、图像信息以及音频信息中的一种或以上;
优选地,所述生成***包括基于自然语言处理技术,分析文字类型的所述参考信息中指定的目标人物的形象特征,并且包括从目标人物形象的多个特征中,分析所述目标人物形象的多个特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征;
优选地,所述生成***包括基于人工智能视觉技术,分析视频和图像类型的所述参考信息中指定的目标人物的形象特征,并且包括从目标人物形象的多个特征中,分析所述目标人物形象的多个特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征;
优选地,所述生成***在生成目标人物形象时,基于预设的生成逻辑,以规定的数据结构和顺序进行;所述生成逻辑指定了在生成人物形象时各个形象特征的生成次序;在所述生成逻辑中,每个形象特征作为一个节点,多个形象特征之间以网状结构组成连续的生成逻辑;并且,
所述生成逻辑包括允许以任意一个特征的节点作为形象生成起点,沿各节点的网状结构连接次序完成形象的生成步骤;
优选地,在所述生成逻辑的网状结构中,包括将一个或以上的节点设置为关键节点;所述关键节点代表的特征为关键特征;并且
所述对抗特征仅可以为一个或以上的所述关键特征中的其中一个;并且
包括设置所述生成逻辑仅可以从任意一个所述关键节点开始。
本发明所取得的有益效果是:
本发明的生成***采用AIGC技术可以通过大量的训练以及反馈,快速把握目标人物形象的特点,并且由此进行相关的创作,从而节省大量的时间和人力成本;
本发明的生成***通过在***内设定对抗特征,能够针对具有明显相关或相异特性的形象,生成大量辨识度高又具有强关联性的形象群;
本发明的生成***基于设定的生成逻辑执行形象生成的顺序,使得在确定好关键特征后,其余的形象特征可以根据关键特征进行针对性的拓展和细化,有利于生成的形象具有更鲜明的特点而且整体性更高;
本发明的生成***中各软、硬件部分采用了模块化设计,方便今后的升级或者更换相关的软、硬件环境,降低了使用的成本。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定对应的部分。
图1为本发明所述生成***的整体示意图;
图2为本发明实施例一个形象的生成顺序的示意图;
图3为本发明实施例中生成逻辑的节点网络的示意图;
图4为本发明实施例中另一种生成逻辑的节点网络的示意图;
图5为本发明实施例中包括有节点群的生成逻辑的节点网络的示意图。
附图标号说明:12-生成计算设备;14-处理器;16-易失性存储器;18-输入/输出模块;20-通信总线;24-非易失性存储器;26-深度学习神经网络;28-生成模块;30-判别模块;41-预设信息;42-参考信息。
具体实施方式
为了使得本发明的目的技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明 ,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它***、方法和/或特征将变得显而易见。旨在所有此类附加的***、方法、特征和优点都包括在本说明书内。包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位。以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例一:一种基于AIGC技术的人物艺术形象生成***,所述生成***包括处理器以及用于存储指令和信息数据的存储器;当所述指令由所述处理器执行时,使所述生成***执行:
获取预设信息以及参考信息,并将以上信息传输到存储器;
对所述预设信息中目标人物进行分析,确定目标人物的至少一个特征,并且确定目标人物的至少一个特征的特征数值;
通过预置的识别模型以及基于目标人物的特征,识别参考信息中与目标人物相关的信息,并且提取相关信息中基于特征参数下的多个子参数,以生成每个特征参数对应的子参数集;
生成目标人物形象;
验证生成的人物形象的合理性和创造性;
其中,所述生成***包括分析两个或以上目标人物的联系,确定两个或以上目标人物的逻辑上的相似性关系和相异性关系;
选定上述两个或以上目标人物形象的一个或以上的特征成为对抗特征,对所述对抗特征的特征数值进行设定,以符合上述两个或以上目标人物的逻辑相似性或相异性关系;
优选地,所述生成***包括一个或以上的处理器和存储器,并且处理器和存储器分别配置于生成模块和判别模块的运算工作;其中
所述生成模块,用于生成目标人物的形象;
所述判别模块,用于评估生成模块产生的人物形象与已存在人物形象之间的相似度,从而提供反馈信息来指导所述生成模块生成更为贴近需求的人物形象;
优选地,所述预设信息以及所述参考信息包括:文字信息、视频信息、图像信息、音频信息;
优选地,所述生成***包括基于自然语言处理技术,分析文字类型的所述参考信息中指定的目标人物的形象特征,并且包括从目标人物形象的多个特征中,分析所述目标人物形象的多个特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征;
优选地,所述生成***包括基于人工智能视觉技术,分析视频和图像类型的所述参考信息中指定的目标人物的形象特征,并且包括从目标人物形象的多个特征中,分析所述目标人物形象的多个特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征;
优选地,所述生成***在生成目标人物形象时,基于预设的生成逻辑,以规定的数据结构和顺序进行;所述生成逻辑指定了在生成人物形象时各个形象特征的生成次序;在所述生成逻辑中,每个形象特征作为一个节点,多个形象特征之间以网状结构组成连续的生成逻辑;并且,
所述生成逻辑包括允许以任意一个特征的节点作为形象生成起点,沿各节点的网状结构连接次序完成形象的生成步骤;
优选地,在所述生成逻辑的网状结构中,包括将一个或以上的节点设置为关键节点;所述关键节点代表的特征为关键特征;并且
所述对抗特征仅可以为一个或以上的所述关键特征中的其中一个;并且
包括设置所述生成逻辑仅可以从任意一个所述关键节点开始;
如附图1所示,示出了所述生成***的一个示例性的架构示意图;所述生成***包括生成计算设备12,该生成计算设备12包括处理器14、易失性存储器16、输入/输出模块18和非易失性存储器24;非易失性存储器24用于存储所述生成***所需的数据、应用程序或其他必要的信息;其中,所述应用程序包括用于所述生成***生成人物形象时所需要用到的任何算法、程序;并且优选地,所述应用程序中包括用于运行基于AIGC技术的深度学习神经网络26,所述生成模块以及所述判别模块基于该深度学习神经网络26进行所述生成***的人物形象生成步骤;并且所述深度学习神经网络26以生成计算设备12作为运行的硬件主体进行工作;
并且在一些实施方式中,对于预设信息41以及参考信息42的学习、分析、识别亦可以应用所述深度学习神经网络26,在此不作限定;
进一步的,生成计算设备12中包括通信总线20,其可以将处理器14、输入/输出模块18和易失性存储器16可操作地耦合到非易失性存储器24;虽然所述深度学习神经网络26描述为托管(即,执行)在一个生成计算设备12处,但是应当理解,深度学习神经网络26可替代地跨多个生成计算设备托管,生成计算设备12通过网络通信耦合到其他多个生成计算设备;
其中,处理器14是微处理器,其可以为包括中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、片上***(SOC)、现场可编程门阵列(FPGA)、逻辑电路或被配置为执行本文所述的功能的其他合适类型的微处理器中的一个或多个;
进一步的,易失性存储器16可以为例如随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等,其仅在程序执行期间临时存储数据,并且在停止电源电力支持后失去存储功能;在一些示例中,可以使用非易失性随机存取存储器(NVRAM);
优选地,非易失性存储器24是即使在没有外部施加电源的情况下也能保持指令存储数据的存储器,例如闪存、硬盘、只读存储器(ROM)、电可擦可编程存储器(EEPROM)等;在非易失性存储器24中包括用于所述生成***完成本文所述操作的指令的程序,以及这些程序使用的足以执行本文所述操作的数据,例如存储本文上述的预设信息、参考信息,以及用于进行参考信息的分析的识别模型;
基于以上硬件以及软件设置,生成计算设备12执行人工智能计算,以实现人工智能生成内容(AIGC)的运算平台;
在一些实施方式中,应用于人工智能的自然语言处理技术,用于对文字材料的分析;其方法或原理包括以下几个步骤:
文本分析:通过分词、词性标注、命名实体识别等技术,将一段文字材料进行分析,提取出其中的人物名字、行为、情感等相关信息;
实体识别:根据文本中的实体信息,识别出其中的人物实体,并进行实体关系抽取。通过分析人物之间的关系,可以进一步了解他们之间的互动关系、性格特征等;
情感分析:通过对文本中的情感词汇进行识别和分析,了解人物的情感倾向和情绪状态,包括情感正负、强度、极性等;
特征提取:根据文本中提取出的人物信息和情感特征,对人物形象的各种特征进行提取,包括外貌、性格、经历、社会地位等;
数据挖掘:将提取出的特征进行归纳和分析,得出人物形象的重要特征和主题。通过数据挖掘技术,可以挖掘出不同人物形象之间的联系和差异,进一步了解人物形象的内在特点;
在一些实施方式中,可以通过人工智能分析图像资料中的人物形象的特征,其中的技术包括目标检测、人脸检测、人脸识别、面部表情识别、姿势估计等等;目标检测技术可以识别图像中的人物,标记出他们的位置;人脸检测技术可以进一步检测人物的面部,定位并提取出面部特征;人脸识别技术可以将图像中的人物与预先标记的人物库进行匹配,确定他们的身份;面部表情识别技术可以分析人物的表情,推断出他们的情绪状态;姿势估计技术可以检测人物的身体姿势,推断他们的动作或状态;
上述的技术可以单独或结合使用,根据不同的应用场景和需求,对人物形象的特征进行分析和识别;例如,在视频中,可以使用人脸识别技术从画面中的多个人物中确定目标人物的位置并进行持续关注;或者,可以使用面部表情识别技术来确定人物对某个场景、事件或物件的情感反应;或者,可以使用姿势估计技术来识别目标人物的动作,进行相应的响应和控制;
进一步的,人工智能分析图像资料主要使用的计算机视觉技术,包括但不限于以下几种:
物体检测:通过训练模型,识别图像中的物体,通常使用的算法有RCNN、FastRCNN、Faster RCNN、YOLO等;
人脸识别:通过人脸检测、对齐、特征提取等技术,将图像中的人脸与数据库中的人脸进行比对,以确定身份;
姿态估计:通过对图像进行解析,推断出人物的姿势信息,可以用于动作识别、人体分割等应用;
人体分割:将图像中的人物和背景进行分离,以便更好地理解人物的位置、形状等信息;
行为识别:通过视频分析,提取出人物的运动轨迹、姿势等信息,识别出人物的行为,常用的算法有CNN、LSTM等;
目标跟踪:通过追踪图像序列中的物体,推断出物体的位置、速度等信息,以实现目标跟踪的功能;
图像分割:将图像分割成多个部分,以便更好地理解图像中的物体,例如人物形象中的装饰物、衣物、纹身等;
这些技术通常需要大量的数据和计算资源来训练模型和进行分析,并以此形成应用于识别模型,以识别在多种类型信息中的人物的形象中的多个特征,以及对这些特征进行量化以产生对深度神经网络中多个参数及其权重的调节;
因此,当将大量人物形象信息的参考信息42,以及包括有待生成的人物形象的目标信息的所述预设信息41输入所述生成***进行识别于,所述生成***将进行人物形象的分析,其中的主要特征包括:
性别、年龄、面部特征、发型;并且还可以包括服装和服饰,还可以包括姿势和表情,例如微笑、愁眉苦脸等;这些特征可以通过向AIGC提供图像数据集和标签信息来训练识别模型;识别模型可以学习这些特征,并且识别这些特征所代表的程度;
因此当从包括有目标人物的预设信息识别出期望的特征后,例如可以指定为某一个人物,或者该人物的职业形象,或者该人物的某一类发型等等,则可以基于该期望的人物及其特征,识别参考信息中与目标人物相关的信息;
举例来说,在一些实施方式中,目标人物为一个具体的个人;所述生成***从预设信息中标记出目标人物的多个特征,其后则可以从参考信息中识别与该人物相关的信息,例如其面容特征,从而学习其更多的装扮习惯、穿衣习惯以及行为动作习惯等;
在一些实施方式中,目标人物为一个小学生,并忽略该目标人物的面容特征;所述生成***从预设信息中标记出小学生形象的多个特征,例如身高或者服饰等,从而从参考信息中识别更多关于小学生的人物形象的信息,并进行大量学习;
在一些实施方式中,目标人物为一个原始人类;所述生成***从预设信息中标记出原始人类的外型、动作等特征,并从参考信息中识别来自于不同种类部落的原始人类,并对这些来自不同种类部落的原始人类进行特征识别以及差异性的识别;并且,将这些来自不同种类部落的原始人类的多个特征生成相关的子参数集;例如,对于身高特征而言,其参数值可对应于多个高度数值;对于毛发颜色,可以对应于多种颜色数值,等等;
深度学习神经网络26通过分析大量的样本数据,学习到潜在的模式和规律,并建立用于生成人物形象的生成模型;所述深度学习神经网络26包括两个主要组成部分,即生成模块28和判别模块30;生成模块利用随机噪声或其他输入数据作为输入,生成新的艺术作品;判别模块则评估生成模块产生的艺术作品与真实艺术作品之间的相似度,从而提供反馈信息来指导生成模块生成更好的艺术品;在训练过程中,这两个组件不断迭代优化,直到生成模块可以产生逼真的艺术作品为止;
在一些实施方式中,当需要生成大量相似的人物形象时,例如大量的群众、路人时,这些大量的人物形象具有的相似特征例如穿着日常衣物、并且并无明显表情;则在大量生成这些相似程度高的人物形象时,可以以日常衣物、面部表情作为对抗特征,保持这两个特征的特征数值具有较小的差异值;并且在生成形象时,可以以日常衣物或者面部表情作为生成逻辑的起点,生成其他部分以组成整体的形象,使得多个人物形象最终在具有一定差异的同时,同时体现了风格上的整体相似;
在一些实施方式中,当需要生成两个处于相对抗状态的群体(例如敌对的两派别势力、两个不同比赛队伍)的人物形象时,可以采用其衣物、身体上的配饰或者表情作有对抗特征,设置两个群体中该对抗特征中的极性为相反性质,并以此生成其他特征;例如取其中一方的衣服以冷色调风格,则对立一方的衣服以暖色调风格;或者其中一方的面容较为清白,则对立一方的面容较为黝黑,等等;
需要理解的是,对抗特征可以由AIGC***在多个形象的特征中进行筛选后,自行决定;亦可以由AIGC***提供若干个对抗特征后,由相关的执行技术人员进行二次筛选后决定。
实施例二:本实施例应当理解为至少包含前述任意一个实施例的全部特征,并在其基础上进一步改进:
一些实施方式中,需要对生成人物形象时的各个特征的生成顺序进行设定,以统一生成运算的逻辑,减少生成运算中的冲突;在此,指定该生成顺序为生成逻辑;常见的生成逻辑可以为:
(1)设定人物的基本信息和特征,例如性别、年龄、身高、体型、肤色、面部特征等;
(2)确定人物的服装和配饰,包括衣服款式、颜色、纹样,以及配饰如帽子、眼镜、鞋子等;
(3)选择人物的发型和发色,考虑到与面部特征和服装的协调性;
(4)设定人物的表情和姿态,包括眼神、嘴型、手臂姿态等,以增加人物形象的真实感和情感表现力;
如附图2所示,在生成该形象时,依从图中(a)身材基本形态;(b)面部五官;(c)发型、衣服;(d)衣服图案、面部轮廓、下身衣服;(e)整体配色,以完成形象的完整生成;
然而,生成逻辑并非固定不变的,可能会因使用场景、应用目的等因素而有所变化;但总体来说,按照以上逻辑逐步设定人物的各个方面,可以提高生成结果的准确性和可控性;
并且,生成逻辑的顺序可以将特征作为节点,将节点之间进行关系连结以形成网络状关系图;如附图3所示,以节点31为例,其相邻的节点包括32a、32b、32c等等;并且这些节点连续连结,且最终能够闭合形成封闭网络;采用该生成逻辑时,可以以网络中任意一个节点(亦即一个形象特征)作为形象生成的起点,并连续拓展到其余各个节点;
而在另一些实施方式中,如附图4所示,生成逻辑的网络中,并非每个节点均具有相同数量的相邻节点;其中,节点41具有4个相邻节点42a、42b、42c、42d;而节点43只有两个相邻节点42a、42d;具体地体现在生成形象的过程中,某些特征并非随意连接后续的任意特征进行生成,而具有一定的约束。
实施例三:本实施例应当理解为至少包含前述任意一个实施例的全部特征,并在其基础上进一步改进:
在一些实施方式中,在生成逻辑中由相关技术人员设定若干关键节点,以表示若干个关键性的形象的特征,并要求生成逻辑运行时,只允许从选定的多个关键节点中的其中一个作为生成的起点;
还是以附图4为例;关键节点可以设置为节点41或者43,而其余节点则不能够作为生成逻辑的起点;
关键节点代表的关键特征可以根据形象的风格特点而定;例如对于着重以服装作为重要特色的人物形象,则可以将衣服作为关键特征以及对应关键节点;
而在一些实施方式中,可以多个节点形成一个节点群,多个节点群再形成完整的生成逻辑的网络;如附图5所示,节点群51作为生成逻辑的一个节点存在,节点群51内部可以包括有子逻辑的网络,该子逻辑网络具有若干与外部网络连接的节点,以连结到节点52a、52b、52c、52d;节点群51例如可以为形象中的上衣部分,而上衣部分的生成作为子逻辑,构建节点群51的内部;上衣部分例如衣领、衣袖、前胸、后背等各个部分的特征作为节点群51内部的节点组成上衣部分的子逻辑;
通过设置节点群,可以将特征中的更多子特征进行围蔽并完成生成后,再进行后续的形象生成,以形成合理化的形象结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,***和设备是示例。各种配置可以适当地省略,替换或添加各种过程或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种部件。而且,关于某些配置描述的特征可以以各种其他配置组合,如可以以类似的方式组合配置的不同方面和元素。此外,随着技术发展其中的元素可以更新,即许多元素是示例,并不限制本公开或权利要求的范围。
在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路,过程,算法,结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (3)

1.一种基于AIGC技术的人物艺术形象生成***,其特征在于,所述生成***包括处理器以及用于存储指令和信息数据的存储器;当所述指令由所述处理器执行时,使所述生成***执行:
获取预设信息以及参考信息,并将以上信息传输到存储器;
对所述预设信息中目标人物进行分析,确定目标人物的至少一个特征,并且确定目标人物的至少一个特征的特征数值;
通过预置的识别模型以及基于目标人物的特征,识别参考信息中与目标人物相关的信息,并且提取相关信息中基于特征参数下的多个子参数,以生成每个特征参数对应的子参数集;
生成目标人物形象;
验证生成的人物形象的合理性和创造性;
所述生成***还用于分析两个以上目标人物的联系,确定两个以上目标人物的逻辑上的相似性关系和相异性关系;
选定上述两个以上目标人物形象的一个以上的特征成为对抗特征,对所述对抗特征的特征数值进行设定,以符合上述两个以上目标人物的逻辑相似性或相异性关系;
所述处理器和存储器为一个以上,并且所述处理器和存储器用于生成模块和判别模块的运算工作;
所述生成模块,用于生成目标人物的形象;
所述判别模块,用于评估生成模块产生的人物形象与已存在人物形象之间的相似度,从而提供反馈信息来指导所述生成模块生成更为贴近需求的人物形象;
所述生成***还用于基于人工智能视觉技术,分析视频和图像类型的所述参考信息中指定的目标人物的形象特征,从目标人物形象的多个特征中,分析所述目标人物形象的特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征;
所述生成***在生成目标人物形象时,基于预设的生成逻辑,以规定的数据结构和顺序进行;所述生成逻辑指定了在生成人物形象时各个形象特征的生成次序;在所述生成逻辑中,每个形象特征作为一个节点,多个形象特征之间以网状结构组成连续的生成逻辑;并且,所述生成逻辑包括允许以任意一个特征的节点作为形象生成起点,沿各节点的网状结构连接次序完成形象的生成步骤;
在所述生成逻辑的网状结构中,将一个以上的节点设置为关键节点;所述关键节点代表的特征为关键特征;并且设置所述生成逻辑仅可以从任意一个所述关键节点开始。
2.如权利要求1所述生成***,其特征在于,所述预设信息以及所述参考信息包括:文字信息、视频信息、图像信息以及音频信息中的一种以上。
3.如权利要求2所述生成***,其特征在于,所述生成***基于自然语言处理技术,分析文字类型的所述参考信息中指定的目标人物的形象特征,从目标人物形象的多个特征中,分析所述目标人物形象的特征权重占比最大的至少一个特征,并将该权重占比最大的至少一个特征设定为所述对抗特征。
CN202310200611.XA 2023-03-06 2023-03-06 一种基于aigc技术的人物艺术形象生成*** Active CN116091667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310200611.XA CN116091667B (zh) 2023-03-06 2023-03-06 一种基于aigc技术的人物艺术形象生成***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310200611.XA CN116091667B (zh) 2023-03-06 2023-03-06 一种基于aigc技术的人物艺术形象生成***

Publications (2)

Publication Number Publication Date
CN116091667A CN116091667A (zh) 2023-05-09
CN116091667B true CN116091667B (zh) 2023-06-20

Family

ID=86212165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310200611.XA Active CN116091667B (zh) 2023-03-06 2023-03-06 一种基于aigc技术的人物艺术形象生成***

Country Status (1)

Country Link
CN (1) CN116091667B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150089B (zh) * 2023-10-26 2023-12-22 环球数科集团有限公司 一种基于aigc技术的人物艺术形象更改***
CN117788628A (zh) * 2024-02-27 2024-03-29 厦门众联世纪股份有限公司 一种基于aigc的创意素材生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168745A (zh) * 2022-09-02 2022-10-11 环球数科集团有限公司 一种基于图像技术的虚拟人物形象再创造的方法和***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706300A (zh) * 2019-09-19 2020-01-17 腾讯科技(深圳)有限公司 虚拟形象生成方法及装置
CN111260763A (zh) * 2020-01-21 2020-06-09 厦门美图之家科技有限公司 基于人像的卡通形象生成方法、装置、设备及存储介质
CN113793256A (zh) * 2021-09-10 2021-12-14 未鲲(上海)科技服务有限公司 基于用户标签的动漫人物生成方法、装置、设备及介质
CN114377405A (zh) * 2021-12-29 2022-04-22 完美世界(北京)软件科技发展有限公司 基于角色形象数据的生成方法及装置
CN115423908A (zh) * 2022-08-19 2022-12-02 深圳市达旦数生科技有限公司 虚拟人脸的生成方法、装置、设备以及可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168745A (zh) * 2022-09-02 2022-10-11 环球数科集团有限公司 一种基于图像技术的虚拟人物形象再创造的方法和***

Also Published As

Publication number Publication date
CN116091667A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
Zhang et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks
Liu et al. Learning hierarchical cross-modal association for co-speech gesture generation
Lassner et al. A generative model of people in clothing
CN116091667B (zh) 一种基于aigc技术的人物艺术形象生成***
CN111626218B (zh) 基于人工智能的图像生成方法、装置、设备及存储介质
Liang et al. Deep human parsing with active template regression
Kollias et al. Photorealistic facial synthesis in the dimensional affect space
US20190164055A1 (en) Training neural networks to detect similar three-dimensional objects using fuzzy identification
CN116050284B (zh) 一种利用aigc技术的时装再设计***
CN111222486A (zh) 手部姿态识别模型的训练方法、装置、设备及存储介质
Nojavanasghari et al. Hand2face: Automatic synthesis and recognition of hand over face occlusions
Cui et al. Facial expression recognition based on ensemble of mulitple CNNs
Roy et al. Tips: Text-induced pose synthesis
RU2755396C1 (ru) Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы
Gutiérrez et al. An ontology of virtual humans: incorporating semantics into human shapes
Ma et al. Dance action generation model based on recurrent neural network
Aishwarya et al. The analogy of HAAR cascade and HOG approaches for facial emotion recognition
Tripathi et al. Facial expression recognition using data mining algorithm
Pikula et al. FlexComb: a facial landmark-based model for expression combination generation
Talele et al. Review of Face Emotion Recognition Using Feature Extraction Techniques
Khan et al. Real-Time American Sign Language Realization Using Transfer Learning With VGG Architecture
Brown Faster upper body pose recognition and estimation using Compute Unified Device Architecture
US12039454B2 (en) Microexpression-based image recognition method and apparatus, and related device
Subudhi et al. Deep Learning in Autoencoder Framework and Shape Prior for Hand Gesture Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant