CN116543082A - 数字人的生成方法、装置和数字人的生成*** - Google Patents
数字人的生成方法、装置和数字人的生成*** Download PDFInfo
- Publication number
- CN116543082A CN116543082A CN202310567961.XA CN202310567961A CN116543082A CN 116543082 A CN116543082 A CN 116543082A CN 202310567961 A CN202310567961 A CN 202310567961A CN 116543082 A CN116543082 A CN 116543082A
- Authority
- CN
- China
- Prior art keywords
- setting data
- image
- data
- historical
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013461 design Methods 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 46
- 238000003860 storage Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 abstract description 4
- 210000005155 neural progenitor cell Anatomy 0.000 abstract 5
- 230000003993 interaction Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000032683 aging Effects 0.000 description 4
- 210000000744 eyelid Anatomy 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010411 cooking Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种数字人的生成方法、装置和数字人的生成***。该方法包括:获取初始人物设定数据;根据初始人物设定数据从综合知识库中选取知识点,得到个性化知识库;至少根据人脸图像、角色设计图像和个性化知识库生成数字人。该方案中,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***。
背景技术
目前元宇宙还处于初级发展阶段,元宇宙中的NPC(non-player character,非玩家角色)可以随机生成,但是NPC形象的数字人形象的丰富度较差,并且NPC所了解的知识内容较为简单,这样导致虽然NPC众多,但是NPC的丰富度较差。
发明内容
本申请的主要目的在于提供一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***,以至少解决现有技术中NPC的丰富度较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数字人的生成方法,包括:获取初始人物设定数据,其中,所述初始人物设定数据为随机生成的人物角色描述的数据,所述初始人物设定数据包括年龄、性别和职业中的一个或者多个;构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、所述历史人物设定数据对应的历史人脸图像、所述历史人物设定数据对应的历史角色设计图像;将所述初始人物设定数据输入至所述文本生成图像模型,得到所述初始人物设定数据对应的人脸图像和角色设计图像;根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,所述综合知识库为包括所有知识点的知识库,所述综合知识库的知识点的数量大于所述个性化知识库的知识点的数量;至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人。
可选地,在获取初始人物设定数据之前,所述方法还包括:获取请求数据,其中,所述请求数据为请求随机生成人物设定描述的数据;获取数据范围,其中,所述数据范围包括年龄范围、性别范围和职业范围中的一个或者多个;根据所述请求数据从所述数据范围中随机选择数据,得到所述初始人物设定数据。
可选地,在得到所述初始人物设定数据对应的人脸图像和角色设计图像之后,所述方法还包括:构建人脸识别模型,其中,所述人脸识别模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史人脸图像以及所述历史人脸图像对应的所述年龄和/或所述性别;将所述人脸图像输入至所述人脸识别模型,得到所述人脸图像对应的第一识别结果,所述第一识别结果包括所述人脸图像的所述年龄和/或所述性别;构建图像识别模型,其中,所述图像识别模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史角色设计图像以及所述历史角色设计图像对应的所述职业;将所述角色设计图像输入至所述图像识别模型,得到所述角色设计图像对应的第二识别结果,所述第一识别结果包括所述人脸图像的所述职业;将所述第一识别结果和所述第二识别结果与所述初始人物设定数据进行比较,得到比较结果,并在所述比较结果表征所述第一识别结果和所述第二识别结果与所述初始人物设定数据不相同的情况下,对所述初始人物设定数据更新,得到目标人物设定数据,其中,所述比较结果用于表征所述第一识别结果和所述第二识别结果与所述初始人物设定数据是否相同。
可选地,对所述初始人物设定数据更新,得到目标人物设定数据,包括:在所述比较结果表征所述初始人物设定数据的年龄与所述第一识别结果的年龄不相同的情况下,将所述初始人物设定数据的年龄更新为所述数字人的目标年龄;在所述比较结果表征所述初始人物设定数据的性别与所述第一识别结果的性别不相同的情况下,将所述第一识别结果的性别更新为所述数字人的目标性别;在所述比较结果表征所述初始人物设定数据的职业与所述第二识别结果的职业不相同的情况下,将所述初始人物设定数据的职业更新为所述数字人的目标职业。
可选地,对所述初始人物设定数据更新,得到目标人物设定数据,包括:在所述比较结果表征所述初始人物设定数据与所述第一识别结果不相同的情况下,获取第一权重系数和第二权重系数,所述第一权重系数为所述初始人物设定数据的权重,所述第一权重系数为所述第一识别结果的权重;根据所述第一权重系数和所述第二权重系数计算所述初始人物设定数据和所述第一识别结果的加权平均值,得到置信度;在所述置信度小于置信度阈值的情况下,将所述初始人物设定数据更新为所述目标人物设定数据,在所述置信度大于或者等于所述置信度阈值的情况下,将所述第一识别结果更新为所述目标人物设定数据。
可选地,根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,包括:根据所述目标人物设定数据对所述数字人进行打标签,得到多个类型标签,其中,所述类型标签与所述目标人物设定数据一一对应;将多个所述类型标签输入至所述综合知识库中进行检索和筛选,得到多个目标知识点;将多个所述目标知识点进行汇总,得到所述个性化知识库。
可选地,至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人,包括:构建对话模型,其中,所述对话模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、所述历史问题对应的历史答案,其中,所述历史问题对应的所述历史答案是通过在所述个性化知识库中筛选得到的;构建数字人生成模型,其中,所述数字人生成模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史人脸图像、所述历史人脸图像对应的历史数字人、所述历史角色设计图像、所述历史角色设计图像对应的历史数字人;将所述人脸图像和所述角色设计图像输入至所述数字人生成模型中,得到所述数字人的形象,并将所述数字人的形象与所述对话模型融合,生成所述数字人。
根据本申请的另一方面,提供了一种数字人的生成装置,包括:第一获取单元,用于获取初始人物设定数据,其中,所述初始人物设定数据为随机生成的人物角色描述的数据,所述初始人物设定数据包括年龄、性别和职业中的一个或者多个;第一构建单元,用于构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、所述历史人物设定数据对应的历史人脸图像、所述历史人物设定数据对应的历史角色设计图像;第一处理单元,用于将所述初始人物设定数据输入至所述文本生成图像模型,得到所述初始人物设定数据对应的人脸图像和角色设计图像;第二处理单元,用于根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,所述综合知识库为包括所有知识点的知识库,所述综合知识库的知识点的数量大于所述个性化知识库的知识点的数量;第三处理单元,用于至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人。
根据本申请的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述数字人的生成方法。
根据本申请的又一方面,提供了一种数字人的生成***,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述数字人的生成方法。
应用本申请的技术方案,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例中提供的一种执行数字人的生成方法的移动终端的硬件结构框图;
图2示出了根据本申请的实施例提供的一种数字人的生成方法的流程示意图;
图3示出了根据本申请的实施例提供的另一种数字人的生成方法的流程示意图;
图4示出了根据本申请的实施例提供的一种数字人的生成装置的结构框图。
其中,上述附图包括以下附图标记:
102、处理器;104、存储器;106、传输设备;108、输入输出设备。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
元宇宙的概念一经提出,市场对于其未来的发展前景给予了高度的期待值。但是当元宇宙发展到一定阶段,其虚拟世界中的虚拟人物NPC如何才能获得更加个性化的人物属性与交互能力,是需要进一步研究的重点。
目前通用场景的人机对话,所依赖的大多是知识库或知识图谱,在某些指定应用场景实现与用户之间的场景对话;或者,采用基于超大规模预训练模型与人类反馈强化学习的文本生成模型,实现更加开放式的人机交互。但是,前者应用场景大多较为固定,当需要满足元宇宙关于NPC具备众多人物时且每个人物的交互内容因人而异的需求时,就需要人工定向给指定虚拟机器人赋予属性后才能基于此进行个性化人机交互;后者所需要投入的模型训练数据与优化成本相当庞大,且由于其通用属性,目前的前端应用并没有给它赋予更多的个性化属性(诸如性别、性格、国籍、职业、年龄等具有人物个性化特征的属性),当然也可以通过基于其训练下游任务,赋予其以上属性,但同样需要人工定向给指定虚拟机器人赋予属性。
元宇宙中的虚拟人物(NPC)想要获得个性化的交互能力,类似于游戏中与玩家对话的NPC,目前的游戏NPC仅能基于游戏开发者为其设定的固定语言内容与玩家交互,而元宇宙作为未来的虚拟世界,其中的NPC需要具备更加丰富的交互能力,就需要每一个NPC都具备不同的知识储备。但是如果是为每一个NPC单独设置一个知识库,工作量就过于庞杂,而且无法做到与其形象一一对应。
正如背景技术中所介绍的,现有技术中NPC的丰富度较差,为解决如上的问题,本申请的实施例提供了一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数字人的生成方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的数字人的生成方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的一种数字人的生成方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S201,获取初始人物设定数据,其中,上述初始人物设定数据为随机生成的人物角色描述的数据,上述初始人物设定数据包括年龄、性别和职业中的一个或者多个;
具体地,初始人物设定数据还可以包括姓名、国籍、性格、人种、技能、人生经历、爱好等等。可以随机生成初始人物设定数据,组合成一个完整的人物描述,进而保证了人物的多样性和丰富性。
步骤S202,构建文本生成图像模型,其中,上述文本生成图像模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、上述历史人物设定数据对应的历史人脸图像、上述历史人物设定数据对应的历史角色设计图像;
具体地,可以通过模型训练的方式,直接通过文本来生成图像,不需要再使用真实的人物的视频,可以避免侵犯肖像权。
步骤S203,将上述初始人物设定数据输入至上述文本生成图像模型,得到上述初始人物设定数据对应的人脸图像和角色设计图像;
具体地,文本生成图像指的是输入一段文字描述产生对应的图像的任务。
具体地,生成的人脸图像是比较细致的,人脸上的五官图像都是较为细致的,比如眼睛是单眼皮还是双眼皮,脸上有几颗痣都是有的。生成的角色设计图像也是较为细致的,站姿、穿衣风格、身高体重这些都是直接可以从角色设计图像中确定。
步骤S204,根据上述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,上述综合知识库为包括所有知识点的知识库,上述综合知识库的知识点的数量大于上述个性化知识库的知识点的数量;
具体地,不同的NPC所拥有的知识是不同的,例如A国家的NPC了解A国家内的一些学识,但是不清楚B国家的一些知识,因此可以将A国家的对应的知识点选取出来,作为NPC的个性化知识库,这样不同的NPC所拥有的知识是不同的,进而可以提示NPC的交互能力。
具体地,从综合知识库中选取知识点是根据初始人物设定数据选取的,这样是为了将NPC了解的知识与其属性相对应,避免出现生成的数字人是A地区的形象但是说话却是B地区的口音。
步骤S205,至少根据上述人脸图像、上述角色设计图像和上述个性化知识库生成数字人。
具体地,人脸图像和角色设计图像是数字人的外在形象,和数字人具有的知识是数字人的内在形象,因此可以从外在和内在两个维度来丰富数字人形象。
通过本实施例,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
具体地,针对目前元宇宙中需要众多的形象各异,具备交互能力,且各自拥有与自身形象相符合的知识储备的数字人的问题,本方案提出仅仅只通过文本就可生成数字人形象以及为其赋予交互所需的对应知识储备的技术,旨在通过本方案,一站式的实现从文本描述批量生成与该文本上述形象相近似的数字人的过程,同时所形成的数字人形象由于是由人工智能推理所生成,在满足多样化的同时,也避免了肖像权被侵犯的问题。
目前并没有直接只通过文本就能生成数字人的技术,虽然某些游戏中支持随机生成的NPC形象,但离元宇宙所需要的数字人形象,从细节的刻画、人物形象的多样化与属性设定的丰富度的角度,均有较大差距,具体实现过程中,在获取初始人物设定数据之前,上述方法还包括以下步骤:获取请求数据,其中,上述请求数据为请求随机生成人物设定描述的数据;获取数据范围,其中,上述数据范围包括年龄范围、性别范围和职业范围中的一个或者多个;根据上述请求数据从上述数据范围中随机选择数据,得到上述初始人物设定数据。
该方案中,可以先设定具体的数据范围,这样可以在数据范围中随机选取数据,进而得到了随机生成的初始人物设定数据,这样可以满足人物形象的多样化的需求,满足了人物细节刻画的需求,进而进一步保证了可以提升NPC的丰富度。
具体地,数据范围还可以包括姓名范围、国籍范围、性格范围、人种范围、技能范围、人生经历范围、爱好范围等等。例如,年龄范围可以是0岁到100岁,性别范围可以是男性或者女性,职业范围包括的职业可以是教师、企业员工、记者、演员、厨师、医生、司机、律师、作家、出纳,姓名范围包括的姓名可以是张三、李四、王五、赵六,国籍范围包括的国籍可以是A国、B国、C国,性格范围包括的性格可以是活泼、沉稳、内向,人种范围包括的人种可以是A人种、B人种、C人种,技能范围包括的技能可以是教学能力突出、工作认证、掌握水平较高的烹饪手艺,除以上提到的数据之外,还可以包括其他任何可行的数据范围。
本方案结合了文章续写与文本生成图像技术,实现以简短文字随机生成相关人物人脸图像与角色设计图,从而达到在文字描述层面与图像展现层面基于AI自动补充与扩展人物相关信息细节。并凭借文本生成图像模型所生成结果的随机性,达到通过自动生成的人物人脸图像与角色设计图像随机生成虚拟人物形象的目的。
在得到了文本生成图像模型的输出后,还可以通过图像识别对生成的图像进行识别,具体实现过程中,在得到上述初始人物设定数据对应的人脸图像和角色设计图像之后,上述方法还包括以下步骤:构建人脸识别模型,其中,上述人脸识别模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史人脸图像以及上述历史人脸图像对应的上述年龄和/或上述性别;将上述人脸图像输入至上述人脸识别模型,得到上述人脸图像对应的第一识别结果,上述第一识别结果包括上述人脸图像的上述年龄和/或上述性别;构建图像识别模型,其中,上述图像识别模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史角色设计图像以及上述历史角色设计图像对应的上述职业;将上述角色设计图像输入至上述图像识别模型,得到上述角色设计图像对应的第二识别结果,上述第一识别结果包括上述人脸图像的上述职业;将上述第一识别结果和上述第二识别结果与上述初始人物设定数据进行比较,得到比较结果,并在上述比较结果表征上述第一识别结果和上述第二识别结果与上述初始人物设定数据不相同的情况下,对上述初始人物设定数据更新,得到目标人物设定数据,其中,上述比较结果用于表征上述第一识别结果和上述第二识别结果与上述初始人物设定数据是否相同。
该方案中,可以分别对文本生成图像模型输出的图像进行人脸识别和角色识别,进而将文本生成图像模型的输出与图像识别结果的输出进行对比,通过比较结果来反向确定文本生成图像模型的准确度,进而根据对比的结果来对初始人物设定数据更新,可以得到较为准确的目标人物设定数据。
具体地,人脸识别模型识别到的结果可能与初始人物设定数据的人物属性是不同的,因此又重新加入了图像识别,反向确认文本生成图像模型的真实的属性,来进一步确定文本生成图像模型生成的图像的准确率。
具体地,图像识别模型识别到的结果可能与初始人物设定数据的人物属性是不同的,因此又重新加入了图像识别,反向确认文本生成图像模型的真实的属性,来进一步确定文本生成图像模型生成的图像的准确率。
为了进一步保证用于构建数字人的人物设定数据更为精确,进一步对人物设定数据进行消歧,本申请的对上述初始人物设定数据更新,得到目标人物设定数据,可以通过以下步骤实现:在上述比较结果表征上述初始人物设定数据的年龄与上述第一识别结果的年龄不相同的情况下,将上述初始人物设定数据的年龄更新为上述数字人的目标年龄;在上述比较结果表征上述初始人物设定数据的性别与上述第一识别结果的性别不相同的情况下,将上述第一识别结果的性别更新为上述数字人的目标性别;在上述比较结果表征上述初始人物设定数据的职业与上述第二识别结果的职业不相同的情况下,将上述初始人物设定数据的职业更新为上述数字人的目标职业。
该方案中,在构建某一数字人的个性化知识库时,可以通过初始人物设定数据与第一识别结果、第二识别结果是否相同进行融合消歧,这样可以保证得到的数字人的属性更为精确,进而进一步保证后续可以为数字人筛选到更为合适的知识点。
具体地,对于年龄来说,图像识别的结果可能并不精确,因此可以认为是初始人物设定数据是比较精确的;对于性别来说,如果用文字生成图像可能生成的性别会出错,因此可以以图像识别得到的性别作为精确的数据;对于职业来说,如果用图像识别可能无法识别出较为精确的结果,因此可以用初始人物设定数据作为精确的数据。
当然,并不限于以上的几种情况,还可以根据其他的设定来选择合适的数据,例如,姓名以初始人物设定数据作为保留的数据,国籍以初始人物设定数据作为保留的数据,性格以初始人物设定数据作为保留的数据,人种以图像识别得到的结果作为保留的数据,技能以初始人物设定数据作为保留的数据,人生经历以初始人物设定数据作为保留的数据,爱好以初始人物设定数据作为保留的数据。
为了进一步保证用于构建数字人的人物设定数据更为精确,进一步对人物设定数据进行消歧,本申请的对上述初始人物设定数据更新,得到目标人物设定数据,可以通过以下步骤实现:在上述比较结果表征上述初始人物设定数据与上述第一识别结果不相同的情况下,获取第一权重系数和第二权重系数,上述第一权重系数为上述初始人物设定数据的权重,上述第一权重系数为上述第一识别结果的权重;根据上述第一权重系数和上述第二权重系数计算上述初始人物设定数据和上述第一识别结果的加权平均值,得到置信度;在上述置信度小于置信度阈值的情况下,将上述初始人物设定数据更新为上述目标人物设定数据,在上述置信度大于或者等于上述置信度阈值的情况下,将上述第一识别结果更新为上述目标人物设定数据。
该方案中,在构建某一数字人的个性化知识库时,可以通过权重算法来对初始人物设定数据与第一识别结果进行融合消歧,这样可以保证得到的数字人的属性更为精确,进而进一步保证后续可以为数字人筛选到更为合适的知识点。
具体地,置信度阈值可以是80%,或者95%。
上述对初始人物设定数据更新,得到目标人物设定数据,还可以通过其他方式实现,例如:在比较结果表征初始人物设定数据与第二识别结果不相同的情况下,获取第三权重系数和第四权重系数,第三权重系数为初始人物设定数据的权重,第四权重系数为第二识别结果的权重;根据第三权重系数和第四权重系数计算初始人物设定数据和第二识别结果的加权平均值,得到置信度;在置信度小于置信度阈值的情况下,将初始人物设定数据更新为目标人物设定数据,在置信度大于或者等于置信度阈值的情况下,将第二识别结果更新为目标人物设定数据。
在构建某一数字人的个性化知识库时,通过个性化特征属性与属性类型知识进行融合消歧,获得数字人个性化知识库,比如教师职业类型的知识点与女性类型的知识点,如果有重复的则合并,如果有不相同则选择其中权重较高的知识点保留下来。同时,为知识库的内容范围增加了时间属性的概念,如20岁的人和30岁的人,在其他所有属性一致的情况下,其所包含的知识量是不同的,人类知识量类似一个曲线,越早期获得的知识,在越老的时候就越模糊,相反越近期获得的知识则越清晰,基于此概念,本方案设计一个知识老化曲线,从而从时间维度定义一个知识库知识量的多少以及知识点老化时间。
由于元宇宙发展处于初级阶段,目前并没有太多批量生成可交互的数字人的场景需求,造成市场对元宇宙中存在的原生数字人的多样化、个性化以及交互性要求并不高,仅能达到游戏中NPC的形象与交互的程度,而游戏中的NPC虽然众多,但是其形象与交互内容通常都是由游戏设计者逐一设定好的,交互内容相对死板且有限,在一些实施例上,根据上述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,具体可以通过以下步骤实现:根据上述目标人物设定数据对上述数字人进行打标签,得到多个类型标签,其中,上述类型标签与上述目标人物设定数据一一对应;将多个上述类型标签输入至上述综合知识库中进行检索和筛选,得到多个目标知识点;将多个上述目标知识点进行汇总,得到上述个性化知识库。
该方案中,可以通过对虚拟人物的图像进行人脸与图像识别获取其个性化特征属性,结合前期生成的详细人物描述文本(目标人物设定数据)进行综合分析获得最终人物属性类型标签,再基于识别出的属性类型标签在综合知识库中进行检索与筛选知识点,从而获得具有该数字人特色的交互所需的个性化知识库,这样可以提高NPC的内在知识的丰富性。
目前市场上通用的数字人主要为基于真实人物形象通过模型训练生成,或者通过3D建模构建,成本高昂且构建时间周期较长。本方案直接仅凭文本即可批量生成数字人形象,并为其赋予对应的人物属性,进而提供与属性相符的个性化交互能力,在快速、批量构建元宇宙中的原生数字人的同时,为这些原生数字人赋予了个性化内涵。
对于数字人来说,数字人是可以具有对话的能力的,在一些实施例上,至少根据上述人脸图像、上述角色设计图像和上述个性化知识库生成数字人,具体可以通过以下步骤实现:构建对话模型,其中,上述对话模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、上述历史问题对应的历史答案,其中,上述历史问题对应的上述历史答案是通过在上述个性化知识库中筛选得到的;构建数字人生成模型,其中,上述数字人生成模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史人脸图像、上述历史人脸图像对应的历史数字人、上述历史角色设计图像、上述历史角色设计图像对应的历史数字人;将上述人脸图像和上述角色设计图像输入至上述数字人生成模型中,得到上述数字人的形象,并将上述数字人的形象与上述对话模型融合,生成上述数字人。
该方案中,通过对话模型进行训练,可以让数字人具有连续对话的能力,这样数字人具有较为丰富的内在形象,进而通过数字人生成模型得到数字人的外在形象,将外在形象和内在形象进行融合,得到一个较为完整的数字人,从而进一步保证本方案得到的数字人的丰富度较高。
具体地,数字人指的是虚拟数字人,指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。
与目前市场上的通用数字人应用场景需要数字人本身尽可能多的懂得相关领域的知识才能更好的服务用户的定位相比,本方案将方案生成的数字人定位为元宇宙中的原生“生物”,并为这些数字人赋予了其年龄等多种属性的概念,以及对应提供与其年龄等多种属性相匹配的知识点内容,从而让数字人在时间等多维度更向数字生命的概念靠近。
具体地,本申请的方案是输入简单的文本,并采用文章续写的方式,随机生成对应人物描述,进而作为文本生成图像的输入,随机生成一张人脸图片,以及一张人物角色设计图;此后通过人脸识别对生成的人脸图像进行属性识别,从而判别出该人脸所具备的各项属性类型;同时,通过图像识别技术对人物角色属性进行识别。最终根据不同的人物属性,自动生成不同的虚拟人形象,还可以挑选属性对应的语音合成模型实现合成音生成,挑选属性对应的知识库进行整合,自动形成该角色所特有知识库,从而达到为每一个自动生成的NPC提供个体独特形象以及对应的个性化交互能力的目标。
为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例对本申请的数字人的生成方法的实现过程进行详细说明。
本实施例涉及一种具体的数字人的生成方法,主要包括九个模块:文本生成模块、文本生成图像模块、人脸识别模块、图像识别模块、综合分析模块、综合知识库、个性化知识库、交互式AI模块、数字人形象生成模块,如图3所示,包括如下步骤:
第一步,将基础文本描述输入“文本生成模块”,如“帮我编写一个人物设定的描述:姓名、国籍、年龄、性别、性格、职业、人种、技能、人生经历、爱好等都随机”,从而获得如“这位叫做张三的人,来自A国,年龄25岁,性别男性,人种是A大洲人种,性格活泼随和,喜欢与别人沟通,职业是网络研发工程师,掌握前沿的网络编程技术,擅长多种编程语言,能够熟练操作各种Web开发工具,具有良好的技术分析能力和项目跟踪能力,能够灵活应对各种项目中的技术问题,并有较强的项目管理能力,人生经历丰富多彩,爱好是阅读、写作和烹饪。”这类详细人物描述文本;
第二步,将详细人物描述文本输入“文本生成图像模块”,从而获得与该描述相关的人脸图像、人物角色设计图(基于文本生成模型与文本生成图像模型所生成结果的随机性,可以获得形象各异的人物人脸图像与角色设计图像);
第三步,将第二步生成的人脸图像、人物角色设计图分别送入“人脸识别模块”与“图像识别模块”,从而基于这些图像识别出人物的年龄、性格、性别、职业、国籍、人种等属性类型;
第四步,将第三步的输出结果与第一步的输出结果共同输入“综合分析模块”,根据不同类型、不同数据源的权重设定,进行内容消歧,保留类型判断前后一致的结果,不一致的结果根据不同类型选择性保留更具说服力的结论,如“当年龄结果出现差异时,以第一步输出结果中关于年龄的描述作为结果进行保留”、“当性别结果出现差异时,以第三部输出结果中关于性别的类型判断作为结果进行保留”等,最终输出该角色所具有的包含但不限于“姓名、国籍、年龄、性别、性格、职业、人种、技能、人生经历、爱好”等在内的多种类型标签;
第五步,将第四步的多种类型标签输入综合知识库中进行知识检索与筛选,将所有包含输入类型标签的相关知识点进行汇总并输出;
第六步,将第五步中的输出作为数字人个性化知识库进行保存,并对接“对话式AI模块”,用于为数字人提供个性化交互能力;
第七步,基于生成的人脸图像与人物角色设计图进一步通过“数字人形象生成模块”构建数字人形象,并与“对话式AI模块”进行对接;
第八步,最终构建形成具备交互能力,且具备独有形象的个性化数字人。通过批量化操作,可快速生成形象各异、各具特色、知识储备各不相同的原生数字人。
本申请实施例还提供了一种数字人的生成装置,需要说明的是,本申请实施例的数字人的生成装置可以用于执行本申请实施例所提供的用于数字人的生成方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
以下对本申请实施例提供的数字人的生成装置进行介绍。
图4是根据本申请实施例的一种数字人的生成装置的结构框图。如图4所示,该装置包括:
第一获取单元10,用于获取初始人物设定数据,其中,上述初始人物设定数据为随机生成的人物角色描述的数据,上述初始人物设定数据包括年龄、性别和职业中的一个或者多个;
具体地,初始人物设定数据还可以包括姓名、国籍、性格、人种、技能、人生经历、爱好等等。可以随机生成初始人物设定数据,组合成一个完整的人物描述,进而保证了人物的多样性和丰富性。
第一构建单元20,用于构建文本生成图像模型,其中,上述文本生成图像模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、上述历史人物设定数据对应的历史人脸图像、上述历史人物设定数据对应的历史角色设计图像;
具体地,可以通过模型训练的方式,直接通过文本来生成图像,不需要再使用真实的人物的视频,可以避免侵犯肖像权。
第一处理单元30,用于将上述初始人物设定数据输入至上述文本生成图像模型,得到上述初始人物设定数据对应的人脸图像和角色设计图像;
具体地,文本生成图像指的是输入一段文字描述产生对应的图像的任务。
具体地,生成的人脸图像是比较细致的,人脸上的五官图像都是较为细致的,比如眼睛是单眼皮还是双眼皮,脸上有几颗痣都是有的。生成的角色设计图像也是较为细致的,站姿、穿衣风格、身高体重这些都是直接可以从角色设计图像中确定。
第二处理单元40,用于根据上述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,上述综合知识库为包括所有知识点的知识库,上述综合知识库的知识点的数量大于上述个性化知识库的知识点的数量;
具体地,不同的NPC所拥有的知识是不同的,例如A国家的NPC了解A国家内的一些学识,但是不清楚B国家的一些知识,因此可以将A国家的对应的知识点选取出来,作为NPC的个性化知识库,这样不同的NPC所拥有的知识是不同的,进而可以提示NPC的交互能力。
具体地,从综合知识库中选取知识点是根据初始人物设定数据选取的,这样是为了将NPC了解的知识与其属性相对应,避免出现生成的数字人是A地区的形象但是说话却是B地区的口音。
第三处理单元50,用于至少根据上述人脸图像、上述角色设计图像和上述个性化知识库生成数字人。
具体地,人脸图像和角色设计图像是数字人的外在形象,和数字人具有的知识是数字人的内在形象,因此可以从外在和内在两个维度来丰富数字人形象。
通过本实施例,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
具体地,针对目前元宇宙中需要众多的形象各异,具备交互能力,且各自拥有与自身形象相符合的知识储备的数字人的问题,本方案提出仅仅只通过文本就可生成数字人形象以及为其赋予交互所需的对应知识储备的技术,旨在通过本方案,一站式的实现从文本描述批量生成与该文本上述形象相近似的数字人的过程,同时所形成的数字人形象由于是由人工智能推理所生成,在满足多样化的同时,也避免了肖像权被侵犯的问题。
目前并没有直接只通过文本就能生成数字人的技术,虽然某些游戏中支持随机生成的NPC形象,但离元宇宙所需要的数字人形象,从细节的刻画、人物形象的多样化与属性设定的丰富度的角度,均有较大差距,具体实现过程中,上述装置还包括第二获取单元、第三获取单元和第四处理单元,第二获取单元用于在获取初始人物设定数据之前,获取请求数据,其中,上述请求数据为请求随机生成人物设定描述的数据;第三获取单元用于获取数据范围,其中,上述数据范围包括年龄范围、性别范围和职业范围中的一个或者多个;第四处理单元用于根据上述请求数据从上述数据范围中随机选择数据,得到上述初始人物设定数据。
该方案中,可以先设定具体的数据范围,这样可以在数据范围中随机选取数据,进而得到了随机生成的初始人物设定数据,这样可以满足人物形象的多样化的需求,满足了人物细节刻画的需求,进而进一步保证了可以提升NPC的丰富度。
具体地,数据范围还可以包括姓名范围、国籍范围、性格范围、人种范围、技能范围、人生经历范围、爱好范围等等。例如,年龄范围可以是0岁到100岁,性别范围可以是男性或者女性,职业范围包括的职业可以是教师、企业员工、记者、演员、厨师、医生、司机、律师、作家、出纳,姓名范围包括的姓名可以是张三、李四、王五、赵六,国籍范围包括的国籍可以是A国、B国、C国,性格范围包括的性格可以是活泼、沉稳、内向,人种范围包括的人种可以是A人种、B人种、C人种,技能范围包括的技能可以是教学能力突出、工作认证、掌握水平较高的烹饪手艺,除以上提到的数据之外,还可以包括其他任何可行的数据范围。
本方案结合了文章续写与文本生成图像技术,实现以简短文字随机生成相关人物人脸图像与角色设计图,从而达到在文字描述层面与图像展现层面基于AI自动补充与扩展人物相关信息细节。并凭借文本生成图像模型所生成结果的随机性,达到通过自动生成的人物人脸图像与角色设计图像随机生成虚拟人物形象的目的。
在得到了文本生成图像模型的输出后,还可以通过图像识别对生成的图像进行识别,具体实现过程中,上述装置还包括第二构建单元、第五处理单元、第三构建单元、第六处理单元和第七处理单元,第二构建单元用于在得到上述初始人物设定数据对应的人脸图像和角色设计图像之后,构建人脸识别模型,其中,上述人脸识别模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史人脸图像以及上述历史人脸图像对应的上述年龄和/或上述性别;第五处理单元用于将上述人脸图像输入至上述人脸识别模型,得到上述人脸图像对应的第一识别结果,上述第一识别结果包括上述人脸图像的上述年龄和/或上述性别;第三构建单元用于构建图像识别模型,其中,上述图像识别模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史角色设计图像以及上述历史角色设计图像对应的上述职业;第六处理单元用于将上述角色设计图像输入至上述图像识别模型,得到上述角色设计图像对应的第二识别结果,上述第一识别结果包括上述人脸图像的上述职业;第七处理单元用于将上述第一识别结果和上述第二识别结果与上述初始人物设定数据进行比较,得到比较结果,并在上述比较结果表征上述第一识别结果和上述第二识别结果与上述初始人物设定数据不相同的情况下,对上述初始人物设定数据更新,得到目标人物设定数据,其中,上述比较结果用于表征上述第一识别结果和上述第二识别结果与上述初始人物设定数据是否相同。
该方案中,可以分别对文本生成图像模型输出的图像进行人脸识别和角色识别,进而将文本生成图像模型的输出与图像识别结果的输出进行对比,通过比较结果来反向确定文本生成图像模型的准确度,进而根据对比的结果来对初始人物设定数据更新,可以得到较为准确的目标人物设定数据。
具体地,人脸识别模型识别到的结果可能与初始人物设定数据的人物属性是不同的,因此又重新加入了图像识别,反向确认文本生成图像模型的真实的属性,来进一步确定文本生成图像模型生成的图像的准确率。
具体地,图像识别模型识别到的结果可能与初始人物设定数据的人物属性是不同的,因此又重新加入了图像识别,反向确认文本生成图像模型的真实的属性,来进一步确定文本生成图像模型生成的图像的准确率。
为了进一步保证用于构建数字人的人物设定数据更为精确,进一步对人物设定数据进行消歧,本申请的第七处理单元包括第一处理模块、第二处理模块和第三处理模块,第一处理模块用于在上述比较结果表征上述初始人物设定数据的年龄与上述第一识别结果的年龄不相同的情况下,将上述初始人物设定数据的年龄更新为上述数字人的目标年龄;第二处理模块用于在上述比较结果表征上述初始人物设定数据的性别与上述第一识别结果的性别不相同的情况下,将上述第一识别结果的性别更新为上述数字人的目标性别;第三处理模块用于在上述比较结果表征上述初始人物设定数据的职业与上述第二识别结果的职业不相同的情况下,将上述初始人物设定数据的职业更新为上述数字人的目标职业。
该方案中,在构建某一数字人的个性化知识库时,可以通过初始人物设定数据与第一识别结果、第二识别结果是否相同进行融合消歧,这样可以保证得到的数字人的属性更为精确,进而进一步保证后续可以为数字人筛选到更为合适的知识点。
具体地,对于年龄来说,图像识别的结果可能并不精确,因此可以认为是初始人物设定数据是比较精确的;对于性别来说,如果用文字生成图像可能生成的性别会出错,因此可以以图像识别得到的性别作为精确的数据;对于职业来说,如果用图像识别可能无法识别出较为精确的结果,因此可以用初始人物设定数据作为精确的数据。
当然,并不限于以上的几种情况,还可以根据其他的设定来选择合适的数据,例如,姓名以初始人物设定数据作为保留的数据,国籍以初始人物设定数据作为保留的数据,性格以初始人物设定数据作为保留的数据,人种以图像识别得到的结果作为保留的数据,技能以初始人物设定数据作为保留的数据,人生经历以初始人物设定数据作为保留的数据,爱好以初始人物设定数据作为保留的数据。
为了进一步保证用于构建数字人的人物设定数据更为精确,进一步对人物设定数据进行消歧,本申请的第七处理单元包括获取模块、计算模块和第四处理模块,获取模块用于在上述比较结果表征上述初始人物设定数据与上述第一识别结果不相同的情况下,获取第一权重系数和第二权重系数,上述第一权重系数为上述初始人物设定数据的权重,上述第一权重系数为上述第一识别结果的权重;计算模块用于根据上述第一权重系数和上述第二权重系数计算上述初始人物设定数据和上述第一识别结果的加权平均值,得到置信度;第四处理模块用于在上述置信度小于置信度阈值的情况下,将上述初始人物设定数据更新为上述目标人物设定数据,在上述置信度大于或者等于上述置信度阈值的情况下,将上述第一识别结果更新为上述目标人物设定数据。
该方案中,在构建某一数字人的个性化知识库时,可以通过权重算法来对初始人物设定数据与第一识别结果进行融合消歧,这样可以保证得到的数字人的属性更为精确,进而进一步保证后续可以为数字人筛选到更为合适的知识点。
具体地,置信度阈值可以是80%,或者95%。
上述对初始人物设定数据更新,得到目标人物设定数据,还可以通过其他方式实现,例如:在比较结果表征初始人物设定数据与第二识别结果不相同的情况下,获取第三权重系数和第四权重系数,第三权重系数为初始人物设定数据的权重,第四权重系数为第二识别结果的权重;根据第三权重系数和第四权重系数计算初始人物设定数据和第二识别结果的加权平均值,得到置信度;在置信度小于置信度阈值的情况下,将初始人物设定数据更新为目标人物设定数据,在置信度大于或者等于置信度阈值的情况下,将第二识别结果更新为目标人物设定数据。
在构建某一数字人的个性化知识库时,通过个性化特征属性与属性类型知识进行融合消歧,获得数字人个性化知识库,比如教师职业类型的知识点与女性类型的知识点,如果有重复的则合并,如果有不相同则选择其中权重较高的知识点保留下来。同时,为知识库的内容范围增加了时间属性的概念,如20岁的人和30岁的人,在其他所有属性一致的情况下,其所包含的知识量是不同的,人类知识量类似一个曲线,越早期获得的知识,在越老的时候就越模糊,相反越近期获得的知识则越清晰,基于此概念,本方案设计一个知识老化曲线,从而从时间维度定义一个知识库知识量的多少以及知识点老化时间。
由于元宇宙发展处于初级阶段,目前并没有太多批量生成可交互的数字人的场景需求,造成市场对元宇宙中存在的原生数字人的多样化、个性化以及交互性要求并不高,仅能达到游戏中NPC的形象与交互的程度,而游戏中的NPC虽然众多,但是其形象与交互内容通常都是由游戏设计者逐一设定好的,交互内容相对死板且有限,在一些实施例上,第二处理单元包括第五处理模块、第六处理模块和汇总模块,第五处理模块用于根据上述目标人物设定数据对上述数字人进行打标签,得到多个类型标签,其中,上述类型标签与上述目标人物设定数据一一对应;第六处理模块用于将多个上述类型标签输入至上述综合知识库中进行检索和筛选,得到多个目标知识点;汇总模块用于将多个上述目标知识点进行汇总,得到上述个性化知识库。
该方案中,可以通过对虚拟人物的图像进行人脸与图像识别获取其个性化特征属性,结合前期生成的详细人物描述文本(目标人物设定数据)进行综合分析获得最终人物属性类型标签,再基于识别出的属性类型标签在综合知识库中进行检索与筛选知识点,从而获得具有该数字人特色的交互所需的个性化知识库,这样可以提高NPC的内在知识的丰富性。
目前市场上通用的数字人主要为基于真实人物形象通过模型训练生成,或者通过3D建模构建,成本高昂且构建时间周期较长。本方案直接仅凭文本即可批量生成数字人形象,并为其赋予对应的人物属性,进而提供与属性相符的个性化交互能力,在快速、批量构建元宇宙中的原生数字人的同时,为这些原生数字人赋予了个性化内涵。
对于数字人来说,数字人是可以具有对话的能力的,在一些实施例上,第三处理单元包括第一构建模块、第二构建模块和第七处理模块,第一构建模块用于构建对话模型,其中,上述对话模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、上述历史问题对应的历史答案,其中,上述历史问题对应的上述历史答案是通过在上述个性化知识库中筛选得到的;第二构建模块用于构建数字人生成模型,其中,上述数字人生成模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的上述历史人脸图像、上述历史人脸图像对应的历史数字人、上述历史角色设计图像、上述历史角色设计图像对应的历史数字人;第七处理模块用于将上述人脸图像和上述角色设计图像输入至上述数字人生成模型中,得到上述数字人的形象,并将上述数字人的形象与上述对话模型融合,生成上述数字人。
该方案中,通过对话模型进行训练,可以让数字人具有连续对话的能力,这样数字人具有较为丰富的内在形象,进而通过数字人生成模型得到数字人的外在形象,将外在形象和内在形象进行融合,得到一个较为完整的数字人,从而进一步保证本方案得到的数字人的丰富度较高。
上述数字人的生成装置包括处理器和存储器,上述第一获取单元、第一构建单元、第一处理单元、第二处理单元和第三处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高NPC的丰富度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述数字人的生成方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述数字人的生成方法。
本申请还提供一种数字人的生成***,包括一个或多个处理器,存储器,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述数字人的生成方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少数字人的生成方法步骤。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少数字人的生成方法步骤的程序。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的数字人的生成方法,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
2)、本申请的数字人的生成装置,可以随机生成人物,通过文本即可以随机生成数字人了,具体是通过随机生成的数据赋予人物角色的属性,再通过文本生成图像模型可以得到角色的一些人脸图像和角色设计图像,这样可以个性化设计NPC的外在形象,并挑选对应的知识点进行整合,形成该角色所持有的个性化知识库,这样可以个性化设计NPC的内在形象,进而NPC了解的知识与其属性相对应,从而在外在和内在两个维度来提升NPC的丰富度。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数字人的生成方法,其特征在于,包括:
获取初始人物设定数据,其中,所述初始人物设定数据为随机生成的人物角色描述的数据,所述初始人物设定数据包括年龄、性别和职业中的一个或者多个;
构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、所述历史人物设定数据对应的历史人脸图像、所述历史人物设定数据对应的历史角色设计图像;
将所述初始人物设定数据输入至所述文本生成图像模型,得到所述初始人物设定数据对应的人脸图像和角色设计图像;
根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,所述综合知识库为包括所有知识点的知识库,所述综合知识库的知识点的数量大于所述个性化知识库的知识点的数量;
至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人。
2.根据权利要求1所述的方法,其特征在于,在获取初始人物设定数据之前,所述方法还包括:
获取请求数据,其中,所述请求数据为请求随机生成人物设定描述的数据;
获取数据范围,其中,所述数据范围包括年龄范围、性别范围和职业范围中的一个或者多个;
根据所述请求数据从所述数据范围中随机选择数据,得到所述初始人物设定数据。
3.根据权利要求1所述的方法,其特征在于,在得到所述初始人物设定数据对应的人脸图像和角色设计图像之后,所述方法还包括:
构建人脸识别模型,其中,所述人脸识别模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史人脸图像以及所述历史人脸图像对应的所述年龄和/或所述性别;
将所述人脸图像输入至所述人脸识别模型,得到所述人脸图像对应的第一识别结果,所述第一识别结果包括所述人脸图像的所述年龄和/或所述性别;
构建图像识别模型,其中,所述图像识别模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史角色设计图像以及所述历史角色设计图像对应的所述职业;
将所述角色设计图像输入至所述图像识别模型,得到所述角色设计图像对应的第二识别结果,所述第一识别结果包括所述人脸图像的所述职业;
将所述第一识别结果和所述第二识别结果与所述初始人物设定数据进行比较,得到比较结果,并在所述比较结果表征所述第一识别结果和所述第二识别结果与所述初始人物设定数据不相同的情况下,对所述初始人物设定数据更新,得到目标人物设定数据,其中,所述比较结果用于表征所述第一识别结果和所述第二识别结果与所述初始人物设定数据是否相同。
4.根据权利要求3所述的方法,其特征在于,对所述初始人物设定数据更新,得到目标人物设定数据,包括:
在所述比较结果表征所述初始人物设定数据的年龄与所述第一识别结果的年龄不相同的情况下,将所述初始人物设定数据的年龄更新为所述数字人的目标年龄;
在所述比较结果表征所述初始人物设定数据的性别与所述第一识别结果的性别不相同的情况下,将所述第一识别结果的性别更新为所述数字人的目标性别;
在所述比较结果表征所述初始人物设定数据的职业与所述第二识别结果的职业不相同的情况下,将所述初始人物设定数据的职业更新为所述数字人的目标职业。
5.根据权利要求3所述的方法,其特征在于,对所述初始人物设定数据更新,得到目标人物设定数据,包括:
在所述比较结果表征所述初始人物设定数据与所述第一识别结果不相同的情况下,获取第一权重系数和第二权重系数,所述第一权重系数为所述初始人物设定数据的权重,所述第一权重系数为所述第一识别结果的权重;
根据所述第一权重系数和所述第二权重系数计算所述初始人物设定数据和所述第一识别结果的加权平均值,得到置信度;
在所述置信度小于置信度阈值的情况下,将所述初始人物设定数据更新为所述目标人物设定数据,在所述置信度大于或者等于所述置信度阈值的情况下,将所述第一识别结果更新为所述目标人物设定数据。
6.根据权利要求3所述的方法,其特征在于,根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,包括:
根据所述目标人物设定数据对所述数字人进行打标签,得到多个类型标签,其中,所述类型标签与所述目标人物设定数据一一对应;
将多个所述类型标签输入至所述综合知识库中进行检索和筛选,得到多个目标知识点;
将多个所述目标知识点进行汇总,得到所述个性化知识库。
7.根据权利要求1所述的方法,其特征在于,至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人,包括:
构建对话模型,其中,所述对话模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、所述历史问题对应的历史答案,其中,所述历史问题对应的所述历史答案是通过在所述个性化知识库中筛选得到的;
构建数字人生成模型,其中,所述数字人生成模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的所述历史人脸图像、所述历史人脸图像对应的历史数字人、所述历史角色设计图像、所述历史角色设计图像对应的历史数字人;
将所述人脸图像和所述角色设计图像输入至所述数字人生成模型中,得到所述数字人的形象,并将所述数字人的形象与所述对话模型融合,生成所述数字人。
8.一种数字人的生成装置,其特征在于,包括:
第一获取单元,用于获取初始人物设定数据,其中,所述初始人物设定数据为随机生成的人物角色描述的数据,所述初始人物设定数据包括年龄、性别和职业中的一个或者多个;
第一构建单元,用于构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史人物设定数据、所述历史人物设定数据对应的历史人脸图像、所述历史人物设定数据对应的历史角色设计图像;
第一处理单元,用于将所述初始人物设定数据输入至所述文本生成图像模型,得到所述初始人物设定数据对应的人脸图像和角色设计图像;
第二处理单元,用于根据所述初始人物设定数据从综合知识库中选取知识点,得到个性化知识库,其中,所述综合知识库为包括所有知识点的知识库,所述综合知识库的知识点的数量大于所述个性化知识库的知识点的数量;
第三处理单元,用于至少根据所述人脸图像、所述角色设计图像和所述个性化知识库生成数字人。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述数字人的生成方法。
10.一种数字人的生成***,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至7中任意一项所述数字人的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567961.XA CN116543082A (zh) | 2023-05-18 | 2023-05-18 | 数字人的生成方法、装置和数字人的生成*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567961.XA CN116543082A (zh) | 2023-05-18 | 2023-05-18 | 数字人的生成方法、装置和数字人的生成*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543082A true CN116543082A (zh) | 2023-08-04 |
Family
ID=87453980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310567961.XA Pending CN116543082A (zh) | 2023-05-18 | 2023-05-18 | 数字人的生成方法、装置和数字人的生成*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543082A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993876A (zh) * | 2023-09-28 | 2023-11-03 | 世优(北京)科技有限公司 | 生成数字人形象的方法、装置、电子设备及存储介质 |
CN117173294A (zh) * | 2023-11-03 | 2023-12-05 | 之江实验室科技控股有限公司 | 自动生成数字人的方法及*** |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212237A (ja) * | 2011-03-30 | 2012-11-01 | Namco Bandai Games Inc | 画像生成システム、サーバシステム、プログラム及び情報記憶媒体 |
JP2013020366A (ja) * | 2011-07-08 | 2013-01-31 | Namco Bandai Games Inc | ゲームシステム、プログラム、及び情報記憶媒体 |
KR20130136630A (ko) * | 2012-06-05 | 2013-12-13 | 이범호 | 스마트폰을 활용한 유명인의 캐릭터 서비스 시스템 및 그 운용방법 |
CN106874472A (zh) * | 2017-02-16 | 2017-06-20 | 深圳追科技有限公司 | 一种拟人机器人客服方法 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
US20200306640A1 (en) * | 2019-03-27 | 2020-10-01 | Electronic Arts Inc. | Virtual character generation from image or video data |
CN113703585A (zh) * | 2021-09-23 | 2021-11-26 | 京东方科技集团股份有限公司 | 交互方法、装置、电子设备及存储介质 |
JP2021184255A (ja) * | 2020-06-22 | 2021-12-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム |
KR20220011100A (ko) * | 2020-07-20 | 2022-01-27 | 펄스나인 주식회사 | 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법 |
WO2022033332A1 (zh) * | 2020-08-14 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 对话生成方法、网络训练方法、装置、存储介质及设备 |
US20220054943A1 (en) * | 2020-08-21 | 2022-02-24 | Electronic Arts Inc. | Readable and Editable NPC Behavior Creation using Reinforcement Learning |
CN114268747A (zh) * | 2021-12-22 | 2022-04-01 | 建信金融科技有限责任公司 | 基于虚拟数字人的访谈业务处理方法及相关装置 |
KR102392584B1 (ko) * | 2021-09-10 | 2022-04-29 | (주)코딩앤플레이 | 역사 기반 코딩 교육 시스템의 제어 방법 |
US20220377414A1 (en) * | 2021-05-20 | 2022-11-24 | Alibaba (China) Co., Ltd. | Behavior control method and apparatus for virtual live streaming character |
CN115423936A (zh) * | 2022-08-15 | 2022-12-02 | 太仓咖咪咔嘶科技有限公司 | Ai虚拟人物和影像处理方法、***、电子设备及存储介质 |
CN115827838A (zh) * | 2022-11-23 | 2023-03-21 | 北京智谱华章科技有限公司 | 基于故事续写和动态知识库的对话生成方法及*** |
US20230099393A1 (en) * | 2021-09-24 | 2023-03-30 | Openstream Inc. | System and Method for Automated Digital Twin Behavior Modeling for Multimodal Conversations |
CN115880400A (zh) * | 2022-12-28 | 2023-03-31 | 中国电信股份有限公司 | 卡通数字人的形象生成方法、装置、电子设备及介质 |
CN116028904A (zh) * | 2022-11-14 | 2023-04-28 | 宋一飞 | 一种成长型数字人生成方法及场景内容创作平台 |
-
2023
- 2023-05-18 CN CN202310567961.XA patent/CN116543082A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212237A (ja) * | 2011-03-30 | 2012-11-01 | Namco Bandai Games Inc | 画像生成システム、サーバシステム、プログラム及び情報記憶媒体 |
JP2013020366A (ja) * | 2011-07-08 | 2013-01-31 | Namco Bandai Games Inc | ゲームシステム、プログラム、及び情報記憶媒体 |
KR20130136630A (ko) * | 2012-06-05 | 2013-12-13 | 이범호 | 스마트폰을 활용한 유명인의 캐릭터 서비스 시스템 및 그 운용방법 |
CN106874472A (zh) * | 2017-02-16 | 2017-06-20 | 深圳追科技有限公司 | 一种拟人机器人客服方法 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
US20200306640A1 (en) * | 2019-03-27 | 2020-10-01 | Electronic Arts Inc. | Virtual character generation from image or video data |
JP2021184255A (ja) * | 2020-06-22 | 2021-12-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム |
KR20220011100A (ko) * | 2020-07-20 | 2022-01-27 | 펄스나인 주식회사 | 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법 |
WO2022033332A1 (zh) * | 2020-08-14 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 对话生成方法、网络训练方法、装置、存储介质及设备 |
US20220054943A1 (en) * | 2020-08-21 | 2022-02-24 | Electronic Arts Inc. | Readable and Editable NPC Behavior Creation using Reinforcement Learning |
US20220377414A1 (en) * | 2021-05-20 | 2022-11-24 | Alibaba (China) Co., Ltd. | Behavior control method and apparatus for virtual live streaming character |
KR102392584B1 (ko) * | 2021-09-10 | 2022-04-29 | (주)코딩앤플레이 | 역사 기반 코딩 교육 시스템의 제어 방법 |
CN113703585A (zh) * | 2021-09-23 | 2021-11-26 | 京东方科技集团股份有限公司 | 交互方法、装置、电子设备及存储介质 |
US20230099393A1 (en) * | 2021-09-24 | 2023-03-30 | Openstream Inc. | System and Method for Automated Digital Twin Behavior Modeling for Multimodal Conversations |
CN114268747A (zh) * | 2021-12-22 | 2022-04-01 | 建信金融科技有限责任公司 | 基于虚拟数字人的访谈业务处理方法及相关装置 |
CN115423936A (zh) * | 2022-08-15 | 2022-12-02 | 太仓咖咪咔嘶科技有限公司 | Ai虚拟人物和影像处理方法、***、电子设备及存储介质 |
CN116028904A (zh) * | 2022-11-14 | 2023-04-28 | 宋一飞 | 一种成长型数字人生成方法及场景内容创作平台 |
CN115827838A (zh) * | 2022-11-23 | 2023-03-21 | 北京智谱华章科技有限公司 | 基于故事续写和动态知识库的对话生成方法及*** |
CN115880400A (zh) * | 2022-12-28 | 2023-03-31 | 中国电信股份有限公司 | 卡通数字人的形象生成方法、装置、电子设备及介质 |
Non-Patent Citations (3)
Title |
---|
LARS HANSON等: "Guide and documenttation system to support digital human modeling applications", SCIENCEDIRECT, 31 December 2006 (2006-12-31) * |
曾子明;秦思琪;: "面向数字人文的移动视觉搜索模型研究", 情报资料工作, no. 06, 25 November 2018 (2018-11-25) * |
谭浩;何晶晶;: "基于图象语义描述的品牌本土化形象认知研究", 包装工程, no. 20, 20 October 2016 (2016-10-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993876A (zh) * | 2023-09-28 | 2023-11-03 | 世优(北京)科技有限公司 | 生成数字人形象的方法、装置、电子设备及存储介质 |
CN116993876B (zh) * | 2023-09-28 | 2023-12-29 | 世优(北京)科技有限公司 | 生成数字人形象的方法、装置、电子设备及存储介质 |
CN117173294A (zh) * | 2023-11-03 | 2023-12-05 | 之江实验室科技控股有限公司 | 自动生成数字人的方法及*** |
CN117173294B (zh) * | 2023-11-03 | 2024-02-13 | 之江实验室科技控股有限公司 | 自动生成数字人的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220366281A1 (en) | Modeling characters that interact with users as part of a character-as-a-service implementation | |
CN107340859B (zh) | 多模态虚拟机器人的多模态交互方法和*** | |
KR20210110620A (ko) | 상호작용 방법, 장치, 전자 장치 및 저장 매체 | |
US9830044B2 (en) | Virtual assistant team customization | |
CN108235697B (zh) | 一种机器人动态学习方法、***、机器人以及云端服务器 | |
CN116543082A (zh) | 数字人的生成方法、装置和数字人的生成*** | |
US9796095B1 (en) | System and method for controlling intelligent animated characters | |
CN110400251A (zh) | 视频处理方法、装置、终端设备及存储介质 | |
CN109086860B (zh) | 一种基于虚拟人的交互方法及*** | |
CN107480766B (zh) | 多模态虚拟机器人的内容生成的方法和*** | |
CN110598576A (zh) | 一种手语交互方法、装置及计算机介质 | |
CN111831798A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
KR20190089451A (ko) | 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법 | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
CN112204565A (zh) | 用于基于视觉背景无关语法模型推断场景的***和方法 | |
EP2879062A2 (en) | A system and a method for providing a dialog with a user | |
US11418848B2 (en) | Device and method for interactive video presentation | |
CN110347817A (zh) | 智能应答方法及装置、存储介质、电子设备 | |
CN114237540A (zh) | 一种智慧课堂在线教学互动方法、装置、存储介质及终端 | |
CN117036555B (zh) | 数字人的生成方法、装置和数字人的生成*** | |
CN117632109A (zh) | 虚拟数字助手构建方法、装置、电子设备以及存储介质 | |
CN116895087A (zh) | 人脸五官的筛选方法、装置和人脸五官的筛选*** | |
CN112138410B (zh) | 一种虚拟对象的交互方法以及相关装置 | |
Zikky et al. | Utilizing Virtual Humans as Campus Virtual Receptionists | |
KR20230016366A (ko) | 인공지능 캐릭터의 대화 엔진 자가 학습 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |