CN117827322A - 大语言模型驱动的虚拟人视频生成***及控制方法和介质 - Google Patents

大语言模型驱动的虚拟人视频生成***及控制方法和介质 Download PDF

Info

Publication number
CN117827322A
CN117827322A CN202311760737.9A CN202311760737A CN117827322A CN 117827322 A CN117827322 A CN 117827322A CN 202311760737 A CN202311760737 A CN 202311760737A CN 117827322 A CN117827322 A CN 117827322A
Authority
CN
China
Prior art keywords
task
executed
subtask
tool
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311760737.9A
Other languages
English (en)
Inventor
卓寿杰
成秋喜
区国豪
李�权
付玟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sailingli Technology Co ltd
Original Assignee
Guangzhou Sailingli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sailingli Technology Co ltd filed Critical Guangzhou Sailingli Technology Co ltd
Priority to CN202311760737.9A priority Critical patent/CN117827322A/zh
Publication of CN117827322A publication Critical patent/CN117827322A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4488Object-oriented
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • G06F9/4484Executing subprograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种大语言模型驱动的虚拟人视频生成***及控制方法和介质,其通过工具模块存储多个虚拟人视频生成工具,通过提示语模块根据虚拟人视频生成任务信息,生成任务计划信息和子任务提示语信息,通过代理模块利用大语言模型和调用虚拟人视频生成工具,根据任务计划信息,生成虚拟人视频。本申请能够显著降低视频制作门槛,简化制作流程,实现自动化生成虚拟人视频,提高视频制作效率,使虚拟人视频制作更加容易和快捷。本申请广泛应用于虚拟人视频制作技术领域。

Description

大语言模型驱动的虚拟人视频生成***及控制方法和介质
技术领域
本申请涉及虚拟人视频制作技术领域,特别涉及一种大语言模型驱动的虚拟人视频生成***及控制方法和介质。
背景技术
数字虚拟人视频制作是一项具有广泛应用前景的领域。当前的数字虚拟人视频制作技术虽然提供了在视频制作流程中各个节点的技术支持,但其存在一系列显著的问题和缺陷,限制了其在实际应用中的效能和便捷性。这些问题主要包括制作门槛高、复杂繁琐的流程以及对视频素材的需求与版权问题等。
发明内容
为了解决至少一个上述相关技术中存在的技术问题,本申请实施例提出了一种大语言模型驱动的虚拟人视频生成***及控制方法和介质,旨在实现自动化生成虚拟人视频,降低视频制作门槛,简化制作流程,提高视频制作效率。
一方面,本申请实施例提出了一种虚拟人视频生成***,所述***包括:
工具模块,用于存储多个虚拟人视频生成工具,并提供对外调用接口以供代理模块调用所述虚拟人视频生成工具;所述虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
代理模块,用于获取虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,从多个所述虚拟人视频生成工具中确定多个目标生成工具;
提示语模块,用于获取所述虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,生成对应的任务计划信息,根据所述任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息,将各所述子任务提示语信息传输至代理模块;所述任务计划信息包括多个所述第一待执行子任务;
所述代理模块,还用于通过大语言模型根据各所述子任务提示语信息,输出对应于各所述第一待执行子任务对应的第二待执行子任务,根据各所述第二待执行子任务,从多个所述目标生成工具中确定对应于各所述第二待执行子任务的多个目标任务工具,利用所述大语言模型生成各所述目标任务工具的工具调用命令,通过所述对外调用接口,使用对应于各所述目标任务工具的所述工具调用命令,调用各所述目标任务工具执行对应的所述第二待执行子任务,生成对应于各所述第二待执行子任务的任务响应结果,将各所述任务响应结果输入至所述任务计划信息中,利用所述任务计划信息生成虚拟人视频。
在一些实施例中,所述***还包括:
模型训练模块,用于获取大语言模型样本数据集,利用所述大语言模型样本数据集对预训练的大语言模型进行数据训练,获得所述大语言模型,对所述大语言模型进行模型评估,确定模型评估结果,根据所述模型评估结果,调整所述大语言模型,将所述大语言模型部署至所述代理模块中。
在一些实施例中,所述提示语模块包括知识库单元和提示语生成单元;
所述知识库单元,用于获取虚拟人视频生成相关知识,生成虚拟人视频生成知识库;
所述提示语生成单元,用于根据所述任务计划信息,连接所述虚拟人视频生成知识库,根据所述任务计划信息中包含的各所述第一待执行子任务,利用所述虚拟人视频生成知识库生成对应于各所述第一待执行子任务的所述子任务提示语信息。
在一些实施例中,所述工具模块包括工具配置单元、工具存储单元和工具检索单元;
所述工具配置单元,用于提供工具自定义功能,配置对应于各所述虚拟人视频生成工具的工具功能信息;
所述工具存储单元,用于获取对应于各所述虚拟人生成视频工具功能信息的所述虚拟人视频生成工具并存储;
所述工具检索单元,用于提供工具检索接口,获取工具检索信息,根据所述工具检索信息,从多个所述虚拟人视频生成工具中确定对应于所述工具检索信息的目标检索工具。
在一些实施例中,所述代理模块包括模型部署单元和任务处理单元;
所述任务处理单元,用于根据所述虚拟人视频生成任务信息,生成对应的目标工具检索信息,调用所述工具检索接口,根据所述目标工具检索信息,确定多个所述目标生成工具;
所述模型应用单元,用于从所述模型训练模块中获取所述大语言模型并部署,通过所述大语言模型根据各所述第一待执行子任务对应的所述子任务提示语信息,输出对应于各所述第一待执行子任务的所述第二待执行子任务。
在一些实施例中,所述提示语生成单元还用于从所述模型应用单元中获取所述第二待执行子任务,根据各所述第二待执行子任务和各所述目标生成工具对应的工具功能信息,从多个所述目标生成工具中确定各所述第二待执行子任务对应的多个所述目标任务工具,以及生成对应于各所述第二待执行子任务的任务决策信息,将各所述任务决策信息传输至所述模型应用单元中;
所述模型应用单元,用于接收各所述任务决策信息,根据各所述任务决策信息,利用所述大语言模型生成各所述目标任务工具的所述工具调用命令;
所述任务处理单元,用于接收各所述目标任务工具的所述工具调用命令,通过所述对外调用接口,根据各所述目标任务工具的所述工具调用命令,调用各所述第二待执行子任务对应的各所述目标任务工具,执行对应的各所述第二待执行子任务,获得各所述第二待执行子任务对应的所述任务响应结果;
所述任务处理单元,还用于将各所述任务响应结果输入至所述任务计划信息中,利用所述任务计划信息执行虚拟人视频生成任务,生成所述虚拟人视频。
在一些实施例中,所述提示语模块用于获取历史任务响应结果和各所述第一待执行子任务的所述任务响应结果,根据所述虚拟人视频生成任务信息、所述历史任务响应结果以及当前执行子任务对应的所述任务响应结果,确定所述当前执行子任务对应的后继待执行子任务,以及确定是否调整所述当前执行子任务对应的所述子任务提示语信息;所述当前执行子任务为当前执行完毕并已生成所述任务响应结果的所述第一待执行子任务;所述后继待执行子任务为在所述任务计划信息中所述当前执行子任务后继的所述第一待执行子任务。
在一些实施例中,所述提示语模块用于当所述当前执行子任务对应的所述任务响应结果不符合所述当前执行子任务的任务需求时,调整所述当前执行子任务对应的所述子任务提示语信息,获得调整后的子任务提示语信息;
所述代理模块,用于根据调整后的所述子任务提示语信息,通过所述大语言模型生成对应于所述当前执行子任务的优化待执行子任务,根据所述优化待执行子任务,重新生成对应于所述当前执行子任务的任务响应结果。
另一方面,本申请实施例提出了一种控制方法,用于控制前面所述的虚拟人视频生成***,所述方法包括以下步骤:
获取多个虚拟人视频生成工具;所述虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
获取虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,生成任务计划信息,以及从多个所述虚拟人视频生成工具中确定多个目标生成工具;
获取所述任务计划信息,根据所述任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息;所述任务计划信息包括多个所述第一待执行子任务;
通过大语言模型根据各所述子任务提示语信息,输出对应于各所述第一待执行子任务对应的第二待执行子任务,根据各所述第二待执行子任务,从多个所述目标生成工具中确定对应于各所述第二待执行子任务的多个目标任务工具,利用所述大语言模型生成各所述目标任务工具的工具调用命令,使用对应于各所述目标任务工具的所述工具调用命令,调用各所述目标任务工具执行对应的所述第二执行子任务,生成对应于各所述第二待执行子任务的任务响应结果,将各所述任务响应结果输入至所述任务计划信息中,生成虚拟人视频。
还有一方面,本申请实施例提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现前面所述的控制方法。
本申请提供的一种大语言模型驱动的虚拟人视频生成***及控制方法和介质,其通过工具模块存储多个虚拟人视频生成工具,通过提示语模块根据虚拟人视频生成任务信息,生成任务计划信息和子任务提示语信息,通过代理模块利用大语言模型和调用虚拟人视频生成工具,生成虚拟人视频。本申请能够显著降低视频制作门槛,简化制作流程,实现自动化生成虚拟人视频,提高视频制作效率,使虚拟人视频制作更加容易和快捷。
附图说明
图1是本申请实施例提供的一种大语言模型驱动的虚拟人视频生成***的结构示意图;
图2是本申请实施例提供的一种大语言模型驱动的虚拟人视频生成***的***框架示意图;
图3是本申请实施例中第一待执行任务与第二待执行任务的关系示意图;
图4是本申请实施例中利用提示语模块生成任务计划信息的示意图;
图5是本申请实施例提供的一种控制方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
API:应用程序编程接口(英语:Application Programming Interface,简称:API),是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
数字虚拟人视频制作是一项具有广泛应用前景的领域。当前的数字虚拟人视频制作技术虽然提供了在视频制作流程中各个节点的技术支持,但其存在一系列显著的问题和缺陷,限制了其在实际应用中的效能和便捷性。这些问题主要包括制作门槛高、复杂繁琐的流程、对素材的需求与版权问题、以及寻找合适虚拟人形象和声音等。
现有的数字虚拟人视频制作技术主要有以下缺点:
1.高门槛:现有技术对视频制作人要求极高,需要他们深入参与复杂繁琐的制作流程。
2.素材采集难度大:视频制作人必须费力收集实时的热点素材或私域素材,并将其转化为适用于虚拟人的口播文案。
3.素材版权问题:使用背景图、表情图、动图等素材时,常常涉及版权问题,限制了创作的自由度。
4.需要手动编辑:制作人还必须手动编辑文字素材,精确贴合视频的时间和位置,增加了制作的复杂性。
5.虚拟人形象和声音难寻找:寻找适合虚拟人视频的人物形象和声音也是一项困难任务。
基于此,本申请实施例提出了大语言模型驱动的虚拟人视频生成***及控制方法和介质,旨在实现自动化生成虚拟人视频,降低视频制作门槛,简化制作流程,提高视频制作效率,通过利用人工智能代理,使虚拟人视频制作更加容易,快捷,并大幅提高视频质量和创作自由度,满足了相关行业的迫切需求。
参照图1,图1是本申请实施例提供的一种大语言模型驱动的虚拟人视频生成***的一个可选的结构示意图,该***可以包括但不限于包括:
工具模块,用于存储多个虚拟人视频生成工具,并提供对外调用接口以供代理模块调用虚拟人视频生成工具;虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
代理模块,用于获取虚拟人视频生成任务信息,根据虚拟人视频生成任务信息,从多个虚拟人视频生成工具中确定多个目标生成工具;
提示语模块,用于获取虚拟人视频生成任务信息,根据虚拟人视频生成任务信息,生成对应的任务计划信息,根据任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息,将各子任务提示语信息传输至代理模块;任务计划信息包括多个第一待执行子任务;
代理模块,还用于通过大语言模型根据各子任务提示语信息,输出对应于各第一待执行子任务对应的第二待执行子任务,根据各第二待执行子任务,从多个目标生成工具中确定对应于各第二待执行子任务的多个目标任务工具,利用大语言模型生成各目标任务工具的工具调用命令,通过对外调用接口,使用对应于各目标任务工具的工具调用命令,调用各目标任务工具执行对应的第二待执行子任务,生成对应于各第二待执行子任务的任务响应结果,将各任务响应结果输入至任务计划信息中,利用任务计划信息生成虚拟人视频。
在一些实施例中,提示语模块用于提示语的构造,可以包括但不限于包括以下类型提示语的构造:
***角色提示语:提示语明确了***在模拟虚拟人行为时的语言风格、特点和行动,可以指导大语言模型在虚拟人视频制作任务中扮演特定角色的语言生成;
计划决策与更新提示语:在数字虚拟人视频制作过程中,决策和计划更新是不可避免的,生成与计划决策和更新相关的语句,使得***能够根据最新信息和需求进行相应的行动;
API与任务描述的提示语:在与各种API进行交互时,生成与API请求和任务描述相关的提示语,这些提示语用于清晰地表达虚拟人视频制作的需求和指令。
在一些实施例中,上述***还包括:
模型训练模块,用于获取大语言模型样本数据集,利用大语言模型样本数据集对预训练的大语言模型进行数据训练,获得大语言模型,对大语言模型进行模型评估,确定模型评估结果,根据模型评估结果,调整大语言模型,将大语言模型部署至代理模块中。
在一些实施例中,采用多个开源的大语言模型作为核心组件,用于模型训练和推理,以支持数字虚拟人视频制作任务的各个方面。
在一些实施例中,具体地,模型训练模块获取大语言模型样本数据集,大语言模型样本数据集包括:
模型API相关训练数据:包括与虚拟人视频制作任务相关的数据,如视频脚本、虚拟人形象信息等;
通用API相关训练数据:涵盖了各种常见功能API的数据,例如搜索引擎查询、天气数据、实时新闻等;
API无关的训练数据:这些数据不依赖于特定API,用于丰富大语言模型的语境理解和生成能力。
在一些实施例中,模型训练模块利用大语言模型样本数据集对预训练的大语言模型进行数据训练,可选地,使用多种开源的大语言模型进行预训练,开源的大语言模型包括但不限于LLaMA2、ChatGLM2-6B以及通义千问7B等,训练的目标是提高大语言模型的语言理解、生成和语境推理能力。
在一些实施例中,模型训练模块对训练完毕的大语言模型进行模型有效性评估,可以采用以下自动化和人工评估指标:
EM精确匹配(Exact Match):用于测量模型生成的文本是否与预期文本完全匹配的程度。其公式如下:
EM=(生成文本与预期文本完全匹配的数量)/(总生成文本数量)
Rouge-L指标:用于评估生成文本的质量和连贯性,公式如下:
Rouge-L=(最长公共子序列的长度)/(参考文本的长度)
F1分数:结合了精确度和召回率,用于全面评估生成文本的准确性和完整性。其公式如下:
F1=2*(精确度*召回率)/(精确度+召回率)
通过上述这些模型评估指标,确定大语言模型的模型评估结果,模型评估结果为评估合格的大语言模型,将自动部署至代理模块。
在一些实施例中,参照图2,图2是本申请实施例提供的一种大语言模型驱动的虚拟人视频生成***的一个可选的***框架示意图,其中,包括模型训练模块、工具模块、代理模块和提示语模块,模型训练模块将大语言模型传输至代理模块中,代理模块利用大语言模型与工具模块和提示语模块进行数据交互,通过大语言模型接收工具模块和提示语模块的相关数据,并输出相应的信息反馈至工具模块和提示语模块。
在一些实施例中,上述提示语模块包括知识库单元和提示语生成单元。
知识库单元,用于获取虚拟人视频生成相关知识,生成虚拟人视频生成知识库;
提示语生成单元,用于根据任务计划信息,连接虚拟人视频生成知识库,根据任务计划信息中包含的各第一待执行子任务,利用虚拟人视频生成知识库生成对应于各第一待执行子任务的子任务提示语信息。
在一些实施例中,虚拟人视频生成知识库包括各种与虚拟人视频生成相关的文本、数据、图像和其他多媒体内容,旨在为虚拟人视频生成任务提供支持和上下文,虚拟人视频生成知识库的内容可以从各种来源获得,包括互联网上的公开文档、专门构建的数据库、已发布的文献、用户编写的内容等。
在一些实施例中,提示语生成单元连接知识库单元,生成上述第一待执行子任务对应的子任务提示语信息,子任务提示语信息包括但不限于包括与对应的第一待执行子任务相关的***角色提示语、计划决策与更新提示语以及API与任务描述的提示语,这些构造的提示语将作为输入传递给代理模块中的大语言模型,指导大语言模型生成与第一待执行子任务相关的文本、脚本和指令。
在一些实施例中,工具模块包括工具配置单元、工具存储单元和工具检索单元。
工具配置单元,用于提供工具自定义功能,配置对应于各虚拟人视频生成工具的工具功能信息;
工具存储单元,用于获取对应于各虚拟人生成视频工具功能信息的虚拟人视频生成工具并存储;
工具检索单元,用于提供工具检索接口,获取工具检索信息,根据工具检索信息,从多个虚拟人视频生成工具中确定对应于工具检索信息的目标检索工具。
在一些实施例中,工具配置单元提供工具自定义功能,利用工具自定义功能,用户可以新增自定义的虚拟人视频生成工具,对虚拟人视频生成工具进行工具描述、配置更新和维护,具备灵活性和可定制性,使用户能够根据具体需求创建适合其任务的工具。
将自定义的虚拟人视频生成工具存储至工具存储单元中,以便后续使用。
在一些实施例中,工具存储单元存储并提供了多样化的虚拟人生成视频工具,以满足不同的数字虚拟人视频制作需求。虚拟人视频生成工具分为两类,一类是虚拟人视频生成相关的人工智能模型,另一类是虚拟人视频生成相关的应用程序编程接口。
人工智能模型包括各种预训练模型,如口播文稿创作模型、虚拟人声音推荐模型、虚拟人形象推荐模型、关键信息抽取模型、文本翻译模型、文本转音频模型、文生图绘画模型、说话人脸视频生成模型、文生音乐创作模型以及私域知识搜索模型等。应用程序编程接口包括各种通用功能API,如天气查询API、网页搜索API、计算器API以及地图查询API等。
示例性地,口播文稿创作模型是一种人工智能模型,旨在生成适合虚拟人口播的文稿或台词,其功能作用为:可以自动生成文本内容,使其适合虚拟人以自然、流畅的方式朗读,其在代理模块中的应用:口播文稿创作模型可用于虚拟人视频生成任务中,帮助虚拟人模仿口播主持人或演员的语音表现。在代理模块中,它可以接收任务需求和上下文提示,并生成与虚拟人的角色、场景和情感相匹配的口播文稿,以便虚拟人能够生动地表达所需内容。
虚拟人声音推荐模型虚拟人声音推荐模型是一个AI模型,用于推荐适合虚拟人角色的声音特点和音调,其功能作用为:可以根据虚拟人的性格、性别、情感等因素,提供声音特点和声音样本的建议。在代理模块中的应用:虚拟人声音推荐模型可用于虚拟人视频制作任务中,帮助选择与虚拟人形象相匹配的声音。在代理模块中,它可以接收虚拟人的属性和任务需求,并推荐适合虚拟人的声音选项,以确保虚拟人的声音与其形象和情感一致。
文本转音频模型是一种文本到语音(TTS)模型,可以将文本内容自动转换为语音音频,其功能作用为:可以模仿人类发音,提供自然的语音合成。在代理模块中的应用:文本转音频模型在代理模块中可用于将生成的文本内容转化为虚拟人的语音表达。它可以接收代理模块生成的文本指令,然后将其转换为虚拟人的语音输出,以实现虚拟人的口播或对话。
在一些实施例中,工具检索单元是工具模块的关键功能之一,它能够根据用户的请求语句(工具检索信息)智能检索到一系列与任务相关的目标检索工具。这些目标检索工具将用于后续由代理模块调用,以执行具体的任务,工具检索的智能性和准确性有助于提高***的效率和任务执行质量。
在一些实施例中,工具模块的灵活性、多样性和智能性,为数字虚拟人视频生成方法提供了强大的支持,使其能够根据具体需求快速定制工具并高效执行任务,大幅提高了数字虚拟人视频制作的效率和质量。
在一些实施例中,代理模块包括模型部署单元和任务处理单元。
任务处理单元,用于根据虚拟人视频生成任务信息,生成对应的目标工具检索信息,调用工具检索接口,根据目标工具检索信息,确定多个目标生成工具;
模型应用单元,用于从模型训练模块中获取大语言模型并部署,通过大语言模型根据各第一待执行子任务对应的子任务提示语信息,输出对应于各第一待执行子任务的第二待执行子任务。
在一些实施例中,代理模块响应于用户输入的虚拟人视频生成任务的请求描述信息,获取对应的虚拟人视频生成任务信息,利用工具模块进行工具检索,确定执行该虚拟人视频生成任务所可能应用的多个目标生成工具。
在一些实施例中,参照图3,图3是本申请实施例中第一待执行任务与第二待执行任务的一个可选的关系示意图,其中,将第一待执行子任务对应的子任务提示语信息输入至代理模块中的大语言模型中,大语言模型根据该子任务提示语信息,扩展第一待执行子任务,输出具有更多任务描述信息的第二待执行子任务。
在一些实施例中,提示语生成单元还用于从模型应用单元中获取第二待执行子任务,根据各第二待执行子任务和各目标生成工具对应的工具功能信息,从多个目标生成工具中确定各第二待执行子任务对应的多个目标任务工具,以及生成对应于各第二待执行子任务的任务决策信息,将各任务决策信息传输至模型应用单元中。
在一些实施例中,模型应用单元,用于接收各任务决策信息,根据各任务决策信息,利用大语言模型生成各目标任务工具的工具调用命令;
任务处理单元,用于接收各目标任务工具的工具调用命令,通过对外调用接口,根据各目标任务工具的工具调用命令,调用各第二待执行子任务对应的各目标任务工具,执行对应的各第二待执行子任务,获得各第二待执行子任务对应的任务响应结果;
任务处理单元,还用于将各任务响应结果输入至任务计划信息中,利用任务计划信息执行虚拟人视频生成任务,生成虚拟人视频。
在一些实施例中,代理模块根据当前执行的第二待执行子任务和对应的目标任务工具的功能信息,利用提示语模块构造该当前执行的第二待执行子任务的API与任务描述提示语(任务决策信息),API与任务描述提示语用于生成可供大语言模型理解的信息,包括选择要调用的适当API以及构造API调用所需的参数,使得大语言模型可以根据该API与任务描述提示语生成对应的工具调用指令,调用相应的虚拟人视频生成工具。
在一些实施例中,基于模型应用单元中大语言模型的输出的工具调用指令,任务处理单元发起对工具模块中的工具调用请求,这一步骤中大语言模型根据输入的API与任务描述提示语来生成对应的工具调用指令,确定调用的虚拟人视频生成工具的类型和参数,以实现虚拟人视频生成所需的具体任务。
在一些实施例中,代理模块利用提示语模块构造虚拟人视频生成任务对应的计划决策与更新提示语,计划决策与更新提示语用于生成任务计划信息,以便调整和优化数字虚拟人视频生成过程。生成的任务计划信息中包括指示“结束流程”的第一待执行子任务(即已完成虚拟人视频生成任务),则代理模块执行到该第一待执行子任务时,将结束虚拟人视频生成流程。
在一些实施例中,代理模块接收来自工具模块的API请求返回的任务响应结果,并将任务响应结果输入至任务计划信息中对应的第一待执行子任务中,以便进行进一步的决策和任务更新。
在一些实施例中,提示语模块用于获取历史任务响应结果和各第一待执行子任务的任务响应结果,根据虚拟人视频生成任务信息、历史任务响应结果以及当前执行子任务对应的任务响应结果,确定当前执行子任务对应的后继待执行子任务,以及确定是否调整当前执行子任务对应的子任务提示语信息;当前执行子任务为当前执行完毕并已生成任务响应结果的第一待执行子任务;后继待执行子任务为在任务计划信息中当前执行子任务后继的第一待执行子任务。
在一些实施例中,提示语模块从数据库中获取历史任务响应结果,参照图4,图4是本申请实施例中利用提示语模块生成任务计划信息的一个可选的示意图,其中,提示语模块根据虚拟人视频生成任务信息,生成包含多个第一待执行任务的任务计划信息,该任务计划信息中包括第一待执行子任务1至N,代理模块顺序执行第一待执行子任务1至N对应的第二待执行任务1至N,获得每个第一待执行子任务对应的任务响应结果,提示语模块根据历史任务响应结果以及虚拟人视频生成任务信息,确定各第一待执行子任务的后继待执行子任务的具体任务信息,示例性地,第一待执行子任务2是第一待执行子任务1的后继待执行子任务,第一待执行子任务2由第一待执行子任务1的任务响应结果1、历史任务响应结果以及虚拟人视频生成任务信息共同确定,同理,第一待执行子任务3由第一待执行子任务2的任务响应结果2、历史任务响应结果以及虚拟人视频生成任务信息共同确定,直至生成第一待执行子任务N,其指示“结束流程”,则结束虚拟人视频生成流程。
在一些实施例中,提示语模块用于当上述当前执行子任务对应的任务响应结果不符合当前执行子任务的任务需求时,调整当前执行子任务对应的子任务提示语信息,获得调整后的子任务提示语信息;
代理模块,用于根据调整后的子任务提示语信息,通过大语言模型生成对应于当前执行子任务的优化待执行子任务,根据优化待执行子任务,重新生成对应于当前执行子任务的任务响应结果。
在一些实施例中,通过对判断任务响应结果是否符合当前执行子任务的任务需求,动态调整当前执行子任务的子任务提示语信息,从而调整任务响应结果,使得任务响应结果可以满足当前执行子任务的任务需求。
在一些实施例中,假设有用户使用上述虚拟人视频生成***生成一个虚拟人视频,输入的虚拟人视频生成任务信息为:“制作一个教育视频,虚拟人需要有友好的语气,涉及科学知识,时长约5分钟”,使用上述虚拟人视频生成***生成该虚拟人视频的具体流程如下:
第一步,代理模块首先根据这个虚拟人视频生成任务信息进行工具检索,确定可以使用的目标生成工具,包括口播文稿创作模型、科学知识库和声音推荐模型等。
第二步,工具选择与入参构造:代理模块使用提示语模块构建任务计划信息,构建当前执行的第一待执行子任务的任务描述相关的提示语(子任务提示语信息),包括生成适合友好语气的口播文稿,查询科学知识库以准备视频内容,选择虚拟人声音;
第三步,API调用:通过代理模块中的大语言模型,获得代理模块中与当前执行的第一待执行子任务相对应的待执行子任务,代理模块根据待执行子任务调用相应的目标生成工具,比如口播文稿创作模型生成友好语气的口播文稿,查询科学知识库获取相关内容,选择适合的虚拟人声音;
第四步,结果响应:接收口播文稿、科学知识内容,以及虚拟人声音等任务响应结果,并将任务响应结果输入到任务计划信息中对应的第一待执行子任务中;
第五步,动态调整:在任务处理过程中,代理模块确定是否调整第一待执行子任务,根据各第一待执行子任务的任务响应结果,确定是否重新生成第一待执行子任务的子任务提示语信息,例如,如果选取的口播文稿不够友好,代理模块可能会重新利用提示语模块重新构建相应子任务提示语信息,调整口播文稿的生成方式;
第六步,虚拟人视频生成:根据任务计划信息中的各第一待执行子任务及对应的任务响应结果,顺序执行多个第一待执行子任务,生成虚拟人视频。
参照图5,图5是本申请实施例提供的一种控制方法的一个可选的流程图,该控制方法用于控制上述的虚拟人视频生成***,可以包括但不限于包括步骤S101至步骤S104:
步骤S101,获取多个虚拟人视频生成工具;虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
步骤S102,获取虚拟人视频生成任务信息,根据虚拟人视频生成任务信息,生成任务计划信息,以及从多个虚拟人视频生成工具中确定多个目标生成工具;
步骤S103,获取任务计划信息,根据任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息;任务计划信息包括多个第一待执行子任务;
步骤S104,通过大语言模型根据各子任务提示语信息,输出对应于各第一待执行子任务对应的第二待执行子任务,根据各第二待执行子任务,从多个目标生成工具中确定对应于各第二待执行子任务的多个目标任务工具,利用大语言模型生成各目标任务工具的工具调用命令,使用对应于各目标任务工具的工具调用命令,调用各目标任务工具执行对应的第二执行子任务,生成对应于各第二待执行子任务的任务响应结果,将各任务响应结果输入至任务计划信息中,利用任务计划信息生成虚拟人视频。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述控制方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的一种大语言模型驱动的虚拟人视频生成***及控制方法和介质,其通过工具模块存储多个虚拟人视频生成工具,通过提示语模块根据虚拟人视频生成任务信息,生成任务计划信息和子任务提示语信息,通过代理模块利用大语言模型和调用虚拟人视频生成工具,生成虚拟人视频。本申请能够显著降低视频制作门槛,简化制作流程,实现自动化生成虚拟人视频,提高视频制作效率,使虚拟人视频制作更加容易和快捷。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (10)

1.一种大语言模型驱动的虚拟人视频生成***,其特征在于,所述***包括:
工具模块,用于存储多个虚拟人视频生成工具,并提供对外调用接口以供代理模块调用所述虚拟人视频生成工具;所述虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
代理模块,用于获取虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,从多个所述虚拟人视频生成工具中确定多个目标生成工具;
提示语模块,用于获取所述虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,生成对应的任务计划信息,根据所述任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息,将各所述子任务提示语信息传输至代理模块;所述任务计划信息包括多个所述第一待执行子任务;
所述代理模块,还用于通过大语言模型根据各所述子任务提示语信息,输出对应于各所述第一待执行子任务对应的第二待执行子任务,根据各所述第二待执行子任务,从多个所述目标生成工具中确定对应于各所述第二待执行子任务的多个目标任务工具,利用所述大语言模型生成各所述目标任务工具的工具调用命令,通过所述对外调用接口,使用对应于各所述目标任务工具的所述工具调用命令,调用各所述目标任务工具执行对应的所述第二待执行子任务,生成对应于各所述第二待执行子任务的任务响应结果,将各所述任务响应结果输入至所述任务计划信息中,利用所述任务计划信息生成虚拟人视频。
2.根据权利要求1所述的虚拟人视频生成***,其特征在于,所述***还包括:
模型训练模块,用于获取大语言模型样本数据集,利用所述大语言模型样本数据集对预训练的大语言模型进行数据训练,获得所述大语言模型,对所述大语言模型进行模型评估,确定模型评估结果,根据所述模型评估结果,调整所述大语言模型,将所述大语言模型部署至所述代理模块中。
3.根据权利要求1所述的虚拟人视频生成***,其特征在于,所述提示语模块包括知识库单元和提示语生成单元;
所述知识库单元,用于获取虚拟人视频生成相关知识,生成虚拟人视频生成知识库;
所述提示语生成单元,用于根据所述任务计划信息,连接所述虚拟人视频生成知识库,根据所述任务计划信息中包含的各所述第一待执行子任务,利用所述虚拟人视频生成知识库生成对应于各所述第一待执行子任务的所述子任务提示语信息。
4.根据权利要求2所述的虚拟人视频生成***,其特征在于,所述工具模块包括工具配置单元、工具存储单元和工具检索单元;
所述工具配置单元,用于提供工具自定义功能,配置对应于各所述虚拟人视频生成工具的工具功能信息;
所述工具存储单元,用于获取对应于各所述虚拟人生成视频工具功能信息的所述虚拟人视频生成工具并存储;
所述工具检索单元,用于提供工具检索接口,获取工具检索信息,根据所述工具检索信息,从多个所述虚拟人视频生成工具中确定对应于所述工具检索信息的目标检索工具。
5.根据权利要求4所述的虚拟人视频生成***,其特征在于,所述代理模块包括模型部署单元和任务处理单元;
所述任务处理单元,用于根据所述虚拟人视频生成任务信息,生成对应的目标工具检索信息,调用所述工具检索接口,根据所述目标工具检索信息,确定多个所述目标生成工具;
所述模型应用单元,用于从所述模型训练模块中获取所述大语言模型并部署,通过所述大语言模型根据各所述第一待执行子任务对应的所述子任务提示语信息,输出对应于各所述第一待执行子任务的所述第二待执行子任务。
6.根据权利要求5所述的虚拟人视频生成***,其特征在于,所述提示语生成单元还用于从所述模型应用单元中获取所述第二待执行子任务,根据各所述第二待执行子任务和各所述目标生成工具对应的工具功能信息,从多个所述目标生成工具中确定各所述第二待执行子任务对应的多个所述目标任务工具,以及生成对应于各所述第二待执行子任务的任务决策信息,将各所述任务决策信息传输至所述模型应用单元中;
所述模型应用单元,用于接收各所述任务决策信息,根据各所述任务决策信息,利用所述大语言模型生成各所述目标任务工具的所述工具调用命令;
所述任务处理单元,用于接收各所述目标任务工具的所述工具调用命令,通过所述对外调用接口,根据各所述目标任务工具的所述工具调用命令,调用各所述第二待执行子任务对应的各所述目标任务工具,执行对应的各所述第二待执行子任务,获得各所述第二待执行子任务对应的所述任务响应结果;
所述任务处理单元,还用于将各所述任务响应结果输入至所述任务计划信息中,利用所述任务计划信息执行虚拟人视频生成任务,生成所述虚拟人视频。
7.根据权利要求6所述的虚拟人视频生成***,其特征在于,所述提示语模块用于获取历史任务响应结果和各所述第一待执行子任务的所述任务响应结果,根据所述虚拟人视频生成任务信息、所述历史任务响应结果以及当前执行子任务对应的所述任务响应结果,确定所述当前执行子任务对应的后继待执行子任务,以及确定是否调整所述当前执行子任务对应的所述子任务提示语信息;所述当前执行子任务为当前执行完毕并已生成所述任务响应结果的所述第一待执行子任务;所述后继待执行子任务为在所述任务计划信息中所述当前执行子任务后继的所述第一待执行子任务。
8.根据权利要求7所述的虚拟人视频生成***,其特征在于,所述提示语模块用于当所述当前执行子任务对应的所述任务响应结果不符合所述当前执行子任务的任务需求时,调整所述当前执行子任务对应的所述子任务提示语信息,获得调整后的子任务提示语信息;
所述代理模块,用于根据调整后的所述子任务提示语信息,通过所述大语言模型生成对应于所述当前执行子任务的优化待执行子任务,根据所述优化待执行子任务,重新生成对应于所述当前执行子任务的任务响应结果。
9.一种控制方法,用于控制如权利要求1至8任一项所述的虚拟人视频生成***,其特征在于,所述方法包括以下步骤:
获取多个虚拟人视频生成工具;所述虚拟人视频生成工具包括虚拟人视频生成相关的人工智能模型和应用程序编程接口;
获取虚拟人视频生成任务信息,根据所述虚拟人视频生成任务信息,生成任务计划信息,以及从多个所述虚拟人视频生成工具中确定多个目标生成工具;
获取所述任务计划信息,根据所述任务计划信息,生成对应于各个第一待执行子任务对应的子任务提示语信息;所述任务计划信息包括多个所述第一待执行子任务;
通过大语言模型根据各所述子任务提示语信息,输出对应于各所述第一待执行子任务对应的第二待执行子任务,根据各所述第二待执行子任务,从多个所述目标生成工具中确定对应于各所述第二待执行子任务的多个目标任务工具,利用所述大语言模型生成各所述目标任务工具的工具调用命令,使用对应于各所述目标任务工具的所述工具调用命令,调用各所述目标任务工具执行对应的所述第二执行子任务,生成对应于各所述第二待执行子任务的任务响应结果,将各所述任务响应结果输入至所述任务计划信息中,生成虚拟人视频。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求9所述的控制方法。
CN202311760737.9A 2023-12-19 2023-12-19 大语言模型驱动的虚拟人视频生成***及控制方法和介质 Pending CN117827322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311760737.9A CN117827322A (zh) 2023-12-19 2023-12-19 大语言模型驱动的虚拟人视频生成***及控制方法和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311760737.9A CN117827322A (zh) 2023-12-19 2023-12-19 大语言模型驱动的虚拟人视频生成***及控制方法和介质

Publications (1)

Publication Number Publication Date
CN117827322A true CN117827322A (zh) 2024-04-05

Family

ID=90510684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311760737.9A Pending CN117827322A (zh) 2023-12-19 2023-12-19 大语言模型驱动的虚拟人视频生成***及控制方法和介质

Country Status (1)

Country Link
CN (1) CN117827322A (zh)

Similar Documents

Publication Publication Date Title
CN106469212B (zh) 基于人工智能的人机交互方法和装置
US10319381B2 (en) Iteratively updating parameters for dialog states
CN106611597B (zh) 基于人工智能的语音唤醒方法和装置
KR102444712B1 (ko) 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법
US20170200075A1 (en) Digital companions for human users
CN102292766B (zh) 用于语音处理的方法和装置
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
CN115587175B (zh) 人机对话及预训练语言模型训练方法、***及电子设备
CN105185372A (zh) 个性化多声学模型的训练方法、语音合成方法及装置
Rieser et al. Natural language generation as incremental planning under uncertainty: Adaptive information presentation for statistical dialogue systems
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
CN107480766B (zh) 多模态虚拟机器人的内容生成的方法和***
CN116644168A (zh) 一种交互数据构建方法、装置、设备及存储介质
Origlia et al. FANTASIA: a framework for advanced natural tools and applications in social, interactive approaches
CN114048299A (zh) 对话方法、装置、设备、计算机可读存储介质及程序产品
CN112634886B (zh) 一种智能设备的交互方法、服务器、计算设备及存储介质
KR102377645B1 (ko) 인공지능 비전문가를 위한 인공지능 서비스 제공 시스템 및 방법
Pietquin Consistent goal-directed user model for realisitc man-machine task-oriented spoken dialogue simulation
CN111427444B (zh) 一种智能设备的控制方法和设备
CN117827322A (zh) 大语言模型驱动的虚拟人视频生成***及控制方法和介质
CN115442495A (zh) 一种ai演播室***
CN112487170B (zh) 面向场景配置的人机交互对话机器人***
JP7448240B2 (ja) 効率的な対話構成
EP4139784A1 (en) Hierarchical context specific actions from ambient speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination