CN117991908A

CN117991908A - 一种与虚拟形象的交互方法、装置、设备及存储介质

Info

Publication number: CN117991908A
Application number: CN202410409132.3A
Authority: CN
Inventors: 李正兴; 邱东洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-07
Anticipated expiration: 2044-04-07
Also published as: CN117991908B

Abstract

本申请公开一种与虚拟形象的交互方法、装置、设备及存储介质，应用于人工智能技术领域，用于在人机交互中提升用户体验。本申请提出，在获取到目标文本后，通过回复模型根据目标文本生成目标回复文本的第一字段；当第一字段小于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，使得终端可以基于第一口型片段、第一动作片段和第一语音片段展现目标虚拟对象的动作和声音。针对满足一定条件的第一字段进行后续处理的方案，可以有效缩减目标回复文本的最小处理单元，使得方案可以快速对目标回复文本的片段进行反馈，缩减用户等待时长，有效提升了方案的用户体验。

Description

一种与虚拟形象的交互方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种与虚拟形象的交互方法、装置、设备及存储介质。

背景技术

随着人工智能（artificial intelligence，AI）技术的不断发展，人机交互的形式也不断更新迭代，为了提升用户在人机交互过程中的互动体验，在人机交互中引入了虚拟形象，在不同的场景下，虚拟形象可以为不同外形、不同语言、不同声音的形象，虚拟形象也可以根据场景的不同，配合不同的发言做出不同的动作。

在人机交互的过程中，需要依靠文本大模型对采集到的文本作出相应的反馈，将反馈内容输入语音模型、动作模型和口型模型，分别生成语音内容、动作内容和口型内容。

在这样的处理方式中，交互的等待时长会随着文本形式的语句长度或回复内容长度的增加，呈指数增长的形式，导致用户在交互中出现长时间的等待，从而降低用户体验。

发明内容

本申请实施例提供了一种与虚拟形象的交互方法、装置、设备及存储介质，用于提升用户体验。

有鉴于此，本申请一方面提供一种与虚拟形象的交互方法，包括：

获取目标文本；

获取回复模型根据目标文本生成目标回复文本的第一字段；

当第一字段少于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，X为大于10的正整数；

发送第一口型片段，以使得基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送第一动作片段，以使得基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送第一语音片段。

本申请另一方面提供一种与虚拟形象的交互方法，包括：

获取基于第二交互界面获取目标对象输入的目标文本；

向服务器发送目标文本；

获取服务器发送的第一口型片段、第一动作片段和第一语音片段，第一语音片段为根据第一字段生成的语音片段，第一口型片段为根据第一字段生成的口型片段，第一动作片段为根据第一字段生成的第一动作片段，第一字段为回复模型根据目标文本生成目标回复文本的第一字段，第一字段小于或等于X个字符，且第一字段的最后一个字符为标点，X为大于10的正整数；

基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

播放第一语音片段。

本申请另一方面提供一种与虚拟形象的交互装置，包括：

获取单元，用于获取目标文本；

获取单元，还用于获取回复模型根据目标文本生成目标回复文本的第一字段；

处理单元，用于当第一字段少于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，X为大于10的正整数；

发送单元，用于发送第一口型片段，以使得基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元，用于发送第一动作片段，以使得基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元，用于发送第一语音片段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，当第一字段不足X个字符，且第一字段中不包括标点时，获取单元，还用于获取回复模型根据目标文本生成目标回复文本的第二字段，第二字段包含于预设字段，预设字段还包括第一字段；

处理单元，还用于当预设字段大于X个字符，且预设字段中不包括标点时，使用语义分割模型对预设字段进行处理，获得第一分割字段；

处理单元，还用于当第一分割字段小于或等于X个字符时，根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段；

发送单元，还用于发送第二口型片段，以使得基于第二口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元，还用于发送第二动作片段，以使得基于第二动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元，还用于发送第二语音片段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，当预设字段大于X个字符，且预设字段中不包括标点时，处理单元，具体用于当预设字段大于X个字符，且预设字段中不包括标点时，使用语义分割模型对预设字段进行处理，获得第一分割字段和第二分割字段；

处理单元，还用于根据第二分割字段生成第三语音片段、第三口型片段和第三动作片段；

发送单元，具体用于发送第二口型片段和第三口型片段，以使得基于第二口型片段和第三口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元，具体用于发送第二动作片段和第三动作片段，以使得基于第二动作片段和第三动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元，具体用于发送第二语音片段和第三语音片段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，发送单元，具体用于：

对第二口型片段的后N帧数据与第三口型片段的前N帧数据进行平滑处理，获得更新后的第二口型片段和更新后的第三口型片段，N为正整数；

发送更新后的第二口型片段和更新后的第三口型片段，以使得基于更新后的第二口型片段和更新后的第三口型片段，通过第一交互界面展示目标虚拟形象的口型变化。

对第二动作片段的后M帧数据与第三动作片段的前M帧数据进行平滑处理，获得更新后的第二动作片段和更新后的第三动作片段，M为正整数；

发送更新后的第二动作片段和更新后的第三动作片段，以使得基于更新后的第二动作片段和更新后的第三动作片段，通过第一交互界面展示目标虚拟形象的动作变化。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，当第一字段大于X个字符时，处理单元，还用于：

使用语义分割模型对第一字段进行处理，获得第三分割字段和第四分割字段；

根据第三分割字段处理目标虚拟形象的口型、动作和语音。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，当第四分割字段不足Y个字符时，处理单元，还用于：

通过回复模型根据目标文本生成目标回复文本的第三字段，Y为小于5的正整数，第三字段包含于目标字段，目标字段还包括第四分割字段；

当目标字段小于X个字符，且目标字段的最后一个字符为标点时，根据目标字段处理目标虚拟形象的口型、动作和语音。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，发送单元，还用于发送第一字段，以使得通过第一交互界面展示第一字段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理单元，具体用于：

使用语音模型根据第一字段生成第一语音片段；

使用口型模型根据第一字段生成第一口型片段；

使用动作片段根据第一字段生成第一动作片段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，获取单元，具体用于：

获取目标对象基于第二交互界面输入的目标语音；

将目标语音输入语音识别模型，获得目标文本。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，获取单元，具体用于获取目标对象基于第二交互界面键入的目标文本。

本申请另一方面提供一种与虚拟形象的交互装置，包括：

获取单元，用于获取基于第二交互界面获取目标对象输入的目标文本；

发送单元，用于向服务器发送目标文本；

获取单元，还用于获取服务器发送的第一口型片段、第一动作片段和第一语音片段，第一语音片段为根据第一字段生成的语音片段，第一口型片段为根据第一字段生成的口型片段，第一动作片段为根据第一字段生成的第一动作片段，第一字段为回复模型根据目标文本生成目标回复文本的第一字段，第一字段小于或等于X个字符，且第一字段的最后一个字符为标点，X为大于10的正整数；

交互单元，用于基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

交互单元，用于基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

交互单元，用于播放第一语音片段。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线***；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线***用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在服务器获取到目标文本后，通过回复模型根据目标文本生成目标回复文本的第一字段；当第一字段小于或等于X个字符，且第一字段的最后一个字符为标点时，服务器根据第一字段生成第一语音片段、第一口型片段和第一动作片段，再将第一口型片段、第一动作片段和第一语音片段发送至终端，使得终端可以基于第一口型片段通过第一交互界面展示目标虚拟形象的口型变化，基于第二动作片段通过第一交互界面展示目标虚拟形象的动作变化，播放第一语音片段。从目标回复文本中生成第一字段，针对满足一定条件的第一字段进行后续处理的方案，可以有效缩减文本的最小处理单元，使得方案的各模块可以快速对目标回复文本的片段进行反馈，缩减从目标文本输入到目标回复文本的片段展现给用户的时长，使得用户无需长时间等待交互的反馈，从而有效提升了方案的用户体验。

附图说明

图1为本申请实施例中提供的与虚拟形象的交互方法的一个架构示意图；

图2为本申请实施例中提供的与虚拟形象的交互方法的一个流程示意图；

图3a为本申请实施例中提供的第二交互界面的一个示意图；

图3b为本申请实施例中提供的第二交互界面的另一个示意图；

图4为本申请实施例中提供的与虚拟形象的交互方法的另一个流程示意图；

图5为本申请实施例中提供的与虚拟形象的交互方法的另一个流程示意图；

图6为本申请实施例中提供的与虚拟形象的交互方法的另一个流程示意图；

图7为本申请实施例中提供的第一交互界面的一个示意图；

图8为本申请实施例中提供的与虚拟形象的交互方法的一个数据流向示意图；

图9为本申请实施例中提供的与虚拟形象的交互装置的一个结构示意图；

图10为本申请实施例中提供的与虚拟形象的交互装置的另一个结构示意图；

图11为本申请实施例中提供的服务器的一个结构示意图；

图12为本申请实施例中提供的终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学，人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（large language model，LLM）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

人工智能在不同的应用场景中，可以实现对事物的分类，例如，人工智能可以帮助人类对图像中展示的内容进行分类，或，人工智能可以帮助人类对图像进行特征提取，从而使得人类无需浏览全部图像内容也可以获知图像中出现过的物品究竟有哪些。在更进一步的需求中，人工智能还可以帮助人类进行图像中的内容进行筛选，从多个图像中筛选出具备某一类特征或者包含某一类物品的图像。

本申请还涉及到云技术。其中，云技术（cloud technoolgy）是指在广域网或局域网内将硬件、软件、网络等***资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

云游戏（Cloud gaming）又可称为游戏点播（gaming on demand），是一种以云计算技术为基础的在线游戏技术。云游戏技术使图形处理与数据运算能力相对有限的轻端设备（thin client）能运行高品质游戏。在云游戏场景下，游戏并不在玩家游戏终端，而是在云端服务器中运行，并由云端服务器将游戏场景渲染为视频音频流，通过网络传输给玩家游戏终端。玩家游戏终端无需拥有强大的图形运算与数据处理能力，仅需拥有基本的流媒体播放能力与获取玩家输入指令并发送给云端服务器的能力即可。

人工智能云服务，一般也被称作是AIaaS（AI as a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

鉴于本申请会涉及到一些专业术语，因此，下面将对这部分专业术语先进行介绍。

Whisper: Whisper是一种的语音识别技术，它经过训练使用了一个庞大且多样化的音频数据集，并且是一种多任务模型，可以执行多语种语音识别、语音翻译和语言识别的功能。Whisper可将用户的语音输入转换为文本，以便进行文本处理和分析。

大语言模型（LLM）: 大语言模型是一种基于深度学习的人工智能技术，可以自动学习文本序列的规律和语义信息，从而生成人类类似的自然语言文本。它广泛应用于自然语言处理、机器翻译、对话***等领域，具有强大的语义理解和语言生成能力。如Chat-GPT，GPT4等。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在人工智能技术的多种应用场景中，基于AI技术的人机交互方案中，可以通过不同的虚拟形象配合不同的发言作出与之对应的口型和动作。

在这种基于虚拟形象进行交互的方案中，用户向计算设备输入了文本以后，计算设备通过文本大模型生成文本的回复内容，再生成回复内容对应的语音内容、动作内容和口型内容。例如，在游戏场景中，基于虚拟形象实现用户与游戏非玩家角色（non-playercharacter，NPC）之间的交互，用户通过交互界面键入“你好”，计算设备将“你好”输入文本大模型，而文本大模型的输出可能为“嗨！你好！欢迎来到xxx！我是xxx，很高兴见到你，超级幸运的你今天能遇到我哦！有什么问题或者想要聊什么都可以告诉我哦！我会尽力帮助你的”，文本大模型的输出已经不再是简单的回答，而是融合了NPC的情绪和性格的回复，因此，即使用户输入的文本仅为简单的语句，虚拟形象给出的反馈也可能为长度较长的文本。仍以前述示例为例，在用户通过交互界面键入“你好”以后，在计算设备未完成文本大模型的输出文本生成，或，未完成根据文本大模型的输出文本生成语音片段、口型片段和动作片段的情况下，用户需要等待NPC的语音片段、口型片段和动作片段准备完成后才能看到NPC的反馈，就产生了用户的等待时长。

由于文本大模型输出的回复内容长度不稳定，方案的反馈时间取决于文本大模型生成的回复内容长短，随着文本大模型生成的回复内容的长度增加，方案的处理时长指数增长。在一些回复内容较长的场景下，用户的等待时长超过10s，使得用户产生此次交互是否发生卡顿的怀疑，类似的情况多次发生后，容易引发用户的烦躁情绪，给用户带来了很差的用户体验。

针对这一问题，由于文本大模型的基本生成单元为token。本申请提出，可以在获取到目标文本，获取回复模型根据目标文本生成目标回复文本的第一字段，目标文本的第一字段可以为一个token，或，多个token；当第一字段小于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，再基于第一口型片段通过第一交互界面展示目标虚拟形象的口型变化，基于第二动作片段通过第一交互界面展示目标虚拟形象的动作变化，播放第一语音片段。从目标回复文本中生成第一字段，针对满足一定条件的第一字段进行后续处理的方案，可以有效缩减最小处理单元，使得方案的各模块可以快速对目标回复文本的片段进行反馈，缩减从目标文本输入到目标回复文本的片段展现给用户的时长，使得用户无需长时间等待交互的反馈，从而有效提升了方案的用户体验。

参见图1，图1是本申请实施例提供的与虚拟形象的交互方法的一个应用场景下的一个可选的架构示意图，为实现支撑一个与虚拟形象的交互方法，终端设备100通过网络200连接服务器300，服务器300连接数据库，网络200可以是广域网或者局域网，又或者是二者的组合。其中用于实现与虚拟形象的交互方法的客户端部署于终端设备100上，其中，客户端可以通过浏览器的形式运行于终端设备100上，也可以通过独立的应用程序（application，APP）的形式运行于终端设备100上等，对于客户端的具体展现形式，此处不做限定。本申请涉及的服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等，但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接，本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成，也可以由服务器300独立完成，还可以由终端设备100与服务器300配合完成，对此，本申请并不做具体限定。其中，数据库400，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理***（Database Management System，DBMS）是为管理数据库而设计的电脑软件***，一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言（Extensible Markup Language，XML）；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(Structured Query Language，SQL)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

在一些实施例中，服务器300和该终端设备100均可以执行本申请实施例提供的与虚拟形象的交互方法方法。

本实施例中，其具体流程如下：终端设备100获取目标文本；获取回复模型根据目标文本生成目标回复文本的第一字段；当第一字段小于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，X为大于10的正整数；基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；播放第一语音片段。

在一种可能的实施方式中：终端设备100获取目标文本后，将目标文本发送至服务器300，服务器300获取回复模型根据目标文本生成目标回复文本的第一字段；当第一字段小于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，X为大于10的正整数；服务器300将第一语音片段、第一口型片段和第一动作片段发送至终端设备100；终端设备100基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；播放第一语音片段。

可以理解的是，在本申请的具体实施方式中，涉及到输入数据和输出数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍，下面将对本申请中与虚拟形象的交互方法进行介绍，请参阅图2，本申请实施例中与虚拟形象的交互方法的一个实施例包括：

S101、终端设备获取目标文本；

示例性的，目标文本可以为“你好”或“很高兴见到你”。

具体的，终端设备获取目标文本的方式有不止一种，下面将结合示例对终端设备获取目标文本的方式进行介绍：

1）终端设备可以获取目标对象在第二交互界面键入的目标文本。

具体的，第二交互界面中可以包括文本键入区域，目标对象在第二交互界面键入的文本可以由终端设备直接采集获得，此处不做限制。

示例性的，请参阅图3a，目标对象可以在第二交互界面的文本键入区域键入目标文本，在目标对象确认完成键入后，目标文本可以出现在第二交互界面的交互展示区域。

更进一步的，第二交互界面中还可以包括交互记录选项，在目标对象确认完成键入后，目标文本可以进入交互记录的展开内容中，此处不做限制。

本申请实施例中，终端设备可以直接获取目标对象在第二交互界面键入的目标文本，终端设备可以在第二交互界面中，以文本的形式采集目标对象的交互内容，为目标对象与终端设备的交互提供了具体的方向，提升了方案的完整性。

2）终端设备还可以获取目标对象在第二交互界面输入的目标语音。

具体的，第二交互界面中可以包括语音输入按钮，目标对象可以在选择了语音输入按钮后，通过终端设备连接的麦克风等语音采集设备获取到目标对象输入的目标语音，并且将目标语音输入语音识别模型，获得目标文本。

示例性的，请参阅图3b，目标对象可以在第二交互界面的选择语音输入按钮，终端设备获取到目标对象通过终端设备链接的麦克风或其他语音采集设备录入的目标语音后，将目标语音输入语音识别模型，获得目标文本。目标文本可以出现在第二交互界面的交互展示区域，此处不做限制。

本申请实施例中，终端设备获取目标对象在第二交互界面选择了语音输入按钮后，输入的目标语音，并且将目标语音转换为目标文本，实现了目标对象和目标虚拟对象之间的跨模态交互，扩展了方案的实施场景，提升了方案的灵活性。

需要说明的是，前述情况1）与前述情况2）中介绍的第二交互界面可以为同一交互界面，基于目标对象的操作不同，执行相对应的后续操作，此处不做限制。

可以理解的是，此处对目标文本的内容的说明仅为示例在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S102、终端设备向服务器发送目标文本；

具体的，终端设备上设置有目标客户端，目标客户端与服务器之间存在对应关系。

更进一步的，方案中，在终端设备的客户端与服务器之间建立通信长连接，该通信长连接可以进行双向通信，终端设备的客户端可以主动发送数据至服务器，也可以由服务器将数据推送至终端设备的客户端。其中，长连接是指在一个连接上可以连续发送多个数据包，在连接保持期间，如果没有数据包发送，需要双方发链路检测包。

需要说明的是，此处对服务器与目标客户端之间的对应关系的说明仅为示例，在实际应用中，终端设备也可以通过目标网页访问服务器提供的界面，目标网页与服务器之间存在对应关系，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S103、服务器通过回复模型根据目标文本生成目标回复文本的第一字段；

其中，第一字段的最小单元为token，因此，第一字段可以为至少一个token。回复模型包括文本大模型，token是文本大模型生成的的基本单元，token可以为单词、字、子词或字符等，在中文的文本大模型中，一个token可以对应一个或多个汉字。

具体的，文本大模型的工作模式为输入文本后，文本大模型根据输入文本生成一段文字，例如，chatGPT模型，此处不做限制。

示例性的，以目标文本为“你好”为例，目标回复文本可以为“嗨！你好！欢迎来到xxx，我是xxx，很高兴见到你，超级幸运的你今天能遇到我哦！有什么问题或者想要聊什么都可以告诉我哦！我会尽力帮助你的”。

在这种情况下，生成的目标回复文本的第一字段可以为“嗨！”或“嗨！你好！”等，此处不做限制。

方案的具体实施过程中，第一字段的生成可以基于技术人员的设置进行调节，下面将分别针对这些情况进行说明：

情况一：在回复模型生成目标回复文本的过程中，若生成的字数少于15个字时，出现了至少一个标点，则将第一次出现标点前的内容作为第一字段，在前述示例中，第一字段可以为“嗨”，此处对生成的字数少于15的数值设置仅为示例，在实际应用中，可以根据实际需求进行调节，此处不做限制。

情况二：在回复模型生成的目标回复文本中，在回复模型生成的目标回复文本中，若前15个字符处仍未出现第一个标点，则生成目标文本的前15个字符作为第一字段，此处对生成的字数少于15的数值设置仅为示例，在实际应用中，可以根据实际需求进行调节，此处不做限制。

情况三：在回复模型生成的目标回复文本的过程中，以时间为生成标准，将前0.3s生成的字符串作为第一字段，此处不做限制。

可以理解的是，此处对第一字段的生成不同情况的说明仅为示例，并未对所有情况进行列举，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S104、服务器判断第一字段是否满足少于或等于X个字符，且第一字段的最后一个字符为标点；

其中，X为大于10的正整数，此处不做限制。

在前述步骤S102中介绍的情况一或情况二介绍的方案中，X可以小于或等于15，此处不做限制。

若满足，执行步骤S105；

若不满足，第一字段不满足少于或等于X个字符，且第一字段的最后一个字符为标点时，包括以下两种情况：

1.第一字段小于或等于X个字符，且第一字段中不包括标点；

在情况1发生时，执行步骤S106。

2.第一字段大于X个字符，且第一字段中不包括标点。

在情况2发生时，执行步骤S111。

S105、服务器根据第一字段生成第一语音片段、第一口型片段和第一动作片段；

在第一字段满足少于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段。

具体的，服务器根据第一字段生成第一语音片段可以通过服务器中预先设置好的语音模型对第一字段进行处理，获得第一语音片段。其中，语音模型可以为文本到语音（text to speech，TTS）模型，TTS模型是人机对话的一部分，让机器能够开口说话，此处不做限制。

而服务器根据第一字段生成第一口型片段可以通过服务器中预先设置好的口型模型对第一字段进行处理，获得第一口型片段，此处不做限制。

服务器根据第一字段生成第一动作片段可以通过服务器中预先设置好的动作模型对第一字段进行处理，获得第一动作片段，此处不做限制。

在一些具体的场景中，服务器可以先将第一字段输入语音模型，获得第一语音片段；再将第一语音片段和/或第一字段输入口型模型，获得第一口型片段；再结合第一字段和第一语音片段的时长来生成第一动作片段，此处不做限制。

本申请实施例中，服务器利用口型模型处理第一字段生成第一口型片段，使用动作模型处理第一字段生成第一动作片段并且时使用语音模型处理第一字段生成第一语音片段的方法，使得本申请实施的方案可以基于预先设置好的模型高效的进行文本到语音、文本到口型以及文本到动作的转化，提升了方案的实施效率。

由于在第一字段中的末尾为标点的情况下，第一字段生成的语音和与之配合的口型及动作，可以确保虚拟形象在进行针对目标文本的反应时，可以有更为自然的停顿，在保障语音自然的情况下，对目标回复文本进行切割。

在一些具体的场景中，第一语音片段为基于第一字段生成的语音片段；而第一口型片段可以为根据第一字段生成的口型片段，还可以为根据第一字段在预设口型库中选取的口型片段；第一动作片段可以为根据第一字段生成的动作片段，还可以为根据第一字段在预设动作库中选取的动作片段，此处不做限制。

本申请实施例中，提出第一口型片段和第一动作片段可以为从预设数据库中选取得到的片段，可以确保第一口型片段和第一动作片段与目标虚拟形象之间的适配性，无需进行进一步的审查或筛选，从而提升了方案的可靠性和实时效率。

可以理解的是，此处对服务器根据第一字段生成第一语音片段、第一口型片段和第一动作片段的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S106、服务器通过回复模型根据目标文本生成目标回复文本的第二字段；

当第一字段小于或等于X个字符，且第一字段中不包括标点时，服务器通过回复模型根据目标文本生成目标文本的第二字段。

其中，第二字段为第一字段之后接下来生成的字段。

示例性的，以目标回复文本包括“神刀堂里的众人对阿暖在驯鹰方面的技能和曾经在傅红雪那边学习的武艺进行了称赞”为例，第一字段可以为“神刀堂里的众人对”，第二字段可以为“阿暖在训鹰方面的”，此处不做限制。

可以理解的是，第二字段的生成在实际应用中，与生成第一字段的方式类似，可以执行与前述步骤S103中生成第一字段的三种情况类似的手段，获得第二字段，在实际应用中，应结合具体的应用场景进行设置，此处不做限制。

S107、服务器向终端设备发送第一语音片段、第一口型片段和第一动作片段；

服务器在生成第一语音片段、第一口型片段和第一动作片段后，根据与之关联的目标文本的来源，确定目标文本的来源为终端设备，服务器向终端设备发送第一语音片段、第一口型片段和第一动作片段。

在一些可能的实施场景中，当第一口型片段和第一动作片段为从预设数据库中选取得到的片段时，服务器向终端设备发送的第一口型片段可以为第一口型片段在预设口型库中的身份标识，第一动作片段可以为第一动作片段在预设动作库中的身份标识，终端设备中存储有预设口型库和预设动作库，此处不做限制。

本申请实施例中，服务器向终端设备发送第一口型片段在预设口型库中的身份标识和第一动作片段在预设动作库中的身份标识，提升了服务器与终端设备之间的数据传输效率，进一步缩短了用户获得虚拟形象的反馈所需要的时长，进一步提升了用户体验。

S108、终端设备基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

具体的，当终端设备获取到的第一口型片段为具体的第一口型片段对应的数据时，终端设备基于第一口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化。

可选的，当终端设备获取到的第一口型片段为第一口型片段在预设口型库中的身份标识，终端设备从预设口型库中提取第一口型片段对应的数据后，基于第一口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化，此处不做限制。

可以理解的是，此处对终端设备基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

需要注意的是，步骤S108、步骤S109和步骤S110应当同时执行，以实现目标虚拟形象的语音、口型和动作之间的配合。

S109、终端设备基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

具体的，当终端设备获取到的第一动作片段为具体的第一动作片段对应的数据时，终端设备基于第一动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化。

可选的，当终端设备获取到的第一动作片段为第一动作片段在预设动作库中的身份标识，终端设备从预设动作库中提取第一动作片段对应的数据后，基于第一动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化，此处不做限制。

可以理解的是，此处对终端设备基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S110、终端设备播放第一语音片段；

S111、服务器使用语义分割模型对第一字段进行处理，获得第三分割字段。

当第一字段大于X个字符，且第一字段中不包括标点时，服务器使用语义分割模型对第一字段进行处理，获得第三分割字段。

示例性的，以目标回复文本包括“神刀堂里的众人对阿暖在驯鹰方面的技能和曾经在傅红雪那边学习的武艺进行了称赞”为例，第一字段可以包括“神刀堂里的众人对阿暖在驯鹰方面的技能和曾经”，第三分割字段可以为“神刀堂里的众人对阿暖在驯鹰方面的技能”，此处可以将“和曾经”作为第四分割字段，此处不做限制。

更进一步的，由于语义分割模型可以根据语义，在第一字段可以停顿的位置进行分割，可以认为语义分割模型对第一字段进行分割获得第三分割字段和第四分割字段中，第三分割字段一定为符合要求的字段，第四分割字段可能符合要求，也可能不符合要求。因此可以直接根据第三分割字段生成与之对应的口型动作和语音，此处不做限制。

本申请实施例中，针对第一字段大于X个字符的情况进行了说明，并且当语义分割模型输出的内容包括具有完整语义的第三分割字段和不具有完整语义的第四分割字段时，直接根据第三分割字段进行后续处理，以使得终端设备可以根据第三分割字段对应的口型片段、动作片段和语音片段展示目标虚拟对象的动作、口型和语音，提升了方案的灵活性。

在一种可能的情况中，基于以上分析，针对第四分割字段，在第四分割字段不足Y个字符时，通过回复模型根据目标文本生成目标回复文本的第三字段，Y为小于5的正整数。

示例性的，当“和曾经”与接下来的第三字段组成的目标字段大于X个字符时，将“和曾经”与接下来的第三字段组成的字段再次输入语义分割模型进行下一次处理，第三字段可以为“在傅红雪那边学习的武艺进行了称赞”，此处不做限制。

本申请实施例中，针对分割第一字段获得第三分割字段和不具有完整语义的第四分割字段，第四分割字段可以直接进行后续的口型、语音和动作处理，也可以继续获取第三字段，并将第四分割字段与第三字段合并，利用语义分割模型对其进行下一步处理，在提升了方案的完整性的同时，还确保了每次进入文本转口型、语音和动作的文本都为具有完整语义的文本，避免了目标虚拟形象在非常规语句停顿处发生卡顿，还为方案提供了更多的可能性，提升了方案的灵活性。

可以理解的是，此处对第四分割片段的处理方式的说明仅为示例，在实际应用中，还可以直接将第四分割字段进行后续处理，以使得终端设备可以根据第三分割字段对应的口型片段、动作片段和语音片段展示目标虚拟对象的动作、口型和语音，此处不做限制。

在本申请的图2对应的实施例提供的与虚拟形象的交互方法的一个可选实施例中，请参阅图4，步骤S106之后，本申请提供的方案还可以包括步骤S112至步骤S117。

S112、服务器判断预设字段是否满足大于X个字符，且预设字段中不包括标点；

其中，预设字段包括第一字段和第二字段，第二字段为生成第一字段之后接下来生成的字段。

示例性的，依旧以前述步骤S102中示例的目标回复文本，第一字段为前述步骤S103中情况一所示的第一字段为例，第二字段为“你好”，则预设字段为“嗨！你好！”。

若满足，执行步骤S113；

若预设字段少于或等于X个字符，且预设字段中不包括标点，服务器通过回复模型根据目标生成目标文本的第四字段，此处不做限制；

若预设字段少于或等于X个字符，且预设字段中不包括标点，服务器将预设字段从标点符号处进行分割，获得分割后的片段。

S113、服务器使用语义分割模型对预设字段进行处理，获得第一分割字段；

当预设字段大于X个字符，且预设字段中不包括标点时，服务器使用语义分割模型对预设字段进行处理，获得第一分割字段。

服务器使用语义分割模型对预设字段进行处理，获得第一分割字段。

示例性的，以预设字段包括“这冬日的阳光在同学们的眼里是一个可爱的精灵”为例，第一分割字段可以为“这冬日的阳光”，此处不做限制。

可以理解的是，此处对语义分割模型对预设字段进行处理，获得第一分割字段的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S114、当第一分割字段少于或等于X个字符时，服务器根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段；

在第一分割字段满足少于或等于X个字符时，服务器根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段。

具体的，服务器根据第一分割字段生成第二语音片段可以通过服务器中预先设置好的语音模型对第一分割字段进行处理，获得第二语音片段。其中，语音模型可以为TTS模型，此处不做限制。

而服务器根据第一分割字段生成第二口型片段可以通过服务器中预先设置好的口型模型对第一分割字段进行处理，获得第二口型片段，此处不做限制。

服务器根据第一分割字段生成第二动作片段可以通过服务器中预先设置好的动作模型对第一分割字段进行处理，获得第二动作片段，此处不做限制。

在一些具体的场景中，第二语音片段为基于第一分割字段生成的语音片段；而第二口型片段可以为根据第一分割字段生成的口型片段，还可以为根据第一分割字段在预设口型库中选取的口型片段；第二动作片段可以为根据第一分割字段生成的动作片段，还可以为根据第一分割字段在预设动作库中选取的动作片段，此处不做限制。

可以理解的是，此处对服务器根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S115、服务器向终端设备发送第二语音片段、第二口型片段和第二动作片段；

服务器在生成第二语音片段、第二口型片段和第二动作片段后，根据与之关联的目标文本的来源，确定目标文本的来源为终端设备，服务器向终端设备发送第二语音片段、第二口型片段和第二动作片段。

在一些可能的实施场景中，当第一口型片段和第二口型片段为从预设数据库中选取得到的片段时，服务器向终端设备发送的第一口型片段可以为第一口型片段在预设口型库中的身份标识，第一动作片段可以为第一动作片段在预设动作库中的身份标识，终端设备中存储有预设口型库和预设动作库，此处不做限制。

S116、终端设备基于第二语音片段、第二口型片段和第二动作片段，在第一交互界面展示目标虚拟形象的口型变化和动作变化，且播放第二语音片段；

具体的，终端设备可以基于第二口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化。

终端设备可以基于第二动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化。

并且终端设备还可以播放第二语音片段。

可选的，终端设备还可以从预设口型库中提取第二口型片段对应的数据后，基于第二口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化，此处不做限制。

终端设备还可以从预设动作库中提取第二动作片段对应的数据后，基于第二动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化，此处不做限制。

S117、当第一分割字段大于X个字符时，服务器使用语义分割模型对第一分割字段进行处理，获得再分割字段。

服务器使用语义分割模型对第一分割字段进行处理，获得再分割字段的方法与前述步骤S113的操作类似，此处不再赘述。

本申请实施例中，通过在第一字段较短（不具备完整的语义）时，使用回复模型继续根据目标文本生成目标回复文本的第二字段，并将第二字段和第一字段进行组合，获得预设字段，将预设字段输入语义分割模型，以获得第一分割字段，对第一分割字段进行文本转语音、口型和动作的处理后，将处理结果发送至终端设备，以使得终端设备可以根据处理结果，通过第一交互界面向目标对象展示交互内容。提升了目标虚拟形象与人类语言动作的相似性，从而为目标对象提供了更好的用户体验。

在本申请的图4对应的实施例提供的与虚拟形象的交互方法的一个可选实施例中，本申请提供的方案中，步骤S113可以包括步骤S1131，步骤S114可以包括步骤S1141和S1142，步骤S115可以包括S151，步骤S116还可以包括S1161。

S1131、服务器使用语义分割模型对预设字段进行处理，获得第一分割字段和第二分割字段；

服务器使用语义分割模型对预设字段进行处理，获得第一分割字段和第二分割字段。

示例性的，以预设字段包括“这冬日的阳光在同学们的眼里是一个可爱的精灵”为例，第一分割字段可以为“这冬日的阳光”，第二分割字段可以为“在同学们的眼里”，此处不做限制。

可以理解的是，此处对语义分割模型对预设字段进行处理，获得第一分割字段和第二分割字段的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

S1141、当第一分割字段少于或等于X个字符，且第二分割字段小于X个字符时，服务器根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段；

而服务器根据第一分割字段生成第二口型片段可以通过服务器中预先设置好的口型模型对第二字段进行处理，获得第二口型片段，此处不做限制。

服务器根据第一分割字段生成第二动作片段可以通过服务器中预先设置好的动作模型对第二字段进行处理，获得第二动作片段，此处不做限制。

S1142、服务器根据第二分割字段生成第三语音片段、第三口型片段和第三动作片段；

服务器根据第二分割字段生成第三语音片段、第三口型片段和第三动作片段的操作与步骤S1141中，根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段的操作类似，此处不再赘述。

S1151、服务器向终端设备发送第二语音片段、第二口型片段、第二动作片段、第三语音片段、第三口型片段和第三动作片段；

服务器在生成第二语音片段、第二口型片段、第二动作片段、第三语音片段、第三口型片段和第三动作片段后，根据与之关联的目标文本的来源，确定目标文本的来源为终端设备，服务器向终端设备发送第二语音片段、第二口型片段、第二动作片段、第三语音片段、第三口型片段和第三动作片段。

S1161、终端设备基于第二口型片段、第二动作片段、第三口型片段和第三动作片段，在第一交互界面展示目标虚拟形象的口型变化和动作变化，且播放第二语音片段和第三语音片段；

具体的，终端设备基于第二口型片段的数据和第三口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化。

终端设备基于第二动作片段的数据和第三动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化。

并且播放第二语音片段和第三语音片段。

可选的，终端设备还可以从预设口型库中提取第二口型片段和第三口型片段对应的数据后，基于第二口型片段和第三口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化，此处不做限制。

终端设备还可以从预设动作库中提取第二动作片段和第三动作片段对应的数据后，基于第二动作片段和第三动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化，此处不做限制。

本申请实施例中，终端设备还可以获得多个文本片段对应的语音片段、口型片段和动作片段，可以根据多个文本片段对应的语音片段、口型片段和动作片段展示目标虚拟形象的动作变化，并播放语音，为方案提供了更多可能，提升了方案的灵活性。

在本申请的图4对应的实施例提供的与虚拟形象的交互方法的一个可选实施例中，请参阅图5，本申请提供的方案中，步骤S1161可以包括A1至A5。

A1、终端设备对第二口型片段的后N帧数据与第三口型片段的前N帧数据进行平滑处理，获得更新后的第二口型片段和更新后的第三口型片段；

其中，N为技术人员根据实际应用场景设置的正整数，此处不做限制。

由于第二口型片段和第三口型片段为分别生成的，因此第二口型片段的末尾和第三口型片段的开端可能会出现口型无法自然衔接的情况，针对这种情况，本申请实施例提出，可以取出第二口型片段的后N帧数据和第三口型片段的前N帧数据，利用平滑滤波器对其进行平滑处理，获得更新后的第二口型片段和更新后的第三口型片段，此处不做限制。

可以理解的是，步骤A1的实施在步骤A2之前执行即可，此处对步骤A1与步骤A3的先后顺序的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

A2、终端设备基于更新后的第二口型片段和更新后的第三口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

终端设备基于更新后的第二口型片段和更新后的第三口型片段的数据驱动目标虚拟形象的口型进行相应的变化，并通过第一交互界面展示目标虚拟形象的口型变化。

本申请实施例中，由于第二口型片段和第三口型片段为分别生成的，因此第二口型片段的末尾和第三口型片段的开端可能会出现口型无法自然衔接的情况，针对这种情况，取出第二口型片段的后N帧数据和第三口型片段的前N帧数据，利用平滑滤波器对其进行平滑处理，获得更新后的第二口型片段和更新后的第三口型片段，基于更新后的第二口型片段和更新后的第三口型片段驱动目标虚拟形象的口型进行相应的变化，避免了目标虚拟形象的口型在展示过程中发生的卡顿，提升了与目标对象交互过程中，目标对象的观感，也即提升了用户体验。

A3、终端设备对第二动作片段的后M帧数据与第三动作片段的前M帧数据进行平滑处理，获得更新后的第二动作片段和更新后的第三动作片段；

其中，M为技术人员根据实际应用场景设置的正整数，此处不做限制。

由于第二动作片段和第三动作片段为分别生成的，因此第二动作片段的末尾和第三动作片段的开端可能会出现动作无法自然衔接的情况，针对这种情况，本申请实施例提出，可以取出第二动作片段的后M帧数据和第三动作片段的前M帧数据，利用平滑滤波器对其进行平滑处理，获得更新后的第二动作片段和更新后的第三动作片段，此处不做限制。

可以理解的是，步骤A3的实施在步骤A4之前执行即可，此处对步骤A1与步骤A3的先后顺序的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

A4、终端设备基于更新后的第二动作片段和更新后的第三动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

终端设备基于更新后的第二动作片段和更新后的第三动作片段的数据驱动目标虚拟形象的动作进行相应的变化，并通过第一交互界面展示目标虚拟形象的动作变化。

A5、终端设备播放第二语音片段和第三语音片段。

本申请实施例中，由于第二动作片段和第三动作片段为分别生成的，因此第二动作片段的末尾和第三动作片段的开端可能会出现口型无法自然衔接的情况，针对这种情况，取出第二动作片段的后M帧数据和第三动作片段的前M帧数据，利用平滑滤波器对其进行平滑处理，获得更新后的第二动作片段和更新后的第三动作片段，基于更新后的第二动作片段和更新后的第三动作片段驱动目标虚拟形象的动作进行相应的变化，避免了目标虚拟形象的动作在展示过程中发生的卡顿，提升了与目标对象交互过程中，目标对象的观感，也即提升了用户体验。

在本申请的图2对应的实施例提供的与虚拟形象的交互方法的一个可选实施例中，如图6所示，在步骤S108执行之前，终端设备还可以执行步骤S118，并且在步骤S108执行的同时执行步骤S119。

S118、终端设备获取服务器发送的第一字段；

在一些可能的实施场景中，为了进一步提升目标对象的使用体验，避免目标对象在终端设备展示的过程中错过语音的播放，本申请提出，终端还可以获取服务器发送的第一字段。

S119、终端设备通过第一交互界面展示第一字段。

示例性的，以第一字段包括“少侠来啦”为例，终端设备通过第一交互界面展示第一字段可以如图7所示，终端设备在通过第一交互界面展示目标虚拟形象的口型变化和目标虚拟形象的动作变化，并且播放第一语音片段的同时，还可以通过第一交互界面展示第一字段。

更进一步的，还可以第一交互界面中展示交互记录展开选项，以帮助目标对象回忆已经完成的交互（聊天），此处不做限制。

更进一步的，在第一交互界面中，也可以设置文本信息的键入区域和语音信息的输入按钮，此处不做限制。

本申请实施例中提出，本方案还可以在第一交互界面中提供第一字段的文字展示，使得目标对象在终端设备展示的过程中错过语音的播放的情况下，仍然可以通过文字展示获知目标虚拟形象针对目标对象的交互作出的反馈，从而进一步提升了用户体验。

为了便于理解，下面对本申请中可能出现疑虑的部分进行下一步介绍：

首先，对本申请提供的方案中涉及的语义分割模型进行介绍：

语义分割模型为基于LSTM深度学习模型进行序列标注训练获得的模型，输入LSTM深度学习模型的训练数据集中，包括训练长句和对该训练长句进行分割获得的至少两个训练分句。该训练长句和该训练长句进行分割获得的至少两个训练分句的分割由技术人员进行设置。例如，当训练长句为“神刀堂里的众人对阿暖在驯鹰方面的技能和曾经在傅红雪那边学习的武艺进行了称赞”可以标记为“<s>神刀堂里的众人对阿暖在驯鹰方面的技能<e><s>和曾经在傅红雪那边学习的武艺进行了称赞<e>”，其中，s和e中间即为一个短句。

接下来，结合图8对本申请提供的方案中的数据流动进行介绍。

客户端将目标文本从网关输入与虚拟形象的交互***，交互***利用超文本传输协议（hypertext transfer protocol，HTTP）服务器发送事件（server-sent event，SSE）将目标文本输入大语言模型，大语言模型实时将生成的token返回交互***，交互***对获得的token进行分析和处理，通过http传输协议将组成短句的token输入动作处理模块、语音处理模块和口型处理模块，动作处理模块、语音处理模块和口型处理模块分别针对组成短句的token进行处理，将获得的动作片段、语音片段和口型片段返回交互***，其中，动作片段可以为动作库中动作片段的对应标签，口型片段可以为口型库中口型片段对应的标签。交互***再将动作片段、语音片段和口型片段流式返回网关，从而传输至客户端。其中，SSE是一种用于实现服务器主动向客户端推送数据的技术，也被称为“事件流”（eventstream）。它基于HTTP协议，利用了其长连接特性，在客户端与服务器之间建立一条持久化连接，并通过这条连接实现服务器向客户端的实时数据推送。

下面对本申请中的与虚拟形象的交互装置进行详细描述，请参阅图9，图9为本申请实施例中与虚拟形象的交互装置的一个实施例示意图，与虚拟形象的交互装置50包括：

获取单元510，用于获取目标文本；

获取单元510，还用于获取回复模型根据目标文本生成目标回复文本的第一字段；

处理单元520，用于当第一字段少于或等于X个字符，且第一字段的最后一个字符为标点时，根据第一字段生成第一语音片段、第一口型片段和第一动作片段，X为大于10的正整数；

发送单元530，用于发送第一口型片段，以使得基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元530，用于发送第一动作片段，以使得基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元530，用于发送第一语音片段。

可选的，当第一字段不足X个字符，且第一字段中不包括标点时，获取单元510，还用于获取回复模型根据目标文本生成目标回复文本的第二字段，第二字段包含于预设字段，预设字段还包括第一字段；

处理单元520，还用于当预设字段大于X个字符，且预设字段中不包括标点时，使用语义分割模型对预设字段进行处理，获得第一分割字段；

处理单元520，还用于当第一分割字段小于或等于X个字符时，根据第一分割字段生成第二语音片段、第二口型片段和第二动作片段；

发送单元530，还用于发送第二口型片段，以使得基于第二口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元530，还用于发送第二动作片段，以使得基于第二动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元530，还用于发送第二语音片段。

可选的，当预设字段大于X个字符，且预设字段中不包括标点时，处理单元520，具体用于当预设字段大于X个字符，且预设字段中不包括标点时，使用语义分割模型对预设字段进行处理，获得第一分割字段和第二分割字段；

处理单元520，还用于根据第二分割字段生成第三语音片段、第三口型片段和第三动作片段；

发送单元530，具体用于发送第二口型片段和第三口型片段，以使得基于第二口型片段和第三口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送单元530，具体用于发送第二动作片段和第三动作片段，以使得基于第二动作片段和第三动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

发送单元530，具体用于发送第二语音片段和第三语音片段。

可选的，发送单元530，具体用于：

可选的，当第一字段大于X个字符时，处理单元520，还用于：

根据第三分割字段处理目标虚拟形象的口型、动作和语音。

可选的，当第四分割字段不足Y个字符时，处理单元520，还用于：

可选的，发送单元530，还用于发送第一字段，以使得通过第一交互界面展示第一字段。

可选的，处理单元520，具体用于：

使用语音模型根据第一字段生成第一语音片段；

使用口型模型根据第一字段生成第一口型片段；

使用动作片段根据第一字段生成第一动作片段。

可选的，获取单元510，具体用于：

获取目标对象基于第二交互界面输入的目标语音；

将目标语音输入语音识别模型，获得目标文本。

可选的，获取单元510，具体用于获取目标对象基于第二交互界面键入的目标文本。

下面对本申请中的另一种与虚拟形象的交互装置进行详细描述，请参阅图10，图10为本申请实施例中与虚拟形象的交互装置的一个实施例示意图，与虚拟形象的交互装置60包括：

获取单元610，用于获取基于第二交互界面获取目标对象输入的目标文本；

发送单元620，用于向服务器发送目标文本；

获取单元610，还用于获取服务器发送的第一口型片段、第一动作片段和第一语音片段，第一语音片段为根据第一字段生成的语音片段，第一口型片段为根据第一字段生成的口型片段，第一动作片段为根据第一字段生成的第一动作片段，第一字段为回复模型根据目标文本生成目标回复文本的第一字段，第一字段小于或等于X个字符，且第一字段的最后一个字符为标点，X为大于10的正整数；

交互单元630，用于基于第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

交互单元630，用于基于第一动作片段，通过第一交互界面展示目标虚拟形象的动作变化；

交互单元630，用于播放第一语音片段。

本申请提供的与虚拟形象的交互装置可用于服务器，请参阅图11，图11是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作***341，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

本申请提供的与虚拟形象的交互装置可用于终端设备，请参阅图12，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为智能手机为例进行说明：

图12示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图12，智能手机包括：射频（radio frequency，RF）电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真（wireless fidelity，WiFi）模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图12中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对智能手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（low noiseamplifier，LNA）、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯*** （globalsystem of mobile communication，GSM）、通用分组无线服务（general packet radioservice，GPRS）、码分多址（code division multiple access，CDMA）、宽带码分多址（wideband code division multiple access, WCDMA）、长期演进（long termevolution，LTE）、电子邮件、短消息服务（short messaging service，SMS）等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元130可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器（liquidcrystal display，LCD）、有机发光二极管（organic light-emitting diode，OLED）等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板111，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图12中，触控面板131与显示面板141是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与智能手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一智能手机，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块170，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监测。可选的，处理器180可包括一个或多个处理单元；可选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

智能手机还包括给各个部件供电的电源190（比如电池），可选的，电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图12所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种与虚拟形象的交互方法，其特征在于，包括：

获取目标文本；

获取回复模型根据所述目标文本生成目标回复文本的第一字段；

当所述第一字段少于或等于X个字符，且所述第一字段的最后一个字符为标点时，根据所述第一字段生成第一语音片段、第一口型片段和第一动作片段，所述X为大于10的正整数；

发送所述第一口型片段，以使得基于所述第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

发送所述第一动作片段，以使得基于所述第一动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

发送所述第一语音片段。

2.根据权利要求1所述的方法，其特征在于，当所述第一字段不足X个字符，且所述第一字段中不包括标点时，所述方法还包括：

获取所述回复模型根据所述目标文本生成所述目标回复文本的第二字段，所述第二字段包含于预设字段，所述预设字段还包括所述第一字段；

当所述预设字段大于所述X个字符，且所述预设字段中不包括标点时，使用语义分割模型对所述预设字段进行处理，获得第一分割字段；

当所述第一分割字段小于或等于所述X个字符时，根据所述第一分割字段生成第二语音片段、第二口型片段和第二动作片段；

发送所述第二口型片段，以使得基于所述第二口型片段，通过所述第一交互界面展示所述目标虚拟形象的口型变化；

发送所述第二动作片段，以使得基于所述第二动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

发送所述第二语音片段。

3.根据权利要求2所述的方法，其特征在于，所述当所述预设字段大于所述X个字符，且所述预设字段中不包括标点时，使用语义分割模型对所述预设字段进行处理，获得第一分割字段包括：

当所述预设字段大于所述X个字符，且所述预设字段中不包括标点时，使用语义分割模型对所述预设字段进行处理，获得第一分割字段和第二分割字段；

当所述第一分割字段小于所述X个字符，且所述第二分割字段小于所述X个字符时，所述方法还包括：

根据所述第二分割字段生成第三语音片段、第三口型片段和第三动作片段；

所述发送所述第二口型片段，以使得基于所述第二口型片段，通过所述第一交互界面展示所述目标虚拟形象的口型变化包括：

发送所述第二口型片段和所述第三口型片段，以使得基于所述第二口型片段和所述第三口型片段，通过所述第一交互界面展示所述目标虚拟形象的口型变化；

所述发送所述第二动作片段，以使得基于所述第二动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化包括：

发送所述第二动作片段和所述第三动作片段，以使得基于所述第二动作片段和所述第三动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

所述发送所述第二语音片段包括：

发送所述第二语音片段和所述第三语音片段。

4.根据权利要求3所述的方法，其特征在于，所述发送所述第二口型片段和所述第三口型片段，以使得基于所述第二口型片段和所述第三口型片段，通过所述第一交互界面展示所述目标虚拟形象的口型变化，包括：

对所述第二口型片段的后N帧数据与所述第三口型片段的前N帧数据进行平滑处理，获得更新后的第二口型片段和更新后的第三口型片段，所述N为正整数；

发送所述更新后的第二口型片段和所述更新后的第三口型片段，以使得基于所述更新后的第二口型片段和所述更新后的第三口型片段，通过所述第一交互界面展示目标虚拟形象的口型变化。

5.根据权利要求3所述的方法，其特征在于，所述发送所述第二动作片段和所述第三动作片段，以使得基于所述第二动作片段和所述第三动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化，包括：

对所述第二动作片段的后M帧数据与所述第三动作片段的前M帧数据进行平滑处理，获得更新后的第二动作片段和更新后的第三动作片段，所述M为正整数；

发送所述更新后的第二动作片段和所述更新后的第三动作片段，以使得基于所述更新后的第二动作片段和所述更新后的第三动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化。

6.根据权利要求1所述的方法，其特征在于，当所述第一字段大于所述X个字符时，所述方法还包括：

使用语义分割模型对所述第一字段进行处理，获得第三分割字段和第四分割字段；

根据所述第三分割字段处理所述目标虚拟形象的口型、动作和语音。

7.根据权利要求6所述的方法，其特征在于，当所述第四分割字段不足Y个字符时，所述方法还包括：

通过所述回复模型根据所述目标文本生成所述目标回复文本的第三字段，所述Y为小于5的正整数，所述第三字段包含于目标字段，所述目标字段还包括所述第四分割字段；

当所述目标字段小于所述X个字符，且所述目标字段的最后一个字符为标点时，根据所述目标字段处理所述目标虚拟形象的口型、动作和语音。

8.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

发送所述第一字段，以使得通过所述第一交互界面展示所述第一字段。

9.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述第一字段生成第一语音片段、第一口型片段和第一动作片段包括：

使用语音模型根据所述第一字段生成所述第一语音片段；

使用口型模型根据所述第一字段生成所述第一口型片段；

使用动作片段根据所述第一字段生成所述第一动作片段。

10.根据权利要求1至3任一所述的方法，其特征在于，所述获取目标文本包括：

获取目标对象基于第二交互界面输入的目标语音；

将所述目标语音输入语音识别模型，获得所述目标文本。

11.根据权利要求1至3任一所述的方法，其特征在于，所述获取目标文本包括：

获取目标对象基于第二交互界面键入的目标文本。

12.一种与虚拟形象的交互方法，其特征在于，包括：

获取基于第二交互界面获取目标对象输入的目标文本；

向服务器发送所述目标文本；

获取所述服务器发送的第一口型片段、第一动作片段和第一语音片段，所述第一语音片段为根据第一字段生成的语音片段，所述第一口型片段为根据所述第一字段生成的口型片段，所述第一动作片段为根据所述第一字段生成的第一动作片段，所述第一字段为回复模型根据所述目标文本生成目标回复文本的第一字段，所述第一字段小于或等于X个字符，且所述第一字段的最后一个字符为标点，所述X为大于10的正整数；

基于所述第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

基于所述第一动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

播放所述第一语音片段。

13.一种与虚拟形象的交互装置，其特征在于，包括：

获取单元，用于获取目标文本；

所述获取单元，还用于获取回复模型根据所述目标文本生成目标回复文本的第一字段；

处理单元，用于当所述第一字段少于或等于X个字符，且所述第一字段的最后一个字符为标点时，根据所述第一字段生成第一语音片段、第一口型片段和第一动作片段，所述X为大于10的正整数；

发送单元，用于发送所述第一口型片段，以使得基于所述第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

所述发送单元，用于发送所述第一动作片段，以使得基于所述第一动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

所述发送单元，用于发送所述第一语音片段。

14.一种与虚拟形象的交互装置，其特征在于，包括：

发送单元，用于向服务器发送所述目标文本；

所述获取单元，还用于获取所述服务器发送的第一口型片段、第一动作片段和第一语音片段，所述第一语音片段为根据第一字段生成的语音片段，所述第一口型片段为根据所述第一字段生成的口型片段，所述第一动作片段为根据所述第一字段生成的第一动作片段，所述第一字段为回复模型根据所述目标文本生成目标回复文本的第一字段，所述第一字段小于或等于X个字符，且所述第一字段的最后一个字符为标点，所述X为大于10的正整数；

交互单元，用于基于所述第一口型片段，通过第一交互界面展示目标虚拟形象的口型变化；

所述交互单元，用于基于所述第一动作片段，通过所述第一交互界面展示所述目标虚拟形象的动作变化；

所述交互单元，用于播放所述第一语音片段。

15.一种计算机设备，其特征在于，包括：存储器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至11中任一项或权利要求12所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至11中任一项或权利要求12所述的方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至11中任一项或权利要求12所述的方法。