CN117893649B

CN117893649B - 一种相框、基于相框的展览方法

Info

Publication number: CN117893649B
Application number: CN202410296698.XA
Authority: CN
Inventors: 魏博
Original assignee: Shenzhen Qianhai Hand Painted Technology and Culture Co Ltd
Current assignee: Shenzhen Qianhai Hand Painted Technology and Culture Co Ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-06-28
Anticipated expiration: 2044-03-15
Also published as: CN117893649A

Abstract

本发明公开了一种相框、基于相框的展览方法，其中，所述相框的框体包括显示模块、语音采集模块、处理模块，所述相框在被启动后，所述语音采集模块拾取观看者的语音信息；所述处理模块基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；所述显示模块对交互过程中的画像进行显示。通过语音技术，赋予照片和画作更生动、沉浸式的展示体验。该相框能识别展示的图片内容并自动生成相应的语音描述，使观众通过听觉和视觉更深入地了解作品。与传统相框相比，本发明为艺术作品展示带来新的交互层面，丰富了观赏体验。克服了相关技术中仅通过视觉呈现作品，限制了艺术作品的传达和沉浸式体验。

Description

一种相框、基于相框的展览方法

技术领域

本申请涉及图像处理技术领域，尤其涉及一种相框、基于相框的展览方法。

背景技术

在展览馆进行展览时，通过视觉传达图片信息，缺乏更丰富的表达方式，同时观展者对于展览的作品了解局限于有限的展览经验。

发明内容

本申请提供一种相框、基于相框的展览方法，以解决相关技术中存在的问题。

第一方面，本发明提供一种相框，所述相框框体包括显示模块、语音采集模块、处理模块，所述相框在被启动后，所述语音采集模块拾取观看者的语音信息；所述处理模块基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；所述显示模块对交互过程中的画像进行显示。

可选地，所述处理模块基于所述语音信息对当前显示的画像中的人物进行处理，以使所述画像中的人物与观看者进行交互包括：在交互过程中，对拾取的所述语音信息进行处理，确定与所述语音信息对应的对话答复信息；基于所述对话答复信息，对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动。

可选地，对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动包括：将所述对话答复信息对应的音频信息、所述人物输入至训练完成的模型中，输出人物口型与音频相符、且头部动作与音频相符的人物，其中，所述训练完成的模型包括生成头部动作的子网络、生成人物口型的子网络，两个子网络的输出结果基于图像翻译模型生成多个图像帧。

可选地，在训练生成人物口型的子网络时包括：提取音频样本的音频特征、以及提取人脸图像样本的人脸系数；将音频特征和预设的人脸系数作为输入，人脸口型图像作为输出进行训练，其中，在训练时将人脸系数中的眨眼相关系数进行重定向并作为输入引入训练过程中。

可选地，在训练时将人脸图像样本输入经预设的唇形动作迁移算法进行处理，输出多个唇形图像帧；将所述多个唇形图像帧和多个人脸口型图像进行比对，以图像差异最小为训练目标进行训练。

可选地，在训练生成头部动作的子网络时包括：提取包含人物头部的视频样本的音频特征、以及人头部姿态特征；将所述音频特征、头部姿态特征、以及头部系数至编码器，经编码器后输入至解码器输出多个头部姿态图像帧，其中，将多个头部姿态图像与输入的头部姿态特征之间的差异最小为训练目标进行训练；所述头部系数基于预设的线性调整系数确定。

可选地，在确定与所述语音信息对应的对话答复信息时：对所述语音信息进行语义理解，基于语义理解结果调用智能模型生成对应对话答复信息；和/或，调用针对当前显示的画像的映射的预设资料，基于所述预设资料对所述对话答复信息进行修正。

可选地，所述相框在被启动后时，启动方式包括：如果所述显示模块的人机交互界面中画像上传组件被触发，接收被上传的画像并对所述画像进行显示；

如果所述显示模块的人机交互界面检测到画像中的人物被触发唤醒操作，唤醒所述人物，所述语音采集模块在拾取观看者的语音信息后，所述处理模块基于所述语音信息对所述人物进行处理，使所述人物与观看者进行交互。

可选地，所述相框在被启动后时，启动方式还包括：如果所述显示模块的人机交互界面中视频上传组件被触发，接收被上传的视频并对所述视频进行展示。

第二方面，本发明提供一种基于相框的展览方法，所述相框在被启动后，拾取观看者的语音信息；基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；对交互过程中的画像进行显示。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一种相框组成示意图；

图2为本申请音频驱动的人物说话的脸动画的实现模型结构示意图；

图3为本申请基于相框的展览方法。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图1对相框进行示例性说明，相框框体为电子显示屏，电子显示屏在被启动后拾取观看者的语音信息，并基于所述语音信息对当前显示的画像中的人物进行处理，以使所述画像中的人物与观看者进行交互。

在本实施例中，电子显示屏界面为人机交互界面，用户可以通过人机交互界面触发交互操作，在交互过程中对展示画像中的人物进行处理，从而使画像中的人物与用户建立对话交互。

作为本实施例一种可选的实现方式，所述相框在被启动后时，启动方式包括：如果所述显示模块的人机交互界面中画像上传组件被触发，接收被上传的画像并对所述画像进行显示；如果所述显示模块的人机交互界面检测到画像中的人物被触发唤醒操作，唤醒所述人物，以使所述语音采集模块在拾取观看者的语音信息后，所述处理模块基于所述语音信息对所述人物进行处理，使所述人物与观看者进行交互。

在本可选的实现方式中，参考图1，显示模块的人机交互界面产生的人机交互信号可被处理模块处理，该些交互信号可以包括点击操作产生的信号用以唤醒人物，也可以是点击操作产生的信号用以触发上传组件以完成画像上传。在这里的处理模块可以理解为所有处理功能的统称，其可以由一个或者多个处理模组组成。

作为本实施例一种可选的实现方式，所述显示模块的人机交互界面在对所述触发进行响应之前，还响应用户的账号登录、或者账号注册操作。

在上述可选的实现方式中，管理者可以通过人机交互界面登录账号，并在登录账号后上传待展示的画像，上传的画像在人际交互界面中进行展示。

进一步地，在画像被显示后，参观画像的用户可以通过人机交互界面浏览和选择希望进行语音对话的数字人物以唤醒数字人物。唤醒指的是数字人物处于激活状态，一旦被赋予驱动指令则驱动数字人物的口型和肢体进行动作。

示例性地，数字人物可以为画像中的人物，当数字人物被选中后，在人机交互界面中呈现语音对话界面。示例性地，在进行唤醒操作时，可以是点击操作唤醒也可以是语音唤醒。

作为本实施例一种可选的实现方式，如果所述显示模块的人机交互界面中视频上传组件被触发，接收被上传的视频并对所述视频进行展示。

在本可选的实现方式中，管理者可以通过人机交互界面登录账号，并在登录账号后触发人机交互界面中的交互组件上传待展示视频，通过相框的人机交互界面进行视频播放。

作为本实施例一种可选的实现方式，基于所述语音信息对当前显示的画像中的人物进行处理，以使所述画像中的人物与观看者进行交互包括：在交互过程中，对拾取的所述语音信息进行处理，确定与所述语音信息对应的对话答复信息；基于所述对话答复信息，对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动。

在本可选的实现方式中，在交互过程中，观看者可以向相框进行语音提问，相框中的语音采集模块可以采集用户的语音并基于采集的语音确定答复文本，基于答复文本生成对画像中人物的控制信息，以驱动人物口型或者肢体动作。

作为本实施例一种可选的实现方式，对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动包括：

将所述对话答复信息对应的音频信息、所述人物输入至训练完成的模型中，输出人物口型与音频相符、且头部动作与音频相符的人物，其中，所述训练完成的模型包括生成头部动作的子网络、生成人物口型的子网络，两个子网络的输出结果基于图像翻译模型生成多个图像帧。

在本可选的实现方式中，参考图2给出的实现逻辑示意图，其中，该人脸图像仅仅是示例性地。为了从音频中学习3DMM模型(三维可塑模型)的真实三维运动系数，分别给出了ExpNet表情系数和PoseVAE预设头部系数。提出了一种新的语义解耦和3d感知人脸算法_x0002_，以产生逼真的说话头部视频。

实验表明，本方法在运动同步和视频质量方面达到了最先进的性能。

具体地，输入人物图像提取头部系数和人脸系数，之后将头部系数、人脸系数和音频输入至不同子网络中生成人物的口型和头部动作，进一步地基于合成网络生成最终的具有不同口型、不同头部动作且与音频相匹配的人物图像帧集合，进而可以在音频播放时伴随人物伴随口型和头部运动。

作为本实施例一种可选的实现方式，在训练生成人物口型的子网络时包括：

提取音频样本的音频特征、以及提取人脸图像样本的人脸系数；将音频特征和预设的人脸系数作为输入，人脸口型图像作为输出进行训练，其中，在训练时将人脸系数中的眨眼相关系数进行重定向并作为输入引入训练过程中。

作为本实施例一种可选的实现方式，在训练时将人脸图像样本输入经预设的唇形动作迁移算法进行处理，输出多个唇形图像帧；将所述多个唇形图像帧和多个人脸口型图像进行比对，以图像差异最小为训练目标进行训练。

在本可选的实现方式中不同的音频到表情不是对不同人物的一对一的映射，通过ExpNet将图像第一帧将表情运动与特定人物联系，然后表情系数中存在一些与音频不相关的动作，通过wavtolip获取唇部运动系数，再引入其他面部运动。将以上特征综合一起组成mapping得到ExpNet的输出。在这个过程中，由于3DMM系数的关联效应，每个系数的变换往往会带动多个不同的表情动作，因此，expnet并不能完美的完成人物的眨眼驱动，针对这个问题，我们探索了3DMM系数中的每个系数与人脸表情的关联，并采用线性系数编辑的方式，对3DMM系数中与眨眼相关系数进行了重定向，从而去除了expnet眨眼时会带动头部抖动的问题。

作为本实施例一种可选的实现方式，在训练生成头部动作的子网络时包括：

提取包含人物头部的视频样本的音频特征、以及人头部姿态特征；将所述音频特征、头部姿态特征、以及头部系数至编码器，经编码器后输入至解码器输出多个头部姿态图像帧，其中，将多个头部姿态图像与输入的头部姿态特征之间的差异最小为训练目标进行训练；所述头部系数基于预设的线性调整系数确定。

在本可选的实现方式中，poseVAE用于学习真实对话视频的真实感和身份感知的程式化头部运动。sadtalker设计了一种编解码结构学习第一帧姿态的残差，这样可以生成更长、更稳定、更连续的头部运动。并在此基础上，加入了音频特征，风格标识，使得头部运动更具风格化。

由于poseVAE的头部运动幅度以及运动方向都是随机且不可控的，这就导致容易出现一些过渡扭曲且不自然的头部摆动。因此我们根据3DMM系数的头部运动系数，设计了一套相对自然的头部摆动动作，每一帧的运动系数对应的公式如下：

其中（i=1,2,3......n）是3DMM系数，（i=1,2,3......n）是的线性调整系数。至此，就生成关于头部mapping。

进一步地，在实现图像翻译模型时借鉴了face-vid2vid的结构，改造替换了MotionEncoder模块，将3DFace特征和音特征输入到图像生成器中得到一个批次的图像。

具体地，图像翻译模型的结构和实现逻辑：Sadtalker是一个照片驱动算法，此类算法往往只关注于头部的驱动，因此当处理头部较高的图像（如图中人物戴帽子或较高的头饰）时，容易会出现头在运动而帽子却有一部分静止的状态，我们提出采用二次处理的方式，将头部的处理区域进行拓展，将处理区域拓展后的推理结果与原始推理结果进行结合，实现完整的头部区域驱动。

此外本实施例还改进了头部的融合方式，sadtalker头部融合采用基于opencv的seamlessclone算法进行融合，该方法虽然可以将两张色彩不一样的图像进行完美的融合，但是由于sadtalker驱动后的图像与原始图像的色彩几乎没有变化，因此seamlessclone算法的融合效果在此过程并不是必须的，并且，seamlessclone算法只是图像色彩的融合，并不能融合算法头部驱动造成的图像错位。针对这个问题，我们对seamlessclone进行了替换，采用边缘渐变融合的方式消除了图像的视觉错位问题，并且相对seamlessclone的方式节省了贴图的处理时间。

通过上述可选的实现方式，能够实现风格化的音频驱动的单图像说话的脸动画，使用生成的逼真的三维运动系数。

作为本实施例一种可选的实现方式，在确定与所述语音信息对应的对话答复信息时对所述语音信息进行语义理解，基于语义理解结果调用智能模型生成对应对话答复信息；和/或，调用针对当前显示的画像的映射的预设资料，基于所述预设资料对所述对话答复信息进行修正。

在本可选的实现方式中，在采集到用户的语音信息后，将监听到的语音信息转换成文本，并对转换后的文本进行语义识别，并在识别后确定对应的文本答复内容，之后可以将文本答复内容转换成语音输出。在确定答复内容时，可以调用智能模型由智能模型确定答复内容。为了提高答复的匹配性，可以预先针对待展示的画像映射预设资料，在确定答复内容时，调用智能模型的答复内容，并可以根据语音内容调用对应的资料，基于对应的资料对答复内容进行修正。

进一步地，输出的语音可以通过预设的渲染技术使画像中人物口型配合肢体动作进行输出。

作为本实施例一种可选地实现方式，在接收被上传的画像之后以及对所述画像显示之前，所述处理模块对所述画像进行预处理，以与所述电子显示屏进行适配。

在本可选的实现方式中，被上传的画像的属性是各有不同的，因此对画像进行预处理使画像与电子屏适配。

以上为本申请的一个或多个实施例提供的装置，基于同样的思路，本申请还提供了相应的一种基于相框的展览方法，包括：所述相框在被启动后，拾取观看者的语音信息；基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；对交互过程中的画像进行显示。

作为本实施例一种可选的实现方式，在确定与所述语音信息对应的对话答复信息时：对所述语音信息进行语义理解，基于语义理解结果调用智能模型生成对应对话答复信息；和/或，调用针对当前显示的画像的映射的预设资料，基于所述预设资料对所述对话答复信息进行修正。

作为本实施例一种可选的实现方式，所述相框在被启动后时，启动方式包括：如果所述显示模块的人机交互界面中画像上传组件被触发，接收被上传的画像并对所述画像进行显示；如果所述显示模块的人机交互界面检测到画像中的人物被触发唤醒操作，唤醒所述人物，所述语音采集模块在拾取观看者的语音信息后，所述处理模块基于所述语音信息对所述人物进行处理，使所述人物与观看者进行交互。

作为本实施例一种可选的实现方式，所述相框在被启动后时，启动方式还包括：如果所述显示模块的人机交互界面中视频上传组件被触发，接收被上传的视频并对所述视频进行展示。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种相框，其特征在于，所述相框的框体包括显示模块、语音采集模块、处理模块，所述相框在被启动后，所述语音采集模块拾取观看者的语音信息；所述处理模块基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；所述显示模块对交互过程中的画像进行显示，其中，所述相框在被启动后时，启动方式包括：如果所述显示模块的人机交互界面中画像上传组件被触发，接收被上传的画像并对所述画像进行显示；如果所述显示模块的人机交互界面检测到画像中的人物被触发唤醒操作，唤醒所述人物，所述语音采集模块在拾取观看者的语音信息后，所述处理模块基于所述语音信息对所述人物进行处理，使所述人物与观看者进行交互；

在画像被显示后，参观画像的用户通过人机交互界面浏览和选择希望进行语音对话的数字人物以唤醒数字人物，唤醒数字人物处于激活状态，一旦被赋予驱动指令则驱动数字人物的口型和肢体进行动作

其中，所述处理模块基于所述语音信息对当前显示的画像中的人物进行处理，以使所述画像中的人物与观看者进行交互包括：

在交互过程中，对拾取的所述语音信息进行处理，确定与所述语音信息对应的对话答复信息；

基于所述对话答复信息，对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动；

对所述人物进行处理以驱动所述人物的口进行语音答复、和/或在伴随语言答复的同时驱动所述人物的肢体运动包括：

将所述对话答复信息对应的音频、所述人物输入至训练完成的模型中，输出人物口型与音频相符、且头部动作与音频相符的人物，其中，所述训练完成的模型包括生成头部动作的子网络、生成人物口型的子网络，两个子网络的输出结果基于图像翻译模型生成多个图像帧，其中，图像翻译模块采用二次处理的方式，将头部的处理区域进行拓展，将处理区域拓展后的推理结果与原始推理结果进行结合，实现完整的头部区域驱动；采用边缘渐变融合的方式消除了图像的视觉错位问题；

在训练生成头部动作的子网络时包括：提取包含人物头部的视频样本的音频特征、以及人头部姿态特征；将所述视频样本的音频特征、头部姿态特征、以及预设头部系数至编码器，经编码器后输入至解码器输出多个头部姿态图像帧，其中，将多个头部姿态图像与输入的头部姿态特征之间的差异最小为训练目标进行训练；所述预设头部系数基于预设的线性调整系数确定，其中，头部运动幅度以及运动方向都是随机且不可控的，导致容易出现一些过渡扭曲且不自然的头部摆动，因此根据3DMM系数的头部运动系数，设计了相对自然的头部摆动动作，每一帧的运动系数对应的公式如下：

，

其中（i=1,2,3,...,n）是3DMM系数，（i=1,2,3,...,n）是的线性调整系数。

2.根据权利要求1所述的相框，其特征在于，在训练生成人物口型的子网络时包括：

提取音频样本的音频特征、以及提取人脸图像样本的人脸系数；

将音频样本的音频特征和预设的人脸系数作为输入，人脸口型图像作为输出进行训练，其中，在训练时将人脸系数中的眨眼相关系数进行重定向并作为输入引入训练过程中。

3.根据权利要求2所述的相框，其特征在于，在训练时将人脸图像样本输入预设的唇形动作迁移算法进行处理，输出多个唇形图像帧；

将所述多个唇形图像帧和多个人脸口型图像进行比对，以图像差异最小为训练目标进行训练。

4.根据权利要求1所述的相框，其特征在于，在确定与所述语音信息对应的对话答复信息时：

对所述语音信息进行语义理解，基于语义理解结果调用智能模型生成对应对话答复信息；

和/或，调用针对当前显示的画像的映射的预设资料，基于所述预设资料对所述对话答复信息进行修正。

5.根据权利要求2所述的相框，其特征在于，所述相框在被启动后时，启动方式还包括：

如果所述显示模块的人机交互界面中视频上传组件被触发，接收被上传的视频并对所述视频进行展示。

6.一种基于权利要求1至5任一项所述相框的展览方法，其特征在于，所述相框在被启动后，拾取观看者的语音信息；

基于所述语音信息对当前显示的画像中的人物进行处理，以使画像中的人物与观看者进行交互；

对交互过程中的画像进行显示。