CN117473116A

CN117473116A - 一种基于虚拟人的主动提醒功能的控制方法

Info

Publication number: CN117473116A
Application number: CN202311300211.2A
Authority: CN
Inventors: ***
Original assignee: Shenzhen Kim Dai Intelligence Innovation Technology Co ltd
Current assignee: Shenzhen Kim Dai Intelligence Innovation Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-01-30

Abstract

本发明公开了一种基于虚拟人的主动提醒功能的控制方法，包括图像采集模块、语音采集模块以及控制器，控制器上连接有网络连接装置、显示装置以及播音装置，控制器包括连接图像采集模块的图像处理模块、连接语音采集模块的语音处理模块、连接语音处理模块和图像处理模块的对比模块以及连接对比模块的数据库；基于图像和语音的双模态识别方式，可以大大提高用户身份确认的准确性和效率；在处理多用户间的交互时，***可以根据每个用户的图像和语音信息，准确识别出对应的用户，并提供个性化的贴心提示服务。

Description

一种基于虚拟人的主动提醒功能的控制方法

技术领域

本发明涉及虚拟人技术领域，尤其涉及一种基于虚拟人的主动提醒功能的控制方法。

背景技术

在日常生活中，人们需要掌握各种信息以规划他们的行为和决策，天气状况是影响人们日常活动和决策的重要因素之一，随着科技的发展，许多个人设备如智能手机、智能手表等都具有了天气预报的应用程序，但这些应用程序通常需要用户主动打开并查看，这无疑增加了用户的操作负担；此外，这些应用程序大多只能提供简单的天气信息，而不能根据用户的实际需求提供个性化的建议。

在虚拟现实和人工智能技术的推动下，当前的交互体验已经有了显著的提升，然而，目前的技术方案主要集中在单独处理每个用户的交互和提醒，忽略了多用户间的交互和提醒，这导致了用户体验的不连贯性和不准确性，特别是在面对复杂场景如多人同时交互、轮流交互或连续交互时，现有技术往往无法准确判断和提供个性化的提醒服务，不能有效地提高用户的便利性，同时提供更为个性化的服务。

针对上述问题，本发明提出一种改进的方法，可以在多个用户与虚拟人进行交互时，通过图像和语音的双模态识别方式对用户进行身份确认并处理多用户间的交互和提醒。

发明内容

鉴于此，本发明的目的在于提供一种基于虚拟人的主动提醒功能的控制方法，该控制方法可以同时处理多用户间的交互和提醒。

本发明为解决其技术问题而采用的技术方案是提出一种基于虚拟人的主动提醒功能的控制方法，包括图像采集模块、语音采集模块以及控制器，控制器上连接有网络连接装置、显示装置以及播音装置，控制器包括连接图像采集模块的图像处理模块、连接语音采集模块的语音处理模块、连接语音处理模块和图像处理模块的对比模块以及连接对比模块的数据库；

控制方法包括以下步骤：

S1、录入用户信息至数据库；

图像采集模块采集新用户的图像信息并传输至图像处理模块，语音采集模块采集新用户的语音信息并传输至语音处理模块，图像处理模块对图像信息进行预处理以及特征提取从而形成用户图像特征组，语音处理模块对语音信息进行预处理以及特征提取从而形成用户语音特征组，将提取后的用户图像特征组和用户语音特征组存储至数据库中，重复该步骤可录入多个用户的用户图像特征组和用户语音特征组；

S2、捕捉用户的图像信息和语音信息；

图像采集模块采集用户的图像信息并传输至图像处理模块，语音采集模块采集用户的语音信息并传输至语音处理模块；

S3、用户身份确认；

图像处理模块对图像信息进行预处理以及特征提取从而形成对比图像特征组，语音处理模块对语音信息进行预处理以及特征提取从而形成对比语音特征组，对比模块将提取后的对比图像特征组和对比语音特征组一一与数据库中存储的用户图像特征组和用户语音特征组进行比较，确认用户的身份；

S4、检索天气信息；

网络连接装置连接到互联网上的天气预报服务，获取实时的天气信息并将天气信息传输至控制器；

S5、日常贴心提示；

控制器根据天气信息以及预设在控制器上的贴心提示规则，生成对应的提示信息，并通过显示装置展示给对应用户或/和通过播音装置播放给对应的用户。

作为本发明的进一步改进，步骤S1和步骤S3中图像处理模块对图像信息进行预处理的具体方法是将图像信息进行最小最大标准化处理。

作为本发明的进一步改进，步骤S1和步骤S3中图像处理模块对图像信息进行特征提取的具体方法是：

S100、采用MTCNN算法对图像信息进行人脸检测和对齐；

S200、通过Fisherfaces算法进行特征提取。

作为本发明的进一步改进，步骤S100中采用MTCNN算法对图像进行人脸检测和对齐的具体步骤是：

S101、使用P-Net对图像进行初步的人脸检测，通过滑动窗口的方式在图像上进行扫描，找出可能包含人脸的区域，并输出一组尺寸大小为12x12的第一候选框，第一候选框包含人脸的区域的位置和大小信息；

S102、对每个第一候选框进行缩放和裁剪，将其大小调整为24×24，通过R-Net判断该区域是否包含人脸，并输出一组精度大于第一候选框的第二候选框；

S103、对每个第二候选框进行缩放和裁剪，将其大小调整为48×48，通过O-Net判断该区域是否包含人脸，输出一组人脸区域的位置和大小信息，并同时输出五个关键点的位置信息；

S104、根据五个关键点的位置信息变换到一个标准的人脸图像上，使得用户的关键点位置与标准人脸图像的关键点位置对齐。

作为本发明的进一步改进，步骤S103中输出五个关键点的位置信息的具体方法是分别输出左眼、右眼、鼻子、左嘴巴和右嘴巴的位置信息，其中每个位置信息均包括含有人脸区域特征信息的特征向量以及该部位在图像中的横坐标和纵坐标。

作为本发明的进一步改进，步骤S200中通过Fisherfaces算法进行特征提取的具体步骤是：

S201、将对齐后的用户图像减去预设的均值脸，得到差异图像；

S202、对差异图像进行PCA分析，得出一组由多个主成分向量组成的正交基向量；

S203、每个人脸图像在每个主成分向量上的投影值形成投影值向量，根据每个人脸图像的类别标签，将所有属于同一类别标签的人脸图像的投影值向量相加，得到该类别的总投影值向量，再将不同类别的总投影值向量相减，得到类间散度矩阵；

S204、每个类别的投影值向量的平均值作为该类别的代表向量，再将不同类别的的代表向量相减，得到类内散度矩阵；

S205、将类间散度矩阵和类内散度矩阵相除，得到一个差异矩阵，求解该差异矩阵的特征值和特征向量，选择最大的特征值对应的特征向量作为最优投影向量；

S206、将最优投影向量与差异图像相乘，得到人脸图像的Fisherfaces特征。

作为本发明的进一步改进，步骤S1和步骤S3中语音处理模块对语音信息进行预处理的具体方法为通过傅里叶变换降噪。

作为本发明的进一步改进，语音采集模块为三个录音设备，三个录音设备组成一个正三角形，步骤S3中语音处理模块还可以通过语音信息进行用户定位，用户定位的具体方法为分别计算声源到达三个麦克风的时间差，根据时间差和音速计算第一距离差和第二距离差，根据第一距离差和第二距离差的符号以及大小关系，确定声源相对于正三角形重心的方位角所落入的区间，从而确定声源的方向。

作为本发明的进一步改进，步骤S1和步骤S3中语音处理模块对语音信息进行特征提取的具体方法为对预处理后的语音信息进行时域分析、频域分析、声道特性分析。

作为本发明的进一步改进，步骤S4中网络连接装置连接到互联网上的天气预报服务，获取实时的天气信息并将天气信息传输至控制器的具体方法为网络连接装置向天气预报服务的API接口发送HTTP GET请求，天气预报服务返回具有实时天气数据的JSON数据，控制器解析JSON数据并存入数据库。

本发明的有益效果至少是基于图像和语音的双模态识别方式，可以大大提高用户身份确认的准确性和效率；在处理多用户间的交互时，***可以根据每个用户的图像和语音信息，准确识别出对应的用户，并提供个性化的贴心提示服务。

附图说明

图1是本发明的模块连接逻辑图；

图2是本发明控制方法的步骤流程图；

图3是本发明步骤S100的具体步骤流程图；

图4是本发明步骤S200的具体步骤流程图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述。

参照图1-4，本发明提出了一种基于虚拟人的主动提醒功能的控制方法，包括图像采集模块、语音采集模块以及控制器，控制器上连接有网络连接装置、显示装置以及播音装置，控制器包括连接图像采集模块的图像处理模块、连接语音采集模块的语音处理模块、连接语音处理模块和图像处理模块的对比模块以及连接对比模块的数据库；

控制方法包括以下步骤：

S1、录入用户信息至数据库；

S2、捕捉用户的图像信息和语音信息；

S3、用户身份确认；

S4、检索天气信息；

S5、日常贴心提示；

基于图像和语音的双模态识别方式，可以大大提高用户身份确认的准确性和效率；在处理多用户间的交互时，***可以根据每个用户的图像和语音信息，准确识别出对应的用户，并提供个性化的贴心提示服务。

最小最大标准化处理可以将图像信息进行线性变换，将图像信息线性映射到0-1之间，保留了原始数据的相对关系、突出图像中的细节信息、提高图像的可视化效果，从而消除图像信息中由于光照、角度、姿态等因素引起的差异，避免因天色改变、用户所在的角度不同导致误判，使得图像处理模块能够准确地提取出图像的特征，提高用户身份确认的准确性；并且可以减少图像信息中的噪声和异常值的影响，从而增强***的鲁棒性，鲁棒性是指***或者算法在不同的情况下，仍能够保持稳定和可靠的能力；在处理多用户间的交互时，***可以更加稳定地识别出每个用户的身份；最小最大标准化处理可以对图像信息进行快速的线性变换，从而提高***的处理效率。

最小-最大标准化能够很好地保留图像的主要特征；而Z-score标准化分布较为广泛或分散。

S100、采用MTCNN算法对图像信息进行人脸检测和对齐；

S200、通过Fisherfaces算法进行特征提取。

MTCNN算法是一种基于深度学习的人脸检测算法，通过多任务学习的方式，同时完成面部检测和对齐的任务，对光照和姿态变化的鲁棒性较好，可以准确地检测出图像中的人脸，并对人脸进行对齐，使得后续能够更加准确地提取出人脸的特征，提高用户身份确认的准确性，Fisherfaces算法是一种基于线性判别分析的特征提取算法，可以提取出具有区分度的特征，从而增强***的鲁棒性，在处理多用户间的交互时，***可以更加稳定地识别出每个用户的身份；

人脸检测算法中还有Haar级联算法、VGGNet、ResNet以及DenseNet等深度学习模型，但Haar级联算法对光照和姿态变化较为敏感，且对遮挡和复杂背景的处理能力有限，在家庭场景中会经常无法识别，VGGNet、ResNet以及DenseNet等深度学习模型网络深度较大，计算复杂度较高，对计算资源的需求也较大无法实现快速识别。

Fisherfaces的优点在于它不仅能进行降维，还能考虑类别信息，使得不同类别的数据在投影后尽可能分开；不同类别可以是指男人、女人、老人、高兴、伤心等。

采用级联的思想，将复杂问题简单化，将人脸识别问题分解成三个步骤：P-Net、R-Net和O-Net。这种分步骤的方法可以逐步筛选出符合标准的样本，提高准确率；使用小的卷积核代替大的卷积核，使其感受野相同，但参数量更少，运算更快，卷积核是卷积神经网络中用于在输入特征上进行卷积操作的矩阵，也被称为滤波器或卷积窗口，感受野是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小；采用相对坐标进行面部对齐，可以减少计算量和提高精度；对光照和姿态变化的鲁棒性较好，且对遮挡和复杂背景的处理能力较强。

对于每个关键点，需要分别表示其在图像中的横坐标和纵坐标，因此每个关键点需要2维来表示，因此O-Net输出的向量大小为1×1×10，可以使得***更加灵活地进行人脸处理任务，比如人脸对齐、人脸表情识别等，这些关键点的位置信息对于人脸对齐和表情分析等任务非常重要，耳朵的位置信息在这些人脸相关任务中的作用相对较小

对齐后的用户图像减去预设的均值脸，得到差异图像，可以减少图像中的冗余信息，提高特征提取的准确性；采用PCA分析对差异图像进行降维处理，可以减少数据中的噪声和异常值的影响，提高特征提取的鲁棒性；求解最优投影向量可以使得提取出的特征具有更大的区分度，提高特征提取的准确性。

作为本发明的进一步改进，步骤S1和步骤S3中语音处理模块对语音信息进行预处理的具体方法为通过傅里叶变换降噪；傅里叶变换降噪可以对语音信号进行快速的降噪处理，从而提高***的效率，并且有效减少语音信号中的异常值和噪声的影响。

通过用户定位，可以更加准确地确定用户的位置和方向，从而提供更加个性化的交互服务，例如，可以根据用户的位置和方向调整屏幕显示内容、调整音频输出方向等，提供更加贴近用户需求的服务；当***在多用户环境下切换时，能够定位到当前活跃用户的方向，使得显示装置可以自动调整朝向，以面向活跃用户，这增强了***的交互性和用户体验，使得用户可以更加便捷地获取所需的信息或服务；通过用户定位，可以监测到异常行为或者入侵行为，从而提高***的安全性，例如，当检测到异常声音或者异常行为时，***可以自动报警或者采取相应的安全措施。

作为本发明的进一步改进，步骤S1和步骤S3中语音处理模块对语音信息进行特征提取的具体方法为对预处理后的语音信息进行时域分析、频域分析、声道特性分析；可以提取出更加准确、全面的语音特征，提高***的效率；时域分析可以提取其时域特征，如短时能量、短时过零率等，可以反映语音信号的幅度和频率变化；频域分析用于提取其频域特征，如频谱、功率谱、倒谱等，可以反映语音信号的频率结构和分布；声道特性分析用于提取其声道特性特征，如共振峰、基频等，可以反映语音信号的声道形状和振动模式。

作为本发明的进一步改进，步骤S4中网络连接装置连接到互联网上的天气预报服务，获取实时的天气信息并将天气信息传输至控制器的具体方法为网络连接装置向天气预报服务的API接口发送HTTP GET请求，天气预报服务返回具有实时天气数据的JSON数据，控制器解析JSON数据并存入数据库；通过网络连接装置连接到互联网上的天气预报服务获取实时的天气信息，并根据天气信息调整室内环境参数，可以提供更加个性化的交互服务，增强***的交互性和用户体验。从而进一步提高了***的性能和用户体验。

图像采集模块可以使用摄像头、摄像机等图像采集设备；语音采集模块可以使用麦克风、录音机等语音采集设备；控制器可以使用单片机、PLC、计算机等控制设备；网络连接装置可以使用WIFI模块、以太网模块等网络通信设备；显示装置可以使用LED显示屏、LCD显示屏等显示设备；播音装置可以使用喇叭、扬声器等音频输出设备。

对于控制器中的各个模块，图像处理模块可以使用图像处理芯片、GPU等图像处理设备；语音处理模块可以使用语音处理芯片、声卡等语音处理设备；对比模块可以使用CPU、FPGA等数据处理设备；数据库可以使用关系型数据库、非关系型数据库等数据存储设备。

Claims

1.一种基于虚拟人的主动提醒功能的控制方法，其特征在于，包括图像采集模块、语音采集模块以及控制器，所述控制器上连接有网络连接装置、显示装置以及播音装置，所述控制器包括连接所述图像采集模块的图像处理模块、连接所述语音采集模块的语音处理模块、连接语音处理模块和图像处理模块的对比模块以及连接所述对比模块的数据库；

控制方法包括以下步骤：

S1、录入用户信息至数据库；

S2、捕捉用户的图像信息和语音信息；

S3、用户身份确认；

S4、检索天气信息；

S5、日常贴心提示；

2.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S1和步骤S3中图像处理模块对图像信息进行预处理的具体方法是将图像信息进行最小最大标准化处理。

3.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S1和步骤S3中图像处理模块对图像信息进行特征提取的具体方法是：

S100、采用MTCNN算法对图像信息进行人脸检测和对齐；

S200、通过Fisherfaces算法进行特征提取。

4.根据权利要求3所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S100中采用MTCNN算法对图像进行人脸检测和对齐的具体步骤是：

5.根据权利要求4所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S103中输出五个关键点的位置信息的具体方法是分别输出左眼、右眼、鼻子、左嘴巴和右嘴巴的位置信息，其中每个位置信息均包括含有人脸区域特征信息的特征向量以及该部位在图像中的横坐标和纵坐标。

6.根据权利要求3所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S200中通过Fisherfaces算法进行特征提取的具体步骤是：

7.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S1和步骤S3中语音处理模块对语音信息进行预处理的具体方法为通过傅里叶变换降噪。

8.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述语音采集模块为三个录音设备，所述三个录音设备组成一个正三角形，所述步骤S3中语音处理模块还可以通过语音信息进行用户定位，用户定位的具体方法为分别计算声源到达三个麦克风的时间差，根据时间差和音速计算第一距离差和第二距离差，根据第一距离差和第二距离差的符号以及大小关系，确定声源相对于正三角形重心的方位角所落入的区间，从而确定声源的方向。

9.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S1和步骤S3中语音处理模块对语音信息进行特征提取的具体方法为对预处理后的语音信息进行时域分析、频域分析、声道特性分析。

10.根据权利要求1所述的一种基于虚拟人的主动提醒功能的控制方法，其特征在于，所述步骤S4中网络连接装置连接到互联网上的天气预报服务，获取实时的天气信息并将天气信息传输至控制器的具体方法为网络连接装置向天气预报服务的API接口发送HTTP GET请求，天气预报服务返回具有实时天气数据的JSON数据，控制器解析JSON数据并存入所述数据库。