CN116156048B

CN116156048B - 基于人工智能的音量调整方法、***、设备和介质

Info

Publication number: CN116156048B
Application number: CN202310438061.5A
Authority: CN
Inventors: 苏艳
Original assignee: Enping Huadian Electronics Co ltd
Current assignee: Enping Huadian Electronics Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-12-08
Anticipated expiration: 2043-04-23
Also published as: CN116156048A

Abstract

本发明提供的一种基于人工智能的音量调整方法、***、设备和介质，涉及音量调整领域，该方法包括基于用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；基于手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；基于用户的周围环境图像使用路人信息确定模型确定多个路人信息；基于多个路人的生理信息使用承受程度确定模型确定多个路人的音量承受程度；基于多个路人的音量承受程度、多个路人到手机的距离、环境噪声数据使用最大音量确定模型确定手机的最大音量；基于手机的最小音量和手机的最大音量对手机音量进行调整。该方法能够自动调整音量，减少公共场合的噪声污染。

Description

基于人工智能的音量调整方法、***、设备和介质

技术领域

本发明涉及音量调整技术领域，具体涉及一种基于人工智能的音量调整方法、***、设备和介质。

背景技术

近年来，智能手机市场快速发展，智能手机随时随地为用户提供便捷的娱乐、交流、信息获取等服务。随着短视频的兴起，用户可以随时随地观看各类短视频，以满足娱乐需求，但同时由于短视频的便利，许多用户会在公共场合打开短视频来进行观看，但由于用户处在公共场合，公共场合会有较多路人，短视频的声音过大可能会对周围其他路人造成噪声污染。现有的控制短视频声音音量的方法大多是当用户的音量大于一定阈值后，短视频应用会通过弹窗提示来提醒用户手动调小声音，例如弹窗提示可以是“当前音量过大，可能会对其他用户造成影响，请调小声音”，但该方法需要用户手动调整，而且用户往往也不会按照提示来调小声音，所以该方法并不能达到音量调整，减少公众场合噪声污染的目的。

因此，如何自动调整音量，减少公共场合的噪声污染成为目前亟待解决的问题。

发明内容

本发明主要解决的技术问题是如何自动调整音量，减少公共场合的噪声污染。

根据第一方面，本发明提供一种基于人工智能的音量调整方法，包括：获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

更进一步地，所述路人的生理信息包括路人的年龄、性别、身高、体重、是否在休息。

更进一步地，所述基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整，包括：将手机音量设置在所述手机的最小音量和所述手机的最大音量之间。

更进一步地，所述将手机音量设置在所述手机的最小音量和所述手机的最大音量之间，包括：将所述手机的最小音量和所述手机的最大音量进行相加后得到相加后的音量，将所述相加后的音量除以2得到目标音量，将手机音量设置为所述目标音量。

根据第二方面，本发明提供一种基于人工智能的音量调整***，包括：第一获取模块，用于获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；距离确定模块，用于基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；最小音量确定模块，用于基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；第二获取模块，用于获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；路人信息确定模块，用于基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；承受程度确定模块，用于基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；最大音量确定模块，用于基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；调整模块，用于基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

更进一步地，所述调整模块还用于：将手机音量设置在所述手机的最小音量和所述手机的最大音量之间。

更进一步地，所述调整模块还用于：将所述手机的最小音量和所述手机的最大音量进行相加后得到相加后的音量，将所述相加后的音量除以2得到目标音量，将手机音量设置为所述目标音量。

根据第三方面，本发明提供一种电子设备，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现上述的方法。

根据第四方面，本发明提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如上述方面中任一项所述的方法。

本发明提供的一种基于人工智能的音量调整方法、***、设备和介质，该方法包括基于用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；基于手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；基于用户的周围环境图像使用路人信息确定模型确定多个路人信息；基于多个路人的生理信息使用承受程度确定模型确定多个路人的音量承受程度；基于多个路人的音量承受程度、多个路人到手机的距离、环境噪声数据使用最大音量确定模型确定手机的最大音量；基于手机的最小音量和手机的最大音量对手机音量进行调整。该方法能够自动调整音量，减少公共场合的噪声污染。

附图说明

图1为本发明实施例提供的一种基于人工智能的音量调整方法的流程示意图；

图2为本发明实施例提供的一种基于人工智能的音量调整***的示意图；

图3为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

本发明实施例中，提供了如图1所示的一种基于人工智能的音量调整方法，所述基于人工智能的音量调整方法包括步骤S1~S8：

步骤S1，获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到。

用户的人脸图像通过手机的前置摄像头拍摄得到。用户的人脸图像中包括用户双耳，用户的人脸图像中可以清楚的显示用户的双耳的位置、轮廓、形态等。

步骤S2，基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离。

手机的前置摄像头拍摄时的拍照参数包括前置摄像头的镜头倍数、镜头角度、分辨率等。

由于在不同的距离下，手机的前置摄像头对用户进行拍照所得到的用户的人脸图像的不一样，因此可以基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数来进行处理确定出在拍照时手机到用户双耳的距离。在一些实施例中，可以通过距离确定模型来确定手机到用户双耳的距离。

手机到用户双耳的距离可以为手机到双耳的平均距离，例如手机到左耳的距离为一米1，手机到右耳的距离为0.9米，则手机到双耳的平均距离为1米。

距离确定模型为卷积神经网络模型，卷积神经网络模型包括卷积神经网络。卷积神经网络模型为人工智能的一种实现方式。卷积神经网络(CNN)可以是多层神经网络(例如，包括至少两个层)。所述至少两个层可以包括卷积层(CONV)、修正线性单元(ReLU)层、池化层(POOL)或全连接层(FC)中的至少一个。卷积神经网络(CNN)的至少两个层可以对应于以三维排列的神经元：宽度、高度、深度。在一些实施例中，卷积神经网络(CNN)可以具有[输入层-卷积层-修正线性单元层-池化层-全连接层]的架构。卷积层可以计算连接到输入中局部区域的神经元的输出，计算每个神经元的权重与其在输入体积中连接的小区域之间的点积。距离确定模型的输入为所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数，距离确定模型的输出为手机到用户双耳的距离。

距离确定模型可以通过训练样本来训练得到，训练样本包括样本输入数据和所述样本输入数据对应的标签，训练样本中的样本输入包括样本用户的人脸图像，手机的前置摄像头拍摄时的样本拍照参数，训练样本中的样本输出标签为手机到用户双耳的样本距离。距离确定模型的训练样本的样本输出标签可以通过工作人员进行手动标注得到，例如对样本用户的人脸图像，手机的前置摄像头拍摄时的样本拍照参数进行手动标注，标注出手机到用户双耳的样本距离。最后基于所述多个训练样本训练初始的距离确定模型，得到所述距离确定模型。在一些实施例中，可以通过梯度下降法对初始的距离确定模型进行训练得到训练后的距离确定模型。

步骤S3，基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量。

环境噪声数据包括环境噪音的音量大小、音量频率等。

手机的最小音量表示能够保证用户能够听清的最小音量。若将手机的音量设置为小于手机的最小音量，则用户不能够听清手机的声音。例如，手机的最小音量为40分贝，若手机的音量设置小于40分贝，则用户不能听清手机的声音。

最小音量确定模型为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数可以通过训练获得。深度神经网络可以包括循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络（Convolutional Neural Networks，CNN）、生成对抗网络(Generative Adversarial Networks，GAN)等等。所述最小音量确定模型的输入为所述手机到用户双耳的距离、环境噪声数据，所述最小音量确定模型的输出为手机的最小音量。

在一些实施例中，最小音量确定模型可以包括声音传播损耗确定模型和融合模型。声音传播损耗确定模型和融合模型都为深度神经网络模型。

所述声音传播损耗确定模型的输入为空气信息，声音传播损耗确定模型的输出为声音传播损耗度。空气信息包括空气各种气体的成分占比信息、空气密度信息、温度信息、湿度信息。声音传播损耗度表示声音在空气中传播损耗的程度，声音传播损耗度越大，则说明声音在空气中传播音量损失较大，反之亦然。声音传播损耗度主要受空气本身的影响，所以可以通过声音传播损耗确定模型对空气信息进行处理确定声音传播损耗度。

融合模型的输入包括所述声音传播损耗度、所述手机到用户双耳的距离、环境噪声数据，融合模型的输出为手机的最小音量，融合模型可以综合考虑所述声音传播损耗度、所述手机到用户双耳的距离、环境噪声数据，最终输出得到手机的最小音量。

步骤S4，获取用户的周围环境图像，所述用户的周围环境图像包括多个路人。

用户的周围环境图像可以用于显示用户周围的环境信息。在一些实施例中，用户的周围环境图像可以通过用户的后置摄像头对环境拍摄得到。在一些实施例中，用户的周围环境图像可以通过环境中的摄像头拍摄得到，并将摄像头拍摄得到的用户的周围环境图像发送到用户手机上。

步骤S5，基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离。

多个路人信息包括多个路人的生理信息、多个路人到手机的距离。

路人的生理信息表示路人的年龄、性别、身高、体重、是否在休息等。

路人到手机的距离可以为路人到用户手机的直线距离。

用户的周围环境图像中可以显示出多个路人信息，可以通过对用户的周围环境图像进行处理得到多个路人信息。

路人信息确定模型为卷积神经网络模型，卷积神经网络模型包括卷积神经网络。卷积神经网络模型为人工智能的一种实现方式。卷积神经网络(CNN)可以是多层神经网络(例如，包括至少两个层)。所述至少两个层可以包括卷积层(CONV)、修正线性单元(ReLU)层、池化层(POOL)或全连接层(FC)中的至少一个。卷积神经网络(CNN)的至少两个层可以对应于以三维排列的神经元：宽度、高度、深度。在一些实施例中，卷积神经网络(CNN)可以具有[输入层-卷积层-修正线性单元层-池化层-全连接层]的架构。卷积层可以计算连接到输入中局部区域的神经元的输出，计算每个神经元的权重与其在输入体积中连接的小区域之间的点积。所述路人信息确定模型的输入为所述用户的周围环境图像，所述路人信息确定模型的输出为多个路人信息。

步骤S6，基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度。

路人的音量承受程度表示路人在听到手机声音对手机音量能够适应的程度。路人的音量承受程度越高，则表示路人可以适应较大音量，则用户手机的音量可以开的较大些。路人的音量承受程度越低，则表示路人不能适应手机的较大音量，则用户手机的音量需要开的小些。

路人的音量承受程度可以为0-1之间的数值，数值越大，则表示路人的音量承受程度越高，则可以适应更大音量的手机声音。路人的音量承受程度由路人的生理信息决定，例如，路人为年龄较小的婴幼儿，则音量承受程度较低，听到手机的声音会产生哭闹。又例如，路人为年龄较大的老年人，由于听觉随着年龄增长会下降，听到手机声音后的反应较小，则音量承受程度较高。又例如，路人在休息，则听到手机声音后会产生烦躁的情绪，则在休息的路人的音量承受程度较低，反之亦然。

承受程度确定模型为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数可以通过训练获得。深度神经网络可以包括循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络（Convolutional Neural Networks，CNN）、生成对抗网络(Generative Adversarial Networks，GAN)等等。所述承受程度确定模型的输入为所述多个路人信息，所述承受程度确定模型的输出为所述多个路人的音量承受程度。

承受程度确定模型可以通过训练样本来训练得到，训练样本包括样本输入数据和所述样本输入数据对应的标签，训练样本中的样本输入包括多个样本路人信息，训练样本中的样本输出标签为多个样本路人信息的音量承受程度，训练样本中的样本输出标签可以通过手动标注得到。

步骤S7，基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量。

最大音量确定模型为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数可以通过训练获得。深度神经网络可以包括循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络（Convolutional Neural Networks，CNN）、生成对抗网络(Generative Adversarial Networks，GAN)等等。所述最大音量确定模型的输入为所述多个路人的音量承受程度、所述多个路人到手机的距离，所述最大音量确定模型的输出为所述手机的最大音量。

最大音量确定模型可以综合考虑所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据确定手机的最大音量。

手机的最大音量表示综合考虑多个路人的音量承受程度、多个路人到手机的距离后确定的对周围的多个路人影响最小的最大音量。若手机设置的音量超过手机的最大音量，则可能会对用户周围的多个路人造成不适。

步骤S8，基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

在一些实施例中，可以将手机音量设置在所述手机的最小音量和所述手机的最大音量之间，这样既保证了用户能够听清手机中的声音，也降低了对周围的多个路人的影响。

在一些实施例中，可以从所述手机的最小音量与所述手机的最大音量之间随机选取一个作为用户的手机音量。

在一些实施例中，可以将所述手机的最小音量和所述手机的最大音量进行相加后得到相加后的音量，将所述相加后的音量除以2得到目标音量，将手机音量设置为所述目标音量。作为示例，手机的最小音量为40分布，手机的最大音量为100分布，则（40+100）÷2=70，则可以将手机音量设置为70分贝。

基于同一发明构思，图2为本发明的实施例提供的一种基于人工智能的音量调整***示意图，所述基于人工智能的音量调整***包括：

第一获取模块21，用于获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；

距离确定模块22，用于基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；

最小音量确定模块23，用于基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；

第二获取模块24，用于获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；

路人信息确定模块25，用于基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；

承受程度确定模块26，用于基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；

最大音量确定模块27，用于基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；

调整模块28，用于基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

基于同一发明构思，本发明的实施例提供了一种电子设备，如图3所示，包括：

处理器31；存储器32；以及计算机程序；其中，所述计算机程序存储在所述存储器32中，并配置为由所述处理器31执行以实现所述的基于人工智能的音量调整方法，所述方法包括：获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

基于同一发明构思，本实施例提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器31执行实现如前述提供的基于人工智能的音量调整方法，所述方法包括: 获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于人工智能的音量调整方法，其特征在于，包括：

获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；

基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；

基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；

获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；

基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；

基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；

基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；

基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

2.如权利要求1所述的基于人工智能的音量调整方法，其特征在于，所述路人的生理信息包括路人的年龄、性别、身高、体重、是否在休息。

3.如权利要求1所述的基于人工智能的音量调整方法，其特征在于，所述基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整，包括：将手机音量设置在所述手机的最小音量和所述手机的最大音量之间。

4.如权利要求3所述的基于人工智能的音量调整方法，其特征在于，所述将手机音量设置在所述手机的最小音量和所述手机的最大音量之间，包括：将所述手机的最小音量和所述手机的最大音量进行相加后得到相加后的音量，将所述相加后的音量除以2得到目标音量，将手机音量设置为所述目标音量。

5.一种基于人工智能的音量调整***，其特征在于，包括：

第一获取模块，用于获取用户的人脸图像，所述用户的人脸图像包括用户双耳，所述用户的人脸图像基于手机的前置摄像头拍摄得到；

距离确定模块，用于基于所述用户的人脸图像、手机的前置摄像头拍摄时的拍照参数使用距离确定模型确定手机到用户双耳的距离；

最小音量确定模块，用于基于所述手机到用户双耳的距离、环境噪声数据使用最小音量确定模型确定手机的最小音量；

第二获取模块，用于获取用户的周围环境图像，所述用户的周围环境图像包括多个路人；

路人信息确定模块，用于基于所述用户的周围环境图像使用路人信息确定模型确定多个路人信息；所述多个路人信息包括多个路人的生理信息、多个路人到手机的距离；

承受程度确定模块，用于基于所述多个路人的生理信息使用承受程度确定模型确定所述多个路人的音量承受程度；

最大音量确定模块，用于基于所述多个路人的音量承受程度、所述多个路人到手机的距离、所述环境噪声数据使用最大音量确定模型确定手机的最大音量；

调整模块，用于基于所述手机的最小音量和所述手机的最大音量对手机音量进行调整。

6.如权利要求5所述的基于人工智能的音量调整***，其特征在于，所述路人的生理信息包括路人的年龄、性别、身高、体重、是否在休息。

7.如权利要求5所述的基于人工智能的音量调整***，其特征在于，所述调整模块还用于：将手机音量设置在所述手机的最小音量和所述手机的最大音量之间。

8.如权利要求5所述的基于人工智能的音量调整***，其特征在于，所述调整模块还用于：将所述手机的最小音量和所述手机的最大音量进行相加后得到相加后的音量，将所述相加后的音量除以2得到目标音量，将手机音量设置为所述目标音量。

9.一种电子设备，其特征在于，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1至4任一项所述的基于人工智能的音量调整方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的基于人工智能的音量调整方法。