CN114079838B

CN114079838B - 一种音频控制方法、设备及***

Info

Publication number: CN114079838B
Application number: CN202010851744.XA
Authority: CN
Inventors: 刘渝进
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2024-04-09
Anticipated expiration: 2040-08-21
Also published as: EP4192037A1; CN114079838A; WO2022037398A1; EP4192037A4

Abstract

本申请实施例提供一种音频控制方法、设备及***，涉及音效调节领域，能够基于多个感知设备获取的多维场景感知信息识别用户场景，根据用户场景自适应调节音频设备多个维度的音频输出效果，满足用户多样化的场景需求，减少用户手动调节操作。方案为：感知设备获取场景感知信息及场景感知结果；感知设备向决策控制设备发送第一信息，该第一信息用于指示场景感知结果；决策控制设备根据场景感知结果识别用户场景；决策控制设备向音频设备发送第二信息，该第二信息用于指示用户场景；音频设备根据用户场景调节音频输出效果，该音频输出效果包括噪声控制、均衡器调节或音量调节中的一种或多种。本申请实施例用于音频输出控制。

Description

一种音频控制方法、设备及***

技术领域

本申请实施例涉及智能终端的用户场景感知和自适应音效调节领域，尤其涉及一种音频控制方法、设备及***。

背景技术

随着电子技术的发展，用于音频播放的音频设备的种类越来越多，例如有蓝牙耳机、有线耳机或智能头盔等。目前，用户可以通过调节音频设备上的按键来调节音频设备的音频输出效果，且音频输出效果的可调范围小，难以满足用户多样化的场景需求。

发明内容

本申请实施例提供一种音频控制方法、设备及***，能够基于多个感知设备获取的多维场景感知信息精确识别用户场景，从而根据用户场景自适应调节音频设备多个维度的音频输出效果，使得音频输出效果更符合当前的实际用户场景，满足用户多样化的场景需求，减少用户手动调节操作。

本申请实施例采用如下技术方案：

一方面，本申请实施例提供了一种音频控制方法，应用于音频***，音频***包括具有通信连接的多个感知设备、决策控制设备和音频设备。该方法包括：感知设备获取场景感知信息，并基于场景感知信息获得场景感知结果。感知设备向决策控制设备发送第一信息，该第一信息用于指示场景感知结果。决策控制设备接收到来自多个感知设备的第一信息后，根据第一信息指示的场景感知结果识别用户场景。决策控制设备向音频设备发送第二信息，该第二信息用于指示用户场景。音频设备接收到来自决策控制设备的第二信息后，根据第二信息指示的用户场景调节音频输出效果。其中，音频输出效果包括噪声控制、均衡器(equalizer，EQ)调节或音量调节中的一种或多种。

其中，音频***中的感知设备可以为具有场景感知能力的电子设备，音频设备可以为具有出音功能的电子设备，决策控制设备可以为具有较强计算能力的电子设备，显示设备可以为具有显示功能的电子设备。

例如，多个感知设备可以是手机、手表和/或耳机。音频设备可以是耳机。决策控制设备可以是手机。显示设备可以是手机或手表。可以理解的，感知设备也可以为一个，例如感知设备可以为手机、手表或耳机。

其中，手机既可以为决策控制设备，同时也可以为感知设备，还可以为显示设备。手表既可以为感知设备，同时还可以为显示设备。耳机既可以为音频设备，同时还可以为感知设备。

在该方案中，音频***中的多个感知设备可以从多个角度获取丰富的用户场景感知信息，并获得相应的场景感知结果。决策控制设备可以基于多个感知设备的感知能力，结合多维场景感知结果准确识别精细划分的用户场景。音频设备可以根据决策控制设备识别到的用户场景，从多个维度、多个方面精确地控制音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配，满足用户多样化的场景需求，减少用户手动调节操作。

在一种可能的设计中，噪声控制包括降噪频段和降噪等级，和/或，透传频段和透传等级。其中，降噪频段可以是指进行噪声消减的频率范围，降噪等级是指噪声消减的档位和程度；透传频段可以是指进行声音透传的频率范围，透传等级是指声音透传的档位和程度。

这样，对于音频输出的噪声控制来说，音频设备可以从更为细粒度的层面进行精细化控制，以使得音频输出效果与当前用户场景更好地匹配，而不仅仅是对音频的整个频段进行降噪。

在一种可能的设计中，音频输出效果还包括音频提示信息。

也就是说，音频设备可以通过调整音频播放内容来给用户以相关提示。

在另一种可能设计中，场景感知信息包括图像信息、声音信息或运动状态信息中的一种或多种。

也就是说，感知设备可以从图像信息、声音信息和运动状态信息等多个维度、多个角度获取丰富的用户场景感知信息，从而获取多个维度的场景感知结果，以便决策控制设备可以根据多个感知设备的多维感知能力更为准确地确定用户场景。

在另一种可能的设计中，场景感知信息还包括以下一种或多种：位置信息、环境光信息、蜂窝通信信息、应用信息或心率信息。

这样，感知设备可以从更多的维度、更多的角度获取丰富的用户场景感知信息，从而获取多个维度的场景感知结果，以便决策控制设备可以根据多个感知设备的多维感知能力更为准确地确定用户场景。

在另一种可能的设计中，音频设备根据第二信息指示的用户场景调节音频输出效果，包括：音频设备根据第二信息指示的用户场景，以及用户场景与音频输出效果信息的对应关系，调节音频输出效果。其中，对应关系预设在音频设备上或来自决策控制设备。

也就是说，音频设备可以根据已设置的用户场景与音频输出效果信息的对应关系，以及当前的用户场景，实时调节音频输出效果，以使得当前的音频输出效果与实时的用户场景相匹配。

在另一种可能的设计中，音频***还包括显示设备，该方法还包括：决策控制设备向显示设备发送第三信息，该第三信息用于指示用户场景。显示设备接收到第三信息后，显示第三信息指示的用户场景和/或用户场景对应的音频输出效果信息。

在该方案中，显示设备可以将当前用户场景，和/或，当前用户场景对应的音频输出效果实时呈现给用户。

在另一种可能的设计中，该方法还包括：显示设备响应于用户针对显示界面的第一预设操作，配置或修改用户场景与音频输出效果信息的对应关系。显示设备将配置或修改后的对应关系发送给决策控制设备。

在该方案中，用户可以基于显示设备的显示界面进行交互操作，从而配置或修改用户场景与音频输出效果信息的对应关系。

在另一种可能的设计中，该方法还包括：显示设备响应于用户针对显示界面的第二预设操作，设置用户场景与感知设备的对应关系。显示设备将设置的用户场景与感知设备的对应关系发送给决策控制设备。

在该方案中，用户可以基于显示设备的显示界面进行交互操作，从而设置用户场景与感知设备的对应关系。

在另一种可能的设计中，该方法还包括：第一电子设备检测到用户的第三预设操作后进入目标模式。第一电子设备与具有通信连接的其他电子设备，协商音频***中的感知设备、决策控制设备、音频设备和显示设备。第一电子设备为感知设备或音频设备。协商确定的感知设备、决策控制设备、音频设备和显示设备均进入目标模式。

也就是说，音频***中的各角色设备可以通过协商确定。

在另一种可能的设计中，该方法还包括：决策控制设备由音频***中的一个电子设备切换为另一个电子设备。

也就是说，音频***中用于确定用户场景的决策控制设备可以不是固定的，而可以根据音频***中电子设备的实际情况进行切换。

另一方面，本申请实施例提供了一种音频***，包括多个感知设备、决策控制设备和音频设备。其中，感知设备用于，获取场景感知信息，并基于场景感知信息获得场景感知结果；向决策控制设备发送第一信息，该第一信息用于指示场景感知结果。决策控制设备用于，接收到来自多个感知设备的第一信息后，根据第一信息指示的场景感知结果识别用户场景；向音频设备发送第二信息，该第二信息用于指示用户场景。音频设备用于，接收到来自决策控制设备的第二信息后，根据第二信息指示的用户场景调节音频输出效果。其中，音频输出效果包括噪声控制、均衡器EQ调节或音量调节中的一种或多种。

例如，感知设备可以是手机、手表和/或耳机中的多个设备。音频设备可以是耳机。音频***中的决策控制设备可以是手机。显示设备可以是手机或手表。其中，手机既可以为决策控制设备，同时也可以为感知设备，还可以为显示设备。手表既可以为感知设备，同时还可以为显示设备。耳机既可以为音频设备，同时还可以为感知设备。

在一种可能的设计中，噪声控制包括降噪频段和等级，和/或，透传频段和等级。

在一种可能的设计中，音频输出效果还包括音频提示信息。

在另一种可能的设计中，场景感知信息包括图像信息、声音信息或运动状态信息中的一种或多种。

在另一种可能的设计中，音频设备用于根据第二信息指示的用户场景调节音频输出效果，包括：根据第二信息指示的用户场景，以及用户场景与音频输出效果信息的对应关系，调节音频输出效果。其中，对应关系预设在音频设备上或来自决策控制设备。

在另一种可能的设计中，音频***还包括显示设备。决策控制设备还用于，向显示设备发送第三信息，该第三信息用于指示用户场景。显示设备用于，接收到第三信息后，显示第三信息指示的用户场景和/或用户场景对应的音频输出效果信息。

在另一种可能的设计中，显示设备还用于：响应于用户针对显示设备的显示界面的第一预设操作，配置或修改用户场景与音频输出效果信息的对应关系；将配置或修改后的对应关系发送给决策控制设备。

在另一种可能的设计中，该显示设备还用于：响应于用户针对显示设备的显示界面的第二预设操作，设置用户场景与感知设备的对应关系；将设置的用户场景与感知设备的对应关系发送给决策控制设备。

在另一种可能的设计中，音频***包括第一电子设备，第一电子设备为感知设备或音频设备。第一电子设备用于：检测到用户的第三预设操作后进入目标模式；与具有通信连接的其他电子设备，协商音频***中的感知设备、决策控制设备、音频设备和显示设备，协商确定的感知设备、决策控制设备、音频设备和显示设备还用于，均进入目标模式。

在另一种可能的设计中，决策控制设备还用于，由音频***中的一个电子设备切换为另一个电子设备。

可以理解的是，关于音频***方面的有益效果可以参考上述音频控制方法方面的有益效果，此处不予赘述。

另一方面，本申请实施例提供了一种音频控制方法，应用于音频设备。该方法包括：音频设备接收第二信息，该第二信息用于指示用户场景。音频设备根据第二信息指示的用户场景调节音频输出效果。其中，音频输出效果包括噪声控制、均衡器EQ调节或音量调节中的一种或多种。

例如，该音频设备可以是耳机或具有音频输出功能的其他电子设备。在该方案中，音频设备可以根据当前用户场景从多个维度、多个方面精确地控制音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配，满足用户多样化的场景需求，减少用户手动调节操作。

在一种可能的设计中，噪声控制包括降噪频段和降噪等级，和/或，透传频段和透传等级。

其中，音频设备可以接收来自决策控制设备的第二信息。

在另一种可能的设计中，音频输出效果还包括音频提示信息。

在另一种可能的设计中，该方法还包括：音频设备获取场景感知信息，并基于场景感知信息获得场景感知结果。音频设备发送第四信息，该第四信息用于指示场景感知结果。

也就是说，音频设备同时也可以是感知设备，可以获取场景感知信息，并将场景感知信息对应的场景感知结果发送给其他设备来识别用户场景。

另一方面，本申请实施例提供了一种音频设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上。当计算机程序被一个或多个处理器执行时，使得音频设备执行：接收第二信息，该第二信息用于指示用户场景；根据第二信息指示的用户场景调节音频输出效果，音频输出效果包括噪声控制、均衡器EQ调节或音量调节中的一种或多种。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得音频设备执行：获取场景感知信息，并基于场景感知信息获得场景感知结果；发送第四信息，该第四信息用于指示场景感知结果。

可以理解的是，关于音频设备方面的有益效果，可以参考上述应用于音频设备的音频控制方法方面的有益效果，此处不予赘述。

另一方面，本申请实施例提供了一种音频控制方法，应用于决策控制设备。该方法包括：决策控制设备接收到来自多个感知设备的第一信息，该第一信息用户指示场景感知结果。决策控制设备根据第一信息指示的场景感知结果识别用户场景。决策控制设备向音频设备发送第二信息，该第二信息用于指示用户场景。

例如，决策控制设备可以是手机等具有较强计算能力的电子设备。在该方案中，决策控制设备可以基于多个感知设备的感知能力，结合多维场景感知结果准确识别精细划分的用户场景。决策控制设备还可以将识别到的用户场景通知给音频设备，以便音频设备根据用户场景从多个维度、多个方面精确地控制音频输出效果，从而使得音频输出效果能够与当前用户场景下的用户需求更好地匹配，满足用户多样化的场景需求，减少用户手动调节操作。

在一种可能的设计中，场景感知结果对应的场景感知信息包括图像信息、声音信息或运动状态信息中的一种或多种。

也就是说，决策控制设备可以获取图像信息、声音信息和运动状态信息等多个维度、多个角度丰富的用户场景感知信息对应的场景感知结果，从而更为准确地确定用户场景。

也就是说，决策控制设备可以获取更多维度和更多角度的丰富的用户场景感知信息对应的场景感知结果，从而更为准确地确定用户场景。

在另一种可能的设计中，该方法还包括：决策控制设备将用户场景与音频输出效果信息的对应关系，发送给音频设备。

这样，音频设备可以根据该对应关系以及当前用户场景来实时调节音频输出效果。

在另一种可能的设计中，该方法还包括：决策控制设备向显示设备发送第三信息，该第三信息用于指示用户场景。

这样，显示设备可以根据决策控制设备发送的用户场景来为用户呈现相关的信息。

在另一种可能的设计中，该方法还包括：决策控制设备接收来自显示设备的配置或修改后的用户场景与音频输出效果信息的对应关系。

这样，决策控制设备可以对用户通过显示设备配置或修改后的用户场景与音频输出效果信息的对应关系，进行保存或者发送给音频设备。

在另一种可能的设计中，该方法还包括：决策控制设备接收来自显示设备的用户场景与感知设备的对应关系。

这样，决策控制设备可以根据用户场景与感知设备的对应关系，确定根据哪些感知设备来识别相应的用户场景。

在另一种可能的设计中，该方法还包括：决策控制设备场景感知信息，并基于场景感知信息获得场景感知结果。决策控制设备根据第一信息指示的场景感知结果识别用户场景，包括：决策控制设备根据第一信息指示的场景感知结果以及自身获得的场景感知结果识别用户场景。

也就是说，决策控制设备同时还可以时感知设备，可以获取场景感知信息和场景感知结果，并结合其他感知设备的场景感知结果来识别用户场景。

另一方面，本申请实施例提供了一种决策控制设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得决策控制设备执行以下步骤：接收到来自多个感知设备的第一信息，该第一信息用户指示场景感知结果；根据第一信息指示的场景感知结果识别用户场景；向音频设备发送第二信息，该第二信息用于指示用户场景。

在另一种可能的设计中，场景感知结果对应的场景感知信息还包括以下一种或多种：位置信息、环境光信息、蜂窝通信信息、应用信息或心率信息。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得决策控制设备执行以下步骤：将用户场景与音频输出效果信息的对应关系，发送给音频设备。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得决策控制设备执行以下步骤：向显示设备发送第三信息，该第三信息用于指示用户场景。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得决策控制设备执行以下步骤：接收来自显示设备的配置或修改后的用户场景与音频输出效果信息的对应关系。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得决策控制设备执行以下步骤：接收来自显示设备的用户场景与感知设备的对应关系。

在另一种可能的设计中，当计算机程序被一个或多个处理器执行时，还使得决策控制设备执行以下步骤：获取场景感知信息，并基于场景感知信息获得场景感知结果；根据第一信息指示的场景感知结果识别用户场景，包括：根据第一信息指示的场景感知结果以及自身获得的场景感知结果识别用户场景。

可以理解的是，关于决策控制设备方面的有益效果，可以参考上述应用于决策控制设备的音频控制方法方面的有益效果，此处不予赘述。

另一方面，本申请实施例提供了一种图形用户界面(graphical user interface，GUI)，应用于电子设备，电子设备包括触摸屏、存储器、一个或多个处理器，一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序。该图形用户界面包括：显示在触摸屏上的第一GUI。第一GUI包括用户场景和/或用户场景对应的音频输出效果信息。音频输出效果信息包括降噪控制效果信息、均衡器EQ调节效果信息或音量大小信息中的一种或多种。

也就是说，电子设备可以在GUI上将用户场景和/或用户场景对应的音频输出效果信息呈现给用户，以方便用户获知当前音频输出效果。其中，噪声控制可以包括降噪频段和等级，和/或，透传频段和等级。

在一种可能的设计中，该图形用户界面还包括：显示在触摸屏上的第二GUI；响应于用户针对第二GUI的第四预设操作在触摸屏上显示的第三GUI，该第三GUI用于配置或修改用户场景与音频输出效果信息的对应关系。

其中，第二GUI与第一GUI可能相同或不同。这样，用户可以基于GUI配置或修改用户场景与音频输出效果信息的对应关系。

在另一种可能的设计中，该图形用户界面还包括：响应于用户针对第二GUI的第五预设操作在触摸屏上显示的第四GUI，该第四GUI用于设置用户场景与感知设备之间的对应关系。

这样，用户可以基于GUI设置用户场景与感知设备之间的对应关系。

另一方面，本申请实施例提供了一种音频处理装置，该装置包含在电子设备中。该装置具有实现上述任一方面及可能的设计中电子设备行为的功能，使得电子设备执行上述任一方面任一项可能的设计中电子设备执行的音频控制方法。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如，该装置可以包括显示单元、确定单元和处理单元等。其中，该电子设备可以是感知设备、决策控制设备、音频设备或显示设备。

又一方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；以及存储器，存储器中存储有代码。当代码被电子设备执行时，使得电子设备执行上述任一方面任一项可能的设计中的音频控制方法。其中，该电子设备可以是感知设备、决策控制设备、音频设备或显示设备。

另一方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当计算机指令在计算机或处理器上运行时，使得计算机或处理器执行上述任一方面或任一种可能的设计中的音频控制方法。

又一方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一方面或任一种可能的设计中的音频控制方法。

附图说明

图1为本申请实施例提供的一种音频***的架构示意图；

图2为本申请实施例提供的一种电子设备的结构示意图；

图3为本申请实施例提供的一种音频控制方法流程图；

图4A为本申请实施例提供的一种耳机及模式切换控件的示意图；

图4B为本申请实施例提供的一组界面示意图；

图4C为本申请实施例提供的一种界面示意图；

图4D为本申请实施例提供的另一种界面示意图；

图4E为本申请实施例提供的另一种界面示意图；

图5A为本申请实施例提供的另一组界面示意图；

图5B为本申请实施例提供的另一组界面示意图；

图6A为本申请实施例提供的另一种音频***架构图；

图6B为本申请实施例提供的另一种音频控制流程图；

图6C为本申请实施例提供的另一种音频控制流程图；

图7为本申请实施例提供的手机和耳机的一种内部***架构示意图；

图8A为本申请实施例提供的另一种音频***架构图；

图8B为本申请实施例提供的另一种音频控制流程图；

图8C为本申请实施例提供的另一种音频控制流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例涉及的音频***的架构可以参见图1。如图1所示，音频***10包括多个感知设备11，决策控制设备12，音频设备13，以及显示设备14等不同角色的电子设备(也可简称为角色设备)。其中，多个感知设备11，决策控制设备12，音频设备13，以及显示设备14之间可以采用无线方式进行通信，也可以采用有线方式进行通信。例如，该无线方式可以包括无线局域网(wireless local area networks，WLAN)(如Wi-Fi)通信，蓝牙(bluetooth，BT)通信，蜂窝移动通信，全球导航卫星***(global navigation satellitesystem，GNSS)通信，调频(frequency modulation，FM)通信，近场通信(near fieldcommunication，NFC)，Zigbee通信，红外(infrared，IR)通信，或通用2.4G/5G频段通信等方式。

在一些实施例中，音频***中的电子设备之间可以采用同种无线方式或同种有线方式进行通信，当然电子设备之间也可以采用不同的无线方式进行通信。在另一些实施例中，音频***中的一些电子设备之间可以采用无线方式进行通信，另一些电子设备之间可以采用有线方式进行通信。在又一些实施例中，音频***中的一些电子设备之间可以采用一种无线方式(例如蓝牙)进行通信，另一些电子设备之间可以采用另一种无线方式(例如Wi-Fi)进行通信。本申请实施例对音频***中电子设备之间采用的具体通信方式不予限定。

其中，图1所示的感知设备包括多个用于获取场景感知信息的传感器件，如加速度计、陀螺仪、磁力计、摄像头或心率计等。感知设备可以通过传感器件获取场景感知信息，对传感器件采集的场景感知信息进行处理从而获得场景感知结果并发送给决策控制设备。示例性的，感知设备可以是手机、智能手表(以下简称手表)、智能手环(以下简称手环)、耳机、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、平板电脑、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等设备，本申请实施例对电子设备的具体类型不作任何限制。

图1所示的决策控制设备可以为具有较强计算能力的电子设备，可以综合各感知设备发送的场景感知结果识别用户场景，并将用户场景发送给音频设备和音频设备，例如可以是手机或手表等设备。

图1所示的音频设备可以为具有出音功能的电子设备，可以根据决策控制设备发送的用户场景自适应调节音频输出效果，例如可以为无线耳机(比如蓝牙耳机)、有线耳机、具有出音功能的AR/VR等。

图1所示的显示设备为具有显示功能的电子设备，可以用于界面显示，例如可以是手机、手表或AR/VR等。

在本申请的实施例中，音频***中的感知设备可以分布在不同的位置，用于获取多个维度的场景感知信息。例如，场景感知信息可以包括以下信息的多种组合：图像信息(或称视觉信息)、声音信息(例如环境音信息)、位置信息、运动状态信息、环境光信息、蜂窝通信信息、应用信息或心率信息等。感知设备还可以用于对多维场景感知信息进行处理，从而获得多个维度的场景识别结果，并将多个维度的场景识别结果发送给决策控制设备。决策控制设备用于根据感知设备提供的场景感知信息识别用户场景，并将识别到的用户场景发送给音频设备。决策控制设备同时也可以是音频***中多设备协同的控制中心，可以管理所连接的感知端设备、音频设备和显示设备的状态。音频设备根据用户场景调节与用户场景相匹配的音频输出效果。其中，该音频输出效果包括音频效果和/或音频提示信息等。显示设备用于界面显示，以为用户实现功能开关、场景和音频输出效果展示，以及用户交互等功能。

在一些实施例中，感知设备、音频设备和显示设备可以为用户随身携带的设备，设备之间可以采用近距离通信方式(比如蓝牙或Wi-Fi等)进行通信，以使得感知设备可以实时感知当前的用户场景，从而便于音频设备可以根据用户场景实时调节音频输出效果，且显示设备可以实时显示用户场景和音频输出效果的相关信息。例如，感知设备、音频设备和显示设备可以是手机，耳机，或手表、手环、AR/VR等可穿戴设备。

在另一些实施例中，音频***中的决策控制设备也可以为用户随身携带的设备，决策控制设备也可以与音频***中的其他设备之间可以采用近距离通信方式进行通信。这样，决策控制设备可以在近距离情况下及时接收感知设备发送的场景感知结果，从而进行用户场景识别，并在近距离情况下及时将用户场景发送给音频设备和显示设备，以分别进行音频输出效果调节和相应的显示。

在本申请的实施例中，音频***中不同角色的电子设备可以分别为独立的物理设备。或者，音频***中的同一物理设备也可以具有一个或多个角色；例如，手机可以同时是音频***中的感知设备、决策控制设备和显示设备。

示例性的，图2示出了音频***中的电子设备100的一种结构示意图。如图2所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M，或心率计等。

可以理解的是，当电子设备100为音频***中不同的角色设备时，电子设备100均可以包括处理器110和内部存储器121等控制和存储部件。其中，处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(imagesignal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digitalsignal processor，DSP)，基带处理器，和/或神经网络处理器(neural-networkprocessing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

还可以理解的是，当电子设备100为音频***中不同的角色设备时，电子设备100具体可以包括不同的部件，比如可以包括图2所示部件中的部分或全部，还可以包括图2未示出的其他部件。

例如，当电子设备100为感知设备时，电子设备100包括传感器模块180、摄像头193或麦克风170C等传感器器件，用于获取场景感知信息。电子设备100还可以包括无线通信模块160或移动通信模块150等，用于将场景感知信息对应的场景感知结果发送给决策控制设备。

其中，对于传感器模块180，陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

举例来说，上述陀螺仪传感器180B和加速度传感器180E等部件可以用于获取场景感知信息中的用户运动状态信息，接近光传感器180G可以用于获取用户佩戴状态信息，环境光传感器180L可以用于获取环境光信息，麦克风170C可以用于获取声音信息，移动通信模块150可以用于获取蜂窝通信信息以及通过基站定位获取用户位置信息,无线通信模块160可以用于获取GNSS位置信息，摄像头193可以用于获取图像信息。其中，用于获取图像信息的摄像头193可以是拍照或录像时使用的摄像头器件，也可以是专门用于环境场景感知的感知传感器器件。在一些实施例中，用于获取场景感知信息中的图像信息的器件可以是低功耗常开器件，且获取的图像信息可能会涉及到用户隐私信息，因而可以存放到电子设备100的安全区中进行处理，以避免隐私泄露。

再例如，当电子设备100为决策控制设备时，电子设备100包括无线通信模块160或移动通信模块150等，用于从感知设备获取场景感知结果，并将识别获得的用户场景发送给音频设备或显示设备。电子设备100的处理器110可根据场景感知结果识别用户场景。

又例如，当电子设备100为音频设备时，电子设备100包括音频模块170，受话器170B，麦克风170C或耳机接口170D等。电子设备100的处理器110可以根据用户场景，指示音频模块170等部件调整音频输出效果。电子设备100还包括无线通信模块160或移动通信模块150等，用于从决策控制设备获取用户场景等信息。

再例如，当电子设备100为显示设备时，电子设备110包括显示屏194，以为用户实现功能开关、场景和音频输出效果展示，以及用户交互等功能。其中，显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。电子设备100还包括无线通信模块160或移动通信模块150等，用于从决策控制设备获取用户场景等信息。

在本申请的实施例中，音频***包括多个感知设备，该多个感知设备可以位于不同的位置，从而可以从多个维度、多个角度、多个方向和多个位置获取用户当前的场景感知信息，并获得相应的场景感知结果。决策控制设备基于多个感知设备的多维度感知能力，结合多维场景感知结果识别到的用户场景更为准确。

可以理解的，感知设备也可以为一个，例如感知设备可以为手机、手表或耳机。

其中，用户场景的划分可以较为精细，决策控制设备基于多个感知设备的多维度感知能力和多维感知信息，可以精确识别到精细划分的用户场景。例如，用户场景可以包括：乘坐飞机、乘坐汽车、乘坐高铁、乘坐地铁、乘坐轮船、户外散步、户外跑步、在跑步机上跑步、在图书馆、在咖啡厅、在商场或在办公室等。

与基于单个维度的场景感知信息识别用户场景相比，本申请实施例中基于多个维度的场景感知信息能够更加准确和稳定地识别用户场景，从而避免用户场景的识别结果随着单个维度的场景感知信息(例如场景感知信息仅包括声音信息，或者仅包括运动状态信息)的实时变化而频繁变化，从而导致的音频效果频繁切换及用户音频体验差的问题。

此外，由于音频***包括多个感知设备，当其中的部分感知设备出现问题无法正常获取场景感知信息时，其他感知设备也可以正常获取到场景感知信息，决策控制设备仍能够根据场景感知信息对应的场景感知结果识别到用户场景，因为用户场景识别的稳定性较好。

另外，基于多个感知设备的多维度感知能力获取的多维感知信息，可以从多个层面反映当前用户场景下用户各个方面的信息。基于此，本申请实施例提供的音频控制方法可以从多个维度、多个方面控制音频设备的音频输出效果，使得音频输出效果能够与当前用户场景下的用户音频需求更好地匹配。

例如，音频输出效果可以包括音频效果和/或音频提示信息等。音频效果可以包括噪声控制、均衡器EQ调节(也可以称为频响曲线调节)和音量调节等多个维度。其中，噪声控制还可以包括降噪频段和等级，以及透传频段和等级等。例如，本申请实施例提供的音频控制方法可以从更为细粒度的频段的角度进行降噪和透传等处理，而不只可以从整个频段进行降噪和透传，从而可以使得音频输出效果能够与当前用户场景下的用户音频需求更好地匹配。

以下从音频***中各角色设备的角度，来阐述本申请实施例提供的音频控制方法。例如，参见图3，本申请实施例提供的一种音频控制方法包括：

301、第一电子设备检测到用户的预设操作后，开启智能音频模式。

其中，第一电子设备为音频***中的一个角色设备。例如，第一电子设备为音频***中具有音频输出能力的音频设备。第一电子设备可以包括多种音频模式，比如包括智能音频模式，以及降噪模式、透传模式或关闭模式等。第一电子设备检测到用户选择智能音频模式的操作后，可以开启智能音频模式，从而根据智能音频模式下识别到的用户场景自适应调节音频输出效果。

示例性的，第一电子设备为如图4A所示的耳机，耳机上设置有模式切换控件400，耳机检测到用户点击模式切换控件400的操作后切换音频模式，直至切换至智能音频模式。再示例性的，第一电子设备可以响应于用户的语音指令操作，开启智能音频模式。

可以理解的是，智能音频模式也可以有其他的名称，比如音频自适应模式、场景自适应模式或智慧音频模式等，本申请实施例对具体的模式名称不予限定。在智能音频模式下，音频***可以根据多维场景感知信息识别用户场景，从而根据用户场景自适应调节音频设备的音频输出效果。

再例如，第一电子设备为音频***中具有显示能力的显示设备，例如第一电子设备可以为手机。示例性的，参见图4B中的(a)，第一电子设备检测到用户点击界面上目标应用(application，APP)的图标的操作后，显示如图4B中的(b)或(c)所示的目标APP的界面。第一电子设备检测到用户在目标APP的界面上打开智能音频模式的操作后开启智能音频模式。示例性的，参见图4B中的(b)，目标APP的界面上包括智能音频模式控件401、降噪模式控件402、透传模式控件403和关闭控件404等音频模式。第一电子设备检测到用户点击智能音频模式控件401的操作后，开启智能音频模式，或者用户可以打开智能音频模式控件401对应的开关，开启智能音频模式。再示例性的，参见图4B中的(c)，目标APP的界面上包括场景自适应控件和/或默认控件，第一电子设备检测到用户点击场景自适应控件的操作后，开启智能音频模式；或者用户也可以打开场景自适应控件和/或默认控件对应的开关，开启智能音频模式。

再示例性的，参见图4C，第一电子设备的下拉/上拉快捷菜单、桌面或负一屏上，显示有智能音频模式的快捷控件，第一电子设备检测到用户点击该快捷控件的操作后开启智能音频模式。

再示例性的，参见图4D，第一电子设备响应于用户在***设置界面上的选择操作开启智能音频模式。

再示例性的，参见图4E，第一电子设备检测到与具有音频输出能力的音频设备建立通信连接后，可以自动显示弹窗以提示用户是否进入智能音频模式，并响应于用户的指示操作开启智能音频模式。

可以理解的是，第一电子设备响应于用户的预设操作开启智能音频模式的方式还可以有多种，本申请实施例对该方式不予具体限定。

302、第一电子设备在开启智能音频模式后，与具有通信连接的其他多个电子设备协商各自在音频***中的角色，音频***中的其他角色设备也开启智能音频模式。

在本申请的实施例中，包括第一电子设备在内的多个电子设备可以通过相同或不同的通信方式相互之间建立通信连接，该通信方式可以为有线方式或无线方式。其中，互连(即相互建立通信连接)的多个电子设备之间可以直接相连(即直接建立通信连接)；比如，A、B、C中的两两设备之间互连，称为A、B、C互连。或者，互连的多个电子设备之间也可以间接相连；比如，A与B相连且B与C相连的情况，也可以称为A、B、C互连。

第一电子设备检测到用户开启智能音频模式的操作后，可以通过所具有的通信连接通知互连的其他电子设备协商音频***中的角色设备。其中，支持本申请实施例提供的音频控制方法的电子设备上，预置有相应的软件和通信接口，可以将本设备自身所支持的感知能力、决策控制能力、显示能力或音频输出能力通知给互连的其他电子设备。互连的多个电子设备之间根据各个电子设备所支持的能力，协商确定音频***中的决策控制设备、感知设备、显示设备和音频输出设备等各个角色设备。

音频***中角色设备的协商方式可以有多种。例如，具有通信连接的各电子设备可以将在音频***中的自身支持的能力发送给目标电子设备，由目标电子设备来决策各角色设备。

在一些实施例中，该目标电子设备为具有决策控制能力的电子设备。第一电子设备检测到用户开启智能音频模式的操作后，可以通过所具有的通信连接通知互连的其他电子设备协商音频***中的角色设备。具有决策控制能力的电子设备接收到第一电子设备的通知信息后，可以将自己的决策控制能力通知给其他电子设备，其他电子设备将各自支持的能力发送给具有决策控制能力的电子设备，由具有决策控制能力的电子设备来确定音频***中的各角色设备。

在另一些实施例中，该目标电子设备为第一电子设备。第一电子设备检测到用户开启智能音频模式的操作后，可以通过所具有的通信连接通知互连的其他电子设备协商音频***中的角色设备。其他电子设备将各自支持的能力发送给第一电子设备，由第一电子设备来确定音频***中的各角色设备。

在协商过程中，当有多个电子设备具备较强的计算能力，例如多个电子设备具有决策控制能力的情况下，目标电子设备可以从中确定一个决策控制设备，例如确定决策优先级最高的电子设备为决策控制设备。举例来说，互连的电子设备包括手机和手表，手机和手表均具有决策控制能力，手机的决策优先级高于手表，因而目标电子设备可以确定手机为决策控制设备。

在协商过程中，当有多个电子设备具有音频输出能力时，默认类型的电子设备可以作为音频输出设备，或者音频输出优先级高的电子设备可以作为音频输出设备。举例来说，互连的电子设备包括手机和耳机，手机和耳机均具有音频输出功能，耳机的音频输出优先级高于手机，因而目标电子设备可以确定耳机为音频输出设备。

在一些实施例中，当互连的多个电子设备包括多副耳机时，与决策控制设备相连的耳机优先级较高。当与决策控制设备相连的耳机包括多副时，在一种实现方式中，多副耳机均为音频输出设备；在另一种实现方式中，用户正在佩戴的耳机为音频输出设备；在另一种实现方式中，任意选择一副耳机作为音频输出设备；在另一种实现方式中，用户指定某副耳机作为音频输出设备。

在协商过程中，当互连的多个电子设备包括多个电子设备具有显示能力时，其中一个具有显示能力的电子设备作为显示设备；或者，多个具有显示能力的电子设备均可以作为显示设备；或者，其中一个具有显示能力的电子设备作为主的显示设备，其他具有显示能力的电子设备作为辅助的显示设备。

需要说明的是，在本申请的实施例中，互连的多个电子设备中，具有感知能力的电子设备均可以作为感知设备。音频***中的感知设备可以包括多个，从而可以从多个不同位置、不同角度和不同方向，获取多个维度的丰富的场景感知信息。

可以理解的是，上述互连的多个电子设备之间可以直接相连或间接相连，也就是说音频***中各角色设备之间直接相连或间接相连。例如，决策控制设备、感知设备、显示设备和音频输出设备之间两两相连。再例如，感知设备、显示设备和音频输出设备，分别与决策控制设备相连。再例如，感知设备和显示设备分别与决策控制设备相连，音频设备与决策控制设备之间不具有通信连接，音频设备与其中的某个感知设备相连。

在本申请的实施例中，音频***中的多种角色设备也可以位于同一电子设备上，即同一电子设备也可以包括多种角色设备。例如，感知设备与音频输出设备可以位于同一电子设备(比如耳机)上。再例如，显示设备可以与决策控制设备和感知设备在同一电子设备(比如手机)上。同一电子设备上不同角色设备之间的通信连接为电子设备内部的数据通道，不同角色设备之间通过电子设备内部的数据通道进行数据传输。

以上是以互连的多个电子设备之间自动协商各自在音频***中的角色设备为例进行说明的。在本申请的其他一些实施例中，具有显示功能的电子设备可以将互连的多个电子设备显示给用户，由用户来分别指示音频***中的感知设备、决策控制设备、显示设备和音频设备等角色设备。

在本申请的实施例中，在音频***中的角色设备确定后，第一电子设备在开启智能音频模式后，可以直接通知音频***中的其他角色设备开启智能音频模式；或者通过决策控制设备通知音频***中的其他角色设备开启智能音频模式。相应地，音频***中的其他角色设备接收到通知信息后开启智能音频模式。

在一些实施例中，当音频***中的角色设备为可穿戴设备时，可穿戴设备在检测到被用户佩戴后才开启智能音频模式。而可穿戴设备在未被用户佩戴时，可能并不能准确反映用户的状态，因而可以不开启智能音频模式，从而不进行感知、决策、显示或音频输出等处理，以节省可穿戴设备的功耗。

303、感知设备开启智能音频模式后获取场景感知信息，并基于场景感知信息获得场景感知结果。

多个感知设备开启智能音频模式后可以开启感知功能，以从多个位置、多个角度、多个方向，获取多个维度的更为丰富的场景感知信息。其中，该多个感知设备可以为位于用户附近的电子设备，通常为用户随身携带的电子设备，以便更为准确地获取当前用户场景下实时的场景感知信息。

其中，场景感知信息为感知设备的传感器件获取到的原始数据。该原始数据的数据量通常较大，因而感知设备可以不将场景感知信息直接发送给决策控制中心，而是对场景感知信息进行处理获得场景感知结果后，再将数据量较小的场景感知结果发送给决策控制设备来识别用户场景。该种方案可以减少感知设备与决策控制设备之间的数据传输量，也可以减轻决策控制设备的处理负担，使得决策控制设备能够直接根据场景感知结果识别用户场景。

如前所述，场景感知信息可以包括以下信息的多种组合：图像信息、声音信息、运动状态信息、位置信息、环境光信息、蜂窝通信信息、应用信息或心率信息等。

其中，图像信息可以包括采集到的图像数据。图像信息对应的场景感知结果可以包括图像的主体类型或图像内容等信息。场景感知结果可以用于表征用户的面部表情、手势或所处环境等。

声音信息可以包括采集到的声音数据。声音信息对应的场景感知结果可以包括声音的类型、声音的发源体或声音的大小等。

位置信息可以包括基于GPS定位或基站定位的位置数据。位置信息对应的场景感知结果可以包括位置对应的地点类型(例如学校、景点、住宅区)，或位置变化速度等。

运动状态信息可以包括加速度、速度、角速度或振动频率等数据。运动状态信息对应的场景感知结果可以包括静止、走路、跑步或乘车等。

环境光信息可以包括环境光的亮度值等信息。环境光信息对应的场景感知结果可以包括环境光亮、环境光暗或被物体遮挡等。

蜂窝通信信息可以包括接入的基站是否变化，接入基站变化的速度，与基站间信号强度的变化等信息。蜂窝通信信息对应的场景感知结果可以包括移动速度快/慢、乘坐公交车、汽车、火车或飞机移动等。

应用信息可以包括通过上层应用APP接口获取的用户数据，以及本地解析的短信/彩信内容等。类似于情景智能信息，应用信息对应的场景感知结果可以包括用户的待办事项，已办事项，计划事件，日程安排，或待取包裹等。例如，应用信息对应的场景感知结果可以为，用户预定了机票，用户设置了闹钟提醒，用户设置了日程安排等。

心率信息可以包括心率值、心跳强/弱等信息。心率信息对应的场景感知结果可以包括心情激动、沉闷，是否进行激烈运动等。

其中，感知设备可以基于机器学习的方式，对上述图像、声音、运动状态等场景感知信息进行处理，从而获得对应的场景感知结果。例如，感知设备上预设有神经网络模型，可以对输入的图像信息或声音信息进行识别，从而得到图像的主体类型或声音的类型等。

在其他一些实施例中，感知设备并不对场景感知信息进行处理以获得场景感知结果，而直接将场景感知信息发送给决策控制设备，由决策控制设备基于多维场景感知信息处理获得场景感知结果，从而基于多维场景感知结果识别用户场景。该方案可以减小计算能力较差的感知设备的处理负担，从而通过计算能力较强的决策控制设备来处理获得场景感知结果。

304、感知设备向决策控制设备发送第一信息，该第一信息用于指示场景感知结果。

音频***中的多个感知设备可以分别基于与决策控制设备之间的通信连接，通过第一信息将根据场景感知信息处理获得的场景感知结果发送给决策控制设备。

305、决策控制设备根据来自多个感知设备的第一信息指示的多维场景感知结果识别用户场景。

决策控制设备接收到多个感知设备分别发送的多维场景感知结果后，结合多维场景感知结果识别用户场景。其中，决策控制设备可以执行用来识别不同用户场景的预设算法，例如，算法包含预设规则的决策树和基于概率统计的各种AI模型(例如神经网络模型)。

在一些实施例中，不同类型的场景感知结果具有不同的识别优先级。例如，决策控制设备可以通过决策树来判断当前用户场景，识别优先级高的场景感知结果位于决策树的顶部，识别优先级低的场景感知结果位于决策树的底部。比如，声音对应的场景感知结果的优先级高于图像对应的场景感知结果，图像感知结果的优先级高于应用信息。决策控制设备优先根据声音和图像对应的场景感知结果来识别用户场景。

举例来说，对于乘坐飞机的用户场景的识别来说，一种基于决策树的场景识别算法可以为：若感知设备发送的场景感知结果包括识别到飞机引擎的轰鸣声，则决策控制设备确定场景感知结果是否进一步包括识别到当前环境包括飞机或在机舱内。若这些感知识别结果的置信度大于或者等于预设值，则决策控制中心进一步获取应用信息(比如短信或订票APP)的场景感知结果(比如用户预订了机票)，以再次确认符合飞机场景后，确定识别到乘坐飞机的场景。

若决策控制设备采用的是AI统计模型的算法，则各感知设备的输出的场景感知结果作为模型的输入，决策控制设备根据模型之前的训练经验得出当前场景结果为乘坐飞机的场景。

在本申请的实施例中，多个感知设备分别位于不同的位置，可以从多个维度、多个角度、多个方向和多个位置获取用户当前的场景感知信息。决策控制设备基于多个感知设备的多维度感知能力，结合多维场景感知结果识别到的用户场景更为准确。用户场景的划分可以较为精细，决策控制设备基于多个感知设备的多维度感知能力和多维感知信息，可以精确识别到精细划分的用户场景。例如，用户场景可以包括：乘坐飞机、乘坐汽车、乘坐高铁、乘坐地铁、乘坐轮船、街边行走、户外散步、户外跑步、在跑步机上跑步、在图书馆、在咖啡厅、在商场或在办公室等。

由于音频***包括多个感知设备，当其中的部分感知设备出现问题无法正常获取场景感知信息时，其他感知设备也可以正常获取到场景感知信息，决策控制设备仍能够根据场景感知信息对应的场景感知结果识别到用户场景，因而用户场景识别的稳定性较好。

306、决策控制设备向音频设备发送第二信息，该第二信息用于指示用户场景。

决策控制设备识别到当前用户场景后，可以通过第二信息将当前用户场景通知给音频设备，以便音频设备根据用户场景来调节音频输出效果。

307、音频设备接收到第二信息后，根据第二信息指示的用户场景调节音频输出效果。

在一些实施例中，音频设备中预先配置有多个用户场景与音频输出效果信息的对应关系。决策控制设备将用户场景通知给音频设备后，音频设备可以根据预先配置的该用户场景匹配的音频输出效果信息，来自适应调节音频输出效果。

在另一些实施例中，音频设备中未预先配置有多个用户场景与音频输出效果信息的对应关系。决策控制设备中预先配置有多个用户场景与音频输出效果信息的对应关系，或者决策控制设备可以从云服务器等设备获取与多个用户场景与音频输出效果信息的对应关系。决策控制设备识别到某个用户场景后，将该用户场景以及该用户场景匹配的音频输出效果信息发送给音频设备。音频设备保存与该用户场景匹配的音频输出效果信息的对应关系。决策控制设备再次识别到该用户场景后，仅可以将该用户场景通知给音频设备。音频设备根据之前保存的与该用户场景匹配的音频输出效果信息，来自适应调节音频输出效果。

在本申请的实施例中，基于多个感知设备的多维度感知能力获取的多维感知信息，可以从多个层面反映当前用户场景下用户各个方面的信息。因此，音频设备可以从多个维度、多个方面精确地控制音频设备的音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。例如，音频输出效果可以包括音频效果和/或音频提示信息等。音频效果可以包括噪声控制、EQ调节和音量调节等多个维度。

其中，噪声控制还可以包括降噪频段和等级，以及透传频段和等级等。这样，本申请实施例提供的音频控制方法可以从更为细粒度的频段的角度进行降噪和透传等处理，而不只可以从整个频段进行降噪和透传，从而可以使得音频输出效果能够与当前用户场景下的用户音频需求更好地匹配。

在一种实现方式中，用户还可以根据个人需求或喜好，通过显示设备的界面修改用户场景与音频输出效果信息的对应关系。显示设备可以将修改后的用户场景与音频输出效果信息的对应关系发送给决策控制设备。决策控制设备在识别到当前用户场景为音频输出效果发生修改的用户场景后，可以将修改后的用户场景与音频输出效果信息的对应关系发送给音频设备。

308、决策控制设备向显示设备发送第三信息，该第三信息用于指示用户场景。

决策控制设备根据多个感知设备发送的场景感知结果确定当前用户场景后，通过第三信息将当前用户场景通知给显示设备，以便显示设备显示用户场景的相关信息。

309、显示设备显示用户场景和/或用户场景对应的音频输出效果信息。

在一些实施例中，显示设备在界面上将用户场景呈现给用户。在另一些实施中，显示设备可以显示用户场景对应的音效模式。在其他一些实施例中，显示设备可以在界面上显示用户场景及对应的音频输出效果的详细信息，例如降噪控制效果信息、EQ调节效果信息或音量大小信息等。显示设备显示的音频输出效果的详细信息，可以来自于音频设备或决策控制设备。

示例性的，参见图5A中的(a)，显示设备在智能音频模式下的显示界面包括场景展示部分501和音频效果部分502。其中，场景展示部分用于展示当前用户场景和当前用户场景对应的音效模式。音频效果部分用于展示当前用户场景对应的音频输出效果的具体内容。如图5A中的(a)所示，场景展示部分表明当前为乘坐飞机的用户场景，音效模式为飞机音效模式。如图5A中的(a)所示，音频效果部分表明当前音频输出效果包括：降低飞机轰鸣声所在频段的噪声，降噪等级为高；透传人声，增大音量，舒适风格。

在一些实施例中，该方法还可以包括：

310、决策控制设备发生切换。

当音频***中具备决策控制设备所需的计算能力(或称决策控制能力)的电子设备包括多个时，决策控制设备可以按照一定的规则在这些电子设备之间进行切换。例如，多个具备决策控制能力的电子设备可以根据自身的计算能力和/或当前电量等信息进行打分，当前分数最高的电子设备即为当前的决策控制设备。在前一决策控制设备失效时(例如前一决策控制设备断开通信连接，关机，电量低于预设值，或停止被用户佩戴等)，可以按照同样的机制选举出分数最高的电子设备作为新的决策控制设备，从而保证整个音频***长时间稳定运行。

以上实施例是以决策控制设备或音频设备中，预先配置有多个用户场景与音频输出效果信息的对应关系为例进行说明的。在其他一些实施例中，多个用户场景与音频输出效果信息的对应关系是用户通过显示设备的界面预先设置的。显示设备可以将用户设置的用户场景与音频输出效果信息的对应关系发送给决策控制设备。决策控制设备将用户场景与音频输出效果信息的对应关系通知给音频设备。显示设备在与音频设备具有通信连接的情况下，也可以直接将用户设置的用户场景与音频输出效果信息的对应关系通知给音频设备。

在其他一些实施例中，用户还可以修改用户场景与音频输出效果信息的对应关系，并将修改后的对应关系发送给决策控制设备。

也就是说，该方法还可以包括：

311、显示设备响应于用户针对界面的操作，配置或修改用户场景与音频输出效果信息的对应关系。

312、显示设备将配置或修改后的对应关系发送给决策控制设备。

此处对用户预先配置或修改用户场景与音频输出效果信息的对应关系的过程进行举例说明。示例性的，如图5A中的(a)所示，在智能音频模式下，显示设备的显示界面还包括自定义入口503。显示设备检测到用户点击自定义入口503的操作后，显示如图5A中的(b)所示的自定义界面。自定义界面上包括音效自定义部分，用户可以选择要设置的用户场景。如图5A中的(c)所示，用户可以设置与选择的用户场景相匹配的音频输出效果信息，包括降噪控制设置、音量大小设置或EQ调节，和/或音频提示信息设置等。其中，对于降噪控制设置，用户还可以选择降噪模式和/或透传模式；在降噪模式中，用户可以设置降噪频段和/或等级；在透传模式中，用户可以设置透传的频段和/或等级等。降噪频段可以是指进行噪声消减的频率范围，降噪等级可以是指噪声消减的档位和程度；透传频段可以是指进行声音透传的频率范围，透传等级可以是指声音透传的档位和程度。

比如，如图5A中的(d)所示，在用户选择的用户场景为乘坐汽车以及降噪控制设置后，用户选择降噪模式，设置降噪频段为低频，设置降噪等级为高。决策控制设备可以将用户配置的各用户场景与音频输出效果信息的对应关***一发送给音频设备，也可以在识别到某个用户场景后，将用户配置的该用户场景与音频输出效果信息的对应关系发送给音频设备。

在本申请的一些实施例中，为便于用户配置或修改用户场景对应的音频输出效果，显示设备显示的音效自定义部分可以为噪声控制设置、音量大小设置或EQ调节对应的便于用户理解的设置内容。比如，噪声控制设置包含对降噪、透传的频段、和/或深度的设置：对于降噪频段的设置，显示设备显示的以供用户选择的降噪频段可以包括“人声频段”或“汽车声频段”等。降噪深度则是调节对外界噪声的抑制程度，显示设备显示的以供用户选择的降噪深度可以包括“轻度降噪”“普通降噪”和/或“深度降噪”等。对于透传频段的设置，显示设备显示的以供用户选择的透传频段可以包括“人声频段”、“汽车声频段”和/或“广播提示声频段”等，以便于用户选择透传所关注的某类声音。对透传深度的设置，调节对外界噪声的透传程度，显示设备显示的以供用户选择的透传深度可以包括“弱于外界声音”“等同外界声音”和/或“强于外界声音”等。示例性的，参见图5A中的(e)，在乘坐汽车的用户场景下，用户可以选择透传模式，设置透传频段为“人声”，并设置透传深度为“等同于外界声音”。对于EQ调节，显示设备显示的以供用户选择的音频风格可以包括“舒适”、“舒缓”、“低沉”、“高亢”、“流行”、“摇滚”、“经典”或“休闲”等。

在其他一些实施例中，用户可以预先配置或修改用户场景与感知设备的对应关系。示例性的，如图5A中的(c)所示，自定义界面上还可以包括感知设备自定义入口504。在感知设备自定义界面上，用户可以设置用户场景与感知设备(或感知设备类型)的对应关系。例如，参见图5A中的(f)，在乘坐汽车场景下，用户可以设置感知设备包括手机和/或耳机。在一些技术方案中，由于不同时间段内用户随身携带的电子设备不同，因而用户还可以设置时间段与不同感知设备的对应关系，以在不同时间段内采用相应的感知设备来获取场景感知信息。

也就是说，用户可以预先配置或随时修改用户场景与音频输出效果信息的对应关系，以及用户场景与感知设备的对应关系，以满足用户的个性化需求或喜好。显示设备还可以将用户设置的用户场景与感知设备的对应关系发送给决策控制设备，以便决策控制设备根据相应的感知设备的场景感知结果确定用户场景。

可以理解的是，图5A中的(a)所示的用户场景和音频输出效果的展示界面，以及图5中的(b)-(f)所示的用户自定义界面仅是举例说明，还可以有其他多种界面展示方式，本申请实施例对此不予限制。例如，用户自定义界面还可以为图5B中的(a)-(c)。

在上述步骤301-312描述的方案中，音频***中的多个感知设备可以从多个维度、多个角度获取丰富的用户场景感知信息，并获得相应的场景感知结果。决策控制设备可以基于多个感知设备的多维度感知能力，结合多维场景感知结果准确识别精细划分的用户场景。音频设备可以根据决策控制设备识别到的用户场景，从多个维度、多个方面精确地控制音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。

也就是说，基于多维度、分布式的感知技术，音频***能够识别出更加精细化的用户场景，识别准确率和稳定性更高，识别功能可靠性更高。音频***能够基于精细化场景自适应调节噪声控制效果，也可以针对精细化用户场景设置或修改音频输出效果。

以下以各角色设备为某种具体类型的电子设备为例，对本申请实施例提供的音频控制方法进行举例说明。

在一个示例中，参见图6A，音频***包括手机和耳机，例如手机和耳机均为感知设备，手机还是决策控制设备和显示设备，耳机还是音频设备，手机和耳机之间具有蓝牙连接。参见图6B，该示例中的音频控制方法可以包括：

600、手机检测到用户的预设操作后，开启智能音频模式。

其中，手机可以响应于用户的语音指令操作开启智能音频模式。或者，手机还可以响应于用户在手机界面上的选择操作开启智能音频模式。手机开启智能音频模式的方式，可以参见上述步骤301中第一电子设备为显示设备的情况下开启智能音频模式的方法，此处不予赘述。

601、手机开启智能音频模式后，与耳机协商确定手机为决策控制设备、感知设备和显示设备，耳机为感知设备和音频设备。

手机与耳机协商音频***中各角色设备的过程可以参见上述步骤302中关于协商过程的描述。其中，手机具备决策控制能力、感知能力和显示能力，因而手机为决策控制设备、感知设备和显示设备。耳机具备感知能力和音频输出能力，因而耳机为感知设备和音频设备。

602、手机通知耳机开启智能音频模式。

手机开启智能音频模式后，通知音频***中的其他角色设备(即耳机)也开启智能音频模式。

603、耳机接收到手机的通知信息后，开启智能音频模式。

音频***中的耳机接收到手机的通知信息后，也相应开启智能音频模式。在一些实施例中，耳机侧接收到手机的通知后，可以开启智能音频模式。在另一些实施例中，由于耳机在未被用户佩戴时获取的场景感知信息可能并不能准确反映用户的状态，因而耳机侧可以在接收到手机的通知信息并确定自身处于佩戴状态后才开启智能音频模式，以节省耳机的功耗。

需要说明的是，上述步骤601可以在步骤602-603之前或之后，本申请实施例不予限定。例如，手机开启智能音频模式后，可以先与耳机协商各自在音频***中的角色，然后再通知耳机开启智能音频模式；也可以先通知耳机开启智能模式，然后再与耳机协商各自在音频***中的角色。

在上述步骤中，手机侧开启智能音频模式后，手机和耳机才协商各自在音频***中的角色设备。在其他一些实施例中，手机和耳机建立通信连接后可协商各自在音频***中的角色设备，而不需要先开启智能音频模式。

604、手机开启智能音频模式后获取场景感知信息，并获得场景感知结果。

在一些实施例中，手机开启智能音频模式后可以开启场景感知，通过传感器件获取场景感知信息。在另一些实施例中，手机开启智能音频模式且接收到耳机发送的处于佩戴状态的通知后，才开启场景感知从而获取场景感知信息。

例如，手机作为感知设备，可获取的当前用户场景下的场景感知信息包括以下一种或多种：图像信息、声音信息、位置信息、运动状态信息、环境光信息、蜂窝通信信息或应用信息等。手机对获取的场景感知信息进行处理后，获得相应的场景感知结果。

举例来说，场景感知信息为图像信息，场景感知结果为用户附近出现飞机；场景感知信息为位置信息，场景感知结果为机场。

605、耳机开启智能音频模式后获取场景感知信息，获得场景感知信息对应的场景感知结果，并向手机发送信息1，该信息1用于指示场景感知结果。

耳机作为感知设备，可以获取场景感知信息，并通过信息1将获得的场景感知结果发送给手机。例如，耳机可以通过麦克风获取当前用户场景下的场景感知信息，比如环境音信息，并获得声音信息对应的场景感知结果。

这样，手机和耳机作为音频***中的多个感知设备，从多个维度、多个角度、多个方向和多个位置获取用户当前多个层面的场景感知信息，并获得相应的场景感知结果。

606、手机根据自身获得的场景感知结果以及耳机发送的场景感知结果识别用户场景。

手机作为决策设备，可以基于自身和耳机等多个感知设备的多维度感知能力，结合多维场景感知结果准确识别到精细划分的用户场景。

其中，由于音频***包括多个感知设备，当其中的部分感知设备出现问题无法正常获取场景感知信息时，其他感知设备也可以正常获取到场景感知信息。例如，基于耳机侧声音识别，可以弥补手机音频感知受阻的情况(如口袋模式、麦克风堵住或应用冲突等情况)，提高感知功能的可用性。这样，手机作为决策控制设备，仍能够根据正常的感知设备获取场景感知结果从而识别用户场景，因而用户场景识别的稳定性较好。

607、手机向耳机发送信息2，该信息2用于指示用户场景。

手机作为决策设备，可以通过信息2将识别到的用户场景发送给音频设备。

608、耳机根据用户场景调节音频输出效果。

耳机作为音频设备，可以根据手机发送的当前识别到的用户场景，以及用户场景与音频输出效果信息的对应关系，自适应调节音频输出效果，使得音频输出效果与当前用户场景相匹配。其中，用户场景与音频输出效果信息的对应关系预先存储于耳机中，或者手机本次识别到用户场景后由手机发送给耳机。

在本申请的实施例中，基于手机和耳机多个感知设备的多维度感知能力获取的多维感知信息，可以从多个层面反映当前用户场景下用户各个方面的信息。因此，耳机可以从多个维度、多个方面精确地控制音频设备的音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。例如，音频输出效果可以包括音频效果和/或音频提示信息等。音频效果可以包括噪声控制、EQ调节和音量调节等多个维度。

其中，噪声控制可以调节音频输出的噪声情况。噪声控制可以包括降噪频段和等级，以及透传频段和等级等。其中，降噪频段和等级，用于调节进行降噪处理的声音频段(比如高频、中频、低频、中高频、中低频或全频段等)和降噪的程度(例如高、中或低等)。透传频段和等级，用于调节需要透传的声音频段和透传的程度(例如100％或80％等)。这样，耳机可以从更为细粒度的频段的角度进行降噪和透传等处理，而不只可以从整个频段进行降噪和透传，从而可以使得音频输出效果能够与当前用户场景下的用户音频需求更好地匹配。

EQ调节也称频响曲线控制，可以用于调节音频各种频率成分(例如低音、中低音、中音、中高音、高音或极高音等)电信号的大小，从而可以调节音色或声场等，实现不同的音频风格(比如“舒适”、“低沉”、“高亢”、“流行”、“摇滚”、“经典”或“休闲”等)。

举例来说，手机和耳机识别到的场景感知信息包括：用户行程信息等应用信息、位置信息、图像信息、声音信息或加速度等。手机获取到用户的行程相关信息，手机通过位置信息判断用户来到机场附近，手机通过图片信息识别用户进入机舱，手机和耳机通过环境声音信息识别到起飞过程，手机通过运动状态信息(比如加速度)识别到起飞过程，手机综合上述信息识别到用户处于乘坐飞机场景。耳机可根据乘坐飞机场景调整音频输出效果，比如降低飞机引擎的轰鸣声所在频段的噪声，且降噪等级为高，以满足用户飞行过程降噪需求；透传人声以满足谈话交流需求；适当增大音量并调节音频风格为舒适风格，以使飞行过程听感更舒适。

再比如，用户场景为街边行走，耳机可根据街边行走的用户场景，将噪声控制调节为透传汽车引擎声、鸣笛声等，从而保障出行安全。

在本申请的一些实施例中，音频输出效果还可以包括音频提示信息。例如，音频设备可以将用户场景通过语音提示给用户。再例如，音频设备可以将用户场景对应的音频效果通过语音提示给用户。

又例如，在用户场景与音频输出效果信息的对应关系中，音频输出效果信息还包括音频提示信息，音频设备可以将用户场景对应的音频提示信息通过语音提示给用户。示例性的，乘坐飞机的用户场景对应的音频提示信息为：请将联网设备关机或进入飞行模式。

在本申请的其他一些实施例中，音频提示信息与用户场景以及用户状态、环境信息或时间等用户相关信息相对应，音频设备可以将音频提示信息通过语音提示给用户。也就是说，耳机可基于用户场景以及用户状态、环境信息或时间等用户相关信息，通过调整音频播放内容来给用户以相关提示。示例性的，在户外散步的用户场景下，若检测到汽车的噪声，则音频设备可以通过语音提示用户：请注意汽车。再示例性的，在户外跑步的用户场景下，若用户跑步速度过快，则音频设备可以通过语音提示用户：您的速度过快，请注意；若用户心率过快，则音频设备可以通过语音提示用户：您的心率过快，请注意休息。再示例性的，在乘坐地铁的用户场景下，若用户正在移动，则音频设备可以通过语音提示用户：地铁正在运行中，请注意安全。

609、手机显示用户场景和音频输出效果信息。

手机作为显示设备，可以通过界面展示识别到的用户场景以及对应的音频输出效果信息。示例性的，乘坐飞机的用户场景和音频输出效果信息的展示效果示意图可以参见图5A中的(a)。

在一些实施例中，该方法还可以包括：

610、手机响应于用户在界面上的设置操作，配置或修改用户场景与音频输出效果信息的对应关系。

基于该方案，用户可以在手机界面上自定义设置用户场景与音频输出效果信息的对应关系，从而更加智能地满足用户的多样化音频输出需求。示例性的，用户设置乘坐汽车场景下用户场景与音频输出效果信息的对应关系的界面图可以参见图5A中(c)。

在一种情况下，修改完成后的用户场景与音频输出效果信息的对应关系生效，例如当前用户场景的音频输出效果发生变化，手机显示的音频输出效果也相应变化。在另一种情况下，修改完成后的用户场景与音频输出效果信息对应关系在下一次识别到该用户场景后才生效，本次的音频输出效果不发生变化。再比如，用户也可以修改或添加其他用户场景与音频输出效果信息的对应关系。

此外，当用户在耳机侧或手机侧切换到智能音频模式以外的其他模式时，手机和耳机自动退出智能音频模式，并停止根据用户场景自适应调节音频输出效果。

以上是以用户在手机侧开启智能音频模式为例进行说明的，在其他一些实施例中，用户可以在耳机侧开启智能音频模式。参见图6C，该种情况下，图6B中的步骤600-603可以替换为以下步骤600a-603a：

600a、耳机检测到用户的预设操作后，开启智能音频模式。

其中，耳机开启智能音频模式的方式，可以参见上述步骤301中第一电子设备为具有音频输出能力的音频设备的情况下开启智能音频模式的方式，此处不予赘述。

601a、耳机开启智能音频模式后，与手机协商确定手机为决策控制设备、感知设备和显示设备，耳机为感知设备和音频设备。

602a、耳机通知手机开启智能音频模式。

在一些实施例中，耳机开启智能音频模式后，即通知手机开启智能音频模式。在另一些实施例中，由于耳机佩戴后用户才能听到对应的音频输出效果，因而耳机可以在开启智能音频模式且确定处于佩戴状态后，才通知手机开启智能音频模式。

603a、手机接收到耳机的通知信息后，开启智能音频模式。

需要说明的是，上述步骤601a可以在步骤602a-603a之前或之后，本申请实施例不予限定。例如，耳机开启智能音频模式后，可以先与手机协商各自在音频***中的角色，然后再通知手机开启智能音频模式；也可以先通知手机开启智能模式，然后再与手机协商各自在音频***中的角色。

在上述步骤中，耳机侧开启智能音频模式后，耳机和手机才协商各自在音频***中的角色设备。在其他一些实施例中，耳机和手机建立通信连接后即可协商各自在音频***中的角色设备，而不需要先开启智能音频模式。

在上述步骤603a之后，手机和耳机继续执行上述步骤604-610。

在上述图6B或图6C描述的方案中，手机和耳机作为感知设备可以从多个维度、多个角度获取丰富的用户场景感知信息，并获得相应的场景感知结果。手机可以基于多个感知设备的多维度感知能力，结合多维场景感知结果准确识别精细划分的用户场景。耳机可以根据手机识别到的用户场景，从多个维度、多个方面精确地控制音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。

也就是说，基于多维度、分布式的感知技术，音频***能够识别出更加精细化的用户场景，识别准确率和稳定性更高，识别功能可靠性更高。并且，音频***能够基于精细化场景自适应调节噪声控制效果，也可以针对精细化用户场景设置或修改音频输出效果。

以图6B和图6C所示的音频***包括手机和耳机的情况为例，图7示出了手机和耳机的一种内部***架构示意图。

如图7所示，手机包括传感器层、低功耗处理层、应用层和蓝牙(BT)模块等多个模块。其中，传感器层包含麦克风、摄像头、惯性测量单元(inertial measurement unit，IMU)等场景感知所需的多维度低功耗传感器件。低功耗处理层包括图像识别模块、运动状态识别模块以及声音识别模块等多个模态识别算法模块，用于接收传感器层传回的场景感知信息并运行相应的模态识别算法，获得模态识别分析结果，即上述场景感知结果。传感器层和低功耗层的处理层都采用低功耗器件，以保证感知算法可以长时间运行。蓝牙模块还可以接收来自耳机的场景感知结果。应用层运行融合决策算法以综合应用信息(如乘车码、打车APP、订票APP等的相关信息)，低功耗处理层返回的场景感知结果，以及耳机发送的场景感知结果，进行综合判断来识别用户场景，并将识别到的用户场景通过蓝牙模块传递给蓝牙耳机。

耳机包括传感器层、音频处理层、逻辑处理层和蓝牙(BT)模块。传感器层主要是耳机的麦克风(例如包括主麦克、副麦克等)等传感器件，用于完成场景感知信息中声音信息的采集；音频处理层可以包括音频编解码器codec、模/数(A/D)转换器及滤波器等部件，用于完成音频信号的A/D转换、特征提取，以及降噪或透传等处理；逻辑处理层可以包括DSP或MCU等处理单元，用于根据蓝牙模块接收到的手机识别到的用户场景修改音频处理层设置，从而进行音量或EQ等调节。如前所述，音频输出效果可以包括音频效果和/或音频提示信息等。音频效果可以包括噪声控制、EQ调节和音量调节等。

在另一个示例中，参见图8A，音频***包括手机、手表和耳机，且手机、手表和耳机均为感知设备，手机还是决策控制设备和显示设备，耳机还是音频设备，手机和耳机之间，以及手机和手表之间具有蓝牙连接。该示例中的音频控制方法与图6B或图6C的相关描述类似，以下仅作简要说明。参见图8B，该示例中的音频控制方法可以包括：

800、手机检测到用户的预设操作后，开启智能音频模式。

801、手机开启智能音频模式后，与手表和耳机协商确定手机为决策控制设备、感知设备和显示设备，手表为感知设备，耳机为感知设备和音频设备。

802、手机开启智能音频模式后，通知手表和耳机开启智能音频模式。

803、耳机接收到手机的通知信息后，开启智能音频模式。

在一些实施例中，耳机侧接收到手机的通知信息后，立即开启智能音频模式。在另一些实施例中，耳机侧可以在接收到手机的通知信息并确定自身处于佩戴状态后才开启智能音频模式，以节省耳机的功耗。

804、手表接收到手机的通知信息后，开启智能音频模式。

在一些实施例中，手表侧接收到手机的通知信息后，立即开启智能音频模式。在另一些实施例中，手表侧可以在接收到手机的通知信息并确定自身处于佩戴状态后才开启智能音频模式，以节省耳机的功耗。

805、手机开启智能音频模式后获取场景感知信息，并获得场景感知结果。

手机作为感知设备，可以在开启智能音频模式后获取场景感知信息及对应的场景感知结果。在一些实施例中，手机开启智能音频模式后即开启场景感知，通过传感器件获取场景感知信息。在另一些实施例中，手机开启智能音频模式且接收到耳机发送的处于佩戴状态的通知后，才开启场景感知从而获取场景感知信息。

806、耳机开启智能音频模式后获取场景感知信息，获得场景感知信息对应的场景感知结果，并向手机发送信息3，该信息3用于指示场景感知结果。

耳机作为感知设备，可以在开启智能音频模式后获取声音信息等场景感知信息，并将场景感知信息对应的场景感知结果发送给手机。

807、手表开启智能音频模式后获取场景感知信息，获得场景感知信息对应的场景感知结果，并向手机发送信息4，该信息4用于指示场景感知结果。

例如，手表作为感知设备，可以在开启智能音频模式后获取以下一种或多种场景感知信息：图像信息、声音信息、位置信息、运动状态信息、应用信息或心率信息等。

这样，手机、手表和耳机作为音频***中分布式的多个感知设备，可以从多个维度、多个角度、多个方向和多个位置获取用户当前多个层面的场景感知信息，并获得相应的场景感知结果。

808、手机根据自身获取的场景感知结果，以及手表和耳机发送的场景感知结果识别用户场景。

手机作为决策设备，可以基于自身、手表以及耳机等多个感知设备的多维度感知能力，结合多维场景感知结果准确识别到精细划分的用户场景。并且，由于音频***包括多个感知设备，当其中的部分感知设备出现问题无法正常获取场景感知信息时，其他感知设备也可以正常获取到场景感知信息。例如，基于耳机侧和手表侧的场景感知，可以弥补手机设备感知受阻的情况，提高感知功能的可用性。这样，手机作为决策控制设备，仍能够根据正常的感知设备获取场景感知结果从而识别用户场景，因而用户场景识别的稳定性较好。

809、手机向耳机发送信息5，该信息5用于指示用户场景。

手机作为决策设备，可以将识别到的用户场景发送给音频设备。

810、耳机根据用户场景调节音频输出效果。

耳机作为音频设备，可以根据手机发送的用户场景自适应调节音频输出效果，使得音频输出效果与当前用户场景相匹配。

其中，基于手机、手表和耳机多个感知设备的多维度感知能力获取的多维感知信息，可以从多个层面反映当前用户场景下用户各个方面的信息。因此，耳机可以从多个维度、多个方面精确地控制音频设备的音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。例如，音频输出效果可以包括音频效果和/或音频提示信息等。音频效果可以包括噪声控制、EQ调节和音量调节等多个维度。

在该示例中，在手机和耳机侧的场景感知的基础上，再结合手表侧的场景感知，能够更准确地识别出用户场景和用户状态，从而可以指导更多维度的音频输出效果的自适应调节，使得音频输出效果自适应调节的维度更广。例如，结合手表提供的心率信息等感知用户使用耳机时的用户场景和用户状态，可以在降噪控制的同时，还调节音量大小或EQ等音频输出效果。

举例来说，当用户场景为室内停留和低心率状态，则用户可能在睡觉，耳机可以调节音频风格为“舒缓”，并逐渐调低音量以帮助用户入睡。

811、手机显示用户场景和音频输出效果信息。

手机作为显示设备，可以显示识别到的用户场景以及对应的音频输出效果信息。

812、手机响应于用户在界面上的设置操作，配置或修改用户场景与音频输出效果信息的对应关系。

这样，用户可以在手机界面上自定义设置用户场景与音频输出效果信息的对应关系，从而更加智能地满足用户的多样化音频输出需求。

以上是以用户在手机侧开启智能音频模式为例进行说明的，在其他一些实施例中，用户可以在耳机侧开启智能音频模式。参见图8C，该种情况下，图8B中的步骤800-804可以替换为以下步骤800a-804a：

800a、耳机检测到用户的预设操作后，开启智能音频模式。

801a、耳机开启智能音频模式后，与手机和手表协商确定手机为决策控制设备、感知设备和显示设备，手表为感知设备，耳机为感知设备和音频设备。

802a、耳机开启智能音频模式后通知手机开启智能音频模式。

803a、手机接收到耳机的通知信息后开启智能音频模式，并通知手表开启智能音频模式。

804a、手表接收到手机的通知信息后，开启智能音频模式。

而后，手机、手表和耳机继续执行上述步骤805-812。

需要说明的是，音频***中的手表也具有显示功能。在一些实施例中，手表也可以辅助手机提供简单的信息展示，比如可以展示手机识别到的用户场景。

另外，根据计算能力的强弱，不同类型的电子设备对应的决策优先级不同，决策优先级较高的电子设备优先作为决策控制设备。例如，手机的决策优先级高于手表，手机优先作为决策控制设备。并且，决策控制设备也可根据当前的实际情况实时进行切换。比如，手表也具备较强的计算能力，可以作为决策控制设备的备选设备。在手机处于低电量状态或者手机出现异常(例如关机、进入飞行模式等)导致无法进行计算处理或无法与手表和耳机通信时，可以切换到手表作为决策控制设备和显示设备。当手表为决策控制设备时，用户可以基于手表的显示界面开启智能音频模式，手表可以显示用户场景和音频输出效果；用户还可以基于手表的显示界面修改对应关系等。

在上述图8B或图8C描述的方案中，手机、手表和耳机作为感知设备可以从多个维度、多个角度获取丰富的用户场景感知信息，并获得相应的场景感知结果。手机可以基于多个感知设备的多维度感知能力，结合多维场景感知结果准确识别精细划分的用户场景。耳机可以根据手机识别到的用户场景，从多个维度、多个方面精确地控制音频输出效果，使得音频输出效果能够与当前用户场景下的用户需求更好地匹配。

也就是说，基于多维度、分布式的感知技术，音频***能够识别出更加精细化的用户场景，识别准确率和稳定性更高，识别功能可靠性更高。并且，音频***能够基于精细化场景自适应调节噪声控制效果，也可以针对精细化用户场景配置或修改音频输出效果。

此外，在本申请的其他一些实施例中，耳机侧也可以在手机音频感知受阻的情况下才开启音频感知功能，以降低耳机的功耗，节省耳机的电量。

需要说明的是，本申请实施例涉及的音频***中的通信连接，并不限于上述示例中的蓝牙连接，音频***中的电子设备也并不限于上述示例中的手机、手表或耳机等设备。当音频***中的通信连接为其他连接方式，音频***中的电子设备包括其他设备时，仍可以采用以上实施例描述的音频控制方法进行音频输出效果的自适应调节，这里不再赘述。

可以理解的是，为了实现上述功能，音频***中的各电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对音频***中的电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种电子设备，可以为音频***中的各角色设备，该电子设备包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频输出方法。

本申请的实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频输出方法。该电子设备可以为音频***中的各角色设备。

本申请的实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中电子设备执行的音频输出方法。该电子设备可以为音频***中的各角色设备。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中电子设备执行的音频输出方法。该电子设备可以为音频***中的各角色设备。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

本申请另一实施例提供了一种音频***，该音频***可以包括上述感知设备、决策控制设备、音频设备和显示设备等角色设备，可以用于实现上述音频输出方法。其中，每个角色设备可以分别为一个物理设备，或者多个角色设备可以位于同一物理设备上。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频控制方法，应用于音频***，所述音频***包括具有通信连接的多个感知设备、决策控制设备、音频设备和显示设备，所述音频***中的同一电子设备具有一个或多个角色，所述音频***中的各个电子设备的角色是任一电子设备与具有通信连接的其他多个电子设备协商确定的，其特征在于，所述方法包括：

所述感知设备获取场景感知信息，并基于场景感知信息获得场景感知结果；其中，所述场景感知信息包括图像信息、声音信息或运动状态信息中的一种或多种；所述场景感知信息还包括以下一种或多种：位置信息、环境光信息、蜂窝通信信息、应用信息或心率信息；

所述感知设备向所述决策控制设备发送第一信息，所述第一信息用于指示场景感知结果；

所述决策控制设备接收到来自所述多个感知设备的所述第一信息后，根据所述第一信息指示的场景感知结果识别用户场景；

所述决策控制设备向所述音频设备发送第二信息，所述第二信息用于指示所述用户场景；

所述音频设备接收到来自所述决策控制设备的所述第二信息后，根据所述第二信息指示的用户场景调节音频输出效果，所述音频输出效果包括噪声控制、均衡器EQ调节或音量调节中的一种或多种；

所述显示设备显示第一显示界面和第二显示界面；其中，所述第一显示界面包括第一用户场景和第一控件；所述第一控件用于设置所述第一用户场景下所使用的感知设备；第二显示界面包括所述第一用户场景和感知设备自定义卡片，所述感知设备自定义卡片包括第一感知设备和第二感知设备，所述第一感知设备和所述第二感知设备用于在所述第一用户场景中使用；

所述显示设备响应于用户针对第二显示界面的第二预设操作，设置第一感知设备、第二感知设备与第一用户场景的对应关系；

所述显示设备将设置的所述第一感知设备、第二感知设备与第一用户场景的对应关系发送给所述决策控制设备。

2.根据权利要求1所述的方法，其特征在于，所述音频输出效果还包括音频提示信息。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述音频设备根据所述第二信息指示的用户场景调节音频输出效果，包括：

所述音频设备根据所述第二信息指示的用户场景，以及用户场景与音频输出效果信息的对应关系，调节音频输出效果；

其中，所述对应关系预设在所述音频设备上或来自所述决策控制设备。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述音频***还包括显示设备，所述方法还包括：

所述决策控制设备向所述显示设备发送第三信息，所述第三信息用于指示所述用户场景；

所述显示设备接收到所述第三信息后，显示所述第三信息指示的用户场景和/或所述用户场景对应的音频输出效果信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述显示设备响应于用户针对显示界面的第一预设操作，配置或修改用户场景与音频输出效果信息的对应关系；

所述显示设备将配置或修改后的所述对应关系发送给所述决策控制设备。

6.一种音频***，其特征在于，包括多个感知设备、决策控制设备、音频设备和显示设备，所述音频***中的同一电子设备具有一个或多个角色，所述音频***中的各个电子设备的角色是任一电子设备与具有通信连接的其他多个电子设备协商确定的；

所述感知设备用于，获取场景感知信息，并基于场景感知信息获得场景感知结果，向所述决策控制设备发送第一信息，所述第一信息用于指示场景感知结果；其中，所述场景感知信息包括图像信息、声音信息或运动状态信息中的一种或多种，所述场景感知信息还包括以下一种或多种：位置信息、环境光信息、蜂窝通信信息、应用信息或心率信息；

所述决策控制设备用于，接收到来自所述多个感知设备的所述第一信息后，根据所述第一信息指示的场景感知结果识别用户场景，向所述音频设备发送第二信息，所述第二信息用于指示所述用户场景；

所述音频设备用于，接收到来自所述决策控制设备的所述第二信息后，根据所述第二信息指示的用户场景调节音频输出效果，所述音频输出效果包括噪声控制、均衡器EQ调节或音量调节中的一种或多种；

所述显示设备，用于显示第一显示界面和第二显示界面；其中，所述第一显示界面包括第一用户场景和第一控件；所述第一控件用于设置所述第一用户场景下所使用的感知设备；第二显示界面包括所述第一用户场景和感知设备自定义卡片，所述感知设备自定义卡片包括第一感知设备和第二感知设备，所述第一感知设备和所述第二感知设备用于在所述第一用户场景中使用；

所述显示设备，还用于响应于用户针对第二显示界面的第二预设操作，设置第一感知设备、第二感知设备与第一用户场景的对应关系；

所述显示设备，还用于将设置的所述第一感知设备、第二感知设备与第一用户场景的对应关系发送给所述决策控制设备。

7.根据权利要求6所述的音频***，其特征在于，所述音频输出效果还包括音频提示信息。

8.根据权利要求6-7任一项所述的音频***，其特征在于，所述音频设备用于根据所述第二信息指示的用户场景调节音频输出效果，包括：

根据所述第二信息指示的用户场景，以及用户场景与音频输出效果信息的对应关系，调节音频输出效果；

9.根据权利要求6-8任一项所述的音频***，其特征在于，所述音频***还包括显示设备；

所述决策控制设备还用于，向所述显示设备发送第三信息，所述第三信息用于指示所述用户场景；

所述显示设备用于，接收到所述第三信息后，显示所述第三信息指示的用户场景和/或所述用户场景对应的音频输出效果信息。

10.根据权利要求9所述的音频***，其特征在于，所述显示设备还用于：

响应于用户针对所述显示设备的显示界面的第一预设操作，配置或修改用户场景与音频输出效果信息的对应关系；

将配置或修改后的所述对应关系发送给所述决策控制设备。