CN112992186B

CN112992186B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112992186B
Application number: CN202110157972.1A
Authority: CN
Inventors: 王杨; 刘鹏
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-07-01
Anticipated expiration: 2041-02-04
Also published as: CN112992186A

Abstract

本发明实施例涉及音频处理领域，公开了一种音频处理方法、装置、电子设备及存储介质。本发明中，本发明提供了一种音频处理方法，包括以下步骤：以预设周期获取观众情绪波动指标值并获取节目进度；根据当前获取的观众情绪波动指标值和节目进度，动态调整采集到的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；将调整后的观众声音和舞台声音合成输出。本发明的音频处理方法可以协调观众声音和舞台声音，使用户有临场感，得到更好的观看体验。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及音频处理领域，特别涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

虚拟现实(Virtual Reality，简称“VR”)技术利用三维图形生成技术、多传感交互技术以及高分辨率显示技术，生成三维逼真的虚拟环境，用户需要通过特殊的交互设备才能进入虚拟环境中。随着VR技术的进步，VR技术中除了VR显示外，VR音效扮演着重要的角色。

在相关的音频处理方法中，VR音效的录制通过定点采集，即固定一个位置，采集多个方向的声音，将采集得到的现场声音(包括现场观众声音和舞台声音)直接合成VR音效，或将现场的观众声音做消音处理后，合成VR音效。

因此，相关的音频处理方法存在以下问题：VR音效中观众声音和舞台声音不协调，影响用户观看舞台演出或不能使用户有临场感，从而使用户体验不佳。

发明内容

本发明实施方式的目的在于提供一种音频处理方法、装置、电子设备及存储介质，可以协调观众声音和舞台声音，使用户有临场感，得到更好的观看体验。

为解决上述技术问题，本发明的实施方式提供了一种音频处理方法，包括以下步骤：以预设周期获取观众情绪波动指标值并获取节目进度；根据当前获取的观众情绪波动指标值和节目进度，动态调整采集到的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；将调整后的观众声音和舞台声音合成输出。

本发明的实施方式还提供了一种音频处理装置，包括：获取模块，用于以预设周期获取观众情绪波动指标值并获取节目进度；调整模块，用于根据当前获取的观众情绪波动指标值和节目进度，动态调整采集到的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；输出模块，用于将调整后的观众声音和舞台声音合成输出。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的音频处理方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述音频处理方法。

本发明实施方式相对于现有技术而言，根据观众情绪波动指标值和节目进度，动态调整采集的观众声音和舞台声音，将调整后的观众声音和舞台声音合成输出，可以对观众声音和舞台声音根据观众情绪和节目进度进行动态强化或弱化操作，使用户听见观众声音的同时，减少观众声音对用户观看舞台演出的影响，从而协调观众声音和舞台声音，使用户在观看舞台演出时有临场感，得到更好的观看体验。

另外，获取观众情绪波动指标值，包括：根据观众声音的音量，和/或，观众的体温得到观众情绪波动指标值。由于观众的音量是观众对舞台演出的反应，观众的体温可以反映观众的情绪高低，因此，根据观众声音的音量，和/或，观众体温，可以得到观众情绪波动指标值，进而实现协调观众声音和舞台声音，使用户得到更好的观看体验。

另外，根据观众声音的音量，和观众的体温得到观众情绪波动指标值，包括：根据音量和体温的平均增长率，得到观众情绪波动指标值。通过音量和体温的平均增长率，可以反映观众的音量和体温的变化大小，对应反映观众情绪波动，因此，根据音量和体温的平均增长率，可以得到观众情绪波动指标值，进而实现协调观众声音和舞台声音，使用户得到更好的观看体验。

另外，观众声音，包括：各个观众区域的观众声音；获取观众情绪波动指标值，包括：分别获取各个观众区域的观众情绪波动指标值；所述根据当前获取的所述观众情绪波动指标值和所述节目进度，动态调整采集到的观众声音和舞台声音，包括：根据当前获取的所述各个观众区域的观众情绪波动指标值和所述节目进度，分别动态调整采集到的所述各个观众区域的观众声音和所述舞台声音。通过获取各个观众区域的观众声音，根据各个观众区域的观众情绪波动指标值和节目进度，动态调整各个观众区域的观众声音和舞台声音，可以根据观众区域不同，分别对应调整各个观众区域的观众声音，使用户在观看舞台演出时有更真实临场感。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的音频处理方法流程图；

图2是根据本发明第一实施方式提供的VR音效合成方法流程图；

图3是根据本发明第二实施方式提供的音频处理方法流程图；

图4是根据本发明第三实施方式提供的音频处理装置结构示意图；

图5是根据本发明第四实施方式提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种音频处理方法。具体流程如图1所示。

步骤101，以预设周期获取观众情绪波动指标值并获取节目进度；

步骤102，根据当前获取的观众情绪波动指标值和节目进度，动态调整采集到的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；

步骤103，将调整后的观众声音和舞台声音合成输出。

本实施方式的音频处理方法，应用于处理现场演出VR音效的电子设备，即处理端设备中，例如，可以进行音频处理的计算机等设备，对采集得到的演出现场声音进行处理，得到观众和舞台节目双方声音协调的VR音效。其中，VR音效是为了与VR视频配合，在虚拟环境对真实环境进行模拟，使用户产生沉浸感而制作得到的音效。在实际现场演出环境中，观众因为身处观众席中，所以观众听见的声音除了有舞台演出的声音，还有四周的观众的声音，因此，在现场演出VR音效中，需要对舞台演出的声音，和观众的声音进行合成，以使VR用户有临场感、沉浸感。然而，现有的VR音效录制通常是定点，即固定一个位置，采集多个方向的声音，对观众声音不进行处理，直接与舞台演出声音合成，或将观众声音消去，只保留舞台演出声音。受采集声音位置、现场情况和后期处理的影响，会出现VR音效观众声音和舞台声音不协调，比如观众声音太大、舞台声音太小，或者反过来的情况，使用户不能得到良好的演出观看体验。本实施方式的处理端设备通过对观众声音和舞台演出进行处理后合成，协调观众声音和舞台声音，使VR用户有临场感，得到更好的观看体验。

下面对本实施方式的音频处理方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

在步骤101中，处理端设备以预设周期获取观众情绪波动指标值并获取节目进度。具体地，在每个预设周期，处理端设备接收与本设备通信连接的采集端设备发送的观众声音和舞台声音，并根据观众声音和舞台声音，获取观众情绪波动指标值和节目进度。其中，一个预设周期可以是1秒或2秒等等，观众声音是采集端设备在观众侧，即观众席，采集得到的，舞台声音是在舞台侧采集得到的，观众声音包括人声、掌声等，舞台声音包括人声、音乐等，观众情绪波动指标值用于指示观众情绪波动大小。处理端设备可以对观众声音进行识别，从而得到观众情绪波动指标值。当处理端设备从观众声音中识别到掌声时，获取到掌声对应的观众情绪波动指标值。同时，处理端设备可以对舞台声音进行语义识别，以进度关键词，例如，主持人的“结束”、“中场休息”和“开始”，表演嘉宾的“谢谢”等关键词，来获取节目结束、节目间隙、休息时间和节目演出中等，得到节目进度。为了保证音频处理的准确性，处理端设备还可以直接获取人工设置的节目进度，以进行后续的音频处理。

在一个例子中，处理端设备可以根据观众声音，得到观众声音的音量，根据音量，得到观众情绪波动指标值。具体地，处理端设备获取观众声音，检测观众声音的音量大小，根据音量大小与观众情绪波动指标值的对应关系，得到观众情绪波动指标值。处理端设备也可以根据观众声音，得到观众声音的音量变化量，根据音量变化量与观众情绪波动指标值的对应关系，得到观众情绪波动指标值。其中，音量变化量是处理端设备当前获取的观众声音的音量与预设的音量阈值的差值。

在一个例子中，处理端设备也可以接收采集端设备发送的观众平均体温，根据采集端采集的观众平均体温，处理端设备根据体温与观众情绪波动指标值对应关系，得到对应的观众情绪波动指标值。处理端设备还可以根据接收的观众平均体温，计算观众平均体温的体温变化量，根据体温变化量，得到观众情绪波动指标值。其中，体温变化量是当前观众平均体温与人体正常体温的差值。处理端设备根据体温变化量与观众情绪波动指标值对应关系，得到对应的观众情绪波动指标值。

如图2所示，处理端设备也可以根据观众音量和观众平均体温，得到观众情绪波动指标值。具体地，处理端设备可以将观众音量和观众平均体温的组合与观众情绪波动指标值的对应关系，得到观众情绪波动指标值。

在一个例子中，处理端设备可以根据获取的舞台声音，直接检测舞台声音的音量大小，并与预设的演出音量阈值进行对比。当舞台声音的音量大于预设的演出音量阈值时，判定舞台侧当前为节目演出中，当舞台声音的音量小于预设的演出音量阈值时，判定舞台侧当前节目进度是节目间隙或节目结束。处理端设备还可以对舞台声音进行歌曲识别，以获取舞台当前播放的音乐的播放进度，从而对应得到节目进度。

在另一个例子中，处理端设备还可以根据采集端设备采集的舞台光线情况，得到节目进度。具体地，当灯光亮起时，处理端设备判定当前节目进度为节目演出中，当舞台侧没有灯光，处理端设备判定当前节目进度为节目间隙或节目结束。如图2所示，处理端设备也可以根据舞台声音和采集的舞台光线情况，得到节目进度，当舞台音量大于预设的演出音量阈值且灯光亮起时，判定当前节目进度为节目演出中，否则判定当前节目进度为节目间隙或节目结束。

本实施例中，由于观众的音量是观众对舞台演出的反应，观众的体温可以反映观众的情绪高低，因此，根据观众声音的音量，和/或，观众体温，可以得到观众情绪波动指标值，根据舞台声音，和/或，采集的舞台光线情况，可以得到节目进度，进而实现协调观众声音和舞台声音，使用户得到更好的观看体验。

进一步地，处理端设备还可以根据观众音量和观众平均体温的平均增长率，得到观众情绪波动指标值。具体地，处理端设备计算观众音量的增长率和观众平均体温的增长率，取二者的平均值，得到平均增长率，根据平均增长率与观众情绪波动指标值的对应关系，得到观众情绪波动指标值。其中，观众音量的增长率是当前获取的观众音量较预设的音量阈值的增长率，观众平均体温的增长率是当前获取的观众平均体温较人体正常体温的增长率。

本实施例中，通过音量和体温的平均增长率，可以反映观众的音量和体温的变化大小，对应反映观众情绪波动，因此，根据音量和体温的平均增长率，可以得到观众情绪波动指标值，进而实现协调观众声音和舞台声音，使用户得到更好的观看体验。

在步骤102中，处理端设备根据观众情绪波动指标值和节目进度，动态调整观众声音和舞台声音。具体地，在每个预设周期，处理端设备将观众情绪波动指标值与预设阈值进行比较，若观众情绪波动指标值低于预设阈值，即观众情绪波动较小，则弱化观众声音，即，调小观众声音的音量。若观众情绪波动指标值高于或等于预设阈值，即观众情绪波动较大，则处理端设备进一步判断此时的节目进度是否为节目间隙或节目结束。若此时的节目进度为节目间隙或节目结束，则处理端设备对观众声音进行二级强化，对舞台声音进行一级强化，即，将观众声音和舞台声音的音量进行强化放大，其中，一级强化的强化音量低于二级强化的强化音量，即将观众声音的音量调整成高于舞台声音的音量。若此时的节目进度不是节目间隙或节目结束，则处理端设备对舞台声音进行二级强化，对观众声音进行一级强化。

具体地，处理端设备在对观众声音进行二级强化时，还对观众声音进行语义识别，获取关键评论人声，对关键评论人声进行二级强化，并对观众声音中关键评论人声以外的背景杂音进行弱化。具体地，处理端设备可以根据预先定义声音识别的关键词，如参与本场演出的明星名字，“舞台”、“唱功”“表现”等关键词，当处理端设备在观众声音中识别到关键词时，抓取包含关键词的语句，即，关键评论人声，例如，处理端设备抓取如下语句“明星A表现不错”、“明星B可以”、“明星C唱功真好”等等。使用户在VR音效中也可以听到现场观众的评论，有更强的临场感和沉浸感。在另一个例子中，关键评论人声也可以是音量最大的语句或出现频率最高的语句。

在一个例子中，处理端设备还可以预定义观众情绪波动的级别与分类，其中，不同的观众情绪波动指标值区间，对应不同的观众情绪波动的级别与分类。观众情绪波动级别可以有：平稳、热烈等，分类可以有：高兴、愤怒等。不同的观众情绪波动的级别与分类对应不同的观众声音和舞台声音动态调整方案。

在步骤103中，处理端设备将调整后的观众声音和舞台声音合成VR音效并输出，供VR设备播放。

进一步地，如图2所示，为了使用户有更好的VR互动体验感，处理端设备还可以将关键评论声音进行提取，并将该声音识别为文字，通过播放关键评论声音同时发送VR弹幕的形式展示出来，供VR观众收听和观看。处理端设备还可以获取VR设备抓取的VR用户的评论语音，发送给其他VR用户，以供评论语音在其他VR用户扬声器中播放，或实时在节目演出现场的扬声器播放，提高VR用户与其他VR用户或现场观众的互动程度，使VR用户获得更强的临场感和沉浸感，有更佳的用户体验。

本实施例中，根据观众情绪波动指标值和节目进度，动态调整采集的观众声音和舞台声音，将调整后的观众声音和舞台声音合成输出，可以协调观众声音和舞台声音，让用户听见观众声音，同时减少观众声音对用户观看舞台演出的影响，使用户在观看舞台演出时有临场感，得到更好的观看体验。

本发明的第二实施方式涉及一种音频处理方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在本发明第二实施方式中，将观众席划分为多个观众区域，对各个观众区域分别进行动态调整观众声音。

本实施方式的具体流程如图3所示，包括以下步骤：

步骤301，以预设周期获取各个观众区域的观众情绪波动指标值并获取节目进度；

步骤302，根据当前获取的各个观众区域的观众情绪波动指标值和节目进度，分别动态调整采集到的各个观众区域的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；

步骤303，将调整后的观众声音和舞台声音合成输出。

步骤301，处理端设备以预设周期获取各个观众区域的观众情绪波动指标值和节目进度。其中，观众席被预先划分为多个观众区域，例如，以每10排与10列方阵为一个观众区域。处理端设备可以接收采集端发送的各个观众区域的观众声音和舞台声音，根据各个观众区域的观众声音和舞台声音，获取各个观众区域的观众情绪波动指标值和节目进度。

具体地，处理端设备对每个观众区域独立进行观众情绪波动指标值的判断，可以根据获取的各个观众区域的观众声音，进行掌声识别以得到各个观众区域的观众情绪波动指标值。处理端设备也可以根据各个观众区域的观众声音的音量，得到各个观众区域的观众情绪波动指标值。在一个例子中，处理端设备还接收采集端发送的各个观众区域的观众平均体温，根据各个观众区域的观众平均体温，获取各个观众区域的观众情绪波动指标值。

步骤302，根据当前获取的各个观众区域的观众情绪波动指标值和节目进度，对舞台声音和各个观众区域的观众声音分别进行动态调整，例如，在节目间隙或节目结束调整观众声音时，对于观众情绪波动较大的观众区域，强化该观众区域的观众声音，对于观众情绪波动较小的观众区域，弱化该观众区域的观众声音。

步骤303，处理端设备将调整后的观众声音和舞台声音合成输出，具体地，处理端设备在VR声场模型中对各个观众区域进行独立调整制作不同观众区域的音效，例如，当前排观众区域的观众情绪波动较大，后排观众区域的观众情绪波动较小，则处理端设备将强化后的前排观众区域的观众声音和弱化后的后排观众区域的观众声音合成，使用户获取能感受到前排观众区域观众声音强，后排观众区域观众声音弱的VR音效。

进一步地，为了使用户有更好的VR互动体验感，处理端设备可以将关键评论声音以VR弹幕的形式，在关键评论声音所在的观众区域空间位置展示出来，供VR观众观看。

本实施方式中，通过获取各个观众区域的观众声音，根据各个观众区域的观众情绪波动指标值和节目进度，动态调整各个观众区域的观众声音和舞台声音，可以根据观众区域不同，分别对应调整各个观众区域的观众声音，使用户在观看舞台演出时有更真实临场感。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种音频处理装置，如图4所示，包括：

获取模块401，用于以预设周期获取观众情绪波动指标值并获取节目进度；

调整模块402，用于根据当前获取的观众情绪波动指标值和节目进度，动态调整采集到的观众声音和舞台声音；其中，调整包括对观众声音的强化或弱化，以及对舞台声音的强化或弱化；

输出模块403，用于将调整后的观众声音和舞台声音合成输出。

在一个例子中，获取模块401，还用于根据观众声音的音量，和/或，观众的体温得到观众情绪波动指标值；根据舞台声音，和/或，采集的舞台光线情况，得到节目进度。

在一个例子中，获取模块401，还用于根据音量和体温的平均增长率，得到观众情绪波动指标值。

在一个例子中，观众声音，包括：各个观众区域的观众声音，获取模块401，还用于获取各个观众区域的观众情绪波动指标值，调整模块402，还用于根据当前获取的各个观众区域的观众情绪波动指标值和节目进度，分别动态调整采集到的各个观众区域的观众声音和舞台声音。

在一个例子中，调整模块402，具体用于若当前获取的观众情绪波动指标值低于预设阈值，则弱化观众声音；若当前获取的观众情绪波动指标值高于或等于预设阈值，且当前获取的节目进度是节目间隙或节目结束时，一级强化舞台声音，二级强化观众声音；其中，一级强化的强化音量低于二级强化的强化音量；若当前获取的观众情绪波动指标值高于或等于预设阈值，且当前获取的节目进度不是节目间隙或节目结束时，一级强化观众声音，二级强化舞台声音。

在一个例子中，调整模块402，具体用于识别观众声音中的语义内容，并获取关键评论声音；二级强化关键评论声音。

不难发现，本实施方式为与第一实施方式、第二实施方式相对应的装置实施例，本实施方式可与第一实施方式、第二实施方式互相配合实施。第一实施方式、第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式、第二实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种电子设备，如图5所示，包括：至少一个处理器501；与至少一个处理器通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行上述的音频处理方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的信息通过天线在无线介质上进行传输，进一步，天线还接收信息并将信息传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器在执行操作时所使用的信息。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种音频处理方法，其特征在于，包括：

以预设周期获取观众情绪波动指标值并获取节目进度；

根据当前获取的所述观众情绪波动指标值和所述节目进度，动态调整采集到的观众声音和舞台声音；其中，所述调整包括对所述观众声音的强化或弱化，以及对所述舞台声音的强化或弱化；

将调整后的所述观众声音和所述舞台声音合成输出。

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取观众情绪波动指标值，包括：

根据所述观众声音的音量，和/或，观众的体温得到所述观众情绪波动指标值。

3.根据权利要求2所述的音频处理方法，其特征在于，所述根据所述观众声音的音量，和观众的体温得到所述观众情绪波动指标值，包括：

根据所述音量和所述体温的平均增长率，得到所述观众情绪波动指标值。

4.根据权利要求1所述的音频处理方法，其特征在于，所述观众声音，包括：各个观众区域的观众声音；

所述获取观众情绪波动指标值，包括：分别获取所述各个观众区域的观众情绪波动指标值；

所述根据当前获取的所述观众情绪波动指标值和所述节目进度，动态调整采集到的观众声音和舞台声音，包括：

根据当前获取的所述各个观众区域的观众情绪波动指标值和所述节目进度，分别动态调整采集到的所述各个观众区域的观众声音和所述舞台声音。

5.根据权利要求1至4中任一项所述的音频处理方法，其特征在于，所述根据当前获取的所述观众情绪波动指标值和所述节目进度，动态调整所述观众声音和所述舞台声音，包括：

若当前获取的所述观众情绪波动指标值低于预设阈值，则弱化所述观众声音；

若当前获取的所述观众情绪波动指标值高于或等于所述预设阈值，且当前获取的所述节目进度是节目间隙或节目结束时，一级强化所述舞台声音，二级强化所述观众声音；其中，一级强化的强化音量低于二级强化的强化音量；

若当前获取的所述观众情绪波动指标值高于或等于所述预设阈值，且当前获取的所述节目进度不是节目间隙或节目结束时，一级强化所述观众声音，二级强化所述舞台声音。

6.根据权利要求5所述的音频处理方法，其特征在于，所述二级强化所述观众声音，包括：

识别所述观众声音中的语义内容，并获取关键评论声音；

二级强化所述关键评论声音。

7.根据权利要求6所述的音频处理方法，其特征在于，所述关键评论声音，包括：包含预设关键词的语句；

所述获取关键评论声音，包括：

将所述语义内容与预设关键词匹配；

若匹配成功，则从所述观众声音中抓取包含所述预设关键词的语句。

8.一种音频处理装置，其特征在于，包括：

获取模块，用于以预设周期获取观众情绪波动指标值并获取节目进度；

调整模块，用于根据当前获取的所述观众情绪波动指标值和所述节目进度，动态调整采集到的观众声音和舞台声音；其中，所述调整包括对所述观众声音的强化或弱化，以及对所述舞台声音的强化或弱化；

输出模块，用于将调整后的所述观众声音和所述舞台声音合成输出。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的音频处理方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频处理方法。