CN115604630A

CN115604630A - 声场扩展方法、音频设备及计算机可读存储介质

Info

Publication number: CN115604630A
Application number: CN202211195319.5A
Authority: CN
Inventors: 李建华
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-13
Also published as: WO2024067782A1

Abstract

本发明公开了一种声场扩展方法、音频设备及计算机可读存储介质，属于音频处理技术领域。本发明提供的声场扩展方法包括以下步骤：获取近耳开放式音频设备到用户双耳之间的目标传递函数；根据目标传递函数对近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频；识别初始混响音频中人声音频与伴奏音频之间的实际音强权重比，根据实际音强权重比，对初始混响音频中的人声音频和/或伴奏音频的音强进行调整，得到目标混响音频；通过近耳开放式音频设备播放目标混响音频。本发明的音频设备能在有效扩展声场的同时，保障人声的音效。

Description

声场扩展方法、音频设备及计算机可读存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及声场扩展方法、音频设备及计算机可读存储介质。

背景技术

声场扩展指听音时听感声场比实际扬声器所在位置更宽广的声学现象，声场扩展类似于一个虚拟扬声器，可将发声位置扩展到比实际扬声器所在位置更宽的位置，即让声源播放的声音在人耳听起来等效于声音从更宽位置的虚拟扬声器发出声音的效果。

在音频处理技术领域，实际的音频信号多为双通道立体声信号，声场扩展技术是在双声道立体声的基础上，不增加声道和音箱，通过对信号进行处理，使聆听者感到声音来自多个方位，产生仿真的立体声场。目前声场扩展技术(即虚拟环绕声技术)已经成为了一种必不可少的技术，其主要应用于远场音源，如使用音箱的场景，随着近年来VR、AR等近耳开放式音频设备的市场出货量越来越多，近耳开放式音频设备的声场扩展功能的需求也逐渐增多。

然而，目前的声场扩展功能(即虚拟环绕声功能)主要是通过头相关传递函数(Head Related Transfer Function，简称HRTF)算法来实现的，在采用HRTF声场扩展的同时，往往会带来人声变虚的效果。因此，如何在有效扩展声场的同时，保障人声的音效变得尤为重要。

发明内容

本发明的主要目的在于提供一种声场扩展方法、音频设备及计算机可读存储介质，旨在解决添加声场扩展功能后的近耳开放式音频设备，其所播放的音频中人声部分音效差的技术问题。

为实现上述目的，本发明提供一种声场扩展方法，所述声场扩展方法包括以下步骤：

获取近耳开放式音频设备到用户双耳之间的目标传递函数；

根据所述目标传递函数对所述近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频；

识别所述初始混响音频中人声音频与伴奏音频之间的实际音强权重比，根据所述实际音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频；

播放所述目标混响音频。

可选地，所述根据所述实际音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频的步骤，包括：

获取人声音频与伴奏音频之间的目标音强权重比；

根据所述实际音强权重比和所述目标音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，以将所述实际音强权重比调整至所述目标音强权重比，得到目标混响音频。

可选地，所述获取人声音频与伴奏音频之间的目标音强权重比的步骤，包括：

通过收敛的神经网络模型对所述初始混响音频进行识别，得到所述初始混响音频对应的音频类型；

根据所述音频类型，从预设映射数据表中查询得到所述音频类型映射的音强权重比，将所述音频类型映射的音强权重比，作为人声音频与伴奏音频之间的目标音强权重比。

可选地，所述对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整的步骤，包括：

增大所述初始混响音频中的所述人声音频的音强；和/或

减小所述初始混响音频中的所述伴奏音频的音强。

可选地，所述获取近耳开放式音频设备到用户双耳之间的目标传递函数的步骤，包括：

获取预设的人工头传递函数和自由场传递函数；

对所述自由场传递函数进行求逆运算，得到自由场逆传递函数；

将所述人工头传递函数与所述自由场逆传递函数相乘，得到近耳开放式音频设备到用户双耳之间的目标传递函数。

可选地，所述获取预设的人工头传递函数和自由场传递函数的步骤，包括：

当近耳开放式音频设备佩戴于预设的人工头上，且所述近耳开放式音频设备输出声音信号时，通过所述人工头耳道中的预设麦克风测得人工头传递函数；以及

当所述人工头被撤去，且所述近耳开放式音频设备输出声音信号时，通过放置于所述人工头被撤去之前的左右耳位置的预设麦克风测得自由场传递函数。

可选地，所述根据所述目标传递函数对所述近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频的步骤，包括：

对所述目标传递函数进行求逆运算，得到目标逆传递函数；

将所述近耳开放式音频设备接收到的输入音频与所述目标逆传递函数相乘，得到初始混响音频。

可选地，所述识别所述初始混响音频中人声音频与伴奏音频之间的实际音强权重比的步骤，包括：

将所述初始混响音频分别划分为若干帧，其中，每帧所述初始混响音频具有时间同步关系的伴奏音频和人声音频；

分别对每帧所述初始混响音频进行加窗处理，并通过快速傅里叶变换方式，将经过加窗处理后的所述初始混响音频从时域转换至频域，得到初始混响频谱；

将所述初始混响频谱进行分解，得到所述初始混响频谱中的伴奏频谱和人声频谱；

依据所述伴奏频谱和所述人声频谱，确定所述初始混响频谱中人声音频与伴奏音频之间的实际音强权重比；

所述根据所述实际音强权重比和所述目标音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频的步骤，包括：

根据所述实际音强权重比和所述目标音强权重比，将所述初始混响频谱中的所述人声频谱进行音强增大处理，和/或将所述初始混响音频中的所述伴奏频谱进行音强减小处理，得到目标混响频谱；

将所述目标混响频谱从频域转换至时域，得到所述目标混响音频。

此外，为实现上述目的，本发明还提供一种音频设备，所述音频设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声场扩展程序，所述声场扩展程序被所述处理器执行时实现如上所述的声场扩展方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声场扩展程序，所述声场扩展程序被处理器执行时实现如上所述的声场扩展方法的步骤。

本发明通过获取近耳开放式音频设备到用户双耳之间的目标传递函数，然后根据目标传递函数对近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频，以使佩戴近耳开放式音频设备的用户的双耳接收与输入音频一致的声音信号，消除近耳开放式音频设备本身对于声音信号的干扰，在近耳开放式音频设备的扬声器无法向耳机一样置入人耳的情况下，使得近耳开放式音频设备播放的声音传递到用户双耳时的收听效果与佩戴耳机时的收听效果一致，有效地提升了近耳开放式音频设备的使用群体的听感，避免了串声问题。然而，由于目前的声场扩展功能主要是通过头相关传递函数(HeadRelated Transfer Function，简称HRTF)算法来实现的，在采用HRTF声场扩展的同时，往往会带来人声变虚的效果。即经过声场扩展后得到的初始混响音频，其人声音频与伴奏音频之间的实际音强权重比往往偏小，也就是说，人声音频的音强在初始混响音频中所占的权重往往偏小，而伴奏音频的音强在初始混响音频中所占的权重往往偏大，因此本发明通过动态地识别初始混响音频中人声音频与伴奏音频之间的实际音强权重比，判断该实际音强权重比是否在预设的标准音强权重比范围内，若超出预设的标准音强权重比范围，则说明近耳开放式音频设备在进行HRTF声场扩展时当前播放的音频，已存在人声变虚的问题，于是本发明通过对初始混响音频中的人声音频和/或伴奏音频的音强进行调整，将人声音频的音强在初始混响音频中所占的权重往上调，得到目标混响音频并进行播放，从而改善近耳开放式音频设备在进行HRTF声场扩展时所带来人声变虚的问题。即本发明利用提取待处理歌曲的伴奏音频信号和人声信号，然后根据提取到的伴奏音频信号和人声信号两者的混响程度值，对初始混响音频的伴奏音频信号和/人声信号的音强进行调整，实现在有效扩展声场的同时，保障人声的音效，克服添加声场扩展功能后的近耳开放式音频设备，其所播放的音频中人声部分音效差的技术问题。

附图说明

图1为本发明声场扩展方法第一实施例的流程示意图；

图2为本发明声场扩展方法第二实施例的流程示意图；

图3为本发明声场扩展方法一实施例的应用场景示意图；

图4为本发明一实施例中识别人声音频与伴奏音频之间的实际音强权重比的流程示意图；

图5为本发明实施例方案涉及的音频设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：一种声场扩展方法，所述声场扩展方法包括以下步骤：

获取近耳开放式音频设备到用户双耳之间的目标传递函数；

播放所述目标混响音频。

由于声场扩展技术(即虚拟环绕声技术)已经成为了一种必不可少的技术，其主要应用于远场音源，如使用音箱的场景，随着近年来VR、AR等近耳开放式音频设备的市场出货量越来越多，近耳开放式音频设备的声场扩展功能的需求也逐渐增多。然而，目前的声场扩展功能(即虚拟环绕声功能)主要是通过头相关传递函数(Head Related TransferFunction，简称HRTF)算法来实现的，在采用HRTF声场扩展的同时，往往会带来人声变虚的效果。

本发明通过动态地识别初始混响音频中人声音频与伴奏音频之间的实际音强权重比，判断该实际音强权重比是否在预设的标准音强权重比范围内，若超出预设的标准音强权重比范围，则说明近耳开放式音频设备在进行HRTF声场扩展时当前播放的音频，已存在人声变虚的问题，于是本发明通过对初始混响音频中的人声音频和/或伴奏音频的音强进行调整，将人声音频的音强在初始混响音频中所占的权重往上调，得到目标混响音频并进行播放，从而改善近耳开放式音频设备在进行HRTF声场扩展时所带来人声变虚的问题。即本发明利用提取待处理歌曲的伴奏音频信号和人声信号，然后根据提取到的伴奏音频信号和人声信号两者的混响程度值，对初始混响音频的伴奏音频信号和/人声信号的音强进行调整，实现在有效扩展声场的同时，保障人声的音效，克服添加声场扩展功能后的近耳开放式音频设备，其所播放的音频中人声部分音效差的技术问题。

本发明实施例提供了一种声场扩展方法，参照图1，图1为本发明一种声场扩展方法一实施例的流程示意图。

本实施例中，所述声场扩展方法包括：

步骤S10，获取近耳开放式音频设备到用户双耳之间的目标传递函数；

在本实施例中，执行主体为近耳开放式音频设备，近耳开放式音频设备包括但不限于AR(Augmented Reality，增强现实)、VR(Virtual Reality，虚拟现实)、智能音频眼镜、挂脖式音箱、开放式耳机等产品，近耳开放式音频设备相对于音箱场景而言，其喇叭或扬声器的位置距离人耳较近，且近耳开放式设备一般是一体机，其播放设备与人耳的距离几乎不可调，即一般情况下人耳听到的由近耳开放式音频设备播放的声音都是近场音效。可结合图3进行理解，图3是本实施例提供的一应用场景示意图，假设用户头部的位置与设备喇叭的相对位置如图3所示，则显然用户在使用近耳开放式音频设备时会受到环境的影响从而出现串扰问题，例如近耳开放式音频设备本身的传递函数对结果的影响以及声音信号经用户头部轮廓再进入耳道对结果的影响，导致听感体验无法达到最佳的效果，故而需要通过获取近耳开放式音频设备到用户双耳之间的目标传递函数来改善用户的听感体验。

在本实施例中，近耳开放式音频设备到用户双耳之间的目标传递函数即近耳开放式音频设备的输出音源(即喇叭或扬声器)到用户双耳的传递函数，用于体现近耳开放式音频设备的输入音频传递至用户双耳的过程中输入音频所产生的变化。

基于此，在一种可行的实施例中，上述步骤S10，可以包括：

步骤S11，获取预设的人工头传递函数和自由场传递函数；

需要说明的是，本实施例中上述目标传递函数可以理解为用户的头部轮廓对声音信号传递结果产生的影响，而该目标传递函数并不能直接得出，而是基于两种不同的声音传递场景得出两个不同的声学传递函数后，再通过计算得出的。其中，人工头传递函数是在近耳开放式音频设备佩戴于预设的人工头上，且近耳开放式音频设备输出声音信号时，通过人工头耳道中的预设麦克风测得的声学传递函数，包含了播放设备以及人头轮廓对声音传递结果的影响；自由场传递函数是在人工头被撤去，且近耳开放式音频设备输出声音信号时，通过放置于人工头被撤去之前的左右耳位置的预设麦克风测得的声学传递函数，包含了播放设备对声音传递结果的影响。

容易理解的是，目前近耳开放式音频设备进行声场扩展时，提到的各传递函数(例如人工头传递函数和自由场传递函数)均为头相关传递函数。

进一步地，在一种可行的实施例中，上述步骤S11中获取人工头传递函数的步骤，可以包括：

步骤S111，当近耳开放式音频设备佩戴于预设的人工头上，且所述近耳开放式音频设备输出声音信号时，通过所述人工头耳道中的预设麦克风测得人工头传递函数；以及

需要说明的是，预设的人工头是模拟用户的头部构建的用于辅助测量声学传递函数的辅助装置，其能够模拟用户接收来自近耳开放式音频设备的扬声器发出的声音信号的场景，预设人工头上设置有左右耳和耳道，耳道中可以预先放置用于接收声音信号的麦克风。

作为一个示例，结合图3所示的应用场景可知，将近耳开放式音频设备佩戴于人工头上，利用人工头耳道中预设的两个麦克风测出声源(即近耳开放式音频设备的扬声器或喇叭)到人工头双耳的声学传递函数，并记为H1。

步骤S112，当所述人工头被撤去，且所述近耳开放式音频设备输出声音信号时，通过放置于所述人工头被撤去之前的左右耳位置的预设麦克风测得自由场传递函数。

作为一个示例，结合图3所示的应用场景可知，先用两个与上述步骤S111中人工头耳道中一致的麦克风摆放在人工头左右耳的位置，再撤去人工头，利用两个不受人工头影响的麦克风测出声源在自由场工作时的声学传递函数，并记为H2。

所述步骤S11之后，执行步骤S12：对所述自由场传递函数进行求逆运算，得到自由场逆传递函数；

步骤S13，将所述人工头传递函数与所述自由场逆传递函数相乘，得到近耳开放式音频设备到用户双耳之间的目标传递函数。

在本实施例中，先对上述步骤S112中获取到的包含了播放设备对声音传递结果的影响的自由场传递函数H2进行求逆运算，得到自由场逆传递函数，记为H2’，然后将上述步骤S111中获取到的包含了播放设备以及人头轮廓对声音传递结果的影响的人工头传递函数H1与H2’相乘，即可得到目标传递函数H。需要说明的是，求逆运算之后得到的H2’能够消除播放设备对声音传递结果的影响，将其与H1相乘后即可消除H1中播放设备对声音传递结果的影响的部分，保留人头轮廓对声音传递结果的影响作为目标传递函数H。

步骤S20，根据所述目标传递函数对所述近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频；

可以理解的是，由于近耳开放式音频设备的扬声器或喇叭并不是理想音源，且将近耳开放式音频设备的扬声器或喇叭作为播放设备不能直接置入用户的双耳耳道，因此在初始混响音频的传递过程中必然会产生串扰问题，为了避免该问题，在初始混响音频生成之前先对输入音频进行串声消除处理，即抵消初始混响音频在播放后的传递过程中出现的串扰问题，即初始混响音频是输入音频经过串声消除处理后得到的，其能够抵消声音传递过程中播放设备本身的影响和用户人头对声音信号的影响。

作为一种示例，上述步骤S20，可以包括：

步骤S21，对所述目标传递函数进行求逆运算，得到目标逆传递函数；

步骤S22，将所述近耳开放式音频设备接收到的输入音频与所述目标逆传递函数相乘，得到初始混响音频。

由上述步骤可知，目标传递函数H表示的是人头轮廓对声音传递结果的影响，应该理解的是，对H进行求逆运算后得到的目标逆传递函数相当于一个单位矩阵，代表的则是消除人头轮廓对声音传递结果的影响，将其作用于输入音频进行处理后得到的初始混响音频则显然能够抵消声音信号传递时人头轮廓对声音传递结果的影响，使得用户双耳接收到的音频能够与输入音频保持一致。

作为一个示例，结合图3所示的应用场景可知，当给定近耳开放式音频设备的输入音频X后，输入音频X经串声消除算法模块处理后再经SPK(speaker，扬声器、喇叭)输出，输出的信号经人头模型传到人耳，其中，串声消除算法模块实现的基本思路是首先获得SPK发声后声音到人耳的传递函数H，再经串声消除算法模块对此传递函数求逆，两者共同作用后即可达到降低串扰、消除串声的效果，若将H求逆记为C，则初始混响音频Y＝XCH即为消除串声后的音频信号。

步骤S30，识别所述初始混响音频中人声音频与伴奏音频之间的实际音强权重比，根据所述实际音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频；

在本实施例中，该实际音强权重比是指在初始混响音频中，人声音频的音强与伴奏音频的音强的权重比值。容易理解的是，该音强又称音量或响度，指代人耳感受到的声音强弱，是人对声音大小的一个主观感觉量，换句话说，音强即声音响亮的程度。需要说明的是，由于目前的声场扩展功能(即虚拟环绕声功能)主要是通过头相关传递函数(HeadRelated Transfer Function，简称HRTF)算法来实现的，在采用HRTF声场扩展的同时，往往会带来人声变虚的效果。即经过声场扩展后得到的初始混响音频中人声音频与伴奏音频之间的实际音强权重比往往偏小，也就是说，人声音频的音强在初始混响音频中所占的权重往往偏小，而伴奏音频的音强在初始混响音频中所占的权重往往偏大，因此本实施例通过人声识别模块和伴奏声识别模块，动态地识别初始混响音频中人声音频与伴奏音频之间的实际音强权重比(如图3所示)，判断该实际音强权重比是否在预设的标准音强权重比范围内，若超出预设的标准音强权重比范围，则说明近耳开放式音频设备在进行HRTF声场扩展时当前播放的音频，已存在人声变虚的问题，所以本实施例通过对初始混响音频中的人声音频和/或伴奏音频的音强进行调整，将人声音频的音强在初始混响音频中所占的权重往上调，从而改善近耳开放式音频设备在进行HRTF声场扩展时所带来人声变虚的问题。

作为一种示例，所述对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整的步骤，包括：

步骤S321，增大所述初始混响音频中的所述人声音频的音强；和/或

步骤S322，减小所述初始混响音频中的所述伴奏音频的音强。

所述步骤S30之后，执行步骤S40：播放所述目标混响音频。

本实施例通过获取近耳开放式音频设备到用户双耳之间的目标传递函数，然后根据所述目标传递函数对所述近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频，以使佩戴所述近耳开放式音频设备的用户的双耳接收与所述输入音频一致的声音信号。本实施例通过声源模拟的方式计算出不同场景下的头相关传递函数，能够消除近耳开放式音频设备本身对于声音信号的干扰，在近耳开放式音频设备的扬声器无法向耳机一样置入人耳的情况下，使得近耳开放式音频设备播放的声音传递到用户双耳时的收听效果与佩戴耳机时的收听效果一致，有效地提升了近耳开放式音频设备的使用群体的听感，避免了串声问题，然而，由于目前的声场扩展功能主要是通过头相关传递函数(HeadRelated Transfer Function，简称HRTF)算法来实现的，在采用HRTF声场扩展的同时，往往会带来人声变虚的效果。即经过声场扩展后得到的初始混响音频，其人声音频与伴奏音频之间的实际音强权重比往往偏小，也就是说，人声音频的音强在初始混响音频中所占的权重往往偏小，而伴奏音频的音强在初始混响音频中所占的权重往往偏大，因此本实施例通过动态地识别初始混响音频中人声音频与伴奏音频之间的实际音强权重比，判断该实际音强权重比是否在预设的标准音强权重比范围内，若超出预设的标准音强权重比范围，则说明近耳开放式音频设备在进行HRTF声场扩展时当前播放的音频，已存在人声变虚的问题，于是本实施例通过对初始混响音频中的人声音频和/或伴奏音频的音强进行调整，将人声音频的音强在初始混响音频中所占的权重往上调，得到目标混响音频并进行播放，从而改善近耳开放式音频设备在进行HRTF声场扩展时所带来人声变虚的问题。即由于基于近场/远场/自由场得到头部传递函数，并通过该头部传递函数进行声场串扰消除处理时，会带来人声较虚的问题，本实施例利用提取待处理歌曲的伴奏音频信号和人声信号，然后根据提取到的伴奏音频信号和人声信号两者的混响程度值，对初始混响音频的伴奏音频信号和/人声信号的音强进行调整，实现在有效扩展声场的同时，保障人声的音效，克服添加声场扩展功能后的近耳开放式音频设备，其所播放的音频中人声部分音效差的技术问题。

在一种可能的实施方式中，请参照图2，所述根据所述实际音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频的步骤，包括：

步骤S31，获取人声音频与伴奏音频之间的目标音强权重比；

在一实施例中，该目标音强权重比可为出厂前通过实验标定所得，并预先存储于近耳开放式音频设备的***中，添加声场扩展功能后的近耳开放式音频设备在出厂可从***中获取该目标音强权重比。在另一实施例中，该目标音强权重比还可为出厂后，用户根据个人对于音频的收听舒适体验以及习惯，而将该目标音强权重比输入至近耳开放式音频设备的***中所得。在又一实施例中，近耳开放式音频设备可通过获取近耳开放式音频设备在未开启声场扩展功能时，所输出同一个混响音频(即与初始混响音频属于同一个音频，区别在于未进行声场扩展处理)对应的理论音强权重比，并将该理论音强权重比作为该目标音强权重比。

步骤S32，根据所述实际音强权重比和所述目标音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，以将所述实际音强权重比调整至所述目标音强权重比，得到目标混响音频。

本实施例通过获取人声音频与伴奏音频之间的目标音强权重比，并根据所述实际音强权重比和所述目标音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，以将所述实际音强权重比调整至所述目标音强权重比，从而更加准确地对初始混响音频的伴奏音频信号和/人声信号的音强进行调整，实现在有效扩展声场的同时，保障人声的音效。

作为一种示例，所述步骤S31，获取人声音频与伴奏音频之间的目标音强权重比的步骤，包括：

步骤S311，通过收敛的神经网络模型对所述初始混响音频进行识别，得到所述初始混响音频对应的音频类型；

步骤S312，根据所述音频类型，从预设映射数据表中查询得到所述音频类型映射的音强权重比，将所述音频类型映射的音强权重比，作为人声音频与伴奏音频之间的目标音强权重比。

在本实施例中，本领域技术人员可以理解的是，不同的音频类型，其对应需要达到不同的标准音强权重比，以使伴奏和人声的音强配比更佳，提升用户的收听舒适体验。例如，民谣的人声的音强比重往往相对更高，即人声音频的音强在民谣中所占的权重相对偏大。而古风音乐往往要求伴奏的音强相对更高，即伴奏音频的音强在古风音乐中所占的权重相对偏大。又例如摇滚乐对伴奏与人声的音强比要求相对适中(靠近1:1)。而本实施例可通过预先对不同音频类型的音频样本(例如摇滚乐、民谣、古风音乐、民族风音乐、说唱等)对该神经网络模型进行训练，并通过人工核验神经网络模型对于音频类型的预测准确率，若音频样本对连续预设数量个音频样本测试得到的预测准确率达到预设阈值(例如95％)，则确定该神经网络模型收敛，得到收敛的神经网络模型。

本实施例通过收敛的神经网络模型对所述初始混响音频进行识别，得到所述初始混响音频对应的音频类型，并根据所述音频类型，从预设映射数据表中查询得到所述音频类型映射的音强权重比，将所述音频类型映射的音强权重比，作为人声音频与伴奏音频之间的目标音强权重比，从而提高了识别初始混响音频的目标音强权重比的智能性和准确性。

进一步地，在所述步骤S30中，识别所述初始混响音频中人声音频与伴奏音频之间的实际音强权重比的步骤，包括：

步骤S51，将所述初始混响音频分别划分为若干帧，其中，每帧所述初始混响音频具有时间同步关系的伴奏音频和人声音频；

在本实施例中，分帧后的每帧初始混响音频可包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点。例如本实施方式中，可将初始混响音频的时域信号划分为N个帧，每帧包括512个声音采样点(音频采样率为16khz)，并且相邻帧之间有256个采样点的重合。这种处理的目的是使帧与帧之间具有平滑过渡的效果。

步骤S52，分别对每帧所述初始混响音频进行加窗处理，并通过快速傅里叶变换方式，将经过加窗处理后的所述初始混响音频从时域转换至频域，得到初始混响频谱；

在本实施例中，快速傅里叶变换方式(fast Fourier transform，FFT)，即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称。可通过快速傅里叶变换方式，将经过加窗处理后的初始混响音频从时域转换至频域，取得每帧初始混响音频的幅度和相位信息，即初始混响频谱。

步骤S53，将所述初始混响频谱进行分解，得到所述初始混响频谱中的伴奏频谱和人声频谱；

步骤S54，依据所述伴奏频谱和所述人声频谱，确定所述初始混响频谱中人声音频与伴奏音频之间的实际音强权重比；

在所述步骤S32中，根据所述实际音强权重比和所述目标音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频的步骤，包括：

步骤S55，根据所述实际音强权重比和所述目标音强权重比，将所述初始混响频谱中的所述人声频谱进行音强增大处理，和/或将所述初始混响音频中的所述伴奏频谱进行音强减小处理，得到目标混响频谱；

步骤S56，将所述目标混响频谱从频域转换至时域，得到所述目标混响音频。

在本实施例中，可通过傅里叶反变换方式，将所述目标混响频谱从频域转换至时域，得到所述目标混响音频。

其中，人声/伴奏声识别算法逻辑如图4所示，需要说明的是，在人声/伴奏声特征提取过程中，所使用的特征包括但不限于：谱熵(Spectral Entropy)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)和线谱对(Line Spectrum Pair，LSP)、短时能量、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)、一阶差分梅尔倒谱系数(一阶差分MFCC)、响度和声门激励脉冲等。

在本实施例中，可参照图4，本实施例通过将初始混响音频进行分帧、加窗、快速傅里叶变换处理，将初始混响音频从时域转换至频域，得到初始混响频谱，并分析初始混响频谱的频域特征，从而提取出伴奏频谱和人声频谱，根据提取出的伴奏频谱和人声频谱，确定人声音频与伴奏音频之间的实际音强权重比，从而准确有效地分析出初始混响音频的该实际音强权重比，然后根据该实际音强权重比和目标音强权重比，将初始混响频谱中的人声频谱进行音强增大处理，和/或将初始混响音频中的伴奏频谱进行音强减小处理，得到目标混响频谱，最后将所述目标混响频谱从频域转换至时域，得到目标混响音频，从而更准确地对初始混响音频的伴奏音频信号和/人声信号的音强进行调整，实现在有效扩展声场的同时，保障人声的音效。

此外，本发明实施例还提出一种音频设备，参照图5，图5为本发明实施例方案涉及的音频设备的结构示意图。

如图5所示，所述音频设备可以包括：处理器1001、通信总线1002、用户接口1003、网络接口1004和存储器1005。其中，处理器1001可以是中央处理器(Central ProcessingUnit，CPU)。通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图5中示出的结构并不构成对音频设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及声场扩展程序。

在图5所示的音频设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本实施例中的处理器1001、存储器1005可以设置在音频设备中，所述音频设备通过处理器1001调用存储器1005中存储的声场扩展程序，并执行以下操作：

获取近耳开放式音频设备到用户双耳之间的目标传递函数；

播放所述目标混响音频。

可选地，处理器1001可以调用存储器1005中存储的声场扩展程序，还执行以下操作：

获取人声音频与伴奏音频之间的目标音强权重比；

增大所述初始混响音频中的所述人声音频的音强；和/或，

减小所述初始混响音频中的所述伴奏音频的音强。

获取预设的人工头传递函数和自由场传递函数；

当近耳开放式音频设备佩戴于预设的人工头上，且所述近耳开放式音频设备输出声音信号时，通过所述人工头耳道中的预设麦克风测得人工头传递函数；以及，

对所述目标传递函数进行求逆运算，得到目标逆传递函数；

此外，本发明实施例还提出一种计算机可读存储介质，应用于计算机，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质上存储有声场扩展程序，该声场扩展程序被处理器执行时实现如上所述的本发明声场扩展方法的步骤。

本发明音频设备和计算机可读存储介质的各实施例，均可参照本发明声场扩展方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声场扩展方法，其特征在于，所述声场扩展方法包括以下步骤：

获取近耳开放式音频设备到用户双耳之间的目标传递函数；

播放所述目标混响音频。

2.如权利要求1所述的声场扩展方法，其特征在于，所述根据所述实际音强权重比，对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整，得到目标混响音频的步骤，包括：

获取人声音频与伴奏音频之间的目标音强权重比；

3.如权利要求2所述的声场扩展方法，其特征在于，所述获取人声音频与伴奏音频之间的目标音强权重比的步骤，包括：

4.如权利要求2所述的声场扩展方法，其特征在于，所述对所述初始混响音频中的所述人声音频和/或所述伴奏音频的音强进行调整的步骤，包括：

增大所述初始混响音频中的所述人声音频的音强；和/或

减小所述初始混响音频中的所述伴奏音频的音强。

5.如权利要求1所述的声场扩展方法，其特征在于，所述获取近耳开放式音频设备到用户双耳之间的目标传递函数的步骤，包括：

获取预设的人工头传递函数和自由场传递函数；

6.如权利要求5所述的声场扩展方法，其特征在于，所述获取预设的人工头传递函数和自由场传递函数的步骤，包括：

7.如权利要求1至6中任一项所述的声场扩展方法，其特征在于，所述根据所述目标传递函数对所述近耳开放式音频设备接收到的输入音频进行串声消除处理，得到初始混响音频的步骤，包括：

对所述目标传递函数进行求逆运算，得到目标逆传递函数；

8.如权利要求2所述的声场扩展方法，其特征在于，所述识别所述初始混响音频中人声音频与伴奏音频之间的实际音强权重比的步骤，包括：

9.一种音频设备，其特征在于，所述音频设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声场扩展程序，所述声场扩展程序被所述处理器执行时实现如权利要求1至8中任一项所述的声场扩展方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有声场扩展程序，所述声场扩展程序被处理器执行时实现如权利要求1至8中任一项所述的声场扩展方法的步骤。