CN113640744A

CN113640744A - 声源定位方法及音频设备

Info

Publication number: CN113640744A
Application number: CN202110964828.9A
Authority: CN
Inventors: 夏钦展; 吕廷昌
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-12

Abstract

本发明公开一种声源定位方法及音频设备，声源定位方法包括以下步骤：获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置；获取两个预计所处位置存储的加权数，并比较两个预计所处位置存储的加权数权重高低；将两个预计所处位置中加权数权重较高的预计所处位置确定为目标声源实际所处的位置。本发明了实现对目标声源的定位及跟踪。

Description

声源定位方法及音频设备

技术领域

本发明涉及声源定位技术领域，特别涉及一种声源定位方法及音频设备。

背景技术

由于智能家居的迅速发展，人们对于生活质量的要求越来越高，智能语音操控也逐步深入家庭生活。国内外厂商也纷纷推出了相应的智能语音产品来抢占智能家居的入口，这些智能语音产品在一定程度上方便了人们的生活。

现有的智能语音产品，如智能音箱已经有了旋转的功能，可以根据麦克风获取声音的方位，来控制音箱自动朝向人物出现的方位。目前，通常是采用按照圆圈摆放的四个麦克风，以定位声音的方位，然而这对产品的结构和成本都是一个考验。或者，采用两个麦克风的方式来定位声音的方位，但是两个麦克风定位输出的角度值是两个值，即这个位置信息可能两个mic构成的直线的一侧，也可能在直线的另外一侧，不能及时准确定的实现声源定位。

发明内容

本发明的主要目的是提出一种声源定位方法及音频设备，旨在实现对目标声源的定位及跟踪。

为实现上述目的，本发明提出一种声源定位方法，所述声源定位方法包括以下步骤：

获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置；

获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低；

将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置。

可选地，在所述获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低的步骤之后，所述声源定位方法还包括以下步骤：

在两个预计所处位置的加权数相同时，控制摄像头朝向两个所述预计所处位置中的至少一个预计所处位置进行拍摄，得到对应所述预计所处位置的待测图像；

根据所述待测图像，从两个所述预计所处位置中确定所述目标声源实际所处的位置。

可选地，所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置，所述声源定位方法还包括以下步骤：

在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重；

更新对应的所述预计所处位置的加权数，并将更新后的所述预计所处位置的加权数进行存储。

可选地，所述在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重的步骤之后，所述声源定位方法还包括以下步骤：

在增加后的对应的预计所处位置的加权数大于或者等于第一预设权重阈值时，将对应的预计所处位置的加权数更新为所述预设权重阈值。

可选地，所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

在包括对应的所述预计所处位置的预设角度范围内，以对应的所述预计所处位置为中心，根据与对应的所述预计所处位置的相对距离，依次对各个角度位置的加权数增加对应数量，并更新各个所述角度位置的加权数。

在两个预计所处位置中与所述目标声源实际所处的位置不对应的预计所处位置的加权数上减少预设权重；

更新不对应的所述预计所处位置的加权数，并将更新后的所述预计所处位置的加权数进行存储。

可选地，在两个预计所处位置中与所述目标声源实际所处的位置不对应的预计所处位置的加权数上减少预设权重的步骤之后，所述声源定位方法还包括以下步骤：

在减小后的对应的预计所处位置的加权数小于第二预设加权数阈值时，将不对应的所述预计所处位置的加权数更新为所述第二预设加权数阈值。

可选地，在所述获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置的步骤之前，所述声源定位方法还包括以下步骤：

获取音频设备当前所处的位置，并将所述音频设备当前所处的位置与存储的历史位置进行比对；

在所述音频设备当前所处的位置与存储的历史位置不匹配时，重置所述音频设备存储的各个角度位置的加权数。

可选地，在所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

根据确定的所述目标声源的位置，控制音频设备由当前位置运动至与所述目标声源对应的预设位置。

本发明还提出一种音频设备，所述音频设备包括：

设备本体；

至少两个麦克风，设置于所述设备本体上，并在所述设备本体处于同一直线上；

所述音频设备还包括：存储器、处理器，所述存储器上存储有声源定位程序，所述声源定位程序被所述处理器执行时实现如上所述的声源定位方法的步骤。

可选地，所述音频设备还包括：

摄像头，设置于所述设备本体上；

摄像头驱动机构，设置于所述设备本体内，与所述摄像头驱动连接，在所述摄像头驱动机构的驱动下，所述摄像头驱动机构在预设路径上进行运动。

本发明音频设备可以根据所述声音信息计算所述目标声源两个预计所处位置，并获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低，并将两个预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置。本发明可以实现准确定位目标声源的实际位置，可以应用于机器人和操作面板可旋转的智能音箱中，可以利用双麦克风，并根据用户的语音呼叫习惯位置，进行加权数更新学习，使智能音箱朝向合理的方位，从而实现对目标声源的定位及跟踪，有利于提高声源定位的响应速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明声源定位方法第一实施例的流程示意图；

图2为本发明声源定位方法第二实施例的流程示意图；

图3为本发明声源定位方法第三实施例的流程示意图；

图4为本发明声源定位方法第四实施例的流程示意图；

图5为本发明声源定位方法第五实施例的流程示意图；

图6为本发明声源定位方法第六实施例的流程示意图；

图7为本发明声源定位方法第七实施例的流程示意图；

图8为目标声源在活动区域上形成的加权数曲线图；

图9为本发明音频设备与目标声源一实施例的的位置关系示意图；

图10为本发明音频设备一实施例的结构示意图；

图11为本发明音频设备的一实施例的电路结构示意图；

图12为本发明实施例方案涉及的音频设备硬件运行环境的终端结构示意图。

附图标号说明：

标号	名称	标号	名称
				10	音箱本体	310	电机驱动电路
20	操作面板	320	电机
				30	面板驱动机构	101	处理器
40	摄像头驱动机构	mic1、mic2	麦克风
				Cam1	摄像头

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明提出一种声源定位方法，应用于所述音频设备中，所述音频设备包括至少两个位于同一直线上的麦克风，该音频设备可以是智能音箱，机器人等具有麦克风的音频设备，本发明以下各实施例，以智能音箱为例进行说明。

参照图1，在本发明一实施例中，该声源定位方法包括以下步骤：

步骤S100、获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置；

本实施例中，音频设备可以设置多个麦克风，例如两个、四个等，并且，至少两个麦克风在二维平面上位于同一直线上，在设置两个麦克风的位置后，在两个麦克风均采集到声音信号时，可以记录声源信号到达两个麦克风的时间。从而可以根据声音在当前环境下的传播速度和相对时间差来计算出目标声源到达两个麦克风的距离差，进而根据距离差，以及定目标声源和麦克风之间的几何关系确定出两个麦克风与目标声源方向角与距离，根据目标声源与两个麦克风之间的位置关系，即可确定音频设备与目标声源的角度或者方位。参照图9，两个麦克风分别标记为麦克风mic1和mic2接收到声音信号的时间先后，两个麦克风之间的间距可以根据音频设备的尺寸权重高低进行设置，α是目标声源与两个直线麦克风形成的方向角，τ是目标声源到两个麦克风的时间差也就是两个麦克风接收到目标声源发出声音信号可能存在先后顺序而带来的时延，具体可以用以下公式进行表示：

τ＝|t1-t2|；

其中，t1麦克风mic1接收到声音信号的时间，t2麦克风mic2接收到声音信号的时间。当用户对着音频设备进行呼叫时，由于根据双麦克风定位输出的是相对两个麦克风的方位和距离，也就说获取到的方向角度值是两个值。即这个位置信息可能两个麦克风构成的直线的一侧(也即第一位置，图9标记为Pos1)，也可能在直线的另一侧(也即第二位置，图9标记为Pos2)，若应用在智能音箱定位声源或者机器人应答声源时，可能需要智能音箱顺时针旋转α度，也可能需要旋转-α，以对准发声的人。在这个过程中，可能会出现目标声源在α度方向，而音频设备确定定位为-α，或者可能会出现目标声源在-α度方向，而音频设备确定定位为α，出现定位不准确定的问题。在音频设备上设置有摄像头的实施例中，此时音箱需要顺时针旋转到α度的位置，然后开启摄像头看看有没有人脸信息，如果没有就需要再旋转到-α度的位置。再开启摄像头进行人脸识别，以寻找需要跟踪的人。对于当前的音箱来讲，α度和-α度的优先级是一样的，所以经常会出现用户再某一位置对进行语音呼叫后，音箱先朝第一个预计所处的位置旋转(该位置可能会没人员的活动地方)，再确定第一个预计所处的位置没有人员活动之后，再转向第二个预计所处的位置，然后需要再次确认第二个预计所处的位置是否有人的情况。

步骤S200、获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低；

可以理解的是，音频设备包括前壳和后壳，音频设备的前壳可能还设置有操作面板，音频设备的扬声器也可以设置在音频设备的前壳，在音频设备的实际应用中，用户可能会将音箱的设置有操作面板，例如显示屏，和/或扬声器的前壳朝向用户，而未设置扬声器或者操作面板的后壳靠近墙壁设置。在根据用户的使用空间的不同，可能还会存在音频设备的一个侧边也靠近墙壁设置。也即，相对音频设备而言，用户的活动区间可能仅有两侧(音箱周围90度范围)或者三侧(音箱周围度270范围)，这样，在大部分情况下，对智能音箱而言，音箱周围360度的区域内，部分区域是人员活动比较频繁的区域，部分区域是人员活动很少的区域。为此，本实施例可以对被目标声源语音呼叫的角度位置进行反复记录，并对响应语音呼叫成功的角度位置的加权数进行累加，加权数较高的角度位置则表示人员在该区域活动频率较高。可以将该角度位置标记处人员活动密集的区域，以此来对双麦克风返回的两个位置信息进行优先级排序，以实现双麦克风的快速语音跟踪。在出厂设置或者设备初始化时，可以定义与音频设备平行方向的一条线，例如以两个麦克风连线形成的直线，定位为音频设备的0度位置，以逆时针方向或者顺时针方向旋转，创建一个角度位置与加权数的表格，每一个角度对应一个加权数，在初始阶段，音频设备未使用时，所有的角度的加权数都是0，具体如下表所示。

音频设备初次使用，或者在任意角度位置被用户初次语音呼叫的过程中，在麦克风采集的声音信息，并根据声音信息计算目标声源两个预计所处位置之后，可以通过设置在音频设备上的摄像头或者红外传感器等进行校验，以确定两个预计所处位置中，具体哪一位置是目标声源当前所处的实际位置。在确定目标声源实际所处位置后，对该目标声源实际所处位置对应的加权数进行一次累加，而对侧的另一预计所处位置的加权数则不进行累加。当下一次用户再在这两个预计所处的位置进行语音呼叫时，则可以自动选择加权数比较高的预计所处的位置进行响应，并再次对该位置的加权数进行累加。以此类推，可以以音频设备为中心，对围绕音频设备周围，对成功响应目标声源的预计所处位置的加权数进行累加，而未成功响应目标声源的另一预计所处位置的加权数则不进行累加。也即，本实施例中，每定位一次目标声源实际所处位置，则对该角度位置的加权数进行一次累加。经过多次反复语音呼叫达到一定时间后，用户活动频率较高的区域对应的加权数会越来越高形成一个加权数曲线，而用户活动频率较低的区域，甚至不活动的区域对应的加权数则可能维持不变，两者形成一定的加权数权重差。

步骤S300、将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置。

本实施例中，加权数权重越高，则表示该位置处于用户活动频率较高的区域，反之，加权数权重越低，则可能因为空间环境的限制，用户不会在该区域进行活动，或者活动频率较低的区域。每次两个麦克风计算返回的两个预计所处位置中，都会有一个预计所处位置落入加权数较高的曲线范围内，根据加权数的原则，声源定位将自动落入这个曲线范围的角度位置，如此，当根据声音信息确定目标声源两个预计所处位置之后，则可以获取存储的对应预计所处位置形成的历史数据，并查询两个预计所处位置的加权数，如果两个预计所处位置加权数不一样，并比较两者的加权数权重高低，从两个预计所处位置中，选出加权数权重较高的预计所处位置，也即会优先将权重高的预计所处位置作为目标声源实际所处的位置，有利于提高声源定位的响应速度，提高人声定位和追踪效果。

参照图2，在一实施例中，所在所述获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低的步骤之后，所述声源定位方法还包括以下步骤：

步骤S400、在两个预计所处位置的加权数相同时，控制所述摄像头朝向两个所述预计所处位置中的至少一个预计所处位置进行拍摄，得到对应所述预计所处位置的待测图像；

步骤S500、根据所述待测图像，从两个所述预计所处位置中确定所述目标声源实际所处的位置。

本实施例中，在两个预计所处位置的加权数的权重相同时，表示音频设备初次使用，或者用户在这两个预计所处位置使用语音识别功能较少，或者音频设备发生了位移。此时可以控制摄像头开始工作，并控制摄像头运动至两个预计所处位置中的任意一个预计所处位置对应的角度位置，并对该预计所处位置进行拍摄，并根据摄像头拍摄的待测图像确定该预计所处位置是否有人员活动，当确定该预计所处位置有人员活动时，确定目标声源在该预计所处位置，也即该位置为目标声源实际所处位置，此时可以控制摄像头停止运动，从而将摄像头固定在该角度位置，也即正对目标声源设置。当确定该预计所处位置没有人员活动时，确定目标声源不在该预计所处位置，也即该位置不是目标声源实际所处位置，此时可以将未进行拍摄的另一个预计所处位置作为目标声源实际所处位置。

或者，进一步控制摄像头继续运动至两个预计所处位置中的另一个预计所处位置对应的角度位置，并对该预计所处位置进行拍摄，并根据摄像头拍摄的待测图像确定该预计所处位置是否有人员活动，当确定该预计所处位置有人员活动时，确定目标声源在该预计所处位置，也即该位置为目标声源实际所处位置，此时可以控制摄像头停止运动，从而将摄像头固定在该角度位置，也即正对目标声源设置。

上述实施例中，可以根据摄像头拍摄的待测图像是否拍摄到人体特定部位，具体可以是人脸，确定目标声源的位置，例如当从待测图像中识别出人脸正对摄像头，或者有效部位在识别范围内时，可以确定该位置为目标声源实际所处位置。

参照图3，在一实施例中，在步骤S300、将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

步骤S610、在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重；

步骤S630、更新对应的所述预计所处位置的加权数，并将更新后的所述预计所处位置的加权数进行存储。

本实施例中，预设权重可以根据音频设备的使用频率进行设置，并且可以根据实际需求进行调整，本实施例预设权重可以设置为20～40，可选为30。在确定两个预计所处位置中具体哪一位置是目标声源当前所处的实际位置后，可以每定位一次目标声源实际所处位置，则对该角度位置的加权数进行一次累加，具体而言，在该目标声源实际所处位置为初次被用户处在该位置进行语音呼叫时，该目标声源实际所处位置与另一未作为目标声源实际所处位置的预计所处位置的加权数均可以设置为0，或者设置为任意相同的起始值。每在目标声源处于该位置并进行一次语音呼叫时，在响应了该目标声源实际所处位置之后，则对该预计所处位置的加权数上增加预设权重。例如用户第一次在该位置进行语音呼叫时，在初始值为0的基础上增加30，以此累计叠加，在第一次响应后，将该预计所处位置的加权数则更新为30并存储。用户第二次在该位置进行语音呼叫时，该预计所处位置的加权数为30，而另一未作为目标声源实际所处位置的预计所处位置的加权数仍然为0，因此会选择加权数为30的预计所处位置作为目标声源实际所处位置，第二次响应后，将该预计所处位置的加权数在30的基础上增加30，并将该预计所处位置的加权数则更新为60并存储，而另一未作为目标声源实际所处位置的预计所处位置的加权数仍然为0。如此，语音呼叫响应次数越多的角度，其加权数越大，经过多次累加之后，可以筛选出用户活动频率较高的区域，和用户活动频率较低，甚至不活动的区域对应的加权数。

需要说明的是，在用户活动频率较高的区域形成权重加高的加权数之后，用户的使用习惯可能会发生改变，单纯的重复叠加加权数会使加权数在某一个方向膨胀很多，此时如果用户在反方向呼叫时，需要用户重复很多次才能够将加权表格调整到合适的数值。具体而言，以45度为用户习惯语音呼叫位置，315度为用户不常用语音呼叫位置(例如一次都未在该位置进行语音呼叫)为例进行说明。当用户在45度进行五次的语音呼叫后，该位置的每次以20的权重进行叠加，加权数将高达100，而315度由于未被用户在此位置上进行语音呼叫，该位置的加权数可能仍然为0。当用户更改为在315度进行常用语音呼叫时，至少需要通过摄像头进行五次以上的校验，以及五次以上的加权数更新，才会将315度作为用户活动频率较高的区域。这样，将不利于目标声源的快速定位。

为了解决这个问题，在一实施例中，步骤S610、在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重的步骤之后，所述声源定位方法还包括以下步骤：

步骤S620、在增加后的对应的预计所处位置的加权数大于或者等于第一预设加权数阈值时，将对应的预计所处位置的加权数更新为所述第一预设加权数阈值。

本实施例中，每次对目标声源所处的实际位置的加权数累加完毕后，在更新该位置的加权数之前，先将累加后的目标声源所处的实际位置的加权数与第一预设加权数阈值进行比较，当累加后的目标声源所处的实际位置的加权数大于或者等于第一预设加权数阈值时，则将对应的预计所处位置的加权数更新为所述第一预设加权数阈值，也即将加权数值大于或者等于第一预设加权数阈值的加权数强制修改为第一预设加权数阈值。而当累加后的目标声源所处的实际位置的加权数小于第一预设加权数阈值时，则继续对该目标声源所处的实际位置的加权数进行累加，直至达到第一预设加权数阈值。这样，可以将用户活动频繁区域的加权数限制在一定数值内，这样如果用户改为在加权数另一端，也即用户不常活动区域进行语音呼叫，则另一端的加权数可以很快的超过当前端，也即活动频繁区域的加权数，以加快学习的速度。其中，第一预设加权数阈值可以设置为目标声源所处的实际位置的加权数累计两次叠加后的数值，例如在每次叠加30的实施例中，第一预设加权数阈值可以设置为60。这样，当用户在某一位置，例如45度进行五次的语音呼叫后，该位置的加权数仍然为60。当用户更改为在315度进行常用语音呼叫时，仅需要通过摄像头进行两次的校验和加权数叠加，即可达到与45度相同的加权数。

步骤S640、在包括对应的所述预计所处位置的预设角度范围内，以对应的所述预计所处位置为中心，根据与对应的所述预计所处位置的相对距离，依次对各个角度位置的加权数增加对应数量，并更新各个所述角度位置的加权数。

可以理解的是，用户除了在音频设备的某一具体角度内活动外，还可能在该角度的左右范围内进行活动，也即用户可能在某一角度区间内较为频繁的活动。为此，在将目标声源定位为一具***置后，还可以以该位置为中心，将该目标声源实际所处位置角度左右预设角度范围内，例如目标声源实际所处位置角度左右29度的角度位置的加权数根据与该目标声源实际所处位置的距离关系，分别加上对应数量的加权数，具体可以根据以下公式(1)，以此来调整各个角度位置的加权数θ：

θ＝β-n； (1)

其中，θ为各个角度位置的加权数，β为目标声源实际所处位置在该次响应后增加的预设权重数，例如30，n为与目标声源实际所处位置之间的相对角度距离。在一具体实施例中，当确定的目标声源的实际位置为在音频设备的45度方向时，且45度为第一次响应，因此在45度的加权数上增加30后，其加权数更新为30，而与其相邻的角度，例如44度和46度的加权数则更新为29，依次类推，远离其设置的角度的加权数则更新为28，27，26……0。或者，以该位置为中心，将该目标声源实际所处位置角度左右预设角度范围内，例如目标声源实际所处位置角度左右45度的角度位置γ的加权数θ根据与该位置α的绝对距离分别加上对应数量的加权数，具体可以根据以下公式(2)，以此来调整各个角度位置的加权数θ：

θ＝θ+β*tan(abs(45-γ-α)) (2)

其中，θ为各个角度位置的加权数，β为目标声源实际所处位置在该次响应后增加的预设权重数，例如30，γ为包括对应的所述预计所处位置的预设角度范围的任意角度位置，α为目标声源实际所处位置。

采用上述两个公式对包括对应的所述预计所处位置的预设角度范围内，以对应的所述预计所处位置为中心，根据与对应的所述预计所处位置的相对距离的各个角度位置的加权数进行增加对应数量后，各个角度经过加权之后的各个角度的数值可以参照图8。由此可知，经过多次反复语音呼叫达到一定时间后，用户活动频率较高的区域对应的加权数会越来越高形成一个加权数曲线，而用户活动频率较低的区域，甚至不活动的区域对应的加权数则可能维持不变，两者形成一定的加权数权重差。

参照图4，在一实施例中，所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

步骤S650、在两个预计所处位置中与所述目标声源实际所处的位置不对应的预计所处位置的加权数上减少预设权重；

步骤S660、更新不对应的所述预计所处位置的加权数，并将更新后的所述预计所处位置的加权数进行存储。

本实施例中，每次对目标声源所处的实际位置的加权数累加完毕后，并进行更行的同时，还可以对目标声源所处的实际位置相对两个麦克风连线形成直线另一侧的预计所处位置的加权数进行相应数量的减少。并且预设权重可以根据音频设备的使用频率进行设置，并且可以根据实际需求进行调整，本实施例预设权重可以设置为20～40，可选为30。在确定两个预计所处位置中具体哪一位置是目标声源当前所处的实际位置后，则对另一未作为目标声源实际所处位置的预计所处位置的加权数减少相应数值。也即，每在目标声源处于该位置并进行一次语音呼叫时，在响应了该目标声源实际所处位置之后，则对该预计所处位置的加权数上增加预设权重，同时对另一未作为目标声源实际所处位置的预计所处位置的加权数上增加预设权重。以45度为用户习惯语音呼叫位置，315度为用户不常用语音呼叫位置(例如一次都未在该位置进行语音呼叫)为例进行说明。在用户在45度进行多次的语音呼叫后，该位置的加权数达到第一预设阈值，例如60后，用户更改为在315度进行常用语音呼叫。当确定两个预计所处位置分别为315度和45度，并且根据摄像头校验，确定315度为目标声源实际所处的位置，45度则为另一未作为目标声源实际所处位置的预计所处位置。也即用户第一次在315度进行语音呼叫，而不在45度进行语音呼叫时，在315度的加权数初始值为0的基础上增加30，并将该315的加权数更新为30后存储，同时将45度的加权数减少30，并将该45的加权数更新为30后存储。

用户第二次在该315度位置进行语音呼叫时，根据摄像头校验后，确定315度继续为目标声源实际所处的位置，第二次响应后，将该315度所对应预计所处位置的加权数在30的基础上增加30，并将该预计所处位置的加权数则更新为60并存储，而另一未作为目标声源实际所处位置的预计所处位置的加权数则减少为0。如此，语音呼叫响应次数越多的角度，其加权数越大，经过多次累加之后，可以筛选出用户活动频率较高的区域，和用户活动频率较低，甚至不活动的区域对应的加权数。这样，当用户在某一位置，例如45度进行五次的语音呼叫后，该位置的加权数仍然为60。当用户更改为在315度进行常用语音呼叫时，仅需要通过摄像头进行两次的校验和加权数叠加，即可达到与45度相同的加权数，另一端(315度)可以很快的超过当前端(45度)的加权数，以加快学习的速度。

参照图5，在一实施例中，步骤S650、在两个预计所处位置中与所述目标声源实际所处的位置不对应的预计所处位置的加权数上减少预设权重的步骤之后，所述声源定位方法还包括以下步骤：

步骤S660、在减小后的对应的预计所处位置的加权数小于第二预设加权数阈值时，将不对应的所述预计所处位置的加权数更新为所述第二预设加权数阈值。

为了避免不常活动，或者不活动的区域的加权数减少至较低，再在该区域的加权数上进行语音呼叫时，需要多次学习，本实施例中，每次对目标声源所处的实际位置的对端的加权数累减完毕后，在更新该位置的加权数之前，先将累减后的目标声源所处的实际位置的加权数与第二预设加权数阈值进行比较，当累减后的目标声源所处的实际位置的加权数小于或者等于第二预设加权数阈值时，则将对应的预计所处位置的加权数更新为所述第二预设加权数阈值，也即将加权数值小于或者等于第二预设加权数阈值的加权数强制修改为第二预设加权数阈值。而当累减后的目标声源所处的实际位置的加权数大于第二预设加权数阈值时，则继续对该目标声源所处的实际位置的加权数进行累减，直至达到第二预设加权数阈值。其中，第二预设加权数阈值可以设置为在从第一预设加权数阈值的基础上两次累减后的数值，例如第一预设加权数阈值设置为60时，第二预设加权数阈值可以设置为0。这样，可以将用户不常活动区域的加权数限制在一定数值内，如果用户改为在用户不常活动区域进行语音呼叫，则加权数可以很快的超过活动频繁区域的加权数，以加快学习的速度。

参照图6，在一实施例中，在所述获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置的步骤之前，所述声源定位方法还包括以下步骤：

步骤S700、获取所述音频设备当前所处的位置，并将所述音频设备当前所处的位置与存储的历史位置进行比对；

步骤S800、在所述音频设备当前所处的位置与存储的历史位置不匹配时，重置所述音频设备存储的各个角度位置的加权数。

本实施例中，可以在音频设备的设置一个三轴地磁传感器，音频设备内部可以持久保留一个地磁传感器数据信息。出厂时该数据信息为(-1，-1，-1)，代表一个不存在的地磁数据。当用户在使用音频设备时，可以先读取地磁传感器当前感应的数据，并与持久保存的地磁数据进行对比，如果两个数据不一样，代表音频设备已经发生了位移，此时可以将该当前地磁数据存储为持久保留的地磁传感器数据信息，并初始化加权表，将加权表全部清零。

当初次使用时，读取地磁传感器当前感应的数据，而持久保存的数据在音箱出厂的时候是(-1，-1，-1)，是一个不存在的方位角，必然跟初次使用时读取的数据不一致，所以出厂后用户第一次开机也会初始化加权表。

或者，用户更新了音频设备的位置，例如从一个空间位置搬移到另一空间位置时，或者将音频设备将音频设备在同一个空间内，由一个位置搬移到另一个位置，而产生了位移时，可以先读取地磁传感器当前感应的数据，并与存储的历史位置，也即持久保持的地磁数据进行对比，如果两个数据不一样，代表音频设备已经发生了位移，此时同样进行初始化加权表，将加权表全部清零。

参照图7，在一实施例中，在所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

步骤S900、根据确定的所述目标声源的位置，控制所述音频设备由当前位置运动至与所述目标声源对应的预设位置。

本实施例中，音频设备可以在原地转动至预设角度，以将音频设备正对目标声源，例如扬声器或则会操作面板等，也可以在机械脚、滑轮等的作用下，运动至目标声源的位置。在一些实施例中，音频设备还可设设置有操作面板及可驱动操作面板运动的驱动机构，通过驱动机构带动操作面板转动，以使操作面板能够正对用户。驱动机构可以驱动操作面板出正转、反转，从而实现水平方向的左右旋转，或者实现竖直方向的上下旋转。驱动机构或者驱动操作面板进行三维空间不同角度的旋转。该操作面板可以是触摸面板，也可以是按键面板，还可以是触摸显示屏，显示屏能够根据声源方位或者人型位置灵活转动，将屏幕旋转不同的角度，以使屏幕对准说话的人，从而使用户进行触屏操作，或者观看操作面板，如显示屏显示的内容。其中，操作面板的位置为与目标声源正对的位置。

还可以理解的是，在驱动操作面板旋转之前，还可以获取操作面板的当前位置与目标声源的实际位置，以判断操作面板是否与用户正对，当根据上述方式确定智能音箱的操作面板与用户并不正对时，例如用户在智能音箱的后方、侧方等发出语音指令，或者用户由正对移动至与智能音箱呈角度设置，或者移动至智能音箱的后方，或者用户靠近智能音箱且在智能音箱的侧方或者后方时，则可以确定操作面板与用户不正对，根据操作面板的当前位置角度以及确定的目标声源的角度之间的角度差，计算面板需要旋转的角度，进而驱动操作面板旋转角度差的距离，也即控制驱动机构驱动操作面板由当前位置移动至运动与目标声源对应的预设位置，也即与用户正对的位置，以便用户操作操作面板。在确定操作面板与用户正对时，例如两者的角度差为0度，或者预设角度差内时，则操作面板不需要转动，维持当前位置即可。

本发明还提出一种音频设备。

参照图10至图11，音频设备包括：

设备本体10；

至少两个麦克风，设置于所述设备本体10上，并在所述设备本体10处于同一直线上；所述音频设备还包括：存储器、处理器，所述存储器上存储有声源定位程序，所述声源定位程序被所述处理器执行时实现如上所述的声源定位方法的步骤。

本实施例中，存储器105可用于存储软件程序以及各种数据。存储器105可主要包括存储程序区和存储数据区，可选地，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据音频设备的使用所创建的数据(比如音频数据、目标声源常用角度等)等。可选地，存储器105可以包括高速随机存取存储器105，还可以包括非易失性存储器105，例如至少一个磁盘存储器105件、闪存器件、或其他易失性固态存储器105件。

其中，处理器101是声源定位中心，利用各种接口和线路连接整个音频设备的各个部分，通过运行或执行存储在存储器105内的软件程序和/或模块，以及调用存储在存储器105内的数据，执行音频设备的各种功能和处理数据，从而对音频设备进行整体监控。处理器101可包括一个或多个处理单元；可选地，处理器101可集成应用处理器101和调制解调处理器101，可选地，应用处理器101主要处理操作***、操作面板20数据和应用程序等，调制解调处理器101主要处理无线通信。可选地，上述调制解调处理器101也可以不集成到处理器101中。本发明音频设备可以根据所述声音信息计算所述目标声源两个预计所处位置，并获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低，并将两个预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置。本发明可以实现准确定位目标声源的实际位置，可以应用于机器人和操作面板20可旋转的智能音箱中，可以利用双麦克风mic1、mic2，并根据用户的语音呼叫习惯位置，进行加权数更新学习，使智能音箱朝向合理的方位，从而实现对目标声源的定位及跟踪，例如智能音箱应用于视频会议时通过本发明的声源定位可为视频会议中的发言人跟踪定位。或者智能音箱应用于智能家居时，也可以通过操作面板20对目标声源定位，使操作面板20始终面度用户。在音频设备为智能音箱的实施例中，智能音箱中设置有扬声器，同时还可以设置有无线通讯模块等，例如可以是蓝牙、WIFI、蓝牙功能、超声波收发模块等通讯模块中的任意一种或者多种组合。麦克风mic1、mic2可以用于接收语音信息，用户向智能音箱输出声音信息可以实现与智能音箱的人机交互，智能音箱也可以实现与其他设备之间的语音通讯。智能音箱可以接收语音信息，并实现目标声源定位，以实现音视频播放、语音通话、语音助手、物联网控制、多个音箱级联等。

参照图10至图11，在一实施例中，所述音频设备还包括：

摄像头Cam1，设置于所述设备本体10上；

摄像头驱动机构40，设置于所述设备本体10内，与所述摄像头Cam1驱动连接，在所述摄像头驱动机构40的驱动下，所述摄像头驱动机构40在预设路径上进行运动，以驱动所述摄像头Cam1朝向所述目标声源实际所处的位置。本实施例中，摄像头Cam1可以设置于音频设备的壳体顶端，摄像头驱动机构40可以采用电机来实现，摄像头Cam1通过电机等驱动部件驱动其运动，摄像头Cam1在电机的带动下可以在一水平面上做圆周运动，以对围绕音频设备周围位置的用户进行拍照。在应用于上述声源定位方法中时，摄像头Cam1可以对双麦克声源定位进行辅助的跟踪，具体可以应用于用户初次使用语音呼叫功能，或者用户在某一具***置上初次进行语音呼叫，或者音频设备的位移发生了变化等情况下，在获取两个位于同一直线上的麦克风采集的声音信息，并根据声音信息计算目标声源两个预计所处位置之后，控制摄像头Cam1运动至两个预计所处位置中的任意一个预计所处位置对应的角度位置，并对该预计所处位置进行拍摄，并根据摄像头Cam1拍摄的待测图像确定该预计所处位置是否有人员活动。摄像头Cam1还可以用于利用加权数的双麦克声源定位中，在将两个预计所处位置中加权数权重较高的预计所处位置确定为目标声源实际所处的位置之后，再通过摄像头Cam1来验证目标声源是否在加权数权重较高的预计所处位置。例如，在初次使用加权数权重较高的预计所处位置作为目标声源实际所处的位置，或者在将用户不常活动区域的预计所处位置作为目标声源实际所处的位置等。当用户在频繁活动的区域进行语音呼叫的次数达到预设次数，例如3次，5次，10次等，则可以不使用摄像头Cam1进行辅助定位，以提高声源定位速度。

参照图10至图11，在一实施例中，所述音频设备还包括：

操作面板20，设置于所述设备本体10上，所述操作面板20与所述设备本体10活动连接；

面板驱动机构30，设置于所述设备本体10内，所述驱动机构用于驱动所述操作面板20相对于所述设备本体10运动；或者，

所述操作面板20与所述设备本体10固定连接，所述音频设备还包括底座，所述面板驱动机构30设置于所述底座上，所述面板驱动机构30用于驱动所述设备本体10相对对于所述底座运动。

本实施例中，操作面板20可以获取用户触发操作面板20而产生的用户指令。具体而言，操作面板20，例如触摸屏可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操作面板20上或在操作面板20附近的操作)，并根据预先设定的程式驱动相应的连接装置。操作面板20可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，通过触摸检测装置可以检测人的手指是否触摸了显示屏，并能够将人手触摸的信息，并将它转换成触点坐标，从而产生与用户指令对应的控制触摸信息，例如点亮显示屏，调节音量，切换歌曲，调节音效等。

参照图10至图11，在一实施例中，所述操作面板20与所述设备本体10活动连接，所述面板驱动机构30设置于所述设备本体10内，所述面板驱动机构30用于驱动所述操作面板20相对于所述设备本体10运动；

或者，所述操作面板20与所述设备本体10固定连接，所述音频设备还包括底座，所述面板驱动机构30设置于所述底座上，所述面板驱动机构30用于驱动所述设备本体10相对对于所述底座运动。

本实施例中，操作面板20可以与设备本体10活动连接，在面板驱动机构30驱动操作面板20运动时，操作面板20相对设备本体10运动，具体可以驱动操作面板20出正转、反转，从而实现水平方向的左右旋转，或者实现竖直方向的上下旋转。面板驱动机构30或者驱动操作面板20进行三维空间不同角度的旋转。面板驱动机构30还可以驱动设备本体10和操作面板20一起运动，具体而言，操作面板20固定安装于设备本体10上，在需要将操作面板20转动至预设位置时，则可以通过转动设备本体10运动，在设备本体10的带动下，驱动面板转动至该预设位置。

本发明还提出一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器101执行时实现如上所述的智能音箱控制方法的步骤。在本发明提供的智能音箱和计算机可读存储介质的实施例中，包含了上述智能音箱控制方法各实施例的全部技术特征，说明书拓展和解释内容与上述方法的各实施例基本相同，在此不做再赘述。

参照图12，本发明实施例的终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。如图1所述，该终端可以包括处理器101(例如CPU)，通信总线102，用户接口103，网络接口104，存储器105。其中，通信总线102用于实现这些组件之间的连接通信；用户接口103可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口104可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器105可以是高速RAM存储器105，也可以是稳定的存储器105(non-volatile memory)，例如磁盘存储器105，存储器105可选的还可以是独立于前述处理器101的存储装置。

本领域技术人员可以理解，图12中示出的智能音箱硬件运行环境的终端结构并不构成对本发明智能音箱的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种声源定位方法，其特征在于，所述声源定位方法包括以下步骤：

2.如权利要求1所述的声源定位方法，其特征在于，在所述获取两个所述预计所处位置存储的加权数，并比较两个所述预计所处位置存储的加权数权重高低的步骤之后，所述声源定位方法还包括以下步骤：

3.如权利要求1所述的声源定位方法，其特征在于，所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置，所述声源定位方法还包括以下步骤：

4.如权利要求3所述的声源定位方法，其特征在于，所述在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重的步骤之后，所述声源定位方法还包括以下步骤：

5.如权利要求3所述的声源定位方法，其特征在于，所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

6.如权利要求1所述的声源定位方法，其特征在于，所述在两个预计所处位置中与所述目标声源实际所处的位置对应的预计所处位置的加权数上增加预设权重的步骤之后，所述声源定位方法还包括以下步骤：

7.如权利要求6所述的声源定位方法，其特征在于，在两个预计所处位置中与所述目标声源实际所处的位置不对应的预计所处位置的加权数上减少预设权重的步骤之后，所述声源定位方法还包括以下步骤：

8.如权利要求1-7任意一项所述的声源定位方法，其特征在于，在所述获取两个位于同一直线上的麦克风采集的声音信息，根据所述声音信息计算目标声源两个预计所处位置的步骤之前，所述声源定位方法还包括以下步骤：

9.如权利要求1-7任意一项所述的声源定位方法，其特征在于，在所述将两个所述预计所处位置中加权数权重较高的预计所处位置确定为所述目标声源实际所处的位置的步骤之后，所述声源定位方法还包括以下步骤：

10.一种音频设备，其特征在于，所述音频设备包括：

设备本体；

所述音频设备还包括：存储器、处理器，所述存储器上存储有声源定位程序，所述声源定位程序被所述处理器执行时实现如权利要求1至9中任一项所述的声源定位方法的步骤。

11.如权利要求10所述的音频设备，其特征在于，所述音频设备还包括：

摄像头，设置于所述设备本体上；