CN109284081A

CN109284081A - 一种音频的输出方法、装置及音频设备

Info

Publication number: CN109284081A
Application number: CN201811102136.8A
Authority: CN
Inventors: 陈海新
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-01-29
Anticipated expiration: 2038-09-20
Also published as: CN109284081B

Abstract

本申请实施例公开了一种音频的输出方法、装置及音频设备，应用于音频设备，所述音频设备中包括音频输出单元，所述方法包括：获取目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。通过本方法，可以定向的输出音频数据，提高用户体验。

Description

一种音频的输出方法、装置及音频设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频的输出方法、装置及音频设备。

背景技术

随着计算机技术的飞速发展，声音搜索在搜索引擎中占据了较大的使用比重，目前的音频设备中大多能实现声音搜索功能，为用户的日常生活与工作提供了便利，音频设备可以通过对用户发出的声音指令进行语义识别，通过语义识别的结果向用户输出相应的音频数据。

通常，音频设备只能对用户的声音进行语义分析，向用户输出需要的音频数据。但是随着人们需求的增长，传统的音频设备已经不能满足人们的生活需求。

同一环境下，可能会存在多人，在此情况下，如果用户使用音频设备，则该音频设备发出的音频数据可能会对其他人造成干扰。例如，在一个家庭中，爸爸妈妈想听首歌，而孩子正在写作业，如果打开音频设备，则会对孩子造成干扰。

发明内容

本申请实施例的目的是提供一种音频的输出方法、装置及音频设备，以解决现有技术中音频设备在同一环境下，对目标用户输出音频数据的过程中，会造成对其他人的干扰，无法满足用户需求，造成用户体验差问题。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供的一种音频的输出方法，所述方法包括：

获取目标用户的位置信息；

根据所述目标用户的位置信息，确定音频输出方向和音频输出功率；

根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。

可选地，所述目标用户的位置信息包括：

所述目标用户相对于所述音频设备的方向，以及所述目标用户与所述音频设备之间的距离；

所述根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，包括：

根据所述目标用户相对于所述音频设备的方向，确定音频输出方向；

根据所述目标用户与所述音频设备之间的距离，确定音频输出功率。

可选地，所述音频设备中还包括摄像头，所述在获取目标用户的位置信息之前，所述方法还包括：

确定所述目标用户的用户标识；

获取所述用户标识对应的第一人脸特征；

从所述摄像头拍摄的图像中获取与所述第一人脸特征相匹配的人脸图像，并将所述人脸图像对应的用户确定为所述目标用户。

可选地，所述确定所述目标用户的用户标识，包括：

接收输入的定向发声指令；

对所述定向发声指令进行声纹识别，根据所述声纹识别结果，确定输入所述定向发声指令目标用户的用户标识。

可选地，所述获取目标用户的位置信息，包括：

通过所述摄像头拍摄的图像，确定所述目标用户的人脸所在的位置，根据所述目标用户的人脸所在的位置，确定所述目标用户相对于所述音频设备的方向；

基于光脉冲测距机制获取所述目标用户与所述音频设备之间的距离。

可选地，所述从所述摄像头拍摄的图像中获取与所述第一人脸特征相匹配的人脸图像，包括：

通过所述摄像头拍摄图像；

提取所述图像中的第二人脸特征，将所述第二人脸特征与所述第一人脸特征进行匹配；

如果所述第二人脸特征与所述第一人脸特征相匹配，则获取所述第二人脸特征对应的人脸图像。

可选地，所述根据所述目标用户相对于所述音频设备的方向，确定音频输出方向，包括：

根据所述目标用户相对于所述音频设备的方向，确定所述目标用户的移动轨迹；

根据所述目标用户的移动轨迹，确定所述音频输出单元在所述音频设备内的移动轨迹；

基于所述音频设备内的移动轨迹，确定所述音频输出方向。

可选地，所述目标用户包括多个，所述音频输出单元包括多个，每个所述目标用户对应一个或多个所述音频输出单元，所述根据所述目标用户的移动轨迹，确定所述音频输出单元在所述音频设备内的移动轨迹，包括：

根据每个所述目标用户的移动轨迹，分别确定与每个所述用户标识对应的音频输出单元的移动轨迹。

第二方面，本申请实施例提供的一种音频的输出装置，所述装置中包括音频输出单元，所述装置包括：

获取模块，用于获取目标用户的位置信息；

确定模块，用于根据所述目标用户的位置信息，确定音频输出方向和音频输出功率；

输出模块，用于根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。

可选地，所述目标用户的位置信息包括：

所述确定模块，包括：

方向确定单元，用于根据所述目标用户相对于所述音频设备的方向，确定音频输出方向；

功率确定单元，用于根据所述目标用户与所述音频设备之间的距离，确定音频输出功率。

可选地，所述装置中还包括摄像头，所述装置还包括：

确定标识模块，用于确定所述目标用户的用户标识；

获取特征模块，用于获取所述用户标识对应的第一人脸特征；

匹配模块，用于从所述摄像头拍摄的图像中获取与所述第一人脸特征相匹配的人脸图像，并将所述人脸图像对应的用户确定为所述目标用户。

可选地，所述确定标识模块，包括:

接收单元，用于接收输入的定向发声指令；

识别单元，用于对所述定向发声指令进行声纹识别，根据所述声纹识别结果，确定输入所述定向发声指令目标用户的用户标识。

可选地，，所述确定模块，包括：

确定方向单元，用于通过所述摄像头拍摄的图像，确定所述目标用户的人脸所在的位置，根据所述目标用户的人脸所在的位置，确定所述目标用户相对于所述音频设备的方向；

确定距离单元，用于基于光脉冲测距机制获取所述目标用户与所述音频设备之间的距离。

可选地，所述匹配模块，包括：

图像获取单元，用于通过所述摄像头拍摄图像；

提取单元，用于提取所述图像中的第二人脸特征，将所述第二人脸特征与所述第一人脸特征进行匹配；

确定图像单元，用于如果所述第二人脸特征与所述第一人脸特征相匹配，则获取所述第二人脸特征对应的人脸图像。

可选地，所述确定输出方向单元，用于：

基于所述音频设备内的移动轨迹，确定所述音频输出方向。

可选地，所述目标用户包括多个，所述音频输出单元包括多个，每个所述目标用户对应一个或多个所述音频输出单元，所述确定输出方向单元，用于：

第三方面，本申请实施例提供一种音频设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述实施例提供的音频的输出方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述实施例提供的音频的输出方法的步骤。

由以上本申请实施例提供的技术方案可见，本申请实施例通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种音频的输出方法实施例的流程图；

图2为本申请另一种音频的输出方法实施例的流程图；

图3为本申请一种音频设备距离探测方法的示意图；

图4为本申请一种音频输出单元移动轨迹的显示示意图；

图5为本申请一种音频的输出装置的结构示意图；

图6为本申请一种音频设备的结构示意图。

具体实施方式

本申请实施例提供一种音频的输出方法、装置及音频设备。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一

如图1所示，本申请实施例提供一种音频的输出方法，该方法的执行主体可以为音频设备，该音频设备可以如音箱、具有音频输出功能的视频设备，以及其它具有音频输出功能的设备等，该音频设备中包括音频输出单元，该音频输出单元可以在该音频设备中移动，该方法可以实现音频的定向输出。该方法具体可以包括以下步骤：

在步骤S102中，获取目标用户的位置信息。

其中，目标用户可以是需要向其定向输出音频数据的用户。位置信息可以是用户与音频设备之间的距离，或是用户的坐标信息等，也可以包括用户相对于音频设备的所在的方向等。

在实施中，随着计算机技术的飞速发展，声音搜索在搜索引擎中占据了较大的使用比重，目前音频设备中大多能实现声音搜索功能，为用户的日常生活与工作提供了便利，音频设备可以通过对用户发出的声音指令进行语义识别，通过语义识别的结果向用户输出相应的音频数据。通常，音频设备只能对用户的声音进行语义分析，向用户输出需要的音频数据。有的音频设备中还配置有摄像头部件，用户可以通过音频设备拍照或视频，但是随着人们需求的增长，传统的音频设备已经不能满足人们的生活需求。在同一环境下，可能会存在多个人，在此情况下，当某一用户需使用音频设备时，该音频设备发出的音频数据就可能会对其他人造成干扰。例如，在一个家庭中，爸爸妈妈想听首歌，而孩子正在写作业，如果打开音频设备，则会对孩子造成干扰。音频设备在向目标用户输出音频数据的过程中，会对其他人造成干扰，不能满足用户的定向发声的需求，造成用户体验差。为此，本申请实施例提供一种能够解决上述问题的技术方案，具体可以包括以下内容：

音频设备中可以配置有能获取用户位置信息的机制，例如，可以通过对图像进行分析的方式确定用户位置信息，或者，可以通过图像和距离探测方式确定用户位置信息等。具体地，如音频设备中可以包括摄像头、测距仪等组件，当某用户(即目标用户)需要使用音频设备中定向发声的功能时，音频设备可以开启摄像头，此时，目标用户可以站立在距离音频设备一定距离的指定位置，可以预先设置摄像头在上述指定位置处获取图像，并将该图像中的用户作为目标用户。目标用户可以站立在指定位置后，摄像头可以拍摄该指定位置处的图像，并可以将该图像中的用户作为需要向其定向输出音频数据的目标用户。然后，目标用户可以随意走动，在此过程中，摄像头可以继续拍摄目标用户的图像，并可以对拍摄的图像进行分析，确定目标用户的位置信息。

在实际应用中，除了可以通过摄像头确定用户的位置信息外，还可以使用激光测距仪、电子测距仪等组件来获取用户的位置信息，具体可以根据实际情况设定，本申请实施例对此不做限定。

在步骤S104中，根据目标用户的位置信息，确定音频输出方向和音频输出功率。

其中，音频输出单元可以是音频设备中可移动的定向发声部件，例如，可以进行定向发声的超声波喇叭等。

在实施中，位置信息可以包括目标用户与音频设备之间的距离，以及目标用户相对于音频设备的方向等，其中，目标用户与音频设备之间的距离可以具体如3米或2米等，目标用户相对于音频设备的方向可以是正东方向或相对于某指定的参照物确定的方向等。通过步骤S102得到目标用户所在的位置信息后，可以根据目标用户相对于音频设备的方向，确定音频输出单元的音频输出方向，并可以根据用户与音频设备之间的距离，确定音频输出单元的音频输出功率。其中，音频设备可以根据预设的音频输出功率规则来设定输出功率，输出功率可以与距离成正比，即距离越大，输出功率越大，比例系数可以设定为1、3或5等。例如，获得的用户位置信息可以是：用户在距离音频设备正东2米的位置，且如果音频输出功率与距离之间的比例系数设定为2，则音频设备的音频输出方向就可以是正东方向，音频输出功率可以是4(即2*2)瓦。

在步骤S106中，根据音频输出方向和音频输出功率，控制音频输出单元输出音频数据。

其中，音频数据可以是音频设备中存储的音频数据，或是音频设备通过有线或无线的方式连接到的存储有音频数据的终端设备或服务器上，获取到的音频数据，也可以是音频设备连接到终端设备或服务器后，在线获取的音频数据等。

在实施中，目标用户可以输入音频数据的名称(具体如歌曲名称、相声的名称等)，具体地，音频设备中可以设置有如麦克风等语音采集部件，语音采集部件可以处于实时开启状态，当目标用户发出该音频数据的名称的语音时，音频设备可以通过音频设备的语音采集部件，采集目标用户发出的语音，从而得到目标用户输入的音频数据的名称。音频设备获取到对应的音频数据名称后，可以获取相应的音频数据，具体地，音频设备可以向某指定的智能设备(如手机、平板电脑或服务器等)发送该音频数据的获取请求，该智能设备可以获取该音频数据，并将该音频数据发送给音频设备，音频设备由此获得需要输出的音频数据。音频设备获取到该音频数据后，可以根据步骤S104确定的音频输出方向和音频输出功率，控制音频输出单元朝向音频输出方向，并以音频输出功率，向目标用户输出该音频数据。

本申请实施例提供一种音频的输出方法，通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。

实施例二

如图2所示，本申请实施例提供一种音频的输出方法，该方法的执行主体可以为音频设备，该音频设备可以如音箱、具有音频输出功能的视频设备，以及其它具有音频输出功能的设备等，该音频设备中包括音频输出单元，该音频输出单元可以在该音频设备中移动，该方法可以实现音频的定向输出。该方法具体可以包括以下步骤：

在步骤S202中，接收输入的定向发声指令。

其中，定向发声指令可以是指示音频设备使用定向发声模式进行音频输出的指令，定向发声指令可以通过用户输入的任意包含某个或多个关键字的语音实现，其中的关键字可以是“开启”、“启动”、“定向”等。

在实施中，音频设备中可以设置有麦克风等部件，当用户对音频设备发出指令时，麦克风采集用户发出的指令，音频设备可以对该指令进行语义分析，如果分析后确定定向发声指令中包含启动定向发声的关键字，则音频设备可以确定用户输入的指令为定向发声指令，此时，音频设备可以将当前的工作模式切换到定向发声模式。例如，用户可以朝向音频设备所在的位置发出“请开启定向声音模式”的语音，音频设备的麦克风可以采集用户发出的语音，音频设备可以对该语音进行语义分析，通过语义分析可以从上述语音中提取出“开启”和“定向”等关键字，此时，音频设备可以确定用户输入的语音为定向发声指令。

在步骤S204中，对定向发声指令进行声纹识别，根据声纹识别结果，确定输入定向发声指令目标用户的用户标识。

其中，声纹识别可以是对定向发声指令进行信号处理，然后提取出定向发声指令的声纹特征，根据声纹特征识别出用户的身份。用户标识可以是用户的姓名、编码等。

在实施中，音频设备中可以存储有多个不同用户的声纹特征，并分别设置有对应的用户标识。当音频设备接收到定向发声指令后，可以对定向发声指令进行信号处理，提取出该定向发声指令中的声纹特征，然后，可以在音频设备中存储的多个不同用户的声纹特征中，查找与该上述提取的声纹特征相匹配的声纹特征，获取查找到的声纹特征对应的用户标识，即为该输入定向发声指令的目标用户的用户标识。

此外，如果在音频设备内并未存储有与该提取出的声纹特征相匹配的声纹特征，则可以保存该声纹特征，并为提取的声纹特征分配或设置一个对应的用户标识。

在步骤S206中，获取用户标识对应的第一人脸特征。

其中，第一人脸特征可以分为几何特征和表征特征两种，例如，人脸特征的几何特征可以是眼睛、鼻子和嘴等面部特征之间的集合关系，如距离、面积和角度等。

在实施中，音频设备中可以存储多个用户的人脸特征，并设置有对应的用户标识，其中，用户标识、人脸特征与声纹特征三者之间可以是相互对应的。如表1所示。

表1

用户标识	人脸特征	声纹特征
			用户A	人脸特征1	声纹特征1
用户B	人脸特征2	声纹特征2

通过上述步骤S204的处理确定目标用户的用户标识后，可以通过该用户标识，在音频设备中存储的多个用户的人脸特征中，找到该用户标识对应的人脸特征。例如，用户A的声纹特征对应的用户标识为UserA，而在音频设备中存储的用户标识UserA对应的人脸特征为一组表征人脸信息的数据集合W，则可以获取上述数据集合W中的人脸特征即为目标用户的人脸特征。

通过上述处理过程得到目标用户的人脸特征后，可以确认需要进行定向发声的对象(即目标用户)，在实际应用中，可以从摄像头拍摄的图像中获取与第一人脸特征相匹配的人脸图像，并将该人脸图像对应的用户确定为目标用户，具体处理过程可以参见下述步骤S208～步骤S214。

在步骤S208中，通过摄像头拍摄图像。

其中，拍摄的图像可以是带有一个或多个不同用户人脸的图像。

在实施中，音频设备中配备的摄像头可以有一个或多个，摄像头可以是根据实际需要可自由移动的摄像头，在摄像头移动的过程中，如果检测到拍摄画面中带有人脸信息，则可以拍摄该画面的图像，其中，人脸检测是指从输入图像中检测并提取人脸图像，通常采用haar特征和Adaboost算法训练级联分类器对图像中的每一块进行分类。如果某一矩形区域通过了级联分类器，则被判别为人脸图像。同时，在拍摄图像时，摄像头可以通过不断的移动，拍摄可获取范围内所有带有用户人脸的图像，也可以通过多个摄像头拍摄带有用户人脸的图像，拍摄的图像中可以包含一个或多个用户的人脸。

在步骤S210中，提取图像中的第二人脸特征，将第二人脸特征与第一人脸特征进行匹配。

在实施中，可以对拍摄的图像进行人脸识别，然后，可以对识别到的人脸进行特征提取，在与确定的目标用户的人脸特征(即第一人脸特征)进行比对。其中，当拍摄的图像中只有一个人脸时，可以将提取到的人脸特征直接与确定的目标用户的第一人脸特征进行比对，如果拍摄的图像中含有多个人脸，可以逐一对该图像中的人脸图像进行特征提取，并将提取的多个人脸特征分别与第一人脸特征进行匹配。例如，拍摄的图像中有用户A、用户B和用户C，分别对这三个用户进行人脸特征的提取，对提取的人脸特征，分别通过数字集合W、Y和Z来表征用户A、用户B和用户C的人脸特征，然后，可以将其分别与目标用户的第一人脸特征的表征数据集合X进行匹配。

在步骤S212中，如果第二人脸特征与第一人脸特征相匹配，则获取第二人脸特征对应的人脸图像。

在实施中，如果拍摄图像中存在某人脸特征与目标用户的第一人脸特征相匹配，则获取该人脸图像。例如，摄像头拍摄了多张图像，每张图像中包含了不同用户的人脸，如果其中一张图像中的用户A的人脸特征的表征集合W与第一人脸特征的表征集合X相匹配，则表明已在图像中找到目标用户，此时，可以获取该用户A的人脸图像。

在步骤S214中，将上述人脸图像对应的用户确定为目标用户。

在步骤S216中，通过摄像头拍摄的图像，确定目标用户的人脸所在的位置，根据目标用户的人脸所在的位置，确定目标用户所处的方向信息。

在实施中，可以通过摄像头的移动拍摄捕捉目标用户的移动轨迹，在移动拍摄的图像中，当匹配到该人脸图像时，就确定了目标用户所在的位置。在确定了目标用户所在位置时，可以通过摄像头或其他可以测距的设备来获取目标用户所处的方向信息。

在步骤S218中，基于光脉冲测距机制获取目标用户与音频设备之间的距离。

其中，基于光脉冲测距机制可以是通过飞行时间测距法(TOF，Time Of Flight)、结构光等。

在实施中，以飞行时间测距法(TOF，time of flight)为例获取用户与音频输出单元之间的距离信息，如图3所示，音频设备可以通过发射机连续发射光脉冲(一般为不可见光)到目标用户，然后，探测器接收从目标用户反射回来的光脉冲，通过探测光脉冲的飞行(往返)时间来计算目标用户与音频设备之间的距离，具体的获取位置信息的方法可以根据应用场景的不同而不同，本申请实施例对此不做限定。

在步骤S220中，根据目标用户与音频设备之间的距离，确定音频输出功率。

在实施中，目标用户与音频设备(或音频输出单元)之间的距离可以决定音频输出单元的音频输出功率的大小，例如，当目标用户与音频设备(或音频输出单元)之间的距离较短时，音频输出单元的输出功率可以较小，这样，既可以节省资源，也可以满足用户需求。当目标用户与音频设备(或音频输出单元)之间的距离较大时，音频输出单元的输出功率可以变大，这样，可以使得目标用户听到声音大小可以不因为距离的改变而改变，因此，目标用户与音频设备之间的距离与音频输出单元的音频输出功率可以是正相关或正比关系，具体的比例系数可以根据预设的规则进行调整，同时也可以通过预设的输出功率方案来针对距离的不同来确定音频输出单元的音频输出功率，具体的确定方案可根据实际应用场景的不同而不同，本申请对此不做限定。

此外，目标用户与音频设备之间的距离可以随着用户位置的改变而改变，在目标用户位置发生改变时，可以获取目标用户与音频设备之间的距离，根据该距离对音频输出单元的音频输出功率进行调整。例如，当获取到的目标用户位置信息为：在音频设备正东方向3米，若距离与音频输出功率的比例系数为2，则可以确定音频输出单元的音频输出功率为6瓦，在此之后，如果目标用户沿着音频设备的正西方向移动，用户一秒的时间前进了一米(可以以秒为单位获取用户与音频设备的距离)，则用户与音频设备之间的距离变为2米，那么可以将音频输出功率调整为4瓦，以此类推，确定音频输出单元的音频输出功率。

在步骤S222中，根据目标用户相对于音频设备的方向，确定目标用户的移动轨迹。

在实施中，当目标用户相对于音频设备的方向发生改变时，获取每一个时间点上目标用户与音频设备之间的相对方向，由此构成目标用户的移动轨迹。例如当目标用户在音频设备正东方向2米时，用户沿着相对于音频设备正西方向移动，则用户的移动轨迹就是每个时间点上，往正西方向移动。

在步骤S224中，根据目标用户的移动轨迹，确定音频输出单元在音频设备内的移动轨迹。

在实施中，音频设备获取目标用户的移动轨迹后，可以由目标用户的移动轨迹确定对应的音频单元在音频设备内的移动轨迹，例如，当用户在音频设备正东方向往正西方向移动时，音频单元在音频设备内也由正东方向往正西方向移动，与用户的移动轨迹同时且同向。

上述步骤S224的处理方式可以多种多样，除了可以通过上述方式处理外，当存在多个目标用户时，还可以通过其它多种方式处理，具体地，目标用户包括多个，音频输出单元包括多个，每个目标用户对应一个或多个音频输出单元，此时，上述步骤S224的处理可以通过以下方式实现：根据每个目标用户的移动轨迹，分别确定与每个用户标识对应的音频输出单元的移动轨迹。

在实施中，根据每个目标用户的移动轨迹，确定对应的音频输出单元的移动轨迹，如图4所示，用户A、用户B和用户C分别对应的音频输出单元1、2、3的移动轨迹是互不干扰的，各音频输出单元的移动轨迹只由其对应的用户移动轨迹所决定。

在步骤S226中，基于音频设备内的移动轨迹，确定音频输出方向。

在实施中，音频输出单元可以在音频设备内沿着移动轨迹进行移动，从而实现与目标用户同步的移动方向，以及音频的输出方向。

在步骤S228中，根据音频输出方向和音频输出功率，控制音频输出单元输出定向发声指令对应的音频数据。

上述S228的具体处理过程可以参见上述实施例一中S106的相关内容，在此不再赘述。

本申请实施例提供一种音频的输出方法，通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。。

实施例三

以上为本申请实施例提供的音频的输出方法，基于同样的思路，本申请实施例还提供一种音频的输出装置，所述装置包括音频输出单元，该音频输出单元可以在该音频设备中移动，如图5所示。

该音频的输出装置包括：获取模块501、确定模块502、输出模块503，其中：

获取模块501，用于获取目标用户的位置信息；

确定模块502，用于根据所述目标用户的位置信息，确定音频输出方向和音频输出功率；

输出模块503，用于根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。

在本申请实施例中，所述目标用户的位置信息包括：所述目标用户相对于所述音频设备的方向，以及所述目标用户与所述音频设备之间的距离；

所述确定模块502，包括：

在本申请实施例中，所述装置中还包括摄像头，所述装置还包括：

确定标识模块，用于确定所述目标用户的用户标识；

在本申请实施例中，所述确定标识模块，包括:

接收单元，用于接收输入的定向发声指令；

在本申请实施例中，所述确定模块502，包括：

在本申请实施例中，所述匹配模块，包括：

图像获取单元，用于通过所述摄像头拍摄图像；

在本申请实施例中，所述确定输出方向单元，用于：

基于所述音频设备内的移动轨迹，确定所述音频输出方向。

在本申请实施例中，所述目标用户包括多个，所述音频输出单元包括多个，每个所述目标用户对应一个或多个所述音频输出单元，所述确定输出方向单元，用于：

本申请实施例提供一种音频的输出装置，通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。

实施例四

图6为实现本申请各个实施例的一种音频设备的硬件结构示意图，

该音频设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的音频设备结构并不构成对音频设备的限定，音频设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，该音频设备600还包括音频输出单元，该音频输出单元可以在该音频设备中移动。在本申请实施例中，音频设备包括但不限于音箱等。

其中，处理器610，用于获取所述目标用户的位置信息。

处理器610，还用于根据所述目标用户的位置信息，确定音频输出方向和音频输出功率。

处理器610，还用于根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。

此外，所述目标用户的位置信息包括所述目标用户相对于所述音频设备的方向，以及所述目标用户与所述音频设备之间的距离；

所述处理器610，还用于根据所述目标用户相对于所述音频设备的方向，确定音频输出方向；

所述处理器610，还用于根据所述目标用户与所述音频设备之间的距离，确定音频输出功率

此外，处理器610，还用于确定所述目标用户的用户标识。

另外，所述处理器610，还用于获取所述用户标识对应的第一人脸特征。

另外，所述处理器610，还用于从所述摄像头拍摄的图像中获取与所述第一人脸特征相匹配的人脸图像，并将所述人脸图像对应的用户确定为所述目标用户。

此外，所述处理器610，还用于接收输入的定向发声指令。

另外，所述处理器610，还用于对所述定向发声指令进行声纹识别，根据所述声纹识别结果，确定输入所述定向发声指令目标用户的用户标识。

此外，所述处理器610，还用于通过所述摄像头拍摄的图像，确定所述目标用户的人脸所在的位置，根据所述目标用户的人脸所在的位置，确定所述目标用户相对于所述音频设备的方向。

另外，所述处理器610，还用于基于光脉冲测距机制获取所述目标用户与所述音频设备之间的距离。

此外，所述处理器610，还用于通过所述摄像头拍摄图像。

此外，所述处理器610，还用于提取所述图像中的第二人脸特征，将所述第二人脸特征与所述第一人脸特征进行匹配。

另外，所述处理器610，还用于确定与每个所述用户标识对应的音频输出单元。

此外，所述处理器610，还用于如果所述第二人脸特征与所述第一人脸特征相匹配，则获取所述第二人脸特征对应的人脸图像。

此外，所述处理器610，还用于根据所述目标用户相对于所述音频设备的方向，确定所述目标用户的移动轨迹。

另外，所述处理器610，还用于基于所述音频设备内的移动轨迹，确定所述音频输出方向。

此外，所述处理器610，还用于根据每个所述目标用户的移动轨迹，分别确定与每个所述用户标识对应的音频输出单元的移动轨迹。

本申请实施例提供一种音频设备，通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。

应理解的是，本申请实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信***与网络和其他设备通信。

音频设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与音频设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

音频设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在音频设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别音频设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与音频设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现音频设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现音频设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与音频设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到音频设备600内的一个或多个元件或者可以用于在音频设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是音频设备的控制中心，利用各种接口和线路连接整个音频设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行音频设备的各种功能和处理数据，从而对音频设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

音频设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理***与处理器610逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

优选的，本发明实施例还提供一种音频设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述音频的输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

实施例五

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频的输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本申请实施例提供一种计算机可读存储介质，通过获取所述目标用户的位置信息，根据所述目标用户的位置信息，确定音频输出方向和音频输出功率，根据所述音频输出方向和所述音频输出功率，控制所述音频输出单元输出音频数据。这样，在多人存在的情况下，音频设备就可以定位到目标用户，并将音频数据输出给目标用户，而不会对其他人造成干扰，同时，音频设备还可以追踪用户的实时位置，并根据目标用户的位置信息调整输出方向和输出功率，满足了用户的使用需求，提高了用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频的输出方法，其特征在于，应用于音频设备，所述音频设备中包括音频输出单元，所述方法包括：

获取目标用户的位置信息；

2.根据权利要求1所述的方法，其特征在于，所述目标用户的位置信息包括所述目标用户相对于所述音频设备的方向，以及所述目标用户与所述音频设备之间的距离；

3.根据权利要求1所述的方法，其特征在于，所述音频设备中还包括摄像头，所述获取目标用户的位置信息之前，所述方法还包括：

确定所述目标用户的用户标识；

获取所述用户标识对应的第一人脸特征；

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标用户的用户标识，包括：

接收输入的定向发声指令；

对所述定向发声指令进行声纹识别，根据所述声纹识别结果，确定输入所述定向发声指令的目标用户的用户标识。

5.根据权利要求2所述的方法，其特征在于，所述获取目标用户的位置信息，包括：

6.根据权利要求3所述的方法，其特征在于，所述从所述摄像头拍摄的图像中获取与所述第一人脸特征相匹配的人脸图像，包括：

通过所述摄像头拍摄图像；

7.根据权利要求2所述的方法，其特征在于，所述根据所述目标用户相对于所述音频设备的方向，确定音频输出方向，包括：

基于所述音频设备内的移动轨迹，确定所述音频输出方向。

8.一种音频的输出装置，其特征在于，所述装置中包括音频输出单元，所述装置包括：

获取模块，用于获取目标用户的位置信息；

9.一种音频设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频的输出方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频的输出方法的步骤。