CN106960455A

CN106960455A - 定向传声方法及终端

Info

Publication number: CN106960455A
Application number: CN201710161239.0A
Authority: CN
Inventors: 姜瑜
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-07-18

Abstract

本发明提供了一种定向传声方法及终端，其中，该方法包括：通过移动终端的摄像装置获取用户面部特征点的像素坐标；根据摄像装置的内参数和摄像装置的外参数获取与该用户面部特征点的像素坐标对应的世界坐标；其中，摄像装置的内参数包括该摄像装置的光学和几何特征参数；摄像装置的外参数采用该摄像装置标定方法获取；根据世界坐标控制移动终端向该用户面部特征点的方向传输声音。通过本发明解决了现有技术中不能准确地获取移动终端与用户头部之间的相对距离和方位，导致定向传声精度较差的问题，进而提高了定向传声的准确度。

Description

定向传声方法及终端

技术领域

本发明涉及通信技术领域，具体涉及一种定向传声方法及终端。

背景技术

声频定向的原理早在半个世纪前就开始研究，在理论与实践上都取得了许多成果。近年来，随着社会的进步，以手机为代表的便携移动设备越来越多的应用于社会各个角落。人们在各种场合使用移动设备进行工作商务、娱乐休闲等活动时，往往会用到音频设备。但传统的音频设备在公共场合使用往往会造成噪声，且无法保证隐私，使用耳机可以一定程度上解决问题，但长时间使用耳机对人耳不利，会造成听力永久性损伤。在这样的前提下，基于声频定向技术的微型声频定向研究自然而然成为相关领域的关注热点。

目前而言，针对移动设备的微型声频定向***还处于尝试阶段，相关领域根据已有的声频定向研究成果，提出了一些用于移动设备的定向传声技术方案，但现有技术中对于用户头部和移动设备之间的定位精确度不高。

发明内容

有鉴于此，本发明实施例提供了一种定向传声方法及终端，以解决现有技术中不能准确地获取移动终端与用户头部之间的相对距离和方位，进而导致定向传声精度较差的问题。

为此，本发明实施例提供了如下技术方案：

本发明第一方面，提供了一种定向传声方法，包括：通过移动终端的摄像装置获取用户面部特征点的像素坐标；根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标；其中，所述摄像装置的内参数包括所述摄像装置的光学和几何特征参数；所述摄像装置的外参数采用所述摄像装置标定方法获取；根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音。

结合本发明第一方面，本发明第一方面第一实施方式中，根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标包括：根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标；根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标。

本发明第一方面第一实施方式，本发明第一方面第二实施方式中，所述摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与所述用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；所述摄像装置的外参数对应的外参数矩阵表示为：其中，分量分别表示世界坐标系各坐标轴在摄像装置坐标系下的方向向量，为位移向量，表示世界坐标系原点在摄像装置坐标系中的位置。

本发明第一方面第二实施方式，本发明第一方面第三实施方式中，通过如下公式根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标：

通过如下公式根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标：

其中，世界坐标系：(x_W，y_W，z_W)；摄像装置坐标系：(x_C，y_C，z_C)，图像坐标系：(x，y)，像素坐标系：(u，v)。

结合本发明第一方面、第一方面第一实施方式、第一方面第二实施方式或者第一方面第三实施方式，本发明第一方面第四实施方式中，根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音之后，还包括：通过所述移动终端的传感器获取用户面部特征点相对于所述移动终端的变化参数；根据所述变化参数实时获取与所述用户面部特征点的像素坐标对应的世界坐标。

本发明第二方面，提供了一种定向传声终端，包括：第一获取模块，用于通过移动终端的摄像装置获取用户面部特征点的像素坐标；第二获取模块，用于根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标；其中，所述摄像装置的内参数包括所述摄像装置的光学和几何特征参数；所述摄像装置的外参数采用所述摄像装置标定终端获取；传输模块，用于根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音。

结合本发明第二方面，本发明第二方面第一实施方式中，所述第二获取模块包括：第一获取单元，用于根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标；第二获取单元，用于根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标。

结合本发明第二方面第一实施方式，本发明第二方面第二实施方式中，所述摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与所述用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；所述摄像装置的外参数对应的外参数矩阵表示为：其中，分量分别表示世界坐标系各坐标轴在摄像装置坐标系下的方向向量，为位移向量，表示世界坐标系原点在摄像装置坐标系中的位置。

结合本发明第二方面第二实施方式，本发明第二方面第三实施方式中，所述第一获取单元还用于通过如下公式根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标：

所述第二获取单元还用于通过如下公式根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标：

结合本发明第二方面、第二方面第一实施方式、第二方面第二实施方式或者第二方面第三实施方式，本发明第二方面第四实施方式中，所述终端还包括：第三获取模块，用于根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音之后，通过所述移动终端的传感器获取用户面部特征点相对于所述移动终端的变化参数；第四获取模块，用于根据所述变化参数实时获取与所述用户面部特征点的像素坐标对应的世界坐标。

本发明第三方面提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如下步骤：通过移动终端的摄像装置获取用户面部特征点的像素坐标；根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标；其中，所述摄像装置的内参数包括所述摄像装置的光学和几何特征参数；所述摄像装置的外参数采用所述摄像装置标定方法获取；根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种定向传声方法及终端，通过移动终端的摄像装置获取用户面部特征点的像素坐标；根据摄像装置的内参数和摄像装置的外参数获取与该用户面部特征点的像素坐标对应的世界坐标；其中，摄像装置的内参数包括该摄像装置的光学和几何特征参数，例如可以是焦距、图像中心点等光学和几何特征；摄像装置的外参数采用该摄像装置标定方法获取，该标定方法可以是基于二维靶标的标定方法，通过该世界坐标可以进一步精确定位移动终端与用户头部之间的距离和方位，根据世界坐标控制移动终端向该用户面部特征点的方向传输声音。通过本发明解决了现有技术中不能准确地获取移动终端与用户头部之间的相对距离和方位，导致定向传声精度较差的问题，进而提高了定向传声的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中手机的结构图；

图2是根据本发明实施例的定向传声方法的流程图；

图3是根据本发明实施例的基于图像测距的自适应定向传声流程示意图；

图4是根据本发明实施例的小孔成像模型示意图；

图5是根据本发明实施例的图像坐标系与像素坐标系关系示意图；

图6是根据本发明实施例的定向传声终端的一个结构框图；

图7是根据本发明实施例的第二获取模块的结构框图；

图8是根据本发明实施例的定向传声终端的另一个结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明的实施例的应用场景示意图。移动终端可以为手机或平板电脑等移动设备，移动终端以手机为例，手机的部分结构框图如图1所示，手机包括射频电路210、存储器220、输入单元230、显示单元240、传感器250、音频电路260、无线模块270、处理器280以及电源290等部分。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中RF电路210用于收发信息或通话过程中，信号的接收和发送。存储器220用于存储软件程序以及模块，处理器280通过运行存储在存储器220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。输入单元230用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。输入单元230可包括触控面板231以及其他输入设备232。其他输入设备232可以包括但不限于物理键盘、功能键、鼠标、操作杆中的一种或几种。显示单元240用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元240可以包括显示面板241。触控面板231可覆盖显示面板241，当触控面板231检测到在其上或附近的触摸操作后，传送给处理器280以确定触摸事件的类型，随后处理器280根据触摸事件的类型在显示面板241上提供相应的视觉输出。

手机还可包括至少一种传感器250，如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，环境传感器可根据环境光线的明暗来调节显示面板241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板241和/或背光。本实施例中光传感器可以设置在手机的正面和背面的壳体上，用于检测用户持握手机时的遮挡区域。此处还可以包括压力传感器，设置在手机的正面或背面壳体上，用于通过检测压力的方式获得用户持握手机时的遮挡区域。此外，手机还可以配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，不再赘述。

音频电路260、扬声器261、传声器262可提供用户与手机之间的音频接口。无线模块270可以是WIFI模块，为用户提供无线的互联网访问服务。

处理器280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器220内的软件程序和/或模块，以及调用存储在存储器220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器280可以包括一个或多个处理单元。此外，手机还包括各部件供电的电源290，通过电源管理***与处理器280逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中提供了一种定向传声方法，可用于上述的移动终端，如手机、平板电脑等，图2是根据本发明实施例的定向传声方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，通过移动终端的摄像装置获取用户面部特征点的像素坐标。

步骤S202，根据摄像装置的内参数和摄像装置的外参数获取与该用户面部特征点的像素坐标对应的世界坐标；其中，摄像装置的内参数包括摄像装置的光学和几何特征参数，例如可以是焦距、图像中心点等光学和几何特征；该摄像装置的外参数采用该摄像装置标定方法获取，该标定方法可以是基于二维靶标的标定方法。进而可以通过该世界坐标获取到移动终端与用户头部之间的距离与方位，控制移动终端根据该距离与方位传输声音。

步骤S203，根据世界坐标控制移动终端向用户面部特征点的方向传输声音。随着超声波定向传声技术的逐渐成熟，以及相关设备向微型化、低成本化发展，具体到移动终端的定向扬声器模块，可以采用超声波定向发声器作为定向扬声器，与常规扬声器配合使用，最终定向传声。

通过上述步骤，在获取到用户面部特征点的像素坐标的基础上，根据摄像装置的内参数和摄像装置的外参数获取与该用户面部特征点的像素坐标对应的世界坐标，通过获取到的世界坐标可以比较精确的定位移动终端与用户头部之间的距离和方位，进而可以控制移动终端根据该定位传输声音，从而保证了移动终端定向传声的准确度。

上述步骤S202涉及到根据摄像装置的内参数和摄像装置的外参数获取与用户面部特征点的像素坐标对应的世界坐标，在一个可选实施例中，根据摄像装置的内参数获取与该像素坐标对应的摄像装置坐标，根据摄像装置的外参数获取与该摄像装置坐标对应的该世界坐标。

在一个可选实施例中，摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与该用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；摄像装置的外参数对应的外参数矩阵表示为：其中，分量分别表示世界坐标系各坐标轴在摄像装置坐标系下的方向向量，为位移向量，表示世界坐标系原点在摄像装置坐标系中的位置。具体地，通过如下公式根据该摄像装置的内参数获取与该像素坐标对应的摄像装置坐标：

通过如下公式根据该摄像装置的外参数获取与该摄像装置坐标对应的该世界坐标：

由于用户在使用移动终端通话的过程中，可能处于不断移动状态，往往会变换姿势，从而造成移动终端与用户头部之间的距离和方向发生变化，因此，在一个可选实施例中，根据世界坐标控制该移动终端向用户面部特征点的方向传输声音之后，通过移动终端的传感器获取用户面部特征点相对于移动终端的变化参数，并将这些变化了的参数及时告知定向传声模块，以便后者再启动图像测距，重新获取用户头部的位置，从而修改距离参数，使得移动终端的定向扬声器更改传声方向与距离以达到自适应传声的目的。

在一个完整的定向传声过程中，如图3所示，采用人像识别与基于单目图像序列测距相结合的方式来确定用户头部相对手机的距离与方位。初始化的状态下，使用手机自带的摄像头对用户面部以及侧脸部分进行图像采集，以便计算生成初始的用户头部特征库。生成初始特征库后，在用户需要使用定向传声时，手机开启正对用户的摄像头，进行二次图像采集，利用人脸识别技术确定用户此时位于采集的图像范围内，以此确保用户处于定向传声有效范围内。再将采集后的图像与特征库对比，利用识别结果判别当前用户的性别与大体年龄(因为不同性别以及不同年龄段的人，耳朵相对面部位置是不同的，因此定向传声模块需要根据具体使用人提供针对适配的传声方案)以确定传声方案。

关于通过图像测距获取移动终端与用户头部之间的距离和方位的过程，在一个可选实施例中，在进行二次图像采集并成功识别出用户后，关键的一步便是利用摄像头采集的图像进行测距，计算出手机与用户头部之间的距离与方位。如今的手机，普遍配备有高分辨率的摄像头，本可选实施例采用单目图像序列测距技术，利用摄像头采集的高清图像计算出手机与用户头部之间的相对距离与方位。

通过二维图像重建出三维场景需要用到四个坐标系，分别是：

世界坐标系：(X_W，Y_W，Z_W)；

摄像头坐标系：(X_C，Y_C，Z_C)，其中Z_C轴与光轴重合，整个坐标系符合右手定则；

图像坐标系：(x，y)，其中坐标系原点为光轴与成像平面的交点；

像素坐标系：(u，v)，其中坐标系原点为图像的左上角，u轴为计算机屏幕x轴(水平)，v轴为计算机屏幕y轴(垂直)。

本可选实施例的单目测距方法模型可以简化为小孔成像模型，如图4所示。O_C是摄像头的光心，Π_ii是成像平面。小孔成像模型中，成像平面上的像与实际物体是上下颠倒的，但实际拍摄的照片，已经对图像进行了缩放与方向调整。因此可以将Π_i认为是等效的成像平面。

O_C是摄像头的光心，同时也是摄像头坐标系的原点。假设场景中某点P(比如用户面部的某个特征点)的坐标为P(x，y，z)，P点在成像平面

Π_i上的投影点为P_i(x_i，y_i，z_i)，则可得到摄像头坐标系下目标点与成像点之间的关系(关系1)，而摄像头的内参数模型则描述了摄像头坐标系中的目标点与像素坐标系中投影点之间的转换关系。

图像坐标系xoy和像素坐标系uov均分布在图像平面中，前者中的点(x，y)对应后者中的(u，v)，而图像坐标系的原点对应像素坐标系中的位置记为(u_o，v_o)，其关系如图5所示。从图像坐标系到像素坐标系进行坐标变换需要有物理量上的转换，可以令α_x和α_y表示从成像平面到像素平面的放大系数，亦可反之理解为1/α_x和1/α_y分别代表了X与Y方向上每个像素代表的实际物理尺寸。则可以分别得到图像坐标系中的点与像素坐标系中的点之间的转换关系(关系2)。

将关系2与关系1相结合，可以得到只与摄像头本身结构有关的内参数矩阵记为M_in，构成此矩阵的四个参数分别为x轴放大系数k_x、y轴的放大系数k_y以及图像坐标系的原点在像素坐标系相对应的坐标点对(u_o，v_o)。也由于存在四个参数，因此M_in又被称为四参数模型。在不考虑xy轴各自的放大系数之间的差异时，可近似认为k_x＝k_y＝k。

有内参数模型，相应也有外参数模型。其用于描述世界坐标系与摄像头坐标系的转换关系。设某点在世界坐标系中的坐标为(x_w，y_w，z_w)，在摄像头坐标系中的坐标为(x_c，y_c，z_c)，两者之间存在转换矩阵记为^cM_W，其是摄像头的外参数矩阵，表示世界坐标系O_WX_WY_WZ_W与摄像头坐标系O_cX_cY_cZ_c的相对位置。分量分别表示世界坐标系O_WX_WY_WZ_W各坐标轴在摄像头坐标系O_cX_cY_cZ_c下的方向向量，是位移向量，表示世界坐标系原点在摄像头坐标系中的位置。

根据上述的摄像头内外参数模型，由前述关系与内参数模型矩阵可以得到像素坐标系和摄像头坐标系之间的关系：

而根据外参数模型矩阵，则可以得到世界坐标系与摄像头坐标系之间的关系：

借助式(1)与式(2)中相同的部分，即摄像头坐标系的点所组成的矩阵，可以将两式联立，则最终能够得到世界坐标系与像素坐标系之间简介的关系：

公式(3)提供空间场景中任一点P与数字图像中的投影点P’之间进行坐标换算的功能。公式左侧的(u，v)即为摄像头拍摄的图像上的用户面部特征点坐标值，通过内外参数参与的运算，即可得到用户面部特征点以手机摄像头(也可以把整个手机看做一个点，同时，为方便理解，这里也把用户头部简化为一个点)为原点的坐标系中的坐标值(x_W，y_W，z_W)。再根据欧式几何空间距离公式即可最终得到手机与用户头部之间的空间实际距离d。

通过建立图像测距的模型，可以完成基于手机摄像头采集的图像测距，测定基于手机，用户头部所在的空间位置，进而可以计算出两者之间的距离与方位。将距离参数等传递给定向扬声器模块，即可实现定向传声。

在本实施例中还提供了一种定向传声终端，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的定向传声终端的一个结构框图，如图6所示，包括：第一获取模块61，用于通过移动终端的摄像装置获取用户面部特征点的像素坐标；第二获取模块62，用于根据摄像装置的内参数和摄像装置的外参数获取与用户面部特征点的像素坐标对应的世界坐标；其中，摄像装置的内参数包括摄像装置的光学和几何特征参数；摄像装置的外参数采用摄像装置标定终端获取；传输模块63，用于根据世界坐标控制移动终端向该用户面部特征点的方向传输声音。

通过上述终端，在获取到用户面部特征点的像素坐标的基础上，根据摄像装置的内参数和摄像装置的外参数获取与该用户面部特征点的像素坐标对应的世界坐标，通过获取到的世界坐标可以比较精确的定位移动终端与用户头部之间的距离和方位，进而可以控制移动终端根据该定位传输声音，从而保证了移动终端定向传声的准确度。

图7是根据本发明实施例的第二获取模块的结构框图，如图7所示，第二获取模块62包括：第一获取单元621，用于根据摄像装置的内参数获取与像素坐标对应的摄像装置坐标；第二获取单元622，用于根据摄像装置的外参数获取与摄像装置坐标对应的该世界坐标。

可选地，摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与该用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；该摄像装置的外参数对应的外参数矩阵表示为：其中，分量分别表示世界坐标系各坐标轴在摄像装置坐标系下的方向向量，为位移向量，表示世界坐标系原点在摄像装置坐标系中的位置。

可选地，该第一获取单元还用于通过如下公式根据该摄像装置的内参数获取与该像素坐标对应的摄像装置坐标：

该第二获取单元还用于通过如下公式根据该摄像装置的外参数获取与该摄像装置坐标对应的该世界坐标：

图8是根据本发明实施例的定向传声终端的另一个结构框图，如图8所示，该终端还包括：第三获取模块81，用于根据该世界坐标控制该移动终端向该用户面部特征点的方向传输声音之后，通过移动终端的传感器获取用户面部特征点相对于该移动终端的变化参数；第四获取模块82，用于根据该变化参数实时获取与用户面部特征点的像素坐标对应的世界坐标。

本实施例中的定向传声终端是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种定向传声方法，其特征在于，包括：

通过移动终端的摄像装置获取用户面部特征点的像素坐标；

根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标；其中，所述摄像装置的内参数包括所述摄像装置的光学和几何特征参数；所述摄像装置的外参数采用所述摄像装置标定方法获取；

根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音。

2.根据权利要求1所述的方法，其特征在于，根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标包括：

根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标；

根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标。

3.根据权利要求2所述的方法，其特征在于，所述摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与所述用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；

所述摄像装置的外参数对应的外参数矩阵表示为：其中，分量分别表示世界坐标系各坐标轴在摄像装置坐标系下的方向向量，为位移向量，表示世界坐标系原点在摄像装置坐标系中的位置。

4.根据权利要求3所述的方法，其特征在于，通过如下公式根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标：

[\begin{matrix} u \\ v \\ 1 \end{matrix}] = M_{i n} [\begin{matrix} x_{c} / z_{c} \\ y_{c} / z_{c} \\ 1 \\ 1 / z_{c} \end{matrix}];

5.根据权利要求1至4中任一所述的方法，其特征在于，根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音之后，还包括：

通过所述移动终端的传感器获取用户面部特征点相对于所述移动终端的变化参数；

根据所述变化参数实时获取与所述用户面部特征点的像素坐标对应的世界坐标。

6.一种定向传声终端，其特征在于，包括：

第一获取模块，用于通过移动终端的摄像装置获取用户面部特征点的像素坐标；

第二获取模块，用于根据所述摄像装置的内参数和所述摄像装置的外参数获取与所述用户面部特征点的像素坐标对应的世界坐标；其中，所述摄像装置的内参数包括所述摄像装置的光学和几何特征参数；所述摄像装置的外参数采用所述摄像装置标定终端获取；

传输模块，用于根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音。

7.根据权利要求6所述的终端，其特征在于，所述第二获取模块包括：

第一获取单元，用于根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标；

第二获取单元，用于根据所述摄像装置的外参数获取与所述摄像装置坐标对应的所述世界坐标。

8.根据权利要求7所述的终端，其特征在于，所述摄像装置的内参数对应的内参数矩阵表示为：其中，k_x表示为X轴放大系数，k_y表示Y轴放大系数，(u_o，v_o)表示与所述用户面部特征点对应的图像坐标系的原点在像素坐标系所对应的坐标；

9.根据权利要求8所述的终端，其特征在于，所述第一获取单元还用于通过如下公式根据所述摄像装置的内参数获取与所述像素坐标对应的摄像装置坐标：

[\begin{matrix} u \\ v \\ 1 \end{matrix}] = M_{i n} [\begin{matrix} x_{c} / z_{c} \\ y_{c} / z_{c} \\ 1 \\ 1 / z_{c} \end{matrix}];

10.根据权利要求6至9中任一所述的终端，其特征在于，所述终端还包括：

第三获取模块，用于根据所述世界坐标控制所述移动终端向所述用户面部特征点的方向传输声音之后，通过所述移动终端的传感器获取用户面部特征点相对于所述移动终端的变化参数；

第四获取模块，用于根据所述变化参数实时获取与所述用户面部特征点的像素坐标对应的世界坐标。