WO2019196312A1

WO2019196312A1 - 机器人调节音量的方法、装置、计算机设备和存储介质

Info

Publication number: WO2019196312A1
Application number: PCT/CN2018/102853
Authority: WO
Inventors: 周宸; 周宝; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-04-10
Filing date: 2018-08-29
Publication date: 2019-10-17
Also published as: CN108628572A; CN108628572B

Abstract

本申请提供一种机器人自动调节音量的方法和装置，机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，方法包括如下步骤：通过摄像机获取图像并检测图像中的第二用户图像特征，根据第二用户图像特征计算第二用户的高度h和相对机器人的距离d，根据h与H的关系确定高度增益kh，以及d与D的关系确定距离增益kd；通过环境麦克风采集环境音量得到环境噪音值ve，根据ve和预设的对应关系确定对应的环境增益ke；根据kh、kd、ke和V确定扬声器音量（I）使得机器人可以根据实际情况智能调节扬声器音量，提高了交互效率和用户体验。还提供了一种计算机设备和存储介质。

Description

机器人调节音量的方法、装置、计算机设备和存储介质

本申请要求于2018年4月10日提交中国专利局、申请号为201810314093.3，发明名称为“机器人调节音量的方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器人技术领域，具体而言，本申请涉及一种机器人自动调节音量的方法和装置，以及一种计算机设备和存储有计算机可读指令的存储介质。

背景技术

发明人意识到目前的服务机器人一般采用固定的音量进行语音对话和视频播放等功能，可能会由于各种因素导致环境噪音的分贝值较大，比如人流/其他音响设备的声音，从而导致用户难以听到机器人的声音，交互效率差，用户体验差。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是交互效率差的技术缺陷。

本申请提供一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述方法包括如下步骤：通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对所述机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量

本申请还提供一种机器人自动调节音量的装置，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述装置包括：第一计算模块，用于通过所述摄像机获取图像并检测所述图像中的第二用户图像特征，根据第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；第二计算模块，用于通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定与对应的环境增益k _e；音量计算模块，用于根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述机器人自动调节音量的方法包括以下方法的步骤：通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量

本申请还提供一种存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述机器人自动调节音量的方法包括以下步骤：通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量

上述的机器人自动调节音量的方法、装置、计算机设备和存储介质，通过判断用户的h和用户相对机器人的距离d并结合环境麦克风测量的环境噪音值v _e来确定扬声器音量V _m，使得机器人可以根据实际情况智能调节扬声器音量，从而无论在什么环境都可以给用户最适宜的音量大小，提高了交互效率和用户体验。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例中计算机设备的内部结构示意图；

图2为一个实施例的机器人自动调节音量的方法流程示意图；

图3为一个实施例的机器人和用户之间的空间位置俯视图；

图4为一个实施例的机器人自动调节音量的装置模块示意图。

具体实施方式

图1为一个实施例中计算机设备的内部结构示意图。如图1所示，该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种机器人自动调节音量的方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种机器人自动调节音量的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以下描述的机器人自动调节音量的方法，可以应用于智能机器人，例如客服机器人、儿童教育机器人等等。

图2为一个实施例的机器人自动调节音量的方法流程示意图。

本申请提供一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风(还具有采集用户声音的麦克风)，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述方法包括如下步骤：

步骤S100：通过所述摄像机获取图像并检测图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与H的关系确定高度增益k _h，以及所述d与D的关系确定距离增益k _d。

可以采用人脸检测方法进行人脸检测，以检测图像中的第二用户。

由于机器人的摄像机可能捕捉到多个人脸，其中有些人只是背景的人物，并没有和机器人进行交互例如对话，因此可以只需要考虑面向摄像机与机器人对话的人。摄像机通常设置在机器人的面对用户的方向，例如如果机器人具有头部，则可以设置在头部的额头或面部的位置；如果机器人具有躯干，则也可以设置在正面躯干的位置。在此不对摄像机的设置位置进行限定，只需要确保第二用户与机器人对话时能够拍摄到第二用户即可。

对于摄像机来说，拍摄得到的图像(图片或视频帧)是固定大小的，可以在图片中心位置划定预设的矩形位置作为人脸识别区域，只在这个人脸识别区域中进行人脸检测。例如假设使用的是1920×1080尺寸的图片，可以在图片中心位置划定1000×1000的矩形位置作为人脸识别区域。

人脸检测(Face Detection)技术，即通过图像分析检测出图像中存在的人脸，并把人脸的位置准确地用矩形框框出来的技术，是人脸特征点检测、人脸识别的基础。常用的人脸检测数据集，包括FDDB(Face Detection Data Set and Benchmark)等。随着近年来随着深度学习的快速发展，涌现出来很多优秀的人脸检测方法。

例如，FDDB数据库就提交了很多出色的人脸检测方法，例如采用级联CNN网络(卷积神经网络，Convolutional Neural Network)的人脸检测方法：A Convolutioanal Neural Network Cascade，改进的faster rcnn做人脸检测：Face Detection using Deep Learning：An Improved Faster RCNN Approach，还有对小脸检测非常成功的Finding tiny faces等等。另外，像opencv、dlib、libfacedetect等数据库也提供了人脸检测的接口。

常用的人脸检测方法有以下几种：

1.单个CNN人脸检测方法

2.级联CNN人脸检测方法

3.OpenCV人脸检测方法

4.Dlib人脸检测方法

5.libfacedetect人脸检测方法

6.Seetaface人脸检测方法

以下简单介绍下单个CNN人脸检测方法。

首先训练一个判断人脸和非人脸的二分类器。例如采用卷积神经网络caffenet进行二分类，可以在imagenet数据集训练过的模型，利用自己的人脸数据集，进行微调。也可以自定义卷积网络进行训练，为了能检测到更小的人脸目标，我们一般采用小一点的卷积神经网络作为二分类模型，减小图像输入尺寸，加快预测速度。

然后将训练好的人脸判断分类网络的全连接层改为卷积层，这样网络变成了全卷积网络，可以接受任意输入图像大小，图像经过全卷积网络将得到特征图，特征图上每一个“点”对应该位置映射到原图上的感受野区域属于人脸的概率，将属于人脸概率大于设定阈值的视为人脸候选框。

图像上人脸的大小是变化的，为了适应这种变化，最好的办法就是使用图像金字塔的方式，将待检测的图像缩放到不同大小，以进行多尺度人脸检测。对多个尺度下检测出来的所有人脸候选框，做非极大值抑制NMS，得到最后人脸检测的结果。

如果本实施例中的机器人自动调节音量的方法应用于安卓***，可以应用FaceDetector类判断摄像机拍摄的图像是否存在人脸图像。安卓***内置有人脸识别API：FaceDetector，该API可以通过少量代码完成人脸识别，但是这种识别是最基本的识别，即只能识别出图像中的人脸。

安卓中的人脸识别技术，需要用到的底层库：android/external/neven/，架构层：frameworks/base/media/java/android/media/FaceDetector.java。Java层的限制：1，只能接受Bitmap格式的数据；2，只能识别双眼距离大于20像素的人脸像(可在framework层中修改)；C，只能检测出人脸的位置(双眼的中心点及距离)，不能对人脸进行匹配(查找指定的脸谱)。

Neven库提供的主要方法：

A，android.media.FaceDetector.FaceDetector(int width,int height,int maxFaces)；B，int android.media.FaceDetector.findFaces(Bitmap bitmap,Face[]faces)。

在安卓***中，可以通过FaceDetector类获取人脸图像的两眼位置，并根据两眼位置确定人脸图像在桌面的所处位置。具体步骤可以是：获取人脸图像的两眼位置中心点，获取人脸图像的两眼间距(瞳距)，根据两眼位置中心点和两眼间距绘制矩形区域(矩形框)，以矩形区域作为人脸图像在桌面的所处位置。可以通过以下代码获取人脸图像的两眼位置中心点：

mFace[i].getMidPoint(eyeMidPoint)；

可以通过以下代码获取人脸图像的两眼间距：

eyesDistance＝mFace[i].eyesDistance()；

可以通过以下代码绘制矩形区域：

myEyesDistance＝face.eyesDistance()；//得到两眼位置中心点和两眼间距参数，并对每个人脸画框

关于人脸检测方法在此不再赘述，在本实施例中，并不对人脸检测方法进行限定。检测出人脸后，计算所检测到的第二用户的高度h和相对机器人的距离d，根据h与H的关系确定高度增益k _h，以及d与D的关系确定距离增益k _d。

第二用户相对于机器人的距离d可以通过相关的测距传感器的感测值来计算确定，例如通过红外传感器进行红外测距、使用激光传感器进行激光测距等等。在本实施例中，以图像分析方法来计算确定d。

在计算确定d时，基于两个假设。第一，对于绝大部分人群来说，人的瞳距的差距相差不大(±2cm左右)。第二，与机器人对话的用户，用户与机器人的距离变化限定在比较小的范围。原理是，通过对比拍摄图片中的人脸瞳距与标定图片中的人脸瞳距的比值来估算距离。用户人脸离摄像机越近，人脸的尺寸越大，这个关系近似成线性关系。

在本实施例中，第二用户图像特征包括人像瞳距，预定义第一用户在离机器人距离为D1时图像中的人像瞳距为A1(实际瞳距)，第一用户在离机器人距离为D2时图像中的人像瞳距为A2(实际瞳距)，则通过以下公式计算第二用户相对机器人的距离d：

d＝k(a-A1)+D1

其中

a为应用人脸检测方法进行人脸检测时检测到的第二用户人像瞳距，即图像中的人像瞳距。

当然，还可以采用其他的图像分析方法来计算确定d，例如采用其他的计算公式，只需要遵循上述两个假设以及原理即可，在此不赘述。

确定了d之后，根据d与D的关系确定距离增益k _d。距离增益k _d与d是具有正向关系的，例如正比例关系。在本实施例中，距离增益k _d＝d/D。当然在其他的实施例中，还可以是其他的计算方式，k _d＝d/D+m(m为预设系数)等等，在此不赘述。

在本实施例中，预定义第一用户瞳距为C(实际瞳距)时对应图像中的人像瞳距为c(图像中的人像瞳距)，则通过以下公式计算第二用户高度h：

其中，H1为摄像机高度，Δh为应用人脸检测方法进行人脸检测时检测到的人脸矩形框中心与图像中心的像素差值。

同样的，还可以采用其他的图像分析方法来计算确定h，例如采用其他的计算公式，只需要遵循上述两个假设以及原理即可，在此不赘述。

确定了h之后，根据h与H的关系确定高度增益k _h。同样的，h与H是具有正向关系的，例如正比例关系。在本实施例中，高度增益k _h＝(h-Δ)/(H-Δ)，其中Δ为扬声器高度。当然，在一些实施例中，可以忽略扬声器高度，即Δ＝0。

步骤S200：通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据v _e和预设的对应关系确定对应的环境增益k _e。

具体的，通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据v _e所处于的区间范围确定与该区间范围对应的环境增益k _e。

可以预设多个区间范围，每个区间范围都有对应的预设环境增益。即(v ₁，v ₂)区间范围对应环境增益k ₁、(v ₂，v ₃)区间范围对应环境增益k ₂、……、(v _n-1，v _n)区间范围对应环境增益k _n-1。

例如，设定噪音标准为70dB。

对于安静环境下(v _e<40dB)，k _e＝0.8；

对于普通环境下(40dB<v _e<70dB)，k _e＝1；

对于嘈杂环境下(70dB<v _e<90dB)，k _e＝1+(v _e-70)/100；

对于极其嘈杂情况下(v _e>90dB)，k _e＝∞；

当然，在一些实施例中，可以通过v _e和预设的计算公式确定环境增益k _e。

在其中一个实施例中，环境麦克风至少包括第一麦克风和第二麦克风，第一麦克风和第二麦克风位于机器人两侧(以机器人正面方向为基线)，例如机器人头部两侧，或者机器人躯干两侧，见图3；通过所述环境麦克风采集环境音量得到环境噪音值v _e的过程包括：

通过第一麦克风采集环境音量得到第一环境噪音值v ₁，通过第二麦克风采集环境音量得到第二环境噪音值v ₂，将v ₁和v ₂之中的最大者确定为环境噪音值v _e，即v _e＝max(v ₁，v ₂)。

确定v _e后，即可通过在数据表中查询v _e所述区间范围，然后得到v _e所述区间范围对应的环境增益k _e。

步骤S300：根据k _h、k _d、k _e和V确定扬声器音量

k _h、k _d、k _e都是与扬声器音量V _m具有正向关系(例如正比例关系)的，

相当于音源增益，

相当于总增益，因此任何基于该正向关系而对上述扬声器音量V _m的计算公式的适当变形，都可以认为是合理的，在此不赘述。

当然，还可以预设最大音量V _max和最小音量V _min，如果V _m<V _min，则V _m＝V _min；如果V _m>V _max，则V _m＝V _max。

上述机器人自动调节音量的方法，通过判断第二用户的h和第二用户相对机器人的距离d并结合环境麦克风测量的环境噪音值v _e来确定扬声器音量V _m，使得机器人可以根据实际情况智能调节扬声器音量，从而无论在什么环境都可以给用户最适宜的音量大小，提高了交互效率和用户体验。

图4为一个实施例的机器人自动调节音量的装置模块示意图。对应机器人自动调节音量的方法，本申请还提供一种机器人自动调节音量的装置，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风(还具有采集用户声音的麦克风)，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述装置包括第一计算模块100、第二计算模块200和音量计算模块300。

第一计算模块100用于通过所述摄像机获取图像并检测图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据h与H的关系确定高度增益k _h，以及d与D的关系确定距离增益k _d；第二计算模块200用于通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据v _e和预设的对应关系确定对应的环境增益k _e；音量计算模块300用于根据k _h、k _d、k _e和V确定扬声器音量

第一计算模块100通过所述摄像机获取图像并检测图像中的第二用户图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据h与H的关系确定高度增益k _h，以及d与D的关系确定距离增益k _d。

第一计算模块100可以采用人脸检测方法进行人脸检测，以检测图像中的第二用户。

对于摄像机来说，拍摄得到的图像(图片或视频帧)是固定大小的，可以在图片中心位置划定预设的矩形位置作为人脸识别区域，只在这个人脸识别区域中进行人脸检测。例如假设使用的是1920×1080尺寸的图片，可以在图片中心位置划定 1000×1000的矩形位置作为人脸识别区域。

常用的人脸检测方法有以下几种：

1.单个CNN人脸检测方法

2.级联CNN人脸检测方法

3.OpenCV人脸检测方法

4.Dlib人脸检测方法

5.libfacedetect人脸检测方法

6.Seetaface人脸检测方法

以下简单介绍下单个CNN人脸检测方法。

如果本实施例中的机器人自动调节音量的装置应用于安卓***，第一计算模块100可以应用FaceDetector类判断摄像机拍摄的图像是否存在人脸图像。安卓***内置有人脸识别API：FaceDetector，该API可以通过少量代码完成人脸识别，但是这种识别是最基本的识别，即只能识别出图像中的人脸。

Neven库提供的主要方法：

在安卓***中，第一计算模块100可以通过FaceDetector类获取人脸图像的两眼位置，并根据两眼位置确定人脸图像在桌面的所处位置。具体步骤可以是：获取人脸图像的两眼位置中心点，获取人脸图像的两眼间距(瞳距)，根据两眼位置中心点和两眼间距绘制矩形区域(矩形框)，以矩形区域作为人脸图像在桌面的所处位置。可以通过以下代码获取人脸图像的两眼位置中心点：

mFace[i].getMidPoint(eyeMidPoint)；

可以通过以下代码获取人脸图像的两眼间距：

eyesDistance＝mFace[i].eyesDistance()；

可以通过以下代码绘制矩形区域：

关于人脸检测方法在此不再赘述，在本实施例中，并不对人脸检测方法进行限定。第一计算模块100检测出人脸后，计算所检测到的第二用户的高度h和相对机器人的距离d，根据h与H的关系确定高度增益k _h，以及d与D的关系确定距离增益k _d。

第二用户相对于机器人的距离d可以通过相关的测距传感器的感测值来计算确定，例如通过红外传感器进行红外测距、使用激光传感器进行激光测距等等。在本实施例中，第一计算模块100以图像分析方法来计算确定d。

在本实施例中，第二用户图像特征包括人像瞳距，预定义第一用户在离机器人距离为D1时图像中的人像瞳距为A1(实际瞳距)，第一用户在离机器人距离为D2时图像中的人像瞳距为A2(实际瞳距)，则第一计算模块100通过以下公式计算第二用户相对机器人的距离d：

d＝k(a-A1)+D1

其中

当然，第一计算模块100还可以采用其他的图像分析方法来计算确定d，例如采用其他的计算公式，只需要遵循上述两个假设以及原理即可，在此不赘述。

第一计算模块100确定了d之后，根据d与D的关系确定距离增益k _d。距离增益k _d与d是具有正向关系的，例如正比例关系。在本实施例中，距离增益k _d＝d/D。当然在其他的实施例中，还可以是其他的计算方式，k _d＝d/D+m(m为预设系数)等等，在此不赘述。

在本实施例中，预定义第一用户瞳距为C(实际瞳距)时对应图像中的人像瞳距为c(图像中的人像瞳距)，则第一计算模块100通过以下公式计算第二用户高度h：

同样的，第一计算模块100还可以采用其他的图像分析方法来计算确定h，例如采用其他的计算公式，只需要遵循上述两个假设以及原理即可，在此不赘述。

第一计算模块100确定了h之后，根据h与H的关系确定高度增益k _h。同样的，h与H是具有正向关系的，例如正比例关系。在本实施例中，高度增益k _h＝(h-Δ)/(H-Δ)，其中Δ为扬声器高度。当然，在一些实施例中，可以忽略扬声器高度，即Δ＝0。

第二计算模块200通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据v _e和预设的对应关系确定对应的环境增益k _e。具体的，通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据v _e所处于的区间范围确定与该区间范围对应的环境增益k _e。

例如，设定噪音标准为70dB。

对于安静环境下(v _e<40dB)，k _e＝0.8；

对于普通环境下(40dB<v _e<70dB)，k _e＝1；

对于嘈杂环境下(70dB<v _e<90dB)，k _e＝1+(v _e-70)/100；

对于极其嘈杂情况下(v _e>90dB)，k _e＝∞；

当然，在一些实施例中，第二计算模块200可以通过v _e和预设的计算公式确定环境增益k _e。

在其中一个实施例中，环境麦克风至少包括第一麦克风和第二麦克风，第一麦克风和第二麦克风位于机器人两侧(以机器人正面方向为基线)，例如机器人头部两侧，或者机器人躯干两侧，见图3；第二计算模块200通过所述环境麦克风采集环境音量得到环境噪音值v _e的过程包括：

第二计算模块200确定v _e后，即可通过在数据表中查询v _e所述区间范围，然后得到v _e所述区间范围对应的环境增益k _e。

音量计算模块300根据k _h、k _d、k _e和V确定扬声器音量

相当于音源增益，

上述机器人自动调节音量的装置，通过判断第二用户的h和第二用户相对机器人的距离d并结合环境麦克风测量的环境噪音值v _e来确定扬声器音量V _m，使得机器人可以根据实际情况智能调节扬声器音量，从而无论在什么环境都可以给用户最适宜的音量大小，提高了交互效率和用户体验。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述任一项实施例所述机器人自动调节音量的方法的步骤。

本申请还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一项实施例所述机器人自动调节音量的方法的步骤。

所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的用第一户在离机器人距离为D时对应的扬声器音量为V，所述方法包括如下步骤：通过所述摄像机获取图像并检测所述图像中的第二用户图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量

通过判断用户的h和用户相对机器人的距离d并结合环境麦克风测量的环境噪音值v _e来确定扬声器音量V _m，使得机器人可以根据实际情况智能调节扬声器音量，从而无论在什么环境都可以给用户最适宜的音量大小，提高了交互效率和用户体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

Claims

一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述方法包括如下步骤：

通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对所述机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；

通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；

根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量
根据权利要求1所述的机器人自动调节音量的方法，所述第二用户图像特征包括人像瞳距，预定义所述第一用户在离所述机器人距离为D1时所述图像中的人像瞳距为A1，所述第一用户在离所述机器人距离为D2时所述图像中的人像瞳距为A2，则通过以下公式计算所述第二用户相对所述机器人的距离d：d＝k(a-A1)+D1，

其中
a为所述图像中第二用户的人像瞳距。
根据权利要求1所述的机器人自动调节音量的方法，所述第二用户图像特征包括人像瞳距，预定义所述第一用户的真实瞳距为C时对应所述图像中的人像瞳距为c，则通过以下公式计算第二用户高度h：

其中，H1为摄像机高度，Δh为检测到的人脸矩形框中心与图像中心的像素差值。
根据权利要求1所述的机器人自动调节音量的方法，所述环境麦克风至少包括第一麦克风和第二麦克风，第一麦克风和第二麦克风位于机器人两侧；所述通过所述环境麦克风采集环境音量得到环境噪音值v _e包括：

通过第一麦克风采集环境音量得到第一环境噪音值v ₁，通过第二麦克风采集环境音量得到第二环境噪音值v ₂，将所述v ₁和所述v ₂之中的最大者确定为环境噪音值v _e。
根据权利要求1所述的机器人自动调节音量的方法，高度增益k _h＝(h-Δ)/(H-Δ)，其中Δ为扬声器高度。
根据权利要求1所述的机器人自动调节音量的方法，距离增益k _d＝d/D。
一种机器人自动调节音量的装置，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述装置包括：

第一计算模块，用于通过所述摄像机获取图像并检测所述图像中的第二用户图像特征，根据第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；

第二计算模块，用于通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定与对应的环境增益k _e；

音量计算模块，用于根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量
根据权利要求7所述的机器人自动调节音量的装置，所述第二用户图像特征包括人像瞳距，预定义所述第一用户在离所述机器人距离为D1时所述图像中的人像瞳距为A1，所述第一用户在离所述机器人距离为D2时所述图像中的人像瞳距为A2，则第一计算模块通过以下公式计算所述第二用户相对所述机器人的距离d：

d＝k(a-A1)+D1，

其中
a为所述图像中第二用户的人像瞳距。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述机器人自动调节音量的方法包括以下步骤：

通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；

通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；

根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量
根据权利要求9所述的计算机设备，所述第二用户图像特征包括人像瞳距，预定义所述第一用户在离所述机器人距离为D1时所述图像中的人像瞳距为A1，所述第一用户在离所述机器人距离为D2时所述图像中的人像瞳距为A2，则通过以下公式计算所述第二用户相对所述机器人的距离d：

d＝k(a-A1)+D1，

其中
a为所述图像中第二用户的人像瞳距。
根据权利要求9所述的计算机设备，所述第二用户图像特征包括人像瞳距，预定义所述第一用户的真实瞳距为C时对应所述图像中的人像瞳距为c，则通过以下公式计算第二用户高度h：

其中，H1为摄像机高度，Δh为检测到的人脸矩形框中心与图像中心的像素差值。
根据权利要求9所述的计算机设备，所述环境麦克风至少包括第一麦克风和第二麦克风，第一麦克风和第二麦克风位于机器人两侧；所述通过所述环境麦克风采集环境音量得到环境噪音值v _e包括：

通过第一麦克风采集环境音量得到第一环境噪音值v ₁，通过第二麦克风采集环境音量得到第二环境噪音值v ₂，将所述v ₁和所述v ₂之中的最大者确定为环境噪音值v _e。
根据权利要求9所述的计算机设备，高度增益k _h＝(h-Δ)/(H-Δ)，其中Δ为扬声器高度。
根据权利要求9所述的计算机设备，距离增益k _d＝d/D。
一种非易失性存储介质，所述存储介质内存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种机器人自动调节音量的方法，所述机器人具有摄像机、扬声器和用于采集环境声音的环境麦克风，预定义高度为H的第一用户在离机器人距离为D时对应的扬声器音量为V，所述机器人自动调节音量的方法包括以下步骤：

通过所述摄像机获取图像并检测所述图像中的第二用户的图像特征，根据所述第二用户图像特征计算所述第二用户的高度h和相对机器人的距离d，根据所述h与所述H的关系确定高度增益k _h，以及所述d与所述D的关系确定距离增益k _d；

通过所述环境麦克风采集环境音量得到环境噪音值v _e，根据所述v _e和预设的对应关系确定对应的环境增益k _e；

根据所述k _h、所述k _d、所述k _e和所述V确定扬声器音量
根据权利要求15所述的非易失性存储介质，所述第二用户图像特征包括人像瞳距，预定义所述第一用户在离所述机器人距离为D1时所述图像中的人像瞳距为A1，所述第一用户在离所述机器人距离为D2时所述图像中的人像瞳距为A2，则通过以下公式计算所述第二用户相对所述机器人的距离d：

d＝k(a-A1)+D1，

其中
a为所述图像中第二用户的人像瞳距。
根据权利要求15所述的非易失性存储介质，所述第二用户图像特征包括人像瞳距，预定义所述第一用户的真实瞳距为C时对应所述图像中的人像瞳距为c，则通过以下公式计算第二用户高度h：

其中，H1为摄像机高度，Δh为检测到的人脸矩形框中心与图像中心的像素差值。
根据权利要求15所述的非易失性存储介质，所述环境麦克风至少包括第一麦克风和第二麦克风，第一麦克风和第二麦克风位于机器人两侧；所述通过所述环境麦克风采集环境音量得到环境噪音值v _e包括：

通过第一麦克风采集环境音量得到第一环境噪音值v ₁，通过第二麦克风采集环境音量得到第二环境噪音值v ₂，将所述v ₁和所述v ₂之中的最大者确定为环境噪音值v _e。
根据权利要求15所述的非易失性存储介质，高度增益k _h＝(h-Δ)/(H-Δ)，其中Δ为扬声器高度。
根据权利要求15所述的非易失性存储介质，距离增益k _d＝d/D。