WO2015158182A1

WO2015158182A1 - 一种用户终端的音量调节方法、装置及终端

Info

Publication number: WO2015158182A1
Application number: PCT/CN2015/072906
Authority: WO
Inventors: 刘冬
Original assignee: 华为技术有限公司
Priority date: 2014-04-16
Filing date: 2015-02-12
Publication date: 2015-10-22
Also published as: EP3611910A1; EP3133799A4; CN103945062A; US10200545B2; US20170034362A1; US10516788B2; US20190132453A1; KR101884709B1; CN103945062B; US20200145539A1; US20180084116A1; EP3133799A1; EP3611910B1; US20190149668A1; JP2017514392A; TWI570624B; US11044369B2; US11483434B2; JP6381153B2; US10554826B2

Abstract

本发明公开了一种音量调节方法、装置及终端，在釆集用户终端周围的声音信号之后，对釆集到的声音信号进行分析，以得到声音信号的构成信息；该构成信息包括：声音信号包含的声音类型、以及各类型声音的比重，其中声音类型包括：空白声音、人类声音以及噪声；根据声音信号的构成信息确定用户终端当前的情景模式；并根据确定出的情景模式调节用户终端的音量。在确定用户终端当前的情景模式时，由于增加了对于声音信号中构成信息的参考因素，对应出的当前场景会更加贴近真实的场景，可以更加精准地与用户所处的情境匹配，大大减少由误判场景带来的播放音量调节不符合场景的情况发生提升了用户体验。

Description

一种用户终端的音量调节方法、装置及终端

技术领域

本发明涉及通讯技术领域，尤其涉及一种用户终端的音量调节方法、装置及终端。

背景技术

随着通信技术的不断发展，便携式用户终端，例如手机、平板电脑，已经成为人们工作、生活中必不可少的随身物品。人们可能会随时随地拨打或者接听电话，在接听电话时，往往需要根据不同的场合设置不同的响铃音量。对于手机用户，通常希望在办公室等安静环境中采用较小音量的响铃，以免产生较大的声音影响到其他办公人员的正常工作；而在商场、车站等公共嘈杂场合则需要采用较大音量的响铃，从而保证可以及时接听接入的呼叫。

目前，多数手机的响铃的音量和听筒的通话音量通常由用户手动调节，或者集成了简单的可以自感知的情景模式如室内模式、户外模式等特定场景。

在利用自感知的情景模式对手机的响铃的播放音量进行调节时，在有呼叫进入时，一般是通过声音检测模块提取并判断环境声音的分贝数，然后与预先存储的声音的分贝数与来电响铃音量的对应关系，调节铃声和听筒的音量。上述这种音量的调节方式仅根据环境声音的分贝数决定最后的响铃和听筒音量，但是环境声音的分贝数并不能准确反映用户所处的情境，提取的环境声音中若有较高的人声也会被误认为是噪声，比如讨论比较激烈的会议或者宣讲会、发布会等，在这些情境下本需要调小音量，但是根据环境声音的分贝数确定出的音量相对较大，导致手机音量的调节不合真实场景，准确性不高。

发明内容

本发明实施例提供了一种用户终端的音量调节方法、装置及终端，以使手机的音量自适应，并且更加精准地与用户所处的情境匹配，提升用户体验。

第一方面，提供一种用户终端的音量调节方法，包括：

采集所述用户终端周围的声音信号；

对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；所述构成信息包括：所述声音信号包含的声音类型、以及各种类型声音的比重；其中，所述声音类型包括：空白声音、人类声音以及噪声；

根据所述声音信号的构成信息确定所述用户终端当前的情景模式；

根据确定出的情景模式调节所述用户终端的音量。

结合第一方面，在第一种可能的实现方式中，所述采集所述用户终端周围的声音信号，具体包括：

在检测到有呼叫信号到达时，采集当前所在环境的声音信号；或，

周期性地采集当前所在环境的声音信号。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据确定出的情景模式调节所述用户终端的音量，包括：

根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据所述音量调节系数调整所述用户终端的音量。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述用户终端的音量包括：响铃音量和听筒音量；所述音量调节系数包括：响铃音量调节系数和听筒音量调节系数；

所述根据所述音量调节系数调节所述用户终端的音量，包括：

根据所述响铃音量调节系数调节所述用户终端的响铃音量，以及根据所述听筒音量调节系数调节所述用户终端的听筒音量。

结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式中，在第四种可能的实现方式中，在检测到呼叫信号接通后，还包括：

实时获取所述用户终端的话筒音量；

当获取到的话筒音量大于预先存储的基准音量时，增大所述用户终端的听筒音量；

当获取到的话筒音量小于预先存储的基准音量时，降低所述用户终端的听筒音量。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，在检测到呼叫信号接通后，还包括：

周期性地采集所述用户终端周围的声音信号，对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；

根据所述声音信号的构成信息判断所述声音信号是否包含人类声音且仅包含一个人的声音；若是，则计算所述声音信号的音量，将计算出的所述声音信号的音量与预先存储的所述基准音量取平均值后，作为新的基准音量进行存储。

结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式、第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息，具体包括：

将采集到的所述声音信号划分为多份的音频数据；

计算各份音频数据的声音频率，并根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类；

统计所有音频数据中空白声音、人类声音和噪声的比重；

针对被判别为人类声音的音频数据，计算人类声音的音频数据的梅尔频率倒谱系数，将梅尔频率倒谱系数相同的音频数据作为一个人的声音进行统计，以判断出人类声音中所包含的人数信息。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类，具体包括：

判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内；

在判断所述音频数据的声音频率在20Hz-20000Hz范围之内时，计算所述音频数据的基础频率，并在判断所述基础频率在85Hz-255Hz范围之内时，则认为所述音频数据为人类声音；在判断所述基础频率在85Hz-255Hz范围之外时，则认为所述音频数据为噪声；

在判断所述音频数据的声音频率在20Hz-20000Hz范围之外时，则认为所述音频数据为空白声音。

第二方面，提供一种用户终端的音量调节装置，包括：

采集单元，用于采集所述用户终端周围的声音信号；

分析单元，用于对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；所述构成信息包括：所述声音信号包含的声音类型、以及各类型声音的比重；其中，所述声音类型包括：空白声音、人类声音以及噪声；

情景模式确定单元，用于根据所述声音信号的构成信息确定所述用户终端当前的情景模式；

音量调节单元，用于根据确定出的情景模式调节用户终端的音量。

结合第二方面，在第一种可能的实现方式中，所述采集单元，具体用于在检测到有呼叫信号到达时，采集当前所在环境的声音信号；或，周期性地采集当前所在环境的声音信号。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述音量调节单元，具体用于根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据所述音量调节系数调整所述用户终端的音量。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述用户终端的音量包括：响铃音量和听筒音量；所述音量调节单元中的音量调节系数具体包括：响铃音量调节系数和听筒音量调节系数；

所述音量调节单元，具体用于根据所述响铃音量调节系数调节所述用户终端的响铃音量，以及根据所述听筒音量调节系数调节所述用户终端的听筒音量。

结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式，在第四种可能的实现方式中，还包括：

获取单元，用于在检测到呼叫信号接通后，实时获取所述用户终端的话筒音量；

比较单元，用于比较获取到的话筒音量与预先存储的基准音量的大小；

所述音量调节单元，还用于当获取到的话筒音量大于预先存储的基准音量时，增大所述用户终端的听筒音量；当获取到的话筒音量小于预先存储的基准音量时，降低所述用户终端的听筒音量。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述采集单元，具体用于在检测到呼叫信号接通后，周期性地采集所述用户终端周围的声音信号；

所述分析单元，还用于对所述采集模块在检测到呼叫信号接通后周期性地采集到的声音信号进行分析，以得到所述声音信号的构成信息；根据所述声音信号的构成信息判断所述声音信号是否包含人类声音且仅包含一个人的声音；若是，则计算所述声音信号的音量，将计算出的所述声音信号的音量与预先存储的所述基准音量取平均值后，作为新的基准音量进行存储。

结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实现方式、第二方面的第三种可能的实现方式、第二方面的第四种可能的实现方式或第二方面的第五种可能的实现方式，在第六种可能的实现方式中，所述分析单元，具体包括：

第一处理单元，用于将采集到的所述声音信号划分为多份的音频数据；

第二处理单元，用于计算各份音频数据的声音频率，并根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类；

第三处理单元，用于统计所有音频数据中空白声音、人类声音和噪声的比重；

第四处理单元，用于针对被判别为人类声音的音频数据，计算梅尔频率倒谱系数，将梅尔频率倒谱系数相同的音频数据作为一个人的声音进行统计，以判断人类声音中所包含的人数信息。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述第二处理单元，具体用于判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内；在判断所述音频数据的声音频率在20Hz-20000Hz范围之内时，计算所述音频数据的基础频率，并在判断所述基础频率在85Hz-255Hz范围之内时，则认为所述音频数据为人类声音；在判断所述基础频率在85Hz-255Hz范围之外时，则认为所述音频数据为噪声；在判断所述音频数据的声音频率在20Hz-20000Hz范围之外时，则认为所述音频数据为空白声音。

第三方面，提供一种终端，包括：扬声器和听筒；还包括本发明实施例提供的上述音量调节装置。

本发明实施例提供的用户终端的音量调节方法、装置及终端，具有以下有益效果：

在确定用户终端当前的情景模式时，由于增加了对于声音信号中构成信息的参考因素，对应出的当前场景会更加贴近真实的场景，可以更加精准地与用户所处的情境匹配，大大减少由误判场景带来的播放音量调节不符合场景的情况发生提升了用户体验。

附图说明

图1为本发明实施例提供的音量调节方法的流程示意图之一；

图2为本发明实例例提供的音量调节方法的流程示意图之二；

图3为本发明实例例提供的音量调节方法的流程示意图之三；

图4为本发明实例例提供的音量调节方法的流程示意图之四；

图5为本发明实例例提供的音量调节方法的流程示意图之五；

图6为本发明实例例提供的音量调节装置的结构示意图；

图7为本发明实施例提供的用户终端的结构示意图。

具体实施方式

为了解决现有的用户终端根据周围环境自动调节音量时对场景的识别精确程度不高导致调节出的音量与真实场景不匹配的问题，本发明实施例提供了一种用户终端的音量调节方法、装置及终端，能够对环境声音进行精确分析，匹配出的当前场景更贴近真实场景，进而调节出合适的音量，可以大大减少由误判场景带来的音量调节不符合场景的情况发生。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所提出的其他实施例都属于本发明所保护的范围。

本发明实施例提供的用户终端的音量调节方法可以主要应用于例如手机或对讲机等通信终端进行通信，例如手机在有呼叫信号接入时，可以暂不响铃，通过本发明实施例提供的音量调节方法确定出音量后，控制合适的响铃音量，并在呼叫接通后，控制合适的听筒音量。本发明实施例提供的音量调节方法还可以应用于例如公交车或地铁上安装的移动电视终端进行节目播放，例如在公交车上的移动电视终端可以通过本发明实施例提供的音量调节方法根据乘客的数目以及车厢内声音的大小进行节目音量的自动调节。

参见图1所示，本发明实施例提供的一种用户终端的音量调节方法，该方法包括以下步骤：

S101、采集用户终端周围的声音信号；

在具体实施时，可以根据执行音量调节的设备的处理能力，控制采集声音信号的时间，例如在设备处理能力较强时，可以在检测到有呼叫信号到达时，才采集当前所在环境的声音信号，并进行后续流程；在设备处理能力较弱时，可以周期性地采集当前所在环境的声音信号，并进行后续流程，在呼叫信号接入时直接采用调节好的音量进行响铃播放；

在具体实施时，可以通过终端的麦克等部件采集当前环境的声音信号，也可以在终端中设置单独的声音传感器采集当前环境的声音信号，在此不做限定；

S102、对采集到的声音信号进行分析，以得到声音信号的构成信息；该构成信息包括：声音信号包含的声音类型、以及各种类型声音的比重；其中，该声音类型包括：空白声音、人类声音以及噪声；

在具体实施时，声音信号可以分为空白声音、人类声音以及非人类声音(噪声)等，其中，空白声音是指人耳无法识别的声音信号，一般声音频率在20Hz到20000Hz以外的声音信号可以被认为是空白声音，噪声是指可以被人耳识别的除人类声音的声音信号，一般声音频率在20Hz到85Hz以内以及255Hz到20000Hz以内的声音信号可以被认为是噪声，通过对采集到的声音信号进行分析，计算出声音信号中包含空白声音的比重、噪声的比重和人类声音的比重，以便进行后续情景模式识别；

S103、根据声音信号的构成信息确定用户终端当前的情景模式；

用户终端的情景模式用于表示该用户终端所处的环境情况，比如安静的图书馆、充满争论的会议室、安静的卧室，或者喧嚣的马路上，在具体实施时，可以针对声音信号中三种类型声音的比重的大小关系建立对应的情景模式对应关系，即不同比重的声音信号对应于不同的情景模式，每种情景模式对应有相应的音量；进一步地，在建立对应关系时还可以增加了人类声音的数量的参考因素，这样对应出的情景模式会更加贴近真实的环境，可以大大减少由误判环境带来的音量调节不符的情况发生；

S104、根据确定出的情景模式调节用户终端的音量。

在具体实施时，可以根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据音量调节系数调整用户终端的音量；

在具体实施时，当应用于例如手机的通信终端时，用户终端的音量可以具体包括：响铃(也叫电话铃音，ring tone)音量和听筒音量；音量调节系数可以具体包括：响铃音量调节系数和听筒音量调节系数两种；

对应的，可以根据响铃音量调节系数调节用户终端的响铃音量，根据听筒音量调节系数用户终端的听筒音量。

表1示出了在下述几种情景模式中，针对人数不同而设定的响铃音量调节系数和听筒音量调节系数；其中，每个场景中用斜线(“/”)分开的两个数字从左到右分别表示响铃音量调节系数和听筒音量调节系数。

假设音量调节分成十个等级，即0.1到1.0，带有“d”的项表示该系数值还需要依据环境声音强度(分贝数)来确定，d表示环境音量强度等级，举例具体为：人耳可以接受的合理音量范围是20到120分贝(超过120分贝的，都以120来计算)，按照每10分贝提升一个等级，可以把环境音量也分成10个等级，即d的取值范围是1，2……10。可能有些带有d的项，计算结果无法精确对应到0.1到1.0这十个数值，则选取临近并且偏大的一个数值；如果计算结果小于0.1或者大于1.0，则选取这两个边界值。

表1

在具体实施时，本发明实施例提供的上述步骤S102、对采集到的声音信号进行分析，以得到声音信号中的构成信息，如图2所示，具体可以通过如下方式实现：

S201、将采集到的声音信号划分为多份的音频数据；例如分成n份：S1、S2……Sn；

S202、计算各份音频数据的声音频率，并根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类；

S203、统计所有音频数据中空白声音、人类声音和噪声的比重；具体地，分别计算出不同分类的音频数据份数，与总的音频数据份数进行比较，得到比重；

S204、针对被判别为人类声音的音频数据，计算梅尔频率倒谱系数(MFCC，Mel-Frequency Cepstral Coefficients)，然后将梅尔频率倒谱系数相同的音频数据作为一个人的声音进行统计，以判断出人类声音中所包含的人数信息；

具体地，可以针对被判别为人类声音的音频数据进行MFCC特征的计算，之后计算每两个MFCC特征矩阵的相似度，结果相似的MFCC特征可以认为是同一个人的声音，反之则是不同人的声音，这样可以统计出N份采样中包含的人数信息。

可以理解的是，本发明实施例主要基于频率和频谱分析，以确定采集到的声音信号的构成信息，其它类似的频率/频谱分析方法均能实现该目的，在此不再一一列举。

具体地，在上述步骤S202根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类，如图3所示，可以通过下述流程实现：

S301、判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内，若是，则执行步骤S302，若否，则执行步骤S306；

S302、计算音频数据的基础频率；当发声体由于震动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基础频率(fundamental frequency)，采用基础频率可以用来区分不同的发声体；

S303、判断基础频率是否在85Hz-255Hz范围之内，若是，则执行步骤S304；若否，则执行步骤S305；

S304、认为音频数据为人类声音；

S305、认为音频数据为噪声；

S306、认为音频数据为空白声音。

进一步地，在执行本发明实施例提供的上述步骤S104根据确定出的情景模式调节用户终端的音量后，用户接通呼叫信号后，在通话进行中，若在没有干扰的情况下(安静环境下)通话时，讲话的声音强度一般是固定的；一旦讲话者认为周围的环境比较吵，他讲话的声音强度就会下意识地提高；或，一旦讲话者认为当前的情景非常安静(比如原本很多人在讲话，有一个人接听电话后，其他人都不说话了)，不希望通话声音干扰到别人；或，涉及到隐私信息而不希望别人听到通话的内容，讲话的声音强度会比正常情况下有所下降。针对上述这些情况，本发明实施例提供的音量调节方法在检测到呼叫信号接通后，还提供了二次播放音量微调的方案，以达到调节听筒音量使其符合当前情景的效果。

基于此，在本发明实施例提供的上述音量调节方法中，如图4所示，还包括如下步骤：

S401、在检测到呼叫信号接通后，实时获取用户终端的话筒音量；

S402、比较获取到的话筒音量与预先存储的基准音量的大小，当获取到的话筒音量大于预先存储的基准音量时，执行步骤S403；当获取到的话筒音量小于预先存储的基准音量时，执行步骤S404；当获取到的话筒音量等于预先存储的基准音量时，退出流程；

S403、增大用户终端的听筒音量；

S404、降低用户终端的听筒音量。

在具体实施时，S402中比较获取到的话筒音量与预先存储的基准音量的大小时，可以将预先存储的基准音量设置为单一数值，也可以设置为一数值范围，只要获取的话筒音量在该数值范围内，都可认为获取到的话筒音量与基准音量相等，不必调整听筒的播放音量。

上述步骤S401～S404的执行是基于预先存储的基础音量实现的，该基础音量一般为固定值，是在本次通话之前的通话过程中确定并存储的，当然，基础音量也可以进行更新，如图5所示，可以通过如下步骤实现：

S501、在检测到呼叫信号接通后，周期性地采集用户终端周围的声音信号；

S502、对采集到的声音信号进行分析，以得到声音信号的构成信息；在具体实施时，具体执行步骤可以参见步骤S201～S204；

S503、根据声音信号的构成信息判断声音信号是否包含人类声音且仅包含一个人的声音；若是，则执行步骤S504；若否，则执行二次播放音量微调的方案，即执行步骤S401～S404；

S504、计算声音信号的音量，将计算出的声音信号的音量与预先存储的基准音量取平均值后，作为新的基准音量进行存储。

本发明实施例提供的上述音量调节方法中，在确定用户终端当前的情景模式时，由于增加了对于声音信号中构成信息的参考因素，对应出的当前场景会更加贴近真实的场景，可以更加精准地与用户所处的情境匹配，大大减少由误判场景带来的播放音量调节不符合场景的情况发生提升了用户体验。

基于同一发明构思，本发明还提供了一种用户终端的音量调节装置，参见图6所示，包括：

采集单元601，用于采集用户终端周围的声音信号；

分析单元602，用于对采集到的声音信号进行分析，得到声音信号的构成信息；该构成信息包括：声音信号包含的声音类型、以及各类型声音的比重；其中，该声音类型包括：空白声音、人类声音以及噪声；

情景模式确定单元603，用于根据声音信号的构成信息确定用户终端当前的情景模式；

音量调节单元604，用于根据确定出的情景模式调节用户终端的音量。

具体地，在本发明实施例提供的上述装置中，采集单元601，具体用于在检测到有呼叫信号到达时，采集当前所在环境的声音信号；或，周期性地采集当前所在环境的声音信号。

具体地，在本发明实施例提供的上述装置中，音量调节单元604具体用于根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据音量调节系数调整所述用户终端的音量。

具体地，在本发明实施例提供的上述装置中，用户终端的音量包括响铃音量和听筒音量；音量调节单元604中的音量调节系数具体包括：响铃音量调节系数和听筒音量调节系数；

音量调节单元604，具体用于根据响铃音量调节系数调节用户终端的响铃音量，以及根据听筒音量调节系数调节用户终端的听筒音量。

具体地，在本发明实施例提供的上述装置中，如图6所示，还包括：

获取单元605，用于在检测到呼叫信号接通后，实时获取用户终端的话筒音量；

比较单元606，用于比较获取到的话筒音量与预先存储的基准音量的大小；

音量调节单元604，还用于当获取到的话筒音量大于预先存储的基准音量时，增大用户终端的听筒音量；当获取到的话筒音量小于预先存储的基准音量时，降低用户终端的听筒音量。

具体地，在本发明实施例提供的上述装置中，采集单元601，具体用于在检测到呼叫信号接通后，周期性地采集用户终端周围的声音信号；

分析单元602，还用于对采集模块601在检测到呼叫信号接通后周期性地采集到的声音信号进行分析，以得到声音信号的构成信息；根据声音信号的构成信息判断声音信号是否包含人类声音且仅包含一个人的声音；若是，则计算声音信号的音量，将计算出的声音信号的音量与预先存储的基准音量取平均值后，作为新的基准音量进行存储。

具体地，在本发明实施例提供的上述装置中，分析单元602，具体包括：

第一处理单元，用于将采集到的声音信号划分为多份的音频数据；

第二处理单元，用于计算对各份音频数据的声音频率，并根据计算出的音频数据按照空白声音、人类声音和噪声进行分类；

具体地，在本发明实施例提供的上述装置中，第二处理单元，具体用于对判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内；在判断音频数据的声音频率在20Hz-20000Hz范围之内时，计算音频数据的基础频率，并在判断基础频率在85Hz-255Hz范围之内时，则认为音频数据为人类声音；在判断基础频率在85Hz-255Hz范围之外时，则认为音频数据为噪声；在判断音频数据的声音频率在20Hz-20000Hz范围之外时，则认为音频数据为空白声音。

本发明实施例提供的上述音量调节装置，在确定用户终端当前的情景模式时，由于增加了对于声音信号中构成信息的参考因素，对应出的当前场景会更加贴近真实的场景，可以更加精准地与用户所处的情境匹配，大大减少由误判场景带来的播放音量调节不符合场景的情况发生提升了用户体验。

基于同一发明构思，本发明实施例还提供了一种终端，包括：扬声器、听筒、以及本发明实施例提供的上述音量调节装置，其中，音量调节装置用于对扬声器和听筒的音量进行调节；具体地，该终端可以为：手机、对讲机、平板电脑、电视机、显示器、笔记本电脑等任何具有播放功能的产品或部件。该终端的实施可以参见上述播放音量的控制装置的实施例，重复之处不再赘述。本发明实施例提供另一种终端，如图7所示，包括：

声音传感器150，用于采集用户终端100周围的声音信号；扬声器130，用于在用户终端100有呼叫信号接入时，发出来电铃音(ring tone)；可以理解的是，扬声器130还可以用于播放音乐等音频数据；

听筒170，用于在用户通过用户终端100与对方通话时，播放对方的话音；

该终端100还可以包括显示单元140，该显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单界面。该显示单元140可包括显示面板141，可选的，显示面板141可以为LCD(Liquid Crystal Display，液晶显示器)或OLED(Organic Light-Emitting Diode,有机发光二极管)等。

在一些实施方式中，存储器120存储了可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

在本发明实施例中，通过调用存储器120存储的程序或指令，处理器160用于：对声音传感器150采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；所述构成信息包括：所述声音信号包含的声音类型、以及各种类型声音的比重；其中，所述声音类型包括：空白声音、人类声音以及噪声声音；根据所述声音信号的构成信息确定所述用户终端当前的情景模式；根据确定出的情景模式调节扬声器130和/或听筒170的音量。

可选地，作为一个实施例，在检测到呼叫信号接通后，声音传感器150实时获取话筒110的音量；

所述处理器160还用于：

当获取到的话筒音量大于预先存储的基准音量时，增大所述用户终端的听筒音量；当获取到的话筒音量小于预先存储的基准音量时，降低所述用户终端的听筒音量。

需要说明的是，声音传感器150为用于采集声音信号的单元，它具体可以集成到话筒110中，也可以是单独部件，本发明不做特别限定。

另外，终端设备100还可执行图1至图5的方法及实施例，本发明实施例在此不再赘述。

本发明实施例提供的上述用户终端，在确定用户终端当前的情景模式时，由于增加了对于声音信号中构成信息的参考因素，对应出的当前场景会更加贴近真实的场景，可以更加精准地与用户所处的情境匹配，大大减少由误判场景带来的播放音量调节不符合场景的情况发生提升了用户体验。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种用户终端的音量调节方法，其特征在于，包括：

采集所述用户终端周围的声音信号；

对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；所述构成信息包括：所述声音信号包含的声音类型、以及各种类型声音的比重；其中，所述声音类型包括：空白声音、人类声音以及噪声；

根据所述声音信号的构成信息确定所述用户终端当前的情景模式；

根据确定出的情景模式调节所述用户终端的音量。
如权利要求1所述的方法，其特征在于，所述采集所述用户终端周围的声音信号，具体包括：

在检测到有呼叫信号到达时，采集当前所在环境的声音信号；或，

周期性地采集当前所在环境的声音信号。
根据权利要求1或2所述的方法，其特征在于，所述根据确定出的情景模式调节所述用户终端的音量，包括：

根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据所述音量调节系数调整所述用户终端的音量。
如权利要求3所述的方法，其特征在于，所述用户终端的音量包括：响铃音量和听筒音量；所述音量调节系数包括：响铃音量调节系数和听筒音量调节系数；

所述根据所述音量调节系数调节所述用户终端的音量，包括：

根据所述响铃音量调节系数调节所述用户终端的响铃音量，以及根据所述听筒音量调节系数调节所述用户终端的听筒音量。
如权利要求1-4任一项所述的方法，其特征在于，在检测到呼叫信号接通后，还包括：

实时获取所述用户终端的话筒音量；

当获取到的话筒音量大于预先存储的基准音量时，增大所述用户终端的听筒音量；

当获取到的话筒音量小于预先存储的基准音量时，降低所述用户终端的听筒音量。
如权利要求5所述的方法，其特征在于，在检测到呼叫信号接通后，还包括：

周期性地采集所述用户终端周围的声音信号，对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；

根据所述声音信号的构成信息判断所述声音信号是否包含人类声音且仅包含一个人的声音；若是，则计算所述声音信号的音量，将计算出的所述声音信号的音量与预先存储的所述基准音量取平均值后，作为新的基准音量进行存储。
如权利要求1-6任一项所述的方法，其特征在于，所述对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息，具体包括：

将采集到的所述声音信号划分为多份的音频数据；

计算各份音频数据的声音频率，并根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类；

统计所有音频数据中空白声音、人类声音和噪声的比重；

针对被判别为人类声音的音频数据，计算人类声音的音频数据的梅尔频率倒谱系数，将梅尔频率倒谱系数相同的音频数据作为一个人的声音进行统计，以判断出人类声音中所包含的人数信息。
如权利要求7所述的方法，其特征在于，所述根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类，具体包括：

判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内；

在判断所述音频数据的声音频率在20Hz-20000Hz范围之内时，计算所述音频数据的基础频率，并在判断所述基础频率在85Hz-255Hz范围之内时，则认为所述音频数据为人类声音；在判断所述基础频率在85Hz-255Hz范围之外时，则认为所述音频数据为噪声；

在判断所述音频数据的声音频率在20Hz-20000Hz范围之外时，则认为所述音频数据为空白声音。
一种用户终端的音量调节装置，其特征在于，包括：

采集单元，用于采集所述用户终端周围的声音信号；

分析单元，用于对采集到的所述声音信号进行分析，以得到所述声音信号的构成信息；所述构成信息包括：所述声音信号包含的声音类型、以及各类型声音的比重；其中，所述声音类型包括：空白声音、人类声音以及噪声；

情景模式确定单元，用于根据所述声音信号的构成信息确定所述用户终端当前的情景模式；

音量调节单元，用于根据确定出的情景模式调节用户终端的音量。
如权利要求9所述的装置，其特征在于，所述采集单元，具体用于在检测到有呼叫信号到达时，采集当前所在环境的声音信号；或，周期性地采集当前所在环境的声音信号。
如权利要求9或10所述的装置，其特征在于，所述音量调节单元，具体用于根据确定出的情景模式，以及预先存储的情景模式与音量调节系数的对应关系，确定音量调节系数，并根据所述音量调节系数调整所述用户终端的音量。
如权利要求11所述的装置，其特征在于，所述用户终端的音量包括：响铃音量和听筒音量；所述音量调节单元中的音量调节系数具体包括：响铃音量调节系数和听筒音量调节系数；

所述音量调节单元，具体用于根据所述响铃音量调节系数调节所述用户终端的响铃音量，以及根据所述听筒音量调节系数调节所述用户终端的听筒音量。
如权利要求9-12任一项所述的装置，其特征在于，还包括：

获取单元，用于在检测到呼叫信号接通后，实时获取所述用户终端的话筒音量；

比较单元，用于比较获取到的话筒音量与预先存储的基准音量的大小；

所述音量调节单元，还用于当获取到的话筒音量大于预先存储的基准音量时，增大所述用户终端的听筒音量；当获取到的话筒音量小于预先存储的基准音量时，降低所述用户终端的听筒音量。
如权利要求13所述的装置，其特征在于，所述采集单元，具体用于在检测到呼叫信号接通后，周期性地采集所述用户终端周围的声音信号；

所述分析单元，还用于对所述采集模块在检测到呼叫信号接通后周期性地采集到的声音信号进行分析，以得到所述声音信号的构成信息；根据所述声音信号的构成信息判断所述声音信号是否包含人类声音且仅包含一个人的声音；若是，则计算所述声音信号的音量，将计算出的所述声音信号的音量与预先存储的所述基准音量取平均值后，作为新的基准音量进行存储。
如权利要求9-14任一项所述的装置，其特征在于，所述分析单元，具体包括：

第一处理单元，用于将采集到的所述声音信号划分为多份的音频数据；

第二处理单元，用于计算各份音频数据的声音频率，并根据计算出的声音频率将各份音频数据按照空白声音、人类声音和噪声进行分类；

第三处理单元，用于统计所有音频数据中空白声音、人类声音和噪声的比重；

第四处理单元，用于针对被判别为人类声音的音频数据，计算梅尔频率倒谱系数，将梅尔频率倒谱系数相同的音频数据作为一个人的声音进行统计，以判断人类声音中所包含的人数信息。
如权利要求15所述的装置，其特征在于，所述第二处理单元，具体用于判断各份音频数据的声音频率是否在20Hz-20000Hz范围之内；在判断所述音频数据的声音频率在20Hz-20000Hz范围之内时，计算所述音频数据的基础频率，并在判断所述基础频率在85Hz-255Hz范围之内时，则认为所述音频数据为人类声音；在判断所述基础频率在85Hz-255Hz范围之外时，则认为所述音频数据为噪声；在判断所述音频数据的声音频率在20Hz-20000Hz范围之外时，则认为所述音频数据为空白声音。
一种终端，包括：扬声器和听筒；其特征在于，还包括如权利要求9-16任一项所述的音量调节装置。