CN107105095A

CN107105095A - 一种声音处理方法及移动终端

Info

Publication number: CN107105095A
Application number: CN201710274001.9A
Authority: CN
Inventors: 周颖; 陈鹏飞
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2017-08-29
Anticipated expiration: 2037-04-25
Also published as: CN107105095B

Abstract

本发明公开了一种声音处理方法，通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；将分离出的各种声音与数据库中样本音进行识别和匹配；将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；根据计算出的所述混合音值H2对所述耳机的声道输出进行调节。本发明还公开了一种声音处理移动终端，解决了相关技术中无法根据用户所处环境进行智能的音量输出的问题，通过对环境音进行采集和分离，根据计算出的混合音值来优化耳机的声道输出，使用户获得更舒适的耳机收音体验，提高了用户体验。

Description

一种声音处理方法及移动终端

技术领域

本发明涉及移动通信技术领域，尤其涉及一种声音处理方法及移动终端。

背景技术

随着互联网的发展和终端的普及，终端的用户群越来越大，同时也对软件提出了更多智能，人性化的需求。

在现有的技术中，其实终端，虽然被用户作为一个游戏机或电视机，还可能是一个学习机，还可能成为小宝宝的乐园等等，给我们的生活带来更多的乐趣。随着通讯产品的更新换代，移动终端(例如手机、个人数字化助理PDA等)已成为人们必备的通讯工具。各种方便人们生活的功能都能在移动终端上实现，例如手机电视、GPS、移动支付等等，都需要移动终端接入到互联网才能实现。

近年来，随着科技的发展，人们接收着大量的图像和声音信息，用传感器检测包含信息的信号，然而传感器检测到的往往是多个未知成分混在一起的信号。在传感器检测方面人们一直追求对真实源信号的检测，新原理新方法新技术不断出现，如尽可能将传感器布置靠近源信号位置，采用多个传感器等措施来检测真实的源信号。由于检测到的信号是混合信号，因此对于有些情况(如公共场合信号等)中的真实源信号检测就更加困难。比如手机通过声音传感器输入三个语音信号，然后通过混合这三个信号来模拟我们现实中的情景，达到我们一般的麦克风接收到的语音信号的情况。

实际接收的数据是复杂而繁多的，其中包含有用信息和无用信息，特别是传感器数量较多时，计算就很复杂，这时需要对观测数据进行预处理，能在一定条件下降低数据维数，减少后面处理的计算量。

针对相关技术中无法根据用户所处环境进行智能的音量输出的问题，目前尚未提出解决方案。

发明内容

本发明的主要目的在于提出一种声音处理方法及移动终端，旨在解决相关技术中无法根据用户所处环境进行智能的音量输出的问题。

为实现上述目的，本发明实施例提出一种声音处理方法，包括：

通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；

将分离出的各种声音与数据库中样本音进行识别和匹配；

将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；

根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；

根据计算出的所述混合音值H2对所述耳机的声道输出进行调节。

优选地，在对采集的环境音进行分离处理之前，还包括：对采集到的包含环境音的混合语音信号进行降噪处理，对降噪处理后的混合语音信号进行白化处理。

优选地，在根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2之后，所述方法还包括：

将所述H2上传至多媒体音库。

优选地，根据计算出的所述混合音值对所述耳机的声道输出进行调节包括：

将所述H2与当下预输出声值H3相加；

将相加的结果与预设的舒适值区间进行对比分析；

根据分析的结果对所述耳机的声道输出的音量大小进行调节。

优选地，根据分析的结果对所述耳机的声道输出的音量大小进行调节包括：

若H2+H3＞舒适值区间，自动将所述耳机的声道输出减小至所述舒适值区间；

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；

若H2+H3＜舒适值区间，自动将所述耳机的声道输出增大至所述舒适值区间。

根据本发明实施例的另一方面，还提供了一种声音处理移动终端，包括：

分离模块，用于通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；

识别匹配模块，用于将分离出的各种声音与数据库中样本音进行识别和匹配；

综合计算模块，用于将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；

处理模块，用于根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；

调节模块，用于根据计算出的所述混合音值H2对所述耳机的声道输出进行调节。

优选地，所述移动终端还包括：

降噪处理模块，用于在对采集的环境音进行分离处理之前，对采集到的包含环境音的混合语音信号进行降噪处理；

白化处理模块，用于对降噪处理后的混合语音信号进行白化处理。

优选地，所述移动终端还包括：

上传模块，用于在根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2之后，将所述H2上传至多媒体音库。

优选地，所述调节模块包括：

相加单元，用于将所述H2与当下预输出声值H3相加；

对比分析单元，用于将相加的结果与预设的舒适值区间进行对比分析；

调节单元，用于根据分析的结果对所述耳机的声道输出的音量大小进行调节。

优选地，所述调节单元，还用于

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；

通过本发明，通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；将分离出的各种声音与数据库中样本音进行识别和匹配；将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；根据计算出的所述混合音值H2对所述耳机的声道输出进行调节，解决了相关技术中无法根据用户所处环境进行智能的音量输出的问题，通过对环境音进行采集和分离，根据计算出的混合音值来优化耳机的声道输出，使用户获得更舒适的耳机收音体验，提高了用户体验。

附图说明

图1为实现本发明各个实施例一可选的移动终端的硬件结构示意图；

图2为如图1所示的移动终端的无线通信***示意图；

图3是根据本发明实施例的声音处理方法的流程图；

图4是根据本发明实施例的分离混合声音的示意图；

图5是根据本发明实施例的混合声音处理的流程图；

图6是根据本发明优选实施例的混合声音处理的流程图；

图7是根据本发明实施例的声音处理移动终端的框图；

图8是根据本发明优选实施例的声音处理移动终端的框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例一可选的移动终端的硬件结构示意图。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。

图1示出了具有各种组件的移动终端100，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端100的元件。

无线通信单元110通常可以包括一个或多个组件，其允许移动终端100与无线通信***或网络之间的无线电通信。例如，无线通信单元110可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播***接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO@)的数据广播***、地面数字广播综合服务(ISDB-T)等等的数字广播***接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播***以及上述数字广播***。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块115的典型示例是GPS(全球定位***)。根据当前的技术，GPS计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端100的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风122接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端100的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

感测单元140检测移动终端100的当前状态，(例如，移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即，触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等，并且生成用于控制移动终端100的操作的命令或信号。例如，当移动终端100实施为滑动型移动电话时，感测单元140可以感测该滑动型电话是打开还是关闭。另外，感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端100的路径。从底座输入的各种命令信号或电力可以用作识别移动终端100是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)，例如，移动终端100可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报单元153可以以不同的方式提供输出以通知事件的发生。例如，警报单元153可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incoming communication)时，警报单元153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181，多媒体模块181可以构造在控制器180内，或者可以构造为与控制器180分离。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端100。另外，本发明实施例中的移动终端100可以是诸如折叠型、直板型、摆动型、滑动型以及其他各种类型的移动终端，具体此处不做限定。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信***以及基于卫星的通信***来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信***。

这样的通信***可以使用不同的空中接口和/或物理层。例如，由通信***使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信***(UMTS)(特别地，长期演进(LTE))、全球移动通信***(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信***，但是这样的教导同样适用于其它类型的***。

参考图2，CDMA无线通信***可以包括多个智能终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC 280被构造为与公共电话交换网络(PSTN)290形成接口。MSC 280还被构造为与可以经由回程线路耦接到基站270的BSC 275形成接口。回程线路可以根据若干己知的接口中的任一种来构造，所述接口可以包括例如欧洲标准高容量数字线路/美国标准高容量数字线路(E1/T1)、异步传输模式(ATM)，网络协议(IP)、点对点协议(PPP)、帧中继、高速率数字用户线路(HDSL)、非对称数字用户线路(ADSL)或各种类型数字用户线路(xDSL)。将理解的是，如图2中所示的***可以包括多个BSC 275。

每个BS 270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS 270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS 270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz，5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS 270也可以被称为基站收发器子***(BTS)或者其它等效术语。在这样的情况下，术语"基站"可以用于笼统地表示单个BSC275和至少一个BS 270。基站也可以被称为"蜂窝站"。或者，特定BS 270的各分区可以被称为多个蜂窝站。

如图2中所示，广播发射器(BT)295将广播信号发送给在***内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT 295发送的广播信号。在图2中，示出了几个全球定位***(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中，描绘了多个卫星300，但是理解的是，可以利用任何数目的卫星获得有用的定位信息。如图1中所示的位置信息模块115(如：GPS)通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外，可以使用可以跟踪移动终端的位置的其它技术。另外，至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信***的一个典型操作，BS 270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站接收的每个反向链路信号被在特定BS 270内进行处理。获得的数据被转发给相关的BSC 275。BSC提供通话资源分配和包括BS 270之间的软切换过程的协调的移动管理功能。BSC 275还将接收到的数据路由到MSC 280，其提供用于与PSTN 290形成接口的额外的路由服务。类似地，PSTN290与MSC 280形成接口，MSC与BSC 275形成接口，并且BSC 275相应地控制BS 270以将正向链路信号发送到移动终端100。

基于上述的移动终端，本发明实施例提供了一种声音处理方法，图3是根据本发明实施例的声音处理方法的流程图，如图3所示，该方法包括以下步骤：

步骤S302，通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；

步骤S304，将分离出的各种声音与数据库中样本音进行识别和匹配；

步骤S306，将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；

步骤S308，根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；

步骤S310，根据计算出的所述混合音值H2对所述耳机的声道输出进行调节。

通过上述步骤，通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；将分离出的各种声音与数据库中样本音进行识别和匹配；根据匹配成功的环境音计算混合音值；根据计算出的所述混合音值对所述耳机的声道输出进行调节，解决了相关技术中无法根据用户所处环境进行智能的音量输出的问题，通过对环境音进行采集和分离，根据计算出的混合音值来优化耳机的声道输出，使用户获得更舒适的耳机收音体验，提高了用户体验。

为了减少后续分离的复杂度，在对采集的环境音进行分离处理之前，对混合语音进行降维处理，包括对采集到的包含环境音的混合语音信号进行降噪处理，对降噪处理后的混合语音信号进行白化处理。

优选地，在根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2之后，将所述H2上传至多媒体音库。

根据计算出的所述混合音值对所述耳机的声道输出进行调节可以包括：将所述H2与当下预输出声值H3相加；将相加的结果与预设的舒适值区间进行对比分析；根据分析的结果对所述耳机的声道输出的音量大小进行调节。

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；

本发明实施例使用FastICA算法来实现语音信号的分离，整个过程需要有信号的输入、FastICA语音信号分离和最终结果语音信号的输出。

语音信号分离处理就是利用盲源分离(Blind Source Separation，简称为BSS)技术对麦克风检测到的一段语音信号进行处理。例如采用了三个语音信号作为信号源作为输入，然后对其进行混合后再处理。在混合三个语音信号方面是利用矩阵的方式将三个信号处理到一个矩阵中。再通过一个随机权矩阵与合并的信号矩阵进行乘，得出处理过的混合信号。对混合后的观测信号做ICA前的预处理。在ICA处理之前，通常先要对观测数据进行预处理，预处理主要有信号的中心化和白化。信号中心化是将观测信号X减去其均值E{X}，有X’＝X-E{X}这样E{X’}＝0，叫做信号X的中心化。在解混合之后，再将均值向量加回到解混得到的信号中去。白化过程是对观测信号X实施线性变换到V，即V＝MX，且使得E{VV’}＝I，其中M为白化矩阵。该变换仅仅是去掉了观测信号X之间的相关性。若要达到降维的作用，可对其协方差阵进行特征值分解，起到降维作用。通过FastICA算法对预处理后的数据进行处理，对信号进行特征提取处理，从而完成语音信号的分离。

下面对分离混合语音的分离进行详细说明。主要包括：

首先，对混合语音信号的预处理。在混合信号进行分离前对信号进行预处理是非常有必要的，为了减小噪声的干扰，首先要对采样的信号进行降噪处理；然后对降噪后的数据进行去均值和去相关的球化处理，可以减小计算量。预处理过程包括：

降噪处理：LMS(Least mean square)滤波能够较快的跟踪变化的信号，并自动调整自身的参数，以达到最佳的滤波效果，并采用此方法对每一路混合信号进行滤波处理，对第i路信号m_i＝[m_i(1),...,m_i(N)]具体LMS滤波过程如下，其中：

第一步，参数的初始化，设定仿真次数g，mi的长度N，LMS滤波器的阶数k，u＝0.001，当前仿真仿真次数q＝1；

第二步，将输入信号m_i的前k个值作为输出x的前k个值，初始化i＝k+1，设置抽头加权初值为一个一行k列的0矩阵w；

第三步：将m_i的第i-k+1到i个值取做一个列矢量XN，然后求第i点滤波器输出x(i)＝w*XN，计算每点的偏差e(i)＝m(i)-x(i)；

再更新矩阵w，w＝w+2*u*e(i)*XN'。

将步骤3重复仿真，每仿真一次q就加1，直到仿真次数达到g次，然后输出所有的x(i)组成一个一行N列的矢量x，x即为滤波器的输出。

白化处理，白化处理分为两个步骤：最基本且最有必要的预处理去均值和去相关。去均值的好处是零均值的数据便于计算；去相关能降低相关性，找出并去掉特征值较小的信号，减小估计源信号的数目，减小计算量等。信号x去均值，也就是x中减去其均值矢量E(x)，使得x为均值为零的变量，在实际的计算中，每一路话筒得到滤波后的信号x采用算术平均值代替数学期望，第i路信号去均值如下式：

去相关是通过特征值分解x0的协方差矩阵其中D为R_x0特征值组成的对角矩阵，Q为对应特征值的特征向量组成的矩阵，得到白化矩阵T＝D^-1/2Q^T，由变换z＝Tx₀得白化信号z。

混合信号的分离，采用一种变步长的自然梯度算法分离预处理后的信号z，分离算法的核心分离矩阵如下：

W(k+1)＝W(k)+η(k)[I-f(y)y^T]W(k)(2)

语音信号是一种超高斯信号，因而非线性函数选择f(y)＝tan(y)。

用当前时刻的梯度的每一元素乘以前一时刻梯度对应元素，然后取

其长度作为步长的变化量，实际的步长调节公式为：

达到设定的迭代次数，就可以得到分离矩阵W，得到各个原始信号的估计值：

y＝Wz

y＝[y₁,y₂,...,y_n]^T，具体分离过程具体步骤如下：

第一步：初始化参数：仿真次数maxits，要分离的信号z及其行数n及其列数(N信号的采样数)，分离步长ga_W，调节因子ro，一般设定ro＝0.01，一般分离矩阵W设定为0.1倍n维单位方阵，tal为当前时刻的梯度，tal_old前一时刻的梯度并将tal和tal_old初始化为零矩阵；

第二步：将要分离的信号z分成nb块，则每块的长度为bsize为(2*N)/(nb+1)取整；

第三步：在每一块内做如下操作：

计算用W乘以z的第(k-1)*bsize/2+1列到(k+1)*bsize/2列组成的矩阵，有y＝W*z(:,(k-1)*bsize/2+1:(k+1)*bsize/2)；

求y每一点的非线性函数值：

fy＝tanh(y)；

更新分离矩阵W：

如果为第一次循环则计算：

tal＝(I-fy*y'/bsize)*W；

W＝W+ga_W*(I-fy*y'/bsize)*W；

tal_old＝tal；

否则计算：

tal＝(I-fy*y'/bsize)*W；

ga_W＝ga_W+ro*trace(tal*tal_old')；

W＝W+ga_W*(I-fy*y'/bsize)*W；

tal_old＝tal；

直到把nb块都计算完；将第三步循环做maxits次迭代得到分离矩阵W；

第四步：计算y＝Wz，y的每一个行向量就是一个原始语音信号的估计。

图4是根据本发明实施例的分离混合声音的示意图，如图4所示，实际接收的数据是复杂而繁多的，其中包含有用信息和无用信息，特别是传感器数量较多时，计算就很复杂，这时对观测数据进行预处理，能在一定条件下降低数据维数，减少后面处理的计算量。

分离混合声音具体包括：鉴于声音文件的图像不够直观，可以通过两个主函数通过不同的形式来完成仿真。将各个功能模块函数化，通过函数调用的形式完成仿真。这使得ICA算法的流程在主程序中显得更加清晰，同时增强了仿真程序的可移植性。(main_ica.m主要完成对声音文件的分离；main_ica_fig.m主要完成对通过程序产生的信号的分离)。

图5是根据本发明实施例的混合声音处理的流程图，如图5所示，读入声音信号，对声音信号进行混合，之后解混，输出声音信号。

移动终端通过音筒接收用户所处地域的周围环境音，传递给CPU终端分析和处理，分离各种声音，包含但不限于如地铁声，人群熙攘声，喇叭声等等。将各种声音与大数据库中的样本声进行识别和匹配。匹配后进行分贝的综合计算，得到环境音的一个分贝值区间范围，即为环境音综合声值H1。移动终端识别已***的耳机的降噪值来与环境音的分贝值进行综合加减处理，即为混合音值H2。移动终端中心将H2上传至多媒体音音库，与当下预输出声值H3相加并将结果与预设的舒适值区间进行对比，若H2+H3＞舒适值区间，则耳机声道输出处将自动减小音量的输出至舒适值区间。若H2+H3∈舒适值区间，则耳机声道输出处将按声值H3输出。若H2+H3＜舒适值区间，则耳机声道输出处将自动增大音量的输出至舒适值区间。图6是根据本发明优选实施例的混合声音处理的流程图，如图6所示，具体包括以下步骤：

步骤S601，通过声音传感器收集环境声音；

步骤S602，对采集到的环境声音进行分离，并输出各个声源的声音值，分别标记为M1，M2，M3…；

步骤S603，将M1，M2，M3…与大数据库中的样本进行识别和匹配；

步骤S604，判断是否匹配成功，在判断结果诶否的情况下，执行步骤S605，在判断结果为是的情况下执行步骤S606；

步骤S605，去除小杂音/断音/破音等；

步骤S606，运算并得到环境音的一个分贝值区间范围，即为环境音综合声值H1；

步骤S607，将手机(即移动终端)已***耳机的降噪值与环境音的综合声值H1进行综合运算处理，输出混合音值H2；

步骤S608，将H2与当下预输出声值H3相加并将结果与预设得到舒适值区间进行对比判断；

步骤S609，若H2+H3＞舒适值区间，则耳机声道输出处将自动减小音量的输出至舒适值区间；

步骤S610，若H2+H3∈舒适值区间，则耳机声道输出处将按声值H3输出；

步骤S611，若H2+H3＜舒适值区间，则耳机声道输出处将自动增大音量的输出至舒适值区间。

不仅仅让耳机的使用停留在阻断环境音对人耳的干扰——降噪上，更是通过对人周围环境各种声音的采集和分析，计算出更准确的混合音值来判断和优化耳机声道的输出值大小，让用户获得更舒适的耳机收音体验。结合了大数据库及多层算法运算，给用户提供了一种无论在什么环境下，都能听到耳机输出的舒适的声音的体验。

由麦克风采集耳机所处场景的环境噪音信号。麦克风可以为ECM麦克风，麦克风每隔预定时间采集耳机所处场景的环境噪音信号。

根据环境噪音信号获取噪音声压值后比较所述噪音声压值和预定阈值。首先对环境噪音信号进行模数转换，接着对数字环境噪音信号进行解析以获取噪音声压值，接着比较噪音声压值和预定阈值。其中，预定阈值包括第一预定阈值和第二预定阈值，优选地，第一预定阈值为65dB，第二预定阈值为30至40dB中的任一数值。

根据比较结果加载降噪参数以产生抵消环境噪音信号的反相噪音信号。由降噪模块根据比较结果加载降噪参数以产生抵消环境噪音信号的反相噪音信号的步骤包括：由降噪模块获取对环境噪音信号被动降噪对应的幅度响应和相位响应；由降噪模块根据被动降噪对应的幅度响应和相位响应获取主动降噪对应的幅度响应和相位响应；由降噪模块根据主动降噪对应的幅度响应和相位响应获取降噪参数；由降噪模块根据比较结果加载降噪参数以产生抵消环境噪音信号的反相噪音信号。

其中，被动降噪是指耳机利用物理特性将外部环境噪音与人耳隔绝开，主要通过隔声材料阻挡噪音。主动降噪是通过麦克风捕捉耳机外部环境噪音后，产生抵消环境噪音信号的反相信号，然后通过扬声器播放出来。

在本实施例中，反相噪音信号包括第一反相噪音信号和第二反相噪音信号，其中，第一反相噪音信号较第二反相噪音具有更大的降噪幅度。

当噪音声压值大于等于第一预定阈值时，则说明耳机所处的场景非常嘈杂，需要对环境噪音信号进行较大幅度地降噪处理，此时，由降噪模块加载使降噪模块产生第一反相噪音信号的降噪参数。当噪音声压值小于第一预定阈值且大于等于第二预定阈值，则说明耳机所处的场景一般嘈杂，只需对环境噪音信号进行较小幅度地降噪处理，此时，由降噪模块加载使降噪模块产生第二反相噪音信号的降噪参数。当噪音声压小于第二预定阈值，则说明耳机所处的场景很安静，不需要对环境噪音信号进行降噪处理，此时，由降噪模块加载使降噪模块处于不工作状态的降噪参数。

根据本发明实施例的另一方面，还提供了一种声音处理移动终端，图7是根据本发明实施例的声音处理移动终端的框图，如图7所示，包括：

分离模块72，用于通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；

识别匹配模块74，用于将分离出的各种声音与数据库中样本音进行识别和匹配；

综合计算模块76，用于将匹配成功的环境音进行分贝的综合计算，得到环境音综合声值H1；

处理模块78，用于根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2；

调节模块710，用于根据计算出的所述混合音值H2对所述耳机的声道输出进行调节。

优选地，所述移动终端还包括：

图8是根据本发明优选实施例的声音处理移动终端的框图，如图8所示，所述调节模块710包括：

相加单元82，用于将所述H2与当下预输出声值H3相加；

对比分析单元84，用于将相加的结果与预设的舒适值区间进行对比分析；

调节单元86，用于根据分析的结果对所述耳机的声道输出的音量大小进行调节。

优选地，所述调节单元86，还用于

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；

本发明实施例，通过耳机的声音传感器采集用户所在区域周围的环境音，对采集的环境音进行分离处理；将分离出的各种声音与数据库中样本音进行识别和匹配；根据匹配成功的环境音计算混合音值；根据计算出的所述混合音值对所述耳机的声道输出进行调节，解决了相关技术中无法根据用户所处环境进行智能的音量输出的问题，通过对环境音进行采集和分离，根据计算出的混合音值来优化耳机的声道输出，使用户获得更舒适的耳机收音体验，提高了用户体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例该的方法。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声音处理方法，其特征在于，包括：

将分离出的各种声音与数据库中样本音进行识别和匹配；

2.根据权利要求1所述的方法，其特征在于，在对采集的环境音进行分离处理之前，所述方法还包括：

对采集到的包含环境音的混合语音信号进行降噪处理；

对降噪处理后的混合语音信号进行白化处理。

3.根据权利要求1所述的方法，其特征在于，在根据所述耳机的降噪值与所述环境音综合声值H1进行处理，得到所述混合音值H2之后，所述方法还包括：

将所述H2上传至多媒体音库。

4.根据权利要求1至3中任一项所述的方法，其特征在于，根据计算出的所述混合音值H2对所述耳机的声道输出进行调节包括：

将所述H2与当下预输出声值H3相加；

将相加的结果与预设的舒适值区间进行对比分析；

5.根据权利要求4所述的方法，其特征在于，根据分析的结果对所述耳机的声道输出的音量大小进行调节包括：

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；

6.一种声音处理移动终端，其特征在于，包括：

7.根据权利要求6所述的移动终端，其特征在于，所述移动终端还包括：

8.根据权利要求6所述的移动终端，其特征在于，所述移动终端还包括：

9.根据权利要求6至8中任一项所述的移动终端，其特征在于，所述调节模块包括：

相加单元，用于将所述H2与当下预输出声值H3相加；

10.根据权利要求9所述的移动终端，其特征在于，所述调节单元，还用于

若H2+H3∈舒适值区间，所述耳机的声道输出按照声值H3输出；