CN106548782A - 声音信号的处理方法及移动终端 - Google Patents

声音信号的处理方法及移动终端 Download PDF

Info

Publication number
CN106548782A
CN106548782A CN201610940699.9A CN201610940699A CN106548782A CN 106548782 A CN106548782 A CN 106548782A CN 201610940699 A CN201610940699 A CN 201610940699A CN 106548782 A CN106548782 A CN 106548782A
Authority
CN
China
Prior art keywords
signal
acoustical
sound
acoustical signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610940699.9A
Other languages
English (en)
Inventor
申厚拯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN201610940699.9A priority Critical patent/CN106548782A/zh
Publication of CN106548782A publication Critical patent/CN106548782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例公开了声音信号的处理方法,该声音信号的处理方法包括:获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms‑15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号。本发明还公开了一种相应的移动终端。本发明实施例公开的声音信号的处理方法,实现了结合人声识别,在抑制或消除啸叫声的同时保证人声的播放质量,获得更好的用户体验。

Description

声音信号的处理方法及移动终端
技术领域
本发明涉及移动通信技术领域,尤其涉及声音信号的处理方法及移动终端。
背景技术
随着用户对便携式移动终端,尤其是手机的依赖越来越强,移动终端的使用率也越来越高。其中,越来越多的用户利用移动终端外接音响设备进行实时唱歌和录音合成等娱乐,例如可以在移动终端中安装移动KTV等应用,由此用户可以在KTV以为的场合进行唱歌娱乐。可以说,移动KTV给用户的休闲娱乐生活带来了更多的趣味和便利。
在现有技术中,在使用移动终端和音响设备进行唱歌娱乐时,由于音响设备的声音一般比较大,其音响声音会与用户所唱的人声混杂在一起被移动终端的麦克风录进去,在进行音效处理时,移动终端会对录入的声音进行放大,当录入的声音放大后比音响播放的声音大,就会一直叠加形成自激,最终播放时会有比较大的啸叫声。因此,一方面音响设备和移动终端的麦克风需要有一定的距离;另一方面,对音响设备的质量也比较有要求。目前,也可以采用回音消除的方法来消除啸叫声,该方案需要另一个麦克风来采集音响设备旁边的信号,但是该方案会对人声有比较大的影响,播放出来的效果较差。
发明内容
本发明实施例提供了一种声音信号的处理方法及移动终端,以解决现有技术中难以在抑制或消除啸叫声的同时保证人声质量的问题。
一方面,本发明实施例提供声音信号的处理方法,其应用于移动终端,该方法包括:
获取移动终端的麦克风采集的第一声音信号;
计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;
去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;
获取所述第二声音信号的能量数据;
根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;
获取所述第三声音信号的啸叫信号;
在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;
放大处理所述第四声音信号。
另一方面,本发明实施例还提供了一种移动终端,包括:
第一获取模块,用于获取移动终端的麦克风采集的第一声音信号;
计算模块,用于计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;
第一滤波模块,用于去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;
第二获取模块,用于获取所述第二声音信号的能量数据;
静音模块,用于根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;
第三获取模块,用于获取所述第三声音信号的啸叫信号;
第二滤波模块,用于在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;
放大模块,用于放大处理所述第四声音信号。
本发明实施例提供的声音信号的处理方法,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号,实现了结合人声识别,在抑制或消除啸叫声的同时保证人声的播放质量,获得更好的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明声音信号的处理方法的第一实施例的流程图;
图2是本发明声音信号的处理方法的第二实施例的流程图;
图3是本发明的移动终端的第一实施例的结构框图;
图4是本发明的移动终端的第二实施例的结构框图;
图5是本发明的移动终端的第三实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
如图1所示,是本发明声音信号的处理方法的第一实施例的流程图。该声音信号的处理方法包括:
步骤101,获取移动终端的麦克风采集的第一声音信号。
本发明实施例中,通过移动终端的麦克风采集第一声音信号,该第一声音信号包括了麦克风实时采集的所有声音,如人声、音响设备播放的音乐声等。获取该第一声音信号后以便于进一步处理。
步骤102,计算得到所述第一声音信号的短时过零率。
本发明实施例中,计算该第一声音信号的短时过零率,已知地,过零率(zero-crossing rate,ZCR)是指一个信号的符号变化的比率,例如信号从正数变成负数或反向。这个特征在语音对比、语音识别和音乐信息检索(music information retrieval)领域得到广泛使用,是对敲击声音的进行分类的主要特征。
步骤103,去除所述第一声音信号的低频部分和高频部分,得到第二声音信号。
本发明实施例中,实际的人声频率一般处于80Hz-1.1KHz,频率过低或过高的都属于非语音频率,因此需要初步将之去除。如,可以通过带通滤波器去除第一声音信号的低频部分和高频部分。
步骤104,获取所述第二声音信号的能量数据。
本发明实施例中,能量数据是用于语音识别的重要数据。该能量数据包括第二声音信号各个频点对应的能量数值。
步骤105,根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号。
本发明实施例中,根据短时过零率和能量数据进行综合分析,得出第二声音信号的人声部分和非语音部分,并将该非语音部分去除,得到未经进一步处理的人声部分,即第三声音信号。
步骤106,获取所述第三声音信号的啸叫信号。
本发明实施例中,由于第三声音信号的人声同时包括了用户实时发出的声音和外放音响设备播放的人声,当这两部分的人声产生自激,就会产生啸叫信号,这些啸叫信号在声音播放时会产生啸叫声,因此需要进一步处理这些啸叫信号。
步骤107,在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号。
本发明实施例中,需要对第三声音信号进行进一步处理,消除啸叫信号中的单频信号,还原人声,以达到消除啸叫声的目的。
步骤108,放大处理所述第四声音信号。
本发明实施例中,在声音播放前,还需要进一步经放大处理,以保证外放音响的播放效果。
本发明实施例提供的声音信号的处理方法,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号,实现了结合人声识别,在抑制或消除啸叫声的同时保证人声的播放质量,获得更好的用户体验。
第二实施例
如图2所示,是本发明声音信号的处理方法的第二实施例的流程图。该声音信号的处理方法包括:
步骤201,获取移动终端的麦克风采集的第一声音信号。
步骤202,计算得到所述第一声音信号的短时过零率。
步骤203,去除所述第一声音信号的低频部分和高频部分,得到第二声音信号。
步骤201至步骤203与本发明声音信号的处理方法的第一实施例的相应步骤相同,此处不再赘述。
步骤204,对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据。
本发明实施例中,由于傅里叶变换是把各种形式的信号用正弦信号表示,因此傅里叶变换后可以得到第二声音信号的频谱数据。而快速傅里叶变换(fast Fouriertransform),即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT,因此使用快速傅里叶变换可以快速地得到第二声音信号的频谱数据。
步骤205,从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号。
本发明实施例中,可以从频谱数据的波形中获取到能量数据,此处,分别在频谱的低频、中频、高频部分取能量峰值信号。这些能量峰值信号能够反映该第二声音信号的声音特质,如振幅等。具体地,低频范围包括20Hz~1600Hz,中频范围包括1600Hz~3000Hz,高频范围包括3000Hz以上。
步骤206,分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据。
本发明实施例中,根据短时过零率和能量数据,可以得到第二声音信号的频率数据和振幅数据,短时过零率包括5ms-15ms内的声音的过零率。
步骤207,根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分。
本发明实施例中,可以根据第二声音信号的频率数据和振幅数据判断其声音的成分。
步骤208,若是,静音处理所述非语音部分,得到所述第三声音信号。
本发明实施例中,当判断出第二声音信号中存在非语音部分时,则将该非语音部分静音,得到第三声音信号。已知地,静音处理为将相应的音频信号置为零,无声音输出。
步骤209,根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号。
本发明实施例中,由于自激产生的啸叫信号具有能量值较大的特点,因此先获取第三声音信号的低频、中频、高频的最大能量信号。
步骤210,判断所述最大能量信号是否为持续信号。
本发明实施例中,由于啸叫信号除了能量值较大,也有持续时间较长的特点,根据这两个条件可以判断出该信号是否为啸叫信号。其中,当最大能量信号的持续时间为30~40ms时可判断为持续信号。
步骤211,若是,确定所述最大能量信号为啸叫信号。
本发明实施例中,当最大能量信号为持续信号时,则可以判断出该信号为啸叫信号。
步骤212,使用自适应陷波滤波器处理所述第三声音信号,去除所述啸叫信号的单频信号,得到所述第四声音信号。
本发明实施例中,自适应陷波滤波器是根据滤波器的输出量来控制滤波器的某个或某些参数,从而达到自动地滤除某些频率分量。其中,自适应陷波滤波器以某种意义上的最优化方式消除包含在基本信号中的未知干扰。基本信号用作自适应滤波器的期望响应,参考信号用作滤波器的输入。参考信号来自定位的某一传感器或一组传感器,并以承载新息的信号是微弱的或基本不可预测的方式,供给基本信号上。
具体地,先设置自适应陷波滤波器的初始频率,把啸叫信号的单频信号消掉,然后根据陷波滤波器的计算结果,计算更精确的频率,并更新陷波滤波器的频率和进行清除操作。
步骤213,放大处理所述第四声音信号。
步骤213与本发明声音信号的处理方法的第一实施例的相应步骤相同,此处不再赘述。
本发明实施例提供的声音信号的处理方法,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据;从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号;分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据;根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分;若是,静音处理所述非语音部分,得到所述第三声音信号;根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号;判断所述最大能量信号是否为持续信号;若是,确定所述最大能量信号为啸叫信号;使用自适应陷波滤波器处理所述第三声音信号,消除所述啸叫信号的单频信号,得到所述第四声音信号;放大处理所述第四声音信号。由此,实现了更好地清除非语音并处理人声中的啸叫信号,提升了用户体验。
上文对本发明移动终端的显示方法的实施例作了详细介绍。下面将相应于上述方法的装置(即移动终端)作进一步阐述。其中,移动终端可以是手机、平板电脑、MP3或MP4等。
第三实施例
如图3所示,为本发明移动终端的第一实施例的结构框图。该移动终端300能实现本发明的声音信号的处理方法的第一实施例的各步骤,其中,移动终端300包括第一获取模块301、计算模块302、第一滤波模块303、第二获取模块304、静音模块305、第三获取模块306、第二滤波模块307和放大模块308。
第一获取模块301,与计算模块302相连接,用于获取移动终端的麦克风采集的第一声音信号。
本发明实施例中,通过移动终端的麦克风采集第一声音信号,该第一声音信号包括了麦克风实时采集的所有声音,如人声、音响设备播放的音乐声等。第一获取模块301获取该第一声音信号后以便于进一步处理。
计算模块302,与第一滤波模块303相连接,用于计算得到所述第一声音信号的短时过零率。
本发明实施例中,计算模块302计算该第一声音信号的短时过零率,已知地,过零率(zero-crossing rate,ZCR)是指一个信号的符号变化的比率,例如信号从正数变成负数或反向。这个特征在语音对比、语音识别和音乐信息检索(music information retrieval)领域得到广泛使用,是对敲击声音的进行分类的主要特征。
第一滤波模块303,与第二获取模块304相连接,用于去除所述第一声音信号的低频部分和高频部分,得到第二声音信号。
本发明实施例中,实际的人声频率一般处于80Hz-1.1KHz,频率过低或过高的都属于非语音信号,因此需要初步将之去除。如,第一滤波模块303可以通过带通滤波器去除第一声音信号的低频部分和高频部分。
第二获取模块304,与静音模块305相连接,用于获取所述第二声音信号的能量数据。
本发明实施例中,能量数据是用于语音识别的重要数据。该能量数据包括第二声音信号各个频点对应的能量数值。
静音模块305,与第三获取模块306相连接,用于根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号。
本发明实施例中,根据短时过零率和能量数据进行综合分析,得出第二声音信号的人声部分和非语音部分,并将该非语音部分去除,得到未经进一步处理的人声部分,即第三声音信号。
第三获取模块306,与第二滤波模块307相连接,用于获取所述第三声音信号的啸叫信号。
本发明实施例中,由于第三声音信号的人声同时包括了用户实时发出的声音和外放音响设备播放的人声,当这两部分的人声产生自激,就会产生啸叫信号,这些啸叫信号在声音播放时会产生啸叫声,因此需要进一步处理这些啸叫信号。
第二滤波模块307,与放大模块308相连接,用于在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号。
本发明实施例中,需要对第三声音信号进行进一步处理,消除啸叫信号中的单频信号,还原人声,以达到消除啸叫声的目的。
放大模块308,用于放大处理所述第四声音信号。
本发明实施例中,在声音播放前,还需要进一步经放大处理,以保证外放音响的播放效果。
本发明实施例提供的移动终端,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号,实现了结合人声识别,在抑制或消除啸叫声的同时保证人声的播放质量,获得更好的用户体验。
第四实施例
如图4所示,为本发明移动终端的第二实施例的结构框图。该移动终端400能实现本发明的声音信号的处理方法的第二实施例的各步骤,其中,移动终端400包括第一获取模块401、计算模块402、第一滤波模块403、第二获取模块404、静音模块405、第三获取模块406、第二滤波模块407和放大模块408。
第一获取模块401,与计算模块402相连接,用于获取移动终端的麦克风采集的第一声音信号。
计算模块402,与第一滤波模块403相连接,用于计算得到所述第一声音信号的短时过零率。
第一滤波模块403,与第二获取模块404相连接,用于去除所述第一声音信号的低频部分和高频部分,得到第二声音信号。
第一获取模块401、计算模块402和第一滤波模块403与本发明移动终端的第一实施例的相应模块相同,此处不再赘述。
第二获取模块404,与静音模块405相连接,用于获取所述第二声音信号的能量数据。
其中,所述第二获取模块404包括:
傅里叶变换单元4041,与第二获取单元4042相连接,用于对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据。
本发明实施例中,由于傅里叶变换是把各种形式的信号用正弦信号表示,因此傅里叶变换后可以得到第二声音信号的频谱数据。而快速傅里叶变换(fast Fouriertransform),即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT,因此使用快速傅里叶变换可以快速地得到第二声音信号的频谱数据。
第二获取单元4042,用于从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号。
本发明实施例中,可以从频谱数据的波形中获取到能量数据,此处,分别在频谱的低频、中频、高频部分取能量峰值信号。这些能量峰值信号能够反映该第二声音信号的声音特质,如振幅等。具体地,低频范围包括20Hz~1600Hz,中频范围包括1600Hz~3000Hz,高频范围包括3000Hz以上。
静音模块405,与第三获取模块406相连接,用于根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号。
其中,所述静音模块405包括:
分析单元4051,与第一判断单元4052相连接,用于分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据。
本发明实施例中,根据短时过零率和能量数据,可以得到第二声音信号的频率数据和振幅数据,短时过零率包括5ms-15ms内的声音的过零率。
第一判断单元4052,与静音单元4053相连接,用于根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分。
本发明实施例中,可以根据第二声音信号的频率数据和振幅数据判断其声音的成分。
静音单元4053,用于静音处理所述非语音部分,得到所述第三声音信号。
本发明实施例中,当判断出第二声音信号中存在非语音部分时,则将该非语音部分静音,得到第三声音信号。已知地,静音处理为将相应的音频信号置为零,无声音输出。
第三获取模块406,与第二滤波模块407相连接,用于获取所述第三声音信号的啸叫信号。
其中,所述第三获取模块406包括:
第一获取单元4061,与第二判断单元4062相连接,用于根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号。
本发明实施例中,由于自激产生的啸叫信号具有能量值较大的特点,因此先获取第三声音信号的低频、中频、高频的最大能量信号。
第二判断单元4062,与确定单元4063相连接,用于判断所述最大能量信号是否为持续信号。
本发明实施例中,由于啸叫信号除了能量值较大,也有持续时间较长的特点,根据这两个条件可以判断出该信号是否为啸叫信号。其中,当最大能量信号的持续时间为30~40ms时可判断为持续信号。
确定单元4063,用于确定所述最大能量信号为啸叫信号。
本发明实施例中,当最大能量信号为持续信号时,则可以判断出该信号为啸叫信号。
第二滤波模块407,与放大模块408相连接,用于在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号。
具体地,所述第二滤波模块407包括:
滤波单元4071,用于使用自适应陷波滤波器处理所述第三声音信号,去除所述啸叫信号的单频信号,得到所述第四声音信号。
本发明实施例中,自适应陷波滤波器是根据滤波器的输出量来控制滤波器的某个或某些参数,从而达到自动地滤除某些频率分量。其中,自适应陷波滤波器以某种意义上的最优化方式消除包含在基本信号中的未知干扰。基本信号用作自适应滤波器的期望响应,参考信号用作滤波器的输入。参考信号来自定位的某一传感器或一组传感器,并以承载新息的信号是微弱的或基本不可预测的方式,供给基本信号上。
具体地,先设置自适应陷波滤波器的初始频率,把啸叫信号的单频信号消掉,然后根据陷波滤波器的计算结果,计算更精确的频率,并更新陷波滤波器的频率和进行清除操作。
放大模块408,用于放大处理所述第四声音信号。
放大模块408与本发明移动终端的第一实施例的相应模块相同,此处不再赘述。
本发明实施例提供的移动终端,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据;从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号;分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据;根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分;若是,静音处理所述非语音部分,得到所述第三声音信号;根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号;判断所述最大能量信号是否为持续信号;若是,确定所述最大能量信号为啸叫信号;使用自适应陷波滤波器处理所述第三声音信号,消除所述单频信号,得到所述第四声音信号;放大处理所述第四声音信号。由此,实现了更好地将非语音清除并处理人声中的啸叫信号,提升了用户体验。
第五实施例
图5是本发明移动终端的第三实施例的结构框图。图5所示的移动终端800包括:至少一个处理器801、存储器802、至少一个网络接口804、用户接口803和其他组件806,其他组件806包括眼球追踪传感器和前置摄像头。移动终端800中的各个组件通过总线***805耦合在一起。可理解,总线***805用于实现这些组件之间的连接通信。总线***805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***805。
其中,用户接口803可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的***和方法的存储器802旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器802存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作***8021和应用程序8022。
其中,操作***8021,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序8022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序8022中。
在本发明实施例中,通过调用存储器802存储的程序或指令,具体的,可以是应用程序8022中存储的程序或指令,处理器801用于获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号。
上述本发明实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,处理器801还用于:分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据;根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分;若是,静音处理所述非语音部分,得到所述第三声音信号。
可选地,处理器801还用于:根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号;判断所述最大能量信号是否为持续信号;若是,确定所述最大能量信号为啸叫信号。
可选地,处理器801还用于:使用自适应陷波滤波器处理所述第三声音信号,去除所述啸叫信号的单频信号,得到所述第四声音信号。
可选地,处理器801还用于:对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据;从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号。
移动终端800能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
本发明实施例提供的移动终端800,通过获取移动终端的麦克风采集的第一声音信号;计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;获取所述第二声音信号的能量数据;根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;获取所述第三声音信号的啸叫信号;在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;放大处理所述第四声音信号,实现了结合人声识别,在抑制或消除啸叫声的同时保证人声的播放质量,获得更好的用户体验。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种声音信号的处理方法,其特征在于,包括:
获取移动终端的麦克风采集的第一声音信号;
计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;
去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;
获取所述第二声音信号的能量数据;
根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;
获取所述第三声音信号的啸叫信号;
在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;
放大处理所述第四声音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号的步骤,包括:
分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据;
根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分;
若是,静音处理所述非语音部分,得到所述第三声音信号。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第三声音信号的啸叫信号的步骤,包括:
根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号;
判断所述最大能量信号是否为持续信号;
若是,确定所述最大能量信号为啸叫信号。
4.根据权利要求1所述的方法,其特征在于,所述在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号的步骤,包括:
使用自适应陷波滤波器处理所述第三声音信号,去除所述啸叫信号的单频信号,得到所述第四声音信号。
5.根据权利要求1所述的方法,其特征在于,所述获取所述第二声音信号的能量数据的步骤,包括:
对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据;
从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号。
6.一种移动终端,其特征在于,包括:
第一获取模块,用于获取移动终端的麦克风采集的第一声音信号;
计算模块,用于计算得到所述第一声音信号的短时过零率,所述短时过零率包括5ms-15ms内的声音的过零率;
第一滤波模块,用于去除所述第一声音信号的低频部分和高频部分,得到第二声音信号;
第二获取模块,用于获取所述第二声音信号的能量数据;
静音模块,用于根据所述短时过零率和所述能量数据,去除所述第二声音信号的非语音部分,得到第三声音信号;
第三获取模块,用于获取所述第三声音信号的啸叫信号;
第二滤波模块,用于在所述第三声音信号中,去除所述啸叫信号的单频信号,得到第四声音信号;
放大模块,用于放大处理所述第四声音信号。
7.根据权利要求6所述的移动终端,其特征在于,所述静音模块包括:
分析单元,用于分析所述短时过零率和所述能量数据,得到所述第二声音信号的频率数据和振幅数据;
第一判断单元,用于根据所述频率数据和所述振幅数据,判断所述第二声音信号中是否存在所述非语音部分;
静音单元,用于静音处理所述非语音部分,得到所述第三声音信号。
8.根据权利要求6所述的移动终端,其特征在于,所述第三获取模块包括:
第一获取单元,用于根据所述能量数据,获取所述第三声音信号的低频、中频、高频的最大能量信号;
第二判断单元,用于判断所述最大能量信号是否为持续信号;
确定单元,用于确定所述最大能量信号为啸叫信号。
9.根据权利要求6所述的移动终端,其特征在于,所述第二滤波模块包括:
滤波单元,用于使用自适应陷波滤波器处理所述第三声音信号,去除所述啸叫信号的单频信号,得到所述第四声音信号。
10.根据权利要求6所述的移动终端,其特征在于,所述第二获取模块包括:
傅里叶变换单元,用于对所述第二声音信号进行快速傅里叶变换,得到所述第二声音信号的频谱数据;
第二获取单元,用于从所述频谱数据中获取所述能量数据,所述能量数据包括所述第二声音信号在低频、中频、高频的能量峰值信号。
CN201610940699.9A 2016-10-31 2016-10-31 声音信号的处理方法及移动终端 Pending CN106548782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610940699.9A CN106548782A (zh) 2016-10-31 2016-10-31 声音信号的处理方法及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610940699.9A CN106548782A (zh) 2016-10-31 2016-10-31 声音信号的处理方法及移动终端

Publications (1)

Publication Number Publication Date
CN106548782A true CN106548782A (zh) 2017-03-29

Family

ID=58393427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610940699.9A Pending CN106548782A (zh) 2016-10-31 2016-10-31 声音信号的处理方法及移动终端

Country Status (1)

Country Link
CN (1) CN106548782A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145776A (zh) * 2018-11-02 2020-05-12 北京微播视界科技有限公司 音频处理方法和装置
CN112438726A (zh) * 2020-11-20 2021-03-05 深圳市卓翼科技股份有限公司 基于可穿戴设备的跌倒报警方法、可穿戴设备及存储介质
CN113613143A (zh) * 2021-07-08 2021-11-05 北京小唱科技有限公司 适用于移动终端的音频处理方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2281680A (en) * 1993-08-27 1995-03-08 Motorola Inc A Voice activity detector for an echo suppressor
CN2300214Y (zh) * 1996-12-26 1998-12-09 中国人民解放军海军潜艇学院 被动声纳抗回声声纳干扰用窄带陷波滤波器
CN1398054A (zh) * 2001-07-16 2003-02-19 松下电器产业株式会社 啸叫检测和抑制设备、方法和计算机程序产品
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN101902674A (zh) * 2010-08-13 2010-12-01 西安交通大学 基于空间抵消的高增益扩音***自激消除方法
CN103152546A (zh) * 2013-02-22 2013-06-12 华鸿汇德(北京)信息技术有限公司 基于模式识别和延迟前馈控制的视频会议回声抑制方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2281680A (en) * 1993-08-27 1995-03-08 Motorola Inc A Voice activity detector for an echo suppressor
CN2300214Y (zh) * 1996-12-26 1998-12-09 中国人民解放军海军潜艇学院 被动声纳抗回声声纳干扰用窄带陷波滤波器
CN1398054A (zh) * 2001-07-16 2003-02-19 松下电器产业株式会社 啸叫检测和抑制设备、方法和计算机程序产品
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN101902674A (zh) * 2010-08-13 2010-12-01 西安交通大学 基于空间抵消的高增益扩音***自激消除方法
CN103152546A (zh) * 2013-02-22 2013-06-12 华鸿汇德(北京)信息技术有限公司 基于模式识别和延迟前馈控制的视频会议回声抑制方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中国电子学会DSP应用专家委员会: "《全国第三届DSP应用技术、第九届信号与信息处理联合学术会议论文集》", 30 September 2005 *
刘翀等: "《多媒体设计与创造》", 31 August 2014 *
陆虎敏: "《飞机座舱显示与控制技术》", 31 December 2015 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145776A (zh) * 2018-11-02 2020-05-12 北京微播视界科技有限公司 音频处理方法和装置
CN111145776B (zh) * 2018-11-02 2021-10-29 北京微播视界科技有限公司 音频处理方法和装置
CN112438726A (zh) * 2020-11-20 2021-03-05 深圳市卓翼科技股份有限公司 基于可穿戴设备的跌倒报警方法、可穿戴设备及存储介质
CN113613143A (zh) * 2021-07-08 2021-11-05 北京小唱科技有限公司 适用于移动终端的音频处理方法、装置及存储介质
CN113613143B (zh) * 2021-07-08 2023-06-13 北京小唱科技有限公司 适用于移动终端的音频处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN105405448B (zh) 一种音效处理方法及装置
CA2650612C (en) An adaptive user interface
CN104538011B (zh) 一种音调调节方法、装置及终端设备
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN101667814B (zh) 音频播放方法及音频播放装置
CN110475170A (zh) 耳机播放状态的控制方法、装置、移动终端及存储介质
US20130044885A1 (en) System And Method For Identifying Original Music
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN102486920A (zh) 音频事件检测方法和装置
CN105118522B (zh) 噪声检测方法及装置
CN102214464B (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
US20060130637A1 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
CN104575487A (zh) 一种语音信号的处理方法及装置
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
CN103700386A (zh) 一种信息处理方法及电子设备
CN106548782A (zh) 声音信号的处理方法及移动终端
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
Deepak et al. Foreground speech segmentation and enhancement using glottal closure instants and mel cepstral coefficients
CN105895079A (zh) 语音数据的处理方法和装置
CN104869233B (zh) 一种录音方法
Uhle et al. Speech enhancement of movie sound
CN106791252A (zh) 一种来电铃声的播放方法及装置
Dai et al. 2D Psychoacoustic modeling of equivalent masking for automatic speech recognition
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170329