CN108540660A

CN108540660A - 语音信号处理方法和装置、可读存储介质、终端

Info

Publication number: CN108540660A
Application number: CN201810276743.XA
Authority: CN
Inventors: 张海平
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-14
Anticipated expiration: 2038-03-30
Also published as: CN108540660B

Abstract

本申请涉及一种语音信号处理方法和装置、计算机可读存储介质、终端、耳机。方法包括：当耳机处于播放状态时，获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；识别语音信号的声纹信息，并确定声纹信息对应的谈话者的身份信息；当谈话者为预设联系人时，基于麦克风、第一电声换能器、第二电声换能器获取谈话者的位置信息；根据谈话者的身份信息和位置信息执行提醒当前用户的操作，仅利用耳机固有的器件就可以实现与用户相识的谈话者进行定位，还可以获取与用户相识的谈话者的身份信息和位置信息并及时自动提醒用户与该谈话者进行交谈，可以避免两人相见但不知晓对方身份信息的尴尬。

Description

语音信号处理方法和装置、可读存储介质、终端

技术领域

本申请涉及音频技术领域，特别是涉及一种语音信号处理方法和装置、计算机可读存储介质、终端、耳机。

背景技术

随着通信技术的发展，终端已经密切融入人们生活中，大大改善了人们的生活。

用户戴上耳机聆听终端播放的声音时，作为辅助视觉感官的听觉因耳机播放的声音受到了极大的限制，用户很难注意到用户周围与用户相识的谈话者，无法利用耳机对该谈话者的声音进行定位，错过与该谈话者的交谈机会。

发明内容

本申请实施例提供一种语音信号处理方法和装置、计算机可读存储介质、终端，可以基于耳机获取与用户相识的谈话者并自动提醒用户，提高用户体验度。

一种语音信号处理方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，其中，所述第一电声换能器和第二电声换能器用于播放和录制音频信号，所述方法包括：

获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；

识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息；

当所述谈话者为预设联系人时，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息；

根据所述谈话者的身份信息和位置信息执行提醒当前用户的操作。

一种语音信号处理装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

语音获取模块，获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；

身份确定模块，用于识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息；

位置获取模块，用于当所述谈话者为预设联系人时，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息；

提醒模块，用于根据所述谈话者的身份信息和位置信息执行提醒当前用户的操作。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请各个实施例中的语音信号处理方法的步骤。

一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现本申请各个实施例中的语音信号处理方法的步骤。

一种耳机，一种耳机，其特征在于，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现本申请各个实施例中的语音信号处理方法的步骤。

本申请实施例提供的语音信号处理方法和装置、计算机可读存储介质、终端、耳机，仅利用耳机固有的器件就可以实现与用户相识的谈话者进行定位，简化了耳机的结构、节约了成本，同时，还可以获取与用户相识的谈话者的身份信息和位置信息并及时自动提醒用户与该谈话者进行交谈，可以避免两人相见但不知晓对方身份信息的尴尬。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中语音信号处理方法的应用环境示意图；

图2为一个实施例中终端的内部结构示意图；

图3为一个实施例中语音信号处理方法的流程图；

图4为一个实施例中识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息的流程图；

图5为一个实施例中基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息的流程图；

图6为另一个实施例基于所述麦克风、第一电声换能器、第二电声换能器获取所述语音信号的位置信息的流程图；

图7为一个实施例中根据所述身份信息和位置信息执行提醒当前用户的操作的流程图；

图8为另一个实施例所述根据所述身份信息和位置信息执行提醒谈话者的操作的流程图；

图9为一个实施例中语音信号处理装置的结构框图；

图10为与本申请实施例提供的终端相关的手机的部分结构的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一获取单元称为第二获取单元，且类似地，可将第二获取单元称为第一获取单元。第一获取单元和第二获取单元两者都是获取单元，但其不是同一获取单元。

图1为一个实施例中语音信号处理方法的应用环境示意图。如图1所示，该应用环境包括终端110和与该终端110进行通信的耳机120。

其中，耳机120的类型可以为入耳式耳机、耳塞式耳机、头戴式耳机、挂耳式耳机等。终端与耳机120可以通过有线或无线的方式进行通信，实现数据的传输。耳机120包括麦克风、第一电声换能器和第二电声换能器，其中第一电声换能器和第二电声换能器具有采集和播放音频信号的功能。

图2为一个实施例中终端的内部结构示意图。该终端110包括通过***总线连接的处理器、存储器和显示屏。其中，该处理器用于提供计算和控制能力，支撑整个终端110的运行。存储器用于存储数据、程序、和/或指令代码等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于终端110的音频信号处理方法。存储器可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random-Access-Memory，RAM)等。例如，在一个实施例中，存储器包括非易失性存储介质及内存储器。非易失性存储介质存储有操作***、数据库和计算机程序。该数据库中存储有用于实现以上各个实施例所提供的一种音频信号处理方法相关的数据。该计算机程序可被处理器所执行，以用于实现本申请各个实施例所提供的一种音频信号处理方法。内存储器为非易失性存储介质中的操作***、数据库和计算机程序提供高速缓存的运行环境。显示屏可以是触摸屏，比如为电容屏或电子屏，用于显示终端110的界面信息，显示屏包括亮屏状态和灭屏状态。该终端110可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端110的限定，具体的终端110可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中语音信号处理方法的流程图。本实施例中的语音信号处理方法，以运行于图1中的终端或耳机上为例进行描述。一种语音信号处理方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，其中，所述第一电声换能器和第二电声换能器用于播放和录制音频信号。如图3所示，语音信号处理方法包括步骤302至步骤306。

步骤302：获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号。

耳机可以通过有线或无线的方式与终端进行通讯，当耳机处于播放状态时，用户可以利用耳机进行通话、听歌或听书等。其中，播放状态可以理解为耳机处于工作状态，且佩戴在用户的耳朵上。

耳机包括麦克风，第一电声换能器和第二电声换能器，其中，所述麦克风用户采集用户的语音信号或外界环境音。第一电声换能器、第二电声换能器分别作为耳机的左喇叭(扬声器)、右喇叭(扬声器)，将音频信号对应的电信号转换成用户可以听到的声波信号。具体地，第一电声换能器、第二电声换能器看做电声换能器对声波非常敏感，能够引起扬声器纸盆的振动，带动与纸盆相连的线圈在永久磁体的磁场中作切割磁力线的运动，从而产生随着声波的变化而变化的电流(产生电流的现象在物理学上称为电磁感应现象)，同时，在线圈两端将输出音频的电动势，因此，电声转换器还可以采集和录制外界环境音。也即，可以将耳机的第一电声换能器(左喇叭)、第二电声换能器(右喇叭)当做麦克风使用。

电声换能器，尽管其类型、功能或工作状态不同，它们都包括两个基本组成部分，即电***和机械振动***，在电声换能器内部，电***和机械振动***之间通过某种物理效应相互联系，以完成能量的转换。

获取基于耳机的麦克风、第一电声换能器和第二电声换能器采集的语音信号。也即，耳机的麦克风、第一电声换能器(左喇叭)和第二电声换能器(右喇叭)会周期性的采集语音信号。

需要说明的是，语音信号可以是喇叭、某个音响设备或者发生器产生的，也可以是人谈话(谈话者)的声音，其中，语音信号还可以包括多个谈话者的多个声音信号。本申请中，不对语音信号做任何限定。

步骤304：识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息。

声纹信息是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。声纹信息包括多个声纹特征，例如，声学特征、词法特征、韵律特征、语言特征和通道特征。由于每个人的声道、口腔和鼻腔也具有个体的差异性，个体的差异性都会导致发声气流的改变，造成音质、音色的差别，其中，音高、音强、音长、音色在语言学中被称为语音“四要素”，这些因素又可分解成九十余种特征，这些特征表现了不同声音的不同波长、频率、强度、节奏。因此，可以利用不同人发出的语音信号的声纹信息来对语音信号进行区别。语音信号中的声纹信息同指纹一样具有身份识别的作用，也即，声纹信息可以用来表征谈话者的身份信息。

根据预设的语音识别算法，可以识别是语音信号中每个谈话者的声纹信息，根据声纹信息就可以获取对应谈话者的身份信息。

步骤304：当所述谈话者为预设联系人时，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息。

其中，预设联系人可以为当前用户的家人、亲戚、朋友、同事、客户、同学等用户所熟知的联系人。

当谈话者为预设联系人时，就可以基于麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息。

具体地，可以通过耳机的麦克风、第一电声换能器和第二电声换能器接收的谈话者的语音信号，分别以麦克风、第一电声换能器和第二电声换能器作为参考麦克风获取接收该语音信号的时间延迟，基于达时延差的时延估计技术对语音信号进行估计定位，进而获取语音信号相对于耳机的位置信息。其中，位置信息可以理解为语音信号(谈话者)距离耳机的距离信息以及相对于耳机的方位信息。

需要说明的是，语音信号(谈话者)相对于耳机的位置信息可以理解为语音信号相对于耳机中心位置(麦克风、第一电声换能器和第二电声换能器的三者的中心位置)的位置信息，也可以理解为语音信号相对于麦克风、第一电声换能器或第二电声换能器的位置信息；还可以理解为语音信号相对于耳机上任一参考点的位置信息。

可选的，根据所述麦克风、第一电声换能器和第二电声换能器接收所述语音信号还可以基于高分辨率谱估计的定向技术对该语音信号进行定位，也可以基于可控波束形成技术对该语音信号进行定位；还可以基于声压幅度比的定位技术对该语音信号进行定位。

步骤306：根据所述谈话者的身份信息和位置信息执行提醒当前用户的操作。

当用户沉浸在自己的音乐、听书或游戏世界中时，耳机可以基于周围的语音信号的获取周围环境中是否存在当前用户所熟知的谈话者预设联系人(预设联系人)，当存在预设联系人时，可以获取谈话者的身份信息和位置信息，并基于获取的身份信息和位置信息执行提醒当前用户的操作。其中提醒方式可以为耳机提醒、铃声提醒、振动提醒、显示提醒等方式，在本实施例中，并不限定其提醒方式。

上述语音信号处理方法，当所述耳机处于播放状态时，获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息；当所述谈话者为预设联系人时，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息；根据所述谈话者的身份信息和位置信息执行提醒当前用户的操作，仅利用耳机固有的器件就可以实现对语音信号的定位，简化了耳机的结构、节约了成本，同时，当周围环境有有熟知的谈话者存在时，还可以根据熟知的谈话者的身份信息和位置信息自动提醒用户，使用户能够获取该谈话者的身份及位置，避免错过与该熟知的谈话者的交谈机会以及避免认不出该谈话者身份而尴尬。

图4为一个实施例中识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息的流程图。在一个实施例中，所述识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息，包括：

步骤402：提取所述语音信号的声纹信息。

提取所述语音信号中每个人的声纹信息可以通过模板匹配方法、最近邻方法、神经网络法、隐式马尔可夫模型(Hidden Markov Model，HMM，HMM)法、VQ聚类法(如LBG)、Mel频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)法、线性预测系数(Perceptual Linear Predictive Coefficient，LPC)法、多项式分类器法等方法实现。

步骤404：判断所述声纹信息是否与样本声纹信息相匹配。

其中，样本声纹信息与预设联系人的身份信息一一对应，也即，一个样本声纹信息对应一个预设联系人的身份信息。

需要说明的是，样本声纹信息的数量为至少为2个。其中，样本声纹信息可以预先存储在耳机、与耳机进行通信的终端，或与该终端进行通讯的运服务器中。例如，终端可以将所述声纹信息发送给云服务器，请求云服务器确定声纹信息对应的身份信息。所述云服务器根据声纹信息与样本声纹信息进行匹配，进而确定声纹信息对应的身份信息，并返回给所述终端。

进一步的，还可以获取声纹信息与预存的样本声纹信息两者之间的匹配率(此处的匹配率表示匹配的概率，而非匹配的准确率)。例如，由于用户的生理情况的变化，例如***、生病或情绪变动，导致用户的声音信号较平时有所差异，那么从语音信号中获取的声纹信息与样本声纹信息并不一定是百分百匹配。

步骤406：当获取的声纹信息与样本声纹信息相匹配时，获取所述样本声纹信息对应的身份信息。

当获取的匹配率达到预设阈值时，则可认为获取的声纹信息与样本声纹信息相匹配，进而可以确定该声纹信息对应的身份信息，也即谈话者的身份信。

身份信息可以包括但不限于：谈话者的姓名、工作单位、职位、所在部门、联系方式、所处的地址位置、毕业院校、年龄、兴趣爱好等信息。

进一步的，还可以根据匹配率的不同，对谈话者的身份信息进行标记，例如，可以以不同的颜色来标识匹配率，还可以身份信息后增加特殊符号作为标识，例如，若在其姓名后方同时标识“？”来表示对该谈话者的匹配率在预设预设附近，该身份信息可能不准确。

所述基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息前，包括：调用预先存储的联系人列表；当所述谈话者位于所述联系人列表中时，则所述谈话者为预设联系人的步骤。

具体地，当获取谈话者的身份信息时，可以调用终端内预存的联系人列表，该终端与采用语音信号的耳机连接。当谈话者的名字保存在联系人列表中时，则可以认为该谈话者为预设联系人，也即谈话者为该用户所熟知的联系人。

需要说明的是，联系人列表包括通话联系人、邮件联系人、QQ、微信等即时通信类应用程序中的联系人等。

图5为一个实施例中基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息的流程图。

基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息，包括：

步骤502：分别获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前桢所述语音信号的三组时间延迟。

语音信号也可以称之为声波信号，声波在传播过程中，由于距离麦克风、第一电声换能器、第二电声换能器的距离不同，声波到达麦克风、第一电声换能器、第二电声换能器的时间也就不同，声波到达麦克风、第一电声换能器、第二电声换能器的间隔时间就叫做时延。

由于麦克风、第一电声换能器(左喇叭)、第二电声换能器(右喇叭)固定在耳机上，可以基于耳机构建坐标系，则麦克风、第一电声换能器、第二电声换能器在坐标系中的位置为已知量，同时，麦克风、第一电声换能器(左喇叭)、第二电声换能器(右喇叭)各个两两之间的距离也为已知量。结合声波在空气中的传播速度，可以计算出语音信号到达麦克风、第一电声换能器、第二电声换能器中任意两个的时间间隔。

具体的，为了描述方便，将麦克风、第一电声换能器、第二电声换能器均称之为麦克风，并分别用M1、M2、M3来表示。分别以麦克风M1、M2、M3作为参考麦克风，得到每两个麦克风(麦克风对)接收当前帧语音信号之间的时间延迟(时间间隔或)，进而获取三组不同的时间延迟。其中，可以通过获取各个麦克风M1、M2、M3接收到的信号幅值的互相关函数的峰值偏移量，在根据对信号的采样频率，继而估算出时间延迟。

步骤504：根据所述三组时间延迟获取平均时间延迟。

根据获取的三组时间延迟数据中对应的时间延迟进行加权平均得到平均值，作为平均时间延迟。

步骤506：根据所述平均时间延迟对所述语音信号的位置信息进行定位估计，并获取所述谈话者相对于所述耳机的位置信息。

根据平均时间延迟以及麦克风M1、M2、M3已知的位置信息，进而可以对语音信号的位置信息进行定位估计，并获取语音信号相对于耳机的位置信息，也即，该声源信息与耳机之间的距离信息和方位信息。

本实施例中的方法，分别以麦克风M1、M2、M3作为参考麦克风分别计算得到与其他麦克风的之间的成对时间延迟，最后对得到的三组数据中相对应的时间延迟对进行加权平均得到平均值，根据获取的平均值对语音信号进行定位，可以提高定位的精确度。

图6为另一个实施例基于所述麦克风、第一电声换能器、第二电声换能器获取所述语音信号的位置信息的流程图。

在一个实施例中，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息，还包括：

步骤602：检测所述语音信号中是否存在有效的声音信号。

环境噪声的存在，导致了采集的语音信号中包括噪声成分，需要从语音信号中区分出有效的声音信号，避免噪声对时间延迟的估计造成的影响。

短时过零率是指在某一帧声音信号中波形采集值出现异值的次数，在声音信号段中，短时过零率比较低，而在噪声或者无声的信号段中，有这较高的过零率。通过短时过零率的检测方法可以确定语音信号中是否存在有效的声音信号。

可选的，还可以采用短时能量的检测的方法来判断采集的语音信号是否有效。

步骤604：当存在有效的声音信号时，对所述源声信号进行平滑、滤波处理。

当采集的语音信号中存在有效的声音信号时，可以通过加窗分帧的方式对语音信号进行平滑处理，其中，分帧是将语音信号帧按照相同时间段分成多帧信号，使每一帧变得更平稳，加窗分帧就是用窗口函数对每帧语音信号进行加权。本实施例中，使用海明窗函数，具有更小的旁瓣。

噪声信号的频率可能分布于整个频率空间，滤波是指对语音信号中特定频段的信号进行过滤处理，将特定频段的信号保留下拉，以衰减其他频段信号的过程。通过滤波可以使平滑处理后的语音信号更为清晰。

需要说明的是，在上述步骤602-步骤604在上述步骤分别获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风的三组时间延迟之前执行。

图7为一个实施例中根据所述身份信息和位置信息执行提醒当前用户的操作的流程图。

在一个实施例中，根据所述身份信息和位置信息执行提醒当前用户的操作，包括：

步骤702：根据所述谈话者与用户的联系频率设定用户对所述谈话者的熟知度。

可以调用与耳机进行通信的终端内的联系人、邮箱、QQ、微信等即时通讯类应用程序中的通信记录，获取各谈话者与用户本人的联系频率，根据联系频率来用户度该谈话者的熟知度。其中，联系频率越高，其熟知度越高。例如，若谈话者A通过联系人、邮箱、QQ、微信等即时通讯类应用程序与用户本人在一周内的联系频率为m；谈话者B与用户本人在一周内的联系频率为n，谈话者C与用户本人在一周内的联系频率为l，其中，m＞n＞l，则可以认为谈话者A、谈话者B、谈话者C与用户本人的熟知度越来越低。

步骤704：调用所述熟知度与预设提醒方式的映射关系，确定与所述谈话者相对应的预设提醒方式；

具体的，预设提醒方式包括第一提醒方式和第二提醒方式，其中，第一提醒方式为耳机提醒，也即，通过耳机播放某些特定的录音传送到用户耳朵来提醒用户。第二提醒方式为与耳机进行通讯的终端提醒，其中，终端提醒可以为界面显示提醒，界面显示与铃声组合提醒或界面显示与振动组合提醒等。本领域技术人员能够想到的各种提醒方式都应包括在本发明实施例中。

根据用户对谈话者的熟知度可以设定与当前谈话者相对应的预设提醒方式。进一步的，可以将熟知度高的对应于第一提醒方式，熟知度低的对应于第二提醒方式。例如，若谈话者为用户的配偶或男/女朋友，其熟知度最高，可以结合谈话者的身份信息和位置信息对用户进行耳机提醒，其提醒内容为“老婆在左后方1米”可以及时提示用户快速找到并保护她；若谈话者为闺蜜或好基友时，可以结合谈话者的身份信息和位置信息对用户进行耳机提醒，其提醒内容为“闺蜜在右后方3米”，可以及时提示用户快速找到闺蜜，给她一个惊喜，并进行交谈；当若谈话者为客户或多年不见的同学时，可以结合谈话者的身份信息和位置信息对用户进行终端的界面显示提醒，其提醒内容为“前方1米，谈话者A，小学同学”，以提示用户前方1米的谈话者为自己的小学同学，可以是用户快速回忆关于谈话者A的相关事件，进而可以避免两人相见但是不知晓对方姓名的尴尬。

需要说明的是，其提示内容还可以包括身份信息的全部内容，可以根据对谈话者的熟知度，进行相应身份信息的提醒。例如，熟知度越高，其提醒的内容越少，熟知度越低，其提醒的内容越多，在此，不其提示内容做进一步的限定，用户可以根据自己的需求来设定。

步骤706：根据确定的所述预设提醒方式执行提醒用户的操作。

相应的，可以根据获取的谈话者与用户本人之间的熟知度，采用相应的提醒方式来提醒用户，使用户能够快速知道谈话者的身份信息和位置信息，进而与谈话者进行愉快的交谈。

图8为另一个实施例所述根据所述身份信息和位置信息执行提醒谈话者的操作的流程图。

所述根据所述身份信息和位置信息执行提醒谈话者的操作，还包括：

步骤802：当所述谈话者为预设人群时，判断所述谈话者是否处于预设危险环境中；

其中预设人群可以为小朋友和老年人，当谈话者为小朋友或老年人时，判断谈话者是否处于预设危险环境中。其中，预设危险环境可以理解为谈话者与用户本人的距离超过安全距离，或与谈话者进行交谈的人员不在预设联系人的名单内。例如，若用户本人带小朋友出去游玩，若中途需要接听电话，用户可以利用耳机来接听电话，并实时对小朋友进行监听。当小朋友与其他人交谈时，可以获取小朋友的位置信息，获取知晓小朋友周围是否有用户所熟知的联系人。若小朋友超出安全距离，或与小朋友交谈的人员不是预设联系人，则可以认为该小朋友目前处于预设危险环境中。

步骤804：当处于预设危险环境时，则询问用户是否向预设通知方发送提示信息。

当谈话者处于预设危险环境中时，则询问用户是否向预设通知方发送提示信息。其中，预设通知方可以为谈话者的监护人、警察局或用户本人等。提示预设通知方注意谈话者的人身安全。若谈话者为用户别人邻居家的小孩，则询问用户是否向小孩的父母发送提示信息，接收用户对该询问提示的应答指令，进而根据该应答指令选择是否向该小孩的父母发送提示信息。

本实施中的语音信号处理方法，可以提高对特殊人群(小孩、老年人)的监控和保护，以防止小孩、老年人走丢或被拐卖。

应该理解的是，虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图9为一个实施例的语音信号处理装置的结构框图。语音信号处理装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

语音获取模块910，用于当所述耳机处于播放状态时，获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；

身份确定模块920，用于识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息；

位置获取模块930，用于当所述谈话者为预设联系人时，基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息；

提醒模块940，用于根据所述谈话者的身份信息和位置信息执行提醒当前用户的操作。

上述语音信号处理装置，仅利用耳机固有的器件就可以实现与用户相识的谈话者进行定位，简化了耳机的结构、节约了成本，同时，还可以获取与用户相识的谈话者的身份信息和位置信息并及时自动提醒用户与该谈话者进行交谈，还可以避免两人相见但不知晓对方身份信息的尴尬。

在一个实施例中，身份确定模块，包括：

提取单元，用于提取所述语音信号的声纹信息；

判断单元，用于判断所述声纹信息是否与样本声纹信息相匹配；

第一获取单元，用于当获取的声纹信息与样本声纹信息相匹配时，获取所述样本声纹信息对应的身份信息。

在一个实施例中，身份确定模块，包括：

调用单元，用于调用预先存储的联系人列表；

确定单元，用于当所述谈话者位于所述联系人列表中时，则所述谈话者为预设联系人。

在一个实施例中，位置获取模块，包括：

第二获取单元，用于分别获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前桢所述语音信号的三组时间延迟；

第三获取单元，用于根据所述三组时间延迟获取平均时间延迟；

第四获取单元，用于根据所述平均时间延迟对所述语音信号的位置信息进行定位估计，并获取所述谈话者相对于所述耳机的位置信息。

在一个实施例中，位置获取模块，还包括：

检测单元，用于检测所述语音信号中是否存在有效的声音信号；

处理单元，用于当存在有效的声音信号时，对所述源声信号进行平滑、滤波处理。

在一个实施例中，提醒模块包括：

设定单元，用于根据所述谈话者与用户的联系频率设定用户对所述谈话者的熟知度；

调用单元，用于调用所述熟知度与预设提醒方式的映射关系，确定与所述谈话者相对应的预设提醒方式；

提醒单元，用于根据确定的所述预设提醒方式执行提醒用户的操作。

在一个实施例中，提醒模块还包括：

询问单元，用于当处于预设危险环境时，则询问用户是否预设通知方发送提示信息；

判断单元，还用于当所述谈话者为预设人群时，判断所述谈话者是否处于预设危险环境中。

上述语音信号处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将语音信号处理装置按照需要划分为不同的模块，以完成上述语音信号处理装置的全部或部分功能。

关于语音信号处理装置的具体限定可以参见上文中对于语音信号处理方法的限定，在此不再赘述。上述语音信号处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的语音信号处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种耳机，该耳机包括上述技术方案提供的语音信号处理装置，关于语音信号处理装置的具体限定可以参见上文中对于语音信号处理方法的限定，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行语音信号处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行语音信号处理方法。

本申请实施例还提供了一种终端。如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑、穿戴式设备等任意终端设备，以终端为手机为例：

图10为与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10所示的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，RF电路1010可用于收发信息或通话过程中，信号的接收和发送，可将基站的下行信息接收后，给处理器1080处理；也可以将上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System ofMobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括程序存储区和数据存储区，其中，程序存储区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能的应用程序、图像播放功能的应用程序等)等；数据存储区可存储根据手机的使用所创建的数据(比如音频数据、通讯录等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机1000的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括操作面板1031以及其他输入设备1032。操作面板1031，也可称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操作面板1031上或在操作面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。在一个实施例中，操作面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现操作面板1031。除了操作面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041。在一个实施例中，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。在一个实施例中，操作面板1031可覆盖显示面板1041，当操作面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，操作面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将操作面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机1000还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及距离传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，距离传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。运动传感器可包括加速度传感器，通过加速度传感器可检测各个方向上加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换)、振动识别相关功能(比如计步器、敲击)等；此外，手机还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器等。

音频电路1060、扬声器1061和传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010可以发送给另一手机，或者将音频数据输出至存储器1020以便后续处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机1000的必须构成，可以根据需要而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监听。在一个实施例中，处理器1080可包括一个或多个处理单元。在一个实施例中，处理器1080可集成应用处理器和调制解调器，其中，应用处理器主要处理操作***、用户界面和应用程序等；调制解调器主要处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1080中。比如，该处理器1080可集成应用处理器和基带处理器，基带处理器与和其它***芯片等可组成调制解调器。手机1000还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

在一个实施例中，手机1000还可以包括摄像头、蓝牙模块等。

在本申请实施例中，该手机所包括的处理器执行存储在存储器上的计算机程序时实现上述所描述的语音信号处理方法。

在本申请实施例还提供一种耳机，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现上述所描述的语音信号处理方法。

在一个实施例中，所述麦克风用于采集声源信号；所述第一电声换能器、第二电声换能器均用于采集声源信号及播放所述耳机输出的音频信号。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音信号处理方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音信号的声纹信息，并确定所述声纹信息对应的谈话者的身份信息，包括：

提取所述语音信号的声纹信息；

判断所述声纹信息是否与样本声纹信息相匹配；

当获取的声纹信息与样本声纹信息相匹配时，获取所述样本声纹信息对应的身份信息。

3.根据权利要求1所述的方法，其特征在于，所述基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息前，包括：

调用预先存储的联系人列表；

当所述谈话者位于所述联系人列表中时，则所述谈话者为预设联系人。

4.根据权利要求1所述的方法，其特征在于，所述基于所述麦克风、第一电声换能器、第二电声换能器获取所述谈话者的位置信息，包括：

分别获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前桢所述语音信号的三组时间延迟；

根据所述三组时间延迟获取平均时间延迟；

根据所述平均时间延迟对所述语音信号的位置信息进行定位估计，并获取所述谈话者相对于所述耳机的位置信息。

5.根据权利要求4所述的方法，其特征在于，所述分别获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收语音信号的三组时间延迟前，还包括：

检测所述语音信号中是否存在有效的声音信号；

当存在有效的声音信号时，对所述源声信号进行平滑、滤波处理。

6.根据权利要求1所述的方法，其特征在于，所述根据所述身份信息和位置信息执行提醒当前用户的操作，包括：

根据所述谈话者与用户的联系频率设定用户对所述谈话者的熟知度；

调用所述熟知度与预设提醒方式的映射关系，确定与所述谈话者相对应的预设提醒方式；

根据确定的所述预设提醒方式执行提醒用户的操作。

7.根据权利要求6所述的方法，其特征在于，所述根据所述身份信息和位置信息执行提醒谈话者的操作，还包括：

当所述谈话者为预设人群时，判断所述谈话者是否处于预设危险环境中；

当处于预设危险环境时，则询问用户是否向预设通知方发送提示信息。

8.一种语音信号处理装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

语音获取模块，用于获取基于麦克风、第一电声换能器和第二电声换能器采集谈话者的语音信号；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

11.一种耳机，其特征在于，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

12.根据权利要求11所述的耳机，其特征在于，所述麦克风用于采集声源信号；所述第一电声换能器、第二电声换能器均用于采集声源信号及播放所述耳机输出的音频信号。