CN115312067B

CN115312067B - 基于人声的声音信号识别方法、装置及存储介质

Info

Publication number: CN115312067B
Application number: CN202211244768.4A
Authority: CN
Inventors: 朱元玲; 朱利翰; 王强; 伍朝文; 杨贵; 乐有为
Original assignee: Shenzhen Jieyuda Electronics Co ltd
Current assignee: Shenzhen Jieyuda Electronics Co ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-27
Anticipated expiration: 2042-10-12
Also published as: CN115312067A

Abstract

本发明提供一种基于人声的声音信号识别方法、装置、电子设备及存储介质，该方法进行声音信号识别时，可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

Description

基于人声的声音信号识别方法、装置及存储介质

技术领域

本发明涉及信号数据处理领域，特别是涉及一种基于人声的声音信号识别方法、装置、电子设备及存储介质。

背景技术

助听器是一种小型扩音器，把原本听不到的声音加以扩大，再利用听障者的残余听力，使声音能送到大脑听觉中枢，而感觉到声音，用于帮助听力障碍的用户听取外界的声音。

助听器通常会将所接收到的声音调整至预先设定的声音强度或者由用户操作助听器上的音量键以调整所接收到的声音，然而，在声源环境复杂的环境下，目前的助听器无法对接收到的声音信号进行处理，导致用户无法听清期望听到的声音，进而降低了助听器用户对声音信息的辨识度。

故需要提供一种基于人声的声音信号识别方法及装置，以解决上述的技术问题。

发明内容

本发明实施例提供一种基于人声的声音信号识别方法及装置，可以灵活地对声音信号进行处理，进而提升助听器用户对声音信息的辨识度。

本发明实施例提供一种基于人声的声音信号识别方法，其包括：

采集当前环境的声音信号；

采用预设声纹识别模型识别所述声音信号中人声信号，得到第一人声信号和第二人声信号，所述第一人声信号为声纹校验成功的人声信号，所述第二人声信号为声纹校验失败的人声信号；

响应于针对所述助听器触发的模式选择操作，确定所述助听器的工作模式；

当所述工作模式为第一模式时，则根据所述当前环境对应的场景类型、历史拾音数据以及所述第一人声信号的采集时间，输出所述第一人声信号；

当所述工作模式为第二模式时，在所述第二人声信号中确定满足预设条件的目标人声信号，并基于所述目标人声信号对应的语音特征序列对所述目标人声信号进行分类；当所述目标人声信号为第一类型的人声信号时，增强所述第一人声信号的音量，并播放所述目标人声信号和音量增强后的第一人声信号；当所述目标人声信号为第二类型的人声信号时，对所述目标人声信号进行转换，并播放所述第一人声信号以及转换后的目标人声信号。

本发明实施例还提供一种基于人声的声音信号识别装置，其包括：

采集模块，用于采集当前环境的声音信号；

识别模块，用于采用预设声纹识别模型识别所述声音信号中人声信号，得到第一人声信号和第二人声信号，所述第一人声信号为声纹校验成功的人声信号，所述第二人声信号为声纹校验失败的人声信号；

第一确定模块，用于响应于针对所述助听器触发的模式选择操作，确定所述助听器的工作模式；

输出模块，用于当所述工作模式为第一模式时，则根据所述当前环境对应的场景类型、历史拾音数据以及所述第一人声信号的采集时间，输出所述第一人声信号；

第二确定模块，用于当所述工作模式为第二模式时，在所述第二人声信号中确定满足预设条件的目标人声信号；

分类模块，用于基于所述目标人声信号对应的语音特征序列对所述目标人声信号进行分类；

播放模块，用于当所述目标人声信号为第一类型的人声信号时，增强所述第一人声信号的音量，并播放所述目标人声信号和音量增强后的第一人声信号；当所述目标人声信号为第二类型的人声信号时，对所述目标人声信号进行转换，并播放所述第一人声信号以及转换后的目标人声信号。

本发明实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述声音信号识别方法。

本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行上述声音信号识别方法。

本发明的声音信号识别方法及声音信号识别装置，在采集当前环境的声音信号后，采用预设声纹识别模型识别所述声音信号中人声信号，得到第一人声信号和第二人声信号，所述第一人声信号为声纹校验成功的人声信号，所述第二人声信号为声纹校验失败的人声信号，接着，响应于针对所述助听器触发的模式选择操作，确定所述助听器的工作模式，当所述工作模式为第一模式时，则根据所述当前环境对应的场景类型、历史拾音数据以及所述第一人声信号的采集时间，输出所述第一人声信号；当所述工作模式为第二模式时，在所述第二人声信号中确定满足预设条件的目标人声信号，并基于所述目标人声信号对应的语音特征序列对所述目标人声信号进行分类；当所述目标人声信号为第一类型的人声信号时，增强所述第一人声信号的音量，并播放所述目标人声信号和音量增强后的第一人声信号；当所述目标人声信号为第二类型的人声信号时，对所述目标人声信号进行转换，并播放所述第一人声信号以及转换后的目标人声信号，可见，本发明的声音信号识别方法及声音信号识别装置，可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

附图说明

图1为本发明的声音信号识别方法的流程示意图；

图2为本发明的声音信号识别方法的信号热度图；

图3为本发明的声音信号识别方法的另一流程示意图；

图4为本发明的声音信号识别方法中生成对抗网络的结构示意图；

图5为本发明的声音信号识别装置的一实施例的结构示意图；

图6为本发明的声音信号识别装置的一实施例的输出模块的结构示意图；

图7为本发明的声音信号识别装置所在的电子设备的工作环境结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存***中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实***置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的基于人声的声音信号识别方法及声音信号识别装置可设置在任何的电子设备中，用于采集当前环境的声音信号，采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号，响应于针对助听器触发的模式选择操作，确定助听器的工作模式，当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号；当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号。

该电子设备包括但不限于个人计算机、服务器计算机、多处理器***、消费型电子设备、小型计算机、大型计算机、包括上述任意***或设备的分布式计算环境，等等。该声音信号识别装置优选为进行声音信号识别的助听器，可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

目前基于助听器的声音信号识别方案中，在声源环境复杂的环境下，助听器无法对接收到的声音信号进行处理，导致用户无法听清期望听到的声音，进而降低了助听器用户对声音信息的辨识度。

本发明提供一种基于人声的声音信号识别方案，采集当前环境的声音信号；采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号；响应于针对助听器触发的模式选择操作，确定助听器的工作模式；当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号；当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号。

请参照图1，图1为本发明的声音信号识别方法的一实施例的流程图。本实施例的声音信号识别方法可使用上述的电子设备进行实施，本实施例的声音信号识别方法包括：

步骤101、采集当前环境的声音信号。

步骤102、采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号。

步骤103、响应于针对助听器触发的模式选择操作，确定助听器的工作模式。

步骤104、当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号。

步骤105、当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号。

下面详细说明本实施例的声音信号识别方法。

在步骤101中，可以通过助听器的麦克风采集当前环境的声音信号，包括音乐、背景音、合成音和提示音等音频信号。

在步骤102中，第一人声信号为声纹校验成功的人声信号，第二人声信号为声纹校验失败的人声信号，声纹识别，又称说话人识别，指的是利用机器学习和模式识别等相关方法，提取语音信号中说话人的信息，对说话人身份进行鉴别的技术，第一人声信号为声纹校验成功的人声信号，在实施本方案之前，需要预先构建声纹识别模型，声纹识别涉及到声纹注册以及声纹验证两个阶段。在声纹注册阶段，需要利用声纹识别模型提取目标用户输入的语音信号的声纹特征，并将提取出的声纹特征存储为注册的声纹特征。而在声纹验证阶段，需要利用声纹识别模型提取说话人输入的语音信号的声纹特征，并将提取出的声纹特征与注册的声纹特征进行比对，以判断说话人是否属于目标用户。

例如，假设声纹注册阶段，通过第二声纹识别模型提取了用户的语音信号的声纹特征（以下称为声纹特征A），那么声纹特征A会被作为注册的声纹特征存储到助听器中。在此基础上，当助听器采集到当前环境的声音信号后，为了便于描述，设定该声音信号中仅包含一个人声信号，然后，可以利用预先构建的声纹识别模型提取声音信号中人声信号的声纹特征，若该声纹特征与声纹特征A相符，则将该人声信号确定为第一人声信号；若该声纹特征与声纹特征A不相符，则将该人声信号确定为第二人声信号。

在步骤103中，用户可以通过触碰助听器上的实体按键选择助听器的工作模式，比如，第一按键对应第一模式，第二按键对应第二模式，响应用户针对该第一按键的操作，确定助听器的工作模式为第一模式；响应用户针对该第二按键的操作，确定助听器的工作模式为第二模式。其中，第一模式可以为人声增强模式，第二模式可以为人声转换模式。

在步骤104中，首先，可以确定当前环境对应的场景类型，比如，可以根据人声信号的数量，确定助听器用户当前环境对应的场景，具体的，当检测到人声信号的数量大于5时，确定其所在的环境为多人会谈环境；当检测到人声信号的数量大于10，且每一时刻仅采集到1个人声信号时，则确定其所在的环境为会议室环境，具体可以根据实际情况而定，在此不再赘述。在确定场景类型后，可以从历史拾音数据中获取历史人声信号对应的历史拾音速度和历史拾音音强，并根据场景类型、历史拾音速度、历史拾音音强以及第一人声信号的音强，调整第一人声信号对应的拾音速度和拾音音强，最后，根据第一人声信号的采集时间确定第一人声信号的输出顺序，并基于该输出顺序，按照拾音速度和拾音音强输出第一人声信号，即，可选地，在一些实施例中，步骤“根据确定当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号”，具体可以包括：

（11）确定当前环境对应的场景类型；

（12）从历史拾音数据中获取历史人声信号对应的历史拾音速度以及历史拾音音强；

（13）根据场景类型、历史拾音速度、历史拾音音强以及第一人声信号的音强，调整第一人声信号对应的拾音速度和拾音音强；

（14）基于第一人声信号的采集时间，按照拾音速度和拾音音强输出第一人声信号。

其中，音强，又称声音强度，是声音的物理客观量。声音强度取决于单位时间内作用于单位面积上声音能量的大小，单位是瓦/平方米•秒。声强在数量等级上称为声强级，声强级单位是分贝，可以用仪器来测定。由此可见，声强并不等同于声强级。但在临床上，声音强度通常是用声强级来表示的。拾音就是把声音收集的过程，从历史拾音数据中获取历史人声信号对应的历史拾音速度以及历史拾音音强，后续可以根据该助听器用户的拾音习惯对第一人声信号的拾音速度和拾音音强进行调整，使得调整后的第一人声信号的拾音速度和拾音音强更符合用户的习惯，便于用户听取到该第一人声信号所表达的内容。

进一步的，本发明可以利用第一人声信号的音强，构建当前环境对应的信号热度地图，基于该信号热度地图，可以确定第一人声信号之间的位置关系，便于后续对第一人声信号对应的拾音速度和拾音音强进行调整，即，可选地，在一些实施例中，步骤“根据场景类型、历史拾音速度、历史拾音音强以及第一人声信号的音强，调整第一人声信号对应的拾音速度和拾音音强”，具体可以包括：

（21）基于助听器的麦克风阵列以及第一人声信号的音强，构建当前环境对应的信号热度地图；

（22）根据信号热度地图，确定第一人声信号与助听器之间的相对位置关系；

（23）基于相对位置关系，获取拾音速度对应的第一调整参数和拾音音强对应的第二调整参数；

（24）计算历史人声信号与所述第一人声信号之间的人声相似度；

（25）当历史人声信号与第一人声信号之间的人声相似度大于或等于预设相似度时，则获取历史人声信号对应的历史拾音速度以及历史拾音音强，并计算场景类型对应的第三调参权重、第一调整参数以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算场景类型对应的第三调参权重、第二调整参数以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强；

（26）当历史人声信号与第一人声信号之间的人声相似度小于预设相似度时，获取助听器对应当前拾音速度和当前拾音音强，根据第三调参权重、第一调整参数、当前拾音速度以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算第三调参权重、第二调整参数当前拾音音强以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强。

例如，具体的，可以基于助听器中麦克风阵列的结构特性以及第一人声信号的音强，构建当前环境对应的信号热度地图，该信号热度地图用于表征每个第一人声信号的位置以及其声音强度，如图2所示，该信号热度地图包括第一人声信号对应的A点、B点、C点、D点以及E点、还包括助听器所在位置S点，其中，A点与S点的距离最大，可以理解的是，在距离上，音频信号的衰减系数会因为距离而自然产生的，或是因为人的头部遮挡因素，使声音衰减，因此，在本发明的一些实施例中，当历史人声信号与第一人声信号之间的人声相似度大于或等于预设相似度时，则获取历史人声信号对应的历史拾音速度以及历史拾音音强，并且，并计算场景类型对应的第三调参权重、第一调整参数以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算场景类型对应的第三调参权重、第二调整参数以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强。

其中，基于相对位置关系，获取拾音速度对应的第一调整参数和拾音音强对应的第二调整参数，实际上是基于第一人声信号的声源与助听器之间距离，获取拾音速度对应的第一调整参数和拾音音强对应的第二调整参数，其中，第一调整参数与第一人声信号的声源与助听器之间距离成正比，第二调整参数与第一人声信号的声源与助听器之间距离成反比，即，第一人声信号距离助听器的位置越远，其在助听器中播放的速度越慢，且声音越大。

当历史人声信号与第一人声信号之间的人声相似度小于预设相似度时，获取助听器对应当前拾音速度和当前拾音音强，并计算场景类型对应的第三调参权重、第一调整参数以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算场景类型对应的第三调参权重、第二调整参数以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强，其中，当前拾音速度可以为每个第一人声信号对应的历史拾音速度的平均数，同理，当前拾音音强可以为每个第一人声信号对应的历史拾音音强的平均数。

由于历史人声信号与第一人声信号之间的人声相似度小于预设相似度，因此，在本发明的一些实施例中，以当前拾音速度和当前拾音音强作为调整的基准，结合第三调整参数、第一调整参数、历史拾音速度和历史拾音音强，输出第一人声信号的拾音速度和拾音强度，具体可以采用如下公式（1）和（2）进行计算：

（1）

其中，V为第一人声信号的拾音速度，S1为第一调整参数、S3为第三调整参数，V1为当前拾音速度，V2为历史拾音速度。

（2）

其中，D为第一人声信号的拾音音强，S2为第二调整参数、S3为第三调整参数，D1为当前拾音音强，D2为历史拾音音强。

需要说明的是，在本发明中，具体利用麦克风阵列的结构特性对人声信号进行声源定位，并结合每个第一人声信号的音强，构建当前环境对应的信号热度地图，即，可选地，在一些实施例中，步骤“基于助听器的麦克风阵列以及第一人声信号的音强，构建当前环境对应的信号热度地图”，具体可以包括：

（31）获取助听器的麦克风阵列中麦克风之间的互相关信息；

（32）基于互相关信息，确定麦克风采集的信号之间的信号时延；

（33）计算信号时延与声波传播速度之间的乘积，得到每个麦克风之间的相对位置间距；

（34）基于相对位置间距，确定第一人声信号与所述麦克风阵列的相对角度；

（35）根据相对角度以及相对位置间距，预估第一人声信号相对于麦克风阵列的相对位置；

（36）以麦克风阵列为基准，基于第一人声信号相对于麦克风阵列的相对位置，构建当前环境对应的信号地图，并将第一人声信号的音强添加至信号地图中，得到信号热度地图。

由于助听器包括左助听器和右助听器，因此，不同的人声信号距离左助听器和右助听器的距离不同，比如，人声信号距离左助听器更近、距离右助听器更远，所以左助听器所采集到的人声信号中的信号分量大于右助听器采集器件所采集到的人声信号中的信号分量，故，可以分别对左助听器所采集到的人声信号的信号分量以及右助听器采集器件所采集到的人声信号的信号分量进行互相关分析，进而得到左助听器所采集到的人声信号的信号分量以及右助听器采集器件所采集到的人声信号的信号分量之间的信号时延，接着，计算信号时延与声波传播速度之间的乘积，得到每个麦克风之间的相对位置间距，即，左助听器与右助听器之间的距离，例如，可以对左助听器所采集到的第一人声信号A1的语音分量A1S和右助听器采集器件所采集到的第一人声信号A2的语音分量A2S进行广义互相关分析，分析两者之间的相位差，得到延时差Δt。由此，可以知道声源信号到左助听器的距离L1和声源信号到右助听器的距离L2之间的关系为cΔt=L1-L2，其中，c为声波传播速度。进一步的，基于该相对位置间距、左助听器到地面的高度以及右助听器到地面的高度，预估第一人声信号相对于所述麦克风阵列的相对位置，最后，以麦克风阵列为基准，基于第一人声信号相对于麦克风阵列的相对位置，构建当前环境对应的信号地图，并将每个第一人声信号的音强添加至信号地图中，得到信号热度地图。

需要说明的是，该麦克风可以是全向麦克风和/或指向麦克风。全向麦克风对于来自不同角度的声音，其灵敏度是基本相同的，其头部采用压力感应的原理设计，振膜只接受来自外界的压力。指向麦克风主要采用压力梯度的原理设计，通过头部腔体后面的小孔，振膜接受到正反两面的压力，因此振膜受不同方向的压力并不相同，麦克风具有了指向性。例如，该麦克风阵列可以是由一定数目的麦克风组成、用来对声场的空间特性进行采样并处理的***，其可以包括各自拾音区不完全相同的多个麦克风MIC1到MICn，其中n是大于等于2的自然数。例如，取决于各个麦克风的相对位置关系，麦克风阵列可以分为：线性阵列，其阵元中心位于同一条直线上；平面阵列，其阵元中心分布在一个平面上；以及空间阵列，其阵元中心分布在立体空间中。

在步骤105中，可以将第二人声信号中音量大于预设音量的第二人声信号确定为目标人声信号，以及将第二人声信号中最靠近助听器的第二人声信号确定为目标人声信号。当然，还可以将第二人声信号中音量最大的第二人声信号确定为目标人声信号，以及将第二人声信号中与助听器之间的距离小于或等于预设距离的第二人声信号确定为目标人声信号，也可以将第二人声信号中音量大于预设音量的第二人声信号确定为目标人声信号，以及将第二人声信号中与助听器之间的距离小于或等于预设距离的第二人声信号确定为目标人声信号，具体可以根据实际情况进行选择。

在确定目标人声信号后，可以将目标人声信号的音频特征依次输入至声学模型和语言模型中，以对该目标人声信号进行分类，即，可选地，在一些实施例中，步骤“基于目标人声信号对应的语音特征序列对目标人声信号进行分类”，具体可以包括：

（41）获取目标人声信号的音频特征；

（42）基于音频特征的基频变化率，对目标人声信号进行分类。

其中，人声类型可以包括真实人声和电子人声，由于电子人声的基频单一，没有变化，而真实人声的基频在不断变化的，故，可以通过获取音频特征的基频变化率，来判别目标人声信号属于真实人声还是电子人声，具体可以采用Matlab（一种面对科学计算、可视化以及交互式程序设计的高科技计算环境的软件）并基于寻找峰值函数的算法，确定每一音频特征的基频频率值，随后，在预设时间内检测基频变化，比如，在一秒钟内，基频从200Hz变化到400Hz，又从400Hz变化到200Hz，一秒钟变化了400次，那么可以确定目标人声信号为真实人声；若在一秒钟内，基频在150Hz左右变化，且相差不到10Hz，那么可以确定目标人声信号为电子人声。

针对于目标人声为真实人声的情况，在本发明的一些实施例中，可以增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；针对于目标人声为电子人声的情况，在本发明的一些实施例中，可以通过生成对抗网络将目标人声信号的音色转换为历史人声信号的音色，然后，播放第一人声信号以及转换后的目标人声信号，即，可选地，在一些实施例中，步骤“当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号”，具体可以包括：

当目标人声信号为第二类型的人声信号时，获取历史人声信号的音色，并通过生成对抗网络将目标人声信号的音色转换为历史人声信号的音色；播放第一人声信号以及转换后的目标人声信号。

其中，该生成对抗网络可以是预先训练得到的，如图3所示，首先，可以获取大量的声音信号样本T，通过生成对抗网络的编码器C提取声音信号样本，得到声纹特征样本；然后将该声纹特征样本输入至生成对抗网络的生成器G中，从而输出预测声音信号；紧接着，通过生成对抗网络判别器D判断预测声音信号语谱图与声音信号样本的语谱图是否一致，最后，根据该判断结果，生成器G调整整个网络的参数，修正其输出的语谱图，使得其输出的预测声音信号的语谱图更接近于真实的分布，从而可以“欺骗”判别器D，以便后续可以通过生成对抗网络将目标人声信号的音色转换为历史人声信号的音色。

为了进一步理解本发明的声音信号识别方案，以下以具体场景为例进行说明，听障用户（以下简称用户）佩戴助听器进入地铁站乘坐地铁，该助听器包括第一按键和第二按键，其中，第一按键对应第一模式（即人声增强模式），第二按键对应第二模式（即人声转换模式），助听器预先录入了用户家属（如父亲、母亲）的声纹，因此，在地铁站这种声音嘈杂的场景下，当用户期望在该场景下可以听清父母的声音，可以通过按下第一按键，将助听器的工作模式切换为第一模式，在该模式下，助听器可以增强用户父母的人声信号；在用户进入地铁站进行候车时，可以通过按下第二按键，以对地铁站内播报的电子人声进行声音转换，从而将电子人声的音色转换为历史人声信号的音色，便于用户接收到电子人声所播报的信息。

以上完成了本实施例的声音信号识别过程。

本实施例的声音信号识别方法在采集当前环境的声音信号后，采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号，接着，响应于针对助听器触发的模式选择操作，确定助听器的工作模式，当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号，当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号，可见，本发明的声音信号识别方法，可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

本申请实施例还提供一种声音信号识别方法，其中，该声音信号识别装置集成在智能助听器中，请参阅图4，具体流程如下：

步骤201、智能助听器采集当前环境的声音信号。

步骤202、智能助听器采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号。

步骤203、智能助听器响应于针对助听器触发的模式选择操作，确定助听器的工作模式。

步骤204、智能助听器当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号。

步骤205、智能助听器当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号。

由上可知，智能助听器可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

本发明还提供一种声音信号识别装置，请参照图5，图5为本发明的声音信号识别装置的一实施例的结构示意图，本实施例的声音信号识别装置可使用上述的声音信号识别方法进行实施。本实施例的声音信号识别装置30包括采集模块301、识别模块302、第一确定模块303、输出模块304、第二确定模块305、分类模块306以及播放模块307，具体如下：

采集模块301，用于采集当前环境的声音信号。

识别模块302，用于采用预设声纹识别模型识别所述声音信号中人声信号，得到第一人声信号和第二人声信号，所述第一人声信号为声纹校验成功的人声信号。

第一确定模块303，用于响应于针对助听器触发的模式选择操作，确定助听器的工作模式。

输出模块304，用于当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号。

第二确定模块305，用于当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号。

分类模块306，用于基于目标人声信号对应的语音特征序列对目标人声信号进行分类。

播放模块307，用于当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号。

可选地，在一些实施例中，请参阅图6，输出模块304具体可以包括：

确定单元3041，用于确定当前环境对应的场景类型；

获取单元3042，用于从历史拾音数据中获取历史人声信号对应的历史拾音速度以及历史拾音音强；

调整单元3043，用于根据场景类型、历史拾音速度、历史拾音音强以及第一人声信号的音强，调整第一人声信号对应的拾音速度和拾音音强；

输出单元3044，用于基于第一人声信号的采集时间，按照拾音速度和拾音音强输出第一人声信号。

可选地，在一些实施例中，调整单元3043具体可应用于：基于助听器的麦克风阵列以及第一人声信号的音强，构建当前环境对应的信号热度地图；根据信号热度地图，确定第一人声信号与助听器之间的相对位置关系；基于相对位置关系，获取拾音速度对应的第一调整参数和拾音音强对应的第二调整参数；计算历史人声信号与所述第一人声信号之间的人声相似度；当历史人声信号与第一人声信号之间的人声相似度大于或等于预设相似度时，则获取历史人声信号对应的历史拾音速度以及历史拾音音强，并计算场景类型对应的第三调参权重、第一调整参数以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算场景类型对应的第三调参权重、第二调整参数以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强；当历史人声信号与第一人声信号之间的人声相似度小于预设相似度时，获取助听器对应当前拾音速度和当前拾音音强，根据第三调参权重、第一调整参数、当前拾音速度以及历史拾音速度的乘积，得到第一人声信号对应的拾音速度，以及；计算第三调参权重、第二调整参数当前拾音音强以及历史拾音音强的乘积，得到第一人声信号对应的拾音音强。

可选地，在一些实施例中，调整单元3043具体可应用于：获取助听器的麦克风阵列中麦克风之间的互相关信息；基于互相关信息，确定麦克风采集的信号之间的信号时延；计算信号时延与声波传播速度之间的乘积，得到每个麦克风之间的相对位置间距；基于相对位置间距，确定第一人声信号与所述麦克风阵列的相对角度；根据相对角度以及相对位置间距，预估第一人声信号相对于麦克风阵列的相对位置；以麦克风阵列为基准，基于第一人声信号相对于麦克风阵列的相对位置，构建当前环境对应的信号地图，并将第一人声信号的音强添加至信号地图中，得到信号热度地图。

可选地，在一些实施例中，第二确定模块305具体可应用于：将第二人声信号中音量大于预设音量的第二人声信号确定为目标人声信号，以及将第二人声信号中最靠近助听器的第二人声信号确定为目标人声信号。

可选地，在一些实施例中，分类模块306具体可应用于：获取目标人声信号的音频特征；基于音频特征的基频变化率，对目标人声信号进行分类。

可选地，在一些实施例中，播放模块307具体可应用于：当目标人声信号为第二类型的人声信号时，获取历史人声信号的音色，并通过生成对抗网络将目标人声信号的音色转换为历史人声信号的音色；播放第一人声信号以及转换后的目标人声信号。

这样即完成了本实施例的声音信号识别装置30的声音信号识别过程。

本实施例的声音信号识别装置的具体工作原理与上述声音信号识别方法的实施例中的描述相同或相似，具体请参见上述声音信号识别方法的实施例中的详细描述。

本实施例的声音信号识别装置在采集当前环境的声音信号后，采用预设声纹识别模型识别声音信号中人声信号，得到第一人声信号和第二人声信号，接着，响应于针对助听器触发的模式选择操作，确定助听器的工作模式，当工作模式为第一模式时，则根据当前环境对应的场景类型、历史拾音数据以及第一人声信号的采集时间，输出第一人声信号，当工作模式为第二模式时，在第二人声信号中确定满足预设条件的目标人声信号，并基于目标人声信号对应的语音特征序列对目标人声信号进行分类；当目标人声信号为第一类型的人声信号时，增强第一人声信号的音量，并播放目标人声信号和音量增强后的第一人声信号；当目标人声信号为第二类型的人声信号时，对目标人声信号进行转换，并播放第一人声信号以及转换后的目标人声信号，可见，本发明的声音信号识别方法，可以根据声纹校验结果区分声音信号中的第一人声信号和第二人声信号，并基于针对助听器触发的模式选择操作，确定相应的工作模式，随后根据工作模式，灵活地对人声信号进行处理，由此，提高了助听器对声音声音信号识别的灵活性，进而提升助听器用户对声音信息的辨识度。

如本申请所使用的术语“组件”、“模块”、“***”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和／或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和／或线程内，并且组件可以位于一个计算机上和／或分布在两个或更多计算机之间。

图7和随后的讨论提供了对实现本发明所述的声音信号识别装置所在的电子设备的工作环境的简短、概括的描述。图7的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1012包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等）、多处理器***、消费型电子设备、小型计算机、大型计算机、包括上述任意***或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布（下文讨论）。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图7图示了包括本发明的声音信号识别装置中的一个或多个实施例的电子设备1012的实例。在一种配置中，电子设备1012包括至少一个处理单元1016和存储器1018。根据电子设备的确切配置和类型，存储器1018可以是易失性的(比如RAM)、非易失性的（比如ROM、闪存等）或二者的某种组合。该配置在图1中由线框1014图示。

在其他实施例中，电子设备1012可以包括附加特征和／或功能。例如，电子设备1012还可以包括附加的存储装置（例如可移除和／或不可移除的），其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图7中由存储装置1020图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1020中。存储装置1020还可以存储用于实现操作***、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1018中由例如处理单元1016执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1018和存储装置1020是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1012访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1012的一部分。

电子设备1012还可以包括允许电子设备1012与其他设备通信的通信连接1026。通信连接1026可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器／接收器、红外端口、USB连接或用于将电子设备1012连接到其他电子设备的其他接口。通信连接1026可以包括有线连接或无线连接。通信连接1026可以发射和／或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备1012可以包括输入设备1024，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和／或任何其他输入设备。电子设备1012中也可以包括输出设备1022，比如一个或多个显示器、扬声器、打印机和／或任意其他输出设备。输入设备1024和输出设备1022可以经由有线连接、无线连接或其任意组合连接到电子设备1012。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备1012的输入设备1024或输出设备1022。

电子设备1012的组件可以通过各种互连（比如总线）连接。这样的互连可以包括***组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE 13104)、光学总线结构等等。在另一个实施例中，电子设备1012的组件可以通过网络互连。例如，存储器1018可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络1028访问的计算设备1030可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1012可以访问计算设备1030并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备1012可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备1012处执行并且一些指令可以在计算设备1030处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能（例如其在功能上是等价的）的任意组件（除非另外指示），即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或***，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种基于人声的声音信号识别方法，应用于助听器，其特征在于，包括：

采集当前环境的声音信号；

当所述工作模式为第二模式时，在所述第二人声信号中确定满足预设条件的目标人声信号，并基于所述目标人声信号对应的语音特征序列对所述目标人声信号进行分类；当所述目标人声信号为第一类型的人声信号时，增强所述第一人声信号的音量，并播放所述目标人声信号和音量增强后的第一人声信号；当所述目标人声信号为第二类型的人声信号时，将目标人声信号的音色转换为历史人声信号的音色，并播放所述第一人声信号以及转换后的目标人声信号；其中所述第一类型的人声信号为真实人声，所述第二类型的人声信号为电子人声。

2.根据权利要求1所述的方法，其特征在于，所述根据确定当前环境对应的场景类型、历史拾音数据以及所述第一人声信号的采集时间，输出所述第一人声信号，包括：

确定当前环境对应的场景类型；

从历史拾音数据中获取历史人声信号对应的历史拾音速度以及历史拾音音强；

根据所述场景类型、历史拾音速度、历史拾音音强以及所述第一人声信号的音强，调整所述第一人声信号对应的拾音速度和拾音音强；

基于所述第一人声信号的采集时间，按照拾音速度和拾音音强输出所述第一人声信号。

3.根据权利要求2所述的方法，其特征在于，所述根据所述场景类型、历史拾音速度、历史拾音音强以及所述第一人声信号的音强，调整所述第一人声信号对应的拾音速度和拾音音强，包括：

基于所述助听器的麦克风阵列以及所述第一人声信号的音强，构建所述当前环境对应的信号热度地图；

根据所述信号热度地图，确定所述第一人声信号与所述助听器之间的相对位置关系；

基于所述相对位置关系，获取拾音速度对应的第一调整参数和拾音音强对应的第二调整参数；

计算所述历史人声信号与所述第一人声信号之间的人声相似度；

当所述历史人声信号与所述第一人声信号之间的人声相似度大于或等于预设相似度时，则获取所述历史人声信号对应的历史拾音速度以及历史拾音音强，并计算所述场景类型对应的第三调参权重、第一调整参数以及历史拾音速度的乘积，得到所述第一人声信号对应的拾音速度，以及；计算所述场景类型对应的第三调参权重、第二调整参数以及历史拾音音强的乘积，得到所述第一人声信号对应的拾音音强；

当所述历史人声信号与所述第一人声信号之间的人声相似度小于预设相似度时，获取所述助听器对应当前拾音速度和当前拾音音强，根据所述第三调参权重、第一调整参数、当前拾音速度以及历史拾音速度的乘积，得到所述第一人声信号对应的拾音速度，以及；计算所述第三调参权重、第二调整参数当前拾音音强以及历史拾音音强的乘积，得到所述第一人声信号对应的拾音音强。

4.根据权利要求3所述的方法，其特征在于，所述基于所述助听器的麦克风阵列以及所述第一人声信号的音强，构建所述当前环境对应的信号热度地图，包括：

获取所述助听器的麦克风阵列中麦克风之间的互相关信息；

基于所述互相关信息，确定麦克风采集的信号之间的信号时延；

计算所述信号时延与声波传播速度之间的乘积，得到每个麦克风之间的相对位置间距；

基于所述相对位置间距，确定所述第一人声信号与所述麦克风阵列的相对角度；

根据所述相对角度以及相对位置间距，预估所述第一人声信号相对于所述麦克风阵列的相对位置；

以所述麦克风阵列为基准，基于所述第一人声信号相对于所述麦克风阵列的相对位置，构建当前环境对应的信号地图，并将所述第一人声信号的音强添加至所述信号地图中，得到信号热度地图。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标人声信号对应的语音特征序列对所述目标人声信号进行分类，包括：

获取所述目标人声信号的音频特征；

基于所述音频特征的基频变化率，对所述目标人声信号进行分类。

6.根据权利要求1所述的方法，其特征在于，所述当所述目标人声信号为第二类型的人声信号时，对所述目标人声信号进行转换，并播放所述第一人声信号以及转换后的目标人声信号，包括：

当所述目标人声信号为第二类型的人声信号时，获取历史人声信号的音色，并通过生成对抗网络将所述目标人声信号的音色转换为历史人声信号的音色；播放所述第一人声信号以及转换后的目标人声信号。

7.根据权利要求1所述的方法，其特征在于，所述在所述第二人声信号中确定满足预设条件的目标人声信号，包括：

将所述第二人声信号中音量大于预设音量的第二人声信号确定为目标人声信号，以及；将所述第二人声信号中最靠近所述助听器的第二人声信号确定为目标人声信号。

8.一种基于人声的声音信号识别装置，应用于助听器，其特征在于，包括：

采集模块，用于采集当前环境的声音信号；

播放模块，用于当所述目标人声信号为第一类型的人声信号时，增强所述第一人声信号的音量，并播放所述目标人声信号和音量增强后的第一人声信号；当所述目标人声信号为第二类型的人声信号时，将目标人声信号的音色转换为历史人声信号的音色，并播放所述第一人声信号以及转换后的目标人声信号；其中所述第一类型的人声信号为真实人声，所述第二类型的人声信号为电子人声。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-7任一项所述声音信号识别方法的步骤。

10.一种计算机可读存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行如权利要求1至7中任一项所述声音信号识别方法。