CN111063363B

CN111063363B - 一种语音获取方法、音频设备和具有存储功能的装置

Info

Publication number: CN111063363B
Application number: CN201811203141.8A
Authority: CN
Inventors: 彭定桃
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2022-09-20
Anticipated expiration: 2038-10-16
Also published as: CN111063363A

Abstract

本发明公开了一种语音获取方法、音频设备和具有存储功能的装置。该方法包括：音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号；判断第一音频信号中是否包括用户说话的语音音频信号；当第一音频信号包括用户说话的语音音频信号时，则将第二麦克风调整为收音模式，其中，第二麦克风用于获取用户说话的语音音频信号；当第一音频信号不包括用户说话的语音音频信号时，则将第二麦克风调整为静音模式；其中，静音模式为关闭第二麦克风或将第二麦克风采集的第二音频信号作为无效信号，收音模式为开启第二麦克风或将第二麦克风采集的第二音频信号作为有效信号。通过上述方式，本发明能够提高通话的语音质量，提升通话体验。

Description

一种语音获取方法、音频设备和具有存储功能的装置

技术领域

本发明涉及语音获取领域，特别是涉及一种语音获取方法、音频设备和具有存储功能的装置。

背景技术

随着科技的发展，耳机的使用已经越来越普及化，在嘈杂的环境中，用户经常采用耳机进行实时语音聊天或者打电话，这样虽然可以更加清楚的听清对方的语音，用户通话时背景噪音会和通话语音一起传递给通话对方，一般的处理方法是在用户说话时，对采集的语音进行降噪处理，但是用户没有说话时的背景噪音也会传递给对方，特别是在多方通话时，对于接受方而言，背景噪音将和他方通话语音一起传出，这极大影响通话的语音质量，降低用户的使用体验。

发明内容

本发明主要解决的技术问题是提供一种语音获取方法、音频设备和具有存储功能的装置，能够减少获取的语音中的噪音，提升获取的语音的质量，当将获取到的高质量的语音用于通话中时，提高了通话的语音质量，提升了用户的使用体验。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种语音获取方法，包括：音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号；所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号；当所述第一音频信号包括用户说话的语音音频信号时，则所述音频设备将第二麦克风调整为收音模式，其中，所述第二麦克风用于获取用户说话的语音音频信号；当所述第一音频信号不包括用户说话的语音音频信号时，则所述音频设备将所述第二麦克风调整为静音模式；其中，所述静音模式为关闭所述第二麦克风或将所述第二麦克风采集的第二音频信号作为无效信号，所述收音模式为开启所述第二麦克风或将所述第二麦克风采集的所述第二音频信号作为有效信号。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种音频设备，包括用于设于用户耳道内的第一麦克风、用于获取用户语音的第二麦克风和处理器，所述处理器耦接所述第一麦克风和所述第二麦克风，用于实现如上所述的方法。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种具有存储功能的装置，存储有程序数据，所述程序数据能够被执行以实现如上所述方法中的步骤。

本发明的有益效果是：区别于现有技术的情况，本发明可以通过第一麦克风采集的第一音频信号判断用户当前是否处在说话状态，如果用户处于说话状态，则获取当前语音，如果用户不处于说话状态，则不获取任何声音，可以有效减少获取的用户语音中的噪音，从而有效提高获取的语音的质量。进一步，将获取到的高质量的语音用于通话中，可以有效提高通话的质量，提升用户的使用体验。

附图说明

图1是本发明提供的语音获取方法的第一实施例流程示意图；

图2是本发明提供的语音获取方法的第二实施例流程示意图；

图3是本发明提供的语音获取方法的第三实施例流程示意图；

图4是本发明提供的音频设备的第一实施例的结构示意图；

图5是本发明提供的音频设备的第二实施例的结构示意图；

图6是本发明提供的具有存储功能的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明保护的范围。

请参阅图1，图1是本发明提供的语音获取方法的第一实施例流程示意图。如图1所示，本发明提供的语音获取方法包括：

S101：音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号。

在一个具体的实施场景中，该音频设备包括设于用户耳道内的第一麦克风，设置在用户耳道内的第一麦克风就可以获取耳道内的第一音频信号。用户在说话时，语音会随着声带的震动通过骨传导传到耳道内，而被自己听见。这时，该第一音频信号包括用户说话的声音。在本实施场景中，音频设备可以是耳机，第一麦克风可以位于耳机处于用户耳道内的一端。

S102：所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号。

在一个具体的实施场景中，先预设一个第一阈值，当检测到第一音频信号的总强度大于等于该第一阈值时，可以判断包括用户说话的语音音频信号，确定用户处于说话的状态，而当检测到第一音频信号的音量低于该第一阈值时，则可以判断不包括用户说话的语音音频信号，确定用户不处于说话状态。在本实施场景中，音频设备是耳机，因此当用户佩戴耳机的时候，耳机可以较好的将外界与用户的耳道隔绝开，从而外界的噪音很难传递到用户的耳道内，或者传递到耳道内的噪音音量较小。从而在用户不处于说话状态时，对应于耳道内声音的第一音频音量较低。而当用户处于说话状态时，第一音频中还包括了用户说话的声音，且耳道内的声音是通过骨传导传递的，音量损耗极小，因此对应于耳道内声音和用户说话语音的第一音频音量较高。所以当第一音频信号的总强度大于或等于第一阈值时，可以判定第一音频信号中包括用户说话的语音音频信号。而当第一音频信号的总强度小于第一阈值时，可以判定第一音频信号中不包括用户说话的语音音频信号。

在其他实施场景中，可以检测第一音频信号中设定频率信号的强度是否大于等于预设阈值。因为用户的耳道内难免会有一些噪音，但是这些噪音与用户说话的声音的音频信号的频率不同。可以预设一个特定的设定频率，该设定频率信号对应用户说话的语音音频信号的频率。通过检测第一音频信号汇总该频率的音频信号的强度是否大于等于第一阈值，可以判断第一音频信号是否包括用户说话的语音音频信号。若第一音频信号中设定频率信号的强度大于或等于第一阈值，则判定第一音频信号中包括用户的语音信号，若第一音频信号中设定频率信号的强度小于第一阈值，则可以判定第一音频信号中不包括用户说话的语音音频信号。

在其他实施场景中，音频设备还可以是其他播放声音的装置，例如手机的音频电路、电脑的音频电路等。

如果用第一音频信号中包括用户说话的语音音频信号，则执行步骤S103，如果第一音频信号中不包括用户说话的语音音频信号，则执行步骤S104。

S103：当所述第一音频包括用户说话的语音音频信号时，则所述音频设备将第二麦克风调整为收音模式，其中，所述第二麦克风用于获取用户说话的语音音频信号。

在一个具体的实施场景中，音频装置还包括用于获取用户语音的第二麦克风。该第二麦克风位于用户的耳道外侧，可以获取通过空气传播的用户的语音。在本实施场景中，音频装置是耳机，则第二麦克风可以位于耳机远离用户耳道的一端。

当用户处于说话状态时，第二麦克风处于收音模式，即第二麦克风处于打开的状态，可以采集用户的语音。在其他实施场景中，为了进一步提高通话时的语音质量，第二麦克风处于收音模式时，还对采集到的第二音频进行降噪处理。

S104：当所述第一音频不包括用户说话的语音音频信号时，则所述音频设备将所述第二麦克风调整为静音模式。

在一个具体的实施场景中，当第一音频不包括用户说话的语音音频信号时，即用户不处于说话状态时，第二麦克风为静音模式，即不采集当前的音频信号。

在其他实施场景中，第二麦克风处于收音模式，还可以为将第二麦克风采集的音频信号作为有效信号，对其进行处理后传输给通话的采集方，第二麦克风为静音模式，还可以为将第二麦克风采集的音频信号作为无效信号，不对其进行任何处理，也不将其传输。

在本实施场景中，音频设备各有一个第一麦克风和第二麦克风，在其他实施场景中，音频设备可以具有多个第一麦克风和第二麦克风，且第一麦克风和第二麦克风的数量不需要相等。在本实施场景中，第一麦克风和第二麦克风位于同一侧的耳机上，在其他实施场景中，也可以分别位于左右两侧的耳机上。

在另一个实施场景中，两侧的耳机均具有至少一个第一麦克风和第二麦克风，可以获取两侧第一麦克风获取的第一音频信号，或者根据第一音频判断的结果。当两侧的结果相同时，直接根据该结果执行步骤S103或步骤S104。当两侧结果不相同时，则重新进行获取和/或判断的过程。如果反复多次仍然不能得到相同的结果，当大于等于预设次数(例如，5次)，可以向用户发出警报(例如，指示灯闪烁或变换颜色，发出警报声等)通知用户当前耳机出现故障。

通过上述描述可知，本实施例通过根据耳道内的声音的音量高低来判断第一音频信号中是否包括用户说话的语音音频信号，若第一音频信号包括用户说话的语音音频信号，则可以判定用户设备可以处于说话状态。若用户处于说话状态，则将采集到的用户音频进行处理并传输给通话采集方。若第一音频信号中不包括用户说话的语音音频，则可以判定用户处于说话状态。若用户不处于说话状态，则不采集当前的音频或者不传输当前采集到的音频。这样在进行多方通话时，用户端的噪音就不会传输到通话采集方，这样可以有效减少获取的用户语音中的噪音，有助于获取高质量的用户语音。而当将获取到的高质量的用户语音用于通话中时，可以提升通话时的语音质量，提高用户的使用体验。

请参阅图2，是本发明提供的语音获取方法的第二实施例流程示意图。如图2所示，本发明提供的语音获取方法包括：

S201：音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号，并获取设于用户耳外的第三麦克风采集的第三音频信号。

在一个具体的实施场景中，该音频设备包括设于用户耳道内的第一麦克风以及位于用于耳外的第三麦克风，用户在说话时，语音会随着声带的震动通过骨传导传到耳道内，而被自己听见。这时，设置在用户耳道内的第一麦克风就可以获取耳道内的第一音频信号。而且，用户说话的语音会通过空气传播给位于耳外的第三麦克风，第三麦克风同时还会采集当前环境的背景噪音。因此，在用户说话时，该第一音频信号包括用户说话的声音，第三音频包括用户说话的语音和背景噪音。

在本实施场景中，音频设备可以是耳机，第一麦克风可以位于耳机处于用户耳道内的一端，第三麦克风可以位于靠近用户嘴边的一端。

S202：所述音频设备根据所述第一音频信号和所述第三音频信号之间的差异情况，判断所述第一音频信号是否包括用户说话的语音音频信号。

在一个具体的实施场景中，比较第一音频信号和第三音频信号之间的强度差，因为第一音频信号和第三音频信号可能均包括用户说话的语音，因此，当用户开始说话时，第一音频信号和第三音频信号的音量近似相等。在本实施场景中，音频设备是耳机，因此当用户佩戴耳机的时候，耳机可以较好的将外界与用户的耳道隔绝开，从而外界的噪音很难传递到用户的耳道内，或者传递到耳道内的噪音音量较小。从而在用户不处于说话状态时，对应于耳道内声音的第一音频音量较低，但是第三麦克风位于用户的耳外，可以采集到外界的背景噪音，所以当用户不说话时，第三音频信号的音量强度远大于第一音频信号的音量强度。因此，当第一音频信号和第三音频信号之间的强度差大于等于预设的第二阈值时，第一音频信号中不包括用户说话的语音音频信号，用户不处于说话状态，而当第一音频信号和第三音频信号之间的强度差小于预设的第二阈值时，第一音频信号中包括用户说话的语音音频信号，用户处于说话状态。

在其他实施场景中，人的发声频率在100Hz(男低音)到10000Hz(女高音)范围，正常人能够听见20Hz到20000Hz的声音，为了进一步确保判断的准确性，可以设定对比第一音频信号和第三音频信号中指定频率(例如，100Hz-10000Hz)的音频信号之间的强度差。当第一音频信号和第三音频信号中设定频率信号之间的强度差大于等于预设的第二阈值时，表示用户不处于说话状态，而当第一音频信号和第三音频信号指定频率的音频之间的强度差小于预设的第二阈值时，表示用户处于说话状态。

在另一个具体的实施场景中，还可以是比对第一音频信号和第三音频信号的波形，当用户处于说话状态时，在背景噪音音量较小的情况下，两者波形应该近似，可以设置一个预设阈值。例如75％，当第一音频信号和第三音频信号中波形相同的部分大于等于75％时，可以判断用户处于说话状态。在其他实施场景中，预设阈值还可以是大于50％的任何数值。通过上述描述可知，本实施例通过对比耳道内的音量和耳道外的音量大小或者音频信号的波形来判断是否包括用户说话的语音音频信号，从而确定用户是否处于说话状态，若用户处于说话状态，则将采集到的用户语音进行降噪处理，若用户不处于说话状态，则不获取当前的音频。这样可以有效避免在获取用户通话时获取较多的噪音，提升了获取的语音的质量。

请参阅图3，图3是本发明提供的语音获取方法的第三实施例的流程示意图。

S301：音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号和/或获取设于用户耳外的第三麦克风采集的第三音频信号。

在本实施场景中，音频设备获取第一麦克风采集的第一音频信号和第三麦克风采集的第三音频信号。在其他实施场景中，音频设备还可以获取第一音频信号和第三音频信号中的任一个。

S302：所述音频设备判断所述第一音频信号的总强度或所述第一音频信号中设定频率信号的强度是否大于或等于第一阈值，生成第一判断结果。在一个具体的实施场景中，先预设一个第一阈值，将第一音频信号的总强度与第一阈值进行对比，生成第一判断结果，当第一判断结果为第一音频信号的总强度大于等于该第一阈值时，可以判断用户处于说话的状态，而当第一判断结果为第一音频信号的音量低于该第一阈值时，则可以判断用户不处于说话状态。

S303：当所述第二麦克风处于收音模式时，所述音频设备从所述第一音频信号和/或所述第三音频信号中提取处于设定频率范围的第四音频信号。

在一个具体的实施场景中，第二麦克风已经处于收音模式，接收包括用户说话的音频的第二音频信号，而此时需要判断用户是否已经停止说话，因为，若用户停止说话的话，需要将第二麦克风转为静音模式，以免将背景噪音传输出去。音频设备从第一音频信号和第三音频信号中提取处于设定频率范围(例如，100Hz-10000Hz)的第四音频信号。在其他实施场景中，音频设备还可以仅从第一音频信号或第三音频信号中提取第四音频信号。

S304：所述音频设备判断所述第四音频信号和所述第二麦克风采集的第二音频信号之间的强度差是否大于等于第三阈值，生成第二判断结果。

在一个具体的实施场景中，将第四音频信号和第二麦克风采集的第二音频信号进行对比，因为当用户处于说话状态时，从第一音频信号和第三音频信号中提取的第四音频信号和第二音频信号都是对应于用户说话的语音，因此两者之间的音量强度之差较小。当两者之间的音量强度之差小于预设的第三阈值，则用户处于说话状态，当两者之间的音量强度之差大于等于预设的第三阈值，则用户不处于说话状态。

S305：所述音频设备根据所述第一判断结果和所述第二判断结果确定判断所述第一音频信号是否包括用户说话的语音音频信号。

最后将根据第一音频信号判断出的结果与根据第四音频信号和第二信号判断的结果进行对比。如果两者结果相同，则根据判断的结果直接执行对应的操作，如果两者结果不相同，则重新获取音频信号，根据新获取的音频信号进行判断，再次对比判断的结果，一直到两者结果相同为止。如果反复多次仍然不能得到相同的结果，当大于等于预设次数(例如，5次)，可以向用户发出警报(例如，指示灯闪烁或变换颜色，发出警报声等)通知用户当前耳机出现故障。在另一个具体的实施场景中，还可以是比对第四音频信号和第二音频信号的波形，当用户处于说话状态时，在背景噪音音量较小的情况下，两者波形应该近似，可以设置一个预设阈值。例如75％，当第一音频信号和第三音频信号中波形相同的部分大于等于75％时，可以判断用户处于说话状态。在其他实施场景中，预设阈值还可以是大于50％的任何数值。

在其他实施场景中，也可以仅执行步骤S303-S304，通过第二判断结果直接判断第一音频信号中是否包括用户说话的语音音频信号，因为第四音频信号是由第一音频信号中提取的，因此，若第四音频与第二音频之间的差距小于第三阈值，则可以判定第四音频中包括用户说话的语音音频，从而可以判定第一音频和/或第三音频中包括用户说话的语音音频。

通过上述描述可知，本实施例中在第二麦克风处于收音模式时，通过将第二麦克风获取的第二音频信号与从第一麦克风和/或第三麦克风获取的第一音频信号和/或第三音频信号中提取的处于设定频率的第四音频信号进行对比，判断两者的强度只差是否大于第三阈值，并结合与对第一音频信号的强度是否大于或等于第一阈值的第一判断结果进行对比，可以在第二麦克风处于收音模式时，准确判断第一音频信号中是否包括用户说话的语音音频信号，从而对第二麦克风执行相应的操作，可以在用户没有说话时，及时将第二麦克风转为静音模式，从而避免传递噪音给语音接收方，提高了通话质量。

上述实施例的语音获取方法可以在用户处于语音通信状态时执行，例如在通话或者微信语音状态时，执行上述实施例的方法。

请参阅图4，图4是本发明提供的音频设备的第一实施例的结构示意图，如图4所示，音频设备10包括处理器11、第一麦克风12和第二麦克风13，处理器11耦接第一麦克风12和第二麦克风13。其中第一麦克风12设置于用户的耳道内，用于收集用户耳道内的声音，即第一音频，第二麦克风13用于收集用户说话的语音，即第二音频。

在一个具体的实施场景中，处理器11分别控制第一麦克风12和第二麦克风13采集用户耳道内的第一音频和用户说话的第二音频，处理器11根据第一音频判断是否包括用户说话的语音音频信号，从而确定用户是否处于说话状态，当用户处于说话状态时，处理器11将第二麦克风13调整为收音模式，如果用户不处于说话状态，则处理器11将第二麦克风13调整为静音模式。

其中，处理器11实现上述功能的具体过程可参阅本发明提供的语音获取方法的第一实施例。

通过上述描述可知，本实施例通过根据耳道内的声音的音量高低来判断是否包括用户说话的语音音频信号。若用户处于说话状态，则采集到用户语音并进行降噪处理，若用户不处于说话状态，则不采集当前的音频。这样可以有效避免在获取用户语音时获取噪音，提升获取的用户语音的质量。

请参阅图5，图5是本发明提供的音频设备的第二实施例的结构示意图。如图5所示，音频设备20包括处理器21、第一麦克风22、第二麦克风23和第三麦克风24，处理器21耦接第一麦克风22、第二麦克风23和第三麦克风24。其中第一麦克风22设置于用户的耳道内，用于收集用户耳道内的声音，即第一音频，第三麦克风24设置于用户耳外，用于收集用户耳外的声音，即第三音频，第二麦克风23用于收集用户说话的语音，即第二音频。

在一个具体的实施场景中，处理器21分别控制第一麦克风22和第三麦克风24采集第一音频和第三音频，处理器21根据第一音频信号和第三音频信号之间的差异情况，判断是否包括用户说话的语音音频信号。当第一音频信号和第三音频信号的音量和/或音频波形相似时，处理器21判断用户处于说话状态。当第一音频信号和第三音频信号的音量和/或音频波形差距很大时，处理器21判断用户不处于说话状态。

在另一个具体的实施场景中，处理器21根据第一音频信号和第三音频信号中指定频率(例如，100Hz-10000Hz)的音频信号的音量和/或音频波形之间的差异情况，判断是否包括用户说话的语音音频信号。

在又一个具体的实施场景中，处理器21分别控制第一麦克风22、第二麦克风23和第三麦克风24采集第一音频、第二音频和第三音频，处理器21从第一音频信号和/或第三音频信号中提取处于设定频率范围(例如，100Hz-10000Hz)的第四音频信号，将第四音频信号和第二音频信号的音量和/或音频波形进行对比。当第四音频信号和第二音频信号差距较小时，处理器21判断用户处于说话状态。当第四音频信号和第二音频信号差距较大时，处理器21判断用户不处于说话状态。

其中，处理器21实现上述功能的具体过程可参阅本发明提供的语音获取方法的第二实施例。

在本实施场景中，音频设备20为耳机，第一麦克风22和第三麦克风24分别设于音频设备20的左右耳筒上。

通过上述描述可知，本实施例通过对比耳道内的音量和耳道外的音量大小或者音频信号的波形来判断是否包括用户说话的语音音频信号，若用户处于说话状态，则采集用户语音并进行降噪处理方，若用户不处于说话状态，则不采集当前的音频。这样可以有效提升获取的语音的质量。

请参阅图6，图6是本发明中具有存储功能的装置的结构示意图。具有存储功能的装置30中存储有至少一个程序数据31，程序数据31用于执行如图1至图3所示的语音获取的方法。在一个实施例中，具有存储功能的装置可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，本实施例中的具有存储功能的装置实施例中存储的程序或指令可以用于避免在用户不处于说话状态时，将噪音传输给采集方，可以有效提高用户通话时的使用体验。

区别于现有技术，本发明通过判断是否包括用户说话的语音音频信号，而控制采集用户语音的麦克风处于静音模式或者收音模式，从而避免了在用户没有说话的时候，将背景噪音误获取为用户的语音，这样可以降低噪音对用户语音的影响，有效提高获取用户语音的准确性，故可在语音通信时避免将噪音传输给采集方，进而能够提升语音通信质量，大大改善了用户的使用体验。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音获取方法，其特征在于，包括：

音频设备获取设于用户耳道内的第一麦克风采集的第一音频信号；

所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号；

当所述第一音频信号包括用户说话的语音音频信号时，则所述音频设备将第二麦克风调整为收音模式，其中，所述第二麦克风位于用户耳道外侧，用于获取通过空气传播的用户说话的语音音频信号；

当所述第一音频信号不包括用户说话的语音音频信号时，则所述音频设备将所述第二麦克风调整为静音模式；

其中，所述静音模式为关闭所述第二麦克风或将所述第二麦克风采集的第二音频信号作为无效信号，所述收音模式为开启所述第二麦克风或将所述第二麦克风采集的所述第二音频信号作为有效信号。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述音频设备在所述第二麦克风处于收音模式时，对所述第二麦克风采集到的所述第二音频信号进行降噪。

3.根据权利要求1所述的方法，其特征在于，所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号，包括：

所述音频设备判断所述第一音频信号的总强度或所述第一音频信号中设定频率信号的强度是否大于或等于第一阈值，生成第一判断结果，所述第一音频信号中设定频率信号对应用户说话的语音音频信号的频率；

如果所述第一判断结果为大于或等于，则所述音频设备确定所述第一音频信号包括用户说话的所述语音音频信号，如果所述第一判断结果为小于，则所述音频设备确定所述第一音频信号不包括用户说话的所述语音音频信号。

4.根据权利要求3所述的方法，其特征在于，所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号之前，所述方法进一步包括：

所述音频设备获取设于用户耳外的第三麦克风采集的第三音频信号，所述第三音频信号包括：环境噪音和用户语音中的至少一种；

所述音频设备判断所述第一音频信号中是否包括用户说话的语音音频信号，包括：

所述音频设备根据所述第一音频信号和所述第三音频信号之间的差异情况，判断所述第一音频信号是否包括用户说话的语音音频信号。

5.根据权利要求4所述的方法，其特征在于，所述音频设备根据所述第一音频信号和所述第三音频信号之间的差异情况，判断所述第一音频信号是否包括用户说话的语音音频信号，包括：

所述音频设备比较所述第一音频信号和所述第三音频信号之间的强度差或所述第一音频信号和所述第三音频信号中的设定频率信号之间的强度差；

如果所述强度差小于第二阈值，则确定所述第一音频信号包括用户说话的语音音频信号，如果所述强度差大于或等于所述第二阈值，则确定所述第一音频信号不包括用户说话的语音音频信号，所述第三音频信号中的设定频率信号对应用户说话的语音音频信号的频率。

6.根据权利要求4所述的方法，其特征在于，所述音频设备判断所述第一音频信号是否包括用户说话的语音音频信号，还包括：

当所述第二麦克风处于收音模式时，所述音频设备从所述第一音频信号和/或所述第三音频信号中提取处于设定频率范围的第四音频信号；

所述音频设备判断所述第四音频信号和所述第二麦克风采集的第二音频信号之间的强度差是否大于等于第三阈值，生成第二判断结果；

如果所述第二判断结果为小于，则所述第一音频信号包括用户说话的语音音频信号；

如果所述第二判断结果为大于或等于，则所述第一音频信号不包括用户说话的语音音频信号；

所述音频设备根据所述第一判断结果和所述第二判断结果确定判断所述第一音频信号是否包括用户说话的语音音频信号。

7.根据权利要求1所述的方法，其特征在于，

所述第一音频信号包括：用户耳道内声音和用户语音中的至少一种；

所述第二音频信号包括：环境噪音和用户语音中的至少一种。

8.一种音频设备，其特征在于，包括用于设于用户耳道内的第一麦克风、用于获取用户语音的第二麦克风和处理器，所述处理器耦接所述第一麦克风和所述第二麦克风，用于实现如权利要求1-7任一项所述的方法。

9.根据权利要求8所述的音频设备，其特征在于，还包括用于设于用户耳外的第三麦克风，所述第三麦克风耦接所述处理器；

所述音频设备为耳机。

10.一种具有存储功能的装置，其特征在于，存储有程序数据，所述程序数据能够被执行以实现如权利要求1-7任一项所述方法中的步骤。