发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种设备播放音量的智能调节方法和相应的一种设备播放音量的智能调节***。
为了解决上述问题,本发明实施例公开了一种设备播放音量的智能调节方法,所述方法包括:
截取所述设备正在播放的音频,并同时采集环境声音;
将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
判断所述外部环境声音是否包含人声;
若是,判断所述人声是否包含与预设指令匹配的语句;
若是,则执行所述预设指令对应的操作;
若否,则降低所述设备的播放音量。
可选地,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值的步骤包括:
对所述音频进行傅里叶变换,得到第一实时频谱数据;
对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断所述相似度是否低于预设阈值。
可选地,将所述环境声音中所述音频的声音过滤掉,得到外部环境声音的步骤包括:
将所述音频进行180度反转相位处理,得到反相音频;
采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
可选地,判断所述外部环境声音是否包含人声的步骤包括:
建立人声识别初始神经网络模型;
获取多组人声样本以及多组非人声样本;
使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
可选地,所述降低音频播放音量的步骤之后,还包括:
判断所述外部环境声音是否包含人声;
若否,则恢复所述音频的播放音量。
本发明实施例还公开了一种设备播放音量的智能调节***,所述***包括:
声音采集模块,用于截取所述设备正在播放的音频,并同时采集环境声音;
相似度对比模块,用于将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
外部环境声音提取模块,用于若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
人声判断模块,用于判断所述外部环境声音是否包含人声;
预设指令匹配模块,用于若是,判断所述人声是否包含与预设指令匹配的语句;
操作执行模块,用于若是,则执行所述预设指令对应的操作;
播放音量降低模块,用于若否,则降低所述设备的播放音量。
可选地,相似度对比模块包括:
第一实时频谱数据生成子模块,用于对所述音频进行傅里叶变换,得到第一实时频谱数据;
第二实时频谱数据生成子模块,用于对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
相似度对比子模块,用于将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断子模块,用于判断所述相似度是否低于预设阈值。
可选地,所述外部环境声音提取模块包括:
反相音频生成子模块,用于将所述音频进行180度反转相位处理,得到反相音频;
外部环境声音生成子模块,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
可选地,所述人声判断模块包括:
人声识别初始神经网络模型建立子模块,用于建立人声识别初始神经网络模型;
样本获取子模块,用于获取多组人声样本以及多组非人声样本;
人声识别神经网络模型生成子模块,用于使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
人声判断子模块,用于将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
本发明实施例包括以下优点:本发明截取所述设备正在播放的音频,并同时采集环境声音,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音,判断所述外部环境声音是否包含人声,若是,判断所述人声是否包含与预设指令匹配的语句,若是,则执行所述预设指令对应的操作,若否,则降低所述设备的播放音量,从而实现了当播放设备所在的环境有人交谈时,无须用户主动调节,便能自动降低所述设备的播放音量。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种设备播放音量的智能调节方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,截取所述设备正在播放的音频,并同时采集环境声音;
所述音频可以为正在播放的音乐音频,也可以为正在播放的视频中的音频等。本发明实施例中,首先,实时截取一段正在播放的音频,具体可以根据播放设备***中的正在播放的音频文件以及最新的播放进度,截取最新播放的一段音频,例如,智能音箱正在播放音乐,截取该音乐最新播放的两秒音频。
另外,在截取音频的同时,采集同样时间长度的环境声音,所述环境声音为播放设备所处的环境中的所有声音。在音频正在播放的同时,可以通过拾音器或者麦克风采集环境声音,由于音频正在播放当中,因此环境声音包含正在播放的音频的声音。
步骤102,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
在采集了环境声音后,将所述音频与所述环境声音进行相似度对比。其中,若音频与所述环境声音高度相似,意味着播放设备所处的整个环境只有音频的声音,没有别的声音,而当音频与环境声音相似度较低时,意味着播放设备所处的整个环境不仅有音频的声音,还掺杂着别的声音,即外部环境声音。
具体的,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值的步骤包括:
子步骤1021,对所述音频进行傅里叶变换,得到第一实时频谱数据;
在本发明的实施例中,将音频进行傅里叶变换,得到第一实时频谱数据,所述第一实时频谱数据能够反映音频中的声音频率与对应幅度信息。
子步骤1022,对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
同样的,对环境声音进行傅里叶变换,得到第二实时频谱数据,所述第二实时频谱数据能够反映环境声音频率与对应幅度信息。
子步骤1023,将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
具体的,将第一实时频谱数据中的频率与对应幅度信息与所述第二实时频谱数据进行一一比较,并且进行相似度的计算。
子步骤1024,判断所述相似度是否低于预设阈值。
所述预设阈值为技术人员根据实际需要自行设定,例如,预设阈值设定为百分之90,当相似度高于百分之90时,则可认为播放设备所处的环境的所有声音基本上为正在播放的音频的声音,当相似度低于百分之90时,则可认为播放设备所处的环境的声音除了包含播放的音频的声音之外,还具有其他声音,即外部环境声音。
步骤103,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
当检测出环境声音不仅包含音频,还可能具有外部环境声音时,从所述环境声音中提取出外部环境声音。
具体的,将所述环境声音中所述音频的声音过滤掉,得到外部环境声音的步骤包括:
子步骤1031,将所述音频进行180度反转相位处理,得到反相音频;
子步骤1032,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
在本发明实施例中,将所述音频进行180度反转相位处理,得到反相音频。反相音频的频谱与音频相同,相位相反,因此,采用反相音频与所述环境声音进行叠加处理,使得音频与环境声音中的音频相抵消,得到外部环境声音。
步骤104,判断所述外部环境声音是否包含人声;
判断所述外部环境声音是否包含人声的步骤包括:
子步骤1041,建立人声识别初始神经网络模型;
子步骤1042,获取多组人声样本以及多组非人声样本;
子步骤1043,使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
子步骤1044,将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
步骤105,若是,判断所述人声是否包含与预设指令匹配的语句;
步骤106,若是,则执行所述预设指令对应的操作;
从所述外部环境声音中识别出人声后,判断所述人声中是否包含与预设指令相匹配的语句,若分析到人声中与“停止播放”的预设指令相匹配的语句,则执行停止播放的操作。
步骤107,若否,则降低所述设备的播放音量。
判断所述人声中并没有包含与预设指令相匹配的语句,那么便可认为环境中的人正在聊天或者打电话,因此,自动降低所述设备的播放音量,降低音频播放声音对交流的影响。
在本发明实施例中,所述降低音频播放音量的步骤之后,还包括:
判断所述外部环境声音是否包含人声;
若否,则恢复所述音频的播放音量。
在自动降低音频播放音量之后,持续判断所述外部环境声音是否包含人声,若否,则可认为当前环境没有人在聊天或者打电话,因此自动恢复音频的播放音量。
在本发明实施例中,截取所述设备正在播放的音频,并同时采集环境声音,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音,判断所述外部环境声音是否包含人声,若是,判断所述人声是否包含与预设指令匹配的语句,若是,则执行所述预设指令对应的操作,若否,则降低所述设备的播放音量,从而实现了当播放设备所在的环境有人说话时,无须用户主动调节,便能自动降低所述设备的播放音量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明的一种设备播放音量的智能调节***实施例一的结构框图,具体可以包括如下模块:
声音采集模块201,用于截取所述设备正在播放的音频,并同时采集环境声音;
相似度对比模块202,用于将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
外部环境声音提取模块203,用于若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
人声判断模块204,用于判断所述外部环境声音是否包含人声;
预设指令匹配模块205,用于若是,判断所述人声是否包含与预设指令匹配的语句;
操作执行模块206,用于若是,则执行所述预设指令对应的操作;
播放音量降低模块207,用于若否,则降低所述设备的播放音量。
在本发明实施例中,所述相似度对比模块包括:
第一实时频谱数据生成子模块,用于对所述音频进行傅里叶变换,得到第一实时频谱数据;
第二实时频谱数据生成子模块,用于对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
相似度对比子模块,用于将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断子模块,用于判断所述相似度是否低于预设阈值。
在本发明实施例中,所述外部环境声音提取模块包括:
反相音频生成子模块,用于将所述音频进行180度反转相位处理,得到反相音频;
外部环境声音生成子模块,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
在本发明实施例中,所述人声判断模块包括:
人声识别初始神经网络模型建立子模块,用于建立人声识别初始神经网络模型;
样本获取子模块,用于获取多组人声样本以及多组非人声样本;
人声识别神经网络模型生成子模块,用于使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
人声判断子模块,用于将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种装置,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种设备播放音量的智能调节方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述一种设备播放音量的智能调节方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种设备播放音量的智能调节方法和一种设备播放音量的智能调节***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。