CN113380244A - 一种设备播放音量的智能调节方法和*** - Google Patents

一种设备播放音量的智能调节方法和*** Download PDF

Info

Publication number
CN113380244A
CN113380244A CN202110594282.2A CN202110594282A CN113380244A CN 113380244 A CN113380244 A CN 113380244A CN 202110594282 A CN202110594282 A CN 202110594282A CN 113380244 A CN113380244 A CN 113380244A
Authority
CN
China
Prior art keywords
audio
sound
voice
similarity
external environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110594282.2A
Other languages
English (en)
Inventor
黄昌正
周言明
陈曦
黄庆麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Yilian Interation Information Technology Co ltd
Guangzhou Huanjing Technology Co ltd
Mirage Virtual Reality Guangzhou Intelligent Technology Research Institute Co ltd
Original Assignee
Dongguan Yilian Interation Information Technology Co ltd
Guangzhou Huanjing Technology Co ltd
Mirage Virtual Reality Guangzhou Intelligent Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Yilian Interation Information Technology Co ltd, Guangzhou Huanjing Technology Co ltd, Mirage Virtual Reality Guangzhou Intelligent Technology Research Institute Co ltd filed Critical Dongguan Yilian Interation Information Technology Co ltd
Priority to CN202110594282.2A priority Critical patent/CN113380244A/zh
Publication of CN113380244A publication Critical patent/CN113380244A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例提供了一种设备播放音量的智能调节方法和***。所述方法包括:截取所述设备正在播放的音频,并同时采集环境声音,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音,判断所述外部环境声音是否包含人声,若是,判断所述人声是否包含与预设指令匹配的语句,若是,则执行所述预设指令对应的操作,若否,则降低所述设备的播放音量,本发明实现了当播放设备所在的环境有人交谈时,无须用户主动调节,便能自动降低所述设备的播放音量。

Description

一种设备播放音量的智能调节方法和***
技术领域
本发明涉及音量调节技术领域,特别是涉及一种设备播放音量的智能调节方法和***。
背景技术
现有的播放设备的音量调节方法主要有三种,第一种调节方法为调节播放设备上的调节旋钮进行音量的调节,此方法需要用户走到播放设备前进行调节,第二种调节方法为使用遥控器进行调节,当遥控器遗失时,不能及时地进行音量调节,第三种调节方法为根据用户语音进行调节,由用户说出控制的指令,播放设备进行语音识别后执行相应的操作。上述三种音量的调节方法均需要用户主动操作实现音量的调节,并不方便。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种设备播放音量的智能调节方法和相应的一种设备播放音量的智能调节***。
为了解决上述问题,本发明实施例公开了一种设备播放音量的智能调节方法,所述方法包括:
截取所述设备正在播放的音频,并同时采集环境声音;
将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
判断所述外部环境声音是否包含人声;
若是,判断所述人声是否包含与预设指令匹配的语句;
若是,则执行所述预设指令对应的操作;
若否,则降低所述设备的播放音量。
可选地,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值的步骤包括:
对所述音频进行傅里叶变换,得到第一实时频谱数据;
对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断所述相似度是否低于预设阈值。
可选地,将所述环境声音中所述音频的声音过滤掉,得到外部环境声音的步骤包括:
将所述音频进行180度反转相位处理,得到反相音频;
采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
可选地,判断所述外部环境声音是否包含人声的步骤包括:
建立人声识别初始神经网络模型;
获取多组人声样本以及多组非人声样本;
使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
可选地,所述降低音频播放音量的步骤之后,还包括:
判断所述外部环境声音是否包含人声;
若否,则恢复所述音频的播放音量。
本发明实施例还公开了一种设备播放音量的智能调节***,所述***包括:
声音采集模块,用于截取所述设备正在播放的音频,并同时采集环境声音;
相似度对比模块,用于将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
外部环境声音提取模块,用于若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
人声判断模块,用于判断所述外部环境声音是否包含人声;
预设指令匹配模块,用于若是,判断所述人声是否包含与预设指令匹配的语句;
操作执行模块,用于若是,则执行所述预设指令对应的操作;
播放音量降低模块,用于若否,则降低所述设备的播放音量。
可选地,相似度对比模块包括:
第一实时频谱数据生成子模块,用于对所述音频进行傅里叶变换,得到第一实时频谱数据;
第二实时频谱数据生成子模块,用于对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
相似度对比子模块,用于将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断子模块,用于判断所述相似度是否低于预设阈值。
可选地,所述外部环境声音提取模块包括:
反相音频生成子模块,用于将所述音频进行180度反转相位处理,得到反相音频;
外部环境声音生成子模块,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
可选地,所述人声判断模块包括:
人声识别初始神经网络模型建立子模块,用于建立人声识别初始神经网络模型;
样本获取子模块,用于获取多组人声样本以及多组非人声样本;
人声识别神经网络模型生成子模块,用于使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
人声判断子模块,用于将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
本发明实施例包括以下优点:本发明截取所述设备正在播放的音频,并同时采集环境声音,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音,判断所述外部环境声音是否包含人声,若是,判断所述人声是否包含与预设指令匹配的语句,若是,则执行所述预设指令对应的操作,若否,则降低所述设备的播放音量,从而实现了当播放设备所在的环境有人交谈时,无须用户主动调节,便能自动降低所述设备的播放音量。
附图说明
图1是本发明的一种设备播放音量的智能调节方法实施例一的步骤流程图。
图2是本发明的一种设备播放音量的智能调节***实施例一的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种设备播放音量的智能调节方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,截取所述设备正在播放的音频,并同时采集环境声音;
所述音频可以为正在播放的音乐音频,也可以为正在播放的视频中的音频等。本发明实施例中,首先,实时截取一段正在播放的音频,具体可以根据播放设备***中的正在播放的音频文件以及最新的播放进度,截取最新播放的一段音频,例如,智能音箱正在播放音乐,截取该音乐最新播放的两秒音频。
另外,在截取音频的同时,采集同样时间长度的环境声音,所述环境声音为播放设备所处的环境中的所有声音。在音频正在播放的同时,可以通过拾音器或者麦克风采集环境声音,由于音频正在播放当中,因此环境声音包含正在播放的音频的声音。
步骤102,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
在采集了环境声音后,将所述音频与所述环境声音进行相似度对比。其中,若音频与所述环境声音高度相似,意味着播放设备所处的整个环境只有音频的声音,没有别的声音,而当音频与环境声音相似度较低时,意味着播放设备所处的整个环境不仅有音频的声音,还掺杂着别的声音,即外部环境声音。
具体的,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值的步骤包括:
子步骤1021,对所述音频进行傅里叶变换,得到第一实时频谱数据;
在本发明的实施例中,将音频进行傅里叶变换,得到第一实时频谱数据,所述第一实时频谱数据能够反映音频中的声音频率与对应幅度信息。
子步骤1022,对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
同样的,对环境声音进行傅里叶变换,得到第二实时频谱数据,所述第二实时频谱数据能够反映环境声音频率与对应幅度信息。
子步骤1023,将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
具体的,将第一实时频谱数据中的频率与对应幅度信息与所述第二实时频谱数据进行一一比较,并且进行相似度的计算。
子步骤1024,判断所述相似度是否低于预设阈值。
所述预设阈值为技术人员根据实际需要自行设定,例如,预设阈值设定为百分之90,当相似度高于百分之90时,则可认为播放设备所处的环境的所有声音基本上为正在播放的音频的声音,当相似度低于百分之90时,则可认为播放设备所处的环境的声音除了包含播放的音频的声音之外,还具有其他声音,即外部环境声音。
步骤103,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
当检测出环境声音不仅包含音频,还可能具有外部环境声音时,从所述环境声音中提取出外部环境声音。
具体的,将所述环境声音中所述音频的声音过滤掉,得到外部环境声音的步骤包括:
子步骤1031,将所述音频进行180度反转相位处理,得到反相音频;
子步骤1032,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
在本发明实施例中,将所述音频进行180度反转相位处理,得到反相音频。反相音频的频谱与音频相同,相位相反,因此,采用反相音频与所述环境声音进行叠加处理,使得音频与环境声音中的音频相抵消,得到外部环境声音。
步骤104,判断所述外部环境声音是否包含人声;
判断所述外部环境声音是否包含人声的步骤包括:
子步骤1041,建立人声识别初始神经网络模型;
子步骤1042,获取多组人声样本以及多组非人声样本;
子步骤1043,使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
子步骤1044,将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
步骤105,若是,判断所述人声是否包含与预设指令匹配的语句;
步骤106,若是,则执行所述预设指令对应的操作;
从所述外部环境声音中识别出人声后,判断所述人声中是否包含与预设指令相匹配的语句,若分析到人声中与“停止播放”的预设指令相匹配的语句,则执行停止播放的操作。
步骤107,若否,则降低所述设备的播放音量。
判断所述人声中并没有包含与预设指令相匹配的语句,那么便可认为环境中的人正在聊天或者打电话,因此,自动降低所述设备的播放音量,降低音频播放声音对交流的影响。
在本发明实施例中,所述降低音频播放音量的步骤之后,还包括:
判断所述外部环境声音是否包含人声;
若否,则恢复所述音频的播放音量。
在自动降低音频播放音量之后,持续判断所述外部环境声音是否包含人声,若否,则可认为当前环境没有人在聊天或者打电话,因此自动恢复音频的播放音量。
在本发明实施例中,截取所述设备正在播放的音频,并同时采集环境声音,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值,若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音,判断所述外部环境声音是否包含人声,若是,判断所述人声是否包含与预设指令匹配的语句,若是,则执行所述预设指令对应的操作,若否,则降低所述设备的播放音量,从而实现了当播放设备所在的环境有人说话时,无须用户主动调节,便能自动降低所述设备的播放音量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明的一种设备播放音量的智能调节***实施例一的结构框图,具体可以包括如下模块:
声音采集模块201,用于截取所述设备正在播放的音频,并同时采集环境声音;
相似度对比模块202,用于将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
外部环境声音提取模块203,用于若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
人声判断模块204,用于判断所述外部环境声音是否包含人声;
预设指令匹配模块205,用于若是,判断所述人声是否包含与预设指令匹配的语句;
操作执行模块206,用于若是,则执行所述预设指令对应的操作;
播放音量降低模块207,用于若否,则降低所述设备的播放音量。
在本发明实施例中,所述相似度对比模块包括:
第一实时频谱数据生成子模块,用于对所述音频进行傅里叶变换,得到第一实时频谱数据;
第二实时频谱数据生成子模块,用于对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
相似度对比子模块,用于将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断子模块,用于判断所述相似度是否低于预设阈值。
在本发明实施例中,所述外部环境声音提取模块包括:
反相音频生成子模块,用于将所述音频进行180度反转相位处理,得到反相音频;
外部环境声音生成子模块,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
在本发明实施例中,所述人声判断模块包括:
人声识别初始神经网络模型建立子模块,用于建立人声识别初始神经网络模型;
样本获取子模块,用于获取多组人声样本以及多组非人声样本;
人声识别神经网络模型生成子模块,用于使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
人声判断子模块,用于将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种装置,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种设备播放音量的智能调节方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述一种设备播放音量的智能调节方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种设备播放音量的智能调节方法和一种设备播放音量的智能调节***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种设备播放音量的智能调节方法,其特征在于,所述方法包括:
截取所述设备正在播放的音频,并同时采集环境声音;
将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
判断所述外部环境声音是否包含人声;
若是,则判断所述人声是否包含与预设指令匹配的语句;
若是,则执行所述预设指令对应的操作;
若否,则降低所述设备的播放音量。
2.根据权利要求1所述的方法,其特征在于,将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值的步骤包括:
对所述音频进行傅里叶变换,得到第一实时频谱数据;
对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断所述相似度是否低于预设阈值。
3.根据权利要求1所述的方法,其特征在于,将所述环境声音中所述音频的声音过滤掉,得到外部环境声音的步骤包括:
将所述音频进行180度反转相位处理,得到反相音频;
采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
4.根据权利要求1所述的方法,其特征在于,判断所述外部环境声音是否包含人声的步骤包括:
建立人声识别初始神经网络模型;
获取多组人声样本以及多组非人声样本;
使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
5.根据权利要求1所述的方法,其特征在于,所述降低音频播放音量的步骤之后,还包括:
判断所述外部环境声音是否包含人声;
若否,则恢复所述音频的播放音量。
6.一种设备播放音量的智能调节***,其特征在于,所述***包括:
声音采集模块,用于截取所述设备正在播放的音频,并同时采集环境声音;
相似度对比模块,用于将所述音频与所述环境声音进行相似度对比,判断所述相似度是否低于预设阈值;
外部环境声音提取模块,用于若是,则将所述环境声音中所述音频的声音过滤掉,得到外部环境声音;
人声判断模块,用于判断所述外部环境声音是否包含人声;
预设指令匹配模块,用于若是,判断所述人声是否包含与预设指令匹配的语句;
操作执行模块,用于若是,则执行所述预设指令对应的操作;
播放音量降低模块,用于若否,则降低所述设备的播放音量。
7.根据权利要求6所述的***,其特征在于,所述相似度对比模块包括:
第一实时频谱数据生成子模块,用于对所述音频进行傅里叶变换,得到第一实时频谱数据;
第二实时频谱数据生成子模块,用于对所述环境声音进行傅里叶变换,得到第二实时频谱数据;
相似度对比子模块,用于将所述第一实时频谱数据与所述第二实时频谱数据进行相似度对比;
判断子模块,用于判断所述相似度是否低于预设阈值。
8.根据权利要求6所述的***,其特征在于,所述外部环境声音提取模块包括:
反相音频生成子模块,用于将所述音频进行180度反转相位处理,得到反相音频;
外部环境声音生成子模块,采用反相音频与所述环境声音进行叠加处理,得到外部环境声音。
9.根据权利要求6所述的***,其特征在于,所述人声判断模块包括:
人声识别初始神经网络模型建立子模块,用于建立人声识别初始神经网络模型;
样本获取子模块,用于获取多组人声样本以及多组非人声样本;
人声识别神经网络模型生成子模块,用于使用所述多组人声样本以及多组非人声样本训练所述人声识别初始神经网络模型,得到人声识别神经网络模型;
人声判断子模块,用于将所述外部环境声音输入到所述人声识别神经网络模型中,所述人声识别神经网络模型判断所述外部环境声音是否包含人声。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种设备播放音量的智能调节的步骤。
CN202110594282.2A 2021-05-28 2021-05-28 一种设备播放音量的智能调节方法和*** Pending CN113380244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594282.2A CN113380244A (zh) 2021-05-28 2021-05-28 一种设备播放音量的智能调节方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594282.2A CN113380244A (zh) 2021-05-28 2021-05-28 一种设备播放音量的智能调节方法和***

Publications (1)

Publication Number Publication Date
CN113380244A true CN113380244A (zh) 2021-09-10

Family

ID=77574780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594282.2A Pending CN113380244A (zh) 2021-05-28 2021-05-28 一种设备播放音量的智能调节方法和***

Country Status (1)

Country Link
CN (1) CN113380244A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220427A (zh) * 2021-10-29 2022-03-22 深圳市锐明技术股份有限公司 口呼指令的识别方法、装置、终端设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103945062A (zh) * 2014-04-16 2014-07-23 华为技术有限公司 一种用户终端的音量调节方法、装置及终端
US20150171813A1 (en) * 2013-12-12 2015-06-18 Aliphcom Compensation for ambient sound signals to facilitate adjustment of an audio volume
CN105100356A (zh) * 2015-07-07 2015-11-25 上海斐讯数据通信技术有限公司 一种音量自动调节的方法和***
CN105843580A (zh) * 2016-03-07 2016-08-10 乐卡汽车智能科技(北京)有限公司 一种车载播放器音量调整方法和装置
CN107135308A (zh) * 2017-04-26 2017-09-05 努比亚技术有限公司 多媒体文件播放声音控制方法、移动终端及可读存储介质
CN109361995A (zh) * 2018-09-25 2019-02-19 深圳创维-Rgb电子有限公司 一种电器设备的音量调节方法、装置、电器设备和介质
CN110347366A (zh) * 2019-07-15 2019-10-18 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
CN110347367A (zh) * 2019-07-15 2019-10-18 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
CN110696756A (zh) * 2019-10-09 2020-01-17 广州小鹏汽车科技有限公司 一种车辆的音量控制方法及装置、汽车、存储介质
CN111966321A (zh) * 2020-08-24 2020-11-20 Oppo广东移动通信有限公司 音量调节方法、ar设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150171813A1 (en) * 2013-12-12 2015-06-18 Aliphcom Compensation for ambient sound signals to facilitate adjustment of an audio volume
CN103945062A (zh) * 2014-04-16 2014-07-23 华为技术有限公司 一种用户终端的音量调节方法、装置及终端
CN105100356A (zh) * 2015-07-07 2015-11-25 上海斐讯数据通信技术有限公司 一种音量自动调节的方法和***
CN105843580A (zh) * 2016-03-07 2016-08-10 乐卡汽车智能科技(北京)有限公司 一种车载播放器音量调整方法和装置
CN107135308A (zh) * 2017-04-26 2017-09-05 努比亚技术有限公司 多媒体文件播放声音控制方法、移动终端及可读存储介质
CN109361995A (zh) * 2018-09-25 2019-02-19 深圳创维-Rgb电子有限公司 一种电器设备的音量调节方法、装置、电器设备和介质
CN110347366A (zh) * 2019-07-15 2019-10-18 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
CN110347367A (zh) * 2019-07-15 2019-10-18 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
CN110696756A (zh) * 2019-10-09 2020-01-17 广州小鹏汽车科技有限公司 一种车辆的音量控制方法及装置、汽车、存储介质
CN111966321A (zh) * 2020-08-24 2020-11-20 Oppo广东移动通信有限公司 音量调节方法、ar设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220427A (zh) * 2021-10-29 2022-03-22 深圳市锐明技术股份有限公司 口呼指令的识别方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
CN103391347B (zh) 一种自动录音的方法及装置
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN112820291A (zh) 智能家居控制方法、***和存储介质
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN112259112A (zh) 一种结合声纹识别和深度学习的回声消除方法
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
Bonet et al. Speech enhancement for wake-up-word detection in voice assistants
Poorjam et al. A parametric approach for classification of distortions in pathological voices
CN113380244A (zh) 一种设备播放音量的智能调节方法和***
CN109741761B (zh) 声音处理方法和装置
CN109271480B (zh) 一种语音搜题方法及电子设备
Uhle et al. Speech enhancement of movie sound
TWI779261B (zh) 風切濾波裝置
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN113692618B (zh) 一种语音命令识别的方法及装置
Dai et al. 2D Psychoacoustic modeling of equivalent masking for automatic speech recognition
CN112118511A (zh) 耳机降噪方法、装置、耳机及计算机可读存储介质
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
CN111833897B (zh) 一种用于交互式教育的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510635 unit 02, third floor, No. 721, Tianhe North Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Mirage virtual reality technology (Guangzhou) Co.,Ltd.

Applicant after: GUANGZHOU HUANTEK Co.,Ltd.

Applicant after: DONGGUAN YILIAN INTERATION INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 510635 unit 02, third floor, No. 721, Tianhe North Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: Mirage virtual reality (Guangzhou) Intelligent Technology Research Institute Co.,Ltd.

Applicant before: GUANGZHOU HUANTEK Co.,Ltd.

Applicant before: DONGGUAN YILIAN INTERATION INFORMATION TECHNOLOGY Co.,Ltd.