CN110428835A - 一种语音设备的调节方法、装置、存储介质及语音设备 - Google Patents

一种语音设备的调节方法、装置、存储介质及语音设备 Download PDF

Info

Publication number
CN110428835A
CN110428835A CN201910776988.3A CN201910776988A CN110428835A CN 110428835 A CN110428835 A CN 110428835A CN 201910776988 A CN201910776988 A CN 201910776988A CN 110428835 A CN110428835 A CN 110428835A
Authority
CN
China
Prior art keywords
audio
speech ciphering
ciphering equipment
sample
current scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910776988.3A
Other languages
English (en)
Other versions
CN110428835B (zh
Inventor
夏严辉
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youbixuan Intelligent Robot Co ltd
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Priority to CN201910776988.3A priority Critical patent/CN110428835B/zh
Publication of CN110428835A publication Critical patent/CN110428835A/zh
Application granted granted Critical
Publication of CN110428835B publication Critical patent/CN110428835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及语音处理技术领域,尤其涉及一种语音设备的调节方法、装置、计算机可读存储介质及语音设备。本发明提供的调节方法包括:采集语音设备当前所在环境的环境音频;根据所述环境音频确定所述语音设备所属的当前场景;获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。即本发明中,可实时采集语音设备当前所在环境中的环境音频,并可根据环境音频确定语音设备所属的当前场景,从而可根据当前场景来调节语音设备中语音功能的执行,使得不同场景中语音功能的执行强度不同,以减少语音设备中不必要的运行功耗,提高语音设备的待机时长。

Description

一种语音设备的调节方法、装置、存储介质及语音设备
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音设备的调节方法、装置、计算机可读存储介质及语音设备。
背景技术
语音设备是指可根据语音指令执行相应功能的设备。为使得语音设备具有良好的语音控制效果,现有技术的语音设备中,语音功能往往需一直处于同样强度的工作状态中,以实时采集周围的语音,并对语音进行解析来获取语音指令,从而根据语音指令来执行相应功能。即现有技术中的语音设备不管在何种情况下,都始终以相同的录音或者识别模式来执行语音功能,易造成语音设备的运行功耗高,降低了语音设备的待机时长。
发明内容
本发明实施例提供了一种语音设备的调节方法、装置、计算机可读存储介质及语音设备,能够降低语音设备的运行功耗,提高语音设备的待机时长。
本发明实施例的第一方面,提供了一种语音设备的调节方法,包括:
采集语音设备当前所在环境的环境音频;
根据所述环境音频确定所述语音设备所属的当前场景;
获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
进一步地,所述根据所述环境音频确定所述语音设备所属的当前场景,包括:
获取所述环境音频对应的声压或者声音分贝值;
根据所述声压或者所述声音分贝值确定所述语音设备所属的当前场景。
优选地,所述根据所述环境音频确定所述语音设备所属的当前场景,包括:
获取各个样本音频和各个所述样本音频分别对应的预设场景;
分别确定所述环境音频与各个所述样本音频之间的音频相似度;
获取音频相似度大于预设相似阈值的第一音频相似度,并确定所述第一音频相似度所对应的第一样本音频;
将所述第一样本音频对应的预设场景确定为所述语音设备所属的当前场景。
可选地,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,包括:
从所述环境音频中提取所述环境音频对应的第一音频特征和分别从各个所述样本音频中提取各个所述样本音频分别对应的第二音频特征;
分别确定所述第一音频特征和各个所述第二音频特征之间的特征相似性,并将各个所述特征相似性分别确定为所述环境音频与对应的样本音频之间的音频相似度。
进一步地,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,包括:
分别对所述环境音频和各个所述样本音频进行语音识别,得到所述环境音频对应的第一文本内容和各个所述样本音频分别对应的第二文本内容;
分别确定所述第一文本内容和各个所述第二文本内容之间的文本相似度,并将各个所述文本相似度分别确定为所述环境音频与对应的样本音频之间的音频相似度。
优选地,所述根据所述当前场景调节所述语音功能,包括:
根据所述当前场景调节所述语音功能执行中的音频获取时间间隔;或者
根据所述当前场景调节所述语音功能执行中的语音识别时间间隔;或者
根据所述当前场景调节所述语音功能执行中待识别音频的音频时长;或者
根据所述当前场景调节所述语音功能执行中的交互频率;或者
根据所述当前场景关闭所述语音功能。
本发明实施例的第二方面,提供了一种语音设备的调节装置,包括:
音频采集模块,用于采集语音设备当前所在环境的环境音频;
场景确定模块,用于根据所述环境音频确定所述语音设备所属的当前场景;
功能调节模块,用于获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
本发明实施例的第三方面,提供了一种语音设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述第一方面所述语音设备的调节方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述语音设备的调节方法的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,可实时采集语音设备当前所在环境的环境音频,并可根据环境音频确定语音设备所属的当前场景,从而可根据当前场景来调节语音设备中语音功能的执行,使得不同场景中语音功能的执行强度不同,以减少语音设备中不必要的运行功耗,提高语音设备的待机时长。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种语音设备的调节方法的一个实施例流程图;
图2为本发明实施例中一种语音设备的调节方法在一个应用场景下确定当前场景的流程示意图;
图3为本发明实施例中一种语音设备的调节方法在一个应用场景下确定音频相似度的流程示意图;
图4为本发明实施例中一种语音设备的调节方法在另一个应用场景下确定音频相似度的流程示意图
图5为本发明实施例中一种语音设备的调节装置的一个实施例结构图;
图6为本发明一实施例提供的一种语音设备的示意图。
具体实施方式
本发明实施例提供了一种语音设备的调节方法、装置、计算机可读存储介质及语音设备,用于降低语音设备的运行功耗,提高语音设备的待机时长。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种语音设备的调节方法,所述调节方法,包括:
步骤S101、采集语音设备当前所在环境的环境音频;
本发明实施例中,当所述语音设备处于运行状态时,可采集所述语音设备当前所在环境的环境音频,如可通过所述语音设备中的麦克风等声音采集装置来采集所述语音设备当前所在环境中的环境音频,或者通过外部的麦克风等声音采集装置来采集所述语音设备当前所在环境中的环境音频。
步骤S102、根据所述环境音频确定所述语音设备所属的当前场景;
可以理解的是,在采集到所述语音设备当前所在环境中的环境音频后,可以根据所述环境音频确定所述语音设备所属的当前场景,其中,所述当前场景可以为语音交互场景、无人交互场景、唤醒测试场景、声源定位测试场景、语音识别测试场景、wifi老化测试场景、网络老化测试场景、在线播放视频测试场景和在线播放音乐测试场景,等等。
进一步地,所述根据所述环境音频确定所述语音设备所属的当前场景,可以包括:
步骤a、获取所述环境音频对应的声压或者声音分贝值;
步骤b、根据所述声压或者所述声音分贝值确定所述语音设备所属的当前场景。
对于步骤a和步骤b,可以理解的是,在采集到所述语音设备当前所在环境中的环境音频后,可以从所述环境音频中获取当前所在环境的声压或者声音分贝值,并可根据当前所在环境的声压或者声音分贝值来确定所述语音设备所属的当前场景,比如,若当前所在环境的声压不在人耳听觉范围(2×10-5Pa至20Pa)内,则可以确定所述语音设备所属的当前场景为无人交互场景,或者若当前所在环境的声音分贝值不在人耳听觉范围(20HZ至20KHZ)内,则可以确定所述语音设备所属的当前场景为无人交互场景;又比如,若通过对当前所在环境中的环境音频进行对比识别,识别出该环境音频为某种规律性的噪音,即当前所在环境的声压或者声音分贝值虽然在人耳听觉范围内,但通过对环境音频进行语音识别所得到的识别结果为空,或者无法识别出具体内容时,也可以确定所述语音设备所属的当前场景为无人交互场景,等等。
优选地,如图2所示,所述根据所述环境音频确定所述语音设备所属的当前场景,可以包括:
步骤S201、获取各个样本音频和各个所述样本音频分别对应的预设场景;
本发明实施例中,可事先采集不同预设场景中的样本音频,并可将各个样本音频与对应的预设场景关联存储至所述语音设备的存储装置中或者存储至云端服务器中,例如,可采集语音交互场景中的样本音频A、无人交互场景中的样本音频B、唤醒测试场景中的样本音频C、声源定位测试场景中的样本音频D、持续的进行某种语音识别测试场景中的样本音频E、设备的wifi老化测试场景中的样本音频F、网络老化测试场景中的样本音频G、在线播放视频测试场景中的样本音频H、在线播放音乐测试场景中的样本音频I等,并可将样本音频A与语音交互场景进行关联、将样本音频B与无人交互场景进行关联、将样本音频C与唤醒测试场景进行关联、将样本音频D与声源定位测试场景进行关联、将样本音频E与语音识别测试场景进行关联、将样本音频F与wifi老化测试场景进行关联、将样本音频G与网络老化测试场景进行关联、将样本音频H与在线播放视频测试场景进行关联、将样本音频I与在线播放音乐测试场景进行关联,然后可将关联后的样本音频和对应的预设场景存储至所述语音设备的存储装置中或者存储至云端服务器中。因此,在需要确定所述语音设备所属的当前场景时,可从所述语音设备的存储装置或者从云端服务器中获取各个样本音频,以及各个样本音频所分别对应的预设场景。
需要说明的是,在关联存储各个样本音频后,还可以获取所存储的各个样本音频,并计算各个样本音频之间的样本相似度,当某两个或者两个以上的样本音频之间的样本相似度大于预先设置的指定相似度阈值时,则可确定这两个或者两个以上的样本音频来至于同一预设场景,此时可对其中的部分样本音频进行删除操作,以使得每一个预设场景对应一个样本音频,从而减少所述语音设备中所述环境音频与样本音频之间的比对次数,降低所述语音设备的运行功耗,并可以降低对所述语音设备或者云端服务器中存储资源的占用。
步骤S202、分别确定所述环境音频与各个所述样本音频之间的音频相似度;
可以理解的是,在获取到各个样本音频之后,可以将所述环境音频分别与每一个样本音频进行对比,以此确定出所述环境音频与各个样本音频之间的音频相似度。
在一个应用场景中,如图3所示,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,可以包括:
步骤S301、从所述环境音频中提取所述环境音频对应的第一音频特征和分别从各个所述样本音频中提取各个所述样本音频分别对应的第二音频特征;
步骤S302、分别确定所述第一音频特征和各个所述第二音频特征之间的特征相似性,并将各个所述特征相似性分别确定为所述环境音频与对应的样本音频之间的音频相似度。
对于上述步骤S301和步骤S302,该应用场景中,可采用梅尔频率倒谱系数法来提取所述环境音频对应的第一音频特征和各个所述样本音频分别对应的第二音频特征,例如在采用梅尔频率倒谱系数法从所述环境音频中提取所述环境音频对应的第一音频特征时,可首先对所述环境音频进行分帧等预处理,得到所述环境音频中的各帧语音信号;随后,可通过快速傅里叶变化获取每一帧语音信号所对应的频率,并可通过梅尔Mel滤波器组将各帧语音信号所对应的频率转换为对应的梅尔Mel频率,最后,可通过对Mel频率进行滤波和离散余弦变换,来得到所述环境音频对应的第一音频特征,所述第一音频特征即为梅尔频率倒谱系数MFCC。其中,各个所述样本音频分别对应的第二音频特征也可采用梅尔频率倒谱系数法来获取。
在此,在得到所述环境音频对应的第一音频特征和各个样本音频分别对应的第二音频特征后,可分别确定所述第一音频特征与各个样本音频对应的第二音频特征之间的特征相似性,并可将所得到的各个特征相似性分别确定为所述环境音频与对应的样本音频之间的音频相似性,如可将所述第一音频特征与样本音频A对应的第二音频特征之间的特征相似性A确定为所述环境音频与样本音频A之间的音频相似性、可将所述第一音频特征与样本音频B对应的第二音频特征之间的特征相似性B确定为所述环境音频与样本音频B之间的音频相似性,等等。其中,所述第一音频特征与各所个述第二音频特征之间的特征相似性可采用现有的特征相似性确定方法来进行确定。
在另一个应用场景中,如图4所示,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,可以包括:
步骤S401、分别对所述环境音频和各个所述样本音频进行语音识别,得到所述环境音频对应的第一文本内容和各个所述样本音频分别对应的第二文本内容;
步骤S402、分别确定所述第一文本内容和各个所述第二文本内容之间的文本相似度,并将各个所述文本相似度分别确定为所述环境音频与对应的样本音频之间的音频相似度。
对于上述步骤S401和步骤S402,在该应用场景中,可以采用文字内容之间的文本相似性来确定所述环境音频与各个样本音频之间的音频相似性。具体地,可以首先对所述环境音频进行语音识别,得到所述环境音频对应的第一文本内容,同时,可以分别对各个样本音频进行语音识别,得到各个样本音频分别对应的第二文本内容;然后,分别确定所述第一文本内容与各个所述第二文本内容之间的文本相似性,如可通过计算欧式距离、余弦相似性等方式来确定所述第一文本内容与各个所述第二文本内容之间的文本相似性;最后,可将各个文本相似性确定为所述环境音频与对应的样本音频之间的音频相似性,如可将所述第一文本内容与样本音频C对应的第二文本内容之间的文本相似性C确定为所述环境音频与样本音频C之间的音频相似性、可将所述第一文本内容与样本音频D对应的第二文本内容之间的文本相似性D确定为所述环境音频与样本音频D之间的音频相似性,等等。
需要说明的是,本发明实施例中,还可以分别获取所述环境音频对应的第一波形图和各个样本音频分别对应的第二波形图,并通过分别对比所述第一波形图与各个第二波形图,来分别确定所述环境音频与各个样本音频之间的音频相似度。另外,还可以分别获取所述环境音频对应的第一二进制文件和各个样本音频分别对应的第二二进制文件,并通过分别对比所述第一二进制文件与各个第二二进制文件,来分别确定所述环境音频与各个样本音频之间的音频相似度。
步骤S203、获取音频相似度大于预设相似阈值的第一音频相似度,并确定所述第一音频相似度所对应的第一样本音频;
步骤S204、将所述第一样本音频对应的预设场景确定为所述语音设备所属的当前场景。
对于上述步骤S203和步骤S204,可以理解的是,在确定了所述环境音频与各个样本音频之间的音频相似度后,可根据音频相似度来确定所述语音设备所属的当前场景。具体地,可首先确定所有音频相似度中大于预设相似阈值的第一音频相似度,并可确定所述第一音频相似度所对应的第一样本音频,所述第一样本音频可以为所述样本音频中一个或者多个,然后可将所述第一样本音频所对应的预设场景确定为所述语音设备所属的当前场景。
需要说明的是,当大于所述预设相似阈值的音频相似度存在多个时,可将这多个音频相似度中的最大音频相似度确定为所述第一音频相似度,并确定所述第一音频相似度对应的第一样本音频,以将所述第一样本音频所对应的预设场景确定为所述语音设备所属的当前场景,即可将大于所述预设相似阈值的这多个音频相似度中的最大音频相似度所对应的样本音频的预设场景确定为所述语音设备所属的当前场景。
步骤S103、获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
可以理解的是,在确定了所述语音设备的当前场景之后,可获取所述语音设备当前开启的语音功能,并可以根据所述当前场景来调节所述语音功能的执行,以降低所述语音设备的运行功耗。优选地,所述根据所述当前场景调节所述语音功能,可以包括:
根据所述当前场景调节所述语音功能执行中的音频获取时间间隔;或者
根据所述当前场景调节所述语音功能执行中的语音识别时间间隔;或者
根据所述当前场景调节所述语音功能执行中待识别音频的音频时长;或者
根据所述当前场景调节所述语音功能执行中的交互频率;或者
根据所述当前场景关闭所述语音功能。
在此,当确定所述当前场景为无人交互场景或者为wifi老化测试场景或者为网络老化测试场景时,可以逐渐加大所述语音功能执行中的音频获取时间间隔,使得所述语音设备减少录音,以减少所述语音设备对其存储装置的读写操作,从而减少读写操作所产生的功耗,进而降低所述语音设备的运行功耗,并降低读写操作对***资源的占用,提高所述语音设备的运行效率;同时,还可以逐渐减小所述语音功能执行中待识别音频的音频时长或者逐渐加大所述语音功能执行中的语音识别时间间隔,又或者逐渐减少所述语音功能执行中的识别精度,以减少所述语音设备对录音的解析,从而可降低所述语音设备解析录音所产生的运行功耗,并可降低对***资源的占用;另外,还可以逐渐降低所述语音功能执行中的交互频率,如逐渐降低所述语音设备从拾音设备单元获取音频的频率、降低所述语音设备与云端服务器进行语音识别交互的频率和降低所述语音设备定期检查某些功能是否在线或者强行调起的频率,等等,以减少所述语音设备交互操作所产生的功耗,从而降低所述语音设备的运行功耗,并降低对***资源的占用。
需要说明的是,在对所述语音功能的执行进行调节时,可执行上述所述的逐渐加大所述语音功能执行中的音频获取时间间隔、逐渐减小所述语音功能执行中待识别音频的音频时长、逐渐加大所述语音功能执行中的语音识别时间间隔、逐渐减少所述语音功能执行中的识别精度和逐渐降低所述语音功能执行中的交互频率中的一个或者多个,下述描述中也可同样如此。
当所述当前场景为唤醒测试场景或者声源定位测试场景或者为在线播放视频测试场景或者为在线播放音乐测试场景时,所述语音功能的执行往往不需要和云端服务器进行识别交互,此时,可逐渐减小所述语音功能执行中待识别音频的音频时长或者逐渐加大所述语音功能执行中的语音识别时间间隔,又或者逐渐减少所述语音功能执行中的识别精度等。而当所述当前场景为语音识别测试场景时,则可进一步判断是否需要云端服务器进行语音识别,若需要云端服务器进行语音识别(即可直接发送音频至云端服务器,由云端服务器进行语音识别),此时可逐渐加大所述语音设备中的语音识别时间间隔或者逐渐减少所述语音功能执行中的识别精度,以减少所述语音设备对录音的解析,从而降低所述语音设备解析录音所产生的运行功耗;若不需要云端服务器进行语音识别,则可降低所述语音设备与云端服务器进行语音识别交互的频率,等等。
进一步地,当音频获取时间间隔加大到第一预设程度(如时间间隔加大到60秒),或者当语音识别时间间隔加大到第二预设程度,或者当待识别音频的音频时长减少到第三预设程度,或者当交互频率降低至第四预设程度,又或者当识别精度降低至第五预设程度时,可以关闭所述语音设备的语音功能,以控制所述语音设备进行休眠模式,从而降低所述语音设备的运行功耗,提高所述语音设备的待机时长。所述第一预设程度、所述第二预设程度、所述第三预设程度、所述第四预设程度和所述第五预设程度可根据实际情况确定。
本发明实施例中,可实时采集语音设备当前所在环境的环境音频,并可根据环境音频确定语音设备的当前场景,从而可根据当前场景来调节语音设备中语音功能的执行,使得不同场景中语音功能的执行强度不同,以减少语音设备中不必要的运行功耗,提高语音设备的待机时长。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种语音设备的调节方法,下面将对一种语音设备的调节装置进行详细描述。
如图5所示,本发明实施例提供了一种语音设备的调节装置,所述调节装置包括:
音频采集模块501,用于采集语音设备当前所在环境的环境音频;
场景确定模块502,用于根据所述环境音频确定所述语音设备所属的当前场景;
功能调节模块503,用于获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
进一步地,所述场景确定模块502,可以包括:
声压获取单元,用于获取所述环境音频对应的声压或者声音分贝值;
第一场景确定单元,用于根据所述声压或者所述声音分贝值确定所述语音设备所属的当前场景。
优选地,所述场景确定模块502,还可以包括:
样本音频获取单元,用于获取各个样本音频和各个所述样本音频分别对应的预设场景;
音频相似度确定单元,用于分别确定所述环境音频与各个所述样本音频之间的音频相似度;
样本音频确定单云,用于获取音频相似度大于预设相似阈值的第一音频相似度,并确定所述第一音频相似度所对应的第一样本音频;
第二场景确定单元,用于将所述第一样本音频对应的预设场景确定为所述语音设备所属的当前场景。
可选地,所述音频相似度确定单元,可以包括:
音频特征提取分单元,用于从所述环境音频中提取所述环境音频对应的第一音频特征和分别从各个所述样本音频中提取各个所述样本音频分别对应的第二音频特征;
第一音频相似度确定分单元,用于分别确定所述第一音频特征和各个所述第二音频特征之间的特征相似性,并将各个所述特征相似性分别确定为所述环境音频与对应的样本音频之间的音频相似度。
进一步地,所述音频相似度确定单元,还可以包括:
语音识别分单元,用于分别对所述环境音频和各个所述样本音频进行语音识别,得到所述环境音频对应的第一文本内容和各个所述样本音频分别对应的第二文本内容;
第二音频相似度确定分单元,用于分别确定所述第一文本内容和各个所述第二文本内容之间的文本相似度,并将各个所述文本相似度分别确定为所述环境音频与对应的样本音频之间的音频相似度。
优选地,所述功能调节模块503,具体用于根据所述当前场景调节所述语音功能执行中的音频获取时间间隔;或者根据所述当前场景调节所述语音功能执行中的语音识别时间间隔;或者根据所述当前场景调节所述语音功能执行中待识别音频的音频时长;或者根据所述当前场景调节所述语音功能执行中的交互频率;或者根据所述当前场景关闭所述语音功能。
图6是本发明一实施例提供的语音设备的示意图。如图6所示,该实施例的语音设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如语音设备的调节程序。所述处理器60执行所述计算机程序62时实现上述各个语音设备的调节方法实施例中的步骤,例如图1所示的步骤S101至步骤S103。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示的模块501至模块503的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述语音设备6中的执行过程。例如,所述计算机程序62可以被分割成音频采集模块、场景确定模块、功能调整模块,各模块具体功能如下:
音频采集模块,用于采集语音设备当前所在环境的环境音频;
场景确定模块,用于根据所述环境音频确定所述语音设备所属的当前场景;
功能调整模块,用于获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
所述语音设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是语音设备6的示例,并不构成对语音设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语音设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述语音设备6的内部存储单元,例如语音设备6的硬盘或内存。所述存储器61也可以是所述语音设备6的外部存储设备,例如所述语音设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述语音终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述语音设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音设备的调节方法,其特征在于,包括:
采集语音设备当前所在环境的环境音频;
根据所述环境音频确定所述语音设备所属的当前场景;
获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
2.根据权利要求1所述的调节方法,其特征在于,所述根据所述环境音频确定所述语音设备所属的当前场景,包括:
获取所述环境音频对应的声压或者声音分贝值;
根据所述声压或者所述声音分贝值确定所述语音设备所属的当前场景。
3.根据权利要求1所述的调节方法,其特征在于,所述根据所述环境音频确定所述语音设备所属的当前场景,包括:
获取各个样本音频和各个所述样本音频分别对应的预设场景;
分别确定所述环境音频与各个所述样本音频之间的音频相似度;
获取音频相似度大于预设相似阈值的第一音频相似度,并确定所述第一音频相似度所对应的第一样本音频;
将所述第一样本音频对应的预设场景确定为所述语音设备所属的当前场景。
4.根据权利要求3所述的调节方法,其特征在于,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,包括:
从所述环境音频中提取所述环境音频对应的第一音频特征和分别从各个所述样本音频中提取各个所述样本音频分别对应的第二音频特征;
分别确定所述第一音频特征和各个所述第二音频特征之间的特征相似性,并将各个所述特征相似性分别确定为所述环境音频与对应的样本音频之间的音频相似度。
5.根据权利要求3所述的调节方法,其特征在于,所述分别确定所述环境音频与各个所述样本音频之间的音频相似度,包括:
分别对所述环境音频和各个所述样本音频进行语音识别,得到所述环境音频对应的第一文本内容和各个所述样本音频分别对应的第二文本内容;
分别确定所述第一文本内容和各个所述第二文本内容之间的文本相似度,并将各个所述文本相似度分别确定为所述环境音频与对应的样本音频之间的音频相似度。
6.根据权利要求1至5中任一项所述的调整方法,其特征在于,所述根据所述当前场景调节所述语音功能的执行,包括:
根据所述当前场景调节所述语音功能执行中的音频获取时间间隔;或者
根据所述当前场景调节所述语音功能执行中的语音识别时间间隔;或者
根据所述当前场景调节所述语音功能执行中待识别音频的音频时长;或者
根据所述当前场景调节所述语音功能执行中的交互频率;或者
根据所述当前场景关闭所述语音功能。
7.一种语音设备的调节装置,其特征在于,包括:
音频采集模块,用于采集语音设备当前所在环境的环境音频;
场景确定模块,用于根据所述环境音频确定所述语音设备所属的当前场景;
功能调整模块,用于获取所述语音设备当前开启的语音功能,并根据所述当前场景调节所述语音功能的执行,以降低所述语音设备的运行功耗。
8.根据权利要求7所述的调节装置,其特征在于,所述场景确定模块,包括:
声压获取单元,用于获取所述环境音频对应的声压或者声音分贝值;
场景确定单元,用于根据所述声压或者所述声音分贝值确定所述语音设备所属的当前场景。
9.一种语音设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述语音设备的调节方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述语音设备的调节方法的步骤。
CN201910776988.3A 2019-08-22 2019-08-22 一种语音设备的调节方法、装置、存储介质及语音设备 Active CN110428835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910776988.3A CN110428835B (zh) 2019-08-22 2019-08-22 一种语音设备的调节方法、装置、存储介质及语音设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910776988.3A CN110428835B (zh) 2019-08-22 2019-08-22 一种语音设备的调节方法、装置、存储介质及语音设备

Publications (2)

Publication Number Publication Date
CN110428835A true CN110428835A (zh) 2019-11-08
CN110428835B CN110428835B (zh) 2022-09-23

Family

ID=68415607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910776988.3A Active CN110428835B (zh) 2019-08-22 2019-08-22 一种语音设备的调节方法、装置、存储介质及语音设备

Country Status (1)

Country Link
CN (1) CN110428835B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942768A (zh) * 2019-11-20 2020-03-31 Oppo广东移动通信有限公司 设备唤醒的测试方法、装置、移动终端和存储介质
CN111104546A (zh) * 2019-12-03 2020-05-05 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN112562688A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 语音转写方法、装置、录音笔和存储介质
CN115733918A (zh) * 2021-09-01 2023-03-03 北京小米移动软件有限公司 飞行模式的切换方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070003226A1 (en) * 2005-06-29 2007-01-04 Kabushiki Kaisha Toshiba Audio/image playback apparatus and operation control method
CN103956164A (zh) * 2014-05-20 2014-07-30 苏州思必驰信息科技有限公司 一种声音唤醒方法及***
CN106528036A (zh) * 2016-10-09 2017-03-22 腾讯科技(深圳)有限公司 音量调节方法及装置
CN106936991A (zh) * 2017-03-03 2017-07-07 深圳市金立通信设备有限公司 一种自动调节音量的方法及终端
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN109036411A (zh) * 2018-09-05 2018-12-18 深圳市友杰智新科技有限公司 一种智能终端语音交互控制方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070003226A1 (en) * 2005-06-29 2007-01-04 Kabushiki Kaisha Toshiba Audio/image playback apparatus and operation control method
CN103956164A (zh) * 2014-05-20 2014-07-30 苏州思必驰信息科技有限公司 一种声音唤醒方法及***
CN106528036A (zh) * 2016-10-09 2017-03-22 腾讯科技(深圳)有限公司 音量调节方法及装置
CN106936991A (zh) * 2017-03-03 2017-07-07 深圳市金立通信设备有限公司 一种自动调节音量的方法及终端
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN109036411A (zh) * 2018-09-05 2018-12-18 深圳市友杰智新科技有限公司 一种智能终端语音交互控制方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942768A (zh) * 2019-11-20 2020-03-31 Oppo广东移动通信有限公司 设备唤醒的测试方法、装置、移动终端和存储介质
CN111104546A (zh) * 2019-12-03 2020-05-05 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN111104546B (zh) * 2019-12-03 2021-08-27 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN112562688A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 语音转写方法、装置、录音笔和存储介质
CN115733918A (zh) * 2021-09-01 2023-03-03 北京小米移动软件有限公司 飞行模式的切换方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110428835B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110428835A (zh) 一种语音设备的调节方法、装置、存储介质及语音设备
US10861480B2 (en) Method and device for generating far-field speech data, computer device and computer readable storage medium
CN103971680B (zh) 一种语音识别的方法、装置
CN103943104B (zh) 一种语音信息识别的方法及终端设备
CN108899044A (zh) 语音信号处理方法及装置
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN108922528B (zh) 用于处理语音的方法和装置
CN109697984A (zh) 一种降低智能设备自唤醒的方法
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN109087660A (zh) 用于回声消除的方法、装置、设备以及计算机可读存储介质
CN108335694A (zh) 远场环境噪声处理方法、装置、设备和存储介质
CN111862951B (zh) 语音端点检测方法及装置、存储介质、电子设备
CN109979478A (zh) 语音降噪方法及装置、存储介质及电子设备
CN111462741B (zh) 语音数据处理方法、装置及存储介质
CN115602165B (zh) 基于金融***的数字员工智能***
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
CN111540370A (zh) 音频处理方法、装置、计算机设备及计算机可读存储介质
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
CN111415653A (zh) 用于识别语音的方法和装置
CN111128150A (zh) 一种唤醒智能语音设备的方法及装置
KR20200028852A (ko) 암묵 신호 분리를 위한 방법, 장치 및 전자 장치
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN111370031B (zh) 语音分离方法、***、移动终端及存储介质
CN111968620B (zh) 算法的测试方法、装置、电子设备及存储介质
CN115641874A (zh) 音频处理方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231204

Address after: Room 601, 6th Floor, Building 13, No. 3 Jinghai Fifth Road, Beijing Economic and Technological Development Zone (Tongzhou), Tongzhou District, Beijing, 100176

Patentee after: Beijing Youbixuan Intelligent Robot Co.,Ltd.

Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Youbixuan Technology Co.,Ltd.