CN110825446B - 参数配置方法、装置、存储介质及电子设备 - Google Patents
参数配置方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110825446B CN110825446B CN201911032104.XA CN201911032104A CN110825446B CN 110825446 B CN110825446 B CN 110825446B CN 201911032104 A CN201911032104 A CN 201911032104A CN 110825446 B CN110825446 B CN 110825446B
- Authority
- CN
- China
- Prior art keywords
- scene
- preset
- electronic equipment
- wake
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000009432 framing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 22
- 238000012795 verification Methods 0.000 description 20
- 230000003993 interaction Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000011151 fibre-reinforced plastic Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
- G06F9/4451—User profiles; Roaming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种参数配置方法、装置、存储介质及电子设备,其中,通过对适于在预设场景下运行的预设应用所产生的触发信息进行侦测,当侦测到触发信息时,初步判定电子设备处于预设场景,此时进一步采集电子设备当前所处场景的音频数据,根据该采集得到音频数据识别当前所处场景是否为预设场景,也即是校验电子设备当前所处场景是否为预设场景,是则进一步获取对预设场景的配置参数对电子设备进行配置,使得电子设备能够更好的在预设场景下运行。由此,通过自动识别电子设备所处的场景,并根据识别的场景自动配置,从而无需用户手动进行配置,能够达到提升电子设备易用性的目的。
Description
技术领域
本申请涉及音频识别技术领域,具体涉及一种参数配置方法、装置、存储介质及电子设备。
背景技术
目前,人们的生活已离不开智能手机、平板电脑等电子设备,通过这些电子设备所提供的各种各样丰富的功能,使得人们能够随时随地的娱乐、办公等。在相关技术中,可由用户手动更改电子设备的配置,以使得电子设备适于在实际所处的场景下更好的为用户服务。然而,由于需要用户手动配置,使得电子设备的易用性较差。
发明内容
本申请实施例提供了一种参数配置方法、装置、存储介质及电子设备,能够提供电子设备的易用性。
本申请实施例提供参数配置方法,应用于电子设备,该参数配置方法包括:
侦测预设应用产生的触发信息,所述预设应用适于在预设场景下运行;
根据所述触发信息采集所述电子设备当前所处场景的音频数据;
根据所述音频数据识别当前所处场景是否为所述预设场景;
当识别到当前所处场景为所述预设场景时,获取对应所述预设场景的配置参数对所述电子设备进行配置。
本申请实施例提供的参数配置装置,应用于电子设备,该参数配置装置包括:
侦测模块,用于侦测预设应用产生的触发信息,所述预设应用适于在预设场景下运行;
采集模块,用于根据所述触发信息采集所述电子设备当前所处场景的音频数据;
识别模块,用于根据所述音频数据识别当前所处场景是否为所述预设场景;
配置模块,用于当识别到当前所处场景为所述预设场景时,获取对应所述预设场景的配置参数对所述电子设备进行配置。
本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序被处理器加载时执行如本申请任一实施例提供的参数配置方法。
本申请实施例提供的电子设备,包括处理器和存储器,所述存储器存有计算机程序,所述处理器通过加载所述计算机程序,用于执行如本申请任一实施例提供的参数配置方法。
本申请通过自动识别电子设备所处的场景,并根据识别的场景自动配置,从而无需用户手动进行配置,能够达到提升电子设备易用性的目的。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的参数配置方法的一流程示意图。
图2是本申请实施例中对应地铁场景的频率成分的示意图。
图3是本申请实施例中对音频数据进行无交叠分帧处理的示意图。
图4是本申请实施例中加载一级唤醒模型和二级唤醒模型的示意图。
图5是本申请实施例提供的参数配置方法的另一流程示意图。
图6是本申请实施例提供的参数配置装置的一结构示意图。
图7是本申请实施例提供的电子设备的一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本申请实施例涉及一种参数配置方法、参数配置装置、存储介质以及电子设备,其中,该参数配置方法的执行主体可以是本申请实施例提供的参数配置装置,或者集成了该参数配置装置的电子设备,其中该参数配置装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
请参照图1,图1为本申请实施例提供的参数配置方法的流程示意图,本申请实施例提供的参数配置方法的具体流程可以如下:
S101,侦测预设应用产生的触发信息,预设应用适于在预设场景下运行。
应当说明的是,本申请实施例中预先将电子设备的使用场景进行分类,包括但不限于公交车场景、地铁场景、餐厅场景以及办公室场景等。预设应用被配置为适于在预设场景下运行,预设场景可以前述分类的任一使用场景。
示例性的,预设应用可以为公交乘车应用,其被配置为适于在公交车场景下运行,比如,电子设备通过运行公交乘车应用,供用户刷码乘公交。
预设应用还可以为地铁乘车应用,其被配置为适于在地铁场景下运行,比如,电子设备通过运行地铁乘车应用,供用户刷码乘地铁等。
预设应用还可以为点餐应用,其被配置为适于在餐厅场景下运行,比如,电子设备通过运行点餐应用,供用户在线自助点餐。
预设应用还可以为办公类应用,其被配置为适于在办公场景下运行,比如,电子设备通过运行办公应用,供用户电子化办公。
可以理解的是,当电子设备上的预设应用运行时,即说明电子设备此时可能处于对应的预设场景下。本申请实施例中,将预设应用在运行过程中产生的特定信息作为用于触发进行场景识别的触发信息。
比如,当预设应用为适于在公交车场景运行的公交乘车应用时,触发信息可以为描述公交乘车应用扫码乘公交的描述信息;
又比如,当预设应用为适于在地铁场景运行的地铁乘车应用时,触发信息可以为描述地铁乘车应用扫码扫码乘地铁的描述信息;
又比如,当预设应用为适于在餐厅场景运行的点餐应用时,触发信息可以为描述点餐应用在线点餐的描述信息;
又比如,当预设应用为适于在办公室场景运行的办公应用时,触发信息可以为描述办公应用执行办公操作的描述信息。
S102,根据触发信息采集电子设备当前所处场景的音频数据。
本申请实施例中,当侦测到预设应用产生的触发信息时,触发对电子设备当前所处的场景进行识别,也即是识别电子设备当前所处场景是否为预设场景。其中,首先根据触发信息采集电子设备当前所处场景的音频数据。
可以理解的是,电子设备当前所处场景此时为未知场景,可以直接通过电子设备所设置的麦克风进行声音采集,将采集得到音频数据作为当前所处场景的音频数据。
示例性的,电子设备所设置的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的外置麦克风,也可以是无线的外置麦克风)。
假设麦克风为模拟麦克风,那么将采集到模拟的音频数据,此时需要将模拟的音频数据进行模数转换,得到数字化的音频数据,用于后续处理。比如,可以在通过麦克风采集到模拟音频数据后,以16KHz的采样频率对该模拟音频数据进行采样,得到数字化的音频数据。
本领域普通技术人员可以理解的是,若电子设备所包括的麦克风为数字麦克风,那么将直接采集到数字化的音频数据,无需再进行模数转换。
S103,根据音频数据识别当前所处场景是否为预设场景。
在采集到电子设备当前所处场景的音频数据之后,即可根据该采集得到音频数据以及预设的场景识别策略来识别当前所处场景是否为预设场景。
比如,可以是被音频数据中是否包括预设场景的音频特征,是则判定当前所处场景为预设场景;
又比如,可以直接将音频数据与预先采集的预设场景的样本音频数据进行比对,当采集的音频数据与样本音频数据比对一致时,判定当前所处场景为预设场景。
S104,当识别到当前所处场景为预设场景时,获取对应预设场景的配置参数对电子设备进行配置。
应当说明的是,本申请实施例中还针对预设场景,预先设置有对应的配置参数,用于对电子设备的相关功能进行配置,以使得电子设备的相关功能在预设场景能够提供最佳的服务效果。
相应的,当识别到当前所处场景为预设场景时,即获取到对应预设场景的配置参数,并根据获取到的配置参数对电子设备的相关功能进行配置,其中,相关功能包括但不限于音视频输出功能、通话功能、语音交互功能等。
由上可知,本申请通过对适于在预设场景下运行的预设应用所产生的触发信息进行侦测,当侦测到触发信息时,初步判定电子设备处于预设场景,此时进一步采集电子设备当前所处场景的音频数据,根据该采集得到音频数据识别当前所处场景是否为预设场景,也即是校验电子设备当前所处场景是否为预设场景,是则进一步获取对预设场景的配置参数对电子设备进行配置,使得电子设备能够更好的在预设场景下运行。由此,通过自动识别电子设备所处的场景,并根据识别的场景自动配置,从而无需用户手动进行配置,能够达到提升电子设备易用性的目的。
在一实施例中,“根据音频数据识别当前所处场景是否为预设场景”,包括:
识别音频数据中是否包括对应预设场景的频率成分,是则确定当前所处场景为预设场景。
应当说明的是,对于不同的预设场景,存在特定的声音特征。
比如,对于公交车场景,存在公交车开关门的声音特征;对于地铁场景,存在地铁开关门的声音特征;对于餐厅场景,存在上菜铃音的声音特征;对于办公场景,存在敲击键盘的声音特征等。
本申请实施例中,为了更准确的识别这些能够表征不同预设场景声音特征,在频率维度进行识别。
示例性的,以地铁场景为例,请参照图2,图2为地铁开关门时的语谱图,根据该语谱图可以看出,地铁开关门的声音由多个频率成分组成。相应的,可以预先建立地铁场景和相应频率成分的对应关系。
同理,可以建立公交车场景和相应频率成分的对应关系,建立餐厅场景和相应频率成分的对应关系,以及建立办公场景和相应频率成分的对应关系。
因此,在根据音频数据识别当前所处场景是否为预设场景时,即可在频率维度对采集到的电子设备当前所处场景的音频数据进行分析,识别该音频数据中是否包括对应预设场景的频率成分,若识别到该音频数据中包括对应预设场景的频率成分,即可确定电子设备当前所处场景为预设场景。
在一实施例中,“识别音频数据中是否包括对应预设场景的频率成分”,包括:
识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长,是则确定音频数据中包括前述频率成分。
本申请实施例中,在识别音频数据中是否包括对应预设场景的频率成分时,可以识别对应预设场景的频率成分在采集到的的音频数据中的持续时长是否达到预设时长,当识别到前述频率成分在音频数据中持续时长达到预设时长时,确定前述音频数据包括对应预设场景的频率成分。
应当说明的是,不同的预设场景,其对应的频率成分也不同。
比如,以地铁场景为例,其对应7个不同的频率成分,这7个不同的频率成分分别对应相应的预设时长,且不同频率成分所对应的预设时长不同,假设侦测到地铁乘车应用产生的触发信息,在采集到电子设备当前所处场景的音频数据之后,在频率维度对该音频数据进行分析,识别地铁采集对应的7个频率成分在该音频数据的持续时长是否达到各自对应预设时长,若均达到,则可确定该音频数据包括地铁场景对应的频率成分,即可判定电子设备当前所处场景为地铁场景。
在一实施例中,“识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长”,包括:
(1)对音频数据进行无交叠分帧处理,得到多个音频帧;
(2)对分帧得到的音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则确定频率成分在音频数据中的持续时长达到预设时长。
本申请实施例中,在识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长时,首先对采集到的音频数据进行无交叠分帧处理,得到多个音频帧。
比如,请参照图3,对于采集到的音频数据x(n)进行无交叠分帧,每帧长度为N,共分帧得到m个音频帧,每个音频帧可以表示为xm(n)。其中,无交叠分帧可以通俗的理解为分帧得到两个相邻音频帧之间不存在交叠部分。
在分帧得到多个音频帧之后,进一步对分帧得到的每一音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则确定频率成分在音频数据中的持续时长达到预设时长。
比如,对音频帧xm(n)进行快速傅里叶变换,得到对应的傅里叶变换结果Xm(n)=FFT[xm(n)],则傅里叶变换的频率分辨率为fs/N,其中fs为音频数据的采样频率,N为音频帧的长度。对于任一频率成分f,其在傅里叶变换结果Xm(n)中的位置为i=Nf/fs,可以表示为Xm(i)。然后,对于对应预设场景的频率成分f',在每一音频帧内,频率成分f'的幅值为为其中abs[]表示求取绝对值。对于频率成分f',若频率成分f'在预设时长t内的连续音频帧每帧的幅值/>均达到预设幅值α时,则确定频率成分f'在音频数据中的持续时长达到预设时长t。
在一实施例中,配置参数包括降噪参数,“根据配置参数对电子设备进行配置”,包括:
根据降噪参数对电子设备的降噪模式进行配置,使得电子设备的降噪模式与预设场景匹配。
本申请实施例中,配置参数包括用于对电子设备降噪功能进行配置的降噪参数。相应的,本申请实施例中预先针对不同的预设场景,分别设置有对应的降噪参数。
因此,在根据配置参数对电子设备进行配置时,可以根据降噪参数对电子设备的降噪模式进行配置,使得电子设备的降噪模式与预设场景匹配,以适于在预设场景下进行降噪。
示例性的,以地铁场景为例,在识别到电子设备当前所处场景为地铁场景时,即获取到对应地铁场景的降噪参数,并根据获取到的该降噪参数对电子设备的降噪模式进行配置,使得电子设备的降噪模式与地铁场景匹配。由此,在使能电子设备的降噪功能时,能够获得地铁场景下最佳的降噪效果。比如,可以在电子设备进行语音通话时使能降噪功能,从而使得电子设备能够为用户提供更为清晰的语音通话服务。
在一实施例中,配置参数包括唤醒参数,“根据配置参数对电子设备进行配置”,还包括:
根据唤醒参数对电子设备的唤醒策略进行配置,使得电子设备的唤醒策略与预设场景匹配。
本申请实施例中,配置参数包括用于对电子设备语音交互功能进行配置的唤醒参数。相应的,本申请实施例中预先针对不同的预设场景,分别设置有对应的唤醒参数。应当说明的是,使能电子设备语音交互功能的前提是唤醒电子设备,唤醒参数可用于对唤醒电子设备的唤醒策略进行配置。
因此,在根据配置参数对电子设备进行配置时,可以根据唤醒参数对电子设备的唤醒策略进行配置,使得电子设备的唤醒策略与预设场景匹配,以适于在预设场景下对电子设备进行唤醒。比如,电子设备通过安装的语音交互应用提供语音交互功能,唤醒电子设备也即是唤醒电子设备按照的语音交互应用,从而使得电子设备能够通过语音交互应用与用户进行语音交互。
示例性的,以地铁场景为例,在识别到电子设备当前所处场景为地铁场景时,即获取到对应地铁场景的唤醒参数,并根据获取到的该唤醒参数对电子设备的唤醒策略进行配置,使得电子设备的唤醒策略与地铁场景匹配。由此,在对电子设备进行唤醒时,能够更为准确的对电子设备进行唤醒。比如,在完成唤醒策略的配置后,实时采集外部的音频数据作为待校验音频数据,并根据唤醒策略对待校验音频数据进行校验,当校验通过时即唤醒电子设备。
在一实施例中,电子设备包括专用语音识别芯片和处理器,根据唤醒参数对电子设备的唤醒策略进行配置,包括:
控制专用语音识别芯片加载对应预设场景的一级唤醒模型,以及控制处理器加载对应预设场景的二级唤醒模型。
应当说明的是,在本申请实施例中,电子设备还包括处理器和专用语音识别芯片,且该专用语音识别芯片的功耗小于处理器的功耗。
其中,处理器为适于通用处理任务的处理器,比如ARM架构的处理器。
专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音识别为目的而设计的数字信号处理芯片,以语音识别为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗,适于语音识别任务的处理。其中,专用语音识别芯片、处理器以及麦克风任意二者之间通过通信总线(比如I2C总线)建立通信连接,实现数据的交互。
此外,本申请实施例在电子设备中预先设置有一级唤醒模型集合和二级唤醒模型集合,其中一级唤醒模型集合中包括多个预先在不同预设场景下训练得到的一级唤醒模型,以适于专用语音识别芯片在不同的预设场景下加载,从而更灵活准确的对采集的待校验音频数据进行一级校验,二级唤醒模型中包括多个预先在不同预设场景下训练得到的二级唤醒模型,以适于处理器在不同的预设场景下加载,从而对采集的待校验音频数据进行二级校验。
相应的,在根据唤醒参数对电子设备的唤醒策略进行配置时,即控制专用语音识别芯片从一级唤醒模型集合中加载对应预设场景的一级唤醒模型(即适于在预设场景下进行唤醒校验的一级唤醒模型),并控制处理器从二级唤醒模型集合中加载对应预设场景的二级唤醒模型(即适于在预设场景下进行唤醒校验的二级唤醒模型)。
比如,请参照图4,一级唤醒模型集合中包括四个一级唤醒模型,分别为适于在公交车场景进行音频校验的一级唤醒模型A、适于在地铁场景进行音频校验的一级唤醒模型B、适于在餐厅场景进行音频校验的一级唤醒模型C以及适于在办公室场景进行音频校验的一级唤醒模型D。二级唤醒模型集合中包括四个二级唤醒模型,分别为适于在公交车场景进行音频校验的二级唤醒模型A、适于在地铁场景进行音频校验的二级唤醒模型B、适于在餐厅场景进行音频校验的二级唤醒模型C以及适于在办公室场景进行音频校验的二级唤醒模型D。假设识别到当前所处场景为地铁场景,则获取到的唤醒参数将指示加载一级唤醒模型B和二级唤醒模型B,相应的,电子设备通过专用语音识别芯片从一级唤醒模型集合中加载一级唤醒模型B,以及通过处理器从二级唤醒模型集合中加载二级唤醒模型B。
在完成一级唤醒模型和二级唤醒模型的加载之后,即可通过专用语音识别芯片加载的一级唤醒模型对采集的待校验音频数据进行校验,并在采集的待校验音频数据通过一级校验之后,通过处理器加载的二级唤醒模型对采集的待校验音频数据进行校验,若通过二级校验,则可唤醒电子设备的语音交互应用,与用户进行语音交互。应当说明的是,由于专用语音识别芯片的处理能力不及处理器的处理能力,适用于同一场景下的二级唤醒模型的大小和准确度将大于一级唤醒模型的大小和准确度,由此,先通过一级唤醒模型来对采集的待校验音频数据进行大致的校验,在一级校验通过后,再进行二级校验,通过二级校验来确保整体的校验准确性。
其中,对采集的待校验音频数据进行的一级校验包括文本特征和/或声纹特征的校验,对采集的待校验音频数据进行的二级校验包括文本特征和/或声纹特征的校验。
通俗的说,对待校验音频数据的文本特征进行校验也即是校验该待校验音频数据中是否包括预设唤醒词,只要待校验音频数据中包括预设唤醒词,即校验通过。比如,采集到的待校验音频数据中包括了预设用户(比如,电子设备的机主,或者机主授权使用电子设备的其他用户)设置的预设唤醒词,但是该预设唤醒词由用户A说出,而不是预设用户,此时也将校验通过。
而对待校验音频数据的文本特征和声纹特征进行校验也即是校验待校验音频数据中是否包括预设用户说出的预设唤醒词,若采集的待校验音频数据中包括预设用户说出的预设唤醒词,则校验通过。比如,采集的待校验音频数据包括了预设用户设置的预设唤醒词,且该预设唤醒词由预设用户说出,则该待校验音频数据的文本特征以及声纹特征通过校验;又比如采集的待校验音频数据包括了预设用户之外的其他用户说出的预设唤醒词,或者待校验音频数据不包括任何用户说出的预设唤醒词,则该待校验音频数据的文本特征和声纹特征校验失败(或者说未通过校验)。
应当说明的是,一级校验和二级校验仅用于代指校验的先后顺序,并不用于限定的校验内容,换言之,在本申请实施例中,对应同一场景的一级唤醒模型与二级唤醒模型可以相同,也可以不同。比如,一级唤醒模型为基于高斯混合模型的语音唤醒模型,二级唤醒模型为基于神经网络的语音唤醒模型。
下面将在上述实施例描述的方法基础上,以预设应用为地铁乘车应用,预设场景为地铁场景为例对本申请的参数配置方法做进一步介绍。请参照图5,该参数配置方法应用于电子设备,该参数配置方法可以包括:
201,电子设备侦测地铁乘车应用产生的触发信息。
应当说明的是,本申请实施例中,当电子设备上的地铁乘车应用运行时,即说明电子设备此时可能处于地铁场景下。比如,用户可以通过电子设备运行的地铁乘车应用扫描乘地铁,相应的,本申请实施例中,可以将描述地铁乘车应用扫描乘地铁的描述信息作为触发信息,用于触发进行场景识别。
202,电子设备根据触发信息采集当前所处场景的音频数据。
本申请实施例中,当侦测到预设应用产生的触发信息时,触发对电子设备当前所处的场景进行识别,也即是识别电子设备当前所处场景是否为地铁场景。其中,电子设备首先设置的麦克风进行声音采集,将采集得到音频数据作为当前所处场景的音频数据。
示例性的,电子设备所设置的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的外置麦克风,也可以是无线的外置麦克风)。
假设麦克风为模拟麦克风,那么将采集到模拟的音频数据,此时需要将模拟的音频数据进行模数转换,得到数字化的音频数据,用于后续处理。比如,可以在通过麦克风采集到模拟音频数据后,以16KHz的采样频率对该模拟音频数据进行采样,得到数字化的音频数据。
本领域普通技术人员可以理解的是,若电子设备所包括的麦克风为数字麦克风,那么将直接采集到数字化的音频数据,无需再进行模数转换。
203,电子设备对采集到的音频数据进行无交叠分帧处理,得到多个音频帧。
在采集到电子设备当前所处场景的音频数据之后,即可根据该采集得到音频数据来识别当前所处场景是否为地铁场景。
示例性的,以地铁场景为例,请参照图2,图2为地铁开关门时的语谱图,根据该语谱图可以看出,地铁开关门的声音由多个频率成分组成。相应的,可以预先建立地铁场景和相应频率成分的对应关系。
在识别当前所处场景是否为地铁场景时,电子设备即可识别该音频数据中是否包括对应地铁场景的频率成分,若识别到该音频数据中包括对应地铁场景的频率成分,即可确定电子设备当前所处场景为地铁场景。
其中,在识别采集到的音频数据中是否包括对应地铁场景的频率成分时,首先对采集到的音频数据进行无交叠分帧处理,得到多个音频帧。
比如,请参照图3,对于采集到的音频数据x(n)进行无交叠分帧,每帧长度为N,共分帧得到m个音频帧,每个音频帧可以表示为xm(n)。其中,无交叠分帧可以通俗的理解为分帧得到两个相邻音频帧之间不存在交叠部分。
204,电子设备对分帧得到的音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应地铁场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则判定当前所处场景为地铁场景。
在分帧得到多个音频帧之后,进一步对分帧得到的每一音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应地铁场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则确定采集到的音频数据中包括对应地铁场景的频率成分。
比如,对音频帧xm(n)进行快速傅里叶变换,得到对应的傅里叶变换结果Xm(n)=FFT[xm(n)],则傅里叶变换的频率分辨率为fs/N,其中fs为音频数据的采样频率,N为音频帧的长度。对于任一频率成分f,其在傅里叶变换结果Xm(n)中的位置为i=Nf/fs,可以表示为Xm(i)。然后,对于对应地铁场景的频率成分f',在每一音频帧内,频率成分f'的幅值为为其中abs[]表示求取绝对值。对于频率成分f',若频率成分f'在预设时长t内的连续音频帧每帧的幅值/>均达到预设幅值α时,则确定音频数据中包括对应地铁场景的频率成分f'。
205,电子设备获取对应地铁场景的配置参数进行配置。
应当说明的是,本申请实施例中还针对地铁场景,预先设置有对应的配置参数,用于对电子设备的相关功能进行配置,以使得电子设备的相关功能在地铁场景下能够提供最佳的服务效果。
相应的,当识别到当前所处场景为地铁场景时,电子设备即获取到对应地铁场景的配置参数,并根据获取到的配置参数对电子设备的相关功能进行配置,其中,相关功能包括但不限于音视频输出功能、通话功能、语音交互功能等。
在一实施例中,还提供了一种参数配置装置。请参照图6,图6为本申请实施例提供的参数配置装置的结构示意图。其中该参数配置装置应用于电子设备,该参数配置装置包括侦测模块301、采集模块302、识别模块303以及配置模块304,如下:
侦测模块301,用于侦测预设应用产生的触发信息,预设应用适于在预设场景下运行;
采集模块302,用于根据触发信息采集电子设备当前所处场景的音频数据;
识别模块303,用于根据音频数据识别当前所处场景是否为预设场景;
配置模块304,用于当识别到当前所处场景为预设场景时,获取对应预设场景的配置参数对电子设备进行配置。
在一实施例中,在根据音频数据识别当前所处场景是否为预设场景时,识别模块303用于:
识别音频数据中是否包括对应预设场景的频率成分,是则确定当前所处场景为预设场景。
在一实施例中,在识别音频数据中是否包括对应预设场景的频率成分时,识别模块303用于:
识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长,是则确定音频数据中包括前述频率成分。
在一实施例中,在识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长时,识别模块303用于:
对音频数据进行无交叠分帧处理,得到多个音频帧;
对分帧得到的音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则确定频率成分在音频数据中的持续时长达到预设时长。
在一实施例中,配置参数包括降噪参数,在根据配置参数对电子设备进行配置时,配置模块304用于:
根据降噪参数对电子设备的降噪模式进行配置,使得电子设备的降噪模式与预设场景匹配。
在一实施例中,配置参数包括唤醒参数,在根据配置参数对电子设备进行配置时,配置模块304还用于:
根据唤醒参数对电子设备的唤醒策略进行配置,使得电子设备的唤醒策略与预设场景匹配。
在一实施例中,电子设备包括专用语音识别芯片和处理器,在根据唤醒参数对电子设备的唤醒策略进行配置时,配置模块304用于:
控制专用语音识别芯片加载对应预设场景的一级唤醒模型,以及控制处理器加载对应预设场景的二级唤醒模型。
应当说明的是,本申请实施例提供的参数配置装置与上文实施例中的参数配置方法属于同一构思,在参数配置装置上可以运行参数配置方法实施例中提供的任一方法,其具体实现过程详见以上实施例,此处不再赘述。
在一实施例中,还提供一种电子设备,请参照图7,电子设备包括处理器401和存储器402。
本申请实施例中的处理器401是通用处理器,比如ARM架构的处理器。
存储器402中存储有计算机程序,其可以为高速随机存取存储器,还可以为非易失性存储器,比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402中计算机程序的访问,实现如下功能:
侦测预设应用产生的触发信息,预设应用适于在预设场景下运行;
根据触发信息采集电子设备当前所处场景的音频数据;
根据音频数据识别当前所处场景是否为预设场景;
当识别到当前所处场景为预设场景时,获取对应预设场景的配置参数对电子设备进行配置。
在一实施例中,在根据音频数据识别当前所处场景是否为预设场景时,处理器401用于执行:
识别音频数据中是否包括对应预设场景的频率成分,是则确定当前所处场景为预设场景。
在一实施例中,在识别音频数据中是否包括对应预设场景的频率成分时,处理器401用于执行:
识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长,是则确定音频数据中包括前述频率成分。
在一实施例中,在识别对应预设场景的频率成分在音频数据中的持续时长是否达到预设时长时,处理器401用于执行:
对音频数据进行无交叠分帧处理,得到多个音频帧;
对分帧得到的音频帧进行傅里叶变换,并根据傅里叶变换结果识别对应预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,是则确定频率成分在音频数据中的持续时长达到预设时长。
在一实施例中,配置参数包括降噪参数,在根据配置参数对电子设备进行配置时,处理器401用于执行:
根据降噪参数对电子设备的降噪模式进行配置,使得电子设备的降噪模式与预设场景匹配。
在一实施例中,配置参数包括唤醒参数,在根据配置参数对电子设备进行配置时,处理器401用于执行:
根据唤醒参数对电子设备的唤醒策略进行配置,使得电子设备的唤醒策略与预设场景匹配。
在一实施例中,电子设备还包括专用语音识别芯片,在根据唤醒参数对电子设备的唤醒策略进行配置时,处理器401用于执行:
专用语音识别芯片加载对应预设场景的一级唤醒模型;
加载对应预设场景的二级唤醒模型。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的参数配置方法属于同一构思,在电子设备上可以运行参数配置方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的参数配置方法而言,本领域普通测试人员可以理解实现本申请实施例的参数配置方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的处理器和/或专用语音识别芯片执行,在执行过程中可包括如参数配置方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
以上对本申请实施例所提供的一种参数配置方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (7)
1.一种参数配置方法,应用于电子设备,其特征在于,包括:
侦测预设应用产生的触发信息,所述预设应用适于在预设场景下运行;
根据所述触发信息采集所述电子设备当前所处场景的音频数据;
对所述音频数据进行无交叠分帧处理,得到多个音频帧;
对所述音频帧进行傅里叶变换;
根据傅里叶变换结果识别对应所述预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,并根据识别结果识别当前所处场景是否为所述预设场景;
当识别到当前所处场景为所述预设场景时,获取对应所述预设场景的配置参数对所述电子设备进行配置。
2.根据权利要求1所述的参数配置方法,其特征在于,所述配置参数包括降噪参数,所述根据所述配置参数对电子设备进行配置,包括:
根据所述降噪参数对电子设备的降噪模式进行配置,使得所述电子设备的降噪模式与所述预设场景匹配。
3.根据权利要求1所述的参数配置方法,其特征在于,所述配置参数包括唤醒参数,所述根据所述配置参数对电子设备进行配置,还包括:
根据所述唤醒参数对电子设备的唤醒策略进行配置,使得所述电子设备的唤醒策略与所述预设场景匹配。
4.根据权利要求3所述的参数配置方法,其特征在于,所述电子设备包括专用语音识别芯片和处理器,所述根据所述唤醒参数对电子设备的唤醒策略进行配置,包括:
控制所述专用语音识别芯片加载对应所述预设场景的一级唤醒模型,以及控制所述处理器加载对应所述预设场景的二级唤醒模型。
5.一种参数配置装置,应用于电子设备,其特征在于,包括:
侦测模块,用于侦测预设应用产生的触发信息,所述预设应用适于在预设场景下运行;
采集模块,用于根据所述触发信息采集所述电子设备当前所处场景的音频数据;
识别模块,用于对所述音频数据进行无交叠分帧处理,得到多个音频帧;
对所述音频帧进行傅里叶变换;以及根据傅里叶变换结果识别对应所述预设场景的频率成分在预设时长内的连续音频帧中的幅值是否均达到预设幅值,并根据识别结果识别当前所处场景是否为所述预设场景;
配置模块,用于当识别到当前所处场景为所述预设场景时,获取对应所述预设场景的配置参数对所述电子设备进行配置。
6.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器加载时执行如权利要求1至4任一项所述的参数配置方法。
7.一种电子设备,包括处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器通过加载所述计算机程序,用于执行如权利要求1至4任一项所述的参数配置方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032104.XA CN110825446B (zh) | 2019-10-28 | 2019-10-28 | 参数配置方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032104.XA CN110825446B (zh) | 2019-10-28 | 2019-10-28 | 参数配置方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825446A CN110825446A (zh) | 2020-02-21 |
CN110825446B true CN110825446B (zh) | 2023-12-08 |
Family
ID=69551238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032104.XA Active CN110825446B (zh) | 2019-10-28 | 2019-10-28 | 参数配置方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825446B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311889A (zh) * | 2020-02-27 | 2020-06-19 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、存储介质及电子设备 |
CN111323783A (zh) * | 2020-02-27 | 2020-06-23 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN113395539B (zh) * | 2020-03-13 | 2023-07-07 | 北京字节跳动网络技术有限公司 | 音频降噪方法、装置、计算机可读介质和电子设备 |
CN111510814A (zh) * | 2020-04-29 | 2020-08-07 | Oppo广东移动通信有限公司 | 降噪模式控制方法、装置、电子设备及存储介质 |
CN113873379B (zh) * | 2020-06-30 | 2023-05-02 | 华为技术有限公司 | 一种模式控制方法、装置及终端设备 |
CN112367429B (zh) * | 2020-11-06 | 2021-11-09 | 维沃移动通信有限公司 | 参数调整方法、装置、电子设备及可读存储介质 |
CN113132625B (zh) * | 2021-03-11 | 2023-05-12 | 宇龙计算机通信科技(深圳)有限公司 | 一种场景图像获取方法、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106572411A (zh) * | 2016-09-29 | 2017-04-19 | 乐视控股(北京)有限公司 | 降噪控制方法及相关装置 |
WO2017206916A1 (zh) * | 2016-05-31 | 2017-12-07 | 广东欧珀移动通信有限公司 | 处理器中内核运行配置的确定方法以及相关产品 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN108831505A (zh) * | 2018-05-30 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 用于识别应用的使用场景的方法和装置 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109977731A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 一种场景的识别方法、识别设备及终端设备 |
-
2019
- 2019-10-28 CN CN201911032104.XA patent/CN110825446B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017206916A1 (zh) * | 2016-05-31 | 2017-12-07 | 广东欧珀移动通信有限公司 | 处理器中内核运行配置的确定方法以及相关产品 |
CN106572411A (zh) * | 2016-09-29 | 2017-04-19 | 乐视控股(北京)有限公司 | 降噪控制方法及相关装置 |
CN109977731A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 一种场景的识别方法、识别设备及终端设备 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN108831505A (zh) * | 2018-05-30 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 用于识别应用的使用场景的方法和装置 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110825446A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825446B (zh) | 参数配置方法、装置、存储介质及电子设备 | |
JP6903129B2 (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
US9779725B2 (en) | Voice wakeup detecting device and method | |
US9775113B2 (en) | Voice wakeup detecting device with digital microphone and associated method | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
CN103811003B (zh) | 一种语音识别方法以及电子设备 | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
CN102907077A (zh) | 用于移动装置的智能音频记录的***和方法 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN113330511B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
US9633655B1 (en) | Voice sensing and keyword analysis | |
US11626104B2 (en) | User speech profile management | |
CN105913842A (zh) | 一种语音自定义唤醒手机的方法 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN112669822B (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN109712623A (zh) | 语音控制方法、装置及计算机可读存储介质 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN113327620A (zh) | 声纹识别的方法和装置 | |
CN108074581A (zh) | 用于人机交互智能终端的控制*** | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
WO2021169711A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN109377993A (zh) | 智能语音***及其语音唤醒方法及智能语音设备 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |