CN108711429B - 电子设备及设备控制方法 - Google Patents
电子设备及设备控制方法 Download PDFInfo
- Publication number
- CN108711429B CN108711429B CN201810589643.2A CN201810589643A CN108711429B CN 108711429 B CN108711429 B CN 108711429B CN 201810589643 A CN201810589643 A CN 201810589643A CN 108711429 B CN108711429 B CN 108711429B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- preset
- integrated circuit
- circuit chip
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000005236 sound signal Effects 0.000 claims abstract description 176
- 239000000284 extract Substances 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims description 100
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000000088 lip Anatomy 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 210000003320 palatal muscle Anatomy 0.000 description 2
- 210000003800 pharynx Anatomy 0.000 description 2
- 210000001584 soft palate Anatomy 0.000 description 2
- 210000002105 tongue Anatomy 0.000 description 2
- 210000000515 tooth Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种电子设备及设备控制方法,其中,本申请实施例的电子设备包括中央处理器和专用集成电路芯片,首先由功耗较低的专用集成电路芯片获取外部的音频信号,对获取到的音频信号进行识别操作,得到识别结果,并发送指示识别操作完成的指示信息至中央处理器,再由中央处理器根据指示信息,从专用集成电路芯片提取识别结果,并执行对应识别结果的目标操作。由此,将中央处理器的音频识别任务分担至功耗较低的专用集成电路芯片完成,并由中央处理器根据专用集成电路芯片的识别结果执行对应的目标操作,通过这种专用集成电路协同中央处理器进行对电子设备语音控制的方式,能够降低电子设备实现语音控制的功耗。
Description
技术领域
本申请涉及电子设备技术领域,具体涉及一种电子设备及设备控制方法。
背景技术
目前,语音识别技术在电子设备的应用越来越广泛,利用语音识别技术,可以实现对电子设备的语音控制,比如,用户可以说出特定的语音指令,来控制电子设备拍照、播放音乐等。但是,相关技术中对电子设备的语音控制需要由电子设备的处理器完成,存在功耗较高的问题。
发明内容
本申请实施例提供了一种电子设备及设备控制方法,能够降低电子设备实现语音控制的功耗。
第一方面,本申请实施例提供了一种电子设备,该电子设备包括中央处理器和专用集成电路芯片,且所述专用集成电路芯片的功耗小于所述中央处理器的功耗,其中,
所述专用集成电路芯片用于获取外部的音频信号;
所述专用集成电路芯片还用于对所述音频信号进行识别操作,得到识别结果;
所述专用集成电路芯片还用于发送指示识别操作完成的指示信息至所述中央处理器;
所述中央处理器用于根据所述指示信息,从所述专用集成电路芯片提取所述识别结果,并执行对应所述识别结果的目标操作。
第二方面,本申请实施例了提供了的一种设备控制方法,应用于电子设备,该电子设备包括中央处理器和专用集成电路芯片,且所述专用集成电路芯片的功耗小于所述中央处理器的功耗,该设备控制方法包括:
所述专用集成电路芯片获取外部的音频信号;
所述专用集成电路芯片对所述音频信号进行识别,得到识别结果;
所述专用集成电路芯片发送识别完成的指示信息至所述中央处理器;
所述中央处理器根据所述指示信息,从所述专用集成电路芯片提取所述识别结果,并执行对应所述识别结果的目标操作。
本申请实施例的电子设备包括中央处理器和专用集成电路芯片,首先由功耗较低的专用集成电路芯片获取外部的音频信号,对获取到的音频信号进行识别操作,得到识别结果,并发送指示识别操作完成的指示信息至中央处理器,再由中央处理器根据指示信息,从专用集成电路芯片提取识别结果,并执行对应识别结果的目标操作。由此,将中央处理器的音频识别任务分担至功耗较低的专用集成电路芯片完成,并由中央处理器根据专用集成电路芯片的识别结果执行对应的目标操作,通过这种专用集成电路协同中央处理器进行对电子设备语音控制的方式,能够降低电子设备实现语音控制的功耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的电子设备的第一结构示意图。
图2是本申请实施例提供的电子设备的第二结构示意图。
图3是本申请实施例提供的电子设备的第三结构示意图。
图4是本申请实施例提供的电子设备的第四结构示意图。
图5是本申请实施例提供的设备控制方法的流程示意图。
图6是本申请实施例中专用集成电路芯片对音频信号进行识别的细化流程示意图。
图7是本申请实施例中央处理器执行目标操作的细化流程示意图。
具体实施方式
应当理解,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种电子设备,请参照图1,电子设备100包括专用集成电路芯片101和中央处理器102,且专用集成电路芯片101的功耗小于中央处理器102的功耗,其中,
专用集成电路芯片101用于获取外部的音频信号,对获取到的音频信号进行识别操作,得到识别结果,并发送指示识别操作完成的指示信息至中央处理器102。
需要说明的是,本申请实施例中的专用集成电路芯片101是以音频识别为目的而设计的专用集成电路,其相较于通用的中央处理器102,具有更高的音频识别效率以及更低的功耗。专用集成电路芯片101与中央处理器102通过通信总线建立数据通信连接
其中,专用集成电路芯片101可以通过多种不同方式来获取外部的音频信号,比如,在电子设备未外接麦克风时,专用集成电路芯片101可以通过电子设备内置的麦克风(图1未示出)对外部发音者发出的声音进行采集,得到外部的音频信号;又比如,在电子设备外接有麦克风时,专用集成电路芯片101可以通过电子设备外接的麦克风对外部声音进行采集,得到外部的音频信号。
其中,专用集成电路芯片101在通过麦克风采集外部的音频信号时,若麦克风为模拟麦克风,将采集到模拟的音频信号,专用集成电路芯片101需要对模拟的音频信号进行采样,将模拟的音频信号转换为数字化的音频信号,比如,可以16KHz的采样频率进行采样;此外,若麦克风为数字麦克风,专用集成电路芯片101将通过数字麦克风直接采集到数字化的音频信号,无需进行转换。
在获取到外部的音频信号之后,专用集成电路芯片101根据预先配置的识别模式,对获取到的音频信号进行识别操作,得到识别结果。
比如,在专用集成电路芯片101的识别模式被配置为性别识别时,专用集成电路芯片101在对获取到的音频信号进行识别时,将从音频信号中提取出能够表征性别的特征信息,并根据提取出的特征信息,对音频信号的发音者的性别进行识别,得到该发音者为男、或为女的识别结果。
又比如,在专用集成电路芯片101的识别模式被配置为环境类型(地铁车厢场景、公交车厢场景、办公室场景等)识别时,专用集成电路芯片101在对获取到的音频信号进行识别时,将从音频信号中提取出能够表征环境场景的特征信息,并根据提取出的特征信息对当前所处的环境场景进行识别,得到用于描述当前环境场景类型的识别结果。
在完成对音频信号的识别操作,并得到识别结果之后,专用集成电路芯片101发送指示识别操作完成的指示信息至中央处理器102,形象的说,该指示信息的作用在于告知中央处理器102,专用集成电路芯片101已经完成对音频信号的识别操作,可以从专用集成电路芯片101提取识别结果。其中,前述指示信息可以中断信号信号的形式发送。
中央处理器102用于根据接收到的指示信息,从专用集成电路芯片101提取前述识别结果,并执行对应前述识别结果的目标操作。
相应的,中央处理器102在接收到来自专用集成电路芯片101的指示信息之后,根据该指示信息,从专用集成电路芯片101处提取专用集成电路芯片101对音频信号进行识别所得到的识别结果。
在提取到音频信号的识别结果之后,中央处理器102进一步执行对应该识别结果的目标操作。
比如,在专用集成电路芯片101被配置为性别识别时,若提取到“发音者为男”的识别结果,则将操作***的主题模式切换为男性化的主题模式,若提取到“发音者为女”的识别结果,则将操作***的主题模式切换为女性化的主题模式。
又比如,在专用集成电路芯片101被配置为环境类型识别时,若提取到“办公室场景”的识别结果,则将操作***的提示模式切换为静音模式,若提取到“公交车厢场景”的识别结果,则将操作***的提示模式切换为振动+响铃模式等等。
由上可知,本申请实施例的电子设备包括中央处理器102和专用集成电路芯片101,首先由功耗较低的专用集成电路芯片101获取外部的音频信号,对获取到的音频信号进行识别操作,得到识别结果,并发送指示识别操作完成的指示信息至中央处理器102,再由中央处理器102根据指示信息,从专用集成电路芯片101提取识别结果,并执行对应识别结果的目标操作。由此,将中央处理器102的音频识别任务分担至功耗较低的专用集成电路芯片101完成,并由中央处理器102根据专用集成电路芯片101的识别结果执行对应的目标操作,通过这种专用集成电路协同中央处理器102进行对电子设备语音控制的方式,能够降低电子设备实现语音控制的功耗。
在一实施方式中,请参照图2,专用集成电路芯片101包括微控制单元1011、预处理单元1012以及算法单元1013,其中,
预处理单元1012用于根据微控制单元1011的控制,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数;
算法单元1013用于根据微控制单元1011的控制,使用深度神经网络算法对梅尔频率倒谱系数进行关键词识别,得到候选关键词以及候选关键词的置信度。
其中,微控制单元1011首先通过麦克风获取到外部的音频信号,比如,在电子设备未外接麦克风时,微控制单元1011可以通过电子设备内置的麦克风(图2未示出)对外部声音进行采集,得到外部的音频信号;又比如,在电子设备外接有麦克风时,微控制单元1011可以通过电子设备外接的麦克风对外部声音进行采集,得到外部的音频信号。
其中,微控制单元1011在通过麦克风采集外部的音频信号时,若麦克风为模拟麦克风,将采集到模拟的音频信号,微控制单元1011需要对模拟的音频信号进行采样,将模拟的音频信号转换为数字化的音频信号,比如,可以16KHz的采样频率进行采样;此外,若麦克风为数字麦克风,微控制单元1011将通过数字麦克风直接采集到数字化的音频信号,无需进行转换。
在获取到外部的音频信号之后,微控制单元1011生成第一控制信息,将该第一控制信息发送至预处理单元1012。
预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,根据该第一控制信息,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。在提取到音频信号的梅尔频率倒谱系数之后,预处理单元1012发送第一反馈信息至微控制单元1011。
微控制单元1011在接收到来自预处理单元1012的第一反馈信息之后,确定预处理单元1012当前已经提取到音频信号的梅尔频率倒谱系数,此时生成第二控制信息,
算法单元1013在接收到来自微控制单元1011的第二控制信息之后,使用内置的深度神经网络算法,对前述梅尔频率倒谱系数进行关键词识别(关键词识别也即是检测音频信号对应的语音中是否出现预先定义的单词),得到候选关键词以及候选关键词的置信度。在完成关键词识别并识别得到候选关键词以及候选关键词的置信度之后,算法单元1013发送第二反馈信息至微控制单元1011。
微控制单元1011在接收到来自算法单元1013的第二反馈信息之后,确定算法单元1013已经完成关键词识别,将算法单元1013识别得到的候选关键词以及候选关键词的置信度作为此次对音频信号进行识别操作的识别结果。
在一实施方式中,请参照图3,专用集成电路芯片101还包括内存1014,用于存储获取到的音频信号、识别出候选关键词、置信度以及预处理单元1012和算法单元1013在执行过程中产生的中间数据。
比如,微控制单元1011将通过麦克风获取到的音频信号存储在内存1014中;预处理单元1012根据微控制单元1011的控制,使用梅尔频率倒谱系数算法提取内存1014中存储的音频信号的梅尔频率倒谱系数,并将提取出的梅尔频率倒谱系数存储在内存1014中;算法单元1013根据微控制单元1011的控制,使用内置的深度神经网络算法,对内存1014中存储的梅尔频率倒谱系数进行关键词识别,得到候选关键词以及候选关键词的置信度,将得到候选关键词以及候选关键词的置信度存储在内存1014中。
在一实施方式中,请参照图4,专用集成电路芯片101还包括高速缓冲存储器1015,用于对存入内存1014的数据、从内存1014中取出的数据进行缓存。
其中,高速缓冲存储器1015相较于内存1014其存储空间较小,但速度更高,通过高速缓冲存储器1015可以提升预处理单元1012以及算法单元1013的处理效率。
比如,预处理单元1012在对音频信号进行梅尔频率倒谱系数的提取时,当预处理单元1012直接从内存1014中存取数据时要等待一定时间周期,而高速缓冲存储器1015则可以保存预处理单元1012刚用过或循环使用的一部分数据,如果预处理单元1012需要再次使用该部分数据时可从高速缓冲存储器1015中直接调用,这样就避免了重复存取数据,减少了预处理单元1012的等待时间,从而提升了其处理效率。
在一实施方式中,预处理单元1012在使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数之前,还对音频信号进行预处理,在完成对音频信号的预处理之后,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。
其中,预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,首先对对音频信号进行预加重和加窗等预处理。
其中,预加重也即是增加音频信号高频部分的能量。对于音频信号的频谱来说,往往低频部分的能量高于高频部分的能量,每经过10倍Hz,频谱能量就会衰减20dB,而且由于麦克风在采集音频信号时电路本底噪声的影响,也会增加低频部分的能量,为使高频部分的能量和低频部分能量有相似的幅度,需要预加强采集到音频信号的高频能量。
由于音频信号一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短的时间内,可以认为信号时平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫秒)、偏移和形状。每一个加窗的音频信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界的距离叫帧移。本申请实施例中,可以使用边缘平滑降到0的汉明窗进行加窗处理。
在完成对音频信号的预处理之后,预处理单元1012即可使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。其中,预处理单元1012提取梅尔频率倒谱系数的过程大致为:利用人耳听觉的非线性特性,将音频信号的频谱转换为基于梅尔频率的非线性频谱,再转换到倒谱域,由此得到梅尔频率倒谱系数。
在一实施方式中,预处理单元1012还用于在对音频信号进行预处理之前,提取音频信号的声纹特征,判断该声纹特征是否与预设声纹特征匹配,并在该声纹特征与预设声纹特征匹配时,对音频信号进行预处理。
需要说明的是,在实际生活中,每个人说话时的声音都有自己的特点,熟悉的人之间,可以只听声音而相互辨别出来。这种声音的特点就是声纹特征,声纹特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。
第二个决定声纹特征的因素是发声器官***纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。
其中,预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,首先提取音频信号的声纹特征。
在获取到语音信息的声纹特征之后,预处理单元1012进一步将获取到的该声纹特征与预设声纹特征进行进行比对,以判断该声纹特征是否与预设声纹特征匹配。其中,预设声纹特征可以为机主预先录入的声纹特征,判断获取的音频信号的声纹特征是否与预设声纹特征匹配,也即是判断音频信号的发音者是否为机主。
在获取到的声纹特征与预设声纹特征匹配时,预处理单元1012确定音频信号的发音者为机主,此时进一步对音频信号进行预处理,并提取出梅尔频率倒谱系数,具体可参照以上相关描述,此处不再赘述。
在一实施方式中,预处理单元1012还用于获取前述声纹特征和预设声纹特征的相似度,判断获取到的相似度是否大于或等于第一预设相似度,并在获取到的相似度大于或等于第一预设相似度时,确定获取到的声纹特征与预设声纹特征匹配。
其中,预处理单元1012在判断获取到的声纹特征是否与预设声纹特征匹配时,可以获取该声纹特征(即从前述音频信号所获取到的声纹特征)与预设声纹特征的相似度,并判断获取到的相似度是否大于或等于第一预设相似度(根据实际需要进行设置,比如,可以设置为95%)。若获取到的相似度大于或等于第一预设相似度,则确定获取到的声纹特征与预设声纹特征匹配;若获取到的相似度小于低于相似度,则确定获取到的声纹特征与预设声纹特征不匹配。
此外,在获取到的声纹特征与预设声纹特征不匹配时,预处理单元1012确定当前音频信号的发音者不为机主,发送第三反馈信息至微控制单元1011。
微控制单元1011在接收到来自预处理单元1012的第三反馈信息之后,删除获取到的音频信号,并继续获取外部的音频信号,直至获取到机主的音频信号时,才对该音频信号进行预处理以及梅尔频率倒谱系数的提取,其中,对于如何进行预处理以及梅尔频率倒谱系数的提取,可参照以上实施例的相关描述,此处不再赘述。
由此,通过这种基于声纹特征对发音者进行身份认证的方式,仅对机主发出的音频信号进行响应,能够避免执行非机主意愿的操作,可以提升机主的使用体验。
在一实施方式中,预处理单元1012还用于在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息,根据该位置信息判断当前是否位于预设位置范围内,并在当前位于预设位置范围内时,确定前述声纹特征与预设声纹特征匹配。
需要说明的是,由于声纹特征和人体的生理特征密切相关,在日常生活中,如果用户感冒发炎的话,其声音将变得沙哑,声纹特征也将随之发生变化。在这种情况下,即使获取到的音频信号由机主说出,预处理单元1012也将无法识别出。此外,还存在多种导致预处理单元1012法识别出机主的情况,此处不再赘述。
为解决可能出现的、无法识别出机主的情况,预处理单元1012在完成对声纹特征相似度的判断之后,若获取到的声纹特征与预设声纹特征的相似度小于第一预设相似度,则进一步判断该声纹特征是否大于或等于第二预设相似度(该第二预设相似度配置为小于第一预设相似度,具体可由本领域技术人员根据实际需要取合适值,比如,在第一预设相似度被设置为95%时,可以将第二预设相似度设置为75%)。
在判断结果为是,也即是获取到的声纹特征与预设声纹特征的相似度小于第一预设相似度且大于或等于第二预设相似度时,预处理单元1012进一步获取到当前的位置信息。其中,预处理单元1012可以发送位置获取请求至电子设备的定位模组(可以采用卫星定位技术或者基站定位技术等不同的定位技术来获取到当前的位置信息),指示定位模组返回当前的位置信息。
在获取到当前的位置信息之后,预处理单元1012根据该位置信息判断当前是否位于预设位置范围内。其中,预设位置范围可以配置为机主的常用位置范围,比如家里和公司等。
在当前位于预设位置范围内时,预处理单元1012确定获取到的声纹特征与预设声纹特征匹配,将音频信号的发音者识别为机主。
在一实施方式中,中央处理器102还用于在候选关键词的置信度达到预设置信度时,将候选关键词作为音频信号的目标关键词,根据预设的关键词和预设操作的对应关系,将对应目标关键词的预设操作确定为目标操作,并执行该目标操作。
其中,中央处理器102在根据专用集成电路芯片101的指示信息,从专用集成电路芯片101提取到识别出的“候选关键词以及候选关键词的置信度”之后,首先判断候选关键词的置信度是否达到预设置信度(可由本领域技术人员根据实际需要取合适值,比如,可以设置为90%)
在完成对置信度的判断,且候选关键词的置信度达到预设置信度时,中央处理器102将候选关键词作为音频信号的目标关键词。
之后,中央处理器102根据预设的关键词和预设操作的对应关系,将对应目标关键词的预设操作确定为目标操作。其中,关键词和预设操作的对应关系可根据实际需要进行设置,比如,可以设置关键词“小欧,小欧”对应的预设操作为“唤醒操作***”,这样,当目标关键词为“小欧,小欧”时,若操作***当前处于休眠状态,中央处理器102将唤醒操作***。
进一步地,本申请实施例还提供了一种设备控制方法,该设备控制方法由本申请实施例提供的电子设备执行,该电子设备包括专用集成电路芯片101和中央处理器102,且专用集成电路芯片101的功耗小于中央处理器102的功耗,请参照图5,该设备控制方法包括:
101、专用集成电路芯片101获取外部的音频信号。
需要说明的是,本申请实施例中的专用集成电路芯片101是以音频识别为目的而设计的专用集成电路,其相较于通用的中央处理器102,具有更高的音频识别效率以及更低的功耗。专用集成电路芯片101与中央处理器102通过通信总线建立数据通信连接
其中,专用集成电路芯片101可以通过多种不同方式来获取外部的音频信号,比如,在电子设备未外接麦克风时,专用集成电路芯片101可以通过电子设备内置的麦克风(图1未示出)对外部发音者发出的声音进行采集,得到外部的音频信号;又比如,在电子设备外接有麦克风时,专用集成电路芯片101可以通过电子设备外接的麦克风对外部声音进行采集,得到外部的音频信号。
其中,专用集成电路芯片101在通过麦克风采集外部的音频信号时,若麦克风为模拟麦克风,将采集到模拟的音频信号,专用集成电路芯片101需要对模拟的音频信号进行采样,将模拟的音频信号转换为数字化的音频信号,比如,可以16KHz的采样频率进行采样;此外,若麦克风为数字麦克风,专用集成电路芯片101将通过数字麦克风直接采集到数字化的音频信号,无需进行转换。
102、专用集成电路芯片101对获取到的音频信号进行识别操作,得到识别结果。
在获取到外部的音频信号之后,专用集成电路芯片101根据预先配置的识别模式,对获取到的音频信号进行识别操作,得到识别结果。
比如,在专用集成电路芯片101的识别模式被配置为性别识别时,专用集成电路芯片101在对获取到的音频信号进行识别时,将从音频信号中提取出能够表征性别的特征信息,并根据提取出的特征信息,对音频信号的发音者的性别进行识别,得到该发音者为男、或为女的识别结果。
又比如,在专用集成电路芯片101的识别模式被配置为环境类型(地铁车厢场景、公交车厢场景、办公室场景等)识别时,专用集成电路芯片101在对获取到的音频信号进行识别时,将从音频信号中提取出能够表征环境场景的特征信息,并根据提取出的特征信息对当前所处的环境场景进行识别,得到用于描述当前环境场景类型的识别结果。
103、专用集成电路芯片101发送指示识别操作完成的指示信息至中央处理器102。
在完成对音频信号的识别操作,并得到识别结果之后,专用集成电路芯片101发送指示识别操作完成的指示信息至中央处理器102,形象的说,该指示信息的作用在于告知中央处理器102,专用集成电路芯片101已经完成对音频信号的识别操作,可以从专用集成电路芯片101提取识别结果。其中,前述指示信息可以中断信号信号的形式发送。
104、中央处理器102根据接收到的指示信息,从专用集成电路芯片101提取前述识别结果,并执行对应前述识别结果的目标操作。
相应的,中央处理器102在接收到来自专用集成电路芯片101的指示信息之后,根据该指示信息,从专用集成电路芯片101处提取专用集成电路芯片101对音频信号进行识别所得到的识别结果。
在提取到音频信号的识别结果之后,中央处理器102进一步执行对应该识别结果的目标操作。
比如,在专用集成电路芯片101被配置为性别识别时,若提取到“发音者为男”的识别结果,则将操作***的主题模式切换为男性化的主题模式,若提取到“发音者为女”的识别结果,则将操作***的主题模式切换为女性化的主题模式。
又比如,在专用集成电路芯片101被配置为环境类型识别时,若提取到“办公室场景”的识别结果,则将操作***的提示模式切换为静音模式,若提取到“公交车厢场景”的识别结果,则将操作***的提示模式切换为振动+响铃模式等等。
由上可知,本申请实施例中的电子设备,首先由功耗较低的专用集成电路芯片101获取外部的音频信号,对获取到的音频信号进行识别操作,得到识别结果,并发送指示识别操作完成的指示信息至中央处理器102,再由中央处理器102根据指示信息,从专用集成电路芯片101提取识别结果,并执行对应识别结果的目标操作。由此,将中央处理器102的音频识别任务分担至功耗较低的专用集成电路芯片101完成,并由中央处理器102根据专用集成电路芯片101的识别结果执行对应的目标操作,通过这种专用集成电路协同中央处理器102进行对电子设备语音控制的方式,能够降低电子设备实现语音控制的功耗。
在一实施方式中,请参照图2,专用集成电路芯片101包括微控制单元1011、预处理单元1012以及算法单元1013,请参照图6,专用集成电路芯片101对获取到的音频信号进行识别操作,得到识别结果的步骤,包括:
1021、预处理单元1012根据微控制单元1011的控制,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数;
1022、算法单元1013根据微控制单元1011的控制,使用深度神经网络算法对梅尔频率倒谱系数进行关键词识别,得到候选关键词以及候选关键词的置信度。
微控制单元1011首先通过麦克风获取到外部的音频信号,比如,在电子设备未外接麦克风时,微控制单元1011可以通过电子设备内置的麦克风(图2未示出)对外部声音进行采集,得到外部的音频信号;又比如,在电子设备外接有麦克风时,微控制单元1011可以通过电子设备外接的麦克风对外部声音进行采集,得到外部的音频信号。
其中,微控制单元1011在通过麦克风采集外部的音频信号时,若麦克风为模拟麦克风,将采集到模拟的音频信号,微控制单元1011需要对模拟的音频信号进行采样,将模拟的音频信号转换为数字化的音频信号,比如,可以16KHz的采样频率进行采样;此外,若麦克风为数字麦克风,微控制单元1011将通过数字麦克风直接采集到数字化的音频信号,无需进行转换。
在获取到外部的音频信号之后,微控制单元1011生成第一控制信息,将该第一控制信息发送至预处理单元1012。
预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,根据该第一控制信息,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。在提取到音频信号的梅尔频率倒谱系数之后,预处理单元1012发送第一反馈信息至微控制单元1011。
微控制单元1011在接收到来自预处理单元1012的第一反馈信息之后,确定预处理单元1012当前已经提取到音频信号的梅尔频率倒谱系数,此时生成第二控制信息,
算法单元1013在接收到来自微控制单元1011的第二控制信息之后,使用内置的深度神经网络算法,对前述梅尔频率倒谱系数进行关键词识别(关键词识别也即是检测音频信号对应的语音中是否出现预先定义的单词),得到候选关键词以及候选关键词的置信度。在完成关键词识别并识别得到候选关键词以及候选关键词的置信度之后,算法单元1013发送第二反馈信息至微控制单元1011。
微控制单元1011在接收到来自算法单元1013的第二反馈信息之后,确定算法单元1013已经完成关键词识别,将算法单元1013识别得到的候选关键词以及候选关键词的置信度作为此次对音频信号进行识别操作的识别结果。
此外,请参照图3,专用集成电路芯片101还包括内存1014,内存1014可以用于存储获取到的音频信号、识别出候选关键词、置信度以及预处理单元1012和算法单元1013在执行过程中产生的中间数据。
比如,微控制单元1011将通过麦克风获取到的音频信号存储在内存1014中;预处理单元1012根据微控制单元1011的控制,使用梅尔频率倒谱系数算法提取内存1014中存储的音频信号的梅尔频率倒谱系数,并将提取出的梅尔频率倒谱系数存储在内存1014中;算法单元1013根据微控制单元1011的控制,使用内置的深度神经网络算法,对内存1014中存储的梅尔频率倒谱系数进行关键词识别,得到候选关键词以及候选关键词的置信度,将得到候选关键词以及候选关键词的置信度存储在内存1014中。
请参照图4,专用集成电路芯片101还包括高速缓冲存储器1015,可以用于对存入内存1014的数据、从内存1014中取出的数据进行缓存。
其中,高速缓冲存储器1015相较于内存1014其存储空间较小,但速度更高,通过高速缓冲存储器1015可以提升预处理单元1012以及算法单元1013的处理效率。
比如,预处理单元1012在对音频信号进行梅尔频率倒谱系数的提取时,当预处理单元1012直接从内存1014中存取数据时要等待一定时间周期,而高速缓冲存储器1015则可以保存预处理单元1012刚用过或循环使用的一部分数据,如果预处理单元1012需要再次使用该部分数据时可从高速缓冲存储器1015中直接调用,这样就避免了重复存取数据,减少了预处理单元1012的等待时间,从而提升了其处理效率。
在一实施方式中,请参照图7,中央处理器102执行对应前述识别结果的目标操作的步骤,包括:
1041、中央处理器102在候选关键词的置信度达到预设置信度时,将候选关键词作为音频信号的目标关键词;
1042、中央处理器102根据预设的关键词和预设操作的对应关系,将对应目标关键词的预设操作确定为目标操作,并执行该目标操作。
其中,中央处理器102在根据专用集成电路芯片101的指示信息,从专用集成电路芯片101提取到识别出的“候选关键词以及候选关键词的置信度”之后,首先判断候选关键词的置信度是否达到预设置信度(可由本领域技术人员根据实际需要取合适值,比如,可以设置为90%)
在完成对置信度的判断,且候选关键词的置信度达到预设置信度时,中央处理器102将候选关键词作为音频信号的目标关键词。
之后,中央处理器102根据预设的关键词和预设操作的对应关系,将对应目标关键词的预设操作确定为目标操作。其中,关键词和预设操作的对应关系可根据实际需要进行设置,比如,可以设置关键词“小欧,小欧”对应的预设操作为“唤醒操作***”,这样,当目标关键词为“小欧,小欧”时,若操作***当前处于休眠状态,中央处理器102将唤醒操作***。
在一实施方式中,预处理单元1012在使用梅尔频率倒谱系数算法提取所述音频信号的梅尔频率倒谱系数的步骤之前,还包括:
(1)预处理单元1012对音频信号进行预处理;
(2)预处理单元1012在完成对音频信号的预处理之后,使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。
其中,预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,首先对对音频信号进行预加重和加窗等预处理。
其中,预加重也即是增加音频信号高频部分的能量。对于音频信号的频谱来说,往往低频部分的能量高于高频部分的能量,每经过10倍Hz,频谱能量就会衰减20dB,而且由于麦克风在采集音频信号时电路本底噪声的影响,也会增加低频部分的能量,为使高频部分的能量和低频部分能量有相似的幅度,需要预加强采集到音频信号的高频能量。
由于音频信号一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短的时间内,可以认为信号时平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫秒)、偏移和形状。每一个加窗的音频信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界的距离叫帧移。本申请实施例中,可以使用边缘平滑降到0的汉明窗进行加窗处理。
在完成对音频信号的预处理之后,预处理单元1012即可使用梅尔频率倒谱系数算法提取音频信号的梅尔频率倒谱系数。其中,预处理单元1012提取梅尔频率倒谱系数的过程大致为:利用人耳听觉的非线性特性,将音频信号的频谱转换为基于梅尔频率的非线性频谱,再转换到倒谱域,由此得到梅尔频率倒谱系数。
在一实施方式中,预处理单元1012对音频信号进行预处理的步骤之前,还包括:
(1)预处理单元1012提取音频信号的声纹特征;
(2)预处理单元1012判断提取出的声纹特征是否与预设声纹特征匹配;
(3)预处理单元1012在提取出的声纹特征与预设声纹特征匹配时,对前述音频信号进行预处理。
需要说明的是,在实际生活中,每个人说话时的声音都有自己的特点,熟悉的人之间,可以只听声音而相互辨别出来。这种声音的特点就是声纹特征,声纹特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。
第二个决定声纹特征的因素是发声器官***纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。
其中,预处理单元1012在接收到来自微控制单元1011的第一控制信息之后,首先提取音频信号的声纹特征。
在获取到语音信息的声纹特征之后,预处理单元1012进一步将获取到的该声纹特征与预设声纹特征进行进行比对,以判断该声纹特征是否与预设声纹特征匹配。其中,预设声纹特征可以为机主预先录入的声纹特征,判断获取的音频信号的声纹特征是否与预设声纹特征匹配,也即是判断音频信号的发音者是否为机主。
在获取到的声纹特征与预设声纹特征匹配时,预处理单元1012确定音频信号的发音者为机主,此时进一步对音频信号进行预处理,并提取出梅尔频率倒谱系数,具体可参照以上相关描述,此处不再赘述。
在一实施方式中,预处理单元1012判断提取出的声纹特征是否与预设声纹特征匹配的步骤,包括:
(1)预处理单元1012获取前述声纹特征和预设声纹特征的相似度;
(2)预处理单元1012判断获取到的相似度是否大于或等于第一预设相似度;
(3)预处理单元1012在获取到的相似度大于或等于第一预设相似度时,确定获取到的声纹特征与预设声纹特征匹配。
其中,预处理单元1012在判断获取到的声纹特征是否与预设声纹特征匹配时,可以获取该声纹特征(即从前述音频信号所获取到的声纹特征)与预设声纹特征的相似度,并判断获取到的相似度是否大于或等于第一预设相似度(根据实际需要进行设置,比如,可以设置为95%)。若获取到的相似度大于或等于第一预设相似度,则确定获取到的声纹特征与预设声纹特征匹配;若获取到的相似度小于低于相似度,则确定获取到的声纹特征与预设声纹特征不匹配。
此外,在获取到的声纹特征与预设声纹特征不匹配时,预处理单元1012确定当前音频信号的发音者不为机主,发送第三反馈信息至微控制单元1011。
微控制单元1011在接收到来自预处理单元1012的第三反馈信息之后,删除获取到的音频信号,并继续获取外部的音频信号,直至获取到机主的音频信号时,才对该音频信号进行预处理以及梅尔频率倒谱系数的提取,其中,对于如何进行预处理以及梅尔频率倒谱系数的提取,可参照以上实施例的相关描述,此处不再赘述。
由此,通过这种基于声纹特征对发音者进行身份认证的方式,仅对机主发出的音频信号进行响应,能够避免执行非机主意愿的操作,可以提升机主的使用体验。
在一实施方式中,预处理单元1012判断获取到的相似度是否大于或等于第一预设相似度的步骤之后,还包括:
(1)预处理单元1012在前述相似度小于第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;
(2)预处理单元1012根据获取到的位置信息判断当前是否位于预设位置范围内;
(3)预处理单元1012在当前位于预设位置范围内时,确定前述声纹特征与所述预设声纹特征匹配。
需要说明的是,由于声纹特征和人体的生理特征密切相关,在日常生活中,如果用户感冒发炎的话,其声音将变得沙哑,声纹特征也将随之发生变化。在这种情况下,即使获取到的音频信号由机主说出,预处理单元1012也将无法识别出。此外,还存在多种导致预处理单元1012法识别出机主的情况,此处不再赘述。
为解决可能出现的、无法识别出机主的情况,预处理单元1012在完成对声纹特征相似度的判断之后,若获取到的声纹特征与预设声纹特征的相似度小于第一预设相似度,则进一步判断该声纹特征是否大于或等于第二预设相似度(该第二预设相似度配置为小于第一预设相似度,具体可由本领域技术人员根据实际需要取合适值,比如,在第一预设相似度被设置为95%时,可以将第二预设相似度设置为75%)。
在判断结果为是,也即是获取到的声纹特征与预设声纹特征的相似度小于第一预设相似度且大于或等于第二预设相似度时,预处理单元1012进一步获取到当前的位置信息。其中,预处理单元1012可以发送位置获取请求至电子设备的定位模组(可以采用卫星定位技术或者基站定位技术等不同的定位技术来获取到当前的位置信息),指示定位模组返回当前的位置信息。
在获取到当前的位置信息之后,预处理单元1012根据该位置信息判断当前是否位于预设位置范围内。其中,预设位置范围可以配置为机主的常用位置范围,比如家里和公司等。
在当前位于预设位置范围内时,预处理单元1012确定获取到的声纹特征与预设声纹特征匹配,将音频信号的发音者识别为机主。
以上对本申请实施例所提供的一种电子设备及设备控制方法进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种电子设备,其特征在于,所述电子设备包括中央处理器和专用集成电路芯片,所述专用集成电路芯片为以音频识别为目的而设计的集成电路芯片,且所述专用集成电路芯片的功耗小于所述中央处理器的功耗,其中:
所述专用集成电路芯片用于获取外部的音频信号,并根据预先配置的识别模式对所述音频信号进行识别操作,得到识别结果后发送指示识别操作完成的指示信息至所述中央处理器,所述识别模式包括性别识别和/或环境识别;
所述中央处理器用于根据所述指示信息,从所述专用集成电路芯片中提取所述识别结果,并根据所述识别结果将所述电子设备切换到识别出的性别和/或环境对应的模式。
2.如权利要求1所述的电子设备,其特征在于,所述专用集成电路芯片包括微控制单元、预处理单元以及算法单元,其中:
所述预处理单元用于根据所述微控制单元的控制,使用梅尔频率倒谱系数算法提取所述音频信号的梅尔频率倒谱系数;
所述算法单元用于根据所述微控制单元的控制,使用深度神经网络算法对所述梅尔频率倒谱系数进行关键词识别,得到候选关键词以及所述候选关键词的置信度。
3.如权利要求2所述的电子设备,其特征在于,所述中央处理器还用于在所述置信度达到预设置信度时,将所述候选关键词作为所述音频信号的目标关键词,根据预设的关键词与预设操作的对应关系,将对应所述目标关键词的预设操作确定为所述目标操作,并执行所述目标操作。
4.如权利要求2所述的电子设备,其特征在于,所述专用集成电路芯片还包括内存,用于存储所述音频信号、所述候选关键词、所述置信度以及所述预处理单元和所述算法单元在执行过程中产生的中间数据。
5.如权利要求4所述电子设备,其特征在于,所述专用集成电路芯片还包括高速缓冲存储器,用于对存入所述内存的数据和从所述内存中取出的数据进行缓存。
6.如权利要求2-5任一项所述的电子设备,其特征在于,所述预处理单元还用于对所述音频信号进行预处理,在完成对所述音频信号的预处理之后,使用梅尔频率倒谱系数算法提取所述音频信号的梅尔频率倒谱系数。
7.如权利要求6所述的电子设备,其特征在于,所述预处理单元还用于提取所述音频信号的声纹特征,判断所述声纹特征是否与预设声纹特征匹配,并在所述声纹特征与所述预设声纹特征匹配时,对所述音频信号进行预处理。
8.如权利要求7所述的电子设备,其特征在于,所述预处理单元还用于获取所述声纹特征与所述预设声纹特征的相似度,判断所述相似度是否大于或等于第一预设相似度,并在所述相似度大于或等于所述第一预设相似度时,确定所述声纹特征与所述预设声纹特征匹配。
9.如权利要求8所述的电子设备,其特征在于,所述预处理单元还用于在所述相似度小于所述第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息,根据所述位置信息判断当前是否位于预设位置范围内,并在当前位于所述预设位置范围内时,确定所述声纹特征与所述预设声纹特征匹配。
10.一种设备控制方法,应用于电子设备,其特征在于,所述电子设备包括中央处理器和专用集成电路芯片,所述专用集成电路芯片为以音频识别为目的而设计的集成电路芯片,且所述专用集成电路芯片的功耗小于所述中央处理器的功耗,所述设备控制方法包括:
所述专用集成电路芯片获取外部的音频信号;
所述专用集成电路芯片根据预先配置的识别模式对所述音频信号进行识别,得到识别结果,所述识别模式包括性别识别和/或环境识别;
所述专用集成电路芯片发送指示识别操作完成的指示信息至所述中央处理器;
所述中央处理器根据所述指示信息,从所述专用集成电路芯片中提取所述识别结果,并根据所述识别结果将所述电子设备切换到识别出的性别和/或环境对应的模式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589643.2A CN108711429B (zh) | 2018-06-08 | 2018-06-08 | 电子设备及设备控制方法 |
PCT/CN2019/085554 WO2019233228A1 (zh) | 2018-06-08 | 2019-05-05 | 电子设备及设备控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589643.2A CN108711429B (zh) | 2018-06-08 | 2018-06-08 | 电子设备及设备控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108711429A CN108711429A (zh) | 2018-10-26 |
CN108711429B true CN108711429B (zh) | 2021-04-02 |
Family
ID=63871448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589643.2A Expired - Fee Related CN108711429B (zh) | 2018-06-08 | 2018-06-08 | 电子设备及设备控制方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108711429B (zh) |
WO (1) | WO2019233228A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711429B (zh) * | 2018-06-08 | 2021-04-02 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
CN109636937A (zh) * | 2018-12-18 | 2019-04-16 | 深圳市沃特沃德股份有限公司 | 语音考勤方法、装置及终端设备 |
CN110223687B (zh) * | 2019-06-03 | 2021-09-28 | Oppo广东移动通信有限公司 | 指令执行方法、装置、存储介质及电子设备 |
CN110310645A (zh) * | 2019-07-02 | 2019-10-08 | 上海迥灵信息技术有限公司 | 智能控制***的语音控制方法、装置和存储介质 |
CN111508475B (zh) * | 2020-04-16 | 2022-08-09 | 五邑大学 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
CN113744117A (zh) * | 2020-05-29 | 2021-12-03 | Oppo广东移动通信有限公司 | 多媒体处理芯片、电子设备及动态图像处理方法 |
CN113352987B (zh) * | 2021-05-31 | 2022-10-25 | 亿咖通(湖北)技术有限公司 | 一种控制车机警告音的方法及*** |
CN115527373B (zh) * | 2022-01-05 | 2023-07-14 | 荣耀终端有限公司 | 乘车工具识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181510A (ja) * | 2003-12-17 | 2005-07-07 | Toshiba Corp | Icボイスリピータ |
CN102905029A (zh) * | 2012-10-17 | 2013-01-30 | 广东欧珀移动通信有限公司 | 一种手机及智能语音寻找手机的方法 |
CN103474071A (zh) * | 2013-09-16 | 2013-12-25 | 重庆邮电大学 | 嵌入式便携语音控制器及语音识别的智能家居*** |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN106250751A (zh) * | 2016-07-18 | 2016-12-21 | 青岛海信移动通信技术股份有限公司 | 一种移动设备及调整体征信息检测阈值的方法 |
CN106940998A (zh) * | 2015-12-31 | 2017-07-11 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9728184B2 (en) * | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
CN104143327B (zh) * | 2013-07-10 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
KR101844932B1 (ko) * | 2014-09-16 | 2018-04-03 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
US10140572B2 (en) * | 2015-06-25 | 2018-11-27 | Microsoft Technology Licensing, Llc | Memory bandwidth management for deep learning applications |
KR102423302B1 (ko) * | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
CN105488227B (zh) * | 2015-12-29 | 2019-09-20 | 惠州Tcl移动通信有限公司 | 一种电子设备及其基于声纹特征处理音频文件的方法 |
CN106228240B (zh) * | 2016-07-30 | 2020-09-01 | 复旦大学 | 基于fpga的深度卷积神经网络实现方法 |
CN108711429B (zh) * | 2018-06-08 | 2021-04-02 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
-
2018
- 2018-06-08 CN CN201810589643.2A patent/CN108711429B/zh not_active Expired - Fee Related
-
2019
- 2019-05-05 WO PCT/CN2019/085554 patent/WO2019233228A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181510A (ja) * | 2003-12-17 | 2005-07-07 | Toshiba Corp | Icボイスリピータ |
CN102905029A (zh) * | 2012-10-17 | 2013-01-30 | 广东欧珀移动通信有限公司 | 一种手机及智能语音寻找手机的方法 |
CN103474071A (zh) * | 2013-09-16 | 2013-12-25 | 重庆邮电大学 | 嵌入式便携语音控制器及语音识别的智能家居*** |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN106940998A (zh) * | 2015-12-31 | 2017-07-11 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN106250751A (zh) * | 2016-07-18 | 2016-12-21 | 青岛海信移动通信技术股份有限公司 | 一种移动设备及调整体征信息检测阈值的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108711429A (zh) | 2018-10-26 |
WO2019233228A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711429B (zh) | 电子设备及设备控制方法 | |
US20210082429A1 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US11854550B2 (en) | Determining input for speech processing engine | |
KR20180091903A (ko) | 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN108806684B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN111210829A (zh) | 语音识别方法、装置、***、设备和计算机可读存储介质 | |
Ivanko et al. | Multimodal speech recognition: increasing accuracy using high speed video data | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及*** | |
CN113851136A (zh) | 基于聚类的说话人识别方法、装置、设备及存储介质 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN111276156B (zh) | 一种实时语音流监控的方法 | |
CN114067782A (zh) | 音频识别方法及其装置、介质和芯片*** | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
CN109922397A (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 | |
CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
CN110083392B (zh) | 音频唤醒预录的方法、存储介质、终端及其蓝牙耳机 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN110895941A (zh) | 声纹识别方法、装置及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210402 |
|
CF01 | Termination of patent right due to non-payment of annual fee |