CN108139878B - 电子设备及其控制方法 - Google Patents
电子设备及其控制方法 Download PDFInfo
- Publication number
- CN108139878B CN108139878B CN201580083251.3A CN201580083251A CN108139878B CN 108139878 B CN108139878 B CN 108139878B CN 201580083251 A CN201580083251 A CN 201580083251A CN 108139878 B CN108139878 B CN 108139878B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- trigger
- processor
- buffer
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 239
- 239000000872 buffer Substances 0.000 claims description 34
- 230000004044 response Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 16
- 230000003213 activating effect Effects 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000002583 angiography Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000009530 blood pressure measurement Methods 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- -1 electrical Substances 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M1/00—Analogue/digital conversion; Digital/analogue conversion
- H03M1/12—Analogue/digital converters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
提供了一种电子设备及其控制方法。所述电子设备包括:麦克风,用于接收外部音频信号;模拟/数字转换器(ADC),用于将音频信号处理为数字信号;存储器,用于存储音频信号;以及处理器,用于确定从麦克风输入的音频信号是否是用户的语音,并基于确定结果压缩音频信号,以将经压缩的音频信号存储在存储器中,其中,ADC和处理器能够被实现为一个芯片。
Description
技术领域
本公开涉及电子设备及其控制方法,更具体地涉及通过用户语音激活电子设备并执行应用的功能的电子设备及其控制方法。
背景技术
近年来,用于通过使用通过麦克风输入的用户语音来控制电子设备的技术已被用于各种电子设备。例如,智能电视可以通过用户语音改变频道和控制音量,智能手机可以通过用户语音获取各种信息。
特别地,在电子设备未被激活时,可以通过使用用户语音来激活电子设备。这里,用于激活电子设备的用户语音被称为触发语音。为了使电子设备确定触发语音,用于确定触发语音的组件必须在电子设备未被激活时被激活。尤其是,如果在电子设备未被激活时开启用于确定触发语音的组件,则会发生用于确定触发语音的组件消耗电力的问题。即,需要以低电力驱动用于确定触发语音的组件。
另外,如果除了触发语音之外,还顺序地接收到后续指令,则为了存储与触发语音对应的音频信号和后续指令,存储器的容量应当变得更大。如果存储器的容量增加,则会出现用于确定触发语音的组件的功耗增加的问题。
因此,需要找到一种以低电力驱动用于确定触发语音的组件的方法以及一种用于使存储触发语音和后续指令的缓冲器的尺寸最小化的方法。
发明内容
要解决的问题
已经做出本公开,以解决上述问题并且提供可以以低电力驱动用于确定触发语音的组件且使存储音频信号的存储器的尺寸最小化的电子设备及其控制方法。
解决问题的手段
根据实施例,提供了一种电子设备,其包括:麦克风,被配置为接收外部音频信号;模拟/数字转换器(ADC),被配置为将音频信号处理为数字信号;存储器,被配置为存储音频信号;以及处理器,被配置为确定从麦克风输入的音频信号是否是用户语音,基于确定结果压缩音频信号,并将经压缩的音频信号存储在存储器中,ADC和处理器可以被实现为单个芯片。
响应于确定出从麦克风输入的音频信号是用户语音,所述处理器可以压缩音频信号并将经压缩的音频信号存储在存储器中,并且响应于确定出从麦克风输入的音频信号不是用户语音,所述处理器可以不压缩音频信号。
所述处理器通过确定音频信号的一部分是否是用于激活电子设备的触发语音来确定是否恢复经压缩的音频信号。
所述电子设备包括应用处理器,所述应用处理器被配置为控制在电子设备中被驱动的应用,并且,响应于确定出音频信号的一部分是触发语音,所述处理器可以恢复经压缩的音频信号且向应用处理器输出恢复的音频信号,以及响应于确定出音频信号不是触发语音,所述处理器可以不恢复存储在存储器中的经压缩的音频信号。
响应于确定出音频信号的一部分是触发语音,所述处理器可以向应用处理器输出用于激活应用处理器的信号。
响应于被输入了恢复的音频信号,所述应用处理器可以激活与音频信号对应的应用,并且通过使用除了与音频信号的与触发语音对应的部分之外的指令来执行应用的功能。
所述处理器可以在压缩音频信号的同时,实时地确定音频信号的一部分与触发语音对应的概率,并且响应于确定出实时地确定的概率小于预定值,停止音频信号的压缩;以及响应于音频信号的一部分与触发语音对应的最终概率等于或大于预定值,所述处理器可以压缩与除了音频信号的一部分之外的剩余指令对应的片段,并将经压缩的片段存储在存储器中。
根据实施例,提供了一种用于控制电子设备的方法,其包括:接收外部音频信号;确定从麦克风输入的音频信号是否是用户语音;以及基于确定结果压缩输入的音频信号并将经压缩的音频信号存储在存储器中。
所述存储可以包括:响应于确定出从麦克风输入的音频信号是用户语音,压缩音频信号并将经压缩的音频信号存储在存储器中,以及响应于确定出从麦克风输入的音频信号不是用户语音,不压缩音频信号。
所述方法还可以包括:确定音频信号的一部分是否是用于激活电子设备的触发语音,以及确定是否恢复经压缩的音频信号。
所述方法可以包括:响应于确定出音频信号不是触发语音,不恢复存储在存储器中的经压缩的音频信号,以及响应于确定出音频信号的一部分是触发语音,恢复经压缩的音频信号并向应用处理器输出恢复的音频信号。
所述方法可以包括:响应于确定出音频信号的一部分是触发语音,向应用处理器输出用于激活应用处理器的信号。
所述方法可以包括:响应于被输入了恢复的音频信号,由应用处理器激活与音频信号对应的应用,并通过使用除了音频信号的与触发语音对应的部分之外的指令来执行应用的功能。
所述确定可以包括:在压缩音频信号的同时,实时地确定音频信号的一部分与触发语音对应的概率,以及响应于确定出实时地确定的概率小于预定值,停止音频信号的压缩,并且所述方法可以包括:响应于音频信号的一部分音频信号与触发语音对应的最终概率等于或大于预定值,压缩与除了音频信号的一部分之外的剩余指令对应的片段,并将经压缩的片段存储在存储器中。
根据实施例,提供了一种计算机可读记录介质,其包括执行用于控制电子设备的方法的程序,其中控制方法包括:接收外部音频信号;确定从麦克风输入的音频信号是否是用户语音;以及基于确定结果压缩输入的音频信号,并将经压缩的音频信号存储在存储器中。
本发明的效果
根据各种实施例,可以以低电力驱动用于确定触发语音的芯片,并且可以通过确定除了触发语音之外的后续指令来快速地执行与后续指令对应的功能。
附图说明
图1是示出根据实施例的电子设备的简要配置的视图;
图2是示出根据实施例的电子设备的详细配置的视图;
图3是示出根据实施例的用于压缩触发语音的电子设备的多个配置的框图;
图4a和图4b是示出根据各种实施例的编码器和解码器的配置的框图;
图5是示出根据实施例的使用触发语音概率来确定触发语音的方法的曲线图;
图6a至图6c是示出根据各种实施例的用于实现用于压缩触发语音的处理器的方法的视图;以及
图7和图8是示出根据各种实施例的电子设备的控制方法的流程图。
具体实施方式
根据结合附图进行的以下描述,本公开的某些实施例的以上和其他方面、特征和优点将更加明显。然而,应当理解的是,本公开不限于下文描述的具体实施例,而是包括本公开的实施例的各种修改、等同物和/或替代物。关于附图的说明,类似的附图标记可以用于类似的构成元件。
在说明书中,术语“具有”、“可以具有”、“包括”或“可以包括”指示存在相应的特征(例如,数值、功能、操作或者诸如组件的构成元件),但并不排除存在另外的特征。
在说明书中,术语“A或B”、“A或/和B中的至少一个”或“A或/和B中的一个或更多个”可以包括一起列举的项目的所有可能的组合。例如,术语“A或B”或“A或/和B中的至少一个”可以指定:(1)至少一个A;(2)至少一个B;或(3)至少一个A和至少一个B。
如这里所使用的表述“1”、“2”、“第一”或“第二”可以修饰各种元件,而不管其顺序和/或重要性,并且仅是为了将一个元件与另一元件进行区分。因此,并不限制相应的元件。例如,第一用户应用和第二用户应用可以指示不同的用户应用,而不管它们的顺序或重要性。例如,在不脱离这里所描述的范围的情况下,第一元件可以被称为第二元件,或者类似地,第二元件可以被称为第一元件。
如果描述了某个元件(例如,第一元件)“(可操作地或可通信地)与另一元件(例如,第二元件)结合/结合到另一元件(例如,第二元件)”或“连接到”另一元件(例如,第二元件),则应当理解的是,该某个元件可以直接连接到其他元件或通过又一个元件(例如,第三元件)连接到其他元件。同时,当提到一个元件(例如,第一元件)与另一元件(例如,第二元件)“直接结合”或“直接连接到”另一元件时,可以理解,在一个元件和另一元件之间不存在元件(例如,第三元件)。
在说明书中,在某些情况下,术语“被配置为……”可以改变为例如“适合于……”、“具有......的能力”、“设计为……”、“适于……”、“做成……”或“能够……”。在硬件层面上,术语“被配置为(设为)……”不一定意味着“专门设计为……”。在某些情况下,术语“被配置为……的设备”可以指“能够”与另一设备或组件一起进行某事的设备。例如,短语“被配置为执行A、B和C的处理器”可以指示或指的是用于执行相应操作的专用处理器(例如,嵌入式处理器)或能够通过运行存储在存储器设备中的一个或更多个软件程序来执行相应操作的通用处理器(例如,CPU或应用处理器)。
在说明书中使用的术语仅用于描述具体实施例,但不会意图限制其他实施例的范围。除非另有具体定义,否则单数的表述可以包括复数的表述。在说明书中使用的所有术语(包括技术和科学术语)可以作为本公开所属领域的普通技术人员通常理解的含义来使用。在本公开中使用并且在通用词典中定义的术语可以作为与来自相关技术的上下文的术语的含义相同或相似的含义来使用,并且除非它们已被明确和特别地定义,否则它们不被理想地或过度地解释。根据情况,即使在本公开的实施例中定义的术语也不应当被解释为排除本公开的实施例。
根据本公开的各种实施例的电子设备可以包括例如以下项中的至少一个:智能电话、平板PC(个人计算机)、移动电话、视频电话、电子书阅读器、台式PC(个人计算机)、膝上型PC(个人计算机)、上网本计算机、工作站、服务器、PDA(个人数字助理)、PMP(便携式多媒体播放器)、MP3播放器、移动医疗设备、相机和可穿戴设备。根据各种实施例,可穿戴设备可以包括以下项中的至少一个:配饰类型(例如:手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式设备(HMD))、织物或衣物嵌入类型(例如:电子衣物)、身体附着型(例如:皮肤垫或纹身)或生物植入物电路(例如:植入式电路)。
在另一实施例中,电子设备可以是家用电器。电子设备可以包括例如以下项中的至少一个:电视、数字视盘(DVD)播放器、音频、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气清洁器、机顶盒、家庭自动化控制面板、安全控制面板、电视盒(例如:SamsungHomeSyncTM、Apple TVTM或Google TVTM)、游戏控制台(例如:XboxTM、PlayStationTM)、电子词典、电子钥匙、摄像机或电子相框。
在另一实施例中,电子设备可以包括各种医疗设备(例如:各种便携式医疗测量设备(血糖监测器、心率监测器、血压测量设备或体温测量设备等)、磁共振血管造影(MRA)、磁共振血管成像(MRI)、计算机断层扫描(CT)、摄像设备或超声波设备等)、导航仪、全球导航卫星***(GNSS)、事件数据记录仪(EDR)、飞行数据记录仪、车辆资讯娱乐设备、船舶电子设备(例如:船舶导航设备、罗盘等)、航空电子设备、安全设备、车辆头部单元、工业或家用机器人、无人机、金融机构ATM、商店销售点(POS)或物联网设备(例如:灯泡、传感器、洒水器、火灾报警器、温度控制器、路灯、烤箱、体育用品、热水箱、加热器、锅炉(或热水器)等)。
根据一些实施例,电子设备可以包括家具、建筑物/结构或车辆的部件、电子板、电子签名接收设备、投影仪或各种测量设备(例如:水、电、气体或波测量设备等)中的至少一个。在各种实施例中,电子设备可以是一个或更多个上述设备的组合。在某个实施例中,电子设备可以是柔性电子设备。此外,根据本公开的实施例的电子设备不限于上述设备,而是可以包括根据技术发展的新的电子设备。
以下将参照附图描述根据各种实施例的电子设备。在本公开中,术语“用户”可以指示使用电子设备的人、由设备感测的人或者导致设备事件的人。用户的数量可以是多个。
在实施例中,术语“用户语音”可以指的是使用电子设备的特定人的语音,但它仅仅是一个实施例,“用户语音”可以是任何人的语音。
图1是示出根据实施例的电子设备100的简要配置的框图。如图1所示,电子设备100包括麦克风110、ADC 115、存储器120和处理器130。同时,根据实施例,ADC 115、存储器120和处理器130可以实现在单个芯片中。
麦克风110从外部接收音频信号。这里,音频信号可以包括用户语音,并且用户语音可以包括用于激活电子设备100的触发语音和用于控制电子设备100的指令。
ADC 115将通过麦克风接收的音频信号处理为数字形式的音频信号。
存储器120存储由ADC 115处理过的音频信号。特别地,存储器120可以存储经压缩的音频信号。这里,可以将存储器120实现为尺寸小于预定尺寸的缓冲器。
处理器130确定从麦克风110输入的音频信号是否是用户语音,基于确定结果来压缩音频信号输入,并将经压缩的音频信号存储在存储器120中。
具体地,如果确定出从麦克风110输入的音频信号是用户语音,则处理器130可以压缩音频信号并将经压缩的音频信号存储在存储器120中。然而,如果确定出从麦克风110输入的音频信号不是用户语音,则处理器130可以不压缩音频信号并删除音频信号。
另外,处理器120可以确定输入的音频信号的一部分是否是用于激活电子设备100的触发语音,并且确定经压缩的音频信号是否被恢复。
具体地,如果确定出音频信号的一部分是触发语音,则处理器130可以恢复经压缩的音频信号并将恢复的音频信号输出到应用处理器(以下称为“AP”)。特别地,如果确定出音频信号的一部分是触发语音,则处理器130可以将用于激活AP的信号输出到AP。这里,如果AP接收到恢复的音频信号,则AP可以激活与音频信号对应的应用,并使用除了音频信号的与触发语音对应的部分之外的指令来执行应用的功能。
特别地,当音频信号被压缩时,处理器130可以确定音频信号的该部分对应于触发语音的概率。另外,如果实时确定的概率大于预定值,则处理器130可以连续执行音频信号的压缩。然而,如果实时确定的概率小于预定值,则处理器130可以停止音频信号的压缩。
另外,最后,如果确定出触发信号未被包括在音频信号中,则处理器130可以不恢复存储在存储器120中的经压缩的音频信号。
然而,如果实时确定的概率小于预定值,且因此停止了音频信号的压缩,以及如果音频信号的该部分对应于触发语音的最终概率大于预定值,则处理器130可以压缩与除了音频信号的该部分之外的剩余指令对应的片段,并将经压缩的片段存储在存储器120中。另外,处理器130可以恢复与存储在存储器120中的指令对应的片段并将恢复的片段输出到AP。
根据上述各种实施例,电子设备100可以以低电力驱动用于确定触发语音的芯片,并且通过快速地识别除了触发语音之外的后续指令来快速地执行与后续指令对应的功能。
图2是示出根据实施例的电子设备200的详细配置的框图。如图2所示,电子设备包括麦克风210、ADC 215、存储器220、处理器230、AP 240、显示器250、传感器260和输入接口270。
麦克风210接收音频信号。这里,音频信号可以包括用户语音,用户语音可以包括触发语音和指令。这里,触发语音可以是用于激活处于非激活状态的电子设备100的语音。指令可以是用于在电子设备100的特定应用中运行特定功能的语音。例如,用户语音可以包括诸如“Hi,Galaxy”之类的触发语音以及诸如“几点钟了?”之类的指令。另外,触发语音和指令可以顺序地输入。即,可以在输入触发语音之后立即输入指令。
麦克风210可以被包括在电子设备200的主体中,但是它仅仅是一个实施例,麦克风210可以设置在电子设备200的外部并且以有线/无线方式与电子设备200连接。
ADC 215将通过麦克风接收的音频信号处理为数字形式的音频信号。这里,ADC215可以与存储器210和处理器230一起实现在单个芯片中。
存储器220接收通过麦克风210输入的音频信号。特别地,存储器220可以包括临时存储通过麦克风210输入的音频信号的第一缓冲器和存储经压缩的音频信号的第二缓冲器。
在现有方法中,为了存储五秒钟时长的音频信号,需要16kHz×16位×5秒×2ch=312.5kbyte的缓冲器。
然而,根据实施例,第一缓冲器仅需要长度为10毫秒时长的音频数据来确定音频信号是否是用户语音。因此,第一缓冲器可以具有16kHz×16位×10毫秒×2ch×2=1.25kbyte的尺寸(或容量)。另外,为了存储5秒种时长的经压缩的音频信号,第二缓冲器可以具有12.65kbps×5秒×2ch=18kbyte(基于G.722.2 12.65kbps)的尺寸。
即,根据实施例,第一缓冲器和第二缓冲器的尺寸远小于现有的缓冲器的尺寸。因此,因为减小了电子设备的音频缓冲器的大小,所以电子设备100可以以低电力驱动用于确定触发语音的芯片。
另外,如图3所示,存储器220可以包括诸如语音确定模块320、触发语音确定模块330、编码器340和解码器360的各种模块。特别地,如图4a所示,编码器340和解码器360可以以作为声码器的示例的G.722.2技术(自适应多速率宽带,AMR-WB)实现。即,编码器340可以包括语音活动检测模块341、语音编码器模块343、舒适噪声参数计算模块345和源控速率操作模块347,解码器360可以包括源控速率操作模块361、丢失帧隐藏模块363、语音解码器模块365和舒适噪声生成模块367。同时,在实施例中,压缩并恢复的是触发语音而不是普通语音,并且为了减少动态功率的消耗且更快速地执行压缩和恢复,如图4b所示,可以去除舒适噪声参数计算模块345、丢失帧隐藏模块363以及舒适噪声生成模块367。另外,由于语音活动检测模块341的功能与语音传感器320的功能相同,所以可以去除语音活动检测模块341,并且可以通过语音传感器320的模块执行相应的功能。
AP 240控制电子设备200的整体操作。特别地,AP 240可以通过驱动至少一个应用向用户提供电子设备200的各种功能。同时,在实施例中,已经将其定义为AP,但是它仅是实施例,并且当电子设备200处于激活状态时可以实现可以控制电子设备200的各种处理器。
显示器250输出图像数据。特别地,显示器250可以通过AP 240的控制来显示各种应用执行画面。特别地,显示器250可以灵活地、透明地并且以可穿戴的方式来实现。包括在显示器250中的面板可以在具有触摸面板的单个模块中实现。
传感器260可以测量物理量或者感测电子设备201的运行状态,并且将测量的或感测的信息转换为电信号。传感器260可以包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、生物传感器、温度-湿度传感器、照度传感器、紫外线(UV)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、虹膜传感器和/或指纹传感器。传感器260还可以包括用于控制其中的至少一个或更多个传感器的控制电路。根据实施例,电子设备200还可以包括作为处理器230和AP 240的一部分或其他方式的处理器,该处理器被配置为控制传感器260,并且在处理器230或AP 240处于睡眠状态时控制传感器260。
输入接口270可以接收各种用户指令。这里,输入接口270可以被实现为各种输入设备,诸如触摸面板、按钮、遥控器、键盘、鼠标和指针。
处理器230可以在电子设备200未被激活时通过使用经麦克风210输入的音频信号来确定电子设备200是否被激活,并且将包括在接收的音频信号中的指令发送到AP 240。
特别地,如图3所示,处理器230可以通过使用存储在存储器220中的各种模块和缓冲器来确定电子设备200是否被激活,并且将包括在接收的音频信号中的指令传输到AP240。
详细地,当电子设备200保持未激活状态时,麦克风210可以接收音频信号。这里,电子设备200的未激活是指这样的状态,即:除了确定触发语音是否被输入到电子设备200的配置(例如,麦克风210、存储器220和处理器230等)之外的配置被关闭,或者不执行其功能。
另外,第一缓冲器310可以暂时地存储通过麦克风210输入的音频信号。这里,第一缓冲器310可以存储10毫秒时长的音频信号片段,可以利用该音频信号片段来确定输入的音频信号是否是用户语音。
另外,语音确定模块320可以确定输入的音频信号是否包括用户语音。具体地,语音确定模块320可以分析输入的音频信号的频率并确定输入的音频信号是否是用户语音。
如果确定出输入的音频信号包括用户语音,则语音确定模块320可以控制编码器340以通过开启编码器340来压缩输入的音频信号。
编码器340可以压缩输入的音频信号并将经压缩的音频信号存储在第二缓冲器350中。
另外,触发语音确定模块330可以确定输入的音频信号是否包括触发语音。具体地,当编码器340压缩音频信号时,触发语音确定模块330可以实时地确定输入的音频信号与预先存储的触发语音信号之间的相似性概率。另外,触发语音确定模块330可以基于相似性概率停止编码器340的压缩操作。
例如,如图5中所示的附图标记520,如果相似性概率在编码器压缩音频信号的预定时间(例如,0.5秒)内小于预定值,则触发语音确定模块330可以停止编码器340的压缩操作。然而,如图5中所示的附图标记510,如果相似性概率在编码器340压缩音频信号的预定时间(例如,0.5秒)内超过预定值,则触发语音确定模块330可以维持编码器340的压缩操作。
因此,因为如果在音频信号中不包括触发语音,则可以不执行无用的压缩操作,所以将防止不必要的功耗。
另外,触发语音确定模块330可以最终确定输入的音频信号的一部分是否是触发语音,并且基于确定结果确定是否将恢复经压缩的音频信号。
具体地,如果输入的音频信号的一部分被确定为触发语音,则触发语音确定模块330可以开启解码器360并恢复经压缩的音频信号。特别地,当实时地确定相似性概率时,如果相似性概率小于预定值,但是最后输入的音频信号的一部分被确定为触发语音,则触发语音确定模块330重新开始已经停止的压缩操作、压缩输入的音频信号中的指令片段、将经压缩的片段存储在第二缓冲器350中以及恢复经压缩的指令片段中的音频信号。
特别地,如果确定出输入的音频信号的一部分是触发语音,则触发语音确定模块330可以通过控制功耗单元(未示出)来开启电子设备200,并将输入的音频信号(例如,指令)的至少一部分输出到AP 240。
当被输入恢复的音频信号时,AP 240可以激活与音频信号对应的应用,并通过使用除了与触发语音对应的音频信号之外的指令来执行应用的功能。例如,如果输入的音频信号是“Hi,Galaxy,几点钟了?”,则AP 240可以激活与输入的音频信号中的“几点钟了?”对应的时钟应用,以提供关于当前时间的指导信息。
然而,如果确定出输入的音频信号的一部分不是触发语音,则触发语音确定模块330可以关闭解码器360并且不执行恢复操作。因此,可以删除存储在第二缓冲器350中的压缩的音频信号。
同时,根据实施例,在电子设备200的非激活状态下通过触发语音来激活电子设备200的处理器230可以在单个芯片中实现。特别地,如图6a所示,用于确定触发语音的芯片610可以包括用于通过触发语音来激活电子设备200的专用ADC 611和处理器613。这里,电子设备200可以另外包括用于对通过麦克风605输入的电话语音等进行处理的ADC芯片620,并将从用于确定触发语音的芯片610输出的和从ADC芯片620输出的语音信号传输到AP630。这样,通过实现用于确定触发语音的芯片610,电子设备200可以在等待触发语音时关闭除了用于确定触发语音的芯片610之外的所有芯片,因此可以执行低电力驱动。
根据另一实施例,如图6b所示,用于确定触发语音的处理器643可以被包括在ADC芯片640中。在这种情况下,处理器643可以通过使用包括在ADC芯片640中的ADC 641来处理输入的音频信号。在这种情况下,用于确定触发语音的配置所需的ADC模块可以被替换为ADC芯片640中的ADC模块,因此可以降低制造成本。
根据另一实施例,如图6c所示,用于确定触发语音的处理器661可以被包括在AP660中。在这种情况下,处理器661可以基于通过外部的ADC芯片650处理的音频信号来确定是否输入了触发语音,并将控制指令传输到包括在AP 660中的AP主核663。在这种情况下,关键字词和指令可以直接存储在AP中。
图7是简要示出根据实施例的电子装置的控制方法的框图。
首先,在S710中,电子设备100接收外部音频信号。这里,音频信号可以包括用户语音,用户语音可以包括触发语音和指令。
另外,在S720中,电子设备100可以确定通过麦克风输入的音频信号是否是用户语音。
另外,在S730中,电子设备100可以基于确定结果压缩输入的音频信号并将经压缩的音频信号存储在存储器中。具体地,如果从麦克风输入的音频信号是用户语音,则电子设备100可以压缩输入的音频信号并将经压缩的音频信号存储在存储器中,如果输入的音频信号不是用户语音,则电子设备100可以不压缩输入的音频信号并删除输入的音频信号。
如上所述,通过基于音频信号是否为用户语音的确定结果来压缩和存储输入的音频信号,可以减小将包括在电子设备100中的存储器的尺寸。因此,可以在电子设备100保持在非激活状态的同时以低电力对其进行驱动。
图8是详细示出根据实施例的电子设备的控制方法的框图。
首先,在S810中,电子设备100接收音频信号。
另外,在S820中,电子设备100确定音频信号是否是用户语音。
如果确定出音频信号是用户语音(S820-是),则电子设备100在S830中压缩并存储音频信号。
另外,在S840中,电子设备100确定音频信号中是否包括触发语音。
如果确定出音频信号包括触发语音(S840-是),则在S850中电子设备100恢复经压缩的音频信号并将恢复的音频信号输出到AP。这里,电子设备100可以通过触发语音被激活。
然而,如果确定出音频信号不包括触发语音(S840-否),则在S860中电子设备100不恢复经压缩的音频信号并删除经压缩的音频信号。
另外,如果确定出音频信号不是用户语音(S820-否),则在S870中电子设备100不压缩输入的音频信号并删除输入的音频信号。
如上所述,电子设备100可以通过确定音频信号是否是用户语音以及音频信号是否包括触发语音并且通过压缩/恢复音频信号而以低电力驱动用于确定触发语音的芯片。另外,可以通过确定除了触发语音之外的后续指令来更快速地运行与后续指令对应的功能。
尽管已经示出和描述了示例性实施例,但是本领域技术人员将认识到,在不脱离本公开的原理和精神的情况下,可以对示例性实施例做出改变。根据示例性实施例的操作可以通过单个过程来实现。在这种情况下,可以将用于执行在各种PC中实现的操作的程序指令记录在计算机可记录介质中。计算机可读记录介质可以包括程序指令、数据文件、数据配置和它们的组合。程序指令是针对实施例专门设计和配置的,或者对于本领域技术人员而言是所熟知的。计算机可读介质的示例包括:诸如硬盘、软盘和磁带的磁记录介质;诸如CD-ROM和DVD的光学记录介质;诸如光磁盘的磁光记录介质;以及诸如ROM、RAM和专门配置为存储和运行程序指令的闪存的硬件装置。程序指令的示例包括由编译器创建的机器语言代码和能够通过使用解释器由计算机运行的高级语言代码。在其中基站设备或中继器的部分或全部被实现为计算机程序的情况下,存储程序的计算机可读记录介质可以被包括在实施例中。因此,本公开的范围不被解释为限于所描述的实施例,而是由所附权利要求及其等同物来限定。
Claims (11)
1.一种电子设备,所述电子设备包括:
麦克风,被配置为接收外部的音频信号;
ADC(模拟/数字转换器),被配置为将所述音频信号处理为数字信号;
存储器,包括第一缓冲器和第二缓冲器;
应用处理器,被配置为控制在所述电子设备中被驱动的应用;以及
处理器,被配置为
将从所述麦克风输入的音频信号的一部分存储在所述第一缓冲器中,
确定从所述麦克风输入的所述音频信号的所述一部分是否是用户语音,
基于所述音频信号被确定为与所述用户语音相对应,压缩所述音频信号,并且将经压缩的音频信号存储在所述第二缓冲器中,
确定所述音频信号是否包括触发语音,以及
基于所述音频信号包括所述触发语音,恢复经压缩的音频信号,
基于所述音频信号不包括所述触发语音,删除存储在所述第二缓冲器中的经压缩的音频信号,
其中,所述ADC和所述处理器被实现为单个芯片,并且
其中,响应于确定出所述音频信号包括所述触发语音,所述处理器恢复经压缩的音频信号且将恢复的音频信号输出到所述应用处理器,并且响应于确定出所述音频信号不包括所述触发语音,所述处理器不恢复存储在所述第二缓冲器中的经压缩的音频信号。
2.根据权利要求1所述的电子设备,其中,基于所述音频信号被确定为不与所述用户语音相对应,所述处理器不压缩所述音频信号。
3.根据权利要求1所述的电子设备,其中,响应于确定出所述音频信号包括所述触发语音,所述处理器将用于激活所述应用处理器的信号输出到所述应用处理器。
4.根据权利要求1所述的电子设备,其中,响应于被输入了恢复的音频信号,所述应用处理器激活与所述音频信号对应的应用,并且通过使用除了所述音频信号的与所述触发语音对应的部分之外的指令来执行应用的功能。
5.根据权利要求1所述的电子设备,其中,所述处理器在所述音频信号被压缩的同时实时地确定所述音频信号的一部分与所述触发语音对应的概率,并且响应于确定出实时地确定的概率小于预定值,停止所述音频信号的压缩,以及
其中,响应于所述音频信号的一部分与所述触发语音对应的最终概率等于或大于预定值,所述处理器压缩与除了所述音频信号的所述一部分之外的剩余指令对应的片段,并将经压缩的片段存储在所述第二缓冲器中。
6.一种用于控制电子设备的方法,所述方法包括:
接收音频信号;
将输入的所述音频信号的一部分存储在第一缓冲器中;
确定输入的所述音频信号的所述一部分是否是用户语音;
基于所述音频信号被确定为与所述用户语音相对应,压缩输入的音频信号,并且将经压缩的音频信号存储在第二缓冲器中;
确定所述音频信号是否包括触发语音;以及
基于所述音频信号包括所述触发语音,恢复经压缩的音频信号且将恢复的音频信号输出到应用处理器,并且
基于所述音频信号不包括所述触发语音,不恢复存储在所述第二缓冲器中的经压缩的音频信号且删除存储在所述第二缓冲器中的经压缩的音频信号。
7.根据权利要求6所述的方法,其中,所述存储包括:基于所述音频信号被确定为不与所述用户语音相对应,不压缩所述音频信号。
8.根据权利要求6所述的方法,所述方法包括:
响应于确定出所述音频信号包括所述触发语音,将用于激活所述应用处理器的信号输出到所述应用处理器。
9.根据权利要求6所述的方法,所述方法包括:
响应于被输入了恢复的音频信号,由所述应用处理器激活与所述音频信号对应的应用,以及通过使用除了所述音频信号的与所述触发语音对应的部分之外的指令来执行应用的功能。
10.根据权利要求6所述的方法,其中,所述确定包括:
在压缩所述音频信号的同时,实时地确定所述音频信号的一部分与所述触发语音对应的概率;以及
响应于确定出实时地识别的概率小于预定值,停止所述音频信号的压缩,
其中,所述方法包括:
响应于所述音频信号的一部分与所述触发语音对应的最终概率等于或大于预定值,压缩与除了所述音频信号的一部分之外的剩余指令对应的片段,并将经压缩的片段存储在所述第二缓冲器中。
11.一种非暂时性计算机可读存储介质,其被配置为存储包括指令的一个或更多个计算机程序,所述指令在由至少一个处理器执行时,使得所述至少一个处理器控制用于传输电子设备的控制命令的方法,所述方法包括:
接收音频信号;
将输入的所述音频信号的一部分存储在第一缓冲器中;
确定输入的所述音频信号的所述一部分是否是用户语音;
基于所述音频信号被确定为与所述用户语音相对应,压缩所述音频信号,并且将经压缩的音频信号存储在第二缓冲器中;
确定所述音频信号是否包括触发语音;以及
基于所述音频信号包括所述触发语音,恢复经压缩的音频信号且将恢复的音频信号输出到应用处理器,并且
基于所述音频信号不包括所述触发语音,不恢复存储在所述第二缓冲器中的经压缩的音频信号且删除存储在所述第二缓冲器中的经压缩的音频信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2015/011263 WO2017069310A1 (ko) | 2015-10-23 | 2015-10-23 | 전자 장치 및 이의 제어 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108139878A CN108139878A (zh) | 2018-06-08 |
CN108139878B true CN108139878B (zh) | 2022-05-24 |
Family
ID=58557489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580083251.3A Active CN108139878B (zh) | 2015-10-23 | 2015-10-23 | 电子设备及其控制方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180254042A1 (zh) |
EP (1) | EP3321794A4 (zh) |
KR (1) | KR102065522B1 (zh) |
CN (1) | CN108139878B (zh) |
WO (1) | WO2017069310A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11545146B2 (en) * | 2016-11-10 | 2023-01-03 | Cerence Operating Company | Techniques for language independent wake-up word detection |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
KR102585784B1 (ko) * | 2018-01-25 | 2023-10-06 | 삼성전자주식회사 | 오디오 재생시 인터럽트를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
DE102018108419A1 (de) * | 2018-04-10 | 2019-10-10 | Carl Zeiss Microscopy Gmbh | Verfahren und Vorrichtungen zur Komprimierung und Dekomprimierung von Ansteuerkurven |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US8265709B2 (en) * | 2007-06-22 | 2012-09-11 | Apple Inc. | Single user input mechanism for controlling electronic device operations |
US8488799B2 (en) * | 2008-09-11 | 2013-07-16 | Personics Holdings Inc. | Method and system for sound monitoring over a network |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9865263B2 (en) * | 2009-12-01 | 2018-01-09 | Nuance Communications, Inc. | Real-time voice recognition on a handheld device |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
KR102196671B1 (ko) * | 2013-01-11 | 2020-12-30 | 엘지전자 주식회사 | 전자 기기 및 전자 기기의 제어 방법 |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9646607B2 (en) * | 2014-03-10 | 2017-05-09 | Dell Products, L.P. | Managing wake-on-voice buffer quality based on system boot profiling |
US9613626B2 (en) * | 2015-02-06 | 2017-04-04 | Fortemedia, Inc. | Audio device for recognizing key phrases and method thereof |
-
2015
- 2015-10-23 EP EP15906761.0A patent/EP3321794A4/en not_active Ceased
- 2015-10-23 US US15/756,408 patent/US20180254042A1/en not_active Abandoned
- 2015-10-23 KR KR1020177036212A patent/KR102065522B1/ko active IP Right Grant
- 2015-10-23 WO PCT/KR2015/011263 patent/WO2017069310A1/ko active Application Filing
- 2015-10-23 CN CN201580083251.3A patent/CN108139878B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
Also Published As
Publication number | Publication date |
---|---|
KR102065522B1 (ko) | 2020-02-11 |
KR20180010214A (ko) | 2018-01-30 |
CN108139878A (zh) | 2018-06-08 |
US20180254042A1 (en) | 2018-09-06 |
EP3321794A4 (en) | 2018-09-12 |
WO2017069310A1 (ko) | 2017-04-27 |
EP3321794A1 (en) | 2018-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3570275B1 (en) | Method for sensing end of speech, and electronic apparatus implementing same | |
KR102405793B1 (ko) | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 | |
KR102414122B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 | |
KR102495523B1 (ko) | 음성 명령을 처리하는 방법 및 이를 제공하는 전자 장치 | |
KR102453603B1 (ko) | 전자 장치 및 그 제어 방법 | |
KR102495517B1 (ko) | 전자 장치, 전자 장치의 음성 인식 방법 | |
US11449672B2 (en) | Method for operating speech recognition service and electronic device and server for supporting the same | |
US11172450B2 (en) | Electronic device and method for controlling operation thereof | |
CN108139878B (zh) | 电子设备及其控制方法 | |
KR102356889B1 (ko) | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 | |
KR20180022021A (ko) | 음성 인식 방법 및 이를 수행하는 전자 장치 | |
KR20170103558A (ko) | 생체 정보를 측정하는 전자 장치와 이의 동작 방법 | |
KR102501083B1 (ko) | 음성 인식 방법 및 이를 사용하는 전자 장치 | |
US11817097B2 (en) | Electronic apparatus and assistant service providing method thereof | |
US10996922B2 (en) | Electronic apparatus for processing user utterance | |
US20200075008A1 (en) | Voice data processing method and electronic device for supporting same | |
KR20180082033A (ko) | 음성을 인식하는 전자 장치 | |
KR20170027589A (ko) | 기능 제어 방법 및 그 방법을 처리하는 전자 장치 | |
KR20190110690A (ko) | 복수의 입력 간에 매핑된 정보 제공 방법 및 이를 지원하는 전자 장치 | |
EP3190507B1 (en) | Method and electronic device for capturing a screenshot. | |
KR20190097483A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
US20240054999A1 (en) | Context-aware false trigger mitigation for automatic speech recognition (asr) systems or other systems | |
US20230419979A1 (en) | Online speaker diarization using local and global clustering | |
US20230419962A1 (en) | System and method for speaker verification for voice assistant | |
EP4325484A1 (en) | Electronic device and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |