CN113424558A - 智能个人助理 - Google Patents
智能个人助理 Download PDFInfo
- Publication number
- CN113424558A CN113424558A CN202080012521.2A CN202080012521A CN113424558A CN 113424558 A CN113424558 A CN 113424558A CN 202080012521 A CN202080012521 A CN 202080012521A CN 113424558 A CN113424558 A CN 113424558A
- Authority
- CN
- China
- Prior art keywords
- microphone output
- output signal
- microphone
- signal
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000004044 response Effects 0.000 claims abstract description 14
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种个人助理装置可以包括传声器,所述传声器被配置为从用户和处理器接收音频命令。所述处理器可以被配置为基于所述接收到的音频命令从所述传声器接收传声器输出信号,从另一个个人助理装置接收至少一个其他传声器输出信号,以及自相关所述传声器输出信号。所述处理器还可以被配置为确定所述传声器输出信号中的每一个的混响,确定来自所述传声器的所述传声器输出信号是否具有比所述至少一个其他传声器输出信号更低的混响,以及响应于所述传声器输出信号具有比所述至少一个其他传声器输出信号更低的混响而将所述传声器输出信号传输至所述至少一个其他处理器以处理所述音频命令。
Description
技术领域
本公开的方面总体上涉及智能个人助理。
背景技术
个人助理装置,诸如语音代理装置正变得越来越流行。这些装置可以包括语音控制的个人助理,其基于用户音频命令实现人工智能。语音代理装置的一些示例可以包括Amazon Echo、Amazon Dot、Google At Home等。这样的语音代理可以使用语音命令作为与其处理器的主要接口。可以在装置内的传声器处接收音频命令。然后可以将音频命令传输到处理器以实现命令。
发明内容
一种个人助理装置可以包括传声器,所述传声器被配置为从用户和处理器接收音频命令。所述处理器可以被配置为基于所述接收到的音频命令从所述传声器接收传声器输出信号,从另一个个人助理装置接收至少一个其他传声器输出信号,以及自相关所述传声器输出信号。所述处理器还可以被配置为确定所述传声器输出信号中的每一个的混响,确定来自所述传声器的所述传声器输出信号是否具有比所述至少一个其他传声器输出信号更低的混响,以及响应于所述传声器输出信号具有比所述至少一个其他传声器输出信号更低的混响而将所述传声器输出信号传输至所述至少一个其他处理器以处理所述音频命令。
一种个人助理装置***可以包括多个个人助理装置,每个个人助理装置包括传声器,所述传声器被配置为接收可听用户命令;以及处理器,所述处理器被配置为基于来自所述个人助理装置中的每一个的所述用户命令接收至少一个传声器输出信号,自相关所述传声器输出信号,确定所述传声器输出信号中的每一个的混响,并且确定所述传声器输出信号中哪一个具有最低混响;以及处理具有所述最低混响的所述传声器输出信号。
一种方法可以包括基于接收到的音频命令从个人助理装置的传声器接收传声器输出信号,从另一个个人助理装置接收至少一个其他传声器输出信号,自相关所述传声器输出信号,确定所述传声器输出信号中的每一个的混响,并且确定来自所述传声器的所述传声器输出信号是否具有比所述至少一个其他传声器输出信号更低的混响,以及响应于所述传声器输出信号具有比所述至少一个其他传声器输出信号更低的混响而将所述传声器输出信号传输至所述至少一个其他处理器以处理所述音频命令。
附图说明
在所附权利要求中特别地指出本公开的实施方案。然而,通过结合附图参考以下具体实施方式,各种实施方案的其他特征将变得更显而易见并且将得到最好的理解,在附图中:
图1示出了根据一个或多个实施方案的包括示例智能个人助理装置的***;
图2示出了根据一个实施方案的多个智能个人助理装置的***;
图3示出了由多个传声器接收的多个传声器信号的示例图,每个传声器与用户的距离不同;
图4示出了自相关的传声器输出信号中的每一个的示例图;以及
图5示出了图4的自相关的信号的示例图;以及
图6示出了图2的***的示例过程。
具体实施方式
按照要求,本文公开了本发明的详细实施方案;然而,应当理解的是,所公开的实施方案仅仅是可以各种替代形式体现的本发明的示例。附图不一定按比例绘制;一些特征可能被放大或最小化以示出特定部件的细节。因此,本文中所公开的具体结构细节和功能细节不应被解释为是限制性的,而是仅仅作为教导本领域技术人员以不同方式运用本发明的代表性基础。
个人助理装置可以包括语音控制的个人助理,所述个人助理基于用户音频命令实现人工智能。语音代理装置的一些示例可以包括Amazon Echo、Amazon Dot、Google AtHome等。这样的语音代理可以使用语音命令作为与其处理器的主要接口。可以在装置内的传声器处接收音频命令。然后可以将音频命令传输到处理器以实现命令。在一些示例中,音频命令可以从外部传输到基于云的处理器,诸如由Amazon Echo、Amazon Dot、Google AtHome等使用的那些。
通常,单个家庭或者甚至单个房间可以包括一个以上的个人助理装置。例如,一个区域或房间可以包括位于每个角落的个人助理装置。此外,家庭可以在厨房、卧室、家庭办公室等中的每一个中包括个人助理装置。个人助理装置也可以是便携式的并且可以在家中从一个房间移动到另一个房间。由于这些装置非常接近,一个以上的装置可以“听到”或接收用户命令。
在具有多个语音代理装置的家庭中,每一个也许能够响应用户。如果是这种情况,对用户命令的多个响应可能会重叠,从而导致声音混乱、使用重复处理和带宽或不止一次地执行动作(例如,从在线经销商订购产品)。
可以经由语音代理的传声器处的音频信号接收语音命令。通常,随着声源(例如,用户命令)和传声器相距更远,接收到的声波的强度会由于球面扩散而降低。这可能被称为“R2损失”或“20logR”损失。此外,高频可能比低频更多地被吸收,其程度可能取决于空气温度和湿度。命令或音频信号也可以在稍后的时间被接收到,其等于声波的传播时间。最后,可以在来自传声器的信号中检测到反射。这些反射,诸如房间脉冲响应(RIR)可以用于确定在用户和传声器之间的相对距离。
当前测量传声器质量的***可能不准确,这是因为信号可能会受到本地环境噪声源的误导。高频内容可能是由传声器本身生成的噪声,特别是在如果语音由于距离而衰减的情况下。声音接收的定时可能需要跨多个传声器***计时的同步时间。
本文公开了一种用于确定多个传声器中哪个传声器接收了最高质量的声学信号的***。接收到最高质量信号的传声器可能产生最准确的语音识别,并且因此向用户提供最准确的响应。为了确定哪个传声器具有最高质量,可以使用房间脉冲响应(RIR)。当跨多个传声器比较RIR时,可以确定具有最短RIR(即,最快接收能量)的传声器具有最高质量。当前确定RIR的方法可以包括核回归、递归神经网络、多项式根、正交基函数(主成分分析)和迭代盲估计。
然而,更简单的方法可以包括经由自相关来推断混响。该方法查找信号中的重复。由于回声和混响实际上是声波中的重复,在自相关向量内的能量扩展,即与中心峰值的偏差可以指示混响量,以及噪声量。
因此,可以基于比较其他传声器的混响来识别与具有最高质量的个人助理装置相关联的传声器。可以选择具有最低混响的传声器来处理用户命令并且对其做出响应。
图1示出了包括示例智能个人助理装置102的***100。个人助理装置102通过传声器104或其他音频输入接收音频,并且通过模数(A/D)转换器106传递音频以被音频处理器108识别或以其他方式处理。音频处理器108还生成语音或其他音频输出,其可以通过数模(D/A)转换器112和放大器114传递以由一个或多个扬声器116再现。个人助理装置102还包括连接到音频处理器108的装置控制器118。
装置控制器118还与无线收发器124对接以促进个人助理装置102与通信网络126通过无线网络的通信。个人助理装置102还可以通过无线网络与其他装置(包括其他个人助理装置102)通信。在许多示例中,装置控制器118还连接到一个或多个人机界面(HMI)控件128以接收用户输入,以及连接到显示屏130以提供视觉输出。应当注意,所示出的***100仅仅是示例,并且可以使用更多、更少和/或不同定位的元件。
A/D转换器106从传声器104接收音频输入信号。A/D转换器106将接收的信号从模拟格式转换为数字格式的数字信号以供音频处理器108进一步处理。
虽然仅示出了一个,但是个人助理装置102中也可以包括一个或多个音频处理器108。音频处理器108可以是能够处理音频和/或视频信号的一个或多个计算装置,诸如计算机处理器、微处理器、数字信号处理器或者能够执行逻辑操作的任何其他装置、装置系列或其他机构。音频处理器108可以与存储器110相关联地操作以执行存储在存储器110中的指令。指令可以是软件、固件、计算机代码或其某种组合的形式,并且当由音频处理器108执行时可以提供个人助理装置102的音频识别和音频生成功能。指令还可以在对接收到的音频进行识别处理之前提供音频清理(例如,降噪、过滤等)。存储器110可以是一个或多个数据存储装置,诸如易失性存储器、非易失性存储器、电子存储器、磁存储器、光存储器或任何其他形式的数据存储装置中的任何形式。除了指令之外,操作参数和数据也可以存储在存储器110中,诸如用于从文本数据创建语音的音素词汇。
D/A转换器112接收来自音频处理器108的数字输出信号并且将其从数字格式转换为模拟格式的输出信号。然后,可以使输出信号可供放大器114或其他模拟部件使用以进行进一步处理。
放大器114可以是接收具有相对较小的幅度的音频输入信号并且输出具有相对较大幅度的类似的音频信号的任何电路或独立装置。音频输入信号可以由放大器114接收并且在一个或多个连接上输出到扬声器116。除了放大音频信号的振幅之外,放大器114还可以包括信号处理能力以进行相移、调整频率均衡、调整延迟或执行任何其他形式的音频信号的操纵或调整以准备提供给扬声器116。例如,当装置102不具有显示屏130或者用户期望不涉及看装置的交互时,扬声器116可以是主要的指令媒介。信号处理功能可以另外地或替代地出现在音频处理器108的域内。此外,放大器114可以包括调整被提供给扬声器116的音频信号的音量、平衡和/或衰减的能力。
在替代示例中,可以省略放大器114,诸如当扬声器116采用一组头戴式耳机的形式,或者当音频输出通道用作另一个音频装置(诸如音频存储装置或另外的音频处理器装置)的输入时。在其他示例中,扬声器116可以包括放大器114,使得扬声器116是自供电的。
扬声器116可以具有各种尺寸并且可以在各种频率范围内操作。扬声器116中的每一个可以包括单个换能器,或者在其他情况下包括多个换能器。扬声器116还可以在不同的频率范围内操作,诸如超低音扬声器、低音扬声器、中音扬声器和高音扬声器。个人助理装置102中可以包括多个扬声器116。
装置控制器118可以包括各种类型的计算设备,以支持本文所述的个人助理装置102的功能的执行。在一个示例中,装置控制器118可以包括一个或多个处理器120,其被配置为执行计算机指令;以及存储介质122(或存储装置122),计算机可执行指令和/或数据可以在存储介质122上进行维护。计算机可读存储介质(也称为处理器可读介质或存储装置122)包括任何非暂时性(例如,有形)介质,其参与提供可以由计算机(例如,由处理器120)读取的数据(例如,指令)。一般而言,处理器120例如从存储装置122等接收指令和/或数据到存储器并且使用该数据执行指令,从而执行一个或多个过程,包括本文所述的过程中的一个或多个。可以从使用多种编程语言和/或技术创建的计算机程序编译或解释计算机可执行指令,所述多种编程语言和/或技术包括但不限于以下的单独或组合形式:Java、C、C++、C#、Assembly、Fortran、Pascal、Visual Basic、Python、Java Script、Perl、PL/SQL等。
虽然本文所述的过程和方法被描述为由处理器120执行,但是处理器120也可以位于云、另一个服务器、装置102中的另一个等内。
如图所示,装置控制器118可以包括无线收发器124或其他网络硬件,其被配置为促进在装置控制器118和其他联网装置之间通过通信网络126进行的通信。作为一种可能性,无线收发器124可以是蜂窝网络收发器,其被配置为通过蜂窝电话网络传送数据。作为另一种可能性,无线收发器124可以是Wi-Fi收发器,其被配置为连接到局域无线网以访问通信网络126。
装置控制器118可以从人机界面(HMI)控件128接收输入以提供用户与个人助理装置102的交互。例如,装置控制器118可以与一个或多个按钮或被配置为调用装置控制器118的功能的其他HMI控件128对接。装置控制器118还可以驱动一个或多个显示器130或以其他方式与其通信,所述一个或多个显示器130被配置为例如经由视频控制器向用户提供视觉输出。在一些情况下,显示器130(本文也称为显示屏130)可以是触摸屏,其被进一步配置为经由视频控制器接收用户触摸输入,而在其他情况下,显示器130可以仅是显示器,没有触摸输入能力。
图2示出了多个智能个人助理装置102-1、102-2、102-3、102-4(统称为“助理装置102”)的***150。装置102中的每一个可以经由无线网络彼此通信。装置102可以经由其相应的无线收发器124中的每一个在其之间传输和接收信号和数据。在一个示例中,在装置102的传声器104中的每一个处接收的音频输入可以被传输到其他装置102中的每一个以用于比较处理。这在下面更详细地进行了描述。
装置102可以布置在区域152内,诸如房屋的一个房间或跨多个房间或由隔板,诸如墙壁、隔间等划分的单个房间内。在助理装置102周围的表面和物体可以反射声波并且引起混响。每个装置102可以距用户113具有不同距离。图2中的示例示出了最接近用户113的第一装置102-1,接下来是第二装置102-2,且随后是第三装置102-3。第四装置102-4距用户113最远并且被布置在拐角周围且在与用户分开的房间内。
如关于图1所解释的,每个助理装置102可以包括传声器104,所述传声器被配置为接收音频输入,诸如语音命令。此外,还可以使用独立的传声器来代替助理装置102以接收音频输入。传声器104可以获得区域152内的音频输入或声学信号。这种音频输入可以控制各种装置,诸如灯、经由助理装置的扬声器116的音频输出、娱乐***、环境控件、购物等。虽然图2示出了四个助理装置102,但是更多或更少的助理装置也可以与***150一起使用。
助理装置102可以与***控制器115通信。***控制器115可以是独立控制器,或者控制器可以是如上面关于图1所讨论的装置控制器118。***控制器115可以经由无线网络与助理装置102通信。***控制器115可以被布置在相同的区域152中,或者在区域152的外部和远处,例如,在云中。***控制器115可以被配置为从传声器104接收音频输入。***控制器115可以包括处理器125,所述处理器被配置为处理音频输入。如所解释的,音频输入可以包括用户命令,诸如“打开灯”、“播放乡村音乐”、“今天天气如何”等。
处理器125可以是数字信号处理器(DSP)以处理来自区域152内的传声器104的多个数字信号。接收到的信号可以存储在与处理器125相关联的存储器(未示出)中或者助理装置102的本地存储器110中。存储器还可以包括用于处理音频输入的指令。
在装置102中的多个接收到相同的音频命令的情况下,处理器125可以执行信号处理以从装置102的传声器104接收的多个传声器输出信号选择具有最高质量信号的一个信号。即,处理器125可以选择哪个传声器104提供“最干净”的信号以进行处理。处理器125可以通过比较从传声器104接收的传声器输出信号的振幅、频率含量以及相位来做出该确定。
在一个示例中,处理器125可以选择具有最佳空间分集和/或最少量的混响能量的传声器输出信号。处理器125可以对所有传声器输出信号执行自相关函数。一旦信号自相关,处理电路就可以确定远离相关信号的平均峰值的具有最少量的能量的信号。可以选择该信号以用于输入和进一步处理。处理器125还可以分析围绕自相关峰值的自相关包络。包络峰值之间具有最窄宽度的信号可以被认为是更理想的信号。处理器125还可以比较每个信号的信号峰值的斜率,并且选择具有峰值下降侧(例如,负侧)的最高斜率的信号。
在另一个示例中,每个信号的房间脉冲响应(RIR)可以用于选择最高质量信号。在该示例中,具有最短RIR的信号将具有最高质量。此外,可以选择在RIR的主峰之外具有最少能量的信号。处理器125可以丢弃峰值之后的剩余信号,这是因为这些拖尾信号可以被认为是混响能量。随着RIR复杂性增加(即,更多的反射),可以加宽自相关。
通过选择具有最高质量的传声器输出信号,可以实现对用户命令的更准确的响应。此外,仅处理传声器输出信号中的一个,避免了重复处理。
如图2所示,用户113可以位于区域152内。用户113可以说出构成音频输入的可听命令。助理装置102中的每一个的传声器104可以接收口头命令。每个传声器104随后可以将音频输入中继到***控制器115。通常,随着声源(诸如用户)和接收器(诸如传声器104)变得更远,音频信号的质量降低。例如,信号的强度由于球面扩展,也称为R2损失或20logR损失而导致的声波减少而降低。此外,由于空气的温度和湿度,高频可能比低频衰减得更多。信号还可能招致传播延迟,以及增加由区域152内的障碍物(诸如墙壁、物体等)引起的反射和回声。这称为混响。这些失真中的每一个可能会使上面参考的确定最高质量信号的方法出现问题。
图3示出了包括由多个传声器104接收的包括一句语音的多个传声器信号的示例图,每个传声器104与用户113的距离不同。第一信号301-1对应于从第一传声器102-1接收的传声器输出信号。第二信号301-2对应于从第二传声器102-2接收的传声器输出信号。第三信号301-3对应于从第三传声器102-3接收的传声器输出信号。第四信号301-4对应于从第一传声器102-4接收的传声器输出信号。
在该示例中,用户113最靠近第一装置102-1,其中每个顺序装置距用户113更远。在该示例中,第一装置102-1可能距用户113不到8英尺,第二装置102-2可能距用户约16英尺,第三装置102-3可能距用户113约24英尺,并且第四装置可能距用户约36英尺并且在拐角周围且在房间内部、在用户113的视线之外。在图中,信号可能已经由自动增益控制(AGC)针对能量进行了归一化。如图3所示,对于每个逐渐更远的装置102而言,晚一些接收到信号,其中第四且最远的装置晚约0.03秒接收到信号。
此外,与类似时间段内的其他信号301相比,第一信号301-1在0.4-0.6s的时间段内具有最陡斜率。与其他信号301相比,第一信号301-1在1.2-1.4s的时间段内也具有最陡斜率。因为第一信号301-1被识别为具有最陡斜率,所以与其他信号301相比,第一信号301-1可以被识别为具有最好的质量。此外,第一信号301-1也可以在其峰值处具有最大能量,如在约0.55s处所示。相反地,第四信号301-4具有最平坦或最低的斜率,并且因此具有最大的混响能量。第四信号301-4将不会被选择为优先其他信号301中任一个的最高质量信号。
此外,处理器125可以经由自相关推断出信号的混响以确定具有最高质量的信号。自相关可以寻找信号中的重复。回声和混响实际上是声波中的重复。自相关向量中的能量扩展,即与中心峰值的偏差,指示信号的混响量以及噪声量。自相关可以指信号处理,其中R(I)=sum{y(n)*y(n-1)}。处理器125可以使音频输入中的每一个自相关并且确定在传声器输出信号中的能量扩展。能量扩展可以是两个能量峰值之间的距离。处理器125可以确定在能量峰值的扩展中具有最少能量的信号。可以选择具有最少能量的信号作为最高质量的音频输入。处理器125还可以及时比较信号,并且可以选择具有从峰值能量开始的最小延迟的信号以进行进一步处理。
也可以使用其他信号处理,诸如RIR和谱减法。RIR可以由传声器104中的每一个测量。然后,可以使RIR反转,与在多个传声器中的任一个处接收的信号相关并且从其进行相减。
使用谱减法来去除混响或识别最佳质量信号通过删去当前帧中先前音素的能量去除了混响语音能量。谱减法可以用于从传声器正感测声音信号的环境减少混响。谱减法还可以通过将音频信号的片断识别为涉及某些噪声来增强。例如,这些片段可以被识别为包括语音、噪声或其他声学信号。在未检测到活动的期间,片段可以被认为是噪声。然后,可以根据这样识别的纯噪声片段来估计噪声频谱。然后,从信号减去噪声频谱的副本。
每个传声器输出信号的处理可以由***控制器115完成。在该示例中,***控制器115从助理装置102中的每一个接收传声器输出信号。另外地或替代地,传声器输出信号的处理可以由获得音频输入的个人助理装置102的相应装置控制器118来完成。此外,每个助理装置102可以处理由其他个人助理装置的传声器104生成的其他传声器输出信号。相应的装置控制器118可以确定由该助理装置102提供的信号是否是与由其他助理装置102生成的信号相比具有最高质量的信号。如果是,装置控制器118则指示无线收发器124将传声器输出信号传输到***控制器115以进行处理。如果否,装置控制器118则不指示将传声器输出信号发送到***控制器115。相反,提供最高质量信号的助理装置102将输出信号传输到***控制器115以用于进一步处理和执行由音频输入发出的命令。因此,在该示例中,在***控制器115处仅接收到一个传声器输出信号。
图4示出了自相关的传声器输出信号中的每一个的图400。该图示出了每个信号的500点自相关,包括自相关的第一信号401-1、自相关的第二信号401-2、自相关的第三信号401-3和自相关的第四信号401-4。自相关的信号中的每一个都针对能量进行了归一化,使得其自相关的峰值405都具有相同的值。图例中的值示出了跨扩展的平均能量。如经由图4所示,第一信号401-1具有最陡的斜率。此外,第一信号401-1具有最接近最高峰值的峰值。对于每个逐渐更远的传声器104而言,有更多的能量滞后于自相关峰值405。这可能是由于音频信号的反射造成的。因此,第一信号401-1具有比剩余信号更低的混响能量。第二信号401-2具有比第三信号401-3和第四信号404-4更低的混响能量。
图5示出了具有40点自相关的图4的自相关的信号的图500。由于较少的点构造(例如,40对500),图500在计算上比图400更有效。图500包括自相关的第一信号401-1、自相关的第二信号401-2、自相关的第三信号401-3和自相关的第四信号401-4。对于逐渐更远的传声器中的每一个而言,自相关围绕峰值405变得更宽。即,具有围绕平均峰值405的最窄能量扩展的传声器输出信号可以具有最低混响。尽管典型语音信号具有高可变性,并且信噪比随着传声器变得更远而降低,但是围绕峰值的扩展仍然平滑,单调下降,并且每个传声器之间具有明显的分离。通过使用示例样本点20、30和40,计算成本大大降低,这是因为仅需要2或3点相关。
如图5所示,与第一助理装置102-1的传声器104相关联的第一信号401-1具有1730处的最低能量扩展。该传声器401-1最接近用户113。第二信号401-2具有1918的扩展。第一信号401-3具有2269的扩展,并且第四信号401-4具有2369的扩展。这些扩展是示例信号,并且将随着每个接收的音频输入而变化。
尽管在该示例中,最接近的传声器104具有最少量的扩展,但情况并非总是如此。本地混响可能比更远离用户113的另一个传声器更大。这可能是由于附近的物体等反射而造成的情况。
图6示出了用于***150的示例过程600。过程600可以开始于框605,其中一个以上的助理装置的处理器120可以经由在助理装置102的相应传声器104处的音频输入接收音频命令。音频命令可以是用于控制一个或多个装置的用户口述命令,诸如“打开灯”或“播放音乐”。
在框610处,处理器120可以对音频输入进行归一化以调整音频输入的能量峰值。
在框615处,处理器120可以经由无线收发器124从其他个人助理装置102接收归一化信号(即,传声器输出信号)。相反,处理器120还可以将传声器输出信号传输到其他个人助理装置102。
在框620处,处理器120可以自相关传声器输出信号。也就是说,处理器120可以比较来自助理装置102(包括本助理装置)中的每一个的每个传声器输出信号。
在框623处,处理器120可以对传声器输出信号进行归一化。
在框625处,处理器120可以确定传声器输出信号中的哪一个具有最高质量。具有最高质量的信号可能是具有最低混响的信号。信号的混响可以使用上述方法(诸如RIR)来确定。
在框630处,处理器120确定在本装置102的相关联的传声器104处接收的传声器输出信号与其他接收的传声器输出信号相比是否具有最低的混响。如果是,过程600则前进到框635。如果否,另一个装置102则可以将其相应的信号识别为具有最低混响的信号,并且过程600结束。
在框635处,处理器120可以指示无线收发器124将在装置102处接收的传声器输出信号传输到***控制器115。然后,***控制器115可以继而响应由用户提供的音频命令。
随后,过程600可以结束。
通过仅将具有最高质量的信号传输到***控制器115,避免了对音频命令的重复处理。可以使用具有最高质量的信号(其可以导致更好地理解由用户113提供的音频命令)来响应命令。
过程600是示例过程600,其中每个助理装置102确定该装置102是否接收到最高质量信号,如果是,则将该信号传输到***控制器115。另外地或替代地,服务器控制器115的处理器125可以接收传声器输出信号中的每一个并且处理器125随后可以选择接收到的信号中的哪一个具有最高质量。
虽然上述***和方法被描述为由个人助理装置102的处理器120或***控制器115的处理器125执行,但是这些过程也可以由另一个装置或在云计算***内进行。处理器可能不一定位于带有配套装置的房间内,并且通常可能远离其。
因此,不熟悉与配套装置相关联的特定装置长名称的用户可以很容易地命令可以经由虚拟助理装置控制的配套装置。快捷名称,诸如“灯”可能足以控制在用户附近的灯,例如,在与用户相同的房间中。一旦确定了用户的位置,个人助理装置就可以对用户命令做出反应,以有效地、轻松地且准确地控制配套装置。
虽然在上文描述了示范性实施方案,但是并不意图这些实施方案描述本发明的所有可能的形式。实际上,在说明书中使用的措词是用于描述而非限制,并且应当理解,可在不脱离本发明的精神和范围的情况下做出各种改变。另外,可对各种实现的实施方案的特征进行组合以形成本发明的另外的实施方案。
Claims (21)
1.一种个人助理装置,其包括:
传声器,所述传声器被配置为从用户接收音频命令;
处理器,所述处理器被配置为:
基于所述接收到的音频命令从所述传声器接收传声器输出信号;
从另一个个人助理装置接收至少一个其他传声器输出信号;
自相关所述传声器输出信号;
确定所述传声器输出信号中的每一个的混响;
确定来自所述传声器的所述传声器输出信号是否具有比所述至少一个其他传声器输出信号更低的混响;以及
响应于所述传声器输出信号具有比所述至少一个其他传声器输出信号更低的混响而将所述传声器输出信号传输至所述至少一个其他处理器以处理所述音频命令。
2.如权利要求1所述的装置,其中所述混响是至少部分地基于所述自相关的信号的能量扩展来确定的。
3.如权利要求2所述的装置,其中所述混响是至少部分地基于所述传声器输出信号的房间脉冲响应(RIR)来确定的。
4.如权利要求2所述的装置,其中所述处理器还被配置为对所述自相关之后的所述传声器输出信号进行归一化。
5.如权利要求4所述的装置,其中所述处理器还被配置为识别所述相关的传声器输出信号的平均峰值。
6.如权利要求5所述的装置,其中所述混响是至少部分地基于所述自相关的信号相关于所述平均峰值的能量宽度来确定的。
7.如权利要求5所述的装置,其中具有关于所述平均峰值的最窄能量扩展的所述自相关的信号具有最低混响。
8.一种个人助理装置***,其包括:
多个个人助理装置,每个个人助理装置包括传声器,所述传声器被配置为接收可听用户命令;
处理器,所述处理器被配置为:
基于来自所述个人助理装置中的每一个的所述用户命令接收至少一个传声器输出信号,
自相关所述传声器输出信号;
确定所述传声器输出信号中的每一个的混响;并且
确定所述传声器输出信号中哪一个具有最低混响;以及
处理具有所述最低混响的所述传声器输出信号。
9.如权利要求8所述的装置,其中所述混响是至少部分地基于所述传声器输出信号的能量扩展来确定的。
10.如权利要求9所述的装置,其中所述混响是至少部分地基于所述传声器输出信号的房间脉冲响应(RIR)来确定的。
11.如权利要求8所述的装置,其中所述处理器还被配置为对所述自相关之后的所述传声器输出信号进行归一化。
12.如权利要求8所述的装置,其中所述处理器还被配置为识别所述相关的传声器输出信号的平均峰值。
13.如权利要求12所述的装置,其中所述混响是至少部分地基于所述自相关的信号相关于所述平均峰值的能量宽度来确定的。
14.如权利要求12所述的装置,其中具有关于所述平均峰值的最窄能量扩展的所述自相关的信号具有最低混响。
15.一种方法,其包括:
基于接收到的音频命令从个人助理装置的传声器接收传声器输出信号;
从另一个个人助理装置接收至少一个其他传声器输出信号;
自相关所述传声器输出信号;
确定所述传声器输出信号中的每一个的混响;以及
确定来自所述传声器的所述传声器输出信号是否具有比所述至少一个其他传声器输出信号更低的混响;以及
响应于所述传声器输出信号具有比所述至少一个其他传声器输出信号更低的混响而将所述传声器输出信号传输至所述至少一个其他处理器以处理所述音频命令。
16.如权利要求14所述的方法,其中所述混响是至少部分地基于所述自相关的信号的能量扩展来确定的。
17.如权利要求14所述的方法,其还包括对所述自相关之后的所述传声器输出信号进行归一化。
18.如权利要求14所述的方法,其中所述混响是至少部分地基于所述传声器输出信号的房间脉冲响应(RIR)来确定的。
19.如权利要求14所述的方法,其还包括识别所述相关的传声器输出信号的平均峰值。
20.如权利要求18所述的方法,其中所述混响是至少部分地基于所述自相关的信号相关于所述平均峰值的能量宽度来确定的。
21.如权利要求18所述的方法,其中具有关于所述平均峰值的最窄能量扩展的所述自相关的信号具有最低混响。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/269,110 | 2019-02-06 | ||
US16/269,110 US10602276B1 (en) | 2019-02-06 | 2019-02-06 | Intelligent personal assistant |
PCT/US2020/016698 WO2020163419A1 (en) | 2019-02-06 | 2020-02-05 | Intelligent personal assistant |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113424558A true CN113424558A (zh) | 2021-09-21 |
Family
ID=69902644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080012521.2A Pending CN113424558A (zh) | 2019-02-06 | 2020-02-05 | 智能个人助理 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10602276B1 (zh) |
EP (1) | EP3922044A4 (zh) |
KR (1) | KR20210124217A (zh) |
CN (1) | CN113424558A (zh) |
WO (1) | WO2020163419A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2781407A1 (en) | 2008-01-14 | 2009-07-23 | Michael P. Brenzel | Apparatus and methods for fracture repair |
KR102624149B1 (ko) * | 2018-05-03 | 2024-01-11 | 구글 엘엘씨 | 오디오 쿼리들의 오버랩핑 프로세싱의 조정 |
KR20210147678A (ko) * | 2020-05-29 | 2021-12-07 | 엘지전자 주식회사 | 인공 지능 장치 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831894A (zh) * | 2012-08-09 | 2012-12-19 | 华为终端有限公司 | 指令处理方法、装置和*** |
US20150348536A1 (en) * | 2012-11-13 | 2015-12-03 | Yoichi Ando | Method and device for recognizing speech |
CN105427861A (zh) * | 2015-11-03 | 2016-03-23 | 胡旻波 | 智能家居协同麦克风语音控制***及控制方法 |
US20170332168A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Speech from Distributed Microphones |
CN108604448A (zh) * | 2015-11-06 | 2018-09-28 | 谷歌有限责任公司 | 跨装置的话音命令 |
KR20180109631A (ko) * | 2017-03-27 | 2018-10-08 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
CN108630204A (zh) * | 2017-03-21 | 2018-10-09 | 哈曼国际工业有限公司 | 在多装置***中执行语音命令 |
US20180301147A1 (en) * | 2017-04-13 | 2018-10-18 | Harman International Industries, Inc. | Management layer for multiple intelligent personal assistant services |
US20180308483A1 (en) * | 2017-04-21 | 2018-10-25 | Lg Electronics Inc. | Voice recognition apparatus and voice recognition method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721566B2 (en) * | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10623199B2 (en) * | 2017-09-07 | 2020-04-14 | Lenovo (Singapore) Pte Ltd | Outputting audio based on user location |
US10458840B2 (en) * | 2017-11-08 | 2019-10-29 | Harman International Industries, Incorporated | Location classification for intelligent personal assistant |
US20190196779A1 (en) * | 2017-12-21 | 2019-06-27 | Harman International Industries, Incorporated | Intelligent personal assistant interface system |
-
2019
- 2019-02-06 US US16/269,110 patent/US10602276B1/en active Active
-
2020
- 2020-02-05 WO PCT/US2020/016698 patent/WO2020163419A1/en unknown
- 2020-02-05 KR KR1020217023077A patent/KR20210124217A/ko not_active Application Discontinuation
- 2020-02-05 CN CN202080012521.2A patent/CN113424558A/zh active Pending
- 2020-02-05 EP EP20752952.0A patent/EP3922044A4/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831894A (zh) * | 2012-08-09 | 2012-12-19 | 华为终端有限公司 | 指令处理方法、装置和*** |
US20150348536A1 (en) * | 2012-11-13 | 2015-12-03 | Yoichi Ando | Method and device for recognizing speech |
CN105427861A (zh) * | 2015-11-03 | 2016-03-23 | 胡旻波 | 智能家居协同麦克风语音控制***及控制方法 |
CN108604448A (zh) * | 2015-11-06 | 2018-09-28 | 谷歌有限责任公司 | 跨装置的话音命令 |
US20170332168A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Speech from Distributed Microphones |
CN108630204A (zh) * | 2017-03-21 | 2018-10-09 | 哈曼国际工业有限公司 | 在多装置***中执行语音命令 |
KR20180109631A (ko) * | 2017-03-27 | 2018-10-08 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
US20180301147A1 (en) * | 2017-04-13 | 2018-10-18 | Harman International Industries, Inc. | Management layer for multiple intelligent personal assistant services |
US20180308483A1 (en) * | 2017-04-21 | 2018-10-25 | Lg Electronics Inc. | Voice recognition apparatus and voice recognition method |
Also Published As
Publication number | Publication date |
---|---|
WO2020163419A1 (en) | 2020-08-13 |
EP3922044A1 (en) | 2021-12-15 |
KR20210124217A (ko) | 2021-10-14 |
US10602276B1 (en) | 2020-03-24 |
EP3922044A4 (en) | 2022-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106664473B (zh) | 信息处理装置、信息处理方法和程序 | |
US9135924B2 (en) | Noise suppressing device, noise suppressing method and mobile phone | |
EP2652737B1 (en) | Noise reduction system with remote noise detector | |
JP6196320B2 (ja) | 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 | |
GB2495472B (en) | Processing audio signals | |
US20130136274A1 (en) | Processing Signals | |
US20110038486A1 (en) | System and method for automatic disabling and enabling of an acoustic beamformer | |
US9813808B1 (en) | Adaptive directional audio enhancement and selection | |
CN113424558A (zh) | 智能个人助理 | |
CN108235181B (zh) | 在音频处理装置中降噪的方法 | |
US10932079B2 (en) | Acoustical listening area mapping and frequency correction | |
US20140341386A1 (en) | Noise reduction | |
CN103534942A (zh) | 处理音频信号 | |
US10523171B2 (en) | Method for dynamic sound equalization | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN111354368B (zh) | 补偿处理后的音频信号的方法 | |
CN103370741B (zh) | 处理音频信号 | |
US11950082B2 (en) | Method and apparatus for audio processing | |
WO2023051622A1 (zh) | 提升远场语音交互性能的方法和远场语音交互*** | |
CN110740404A (zh) | 一种音频相关性的处理方法及音频处理装置 | |
JP2011182292A (ja) | 収音装置、収音方法及び収音プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |