CN111383649B - 一种机器人及其音频处理方法 - Google Patents
一种机器人及其音频处理方法 Download PDFInfo
- Publication number
- CN111383649B CN111383649B CN201811620508.6A CN201811620508A CN111383649B CN 111383649 B CN111383649 B CN 111383649B CN 201811620508 A CN201811620508 A CN 201811620508A CN 111383649 B CN111383649 B CN 111383649B
- Authority
- CN
- China
- Prior art keywords
- audio data
- microphone
- robot
- paths
- control module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000004807 localization Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 208000006440 Open Bite Diseases 0.000 claims 2
- 102000008482 12E7 Antigen Human genes 0.000 description 9
- 108010020567 12E7 Antigen Proteins 0.000 description 9
- 101000893549 Homo sapiens Growth/differentiation factor 15 Proteins 0.000 description 9
- 101000692878 Homo sapiens Regulator of MON1-CCZ1 complex Proteins 0.000 description 9
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 102100037904 CD9 antigen Human genes 0.000 description 7
- 101000738354 Homo sapiens CD9 antigen Proteins 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 101100345585 Toxoplasma gondii MIC6 gene Proteins 0.000 description 6
- 102100032912 CD44 antigen Human genes 0.000 description 3
- 101000868273 Homo sapiens CD44 antigen Proteins 0.000 description 3
- 101001051490 Homo sapiens Neural cell adhesion molecule L1 Proteins 0.000 description 3
- 102100024964 Neural cell adhesion molecule L1 Human genes 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明适用于电子技术领域,提供了一种机器人及其音频处理方法,该机器人包括拾音模块和主控模块;拾音模块与主控模块电连接,拾音模块包括麦克风阵列,麦克风阵列包括N个麦克风;N个麦克风环绕机器人的机身均匀分布,主控模块获取麦克风阵列采集的N路音频数据,并基于音频数据进行声源定位和声音拾取。通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,无需在机器人头部开设麦克风孔,不会影响机器人的美观。
Description
技术领域
本发明属于电子技术领域,尤其涉及一种机器人及其音频处理方法。
背景技术
在设计机器人时,如果麦克风阵列的位置摆放不正确,则会影响语音交互效果。因为麦克风阵列的波束形成(beam-forming)的最基本的要求和前提条件是:声音直达麦克风阵列中的每一个麦克风。因此,若把环形麦克风阵列放在机器人脖子处的话,机器人的脖子会挡住脖子后面的麦克风,导致声音被脖子反射不能直达机器人脖子后面麦克风,进而影响拾音效果。
针对上述问题目前市面上通常:是将环形麦克风放在机器人的头部或者同时使用环形麦克风阵列和线性麦克风阵列,将环形麦克风阵列放在机器人脖子处,用于实现机器人的360度唤醒和360度声源定位,将线性麦克风放在机器人头部,用于波束形成以进行拾音。
而将环形麦克风阵列放在机器人头部则对机器人的高度有限制,同时由于环形麦克风阵列需要处于水平静止状态才能达到较好的拾音效果,因此导致机器人的头部动作有限制,且并且环形麦克风放在机器人头部环形的开孔也会影响机器人的美观。而同时使用环形麦克风阵列和线性麦克风阵列会导致机器人身上到处都是麦克风的开孔,影响机器人的美观。
发明内容
有鉴于此,本发明实施例提供了一种机器人及其音频处理方法,以解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
本发明的第一方面提供了一种机器人,包括拾音模块和主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括N个麦克风,其中N≥3且N为整数;
所述N个麦克风呈环形且均匀分布于所述机器人的机身,通过所述N个麦克风进行采集音频数据,并将N个麦克风获取到的N路音频数据传输至所述主控模块;以使所述主控模块基于所述音频数据进行声源定位和声音拾取。
本发明的第二方面提供了一种基于上书机器人的音频处理方法,包括:
通过拾音模块的N个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据发送至主控模块;
所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
本发明提供的一种机器人及其音频处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种机器人的模块结构示意图;
图2是本发明实施例一提供的一种机器人的拾音模块40的结构示意图;
图3是本发明实施例一提供的机器人的麦克风阵列41的分布示意图;
图4是本发明实施例二提供的一种基于实施例一的机器人的音频数据处理方法的实现流程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、***、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
需要说明的是,本发明的说明书和权利要求书中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
本发明实施例为了解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题,提供了一种机器人及其音频数据处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
如图1所示,本实施例提供了一种机器人1,该机器人1包括拾音模块10和主控模块20。
拾音模块10与主控模块20电连接,拾音模块10包括麦克风阵列11,麦克风阵列11包括N个麦克风;其中N≥3且N为整数。
N个麦克风环绕机器人1的机身均匀分布,主控模块20获取麦克风阵列10采集的N路音频数据,并基于音频数据进行声源定位和声音拾取。
在一个实施例中,上述拾音装置10还包括MIC小板12。
MIC小板12分别与麦克风阵列11和主控模块20电连接。
MIC小板12将麦克风阵列11采集的N路音频数据进行模数转换后传输至主控模块20。具体的MIC小板将麦克风阵列11采集的N路模拟音频数据转换为数字音频数据,再将该数字音频数据传输至主控模块20。
在一个实施例中,上述MIC小板12包括分别与麦克风阵列11和主控模块20电连接的模数转换器121。通过模数转换器121对N路音频数据进行模数转换。
在具体应用中,MIC小板12能够将每个麦克风采集到的模拟音频数据转换成相应的数字音频数据,再将数字音频数据进行编号,并将编号完成的数字音频数据发送给主控模块。
在具体应用中,如图2所示,上述拾音模块10包括与麦克风阵列11通过麦克风线实现电连接的MIC小板12,该MIC小板包括模数转换器121。MIC小板通过I2S总线、I2C总线以及电源线与主控模块20电连接。MIC小板12将麦克风阵列11采集到的N路音频数据通过模数转换器121进行模数转换,再将转换后的N路音频数据进行融合,并通过I2S接口将融合后的音频数据传输到主控模块20中。上述MIC小板还分别对N路音频数据进行编号,通过编号将音频数据与采集到该音频数据的麦克风进行对应。
在一个实施例中,上述第一麦克风阵列包括6个麦克风,6个麦克风设置于机器人的机身,6个麦克风分布于以机器人的机身30纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线。
在具体应用中,上述机器人为人形机器人,上述人形机器人包括头部和机身,机身包括颈部,上述6个麦克风设置在上述机器人的颈部。
在具体应用中,如图3所示,麦克风阵列11包括第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6,其中,第一麦克风MIC1和第二麦克风MIC2位于垂直于机器人机身30纵轴线的水平线上,第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6按照等间距按照每两个麦克风与机器人的机身30纵轴线上的任一点为圆心的圆周的圆心形成的夹角为60度,即按360度环绕机器人的颈部均匀分布。第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6构成环绕机器人颈部的环形6MIC的麦克风阵列。
在一个实施例中,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。在具体应用中,上述通过主控模块向MIC小板12输入参考音频数据,通过MIC小板12将输入的参考音频数据进行编号并与上述N路音频数据进行融合后,通过I2S接口发送至主控单元20。主控单元20根据这参考音频数据来对回声进行消除,滤除环境杂音的影响,进一步提高声源定位的准确度和语音识别的准确度。
在一个实施例中,上述机器人还包括与主控模块20电连接的功放30。
主控模块20获取功放30播放的音频数据,并根据功放30播放的音频数据生成参考音频数据。
在具体应用中,若上述主控模块对应播放音频是双声道则生成两路参考音频数据;若上述主控模块对应播放音频是单声道则生成一路参考音频数据;若主控模块对应播放音频是四声道则生成四路参考音频数据。以双声道为例,主控模块会直接通过数据线连接到MIC小板,再将主控模块的功放处播放的两路参考音频数据传到MIC小板。
在一个实施例中,上述主控模块20包括数据缓冲池21(buffer池),数据缓冲池用于存储N路音频数据。在一个实施例中,上述缓冲池不仅存储了N路音频数据,还存储了从MIC小板传输过来的参考音频数据。
在具体应用中,主控模块20将从MIC小板12的I2S接口获取到的N路音频数据以及参考音频数据存储在上述数据缓冲池51中。通过控制模块20根据数据缓冲池中的音频数据进行数据复用,通过运行预设算法来实现360度唤醒以及形成波束以进行拾音。需要说明的是,上述预设算法是指现有的根据采集到的音频数据进行声源定位的定位算法、现有的根据采集到的音频数据进行机器人唤醒的唤醒算法以及现有的根据采集到的音频数据进行波束形成及拾音的波束形成拾音算法。
在具体应用中,通过环形6MIC采集到的对应的音频数据以及两路参考音频数据(共八路音频数据)进行机器人唤醒,即根据上述八路音频数据进行声源定位,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,在唤醒机器人后,通过上述环形6MIC中的第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3以及第六麦克风MIC6采集到的音频数据和两路参考音频数据(共六路音频数据)进行波束形成拾音和语音识别,即根据上述六路音频数据进行降噪,回声消除后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字。
在一个实施例中,上述主控模块20可以是安卓开发板,在上述安卓开发板的软件层设置一个数据缓冲池,将拾音模块10发送过来的N路音频数据以及两路参考音频数据进行编号并存储在上述数据缓冲池中,通过并行运行唤醒算法和识别算法,并行地从数据缓冲池中获取所需的音频数据。需要说明的是,上述唤醒算法可以采用现有的各种语音唤醒算法,上述识别算法可以采用现有的各种语音识别算法。通过对麦克风采集的音频数据进行复用,将部分麦克风获取到的音频数据既供唤醒算法使用,又供识别算法使用。使得位于机器人颈部的麦克风阵列依然能够实现360度的声源定位和360度唤醒,同时保证用于语音识别的音频数据的采集(波束形成拾音),不影响语音识别。也无需在机器人的头部开设麦克风孔,不会影响机器人的美观。
本实施例提供的一种机器人,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
实施例二:
如图4所示,本实施例提供了一种基于实施例一所提供的机器人的语音处理方法,具体包括:
步骤S101:通过拾音模块的N个麦克风采集音频数据。
在具体应用中,通过设置于机器人机身的N个麦克风进行音频数据采集。上述N个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,N≥3且N为整数。
在一个实施例中,上述N个麦克风为6个麦克风,6个麦克风设置于机器人的颈部,6个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,6个麦克风形成环形6MIC阵列。
步骤S102:将所述N个麦克风采集的N路音频数据发送至主控模块。
在具体应用中,通过将N个麦克风采集到的N路音频数据发送到主控模块,通过主控模块根据上述音频数据实现声源定位和声音拾取。
在具体应用中,通过与麦克风阵列的N个麦克风电连接的MIC小板,对N路音频数据进行模数转换后,对模数转换后的音频数据进行数据融合,再将融合了的音频数据传输给主控模块。
在具体应用中,MIC小板在进行数据融合时,通过导入参考音频信号,将参考音频信号与上述N路音频数据进行数据融合,将融合后的数字音频数据传输给主控模块。
在具体应用中,上述MIC小板还将各路音频数据进行对应编号,对上述N路音频数据以及两路参考音频数据分别进行编号。
步骤S103:所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
在具体应用中,主控模块根据存储在数据缓冲池中的音频数据运行对应的算法,来进行声源定位和声音拾取,以实现唤醒和语音识别。具体的,主控模块根据运行的算法从上述数据缓冲池中获取对应编码的音频数据,并运行对应的算法。
在具体应用中,主控模块通过从数据缓冲池中获取N路音频数据以及两路参考音频数据,并根据N路音频数据以及两路参考音频数据运行唤醒算法,实现对机器人的360度唤醒。主控模块并行地从数据缓冲池中第一麦克风MIC1获取的音频数据、第二麦克风MIC2获取的音频数据以及两路参考音频数据,并根据第一麦克风MIC1获取的音频数据、第二麦克风MIC2获取的音频数据第三麦克风MIC3获取的音频数据、第六麦克风MIC6获取的音频数据以及两路参考音频数据运行识别算法,实现对用户说的话进行语音识别。
在一个实施例中,上述步骤S103具体包括以下步骤:
步骤S1031:将两路参考音频数据与所述N路音频数据存储至所述数据缓冲池中。
步骤S1032:从所述数据缓冲池中获取第一组音频数据,通过第一预设算法定位声源位置。
步骤S1033:从所述数据缓冲池中获取第二组音频数据,通过第二预设算法对所述第二组音频数据进行波束形成及音频降噪处理。
在一个实施例中,上述N路音频数据包括6路音频数据。
在具体应用中,对各个麦克风采集到的音频数据进行对应编号,即第一麦克风获取到的音频数据编号为第一音频数据,第二麦克风获取到的音频数据编号为第二音频数据,第三麦克风获取到的音频数据编号为第三音频数据,第四麦克风获取到的音频数据编号为第四音频数据,第五麦克风获取到的音频数据编号为第五音频数据,第六麦克风获取到的音频数据编号为第六音频数据,将第一路参考音频数据编号为第七音频数据,将第二路参考音频数据编号为第八音频数据。上述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据;上述第二组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据。
在具体应用中,通过环形6MIC采集到的对应的音频数据以及两路参考音频数据(共八路音频数据)进行回声消除、360声源定位及机器人唤醒,即根据第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据进行回声消除、声源定位,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,在唤醒机器人后,通过第一麦克风MIC1采集到的音频数据和第二麦克风MIC2采集到的音频数据、第三麦克风MIC3采集的音频数据、第六麦克风MIC6采集的音频数据及两路参考音频数据(共六路音频数据)进行回声消除、降噪、波束形成拾音及语音识别,即根据第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据进行降噪,回声消除后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字,实现语音识别。
需要说明的是,当用户站在机器人正前方,用户的声音能够直达的MIC组成MIC阵列,就能够用来做波束形成。在本实施中使用的是环形6MIC,那么只要用户站在机器人正前方,声音能够直达的环形MIC阵列的所有MIC,由这些MIC组成半圆形MIC阵列的麦克风在采集声音时就不会被遮挡,因此采用半圆形MIC阵列(第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3及第六麦克风MIC6组成的半圆形MIC阵列)采集到的音频数据来做波束形成就能够较好地拾音。还需要说明的是,上述只是本实施例的一种实施方式,只要用户站在机器人正前方时,用户的声音能够直达(不被遮挡)的麦克风都能够用来实现波束形成,在此不加以限制。
需要说明的是,上述第一预设算法为现有的能够实现声源定位和机器人唤醒的唤醒算法,上述第二预设算法为现有的能够实现语音识别的算法。
本实施例提供的基于实施例一提供的机器人来实现的音频数据处理方法,同样能够通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种机器人,其特征在于,所述机器人包括拾音模块和主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括N个麦克风,其中N3且N为整数;
所述N个麦克风环绕所述机器人的机身均匀分布,所述主控模块获取所述麦克风阵列采集的N路音频数据,并基于所述音频数据进行声源定位和声音拾取;
所述基于所述音频数据进行声源定位和声音拾取包括:
对各个麦克风采集到的音频数据和两路参考音频数据进行对应编号,并将所述N路音频数据和两路参考音频数据存储在数据缓冲池中;
并行地从所述数据缓冲池中获取第一组音频数据和第二组音频数据,所述第一组音频数据包括所述麦克风阵列获取的N路音频数据和所述两路参考音频数据,所述第二组音频数据包括所述麦克风阵列中用于运行识别算法的音频数据和所述参考音频数据,所述用于运行识别算法的音频数据为用户声音不被遮挡的麦克风采集到的音频数据,通过用户声音不被遮挡的麦克风采集到的音频数据进行波束形成,对所述第一组音频数据运行唤醒算法,对所述第二组音频数据运行识别算法;
所述N路音频数据为6路音频数据;
将第一麦克风获取到的音频数据编号为第一音频数据,将第二麦克风获取到的音频数据编号为第二音频数据,将第三麦克风获取到的音频数据编号为第三音频数据,将第四麦克风获取到的音频数据编号为第四音频数据,将第五麦克风获取到的音频数据编号为第五音频数据,将第六麦克风获取到的音频数据编号为第六音频数据,将第一路参考音频数据编号为第七音频数据,将第二路参考音频数据编号为第八音频数据;
所述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据;
所述第二组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据。
2.根据权利要求1所述的机器人,其特征在于,所述拾音模块还包括MIC小板;
所述MIC小板分别与所述麦克风阵列和所述主控模块电连接;
所述MIC小板将所述麦克风阵列采集的N路模拟音频数据转换为数字音频数据和编码,并将所述数字音频数据和编码传输至所述主控模块。
3.根据权利要求2所述的机器人,其特征在于,所述MIC小板包括与所述麦克风阵列和所述主控模块电连接的模数转换器,所述模数转换器对N路音频数据进行模数转换。
4.根据权利要求1所述的机器人,其特征在于,所述克风阵列包括6个麦克风,所述6个麦克风设置于所述机器人的机身,所述6个麦克风分布于以所述机身纵轴线上的任一点为圆心的圆周,所述圆周垂直于所述纵轴线。
5.根据权利要求2所述的机器人,其特征在于,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。
6.根据权利要求5所述的机器人,其特征在于,还包括与所述主控模块电连接的功放;
控制主控模块获取所述功放播放的音频数据,并根据所述功放播放的音频数据生成参考音频数据。
7.根据权利要求1所述的机器人,其特征在于,所述主控模块包括数据缓冲池,所述数据缓冲池用于存储所述N路音频数据。
8.一种基于权利要求1所述的机器人实现的音频处理方法,其特征在于,包括:
通过拾音模块的N个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据发送至主控模块;
所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取;
对各个麦克风采集到的音频数据和两路参考音频数据进行对应编号,并将所述N路音频数据和两路参考音频数据存储在数据缓冲池中;
并行地从所述数据缓冲池中获取第一组音频数据和第二组音频数据,所述第一组音频数据包括所述麦克风阵列获取的N路音频数据和所述参考音频数据,所述第二组音频数据包括所述麦克风阵列中用于运行识别算法的音频数据和所述参考音频数据,所述用于运行识别算法的音频数据为用户声音不被遮挡的麦克风采集到的音频数据,对所述第一组音频数据运行唤醒算法,对所述第二组音频数据运行识别算法;
所述N路音频数据为6路音频数据;
将第一麦克风获取到的音频数据编号为第一音频数据,将第二麦克风获取到的音频数据编号为第二音频数据,将第三麦克风获取到的音频数据编号为第三音频数据,将第四麦克风获取到的音频数据编号为第四音频数据,将第五麦克风获取到的音频数据编号为第五音频数据,将第六麦克风获取到的音频数据编号为第六音频数据,将第一路参考音频数据编号为第七音频数据,将第二路参考音频数据编号为第八音频数据;
所述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据;
所述第二组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811620508.6A CN111383649B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频处理方法 |
US16/447,986 US10667045B1 (en) | 2018-12-28 | 2019-06-21 | Robot and auto data processing method thereof |
JP2019208175A JP6692983B1 (ja) | 2018-12-28 | 2019-11-18 | ロボット及びそのオーディオデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811620508.6A CN111383649B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111383649A CN111383649A (zh) | 2020-07-07 |
CN111383649B true CN111383649B (zh) | 2024-05-03 |
Family
ID=70549763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811620508.6A Active CN111383649B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10667045B1 (zh) |
JP (1) | JP6692983B1 (zh) |
CN (1) | CN111383649B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185406A (zh) * | 2020-09-18 | 2021-01-05 | 北京大米科技有限公司 | 声音处理方法、装置、电子设备和可读存储介质 |
CN112230654A (zh) * | 2020-09-28 | 2021-01-15 | 深兰科技(上海)有限公司 | 机器人及其召唤方法和装置 |
CN114333884B (zh) * | 2020-09-30 | 2024-05-03 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN114267353A (zh) * | 2021-12-24 | 2022-04-01 | 思必驰科技股份有限公司 | 用于迎宾汽车的语音控制方法及电子设备和存储介质 |
CN115359804B (zh) * | 2022-10-24 | 2023-01-06 | 北京快鱼电子股份公司 | 一种基于麦克风阵列的定向音频拾取方法和*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104934033A (zh) * | 2015-04-21 | 2015-09-23 | 深圳市锐曼智能装备有限公司 | 机器人的声源定位、唤醒识别的控制方法及其控制*** |
CN106683684A (zh) * | 2016-12-05 | 2017-05-17 | 上海木爷机器人技术有限公司 | 音频信号处理***和音频信号处理方法 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及*** |
CN207676650U (zh) * | 2017-08-22 | 2018-07-31 | 北京捷通华声科技股份有限公司 | 一种基于6麦克风环形阵列的语音处理装置和智能设备 |
CN209551796U (zh) * | 2018-12-28 | 2019-10-29 | 深圳市优必选科技有限公司 | 一种机器人 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3891153B2 (ja) * | 2003-07-31 | 2007-03-14 | ソニー株式会社 | 通話装置 |
JP2007221300A (ja) | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
JP4536020B2 (ja) | 2006-03-13 | 2010-09-01 | Necアクセステクニカ株式会社 | 雑音除去機能を有する音声入力装置および方法 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JP2008278399A (ja) | 2007-05-07 | 2008-11-13 | Yamaha Corp | 放収音装置 |
EP2197219B1 (en) * | 2008-12-12 | 2012-10-24 | Nuance Communications, Inc. | Method for determining a time delay for time delay compensation |
JP5251808B2 (ja) | 2009-09-24 | 2013-07-31 | 富士通株式会社 | 雑音除去装置 |
JP5595112B2 (ja) * | 2010-05-11 | 2014-09-24 | 本田技研工業株式会社 | ロボット |
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
CN105163209A (zh) * | 2015-08-31 | 2015-12-16 | 深圳前海达闼科技有限公司 | 一种接收声音的处理方法及装置 |
KR102392113B1 (ko) * | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
JP6947183B2 (ja) * | 2016-09-13 | 2021-10-13 | ソニーグループ株式会社 | 音源位置推定装置及びウェアラブルデバイス |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
WO2019070722A1 (en) * | 2017-10-03 | 2019-04-11 | Bose Corporation | SPACE DIAGRAM DETECTOR |
US10959029B2 (en) * | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
-
2018
- 2018-12-28 CN CN201811620508.6A patent/CN111383649B/zh active Active
-
2019
- 2019-06-21 US US16/447,986 patent/US10667045B1/en active Active
- 2019-11-18 JP JP2019208175A patent/JP6692983B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104934033A (zh) * | 2015-04-21 | 2015-09-23 | 深圳市锐曼智能装备有限公司 | 机器人的声源定位、唤醒识别的控制方法及其控制*** |
CN106683684A (zh) * | 2016-12-05 | 2017-05-17 | 上海木爷机器人技术有限公司 | 音频信号处理***和音频信号处理方法 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及*** |
CN207676650U (zh) * | 2017-08-22 | 2018-07-31 | 北京捷通华声科技股份有限公司 | 一种基于6麦克风环形阵列的语音处理装置和智能设备 |
CN209551796U (zh) * | 2018-12-28 | 2019-10-29 | 深圳市优必选科技有限公司 | 一种机器人 |
Also Published As
Publication number | Publication date |
---|---|
JP2020109941A (ja) | 2020-07-16 |
US10667045B1 (en) | 2020-05-26 |
CN111383649A (zh) | 2020-07-07 |
JP6692983B1 (ja) | 2020-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111383649B (zh) | 一种机器人及其音频处理方法 | |
US10097921B2 (en) | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals | |
WO2018137704A1 (zh) | 一种基于麦克风阵列的拾音方法及*** | |
CN204836533U (zh) | 一种具有回声消除功能的声控智能音箱 | |
CN106548783B (zh) | 语音增强方法、装置及智能音箱、智能电视 | |
CN110349582B (zh) | 显示装置与远场语音处理电路 | |
WO2003103336A3 (en) | AUDIO IMAGING METHOD AND SYSTEM | |
US20150208191A1 (en) | Information processing system and storage medium | |
CN205584434U (zh) | 一种智能耳机 | |
CN103219012A (zh) | 一种基于声源距离的双麦克风噪声消除方法及装置 | |
CN108293162A (zh) | 信息处理设备、信息处理方法和程序 | |
WO2009075085A1 (ja) | 収音装置、収音方法、収音プログラム、および集積回路 | |
CN111142066A (zh) | 波达方向估计方法、服务器以及计算机可读存储介质 | |
CN209551787U (zh) | 一种机器人 | |
CN111383650B (zh) | 一种机器人及其音频数据处理方法 | |
CN209514591U (zh) | 一种会议终端设备 | |
CN209551796U (zh) | 一种机器人 | |
CN207676616U (zh) | 一种基于语音交互的智能广告牌 | |
CN108680902A (zh) | 一种基于多麦克风阵列的声源定位*** | |
CN202773062U (zh) | 高信噪比跟踪定向采音设备 | |
US10652653B2 (en) | Audio pickup and play circuit and system, and method for switching audio pickup and play | |
CN109473111A (zh) | 一种语音赋能装置及方法 | |
CN108447497A (zh) | 一种在有干扰的环境中独立出自己发声的方法 | |
CN209515191U (zh) | 一种语音赋能装置 | |
CN111988705B (zh) | 音频处理方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |