CN114495923A - 智能控制***实现方法、装置、电子设备及存储介质 - Google Patents

智能控制***实现方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114495923A
CN114495923A CN202111625375.3A CN202111625375A CN114495923A CN 114495923 A CN114495923 A CN 114495923A CN 202111625375 A CN202111625375 A CN 202111625375A CN 114495923 A CN114495923 A CN 114495923A
Authority
CN
China
Prior art keywords
voice
end processing
processing function
control system
intelligent control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111625375.3A
Other languages
English (en)
Inventor
徐木水
汪木金
李鑫
李峥
李鹏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111625375.3A priority Critical patent/CN114495923A/zh
Publication of CN114495923A publication Critical patent/CN114495923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本公开提供了智能控制***实现方法、装置、电子设备及存储介质,涉及智能语音、深度学习以及智能交通等人工智能领域,其中的方法可包括:利用智能控制***中的语音芯片完成第一语音前端处理功能;利用智能控制***中的主控处理器完成第二语音前端处理功能;其中,第一语音前端处理功能和第二语音前端处理功能共同组成智能控制***的语音前端处理功能,且,第一语音前端处理功能和第二语音前端处理功能为不同的语音前端处理功能。应用本公开所述方案,可减轻主控处理器的算力压力,提升语音交互效果等。

Description

智能控制***实现方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,特别涉及智能语音、深度学习以及智能交通等领域的智能控制***实现方法、装置、电子设备及存储介质。
背景技术
随着智能座舱的语音功能需求越来越多,对车机***中的车机主控的算力要求越来越高。
目前,所有的语音前端处理功能均在车机主控处理器上完成,从而对车机主控处理器造成了很大的算力压力,很可能会引起卡顿、交互响应慢等问题,进而影响了语音交互效果。
发明内容
本公开提供了智能控制***实现方法、装置、电子设备及存储介质。
一种智能控制***实现方法,包括:
利用智能控制***中的语音芯片完成第一语音前端处理功能;
利用所述智能控制***中的主控处理器完成第二语音前端处理功能;
其中,所述第一语音前端处理功能和所述第二语音前端处理功能共同组成所述智能控制***的语音前端处理功能,且,所述第一语音前端处理功能和所述第二语音前端处理功能为不同的语音前端处理功能。
一种智能控制***,包括:主控处理器以及语音芯片;
所述语音芯片,用于完成第一语音前端处理功能;
所述主控处理器,用于完成第二语音前端处理功能;
其中,所述第一语音前端处理功能和所述第二语音前端处理功能共同组成所述智能控制***的语音前端处理功能,且,所述第一语音前端处理功能和所述第二语音前端处理功能为不同的语音前端处理功能。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。
上述公开中的一个实施例具有如下优点或有益效果:可将在主控处理器上完成的部分语音前端处理功能移植到语音芯片上,从而减轻了主控处理器的算力压力,进而尽可能地避免了卡顿和交互响应慢等问题的出现,并相应地提升了语音交互效果等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开所述智能控制***实现方法实施例的流程图;
图2为本公开所述车机***的框架示意图;
图3为本公开所述车机***对应的数据流示意图;
图4为本公开所述智能控制***实施例400的组成结构示意图;
图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本公开所述智能控制***实现方法实施例的流程图。如图1所示,包括以下具体实现方式。
在步骤101中,利用智能控制***中的语音芯片完成第一语音前端处理功能。
在步骤102中,利用智能控制***中的主控处理器完成第二语音前端处理功能,第一语音前端处理功能和第二语音前端处理功能共同组成智能控制***的语音前端处理功能,且,第一语音前端处理功能和第二语音前端处理功能为不同的语音前端处理功能。
可以看出,上述方法实施例所述方案中,可将在主控处理器上完成的部分语音前端处理功能移植到语音芯片上,从而减轻了主控处理器的算力压力,进而尽可能地避免了卡顿和交互响应慢等问题的出现,并相应地提升了语音交互效果等。
优选地,所述智能控制***可为车机***,所述主控处理器可为车机主控处理器,以下即以此为例进行说明。
语音芯片可为专用的语音芯片,可采用双核高保真4(HIFI4,High-Fidelity4)数字信号处理器(DSP,Digital Signal Processing)架构、自定义指令集以及丰富的矢量浮点运算单元,使其更适合神经网络计算等,符合车规标准并可应用于智能家居、智能车载等各种场景。
传统方式中,所有的语音前端处理功能均在车机主控的高级精简指令集计算机(ARM,Advanced RISC Machine)处理器上完成,本公开所述方案中,在车机***中进一步引入了语音芯片,将部分语音前端处理功能移植到所述语音芯片上,从而实现了ARM+DSP的车载多音区语音前端处理方案。
本公开的一个实施例中,语音芯片完成的第一语音前端处理功能可包括:降噪、回声消除(AEC,Acoustic Echo Cancelling)以及唤醒检测等,车机主控处理器完成的第二语音前端处理功能可包括:音区分离以及语音活动检测(VAD,Voice Activity Detection)等。
即可将降噪、回声消除和唤醒检测等对算力要求比较高的功能移植到语音芯片上,从而显著地减轻了车机主控处理器的算力压力。
本公开的一个实施例中,所述回声消除可包括:线性回声消除和/或模型回声消除,所述唤醒检测可包括:唤醒词检测及指令词检测。
也就是说,在进行回声消除时,可以仅进行线性回声消除,也可以仅进行模型回声消除,还可以既进行线性回声消除又进行模型回声消除,具体采用哪种方式可根据实际需要而定,非常的灵活方便。但通常来说,会进行线性回声消除,并可视实际需要确定是否进行模型回声消除。模型回声消除即指可利用预先训练得到的深度学习模型来进行回声消除。
另外,唤醒检测可包括唤醒词检测及指令词检测,其中,唤醒词即指用于唤醒设备的词汇,指令词通常是指一些车载控制指令,如打开天窗、导航到**(地名)、播放下一首歌曲等。
本公开的一个实施例中,对于车机主控处理器来说,可采用基于复数卷积神经网络(CNN,Convolutional Neural Network)的多音区语音分离算法来实现音区分离,所述算法可为预先训练得到的深度学习模型。
传统方式中,通常采用传统的语音信号处理方法来进行语音盲分离,而本公开所述方案中,可采用基于复数CNN的多音区语音分离算法来实现音区分离,从而可实现主驾、副驾、左右、右后等任意混合声源的语音分离,真正做到车内音区隔离,分离信噪比(SNR,Signal-to-Noise Ratio)可达15db以上,从而避免了音区泄露引入的误识别等问题。
本公开的一个实施例中,对于车机主控处理器来说,可采用基于盲源分离(BSS,Blind Source Separation)的语音活动检测算法来实现语音活动检测。
传统方式中,通常会创建多个唤醒/语音活动检测实例,以便对分离后的不同音区的数据分别进行唤醒检测和语音活动检测,从而增大了车机主控的内存和中央处理单元(CPU,Central Processing Unit)开销等,而本公开所述方案中,可采用基于盲源分离的语音活动检测算法来实现语音活动检测,即可将不同音区的数据一起发送给基于盲源分离的语音活动检测算法,由所述算法输出不同音区的语音活动起点和尾点检测结果,加上多音区处理逻辑,实现多音区交互的效果,而且避免了创建多个实例所引入的较大内存及CPU开销等。
本公开的一个实施例中,语音芯片与车机主控处理器之间可通过通用输入输出(GPIO,General-Purpose Input/Output)中断以及预定接口进行信息交互,所述预定接口可包括:音频接口和/或串行通讯接口。
所述音频接口可为集成电路内置音频总线(I2S,Inter-Integrated CircuitSound)接口或时分复用(TDM,Time-Division Multiplexing)接口,所述串行通讯接口可为串行外设接口(SPI,Serial Peripheral Interface)等。
语音芯片检测到有唤醒发生时,可通过触发GPIO中断通知车机主控处理器,车机主控处理器之后可通过SPI等接口获取唤醒信息,如唤醒词和唤醒点位置信息等。
通过上述处理,可实现语音芯片与车机主控处理器之间的简单高效的信息交互。
另外,传统方式中,针对通过安卓音频(Andriod Audio)链路获取到的数据,需要经过一系列复杂的处理之后,才能进行唤醒检测等,从而引入了较大的语音交互时延,导致唤醒响应速度较慢等,而本公开所述方案中,将唤醒检测移植到语音芯片上实现,唤醒事件可通过GPIO中断通知到车机主控处理器,然后可通过远程过程调用(RPC,RemoteProcedure Call)事件通知业务层唤醒触发,从而缩短了语音交互时延,提升了唤醒响应速度等。
基于前述介绍,图2为本公开所述车机***的框架示意图,图3为本公开所述车机***对应的数据流示意图。
如前所述,语音芯片完成的第一语音前端处理功能可包括:降噪、回声消除以及唤醒检测,车机主控处理器完成的第二语音前端处理功能可包括:音区分离以及语音活动检测。如图2和图3所示,优选地,所述回声消除可包括线性回声消除和模型回声消除,所述唤醒检测可包括唤醒词检测及指令词检测,另外,车机主控处理器可采用基于复数CNN的多音区语音分离算法来实现音区分离,并可采用基于BSS的语音活动检测算法来实现语音活动检测。
需要说明的是,上述语音芯片以及车机主控处理器完成的语音前端处理功能仅为举例说明,并不用于限制本公开的技术方案。如图2和图3所示,在实际应用中,根据实际需要,还可进一步包括一些其它功能。
如图2和图3所示,可在语音芯片内实现数据采集,即音频数据采集,并可对采集到的数据进行预处理,所述预处理具体包括哪些内容可根据实际需要而定,比如,可包括去直流、采样率调整以及去毛刺等处理,另外,语音芯片还可进行解混响处理,从而将对模型回声消除结果进行解混响处理后的结果上传到车机主控处理器。
如图2和图3所示,车机主控处理器还可支持自定义唤醒功能,即可支持用户自定义唤醒词,语音芯片在进行唤醒词检测时,可基于预置的默认唤醒词进行检测,在此基础上,用户还可根据自己的实际需要任意设定唤醒词,即自定义唤醒词,并可基于自定义的唤醒词进行唤醒检测和唤醒。
语音芯片可与车机主控处理器端到端一体化建模,可通过GPIO中断以及预定接口进行信息交互,所述预定接口可包括:音频接口和/或串行通讯接口。
如图2和图3所示,线性回声消除结果和模型回声消除结果均可上传到车机主控处理器,车机主控处理器中的各功能模块可根据实际需要选择使用线性回声消除结果还是模型回声消除结果。比如,自定义唤醒功能模块可使用线性回声消除结果。
如图2和图3所示,线性回声消除结果可通过音频接口上传到车机主控处理器,如可通过I2S接口或TDM接口上传到车机主控处理器,模型回声消除结果可通过音频接口或串行通讯接口上传到车机主控处理器,如可通过I2S接口、TDM接口或SPI接口上传到车机主控处理器。模型回声消除结果除了可上传车机主控处理器之外,还可用于唤醒检测等。语音芯片检测到有唤醒发生时,可通过触发GPIO中断通知车机主控处理器,车机主控处理器之后可通过SPI接口获取唤醒信息,并可通过RPC事件(RPC模块)通知业务层唤醒触发等。
如图2和图3所示,语音识别软件开发工具包(SDK,Software Development Kit)为业务层,可通过安卓数据链路获取多音区识别数据(或称为ASR数据),并可获取来自RPC模块的语音活动检测结果等,进而可根据获取到的数据/信息实现自动语音识别(ASR,Automatic Speech Recognition)等。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
总之,采用本公开方法实施例所述方案,可将在车机主控处理器上完成的部分语音前端处理功能移植到语音芯片上,从而减轻了车机主控处理器的算力压力,进而尽可能地避免了卡顿和交互响应慢等问题的出现,提升了语音交互效果,同时改进了音区分离及语音活动检测方式,从而避免了音区泄露引起的误识别问题以及减少了内存及CPU开销等,另外,本公开方法实施例所述方案可跨平台跨***使用,能够快速地应用到不同硬件、不同操作***(OS,Operation System)的车机上,而且,对于业务SDK或业务应用(APP)来说,无感知差异,从而可快速平移等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图4为本公开所述智能控制***实施例400的组成结构示意图。如图4所示,包括:主控处理器401以及语音芯片402。
语音芯片402,用于完成第一语音前端处理功能。
主控处理器401,用于完成第二语音前端处理功能,其中,第一语音前端处理功能和第二语音前端处理功能共同组成智能控制***的语音前端处理功能,且,第一语音前端处理功能和第二语音前端处理功能为不同的语音前端处理功能。
可以看出,上述装置实施例所述方案中,可将在主控处理器上完成的部分语音前端处理功能移植到语音芯片上,从而减轻了主控处理器的算力压力,进而尽可能地避免了卡顿和交互响应慢等问题的出现,并相应地提升了语音交互效果等。
传统方式中,所有的语音前端处理功能均在主控处理器401上完成,本公开所述方案中,在智能控制***400中进一步引入了语音芯片402,将部分语音前端处理功能移植到语音芯片402上。
本公开的一个实施例中,语音芯片402完成的第一语音前端处理功能可包括:降噪、回声消除以及唤醒检测等,主控处理器401完成的第二语音前端处理功能可包括:音区分离以及语音活动检测等。
本公开的一个实施例中,所述回声消除可包括:线性回声消除和/或模型回声消除,所述唤醒检测可包括:唤醒词检测及指令词检测。
也就是说,在进行回声消除时,可以仅进行线性回声消除,也可以仅进行模型回声消除,还可以既进行线性回声消除又进行模型回声消除,具体采用哪种方式可根据实际需要而定。但通常来说,会进行线性回声消除,并可视实际需要确定是否进行模型回声消除。
另外,唤醒检测可包括唤醒词检测及指令词检测,其中,唤醒词即指用于唤醒设备的词汇,指令词通常是指一些控制指令。
本公开的一个实施例中,对于主控处理器401来说,可采用基于复数CNN的多音区语音分离算法来实现音区分离,所述算法可为预先训练得到的深度学习模型。
传统方式中,通常采用传统的语音信号处理方法来进行语音盲分离,而本公开所述方案中,可采用基于复数CNN的多音区语音分离算法来实现音区分离,以车辆为例,从而可实现主驾、副驾、左右、右后等任意混合声源的语音分离,真正做到车内音区隔离,分离信噪比可达15db以上,从而避免了音区泄露引入的误识别等问题。
本公开的一个实施例中,对于主控处理器401来说,还可采用基于盲源分离的语音活动检测算法来实现语音活动检测。
传统方式中,通常会创建多个唤醒/语音活动检测实例,以便对分离后的不同音区的数据分别进行唤醒检测和语音活动检测,从而增大了内存和CPU开销等,而本公开所述方案中,可采用基于盲源分离的语音活动检测算法来实现语音活动检测,即可将不同音区的数据一起发送给基于盲源分离的语音活动检测算法,由所述算法输出不同音区的语音活动起点和尾点检测结果,加上多音区处理逻辑,实现多音区交互的效果,而且避免了创建多个实例所引入的较大内存及CPU开销等。
另外,本公开的一个实施例中,语音芯片402与主控处理器401之间可通过GPIO中断以及预定接口进行信息交互,所述预定接口可包括:音频接口和/或串行通讯接口。
所述音频接口可为I2S或TDM接口,所述串行通讯接口可为SPI接口等。
语音芯片402检测到有唤醒发生时,可通过触发GPIO中断通知主控处理器401,主控处理器401之后可通过SPI等接口获取唤醒信息,并相应地完成后续处理。
图4所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明。
优选地,所述智能控制***可为车机***,所述主控处理器可为车机主控处理器。采用本公开装置实施例所述方案,可将在车机主控处理器上完成的部分语音前端处理功能移植到语音芯片上,从而减轻了车机主控处理器的算力压力,进而尽可能地避免了卡顿和交互响应慢等问题的出现,提升了语音交互效果,同时改进了音区分离及语音活动检测方式,从而避免了音区泄露引起的误识别问题以及减少了内存及CPU开销等,另外,本公开装置实施例所述方案可跨平台跨***使用,能够快速地应用到不同硬件、不同操作***(OS,Operation System)的车机上,而且,对于业务SDK或业务APP来说,无感知差异,从而可快速平移等。
本公开所述方案可应用于人工智能领域,特别涉及智能语音、深度学习以及智能交通等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
本公开所述实施例中的语音并不是针对某一特定用户的语音,并不能反映出某一特定用户的个人信息,另外,车机***实现方法的执行主体可以通过各种公开、合法合规的方式获取所述语音,如经过了用户的授权从用户处获取等。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种智能控制***实现方法,包括:
利用智能控制***中的语音芯片完成第一语音前端处理功能;
利用所述智能控制***中的主控处理器完成第二语音前端处理功能;
其中,所述第一语音前端处理功能和所述第二语音前端处理功能共同组成所述智能控制***的语音前端处理功能,且,所述第一语音前端处理功能和所述第二语音前端处理功能为不同的语音前端处理功能。
2.根据权利要求1所述的方法,其中,
所述第一语音前端处理功能包括:降噪、回声消除以及唤醒检测;
所述第二语音前端处理功能包括:音区分离以及语音活动检测。
3.根据权利要求2所述的方法,其中,
所述回声消除包括:线性回声消除和/或模型回声消除;
所述唤醒检测包括:唤醒词检测及指令词检测。
4.根据权利要求2所述的方法,其中,
所述音区分离包括:采用基于复数卷积神经网络的多音区语音分离算法实现的音区分离。
5.根据权利要求2所述的方法,其中,
所述语音活动检测包括:采用基于盲源分离的语音活动检测算法实现的语音活动检测。
6.根据权利要求1~5中任一项所述的方法,其中,
所述语音芯片与所述主控处理器之间通过通用输入输出中断以及预定接口进行信息交互,所述预定接口包括:音频接口和/或串行通讯接口。
7.一种智能控制***,包括:主控处理器以及语音芯片;
所述语音芯片,用于完成第一语音前端处理功能;
所述主控处理器,用于完成第二语音前端处理功能;
其中,所述第一语音前端处理功能和所述第二语音前端处理功能共同组成所述智能控制***的语音前端处理功能,且,所述第一语音前端处理功能和所述第二语音前端处理功能为不同的语音前端处理功能。
8.根据权利要求7所述的智能控制***,其中,
所述第一语音前端处理功能包括:降噪、回声消除以及唤醒检测;
所述第二语音前端处理功能包括:音区分离以及语音活动检测。
9.根据权利要求8所述的智能控制***,其中,
所述回声消除包括:线性回声消除和/或模型回声消除;
所述唤醒检测包括:唤醒词检测及指令词检测。
10.根据权利要求8所述的智能控制***,其中,
所述主控处理器采用基于复数卷积神经网络的多音区语音分离算法实现所述音区分离。
11.根据权利要求8所述的智能控制***,其中,
所述主控处理器采用基于盲源分离的语音活动检测算法实现所述语音活动检测。
12.根据权利要求7~11中任一项所述的智能控制***,其中,
所述语音芯片与所述主控处理器之间通过通用输入输出中断以及预定接口进行信息交互,所述预定接口包括:音频接口和/或串行通讯接口。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202111625375.3A 2021-12-28 2021-12-28 智能控制***实现方法、装置、电子设备及存储介质 Pending CN114495923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111625375.3A CN114495923A (zh) 2021-12-28 2021-12-28 智能控制***实现方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111625375.3A CN114495923A (zh) 2021-12-28 2021-12-28 智能控制***实现方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114495923A true CN114495923A (zh) 2022-05-13

Family

ID=81496456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111625375.3A Pending CN114495923A (zh) 2021-12-28 2021-12-28 智能控制***实现方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114495923A (zh)

Similar Documents

Publication Publication Date Title
US11848008B2 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
TWI455112B (zh) 語音處理設備及電子裝置
KR102553234B1 (ko) 음성 데이터 처리 방법, 장치 및 지능형 차량
EP3923272A1 (en) Method and apparatus for adapting a wake-up model
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
EP4033483B1 (en) Method and apparatus for testing vehicle-mounted voice device, electronic device and storage medium
CN111091819A (zh) 语音识别装置和方法、语音交互***和方法
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
US20220301552A1 (en) Method of performing voice wake-up in multiple speech zones, method of performing speech recognition in multiple speech zones, device, and storage medium
CN113674746A (zh) 人机交互方法、装置、设备以及存储介质
CN112017650A (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN111833870A (zh) 车载语音***的唤醒方法、装置、车辆和介质
CN113096692B (zh) 语音检测方法及装置、设备、存储介质
CN113658586A (zh) 语音识别模型的训练方法、语音交互方法及装置
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
EP4030424B1 (en) Method and apparatus of processing voice for vehicle, electronic device and medium
CN114495923A (zh) 智能控制***实现方法、装置、电子设备及存储介质
CN114647610B (zh) 语音芯片实现方法、语音芯片及相关设备
CN114399992B (zh) 语音指令响应方法、装置及存储介质
CN114882879A (zh) 音频降噪方法、确定映射信息的方法、装置及电子设备
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN112017651B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN114120983A (zh) 音频数据处理方法及装置、设备、存储介质
US20230005490A1 (en) Packet loss recovery method for audio data packet, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination