CN108074581A - 用于人机交互智能终端的控制*** - Google Patents

用于人机交互智能终端的控制*** Download PDF

Info

Publication number
CN108074581A
CN108074581A CN201611030598.4A CN201611030598A CN108074581A CN 108074581 A CN108074581 A CN 108074581A CN 201611030598 A CN201611030598 A CN 201611030598A CN 108074581 A CN108074581 A CN 108074581A
Authority
CN
China
Prior art keywords
signal
wake
module
engine
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611030598.4A
Other languages
English (en)
Other versions
CN108074581B (zh
Inventor
刘洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Rubu Technology Co.,Ltd.
Original Assignee
Shenzhen Bo Nuoou Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bo Nuoou Intelligent Technology Co Ltd filed Critical Shenzhen Bo Nuoou Intelligent Technology Co Ltd
Priority to CN201611030598.4A priority Critical patent/CN108074581B/zh
Publication of CN108074581A publication Critical patent/CN108074581A/zh
Application granted granted Critical
Publication of CN108074581B publication Critical patent/CN108074581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种用于人机交互智能终端的控制***,所述***包括:语音信号采集模块用于采集用户输入的语音信号,去噪模块用于去除语音信号中的人机交互智能终端的***噪声,第一信号处理模块用于对语音信号放大、调频和去除环境噪声,第一唤醒引擎用于响应第一信号处理模块处理后的语音信号生成第一唤醒信号,第二信号处理模块用于对去噪模块处理后的语音信号放大、调频和去除环境噪声,第二唤醒引擎用于响应第二信号处理模块处理后的语音信号生成第二唤醒信号,识别引擎用于根据第一唤醒信号和/或第二唤醒信号识别第一信号处理模块处理后的语音信号。解决了存在***噪声时人机交互智能终端唤醒的问题。

Description

用于人机交互智能终端的控制***
技术领域
本发明实施例涉及人机交互领域,尤其涉及一种用于人机交互智能终端的控制***。
背景技术
在传统的人机交互中,机器人的语音交互***应用广泛。通常是***对语音信号进行放大处理,然后将接收到的信号送到唤醒引擎,当***检测到唤醒词时,***被唤醒,唤醒后收到的语音信号送到唤醒引擎进行重复唤醒和识别引擎做语音识别。然而,机器人运动时存在的***噪声会对有用的唤醒语音信号造成干扰,影响唤醒功能。
目前对前端信号处理时硬件和软件都是封闭的***,多路信号的输入是打包处理的,不能拆解成单一的信号做特定的噪声消除处理,也不能在信号处理的进程中增加噪声消除的软件算法。
发明内容
有鉴于此,本发明实施例提出一种用于人机交互智能终端的控制***,解决了存在***噪声时人机交互智能终端唤醒的问题。
本发明实施例提供了一种用于人机交互智能终端的控制***,所述***包括语音信号采集模块、第一信号处理模块、第一唤醒引擎、去噪模块、第二信号处理模块、第二唤醒引擎和识别引擎,其中,所述语音信号采集模块分别与所述第一信号处理模块和去噪模块相连,所述第一信号处理模块分别与所述第一唤醒引擎和所述识别引擎相连,所述第二信号处理模块分别与所述去噪模块和所述第二唤醒引擎相连,所述识别引擎分别与所述第一唤醒引擎和第二唤醒引擎相连;其中,所述语音信号采集模块用于采集用户输入的语音信号,所述第一信号处理模块用于对所述语音信号放大、调频和去除环境噪声,所述第一唤醒引擎用于响应所述第一信号处理模块处理后的语音信号生成第一唤醒信号;所述去噪模块用于去除所述语音信号采集模块采集的语音信号中的人机交互智能终端的***噪声,所述第二信号处理模块用于对所述去噪模块处理后的语音信号放大、调频和去除环境噪声,所述第二唤醒引擎用于响应所述第二信号处理模块处理后的语音信号生成第二唤醒信号;所述识别引擎用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块处理后的语音信号。
进一步的,所述语音信号采集模块包括两路或两路以上的麦克风模组,每路麦克风模组用于采集一路用户的语音信号。
进一步的,所述语音信号采集模块还包括第一模数转换器、现场可编程门阵列和第二模数转换器,所述第一模数转换器分别与所述两路或两路以上的麦克风模组和所述现场可编程门阵列相连,所述现场可编程门阵列与所述第一信号处理模块相连,所述第二模数转换器分别与所述两路或两路以上的麦克风模组中的一组麦克风模组和所述去噪模块相连。
进一步的,所述去噪模块用于去除所述人机交互智能终端的电机噪声。
进一步的,所述电机噪声的分贝值大于等于60DB。
进一步的,所述第一信号处理模块包括相连的第一音频放大器、第一去噪单元和第一调频单元,所述第一去噪单元用于去除来自所述语音信号采集模块的语音信号中的环境噪声。
进一步的,所述第二信号处理模块包括相连的第二音频放大器、第二去噪单元和第二调频单元,所述第二去噪单元用于去除来自所述去噪模块的语音信号中的环境噪声。
进一步的,所述第一唤醒引擎包括第一比较器,所述第一比较器中设置第一阈值,当所述第一比较器输入的第一电压大于所述第一阈值时,所述第一比较器输出第一唤醒信号。
进一步的,所述第二唤醒引擎包括第二比较器,所述第二比较器中设置第二阈值,当所述第二比较器输入的第二电压大于所述第二阈值时,所述第二比较器输出第二唤醒信号。
进一步的,所述识别引擎包括相连的控制器和声纹识别器,所述控制器与所述第一唤醒引擎和第二唤醒引擎相连,所述声纹识别器与所述第一信号处理模块相连,所述控制器根据所述第一唤醒引擎输出的第一唤醒信号和/或所述第二唤醒引擎输出的第二唤醒信号发出识别控制信号,所述声纹识别器根据所述识别控制信号提取所述第一信号处理模块输出的语音信号中的声纹特征。
本发明实施例中,通过去除语音信号中的***噪声,对语音信号进行放大、调频和去除环境噪声等处理,根据处理后的信号获得唤醒信号,识别引擎根据唤醒信号识别经过处理后的语音信号,实现了存在***噪声的情况下对人机交互智能终端的唤醒功能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种用于人机交互智能终端的控制***的结构图;
图2是本发明实施例二提供的一种用于人机交互智能终端的控制***的结构图;
图3a是本发明实施例三提供的一种用于人机交互智能终端的控制***的结构图;
图3b是本发明实施例三提供的一种用于人机交互智能终端的控制***的结构图;
图4是本发明实施例四提供的一种用于人机交互智能终端的控制***的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。另外还需要说明的是,为了便于说明,以下实施例中示出了与本发明相关的示例,这些示例仅作为说明本发明实施例的原理所用,并不作为对本发明实施例的限定,同时,这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。
本发明实施例的用于人机交互智能终端的控制***可以运行于安装有Windows(微软公司开发的操作***平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作***平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作***平台)、Windows Phone(微软公司开发的用于便携式可移动智能设备的操作***平台)等操作***的终端中,该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。
实施例一
图1是本发明实施例一提供的一种用户人机交互智能终端的控制***的结构图,所述控制***可以集成在任意具有人机交互功能的设备中。本实施例中的控制***包括:语音信号采集模块110、去噪模块120、第一信号处理模块130、第一唤醒引擎140、第二信号处理模块150、第二唤醒引擎160和识别引擎170。
其中,语音信号采集模块110分别与第一信号处理模块130和去噪模块120相连,第一信号处理模块130分别与第一唤醒引擎140和识别引擎170相连,第二信号处理模块150分别与去噪模块120和第二唤醒引擎160相连,识别引擎170分别与第一唤醒引擎140和第二唤醒引擎160相连。语音信号采集模块110用于采集用户输入的语音信号,所述语音信号采集模块110用于采集用户输入的语音信号,所述第一信号处理模块130用于对所述语音信号放大、调频和去除环境噪声,所述第一唤醒引擎140用于响应所述第一信号处理模块130处理后的语音信号生成第一唤醒信号;所述去噪模块120用于去除所述语音信号采集模块110采集的语音信号中的人机交互智能终端的***噪声,所述第二信号处理模块150用于对所述去噪模块120处理后的语音信号放大、调频和去除环境噪声,所述第二唤醒引擎160用于响应所述第二信号处理模块150处理后的语音信号生成第二唤醒信号;所述识别引擎170用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块130处理后的语音信号。
具体的,用户根据自己的需要输入语音信号,所述语音信号可以是一个请求或命令,去除语音信号中的人机交互智能终端的***噪声,***噪声可以是电机转动时部件摩擦等产生的噪声。对所述语音信号进行放大、调频和去除环境噪声,环境噪声可以包括但不限于人机交互智能终端所处外界环境中的干扰噪声。通过响应该处理后的语音信号生成第一唤醒信号;对去除***噪声以后的语音信号进行放大、调频和去除环境噪声,通过响应该处理后的信号生成第二唤醒信号。调频是一种使受调波瞬时频率随调制信号而变的调制方法,其中,载波的瞬时频率按照所需传递信号的变化规律而变化。识别引擎170根据第一唤醒信号和/或第二唤醒信号识别第一信号处理模块130处理后的语音信号,只要第一唤醒信号和第二唤醒信号中的至少一个不为零,则识别引擎170被启动,识别引擎170对第一信号处理模块130处理后的语音信号转化成文字并反馈到***。
可选的,去噪模块120用于去除所述人机交互智能终端的电机噪声。
具体的,在人机交互智能终端的控制***的运行中,电机工作时会产生电机噪声,电机噪声主要分为电磁噪声、机械噪声和空气动力噪声。电机噪声具有特定的频谱特征,去噪模块120对电机噪声进行消除。
其中,电机噪声针对不同的人机交互智能终端其具体的分贝值不同,可以通过声音测量设备对不同的人机交互智能终端测量后统计得到不同的人机交互智能终端的电机噪声的参考值。可选地,电机噪声的分贝值大于等于60DB,该电机噪声的分贝值是根据部分人机交互智能终端测量后得到的平均值,仅供参考,而非对电机噪声具体分贝值的限定。
本发明实施例中,通过去除语音信号中的***噪声,对语音信号进行放大、调频和去除环境噪声等处理,根据处理后的信号获得唤醒信号,识别引擎根据唤醒信号识别经过处理后的语音信号,实现了存在***噪声的情况下对人机交互智能终端的唤醒功能。
实施例二
图2是本发明实施例二提供的一种用于人机交互智能终端的控制***的结构图。本实施例是对实施例一中的语音信号采集模块110的结构和工作原理进行了详细的阐述。语音采集模块110包括:两路或两路以上的麦克风模组111,第一模数转换器112、现场可编程门阵列113和第二模数转换器114。
其中,两路或两路以上的麦克风模组111,每路麦克风模组用于采集一路用户的语音信号。第一模数转换器112分别与两路或两路以上的麦克风模组111和现场可编程门阵列113相连,现场可编程门阵列113与第一信号处理模块130相连,第二模数转换器114分别与两路或两路以上的麦克风模组111中的一组麦克风模组和去噪模块120相连。
具体的,***中包括两路或两路以上的麦克风模组111,每路麦克风模组用于采集一路的用户的语音信号,第一数模转换器112对两路或两路以上的麦克风模组111采集到的语音信号进行模拟信号到数字信号的转换。模数转换器,是把经过与标准量(或参考量)比较处理后的模拟量转换成以二进制数值表示的离散信号的转换器,是把模拟量转换成数字量的过程。现场可编程门阵列113,是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。现成可编程门阵列113对数字信号进行门阵列的编程处理,然后输入到第一信号处理模块130进行处理。第二模数转换器114只连接两路或两路以上的麦克风模组111中的一组,对该一组麦克风模组的语音信号进行模拟信号到数字信号的转换,并将转换后的信号输入至去噪模块120进行处理。
本发明实施例中,通过对采集到的语音信号进行模数转换和可编程逻辑门阵列的处理,将两路或两路以上的麦克风模组111输出的信号输入到第一信号处理模块,将其中的一路麦克风模组的语音信号经过模数转换后输入到去噪模块进行处理。实现了对语音信号采集中的预处理,以便实现对环境噪声信号的消除。
实施例三
图3是本发明实施例三提供的一种用于人机交互智能终端的控制下***的结构图。本实施例是对实施例一中的第一信号处理模块130和第二信号处理模块150的结构和工作原理进行了详细的阐述。第一信号处理模块130包括:第一音频放大器131、第一去噪单元132和第一调频单元133;第二信号处理150模块包括第二音频放大器151、第二去噪单元152和第二调频单元153。
其中,第一信号处理模块130包括相连的第一音频放大器131、第一去噪单元132和第一调频单元133,第一去噪单元132用于去除来自语音信号采集模块110的语音信号中的环境噪声;第二信号处理模块150包括相连的第二音频放大器151、第二去噪单元152和第二调频单元153,第二去噪单元152用于去除来自去噪模块120的语音信号中的环境噪声。
具体的,通过语音采集模块110获取语音信号,由于获取的语音信号比较微弱,将该信号输入至第一音频放大器131,对输入的语音信号进行增益放大,增益是指对语音信号的放大倍数。将放大后的信号输入至第一去噪单元132,去除语音信号中的环境噪声,可选的,环境噪声可以是混响,混响是指声音遇到障碍会反射的一种声学特性,第一调频单元133对第一去噪单元132输出的信号进行调整频率响应等处理。去噪模块120输出的语音信号输入至第二音频放大器151,对去噪模块120输出的语音信号进行增益放大,将放大后的信号输入至第二去噪单元152,用于去除来自去噪模块120的语音信号中的环境噪声,可选的,环境噪声可以是混响。第二调频单元153对第二去噪单元152输出的信号进行调整频率响应等处理。
本发明实施例中,通过对语音信号采集模块110和去噪模块120输出的语音信号分别进行放大、去噪和调频处理,使处理后的信号更容易被唤醒引擎和识别引擎监测到并作出回应。
实施例四
图4是本发明实施例中的一种用于人机交互智能终端的控制***的结构图。本实施例是在实施例一的基础上对第一唤醒引擎140、第二唤醒引擎160和识别引擎170的结构和工作原理进行了详细阐述。第一唤醒引擎140包括第一比较器141、第二唤醒引擎160包括第二比较器161、识别引擎170包括控制器171和声纹识别器172。
其中,第一唤醒引擎140包括第一比较器141,第一比较器141中设置第一阈值,当第一比较器141输入的第一电压大于所述第一阈值时,第一比较器141输出第一唤醒信号。第二唤醒引擎160包括第二比较器161,第二比较器161中设置第二阈值,当第二比较器161输入的第二电压大于所述第二阈值时,所述第二比较器输出第二唤醒信号。识别引擎170包括相连的控制器171和声纹识别器172,控制器171还与第一唤醒引擎140和第二唤醒引擎160相连,声纹识别器172还与所述第一信号处理模块130相连,控制器171根据第一唤醒引擎140输出的第一唤醒信号和/或第二唤醒引擎160输出的第二唤醒信号发出识别控制信号,声纹识别器172根据所述识别控制信号提取第一信号处理模块130输出的语音信号中的声纹特征。
具体的,第一唤醒引擎140和第二唤醒引擎160均能将语音信号转化成文字并做出响应。可选的,第一唤醒引擎140和第二唤醒引擎160分别包括,语音输入、语音唤醒算法和唤醒执行。语音唤醒算法存储在第一唤醒引擎140和第二唤醒引擎160中,用于执行唤醒功能。对于第一唤醒引擎140,***预设第一阈值Y1,当第一比较器141输入的第一电压大于第一阈值Y1时,输出第一唤醒信号,第一电压即为第一信号处理模块130输出的语音信号对应的电压信号。对于第二唤醒引擎160,***预设第二阈值Y2,当第二比较器1161输入的第二电压大于第二阈值Y2时,输出第二唤醒信号,第二电压即为去噪模块120输出的语音信号对应的电压信号。
控制器171根据第一唤醒信号和/或第二唤醒信号发出识别控制信号,声纹识别器172根据识别控制信号提取第一信号处理模块130输出的语音信号中的声纹特征,可选的,声纹特征可以包括但不限于声音信号的基频、时长和共振峰的参数的数据,通过对声纹特征进行分析,得到分析结果。声纹是用电声学仪器显示的携带言语信息的声波频谱。声纹识别,生物识别技术的一种,也称为说话人识别,分别说话人辨认和说话人确认两类,不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。
本发明实施例中,识别引擎根据获取的第一唤醒信号和/或第二唤醒信号发出识别信号,根据识别信号提取第一信号模块130处理后的语音信号中的声纹特征,对语音信号进行识别。
显然,本领域技术人员应该明白,上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种用于人机交互智能终端的控制***,其特征在于,包括:语音信号采集模块、第一信号处理模块、第一唤醒引擎、去噪模块、第二信号处理模块、第二唤醒引擎和识别引擎,其中,
所述语音信号采集模块分别与所述第一信号处理模块和去噪模块相连,所述第一信号处理模块分别与所述第一唤醒引擎和所述识别引擎相连,所述第二信号处理模块分别与所述去噪模块和所述第二唤醒引擎相连,所述识别引擎分别与所述第一唤醒引擎和第二唤醒引擎相连;其中,
所述语音信号采集模块用于采集用户输入的语音信号,所述第一信号处理模块用于对所述语音信号放大、调频和去除环境噪声,所述第一唤醒引擎用于响应所述第一信号处理模块处理后的语音信号生成第一唤醒信号;
所述去噪模块用于去除所述语音信号采集模块采集的语音信号中的人机交互智能终端的***噪声,所述第二信号处理模块用于对所述去噪模块处理后的语音信号放大、调频和去除环境噪声,所述第二唤醒引擎用于响应所述第二信号处理模块处理后的语音信号生成第二唤醒信号;
所述识别引擎用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块处理后的语音信号。
2.根据权利要求1所述的用于人机交互智能终端的控制***,其特征在于,所述语音信号采集模块包括两路或两路以上的麦克风模组,每路麦克风模组用于采集一路用户的语音信号。
3.根据权利要求2所述的用于人机交互智能终端的控制***,其特征在于,所述语音信号采集模块还包括第一模数转换器、现场可编程门阵列和第二模数转换器,所述第一模数转换器分别与所述两路或两路以上的麦克风模组和所述现场可编程门阵列相连,所述现场可编程门阵列与所述第一信号处理模块相连,所述第二模数转换器分别与所述两路或两路以上的麦克风模组中的一组麦克风模组和所述去噪模块相连。
4.根据权利要求1所述的用于人机交互智能终端的控制***,其特征在于,所述去噪模块用于去除所述人机交互智能终端的电机噪声。
5.根据权利要求4所述的用于人机交互智能终端的控制***,其特征在于,所述电机噪声的分贝值大于等于60DB。
6.根据权利要求1所述的用于人机交互智能终端的控制***,其特征在于,所述第一信号处理模块包括相连的第一音频放大器、第一去噪单元和第一调频单元,所述第一去噪单元用于去除来自所述语音信号采集模块的语音信号中的环境噪声。
7.根据权利要求6所述的用于人机交互智能终端的控制***,其特征在于,所述第二信号处理模块包括相连的第二音频放大器、第二去噪单元和第二调频单元,所述第二去噪单元用于去除来自所述去噪模块的语音信号中的环境噪声。
8.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***,其特征在于,所述第一唤醒引擎包括第一比较器,所述第一比较器中设置第一阈值,当所述第一比较器输入的第一电压大于所述第一阈值时,所述第一比较器输出第一唤醒信号。
9.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***,其特征在于,所述第二唤醒引擎包括第二比较器,所述第二比较器中设置第二阈值,当所述第二比较器输入的第二电压大于所述第二阈值时,所述第二比较器输出第二唤醒信号。
10.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***,其特征在于,所述识别引擎包括相连的控制器和声纹识别器,所述控制器与所述第一唤醒引擎和第二唤醒引擎相连,所述声纹识别器与所述第一信号处理模块相连,所述控制器根据所述第一唤醒引擎输出的第一唤醒信号和/或所述第二唤醒引擎输出的第二唤醒信号发出识别控制信号,所述声纹识别器根据所述识别控制信号提取所述第一信号处理模块输出的语音信号中的声纹特征。
CN201611030598.4A 2016-11-16 2016-11-16 用于人机交互智能终端的控制*** Active CN108074581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611030598.4A CN108074581B (zh) 2016-11-16 2016-11-16 用于人机交互智能终端的控制***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611030598.4A CN108074581B (zh) 2016-11-16 2016-11-16 用于人机交互智能终端的控制***

Publications (2)

Publication Number Publication Date
CN108074581A true CN108074581A (zh) 2018-05-25
CN108074581B CN108074581B (zh) 2021-05-07

Family

ID=62161224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611030598.4A Active CN108074581B (zh) 2016-11-16 2016-11-16 用于人机交互智能终端的控制***

Country Status (1)

Country Link
CN (1) CN108074581B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN109215646A (zh) * 2018-08-15 2019-01-15 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN110085223A (zh) * 2019-04-02 2019-08-02 北京云知声信息技术有限公司 一种云端互动的语音交互方法
CN111383653A (zh) * 2020-03-18 2020-07-07 北京海益同展信息科技有限公司 语音处理方法及装置、存储介质、机器人
CN111951793A (zh) * 2020-08-13 2020-11-17 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2752905Y (zh) * 2004-05-08 2006-01-18 徐忠义 能抑制环境噪声干扰的数码录音装置
CN103366702A (zh) * 2013-06-13 2013-10-23 Tcl通讯(宁波)有限公司 一种待机时lcd快速响应的方法及移动终端
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
CN104917904A (zh) * 2014-03-14 2015-09-16 联想(北京)有限公司 一种语音信息处理方法、装置和电子设备
WO2016011189A1 (en) * 2014-07-15 2016-01-21 The Regents Of The University Of California Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing
CN105338459A (zh) * 2015-11-06 2016-02-17 歌尔声学股份有限公司 一种mems麦克风及其信号处理方法
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别***
CN105957526A (zh) * 2016-04-29 2016-09-21 福建海媚数码科技有限公司 一种语音唤醒***及唤醒方法
CN105957535A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 机器人语音信号探测识别***
CN105976813A (zh) * 2015-03-13 2016-09-28 三星电子株式会社 语音识别***及其语音识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2752905Y (zh) * 2004-05-08 2006-01-18 徐忠义 能抑制环境噪声干扰的数码录音装置
CN103366702A (zh) * 2013-06-13 2013-10-23 Tcl通讯(宁波)有限公司 一种待机时lcd快速响应的方法及移动终端
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
CN104917904A (zh) * 2014-03-14 2015-09-16 联想(北京)有限公司 一种语音信息处理方法、装置和电子设备
WO2016011189A1 (en) * 2014-07-15 2016-01-21 The Regents Of The University Of California Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
CN105976813A (zh) * 2015-03-13 2016-09-28 三星电子株式会社 语音识别***及其语音识别方法
CN105338459A (zh) * 2015-11-06 2016-02-17 歌尔声学股份有限公司 一种mems麦克风及其信号处理方法
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别***
CN105957535A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 机器人语音信号探测识别***
CN105957526A (zh) * 2016-04-29 2016-09-21 福建海媚数码科技有限公司 一种语音唤醒***及唤醒方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215646A (zh) * 2018-08-15 2019-01-15 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN110085223A (zh) * 2019-04-02 2019-08-02 北京云知声信息技术有限公司 一种云端互动的语音交互方法
CN111383653A (zh) * 2020-03-18 2020-07-07 北京海益同展信息科技有限公司 语音处理方法及装置、存储介质、机器人
CN111951793A (zh) * 2020-08-13 2020-11-17 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111951793B (zh) * 2020-08-13 2021-08-24 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质

Also Published As

Publication number Publication date
CN108074581B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110428808B (zh) 一种语音识别方法及装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN108074581A (zh) 用于人机交互智能终端的控制***
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN106782504A (zh) 语音识别方法和装置
CN110780741B (zh) 模型训练方法、应用运行方法、装置、介质及电子设备
CN110648691B (zh) 基于语音的能量值的情绪识别方法、装置和***
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN113330511B (zh) 语音识别方法、装置、存储介质及电子设备
CN110364156A (zh) 语音交互方法、***、终端及可读存储介质
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别***及方法
CN110933225A (zh) 通话信息获取方法、装置、存储介质及电子设备
CN112382302A (zh) 婴儿哭声识别方法及终端设备
CN116189681A (zh) 一种智能语音交互***及方法
CN111192588B (zh) 一种***唤醒方法及装置
CN110728993A (zh) 一种变声识别方法及电子设备
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
US10446138B2 (en) System and method for assessing audio files for transcription services
CN116312561A (zh) 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置
CN110660399A (zh) 声纹识别的训练方法、装置、终端及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 Guangdong 4 Baoan District City, Shenzhen Province, the third floor of the community of Taihang Wutong Industrial Park, 9A

Applicant after: Shenzhen Jubo Intelligent Technology Co.,Ltd.

Address before: 518000 22nd Floor of China Energy Storage Building, 3099 South Road, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN ROOBO INTELLIGENT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 518000 Guangdong 4 Baoan District City, Shenzhen Province, the third floor of the community of Taihang Wutong Industrial Park, 9A

Patentee after: Shenzhen Rubu Technology Co.,Ltd.

Address before: 518000 Guangdong 4 Baoan District City, Shenzhen Province, the third floor of the community of Taihang Wutong Industrial Park, 9A

Patentee before: Shenzhen Jubo Intelligent Technology Co.,Ltd.