CN107123423B - 语音拾取装置及多媒体设备 - Google Patents

语音拾取装置及多媒体设备 Download PDF

Info

Publication number
CN107123423B
CN107123423B CN201710423629.0A CN201710423629A CN107123423B CN 107123423 B CN107123423 B CN 107123423B CN 201710423629 A CN201710423629 A CN 201710423629A CN 107123423 B CN107123423 B CN 107123423B
Authority
CN
China
Prior art keywords
voice
unit
face
acquisition unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710423629.0A
Other languages
English (en)
Other versions
CN107123423A (zh
Inventor
于豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ismartv Network Technologies Co ltd
Original Assignee
Whaley Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whaley Technology Co Ltd filed Critical Whaley Technology Co Ltd
Priority to CN201710423629.0A priority Critical patent/CN107123423B/zh
Publication of CN107123423A publication Critical patent/CN107123423A/zh
Application granted granted Critical
Publication of CN107123423B publication Critical patent/CN107123423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供一种语音拾取装置及多媒体设备。所述装置包括:用于采集图像的图像采集单元;与图像采集单元电性连接以对采集到的图像进行人脸识别的人脸识别单元;用于采集语音信号的语音采集单元;与语音采集单元连接以调整语音采集单元朝向的转向调整单元;与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元。处理控制单元在人脸识别单元识别到采集的图像中存在人脸时,控制转向调整单元使语音采集单元对准所述人脸所在的方位,并控制语音采集单元对人脸所在方位的语音信号进行采集。所述装置能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取,降低外界噪声干扰。

Description

语音拾取装置及多媒体设备
技术领域
本发明涉及音频拾取技术领域,具体而言,涉及一种语音拾取装置及多媒体设备。
背景技术
随着音频拾取技术的不断发展,音频拾取技术的应用愈发广泛。但是就音频拾取技术本身而言,尚且存在着很多技术问题需要解决。以语音拾取技术为例,就目前而言,市面上流通的语音拾取设备虽然可以对用户发出的语音信号进行语音拾取,但是在对用户发出的语音信号进行拾取的同时,通常也会将对大量的外界噪声进行语音拾取,使语音拾取设备拾取到的语音信号中夹杂着大量的外界噪声,相应的语音识别准确度不高,语音拾取的距离也很短。
发明内容
为了克服现有技术中的上述不足,本发明的目的在于提供一种语音拾取装置及多媒体设备,所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离。
就语音拾取装置而言,本发明较佳的实施例提供一种语音拾取装置。所述装置包括:
用于采集图像的图像采集单元;
与所述图像采集单元电性连接,用于对图像采集单元采集到的图像进行人脸识别的人脸识别单元;
用于采集语音信号的语音采集单元;
与所述语音采集单元连接,用于调整所述语音采集单元朝向的转向调整单元;及
与所述图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元;
所述处理控制单元在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时,控制所述转向调整单元的运行以使所述语音采集单元对准图像中人脸所在的方位,并控制所述语音采集单元对人脸所在方位的语音信号进行采集。
在本发明较佳的实施例中,上述装置还包括用于对所述装置周边环境中的噪声信号进行采集的噪声采集单元;
所述处理控制单元与所述噪声采集单元电性连接,以根据所述噪声采集单元采集到的噪声信号对所述语音采集单元采集到的语音信号进行除噪处理,得到除噪后的语音信息。
在本发明较佳的实施例中,上述装置还包括用于进行数据交互的网络通信单元;
所述网络通信单元与所述处理控制单元电性连接,所述装置通过所述网络通信单元与服务器通信连接,以将所述处理控制单元得到的除噪后的语音信息发送给所述服务器进行语音识别,或接收服务器对除噪后的语音信息进行语音识别后得到的控制指令。
在本发明较佳的实施例中,上述装置还包括用于进行语音识别的语音识别单元;
所述语音识别单元与所述处理控制单元电性连接,以对所述处理控制单元得到的除噪后的语音信息进行语音识别,得到对应的控制指令。
在本发明较佳的实施例中,上述处理控制单元在所述人脸识别单元识别到的人脸的数目为多个时,获得各个人脸对应的控制权限,控制所述转向调整单元带动所述语音采集单元朝向控制权限最高的人脸所在的方位,以对所述人脸所在方位的语音信号进行采集。
在本发明较佳的实施例中,上述语音采集单元包括至少一个语音取样传声器,所述噪声采集单元包括至少一个噪声取样传声器,至少一个所述语音取样传声器配合至少一个所述噪声取样传声器形成一传声器阵列,以分别对人脸所在方位的语音信号和所述语音拾取装置周边环境中的噪声信号进行采集。
在本发明较佳的实施例中,上述处理控制单元包括音频处理子单元;
所述音频处理子单元用于对所述噪声采集单元采集到的噪声信号和所述语音采集单元采集到的语音信号进行放大处理后,并将放大后的噪声信号进行反相处理后与放大后的语音信号进行混合叠加,以消除所述语音信号中的噪声信号,得到除噪后的语音信息。
在本发明较佳的实施例中,上述滑动件包括容置在所述滑槽内的滑块,所述卡合组件与所述滑块固定连接,以使所述卡合组件可相对于所述灯条承载板沿远离所述支撑柱的方向滑动。
在本发明较佳的实施例中,上述装置还包括与所述图像采集单元连接,用于控制所述图像采集单元的图像采集方向的转动控制单元。
在本发明较佳的实施例中,上述处理控制单元在人脸识别单元识别到图像采集单元采集的图像中存在人脸时,对识别到的人脸的面部信息进行处理,得到所述人脸中嘴部对应的方位,并根据所述嘴部对应的方位控制所述转向调整单元,使所述语音采集单元对准所述嘴部对应的方位进行语音信号的采集。
就多媒体设备而言,本发明较佳的实施例提供一种多媒体设备。所述多媒体设备包括上述的语音拾取装置,所述多媒体设备对所述语音拾取装置采集到的语音信号进行语音识别,得到与所述语音信号匹配的控制指令,并根据所述控制指令执行相应的操作。
相对于现有技术而言,本发明较佳的实施例提供的语音拾取装置及多媒体设备具有以下有益效果:所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离。具体地,所述语音拾取装置通过图像采集单元采集图像;通过与图像采集单元电性连接的人脸识别单元对采集到的图像进行人脸识别;通过语音采集单元进行语音信号的采集;通过与语音采集单元连接的转向调整单元对语音采集单元朝向进行调整;通过与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元,在人脸识别单元识别到图像采集单元采集的图像中存在人脸时,控制转向调整单元的运行以使语音采集单元对准图像中人脸所在的方位,并控制语音采集单元对人脸所在方位的语音信号进行采集,从而实现对用户发出的语音信号的定向拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对权利要求保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的语音拾取装置的方框示意图。
图2为本发明第二实施例提供的语音拾取装置的方框示意图。
图3为本发明第三实施例提供的语音拾取装置的方框示意图。
图4为本发明第四实施例提供的语音拾取装置的方框示意图。
图5为本发明第五实施例提供的语音拾取装置的方框示意图。
图标:100-语音拾取装置;110-图像采集单元;120-人脸识别单元;130-语音采集单元;140-转向调整单元;150-处理控制单元;160-噪声采集单元;170-网络通信单元;180-语音识别单元;190-转动控制单元;151-音频处理子单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如何提供一种能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离的语音拾取装置及多媒体设备,对本领域技术人员而言,是急需解决的技术问题。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
第一实施例:
请参照图1,是本发明第一实施例提供的语音拾取装置100的方框示意图。在本发明实施例中,所述语音拾取装置100用于对用户发出的语音信号进行定向拾取,提高相应的语音识别准确度。所述语音拾取装置100包括图像采集单元110、人脸识别单元120、语音采集单元130、转向调整单元140及处理控制单元150。
在本发明实施例中,所述图像采集单元110用于采集图像。所述图像采集单元110包括一摄像头,所述图像采集单元110通过所述摄像头对所述语音拾取装置100周边环境进行图像采集,以确定所述语音拾取装置100的使用人员的具***置,便于实现定向语音拾取。
在本实施例中,所述摄像头可以是固定地对特定方向的环境信息进行图像采集,也可以是根据需求对不同方向的环境信息进行图像采集,具体的情况可由所述语音拾取装置100的使用人员或生产厂家根据不同的需求进行不同的设置。在本实施例中,所述摄像头可以是,但不限于,数字摄像头、模拟摄像头等。
在本发明实施例中,所述人脸识别单元120用于对所述图像采集单元110采集到的图像进行人脸识别,以确定语音拾取装置100的使用人员在图像中所在的方位。具体地,在本实施例中,所述人脸识别单元120与所述图像采集单元110电性连接,以对所述图像采集单元110采集到的图像进行人脸识别。在本实施例中,所述人脸识别单元120在识别到所述图像采集单元110采集的图像中存在人脸时,通过对所述图像进行分析处理从所述图像中获取与所述人脸对应的面部信息,并根据所述面部信息及所述人脸在所述图像中的位置,得到所述人脸对应的使用人员在语音拾取装置100的周边环境中所在的方位及所述人脸对应的方位。
在本实施例中,所述人脸识别单元120可以通过网络与云端计算服务器连接,以配合所述云端计算服务器的计算能力对图像采集单元110采集到的图像进行人脸识别;也可以仅通过所述人脸识别单元120包括的用于进行人脸识别的软件功能模块和/或硬件模块实现对所述图像进行的人脸识别。
在本发明实施例中,所述语音采集单元130用于对采集语音信号。所述语音采集单元130可以在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时,对人脸所在方位的语音信号进行采集,以实现定向语音拾取,降低外界噪声干扰。
在本实施例中,所述语音采集单元130包括至少一个语音取样传声器,所述语音采集单元130通过至少一个所述语音取样传声器对所述语音拾取装置100的使用人员对应的人脸所在方位的语音信号进行语音采集。在本实施例中,所述语音取样传声器优选为高灵敏度高指向性的传声器,所述传声器可以是,但不限于,电动式传声器、电容式传声器、电磁式传声器、压电式传声器及半导体传声器等。
在本发明实施例中,所述转向调整单元140用于对所述语音采集单元130的朝向进行调整,以使所述语音采集单元130能够对准所述人脸识别单元120识别到所述图像采集单元110采集的图像中人脸所在的方位,使所述语音采集单元130对所述人脸所在方位的语音信号进行采集,以实现对所述人脸对应的使用人员的定向语音拾取。在本实施例中,所述转向调整单元140与所述语音采集单元130连接,以调整所述语音采集单元130朝向。
在本实施例中,所述转向调整单元140包括用于带动所述语音采集单元130中的语音取样传声器进行转向调整的转向组件及用于控制所述转向组件的转向控制组件。所述转向组件与所述语音采集单元130中的语音取样传声器直接连接,以使所述语音采集单元130中的语音取样传声器能够在上下左右各个方向进行朝向的调整。所述转向控制组件与所述转向组件电性连接,以根据所述人脸识别单元120识别到的人脸所在的方位信息,控制所述转动组件带动所述语音采集单元130中的语音取样传声器对所述人脸所在方位的语音信号进行语音采集。
在本发明实施例中,所述处理控制单元150用于对信号进行处理,并根据处理结果对所述语音拾取装置100中的其他单元模块进行控制。具体地,在本实施例中,所述处理控制单元150与所述图像采集单元110、人脸识别单元120、语音采集单元130及转向调整单元140电性连接,以在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时,根据所述人脸对应的方位信息控制所述转向调整单元140的运行以使所述语音采集单元130对准图像中人脸所在的方位,并控制所述语音采集单元130对人脸所在方位的语音信号进行采集,实现对所述人脸对应的使用人员的定向语音拾取。
在本实施例中,所述处理控制单元150包括一存储器,所述处理控制单元150通过所述存储器可以对所述语音拾取装置100的特定使用人员的面部信息及对应的控制权限进行存储,以在所述人脸识别单元120识别到的人脸的数目为多个时,选取识别到的人脸中控制权限最高的人脸所在的方位作为所述语音采集单元130应当朝向的方位。具体地,当所述人脸识别单元120识别到的人脸的数目为多个时,所述处理控制单元150将由所述人脸识别单元120识别到的各个人脸的面部信息与存储在所述存储器中的特定使用人员的面部信息进行匹配。当匹配成功时,匹配成功的人脸可通过特定使用人员的面部信息与对应的控制权限之间的联系在所述存储器中查找到相应的控制权限;当未匹配成功时,未匹配成功的人脸对应的控制权限将被默认为最低的控制权限;当识别到的各个人脸的控制权限均为最低的控制权限时,所述处理控制单元150将从各个人脸中随机选取一个人脸作为控制权限最高的人脸。所述处理控制单元150在获取到控制权限最高的人脸对应的方位时,控制所述转向调整单元140带动所述语音采集单元130朝向控制权限最高的人脸所在的方位,以对所述人脸所在方位的语音信号进行语音采集,实现相应的定向语音拾取。在本实施例中,所述存储器可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除只读存储器,电可擦除只读存储器等。
在本实施例中,所述处理控制单元150在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时,将对识别到的人脸的面部信息进行处理,得到所述人脸中嘴部对应的方位,并根据所述嘴部对应的方位控制所述转向调整单元140带动所述语音采集单元130对准所述人脸的嘴部所在的方位,使所述语音采集单元130对所述嘴部对应方位的语音信号进行采集。
在本实施例中,所述处理控制单元150可通过所述图像采集单元110中的摄像头实现对特定使用人员的面部信息的录入,可通过外接的输入设备实现对特定使用人员的控制权限的录入。所述处理控制单元150也可通过网络实现对特定使用人员的面部信息及对应的控制权限的录入。具体的录入方式可根据需求进行不同的设置。
第二实施例:
请参照图2,是本发明第二实施例提供的语音拾取装置100的方框示意图。在本发明实施例中,第二实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第一实施例提供的语音拾取装置100类似,不同之处在于,第二实施例提供的语音拾取装置100还可以包括噪声采集单元160,且所述处理控制单元150还包括用于对音频信号进行处理的音频处理子单元151。
在本发明实施例中,所述噪声采集单元160用于对所述语音拾取装置100周边环境中的噪声信号进行采集。具体地,所述处理控制单元150与所述噪声采集单元160电性连接,以在所述语音采集单元130对所述人脸识别单元120识别到的人脸对应方位的语音信号进行采集时,控制所述噪声采集单元160对所述语音拾取装置100周边环境中的噪声信号进行采集,并根据所述噪声采集单元160采集到的噪声信号对所述语音采集单元130采集到的语音信号进行除噪处理,得到除噪后的语音信息。
在本实施例中,所述噪声采集单元160包括至少一个噪声取样传声器,所述噪声采集单元160通过至少一个所述噪声取样传声器对所述噪声信号进行采集。所述语音采集单元130中的至少一个所述语音取样传声器配合所述噪声采集单元160中的至少一个所述噪声取样传声器形成一传声器阵列,用于对空气中的音频信号进行采集。其中,所述音频信号包括人脸所在方位的语音信号和所述语音拾取装置100周边环境中的噪声信号。在本实施例的一种实施方式中,所述噪声取样传声器的数目优选为偶数个,所述噪声取样传声器分别设置在所述语音取样传声器的两侧。
在本实施例中,所述噪声取样传声器的朝向可以是固定的,所述噪声取样传声器的朝向可以是朝向所述语音拾取装置100的正前方,也可以是朝向所述语音拾取装置100的外侧偏转一定角度的方向,具体地朝向可以由所述语音拾取装置100的使用人员或生产厂家根据需要进行不同的设置。其中,所述噪声取样传声器可以是,但不限于,电动式传声器、电容式传声器、电磁式传声器、压电式传声器及半导体传声器等。
在本发明实施例中,所述处理控制单元150通过所述音频处理子单元151对所述语音采集单元130采集到的语音信号进行除噪处理。具体地,在本实施例的一种实施方式中,所述音频处理子单元151在获取到所述语音采集单元130采集到的语音信号及所述噪声采集单元160采集到的噪声信号时,分别对所述语音采集单元130采集到的语音信号及所述噪声采集单元160采集到的噪声信号进行放大处理,并将放大后的噪声信号进行反相处理,将处理后的噪声信号与放大后的语音信号进行混合叠加,以消除所述语音信号中的噪声信号,得到除噪后的语音信息。在本实施例的另一种实施方式中,所述音频处理子单元151也可以在对所述噪声采集单元160采集到的噪声信号及所述语音采集单元130采集到的语音信号进行放大处理后,根据放大后的噪声信号对放大后的语音信号进行滤波处理,得到除噪后的语音信息。
第三实施例:
请参照图3,是本发明第三实施例提供的语音拾取装置100的方框示意图。在本发明实施例中,第三实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第二实施例提供的语音拾取装置100类似,不同之处在于,第三实施例提供的语音拾取装置100还可以包括语音识别单元180。
在本发明实施例中,所述语音识别单元180用于对语音信号进行语音识别。具体地,所述语音识别单元180与所述处理控制单元150电性连接,以对所述处理控制单元150得到的除噪后的语音信息进行语音识别,得到对应的控制指令。其中,所述控制指令用于对包括有所述语音拾取装置100的电子设备进行控制,所述控制指令与除噪后的所述语音信息相互对应。
第四实施例:
请参照图4,是本发明第四实施例提供的语音拾取装置100的方框示意图。在本发明实施例中,第四实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第二实施例提供的语音拾取装置100类似,不同之处在于,第四实施例提供的语音拾取装置100还可以包括网络通信单元170。
在本发明实施例中,所述网络通信单元170用于进行数据交互。所述网络通信单元170与所述处理控制单元150电性连接,所述语音拾取装置100通过所述网络通信单元170与服务器通信连接,以将所述处理控制单元150得到的除噪后的语音信息发送给所述服务器进行语音识别,或接收所述服务器对除噪后的语音信息进行语音识别后得到的控制指令,其中,所述控制指令用于控制包括有所述语音拾取装置100的电子设备,所述控制指令与除噪后的语音信息相互对应。
第五实施例:
请参照图5,是本发明第五实施例提供的语音拾取装置100的方框示意图。在本发明实施例中,第五实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第四实施例提供的语音拾取装置100类似,不同之处在于,第五实施例提供的语音拾取装置100还可以包括转动控制单元190。
在本发明实施例中,所述转动控制单元190与所述图像采集单元110连接,以控制所述图像采集单元110的图像采集方向。具体地,所述转动控制单元190包括用于带动所述图像采集单元110中的摄像头进行图像采集方向调整的转动组件及用于控制所述转动组件的转动控制组件。所述转动组件与所述图像采集单元110中的摄像头直接连接,所述转动控制组件与所述转动组件电性连接,以控制所述图像采集单元110中的摄像头按照预设转动策略地进行转动,实现对不同方向的环境信息的图像采集。
在本发明中,本发明实施例还提供一种多媒体设备。所述多媒体设备包括上述的第一实施例、第二实施例、第三实施例、第四实施例及第五实施例中任意一个实施例提供的语音拾取装置100。所述多媒体设备对所述语音拾取装置100根据使用人员的人脸所在方位采集到的语音信号进行语音识别,得到与所述语音信号匹配的控制指令,并根据所述控制指令执行相应的操作。在本实施例中,所述多媒体设备可以是,但不限于,智能音箱、智能电视、智能洗衣机、智能冰箱及智能机器人等。
综上所述,在本发明较佳的实施例提供的语音拾取装置及多媒体设备中,所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离。具体地,所述语音拾取装置通过图像采集单元采集图像;通过与图像采集单元电性连接的人脸识别单元对采集到的图像进行人脸识别;通过语音采集单元进行语音信号的采集;通过与语音采集单元连接的转向调整单元对语音采集单元朝向进行调整;通过与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元,在人脸识别单元识别到图像采集单元采集的图像中存在人脸时,控制转向调整单元的运行以使语音采集单元对准图像中人脸所在的方位,并控制语音采集单元对人脸所在方位的语音信号进行采集,从而实现对用户发出的语音信号的定向拾取,降低外界噪声干扰,提高相应的语音识别准确度及语音拾取距离。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音拾取装置,其特征在于,所述装置包括:
用于采集图像的图像采集单元;
与所述图像采集单元电性连接,用于对图像采集单元采集到的图像进行人脸识别的人脸识别单元;
用于采集语音信号的语音采集单元;
与所述语音采集单元连接,用于调整所述语音采集单元朝向的转向调整单元;及
与所述图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元;
所述处理控制单元在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时,控制所述转向调整单元的运行以使所述语音采集单元对准图像中人脸所在的方位,并控制所述语音采集单元对人脸所在方位的语音信号进行采集;
所述处理控制单元具体用于在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时,对识别到的人脸的面部信息进行处理,得到所述人脸中嘴部对应的方位,并根据所述嘴部对应的方位控制所述转向调整单元,使所述语音采集单元对准所述嘴部对应的方位进行语音信号的采集;
所述处理控制单元在所述人脸识别单元识别到的人脸的数目为多个时,获得各个人脸对应的控制权限,控制所述转向调整单元带动所述语音采集单元朝向控制权限最高的人脸所在的方位,以对所述人脸所在方位的语音信号进行采集。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括用于对所述装置周边环境中的噪声信号进行采集的噪声采集单元;
所述处理控制单元与所述噪声采集单元电性连接,以根据所述噪声采集单元采集到的噪声信号对所述语音采集单元采集到的语音信号进行除噪处理,得到除噪后的语音信息。
3.根据权利要求2所述的装置,其特征在于,所述装置还包括用于进行数据交互的网络通信单元;
所述网络通信单元与所述处理控制单元电性连接,所述装置通过所述网络通信单元与服务器通信连接,以将所述处理控制单元得到的除噪后的语音信息发送给所述服务器进行语音识别,或接收服务器对除噪后的语音信息进行语音识别后得到的控制指令。
4.根据权利要求2所述的装置,其特征在于,所述装置还包括用于进行语音识别的语音识别单元;
所述语音识别单元与所述处理控制单元电性连接,以对所述处理控制单元得到的除噪后的语音信息进行语音识别,得到对应的控制指令。
5.根据权利要求2所述的装置,其特征在于,所述语音采集单元包括至少一个语音取样传声器,所述噪声采集单元包括至少一个噪声取样传声器,至少一个所述语音取样传声器配合至少一个所述噪声取样传声器形成一传声器阵列,以分别对人脸所在方位的语音信号和所述语音拾取装置周边环境中的噪声信号进行采集。
6.根据权利要求2所述的装置,其特征在于,所述处理控制单元包括音频处理子单元;
所述音频处理子单元用于对所述噪声采集单元采集到的噪声信号和所述语音采集单元采集到的语音信号进行放大处理后,并将放大后的噪声信号进行反相处理后与放大后的语音信号进行混合叠加,以消除所述语音信号中的噪声信号,得到除噪后的语音信息。
7.根据权利要求1所述的装置,其特征在于,所述装置还包括与所述图像采集单元连接,用于控制所述图像采集单元的图像采集方向的转动控制单元。
8.一种多媒体设备,其特征在于,所述多媒体设备包括权利要求1-7中任意一项所述的语音拾取装置,所述多媒体设备对所述语音拾取装置采集到的语音信号进行语音识别,得到与所述语音信号匹配的控制指令,并根据所述控制指令执行相应的操作。
CN201710423629.0A 2017-06-07 2017-06-07 语音拾取装置及多媒体设备 Active CN107123423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710423629.0A CN107123423B (zh) 2017-06-07 2017-06-07 语音拾取装置及多媒体设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710423629.0A CN107123423B (zh) 2017-06-07 2017-06-07 语音拾取装置及多媒体设备

Publications (2)

Publication Number Publication Date
CN107123423A CN107123423A (zh) 2017-09-01
CN107123423B true CN107123423B (zh) 2021-05-18

Family

ID=59730052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710423629.0A Active CN107123423B (zh) 2017-06-07 2017-06-07 语音拾取装置及多媒体设备

Country Status (1)

Country Link
CN (1) CN107123423B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696658B (zh) * 2017-10-23 2021-08-24 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪***及其方法
CN107864430A (zh) * 2017-11-03 2018-03-30 杭州聚声科技有限公司 一种声波定向传播控制***及其控制方法
CN108615534B (zh) * 2018-04-04 2020-01-24 百度在线网络技术(北京)有限公司 远场语音降噪方法及***、终端以及计算机可读存储介质
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN110767228B (zh) * 2018-07-25 2022-06-03 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及***
CN110767221A (zh) * 2018-07-26 2020-02-07 珠海格力电器股份有限公司 家电设备及控制权限的确定方法
CN109461443A (zh) * 2018-09-28 2019-03-12 广州智伴人工智能科技有限公司 一种无按键开机装置
CN110210196B (zh) * 2019-05-08 2023-01-06 北京地平线机器人技术研发有限公司 身份认证方法及装置
CN110186171B (zh) * 2019-05-30 2021-09-10 广东美的制冷设备有限公司 空调器及其控制方法和计算机可读存储介质
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备
CN111276142B (zh) * 2020-01-20 2023-04-07 北京声智科技有限公司 一种语音唤醒方法及电子设备
CN111933136B (zh) * 2020-08-18 2024-05-10 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112770029B (zh) * 2020-12-30 2022-02-25 国家电网有限公司客户服务中心 一种智能设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7894637B2 (en) * 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
KR101199349B1 (ko) * 2004-08-27 2012-11-09 엘지전자 주식회사 화상 통화 기능을 갖는 이동통신 단말기
CN100524465C (zh) * 2006-11-24 2009-08-05 北京中星微电子有限公司 一种噪声消除装置和方法
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别***
CN101833624B (zh) * 2010-05-05 2014-12-10 中兴通讯股份有限公司 一种信息机及其使用权限控制方法
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
CN102196333B (zh) * 2010-12-16 2013-12-25 宁波三维技术有限公司 一种视频定位的长距离拾音装置
CN103167149A (zh) * 2012-09-20 2013-06-19 深圳市金立通信设备有限公司 基于人脸识别的手机安全***及方法
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制***
US9414153B2 (en) * 2014-05-08 2016-08-09 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
CN104202694B (zh) * 2014-07-31 2018-03-13 广东美的制冷设备有限公司 语音拾取装置的定向方法和***
CN104361638A (zh) * 2014-11-13 2015-02-18 安徽省新方尊铸造科技有限公司 一种基于面部识别技术的高速公路收费***
CN105263052A (zh) * 2015-10-13 2016-01-20 微鲸科技有限公司 基于人脸识别技术的音视频推送方法及***
CN105898635B (zh) * 2016-04-26 2019-02-12 宁波桑德纳电子科技有限公司 一种室外远距离使用的拾音装置
CN105915798A (zh) * 2016-06-02 2016-08-31 北京小米移动软件有限公司 视频会议中摄像头的控制方法和控制装置
CN106346487B (zh) * 2016-08-25 2018-09-21 威仔软件科技(苏州)有限公司 交互式vr沙盘展示机器人

Also Published As

Publication number Publication date
CN107123423A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107123423B (zh) 语音拾取装置及多媒体设备
CN107534725B (zh) 一种语音信号处理方法及装置
EP2882170B1 (en) Audio information processing method and apparatus
US11277686B2 (en) Electronic device with audio zoom and operating method thereof
CN104012074B (zh) 用于数据处理***的智能音频和视频捕捉***
EP1738567B1 (de) Brillengestell mit integriertem akustischem kommunikationssystem zur kommunikation mit einem mobilfunkgerät und entsprechendes verfahren
CN110379439B (zh) 一种音频处理的方法以及相关装置
CN109318243B (zh) 一种视觉机器人的声源跟踪***、方法和清洁机器人
CN108735226B (zh) 语音采集方法、装置及设备
US20160094812A1 (en) Method And System For Mobile Surveillance And Mobile Infant Surveillance Platform
CN111251307B (zh) 应用于机器人的语音采集方法和装置、一种机器人
CN109104683B (zh) 一种双麦克风相位测量校正的方法及校正***
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
US20170188140A1 (en) Controlling audio beam forming with video stream data
CN111477206A (zh) 用于车载环境的降噪方法、装置、电子设备及存储介质
CN112925235A (zh) 交互时的声源定位方法、设备和计算机可读存储介质
JP7513070B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2018061172A1 (ja) 撮像角度調整システム、撮像角度調整方法及びプログラム
CN110197671A (zh) 定向拾音方法、录音设备和存储介质
WO2020034207A1 (en) Photographing control method and controller
CN114598963A (zh) 语音处理的方法、装置、计算机可读存储介质及电子设备
CN114167356A (zh) 一种基于多面体麦克风阵列的声源定位方法和***
CN113539288A (zh) 一种语音信号去噪方法及装置
CN105451139A (zh) 声音信号处理方法、装置和移动终端
CN111103807A (zh) 一种家用终端设备的控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240530

Address after: Room 212, Building 14, No. 350 Xianxia Road, Changning District, Shanghai, 200050

Patentee after: SHANGHAI ISMARTV NETWORK TECHNOLOGIES Co.,Ltd.

Country or region after: China

Address before: 201210 3rd floor, building e, Shangtou Shengyin building, 666 shengxia Road, Pudong New Area, Shanghai

Patentee before: WHALEY TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right