CN110188179B - 语音定向识别交互方法、装置、设备及介质 - Google Patents
语音定向识别交互方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110188179B CN110188179B CN201910466749.8A CN201910466749A CN110188179B CN 110188179 B CN110188179 B CN 110188179B CN 201910466749 A CN201910466749 A CN 201910466749A CN 110188179 B CN110188179 B CN 110188179B
- Authority
- CN
- China
- Prior art keywords
- face
- voice
- image
- angle
- text content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 10
- 238000012549 training Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本专利申请涉及人机语音交互领域,公开了一种语音定向识别交互方法,包括如下步骤:拾取正前方的声音信号进行识别,得到语音文本内容,获取该语音文本内容;基于图像采集角度和采集距离,获取同时满足所述图像采集角度和所述采集距离的人脸图像;根据所述语音文本内容和所述人脸图像,判断是否作出回复;其中,所述图像采集角度为60‑70度,所述采集距离小于等于1m。本专利申请还公开了一种语音定向识别交互装置、电子设备及计算机存储介质,本专利提供的语音定向识别交互方法符合日常交流习惯,能有效消除局外人的声音跟环境的声音,实现与正在前方交互的用户达成有效的拟人化沟通。
Description
技术领域
本发明涉及人机语音交互领域,具体涉及一种语音定向识别交互方法、装置、设备及介质。
背景技术
目前机器人或者语音助手的应用普遍处于复杂的环境下,比如会议室、户外、商场等嘈杂环境,从而会出现噪音、混响、人声干扰、回声等各种问题,并且在人机语音交互过程中,用于收声的阵列麦克风也会识别周围360度范围内的声音,为了解决误识环境音的问题,“唤醒词”技术在语音交互中被采用。在实际应用中,只有当机器人或语音交互助手接受到唤醒词之后才会对语音内容进行识别;否则,不进行识别。
“唤醒词”技术是当前主流机器人或智能设备进行人机交互时的主要触发方式。使用唤醒词唤醒的问题在于,对作为交互的主体人来说,他必须学习使用唤醒词,如果在一个陌生的地方遇到一个机器人,交互主题人完全不知道唤醒它的是哪一个唤醒词,如果没有唤醒词,将无法与它交流。再者,每次跟机器人对话前都要说一遍“唤醒词”,这样的交互流程不仅机械且影响交互的节奏,并且也会出现忘记说出“唤醒词”或频繁说出“唤醒词”的情况,导致主体交互人说完了一大段话,而机器人没有在聆听。
一般跟机器人交互都是站在其正前方,但是由于全向阵列麦克风的收音会导致收音过程中会混入局外人的声音跟环境的声音,即机器人身后或者左右有人声或者噪音也会收入并且识别,从而会降低语音识别的正确性,即使识别正确也有可能导致机器人错误应答,不能和正在前方交互的用户达成有效沟通。
为解决上述问题,中国专利CN105204628A公开了一种基于视觉唤醒的语音控制方法,包括语音控制设备接收到至少部分的语音信号后,启动安装在其上的图像接收单元,由图像接收单元获取图像并传送到图像识别单元进行识别,当识别到视线朝向所述语音控制设备的人脸时,进行语音识别。但是该专利仍然没有解决环境噪音的干扰,当语音控制设备360度范围内出现多个声源时,比如图像接收单元识别到人脸同时在语音控制设备接收到周围多个语音信号时,语音控制设备的识别效果会受到外界环境音的干扰。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种语音定向识别交互方法,结合人脸图像和声音信号确定特定交互对象后进行针对性回复,符合日常交流习惯。
本发明的目的之一采用以下技术方案实现:
一种语音定向识别交互方法,其特征在于,包括如下步骤:
获取采集到的语音文本内容;
获取同时满足图像采集角度和采集距离的人脸图像;
根据所述语音文本内容和所述人脸图像,判断是否作出回复;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。
进一步地,所述人脸图像的采集步骤如下:对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集。
进一步地,当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。
进一步地,所述人脸角度估计算法采用基于卷积神经网络的人脸检测算法,包括如下步骤:
建立人脸图片库,并对所述人脸图片库进行特征提取和分析,提取五官的形态和位置进行统计,得到统计分析结果;
采用深度卷积神经网络方法对所述统计分析结果进行训练得到建立部位分类器,根据人脸分类器对所述图像数据中的人脸进行评分,然后根据每个特征部位的得分进行规则分析得到人脸候选区域,最后结合边界回归算法得到最终的人脸检测结果。
进一步地,所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型,通过输入人脸的眼部特征匹配相应角度,最后得到人脸的3D角度信息。
进一步地,所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强,具体为:将声音信号进行能量归一化,然后通过固定波束形成器产生主瓣上的正向语音参考信号,并通过旁瓣消除器产生噪声参考信号,最后利用噪声抵消器将消除主瓣信号上的噪声成分。
本发明的目的之二在于提供一种语音定向识别交互装置,采用以下技术方案实现:
语音定向识别交互装置,包括:
语音拾取设备,用于定向拾取正前方的声音信号,并进行语音识别,得到语音文本内容;
图像采集设备,预先设置有图像采集角度和采集距离,并采集同时满足所述图像采集角度和所述采集距离的人脸图像;
处理单元,用于获取所述语音文本内容和所述人脸图像,并判断是否作出回复。
进一步地,所述语音拾取设备定向拾取的收音范围为:收音角度60-70度,收音距离小于等于1m。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。
相比现有技术,本发明的有益效果在于:
定向识别来自正前方的声音信号,限制拾取声音信号的角度和距离,并对拾取到的声音信号进行信号增强,有助于消除环境噪音的干扰,避免拾取周围多个声音信号而影响识别效果;限制图像采集设备采集人脸图像的角度和距离,更符合日常交流模式,只有同时获取到特定范围和距离内的声音信号和人脸图像时,才相应回话,不仅更符合日常交流模式,更有助于达成有效沟通,增加人机沟通的拟人化效果。
附图说明
图1是本发明实施例1语音定向识别交互方法的流程示意图;
图2为本发明实施例2提供的语音定向识别交互装置的示意图;
图3是本发明实施例3的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例1
语音定向识别交互方法,通过定向获取语音信号和符合要求的人脸图像,以进行语音交互,如图1所示,包括如下步骤:
获取采集到的语音文本内容;
获取同时满足图像采集角度和采集距离的人脸图像;
根据获取到的语音文本内容和人脸图像,判断是否作出回复;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m。
且上述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。
当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。
在本实施例中,基于人脸检测算法、人脸角度估计算法和距离检测算法判断是否有人脸出现在60-70度角度范围且人脸距离在1m的距离范围内,利用人脸角度估计算法和距离检测算法采集人脸图像的步骤如下:首先,对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理。
若包含人脸,则利用人脸角度估计算法和距离检测算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不作处理。
上述人脸检测算法基于卷积神经网络方法,具体包括如下步骤:
建立人脸图片库,并对所述人脸图片库进行特征提取和分析,提取五官的形态和位置进行统计,得到统计分析结果;
采用深度卷积神经网络方法对所述统计分析结果进行训练建立部位分类器,根据人脸分类器对所述图像数据中的人脸进行评分,然后根据每个特征部位的得分进行规则分析得到人脸候选区域,最后结合边界回归算法得到最终的人脸检测结果。
在得到人脸检测结果后,将人脸头像从原始图像数据中抠出,并从中提取头像特征,并将特征经人脸角度估计算法计算得到此张人脸头像的3D角度信息。
本发明中提及的人脸角度估计算法采用学习向量量化LVQ(Learning VectorQuantization)的前向神经网络。首先准备一组人脸角度不同角度的图像,图像来自不同的100个人,每人90幅图像,人脸角度分别为:左方、左前方、前方、右前方、右方,依次从左到右,每1度1个人脸图像。
先将图片中描述眼睛位置的特征向量提取出来作为LVQ神经网络的输入,90个角度分别用1,2,3,.....,89,90表示,作为LVQ神经网络的输出。通过对训练集的图像进行训练,得到具有预测功能的网络,便可以对任意给出的人脸图像进行角度判断。
本发明中眼部位置特征向量提取具体方法是将采集到的9000幅图像先进行预处理,将图片按320×360的尺寸对人脸部位进行裁剪,然后将裁剪得到的图像按“人员编号_人脸角度”的格式进行命名,再将其转换成二值灰度图像,接着将图像划分成6行8列,人眼的位置信息可以用第2行的8个子矩阵来描述,用Sobel边缘算子进行边缘检测后8个子矩阵中的值为“1”的像素点个数与人脸角度有直接关系,只要分别统计出第2行的8个子矩阵中的值为“1”的像素点即可。
Sobel算子进行边缘检测,Sobel算子是一组方向算子,从不同的方向检测边缘。Sobel算子加强了中心像素上下左右4个方向像素的权重,运算结果是一幅边缘图像。该算子计算公式(1)(2)(3)表示:
f′x(x,y)=f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1) (1)
f′y(x,y)=f(x-1,y-1)+2f(x-1,y)+f(x-1,y+1)-f(x+1,y-1)-2f(x+1,y)-f(x+1,y+1) (2)
G[f(x,y)]=|f′x(x,y)|+|f′y(x,y)| (3)
式中f′x(x,y)、f′y(x,y)分别表示x方向和y方向的一阶微分,G[f(x,y)]为Sobel算子梯度,f(x,y)是具有整数像数坐标的输入图像。求出梯度后,可设定一个常数T,当G[f(x,y)]>T时,标出该点为边界点,其图像设定为0,其它的设定为255,适当调整常数T的大小来达到最佳效果。在输入图像得到边缘检测结果之后,提取人眼位置处的像数信息,统计出划分网格第2行的8个子矩阵中的值为“1”的像素点的个数,提取的像素点个数用一个100×8的矩阵表示出来,作为LVQ神经网络的输入层。将准备的9000个不同人脸角度的样本提取出特征向量作为训练集,测试集为随机抽取的200个不同人脸角度的图片的特征向量。创建一个隐含层神经元个数为10的神经网络,将训练集和测试集输入到神经网络中进行训练学习,最后得到可预测人脸角度的神经网络模型,至此可预测人脸角度的神经网络模型创建完成。
该人脸角度估计算法是利用了LVQ算法预先训练人脸在镜头中的90个角度模型,通过输入人脸的眼部特征匹配相应角度,最后得到人脸的3D角度信息。
在本实施例中,距离检测算法采用公知的单目测距算法,在此不再赘述
本发明提供的语音定向识别交互方法可应用到智能语音交互设备上,该智能语音交互设备可以是具有行动能力或者转动能力的机器人,也可以是非移动式的机器人(类似于可视电话),凡是要与机器人说话必须站到机器人的可视区域里面,不在可视区域里收到的语音,机器人不作任何回答。
在本实施例中在语音识别之前,对来自正前方的声音信号进行定向拾取和信号增强,选用广义旁瓣消除器算法进行语音信号增强,该广义旁瓣消除器算法具体为:将声音信号进行能量归一化,然后通过固定波束形成器产生主瓣上的正向声音参考信号,并通过旁瓣消除器产生噪声参考信号,最后利用噪声抵消器将消除主瓣信号上的噪声成分。
其中能量归一化基于能量归一化模块,具体采用以下公式(4)实现能量归一化:
固定波束形成器形成固定波束的过程是将所有阵元信号在同一个采集点数据叠加在一起再除以阵元数,从而产生主瓣上的正向声音参考信号,具体采用公式(5)实现:
本实施例采用的广义瓣消除器算法引入旁瓣消除器的作用为自适应噪声消除,从而进一步增强主瓣信号,利用旁瓣消除器对长度为512个点的帧数据处理过程,具体为公式(6)、(7)、(8):
HL(k)=[hm,0(k),hm,1(k),...hm,511(k),]T (7)
D(k)=[d(k),d(k-1),...,d(k-511)]T (8)
其中HL(k)是第L个阵元的自适应调整且受限的参数向量,用于得到纯净的噪声信号。
最后利用噪声抵消器消除主瓣信号上的噪音,即从主瓣信号上减去合成的噪声信号达到进一步增强正向声音信号,具体算法见公式(9)、(10)、(11):
其中,
WL(k)=[WL,0(k),L,1(k),...L,511(k]T (10)
YL(k)=[YL(k),YL(k-1),...YL(k-511)]T (11)
WL(k)是该噪声抵消器中的抵消参数。
在上述算法中,WL(k)和HL(k)均通过归一化最小均方差算法进行自适应调整,因归一化最小均差算法为公知常识,在此不再进行赘述。
在本发明的更优实施例中,若通过上述距离检测算法计算出人脸到图像采集设备的距离大于1m,则控制机器人向前移动至1m范围内。
实施例2
本实施例公开了一种对应实施例1的语音定向识别交互方法的装置,请参照图2所示,包括:
语音拾取设备210,用于定向拾取正前方的声音信号,并进行语音识别,得到语音文本内容;
图像采集设备220,预先设置有图像采集角度和采集距离,并采集同时满足所述图像采集角度和所述采集距离的人脸图像;
处理单元230,用于获取所述语音文本内容和所述人脸图像,并判断是否作出回复。
在本实施例中,语音拾取设备210为固定安装的不可转向的阵列麦克风,阵列麦克风的设定方法是,将定向麦克风波束收音范围调节在正前方,角度控制在60-70度之间,拾音距离最远1m。
图像采集设备220采用安装摄像头实现,在本发明的更优实施例中,若通过上述距离检测算法计算出人脸到图像采集设备2的距离大于1m,则控制本实施例的装置向前移动至1m范围内。
实施例3
图3为本发明实施例3提供的电子设备的示意图,如图3所示,该电子设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音定向识别交互方法对应的程序指令/模块(例如,语音定向识别交互装置中的处理单元230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例1的语音定向识别交互方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330在本实施例中用于接收语音文本内容和人脸图像等数据。输出装置340可包括显示屏等显示设备,本实施例中输出装置用于输出语音答复。
实施例4
本发明实施例4还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行语音定向识别交互方法,该方法包括:
获取采集到的语音文本内容;
获取同时满足图像采集角度和采集距离的人脸图像;
根据所述语音文本内容和所述人脸图像,判断是否作出回复。
当然,本实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音定向识别交互方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音定向识别交互方法的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (7)
1.一种语音定向识别交互方法,其特征在于,包括如下步骤:
获取采集到的语音文本内容;
获取同时满足图像采集角度和采集距离的人脸图像;
根据所述语音文本内容和所述人脸图像,判断是否作出回复;
当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别;
所述人脸图像的采集步骤如下:对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集。
2.如权利要求1所述的语音定向识别交互方法,所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型,通过输入人脸的眼部特征匹配相应角度,最后得到人脸的3D角度信息。
3.如权利要求1所述的语音定向识别交互方法,其特征在于,所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强,具体为:将声音信号进行能量归一化,然后通过固定波束形成器产生主瓣上的正向语音参考信号,并通过旁瓣消除器产生噪声参考信号,最后利用噪声抵消器将消除主瓣信号上的噪声成分。
4.一种语音定向识别交互装置,其特征在于,包括:
语音拾取设备,用于定向拾取正前方的声音信号,并进行语音识别,得到语音文本内容;
图像采集设备,预先设置有图像采集角度和采集距离,并采集同时满足所述图像采集角度和所述采集距离的人脸图像;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别;
对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集;
处理单元,用于获取所述语音文本内容和所述人脸图像,并判断是否作出回复;当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。
5.如权利要求4所述的语音定向识别交互装置,其特征在于,所述语音拾取设备定向拾取的收音范围为:收音角度60-70度,收音距离小于等于1m。
6.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程 序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910466749.8A CN110188179B (zh) | 2019-05-30 | 2019-05-30 | 语音定向识别交互方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910466749.8A CN110188179B (zh) | 2019-05-30 | 2019-05-30 | 语音定向识别交互方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188179A CN110188179A (zh) | 2019-08-30 |
CN110188179B true CN110188179B (zh) | 2020-06-19 |
Family
ID=67719234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910466749.8A Active CN110188179B (zh) | 2019-05-30 | 2019-05-30 | 语音定向识别交互方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188179B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619895A (zh) * | 2019-09-06 | 2019-12-27 | Oppo广东移动通信有限公司 | 定向发声控制方法及装置、发声设备、介质和电子设备 |
CN112908334A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种基于定向拾音的助听方法、装置及设备 |
CN114699777A (zh) * | 2022-04-13 | 2022-07-05 | 南京晓庄学院 | 一种玩具舞蹈机器人的控制方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393136B1 (en) * | 1999-01-04 | 2002-05-21 | International Business Machines Corporation | Method and apparatus for determining eye contact |
CN106024003A (zh) * | 2016-05-10 | 2016-10-12 | 北京地平线信息技术有限公司 | 结合图像的语音定位和增强***及方法 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN109640224A (zh) * | 2018-12-26 | 2019-04-16 | 北京猎户星空科技有限公司 | 一种拾音方法及装置 |
CN109754814A (zh) * | 2017-11-08 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种声音处理方法、交互设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
-
2019
- 2019-05-30 CN CN201910466749.8A patent/CN110188179B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393136B1 (en) * | 1999-01-04 | 2002-05-21 | International Business Machines Corporation | Method and apparatus for determining eye contact |
CN106024003A (zh) * | 2016-05-10 | 2016-10-12 | 北京地平线信息技术有限公司 | 结合图像的语音定位和增强***及方法 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN109754814A (zh) * | 2017-11-08 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种声音处理方法、交互设备 |
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN109640224A (zh) * | 2018-12-26 | 2019-04-16 | 北京猎户星空科技有限公司 | 一种拾音方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于改进广义旁瓣抵消器的语音增强;王晓荣等;《杭州电子科技大学学报》;20071015;第27卷(第05期);第88-91页 * |
学习矢量量化神经网络在人脸朝向识别中的应用;李萍;《忻州师范学院学报》;20180428;第34卷(第02期);第59-61页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110188179A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833899B (zh) | 一种基于多音区的语音检测方法、相关装置及存储介质 | |
US20230081645A1 (en) | Detecting forged facial images using frequency domain information and local correlation | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
CN110188179B (zh) | 语音定向识别交互方法、装置、设备及介质 | |
AU2022200439B2 (en) | Multi-modal speech separation method and system | |
CN112088402A (zh) | 用于说话者识别的联合神经网络 | |
US10582117B1 (en) | Automatic camera control in a video conference system | |
WO2019080551A1 (zh) | 目标语音检测方法及装置 | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
CN111930336A (zh) | 音频设备的音量调节方法、设备及存储介质 | |
CN110718227A (zh) | 一种基于多模态交互的分布式物联网设备协同方法及其*** | |
CN110110666A (zh) | 目标检测方法和装置 | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 | |
CN110679586B (zh) | 一种输电网鸟类驱赶方法及其***、计算机可读存储介质 | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN115775564A (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
CN114120984A (zh) | 语音交互方法、电子设备和存储介质 | |
CN114417908A (zh) | 一种基于多模态融合的无人机探测***和方法 | |
CN112507829B (zh) | 一种多人视频手语翻译方法及*** | |
CN112487246A (zh) | 一种多人视频中发言人的识别方法和装置 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
CN111192305B (zh) | 用于生成三维图像的方法和装置 | |
CN111310595A (zh) | 用于生成信息的方法和装置 | |
Zhu et al. | Speaker localization based on audio-visual bimodal fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220621 Address after: 310051 4f, Yuanyuan building, No. 528, Liye Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: ZHEJIANG XIAOYUAN ROBOT Co.,Ltd. Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051 Patentee before: ZHEJIANG UTRY INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |