CN111653268A - 一种购物仓的人机语音交互***及方法 - Google Patents

一种购物仓的人机语音交互***及方法 Download PDF

Info

Publication number
CN111653268A
CN111653268A CN202010536357.7A CN202010536357A CN111653268A CN 111653268 A CN111653268 A CN 111653268A CN 202010536357 A CN202010536357 A CN 202010536357A CN 111653268 A CN111653268 A CN 111653268A
Authority
CN
China
Prior art keywords
image
user
shopping
voice interaction
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010536357.7A
Other languages
English (en)
Inventor
平宇
陈锐
金硕
张志伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Origin Brand Management Co Ltd
Original Assignee
Tianjin Origin Brand Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Origin Brand Management Co Ltd filed Critical Tianjin Origin Brand Management Co Ltd
Priority to CN202010536357.7A priority Critical patent/CN111653268A/zh
Publication of CN111653268A publication Critical patent/CN111653268A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种购物仓的人机语音交互***及方法,涉及智能交互技术领域;采样数据;利用用户语音和用户标识获取多个维度的信息,确定识别模型;用户通过拍照设备采集正面照图像;通过人脸检测设备检测采集到的图像,并进行人眼定位;截取图像中的人脸区域,进行灰度化处理;将处理后数据存储;提取图像中的SIFT特征,作为训练样本数据保存至数据存储中心;识别资源依据划分进行动态更新;利用用户语音识别文本确定进出购物仓的不同用户信息。本发明该购物仓的人机语音交互方法,功能多样化,工作效率高,维护成本低,在后期的维护和更新中可添加新的模块以满足后期***的需求,使得购物仓的人机语音交互方法的功能更加完善。

Description

一种购物仓的人机语音交互***及方法
技术领域
本发明公开涉及智能交互技术领域,尤其涉及一种购物仓的人机语音交互***及方法。
背景技术
现阶段的人工值守购物仓,在进行购物出入库时,需要利用人工对购物进行清点统计,在确认出入库货物的所有信息无误后,才可出入购物仓库,因此出入仓库的效率非常低,不足以支持现今高出入仓库率的仓库业务。其次,为了提高出入购物库的效率,以足够支持仓库的业务,必须增加参与购物出入库的工作人员,将会增加业务的成本。并且使用人工清点货物时往往会受到外部环境的影响,存在纰漏,导致其购物入库的准确率低。
智能人机语言交互***不断出现,已经在无人值守仓库得到应用。随着移动互联网的发展,语音识别发挥了越来越重要的作用。另一方面,语音识别技术,特别是DNN(深度神经网络)训练方法的发展,极大在提高了语音识别的准确率,反过来也促进了智能购物仓库的应用。
但随着语音应用走向大众,特别是语音云的使用,目标进出购物仓的不同用户未知、目标进出购物仓的不同用户范围广泛,鲁棒性和适应性是难以回避的难题,训练数据与识别数据的不匹配会极大地降低识别准确度。目前的做法是用一个模型识别所有的说话人,在模型建模前收集尽量多的数据,以期达到覆盖范围广的目的。而如需要提高某个人的识别率,需要把这个人的数据和原有数据放在一起重新建模。这种方法有几个弊端:
训练数据不可能做到完全覆盖所有说话人,而且大数据量的模型建模困难。
因未从说话人的发音特征分布采样数据,训练数据会产生分布不均匀,有些进出购物仓的不同用户口音未覆盖。
因未能实现动态更新识别资源,导致识别资源更新周期长,部分用户的识别率不能及时提高。
因对不同领域的应用使用同一套识别资源,导致语言模型建模难以选择语料,垂直领域识别难以提高,可能会产生不同领域“此消彼涨”的难题。
同时,现有技术在语言交互中,没有结合人脸识别进行智能识别。
总之,现有技术存在的问题为:
对于购物仓的人机交互功能单一化,不具备智能人工服务,导致影响购物效率。而且现有购物仓投入的交易管理成本高。
现有技术通常智能终端的训练集都是小样本集,人脸识别算法直接应用效果并不佳。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了购物仓的人机语音交互***及方法。
根据本发明公开的第一方面,提供一种购物仓的人机语音交互方法,所述购物仓的人机语音交互方法包括:
步骤一、对进出购物仓的不同用户进行多维度发音特征划分,采样数据;
步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型;
步骤三,用户通过拍照设备采集正面照图像;
步骤四,通过人脸检测设备检测采集到的图像,并进行人眼定位;
步骤五,通过预处理软件截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
步骤六,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存至数据存储中心;
步骤七,用户通过个人信息输入端将个人信息作为训练样本数据保存至数据存储中心;
步骤八,人脸检测设备通过调用***自带的Android人脸检测API检测采集到的图像;
步骤九,对步骤一~步骤八识别资源依据划分进行动态更新;
步骤十,利用用户语音识别文本确定进出购物仓的不同用户信息。
进一步,步骤一中,根据地域分布、口音分布、年龄分布、男女比例、设备平台划分用户和采样数据。
进一步,所述的地域分布为分别将说话人分布定义在多个地区,每个地区选一到三个重点地区作为采样进出购物仓的不同用户所在地区;
所述的口音分布分别为:普通话、方言;
所述的年龄分布为根据应用的适用进出购物仓的不同用户,预定义采样进出购物仓的不同用户的年龄及比例;
所述的男女比例根据1∶1比例采样;
所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。
进一步,步骤二中,所述的模型优化方法有以下三种方法:
在应用层,根据用户注册信息和用户标识,直接选择识别模型;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型;
语言特征选择领域模型;包括领域词发现算法和领域归类算法;
声学特征选择口音模型;
所述步骤九的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新;
所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
进一步,步骤五中,通过预处理软件截取图像中的人脸区域的具体流程为:
步骤1,测量图像中双眼的中点坐标及双眼间距,设双眼的中点坐标为 (x,y),双眼间距为dd,其中x表示横坐标,y表示纵坐标;
步骤2,将图像中坐标分别为(x-dd,y+dd/2)、(x+dd,y+dd/2)、(x-dd, y-3dd/2)、(x+dd,y-3dd/2)的四个点作为面部截取矩形的顶点,截取边长为 2dd的正方形;
步骤3,将所述正方形划分为七块区域,其中,左眼位于第一区域内,右眼位于第二区域内,左脸颊位于第三区域内,鼻子位于第四区域内,右脸颊位于第五区域内,左嘴角位于第六区域内,右嘴角位于第七区域内。
进一步,步骤3中将所述正方形划分为七块区域之后还包括以下步骤:为所述正方形的每个区域给定相应的一个权值;
七块区域的形状和顶点坐标分别为:
第一区域是边长为dd的正方形,其四个顶点坐标分别为(x-dd,y+dd/2)、 (x,y+dd/2)、(x-dd,y-dd/2)、(x,y-dd/2);
第二区域是边长为dd的正方形,其四个顶点坐标分别为(x,y+dd/2)、 (x+dd,y+dd/2)、(x,y-dd/2)、(x+dd,y-dd/2);
第三区域是边长为dd/2的正方形,其四个顶点坐标分别为(x-dd, y-dd/2)、(x-dd/2,y-dd/2)、(x-dd,y-dd)、(x-dd/2,y-dd);
第四区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd/2, y-dd/2)、(x+dd/2,y-dd/2)、(x-dd/2,y-dd)、(x+dd/2,y-dd);
第五区域是边长为dd/2的正方形,其四个顶点坐标分别为(x+dd/2, y-dd/2)、(x+dd,y-dd/2)、(x+dd/2,y-dd)、(x+dd,y-dd);
第六区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd, y-dd)、(x,y-dd)、(x-dd,y-3dd/2)、(x,y-3dd/2);
第七区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x,y-dd)、 (x+dd,y-dd)、(x,y-3dd/2)、(x+dd,y-3dd/2)。
进一步,步骤八人脸检测设备人脸检测方法包括:
(1)通过高斯模糊建立尺度空间,在一个图像的尺度空间
L(x,y,σ)=G(x,y,σ)*I(x,y),
Figure RE-GDA0002606818330000051
其中,G(x,y,σ)表示一个变化尺度的高斯函数,I(x,y)表示原图像,σ为尺度参数,m,n表示高斯模板的维度,(x,y)表示图像的像素位置;通过尺度参数不同的变化,表达图像在不同尺度空间中的特性;
(2)图像关键点的确立为:
利用高斯差分函数
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),
其中D(x,y,σ)为高斯差分函数,I(x,y)表示原图像,G(x,y,kσ)为kσ变化尺度的高斯函数,G(x,y,σ)表示一个变化尺度的高斯函数,σ为尺度参数;通过对两个相邻高斯函数进行相减,得到高斯差分函数,并取得该函数的极值点,确立图像的关键点;
(3)采用模糊神经网络对目标进行检测识别;
模糊神经网络结构由输入层、模糊化层、模糊推理层及输出层构成;
第一层输入层的各个节点直接与输入量的各个分量连接,将输入量传到下一层模糊化层;
第二层模糊化层采用高斯型函数
Figure RE-GDA0002606818330000061
作为隶属函数,其中参数σ通常为正,参数c用于确定曲线的中心,x表示横轴;
第三层模糊推理层通过与模糊化层的连接来完成模糊规则的匹配,当满足不同阈值条件时,就新目标、目标的融合与目标的消失三种情况进行不同匹配,达到对新目标、目标融合及目标消失的判断,各个节点之间实现模糊运算并通过各个模糊节点的组合得到相应的激活强度;
第四层输出层输出运算结果;
所述RS理论的运算方法为:在视频目标物特征提取数据库中的知识发现,根据等价关系进行纵向及横向信息表中数据的属性约减;
进一步,属性约简算法:
1)令初始属性约简集P=Φ,计算像素灰度值、阴影的光照、颜色特性、目标运动特性、噪声等决策属性对每个条件属性的依赖性,按依赖性大小对属性进行排序,将依赖性最大的属性S加入属性约简集,P=P∪{S},如果有多个属性的依赖性相等,则选择属性值少的属性加入P;
2)若精确集等于约简集,则结束运算,取P为一个属性约简集;否则,计算P之外的属性加入到P的重要性,按重要性大小对属性进行排序,得一排序集M;
3)取重要性最大的属性S加入属性集P=P∪{S},如果有多个属性的重要性相等,则选择属性值少的属性加入P,若精确集等于约简集,则结束运算,否则,转步骤3)继续计算。
本发明的另一目的在于提供一种实施购物仓的人机语音交互***包括:
用户数据标识模块,对进出购物仓的不同用户进行多维度发音特征划分,采样数据;利用用户语音和用户标识获取多个维度的信息,确定识别模型;
拍照设备,采集用户正面照图像;
人脸检测设备,检测采集到用户的图像,并进行人眼定位;还用于调用***自带的Android人脸检测API检测采集到的图像;
预处理组件,用于截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
数据存储中心,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存;
个人信息输入端,将个人信息作为训练样本数据保存至数据存储中心;
用户语音识别文本模块,对识别资源依据划分进行动态更新;并确定进出购物仓的不同用户信息。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述购物仓的人机语音交互方法。
本发明公开的实施例提供的技术方案可以包括以下有益效果:本发明结构简单,使用方便,有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段进出购物仓的不同用户的语音识别率。
本发明通过人脸区域划分和权值分配,相对于原始SIFT特征匹配算法在识别率和运算性能都有提升,且能够在Android***中实现人脸识别。
本发明通过预处理软件对输入图像进行预处理,截取图像中的人脸区域,且截取后的人脸区域成比例,为后续的划分做好了基础,提高了***的处理速度。
本发明按照特定的比例将人脸划分为七个区域,并对各区域分别进行匹配,提高了***的图像识别率,同时减少了运算时间。
本发明通过为人脸划分的每个区域给定相应的一个权值,按照此权值分配能够进一步增加图像识别的准确性。
本发明该购物仓的人机语音交互方法,功能多样化,工作效率高,维护成本低,在后期的维护和更新中可添加新的模块以满足后期***的需求,使得购物仓的人机语音交互方法的功能更加完善。
当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明购物仓的人机语音交互方法流程图。
图2是本发明预处理软件截取图像中的人脸区域流程图。
图3是本发明人脸检测设备人脸检测方法流程图。
图4是本发明购物仓的人机语音交互***示意图。
附图标记:
1、用户数据标识模块;2、拍照设备;3、人脸检测设备;4、预处理组件;5、数据存储中心;6、个人信息输入端;7、用户语音识别文本模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
实施例1
如图1所示,本发明提供一种购物仓的人机语音交互方法,包括:
S101、对进出购物仓的不同用户进行多维度发音特征划分,采样数据;
S102、利用用户语音和用户标识获取多个维度的信息,确定识别模型;
S103,用户通过拍照设备采集正面照图像;
S104,通过人脸检测设备检测采集到的图像,并进行人眼定位;
S105,通过预处理软件截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
S106,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存至数据存储中心;
S107,用户通过个人信息输入端将个人信息作为训练样本数据保存至数据存储中心;
S108,人脸检测设备通过调用***自带的Android人脸检测API检测采集到的图像;
S109,对步骤S101~步骤S108识别资源依据划分进行动态更新;
S110,利用用户语音识别文本确定进出购物仓的不同用户信息。
步骤S101中,根据地域分布、口音分布、年龄分布、男女比例、设备平台划分用户和采样数据。
所述的地域分布为分别将说话人分布定义在多个地区,每个地区选一到三个重点地区作为采样进出购物仓的不同用户所在地区;
所述的口音分布分别为:普通话、方言;
所述的年龄分布为根据应用的适用进出购物仓的不同用户,预定义采样进出购物仓的不同用户的年龄及比例;
所述的男女比例根据1∶1比例采样;
所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。
步骤S102中,所述的模型优化方法有以下三种方法:
在应用层,根据用户注册信息和用户标识,直接选择识别模型;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型;
语言特征选择领域模型;包括领域词发现算法和领域归类算法;
声学特征选择口音模型;
所述步骤九的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新;
所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
步骤S105中,如图2所示,本发明通过预处理软件截取图像中的人脸区域的具体流程为:
S201,测量图像中双眼的中点坐标及双眼间距,设双眼的中点坐标为(x, y),双眼间距为dd,其中x表示横坐标,y表示纵坐标;
S202,将图像中坐标分别为(x-dd,y+dd/2)、(x+dd,y+dd/2)、(x-dd, y-3dd/2)、(x+dd,y-3dd/2)的四个点作为面部截取矩形的顶点,截取边长为 2dd的正方形;
S203,将所述正方形划分为七块区域,其中,左眼位于第一区域内,右眼位于第二区域内,左脸颊位于第三区域内,鼻子位于第四区域内,右脸颊位于第五区域内,左嘴角位于第六区域内,右嘴角位于第七区域内。
步骤S203中将所述正方形划分为七块区域之后还包括以下步骤:为所述正方形的每个区域给定相应的一个权值;
七块区域的形状和顶点坐标分别为:
第一区域是边长为dd的正方形,其四个顶点坐标分别为(x-dd,y+dd/2)、 (x,y+dd/2)、(x-dd,y-dd/2)、(x,y-dd/2);
第二区域是边长为dd的正方形,其四个顶点坐标分别为(x,y+dd/2)、 (x+dd,y+dd/2)、(x,y-dd/2)、(x+dd,y-dd/2);
第三区域是边长为dd/2的正方形,其四个顶点坐标分别为(x-dd, y-dd/2)、(x-dd/2,y-dd/2)、(x-dd,y-dd)、(x-dd/2,y-dd);
第四区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd/2, y-dd/2)、(x+dd/2,y-dd/2)、(x-dd/2,y-dd)、(x+dd/2,y-dd);
第五区域是边长为dd/2的正方形,其四个顶点坐标分别为(x+dd/2, y-dd/2)、(x+dd,y-dd/2)、(x+dd/2,y-dd)、(x+dd,y-dd);
第六区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd, y-dd)、(x,y-dd)、(x-dd,y-3dd/2)、(x,y-3dd/2);
第七区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x,y-dd)、(x+dd,y-dd)、(x,y-3dd/2)、(x+dd,y-3dd/2)。
如图3所示,步骤S108人脸检测设备人脸检测方法包括:
S301,通过高斯模糊建立尺度空间,在一个图像的尺度空间
L(x,y,σ)=G(x,y,σ)*I(x,y),
Figure RE-GDA0002606818330000121
其中,G(x,y,σ)表示一个变化尺度的高斯函数,I(x,y)表示原图像,σ为尺度参数,m,n表示高斯模板的维度,(x,y)表示图像的像素位置;通过尺度参数不同的变化,表达图像在不同尺度空间中的特性;
S302,图像关键点的确立为:
利用高斯差分函数
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),
其中D(x,y,σ)为高斯差分函数,I(x,y)表示原图像,G(x,y,kσ)为kσ变化尺度的高斯函数,G(x,y,σ)表示一个变化尺度的高斯函数,σ为尺度参数;通过对两个相邻高斯函数进行相减,得到高斯差分函数,并取得该函数的极值点,确立图像的关键点;
S303,采用模糊神经网络对目标进行检测识别;
模糊神经网络结构由输入层、模糊化层、模糊推理层及输出层构成;
第一层输入层的各个节点直接与输入量的各个分量连接,将输入量传到下一层模糊化层;
第二层模糊化层采用高斯型函数
Figure RE-GDA0002606818330000122
作为隶属函数,其中参数σ通常为正,参数c用于确定曲线的中心,x表示横轴;
第三层模糊推理层通过与模糊化层的连接来完成模糊规则的匹配,当满足不同阈值条件时,就新目标、目标的融合与目标的消失三种情况进行不同匹配,达到对新目标、目标融合及目标消失的判断,各个节点之间实现模糊运算并通过各个模糊节点的组合得到相应的激活强度;
第四层输出层输出运算结果;
所述RS理论的运算方法为:在视频目标物特征提取数据库中的知识发现,根据等价关系进行纵向及横向信息表中数据的属性约减;
属性约简算法:
1)令初始属性约简集P=Φ,计算像素灰度值、阴影的光照、颜色特性、目标运动特性、噪声等决策属性对每个条件属性的依赖性,按依赖性大小对属性进行排序,将依赖性最大的属性S加入属性约简集,P=P∪{S},如果有多个属性的依赖性相等,则选择属性值少的属性加入P;
2)若精确集等于约简集,则结束运算,取P为一个属性约简集;否则,计算P之外的属性加入到P的重要性,按重要性大小对属性进行排序,得一排序集M;
3)取重要性最大的属性S加入属性集P=P∪{S},如果有多个属性的重要性相等,则选择属性值少的属性加入P,若精确集等于约简集,则结束运算,否则,转步骤3)继续计算。
如图4所示,本发明提供一种购物仓的人机语音交互***包括:
用户数据标识模块1,对进出购物仓的不同用户进行多维度发音特征划分,采样数据;利用用户语音和用户标识获取多个维度的信息,确定识别模型;
拍照设备2,采集用户正面照图像;
人脸检测设备3,检测采集到用户的图像,并进行人眼定位;还用于调用***自带的Android人脸检测API检测采集到的图像;
预处理组件4,用于截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
数据存储中心5,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存;
个人信息输入端6,将个人信息作为训练样本数据保存至数据存储中心;
用户语音识别文本模块7,对识别资源依据划分进行动态更新;并确定进出购物仓的不同用户信息。
实施例2
本发明***包括:方言层、平台层、年龄层、性别层、领域层;
用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样;
所述的性别层包括:男、女;
所述的平台层包括:IOS、Android、Windows;
所述的方言层包括普通话、方言的一种或组合
语音识别方法包括以下步骤:
(1)对多维度进出购物仓的不同用户发音特征进行划分;
(2)进行动态更新;
(3)对多领域进行架构。
在(1)中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。
所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样进出购物仓的不同用户城市;
分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样进出购物仓的不同用户城市。
所述的口音分布分别为:客家话、普通话;
在选择采样时,同时考虑地域分布和口音分布,并对口音的轻重做出区分。
所述的年龄分布为根据应用的适用进出购物仓的不同用户,预定义采样进出购物仓的不同用户的年龄及比例;
所述的男女比例根据1∶1比例采样;
所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据;
平台为iOS,比例为35%;平台为Android,比例为50%;平台为Windows,比例为15%;
所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。
所述的领域识别资源选择动态更新的方法有以下三种方式:
用户标识在应用层,根据用户注册信息,直接选择识别资源的领域;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型。
语言特征选择领域模型;包括领域词发现算法和领域归类算法;
声学特征选择口音模型。
所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
更新声学模型包括定期对识别出错的单词进行聚类、在识别结果上发现新词,对同一领域的语音作业人工标注,并用这些新数据做区分性训练。根据置信度,前期用高置信度的语音进行标注,中期用中等置信度的语音数据、待***识别率稳定后,用低置信度数据。
更新语言模型包括定期采集用户的识别结果,基于凝固度和自由度,发现新词,添加到识别字典中,作为领域新词。
在步骤(1)至步骤(2)中,可进行:
用户通过拍照设备采集正面照图像;通过人脸检测设备检测采集到的图像,并进行人眼定位;通过预处理软件截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存至数据存储中心;用户通过个人信息输入端将个人信息作为训练样本数据保存至数据存储中心;人脸检测设备通过调用***自带的Android人脸检测API检测采集到的图像。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims (10)

1.一种购物仓的人机语音交互方法,其特征在于,所述购物仓的人机语音交互方法包括:
步骤一、对进出购物仓的不同用户进行多维度发音特征划分,采样数据;
步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型;
步骤三,用户通过拍照设备采集正面照图像;
步骤四,通过人脸检测设备检测采集到的图像,并进行人眼定位;
步骤五,通过预处理软件截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
步骤六,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存至数据存储中心;
步骤七,用户通过个人信息输入端将个人信息作为训练样本数据保存至数据存储中心;
步骤八,人脸检测设备通过调用***自带的Android人脸检测API检测采集到的图像;
步骤九,对步骤一~步骤八识别资源依据划分进行动态更新;
步骤十,利用用户语音识别文本确定进出购物仓的不同用户信息。
2.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,步骤一中,根据地域分布、口音分布、年龄分布、男女比例、设备平台划分用户和采样数据。
3.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,所述的地域分布为分别将说话人分布定义在多个地区,每个地区选一到三个重点地区作为采样进出购物仓的不同用户所在地区;
所述的口音分布分别为:普通话、方言;
所述的年龄分布为根据应用的适用进出购物仓的不同用户,预定义采样进出购物仓的不同用户的年龄及比例;
所述的男女比例根据1:1比例采样;
所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。
4.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,步骤二中,所述的模型优化方法有以下三种方法:
在应用层,根据用户注册信息和用户标识,直接选择识别模型;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型;
语言特征选择领域模型;包括领域词发现算法和领域归类算法;
声学特征选择口音模型;
所述步骤九的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新;
所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
5.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,步骤五中,通过预处理软件截取图像中的人脸区域的具体流程为:
步骤1,测量图像中双眼的中点坐标及双眼间距,设双眼的中点坐标为(x,y),双眼间距为dd,其中x表示横坐标,y表示纵坐标;
步骤2,将图像中坐标分别为(x-dd,y+dd/2)、(x+dd,y+dd/2)、(x-dd,y-3dd/2)、(x+dd,y-3dd/2)的四个点作为面部截取矩形的顶点,截取边长为2dd的正方形;
步骤3,将所述正方形划分为七块区域,其中,左眼位于第一区域内,右眼位于第二区域内,左脸颊位于第三区域内,鼻子位于第四区域内,右脸颊位于第五区域内,左嘴角位于第六区域内,右嘴角位于第七区域内。
6.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,步骤3中将所述正方形划分为七块区域之后还包括以下步骤:为所述正方形的每个区域给定相应的一个权值;
七块区域的形状和顶点坐标分别为:
第一区域是边长为dd的正方形,其四个顶点坐标分别为(x-dd,y+dd/2)、(x,y+dd/2)、(x-dd,y-dd/2)、(x,y-dd/2);
第二区域是边长为dd的正方形,其四个顶点坐标分别为(x,y+dd/2)、(x+dd,y+dd/2)、(x,y-dd/2)、(x+dd,y-dd/2);
第三区域是边长为dd/2的正方形,其四个顶点坐标分别为(x-dd,y-dd/2)、(x-dd/2,y-dd/2)、(x-dd,y-dd)、(x-dd/2,y-dd);
第四区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd/2,y-dd/2)、(x+dd/2,y-dd/2)、(x-dd/2,y-dd)、(x+dd/2,y-dd);
第五区域是边长为dd/2的正方形,其四个顶点坐标分别为(x+dd/2,y-dd/2)、(x+dd,y-dd/2)、(x+dd/2,y-dd)、(x+dd,y-dd);
第六区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x-dd,y-dd)、(x,y-dd)、(x-dd,y-3dd/2)、(x,y-3dd/2);
第七区域是长为dd、宽为dd/2的矩形,其四个顶点坐标分别为(x,y-dd)、(x+dd,y-dd)、(x,y-3dd/2)、(x+dd,y-3dd/2)。
7.如权利要求1所述的购物仓的人机语音交互方法,其特征在于,步骤八人脸检测设备人脸检测方法包括:
(1)通过高斯模糊建立尺度空间,在一个图像的尺度空间
L(x,y,σ)=G(x,y,σ)*I(x,y),
Figure RE-RE-FDA0002606818320000041
其中,G(x,y,σ)表示一个变化尺度的高斯函数,I(x,y)表示原图像,σ为尺度参数,m,n表示高斯模板的维度,(x,y)表示图像的像素位置;通过尺度参数不同的变化,表达图像在不同尺度空间中的特性;
(2)图像关键点的确立为:
利用高斯差分函数
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),
其中D(x,y,σ)为高斯差分函数,I(x,y)表示原图像,G(x,y,kσ)为kσ变化尺度的高斯函数,G(x,y,σ)表示一个变化尺度的高斯函数,σ为尺度参数;通过对两个相邻高斯函数进行相减,得到高斯差分函数,并取得该函数的极值点,确立图像的关键点;
(3)采用模糊神经网络对目标进行检测识别;
模糊神经网络结构由输入层、模糊化层、模糊推理层及输出层构成;
第一层输入层的各个节点直接与输入量的各个分量连接,将输入量传到下一层模糊化层;
第二层模糊化层采用高斯型函数
Figure RE-RE-FDA0002606818320000042
作为隶属函数,其中参数σ通常为正,参数c用于确定曲线的中心,x表示横轴;
第三层模糊推理层通过与模糊化层的连接来完成模糊规则的匹配,当满足不同阈值条件时,就新目标、目标的融合与目标的消失三种情况进行不同匹配,达到对新目标、目标融合及目标消失的判断,各个节点之间实现模糊运算并通过各个模糊节点的组合得到相应的激活强度;
第四层输出层输出运算结果;
所述RS理论的运算方法为:在视频目标物特征提取数据库中的知识发现,根据等价关系进行纵向及横向信息表中数据的属性约减。
8.如权利要求7所述的购物仓的人机语音交互方法,其特征在于,属性约简算法:
1)令初始属性约简集P=Φ,计算像素灰度值、阴影的光照、颜色特性、目标运动特性、噪声等决策属性对每个条件属性的依赖性,按依赖性大小对属性进行排序,将依赖性最大的属性S加入属性约简集,P=P∪{S},如果有多个属性的依赖性相等,则选择属性值少的属性加入P;
2)若精确集等于约简集,则结束运算,取P为一个属性约简集;否则,计算P之外的属性加入到P的重要性,按重要性大小对属性进行排序,得一排序集M;
3)取重要性最大的属性S加入属性集P=P∪{S},如果有多个属性的重要性相等,则选择属性值少的属性加入P,若精确集等于约简集,则结束运算,否则,转步骤3)继续计算。
9.一种实施权利要求1~8任意一项所述购物仓的人机语音交互方法的购物仓的人机语音交互***,其特征在于,所述购物仓的人机语音交互***包括:
用户数据标识模块,对进出购物仓的不同用户进行多维度发音特征划分,采样数据;利用用户语音和用户标识获取多个维度的信息,确定识别模型;
拍照设备,采集用户正面照图像;
人脸检测设备,检测采集到用户的图像,并进行人眼定位;还用于调用***自带的Android人脸检测API检测采集到的图像;
预处理组件,用于截取图像中的人脸区域,并对其进行灰度化处理;将处理后的图像信息作为训练样本数据保存至数据存储中心;
数据存储中心,通过特征提取软件提取图像中的SIFT特征,并将其作为训练样本数据保存;
个人信息输入端,将个人信息作为训练样本数据保存至数据存储中心;
用户语音识别文本模块,对识别资源依据划分进行动态更新;并确定进出购物仓的不同用户信息。
10.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求1~8所述购物仓的人机语音交互方法。
CN202010536357.7A 2020-06-12 2020-06-12 一种购物仓的人机语音交互***及方法 Withdrawn CN111653268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010536357.7A CN111653268A (zh) 2020-06-12 2020-06-12 一种购物仓的人机语音交互***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010536357.7A CN111653268A (zh) 2020-06-12 2020-06-12 一种购物仓的人机语音交互***及方法

Publications (1)

Publication Number Publication Date
CN111653268A true CN111653268A (zh) 2020-09-11

Family

ID=72348671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010536357.7A Withdrawn CN111653268A (zh) 2020-06-12 2020-06-12 一种购物仓的人机语音交互***及方法

Country Status (1)

Country Link
CN (1) CN111653268A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508476A (zh) * 2020-11-20 2021-03-16 南京英诺森软件科技有限公司 一种针对智能仓储场景的可视化管理***
CN112528004A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 语音交互方法、装置、电子设备、介质和计算机程序产品
CN117370961A (zh) * 2023-12-05 2024-01-09 江西五十铃汽车有限公司 一种车辆语音交互方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508476A (zh) * 2020-11-20 2021-03-16 南京英诺森软件科技有限公司 一种针对智能仓储场景的可视化管理***
CN112528004A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 语音交互方法、装置、电子设备、介质和计算机程序产品
CN117370961A (zh) * 2023-12-05 2024-01-09 江西五十铃汽车有限公司 一种车辆语音交互方法及***
CN117370961B (zh) * 2023-12-05 2024-03-15 江西五十铃汽车有限公司 一种车辆语音交互方法及***

Similar Documents

Publication Publication Date Title
CN111653268A (zh) 一种购物仓的人机语音交互***及方法
US8238660B2 (en) Hybrid graph model for unsupervised object segmentation
CN108986801A (zh) 一种人机交互方法、装置及人机交互终端
CN110414550B (zh) 人脸识别模型的训练方法、装置、***和计算机可读介质
CN114581491B (zh) 一种行人轨迹跟踪方法、***及相关装置
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
CN111259957A (zh) 基于深度学习的能见度监测和模型训练方法、装置、终端及介质
CN110443120A (zh) 一种人脸识别方法及设备
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN110263731B (zh) 一种单步人脸检测***
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN114092474B (zh) 一种手机外壳复杂纹理背景的加工缺陷检测方法及***
CN114565842A (zh) 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***
CN116152494A (zh) 基于两阶段3d点云语义分割的建筑物脚点识别分割方法
CN113658195A (zh) 图像分割方法、装置及电子设备
CN114581761A (zh) 遥感图像识别方法、装置、设备和计算机可读存储介质
CN117195046A (zh) 异常文本识别方法及相关设备
CN117194624A (zh) 一种基于大语言模型的交通数据分析复杂任务智能拆解与完成方法
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和***
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质
CN116052175A (zh) 文字检测方法、电子设备、存储介质及计算机程序产品
CN112926681B (zh) 一种基于深度卷积神经网络的目标检测方法及装置
CN112085636B (zh) 一种城市功能性收缩分析方法、装置及存储介质
CN114927236A (zh) 一种面向多重目标图像的检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200911