CN104361311A - 多模态在线增量式来访识别***及其识别方法 - Google Patents

多模态在线增量式来访识别***及其识别方法 Download PDF

Info

Publication number
CN104361311A
CN104361311A CN201410500366.5A CN201410500366A CN104361311A CN 104361311 A CN104361311 A CN 104361311A CN 201410500366 A CN201410500366 A CN 201410500366A CN 104361311 A CN104361311 A CN 104361311A
Authority
CN
China
Prior art keywords
face
classification
photo
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410500366.5A
Other languages
English (en)
Other versions
CN104361311B (zh
Inventor
申富饶
臧世博
干强
武慧凯
宗延琦
赵金熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410500366.5A priority Critical patent/CN104361311B/zh
Publication of CN104361311A publication Critical patent/CN104361311A/zh
Application granted granted Critical
Publication of CN104361311B publication Critical patent/CN104361311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

一种多模态在线增量式来访识别***及其识别方法,包括电脑终端,所述的电脑终端同摄像头、声音传感器以及音响设备相连接,所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。并结合其识别方法可有效避免现有技术中的当人脸识别分类器识别错误时无法通过其他传感途径的交互来修正分类器、导致人脸识别效果无法在线增量式改进,严重影响用户体验以及汉字姓名没有任何语法内容导致传统的语音识别效果极差的缺陷。

Description

多模态在线增量式来访识别***及其识别方法
技术领域
本发明属于电子地图的技术领域,具体涉及一种多模态在线增量式来访识别***及其识别方法。
背景技术
目前需要重点开发多种新型传感器及先进条码自动识别、射频标签、基于多种传感信息的智能化信息处理技术,发展低成本的传感器网络和实时信息处理***,提供更方便、功能更强大的信息服务平台和环境。”
随着传感器技术以及信息融合技术的发展,传统单传感器***已经不能满足社会发展的需求,开发多传感器的实时信息融合***成为科研技术人员的当务之急。
传统的人脸检测与识别***在监控防盗、企业考勤、信息安全等多个方面发挥了重要的作用,但是由于摄像头单传感器交互的局限性,会产生如下问题:
当人脸识别分类器识别错误时,无法通过其他传感途径的交互来修正分类器,从而导致人脸识别效果无法在线增量式改进,严重影响用户体验。因此在传统的来访识别***中,增加传感器进行信息融合是非常必要的。增加声音传感器(麦克风),将人脸识别结果以语音的形式进行交互是最简单直接的做法,但是传统的语音识别存在如下问题:
语音识别需要语音输入包含足够多的语法信息,然而汉字姓名没有任何语法内容,导致传统的语音识别效果极差。
发明内容
本发明的目的提供一种多模态在线增量式来访识别***及其识别方法,包括电脑终端,所述的电脑终端同摄像头、声音传感器以及音响设备相连接,所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。并结合其识别方法可有效避免现有技术中的当人脸识别分类器识别错误时无法通过其他传感途径的交互来修正分类器、导致人脸识别效果无法在线增量式改进,严重影响用户体验以及汉字姓名没有任何语法内容导致传统的语音识别效果极差的缺陷。
为了克服现有技术中的不足,本发明提供了一种多模态在线增量式来访识别***及其识别方法的解决方案,具体如下:
一种多模态在线增量式来访识别***,包括电脑终端1,所述的电脑终端1同摄像头2、声音传感器3以及音响设备9相连接,所述的电脑终端1中设置有多模态在线增量式来访识别模块4、OPENCV视觉库7、第一配置文档5、第二配置文档6、用来存放人脸识别模型数据的文件8和用于存放照片总数和照片的分类对象的属性的总数的文档。
所述的第一配置文档5包括照片的名字和照片的分类对象的属性。
所述的第二配置文档6包括人脸所对应的姓名和人脸的分类对象的属性。
所述的声音传感器3也能被话筒或麦克风替代。
所述的多模态在线增量式来访识别模块4包括用于训练的子模块、人脸检测子模块,人脸识别子模块、语音识别和合成子模块、姓名识别子模块以及人脸判断子模块。
所述的用于训练的子模块能够读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型;
所述的多模态在线增量式来访识别***的识别方法,步骤如下:
步骤1:准备和初始化阶段,所述的准备和初始化阶段方法如下:
电脑终端1启动多模态在线增量式来访识别模块4来调用用于训练的子模块,用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型,并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中;
步骤2:进入初始化阶段,所述的初始化阶段包括启动人脸检测子模块,人脸识别子模块和姓名识别子模块分别进行人脸检测的初始化,人脸识别的初始化和姓名识别的初始化,具体如下:
首先启动人脸检测子模块载入OPENCV视觉库7中内置的Haar级联分类器,载入了Haar级联分类器后,然后在电脑终端1的内存中开辟一段内存空间来保存人脸图像,这样就完成了人脸检测的初始化;接着启动人脸识别子模块把照片总数和照片的分类对象的属性的总数从用于存放照片总数和照片的分类对象的属性的总数的文档中提取出来,然后从第二配置文档5中读取人脸所对应的姓名和人脸的分类对象的属性,人脸所对应的姓名和人脸的分类对象的属性也用分隔符分离,分隔符前为人脸所对应的姓名,分隔符后为人脸的分类对象的属性,人脸的分类对象的属性为自然数表示并作为该人脸的唯一标识,再接着向OPENCV视觉库7中的LBPH人脸识别器中载入用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据,这样就完成了人脸识别的初始化;最后启动姓名识别子模块来实现姓名识别的初始化,具体说来为按照<名称,类别>的key-value序列方式构造用户映射表,用户的名称为key,用户的类别为value,用户的名称和用户的类别之间是一对一或者多对一的映射关系,接着依次通过初始化COM库、创建语音识别引擎Recognizer对象、通过Recognizer对象来创建一个上下文对象、设置能将RecoContext对象与相关的消息处理函数联系起来的消息通知机制、设置语音选项、创建默认的音频输入设备对象、将音频输入对象作为识别引擎对象的音频输入源、根据规则中定义的词来最大限度的匹配从音频输入设备输入的命令来编写语法规则、载入语法规则、将语法规则对象设置成激活状态以及别的命令通过ISpVoice接口输出相应的语音信息的步骤来初始化语音识别和合成模块,对于用户名字的识别和存储,通过对以<汉字,拼音>key-value对为存储结构的表进行初始化,具体的内容是遍历原始码表Uni2Pinyin,分析原始码表Uni2Pinyin件中的信息,将其中的信息按照<汉字,拼音>的格式作为全局表存储起来,由此完成了姓名识别的初始化;
步骤3:运行多模态在线增量式来访识别***来让摄像头2以及声音传感器3处于工作状态,首先等待被识别对象的语音输入,即用户需要通过声音传感器3传输“你好”这样的问候语句的语音信号数据来进入后续的识别阶段,所述的问候语句的语音信号数据被语音识别和合成子模块识别后,就依次执行设置激活听写状态、把识别后的问候语句的语音信号数据转化成对应的问候语句文字、把转化后的对应的问候语句文字存储在内存空间中;
步骤4:启动摄像头2不断采集环境的图片,把环境的图片送入电脑终端1中启动人脸判断子模块来调用OPENCV视觉库中的Haar级联分类器来判断是否存在人脸图像,如果存在人脸图像,保存并返回人脸部分的图像,把返回人脸部分的图像转换为灰度图像,并放缩到设定的大小以及进行归一化处理来满足后续操作的要求,最后返回归一化后的人脸部分的图像;
步骤5:人脸判断子模块继续利用保存在用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据进行人脸预测,如果预测成功,返回用户的类别所对应的用户的名称,如果预测失败,返回错误提示信息;
步骤6:如果预测的结果同用户的真实名称一致,就对用户进行成功预测的语音提示,如果预测的记过同用户的真实名称不一致,就对用户进行错误预测的语音提示,并且提示用户继续通过声音传感器输入用户的真实名称的语音数据信号,然后将该输入用户的真实名称的语音数据信号转化成文字信息,把该文字信息和用户的图像存入电脑终端,更新第一配置文档和第二配置文档,最后执行步骤1重新训练人脸识别模型;
步骤7:接着电脑终端1通过操纵音响设备9来对用户发出“你找谁”这样的询问语音,然后当用户通过声音传感器3回应的语音数据传输到电脑终端1中时,把语音数据转化成语音文本,并通过该语音文本形成确认查找该语音文本对应的用户名称的语音信号数据,并把该语音信号数据通过音响设备9播放,当用户确认要寻找该用户以后,电脑终端1通过音响设备9进行响应,而用户否认要寻找该用户以后,循环执行步骤7。
所述的用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型的具体步骤为创建一个指定位置的文件夹,在该指定位置的文件夹里添加预置的人脸图片,所述的人脸图片被用作训练人脸识别模型的初始数据,并在第一配置文档5中添加人脸图片的名字和人脸图片的分类对象的属性,所述的人脸图片的分类对象的属性为自然数表示的针对该人脸图片的唯一标识,并把每一张人脸图片的名字和该人脸图片的分类对象的属性按行存放成一条记录,每一条记录由两部分组成,两部分之间用分隔符分开,分隔符之前为人脸图片的名字,分隔符滞后为人脸图片的分类对象的属性,由此采用局部二值模式直方图的方法进行人脸识别,并将训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中。
由这些技术特征,本发明的识别方法在摄像头传感器的基础上加入声音传感器(麦克风),将识别结果以语音形式进行输出,若识别错误或者查无此人,用户可以通过语音对话方式进行在线修正人脸分类器或者添加新的来访者数据;利用Uni2Pinyin码表进行汉字姓名识别,使得该***可以识别并且以语音方式输出没有任何语法信息的汉字姓名。
附图说明
图l为本发明的一种多模态在线增量式来访识别***的连接结构示意图。
具体实施方式
本发明的目的是研制自动化的高效的一种多模态在线增量式来访识别***及其识别方法,通过附图和实施例来进行进一步的说明:
如图1所示,多模态在线增量式来访识别***,包括电脑终端1,所述的电脑终端1同摄像头2、声音传感器3以及音响设备9相连接,所述的电脑终端1中设置有多模态在线增量式来访识别模块4、OPENCV视觉库7、第一配置文档5、第二配置文档6、用来存放人脸识别模型数据的文件8和用于存放照片总数和照片的分类对象的属性的总数的文档10。
所述的第一配置文档5包括照片的名字和照片的分类对象的属性。
所述的第二配置文档6包括人脸所对应的姓名和人脸的分类对象的属性。
所述的声音传感器3也能被话筒或麦克风替代。
所述的多模态在线增量式来访识别模块4包括用于训练的子模块、人脸检测子模块,人脸识别子模块、语音识别和合成子模块、姓名识别子模块以及人脸判断子模块。
所述的用于训练的子模块能够读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型;
所述的多模态在线增量式来访识别***的识别方法,步骤如下:
步骤1:准备和初始化阶段,所述的准备和初始化阶段方法如下:
在该多模态在线增量式来访识别***在进行第一次识别应用之前,首先要对人脸识别模型进行训练,第一次识别应用之前的训练能够为接下来的人脸识别做初步准备,使得人脸识别模型获取初始数据以及根据分类方法确定相应的阈值,具体的为电脑终端1启动多模态在线增量式来访识别模块4来调用用于训练的子模块,用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型,并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中,其目的是为人脸识别***添加初始的人脸库,训练初始人脸识别模型;
步骤2:进入初始化阶段,所述的初始化阶段包括启动人脸检测子模块,人脸识别子模块和姓名识别子模块分别进行人脸检测的初始化,人脸识别的初始化和姓名识别的初始化,具体如下:
首先启动人脸检测子模块载入OPENCV视觉库7中内置的Haar级联分类器,载入了Haar级联分类器后,然后在电脑终端1的内存中开辟一段内存空间来保存人脸图像,这样就完成了人脸检测的初始化;接着启动人脸识别子模块把照片总数和照片的分类对象的属性的总数从用于存放照片总数和照片的分类对象的属性的总数的文档中提取出来,然后从第二配置文档5中读取人脸所对应的姓名和人脸的分类对象的属性,人脸所对应的姓名和人脸的分类对象的属性也用分隔符分离,分隔符前为人脸所对应的姓名,分隔符后为人脸的分类对象的属性,人脸的分类对象的属性为自然数表示并作为该人脸的唯一标识,再接着向OPENCV视觉库7中的LBPH人脸识别器中载入用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据,这样就完成了人脸识别的初始化;最后启动姓名识别子模块来实现姓名识别的初始化,具体说来为按照<名称,类别>的key-value序列方式构造用户映射表,用户的名称为key,用户的类别为value,用户的名称和用户的类别之间是一对一或者多对一的映射关系,接着依次通过初始化COM库、创建语音识别引擎Recognizer对象、通过Recognizer对象来创建一个上下文对象、设置能将RecoContext对象与相关的消息处理函数联系起来的消息通知机制、设置语音选项、创建默认的音频输入设备对象、将音频输入对象作为识别引擎对象的音频输入源、根据规则中定义的词来最大限度的匹配从音频输入设备输入的命令来编写语法规则、载入语法规则、将语法规则对象设置成激活状态以及别的命令通过ISpVoice接口输出相应的语音信息的步骤来初始化语音识别和合成模块,对于用户名字的识别和存储,通过对以<汉字,拼音>key-value对为存储结构的表进行初始化,具体的内容是遍历原始码表Uni2Pinyin,分析原始码表Uni2Pinyin件中的信息,将其中的信息按照<汉字,拼音>的格式作为全局表存储起来,由此完成了姓名识别的初始化;
步骤3:运行多模态在线增量式来访识别***来让摄像头2以及声音传感器3处于工作状态,首先等待被识别对象的语音输入,即用户需要通过声音传感器3传输“你好”这样的问候语句的语音信号数据来进入后续的识别阶段,所述的问候语句的语音信号数据被语音识别和合成子模块识别后,就依次执行设置激活听写状态、把识别后的问候语句的语音信号数据转化成对应的问候语句文字、把转化后的对应的问候语句文字存储在内存空间中;
步骤4:启动摄像头2不断采集环境的图片,把环境的图片送入电脑终端1中启动人脸判断子模块来调用OPENCV视觉库中的Haar级联分类器来判断是否存在人脸图像,如果存在人脸图像,保存并返回人脸部分的图像,把返回人脸部分的图像转换为灰度图像,并放缩到设定的大小以及进行归一化处理来满足后续操作的要求,最后返回归一化后的人脸部分的图像;
步骤5:人脸判断子模块继续利用保存在用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据进行人脸预测,如果预测成功,返回用户的类别所对应的用户的名称,如果预测失败,返回错误提示信息;
步骤6:如果预测的结果同用户的真实名称一致,就对用户进行成功预测的语音提示,如果预测的记过同用户的真实名称不一致,就对用户进行错误预测的语音提示,并且提示用户继续通过声音传感器输入用户的真实名称的语音数据信号,然后将该输入用户的真实名称的语音数据信号转化成文字信息,把该文字信息和用户的图像存入电脑终端,更新第一配置文档和第二配置文档,最后执行步骤1重新训练人脸识别模型;
步骤7:接着电脑终端1通过操纵音响设备9来对用户发出“你找谁”这样的询问语音,然后当用户通过声音传感器3回应的语音数据传输到电脑终端1中时,把语音数据转化成语音文本,并通过该语音文本形成确认查找该语音文本对应的用户名称的语音信号数据,并把该语音信号数据通过音响设备9播放,当用户确认要寻找该用户以后,电脑终端1通过音响设备9进行响应,而用户否认要寻找该用户以后,循环执行步骤7。
所述的用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型的具体步骤为创建一个指定位置的文件夹,在该指定位置的文件夹里添加预置的人脸图片,所述的人脸图片被用作训练人脸识别模型的初始数据,并在第一配置文档5中添加人脸图片的名字和人脸图片的分类对象的属性,所述的人脸图片的分类对象的属性为自然数表示的针对该人脸图片的唯一标识,并把每一张人脸图片的名字和该人脸图片的分类对象的属性按行存放成一条记录,每一条记录由两部分组成,两部分之间用分隔符分开,分隔符之前为人脸图片的名字,分隔符滞后为人脸图片的分类对象的属性,由此采用局部二值模式直方图的方法进行人脸识别,并将训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中。
由这些技术特征,本发明的识别方法在摄像头传感器的基础上加入声音传感器(麦克风),将识别结果以语音形式进行输出,若识别错误或者查无此人,用户可以通过语音对话方式进行在线修正人脸分类器或者添加新的来访者数据;利用Uni2Pinyin码表进行汉字姓名识别,使得该***可以识别并且以语音方式输出没有任何语法信息的汉字姓名。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (8)

1.一种多模态在线增量式来访识别***,其特征在于包括电脑终端,所述的电脑终端同摄像头、声音传感器以及音响设备相连接,所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。
2.根据权利要求1所述的多模态在线增量式来访识别***,其特征在于所述的第一配置文档包括照片的名字和照片的分类对象的属性。
3.根据权利要求2所述的多模态在线增量式来访识别***,其特征在于所述的第二配置文档包括人脸所对应的姓名和人脸的分类对象的属性。
4.根据权利要求3所述的多模态在线增量式来访识别***,其特征在于所述的声音传感器也能被话筒或麦克风替代。
5.根据权利要求4所述的多模态在线增量式来访识别***,其特征在于所述的多模态在线增量式来访识别模块包括用于训练的子模块、人脸检测子模块,人脸识别子模块、语音识别和合成子模块、姓名识别子模块以及人脸判断子模块。
6.根据权利要求5所述的多模态在线增量式来访识别***,其特征在于所述的用于训练的子模块能够读取出第一配置文档中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型。
7.根据权利要求6所述的多模态在线增量式来访识别***的识别方法,其特征在于,步骤如下:
步骤1:准备和初始化阶段,所述的准备和初始化阶段方法如下:
电脑终端启动多模态在线增量式来访识别模块来调用用于训练的子模块,用于训练的子模块首先读取出第一配置文档中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型,并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中;
步骤2:进入初始化阶段,所述的初始化阶段包括启动人脸检测子模块,人脸识别子模块和姓名识别子模块分别进行人脸检测的初始化,人脸识别的初始化和姓名识别的初始化,具体如下:
首先启动人脸检测子模块载入OPENCV视觉库中内置的Haar级联分类器,载入了Haar级联分类器后,然后在电脑终端1的内存中开辟一段内存空间来保存人脸图像,这样就完成了人脸检测的初始化;接着启动人脸识别子模块把照片总数和照片的分类对象的属性的总数从用于存放照片总数和照片的分类对象的属性的总数的文档中提取出来,然后从第二配置文档中读取人脸所对应的姓名和人脸的分类对象的属性,人脸所对应的姓名和人脸的分类对象的属性也用分隔符分离,分隔符前为人脸所对应的姓名,分隔符后为人脸的分类对象的属性,人脸的分类对象的属性为自然数表示并作为该人脸的唯一标识,再接着向OPENCV视觉库中的LBPH人脸识别器中载入用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据,这样就完成了人脸识别的初始化;最后启动姓名识别子模块来实现姓名识别的初始化,具体说来为按照<名称,类别>的key-value序列方式构造用户映射表,用户的名称为key,用户的类别为value,用户的名称和用户的类别之间是一对一或者多对一的映射关系,接着依次通过初始化COM库、创建语音识别引擎Recognizer对象、通过Recognizer对象来创建一个上下文对象、设置能将RecoContext对象与相关的消息处理函数联系起来的消息通知机制、设置语音选项、创建默认的音频输入设备对象、将音频输入对象作为识别引擎对象的音频输入源、根据规则中定义的词来最大限度的匹配从音频输入设备输入的命令来编写语法规则、载入语法规则、将语法规则对象设置成激活状态以及别的命令通过ISpVoice接口输出相应的语音信息的步骤来初始化语音识别和合成模块,对于用户名字的识别和存储,通过对以<汉字,拼音>key-value对为存储结构的表进行初始化,具体的内容是遍历原始码表Uni2Pinyin,分析原始码表Uni2Pinyin件中的信息,将其中的信息按照<汉字,拼音>的格式作为全局表存储起来,由此完成了姓名识别的初始化;
步骤3:运行多模态在线增量式来访识别***来让摄像头以及声音传感器处于工作状态,首先等待被识别对象的语音输入,即用户需要通过声音传感器传输“你好”这样的问候语句的语音信号数据来进入后续的识别阶段,所述的问候语句的语音信号数据被语音识别和合成子模块识别后,就依次执行设置激活听写状态、把识别后的问候语句的语音信号数据转化成对应的问候语句文字、把转化后的对应的问候语句文字存储在内存空间中;
步骤4:启动摄像头不断采集环境的图片,把环境的图片送入电脑终端中启动人脸判断子模块来调用OPENCV视觉库中的Haar级联分类器来判断是否存在人脸图像,如果存在人脸图像,保存并返回人脸部分的图像,把返回人脸部分的图像转换为灰度图像,并放缩到设定的大小以及进行归一化处理来满足后续操作的要求,最后返回归一化后的人脸部分的图像;
步骤5:人脸判断子模块继续利用保存在用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据进行人脸预测,如果预测成功,返回用户的类别所对应的用户的名称,如果预测失败,返回错误提示信息;
步骤6:如果预测的结果同用户的真实名称一致,就对用户进行成功预测的语音提示,如果预测的记过同用户的真实名称不一致,就对用户进行错误预测的语音提示,并且提示用户继续通过声音传感器输入用户的真实名称的语音数据信号,然后将该输入用户的真实名称的语音数据信号转化成文字信息,把该文字信息和用户的图像存入电脑终端,更新第一配置文档和第二配置文档,最后执行步骤1重新训练人脸识别模型;
步骤7:接着电脑终端通过操纵音响设备来对用户发出“你找谁”这样的询问语音,然后当用户通过声音传感器回应的语音数据传输到电脑终端中时,把语音数据转化成语音文本,并通过该语音文本形成确认查找该语音文本对应的用户名称的语音信号数据,并把该语音信号数据通过音响设备播放,当用户确认要寻找该用户以后,电脑终端通过音响设备进行响应,而用户否认要寻找该用户以后,循环执行步骤7。
8.根据权利要求7所述的多模态在线增量式来访识别***的识别方法,其特征在于所述的用于训练的子模块首先读取出第一配置文档中的照片的名字和照片的分类对象的属性,根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练,得到符合当前应用场景的人脸识别模型的具体步骤为创建一个指定位置的文件夹,在该指定位置的文件夹里添加预置的人脸图片,所述的人脸图片被用作训练人脸识别模型的初始数据,并在第一配置文档中添加人脸图片的名字和人脸图片的分类对象的属性,所述的人脸图片的分类对象的属性为自然数表示的针对该人脸图片的唯一标识,并把每一张人脸图片的名字和该人脸图片的分类对象的属性按行存放成一条记录,每一条记录由两部分组成,两部分之间用分隔符分开,分隔符之前为人脸图片的名字,分隔符滞后为人脸图片的分类对象的属性,由此采用局部二值模式直方图的方法进行人脸识别,并将训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中。
CN201410500366.5A 2014-09-25 2014-09-25 多模态在线增量式来访识别***及其识别方法 Active CN104361311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410500366.5A CN104361311B (zh) 2014-09-25 2014-09-25 多模态在线增量式来访识别***及其识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410500366.5A CN104361311B (zh) 2014-09-25 2014-09-25 多模态在线增量式来访识别***及其识别方法

Publications (2)

Publication Number Publication Date
CN104361311A true CN104361311A (zh) 2015-02-18
CN104361311B CN104361311B (zh) 2017-09-12

Family

ID=52528569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410500366.5A Active CN104361311B (zh) 2014-09-25 2014-09-25 多模态在线增量式来访识别***及其识别方法

Country Status (1)

Country Link
CN (1) CN104361311B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330470A (zh) * 2017-07-04 2017-11-07 北京京东尚科信息技术有限公司 识别图片的方法和装置
CN107977668A (zh) * 2017-07-28 2018-05-01 北京物灵智能科技有限公司 一种机器人图像识别方法及***
CN108010530A (zh) * 2017-11-30 2018-05-08 武汉东信同邦信息技术有限公司 一种基于语音识别技术的学生发言检测跟踪装置
CN108027889A (zh) * 2016-01-25 2018-05-11 华为技术有限公司 一种用于增量式学习云***的训练、调度方法及相关设备
CN109213610A (zh) * 2018-08-01 2019-01-15 Oppo广东移动通信有限公司 数据处理方法、装置、计算机可读存储介质和电子设备
CN111707375A (zh) * 2020-06-10 2020-09-25 青岛联合创智科技有限公司 一种具备智能测温考勤和异常行为检测的电子班牌
US11373445B2 (en) 2018-08-01 2022-06-28 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for processing data, and computer readable storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070098229A1 (en) * 2005-10-27 2007-05-03 Quen-Zong Wu Method and device for human face detection and recognition used in a preset environment
CN102201061A (zh) * 2011-06-24 2011-09-28 常州锐驰电子科技有限公司 基于多阶层过滤人脸识别的智能安全监控***及方法
CN202380828U (zh) * 2011-12-15 2012-08-15 哈尔滨师范大学 生物识别可视门铃自动开关***
CN103179379A (zh) * 2011-12-20 2013-06-26 陕西亚泰电器科技有限公司 一种具有人脸及语音识别功能的智能门铃***
CN103281223A (zh) * 2013-05-15 2013-09-04 五邑大学 一种现代化的智能家居安防***
CN103996228A (zh) * 2014-05-12 2014-08-20 深圳市威富多媒体有限公司 一种基于语音及人脸识别的门禁道闸管理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070098229A1 (en) * 2005-10-27 2007-05-03 Quen-Zong Wu Method and device for human face detection and recognition used in a preset environment
CN102201061A (zh) * 2011-06-24 2011-09-28 常州锐驰电子科技有限公司 基于多阶层过滤人脸识别的智能安全监控***及方法
CN202380828U (zh) * 2011-12-15 2012-08-15 哈尔滨师范大学 生物识别可视门铃自动开关***
CN103179379A (zh) * 2011-12-20 2013-06-26 陕西亚泰电器科技有限公司 一种具有人脸及语音识别功能的智能门铃***
CN103281223A (zh) * 2013-05-15 2013-09-04 五邑大学 一种现代化的智能家居安防***
CN103996228A (zh) * 2014-05-12 2014-08-20 深圳市威富多媒体有限公司 一种基于语音及人脸识别的门禁道闸管理方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027889A (zh) * 2016-01-25 2018-05-11 华为技术有限公司 一种用于增量式学习云***的训练、调度方法及相关设备
CN108027889B (zh) * 2016-01-25 2020-07-28 华为技术有限公司 一种用于增量式学习云***的训练、调度方法及相关设备
CN107330470A (zh) * 2017-07-04 2017-11-07 北京京东尚科信息技术有限公司 识别图片的方法和装置
CN107330470B (zh) * 2017-07-04 2020-03-27 北京京东尚科信息技术有限公司 识别图片的方法和装置
CN107977668A (zh) * 2017-07-28 2018-05-01 北京物灵智能科技有限公司 一种机器人图像识别方法及***
CN108010530A (zh) * 2017-11-30 2018-05-08 武汉东信同邦信息技术有限公司 一种基于语音识别技术的学生发言检测跟踪装置
CN109213610A (zh) * 2018-08-01 2019-01-15 Oppo广东移动通信有限公司 数据处理方法、装置、计算机可读存储介质和电子设备
CN109213610B (zh) * 2018-08-01 2020-06-12 Oppo广东移动通信有限公司 数据处理方法、装置、计算机可读存储介质和电子设备
US11373445B2 (en) 2018-08-01 2022-06-28 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for processing data, and computer readable storage medium
CN111707375A (zh) * 2020-06-10 2020-09-25 青岛联合创智科技有限公司 一种具备智能测温考勤和异常行为检测的电子班牌
CN111707375B (zh) * 2020-06-10 2021-07-09 青岛联合创智科技有限公司 一种具备智能测温考勤和异常行为检测的电子班牌

Also Published As

Publication number Publication date
CN104361311B (zh) 2017-09-12

Similar Documents

Publication Publication Date Title
CN104361311A (zh) 多模态在线增量式来访识别***及其识别方法
CN114556333A (zh) 由助理***启用的智能摄像机
JP2022510479A (ja) ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体
CN112799747A (zh) 智能助理评价、推荐方法、***、终端及可读存储介质
TW201905895A (zh) 聲音識別特徵的優化、動態註冊方法、客戶端和伺服器
US20220374605A1 (en) Continuous Learning for Natural-Language Understanding Models for Assistant Systems
CN110995569B (zh) 一种智能互动方法、装置、计算机设备和存储介质
CN110099246A (zh) 监控调度方法、装置、计算机设备及存储介质
CN110020009A (zh) 在线问答方法、装置及***
WO2017084185A1 (zh) 基于语义分析的智能终端控制方法、***及智能终端
CN101542531A (zh) 图像识别装置及图像识别方法
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
WO2019137391A1 (zh) 对视频进行分类匹配的方法、装置和挑选引擎
CN108920640A (zh) 基于语音交互的上下文获取方法及设备
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN108986825A (zh) 基于语音交互的上下文获取方法及设备
CN101202792B (zh) 基于发送方与接收方之间的关系处理消息的方法和装置
TW202301081A (zh) 輔助系統之基於真實世界文字偵測的任務執行
KR20190103951A (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN110020429A (zh) 语义识别方法及设备
US12008988B2 (en) Electronic apparatus and controlling method thereof
CN111506183A (zh) 一种智能终端及用户交互方法
KR20220168062A (ko) 인공지능을 활용한 기사 작성 솔루션 및 장치
CN110287384A (zh) 智能服务方法、装置及设备
US11831644B1 (en) Anomaly detection in workspaces

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant