CN110349312A - 一种基于家居的智能猫眼语音提醒识别***及其方法 - Google Patents
一种基于家居的智能猫眼语音提醒识别***及其方法 Download PDFInfo
- Publication number
- CN110349312A CN110349312A CN201910615949.5A CN201910615949A CN110349312A CN 110349312 A CN110349312 A CN 110349312A CN 201910615949 A CN201910615949 A CN 201910615949A CN 110349312 A CN110349312 A CN 110349312A
- Authority
- CN
- China
- Prior art keywords
- unit
- module
- audio
- information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000003860 storage Methods 0.000 claims abstract description 31
- 238000012805 post-processing Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 27
- 230000002996 emotional effect Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 239000012535 impurity Substances 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 239000011022 opal Substances 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 241000577395 Thenus Species 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/00174—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
- G07C9/00563—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys using personal physical data of the operator, e.g. finger prints, retinal images, voicepatterns
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/00174—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
- G07C9/00571—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys operated by interacting with a central unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于家居的智能猫眼语音提醒识别***及其方法,所述识别***包括采集模块、语音识别模块、图像识别模块和输出模块,所述采集模块包括第一采集单元和第二采集单元,所述第一采集单元与语音模块电连接,所述第二采集单元与图像识别模块电连接,所述语音识别模块、图像识别模块分别与输出模块电连接;所述语音识别模块包括第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,所述第一接收单元和第一采集单元电连接;本发明不仅便于操作人员时刻监控家居及房屋安全,同时也可以通过音频、图像来确定来访者的身份,有效提高了安防,具有较高的实用性。
Description
技术领域
本发明涉及语音识别技术领域,具体是一种基于家居的智能猫眼语音提醒识别***及其方法。
背景技术
随着科技的进步和发展,人类已经慢慢进入了智能化时代,从智能家居推广至智能公寓、智能酒店,智能化的生活方式已经成为一种十分需求的新常态。
智能家居是以一种住宅为平台,利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理***,提升家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。
现如今的智能猫眼一般智能实现语音提醒及可视功能,无法使用户时刻关注到家居及房屋安全,安防性较差,具有较大的安全隐患。
针对上述情况,我们设计了一种基于家居的智能猫眼语音提醒识别***及其方法,这是我们亟待解决的问题之一。
发明内容
本发明的目的在于提供一种基于家居的智能猫眼语音提醒识别***及其方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于家居的智能猫眼语音提醒识别***,所述识别***包括采集模块、语音识别模块、图像识别模块和输出模块,所述采集模块包括第一采集单元和第二采集单元,所述第一采集单元与语音模块电连接,所述第二采集单元与图像识别模块电连接,所述语音识别模块、图像识别模块分别与输出模块电连接。
较优化的方案,所述识别***还包括报警模块、无线通信模块和手机终端,所述输出模块分别与报警模块、无线通信模块电连接,所述无线通信模块、报警模块分别与手机终端电连接。
较优化的方案,所述第一采集单元包括若干个音频采集器,所述第二采集单元包括若干个摄像头。
本发明中设计了一种基于家居的智能猫眼语音提醒识别***,其中包括采集模块、语音识别模块、图像识别模块和输出模块、无线通信模块、报警模块分别与手机终端,采集模块包括第一采集单元和第二采集单元,第一采集单元为若干个音频采集器,第二采集单元为若干个摄像头,在实际操作中,音频采集器可设置为交替工作的状态,当某几个音频采集器工作时,另外的音频采集器可以处于充电或休息状态,等设定的时间一到,另外几个音频采集器开始工作,这样也便于节省电量;同时摄像头也可设置为交替工作状态。
较优化的方案,所述语音识别模块包括第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,所述第一接收单元和第一采集单元电连接,所述第一接收单元、预处理单元和语音特征提取单元依次电连接,所述语音特征提取单元、语音存储库分别与第一识别单元电连接,所述第一识别单元、后处理单元和第一输出单元依次电连接,所述第一识别单元与第一输出单元电连接,所述第一输出单元和输出模块电连接。
较优化的方案,所述后处理单元包括第一规则限定单元、第二规则限定单元、规则存储库和判定单元,所述第一识别单元分别与第一规则限定单元、第二规则限定单元电连接,所述第一规则限定单元、第二规则限定单元、判定单元分别与规则存储库电连接,所述第一规则限定单元、第二规则限定单元分别与判定单元电连接,所述判定单元与第一输出单元电连接。
本发明中设计了第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,其中第一接收单元用于接收第一采集单元采集到的音频信息,通过预处理单元进行音频信息的预处理,去除音频中含有的无用信息并进行降噪,同时通过零点检测确定音频信息有效范围的端点位置,语音特征提取单元可提取语音特征,并与语音存储库中已经存储的语音特征进行匹配,若能够实现有效匹配,就能够确定来访者的身份;若无法进行有效匹配,则无法通过音频来识别用户身份,需要进一步通过后处理单元来确定音频信息中的内容,判断来访者此行的目的;第一输出单元可将识别处理得到的结构传输至输出模块输出。
在进行音频信息的预处理时可通过以下几个步骤进行:
1、预加重:对量化后的语音信号进行预加重处理,预加重处理时的Z传递函数为H(z)=1-az-1,其中a=0.98,实现预加重;若t时刻采集到的语音值为X(t),经过预加重处理后的值为Y(t),则Y(t)=X(t)-a*X(t-1);
2、分帧:设置语音帧的帧长为c、帧移为d,语音采样频率为Fs,帧长对应的采样点个数为M,帧移对应的采样点个数为N,则:M=c*FS;N=d*Fs;实现分帧,分帧处理之后的一帧语音记为T(n),且每个语音帧包含M个采样点;
3、加窗:使用汉明窗函数W(n),则U为窗长,U=256;对每一帧语音T(n)进行加窗处理,得到G(n),则G(n)=W(n)*T(n);
4、进行端点检测。
后处理单元中第一规则限定单元可确定音频信息的情绪,并通过情绪特征对比来确定音频信息的内容,情绪特征可大致分为“喜”、“怒”、“哀”、“恐”(实际操作时情绪可以分化的更细,看实际需要进行情绪特征的归纳分类),根据情绪特征模拟情境来判断音频信息内容,并将其设置为候选内容A;第二规则限定单元可通过语义、语句的限定来确定音频信息的内容,并设置为候选内容B,将候选内容A、候选内容B与规则存储库内存储的模板文本进行比对,综合确定音频信息的内容。
较优化的方案,所述图像识别模块包括第二接收单元、图像处理单元、图像特征提取单元、第三识别单元、图像存储库和第二输出单元,所述第二采集单元、第二接收单元、图像处理单元、图像特征提取单元、第三识别单元和第二输出单元依次电连接,所述第三识别单元与图像存储库电连接,所述第二输出单元与输出模块电连接。
本发明中利用图像识别模块来进行人脸识别,通过第二采集单元采集人脸图像,由第二接收单元接收采集到的图像信息,并通过图像处理单元去除不必要的无用信息,并对图像进行切割等预处理,再利用图像特征提取单元提取图像信息,在第三识别单元内通过与图像存储库内的存储图像进行匹配,若能够实现有效匹配,就能够确定来访者的身份;若不能进行有效匹配,则提示来访者为陌生人。
较优化的方案,一种基于家居的智能猫眼语音提醒识别方法,包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)数据识别处理:图像识别模块、语音识别模块分别接收采集到的数据,进行数据的处理和限定识别,并将识别得到的提示信息传输至输出模块;
3)数据通讯:输出模块接收提示信息,通过提示信息内容进行处理,并通过无线通信模块传输至手机终端。
较优化的方案,包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)语音识别模块进行数据处理:
a)第一接收单元接收第一采集单元采集到的音频信息,进行存储并传输至预处理单元;
b)预处理单元接收音频信息,对音频信息进行预加重、加窗分帧、降噪处理,去除音频信息中的杂质噪音,并进行零点检测,判定语音有效范围的开始和结束位置,再将处理后的音频信息传输至语音特征提取单元;
c)语音特征提取单元接收步骤b)处理后的音频信息,并通过线性预测分析提取数据中含有的语音特征,将提取的语音特征传输至第一识别单元;
d)第一识别单元接步骤c)提取的语音特征,并与语音存储库内的模板进行匹配,根据匹配算法得到匹配度M,当M为95-99%之间,则确定音频信息的来源对象,提示语音存储库中相对应的用户名称,直接转步骤h);当M为0-50%之间,则无法确定音频信息的来源对象,提示“无法识别”,直接转步骤e);
e)第一规则限定单元接收音频信息,并获得“无法识别”的提示信息,通过与规则存储库中存储的情绪特征相比对,确定音频信息的情绪特征,并根据确定的情绪特征来判断音频语义内容,设为候选内容A;
f)第二规则限定单元接收音频信息,并获得“无法识别”的提示信息,根据规则存储库中存储的语句规则进行匹配,确定音频信息的语义内容,设为候选内容B;
g)判定单元接收候选内容A和候选内容B,并与规则存储库内存储的模板文本进行匹配,综合比较确定语音识别结果,并将语音识别结果传输至第一输出单元;
h)第一输出单元接收数据,并传输至输出模块;
3)图像识别模块进行数据处理:
a)第二接收单元接收第二采集单元采集到的图像信息,并传输至图像处理单元;
b)图像处理单元接收图像信息,并对图像进行预处理,消除图像中的无关信息,再将预处理后的图像信息传输至第三识别单元;
c)第三识别单元接收信息,并与图像存储库内的存储模板进行比对,根据匹配算法得到匹配度N,当N为90-99%之间,则确定图像信息的来源对象,提示图像存储库中相对应的用户名称;当N为0-50%之间,则无法确定图像信息的来源对象,提示“无法识别”,并将该图像信息存储至图像存储库;
d)第三识别单元将识别的提示信息传输至第二输出单元,再由第二输出单元传输至输出模块;
4)数据通讯:输出模块接收步骤2)、步骤3)处理后的数据,得到综合匹配度P,其中P=0.8*N+0.2*M;若P的值为0.9-0.99,则输出模块显示识别的用户名称,并通过无线通信模块传输至手机终端;若P的值为0-0.5,则输出模块显示“陌生人”,并通过无线通信模块传输至手机终端。
与现有技术相比,本发明的有益效果是:
本发明中在使用之前,将所需要存储的用户的音频、人脸图像分别存储至语音存储库和图像存储库,便于后续猫眼识别时可以有效识别对象;当有人来到猫眼前时,图像识别模块可通过摄像头采集到的猫眼前方的人脸图像与图像存储库内进行匹配比对,同时语音识别模块可采集来访客户的音频信息,并根据语音存储库内存储的音频进行对比,并根据综合匹配的结果来判断来访的客户身份。
输出模块可将匹配结果、图像信息和音频信息一同通过无线通信模块传输至手机终端,提醒操作人员有客人来访。
本发明中还可以通过第二采集单元采集到的图像信息,判断来访者等待的时间,若识别显示为陌生人,且陌生人频繁出现在猫眼前,可通过报警模块发出警报,提醒操作人员注意该情况。
本发明中还可应用与以下环境,当客人上门来访时屋主刚好不在家时,若此时手机也无法联系上屋主,或客人并没有屋主的联系方式时,则客人可通过第一采集单元采集音频留言,并留下图像信息,便于屋主回来时知晓客人曾经来过并留下音频留言,实际应用更加方便。
本技术方案还可将识别***与门锁联动,当操作人员在手机终端接收到来访者的身份信息时,可通过识别***对门锁发送信息,开启门锁,便于来访者进入房屋内等待。
本发明设计了一种基于家居的智能猫眼语音提醒识别***及其方法,不仅便于操作人员时刻监控家居及房屋安全,同时也可以通过音频、图像来确定来访者的身份,有效提高了安防,具有较高的实用性。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种基于家居的智能猫眼语音提醒识别***的整体模块示意图;
图2为本发明一种基于家居的智能猫眼语音提醒识别***的整体模块示意图;
图3为本发明一种基于家居的智能猫眼语音提醒识别***示意图;
图4为本发明一种基于家居的智能猫眼语音提醒识别***的后处理单元连接示意图;
图5为本发明一种基于家居的智能猫眼语音提醒识别***的图像识别模块示意图;
图6为本发明一种基于家居的智能猫眼语音提醒识别***的整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图6所示,一种基于家居的智能猫眼语音提醒识别***,所述识别***包括采集模块、语音识别模块、图像识别模块和输出模块,所述采集模块包括第一采集单元和第二采集单元,所述第一采集单元与语音模块电连接,所述第二采集单元与图像识别模块电连接,所述语音识别模块、图像识别模块分别与输出模块电连接。
所述识别***还包括报警模块、无线通信模块和手机终端,所述输出模块分别与报警模块、无线通信模块电连接,所述无线通信模块、报警模块分别与手机终端电连接。
所述第一采集单元包括若干个音频采集器,所述第二采集单元包括若干个摄像头。
本发明中设计了一种基于家居的智能猫眼语音提醒识别***,其中包括采集模块、语音识别模块、图像识别模块和输出模块、无线通信模块、报警模块分别与手机终端,采集模块包括第一采集单元和第二采集单元,第一采集单元为若干个音频采集器,第二采集单元为若干个摄像头,在实际操作中,音频采集器可设置为交替工作的状态,当某几个音频采集器工作时,另外的音频采集器可以处于充电或休息状态,等设定的时间一到,另外几个音频采集器开始工作,这样也便于节省电量;同时摄像头也可设置为交替工作状态。
所述语音识别模块包括第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,所述第一接收单元和第一采集单元电连接,所述第一接收单元、预处理单元和语音特征提取单元依次电连接,所述语音特征提取单元、语音存储库分别与第一识别单元电连接,所述第一识别单元、后处理单元和第一输出单元依次电连接,所述第一识别单元与第一输出单元电连接,所述第一输出单元和输出模块电连接。
所述后处理单元包括第一规则限定单元、第二规则限定单元、规则存储库和判定单元,所述第一识别单元分别与第一规则限定单元、第二规则限定单元电连接,所述第一规则限定单元、第二规则限定单元、判定单元分别与规则存储库电连接,所述第一规则限定单元、第二规则限定单元分别与判定单元电连接,所述判定单元与第一输出单元电连接。
本发明中设计了第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,其中第一接收单元用于接收第一采集单元采集到的音频信息,通过预处理单元进行音频信息的预处理,去除音频中含有的无用信息并进行降噪,同时通过零点检测确定音频信息有效范围的端点位置,语音特征提取单元可提取语音特征,并与语音存储库中已经存储的语音特征进行匹配,若能够实现有效匹配,就能够确定来访者的身份;若无法进行有效匹配,则无法通过音频来识别用户身份,需要进一步通过后处理单元来确定音频信息中的内容,判断来访者此行的目的;第一输出单元可将识别处理得到的结构传输至输出模块输出。
在进行音频信息的预处理时可通过以下几个步骤进行:
1、预加重:对量化后的语音信号进行预加重处理,预加重处理时的Z传递函数为H(z)=1-az-1,其中a=0.98,实现预加重;若t时刻采集到的语音值为X(t),经过预加重处理后的值为Y(t),则Y(t)=X(t)-a*X(t-1);
2、分帧:设置语音帧的帧长为c、帧移为d,语音采样频率为Fs,帧长对应的采样点个数为M,帧移对应的采样点个数为N,则:M=c*FS;N=d*Fs;实现分帧,分帧处理之后的一帧语音记为T(n),且每个语音帧包含M个采样点;
3、加窗:使用汉明窗函数W(n),则U为窗长,U=256;对每一帧语音T(n)进行加窗处理,得到G(n),则G(n)=W(n)*T(n);
4、进行端点检测。
后处理单元中第一规则限定单元可确定音频信息的情绪,并通过情绪特征对比来确定音频信息的内容,并设置为候选内容A;第二规则限定单元可通过语义、语句的限定来确定音频信息的内容,并设置为候选内容B,将候选内容A、候选内容B与规则存储库内存储的模板文本进行比对,综合确定音频信息的内容。
所述图像识别模块包括第二接收单元、图像处理单元、图像特征提取单元、第三识别单元、图像存储库和第二输出单元,所述第二采集单元、第二接收单元、图像处理单元、图像特征提取单元、第三识别单元和第二输出单元依次电连接,所述第三识别单元与图像存储库电连接,所述第二输出单元与输出模块电连接。
本发明中利用图像识别模块来进行人脸识别,通过第二采集单元采集人脸图像,由第二接收单元接收采集到的图像信息,并通过图像处理单元去除不必要的无用信息,并对图像进行切割等预处理,再利用图像特征提取单元提取图像信息,在第三识别单元内通过与图像存储库内的存储图像进行匹配,若能够实现有效匹配,就能够确定来访者的身份;若不能进行有效匹配,则提示来访者为陌生人。
一种基于家居的智能猫眼语音提醒识别方法,包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)数据识别处理:图像识别模块、语音识别模块分别接收采集到的数据,进行数据的处理和限定识别,并将识别得到的提示信息传输至输出模块;
3)数据通讯:输出模块接收提示信息,通过提示信息内容进行处理,并通过无线通信模块传输至手机终端。
包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)语音识别模块进行数据处理:
a)第一接收单元接收第一采集单元采集到的音频信息,进行存储并传输至预处理单元;
b)预处理单元接收音频信息,对音频信息进行预加重、加窗分帧、降噪处理,去除音频信息中的杂质噪音,并进行零点检测,判定语音有效范围的开始和结束位置,再将处理后的音频信息传输至语音特征提取单元;
c)语音特征提取单元接收步骤b)处理后的音频信息,并通过线性预测分析提取数据中含有的语音特征,将提取的语音特征传输至第一识别单元;
d)第一识别单元接步骤c)提取的语音特征,并与语音存储库内的模板进行匹配,根据匹配算法得到匹配度M,当M为95-99%之间,则确定音频信息的来源对象,提示语音存储库中相对应的用户名称,直接转步骤h);当M为0-50%之间,则无法确定音频信息的来源对象,提示“无法识别”,直接转步骤e);
e)第一规则限定单元接收音频信息,并获得“无法识别”的提示信息,通过与规则存储库中存储的情绪特征相比对,确定音频信息的情绪特征,并根据确定的情绪特征来判断音频语义内容,设为候选内容A;
f)第二规则限定单元接收音频信息,并获得“无法识别”的提示信息,根据规则存储库中存储的语句规则进行匹配,确定音频信息的语义内容,设为候选内容B;
g)判定单元接收候选内容A和候选内容B,并与规则存储库内存储的模板文本进行匹配,综合比较确定语音识别结果,并将语音识别结果传输至第一输出单元;
h)第一输出单元接收数据,并传输至输出模块;
3)图像识别模块进行数据处理:
a)第二接收单元接收第二采集单元采集到的图像信息,并传输至图像处理单元;
b)图像处理单元接收图像信息,并对图像进行预处理,消除图像中的无关信息,再将预处理后的图像信息传输至第三识别单元;
c)第三识别单元接收信息,并与图像存储库内的存储模板进行比对,根据匹配算法得到匹配度N,当N为90-99%之间,则确定图像信息的来源对象,提示图像存储库中相对应的用户名称;当N为0-50%之间,则无法确定图像信息的来源对象,提示“无法识别”,并将该图像信息存储至图像存储库;
d)第三识别单元将识别的提示信息传输至第二输出单元,再由第二输出单元传输至输出模块;
1)数据通讯:输出模块接收步骤2)、步骤3)处理后的数据,得到综合匹配度P,其中P=0.8*N+0.2*M;若P的值为0.9-0.99,则输出模块显示识别的用户名称,并通过无线通信模块传输至手机终端;若P的值为0-0.5,则输出模块显示“陌生人”,并通过无线通信模块传输至手机终端。
本发明中在使用之前,将所需要存储的用户的音频、人脸图像分别存储至语音存储库和图像存储库,便于后续猫眼识别时可以有效识别对象;当有人来到猫眼前时,图像识别模块可通过摄像头采集到的猫眼前方的人脸图像与图像存储库内进行匹配比对,同时语音识别模块可采集来访客户的音频信息,并根据语音存储库内存储的音频进行对比,并根据综合匹配的结果来判断来访的客户身份。
输出模块可将匹配结果、图像信息和音频信息一同通过无线通信模块传输至手机终端,提醒操作人员有客人来访。
本发明中还可以通过第二采集单元采集到的图像信息,判断来访者等待的时间,若识别显示为陌生人,且陌生人频繁出现在猫眼前,可通过报警模块发出警报,提醒操作人员注意该情况。
本发明中还可应用与以下环境,当客人上门来访时屋主刚好不在家时,若此时手机也无法联系上屋主,或客人并没有屋主的联系方式时,则客人可通过第一采集单元采集音频留言,并留下图像信息,便于屋主回来时知晓客人曾经来过并留下音频留言,实际应用更加方便。
本技术方案还可将识别***与门锁联动,当操作人员在手机终端接收到来访者的身份信息时,可通过识别***对门锁发送信息,开启门锁,便于来访者进入房屋内等待。
本发明设计了一种基于家居的智能猫眼语音提醒识别***及其方法,不仅便于操作人员时刻监控家居及房屋安全,同时也可以通过音频、图像来确定来访者的身份,有效提高了安防,具有较高的实用性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述识别***包括采集模块、语音识别模块、图像识别模块和输出模块,所述采集模块包括第一采集单元和第二采集单元,所述第一采集单元与语音模块电连接,所述第二采集单元与图像识别模块电连接,所述语音识别模块、图像识别模块分别与输出模块电连接。
2.根据权利要求1所述的一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述语音识别模块包括第一接收单元、预处理单元、语音特征提取单元、语音存储库、第一识别单元、后处理单元和第一输出单元,所述第一接收单元和第一采集单元电连接,所述第一接收单元、预处理单元和语音特征提取单元依次电连接,所述语音特征提取单元、语音存储库分别与第一识别单元电连接,所述第一识别单元、后处理单元和第一输出单元依次电连接,所述第一识别单元与第一输出单元电连接,所述第一输出单元和输出模块电连接。
3.根据权利要求2所述的一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述后处理单元包括第一规则限定单元、第二规则限定单元、规则存储库和判定单元,所述第一识别单元分别与第一规则限定单元、第二规则限定单元电连接,所述第一规则限定单元、第二规则限定单元、判定单元分别与规则存储库电连接,所述第一规则限定单元、第二规则限定单元分别与判定单元电连接,所述判定单元与第一输出单元电连接。
4.根据权利要求3所述的一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述图像识别模块包括第二接收单元、图像处理单元、图像特征提取单元、第三识别单元、图像存储库和第二输出单元,所述第二采集单元、第二接收单元、图像处理单元、图像特征提取单元、第三识别单元和第二输出单元依次电连接,所述第三识别单元与图像存储库电连接,所述第二输出单元与输出模块电连接。
5.根据权利要求4所述的一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述识别***还包括报警模块、无线通信模块和手机终端,所述输出模块分别与报警模块、无线通信模块电连接,所述无线通信模块、报警模块分别与手机终端电连接。
6.根据权利要求5所述的一种基于家居的智能猫眼语音提醒识别***,其特征在于:所述第一采集单元包括若干个音频采集器,所述第二采集单元包括若干个摄像头。
7.一种基于家居的智能猫眼语音提醒识别方法,其特征在于:包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)数据识别处理:图像识别模块、语音识别模块分别接收采集到的数据,进行数据的处理和限定识别,并将识别得到的提示信息传输至输出模块;
3)数据通讯:输出模块接收提示信息,通过提示信息内容进行处理,并通过无线通信模块传输至手机终端。
8.根据权利要求7所述的一种基于家居的智能猫眼语音提醒识别方法,其特征在于:包括以下步骤:
1)数据采集:第一采集单元采集音频信息,并将采集到的音频信息传输至语音识别模块;第二采集单元采集图像信息,并图像信息分别传输至图像识别模块;
2)语音识别模块进行数据处理:
a)第一接收单元接收第一采集单元采集到的音频信息,进行存储并传输至预处理单元;
b)预处理单元接收音频信息,对音频信息进行预加重、加窗分帧、降噪处理,去除音频信息中的杂质噪音,并进行零点检测,判定语音有效范围的开始和结束位置,再将处理后的音频信息传输至语音特征提取单元;
c)语音特征提取单元接收步骤b)处理后的音频信息,并通过线性预测分析提取数据中含有的语音特征,将提取的语音特征传输至第一识别单元;
d)第一识别单元接步骤c)提取的语音特征,并与语音存储库内的模板进行匹配,根据匹配算法得到匹配度M,当M为95-99%之间,则确定音频信息的来源对象,提示语音存储库中相对应的用户名称,直接转步骤h);当M为0-50%之间,则无法确定音频信息的来源对象,提示“无法识别”,直接转步骤e);
e)第一规则限定单元接收音频信息,并获得“无法识别”的提示信息,通过与规则存储库中存储的情绪特征相比对,确定音频信息的情绪特征,并根据确定的情绪特征来判断音频语义内容,设为候选内容A;
f)第二规则限定单元接收音频信息,并获得“无法识别”的提示信息,根据规则存储库中存储的语句规则进行匹配,确定音频信息的语义内容,设为候选内容B;
g)判定单元接收候选内容A和候选内容B,并与规则存储库内存储的模板文本进行匹配,综合比较确定语音识别结果,并将语音识别结果传输至第一输出单元;
h)第一输出单元接收数据,并传输至输出模块;
3)图像识别模块进行数据处理:
a)第二接收单元接收第二采集单元采集到的图像信息,并传输至图像处理单元;
b)图像处理单元接收图像信息,并对图像进行预处理,消除图像中的无关信息,再将预处理后的图像信息传输至第三识别单元;
i)第三识别单元接收信息,并与图像存储库内的存储模板进行比对,根据匹配算法得到匹配度N,当N为90-99%之间,则确定图像信息的来源对象,提示图像存储库中相对应的用户名称;当N为0-50%之间,则无法确定图像信息的来源对象,提示“无法识别”,并将该图像信息存储至图像存储库;
c)第三识别单元将识别的提示信息传输至第二输出单元,再由第二输出单元传输至输出模块;
4)数据通讯:输出模块接收步骤2)、步骤3)处理后的数据,得到综合匹配度P,其中P=0.8*N+0.2*M;若P的值为0.9-0.99,则输出模块显示识别的用户名称,并通过无线通信模块传输至手机终端;若P的值为0-0.5,则输出模块显示“陌生人”,并通过无线通信模块传输至手机终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910615949.5A CN110349312B (zh) | 2019-07-09 | 2019-07-09 | 一种基于家居的智能猫眼语音提醒识别***及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910615949.5A CN110349312B (zh) | 2019-07-09 | 2019-07-09 | 一种基于家居的智能猫眼语音提醒识别***及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110349312A true CN110349312A (zh) | 2019-10-18 |
CN110349312B CN110349312B (zh) | 2021-09-17 |
Family
ID=68178598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910615949.5A Active CN110349312B (zh) | 2019-07-09 | 2019-07-09 | 一种基于家居的智能猫眼语音提醒识别***及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110349312B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0868277A (ja) * | 1994-08-30 | 1996-03-12 | Akiyo Kobayashi | 訪問者検知システム及びドアースコープ |
CN103225475A (zh) * | 2013-05-06 | 2013-07-31 | 中山市安领星电子科技有限公司 | 一种智能化电子猫眼 |
CN103440686A (zh) * | 2013-07-29 | 2013-12-11 | 上海交通大学 | 基于声纹识别、头像识别及位置服务的移动身份验证***和方法 |
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN204754706U (zh) * | 2015-06-30 | 2015-11-11 | 宁波卓翔电子有限公司 | 电子猫眼 |
CN205840722U (zh) * | 2016-07-12 | 2016-12-28 | 中科联房(北京)科技有限公司 | 具有人体生物识别功能的智能门镜 |
CN107452385A (zh) * | 2017-08-16 | 2017-12-08 | 北京世纪好未来教育科技有限公司 | 一种基于语音的数据评价方法及装置 |
CN108776795A (zh) * | 2018-06-20 | 2018-11-09 | 邯郸学院 | 用户身份识别方法、装置及终端设备 |
CN109299594A (zh) * | 2018-09-04 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 身份验证方法及装置 |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109670394A (zh) * | 2018-10-25 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种基于生物特征相似度的视频会议签到方法及相关设备 |
-
2019
- 2019-07-09 CN CN201910615949.5A patent/CN110349312B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0868277A (ja) * | 1994-08-30 | 1996-03-12 | Akiyo Kobayashi | 訪問者検知システム及びドアースコープ |
CN103225475A (zh) * | 2013-05-06 | 2013-07-31 | 中山市安领星电子科技有限公司 | 一种智能化电子猫眼 |
CN103440686A (zh) * | 2013-07-29 | 2013-12-11 | 上海交通大学 | 基于声纹识别、头像识别及位置服务的移动身份验证***和方法 |
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN204754706U (zh) * | 2015-06-30 | 2015-11-11 | 宁波卓翔电子有限公司 | 电子猫眼 |
CN205840722U (zh) * | 2016-07-12 | 2016-12-28 | 中科联房(北京)科技有限公司 | 具有人体生物识别功能的智能门镜 |
CN107452385A (zh) * | 2017-08-16 | 2017-12-08 | 北京世纪好未来教育科技有限公司 | 一种基于语音的数据评价方法及装置 |
CN108776795A (zh) * | 2018-06-20 | 2018-11-09 | 邯郸学院 | 用户身份识别方法、装置及终端设备 |
CN109299594A (zh) * | 2018-09-04 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 身份验证方法及装置 |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109670394A (zh) * | 2018-10-25 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种基于生物特征相似度的视频会议签到方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110349312B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106998444B (zh) | 一种大数据人脸监控*** | |
CN109754804A (zh) | 一种语音控制方法、装置、存储介质及智能家居*** | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN106127130A (zh) | 被管理的基于生物特征识别的通知***和方法 | |
CN103280011A (zh) | 楼宇门禁安全管理*** | |
CN102014278A (zh) | 一种基于语音识别技术的智能视频监控方法 | |
CN1599904A (zh) | 自适应环境***和提供自适应环境的方法 | |
CN106485476A (zh) | 一种基于视频的员工考勤*** | |
CN109377995B (zh) | 一种控制设备的方法与装置 | |
CN105931338A (zh) | 一种基于人脸识别的智慧小区管理*** | |
CN104239304A (zh) | 一种数据处理的方法、装置以及设备 | |
CN109670453B (zh) | 一种提取短视频主题的方法 | |
CN110852306A (zh) | 一种基于人工智能的安全监控*** | |
CN106096831A (zh) | 高速公路文明服务综合评价*** | |
CN110414312A (zh) | 人脸识别方法、装置、服务器及存储介质 | |
CN110349312A (zh) | 一种基于家居的智能猫眼语音提醒识别***及其方法 | |
CN210516214U (zh) | 一种基于视频及语音交互服务设备 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 | |
CN109871128A (zh) | 一种题型识别方法及装置 | |
CN112836193B (zh) | 遥感自动化处理***以及遥感自动化处理方法 | |
CN110413770A (zh) | 将群消息归类到群话题的方法及装置 | |
CN113409507B (zh) | 一种基于人脸识别的控制方法 | |
JP2023531850A (ja) | オーディオデータ識別装置 | |
CN110910554A (zh) | 一种智慧秘书助手管理*** | |
CN112598836A (zh) | 一种基于深度学习的人脸识别比对***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |