CN111611868A - 面向哑语体系的头部动作语义识别***与方法 - Google Patents

面向哑语体系的头部动作语义识别***与方法 Download PDF

Info

Publication number
CN111611868A
CN111611868A CN202010332961.8A CN202010332961A CN111611868A CN 111611868 A CN111611868 A CN 111611868A CN 202010332961 A CN202010332961 A CN 202010332961A CN 111611868 A CN111611868 A CN 111611868A
Authority
CN
China
Prior art keywords
module
action
head
semantic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010332961.8A
Other languages
English (en)
Inventor
林羽晨
张金艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010332961.8A priority Critical patent/CN111611868A/zh
Publication of CN111611868A publication Critical patent/CN111611868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及了一种面向哑语体系的头部动作语义识别***与方法。其***由摄像头单元、处理器单元和显示单元组成;其方法的操作步骤由处理器单元检测识别头部动作语义流程体现。采用本发明,不仅可以识别哑语使用者的整体头部动作,更可以识别其眼睛、嘴部等五官的细节动作,实现更完备的语义识别。本发明其***简洁直观,其方法表现优异,且应用的哑语识别场景具有普适性。

Description

面向哑语体系的头部动作语义识别***与方法
技术领域
本发明涉及了一种视频语义识别***与方法,特别是一种面向哑语体系的头部动作语义识别***与方法。
背景技术
视频语义识别一直是学术界和工业界所关注的研究热点,对于人机交互领域具有重大价值。21世纪以来,视频语义识别技术已成为我国政府政策部署的着力点和关键点。活动语义识别是视频语义识别的一个重要分支,其可在众多领域落地应用。面向哑语体系的头部动作语义识别就是活动语义识别的一个重要应用领域,其可识别哑语使用者的头部动作语义,丰富哑语识别体系。
现有的哑语识别体系较为同质且单一,大都仅通过检测、识别哑语使用者的手势,从而判断其表达的哑语语义。但是在现实生活中,哑语使用者也会通过头部动作表达丰富的语义,结合手势传递更为多样的综合语义。因此,在哑语体系中,识别头部动作语义就变得尤为重要。然而,当前成熟的哑语识别体系并不具备检测、识别头部动作语义的功能,因此实际应用中的效果不佳。
本发明提出了一种面向哑语体系的头部动作语义识别***与方法。本发明的***背景:使用摄像头单元捕获哑语使用者的视频数据,利用处理器单元检测、识别其头部动作语义,通过显示单元输出处理结果。采用本发明,不仅可以识别哑语使用者的整体头部动作,更可以识别其眼睛、嘴部等五官的细节动作,实现更完备的语义识别。
由于哑语使用者的身体姿态较为固定,所处环境的光照变化较小,因此使用摄像头单元捕获视频数据,并与处理器单元通信,如USB、RS-485、WiFi、蓝牙等方式,进而识别头部动作语义,是完全可行的,实际应用环境具有普适性。
发明内容
本发明的目的在于,针对目前哑语识别体系在实际应用中存在的局限性,提出一种面向哑语体系的头部动作语义识别***与方法。本发明其***简洁直观,其方法表现优异,且应用的哑语识别场景具有普适性。
为达上述目的,本发明采用下述技术方案:
一种面向哑语体系的头部动作语义识别***与方法,不仅可以识别哑语使用者的整体头部动作,更可以识别其眼睛、嘴部等五官的细节动作,实现更完备的语义识别。其***主要由摄像头单元、处理器单元和显示单元组成,其特征在于:所述摄像头单元以有线或无线方式与处理器单元连接,摄像头单元数量n至少为1;所述处理器单元以有线或无线方式与显示单元连接,显示单元数量m至少为1。
上述摄像头单元的数量n,根据***规模的大小可变化,但至少为1。
上述处理器单元的结构:由数据接收模块、滤波降噪模块、头部动作检测模块、数据裁剪模块、头部动作识别模块、五官动作识别模块、语义生成模块、数据发送模块组成。其中,数据接收模块以有线方式与滤波降噪模块连接、滤波降噪模块以有线方式与头部动作检测模块连接、头部动作检测模块以有线方式与数据裁剪模块连接、数据裁剪模块以有线方式与头部动作识别模块连接、数据裁剪模块以有线方式与五官动作识别模块连接、头部动作识别模块以有线方式与语义生成模块连接、五官动作识别模块以有线方式与语义生成模块连接、语义生成模块以有线方式与数据发送模块连接、头部动作检测模块以有线方式与数据发送模块连接。
上述显示单元的数量m,根据***规模的大小可变化,但至少为1。
上述面向哑语体系的头部动作语义识别***,能够高效、精确地识别哑语使用者的头部动作语义。
一种面向哑语体系的头部动作语义识别方法,采用上述***进行操作,其特征在于:头部动作语义识别流程由处理器单元检测识别头部动作语义流程体现。
上述处理器单元检测识别头部动作语义流程:
1)使用数据接收模块接收摄像头单元传来的视频数据,并向滤波降噪模块发送;
2)滤波降噪模块滤除视频数据中的噪声,提升数据的可靠性;
3)头部动作检测模块检测并判断视频中是否包含头部动作,如果没有,则直接通过数据发送模块发送“未识别”结果至显示单元;如果有,则将视频发送至数据裁剪模块;
4)数据裁剪模块对数据进行预处理,挑选视频中的关键帧,提升***的运行处理速度;
5)头部动作识别模块识别视频中的整体头部动作,并进行分类;五官动作识别模块识别视频中头部的五官细节动作,并进行分类;
6)语义生成模块将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义,并生成对应的语义描述;
7)数据发送模块将最终的语义描述结果发送至显示单元,实现头部动作语义识别。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明的***由摄像头单元、处理器单元和显示单元组成;其方法包括处理器单元检测识别头部动作语义流程。本发明不仅可以识别哑语使用者的整体头部动作,更可以识别其眼睛、嘴部等五官的细节动作,实现更完备的语义识别。由于哑语使用者的身体姿态较为固定,所处环境的光照变化较小,因此使用摄像头单元捕获视频数据,并与处理器单元通信,如USB、RS-485、WiFi、蓝牙等方式,进而识别头部动作语义,是完全可行的,实际应用环境具有普适性。
附图说明
图1是本发明实施例一的面向哑语体系的头部动作语义识别***结构示意图。
图2是本发明实施例二的实现面向哑语体系的头部动作语义识别的处理器单元框图。
图3是本发明实施例三的实现处理器单元检测识别头部动作语义的工作流程图。
具体实施方式
本发明的优先实施例结合附图详述如下:
实施例一
参见图1,面向哑语体系的头部动作语义识别***,由摄像头单元(1.1、1.2、…、1.n)、处理器单元2和显示单元(3.1、3.2、…、3.m)组成,所述摄像头单元(1.1、1.2、…、1.n)以有线或无线方式与处理器单元2连接;所述处理器单元2以有线或无线方式与显示单元(3.1、3.2、…、3.m)连接。所述摄像头单元(1.1、1.2、…、1.n),根据***规模的大小可变化,但至少为1;所述显示单元(3.1、3.2、…、3.m),根据***规模的大小可变化,但至少为1。
实施例二
本实施例与实施例一基本相同,特别之处如下:
参见图2,处理器单元2的结构:由数据接收模块4、滤波降噪模块5、头部动作检测模块6、数据裁剪模块7、头部动作识别模块8、五官动作识别模块9、语义生成模块10、数据发送模块11组成。其中,数据接收模块4以有线方式与滤波降噪模块5连接、滤波降噪模块5以有线方式与头部动作检测模块6连接、头部动作检测模块6以有线方式与数据裁剪模块7连接、数据裁剪模块7以有线方式与头部动作识别模块8连接、数据裁剪模块7以有线方式与五官动作识别模块9连接、头部动作识别模块8以有线方式与语义生成模块10连接、五官动作识别模块9以有线方式与语义生成模块10连接、语义生成模块10以有线方式与数据发送模块11连接,头部动作检测模块6以有线方式与数据发送模块11连接。
实施例三
本面向哑语体系的头部动作语义识别方法,采用上述***进行操作。其特征在于头部动作语义识别流程由处理器单元检测识别头部动作语义流程体现。
参见图3,所述处理器单元检测识别头部动作语义流程:
1)使用数据接收模块4接收摄像头单元(1.1、1.2、…、1.n)传来的视频数据,并向滤波降噪模块5发送;
2)滤波降噪模块5滤除视频数据中的噪声,提升数据的可靠性;
3)头部动作检测模块6检测并判断视频中是否包含头部动作,如果没有,则直接通过数据发送模块11发送“未识别”结果至显示单元(3.1、3.2、…、3.m);如果有,则将视频发送至数据裁剪模块7;
4)数据裁剪模块7对数据进行预处理,挑选视频中的关键帧,提升***的运行处理速度;
5)头部动作识别模块8识别视频中的整体头部动作,并进行分类;五官动作识别模块9识别视频中头部的五官细节动作,并进行分类;
6)语义生成模块10将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义,并生成对应的语义描述;
7)数据发送模块11将最终的语义描述结果发送至显示单元(3.1、3.2、…、3.m),实现头部动作语义识别。
本发明上述实施例使用摄像头单元捕获哑语使用者的视频数据,利用处理器单元检测、识别其头部动作语义,通过显示单元输出处理结果。采用本发明,不仅可以识别哑语使用者的整体头部动作,更可以识别其眼睛、嘴部等五官的细节动作,实现更完备的语义识别。本发明其***简洁直观,其方法表现优异,且应用的哑语识别场景具有普适性。

Claims (3)

1.一种面向哑语体系的头部动作语义识别***,由n个摄像头单元(1.1、1.2、…、1.n)、一个处理器单元(2)和m个显示单元(3.1、3.2、…、3.m)组成,其特征在于:所述摄像头单元(1.1、1.2、…、1.n)以有线或无线方式与处理器单元(2)连接,摄像头单元数量n至少为1;所述处理器单元(2)以有线或无线方式与显示单元(3.1、3.2、…、3.m)连接,显示单元数量m至少为1。
2.根据权利要求1所述的面向哑语体系的头部动作语义识别***,其特征在于:所述处理器单元(2)由数据接收模块(4)、滤波降噪模块(5)、头部动作检测模块(6)、数据裁剪模块(7)、头部动作识别模块(8)、五官动作识别模块(9)、语义生成模块(10)和数据发送模块(11)组成,所述数据接收模块(4)以有线方式与滤波降噪模块(5)连接,滤波降噪模块(5)以有线方式与头部动作检测模块(6)连接,头部动作检测模块(6)以有线方式与数据裁剪模块(7)连接,数据裁剪模块(7)以有线方式与头部动作识别模块(8)连接,数据裁剪模块(7)以有线方式与五官动作识别模块(9)连接,头部动作识别模块(8)以有线方式与语义生成模块(10)连接,五官动作识别模块(9)以有线方式与语义生成模块(10)连接,语义生成模块(10)以有线方式与数据发送模块(11)连接,头部动作检测模块(6)以有线方式与数据发送模块(11)连接。
3.一种面向哑语体系的头部动作语义识别方法,采用权利要求1所述面向哑语体系的头部动作语义识别***进行操作,其特征在于:头部语义识别流程由处理器单元检测识别头部动作语义流程体现;所述处理器单元检测识别头部动作语义流程:
1)使用数据接收模块(4)接收摄像头单元(1.1、1.2、…、1.n)传来的视频数据,并向滤波降噪模块(5)发送;滤波降噪模块(5)滤除视频数据中的噪声,提升数据的可靠性;
2)头部动作检测模块(6)检测并判断视频中是否包含头部动作,如果没有,则直接通过数据发送模块(10)发送“未识别”结果至显示单元(3.1、3.2、…、3.m);如果有,则将视频发送至数据裁剪模块(7);
3)数据裁剪模块(7)对数据进行预处理,挑选视频中的关键帧,提升***的运行处理速度;
4)头部动作识别模块(8)识别视频中的整体头部动作,并进行分类;
5)五官动作识别模块(9)识别视频中头部的五官细节动作,并进行分类;
6)语义生成模块(10)将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义,并生成对应的语义描述;
7)数据发送模块(11)将最终的语义描述结果发送至显示单元(3.1、3.2、…、3.m),实现头部动作语义识别。
CN202010332961.8A 2020-04-24 2020-04-24 面向哑语体系的头部动作语义识别***与方法 Pending CN111611868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332961.8A CN111611868A (zh) 2020-04-24 2020-04-24 面向哑语体系的头部动作语义识别***与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332961.8A CN111611868A (zh) 2020-04-24 2020-04-24 面向哑语体系的头部动作语义识别***与方法

Publications (1)

Publication Number Publication Date
CN111611868A true CN111611868A (zh) 2020-09-01

Family

ID=72204679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332961.8A Pending CN111611868A (zh) 2020-04-24 2020-04-24 面向哑语体系的头部动作语义识别***与方法

Country Status (1)

Country Link
CN (1) CN111611868A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117117A (zh) * 2010-01-06 2011-07-06 致伸科技股份有限公司 利用图像提取装置辨识使用者姿势进行控制的***及方法
CN103440640A (zh) * 2013-07-26 2013-12-11 北京理工大学 一种视频场景聚类及浏览方法
CN108470206A (zh) * 2018-02-11 2018-08-31 北京光年无限科技有限公司 基于虚拟人的头部交互方法及***
CN110334600A (zh) * 2019-06-03 2019-10-15 武汉工程大学 一种多特征融合驾驶员异常表情识别方法
CN110688921A (zh) * 2019-09-17 2020-01-14 东南大学 一种基于人体动作识别技术的驾驶员抽烟行为检测方法
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117117A (zh) * 2010-01-06 2011-07-06 致伸科技股份有限公司 利用图像提取装置辨识使用者姿势进行控制的***及方法
CN103440640A (zh) * 2013-07-26 2013-12-11 北京理工大学 一种视频场景聚类及浏览方法
CN108470206A (zh) * 2018-02-11 2018-08-31 北京光年无限科技有限公司 基于虚拟人的头部交互方法及***
CN110334600A (zh) * 2019-06-03 2019-10-15 武汉工程大学 一种多特征融合驾驶员异常表情识别方法
CN110688921A (zh) * 2019-09-17 2020-01-14 东南大学 一种基于人体动作识别技术的驾驶员抽烟行为检测方法
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN106057205B (zh) 一种智能机器人自动语音交互方法
US11854550B2 (en) Determining input for speech processing engine
CN105139858B (zh) 一种信息处理方法及电子设备
CN109309751B (zh) 语音记录方法、电子设备及存储介质
KR20190084789A (ko) 전자 장치 및 그 제어 방법
CN102932212A (zh) 一种基于多通道交互方式的智能家居控制***
CN104125523A (zh) 一种动感耳机***及其使用方法
WO2008084034A1 (en) Controlling a document based on user behavioral signals detected from a 3d captured image stream
US11281302B2 (en) Gesture based data capture and analysis device and system
CN111696562B (zh) 语音唤醒方法、设备及存储介质
KR102353486B1 (ko) 이동 단말기 및 그 제어 방법
US20230386461A1 (en) Voice user interface using non-linguistic input
CN112434139A (zh) 信息交互方法、装置、电子设备和存储介质
CN113671846B (zh) 智能设备控制方法、装置、可穿戴设备及存储介质
CN109032345A (zh) 设备控制方法、装置、设备、服务端和存储介质
CN113571053A (zh) 语音唤醒方法和设备
CN115206306A (zh) 语音交互方法、装置、设备及***
CN114610158A (zh) 数据处理方法及装置、电子设备、存储介质
KR102592613B1 (ko) 자동 통역 서버 및 그 방법
WO2016206642A1 (zh) 机器人的控制数据的生成方法及装置
CN111611868A (zh) 面向哑语体系的头部动作语义识别***与方法
CN111985252A (zh) 对话翻译方法及装置、存储介质和电子设备
CN106815264B (zh) 一种信息处理方法及***
CN114220420A (zh) 多模态语音唤醒方法、装置及计算机可读存储介质
CN110853634A (zh) 一种多模态语音交互反馈应答控制方法、计算机可读存储介质及空调

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901