CN111611868A

CN111611868A - 面向哑语体系的头部动作语义识别***与方法

Info

Publication number: CN111611868A
Application number: CN202010332961.8A
Authority: CN
Inventors: 林羽晨; 张金艺
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-01

Abstract

本发明涉及了一种面向哑语体系的头部动作语义识别***与方法。其***由摄像头单元、处理器单元和显示单元组成；其方法的操作步骤由处理器单元检测识别头部动作语义流程体现。采用本发明，不仅可以识别哑语使用者的整体头部动作，更可以识别其眼睛、嘴部等五官的细节动作，实现更完备的语义识别。本发明其***简洁直观，其方法表现优异，且应用的哑语识别场景具有普适性。

Description

面向哑语体系的头部动作语义识别***与方法

技术领域

本发明涉及了一种视频语义识别***与方法，特别是一种面向哑语体系的头部动作语义识别***与方法。

背景技术

视频语义识别一直是学术界和工业界所关注的研究热点，对于人机交互领域具有重大价值。21世纪以来，视频语义识别技术已成为我国政府政策部署的着力点和关键点。活动语义识别是视频语义识别的一个重要分支，其可在众多领域落地应用。面向哑语体系的头部动作语义识别就是活动语义识别的一个重要应用领域，其可识别哑语使用者的头部动作语义，丰富哑语识别体系。

现有的哑语识别体系较为同质且单一，大都仅通过检测、识别哑语使用者的手势，从而判断其表达的哑语语义。但是在现实生活中，哑语使用者也会通过头部动作表达丰富的语义，结合手势传递更为多样的综合语义。因此，在哑语体系中，识别头部动作语义就变得尤为重要。然而，当前成熟的哑语识别体系并不具备检测、识别头部动作语义的功能，因此实际应用中的效果不佳。

本发明提出了一种面向哑语体系的头部动作语义识别***与方法。本发明的***背景：使用摄像头单元捕获哑语使用者的视频数据，利用处理器单元检测、识别其头部动作语义，通过显示单元输出处理结果。采用本发明，不仅可以识别哑语使用者的整体头部动作，更可以识别其眼睛、嘴部等五官的细节动作，实现更完备的语义识别。

由于哑语使用者的身体姿态较为固定，所处环境的光照变化较小，因此使用摄像头单元捕获视频数据，并与处理器单元通信，如USB、RS-485、WiFi、蓝牙等方式，进而识别头部动作语义，是完全可行的，实际应用环境具有普适性。

发明内容

本发明的目的在于，针对目前哑语识别体系在实际应用中存在的局限性，提出一种面向哑语体系的头部动作语义识别***与方法。本发明其***简洁直观，其方法表现优异，且应用的哑语识别场景具有普适性。

为达上述目的，本发明采用下述技术方案：

一种面向哑语体系的头部动作语义识别***与方法，不仅可以识别哑语使用者的整体头部动作，更可以识别其眼睛、嘴部等五官的细节动作，实现更完备的语义识别。其***主要由摄像头单元、处理器单元和显示单元组成，其特征在于：所述摄像头单元以有线或无线方式与处理器单元连接，摄像头单元数量n至少为1；所述处理器单元以有线或无线方式与显示单元连接，显示单元数量m至少为1。

上述摄像头单元的数量n，根据***规模的大小可变化，但至少为1。

上述处理器单元的结构：由数据接收模块、滤波降噪模块、头部动作检测模块、数据裁剪模块、头部动作识别模块、五官动作识别模块、语义生成模块、数据发送模块组成。其中，数据接收模块以有线方式与滤波降噪模块连接、滤波降噪模块以有线方式与头部动作检测模块连接、头部动作检测模块以有线方式与数据裁剪模块连接、数据裁剪模块以有线方式与头部动作识别模块连接、数据裁剪模块以有线方式与五官动作识别模块连接、头部动作识别模块以有线方式与语义生成模块连接、五官动作识别模块以有线方式与语义生成模块连接、语义生成模块以有线方式与数据发送模块连接、头部动作检测模块以有线方式与数据发送模块连接。

上述显示单元的数量m，根据***规模的大小可变化，但至少为1。

上述面向哑语体系的头部动作语义识别***，能够高效、精确地识别哑语使用者的头部动作语义。

一种面向哑语体系的头部动作语义识别方法，采用上述***进行操作，其特征在于：头部动作语义识别流程由处理器单元检测识别头部动作语义流程体现。

上述处理器单元检测识别头部动作语义流程：

1)使用数据接收模块接收摄像头单元传来的视频数据，并向滤波降噪模块发送；

2)滤波降噪模块滤除视频数据中的噪声，提升数据的可靠性；

3)头部动作检测模块检测并判断视频中是否包含头部动作，如果没有，则直接通过数据发送模块发送“未识别”结果至显示单元；如果有，则将视频发送至数据裁剪模块；

4)数据裁剪模块对数据进行预处理，挑选视频中的关键帧，提升***的运行处理速度；

5)头部动作识别模块识别视频中的整体头部动作，并进行分类；五官动作识别模块识别视频中头部的五官细节动作，并进行分类；

6)语义生成模块将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义，并生成对应的语义描述；

7)数据发送模块将最终的语义描述结果发送至显示单元，实现头部动作语义识别。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

本发明的***由摄像头单元、处理器单元和显示单元组成；其方法包括处理器单元检测识别头部动作语义流程。本发明不仅可以识别哑语使用者的整体头部动作，更可以识别其眼睛、嘴部等五官的细节动作，实现更完备的语义识别。由于哑语使用者的身体姿态较为固定，所处环境的光照变化较小，因此使用摄像头单元捕获视频数据，并与处理器单元通信，如USB、RS-485、WiFi、蓝牙等方式，进而识别头部动作语义，是完全可行的，实际应用环境具有普适性。

附图说明

图1是本发明实施例一的面向哑语体系的头部动作语义识别***结构示意图。

图2是本发明实施例二的实现面向哑语体系的头部动作语义识别的处理器单元框图。

图3是本发明实施例三的实现处理器单元检测识别头部动作语义的工作流程图。

具体实施方式

本发明的优先实施例结合附图详述如下：

实施例一

参见图1，面向哑语体系的头部动作语义识别***，由摄像头单元(1.1、1.2、…、1.n)、处理器单元2和显示单元(3.1、3.2、…、3.m)组成，所述摄像头单元(1.1、1.2、…、1.n)以有线或无线方式与处理器单元2连接；所述处理器单元2以有线或无线方式与显示单元(3.1、3.2、…、3.m)连接。所述摄像头单元(1.1、1.2、…、1.n)，根据***规模的大小可变化，但至少为1；所述显示单元(3.1、3.2、…、3.m)，根据***规模的大小可变化，但至少为1。

实施例二

本实施例与实施例一基本相同，特别之处如下：

参见图2，处理器单元2的结构：由数据接收模块4、滤波降噪模块5、头部动作检测模块6、数据裁剪模块7、头部动作识别模块8、五官动作识别模块9、语义生成模块10、数据发送模块11组成。其中，数据接收模块4以有线方式与滤波降噪模块5连接、滤波降噪模块5以有线方式与头部动作检测模块6连接、头部动作检测模块6以有线方式与数据裁剪模块7连接、数据裁剪模块7以有线方式与头部动作识别模块8连接、数据裁剪模块7以有线方式与五官动作识别模块9连接、头部动作识别模块8以有线方式与语义生成模块10连接、五官动作识别模块9以有线方式与语义生成模块10连接、语义生成模块10以有线方式与数据发送模块11连接，头部动作检测模块6以有线方式与数据发送模块11连接。

实施例三

本面向哑语体系的头部动作语义识别方法，采用上述***进行操作。其特征在于头部动作语义识别流程由处理器单元检测识别头部动作语义流程体现。

参见图3，所述处理器单元检测识别头部动作语义流程：

1)使用数据接收模块4接收摄像头单元(1.1、1.2、…、1.n)传来的视频数据，并向滤波降噪模块5发送；

2)滤波降噪模块5滤除视频数据中的噪声，提升数据的可靠性；

3)头部动作检测模块6检测并判断视频中是否包含头部动作，如果没有，则直接通过数据发送模块11发送“未识别”结果至显示单元(3.1、3.2、…、3.m)；如果有，则将视频发送至数据裁剪模块7；

4)数据裁剪模块7对数据进行预处理，挑选视频中的关键帧，提升***的运行处理速度；

5)头部动作识别模块8识别视频中的整体头部动作，并进行分类；五官动作识别模块9识别视频中头部的五官细节动作，并进行分类；

6)语义生成模块10将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义，并生成对应的语义描述；

7)数据发送模块11将最终的语义描述结果发送至显示单元(3.1、3.2、…、3.m)，实现头部动作语义识别。

本发明上述实施例使用摄像头单元捕获哑语使用者的视频数据，利用处理器单元检测、识别其头部动作语义，通过显示单元输出处理结果。采用本发明，不仅可以识别哑语使用者的整体头部动作，更可以识别其眼睛、嘴部等五官的细节动作，实现更完备的语义识别。本发明其***简洁直观，其方法表现优异，且应用的哑语识别场景具有普适性。

Claims

1.一种面向哑语体系的头部动作语义识别***，由n个摄像头单元(1.1、1.2、…、1.n)、一个处理器单元(2)和m个显示单元(3.1、3.2、…、3.m)组成，其特征在于：所述摄像头单元(1.1、1.2、…、1.n)以有线或无线方式与处理器单元(2)连接，摄像头单元数量n至少为1；所述处理器单元(2)以有线或无线方式与显示单元(3.1、3.2、…、3.m)连接，显示单元数量m至少为1。

2.根据权利要求1所述的面向哑语体系的头部动作语义识别***，其特征在于：所述处理器单元(2)由数据接收模块(4)、滤波降噪模块(5)、头部动作检测模块(6)、数据裁剪模块(7)、头部动作识别模块(8)、五官动作识别模块(9)、语义生成模块(10)和数据发送模块(11)组成，所述数据接收模块(4)以有线方式与滤波降噪模块(5)连接，滤波降噪模块(5)以有线方式与头部动作检测模块(6)连接，头部动作检测模块(6)以有线方式与数据裁剪模块(7)连接，数据裁剪模块(7)以有线方式与头部动作识别模块(8)连接，数据裁剪模块(7)以有线方式与五官动作识别模块(9)连接，头部动作识别模块(8)以有线方式与语义生成模块(10)连接，五官动作识别模块(9)以有线方式与语义生成模块(10)连接，语义生成模块(10)以有线方式与数据发送模块(11)连接，头部动作检测模块(6)以有线方式与数据发送模块(11)连接。

3.一种面向哑语体系的头部动作语义识别方法，采用权利要求1所述面向哑语体系的头部动作语义识别***进行操作，其特征在于：头部语义识别流程由处理器单元检测识别头部动作语义流程体现；所述处理器单元检测识别头部动作语义流程：

1)使用数据接收模块(4)接收摄像头单元(1.1、1.2、…、1.n)传来的视频数据，并向滤波降噪模块(5)发送；滤波降噪模块(5)滤除视频数据中的噪声，提升数据的可靠性；

2)头部动作检测模块(6)检测并判断视频中是否包含头部动作，如果没有，则直接通过数据发送模块(10)发送“未识别”结果至显示单元(3.1、3.2、…、3.m)；如果有，则将视频发送至数据裁剪模块(7)；

3)数据裁剪模块(7)对数据进行预处理，挑选视频中的关键帧，提升***的运行处理速度；

4)头部动作识别模块(8)识别视频中的整体头部动作，并进行分类；

5)五官动作识别模块(9)识别视频中头部的五官细节动作，并进行分类；

6)语义生成模块(10)将已分类的整体头部动作和五官细节动作转换为具有实际意义的头部语义，并生成对应的语义描述；

7)数据发送模块(11)将最终的语义描述结果发送至显示单元(3.1、3.2、…、3.m)，实现头部动作语义识别。