CN105023000B

CN105023000B - 基于人脑视觉记忆原理的人体动作识别方法及***

Info

Publication number: CN105023000B
Application number: CN201510407799.0A
Authority: CN
Inventors: 谌先敢; 刘海华; 高智勇; 李旭
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2018-05-01
Anticipated expiration: 2035-07-13
Also published as: CN105023000A

Abstract

本发明公开了一种基于人脑视觉记忆原理的人体动作识别方法及***，涉及计算机视觉和视频监控领域。本发明受人脑视觉记忆原理启发，首次提出以下技术方案：在训练阶段，使用局部特征的特征编码训练分类器模型，并使用该特征编码来构建视觉记忆库；在识别阶段，在视觉记忆库中检索待识别视频中局部特征的特征编码；用检索结果中视频的部分局部特征，替换待识别视频中被遮挡的信息，对替换后的视频的局部特征进行特征编码，并输入训练模型进行测试，获得视频中人体动作的类别。本发明能有效解决人体动作识别中的遮挡问题。

Description

基于人脑视觉记忆原理的人体动作识别方法及***

技术领域

本发明涉及计算机视觉和视频监控领域，具体是涉及一种基于人脑视觉记忆原理的人体动作识别方法及***。

背景技术

基于视频的人体动作识别是一个非常重要的问题，可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频序列中区分出人体动作的类别。

基于视频的人体动作识别可以分为两个部分：动作的表示和动作的分类。视频可以分为训练集合和测试集合。动作的表示是指：从包含人体动作的视频序列中，提取合适的特征数据，来描述人体的动作。动作的分类是指：通过学习训练集合中的特征数据，得到分类器模型，将测试集合中的特征数据进行分类。

目前许多视频或多或少都存在一些遮挡，包括自遮挡或被其他目标遮挡，这会造成执行动作的主体并不是全部可见，难以提取有效的动作特征，给人体动作识别带来很大的挑战。

在当前的动作识别方法中，如下几种方法在遮挡情况下的性能是能够被接受的：局部方法、基于概率的方法和基于姿势的方法，但这些方法各有一定的局限性。局部方法所用的兴趣点探测，可能错误识别不在前景目标中的局部小块。基于概率的方法，如贝叶斯网络，隐马尔可夫模型，是扁平模型，在表示简单动作方面是有效的，但并不能描述复杂动作中的层次和共享结构。基于姿势的方法，需要使用探测器，通过手工标注训练图像，来训练每个身体部位，这就限制了基于姿势的方法在动作识别上的应用。因此，亟待有效的方法来解决人体动作识别中的遮挡问题。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于人脑视觉记忆原理的人体动作识别方法及***，能有效解决人体动作识别中的遮挡问题。

本发明提供一种基于人脑视觉记忆原理的人体动作识别方法，包括以下步骤：

A、训练阶段：

A1、采集多个训练视频，对每个训练视频分别进行密集采样，将采样块上的方向梯度直方图HOG特征作为局部特征，得到训练视频的HOG特征集合；

A2、采用期望最大化算法，对步骤A1得到的训练视频的HOG特征集合进行学习，得到一组“超完备”基向量；

A3、结合步骤A2得到的“超完备”基向量，采用稀疏编码的方式，对步骤A1得到的训练视频的HOG特征集合进行特征编码，得到第一稀疏向量集合，第一稀疏向量集合中每个向量的维度与“超完备”基向量的维度相同，对第一稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的向量，作为训练视频的编码结果，用训练视频的编码结果来表达训练视频中的人体动作；

A4、将步骤A3得到的所有训练视频的编码结果送入支持向量机SVM分类器进行训练，生成训练模型；

A5、使用步骤A3得到的所有训练视频的编码结果，来构建视觉记忆库，视觉记忆库中存储的视频都未被遮挡；

B、识别阶段：

B1、输入待识别视频，对待识别视频进行密集采样，将采样块上的HOG特征作为局部特征，得到待识别视频的HOG特征集合；

B2、结合步骤A2得到的“超完备”基向量，采用稀疏编码的方式，对步骤B1得到的待识别视频的HOG特征集合进行特征编码，到得第二稀疏向量集合，第二稀疏向量集合中每个向量的维度与“超完备”基向量维度相同，对第二稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的稀疏向量；

B3、确定待识别视频中被遮挡的部位，用视觉记忆库中的检索结果替换待识别视频中被遮挡的部位，得到待识别视频的编码结果：

以步骤B2得到的稀疏向量为索引，在步骤A5构建的视觉记忆库中进行检索，将检索出的视频作为检索结果，用检索结果中视频的局部特征替换待识别视频中被遮挡部位的特征，得到经过替换后的视频的HOG特征集合，作为新的局部特征；用步骤A2得到的“超完备”基向量对该新的局部特征进行特征编码，得到新的稀疏向量，作为待识别视频的编码结果，用待识别视频的编码结果来表达待识别视频中的人体动作；

B4、将步骤B3得到的待识别视频的编码结果送入步骤A4生成的训练模型进行测试，得到待识别视频中的人体动作类别。

在上述技术方案的基础上，步骤A中，所述对每个训练视频分别进行密集采样的过程为：对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块。

在上述技术方案的基础上，所述局部采样块的尺寸为小于训练视频尺寸的任意尺寸。

在上述技术方案的基础上，所述局部采样块的尺寸为16×16×4像素。

在上述技术方案的基础上，步骤A5中，采用基于内容的视频检索***来模拟视觉记忆库。

在上述技术方案的基础上，步骤B3中确定待识别视频中被遮挡部位的具体过程为：计算待识别视频中每个局部采样块的图像熵，熵值低于预设阈值的局部采样块所在的部位就是被遮挡的部位，预设阈值在实验中确定。

本发明还提供一种基于人脑视觉记忆原理的人体动作识别***，包括第一HOG特征集合获取单元、“超完备”基向量获取单元、第一编码单元、训练模型生成单元、视觉记忆库构建单元、第二HOG特征集合获取单元、稀疏向量获取单元、第二编码单元、人体动作类别获取单元，其中：

所述第一HOG特征集合获取单元用于：采集多个训练视频，对每个训练视频分别进行密集采样，将采样块上的方向梯度直方图特征作为局部特征，得到训练视频的HOG特征集合；

所述“超完备”基向量获取单元用于：采用期望最大化算法，对第一HOG特征集合获取单元得到的训练视频的HOG特征集合进行学习，得到一组“超完备”基向量；

所述第一编码单元用于：结合“超完备”基向量，采用稀疏编码的方式，对第一HOG特征集合获取单元得到的训练视频的HOG特征集合进行特征编码，得到第一稀疏向量集合，第一稀疏向量集合中每个向量的维度与“超完备”基向量的维度相同，对第一稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的向量，作为训练视频的编码结果，用训练视频的编码结果来表达训练视频中的人体动作；

所述训练模型生成单元用于：将第一编码单元得到的所有训练视频的编码结果送入支持向量机SVM分类器进行训练，生成训练模型；

所述视觉记忆库构建单元用于：使用第一编码单元得到的所有训练视频的编码结果，来构建视觉记忆库，视觉记忆库中存储的视频都未被遮挡；

所述第二HOG特征集合获取单元用于：对输入的待识别视频进行密集采样，将采样块上的HOG特征作为局部特征，得到待识别视频的HOG特征集合；

所述稀疏向量获取单元用于：结合”超完备”基向量获取单元得到的“超完备”基向量，采用稀疏编码的方式，对第二HOG特征集合获取单元得到的待识别视频的HOG特征集合进行特征编码，到得第二稀疏向量集合，第二稀疏向量集合中每个向量的维度与“超完备”基向量维度相同，对第二稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的稀疏向量；

所述第二编码单元用于：确定待识别视频中被遮挡的部位，用视觉记忆库中的检索结果替换待识别视频中被遮挡的部位，得到待识别视频的编码结果：以稀疏向量获取单元得到的稀疏向量为索引，在视觉记忆库中进行检索，将检索出的视频作为检索结果，用检索结果中视频的局部特征替换待识别视频中被遮挡部位的特征，得到经过替换后的视频的HOG特征集合，作为新的局部特征；用“超完备”基向量对该新的局部特征进行特征编码，得到新的稀疏向量，作为待识别视频的编码结果，用待识别视频的编码结果来表达待识别视频中的人体动作；

所述人体动作类别获取单元用于：将第二编码单元得到的待识别视频的编码结果送入训练模型进行测试，得到待识别视频中的人体动作类别。

在上述技术方案的基础上，所述第一HOG特征集合获取单元对每个训练视频分别进行密集采样的过程为：对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块。

在上述技术方案的基础上，所述视觉记忆库构建单元采用基于内容的视频检索***来模拟视觉记忆库。

在上述技术方案的基础上，所述第二编码单元确定待识别视频中被遮挡部位的具体过程为：计算待识别视频中每个局部采样块的图像熵，熵值低于预设阈值的局部采样块所在的部位就是被遮挡的部位，预设阈值在实验中确定。

与现有技术相比，本发明的优点如下：

本发明受人脑视觉记忆原理启发，首次提出以下技术方案：在训练阶段，使用局部特征的特征编码训练分类器模型，并使用该特征编码来构建视觉记忆库；在识别阶段，在视觉记忆库中检索待识别视频中局部特征的特征编码；用检索结果中视频的部分局部特征，替换待识别视频中被遮挡的信息，对替换后的视频的局部特征进行特征编码，并输入训练模型进行测试，获得视频中人体动作的类别。本发明能够从视频中区分人体动作的类别，能有效解决人体动作识别中的遮挡问题。

附图说明

图1是本发明实施例中基于人脑视觉记忆原理的人体动作识别方法的流程图。

图2是本发明实施例中模拟视觉记忆库检索的视频检索过程。

图3是本发明实施例中用视觉记忆库中的检索结果替换遮挡信息得到新稀疏向量的过程。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示，本发明实施例提供一种基于人脑视觉记忆原理的人体动作识别方法，包括以下步骤：

A、训练阶段：

A1、采集多个训练视频，对每个训练视频分别进行密集采样，将采样块上的HOG(Histogram of Oriented Gradients，方向梯度直方图)特征作为局部特征，得到训练视频的HOG特征集合；

对每个训练视频分别进行密集采样的过程为：对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块；局部采样块的尺寸为小于训练视频尺寸的任意尺寸，例如：局部采样块的尺寸为16×16×4像素；

A2、采用本领域技术人员公知的EM(Expectation Maximization，期望最大化)算法，对步骤A1得到的训练视频的HOG特征集合进行学习，得到一组“超完备”基向量；“超完备”基向量是现有技术，此处不赘述；

A4、将步骤A3得到的所有训练视频的编码结果送入SVM(Support VectorMachine，支持向量机)分类器进行训练，生成训练模型；

A5、使用步骤A3得到的所有训练视频的编码结果，来构建视觉记忆库。

参见图2所示，步骤A5中，可以采用CBVR(Content-Based Video Retrieval，基于内容的视频检索)***来模拟视觉记忆库，CBVR***是现有技术，此处不赘述。

首先，简单介绍一下人脑视觉记忆原理：

人脑视觉记忆的主要功能包括存储和联想，存储是指：将所看到的信息存储到人脑中；联想是指：通过看到的某些信息，回忆起存储在人脑中的以前看到的某些信息。

受人脑视觉记忆原理的启发，在人体动作识别这个任务中，可以认为人脑的视觉记忆库中存储的是视频的全部信息，联想功能则可以通过检索该视觉记忆库来完成，视频的特征编码可以作为索引来进行检索。假设视觉记忆库中存储的视频都未被遮挡。

采用CBVR***来模拟视觉记忆库时，人脑视觉记忆的存储功能和联想功能，分别对应CBVR***的两个阶段：特征数据库的形成和视频检索。

B、识别阶段：

确定待识别视频中被遮挡部位的具体过程为：计算待识别视频中每个局部采样块的图像熵，熵值低于预设阈值的局部采样块所在的部位就是被遮挡的部位，预设阈值在实验中确定；

参见图3所示，以步骤B2得到的稀疏向量为索引，在步骤A5构建的视觉记忆库中进行检索，将检索出的视频作为检索结果，用检索结果中视频的局部特征替换待识别视频中被遮挡部位的特征，得到经过替换后的视频的HOG特征集合，作为新的局部特征；用步骤A2得到的“超完备”基向量对该新的局部特征进行特征编码，得到新的稀疏向量，作为待识别视频的编码结果，用待识别视频的编码结果来表达待识别视频中的人体动作；

本发明实施例还提供一种基于人脑视觉记忆原理的人体动作识别***，包括第一HOG特征集合获取单元、“超完备”基向量获取单元、第一编码单元、训练模型生成单元、视觉记忆库构建单元、第二HOG特征集合获取单元、稀疏向量获取单元、第二编码单元、人体动作类别获取单元，其中：

第一HOG特征集合获取单元用于：采集多个训练视频，对每个训练视频分别进行密集采样，将采样块上的HOG(Histogram of Oriented Gradients，方向梯度直方图)特征作为局部特征，得到训练视频的HOG特征集合；对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块；局部采样块的尺寸为小于训练视频尺寸的任意尺寸，例如：局部采样块的尺寸取16×16×4像素；

“超完备”基向量获取单元用于：采用本领域技术人员公知的EM(ExpectationMaximization，期望最大化)算法，对第一HOG特征集合获取单元得到的训练视频的HOG特征集合进行学习，得到一组“超完备”基向量；“超完备”基向量是现有技术，此处不赘述；

第一编码单元用于：结合“超完备”基向量，采用稀疏编码的方式，对第一HOG特征集合获取单元得到的训练视频的HOG特征集合进行特征编码，得到第一稀疏向量集合，第一稀疏向量集合中每个向量的维度与“超完备”基向量的维度相同，对第一稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的向量，作为训练视频的编码结果，用训练视频的编码结果来表达训练视频中的人体动作；

训练模型生成单元用于：将第一编码单元得到的所有训练视频的编码结果送入SVM(Support Vector Machine，支持向量机)分类器进行训练，生成训练模型；

视觉记忆库构建单元用于：使用第一编码单元得到的所有训练视频的编码结果，来构建视觉记忆库；

参见图2所示，视觉记忆库构建单元可以采用CBVR(Content-Based VideoRetrieval，基于内容的视频检索)***来模拟视觉记忆库，CBVR***是现有技术，此处不赘述；

第二HOG特征集合获取单元用于：对输入的待识别视频进行密集采样，将采样块上的HOG特征作为局部特征，得到待识别视频的HOG特征集合；

稀疏向量获取单元用于：结合”超完备”基向量获取单元得到的“超完备”基向量，采用稀疏编码的方式，对第二HOG特征集合获取单元得到的待识别视频的HOG特征集合进行特征编码，到得第二稀疏向量集合，第二稀疏向量集合中每个向量的维度与“超完备”基向量维度相同，对第二稀疏向量集合中的全部稀疏向量进行求和运算，再进行归一化，得到一个维度与“超完备”基向量维度相同的稀疏向量；

第二编码单元用于：确定待识别视频中被遮挡的部位，用视觉记忆库中的检索结果替换待识别视频中被遮挡的部位，得到待识别视频的编码结果；

参见图3所示，以稀疏向量获取单元得到的稀疏向量为索引，在视觉记忆库中进行检索，将检索出的视频作为检索结果，用检索结果中视频的局部特征替换待识别视频中被遮挡部位的特征，得到经过替换后的视频的HOG特征集合，作为新的局部特征；用“超完备”基向量对该新的局部特征进行特征编码，得到新的稀疏向量，作为待识别视频的编码结果，用待识别视频的编码结果来表达待识别视频中的人体动作；

人体动作类别获取单元用于：将第二编码单元得到的待识别视频的编码结果送入训练模型进行测试，得到待识别视频中的人体动作类别。

本领域的技术人员可以对本发明实施例进行各种修改和变型，倘若这些修改和变型在本发明权利要求及其等同技术的范围之内，则这些修改和变型也在本发明的保护范围之内。

说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims

1.一种基于人脑视觉记忆原理的人体动作识别方法，其特征在于，包括以下步骤：

A、训练阶段：

B、识别阶段：

2.如权利要求1所述的基于人脑视觉记忆原理的人体动作识别方法，其特征在于：步骤A中，所述对每个训练视频分别进行密集采样的过程为：对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块。

3.如权利要求2所述的基于人脑视觉记忆原理的人体动作识别方法，其特征在于：所述局部采样块的尺寸为小于训练视频尺寸的任意尺寸。

4.如权利要求3所述的基于人脑视觉记忆原理的人体动作识别方法，其特征在于：所述局部采样块的尺寸为16×16×4像素。

5.如权利要求1所述的基于人脑视觉记忆原理的人体动作识别方法，其特征在于：步骤A5中，采用基于内容的视频检索***来模拟视觉记忆库。

6.如权利要求1至5中任一项所述的基于人脑视觉记忆原理的人体动作识别方法，其特征在于：步骤B3中确定待识别视频中被遮挡部位的具体过程为：计算待识别视频中每个局部采样块的图像熵，熵值低于预设阈值的局部采样块所在的部位就是被遮挡的部位，预设阈值在实验中确定。

7.一种基于人脑视觉记忆原理的人体动作识别***，其特征在于：包括第一HOG特征集合获取单元、“超完备”基向量获取单元、第一编码单元、训练模型生成单元、视觉记忆库构建单元、第二HOG特征集合获取单元、稀疏向量获取单元、第二编码单元、人体动作类别获取单元，其中：

8.如权利要求7所述的基于人脑视觉记忆原理的人体动作识别***，其特征在于：所述第一HOG特征集合获取单元对每个训练视频分别进行密集采样的过程为：对于单个训练视频，以密集采样点为中心，找到该训练视频的多个局部采样块。

9.如权利要求7所述的基于人脑视觉记忆原理的人体动作识别***，其特征在于：所述视觉记忆库构建单元采用基于内容的视频检索***来模拟视觉记忆库。

10.如权利要求7至9中任一项所述的基于人脑视觉记忆原理的人体动作识别***，其特征在于：所述第二编码单元确定待识别视频中被遮挡部位的具体过程为：计算待识别视频中每个局部采样块的图像熵，熵值低于预设阈值的局部采样块所在的部位就是被遮挡的部位，预设阈值在实验中确定。