KR20150065370A - Apparatus and method for recognizing human actions - Google Patents

Apparatus and method for recognizing human actions Download PDF

Info

Publication number
KR20150065370A
KR20150065370A KR1020130150614A KR20130150614A KR20150065370A KR 20150065370 A KR20150065370 A KR 20150065370A KR 1020130150614 A KR1020130150614 A KR 1020130150614A KR 20130150614 A KR20130150614 A KR 20130150614A KR 20150065370 A KR20150065370 A KR 20150065370A
Authority
KR
South Korea
Prior art keywords
unit
similarity
action
behavior
motion
Prior art date
Application number
KR1020130150614A
Other languages
Korean (ko)
Inventor
김도형
김재홍
김계경
윤영우
윤우한
윤호섭
이재연
지수영
조영조
반규대
박종현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130150614A priority Critical patent/KR20150065370A/en
Publication of KR20150065370A publication Critical patent/KR20150065370A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to an apparatus and a method for recognizing certain actions by a random person in front of a shooting device such as a camera. The apparatus for recognizing actions comprises: an image receiving unit continuously receiving depth images from a shooting device; a map producing unit producing a motion story map by using the continuous depth images received from the image receiving unit; a characteristic extracting unit extracting characteristics used for the action recognition about the motion story map produced at a specific point; a matching unit matching sub video characteristics of each registered action which is stored previously, with characteristics extracted from the characteristic extracting unit by sub video unit; a similarity output unit outputting similarity by using the result matched by the sub video unit; and a final action recognizing unit determining an action having the highest similarity as a final recognized action based on the similarity outputted by the similarity output unit.

Description

행동 인식 장치 및 그 방법{APPARATUS AND METHOD FOR RECOGNIZING HUMAN ACTIONS}[0001] APPARATUS AND METHOD FOR RECOGNIZING HUMAN ACTIONS [0002]

본 발명은 행동 인식 장치 및 그 방법에 관한 것으로, 특히 임의의 사람이 카메라와 같은 촬영장치 앞에서 취하는 일련의 행동을 인식하는 장치 및 그 방법에 관한 것이다.More particularly, the present invention relates to an apparatus and a method for recognizing a series of actions taken by a person in front of a photographing apparatus such as a camera.

촬영장치 예를 들어, 카메라가 획득한 비디오 영상에서 사람의 행동(action)을 인식하는 방법에 관한 연구는 오랫동안 수행되어 왔으며, 그 활용 분야 또한 다양하다.Photographing apparatuses For example, research on a method of recognizing human actions in a video image acquired by a camera has been performed for a long time, and its application fields are also various.

사람의 자세 및 행동에 관한 연구는 동영상(video)의 색인(indexing), 편집(editing), 검색(searching)등에 주로 활용되며, 침입, 배회, 폭행, 실신 등의 비정상적인 행동패턴을 인식하여 경고 메시지를 발생하는 CCTV 감시분야에서도 널리 활용되고 있다. 또한 마이크로소프트의 키넥트(Kinect)라는 저가의 3차원 카메라가 소개된 이후로 3D 영상에서 사람의 행동을 인식하려는 연구가 활발하게 진행되고 있다.Research on the attitude and behavior of a person is mainly used for indexing, editing, and searching of a video and recognizing an abnormal behavior pattern such as intrusion, roaming, assault, CCTV surveillance is also widely used. Since the introduction of a low-cost 3D camera called Microsoft's Kinect, research has been actively conducted to recognize human behavior in 3D images.

사람의 행동을 인식하려는 연구에 있어서 해결해야 하는 핵심문제는 크게 두가지로 요약될 수 있다. There are two main problems to be solved in the study of human behavior.

첫째, 동일한 행동에 대하여 사람마다 다른 다양한 행동 패턴을 가지고 있음에도 불구하고 어떻게 이 행동을 잘 인식할 수 있을 것인가라는 문제이다.First, it is a matter of how people can recognize this behavior even though they have different behavior patterns for each person.

예를 들어, 야구공을 던지는 행동을 인식하고자 할 때, 사람마다 각기 던지는 동작, 자세, 궤적 등의 패턴이 다를 수가 있다. 이러한 다양한 행동 패턴에도 불구하고 행동 인식 장치는 임의의 사람이 취하는 야구공을 던지는 행동을 인식 대상 리스트에 있는 다른 행동(예를 들어, 공을 치는 행동, 테니스 서브를 넣는 행동, 박수를 치는 행동 등)과 구별하여 잘 인식할 수 있어야 한다.For example, when trying to recognize the throwing action of a baseball, the pattern of each person's throwing motion, posture, and trajectory may be different. In spite of these various behavioral patterns, the behavior recognition device recognizes the action of throwing a baseball ball that an arbitrary person takes on other actions in the target list (for example, a ball action, a tennis serve action, ) And should be able to recognize it well.

둘째, 학습(또는 등록)된 데이터의 부족 문제이다.Second, there is a lack of learning (or registration) data.

행동 인식 장치가 특정 행동을 인식하고자 한다면, 사전에 그 행동이 어떠한 패턴을 가지는지 학습하는 단계를 반드시 거쳐야 한다. 즉, 야구공을 던지는 행동을 인식하려면, 공을 던지는 연속 영상(비디오)을 행동 인식 장치에 미리 제공해줘야 한다. 여러 사람이 행하는 다양한 행동 패턴을 많이 행동 인식 장치에 제공해줄수록 그 행동 인식 장치의 인식 능력은 증가한다If a behavior recognition device is to recognize a particular behavior, it must go through a step of learning how it behaves in advance. That is, in order to recognize the throwing action of a baseball, a continuous image (video) throwing a ball must be provided to the action recognition device in advance. The more action patterns that various people perform, the more they perceive the behavior recognition device

하지만, 행동 인식에 있어서 다양한 행동 비디오를 확보하기란 쉬운 일이 아니다. 예를 들어, 수화와 같이 대상 행동이 명확하게 정해져 있는 경우에는 비용을 들여 대용량의 행동 비디오 데이터베이스를 확보할 수도 있다. 하지만 공을 던지거나, 컵으로 물을 마시거나, 길을 가다가 넘어진다거나 하는 일상 행동들은 너무나 다양하여 그 대상을 미리 규정지을 수가 없기 때문에 대용량 행동 비디오를 미리 확보할 수가 없다.However, it is not easy to obtain various action videos in behavior recognition. For example, if the target behavior, such as sign language, is clearly defined, a high-capacity behavioral video database may be acquired at a cost. However, everyday actions such as throwing a ball, drinking a cup of water, or falling down the street are so diverse that we can not pre-qualify the target and can not get a high-capacity action video in advance.

일반적으로 인식 대상에 대한 행동 리스트는 행동 인식 장치를 사용하는 응용에 의하여 결정되므로, 행동 리스트에 행동은 용이하게 추가되거나 삭제될 수 있어야 한다. 많은 응용들은 간단하게 몇 개의 비디오만으로 학습을 하고 행동 인식이 잘 되기를 바랄 것이며, 다양한 학습 비디오를 수집하기 위한 비용을 감수하려 하지 않을 것이다. 더구나 어떠한 행동을 추가할 때마다 다양한 비디오를 수집한다는 것은 현실적으로 불가능하다.In general, a behavior list for a recognition target is determined by an application using a behavior recognition device, so that a behavior in a behavior list should be easily added or deleted. Many applications will simply want to learn a few videos and be well aware of their behavior, and will not want to pay for the cost of collecting various learning videos. Moreover, it is practically impossible to collect various videos whenever you add any action.

행동 인식 장치는 동일한 행동에 대한 다양한 행동 패턴 문제와 학습 데이터의 부족 문제를 효과적으로 해결할 수 있어야 한다. 많은 행동 인식 장치 및 방법들이 언급한 문제들을 해결하기 위하여 다양한 방법들을 시도하고 있다.The behavior recognition device should be able to effectively solve the problem of various behavior patterns and lack of learning data for the same behavior. Many behavior recognition devices and methods are attempting various methods to solve the problems mentioned.

예를 들어, 한국공개특허 제2013-0103213호는 감시 대상 지역에 대한 영상에 기초하여, 다중 객체의 움직임 중 비정상 군중 행동을 탐지 및 분석하는 기술에 관하여 기재하고 있다. For example, Korean Patent Laid-Open Publication No. 2013-0103213 discloses a technique for detecting and analyzing abnormal crowd behavior among movements of multiple objects based on images of a surveillance target area.

이와 같이, 종래의 행동 인식 방법은 연속된 영상으로 이루어진 하나의 행동 비디오가 입력되면, 비디오를 대표할 수 있는 하나의 특징 벡터를 추출한다. 다음, 복수개의 학습 비디오에 대하여 복수개의 학습용 특징 벡터를 추출하고 이를 SVM 이나 신경회로망 같은 통계적 방법으로 학습을 한다. 인식 단계에서도 같은 방법으로 인식 대상 행동 비디오에 대하여 하나의 특징 벡터를 추출하고 이를 학습된 분류기에 입력하여 최종 인식 결과를 산출한다.As described above, in the conventional behavior recognition method, when one action video composed of consecutive images is input, one feature vector representative of the video is extracted. Next, a plurality of learning feature vectors are extracted for a plurality of learning videos, and the learning is performed by statistical methods such as SVM or neural network. In the recognition step, one feature vector is extracted from the motion vector of the recognition target in the same manner and input to the learned sorter to calculate the final recognition result.

또 다른 방법은 하나의 행동 비디오가 입력되면, 이 행동을 구성하는 대표적인 몇 개의 핵심 자세(key posture)들을 추출하고, 이 추출된 자세들이 시간의 경과에 따라 다음 자세로 어떠한 확률로 변해가는지를 확률모델을 사용하여 학습을 한다. 인식 시에도 추출된 핵심 자세들의 자세 전이상태가 확률 값으로 산출되며 가장 높은 확률 값을 갖는 학습 행동이 최종인식 결과로 산출된다.Another method is to extract several representative key postures that constitute this behavior when a single action video is input and then determine the probability that the extracted postures change to the next posture over time Use the model to learn. In recognition, the posture transition state of the extracted core postures is calculated as a probability value, and the learning behavior having the highest probability value is calculated as the final recognition result.

이러한 종래의 행동 인식 방법은 앞에서 기재한 핵심문제를 해결하기 위하여 서로 다른 행동들의 구별에 용이한 좋은 특징을 추출하는 일에 초점을 두고 있다. 좋은 특징을 추출하는 것은 분명 문제 해결의 중요한 요소이다. 하지만, 학습된 행동과 등록된 행동을 어떻게 효과적으로 매칭하여 분류할 것인가 하는 문제 또한 매우 중요하다. This conventional behavior recognition method focuses on extracting good features that are easy to distinguish between different behaviors in order to solve the core problem described above. Extracting good features is certainly an important element of problem solving. However, it is also very important to know how to effectively classify and classify learned and registered behaviors.

본 발명의 목적은 임의의 사람이 카메라와 같은 촬영장치 앞에서 취하는 일련의 행동을 인식하는 장치 및 그 방법을 제공하는 것이다.An object of the present invention is to provide an apparatus and a method for recognizing a series of actions taken by a person in front of a photographing apparatus such as a camera.

상기한 목적을 달성하기 위한 본 발명에 따른 행동 인식 장치는 According to an aspect of the present invention,

촬영 장치로부터 깊이 영상을 지속적으로 수신하는 영상 수신부; 상기 영상 수신부에서 수신하는 연속된 깊이 영상들을 이용하여 모션 스토리 맵을 생성하는 맵 생성부; 특정 시점에 생성된 모션 스토리 맵에 대해서 행동 인식에 사용되는 특징을 추출하는 특징 추출부; 상기 특징 추출부에서 추출한 특징과, 이전에 저장된 각 등록 행동들의 서브 비디오 특징을 서브 비디오 단위로 매칭하는 매칭부; 상기 서브 비디오 단위로 매칭한 결과를 이용하여 유사도를 산출하는 유사도 산출부; 및An image receiving unit for continuously receiving a depth image from a photographing apparatus; A map generator for generating a motion story map using continuous depth images received by the image receiver; A feature extraction unit for extracting features used in behavior recognition for a motion story map generated at a specific time; A matching unit for matching a feature extracted by the feature extraction unit and a sub video feature of each previously registered stored action in a sub video unit; A similarity calculation unit for calculating a similarity using the result matched in the sub video unit; And

상기 유사도를 산출부에서 산출한 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정하는 최종 행동 인식부를 포함한다.And a final behavior recognition unit for determining the behavior having the greatest similarity among the similarities calculated by the calculation unit as the final recognition action.

본 발명에 따르면, 행동 인식 장치 및 그 방법은 사람의 행동을 인식함에 있어서, 동일한 행동에서의 행동 패턴의 다양성 및 학습 데이터의 부족으로 인해 발생할 수 있는 인식률 저하 문제를 효과적으로 해결하고, 궁극적으로 행동 인식률을 향상 시킬 수 있다. According to the present invention, a behavior recognition apparatus and method thereof can effectively solve a problem of low recognition rate that can occur due to diversity of behavior patterns and lack of learning data in the same behavior in recognizing human behavior, and ultimately, Can be improved.

또한, 본 발명은 좋은 특징 추출에 중점을 두고 있던 종래의 기술들과 다르게 학습된 행동과 인식 대상 행동을 서브 비디오 단위로 효과적으로 매칭하여 분류하는 방법에 초점을 두고 있으므로, 종래의 특징 추출 방법들과의 결합이 용이하며, 효과적으로 융합될 경우 행동 인식 장치의 성능 개선 폭을 배가시킬 수 있다.In addition, since the present invention focuses on a method for efficiently classifying and matching the learned behaviors and the target behaviors in a sub video unit differently from the conventional techniques emphasizing good feature extraction, It is possible to double the performance improvement range of the behavior recognition apparatus when the fusion is effectively performed.

도 1은 본 발명의 실시예에 따른 행동 인식 장치가 적용되는 환경을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타내는 구성도이다.
도 3은 바닥에 있는 물건을 주워서 던지는 행동에 대한 유사도를 산출하는 방법을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 행동 인식 장치에서 수신하는 깊이 영상을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 행동 인식 장치에서 생성하는 모션 히스토리 맵을 나타내는 도면이다.
도 6은 본 발명의 실시예에 따른 행동 인식 방법을 나타내는 흐름도이다.
1 is a diagram illustrating an environment in which a behavior recognition apparatus according to an embodiment of the present invention is applied.
2 is a block diagram schematically showing a behavior recognition apparatus according to an embodiment of the present invention.
FIG. 3 is a diagram showing a method of calculating the degree of similarity to picking and throwing objects on the floor.
4 is a view showing a depth image received by a behavior recognition apparatus according to an embodiment of the present invention.
5 is a diagram illustrating a motion history map generated by a behavior recognition apparatus according to an embodiment of the present invention.
6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.The present invention will now be described in detail with reference to the accompanying drawings. Hereinafter, a repeated description, a known function that may obscure the gist of the present invention, and a detailed description of the configuration will be omitted. Embodiments of the present invention are provided to more fully describe the present invention to those skilled in the art. Accordingly, the shapes and sizes of the elements in the drawings and the like can be exaggerated for clarity.

이하, 본 발명에 따른 바람직한 실시예 따른 행동 인식 장치 및 그 방법에 대하여 첨부한 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT A behavioral recognition apparatus and method according to a preferred embodiment of the present invention will now be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 행동 인식 장치가 적용되는 환경을 나타내는 도면이고, 도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타내는 구성도이다. 또한, 도 3은 본 발명의 실시예에 따른 행동 인식 장치를 설명하는데 필요한 참고도이다. FIG. 1 is a diagram showing an environment in which a behavior recognition apparatus according to an embodiment of the present invention is applied, and FIG. 2 is a configuration diagram schematically showing a behavior recognition apparatus according to an embodiment of the present invention. 3 is a reference diagram necessary for explaining a behavior recognition apparatus according to an embodiment of the present invention.

도 1을 참고하면, 본 발명의 실시예에 따른 행동 인식 장치(200)는 인식 대상을 촬영하는 촬영 장치(100)와 연동하여 동작한다. 여기서, 촬영 장치(100)는 3D 카메라일 수 있으며, 이에 한정되지 않는다. Referring to FIG. 1, a behavior recognition apparatus 200 according to an embodiment of the present invention operates in cooperation with a photographing apparatus 100 that photographs an object to be recognized. Here, the photographing apparatus 100 may be a 3D camera, but is not limited thereto.

도 2를 참고하면, 행동 인식 장치(200)는 영상 수신부(210), 맵 생성부(220), 특징 추출부(230), 매칭부(240), 모델 저장부(250), 유사도 산출부(260) 및 최종 행동 인식부(270)를 포함한다. 2, the behavior recognition apparatus 200 includes an image receiving unit 210, a map generating unit 220, a feature extracting unit 230, a matching unit 240, a model storing unit 250, a similarity calculating unit 260 and a final behavior recognition unit 270.

영상 수신부(210)는 촬영 장치(100)로부터 깊이 영상을 지속적으로 수신한다. The image receiving unit 210 continuously receives the depth image from the photographing apparatus 100.

맵 생성부(220)는 영상 수신부(210)가 수신하는 연속된 깊이 영상들을 이용하여 모션 스토리 맵(motion history map, MHM)을 생성한다. 여기서, 모션 스토리 맵(MHM)은 인접한 깊이 영상 사이에서 깊이 값의 변화(= 모션)가 발생한 픽셀을 발생한 시간 정보와 함께 표시한 맵에 해당하는 것으로, 수학식 1과 같이 나타낸다. The map generating unit 220 generates a motion history map (MHM) using the continuous depth images received by the image receiving unit 210. Here, the motion story map MHM corresponds to a map in which a pixel in which a change in depth value (= motion) occurs between adjacent depth images together with time information on the generated depth map, is expressed as Equation (1).

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

수학식 1을 참고하면, MHM(i,j,t)는 t시점에서의 (i,j) 이미지 좌표에서 모션 히스토리 값이다. 또한, D(i,j,t)는 t시점에서의 (i,j) 이미지 좌표에서 깊이값이다. Referring to Equation (1), MHM (i, j, t) is a motion history value in the (i, j) image coordinates at time t. Also, D (i, j, t) is the depth value at the (i, j) image coordinates at time t.

수학식 1은 (i,j) 픽셀에서의 인접한 깊이 영상 간의 깊이 값의 차가 모션 발생 임계치(δ)보다 크면 모션 히스토리 값으로 τ를 할당하고, 그렇지 않으면 이전 모션 히스토리 값에서 1을 뺀값과 0 중에서 큰 값을 할당하는 것을 나타내고 있다. 여기서, τ는 t시점에서 모션 히스토리 맵을 생성할 때 필요한 이전 프레임의 수 즉, 서브 비디오의 크기를 의미한다. Equation (1) assigns τ to the motion history value if the difference between the depth values of the adjacent depth images in the (i, j) pixel is greater than the motion occurrence threshold δ, otherwise, τ is subtracted from the previous motion history value and 0 And a large value is assigned. Here, τ denotes the number of previous frames required to generate the motion history map at time t, that is, the size of the sub video.

예를 들어, 도 4는 영상 수신부(210)에서 수신한 깊이 영상에 해당한다. 즉, 맵 생성부(220)는 도 4와 같은 깊이 영상을 수학식 1에 적용함으로써, 도 5와 같은 모션 히스토리 맵을 생성할 수 있다. For example, FIG. 4 corresponds to the depth image received by the image receiving unit 210. That is, the map generator 220 can generate the motion history map shown in FIG. 5 by applying the depth image shown in FIG. 4 to Equation (1).

도 5를 참고하면, 최근에 모션이 발생한 픽셀일수록 더 밝게 표시되며, 이전에 모션이 발생했던 픽셀에서 다시 모션이 발생하지 않으면(다음 프레임이 더 입력될 수록) 점점 더 어둡게 표시된다. 또한, 모션이 아예 발생하지 않았거나, 모션이 발생한 후 τ만큼의 프레임이 더 입력되어도 같은 위치에서 모션이 발생하지 않게 되면 결국 0으로 표시된다. Referring to FIG. 5, a pixel in which a motion has recently occurred is displayed brighter and a pixel in which a motion has previously occurred is not displayed again (as the next frame is further input). In addition, if no motion occurs at all, or if motion is generated at the same position even if more frames than τ are input after motion occurs, it is displayed as 0 in the end.

특징 추출부(230)는 특정 시점(t)에 생성된 모션 히스토리 맵(MHM)에 대해서 행동인식에 적합한 특징을 추출한다. 특징 추출부(230)에서 추출된 특징은 모션 히스토리 맵(MHM)을 생성하는데 사용된 τ개의 이전 프레임으로 구성된 서브 비디오를 대표하는 특징에 해당한다. The feature extraction unit 230 extracts features suitable for behavior recognition for the motion history map (MHM) generated at the specific time t. The feature extracted by the feature extraction unit 230 corresponds to a feature representative of a sub-video composed of τ previous frames used to generate a motion history map (MHM).

매칭부(240)는 특징 추출부(230)에서 추출된 특징과 모델 저장부(250)에 저장된 각 등록 행동들의 서브 비디오 특징을 서브 비디오 단위로 매칭한다. The matching unit 240 matches the features extracted by the feature extraction unit 230 and the sub-video characteristics of the respective registered actions stored in the model storage unit 250 on a sub video basis.

예를 들어, 도 3과 같은 바닥에 있는 물건을 주워서 던지는 행동(Pickup&Throw)이 미리 학습되어 모델 저장부(250)에 등록되어 있는 상태에서, 매칭부(240)는 질의 비디오가 입력되었을 경우에, 질의 비디오에 대응하는 특징과 모델 저장부(250)에 저장된 등록 비디오 1, 등록 비디오 2, 등록 비디오 3, ......매칭한다. For example, in a state in which Pickup & Throw is picked up on the floor as shown in FIG. 3 and is previously learned and registered in the model storage unit 250, when the query video is input, Registered video 1, registered video 2, registered video 3, ... stored in the model storage unit 250 are matched with the feature corresponding to the query video.

도 3과 같은 바닥에 있는 물건을 주워서 던지는 행동(Pickup&Throw)은 각기 다른 사람들이 수행하여 같은 행동이라고 하더라도 다양한 행동 패턴을 보이고 있따. 또한, 3개의 등록 비디오 만으로 학습을 수행하였기 때문에 학습데이터가 매우 부족한 상태이다. Pickup & Throw on the floor as shown in FIG. 3 shows different behavior patterns, even though different people perform the same action. In addition, since the learning is performed with only three registered videos, the learning data is in a very insufficient state.

이와 같은 경우, 종래의 방법들은 3개의 학습 비디오에서 추출된 특징 벡터와 질의 비디오에서 추출된 특징 벡터를 비교하여 유사도를 산출한다. 즉, 입력된 질의 비디오와 3개의 등록 비디오를 비디오 단위로 각각 비교하여 3개의 유사도(도 3의 SMPT1, SMPT2, SMPT3)를 산출한다. 만약, 모델 저장부에 총 M개의 행동이 각각 3개씩의 학습 비디오를 가지고 있다고 가정하면, 종래에는 총 Mx3회의 비디오간 매칭을 수행하여, Mx3개의 유사도를 산출하고, 이들 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식된 행동으로 결정하였다. In this case, the conventional methods compare the feature vectors extracted from the three learning videos and the feature vectors extracted from the query video to calculate the similarity. That is, the inputted query video is compared with the three registered videos in video units to calculate three similarities (SM PT1 , SM PT2 , and SM PT3 in FIG. 3). Assuming that all the M actions in the model storage unit have three learning videos, conventionally, Mx3 matching is performed for a total of Mx3 videos to calculate Mx3 similarities, The behavior was determined as the final recognized behavior.

그러나, 본 발명의 실시예에 따른 행동 인식 장치(200)의 매칭부(240)는 앞에서 설명한 종래의 방법과 다르게 서브 비디오 단위로 비교를 수행한다. However, the matching unit 240 of the behavior recognition apparatus 200 according to the embodiment of the present invention performs comparison on a sub video basis differently from the conventional method described above.

유사도 산출부(260)는 매칭부(240)에서 매칭한 결과 즉, 서브 비디오 단위로 특징 추출부(230)에서 추출된 특징과 모델 저장부(250)에 저장된 각 등록 행동들의 서브 비디오 특징을 비교한 결과를 이용하여 유사도를 측정한다. 이때, 유사도 산출부(260)는 서브 비디오 특징간의 매징을 위하여 다양한 거리 측정자 및 유사도 산출자를 적용할 수 있으며, 이에 한정되지 않는다. The similarity calculation unit 260 compares the feature extracted by the feature extraction unit 230 with the sub video feature of each registered behavior stored in the model storage unit 250 as a result of matching in the matching unit 240 The similarity is measured using one result. At this time, the similarity calculating unit 260 may apply various distance measurers and similarity calculators for the purpose of mapping between sub-video features, but the present invention is not limited thereto.

도 3을 참고하면, 서브 비디오에서 산출된 유사도의 합(smpt1+smpt2+smpt3)을 질의 행동과 등록된 행동 사이의 최종 유사도 SMPT로 취한다. Referring to FIG. 3, the sum of similarities (sm pt1 + sm pt2 + sm pt3 ) calculated in the sub video is taken as the final similarity SM PT between the query action and the registered action.

최종 행동 인식부(270)는 유사도 산출부(260)에서 산출한 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정한다. The final action recognition unit 270 determines the action having the greatest similarity among the similarities calculated by the similarity calculation unit 260 as the final recognition action.

따라서, 유사도 산출부(260)에서는 M개의 행동이 등록된 경우에 총 M개의 유사도를 산출하고, 최종 행동 인식부(270)에서는 유사도 산출부(260)에서 산출한 M개의 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정할 수 있다.Accordingly, the similarity calculating unit 260 calculates a total of M similarities when M actions are registered, and the final behavior recognizing unit 270 calculates the similarity among the M similarities calculated by the similarity calculating unit 260 The behavior can be determined by the final recognition action.

다음, 임의의 사람이 카메라와 같은 촬영장치 앞에서 취하는 일련의 행동을 인식하는 방법을 도 6을 참조하여 상세하게 설명한다.Next, a method of recognizing a series of actions taken by an arbitrary person in front of a photographing apparatus such as a camera will be described in detail with reference to FIG.

도 6은 본 발명의 실시예에 따른 행동 인식 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.

도 6을 참고하면, 행동 인식 장치(200)는 촬영 장치(100)로부터 깊이 영상을 지속적으로 수신한다(S100). 여기서, 깊이 영상은 도 4와 같은 영상이다. Referring to FIG. 6, the behavior recognition apparatus 200 continuously receives a depth image from the photographing apparatus 100 (S100). Here, the depth image is the image shown in FIG.

행동 인식 장치(200)는 S100 단계에서 수신한 연속된 깊이 영상들을 이용하여 모션 스토리 맵(motion history map, MHM)을 생성한다(S200). 여기서, 모션 스토리 맵(MHM)은 인접한 깊이 영상 사이에서 깊이 값의 변화(= 모션)가 발생한 픽셀을 발생한 시간 정보와 함께 표시한 맵에 해당한다. 또한, 모션 스토리 맵은 수학식 1과 같다. The behavior recognition apparatus 200 generates a motion history map (MHM) using the continuous depth images received in step S100 (S200). Here, the motion story map MHM corresponds to a map in which a pixel in which a change in depth value (= motion) occurs between adjacent depth images, together with time information in which the generated depth information is generated. Also, the motion story map is expressed by Equation (1).

행동 인식 장치(200)는 특정 시점(t)에 생성된 모션 히스토리 맵(MHM)에 대해서 행동인식에 적합한 특징을 추출한다(S300). 여기서, 추출된 특징은 모션 히스토리 맵(MHM)을 생성하는데 사용된 τ개의 이전 프레임으로 구성된 서브 비디오를 대표하는 특징에 대응한다. The behavior recognition apparatus 200 extracts a feature suitable for behavior recognition for a motion history map (MHM) generated at a specific time t (S300). Here, the extracted feature corresponds to a feature representing a sub-video consisting of τ previous frames used to generate a motion history map (MHM).

행동 인식 장치(200)는 이전에 저장된 각 등록 행동들의 서브 비디오 특징을 추출한다(S400). The behavior recognition apparatus 200 extracts the sub video characteristics of each of the previously stored registration actions (S400).

행동 인식 장치(200)는 S300 단계에서 추출한 특징과, S400 단계에서 추출한 서브 비디오 특징을 서브 비디오 단위로 매칭한다(S500).The behavior recognition apparatus 200 matches the feature extracted in operation S300 and the sub-video feature extracted in operation S400 (S500).

행동 인식 장치(200)는 S500 단계에서 서브 비디오 단위로 매칭한 결과를 토대로 유사도를 산출한다(S600).In step S600, the behavior recognition apparatus 200 calculates a degree of similarity based on a result of matching in sub video units.

행동 인식 장치(200)는 S600 단계에서 산출한 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정한다. The behavior recognition apparatus 200 determines the action having the greatest similarity among the similarities calculated in step S600 as the final recognition action.

즉, 행동 인식 장치(200)는 M개의 행동이 등록된 경우에 총 M개의 유사도를 산출하고, 산출한 M개의 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정할 수 있다.That is, the behavior recognition apparatus 200 may calculate M total similarities when M actions are registered, and determine the final recognition action as the action having the greatest similarity among the calculated M similarities.

이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, an optimal embodiment has been disclosed in the drawings and specification. Although specific terms have been employed herein, they are used for purposes of illustration only and are not intended to limit the scope of the invention as defined in the claims or the claims. Therefore, those skilled in the art will appreciate that various modifications and equivalent embodiments are possible without departing from the scope of the present invention. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

100; 촬영 장치 200; 행동 인식 장치
210; 영상 수신부 220; 맵 생성부
230; 특징 추출부 240; 매칭부
250; 모델 저장부 260; 유사도 산출부
270; 최종 행동 인식부
100; A photographing apparatus 200; Behavior recognition device
210; An image receiving unit 220; The map-
230; A feature extraction unit 240; The matching unit
250; Model storage 260; The similarity-
270; Finally,

Claims (1)

촬영 장치로부터 깊이 영상을 지속적으로 수신하는 영상 수신부;
상기 영상 수신부에서 수신하는 연속된 깊이 영상들을 이용하여 모션 스토리 맵을 생성하는 맵 생성부;
특정 시점에 생성된 모션 스토리 맵에 대해서 행동 인식에 사용되는 특징을 추출하는 특징 추출부;
상기 특징 추출부에서 추출한 특징과, 이전에 저장된 각 등록 행동들의 서브 비디오 특징을 서브 비디오 단위로 매칭하는 매칭부;
상기 서브 비디오 단위로 매칭한 결과를 이용하여 유사도를 산출하는 유사도 산출부; 및
상기 유사도를 산출부에서 산출한 유사도 중에서 가장 큰 유사도를 가지는 행동을 최종 인식 행동으로 결정하는 최종 행동 인식부
를 포함하는 행동 인식 장치.
An image receiving unit for continuously receiving a depth image from a photographing apparatus;
A map generator for generating a motion story map using continuous depth images received by the image receiver;
A feature extraction unit for extracting features used in behavior recognition for a motion story map generated at a specific time;
A matching unit for matching a feature extracted by the feature extraction unit and a sub video feature of each previously registered stored action in a sub video unit;
A similarity calculation unit for calculating a similarity using the result matched in the sub video unit; And
A final behavior recognition unit for determining a behavior having the greatest similarity among the similarities calculated by the calculation unit as the final recognition action,
The behavior recognition apparatus comprising:
KR1020130150614A 2013-12-05 2013-12-05 Apparatus and method for recognizing human actions KR20150065370A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130150614A KR20150065370A (en) 2013-12-05 2013-12-05 Apparatus and method for recognizing human actions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130150614A KR20150065370A (en) 2013-12-05 2013-12-05 Apparatus and method for recognizing human actions

Publications (1)

Publication Number Publication Date
KR20150065370A true KR20150065370A (en) 2015-06-15

Family

ID=53504303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130150614A KR20150065370A (en) 2013-12-05 2013-12-05 Apparatus and method for recognizing human actions

Country Status (1)

Country Link
KR (1) KR20150065370A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508698A (en) * 2018-12-19 2019-03-22 中山大学 A kind of Human bodys' response method based on binary tree
KR102127276B1 (en) * 2018-12-11 2020-06-26 주식회사 인텔리빅스 The System and Method for Panoramic Video Surveillance with Multiple High-Resolution Video Cameras
WO2020196985A1 (en) * 2019-03-27 2020-10-01 연세대학교 산학협력단 Apparatus and method for video action recognition and action section detection
KR20200119386A (en) * 2019-03-26 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity area in video
KR20210040604A (en) * 2019-10-04 2021-04-14 광주과학기술원 Action recognition method and device
KR102309111B1 (en) * 2020-11-27 2021-10-06 가천대학교 산학협력단 Ststem and method for detecting abnomalous behavior based deep learning

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102127276B1 (en) * 2018-12-11 2020-06-26 주식회사 인텔리빅스 The System and Method for Panoramic Video Surveillance with Multiple High-Resolution Video Cameras
CN109508698A (en) * 2018-12-19 2019-03-22 中山大学 A kind of Human bodys' response method based on binary tree
CN109508698B (en) * 2018-12-19 2023-01-10 中山大学 Human behavior recognition method based on binary tree
KR20200119386A (en) * 2019-03-26 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity area in video
WO2020196985A1 (en) * 2019-03-27 2020-10-01 연세대학교 산학협력단 Apparatus and method for video action recognition and action section detection
KR20200119391A (en) * 2019-03-27 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity duration in video
KR20210040604A (en) * 2019-10-04 2021-04-14 광주과학기술원 Action recognition method and device
KR102309111B1 (en) * 2020-11-27 2021-10-06 가천대학교 산학협력단 Ststem and method for detecting abnomalous behavior based deep learning

Similar Documents

Publication Publication Date Title
CN111291633B (en) Real-time pedestrian re-identification method and device
Martinel et al. Re-identify people in wide area camera network
TWI508003B (en) Object matching for tracking, indexing, and search
KR20150065370A (en) Apparatus and method for recognizing human actions
Ardeshir et al. Ego2top: Matching viewers in egocentric and top-view videos
CN111402294A (en) Target tracking method, target tracking device, computer-readable storage medium and computer equipment
CN110796074B (en) Pedestrian re-identification method based on space-time data fusion
JP6397379B2 (en) CHANGE AREA DETECTION DEVICE, METHOD, AND PROGRAM
Barnich et al. Frontal-view gait recognition by intra-and inter-frame rectangle size distribution
CN112989889B (en) Gait recognition method based on gesture guidance
CN111242077A (en) Figure tracking method, system and server
Afsar et al. Automatic human action recognition from video using hidden markov model
CN114359976A (en) Intelligent security method and device based on person identification
Colantonio et al. Object tracking in a stereo and infrared vision system
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
CN111626212B (en) Method and device for identifying object in picture, storage medium and electronic device
JP7195892B2 (en) Coordinate transformation matrix estimation method and computer program
CN109858308B (en) Video retrieval device, video retrieval method, and storage medium
Takač et al. People identification for domestic non-overlapping rgb-d camera networks
CN114387612A (en) Human body weight recognition method and device based on bimodal feature fusion network
JP6981553B2 (en) Identification system, model provision method and model provision program
Lee A smart camera network with SVM classifiers for crowd event recognition
Tahir et al. Low-cost multi-camera object matching
Latecki et al. Using spatiotemporal blocks to reduce the uncertainty in detecting and tracking moving objects in video
Wei et al. Person re-identification with spatial appearance group feature

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid