KR20170070298A - Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model - Google Patents

Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model Download PDF

Info

Publication number
KR20170070298A
KR20170070298A KR1020150176637A KR20150176637A KR20170070298A KR 20170070298 A KR20170070298 A KR 20170070298A KR 1020150176637 A KR1020150176637 A KR 1020150176637A KR 20150176637 A KR20150176637 A KR 20150176637A KR 20170070298 A KR20170070298 A KR 20170070298A
Authority
KR
South Korea
Prior art keywords
behavior
user
main surface
input image
unit
Prior art date
Application number
KR1020150176637A
Other languages
Korean (ko)
Other versions
KR101758693B1 (en
Inventor
변혜란
임광용
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020150176637A priority Critical patent/KR101758693B1/en
Priority to PCT/KR2016/000730 priority patent/WO2017099292A1/en
Publication of KR20170070298A publication Critical patent/KR20170070298A/en
Application granted granted Critical
Publication of KR101758693B1 publication Critical patent/KR101758693B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06K9/00335
    • G06K9/00624
    • G06K9/6202
    • G06K9/6218

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다.
본 발명에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.
The present invention relates to a method and apparatus for recognizing a user's behavior in an image.
A behavior recognition apparatus according to the present invention includes: a main surface extracting unit for extracting at least one major surface from an input image; An action list setting unit for recognizing the meaning of the extracted main surface and setting a list of possible actions for each extracted main surface according to the recognized meaning of the main surface; And a behavior recognition unit for selecting the main surface corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected main surface.

Description

물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치{Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model}Field of the Invention < RTI ID = 0.0 > [0006] < / RTI &

본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for recognizing a user's behavior in an image.

전통적으로 장치가 사용자의 입력을 수신하기 위하여 키보드나 마우스 또는 터치 패드와 같은 인터페이스를 사용하여 왔으나, 보다 직관적이고 편리한 사용자 입력 수신을 위하여 음성이나 영상을 인식하는 기술들이 개발되어 사용되고 있다.Conventionally, a device has used an interface such as a keyboard, a mouse, or a touch pad to receive a user's input. However, techniques for recognizing a voice or an image for developing a more intuitive and convenient user input have been developed and used.

특히 촬영된 영상에서 사용자의 동작과 자세를 인식하여 사용자의 행동의 의미를 인식하는 기술이 널리 연구되고 있다. 예를 들면 센서 또는 카메라를 이용하여 사람의 신체 골격(Skeleton)을 검출하고, 관절의 이동 궤적을 분석하여 사용자의 행동 및 제스처를 인식하는 기술이 개발되어 사용되고 있다. 그리고 이와 같은 기존의 사용자 행동 인식 방법들은 주로 사용자의 동작을 보다 정확하게 분석하여 행동을 인식하려는 노력을 기울여 왔다.Particularly, a technique of recognizing the motion and the attitude of the user in the photographed image and recognizing the meaning of the behavior of the user is widely studied. For example, a technology has been developed and used to detect a skeleton of a person using a sensor or a camera, and to analyze a movement trajectory of a joint to recognize a user's behavior and a gesture. In addition, the existing user behavior recognition methods have mainly made efforts to recognize actions by analyzing the actions of users more accurately.

그러나 단순히 영상 내에 포함된 정보만을 이용하여 사용자의 행동을 인식하는 방식은 인식 정확도에 있어서 한계가 있고, 잘못된 인식 결과가 출력될 가능성이 높다.However, the method of recognizing the user's behavior using only the information included in the image has a limitation in recognition accuracy, and there is a high possibility that a wrong recognition result is output.

(특허문헌 0001) 대한민국 공개특허공보 제2013-0005548호 (2013.01.16)(Patent Document 0001) Korean Patent Laid-Open Publication No. 2013-0005548 (2013.01.16)

본 발명은 미리 정의된 물체-행동 간의 관계 모델을 이용하여 영상에서의 사용자 행동 인식 성능을 향상시키는 방법과 그에 관한 장치를 제공하고자 한다. 본 발명은 사용자의 행동이 동일 또는 유사한 행동인 경우에도, 해당 행동이 발생하는 공간이나 장소 또는 행동에 관련된 물체의 종류에 따라, 그 의미가 다르다는 사실에 착안하여, 물체-행동 간의 관계 모델을 사전에 정의하고, 이를 이용하여 영상에서 검출된 사용자의 행동의 의미를 인식하는 행동 인식 장치 및 그에 관한 방법을 제공하고자 한다.The present invention provides a method and apparatus for improving user behavior recognition performance in a video using a predefined object-behavior relationship model. The present invention focuses on the fact that, even when the behavior of the user is the same or similar, the meaning is different depending on the space or place where the behavior occurs, or the type of object related to the behavior, And recognizing the meaning of the behavior of the user detected in the image using the same, and a method for the same.

상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 장치는, 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.According to an aspect of the present invention, there is provided a behavior recognition apparatus comprising: a main surface extracting unit for extracting at least one major surface from an input image; An action list setting unit for recognizing the meaning of the extracted main surface and setting a list of possible actions for each extracted main surface according to the recognized meaning of the main surface; And a behavior recognition unit for selecting the main surface corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected main surface.

일 실시예에 있어서 상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.In one embodiment, the principal plane extraction unit may extract at least one or more principal normal vectors from the input image and extract each region corresponding to the extracted principal vector from the input image as the principal plane.

일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함할 수 있다.In one embodiment, the main surface extracting unit may include a main normal vector extracting unit for calculating a local normal vector in the input image and determining the main normal vector among the calculated local normal vectors.

일 실시예에 있어서 상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.In one embodiment, the main normal vector extracting unit may calculate a normal vector in a local plane of the input image as the local normal vector, cluster the calculated local normal vector, and calculate the main normal vector Can be determined.

일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함할 수 있다.In one embodiment, the main surface extracting unit includes a surface extracting unit that collects pixels having the main normal vector from the input image, and clusters the collected pixels to extract the main surface corresponding to the main normal vector can do.

일 실시예에 있어서 상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함할 수 있다.In one embodiment, the behavior list setting unit receives the object recognition information including the location information of the object existing in the input image and the semantic information of the object, and stores the semantic information of the object corresponding to the location of the main surface And may include a main surface recognition unit for recognizing the meaning of the main surface.

일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함할 수 있다.In one embodiment, the behavior list setting unit searches the object corresponding to the meaning of the main surface in an object-behavior relationship model in which a relation between an object and behavior is predefined in advance, and transmits an action related to the searched object to the object- And a list setting unit that extracts from the relationship model and sets the behavior list of the major surface according to the extracted behavior.

일 실시예에 있어서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 할 수 있다.In one embodiment, the object-behavior relationship model is a model in which at least one or more behaviors related to the object are predefined for each of the at least one object.

일 실시예에 있어서 상기 물체 인식 장치는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함할 수 있다.In one embodiment, the object recognition apparatus may further include an object recognition unit for detecting and recognizing an object in the input image or the separate input image.

일 실시예에 있어서 상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.In one embodiment, the object recognizer sets position information in the input image of the detected object, and sets semantic information of the recognized object.

일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.In one embodiment, the behavior recognition unit may include a behavior position detection unit that detects a position where the user's behavior occurs in the input image; A main surface selection unit for selecting the main surface corresponding to a position where the behavior of the user occurs; And a user behavior recognition unit for recognizing the behavior of the user based on the behavior list of the selected main surface.

일 실시예에 있어서 상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.In one embodiment, the main surface selecting unit may select, from among the major surfaces extracted by the main surface extracting unit, the main surface located within a predetermined distance from a position where the user's action occurs.

일 실시예에 있어서 상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.In one embodiment, the user behavior recognition unit recognizes at least one candidate action by recognizing the user's action or attitude in the input image, and selects at least one candidate action among the determined candidate actions, And can recognize the behavior of the user.

상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.According to another aspect of the present invention, there is provided a behavior recognition apparatus including an object recognition unit for detecting and recognizing at least one object in an input image; An action list setting unit for setting an action list that can be generated with respect to the recognized object; And a behavior recognition unit for selecting the object corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected object.

일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.In one embodiment, the behavior list setting unit searches for an object corresponding to the recognized object in an object-behavior relationship model in which a relation between an object and behavior is defined in advance, and transmits an action related to the searched object to the object- Extracting from the model, and setting the behavior list of the object according to the extracted behavior.

일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.In one embodiment, the behavior recognition unit may include a behavior position detection unit that detects a position where the user's behavior occurs in the input image; An object selection unit for selecting the object corresponding to a position where the action of the user occurs; And a user behavior recognition unit for recognizing the behavior of the user based on the behavior list of the selected object.

일 실시예에 있어서 상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.In one embodiment, the object selection unit may select the object located within a predetermined distance from the position where the user's action occurred, among the objects of the input image.

일 실시예에 있어서 상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.In one embodiment, the user behavior recognition unit recognizes at least one candidate action by recognizing the user's action or attitude in the input image, and selects at least one candidate action among the determined candidate actions, And can recognize the behavior of the user.

상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 방법은 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.According to another aspect of the present invention, there is provided a behavior recognition method including: extracting at least one major surface from an input image; An action list setting step of recognizing the meaning of the extracted main surface and setting a list of possible actions for each extracted main surface according to the recognized meaning of the main surface; And a behavior recognition step of selecting the main surface corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected main surface.

상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 방법에 있어서, 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.According to an embodiment of the present invention, there is provided a behavior recognition method comprising: an object recognition step of detecting and recognizing at least one object in an input image; An action list setting step of setting an action list that can be generated with respect to the recognized object; And a behavior recognition step of selecting the object corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected object.

본 발명에 따른 행동 인식 장치 및 그 방법에 의하면 영상에서 사용자의 행동의 의미를 보다 정확하게 인식할 수 있는 효과가 있다.According to the behavior recognition apparatus and method of the present invention, the meaning of the behavior of the user in the image can be more accurately recognized.

도 1은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
도 2는 주요 면 추출부(200)의 세부 블록도이다.
도 3의 a 내지 d는 주요 면 추출부(200)의 동작을 설명하기 위한 참고도이다.
도 4는 행동 목록 설정부(300)의 세부 블록도이다.
도 5는 물체-행동 관계 그래프 모델을 나타내는 참고도이다.
도 6은 행동 인식부(400)의 세부 블록도이다.
도 7은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
도 8은 행동 인식부(3000)의 세부 블록도이다.
도 9는 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.
도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.
도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.
도 12는 행동 인식 단계(S400)의 세부 흐름도이다.
도 13은 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.
도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.
1 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.
2 is a detailed block diagram of the main surface extracting unit 200. As shown in FIG.
3 (a) to 3 (d) are reference views for explaining the operation of the main surface extracting unit 200. In FIG.
4 is a detailed block diagram of the behavior list setting unit 300. As shown in FIG.
5 is a reference diagram showing an object-behavior relationship graph model.
6 is a detailed block diagram of the behavior recognition unit 400. As shown in FIG.
7 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.
FIG. 8 is a detailed block diagram of the behavior recognition unit 3000. FIG.
9 is a flowchart of a behavior recognition method according to an embodiment of the present invention.
10 is a detailed flowchart of the main surface extracting step (S200).
11 is a detailed flowchart of the action list setting step (S300).
12 is a detailed flowchart of the behavior recognition step (S400).
13 is a flowchart of a behavior recognition method according to an embodiment of the present invention.
14 is a detailed flowchart of the behavior recognition step (S3000).

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the drawings, the same reference numerals are used to designate the same or similar components throughout the drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. In addition, the preferred embodiments of the present invention will be described below, but it is needless to say that the technical idea of the present invention is not limited thereto and can be variously modified by those skilled in the art.

본 발명의 일 실시예에 따른 행동 인식 장치는 주요 면 추출부(200), 행동 목록 설정부(300), 행동 인식부(400)를 포함할 수 있다. 여기서 필요에 따라 본 발명의 일 실시예에 따른 행동 인식 장치는 객체 인식부(100)를 더 포함할 수도 있다.The behavior recognition apparatus according to an embodiment of the present invention may include a main plane extraction unit 200, a behavior list setting unit 300, and a behavior recognition unit 400. Here, the behavior recognition apparatus according to an embodiment of the present invention may further include an object recognition unit 100 as needed.

여기서 본 발명에 따른 행동 인식 장치는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한 필요에 따라 각 구성요소들은 각각 하나의 독립적인 하드웨어로 구현되거나 각 하드웨어에 포함될 수도 있다. 또한 본 발명에 따른 행동 인식 장치는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 각종 프로세서, 칩(Chip), 반도체, 소자 등에 포함될 수 도 있다. 또한 본 발명에 따른 행동 인식 장치는 각종 임베디드 시스템 또는 디바이스 상에서 하드웨어 또는 소프트웨어 모듈의 형태로 포함되어 동작할 수 있다. 바람직하게는 본 발명에 따른 행동 인식 장치는 TV 디바이스, 노트북, 핸드폰에 포함되어 구현되거나, 또는 상기 장치들과 네트워크로 연결된 서버 장치에 포함되어 구현될 수 있다.Here, the behavior recognition apparatus according to the present invention may be implemented as a computer program having a program module that performs a part or all of the functions of a part or all of the constituent elements in a combination of one or a plurality of hardware. In addition, each component may be implemented as a single independent hardware or included in each hardware as needed. Further, the behavior recognition apparatus according to the present invention may be implemented as a software program and operate on a processor or a signal processing module, or may be implemented in hardware and be included in various processors, chips, semiconductors, devices, and the like. Also, the behavior recognition apparatus according to the present invention may be included in various embedded systems or devices and operated in the form of hardware or software modules. Preferably, the behavior recognition apparatus according to the present invention may be embodied in a TV device, a notebook computer, a mobile phone, or a server device connected to a network by the devices.

도 1은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.1 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.

주요 면 추출부(200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.The main surface extracting unit 200 extracts at least one major surface from the input image.

행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.The behavior list setting unit 300 recognizes the meaning of the extracted main surface and sets a list of possible actions for each extracted main surface according to the recognized meaning of the main surface.

행동 인식부(400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.The behavior recognition unit 400 selects the main surface corresponding to the position where the user's action occurred in the input image and recognizes the behavior of the user based on the behavior list of the selected main surface.

그리고 객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다.The object recognition unit 100 detects and recognizes the object from the input image or the separate input image.

먼저 객체 인식부(100)의 동작에 대하여 설명한다.First, the operation of the object recognition unit 100 will be described.

객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 일 실시예에 있어서 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 동일한 입력 영상에서 객체를 검출하고 인식할 수 있다. 또는 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 다른 별도의 입력 영상을 입력받고 위 별도의 입력 영상에서 객체를 검출하고 인식할 수 있다. 일 실시예에 따르면 주요 면 추출부(200) 및 행동 인식부(400)는 깊이 정보가 포함된 입력 영상을 입력받을 수 있고, 객체 인식부(100)는 2 차원의 단순 입력 영상을 입력받을 수 있다.The object recognition unit 100 detects and recognizes an object in the input image or the separate input image. In one embodiment, the object recognition unit 100 can detect and recognize an object in the same input image as the input image used by the principal plane extraction unit 200 and the behavior recognition unit 400. Alternatively, the object recognition unit 100 may receive an input image different from the input image used by the main plane extraction unit 200 and the behavior recognition unit 400, and may detect and recognize the object in the separate input image. According to one embodiment, the main surface extracting unit 200 and the behavior recognizing unit 400 can receive an input image including depth information, and the object recognizing unit 100 can receive a two-dimensional simple input image have.

여기서 객체 인식부(100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다. 일 실시예에 따르면 객체 인식부(100)는 검출한 객체의 위치를 입력 영상 내의 특정 좌표로 설정하여 상기 위치 정보를 설정할 수 있고, 인식한 객체의 의미에 따라 해당 위치 정보에 대응하는 의미 정보를 설정할 수 있다. 여기서 객체의 의미 정보란 검출한 객체가 어떠한 사물 또는 물체에 해당하는지에 관한 정보로, 예를 들면 '문', '의자', '테이블' 등이 될 수 있다.Here, the object recognition unit 100 may set the position information in the input image of the detected object and set the semantic information of the recognized object. According to one embodiment, the object recognition unit 100 can set the position information by setting the position of the detected object to a specific coordinate in the input image, and may determine semantic information corresponding to the position information according to the meaning of the recognized object Can be set. Here, the semantic information of the object is information on what object or object the detected object corresponds to, for example, 'door', 'chair', 'table', and the like.

여기서 객체 인식은 분류기(Classifier)를 이용하여 객체를 미리 정의된 복수개의 부류(Class) 중 어느 하나의 부류로 인식하는 방식으로 수행될 수 있다. 여기서 객체 인식부(100)는 영상이서 객체를 검출하고, 상기 검출한 객체를 미리 설정된 객체 인식 알고리즘을 이용하여 인식할 수 있다. 여기서 미리 설정된 객체 인식 알고리즘은 다양한 객체 인식 방법 중 하나로 선택될 수 있다. 여기서 객체 인식부(100)는 영상을 분석하여 미리 정해진 특징(Feature) 정보를 이용하여 검출하고자 하는 대상 객체를 검출하고 인식할 수 있다. 여기서 객체를 검출 및 인식하기 위하여, 기존의 다양한 종류의 특징을 상기 영상에서 추출하고, 이를 이용하여 객체 검출 및 인식을 수행할 수 있다. 예를 들면 객체의 검출 및 인식을 위하여 에지 특성이나 코너 특성, 또는 LoG(Laplacian of Gaussian), DoG(Difference of Gaussian) 등의 다양한 특징을 추출하여 이용할 수 있다. 또한 여기서 객체의 검출 및 인식을 위하여 SIFT(Scale-invariant feature transform), SURF(Speeded Up Robust Features), HOG(Histogram of Oriented Gradients)를 비롯한 기존의 다양한 특징 서술(Feature Description) 방식을 이용할 수 있다. 또는 객체의 검출 및 인식을 위하여 템플릿 이미지와 대상 이미지 내의 일정 영역을 비교하여 객체를 검출하고 인식할 수도 있다. 또한 객체의 검출 및 인식을 위하여 위와 같이 추출한 특징이나 템플릿 등을 기반으로 미리 학습한 분류기를 이용하여 상기 영상 내 객체들을 검출하고 인식할 수 있다. 여기서 이용하는 분류기는 SVM 머신이 될 수도 있고, 기타 기존의 다양한 분류 함수를 이용한 분류기를 이용할 수 있다. 또한 객체 인식부(100)는 영상에서 객체를 인식하기 위하여 다양한 객체 인식 방법을 이용할 수 있다. 예를 들면 'Lowe, David G. "Object recognition from local scale-invariant features." Computer vision, 1999. The proceedings of the seventh IEEE international conference on. Vol. 2. Ieee, 1999.' 또는 'Belongie, Serge, Jitendra Malik, and Jan Puzicha. "Shape matching and object recognition using shape contexts." Pattern Analysis and Machine Intelligence, IEEE Transactions on 24.4 (2002): 509-522.'에 기재된 기술을 이용하여 영상에서 객체를 인식할 수 있고, 기타 다양한 객체 인식 방법을 이용할 수 있다.Here, object recognition can be performed by using a classifier to recognize an object as a class of a plurality of predefined classes. Here, the object recognition unit 100 may detect an object as an image and recognize the detected object using a predetermined object recognition algorithm. Here, the preset object recognition algorithm can be selected as one of various object recognition methods. Here, the object recognition unit 100 can detect and recognize a target object to be detected by analyzing the image and using the predetermined feature information. Here, in order to detect and recognize an object, various existing types of features may be extracted from the image, and object detection and recognition may be performed using the extracted features. For example, various features such as edge characteristics, corner characteristics, LoG (Laplacian of Gaussian) and DoG (Difference of Gaussian) can be extracted and used for object detection and recognition. Also, various existing feature description schemes including Scale-invariant feature transform (SIFT), Speeded Up Robust Features (SURF), and Histogram of Oriented Gradients (HOG) can be used for object detection and recognition. Alternatively, an object may be detected and recognized by comparing a template image with a predetermined area within the target image for detection and recognition of the object. Also, in order to detect and recognize an object, it is possible to detect and recognize objects in the image using a classifier previously learned based on the extracted feature or template. The classifier used here may be an SVM machine or a classifier using various other conventional classification functions. In addition, the object recognition unit 100 may use various object recognition methods to recognize an object in an image. For example, "Lowe, David G." Object recognition from local scale-invariant features. " Computer vision, 1999. The proceedings of the seventh IEEE international conference on. Vol. 2. Ieee, 1999. ' Or 'Belongie, Serge, Jitendra Malik, and Jan Puzicha. "Shape matching and object recognition using shape contexts." Pattern Analysis and Machine Intelligence, IEEE Transactions on 24.4 (2002): 509-522. ', And various other object recognition methods can be used.

이하에서는 먼저 주요 면 추출부(200)의 동작에 대하여 보다 상세히 설명한다.Hereinafter, the operation of the main surface extracting unit 200 will be described in more detail.

주요 면 추출부(200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.The main surface extracting unit 200 extracts at least one major surface from the input image.

여기서 입력 영상은 2차원 영상이 될 수 있고, 또는 깊이 정보를 포함하는 영상이 될 수도 있다. 또한 여기서 주요 면은 상기 입력 영상에 포함된 면들 중에서 중요한 것으로 판단한 면이 될 수 있다. 그리고 상기 면은 입력 영상에서 동일한 세그먼트로 분할된 화소들의 집합이 될 수 있다. Here, the input image may be a two-dimensional image, or may be an image including depth information. Also, the main surface may be a surface determined to be important among the surfaces included in the input image. And the surface may be a set of pixels divided into the same segment in the input image.

일 실시예에 있어서 주요 면 추출부(200)는 다양한 영상 세그먼테이션 알고리즘을 이용하여 입력 영상을 분할하여 분할된 세그먼트 별로 면을 설정하고, 분할된 세그먼트 중에서 중요한 것으로 판단한 세그먼트를 주요 면으로 설정할 수 있다. 여기서 세그먼트들 간에서 면적이 소정의 비율 이상이 되는 세그먼트를 중요한 세그먼트로 선택하여 상기 주요 면으로 설정할 수 있다. 여기서 영상 세그먼테이션 알고리즘을 공지된 다양한 세그먼트 알고리즘을 사용할 수 있다.In one embodiment, the main plane extracting unit 200 may divide an input image using various image segmentation algorithms to set a plane for each of the segmented segments, and set a segment determined as an important segment among the segmented segments as a main plane. Here, a segment in which the area is equal to or larger than a predetermined ratio among the segments can be selected as an important segment and set as the main surface. Here, various segment algorithms known as image segmentation algorithms can be used.

여기서 상기 입력 영상이 깊이 정보를 포함하는 3차원 영상인 경우, 주요면 추출부(200)는 이하 설명하는 바와 같이 입력 영상에서 노멀 벡터를 추출하고 이를 기준으로 주요 면을 추출할 수 있다. 이때 주요 면 추출부(200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.If the input image is a three-dimensional image including depth information, the main surface extracting unit 200 extracts a normal vector from the input image and extracts a principal surface based on the extracted normal vector. At this time, the main surface extracting unit 200 extracts at least one or more main normal vectors from the input image, and extracts each region corresponding to the extracted main vector from the input image as the main surface.

이를 위하여 주요 면 추출부(200)는 주요 노멀 벡터 추출부(210), 면 추출부(220)를 포함할 수 있다.For this purpose, the main surface extracting unit 200 may include a main normal vector extracting unit 210 and a surface extracting unit 220.

도 2는 주요 면 추출부(200)의 세부 블록도이다.2 is a detailed block diagram of the main surface extracting unit 200. As shown in FIG.

주요 노멀 벡터 추출부(210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 여기서 주요 노멀 벡터 추출부(210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.The main normal vector extracting unit 210 calculates a local normal vector from the input image, and determines the main normal vector from among the calculated local normal vectors. Here, the main normal vector extracting unit 210 calculates a normal vector in the local plane of the input image as the local normal vector, clusters the calculated local normal vector, and calculates the main normal vector from among the clustered vectors You can decide.

도 3의 a 내지 d는 주요 면 추출부(200)의 동작을 설명하기 위한 참고도이다.3 (a) to 3 (d) are reference views for explaining the operation of the main surface extracting unit 200. In FIG.

여기서 주요 노멀 벡터 추출부(210)는 입력 영상에 포함된 각 점들에 대하여 인접하는 점들을 하나의 집합으로 하여 지역적 면을 설정하고, 지역적 면에서의 노멀 벡터를 산출할 수 있다. 일 실시예에 있어서 주요 노멀 벡터 추출부(210)는 주 성분 분석 방법(Principle Component Analysis)을 이용하여 지역적 면의 노멀 벡터를 산출할 수 있다. 이때 인접하는 점들의 좌표를 구성하는 성분 벡터를 주 성분 분석 방법을 이용하여 분해하여, 주성분인 두 축을 획득할 수 있고, 획득한 두 축의 외적으로 상기 지역적 면의 노멀 벡터를 산출할 수 있다.Here, the main normal vector extraction unit 210 may set a local plane by using adjacent points as a set for each point included in the input image, and calculate a normal vector in the local plane. In one embodiment, the main normal vector extraction unit 210 may calculate a normal vector of a local surface using a principal component analysis method. At this time, the component vectors constituting the coordinates of the adjacent points are decomposed using the principal component analysis method to obtain two principal axes, and the normal vector of the local surface can be calculated as the outward of the obtained two axes.

도 3 a는 상술한 바 지역적 면의 노멀 벡터를 산출한 결과를 나타내는 참고도이다. 도 3 a의 각 화소에서의 음영 값은 노멀 벡터의 방향을 표현하도록 설정되었다.3 (a) is a reference diagram showing the result of calculating the normal vector of the regional surface described above. The shading value in each pixel of Fig. 3A was set to express the direction of the normal vector.

다음으로 주요 노멀 벡터 추출부(210)는 위와 같이 추출한 지역적 면에서의 노멀 벡터인 지역적 노멀 벡터를 이용하여 주요 노멀 벡터를 추출할 수 있다. 그리고 이때 하나 이상의 노멀 벡터가 추출될 수 있다. 일 실시예에서 상기 지역적 노멀 벡터 중에서 소정의 비율 이상을 가지는 벡터를 주요 노멀 벡터로 추출할 수 있다. 또 다른 실시예에서는 상기 지역적 노멀 벡터를 클러스터링하고 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다. 이때 클러스터링된 벡터들 중에서 소정의 비율 이상을 차지하는 벡터를 주요 노멀 벡터로 결정할 수 있다. 예를 들면 주요 노멀 벡터는 영상 내의 바닥 면에 수직인 방향의 노멀 벡터와 벽면에 수직인 방향의 노멀 벡터가 될 수 있다. 일 실시예에 따르면 주요 노멀 벡터 추출부(210)는 Mean-Shift 알고리즘을 이용하여 상기 클러스터링을 수행할 수 있다.Next, the main normal vector extracting unit 210 can extract the main normal vector using the local normal vector, which is the normal vector in the regional plane extracted as described above. At this time, one or more normal vectors may be extracted. In one embodiment, a vector having a predetermined ratio or more among the local normal vectors may be extracted as a main normal vector. In another embodiment, the local normal vector may be clustered and the principal normal vector may be determined from the clustered vectors. At this time, a vector occupying more than a predetermined ratio among the clustered vectors may be determined as a main normal vector. For example, the principal normal vector may be a normal vector in a direction perpendicular to a floor surface in the image and a normal vector in a direction perpendicular to a wall surface. According to one embodiment, the main normal vector extracting unit 210 may perform the clustering using a mean-shift algorithm.

도 3 b는 상술한 바 지역적 노멀 벡터를 클러스터링한 결과를 나타내는 참고도이다. 도 3 b의 각 화소에서의 색상은 클러스터링된 노멀 벡터를 가지는 화소들을 구분하도록 서로 다른 색깔로 설정되었다.3B is a reference diagram showing the result of clustering the local normal vectors described above. The hues in each pixel of Fig. 3B were set to different colors to distinguish pixels having a clustered normal vector.

면 추출부(220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다. 동일한 주요 노멀 벡터를 가지는 화소들이라고 할지라도 입력 영상에서 서로 다른 객체의 면에 포함된 화소들이 될 수 있다. 따라서 면 추출부(220)는 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 클러스터링된 화소들의 집합을 각각 주요 면으로 추출할 수 있다. 여기서 입력 영상에서 바닥 면에 수직인 방향의 주요 노멀 벡터에 해당하는 화소들은 바닥에 해당하는 화소들이 될 수 있고, 또는 테이블 상면에 해당하는 화소들이 될 수 있고, 또는 의자의 앉는 면에 해당하는 화소들이 될 수도 있다. 따라서 이들 화소들을 서로 다른 주요 면으로 추출하기 위하여, 상술한 바와 같이 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 그 결과에 따라 분류된 화소들의 집합 별로 주요 면을 설정함으로써, 입력 영상에서 주요 면을 추출할 수 있다.The plane extracting unit 220 collects pixels having the principal normal vector from the input image, and clusters the collected pixels to extract the principal plane corresponding to the principal normal vector. Even if the pixels have the same main normal vector, they can be included in the faces of different objects in the input image. Therefore, the plane extracting unit 220 can cluster the pixels having the main normal vector, and extract the set of the clustered pixels as the principal planes. Here, the pixels corresponding to the main normal vectors in the direction perpendicular to the floor in the input image may be pixels corresponding to the bottom, or pixels corresponding to the top of the table, or pixels corresponding to the seating surface of the chair . Therefore, in order to extract these pixels on different major surfaces, as described above, pixels having a major normal vector are clustered, and major surfaces are set for each set of classified pixels according to the result, can do.

도 3 c는 주요 노멀 벡터를 가지는 화소들을 클러스터링하여 추출한 주요 면을 나타내는 참고도이다. 도 3 c의 각 화소에서의 색상은 서로 다른 주요 면을 구분하도록 서로 다른 색깔로 설정되었다.FIG. 3C is a reference diagram showing a principal plane extracted by clustering pixels having a main normal vector. The colors in each pixel of FIG. 3c were set to different colors to distinguish different major surfaces.

일 실시예에서 면 추출부(220)는 클러스터링된 화소들의 집합들 중 주된 클러스터에 해당하는 화소들의 집합을 주요 면으로 추출할 수 있다. 예를 들면 면 추출부(220)는 클러스터링된 화소들의 집합들이 소정의 크기 이상을 가지거나 입력 영상에서 소정의 비율 이상을 가지는 경우에만 이를 주요 면으로 선택할 수 있다.In one embodiment, the plane extracting unit 220 may extract a set of pixels corresponding to a main cluster among the sets of clustered pixels as principal planes. For example, the plane extracting unit 220 can select the principal plane only when the sets of clustered pixels have a predetermined size or more or have a predetermined ratio or more in the input image.

이때 일 실시예에서 면 추출부(220)는 상기 추출된 주요 면들 중에서 주요 노멀 벡터의 각도에 따라 일부를 선별하여, 선별된 주요 면들만을 주요 면으로 다시 설정할 수 있다. 여기서 면 추출부(220)는 미리 설정한 각도의 범위 내에 해당하는 주요 노멀 벡터를 가지는 주요 면 만을 주요 면으로 다시 설정하고, 그 범위에 해당하지 않는 주요 노멀 벡터를 가지는 주요 면들은 주요 면에서 제거할 수 있다. 예를 들면 면 추출부(220)는 수평면과 수직면에 해당하는 면들만을 주요 면으로 추출하기 위하여, 주요 노멀 벡터를 미리 설정한 각도 범위와 비교하고, 그 결과에 따라 주요 면을 최종 결정할 수 있다. 여기서 미리 설정한 각도의 범위는 -20도 내지 20도 등 필요에 따라 설정할 수 있다.In this case, in one embodiment, the plane extracting unit 220 can select a part of the extracted principal planes according to the angle of the main normal vector, and set only the selected major planes as principal planes again. Here, the plane extracting unit 220 resets only the principal planes having the principal normal vectors corresponding to the predetermined angles to the principal planes, and the principal planes having the principal vector not corresponding to the principal planes are removed from the principal planes can do. For example, in order to extract only the faces corresponding to the horizontal plane and the vertical plane to the principal plane, the plane extraction unit 220 may compare the principal normal vector with the preset angular range, and finally determine the principal plane according to the result . Here, the range of the preset angle can be set as needed, such as -20 to 20 degrees.

도 3 d는 각도 범위에 따라 수평면에 해당하는 주요 면만을 선별한 결과를 나타내는 참고도이다. 도 3 d에서 바닥 면(P1), 테이블 상면(P2), 의자 상면(P3)과 같이 주요 면이 설정될 수 있다.3 (d) is a reference view showing a result of selecting only the principal plane corresponding to the horizontal plane according to the angle range. In FIG. 3D, the main surface can be set such as the bottom surface P1, the table top surface P2, and the chair top surface P3.

다음으로는 행동 목록 설정부(300)의 동작에 대하여 보다 상세히 설명한다.Next, the operation of the behavior list setting unit 300 will be described in more detail.

행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다. 주요 면 추출부(200)에서 추출된 주요 면은 입력 영상에서 특정 구역에 해당하는 정보만을 보유하고 있다. 이에 추출된 주요 면의 의미를 파악하기 위하여, 이하 상세히 설명할 바와 같이 행동 목록 설정부(300)는 입력 영상 내의 객체에 관한 인식 정보를 입력받고, 이를 이용하여 상기 추출한 주요 면의 의미를 인식할 수 있다. 예를 들면 행동 목록 설정부(300)는 특정 주요 면을 문 또는 바닥 면으로 인식할 수 있고, 이때 주요 면의 의미는 문, 바닥 면이 된다. 이때 행동 목록 설정부(300)는 인식한 주요 면의 의미에 따라 주요 면 별로 발생 가능한 행동을 결정하고 이를 행동 목록으로 설정한다. 예를 들면 특정 주요 면을 문으로 인식한 경우, '문을 여는 행동', '문을 닫는 행동' 등을 포함하는 행동 목록을 설정할 수 있다.The behavior list setting unit 300 recognizes the meaning of the extracted main surface and sets a list of possible actions for each extracted main surface according to the recognized meaning of the main surface. The main surface extracted by the main surface extracting unit 200 has only information corresponding to a specific region in the input image. In order to understand the meaning of the extracted main surface, the behavior list setting unit 300 receives the recognition information about the object in the input image and recognizes the meaning of the extracted main surface using the recognition information . For example, the behavior list setting unit 300 can recognize a specific main surface as a door or a floor, and the meaning of the main surface is a door or a floor. At this time, the behavior list setting unit 300 determines actions that can be generated for each main surface according to the recognized meaning of the main surface, and sets them as a behavior list. For example, if you recognize a particular major face as a door, you can set up a list of actions that includes 'door opening' and 'closing door'.

여기서 행동 목록 설정부(300)는 주요 면 인식부(310), 목록 설정부(320)를 포함할 수 있다.Here, the behavior list setting unit 300 may include a main surface recognizing unit 310 and a list setting unit 320.

도 4는 행동 목록 설정부(300)의 세부 블록도이다.4 is a detailed block diagram of the behavior list setting unit 300. As shown in FIG.

주요 면 인식부(310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다. 여기서 주요 면 인식부(310)는 주요 면의 위치에 대응하는 객체로, 주요 면으로부터 소정의 거리 이내에 위치하는 객체 또는 주요 면과 겹쳐서 존재하는 객체를 선택할 수 있다. 이를 위하여 주요 면 인식부(310)는 주요 면의 위치와 객체의 위치 정보를 상호 비교하여 주요 면과 객체의 대응 여부를 결정할 수 있다. 이와 같이 주요 면에 대응하는 객체를 결정한 다음 주요 면 인식부(310)는 주요 면에 대응하는 객체의 의미 정보에 따라 주요 면의 의미를 인식할 수 있다. 예를 들면 주요 면의 위치에 대응하는 객체의 의미가 '문'인 경우, 상기 주요 면의 의미는 '문'이 될 수 있다.The main plane recognizer 310 receives the object recognition information including the position information of the object existing in the input image and the semantic information of the object, Recognize the meaning of the main plane. Here, the main surface recognizing unit 310 may select an object located within a predetermined distance from the main surface or an object overlapping the main surface, corresponding to the position of the main surface. For this purpose, the main surface recognition unit 310 can compare the position of the main surface and the position information of the object to determine whether the main surface corresponds to the object. After determining the object corresponding to the main surface, the main surface recognizer 310 can recognize the meaning of the main surface according to the semantic information of the object corresponding to the main surface. For example, if the meaning of the object corresponding to the position of the main face is 'door', the meaning of the main face may be 'door'.

일 실시예에 있어서 행동 인식 장치에 객체 인식부(100)가 포함되고, 객체 인식부(100)가 검출한 객체의 상기 입력 영상 내에서의 위치 정보와 인식한 객체의 의미 정보를 설정하는 경우, 주요 면 인식부(310)는 객체 인식부(100)에서 생성한 객체 인식 정보를 입력받을 수 있다.In one embodiment, when the behavior recognition apparatus includes the object recognition unit 100 and sets the location information of the object detected by the object recognition unit 100 in the input image and the semantic information of the recognized object, The main plane recognition unit 310 can receive the object recognition information generated by the object recognition unit 100. [

목록 설정부(320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다. 여기서 행동 목록은 가능한 행동들을 목록으로 저장한 것이며, 각 주요 면 별로 행동 목록이 설정될 수 있다.The list setting unit 320 searches for an object corresponding to the meaning of the main surface in an object-behavior relationship model in which a relation between an object and behavior is defined in advance, and displays the behavior related to the searched object in the object- And sets the behavior list of the main surface according to the extracted behavior. Here, the behavior list is a list of possible actions, and a list of actions can be set for each major surface.

여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 각 물체 별로 물체와 관련된 사용자의 가능한 행동들이 존재하므로, 각 물체 별로 행동을 미리 정의하여 상기 물체-행동 관계 모델을 설정할 수 있다. 또한 여기서 상기 물체-행동 관계 모델은 물체 별로 관련된 행동들을 정의함에 있어서 물체를 전제하였을 때 특정 행동이 발생할 확률을 설정할 수 있다. 여기서 물체 별로 연관된 행동들에 대하여 서로 다른 확률 값들이 설정될 수 있다.Here, the object-behavior relationship model may be a model in which, for at least one or more objects, at least one of the behaviors related to the object is predefined for each object. Since there are possible behaviors of the user related to the object for each object, it is possible to set the object-behavior relationship model by predefining the behavior for each object. In addition, the object-behavior relation model can set the probability of occurrence of a specific action when an object is assumed in defining an action related to each object. Here, different probability values can be set for the behaviors associated with each object.

이때 목록 설정부(320)는 물체-행동 관계 모델에서 주요 면의 의미에 대응하는 물체를 검색하고, 상기 검색한 물체와 관계된 행동 및 해당 행동의 확률 값을 추출하여 행동 목록에 포함시킬 수 있다. 따라서 행동 목록은 행동과 행동 별 확률 값을 저장할 수 있다.At this time, the list setting unit 320 may search for an object corresponding to the meaning of the main surface in the object-behavior relationship model, extract the behavior related to the searched object and the probability value of the corresponding behavior, and include it in the behavior list. Therefore, the behavior list can store the probability values for behavior and behavior.

일 실시예에서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다. 여기서 물체 별로 관련된 행동들이 물체 노드에 연결된 행동 노드로 표현될 수 있다. 이때 물체와 관련된 행동이 발생할 확률을 에지에 설정하거나 또는 행동 노드에 설정하여 정의할 수 있다. 도 5는 각 물체와 관계있는 행동을 물체 노드와 행동 노드 간의 에지 연결로 나타낸 그래프 모델을 나타내는 참고도이다. 이와 같은 그래프 모델을 이용하는 경우 목록 설정부(320)는 주요 면의 의미에 대응하는 물체를 상기 그래프 모델에서 검색하고, 검색한 물체와 에지로 연결된 행동들을 선별하여, 선별한 행동들을 행동 목록에 포함시킬 수 있다. 도 5를 참조하면 만일 주요 면이 '소파'로 인식된 경우, 그래프 모델에서 '소파'에 해당하는 물체 노드를 검색할 수 있고, '소파' 물체 노드와 연결된 행동 노드들을 선별하여, '식사', '눕는 행동', '앉는 행동', '스트레칭', '일어나는 행동'을 행동 목록에 포함시킬 수 있다. 여기서 상기 물체-행동 관계 모델은 그래프 모델 이외에도 다양한 자료 구조를 이용하여 물체와 행동 간의 관계를 정의할 수 있음은 물론이다.In one embodiment, the object-behavior relationship model may be a graph model that shows the relationship between the object and the behavior in a connection graph between nodes and edges. Here, related behaviors for each object can be represented by action nodes connected to object nodes. At this time, probability of occurrence of an action related to an object can be defined on the edge or by setting on the action node. 5 is a reference diagram showing a graph model showing an action related to each object as an edge connection between an object node and a behavior node. When such a graph model is used, the list setting unit 320 searches an object corresponding to the meaning of the main surface in the graph model, selects behaviors associated with the detected object and edges, and displays the selected behaviors in a behavior list . Referring to FIG. 5, if the main surface is recognized as a 'sofa', an object node corresponding to 'sofa' can be searched in the graph model, a behavior node connected to the 'sofa' object node is selected, , 'Lying down', 'sitting down', 'stretching', or 'taking action' can be included in the action list. It should be noted that the object-behavior relation model can define the relationship between the object and the behavior using various data structures in addition to the graph model.

다음으로는 행동 인식부(400)의 동작에 대하여 보다 상세히 설명한다.Next, the operation of the behavior recognition unit 400 will be described in more detail.

행동 인식부(400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.The behavior recognition unit 400 selects the main surface corresponding to the position where the user's action occurred in the input image and recognizes the behavior of the user based on the behavior list of the selected main surface.

도 6은 행동 인식부(400)의 세부 블록도이다.6 is a detailed block diagram of the behavior recognition unit 400. As shown in FIG.

행동 인식부(400)는 행동 위치 검출부(410), 주요 면 선택부(420), 사용자 행동 인식부(430)를 포함할 수 있다.The behavior recognition unit 400 may include a behavior position detection unit 410, a main surface selection unit 420, and a user behavior recognition unit 430.

행동 위치 검출부(410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 이와 같은 행동 위치 검출은 사용자 행동 인식부(430)에서 수행될 수도 있고, 이 경우 행동 위치 검출부(410)는 사용자 행동 인식부(430)에 포함될 수도 있다.The behavior position detection unit 410 detects a position where the user's behavior occurs in the input image. Such behavior position detection may be performed by the user behavior recognition unit 430, and in this case, the behavior position detection unit 410 may be included in the user behavior recognition unit 430. [

주요 면 선택부(420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다. 여기서 주요 면 선택부(420)는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다. 여기서 소정의 거리는 필요에 따라 설정될 수 있는 값이다.The main surface selection unit 420 selects the main surface corresponding to the position where the user's action occurred. Here, the main surface selection unit 420 may select, from among the major surfaces extracted by the main surface extraction unit, the main surface positioned within a predetermined distance from the position where the user's action occurs. Here, the predetermined distance is a value that can be set as needed.

사용자 행동 인식부(430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(430)는 행동이 발생한 위치에 대응하는 주요 면에 대하여 미리 설정된 발생 가능한 행동에 관한 행동 목록을 참조하여 사용자의 행동을 인식함으로써, 단순히 사용자의 동작 또는 자세를 분석하여 행동을 인식하는 것 보다 정확하게 행동을 인식할 수 있는 효과가 있다. 예를 들면 사용자의 행동이 발행한 위치에 대응하는 주요 면의 의미가 '의자'인 경우, 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '앉는 행동'으로 인식할 수 있다. 여기서 사용자의 동작 또는 자세만을 분석할 경우 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '스쿼트 행동'으로 오인식할 수도 있지만, 본 발명에 따른 사용자 행동 인식부(430)는 위와 같이 행동이 발생한 위치에 대응하는 주요 면의 의미에 따라 미리 설정된 행동 목록을 참조함으로써, 해당 주요 면에서 발생할 가능성이 있는 행동들 중에서 사용자의 행동을 인식할 수 있고, 그에 따라 행동 인식 정확도를 향상시킬 수 있는 효과가 있다.The user behavior recognition unit 430 recognizes the behavior of the user based on the behavior list of the selected main surface. Here, the user behavior recognizing unit 430 recognizes the user's behavior by referring to a list of behaviors relating to possible behaviors preset for the main surface corresponding to the location where the behavior occurred, thereby simply analyzing the user's behavior or posture There is an effect of recognizing the behavior more accurately than recognizing it. For example, when the meaning of the main surface corresponding to the position issued by the user's action is 'chair,' the user can recognize the action of lowering the body while bending the knee as a 'sitting action.' Here, when analyzing only the user's action or posture, the user may misunderstand the action of lowering the body while bending the knee as a 'squat behavior'. However, the user behavior recognition unit 430 according to the present invention may recognize It is possible to recognize the behavior of the user among the behaviors likely to occur in the main surface by referring to the predetermined behavior list according to the meaning of the corresponding major surface, thereby improving the accuracy of the behavior recognition.

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다. 사용자 행동 인식부(430)는 특정한 사용자의 동작 또는 자세를 분석하여 하나 이상의 후보 행동으로 이를 인식할 수 있다. 그리고 복수개의 후보 행동들 중에서 상기 행동 목록에 포함된 행동과 대응하는 후보 행동을 선정하여, 이를 사용자 행동으로 인식할 수 있다. 여기서 후보 행동이 행동 목록에 포함된 행동과 동일하면 이를 사용자 행동으로 인식할 수 있고, 또는 후보 행동이 행동 목록에 포함된 행동과 정확하게 일치하지는 않더라도 관련된 행동으로 판단될 수 있는 경우 이를 사용자 행동으로 인식할 수 있다. 후보 행동과 행동 목록에 포함된 행동 간의 대응 관계를 판단하기 위하여는, 행동 간의 관계를 미리 정의한 모델을 이용할 수 있다. 일 실시예에 따르면 상기 물체-행동 관계 모델을 이용할 수도 있다.Here, the user behavior recognition unit 430 may recognize at least one candidate action by recognizing the action or attitude of the user in the input image, and determine the candidate action corresponding to the action included in the action list among the determined candidate actions And can be recognized as the behavior of the user. The user behavior recognizing unit 430 may recognize one or more candidate actions by analyzing a specific user's action or attitude. A candidate behavior corresponding to a behavior included in the behavior list among a plurality of candidate actions may be selected and recognized as a user behavior. Here, if the candidate behavior is the same as the behavior included in the behavior list, it can be recognized as the user behavior, or if the candidate behavior can be judged to be the related behavior even if it does not exactly coincide with the behavior included in the behavior list, can do. In order to determine the correspondence between the candidate behavior and the behavior included in the behavior list, a predefined model of the relationship between the behaviors can be used. According to one embodiment, the object-behavior relationship model may be used.

여기서 주요 면 선택부(420)는 사용자의 행동이 발생한 위치에 대응하는 주요 면을 복수개 선택할 수도 있다. 사용자 행동 인식부(430)는 복수개의 주요 면에 대응하는 행동 목록들에서 후보 행동에 대응하는 행동들을 복수개 발견할 수 있다. 이때 사용자 행동 인식부(430)는 발견한 행동들 중에서, 행동 목록에 행동과 함께 저장된 확률 값을 참조하여 확률 값이 가장 높은 행동을 선택하여, 사용자 행동으로 인식할 수 있다. 또한 이때 주요 면과 사용자의 행동이 발생한 위치 간의 거리에 따라 산출되는 가중치를 각 행동 별 확률 값에 곱한 값을 기준으로, 행동 목록에서 행동을 선택하여 사용자의 행동으로 인식할 수도 있다. 위와 같은 구성을 통하여 사용자의 행동이 발생한 위치에 보다 가까이 존재하는 주요 면의 행동 목록에 포함된 행동들을 보다 우선시할 수 있는 효과가 있다. 이를 위하여 상기 가중치는 주요 면과 사용자의 행동이 발생한 위치 간의 거리와 반비례하도록 설정될 수 있다.Here, the main surface selection unit 420 may select a plurality of major surfaces corresponding to the position where the user's action occurs. The user behavior recognition unit 430 may find a plurality of behaviors corresponding to the candidate behavior in the behavior lists corresponding to the plurality of major surfaces. At this time, the user behavior recognition unit 430 may select a behavior having the highest probability value by referring to the probability stored in the behavior list together with the behavior among the found behaviors, and recognize the user behavior. At this time, it is also possible to select the behavior from the behavior list and recognize the behavior as the user's action based on the value obtained by multiplying the probability value of each behavior by the weight calculated according to the distance between the main surface and the position where the user's action occurs. Through the above-described configuration, the actions included in the action list of the main surface existing closer to the position where the user's action occurs can be prioritized. To this end, the weight may be set to be inversely proportional to the distance between the main surface and the position where the user's action occurs.

또한 상기 후보 행동들 중에서 행동 목록에 포함된 행동들과 대응하는 후보 행동이 복수개 존재하는 경우에도 위에서 설명한 바와 같이 확률 값을 기준으로 행동 목록에서 최우선의 행동을 선택하여 사용자의 행동으로 인식할 수 있다.Also, when there are a plurality of candidate behaviors corresponding to the behaviors included in the behavior list among the candidate behaviors, the highest priority behaviors can be selected as the behaviors of the user based on the probability values as described above .

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하기 위하여 다양한 공지된 사용자 자세 인식 또는 포스쳐 인식 또는 동작 인식 또는 제스쳐 인식 알고리즘을 사용할 수 있다. 그리고 상기 인식 알고리즘의 수행 결과 사용자의 동작 또는 자세를 적어도 하나 이상의 후보 행동으로 인식할 수 있다. 즉 사용자의 자세나 동작은 경우에 따라 실제 사용자가 서로 다른 의도를 가지고 행동한 것임에도 불구하고, 그 외관상의 행동은 유사하게 나타날 수 있기 때문에, 사용자 행동 인식부(430)는 사용자의 동작 또는 자세를 인식하여 사용자가 의도할 수 있는 복수개의 후보 행동을 결정할 수 있다. 상술한 예와 같이 사용자의 동작이 무릎을 구부려 몸을 낮추는 동작인 경우, 이에 대하여 '앉는 행동' 또는 '스쿼트 행동'으로 후보 행동을 결정할 수 있다. 또는 사용자의 동작이 서있는 상태로 한 손을 전방으로 이동시키는 동작인 경우, 이에 대하여 '악수 행동' 또는 '문을 여는 행동'으로 후보 행동을 결정할 수 있다.Here, the user behavior recognition unit 430 may use various known user posture recognition, posture recognition, motion recognition, or gesture recognition algorithms to recognize the user's action or attitude in the input image. As a result of the recognition algorithm, the user's action or attitude can be recognized as at least one candidate action. That is, although the user's attitude or behavior may be similar in appearance to the actual user although the actual user behaves with different intentions in some cases, the user's behavior recognition unit 430 recognizes the user's action or attitude And determine a plurality of candidate behaviors that the user can intend. If the user's operation is to lower the body by bending the knee as in the above-described example, the candidate behavior can be determined by 'sitting behavior' or 'squat behavior'. Alternatively, when the user moves his / her one hand forward in a standing state, the candidate action can be determined to be a 'shaking motion' or a 'door opening motion'.

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 사용자의 형체 또는 그에 따른 스켈레톤 정보를 인식하고, 이를 분석하여 사용자의 동작 또는 자세를 인식할 수 있다. 예를 들면 "Generating skeletons and centerlines from the distance transform, C.Wayne Niblack. et al., CVGIP: Graphical Models and Image Processing, Volume 54, Issue 5, September 1992, Pages 420-437", "휴먼-로봇 인터액션을 위한 하이브리드 스켈레톤 특징점 추출, 주영훈, 소제윤, 제어로봇시스템학회 논문지 14.2 (2008): 178-183.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178", "Binary shape recognition using the morphological skeleton transform, P.E. Trahanias, Pattern Recognition, Volume 25, Issue 11, November 1992, Pages 1277-1288"에서 각 개시하고 있는 사용자 형체 또는 스켈레톤 인식 방법을 이용할 수 있다. 여기서 사용자 행동 인식부(430)는 상술한 예 이외에도 다양한 사용자 형체 인식 기술을 이용하여 사용자의 형체 또는 그에 따른 스켈레톤, 골격을 인식할 수 있음은 물론이다.Here, the user behavior recognition unit 430 recognizes the shape of the user or the skeleton information according to the user in the input image, and analyzes the user's behavior or attitude. For example, "Generating skeletons and centerlines from the distance transform," C. Wayne Niblack, et al., CVGIP: Graphical Models and Image Processing, Volume 54, Issue 5, September 1992, Pages 420-437, Proceedings of the Proceedings of VSSN '06 Proceedings of the Korean Society of Controlled Robotics and Systems, 14 (2008): 178-183. "," Human action recognition using skeleton, Hsuan-Sheng Chen. " The 4th ACM international workshop on video surveillance and sensor networks Pages 171-178 ", " Binary shape recognition using the morphological skeleton transform, PE Trahanias, Pattern Recognition, Volume 25, Issue 11, November 1992, Pages 1277-1288 " Or a skeleton recognition method can be used. In this case, the user behavior recognizing unit 430 can recognize the shape of the user or the skeleton and skeleton of the user by using various user shape recognition technologies in addition to the examples described above.

여기서 사용자 행동 인식부(430)가 인식하는 사용자의 자세는 특정한 시점에서의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈가 될 수 있고, 사용자의 동작은 일정한 시간 동안의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈의 움직임이나 변화가 될 수 있다. 그리고 여기서 사용자 행동 인식부(430)가 사용자의 자세 또는 동작을 인식하기 위하여 분석하는 사용자의 신체의 일부분은 사용자의 손이 될 수 있고, 필요에 따라 사용자의 팔, 상반신, 하반신, 전신 등이 될 수 있다. 여기서 사용자 행동 인식부(430)는 상기 사용자의 형체에 따른 사용자의 골격(스켈레톤)의 자세 또는 시간의 흐름에 따른 변화를 인식하여 사용자의 자세 또는 동작을 사전에 정의된 후보 행동으로 인식할 수 있다. 여기서 후보 행동은 골격의 자세 또는 시간의 흐름에 따른 변화 동작에 따라 미리 정의될 수 있다. 사용자 행동 인식부(430)는 입력 영상에서 인식한 사용자의 골격에 대한 인식 정보와 미리 정의된 후보 행동에 관한 정보를 비교하여 그 결과에 따라 사용자의 동작 또는 자세가 어느 후보 행동에 해당하는지를 인식할 수 있다. 그리고 이때 상술한 바와 같이 인식한 결과에 따라 가능성이 있는 복수개의 후보 행동을 결정할 수 있다.Here, the attitude of the user recognized by the user behavior recognition unit 430 may be a form, an attitude, or a pose of a part of the user's body at a specific point in time, and the user's operation may be a part of the user's body The shape or posture of the object, or the movement or change of the pose. Here, a portion of the user's body that the user's behavior recognition unit 430 analyzes to recognize the user's posture or operation may be a user's hand, and may be a user's arm, upper body, lower body, . Here, the user behavior recognizing unit 430 recognizes the attitude or motion of the user's skeleton (skeleton) according to the shape of the user, and recognizes the attitude or action of the user as a previously defined candidate behavior . Here, the candidate behavior may be predefined according to the posture of the skeleton or the change operation according to the flow of time. The user behavior recognition unit 430 compares the recognition information of the skeleton of the user recognized in the input image with the information on the predefined candidate behavior and recognizes which action or attitude of the user corresponds to which candidate behavior according to the result . At this time, it is possible to determine a plurality of possible candidate actions according to the recognition result as described above.

여기서 사용자 행동 인식부(430)는 사용자의 형체 또는 골격을 인식하여 사용자의 동작 또는 자세에 따른 후보 행동을 인식하기 위하여 다양한 공지된 제스쳐 인식 기술을 사용할 수 있다. 예를 들면 사용자 입력 정보 식별부는 "Dynamic hand gesture recognition using the skeleton of the hand, Ionescu, Bogdan, et al. EURASIP Journal on Applied Signal Processing 2005 (2005): 2101-2109.", "Robust part-based hand gesture recognition using kinect sensor, Ren, Zhou, et al., Multimedia, IEEE Transactions on 15.5 (2013): 1110-1120.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178"에서 개시하고 있는 각 제스쳐 인식 방법을 이용할 수 있고, 기타 다양한 제스쳐 인식 방법을 이용할 수 있다.Here, the user behavior recognition unit 430 may use various known gesture recognition technologies to recognize a shape or skeleton of a user and to recognize candidate actions according to the user's actions or attitudes. For example, the user input information identification section may be referred to as " Dynamic hand gesture recognition using the skeleton of the hand, Ionescu, Bogdan, et al., EURASIP Journal of Applied Signal Processing 2005 (2005): 2101-2109. Proceeding VSSN '06 (2001), "Human Action Recognition using Star Skeleton, Hsuan-Sheng Chen, et al., Proc. Proceedings of the 4th ACM international workshop on video surveillance and sensor networks Pages 171-178 ", and various other gesture recognition methods can be used.

본 발명의 또 다른 실시예에 따른 행동 인식 장치는 객체 검출부(1000), 행동 목록 설정부(2000), 행동 인식부(3000)를 포함할 수 있다.The behavior recognition apparatus according to another embodiment of the present invention may include an object detection unit 1000, a behavior list setting unit 2000, and a behavior recognition unit 3000.

도 7은 상기 또 다른 실시예에 따른 행동 인식 장치의 블록도이다.7 is a block diagram of a behavior recognition apparatus according to another embodiment of the present invention.

객체 인식부(1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 여기서 객체 인식부(1000)는 상술한 객체 인식부(100)와 동일한 방식으로 객체를 검출하고 인식할 수 있다.The object recognition unit 1000 detects and recognizes at least one object in the input image. Here, the object recognition unit 1000 can detect and recognize an object in the same manner as the object recognition unit 100 described above.

행동 목록 설정부(2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다.The behavior list setting unit 2000 sets a list of possible actions for the recognized object.

여기서 행동 목록 설정부(2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다. 여기서 물체-행동 관계 모델을 이용하여 검색한 물체에 따라 행동 목록을 설정하는 동작은 상술한 행동 목록 설정부(300)와 동일한 방식으로 수행될 수 있다.Here, the behavior list setting unit 2000 searches for an object corresponding to the recognized object in an object-behavior relationship model in which a relation between an object and behavior is defined in advance, and transmits an action related to the searched object to the object- And can set the behavior list of the object according to the extracted behavior. Here, the action list setting operation may be performed in the same manner as the behavior list setting unit 300 according to the object searched using the object-action relationship model.

행동 인식부(3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 인식부(3000)는 상술한 행동 인식부(400)에 대하여 상세히 설명한 부분에서 주요 면 대신 검출한 객체를 이용하여 행동 목록을 참조하여 상용자의 행동을 인식할 수 있고, 세부 동작은 상술한 행동 인식부(400)와 동일하게 수행될 수 있다.The behavior recognition unit 3000 selects the object corresponding to the position where the user's action occurred in the input image and recognizes the behavior of the user based on the behavior list of the selected object. Here, the behavior recognition unit 3000 can recognize the behavior of the user by referring to the behavior list using the detected object instead of the main surface in the detailed description with respect to the behavior recognition unit 400 described above, May be performed in the same manner as the behavior recognition unit 400.

도 8은 행동 인식부(3000)의 세부 블록도이다.FIG. 8 is a detailed block diagram of the behavior recognition unit 3000. FIG.

행동 인식부(3000)는 행동 위치 검출부(3100), 객체 선택부(3200), 사용자 행동 인식부(3300)를 포함할 수 있다.The behavior recognition unit 3000 may include a behavior position detection unit 3100, an object selection unit 3200, and a user behavior recognition unit 3300.

행동 위치 검출부(3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.The behavior position detection unit 3100 detects a position where the user's behavior occurs in the input image.

객체 선택부(3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택부(3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.The object selection unit 3200 selects the object corresponding to the position where the action of the user occurs. Here, the object selecting unit 3200 can select the object positioned within a predetermined distance from the position where the user's action occurred, among the objects of the input image.

사용자 행동 인식부(3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.The user behavior recognition unit 3300 recognizes the behavior of the user based on the behavior list of the selected object. Here, the user behavior recognition unit 3300 recognizes the user's action or attitude in the input image to determine at least one candidate action, and selects the candidate action corresponding to the action included in the behavior list from among the determined candidate actions And can be recognized as the behavior of the user.

본 발명의 또 다른 실시예에 따른 행동 인식 방법은 주요 면 추출 단계(S200), 행동 목록 설정 단계(S300), 행동 인식 단계(S400)를 포함할 수 있다. 여기서 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S100)를 더 포함할 수도 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 1 내지 도 6을 참조하면서 상세히 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.The behavior recognition method according to another embodiment of the present invention may include a main surface extraction step S200, a behavior list setting step S300, and a behavior recognition step S400. Here, the behavior recognition method according to another embodiment may further include an object recognition step S100. Here, the behavior recognition method according to the embodiment can operate in the same manner as the behavior recognition apparatus according to an embodiment of the present invention, which is described in detail with reference to FIGS. 1 to 6, operates.

도 9는 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.9 is a flowchart of a behavior recognition method according to an embodiment of the present invention.

주요 면 추출 단계(S200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.The main surface extraction step (S200) extracts at least one major surface from the input image.

행동 목록 설정 단계(S300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주오 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.The behavior list setting step S300 recognizes the meaning of the extracted main surface and sets a list of possible actions for each extracted main surface according to the recognized main surface.

행동 인식 단계(S400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.In the behavior recognition step S400, the main surface corresponding to the position where the user's action occurs in the input image is selected, and the behavior of the user is recognized based on the behavior list of the selected main surface.

객체 인식 단계(S100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 여기서 객체 인식 단계(S100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.The object recognition step S100 detects and recognizes the object in the input image or the separate input image. Here, the object recognition step S100 may set the position information in the input image of the detected object and set the semantic information of the recognized object.

주요 면 추출 단계(S200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다. 여기서 주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.In the main surface extracting step (S200), at least one main normal vector may be extracted from the input image, and each region corresponding to the extracted main vector may be extracted from the input image to the main surface. Here, the main surface extraction step (S200) may include a main normal vector extraction step (S210) and a surface extraction step (S220).

도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.10 is a detailed flowchart of the main surface extracting step (S200).

주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.The main surface extraction step S200 may include a main normal vector extraction step S210 and a surface extraction step S220.

주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.The main normal vector extracting step (S210) calculates a local normal vector from the input image, and determines the main normal vector from among the calculated local normal vectors. The main normal vector extracting step S210 is a step of calculating a local vector in the local plane of the input image as the local normal vector, clustering the calculated local normal vector, and determining the main normal vector among the clustered vectors .

면 추출 단계(S220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다.The surface extracting step S220 collects pixels having the main normal vector from the input image, and clusters the collected pixels to extract the principal surface corresponding to the main normal vector.

행동 목록 설정 단계(S300)는 주요 면 인식 단계(S310), 목록 설정 단계(S320)를 포함할 수 있다.The behavior list setting step S300 may include a main face recognizing step S310 and a list setting step S320.

도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.11 is a detailed flowchart of the action list setting step (S300).

주요 면 인식 단계(S310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다.The main face recognizing step (S310) receives the object recognition information including the position information of the object existing in the input image and the semantic information of the object, Recognize the meaning of the main plane.

목록 설정 단계(S320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다.In the list setting step S320, the object corresponding to the meaning of the main surface is searched in the object-behavior relationship model in which the relationship between the object and the behavior is defined in advance, and the behavior related to the searched object is determined in the object- And sets the behavior list of the main surface according to the extracted behavior.

여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 여기서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다.Here, the object-behavior relationship model may be a model in which, for at least one or more objects, at least one of the behaviors related to the object is predefined for each object. Here, the object-behavior relationship model may be a graph model that shows the relationship between the object and the behavior as a connection graph between nodes and edges.

행동 인식 단계(S400)는 행동 위치 검출 단계(S410), 주요 면 선택 단계(S420), 사용자 행동 인식 단계(S430)를 포함할 수 있다.The behavior recognition step S400 may include a behavior position detection step S410, a main surface selection step S420, and a user behavior recognition step S430.

도 12는 행동 인식 단계(S400)의 세부 흐름도이다.12 is a detailed flowchart of the behavior recognition step (S400).

행동 위치 검출 단계(S410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.The action position detection step (S410) detects the position where the action of the user occurs in the input image.

주요 면 선택 단계(S420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다.In the main surface selection step S420, the main surface corresponding to the position where the user's action occurs is selected.

사용자 행동 인식 단계(S430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.The user behavior recognition step S430 recognizes the behavior of the user based on the behavior list of the selected main surface.

여기서 주요 면 선택 단계(S420)는 상기 주요 면 추출 단계에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.Here, the main surface selection step S420 may select the main surface located within a predetermined distance from the main surface extracted from the main surface extraction step, from where the user's action occurred.

여기서 사용자 행동 인식 단계(S430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.Here, the user behavior recognition step (S430) may determine at least one candidate behavior by recognizing the user's action or attitude in the input image, and determine the candidate behavior corresponding to the behavior included in the behavior list And can be recognized as the behavior of the user.

본 발명의 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S1000), 행동 목록 설정 단계(S2000), 행동 인식 단계(S3000)를 포함할 수 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 7 내지 도 8을 참조하면서 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.The behavior recognition method according to another embodiment of the present invention may include an object recognition step S1000, a behavior list setting step S2000, and a behavior recognition step S3000. Here, the behavior recognition method according to the embodiment can operate in the same manner as the behavior recognition apparatus according to an embodiment of the present invention described with reference to FIGS. 7 to 8.

도 13은 상기 또 다른 실시예에 따른 행동 인식 방법의 흐름도이다.13 is a flowchart of a behavior recognition method according to another embodiment of the present invention.

객체 검출 단계(S1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 행동 목록 설정 단계(S2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다. 행동 인식 단계(S3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 목록 설정 단계(S2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.The object detection step S1000 detects and recognizes at least one object in the input image. The behavior list setting step S2000 sets a list of possible actions for the recognized object. The behavior recognition step S3000 selects the object corresponding to the position where the user's action occurred in the input image and recognizes the behavior of the user based on the behavior list of the selected object. Here, the behavior list setting step (S2000) searches the object corresponding to the recognized object in an object-behavior relationship model in which a relation between the object and behavior is defined in advance, and transmits the behavior related to the searched object to the object- And can set the behavior list of the object according to the extracted behavior.

여기서 행동 인식 단계(S3000)는 행동 위치 검출 단계(S3100), 객체 선택 단계(S3200), 사용자 행동 인식 단계(S3300)를 포함할 수 있다. 도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.Here, the behavior recognition step S3000 may include a behavior position detection step S3100, an object selection step S3200, and a user behavior recognition step S3300. 14 is a detailed flowchart of the behavior recognition step (S3000).

행동 위치 검출 단계(S3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 객체 선택 단계(S3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택 단계(S3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다. 사용자 행동 인식 단계(S3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식 단계(S3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.The action position detecting step (S3100) detects the position where the user's action occurs in the input image. In the object selection step S3200, the object corresponding to the position where the action of the user occurs is selected. Here, the object selection step S3200 may select the object located within a predetermined distance from the position where the user's action occurred, among the objects of the input image. The user behavior recognition step S3300 recognizes the behavior of the user based on the behavior list of the selected object. Here, the user behavior recognition step S3300 may include determining at least one candidate behavior by recognizing the user's behavior or attitude in the input image, and determining the candidate behavior corresponding to the behavior included in the behavior list among the determined candidate behavior And can be recognized as the behavior of the user.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. It is to be understood that the present invention is not limited to these embodiments, and all elements constituting the embodiment of the present invention described above are described as being combined or operated in one operation. That is, within the scope of the present invention, all of the components may be selectively coupled to one or more of them.

또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.In addition, although all of the components may be implemented as one independent hardware, some or all of the components may be selectively combined to perform a part or all of the functions in one or a plurality of hardware. As shown in FIG. In addition, such a computer program may be stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, etc., and read and executed by a computer to implement an embodiment of the present invention. As the recording medium of the computer program, a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like can be included.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Furthermore, all terms including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs, unless otherwise defined in the Detailed Description. Commonly used terms, such as predefined terms, should be interpreted to be consistent with the contextual meanings of the related art, and are not to be construed as ideal or overly formal, unless expressly defined to the contrary.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.It will be apparent to those skilled in the art that various modifications, substitutions and substitutions are possible, without departing from the scope and spirit of the invention as disclosed in the accompanying claims. will be. Therefore, the embodiments disclosed in the present invention and the accompanying drawings are intended to illustrate and not to limit the technical spirit of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments and the accompanying drawings . The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

100 : 객체 인식부
200 : 주요 면 추출부
300 : 행동 목록 설정부
400 : 행동 인식부
100: Object recognition unit
200: main surface extracting unit
300: Action list setting section
400:

Claims (20)

행동 인식 장치에 있어서,
입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부;
상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및
상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
A behavior recognition apparatus comprising:
A main surface extracting unit for extracting at least one major surface from an input image;
An action list setting unit for recognizing the meaning of the extracted main surface and setting a list of possible actions for each extracted main surface according to the recognized meaning of the main surface; And
And a behavior recognition unit for selecting the main surface corresponding to a position where a user's behavior occurs in the input image and recognizing the behavior of the user based on the behavior list of the selected main surface Recognition device.
제1항에 있어서,
상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출하는 것을 특징으로 하는 행동 인식 장치.
The method according to claim 1,
Wherein the main surface extracting unit extracts at least one main normal vector from the input image and extracts each region corresponding to the extracted main vector from the input image as the main surface.
제2항에 있어서, 상기 주요 면 추출부는,
상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
3. The apparatus according to claim 2,
And a main normal vector extracting unit for calculating a local normal vector from the input image and determining the main normal vector among the calculated local normal vectors.
제3항에 있어서,
상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정하는 것을 특징으로 하는 행동 인식 장치.
The method of claim 3,
Wherein the main normal vector extracting unit calculates a normal vector in the local plane of the input image as the local normal vector, clusters the calculated local normal vectors, and determines the main normal vector from among the clustered vectors .
제2항에 있어서, 상기 주요 면 추출부는,
상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
3. The apparatus according to claim 2,
And a plane extracting unit for collecting pixels having the main normal vector from the input image and clustering the collected pixels to extract the principal plane corresponding to the principal normal vector.
제1항에 있어서,
상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
The method according to claim 1,
Wherein the behavior list setting unit receives the object recognition information including the location information of the object existing in the input image and the semantic information of the object and receives the object recognition information including the semantic information of the main surface And a main plane recognizing unit for recognizing the meaning of the motion.
제1항에 있어서,
상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함하는 것을 특징으로 하는 행동 인식 장치.
The method according to claim 1,
Wherein the behavior list setting unit searches the object corresponding to the meaning of the main surface in an object-behavior relationship model in which a relation between an object and behavior is defined in advance and extracts an action related to the searched object from the object- And a list setting unit for setting the behavior list of the main surface according to the extracted behavior.
제7항에 있어서,
상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 하는 행동 인식 장치.
8. The method of claim 7,
Wherein the object-behavior relationship model is a model in which at least one or more of the behaviors relating to the object for each of the at least one object are defined in advance.
제1항에 있어서,
상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함하는 것을 특징으로 하는 행동 인식 장치.
The method according to claim 1,
Further comprising an object recognition unit for detecting and recognizing an object in the input image or the separate input image.
제9항에 있어서,
상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정하는 것을 특징으로 하는 행동 인식 장치.
10. The method of claim 9,
Wherein the object recognition unit sets position information in the input image of the detected object and sets semantic information of the recognized object.
제1항에 있어서, 상기 행동 인식부는,
상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;
상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및
상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
The apparatus according to claim 1,
A behavior position detection unit for detecting a position where the user's behavior occurs in the input image;
A main surface selection unit for selecting the main surface corresponding to a position where the behavior of the user occurs; And
And a user behavior recognition unit for recognizing the behavior of the user based on the behavior list of the selected main surface.
제11항에 있어서,
상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택하는 것을 특징으로 하는 행동 인식 장치.
12. The method of claim 11,
Wherein the main surface selecting unit selects the main surface located within a predetermined distance from a position where the user's action occurred, from among the major surfaces extracted by the main surface extracting unit.
제11항에 있어서,
상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
12. The method of claim 11,
Wherein the user behavior recognizing unit recognizes at least one candidate behavior by recognizing the user's action or attitude in the input image, selects the candidate behavior corresponding to the action included in the behavior list among the determined candidate actions, And recognizes it as a behavior of the user.
행동 인식 장치에 있어서,
입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부;
상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및
상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
A behavior recognition apparatus comprising:
An object recognition unit for detecting and recognizing at least one object in an input image;
An action list setting unit for setting an action list that can be generated with respect to the recognized object; And
And a behavior recognition unit for selecting the object corresponding to a position at which the user's action occurred in the input image and recognizing the behavior of the user based on the behavior list of the selected object, .
제14항에 있어서,
상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정하는 것을 특징으로 하는 행동 인식 장치.
15. The method of claim 14,
Wherein the behavior list setting unit searches the object corresponding to the recognized object in an object-behavior relationship model in which a relation between an object and behavior is defined in advance, extracts an action related to the searched object from the object- And sets the behavior list of the object according to the extracted behavior.
제1항에 있어서, 상기 행동 인식부는,
상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;
상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및
상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
The apparatus according to claim 1,
A behavior position detection unit for detecting a position where the user's behavior occurs in the input image;
An object selection unit for selecting the object corresponding to a position where the action of the user occurs; And
And a user behavior recognition unit for recognizing the behavior of the user based on the behavior list of the selected object.
제16항에 있어서,
상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택하는 것을 특징으로 하는 행동 인식 장치.
17. The method of claim 16,
Wherein the object selecting unit selects the object located within a predetermined distance from a position where the action of the user occurs, among the objects of the input image.
제16항에 있어서,
상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
17. The method of claim 16,
Wherein the user behavior recognizing unit recognizes at least one candidate behavior by recognizing the user's action or attitude in the input image, selects the candidate behavior corresponding to the action included in the behavior list among the determined candidate actions, And recognizes it as a behavior of the user.
행동 인식 방법에 있어서,
입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계;
상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및
상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.
In the behavior recognition method,
A main surface extracting step of extracting at least one major surface from an input image;
An action list setting step of recognizing the meaning of the extracted main surface and setting a list of possible actions for each extracted main surface according to the recognized meaning of the main surface; And
And a behavior recognition step of selecting the main surface corresponding to the position where the user's behavior occurred in the input image and recognizing the behavior of the user based on the behavior list of the selected main surface Recognition method.
행동 인식 방법에 있어서,
입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계;
상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및
상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.
In the behavior recognition method,
An object recognition step of detecting and recognizing at least one object in an input image;
An action list setting step of setting an action list that can be generated with respect to the recognized object; And
And a behavior recognition step of selecting the object corresponding to a position where a user's behavior occurred in the input image and recognizing the behavior of the user based on the behavior list of the selected object .
KR1020150176637A 2015-12-11 2015-12-11 Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model KR101758693B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150176637A KR101758693B1 (en) 2015-12-11 2015-12-11 Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model
PCT/KR2016/000730 WO2017099292A1 (en) 2015-12-11 2016-01-22 Object-activity relationship model-based activity recognition method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150176637A KR101758693B1 (en) 2015-12-11 2015-12-11 Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model

Publications (2)

Publication Number Publication Date
KR20170070298A true KR20170070298A (en) 2017-06-22
KR101758693B1 KR101758693B1 (en) 2017-07-19

Family

ID=59013311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150176637A KR101758693B1 (en) 2015-12-11 2015-12-11 Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model

Country Status (2)

Country Link
KR (1) KR101758693B1 (en)
WO (1) WO2017099292A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020196985A1 (en) * 2019-03-27 2020-10-01 연세대학교 산학협력단 Apparatus and method for video action recognition and action section detection
KR20200119386A (en) * 2019-03-26 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity area in video

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102682898B1 (en) 2021-12-20 2024-07-05 한양대학교 산학협력단 Method and Apparatus for Recognizing Human Action Utilizing Tool Information

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5278770B2 (en) * 2007-02-08 2013-09-04 ビヘイヴィアラル レコグニション システムズ, インコーポレイテッド Behavior recognition system
KR101023951B1 (en) * 2009-03-17 2011-03-28 한국과학기술원 motion recognition system and method
KR20150029006A (en) * 2012-06-29 2015-03-17 비헤이버럴 레코그니션 시스템즈, 인코포레이티드 Unsupervised learning of feature anomalies for a video surveillance system
KR102217253B1 (en) * 2014-02-24 2021-02-17 주식회사 케이티 Apparatus and method for analyzing behavior pattern
KR101512048B1 (en) * 2014-04-14 2015-04-15 한국과학기술원 Action recognition method and apparatus based on sparse representation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119386A (en) * 2019-03-26 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity area in video
WO2020196985A1 (en) * 2019-03-27 2020-10-01 연세대학교 산학협력단 Apparatus and method for video action recognition and action section detection
KR20200119391A (en) * 2019-03-27 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity duration in video

Also Published As

Publication number Publication date
KR101758693B1 (en) 2017-07-19
WO2017099292A1 (en) 2017-06-15

Similar Documents

Publication Publication Date Title
US7308112B2 (en) Sign based human-machine interaction
Lin et al. Shape-based human detection and segmentation via hierarchical part-template matching
Bregonzio et al. Recognising action as clouds of space-time interest points
EP2544149A1 (en) Moving-body detection device, moving-body detection method, moving-body detection program, moving-body tracking device, moving-body tracking method, and moving-body tracking program
Suau et al. Real-time head and hand tracking based on 2.5 D data
CN104123529B (en) human hand detection method and system
Zhang et al. Efficient pedestrian detection via rectangular features based on a statistical shape model
Rahman et al. Recognising human actions by analysing negative spaces
KR101279561B1 (en) A fast and accurate face detection and tracking method by using depth information
JP2014093023A (en) Object detection device, object detection method and program
CN104850219A (en) Equipment and method for estimating posture of human body attached with object
JP2007034525A (en) Information processor, information processing method and computer program
KR101758693B1 (en) Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model
Itkarkar et al. A survey of 2D and 3D imaging used in hand gesture recognition for human-computer interaction (HCI)
Yao et al. A robust pedestrian detection approach based on shapelet feature and Haar detector ensembles
Chai et al. Robust hand gesture analysis and application in gallery browsing
JP7409499B2 (en) Image processing device, image processing method, and program
WO2017170875A1 (en) Image recognition device and image recognition program
CN109978829B (en) Detection method and system for object to be detected
KR101685138B1 (en) Apparatus and Method of User Interface in Real Space
KR101909326B1 (en) User interface control method and system using triangular mesh model according to the change in facial motion
JP2015049702A (en) Object recognition device, object recognition method, and program
Rosten High performance rigid body tracking
Jacques et al. Improved head-shoulder human contour estimation through clusters of learned shape models
KR102650594B1 (en) Object and keypoint detection system with low spatial jitter, low latency and low power usage

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant