KR101930940B1 - Apparatus and method for analyzing image - Google Patents
Apparatus and method for analyzing image Download PDFInfo
- Publication number
- KR101930940B1 KR101930940B1 KR1020170092221A KR20170092221A KR101930940B1 KR 101930940 B1 KR101930940 B1 KR 101930940B1 KR 1020170092221 A KR1020170092221 A KR 1020170092221A KR 20170092221 A KR20170092221 A KR 20170092221A KR 101930940 B1 KR101930940 B1 KR 101930940B1
- Authority
- KR
- South Korea
- Prior art keywords
- context
- feature
- image
- vector
- extracting
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G06K9/00711—
-
- G06K9/481—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/61—Scene description
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 영상 분석 장치 및 방법에 관한 것이다. 보다 자세하게는 신경망(neural network)을 이용하여 영상을 분석하는 과정에서, 이러한 영상이 나타내는 장소나 시간과 같은 컨텍스트(context)를 참조하여서 해당 영상을 분석하는 장치 및 방법에 관한 것이다.The present invention relates to an image analysis apparatus and method. More particularly, the present invention relates to an apparatus and method for analyzing a corresponding image by referring to a context such as a place and a time represented by the image in a process of analyzing the image using a neural network.
머신러닝(machine learning)의 한 종류인 딥러닝(deep learning)의 발달은 영상 인식 분야를 비약적으로 발전시키고 있다. 이러한 영상 인식의 한 분야인 영상 분류(classification)는 영상을 단어나 문장을 통해 하나의 카테고리로 분류하는 기술이고, 또 다른 분야인 객체 검출(object detection)은 영상에 존재하는 객체가 무엇인지 그리고 해당 객체가 영상에서 어느 위치에 있는지를 파악하여서 표현하는 기술이다. The development of deep learning, a type of machine learning, has dramatically improved the field of image recognition. The classification of image, which is an area of image recognition, is a technique of classifying an image into a category through words or sentences. Another field, object detection, is an object in an image, It is a technique to identify and express the position of an object in an image.
도 1은 제1 영상에 대하여 전술한 영상 분류를 수행한 결과를 도시하고 있다. 영상 분류가 수행된 결과, 제1 영상은 '고양이'로 분류된다. FIG. 1 shows a result of performing the image classification on the first image. As a result of image classification, the first image is classified as 'cat'.
도 2는 제2 영상에 대하여 전술한 객체 검출을 수행한 결과를 도시하고 있다. 객체 검출이 수행된 결과, 제2 영상에는 '고양이, 강아지, 오리'가 객체로서 존재하는데, 이 때 각각의 객체가 존재하는 위치는 바운딩 박스(bounding box)로서 표시된다.FIG. 2 shows a result of performing the above-described object detection on the second image. As a result of object detection, 'cat, dog, duck' exists as an object in the second image, and the position where each object exists is displayed as a bounding box.
이 중 객체 검출의 경우, 영상에 존재하는 객체를 문장으로 표현하는 수준까지 그 기술이 발전하였다. 객체 검출에 따른 결과를 문장으로 표현하는 기술은 'dense captioning'이라고 지칭되기도 한다. 이러한 dense captioning에 대한 결과를 도 3에서 예를 들어 도시하고 있다. 도 3을 참조하면, 제3 영상은 '오렌지 점박이 고양이가 빨간 바퀴를 갖는 스케이트 보드를 타고 있다....'와 같은 문장으로 표현된다.In the case of object detection, the technique has developed to the level of expressing objects existing in the image in sentences. The technique of expressing the result of object detection by sentence is called 'dense captioning'. The results of such dense captioning are shown in FIG. 3 by way of example. Referring to FIG. 3, the third image is expressed by a sentence such as 'An orange spotted cat is riding a skateboard having a red wheel...'.
전술한 바와 같이 객체 검출의 경우, 영상에 존재하는 객체가 무엇인지, 그리고 해당 객체가 어떠한 위치에 있는지 등이 단어나 문장으로 표현된다. As described above, in the case of object detection, what an object exists in an image and in which position the object is located are expressed by words or sentences.
여기서, 본 발명의 해결하고자 하는 과제는, 이러한 객체 검출에 있어서 그 결과의 정확성을 향상시키고 아울러 효율성 또한 증진시키는 방안을 제안하는 것이다.The object of the present invention is to propose a method of improving the accuracy of the result of detection of the object and improving the efficiency.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description of the present invention are exemplary and explanatory and are intended to provide further explanation of the invention as claimed. will be.
일 실시예에 따른 영상 분석 장치는 신경망에 의하여 학습된 것이며, 영상의 특징맵(feature map)을 생성하는 특징맵 생성부와, 상기 특징맵을 기초로, 상기 영상에서 객체의 존재가 추정되는 영역을 추출하는 영역 추출부와, 상기 영역에 대한 특징을 추출하는 특징 추출부와, 상기 영상에 대한 컨텍스트(context)를 추출하는 컨텍스트 추출부와, 상기 영역에 대한 특징에 상기 컨텍스트를 반영하여서 컨텍스트 기반 특징을 생성하고, 상기 컨텍스트 기반 특징을 기초로 상기 영역에 대한 설명(caption)을 생성하여서 출력되도록 하는 설명 생성부를 포함한다.An image analyzing apparatus according to an exemplary embodiment of the present invention includes a feature map generating unit that is learned by a neural network and generates a feature map of an image, A context extracting unit for extracting a feature of the region, a context extracting unit for extracting a context for the image, and a context extracting unit for extracting a context from the feature of the region, And generating a caption for the region based on the context-based feature and outputting the caption.
일 실시예에 따르면 영상에 존재하는 객체에 대한 설명을 생성하는 과정에서, 해당 영상이 나타내는 장소나 해당 영상이 나타내는 시간에 대한 컨텍스트가 고려될 수 있다. 여기서, '컨텍스트를 고려한다'는 것은 이러한 컨텍스트가 객체를 검출하는 과정 내지는 객체에 대한 설명을 생성하는 과정에서 한정사항으로 작용할 수 있다는 의미이다. 예컨대 검출된 객체로부터 복수 개의 설명이 생성되었을 때, 컨텍스트는 이들 복수 개의 설명 중 어느 하나를 선택하는 기준으로 작용할 수 있다. 또는 컨텍스트와 부합되는 설명만이 도출될 수 있도록 할 수도 있다. 또한 검출된 객체로부터 획득 가능한 정보의 양이 적을 경우, 컨텍스트는 해당 객체에 대한 정보 그 자체가 될 수도 있다. 즉, 컨텍스트가 고려될 경우, 객체 검출에 있어서 정확성, 효율성 또는 속도가 향상될 수 있다. According to an exemplary embodiment of the present invention, in the process of generating a description of an object existing in an image, a context for a location indicated by the image or a time indicated by the corresponding image may be considered. Here, 'considering the context' means that this context can act as a limitation in the process of detecting the object or in the process of generating the description of the object. For example, when a plurality of explanations have been generated from a detected object, the context may act as a criterion for selecting any of these explanations. Or only a description that is consistent with the context may be derived. Also, when the amount of information obtainable from the detected object is small, the context may be the information about the object itself. That is, when the context is considered, accuracy, efficiency, or speed in object detection can be improved.
도 1은 영상 분류(classification)의 결과를 예시적으로 도시한 도면이다.
도 2는 영상에 대한 객체 검출(object detection)의 결과를 예시적으로 도시한 도면이다.
도 3은 영상에 대한 객체 검출의 또 다른 결과를 예시적으로 도시한 도면이다.
도 4는 일 실시예에 따른 영상 분석 장치의 구성을 예시적으로 도시한 도면이다.
도 5는 일 실시예에 따른 영상 분석 장치의 구성을 예시적으로 도시한 도면이다.
도 6은 컨볼루션 신경망으로부터 특징맵이 생성되는 과정과, 이러한 특징맵을 기초로 영상 분류(classification)가 수행되는 과정을 개념적으로 도시한 도면이다.
도 7은 영상에 대한 특징맵을 개념적으로 도시한 도면이다.
도 8은 도 7에 도시된 특징맵에서 객체의 존재가 추정되는 영역이 구분되어 있는 것을 도시하고 있다.
도 9는 도 8에 도시된 각각의 영역에 대응되는 특징 벡터를 개념적으로 도시하고 있다.
도 10은 일 실시예에 따른 결합 벡터를 개념적으로 도시하고 있다.
도 11은 일 실시예에 따른 결합 벡터를 개념적으로 도시하고 있다.
도 12는 일 실시예에 따른 영상 분석 방법의 절차를 예시적으로 도시하고 있다.FIG. 1 is a view showing an exemplary result of image classification.
Fig. 2 is an exemplary diagram illustrating the result of object detection for an image.
Figure 3 is an exemplary illustration of another result of object detection for an image.
4 is a diagram illustrating an exemplary configuration of an image analysis apparatus according to an exemplary embodiment of the present invention.
5 is a diagram illustrating an exemplary configuration of an image analysis apparatus according to an embodiment.
6 is a diagram conceptually illustrating a process of generating a feature map from the convolutional neural network and a process of performing image classification based on the feature map.
7 is a diagram conceptually showing a feature map for an image.
FIG. 8 shows regions where the existence of an object is estimated in the feature map shown in FIG. 7. FIG.
FIG. 9 conceptually shows feature vectors corresponding to the respective regions shown in FIG.
10 conceptually illustrates a joint vector according to one embodiment.
Figure 11 conceptually illustrates a joint vector according to one embodiment.
FIG. 12 exemplarily shows a procedure of an image analysis method according to an embodiment.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention, and the manner of achieving them, will be apparent from and elucidated with reference to the embodiments described hereinafter in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions in the embodiments of the present invention, which may vary depending on the intention of the user, the intention or the custom of the operator. Therefore, the definition should be based on the contents throughout this specification.
도 4는 일 실시예에 따른 영상 분석 장치의 구성을 예시적으로 도시한 도면이다. 도 4에 대한 설명에 앞서, 영상 분석 장치(1000)는 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리, 그리고 이러한 명령어를 실행하는 마이크로프로세서를 포함하는 컴퓨터에서 구현 가능하다.4 is a diagram illustrating an exemplary configuration of an image analysis apparatus according to an exemplary embodiment of the present invention. 4, the
도 4를 참조하면, 영상 분석 장치(1000)는 입력부(100), 분석부(200), 저장부(300), 학습부(400) 및 출력부(500)를 포함할 수 있되, 실시예에 따라서 이 중 적어도 하나의 구성을 포함하지 않거나 또는 언급되지 않은 추가적인 구성을 더 포함할 수 있다. 4, the
입력부(100)는 외부로부터 영상을 입력받는다. 여기서의 '외부'는 영상을 촬영하는 촬영장치 또는 이미 촬영된 영상을 저장하고 있는 메모리일 수 있다. 입력부(100)는 이러한 '외부'와 연결되기 위한 포트(port)를 포함할 수 있다.The
분석부(200)는 영상을 분류(classification)한다. 분류의 기준에는 예컨대 해당 영상이 나타내는 장소가 어디인지 또는 해당 영상이 촬영된 시간이 언제인지 등이 포함될 수 있으나 이에 한정되는 것은 아니다. The
분석부(200)는 분류에 따른 결과를, 해당 영상에 대한 컨텍스트(context)로서 설정한다. 예컨대, 제1 영상이 나타내는 장소가 부엌으로 분류될 경우 분석부(200)는 부엌을 제1 영상에 대한 컨텍스트로 설정할 수 있고, 제2 영상이 나타내는 장소가 야구장으로 분류될 경우, 분석부(200)는 야구장을 제2 영상에 대한 컨텍스트로 설정할 수 있다. 또한, 제3 영상이 나타내는 시간이 새벽인 경우, 분석부(200)는 새벽을 제3 영상에 대한 컨텍스트로 설정할 수 있다. 즉, 컨텍스트란 영상에 대한 정황을 의미한다.The
분석부(200)는 전술한 컨텍스트를 고려하여서 해당 영상에 대한 객체 검출(object detection)을 수행한다. 이러한 분석부(200)에 대해서는 도 5에서 보다 자세하게 살펴보기로 한다.The
저장부(300)는 영상을 저장한다. 저장부(300)에 저장된 영상은 분석부(200)의 학습(딥러닝)에 사용되거나 또는 분석부(200)에 의해서 '객체 검출'의 대상이 되는 영상일 수 있다. 이러한 저장부(300)는 메모리를 통해 구현 가능하다.The
학습부(400)는 저장부(300)에 저장된 영상을 이용하여서 분석부(200)를 학습시킨다. 학습부(400)가 학습시키는 대상에는 예컨대 영상에 대한 특징맵을 생성할 때 이용되는 파라미터, 영상으로부터 컨텍스트를 추출할 때 이용되는 파라미터, 영상에서 객체의 존재가 추정되는 영역을 추출할 때 이용되는 파라미터, 객체의 존재가 추정되는 영역으로부터 특징을 추출할 때 이용되는 파라미터, 전술한 특징을 기초로 설명(caption)을 생성할 때 이용되는 파라미터 등이 있을 수 있으나 이에 한정되는 것은 아니다. 학습부(400)가 학습에 사용하는 알고리즘 내지는 학습의 대상에 대해서는 뒤에 보다 자세하게 설명하기로 한다.The
여기서, 전술한 분석부(200)는 학습부(400)에 의하여 이미 학습된 것일 수 있다. 즉, 일 실시예에 따른 영상 분석 장치(1000)는, 학습부(400)에 의하여 이미 학습이 완료된 분석부(200)를 이용하여서 영상에 대한 분석을 수행할 수 있다.Here, the
출력부(500)는 영상 자체에 대한 설명 내지는 해당 영상의 객체에 대한 설명(caption)을 출력한다. 설명이란 단어 또는 단어를 포함하는 문장으로 구성된다. 이러한 출력부(500)는 영상과 텍스트를 표시할 수 있는 모니터 등으로 구현 가능하다.The
이상에서 살펴본 바와 같이, 영상으로부터 객체를 검출하고 해당 객체에 대한 설명(caption)을 생성함에 있어서, 일 실시예에서는 해당 영상을 분류(classification)하여서 컨텍스트를 추출하고, 이러한 컨텍스트를 고려하여서 객체를 검출하고 설명을 생성한다. 여기서, '컨텍스트를 고려한다'는 것은 이러한 컨텍스트가 객체를 검출하는 과정 내지는 객체에 대한 설명을 생성하는 과정에서 한정사항으로 작용할 수 있다는 의미이다. 예컨대 검출된 객체로부터 복수 개의 설명이 생성되었을 때, 컨텍스트는 이들 복수 개의 설명 중 어느 하나를 선택하는 기준으로 작용할 수 있다. 또는 컨텍스트와 부합되는 설명만이 도출될 수 있도록 할 수도 있다. 또한 검출된 객체로부터 획득 가능한 정보의 양이 적을 경우, 컨텍스트는 해당 객체에 대한 정보 그 자체가 될 수도 있다. 즉, 컨텍스트가 고려될 경우, 객체 검출에 있어서 정확성, 효율성 또는 속도가 향상될 수 있다. As described above, in detecting the object from the image and generating a caption for the object, in one embodiment, the corresponding image is classified to extract the context, and the object is detected in consideration of the context And generates a description. Here, 'considering the context' means that this context can act as a limitation in the process of detecting the object or in the process of generating the description of the object. For example, when a plurality of explanations have been generated from a detected object, the context may act as a criterion for selecting any of these explanations. Or only a description that is consistent with the context may be derived. Also, when the amount of information obtainable from the detected object is small, the context may be the information about the object itself. That is, when the context is considered, accuracy, efficiency, or speed in object detection can be improved.
도 5는 일 실시예에 따라서, 분석부(200)의 세부 구성이 도시된 영상 분석 장치(1000)의 구성을 예시적으로 도시하고 있다. 다만, 도 5는 영상 분석 장치(1000) 및 이에 포함된 구성을 예시적으로 도시하고 있는 것에 불과하므로, 본 발명의 사상이 도 5에 도시된 것으로 한정해석되지 않는다.FIG. 5 illustrates an exemplary configuration of an
도 5를 참조하면, 분석부(200)는 특징맵 생성부(210), 추출부(220), 컨텍스트 추출부(250), 설명 생성부(260)를 포함할 수 있으며, 이 때 추출부(220)는 영역 추출부(230)와 특징 추출부(240)를 포함할 수 있다.5, the
특징맵 생성부(210)는 영상으로부터 특징맵(feature map)을 생성한다. 특징맵은 영상에서 의미있는 정보, 예컨대 영상의 윤곽, 광도, 색채, 영상 내에 존재하는 객체의 형태 등을 정보로서 포함한다.The feature
특징맵 생성부(210)는, 딥러닝(Deep learning)을 기반으로 학습부(400)에 의하여 이미 학습이 완료된 모델을 이용하여서 특징맵을 생성할 수 있다. 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의된다. The feature
특징맵 생성부(210)가 이용하는 모델은 이러한 딥러닝의 모델 중 예컨대 심층 신경망(Deep Neural Networks, DNN), 컨볼루션 신경망 (Convolutional deep Neural Networks, CNN), 순환 신경망(Reccurent Neural Network, RNN) 및 심층 신뢰 신경 망(Deep Belief Networks, DBN) 중 어느 하나를 이용한 것일 수 있으며, 다만 이하에서는 컨볼루션 신경망을 이용하는 것으로 전제하고 설명하기로 한다.Deep Neural Networks (DNN), Convolutional Deep Neural Networks (CNN), Reccurent Neural Networks (RNN), and the like are examples of models used by the feature
컨볼루션 신경망에 대하여 간략하게 살펴보면, 컨볼루션 신경망은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. 컨볼루션 신경망은 입력 영상에 대하여 컨볼루션을 수행하는 컨볼루션 계층, 그리고 영상에 대해 서브샘플링(subsampling)을 수행하는 서브샘플링 계층을 포함하며, 해당 영상으로부터 특징맵을 추출한다. 여기서, 서브샘플링 계층이란 입력 영상에 대해 지역적으로 최대값을 추출하여서 2차원 영상으로 맵핑하는 계층을 의미한다.Concerning a convolutional neural network, a convolutional neural network is a kind of multilayer perceptrons designed to use minimal preprocessing. The convolutional neural network includes a convolutional layer that performs convolution with respect to an input image, and a subsampling layer that performs subsampling with respect to the image, and extracts a feature map from the image. Here, the subsampling layer refers to a layer that extracts a maximum value locally for an input image and maps the extracted maximum value to a two-dimensional image.
도 6은 전술한 컨볼루션 신경망의 구조, 이로부터 특징맵이 추출되는 과정 그리고 영상을 분류(classification)하는 과정을 예시적으로 도시하고 있다. 도 6에 도시된 (a)부터 (h)까지의 과정 중에서 특징맵 생성부(210)는 (a) 부터 (f)까지의 과정을 특징맵 생성에 사용한다. 참고로, (g)는 특징 추출부(240) 및 컨텍스트 추출부(250)에서 사용하고, (h)는 컨텍스트 추출부(250)에서 사용하는바, 이들에 대해서는 특징 추출부(240) 및 컨텍스트 추출부(250)에 대한 설명에서 보다 자세하게 살펴보기로 한다.FIG. 6 exemplarily shows a structure of the convolution neural network, a process of extracting a feature map from the convolution neural network, and a process of classifying an image. Among the processes from (a) to (h) shown in FIG. 6, the feature
도 6에 도시된 컨볼루션 신경망의 구조에 대해 먼저 살펴보면, 컨볼루션 신경망은 복수 개의 컨볼루션 계층(convolution layer)(도 6에서 (b), (d), (f)), 복수 개의 서브샘플링 계층(max-pooling layer)(도 6에서 (c),(e)), 완전 연결 계층(fully-connected layer)(도 6에서 (g))을 포함한다. 여기서 컨볼루션 신경망을 이루는 각각의 구조에 대한 것은 이미 공지되어 있으므로, 이에 대한 설명은 생략하기로 한다.6, the convolutional neural network includes a plurality of convolution layers ((b), (d), and (f) in FIG. 6), a plurality of convolutional neural networks (c), (e) in FIG. 6) and a fully-connected layer (FIG. 6 (g)). Here, the structures of the convolutional neural networks are already known, and a description thereof will be omitted.
다음으로 특징맵의 추출 과정에 대해 예를 들어 살펴보자. 32 x 32 해상도를 갖는 영상(101)이 입력부(100)를 통해 입력된 경우를 가정한다(a). 이러한 영상(101)에 컨볼루션 커널(convolution kernel)(102)를 이용하는 컨볼루션 계층이 적용되면, 영상보다 작은 크기의 특징맵이 복수 개 생성된다(b). (b)의 경우, 컨볼루션 커널은 크기가 5 x 5인 것 20개가 적용되었으며, 그 결과 28 x 28 크기의 특징맵 20개가 생성되었다. 이후 도시된 바와 같이 (c)부터 (f)까지 거치는 과정에서 서브샘플링 계층과 컨볼루션 계층이 번걸아가면서 적용되고, 그 결과 (f)에서는 3 x 3 크기의 특징맵(211) 20개가 생성된다. Next, let's take an example of the feature map extraction process. Assume that an
도 7은 도 6에와 같은 컨볼루션 신경망에서, (a)부터 (f)까지를 거치면서 특징맵이 생성되었을 때, 이러한 특징맵을 3차원 텐서(tensor)의 형태로서 도시하고 있다. 입력된 영상(101)이 W(width) x H(height)의 해상도를 가질 때, 이러한 영상(101)이 특징맵 생성부(210)의 컨볼루션 신경망에서 (a) 부터 (f)까지를 거치면, 입력된 영상(101)보다 크기가 작은 W' x H' 크기의 특징맵 C개가 생성된다. 이러한 C개의 특징맵을 적층시키면 도 7에 도시된 것과 같은 특징맵(211)이 3차원 텐서의 형태로 생성된다.FIG. 7 shows such a feature map in the form of a three-dimensional tensor when a feature map is generated through (a) to (f) in the convolutional neural network as shown in FIG. When the
다시 도 5로 돌아오면, 추출부(220)는 영상에서 객체가 존재할 것으로 추정되는 영역을 추출하고, 이와 같이 추출된 영역으로부터 특징을 추출한다. 이러한 추출부(220)는 영역 추출부(230)와 특징 추출부(240)를 포함한다. 5, the extracting
영역 추출부(230)에 대하여 먼저 살펴보면, 영역 추출부(230)는 특징맵 추출부(210)가 추출한 특징맵을 기초로, 영상에서 객체의 존재가 추정되는 적어도 하나의 영역을 추출한다. 영역 추출하는 방법에는 예컨대 faster R-CNN, SSD(Single Shot MultiBox Detector), Yolo(You Only Look Once) 등이 있을 수 있는데, 이하에서는 faster R-CNN을 사용하는 것을 전제로 설명하기로 한다. First, the
faster R-CNN의 경우, 영역 추출부(230)는 특징맵 중에서 영상의 영역별 클래스의 좌표를 포함하는 특징맵을 선정하고, 이와 같이 선정된 특징맵으로부터 영역을 구별하는 좌표를 식별한 뒤, 이와 같이 식별된 좌표를 객체의 존재가 추정되는 영역으로 추출할 수 있다.In the case of the faster R-CNN, the
또한, 영역 추출부(230)는 이와 같이 추출된 적어도 하나의 영역 각각에 대해서, 해당 객체의 최외곽을 둘러싸는 바운딩 박스(bounding box)로서 표시할 수 있다. 도 8은 영역 추출부(230)에 의해서 바운딩 박스(232)가 표시된 특징맵(231)을 도시하고 있다. 도 8을 참조하면, 특징맵(231)에는 4개의 바운딩 박스(232)가 표시되어 있다. 여기서, 바운딩 박스(232)의 개수 및 크기는 예시적인 것에 불과하며, 이하에서는 바운딩 박스(232)의 개수를 B개로 나타내기로 한다. 각각의 바운딩 박스(232)는 영상에서 해당 바운딩 박스(232)의 위치에 객체의 존재 가능성이 있음을 나타낸다. In addition, the
다시 도 5를 참조하면, 특징 추출부(240)는 영역 추출부(230)가 추출한 적어도 하나의 영역 각각에 대한 특징을 추출한다. 이를 위해, 특징 추출부(240)는 도 8에 도시된 특징맵(231)으로부터, 바운딩 박스(232)로 표시된 부분을 윗면으로 하고 높이가 C인 벡터를 각각의 바운딩 박스(232)에 대해 추출할 수 있다. 이 후, 특징 추출부(240)는 이와 같이 추출된 벡터를, 도 6에 도시된 컨볼루션 신경망의 구조에서 (g)로 표시된 부분인 완전 결합 계층(fully connected layer)에 통과시킴으로써 1 x D 형태의 벡터(241)로 변환시킨다. 도 9는 이와 같이 생성된 B개의 1 x D 형태의 벡터(241)를 예시적으로 도시하고 있다. 1 x D 형태의 벡터(241)는 특징 벡터 내지는 영역 코드(region code)라고 지칭되기도 하는데, 이러한 특징 벡터(241)에서 개개의 엘리먼트는 해당 벡터가 나타내는 영역의 특징을 나타낸다. Referring again to FIG. 5, the
다시 도 5를 참조하면, 컨텍스트 추출부(250)는 영상에 대한 컨텍스트를 추출한다. 이를 위해, 컨텍스트 추출부(250)는 입력된 영상을 분류(classification)한다. 분류의 기준에는 예컨대 해당 영상이 나타내는 장소가 어디인지 또는 해당 영상이 촬영된 시간이 언제인지 등이 포함될 수 있으나 이에 한정되는 것은 아니다. Referring again to FIG. 5, the
컨텍스트 추출부(250)는 분류에 따른 결과를, 해당 영상에 대한 컨텍스트(context)로서 설정한다. 예컨대, 제1 영상이 나타내는 장소가 부엌으로 분류될 경우 컨텍스트 추출부(250)는 부엌을 제1 영상에 대한 컨텍스트로 설정할 수 있다. 또한, 제2 영상이 나타내는 장소가 야구장으로 분류될 경우, 컨텍스트 추출부(250)는 야구장을 제2 영상에 대한 컨텍스트로 설정할 수 있다. 이와 달리, 제3 영상이 나타내는 시간이 새벽인 경우, 컨텍스트 추출부(250)는 새벽을 제3 영상에 대한 컨텍스트로 설정할 수 있다. 즉, 컨텍스트란 영상에 대한 정황을 의미한다.The
여기서, 컨텍스트 추출부(250)가 영상을 분류하는 방법을 예를 들어 살펴보도록 한다. 제1 방법으로서, 컨텍스트 추출부(250)는 특징맵 생성부(210)가 생성한 특징맵을 도 6에서 (g)로 표시된 부분인 완전 결합 계층(fully connected layer)에 통과시킨다. 그 결과 특징맵(211)은 1 x D' 형태(D'은 자연수)의 벡터(241)로 변환된다. 1 x D' 형태의 벡터(241)는 영상의 분류 결과를 나타내는 컨텍스트 벡터이다. 예컨대, 1 x D' 형태의 벡터(241)는 영상의 장소가 부엌인 경우, 부엌이라는 것을 벡터의 형태로 표현한다. Here, a method of classifying images by the
이와 달리, 제2 방법으로서, 컨텍스트 추출부(250)는 특징맵 생성부(210)가 생성한 특징맵을 도 6에서 (g)로 표시된 부분인 완전 결합 계층(fully connected layer)에 통과시킨다. 그 결과 특징맵(211)은 1 x D' 형태의 벡터(241)로 변환된다. 이어서 컨텍스트 추출부(250)는 1 x D' 형태의 벡터(241)를 도 6에서 (h)로 표시된 부분인 완전 결합된 출력 계층(output layer full-connected)에 통과시킨다. 그 결과 1 x D' 형태의 벡터(241)는 1개의 엘리먼트(251)로 변환된다. 이러한 1개의 엘리먼트(251)는 영상의 분류 결과를 나타내는 컨텍스트 벡터이다. 예컨대, 1개의 엘리먼트(251)는 영상의 장소가 화장실인 경우, 화장실이라는 것을 엘리먼트(251)가 나타낸다.Alternatively, as a second method, the
또 다른 방법인 제3 방법으로서, 입력부(100)는 영상에 대한 장소나 시간에 대한 정보를 외부로부터 입력받고, 컨텍스트 추출부(250)는 이와 같이 입력된 정보를 기초로 해당 영상을 분류할 수도 있다. 이 때, 입력부(100)에 의해 입력된 정보는 제2 방법에 따른 결과와 그 형태가 동일할 수 있다.As a third method, which is another method, the
설명 생성부(260)는 객체에 대한 설명(caption)을 생성한다. 생성되는 설명은 단어 또는 문장일 수 있다. The
설명 생성부(260)는 객체에 대한 설명을 생성할 때 딥러닝의 모델을 이용할 수 있다. 이 때의 모델은, 학습부(400)에 의해서 장단기 메모리(Long Short Term Memory networks, LSTM)에 의하여 이미 학습된 모델일 수 있으나 이에 한정되지 않으며, 다만 이하에서는 장단기 메모리에 의하여 이미 학습된 모델을 사용하는 것을 전제로 설명하기로 한다.The
장단기 메모리에 대한 입력은 컨텍스트 기반 특징이다. 컨텍스트 기반 특징이란 특징 추출부(240)가 추출한 영역에 대한 특징마다 각각, 컨텍스트 추출부(250)가 추출한 해당 영상에 대한 컨텍스트를 반영한 것을 의미한다. 예컨대, 특징 추출부(240)가 추출한 제1 영역이 객체로서 '남자'를 포함하고 있고, 컨텍스트 추출부(250)는 해당 영상에 대한 컨텍스트로서 '부엌'이라는 정보를 가지고 있다면, 이 때의 컨텍스트 기반 특징은 '부엌, 남자'와 같은 형태의 정보를 의미할 수 있다.The inputs to short and long memory are context-based features. The context-based feature means that the
이러한 컨텍스트 기반 특징의 형태에 대해 보다 자세하게 살펴보기로 한다. 우선, 특징 추출부(240)가 추출한 특징 벡터는 도 9에서 설명한 바와 같이 영상에서 B개의 영역 각각에 대해 1 x D 형태를 갖는다. This type of context-based feature will be discussed in more detail. First, the feature vector extracted by the
컨텍스트 추출부(250)가 전술한 제1 방법에 따라 컨텍스트를 추출한 경우, 컨텍스트 벡터는 1 x D' 형태를 갖는다. 이 경우, 설명 생성부(260)는 D개의 엘리먼트를 갖는 특징 벡터와 D'개의 엘리먼트를 갖는 컨텍스트 벡터를 직렬적으로 연결시켜서 1 x (D+D') 형태의 결합 벡터를 생성한다. 만약 D'과 D가 동일하다면, 결합 벡터는 1 x 2D 형태를 갖게 된다. 도 10은 D'과 D가 동일할 때의 결합 벡터(261)에 대하여 예시적으로 도시하고 있다.When the
이와 달리, 컨텍스트 추출부(250)가 전술한 제2 방법 또는 제3 방법에 따라 컨텍스트를 추출한 경우, 컨텍스트 벡터는 1개의 엘리먼트를 통해서 표현된다. 이 경우, 설명 생성부(260)는 D개의 엘리먼트를 갖는 특징 벡터에 1개의 엘리먼트로 표현되는 컨텍스트를 직렬적으로 연결시켜서 1 x (D+1) 형태의 결합 벡터를 생성한다. 도 11은 제2 방법에 따라 컨텍스트가 추출되었을 때의 결합 벡터(262)에 대하여 예시적으로 도시하고 있다.Alternatively, when the
설명 생성부(260)는 전술한 다양한 방법에 따라 생성된 결합 벡터를 장단기 메모리에 입력으로서 받아들이고, 그 결과로서 각각의 객체에 대한 설명을 문장 등으로 생성할 수 있다.The
따라서, 일 실시예에 따르면 영상에 존재하는 객체에 대한 설명을 생성하는 과정에서, 해당 영상이 나타내는 장소나 해당 영상이 나타내는 시간에 대한 컨텍스트가 고려될 수 있다. 여기서, '컨텍스트를 고려한다'는 것은 이러한 컨텍스트가 객체를 검출하는 과정 내지는 객체에 대한 설명을 생성하는 과정에서 한정사항으로 작용할 수 있다는 의미이다. 예컨대 검출된 객체로부터 복수 개의 설명이 생성되었을 때, 컨텍스트는 이들 복수 개의 설명 중 어느 하나를 선택하는 기준으로 작용할 수 있다. 또는 컨텍스트와 부합되는 설명만이 도출될 수 있도록 할 수도 있다. 또한 검출된 객체로부터 획득 가능한 정보의 양이 적을 경우, 컨텍스트는 해당 객체에 대한 정보 그 자체가 될 수도 있다. 즉, 컨텍스트가 고려될 경우, 객체 검출에 있어서 정확성, 효율성 또는 속도가 향상될 수 있다. Accordingly, in the process of generating the description of the object existing in the image, the context represented by the location of the corresponding image or the time indicated by the corresponding image may be considered. Here, 'considering the context' means that this context can act as a limitation in the process of detecting the object or in the process of generating the description of the object. For example, when a plurality of explanations have been generated from a detected object, the context may act as a criterion for selecting any of these explanations. Or only a description that is consistent with the context may be derived. Also, when the amount of information obtainable from the detected object is small, the context may be the information about the object itself. That is, when the context is considered, accuracy, efficiency, or speed in object detection can be improved.
한편, 설명 생성부(260)는 결합 벡터를 생성할 때, 특징 벡터와 컨텍스트 벡터 각각에 서로 상이한 가중치(weight)를 곱해서 생성할 수 있다. 예컨대, 설명 생성부(260)는 영역 추출부(230)에 의하여 추출된 영역의 크기와 기 정의된 기준을 비교하여서, 추출된 영역의 크기가 기준보다 크면 컨텍스트 벡터와 특징 벡터에 각각 가중치로서 1을 곱할 수 있지만, 추출된 영역의 크기가 기준보다 작다면 컨텍스트 벡터에 가중치로서 1이 초과되는 갑을 가중치로서 곱할 수 있다. 추출된 영역의 크기가 작으면 해당 영역에서 획득 가능한 정보의 종류나 개수가 적을 확률이 높으며, 따라서 해당 영역에 대한 설명은 정확도가 낮을 수 있다. 이를 개선하기 위해, 일 실시예에서는 영역의 크기가 기준보다 작으면, 컨텍스트 벡터에 1이 초과되는 값을 가중치로서 곱한 뒤에 결합 벡터를 생성할 수 있다. 이 경우, 해당 영역에 대한 부족한 정보량은 컨텍스트에 의하여 보완될 수 있으므로, 설명의 정확도가 낮아지는 것이 개선될 수 있다.Meanwhile, when generating the joint vector, the
또한, 설명 생성부(260)는 영역 추출부(230)에 의하여 추출된 영역의 개수와 기 정의된 기준을 비교하여서, 추출된 영역의 개수가 기준보다 적으면 컨텍스트 벡터와 특징 벡터에 각각 가중치로서 1을 곱할 수 있지만, 추출된 영역의 개수가 기준보다 많다면 컨텍스트 벡터에 가중치로서 1이 초과되는 갑을 가중치로서 곱할 수 있다.The
한편, 지금까지 설명한 특징맵 생성부(210), 영역 추출부(230), 특징 추출부(240), 컨텍스트 추출부(250) 및 설명 생성부(260) 중 적어도 하나는 학습부(400)에 의하여 딥러닝 방식에 따라 이미 학습된 것일 수 있다. 예컨대, 영역 추출부(230)에서 영역을 추출할 때 사용되는 파라미터(예컨대 faster R-CNN에 사용되는 파라미터)는 추출된 결과와 실측 자료(ground truth) 간의 오차(objectness loss)를 최소화하는 방안으로 학습될 수 있다. 즉, 영역 추출부(230)에 의하여 추출된 바운딩 박스의 위치와 실측 자료를 통해 파악된 바운딩 박스의 위치를 비교함으로써 그 오차가 최소화되도록 파라미터가 학습될 수 있다. At least one of the feature
이는 컨텍스트 추출부(250)에 대해서도 마찬가지이다. 컨텍스트 추출부(250)에서 컨텍스트를 추출할 때 사용되는 파라미터(예컨대 완전 결합 계층)는 추출된 결과와 실측 자료(ground truth) 간의 오차(classification loss)를 최소화하는 방안으로 학습될 수 있다. 즉, 컨텍스트 추출부(250)에 의하여 추출된 영상의 장소와 실측 자료를 통해 파악된 영상의 장소를 비교함으로써 그 오차가 최소화되도록 파라미터가 학습될 수 있다. This also applies to the
아울러, 학습부(400)에 학습이 진행될 때, 이러한 학습은 end-to-end 방식으로 진행된 것일 수 있다. 즉, 영상이 입력되고나서 최종적으로 영상에 대한 객체 검출이 완료되어서 1개의 epoch가 종료되고나면, 그 시점에서 학습부(400)에 의하여 학습이 진행될 수 있으며, 매 epoch가 종료될 때마다 학습이 진행될 수 있다. 이 경우, 영상으로부터 특징맵을 생성하는 과정, 특징맵으로부터 영역을 추출하고 특징을 추출하는 과정, 특징으로부터 설명을 생성하는 과정 중 적어도 하나에게, 컨텍스트에 따른 영향이 반영될 수 있다.In addition, when learning proceeds to the
도 12는 일 실시예에 따른 영상 학습 방법의 절차를 도시한 도면이다. 도 12에 도시된 영상 학습 방법은 지금까지 설명한 영상 학습 장치(1000)에 의하여 구현 가능하다. 아울러, 도 12에 도시된 영상 학습 방법은 예시적인 것에 불과하므로, 영상 학습 방법이 도 12에 도시된 것으로 한정해석되는 것은 아니다.12 is a diagram illustrating a procedure of an image learning method according to an embodiment. The image learning method shown in FIG. 12 can be implemented by the
도 12을 참조하면, 입력부(100)는 영상을 입력받는다(S100). 분석부(200)의 특징맵 추출부(210)는 영상으로부터 특징맵을 추출한다(S110). 분석부(200)의 영역 추출부(230)는 특징맵으로부터 객체의 존재가 추정되는 영역을 추출한다(S120). 분석부(200)의 특징 추출부(240)는 단계 S120에서 추출된 영역 각각에 대해 특징을 추출한다(S130). 분석부(200)의 컨텍스트 추출부(250)는 특징맵으로부터 영상에 대한 컨텍스트를 추출한다(S140). 설명 생성부(260)는 단계 S130)에서 추출된 특징과 단계 S140에서 추출된 컨텍스트를 결합한 뒤에, 영상의 객체에 대한 설명을 생성한다(S150). 출력부(500)는 영상의 객체에 대한 설명을 출력한다. 한편, 이러한 영상 분석 방법은 전술한 영상 분석 장치(1000)에 의하여 수행되며, 그 과정은 영상 분석 장치(1000)에 대한 설명에서 이미 논의하였는바, 이에 대한 자세한 설명은 생략하기로 한다.Referring to FIG. 12, the
한편, 일 실시예에 따른 영상 분석 방법은 이러한 방법의 각 단계를 수행하도록 프로그램된 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램의 형태로 구현 가능하다.Meanwhile, the image analysis method according to an embodiment can be implemented in the form of a computer program stored in a computer-readable recording medium programmed to perform each step of the method.
이상에서 살펴본 바와 같이, 일 실시예에 따르면 영상에 존재하는 객체에 대한 설명을 생성하는 과정에서, 해당 영상이 나타내는 장소나 해당 영상이 나타내는 시간에 대한 컨텍스트가 고려될 수 있다. 여기서, '컨텍스트를 고려한다'는 것은 이러한 컨텍스트가 객체를 검출하는 과정 내지는 객체에 대한 설명을 생성하는 과정에서 한정사항으로 작용할 수 있다는 의미이다. 예컨대 검출된 객체로부터 복수 개의 설명이 생성되었을 때, 컨텍스트는 이들 복수 개의 설명 중 어느 하나를 선택하는 기준으로 작용할 수 있다. 또는 컨텍스트와 부합되는 설명만이 도출될 수 있도록 할 수도 있다. 또한 검출된 객체로부터 획득 가능한 정보의 양이 적을 경우, 컨텍스트는 해당 객체에 대한 정보 그 자체가 될 수도 있다. 즉, 컨텍스트가 고려될 경우, 객체 검출에 있어서 정확성, 효율성 또는 속도가 향상될 수 있다As described above, according to an exemplary embodiment, in the process of generating a description of an object existing in an image, a context for a location indicated by the corresponding image or a time indicated by the corresponding image can be considered. Here, 'considering the context' means that this context can act as a limitation in the process of detecting the object or in the process of generating the description of the object. For example, when a plurality of explanations have been generated from a detected object, the context may act as a criterion for selecting any of these explanations. Or only a description that is consistent with the context may be derived. Also, when the amount of information obtainable from the detected object is small, the context may be the information about the object itself. That is, when the context is considered, accuracy, efficiency, or speed in object detection can be improved
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications and changes may be made by those skilled in the art without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents thereof should be construed as falling within the scope of the present invention.
일 실시예에 따르면 객체 검출에 있어서 정확성, 효율성 또는 속도가 향상될 수 있다.According to one embodiment, accuracy, efficiency, or speed in object detection can be improved.
1000: 영상 분석 장치
200: 분석부
210: 특징맵 생성부 230: 영역 추출부
240: 특징 추출부 250: 컨텍스트 추출부
260: 설명 생성부1000: Image analysis device
200: Analysis Department
210: Feature Map Generation Unit 230: Region Extraction Unit
240: Feature extraction unit 250: Context extraction unit
260:
Claims (8)
상기 특징맵을 기초로, 상기 영상에서 객체의 존재가 추정되는 영역을 추출하는 영역 추출부와,
상기 영역에 대한 특징을 추출하는 특징 추출부와,
상기 영상에서 상기 객체가 존재하는 장소에 대한 정보를 포함하는 컨텍스트(context)를 상기 특징맵으로부터 추출하는 컨텍스트 추출부와,
상기 영역에 대한 특징에 상기 컨텍스트를 반영하여서 컨텍스트 기반 특징을 생성하고, 상기 컨텍스트 기반 특징을 기초로 상기 영역에 대한 설명(caption)을 생성하여서 출력되도록 하는 설명 생성부를 포함하며,
상기 컨텍스트 기반 특징은,
상기 영역을 나타내는 특징에 대한 특징 벡터가 1 by n 의 벡터이고 상기 컨텍스트에 대한 컨텍스트 벡터가 1 by m 의 벡터이면서 상기 n과 m이 자연수일 때, 상기 특징 벡터와 상기 컨텍스트 벡터가 직렬적으로 결합된 1 by (n+m) 의 결합 벡터를 상기 컨텍스트 기반 특징으로서 생성하는
영상 분석 장치.A feature map generator for generating a feature map of an image using a neural network;
An area extracting unit for extracting an area in which the existence of an object is estimated based on the feature map;
A feature extracting unit for extracting a feature of the region,
A context extractor for extracting, from the feature map, a context including information on a place where the object exists in the image;
And a description generating unit for generating a context based feature by reflecting the context on the feature of the region and generating and outputting a caption for the region on the basis of the context based feature,
The context-
When the feature vector for the feature representing the region is 1 by n, the context vector for the context is 1 by m, and the n and m are natural numbers, the feature vector and the context vector are combined serially Gt; by (n + m) < / RTI > as the context-based feature
Image analysis device.
상기 설명 생성부는,
상기 영역의 크기를 기 정의된 기준과 비교하며, 상기 비교의 결과에 따라 가중치를 설정하고, 상기 컨텍스트 벡터에 상기 가중치를 곱한 결과와 상기 특징 벡터를 직렬적으로 결합하여서 상기 결합 벡터를 생성하는
영상 분석 장치.The method according to claim 1,
The above-
The size of the region is compared with a predefined criterion, a weight is set according to a result of the comparison, and a result obtained by multiplying the context vector by the weight is serially combined with the feature vector to generate the joint vector
Image analysis device.
상기 설명 생성부는,
상기 영역의 개수를 기 정의된 기준과 비교하며, 상기 비교의 결과에 따라 가중치를 설정하고, 상기 컨텍스트 벡터에 상기 가중치를 곱한 결과와 상기 특징 벡터를 직렬적으로 결합하여서 상기 결합 벡터를 생성하는
영상 분석 장치.The method according to claim 1,
The above-
A weight is set according to a result of the comparison, a result obtained by multiplying the context vector by the weight is serially combined with the feature vector to generate the combined vector
Image analysis device.
상기 컨텍스트 추출부는,
상기 컨텍스트 추출부에 의해 추출된 컨텍스트와 상기 영상의 컨텍스트에 대한 실측 자료(ground truth) 간의 차이를 최소화하는 과정을 통해 학습된 것인
영상 분석 장치.The method according to claim 1,
Wherein the context extractor comprises:
The context extracting unit extracts the context extracted by the context extracting unit and the ground truth of the context extracted by the context extracting unit,
Image analysis device.
상기 특징맵을 기초로, 상기 영상에서 객체의 존재가 추정되는 영역을 추출하는 단계와,
상기 영역에 대한 특징을 추출하는 단계와,
상기 영상에서 상기 객체가 존재하는 장소에 대한 정보를 포함하는 컨텍스트(context)를 상기 특징맵으로부터 추출하는 단계와,
상기 영역에 대한 특징에 상기 컨텍스트를 반영하여서 컨텍스트 기반 특징을 생성하는 단계와,
상기 컨텍스트 기반 특징을 기초로 상기 영역에 대한 설명(caption)을 생성하는 단계와,
상기 생성된 설명을 출력시키는 단계를 포함하여 수행하도록 프로그램되되,
상기 컨텍스트 기반 특징은,
상기 영역을 나타내는 특징에 대한 특징 벡터가 1 by n 의 벡터이고 상기 컨텍스트에 대한 컨텍스트 벡터가 1 by m 의 벡터이면서 상기 n과 m이 자연수일 때, 상기 특징 벡터와 상기 컨텍스트 벡터가 직렬적으로 결합된 1 by (n+m) 의 결합 벡터를 상기 컨텍스트 기반 특징으로서 생성하는 것을 특징으로 하는
컴퓨터 판독가능한 기록매채에 저장된 컴퓨터 프로그램.Generating a feature map of an image using a neural network;
Extracting an area in which the existence of the object is estimated based on the feature map;
Extracting features for the region;
Extracting, from the feature map, a context including information on a location of the object in the image;
Generating a context-based feature by reflecting the context to a feature of the region;
Generating a caption for the region based on the context-based feature;
And outputting the generated description,
The context-
When the feature vector for the feature representing the region is 1 by n, the context vector for the context is 1 by m, and the n and m are natural numbers, the feature vector and the context vector are combined serially (N + m) < / RTI > as the context-based feature
A computer program stored in a computer readable recording medium.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170092221A KR101930940B1 (en) | 2017-07-20 | 2017-07-20 | Apparatus and method for analyzing image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170092221A KR101930940B1 (en) | 2017-07-20 | 2017-07-20 | Apparatus and method for analyzing image |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101930940B1 true KR101930940B1 (en) | 2018-12-20 |
Family
ID=64952832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170092221A KR101930940B1 (en) | 2017-07-20 | 2017-07-20 | Apparatus and method for analyzing image |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101930940B1 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378335A (en) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | A kind of information analysis method neural network based and model |
WO2020138803A1 (en) * | 2018-12-24 | 2020-07-02 | (주)제이엘케이 | Image analysis device and method |
KR102201241B1 (en) | 2019-10-31 | 2021-01-12 | 인천대학교 산학협력단 | Apaptive Object Recognizing Apparatus and Method for Processing Data Real Time In Multi Channel Video |
WO2021153861A1 (en) * | 2020-01-31 | 2021-08-05 | 중앙대학교 산학협력단 | Method for detecting multiple objects and apparatus therefor |
KR20210114257A (en) * | 2020-03-10 | 2021-09-23 | 연세대학교 산학협력단 | Action Recognition Method and Apparatus in Untrimmed Videos Based on Artificial Neural Network |
CN113449801A (en) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | Image character behavior description generation method based on multilevel image context coding and decoding |
WO2021256578A1 (en) * | 2020-06-16 | 2021-12-23 | 한국과학기술원 | Apparatus and method for automatically generating image caption |
KR20220026741A (en) * | 2020-08-26 | 2022-03-07 | 주식회사 케이스랩 | Automatic driving system and location estimating method for moving object |
US11893980B2 (en) | 2021-02-08 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001039028A2 (en) | 1999-11-22 | 2001-05-31 | Accenture Llp | Method for affording a market space interface between a plurality of manufacturers and service providers and installation management via a market space interface |
JP2006270137A (en) * | 2005-03-22 | 2006-10-05 | Matsushita Electric Ind Co Ltd | Imaging apparatus |
US20090284550A1 (en) | 2006-06-07 | 2009-11-19 | Kenji Shimada | Sketch-Based Design System, Apparatus, and Method for the Construction and Modification of Three-Dimensional Geometry |
-
2017
- 2017-07-20 KR KR1020170092221A patent/KR101930940B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001039028A2 (en) | 1999-11-22 | 2001-05-31 | Accenture Llp | Method for affording a market space interface between a plurality of manufacturers and service providers and installation management via a market space interface |
JP2006270137A (en) * | 2005-03-22 | 2006-10-05 | Matsushita Electric Ind Co Ltd | Imaging apparatus |
US20090284550A1 (en) | 2006-06-07 | 2009-11-19 | Kenji Shimada | Sketch-Based Design System, Apparatus, and Method for the Construction and Modification of Three-Dimensional Geometry |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020138803A1 (en) * | 2018-12-24 | 2020-07-02 | (주)제이엘케이 | Image analysis device and method |
CN110378335A (en) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | A kind of information analysis method neural network based and model |
KR102201241B1 (en) | 2019-10-31 | 2021-01-12 | 인천대학교 산학협력단 | Apaptive Object Recognizing Apparatus and Method for Processing Data Real Time In Multi Channel Video |
US11816881B2 (en) | 2020-01-31 | 2023-11-14 | Chung Ang University Industry Academic Cooperation | Multiple object detection method and apparatus |
WO2021153861A1 (en) * | 2020-01-31 | 2021-08-05 | 중앙대학교 산학협력단 | Method for detecting multiple objects and apparatus therefor |
KR20210097931A (en) * | 2020-01-31 | 2021-08-10 | 중앙대학교 산학협력단 | Multiple object detection method and apparatus |
KR102295202B1 (en) * | 2020-01-31 | 2021-08-27 | 중앙대학교 산학협력단 | Multiple object detection method and apparatus |
KR20210114257A (en) * | 2020-03-10 | 2021-09-23 | 연세대학교 산학협력단 | Action Recognition Method and Apparatus in Untrimmed Videos Based on Artificial Neural Network |
KR102357000B1 (en) * | 2020-03-10 | 2022-01-27 | 연세대학교 산학협력단 | Action Recognition Method and Apparatus in Untrimmed Videos Based on Artificial Neural Network |
WO2021256578A1 (en) * | 2020-06-16 | 2021-12-23 | 한국과학기술원 | Apparatus and method for automatically generating image caption |
KR20220026741A (en) * | 2020-08-26 | 2022-03-07 | 주식회사 케이스랩 | Automatic driving system and location estimating method for moving object |
KR102377475B1 (en) * | 2020-08-26 | 2022-03-22 | 주식회사 케이스랩 | Automatic driving system and location estimating method for moving object |
US11893980B2 (en) | 2021-02-08 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN113449801A (en) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | Image character behavior description generation method based on multilevel image context coding and decoding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101930940B1 (en) | Apparatus and method for analyzing image | |
Ahmad et al. | Object detection through modified YOLO neural network | |
EP3388978B1 (en) | Image classification method, electronic device, and storage medium | |
KR101863615B1 (en) | Apparatus for detecting variants of a malicious code based on neural network learning, method thereof and computer recordable medium storing program to perform the method | |
CN111738231B (en) | Target object detection method and device, computer equipment and storage medium | |
US20180114071A1 (en) | Method for analysing media content | |
CN109727264A (en) | Image generating method, the training method of neural network, device and electronic equipment | |
CN105574550A (en) | Vehicle identification method and device | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
KR20180055070A (en) | Method and device to perform to train and recognize material | |
CN110991444B (en) | License plate recognition method and device for complex scene | |
Shen | A survey of object classification and detection based on 2d/3d data | |
CN110807362A (en) | Image detection method and device and computer readable storage medium | |
Pei et al. | Localized traffic sign detection with multi-scale deconvolution networks | |
KR20190126857A (en) | Detect and Represent Objects in Images | |
WO2020014294A1 (en) | Learning to segment via cut-and-paste | |
CN112580458A (en) | Facial expression recognition method, device, equipment and storage medium | |
CN115131849A (en) | Image generation method and related device | |
Nayan et al. | Real time detection of small objects | |
Wu et al. | Towards interpretable R-CNN by unfolding latent structures | |
Kaur et al. | A systematic review of object detection from images using deep learning | |
CN113095199A (en) | High-speed pedestrian identification method and device | |
CN117315499A (en) | Satellite remote sensing image target detection method and system | |
CN112560824B (en) | Facial expression recognition method based on multi-feature adaptive fusion | |
CN111160219B (en) | Object integrity evaluation method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |