KR102551960B1

KR102551960B1 - 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템

Info

Publication number: KR102551960B1
Application number: KR1020210100468A
Authority: KR
Inventors: 조충상; 이영한
Original assignee: 한국전자기술연구원
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-07-06
Also published as: KR20230018657A

Abstract

객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 캡션 자동 생성 방법은, 시각 데이터에서 객체 정보 벡터를 추출하고, 시각 데이터에서 특징 벡터를 추출하며, 추출한 객체 정보 벡터와 특징 벡터를 융합하고, 융합 벡터를 '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여 캡션을 생성한다. 이에 의해, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체의 존재 유무 등의 객체 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성할 수 있게 된다.

Description

객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템{Image captioning method and system based on object information condition}

본 발명은 인공지능 관련 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 활용하여 이미지/비디오에 대한 캡션을 자동으로 생성하는 방법 및 시스템에 관한 것이다.

이미지 캡션 생성 기술은, 주어진 이미지/비디오를 설명하여 주는 문장을 자동으로 생성하는 기술이다. 인공지능 기술의 비약적인 발전으로 인해 이 기능을 제공하는 것이 가능해졌다.

현재 이미지에 대한 캡션을 생성하기 위해, 이미지의 특징 정보와 캡션 정보를 이용하여 CNN 모델을 학습하고 있는데, 이미지의 내용에 부합하기는 하지만, 객체의 특성에는 잘맞지 않는 부자연스러운 캡션이 생성되는 경우가 있다.

이는, CNN 모델이 캡션을 생성함에 있어 이미지의 특징 벡터에 지나치게 의존하기 때문인 것으로 분석되는 바, 이를 해소하기 위한 방안이 필요하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체에 대한 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성하기 위한 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 캡션 자동 생성 방법은, 시각 데이터에서 객체 정보 벡터를 추출하는 단계; 시각 데이터에서 특징 벡터를 추출하는 단계; 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함한다.

그리고, 객체 정보 벡터 추출단계는, 시각 데이터에서 객체를 검출하는 단계; 검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함할 수 있다.

객체 정보는, 객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함할 수 있다.

객체 정보 벡터는, 시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터일 수 있다.

객체 정보 추출단계는, 캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고, 캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록할 수 있다.

융합 단계는, 객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합할 수 있다.

융합 단계는, 융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환할 수 있다.

융합 단계는, 융합 벡터를, '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력하여, 융합 벡터의 크기를 변환할 수 있다.

벡터 변환 모델은, 벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션과 GT(Ground Truth) 캡션 간의 차이가 작아지는 방향으로 학습될 수 있다.

한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 시스템은, 시각 데이터에서 객체 정보 벡터를 추출하는 객체 정보화 모듈; 시각 데이터에서 특징 벡터를 추출하는 특징 추출 모듈; 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함한다.

한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 방법은, 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 시스템은, 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체의 존재 유무 등의 객체 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 캡션 생성 시스템의 블럭도,
도 2는 본 발명의 다른 실시예에 따른 캡션 생성 방법의 설명에 제공되는 흐름도,
도 3은 객체 검출 방법 및 결과를 예시한 도면,
도 4는 검출된 객체 종류 정보를 객체 정보 벡터로 변환하는 방법 및 결과를 예시한 도면,
도 5에는 객체 정보를 고려하지 않는 경우 객체 정보 벡터를 생성하는 방법 및 결과를 예시한 도면,
도 6은 시각 데이터 특징 벡터 추출을 위한 CNN 기반의 딥러닝 모델을 예시한 도면,
도 7에는 객체 정보 벡터와 시각 데이터 특징 벡터를 융합하는 방법 및 결과를 예시한 도면,
도 8은 융합 벡터의 크기를 변환하는 방법 및 결과를 예시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는, 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템을 제시한다. 이미지/비디오에 대한 캡션을 생성할 때 객체의 정보를 함께 고려하기 위한 기법이다.

구체적으로, 이미지에 대한 캡션을 학습하고 생성할 때 이미지에 대한 특징 벡터 뿐만 아니라, 이미지로부터 도출되는 객체에 대한 정보를 컨디션으로 추가하여, 객체를 고려한 이미지 캡션을 생성할 수 있도록 하는 것이다.

도 1은 본 발명의 일 실시예에 따른 캡션 생성 시스템의 블럭도이다. 본 발명의 실시예에 따른 캡션 생성 시스템은, 도시된 바와 같이, 입력부(110), 객체 정보화 모듈(120) 및 캡션 생성 모듈(130)을 포함하여 구성된다.

입력부(110)는 이미지, 비디오 등의 시각 데이터를 입력받아, 객체 정보화 모듈(120)과 캡션 생성 모듈(130)로 전달한다.

객체 정보화 모듈(120)은 시각 데이터에서 객체 정보 벡터를 추출하여 캡션 생성 모듈(130)로 제공하는 모듈로, 객체 검출 엔진(121)과 객제 정보 임베딩 모듈(122)을 포함하여 구성된다.

캡션 생성 모듈(130)은 시각 데이터에서 특징 벡터를 추출하여 객체 정보화 모듈(120)에서 추출한 객체 정보 벡터와 융합하고, 융합 정보를 이용하여 캡션을 생성하는 모듈로, 특징 추출 모듈(131), 융합 모듈(132) 및 캡셔닝 모듈(133)을 포함하여 구성된다.

도 1에 도시된 시스템에 의해 캡션이 생성되는 과정에 대해 도 2를 참조하여 상세히 설명한다. 도 2는 본 발명의 다른 실시예에 따른 캡션 생성 방법의 설명에 제공되는 흐름도이다.

비디오/이미지 등의 시각 데이터가 입력부(110)를 통해 입력되면(S210), 객체 정보화 모듈(120)은 캡션 생성시 객체 정보를 고려할 것인지 여부를 지시하는 컨트롤 정보를 확인한다(S220).

컨트롤 정보가 객체 정보를 고려하는 것으로 확인되면(S220-YES), 객체 정보화 모듈(120)의 객체 검출 엔진(121)은 S210단계에서 입력된 시각 데이터에서 주요 객체를 검출한다(S230).

도 3에는 객체 검출 방법 및 결과를 예시하였다. 도시된 바와 같이, 객체 검출 결과로, 객체 종류, 객체 개수, 객체 위치 등을 객체 정보로 획득하게 된다. 이하에서는 객체 정보로써 객체 종류를 활용하는 것을 상정한다. 하지만, 이는 예시적인 것으로, 객체 종류를 다른 객체 정보로 대체하거나 다른 객체 정보를 추가하는 것을 배제하지 않는다.

다음, 객체 정보화 모듈(120)의 객제 정보 임베딩 모듈(122)은 S230단계에서 검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환한다(S240).

객체 정보로 객체 종류를 활용하는 경우, S240단계에서의 객체 정보 벡터는 시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터가 된다.

구체적으로, 객체 종류가 N개인 경우, 객체 정보 벡터는 1×N 벡터로 구성하며, 벡터의 각 인덱스들은 해당 객체 종류가 검출되었는지 여부, 즉, 해당 객체가 시각 데이터에 존재하는지 여부를 나타낸다.

도 4에는 검출된 객체 종류 정보를 객체 정보 벡터로 변환하는 방법 및 결과를 예시하였다. 도 4에서 객체 종류의 개수(N)은 8로 상정하였는데, 첫 번째 객체 종류는 사람, 두 번째 객체 종류는 개, 세 번째 객체 종류는 나무, 네 번째 객체 종류는 꽃, 다섯 번째 객체 종류는 음식, 여섯 번째 객체 종류는 집, 일곱 번째 객체 종류는 자동차, 여덟 번째 객체 종류는 장난감이라고 가정하겠다. 이 경우, 도 4에 제시된 객체 정보 벡터는 두 번째, 다섯 번째 및 여섯 번 인덱스가 1로 인코딩 되어 있으므로, 이는 시각 데이터에 두 번째 객체 종류인 개, 다섯 번째 객체 종류인 음식 및 여섯 번째 객체 종류인 집이 존재하고 있음을 의미한다.

한편, 컨트롤 정보가 객체 정보를 고려하지 않는 것으로 확인되면(S220-NO), 객체 검출 엔진(121)은 입력된 시각 데이터에서 객체를 검출하지 않으며, 객제 정보 임베딩 모듈(122)은 객체 정보 벡터의 인덱스들에 더미 데이터를 수록한다(S250).

도 5에는 객체 정보를 고려하지 않는 경우 객체 정보 벡터를 생성하는 방법 및 결과를 예시하였다. 도 5에 도시된 바와 같이, 객체 정보 벡터의 인덱스들에는 모두 더미 데이터 "1"이 수록되어 있다.

다음, 캡션 생성 모듈(130)의 특징 추출 모듈(131)은 S210단계에서 입력된 시각 데이터에서 특징 벡터를 추출한다(S260). S260단계에서의 시각 데이터 특징 벡터 추출은 CNN 기반의 딥러닝 모델로 구현 가능한데, 도 6에 제시된 바와 같이 다양한 네트워크를 활용할 수 있다.

캡션 생성 모듈(130)의 융합 모듈(132)은 S240단계 또는 S250단계에서 생성된 객체 정보 벡터 뒤에 S260단계에서 추출된 시각 데이터 특징 벡터를 연결하여, 하나의 벡터로 융합한다(S270). 도 7에는 객체 정보 벡터와 시각 데이터 특징 벡터를 융합하는 방법 및 결과를 예시하였다.

또한, S270단계에서 융합 모듈(132)은 융합 벡터의 크기를 후술할 캡션 생성 모델의 입력 크기에 맞게 변환한다. 캡션 생성 모델은 융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델로 캡셔닝 모듈(133)에 의해 학습된다. 융합 벡터의 크기가 캡션 생성 모델의 입력 크기에 맞지 않는 경우를 대비하기 위함이다.

도 8에는 융합 벡터의 크기를 변환하는 방법 및 결과를 예시하였다. 도시된 바와 같이, 융합 벡터는 '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력되어 해당 크기로 변환된다.

도 8에서 벡터 변환 모델은 MLP(Multi Layer Perceptron)로 구현하였다. 벡터 변환 모델은 '벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션'과 'GT(Ground Truth) 캡션' 간의 차이(loss)가 작아지는 방향으로 학습된다.

다음, 캡션 생성 모듈(130)의 캡셔닝 모듈(133)은 S270단계에서 생성된 융합 벡터를 캡션 생성 모델에 입력하여, 캡션을 생성한다(S280).

지금까지, 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서는, 이미지/비디오에 대한 이미지 캡션을 생성할 때 객체의 존재 유무를 함께 컨디션으로 학습하여 객체의 특성을 고려한 캡션 정보를 도출할 수 있도록 하였다.

비디오/이미지 캡션을 생성할 때 이미지에 있는 객체에 대한 정보를 추가로 입력 받아 사용하기 때문에, 위 실시예에 따르면 객체에 대한 고려가 포함된 이미지 캡션을 도출할 수 있게 된다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 입력부
120 : 객체 정보화 모듈
121 : 객체 검출 엔진
122 : 객제 정보 임베딩 모듈
130 : 캡션 생성 모듈
131 : 특징 추출 모듈
132 : 융합 모듈
133 : 캡셔닝 모듈

Claims

시각 데이터에서 객체 정보 벡터를 추출하는 단계;
시각 데이터에서 특징 벡터를 추출하는 단계;
추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
객체 정보 벡터 추출단계는,
시각 데이터에서 객체를 검출하는 단계;
검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함하며,
객체 정보는,
객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
객체 정보 벡터는,
시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
객체 정보 벡터 추출단계는,
캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고,
캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록하는 것을 특징으로 하는 캡션 자동 생성 방법.
삭제
삭제
삭제
삭제
청구항 1에 있어서,
융합 단계는,
객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합하는 것을 특징으로 하는 캡션 자동 생성 방법.
청구항 6에 있어서,
융합 단계는,
융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환하는 것을 특징으로 하는 캡션 자동 생성 방법.
시각 데이터에서 객체 정보 벡터를 추출하는 단계;
시각 데이터에서 특징 벡터를 추출하는 단계;
추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
객체 정보 벡터 추출단계는,
시각 데이터에서 객체를 검출하는 단계;
검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함하며,
객체 정보는,
객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
객체 정보 벡터는,
시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
융합 단계는,
객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합하되,
융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환하고,
융합 벡터를, '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력하여, 융합 벡터의 크기를 변환하는 것을 특징으로 하는 캡션 자동 생성 방법.
청구항 8에 있어서,
벡터 변환 모델은,
벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션과 GT(Ground Truth) 캡션 간의 차이가 작아지는 방향으로 학습되는 것을 특징으로 하는 캡션 자동 생성 방법.
시각 데이터에서 객체 정보 벡터를 추출하는 객체 정보화 모듈;
시각 데이터에서 특징 벡터를 추출하는 특징 추출 모듈;
추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및
융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함하고,
객체 정보화 모듈은,
시각 데이터에서 객체를 검출하고,
검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하며,
객체 정보는,
객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
객체 정보 벡터는,
시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
객체 정보화 모듈은,
캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고,
캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록하는 것을 특징으로 하는 캡션 자동 생성 시스템.
시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
객체 정보 벡터는,
시각 데이터에서 검출된 객체에 대한 객체 정보를 변환하여 추출하되,
객체 정보는,
객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
객체 정보 벡터는,
시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터로부터 추출되고,
캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 인덱스들에 더미 데이터가 수록되는 것을 특징으로 하는 캡션 자동 생성 방법.
시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및
융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함하고,
객체 정보 벡터는,
시각 데이터에서 검출된 객체에 대한 객체 정보를 변환하여 추출하되,
객체 정보는,
객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
객체 정보 벡터는,
시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터로부터 추출되고,
캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 인덱스들에 더미 데이터가 수록되는 것을 특징으로 하는 캡션 자동 생성 시스템.