KR102551960B1 - 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템 - Google Patents

객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템 Download PDF

Info

Publication number
KR102551960B1
KR102551960B1 KR1020210100468A KR20210100468A KR102551960B1 KR 102551960 B1 KR102551960 B1 KR 102551960B1 KR 1020210100468 A KR1020210100468 A KR 1020210100468A KR 20210100468 A KR20210100468 A KR 20210100468A KR 102551960 B1 KR102551960 B1 KR 102551960B1
Authority
KR
South Korea
Prior art keywords
vector
object information
caption
visual data
fusion
Prior art date
Application number
KR1020210100468A
Other languages
English (en)
Other versions
KR20230018657A (ko
Inventor
조충상
이영한
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020210100468A priority Critical patent/KR102551960B1/ko
Publication of KR20230018657A publication Critical patent/KR20230018657A/ko
Application granted granted Critical
Publication of KR102551960B1 publication Critical patent/KR102551960B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 캡션 자동 생성 방법은, 시각 데이터에서 객체 정보 벡터를 추출하고, 시각 데이터에서 특징 벡터를 추출하며, 추출한 객체 정보 벡터와 특징 벡터를 융합하고, 융합 벡터를 '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여 캡션을 생성한다. 이에 의해, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체의 존재 유무 등의 객체 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성할 수 있게 된다.

Description

객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템{Image captioning method and system based on object information condition}
본 발명은 인공지능 관련 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 활용하여 이미지/비디오에 대한 캡션을 자동으로 생성하는 방법 및 시스템에 관한 것이다.
이미지 캡션 생성 기술은, 주어진 이미지/비디오를 설명하여 주는 문장을 자동으로 생성하는 기술이다. 인공지능 기술의 비약적인 발전으로 인해 이 기능을 제공하는 것이 가능해졌다.
현재 이미지에 대한 캡션을 생성하기 위해, 이미지의 특징 정보와 캡션 정보를 이용하여 CNN 모델을 학습하고 있는데, 이미지의 내용에 부합하기는 하지만, 객체의 특성에는 잘맞지 않는 부자연스러운 캡션이 생성되는 경우가 있다.
이는, CNN 모델이 캡션을 생성함에 있어 이미지의 특징 벡터에 지나치게 의존하기 때문인 것으로 분석되는 바, 이를 해소하기 위한 방안이 필요하다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체에 대한 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성하기 위한 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 캡션 자동 생성 방법은, 시각 데이터에서 객체 정보 벡터를 추출하는 단계; 시각 데이터에서 특징 벡터를 추출하는 단계; 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함한다.
그리고, 객체 정보 벡터 추출단계는, 시각 데이터에서 객체를 검출하는 단계; 검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함할 수 있다.
객체 정보는, 객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함할 수 있다.
객체 정보 벡터는, 시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터일 수 있다.
객체 정보 추출단계는, 캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고, 캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록할 수 있다.
융합 단계는, 객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합할 수 있다.
융합 단계는, 융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환할 수 있다.
융합 단계는, 융합 벡터를, '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력하여, 융합 벡터의 크기를 변환할 수 있다.
벡터 변환 모델은, 벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션과 GT(Ground Truth) 캡션 간의 차이가 작아지는 방향으로 학습될 수 있다.
한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 시스템은, 시각 데이터에서 객체 정보 벡터를 추출하는 객체 정보화 모듈; 시각 데이터에서 특징 벡터를 추출하는 특징 추출 모듈; 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함한다.
한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 방법은, 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 캡션 자동 생성 시스템은, 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및 융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 이미지/비디오에 대한 이미지 캡션을 생성함에 있어 객체의 존재 유무 등의 객체 정보를 함께 컨디션으로 학습하고 분석함으로써, 객체의 특성이 보다 잘 반영된 캡션 정보를 생성할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 캡션 생성 시스템의 블럭도,
도 2는 본 발명의 다른 실시예에 따른 캡션 생성 방법의 설명에 제공되는 흐름도,
도 3은 객체 검출 방법 및 결과를 예시한 도면,
도 4는 검출된 객체 종류 정보를 객체 정보 벡터로 변환하는 방법 및 결과를 예시한 도면,
도 5에는 객체 정보를 고려하지 않는 경우 객체 정보 벡터를 생성하는 방법 및 결과를 예시한 도면,
도 6은 시각 데이터 특징 벡터 추출을 위한 CNN 기반의 딥러닝 모델을 예시한 도면,
도 7에는 객체 정보 벡터와 시각 데이터 특징 벡터를 융합하는 방법 및 결과를 예시한 도면,
도 8은 융합 벡터의 크기를 변환하는 방법 및 결과를 예시한 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는, 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템을 제시한다. 이미지/비디오에 대한 캡션을 생성할 때 객체의 정보를 함께 고려하기 위한 기법이다.
구체적으로, 이미지에 대한 캡션을 학습하고 생성할 때 이미지에 대한 특징 벡터 뿐만 아니라, 이미지로부터 도출되는 객체에 대한 정보를 컨디션으로 추가하여, 객체를 고려한 이미지 캡션을 생성할 수 있도록 하는 것이다.
도 1은 본 발명의 일 실시예에 따른 캡션 생성 시스템의 블럭도이다. 본 발명의 실시예에 따른 캡션 생성 시스템은, 도시된 바와 같이, 입력부(110), 객체 정보화 모듈(120) 및 캡션 생성 모듈(130)을 포함하여 구성된다.
입력부(110)는 이미지, 비디오 등의 시각 데이터를 입력받아, 객체 정보화 모듈(120)과 캡션 생성 모듈(130)로 전달한다.
객체 정보화 모듈(120)은 시각 데이터에서 객체 정보 벡터를 추출하여 캡션 생성 모듈(130)로 제공하는 모듈로, 객체 검출 엔진(121)과 객제 정보 임베딩 모듈(122)을 포함하여 구성된다.
캡션 생성 모듈(130)은 시각 데이터에서 특징 벡터를 추출하여 객체 정보화 모듈(120)에서 추출한 객체 정보 벡터와 융합하고, 융합 정보를 이용하여 캡션을 생성하는 모듈로, 특징 추출 모듈(131), 융합 모듈(132) 및 캡셔닝 모듈(133)을 포함하여 구성된다.
도 1에 도시된 시스템에 의해 캡션이 생성되는 과정에 대해 도 2를 참조하여 상세히 설명한다. 도 2는 본 발명의 다른 실시예에 따른 캡션 생성 방법의 설명에 제공되는 흐름도이다.
비디오/이미지 등의 시각 데이터가 입력부(110)를 통해 입력되면(S210), 객체 정보화 모듈(120)은 캡션 생성시 객체 정보를 고려할 것인지 여부를 지시하는 컨트롤 정보를 확인한다(S220).
컨트롤 정보가 객체 정보를 고려하는 것으로 확인되면(S220-YES), 객체 정보화 모듈(120)의 객체 검출 엔진(121)은 S210단계에서 입력된 시각 데이터에서 주요 객체를 검출한다(S230).
도 3에는 객체 검출 방법 및 결과를 예시하였다. 도시된 바와 같이, 객체 검출 결과로, 객체 종류, 객체 개수, 객체 위치 등을 객체 정보로 획득하게 된다. 이하에서는 객체 정보로써 객체 종류를 활용하는 것을 상정한다. 하지만, 이는 예시적인 것으로, 객체 종류를 다른 객체 정보로 대체하거나 다른 객체 정보를 추가하는 것을 배제하지 않는다.
다음, 객체 정보화 모듈(120)의 객제 정보 임베딩 모듈(122)은 S230단계에서 검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환한다(S240).
객체 정보로 객체 종류를 활용하는 경우, S240단계에서의 객체 정보 벡터는 시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터가 된다.
구체적으로, 객체 종류가 N개인 경우, 객체 정보 벡터는 1×N 벡터로 구성하며, 벡터의 각 인덱스들은 해당 객체 종류가 검출되었는지 여부, 즉, 해당 객체가 시각 데이터에 존재하는지 여부를 나타낸다.
도 4에는 검출된 객체 종류 정보를 객체 정보 벡터로 변환하는 방법 및 결과를 예시하였다. 도 4에서 객체 종류의 개수(N)은 8로 상정하였는데, 첫 번째 객체 종류는 사람, 두 번째 객체 종류는 개, 세 번째 객체 종류는 나무, 네 번째 객체 종류는 꽃, 다섯 번째 객체 종류는 음식, 여섯 번째 객체 종류는 집, 일곱 번째 객체 종류는 자동차, 여덟 번째 객체 종류는 장난감이라고 가정하겠다. 이 경우, 도 4에 제시된 객체 정보 벡터는 두 번째, 다섯 번째 및 여섯 번 인덱스가 1로 인코딩 되어 있으므로, 이는 시각 데이터에 두 번째 객체 종류인 개, 다섯 번째 객체 종류인 음식 및 여섯 번째 객체 종류인 집이 존재하고 있음을 의미한다.
한편, 컨트롤 정보가 객체 정보를 고려하지 않는 것으로 확인되면(S220-NO), 객체 검출 엔진(121)은 입력된 시각 데이터에서 객체를 검출하지 않으며, 객제 정보 임베딩 모듈(122)은 객체 정보 벡터의 인덱스들에 더미 데이터를 수록한다(S250).
도 5에는 객체 정보를 고려하지 않는 경우 객체 정보 벡터를 생성하는 방법 및 결과를 예시하였다. 도 5에 도시된 바와 같이, 객체 정보 벡터의 인덱스들에는 모두 더미 데이터 "1"이 수록되어 있다.
다음, 캡션 생성 모듈(130)의 특징 추출 모듈(131)은 S210단계에서 입력된 시각 데이터에서 특징 벡터를 추출한다(S260). S260단계에서의 시각 데이터 특징 벡터 추출은 CNN 기반의 딥러닝 모델로 구현 가능한데, 도 6에 제시된 바와 같이 다양한 네트워크를 활용할 수 있다.
캡션 생성 모듈(130)의 융합 모듈(132)은 S240단계 또는 S250단계에서 생성된 객체 정보 벡터 뒤에 S260단계에서 추출된 시각 데이터 특징 벡터를 연결하여, 하나의 벡터로 융합한다(S270). 도 7에는 객체 정보 벡터와 시각 데이터 특징 벡터를 융합하는 방법 및 결과를 예시하였다.
또한, S270단계에서 융합 모듈(132)은 융합 벡터의 크기를 후술할 캡션 생성 모델의 입력 크기에 맞게 변환한다. 캡션 생성 모델은 융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델로 캡셔닝 모듈(133)에 의해 학습된다. 융합 벡터의 크기가 캡션 생성 모델의 입력 크기에 맞지 않는 경우를 대비하기 위함이다.
도 8에는 융합 벡터의 크기를 변환하는 방법 및 결과를 예시하였다. 도시된 바와 같이, 융합 벡터는 '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력되어 해당 크기로 변환된다.
도 8에서 벡터 변환 모델은 MLP(Multi Layer Perceptron)로 구현하였다. 벡터 변환 모델은 '벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션'과 'GT(Ground Truth) 캡션' 간의 차이(loss)가 작아지는 방향으로 학습된다.
다음, 캡션 생성 모듈(130)의 캡셔닝 모듈(133)은 S270단계에서 생성된 융합 벡터를 캡션 생성 모델에 입력하여, 캡션을 생성한다(S280).
지금까지, 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.
위 실시예에서는, 이미지/비디오에 대한 이미지 캡션을 생성할 때 객체의 존재 유무를 함께 컨디션으로 학습하여 객체의 특성을 고려한 캡션 정보를 도출할 수 있도록 하였다.
비디오/이미지 캡션을 생성할 때 이미지에 있는 객체에 대한 정보를 추가로 입력 받아 사용하기 때문에, 위 실시예에 따르면 객체에 대한 고려가 포함된 이미지 캡션을 도출할 수 있게 된다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 입력부
120 : 객체 정보화 모듈
121 : 객체 검출 엔진
122 : 객제 정보 임베딩 모듈
130 : 캡션 생성 모듈
131 : 특징 추출 모듈
132 : 융합 모듈
133 : 캡셔닝 모듈

Claims (12)

  1. 시각 데이터에서 객체 정보 벡터를 추출하는 단계;
    시각 데이터에서 특징 벡터를 추출하는 단계;
    추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
    융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
    객체 정보 벡터 추출단계는,
    시각 데이터에서 객체를 검출하는 단계;
    검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함하며,
    객체 정보는,
    객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
    객체 정보 벡터는,
    시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
    객체 정보 벡터 추출단계는,
    캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고,
    캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록하는 것을 특징으로 하는 캡션 자동 생성 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서,
    융합 단계는,
    객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합하는 것을 특징으로 하는 캡션 자동 생성 방법.
  7. 청구항 6에 있어서,
    융합 단계는,
    융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환하는 것을 특징으로 하는 캡션 자동 생성 방법.
  8. 시각 데이터에서 객체 정보 벡터를 추출하는 단계;
    시각 데이터에서 특징 벡터를 추출하는 단계;
    추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
    융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
    객체 정보 벡터 추출단계는,
    시각 데이터에서 객체를 검출하는 단계;
    검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하는 단계;를 포함하며,
    객체 정보는,
    객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
    객체 정보 벡터는,
    시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
    융합 단계는,
    객체 정보 벡터 뒤에 특징 벡터를 연결하여, 하나의 벡터로 융합하되,
    융합 벡터의 크기를 캡션 생성 모델의 입력 크기에 맞게 변환하고,
    융합 벡터를, '융합 벡터를 입력 받아 캡션 생성 모델의 입력 크기에 맞게 변환하도록 학습된 인공지능 모델인 벡터 변환 모델'에 입력하여, 융합 벡터의 크기를 변환하는 것을 특징으로 하는 캡션 자동 생성 방법.
  9. 청구항 8에 있어서,
    벡터 변환 모델은,
    벡터 변환 모델에서 출력되는 크기가 변환된 융합 벡터를 캡션 생성 모델에 입력하여 생성된 캡션과 GT(Ground Truth) 캡션 간의 차이가 작아지는 방향으로 학습되는 것을 특징으로 하는 캡션 자동 생성 방법.
  10. 시각 데이터에서 객체 정보 벡터를 추출하는 객체 정보화 모듈;
    시각 데이터에서 특징 벡터를 추출하는 특징 추출 모듈;
    추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및
    융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함하고,
    객체 정보화 모듈은,
    시각 데이터에서 객체를 검출하고,
    검출된 객체에 대한 객체 정보를 객체 정보 벡터로 변환하며,
    객체 정보는,
    객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
    객체 정보 벡터는,
    시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
    객체 정보화 모듈은,
    캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터에서 객체 정보 벡터를 추출하고,
    캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 객체 정보 벡터의 인덱스들에 더미 데이터를 수록하는 것을 특징으로 하는 캡션 자동 생성 시스템.
  11. 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 단계; 및
    융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 단계;를 포함하고,
    객체 정보 벡터는,
    시각 데이터에서 검출된 객체에 대한 객체 정보를 변환하여 추출하되,
    객체 정보는,
    객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
    객체 정보 벡터는,
    시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
    캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터로부터 추출되고,
    캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 인덱스들에 더미 데이터가 수록되는 것을 특징으로 하는 캡션 자동 생성 방법.
  12. 시각 데이터에서 추출한 객체 정보 벡터와 특징 벡터를 융합하는 융합 모듈; 및
    융합 벡터를, '융합 벡터를 입력받아 캡션을 생성하도록 학습된 인공지능 모델인 캡션 생성 모델'에 입력하여, 캡션을 생성하는 캡셔닝 모듈;을 포함하고,
    객체 정보 벡터는,
    시각 데이터에서 검출된 객체에 대한 객체 정보를 변환하여 추출하되,
    객체 정보는,
    객체 종류, 객체 개수 및 객체 위치 중 적어도 하나를 포함하고,
    객체 정보 벡터는,
    시각 데이터에 해당 객체 종류가 존재하는지를 여부를 나타내는 인덱스들이 나열된 벡터이며,
    캡션 생성시 객체 정보를 고려할 것을 지시하는 컨트롤 정보가 입력된 경우에는, 시각 데이터로부터 추출되고,
    캡션 생성시 객체 정보를 고려하지 않을 것을 지시하는 컨트롤 정보가 입력된 경우에는, 인덱스들에 더미 데이터가 수록되는 것을 특징으로 하는 캡션 자동 생성 시스템.
KR1020210100468A 2021-07-30 2021-07-30 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템 KR102551960B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210100468A KR102551960B1 (ko) 2021-07-30 2021-07-30 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210100468A KR102551960B1 (ko) 2021-07-30 2021-07-30 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20230018657A KR20230018657A (ko) 2023-02-07
KR102551960B1 true KR102551960B1 (ko) 2023-07-06

Family

ID=85221641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210100468A KR102551960B1 (ko) 2021-07-30 2021-07-30 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102551960B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329892A1 (en) 2017-05-02 2018-11-15 Dassault Systemes Captioning a region of an image

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102622958B1 (ko) * 2019-02-27 2024-01-10 한국전력공사 이미지 캡션 자동 생성 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329892A1 (en) 2017-05-02 2018-11-15 Dassault Systemes Captioning a region of an image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kiyohiko Iwamura et al., Image Captioning Using Motion-CNN with Object Detection, Sensors 2021.2.10*

Also Published As

Publication number Publication date
KR20230018657A (ko) 2023-02-07

Similar Documents

Publication Publication Date Title
CN110781347B (zh) 一种视频处理方法、装置、设备以及可读存储介质
JP6828508B2 (ja) 情報処理装置及び情報処理プログラム
KR20210134528A (ko) 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN112364810A (zh) 视频分类方法及装置、计算机可读存储介质与电子设备
US11288516B2 (en) Video rating method, video rating device, equipment and storage medium
CN113010635B (zh) 一种文本纠错方法及装置
CN116168119B (zh) 图像编辑方法、装置、电子设备、存储介质及程序产品
CN111259197B (zh) 一种基于预编码语义特征的视频描述生成方法
KR102551960B1 (ko) 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템
US20160323627A1 (en) Method for annotating an object in a multimedia asset
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
KR20230063135A (ko) 계층적 구조에 기반하는 시공간 액션 위치추정 장치 및 방법
CN110750669B (zh) 一种图像字幕生成的方法及***
CN117173497A (zh) 一种图像生成方法、装置、电子设备及存储介质
US11010562B2 (en) Visual storyline generation from text story
KR102526263B1 (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
KR102259878B1 (ko) 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법
JP7376812B2 (ja) データ生成方法、データ生成装置及びプログラム
US11317132B2 (en) Systems and methods for generating new content segments based on object name identification
CN110147538B (zh) 图片集描述生成方法、装置和计算机设备
CN113609259A (zh) 视频和自然语言的多模态推理方法及***
WO2024134841A1 (ja) 文生成学習装置、文生成装置、文生成学習方法及びプログラム
CN116996470B (zh) 一种富媒体信息发送***
KR102658344B1 (ko) 시점에 따른 다중 분류기를 이용한 행동 인식 방법 및 시스템
KR20200080368A (ko) 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant