KR102276636B1 - Ai 기반 영상 자동 추적 및 재생장치와 방법 - Google Patents

Ai 기반 영상 자동 추적 및 재생장치와 방법 Download PDF

Info

Publication number
KR102276636B1
KR102276636B1 KR1020190115450A KR20190115450A KR102276636B1 KR 102276636 B1 KR102276636 B1 KR 102276636B1 KR 1020190115450 A KR1020190115450 A KR 1020190115450A KR 20190115450 A KR20190115450 A KR 20190115450A KR 102276636 B1 KR102276636 B1 KR 102276636B1
Authority
KR
South Korea
Prior art keywords
image
metadata
tracking
screen
event
Prior art date
Application number
KR1020190115450A
Other languages
English (en)
Other versions
KR20210033759A (ko
Inventor
박용현
손세훈
이영기
김형덕
류성걸
신재섭
임정연
Original Assignee
에스케이텔레콤 주식회사
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사, 주식회사 픽스트리 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020190115450A priority Critical patent/KR102276636B1/ko
Publication of KR20210033759A publication Critical patent/KR20210033759A/ko
Application granted granted Critical
Publication of KR102276636B1 publication Critical patent/KR102276636B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4353Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving decryption of additional data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

영상 자동 추적 및 재생장치와 방법을 개시한다.
AI(Artificial Intelligence) 기반의 오브젝트 검출, 추적 및 이벤트 자동 검출 기술을 이용하여 추출한 메타데이터(metadata)가 결합된 초고화질 영상을 기반으로, 동시다발적인 중요 이벤트에 대하여, 중요 이벤트를 포함한 영역으로 자동적으로 이동하여 별도의 시청자 입력이 없이도 해당 중요 영역의 시청이 가능한 영상 자동 추적 및 재생장치와 방법을 제공하는 데 목적이 있다.

Description

AI 기반 영상 자동 추적 및 재생장치와 방법{Method and Apparatus for Automatic Tracking and Replaying Images Based on Artificial Intelligence}
본 발명은 AI(Artificial Intelligence)를 기반으로 하는 영상 자동 추적 및 재생장치와 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
5G 통신 기반으로 대용량, 초고속 영상미디어 전송이 가능해지고, 대화면 디스플레이 디바이스 및 초고화질(Ultra-High-Definition: UHD) 영상 촬영 장비의 성능이 향상됨에 따라 초고화질 영상 중계 서비스 제공이 증가하고 있다. 특히, 스포츠 및 예술 공연 등의 분야에서 초고화질 영상 중계 서비스에 대한 필요성이 증가하고 있다.
초고화질 영상을 시청할 때, 시청자들은 화면을 드래그(drag)하여 원하는 영역을 수동으로 선택하거나, 핀치 줌인(pinch zoom-in) 또는 줌아웃(zoom-out)을 이용하여 원하는 부분을 수동으로 확대한 후, 시청을 할 수 있다. 그러나 전체 화면을 시청하고 있던 시청자가 수동으로 특정 화면 영역을 선택하여 시청하는 동안 특별한 이벤트(예컨대, 스포츠의 경우 득점 장면, 하이라이트 장면, 음악공연의 경우 특정 멤버의 퍼포먼스 등)가 발생할 수 있다. 이때, 이벤트에 대한 별도의 정보가 제공되지 않는다면 시청자는 중요한 이벤트 지점을 놓치게 된다.
또한 스포츠 및 예술 공연 등의 경우, 시청자가 집중하는 이벤트 외에 다른 주목할 만한 이벤트들이 동시다발적으로 발생할 수 있다. 그러나, 전체화면이 아닌 경우 기존의 시청방식으로는 동시에 일어나는 이벤트 장면을 동시에 시청하는 것이 어렵다.
따라서 시청자로 하여금 중요한 이벤트의 시청을 놓치지 않도록 하고, 주목할 만한 이벤트가 동시다발적으로 발생하는 경우에서도 시청이 용이한 영상 재생장치 및 방법이 요구된다.
본 개시는, AI(Artificial Intelligence) 기반의 오브젝트 검출, 추적 및 이벤트 자동 검출 기술을 이용하여 추출한 메타데이터(metadata)가 결합된 초고화질 영상을 기반으로, 동시다발적인 중요 이벤트에 대하여, 중요 이벤트를 포함한 영역으로 자동적으로 이동하여 별도의 시청자 입력이 없이도 해당 중요 영역의 시청이 가능한 영상 자동 추적 및 재생장치와 방법을 제공하는 데 주된 목적이 있다.
본 발명의 실시예에 의하면, 영상과 상기 영상 별로 추출된 메타데이터(metadata)가 결합된 화면을 인코딩하여 생성된 스트리밍(streaming) 데이터를 수신하는 영상수신부; 및 상기 스트리밍 데이터에 기초하여 상기 메타데이터를 분석(parsing)하고, 상기 영상의 화면 별 복수의 오브젝트의 검출(detection), 오브젝트의 추적(tracking) 및 이벤트의 검출에 대한 메타데이터를 기반으로 영상을 자동으로 추적 및 재생하는 영상재생부를 포함하는 것을 특징으로 하는 영상추적 및 재생장치를 제공한다.
본 발명의 다른 실시예에 의하면, 영상추적 및 재생장치의 영상추적 및 재생방법에 있어서, 영상과 상기 영상 별로 추출된 메타데이터(metadata)가 결합된 화면을 인코딩하여 생성된 스트리밍(streaming) 데이터를 수신하는 과정; 및 상기 스트리밍 데이터에 기초하여 상기 메타데이터를 분석(parsing)하고, 상기 영상의 화면 별 복수의 오브젝트의 검출(detection), 오브젝트의 추적(tracking) 및 이벤트의 검출에 대한 메타데이터를 기반으로 영상을 자동으로 추적 및 재생하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 영상추적 및 재생방법을 제공한다.
본 발명의 다른 실시예에 의하면, 영상추적 및 재생방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, AI(Artificial Intelligence) 기반의 오브젝트 검출, 추적 및 이벤트 자동 검출 기술을 이용하여 추출한 메타데이터(metadata)가 결합된 초고화질 영상을 기반으로, 동시다발적인 중요 이벤트에 대하여, 중요 이벤트를 포함한 영역으로 자동적으로 이동이 가능한 영상 자동 추적 및 재생장치와 방법을 제공함으로써 별도의 시청자 입력이 없이도 해당 중요 영역의 시청이 가능해지는 효과가 있다.
또한, 본 실시예에 의하면, 시청자가 시청을 원하는 영역을 AI 기반의 학습을 이용하여 추론함으로써, 편집 프로듀서의 입장에서 주요 화면을 편집하여 제공하는 서비스가 가능해지는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 영상추적 및 재생 시스템에 대한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 영상과 메타데이터가 영상 화면 별로 배치된 형태를 보여주는 예시도이다.
도 3은 본 발명의 일 실시예에 따른 영상추적 및 재생 시스템의 동작 시나리오이다.
도 4는 본 발명의 일 실시예에 따른 영상생성 방법에 대한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 영상추적 및 재생방법에 대한 순서도이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
본 실시예는 초과화질 영상에 대한 자동 추적 및 재생 방법에 대한 내용을 개시한다. 보다 자세하게는, AI(Artificial Intelligence) 기반으로 추출한 메타데이터(metadata)가 포함된 초고화질 영상에 대하여, 중요 이벤트를 포함한 영역으로 자동적으로 이동이 가능한 방법을 제안한다.
본 실시예를 기술함에 있어, 초고화질(Ultra-High-Definition: UHD) 영상의 대상으로서 야구경기에 대한 와이드뷰(wide view)를 예로 들어 설명한다. 여기서, 와이드뷰는 영상을 구성하는 화면의 가로와 세로의 비 4:3을 기준으로, 가로의 비율이 더 큰 경우를 가정한다. 예컨대, 8K UHD 화면의 경우 가로와 세로의 비가 가장 큰 경우는 3.55:1이다.
또한, 영상은 촬영 장비에서 촬영된 결과물을 의미한다. 영상을 구성하는 하나의 장면을 영상 화면 또는 화면으로 표현한다. 화면의 표현으로는 프레임(frame), 픽처(picture) 또는 스크린(screen) 등의 용어가 사용될 수 있으나, 이하의 설명에서는 화면이란 용어를 사용한다.
도 1은 본 발명의 일 실시예에 따른 영상추적 및 재생 시스템에 대한 구성도이다.
본 발명의 실시예에 따른 영상추적 및 재생 시스템(100)은 초고화질 영상 및 메타데이터(metadata)를 포함하는 스트리밍(streaming) 데이터를 생성, 전송 및 재생한다. 영상추적 및 재생 시스템(100)은 영상 생성장치(110)와 영상추적 및 재생장치(120)의 전부 또는 일부를 포함한다. 영상 생성장치(110)는 영상촬영부(111), 메타데이터 추출부(112), 영상인코딩부(113) 및 영상송신부(114)를 포함하고, 영상추적 및 재생장치(120)는 영상수신부(121) 및 영상재생부(122)를 포함하나, 반드시 이에 한정하는 것은 아니다. 도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 영상 생성, 전송 및 재생 과정에서의 데이터 처리 기법에 의거하여 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.
또한 본 실시예는 초고화질 영상을 적용 대상으로 이용하고 있으나, 반드시 이에 한정하는 것은 아니며, 본 실시예에 따른 영상추적 및 재생 시스템(100)은, 구성요소의 적절한 변형, 추가 및 응용을 기반으로 초고화질 이하의 영상을 적용 대상으로 이용하는 것이 가능하다.
본 실시예에 따른 영상 생성장치(110)는 초고화질 영상을 촬영하고, 촬영된 영상을 이용하여 AI 기반으로 메타데이터를 추출한 후, 초고화질 영상 및 메타데이터를 포함하는 스트리밍 데이터를 생성한다. 영상 생성장치(110)는 영상촬영부(111), 메타데이터 추출부(112), 영상인코딩부(113) 및 영상송신부(114)의 전부 또는 일부를 포함한다.
본 실시예에 따른 영상촬영부(111)는 초고화질 촬영이 가능한 촬영 장비를 사용하여 초고화질 영상을 생성한다.
본 실시예에 따른 메타데이터 추출부(112)는 촬영된 영상을 이용하여 영상의 화면 별로 복수의 오브젝트의 검출, 추적 및 이벤트 검출에 관련된 메타데이터를 추출한다.
메타데이터 추출부(112)는 딥러닝(deep learning) 기반의 오브젝트 검출(detection) 알고리즘을 이용하여 영상의 화면 별로 복수의 오브젝트를 검출한다. 여기서, 딥러닝(deep learning) 기반의 오브젝트 검출 알고리즘으로는 YOLO(You Only Look Once)를 이용할 수 있다. 메타데이터 추출부(112)는 텍스트 인식 및 얼굴 인식 기술을 기반으로 검출된 오브젝트 별로 식별정보를 추출하고, 식별자(identifier: ID)를 부여한다. 예컨대, 야구 경기에 대한 영상이라면, 식별정보는 선수정보(등번호, 이름 등)가 될 수 있다.
메타데이터 추출부(112)는 머신러닝(machine learning) 기반의 오브젝트 추적(tracking) 알고리즘을 이용하여, 영상의 화면 별로 복수의 오브젝트의 위치 변경을 추적하여 각 오브젝트의 위치 및 이동(예컨대, 화면 상의 좌표 위치 (x,y) 및 죄표 위치의 변화)에 대한 메타데이터를 추출할 수 있다. 본 실시예에서는, 오픈소스(open-source) 알고리즘의 하나인 CSRT(Channel and Spatial Reliability Tracker)를 이용하여 오브젝트의 추적을 수행하나, 반드시 이에 한정하는 것은 아니며, 다른 오픈소스 알고리즘인 MOSSE(Minimum Output Sum of Squared Error) 및 GOTURN(Generic Object Tracking Using Regression Networks) 등도 이용이 가능하다.
메타데이터 추출부(112)는 딥러닝 기반의 이벤트 검출 모델을 이용하여, 영상의 화면 별로 이벤트(예컨대, 야구 경기의 경우, 홈런, 안타, 도루, 삼진, 아웃 등)를 검출하여 이벤트에 대한 메타데이터를 추출한다. 이벤트 검출 모델로는 사전에 트레이닝된 딥러닝 모델을 이용할 수 있다. 동시다발적인 이벤트(예컨대, 야구 경기의 경우, 안타와 도루의 동시 발생, 삼진과 도루의 동시 발생, 이중 도루(double steal) 상황 등)가 발생한 경우에는 사전에 트레이닝된 규칙에 따라 딥러닝 모델은 중요 이벤트를 검출할 수 있다. 임의의 오브젝트와 관련된 이벤트가 검출되면, 메타데이터 추출부(112)는 해당 이벤트에 대한 메타데이터를 추출하고, 임의의 오브젝트 관련하여 이미 추출한 메타데이터와 결합한다.
메타데이터 추출부(112)는 영상의 화면 별로 복수의 오브젝트에 대한 메타데이터 및 이벤트에 대한 메타데이터를 결합하여 영상인코딩부(113) 측으로 전달한다.
이하, 딥러닝 모델을 사전에 트레이닝하는 과정을 설명한다. 학습용 초고화질 영상을 이용하여, 각 영상의 화면 별로 이벤트 상황(예컨대, 야구 경기의 경우, 홈런, 안타, 도루, 삼진, 아웃 등)에 라벨(label)을 부착하여 정답 데이터를 생성한다. 여기서, 동시다발적인 이벤트가 발생한 경우에는 기 설정된 규칙에 따라 중요 이벤트를 선정하고, 선정된 이벤트에 해당하는 라벨을 부착하여 정답 데이터를 생성한다. 학습용 영상 및 정답 데이터를 기반으로 딥러닝 모델을 사전에 트레이닝하여, 딥러닝 모델이 초고화질 영상에서 특정 이벤트를 검출할 수 있도록 한다.
야구경기에 대한 영상을 예로 하여, 본 실시예에 따른 메타데이터 추출부(112)에서 추출한 메타데이터의 형식을 표 1에 나타낸다. 표 1에 나타낸 바대로, 영상의 화면 별로 메타데이터는 복수의 오브젝트 각각에 대한 식별자, 위치, 이동과 관련된 데이터, 발생한 이벤트의 종류, 및 복수의 오브젝트 각각에 대한 식별정보를 포함하는 추가적인 정보를 포함하되 반드시 이에 한정하는 것은 아니며, 필요에 따라 포함되는 정보를 조정하여 이용하는 것이 가능하다.
Figure 112019095937119-pat00001
본 실시예에 따른 영상인코딩부(113)는 영상촬영부(111)에서 생성한 초고화질 영상과 메타데이터 추출부(112)에서 추출한 메타데이터를 병합된 화면을 인코딩하여 영상 스트리밍 데이터를 생성한다. 도 2의 도시는, 초고화질 영상과 메타데이터가 영상 화면 별로 배치된 형태를 나타내고 있다. 영상인코딩부(113)는 도 2에 도시된 바와 같이 화면 별로 배치된 초고화질 영상과 메타데이터를 병합된 화면을 인코딩하여 영상 스트리밍 데이터를 생성한 후 송신장치로 전달한다.
본 실시예에 따른 영상송신부(114)는 영상 생성장치(110)가 생성한 스트리밍 데이터를 영상추적 및 재생장치(120) 측으로 전송한다. 영상송신부(114)는 스트리밍 데이터를 전송하기 위하여, 스트리밍 서버, 유선 및 무선 송신 장비 등을 이용하여 전송을 수행할 수 있다.
본 발명의 실시예에 따른 영상추적 및 재생장치(120)는 전달받은 스트리밍 데이터를 기반으로 메타데이터를 분석(pasing)하여 초고화질 영상을 재생한다. 영상추적 및 재생장치(120)는 영상수신부(121) 및 영상재생부(122)의 전부 또는 일부를 포함한다.
영상추적 및 재생장치(120)는 영상 플레이어(미도시) 상에 탑재될 수 있다. 영상 플레이어는 프로그램가능 컴퓨터일 수 있으며, 스트리밍 데이터의 수신이 가능한 적어도 한 개의 통신 인터페이스를 포함한다. 영상 플레이어는 초고화질 영상의 재생이 가능한 어느 디바이스(예컨대, 모바일 디바이스, 셋탑 박스를 부착한 TV 및 개인용 컴퓨터 등)든 될 수 있다.
본 실시예에 따른 영상수신부(121)는 영상송신부(114)로부터 전송된 스트리밍 데이터를 수신하여 영상재생부(122)로 전달한다. 영상수신부(121)는 유선 또는 무선수신 방식으로 스트리밍 데이터를 수신할 수 있다.
본 실시예에 따른 영상재생부(122)는 전달받은 스트리밍 데이터에 포함된 메타데이터를 분석(parsing)하여 초고화질 영상을 재생한다.
영상재생부(122)는 영상의 화면 별로 메타데이터를 분석하고, 영상을 디코딩한다. 영상재생부(122)는 분석된 메타데이터를 이용하여 복수의 오브젝트 각각의 ID 별로 식별정보 및 위치와 관련된 정보를 재생되는 영상의 화면 상에 표시할 수 있다.
영상재생부(122)는 메타데이터를 이용하여 이벤트의 발생 여부를 판단하고, 이벤트가 발생하는 경우, 이벤트의 영역을 포함하도록 자동 확대 또는 축소된 화면 영역의 영상을 재생할 수 있다. 영상재생부(122)는 메타데이터를 이용하여 이벤트가 발생하지 않은 상황에서 복수의 오브젝트 각각의 이동을 추적하여, 적어도 하나 이상의 오브젝트 이동이 발생하는 경우, PIP(Picture In Picture) 또는 화면 분할 형태로 이동하는 오브젝트의 영역을 포함하도록 자동 추적된 화면 영역의 영상을 재생할 수 있다.
영상재생부(122)는 메타데이터를 분석하여 이벤트의 주 오브젝트 또는 이동하는 오브젝트와 관련된 다른 오브젝트를 포함하는 화면 영역이 존재하는 경우, PIP 또는 화면 분할 형태로 다른 화면 영역의 영상을 재생할 수 있다.
영상재생부(122)는 이벤트의 발생 또는 오브젝트의 이동과 관련하여 자동 줌인 확대, 줌아웃 축소 또는 자동 추적을 이용하는 화면 이동 대신, 관련된 정보를 영상의 재생 화면 상에 표시할 수 있다. 이 경우, 시청자들은 화면을 드래그하여 수동으로 원하는 영역을 선택하거나, 핀치 줌인 또는 줌아웃을 이용하여 원하는 부분을 수동으로 선택하여 시청할 수 있다.
전술한 바와 같은 본 실시예에서는, 야구경기를 예시로 이용하여 오브젝트의 이동을 기술하였다. 그러나 공연, 쇼핑 및 행사 등으로 범위가 확장되면, 오브젝트의 이동 외에 상태 변화, 음향(sound), 향기, 연결 정보(예컨대, 가격) 등의 정보를 포함하는 오브젝트의 특징을 이용하는 것이 가능하다.
본 발명의 다른 실시예에서는, 영상 생성장치(100)에 전술한 오브젝트의 특징에 대한 메타데이터를 추출할 수 있는 AI 기술을 추가할 수 있다. 표 1에 나타낸 메타데이터의 형식에 오브젝트의 특징에 대한 추가 정보를 포함시킬 수 있다. 또한, 영상추적 및 재생장치(120)는 오브젝트의 특징에 대한 추가적인 메타데이터를 분석하여 영상 자동 추적 및 재생에 이용할 수 있다.
전술한 바와 같은 본 실시예에서는, 영상 생성장치(100)가 AI 기반으로 메타데이터를 추출한다. 본 발명의 다른 실시예에서는, 영상 플레이어의 컴퓨팅 파워에 의거하여 영상 플레이어가 복수의 오브젝트의 검출, 추적 및 이벤트 검출에 대한 메타데이터의 추출을 AI 기반으로 수행할 수 있다.
도 3은 본 발명의 일 실시예에 따른 영상추적 및 재생 시스템의 동작 시나리오이다.
이하, 도 3을 참조하여, 야구경기에 대한 와이드뷰 영상을 이용하여 본 실시예에 따른 영상추적 및 재생 시스템(100)의 동작 시나리오를 설명한다.
시나리오 ①에서, 영상 생성장치(110)의 영상촬영부(111)는 야구경기의 와이드뷰 영상을 촬영하여 촬영된 초고화질 영상을 메타데이터 추출부(112) 및 영상인코딩부(113)로 전달한다.
시나리오 ②에서, 메타데이터 추출부(112)는 전달받은 야구경기의 와이드뷰 영상을 이용하여, 오브젝트 검출, 추적 및 자동 이벤트 검출에 기반하여 메타데이터를 추출한다.
시나리오 ③에서, 영상인코딩부(113)는 메타데이터를 영상과 결합한 화면을 인코딩한 후, 스트리밍 데이터를 생성하여 영상 플레이어에서 동작하는 영상추적 및 재생장치(120) 측으로 제공한다.
시나리오 ④에서, 영상추적 및 재생장치(120)는 스트리밍 데이터를 기반으로 메타데이터를 분석하여 이벤트 영역 별 자동 확대, 축소 및 오브젝트 추적을 기반으로 영상을 재생한다.
이하 도 4 및 도 5를 참조하여 영상 생성 및 재생방법의 각 단계를 설명한다.
도 4는 본 발명의 일 실시예에 따른 영상생성 방법에 대한 순서도이다.
본 실시예에 따른 영상 생성장치(110)의 영상촬영부(111)는 초고화질 영상을 촬영한다(S401).
촬영된 초고화질 영상을 이용하여, 본 실시예에 따른 메타데이터 추출부(112)는 딥러닝 기반으로 복수의 오브젝트를 검출하고, 머신러닝 기반으로 오브젝트를 추적한다(S402). 다음, 딥러닝 기반으로 이벤트를 검출하여(S403), 검출된 오브젝트 및 이벤트 각각에 대한 메타데이터를 추출하고 통합한다(S404).
영상인코딩부(113)는 영상의 화면 별로 메타데이터를 영상과 결합하여 인코딩한 후, 스트리밍 데이터를 생성한다(S405).
영상 생성장치(110)는 송신 영상의 마지막인지를 확인하여 마지막이면 영상의 생성 과정을 종료하고, 마지막이 아니면 다음 단계를 진행한다(S406).
영상송신부(114) 스트리밍 데이터의 송신 수행한다(S407).
도 5는 본 발명의 일 실시예에 따른 영상추적 및 재생방법에 대한 순서도이다.
본 실시예에 따른 영상추적 및 재생장치(120)의 영상수신부(121)은 스트리밍 데이터의 수신을 수행한다(S501).
본 실시예에 따른 영상재생부(122)는 스트리밍 데이터를 기반으로 메타데이터를 분석하고, 영상을 디코딩하여 초고화질 영상을 재생한다(S502).
영상재생부(122)는 메타데이터를 이용하여 이벤트의 발생을 검출하여, 이벤트가 발생하지 않았다면 다음 단계를 진행한다(S503). 이벤트가 발생하였다면, 이벤트 영역을 포함하도록 자동 확대 및 축소하여 발생한 이벤트와 관련된 화면 영역의 영상을 재생한 후 다음 단계를 진행한다(S504).
영상재생부(122)는 메타데이터를 이용하여 오브젝트 이동을 추적하여, 오브젝트의 이동이 없다면 다음 단계를 진행한다(S505). 이어서, 오브젝트 이동이 발생하는 경우, 오브젝트가 포함된 영역을 자동 추적하여 오브젝트 이동과 관련된 화면 영역의 영상을 재생한 후, 다음 단계를 진행한다(S506).
영상재생부(122)는 수신 영상의 마지막인지를 확인하여 마지막이면 영상 재생 과정을 종료하고, 마지막이 아니면 계속하여 영상을 재생한다(S507).
이하, 야구경기의 이벤트 상황을 이용하여 본 발명의 실시예에 따른 영상추적 및 재생장치(120)의 재생 과정을 설명한다. 여기서 이벤트 상황은 주자가 2루 및 3루에 존재할 때, 타자가 안타를 친 경우를 가정한다.
첫 화면은 이벤트 상황이 발생하기 전의 화면이다. 여기서, 메타데이터는 다음 내용을 포함하되, 2 개의 오브젝트만 예시한다.
검출된 오브젝트 개수: 9
주요 오브젝트: 투수, 타자, 2루 및 3루 주자
각 오브젝트 별 추적 좌표 위치, 너비, 높이
오브젝트 1: 타자 - 좌표 위치: 3000, 1000, 너비: 300, 높이: 500, 이벤트 종류: 없음, 오브젝트 정보: 등번호 XX, 선수 A.
오브젝트 2: 2루 주자 - 좌표 위치: 3000, 2000, 너비: 300, 높이: 500, 이벤트 종류: 없음, 오브젝트 정보: 등번호 YY, 선수 B.
이상의 메타데이터에 대한 영상추적 및 재생장치(120)의 재생 과정은 다음과 같다. 검출된 이벤트가 없는 상황에서는, 야구경기의 와이드뷰에 대한 초고화질 영상의 전체화면을 재생하고, 각 선수들의 정보를 화면 상의 선수 위에 표시한다. 와이드뷰 전체화면의 위에는 현재 점수, 스트라이크와 볼 카운트, 아웃상황 등을 표시한다. 와이드뷰 전체화면의 아래에는 검출된 투수 및 타자의 시즌 성적을 표시하고 투수 및 타자의 변경 시에는 해당 정보를 업데이트한다.
다음 화면은 이벤트, 즉 타자가 안타를 친 상황이 발생 시의 화면이다. 여기서, 메타데이터는 다음 내용을 포함하되, 2 개의 오브젝트만 예시한다.
검출된 오브젝트 개수: 9
주요 오브젝트: 투수, 타자, 2루 및 3루 주자
각 오브젝트 별 추적 좌표 위치, 너비, 높이
오브젝트 1: 타자 - 좌표 위치: 3000, 1000, 너비: 300, 높이: 500, 이벤트 종류: 안타, 득점, 오브젝트 정보: 등번호 XX, 선수 A.
오브젝트 2: 2루 주자 - 좌표 위치: 3000, 2000, 너비: 300, 높이: 500, 이벤트 종류: 안타, 득점, 오브젝트 정보: 등번호 YY, 선수 B.
이상의 메타데이터에 대한 영상추적 및 재생장치(120)의 재생 과정은 다음과 같다. 이벤트가 발생하였으므로, 검출된 주요 오브젝트(타자, 주자)의 ID와 위치를 확인한다. 타자에 대해서는 이벤트 발생 시의 위치를 기준으로 미리 정해진 축척(2.0 or 3.0 배)으로 자동 축소하여 타자의 움직임을 추적하는 영상을 재생한다. 2루 및 3루 주자의 움직임도 이벤트 발생 시의 위치를 기준으로 별도의 PIP(Picture In Picture) 형태로 영상을 재생한다.
다음 화면은 이벤트 발생 이후에 오브젝트의 이동을 추적하는 화면이다. 여기서, 메타데이터는 다음 내용을 포함하되, 2 개의 오브젝트만 예시한다.
검출된 오브젝트 개수: 9
주요 오브젝트: 투수, 타자, 2루 및 3루 주자
각 오브젝트 별 추적 좌표 위치, 너비, 높이
오브젝트 1: 타자 - 좌표 위치: 5000, 1500, 너비: 300, 높이: 500, 이벤트 종류: 안타, 득점, 오브젝트 정보: 등번호 XX, 선수 A.
오브젝트 2: 2루 주자 - 좌표 위치: 1500, 1400, 너비: 300, 높이: 500, 이벤트 종류: 안타, 득점, 오브젝트 정보: 등번호 YY, 선수 B.
이상의 메타데이터에 대한 영상추적 및 재생장치(120)의 재생 과정은 다음과 같다. 오브젝트의 이동에 따라 메타데이터 내 오브젝트의 좌표 위치, 너비 및 높이가 변경된다. 변경되는 위치에 따라 카메라가 촬영하는 것처럼 전체 원본영상에서 해당 영역을 확대, 추적하면서 영상을 재생한다. 2루 및 3루 주자들의 경우, 원본 영상에서 추출하여 PIP 형태로 동시에 시청할 수 있도록 영상을 재생한다. 이벤트가 종료되면 와이드뷰 영상 전체를 재생한다.
본 실시예에 따른 영상추적 및 재생 시스템(100)은 구성요소의 성능에 기반하여 초고화질 영상에 대한 녹화 또는 생중계에 적용하는 것이 가능하다.
이상에서 설명한 바와 같이 본 실시예에 의하면, AI 기반의 오브젝트 검출, 추적 및 이벤트 자동 검출 기술을 이용하여 추출한 메타데이터(metadata)가 결합된 초고화질 영상을 기반으로, 동시다발적인 중요 이벤트에 대하여, 중요 이벤트를 포함한 영역으로 자동적으로 이동이 가능한 영상 자동 추적 및 재생 시스템과 방법을 제공함으로써 별도의 시청자 입력이 없이도 해당 중요 영역의 시청이 가능해지는 효과가 있다.
또한, 본 실시예에 의하면, 시청자가 시청을 원하는 영역을 AI 기반의 학습을 이용하여 추론함으로써, 편집 프로듀서의 입장에서 주요 화면을 편집하여 제공하는 서비스가 가능해지는 효과가 있다.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다.
컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 영상추척 및 재생 시스템
110: 영상 생성장치 111: 영상촬영부
112: 메타데이터 추출부 113: 영상인코딩부
114: 영상송신부 120: 영상추적 및 재생장치
121: 영상수신부 122: 영상재생부

Claims (11)

  1. 영상과 상기 영상 별로 추출된 메타데이터(metadata)가 결합된 화면을 인코딩하여 생성된 스트리밍(streaming) 데이터를 수신하는 영상수신부; 및
    상기 스트리밍 데이터에 기초하여 상기 메타데이터를 분석(parsing)하고, 상기 메터데이터를 기반으로 상기 화면 내 복수의 오브젝트의 검출(detection)과 식별(identification), 오브젝트 이동의 추적(tracking), 및 상기 각 오브젝트와 관련된 이벤트 정보를 이용하여 상기 영상을 자동으로 추적 및 재생하는 영상재생부
    를 포함하되,
    상기 메타데이터는 상기 복수의 오브젝트 각각에 대한 식별자(identifier: ID), 위치, 이동과 관련된 데이터, 발생한 이벤트의 종류, 및 상기 복수의 오브젝트 각각에 대한 식별정보를 포함하는 추가적인 정보를 포함하는 것을 특징으로 하는 영상추적 및 재생장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 영상재생부는,
    상기 영상의 화면 별로 상기 메타데이터를 분석(parsing)하고, 상기 영상을 디코딩하는 것을 특징으로 하는 영상추적 및 재생장치.
  4. 제1항에 있어서,
    상기 영상재생부는,
    상기 메타데이터를 이용하여 상기 복수의 오브젝트 각각의 ID 별 식별정보 및 위치와 관련된 정보를 상기 영상의 재생 화면 상에 표시하는 것을 특징으로 하는 영상추적 및 재생장치.
  5. 제1항에 있어서,
    상기 영상재생부는,
    상기 메타데이터를 이용하여 상기 이벤트의 발생 여부를 판단하고, 상기 이벤트가 발생하는 경우, 상기 이벤트의 영역을 포함하도록 자동 확대 또는 축소된 화면 영역의 영상을 재생하는 것을 특징으로 하는 영상추적 및 재생장치.
  6. 제1항에 있어서,
    상기 영상재생부는,
    상기 메타데이터를 이용하여, 상기 이벤트가 발생하지 않은 상황에서 상기 복수의 오브젝트 각각의 이동을 추적하여, 적어도 하나 이상의 오브젝트의 이동이 발생하는 경우, 분할된 화면에 상기 오브젝트의 이동 영역을 포함하도록 자동 추적된 화면 영역의 영상을 재생하는 것을 특징으로 하는 영상추적 및 재생장치.
  7. 제1항에 있어서,
    상기 영상재생부는,
    상기 메타데이터를 분석하여, 상기 이벤트의 주 오브젝트 또는 이동하는 오브젝트와 관련된 다른 오브젝트를 포함하는 화면 영역이 존재하는 경우, 분할된 화면에 상기 다른 화면 영역의 영상을 재생하는 것을 특징으로 하는 영상추적 및 재생장치.
  8. 영상추적 및 재생장치의 영상추적 및 재생방법에 있어서,
    영상과 상기 영상 별로 추출된 메타데이터(metadata)가 결합된 화면을 인코딩하여 생성된 스트리밍(streaming) 데이터를 수신하는 과정; 및
    상기 스트리밍 데이터에 기초하여 상기 메타데이터를 분석(parsing)하고, 상기 메터데이터를 기반으로 상기 화면 내 복수의 오브젝트의 검출(detection)과 식별(identification), 오브젝트 이동의 추적(tracking), 및 상기 각 오브젝트와 관련된 이벤트 정보를 이용하여 상기 영상을 자동으로 추적 및 재생하는 과정
    을 포함하되,
    상기 메타데이터는 상기 복수의 오브젝트 각각에 대한 식별자(identifier: ID), 위치, 이동과 관련된 데이터, 발생한 이벤트의 종류, 및 상기 복수의 오브젝트 각각에 대한 식별정보를 포함하는 추가적인 정보를 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 영상추적 및 재생방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 추적 및 재생하는 과정은,
    상기 영상의 화면 별로 상기 메타데이터를 분석(parsing)하고, 상기 영상을 디코딩하는 과정;
    상기 메타데이터를 이용하여 상기 복수의 오브젝트 각각의 ID 별 식별정보 및 위치와 관련된 정보를 상기 영상의 재생 화면 상에 표시하는 과정;
    상기 메타데이터를 이용하여 상기 이벤트의 발생 여부를 판단하고, 상기 이벤트가 발생하는 경우, 상기 이벤트의 영역을 포함하도록 자동 확대 또는 축소된 화면 영역의 영상을 재생하는 과정; 및
    상기 메타데이터를 이용하여 상기 이벤트가 발생하지 않은 상황에서 상기 복수의 오브젝트 각각의 이동을 추적하여, 적어도 하나 이상의 오브젝트의 이동이 발생하는 경우, 분할된 화면에 상기 하나 이상의 오브젝트의 이동 영역을 포함하도록 자동 추적된 화면 영역의 영상을 재생하는 과정;
    을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 영상추적 및 재생방법.
  11. 제8항 및 제10항 중 어느 한 항에 따른 영상추적 및 재생방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
KR1020190115450A 2019-09-19 2019-09-19 Ai 기반 영상 자동 추적 및 재생장치와 방법 KR102276636B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190115450A KR102276636B1 (ko) 2019-09-19 2019-09-19 Ai 기반 영상 자동 추적 및 재생장치와 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190115450A KR102276636B1 (ko) 2019-09-19 2019-09-19 Ai 기반 영상 자동 추적 및 재생장치와 방법

Publications (2)

Publication Number Publication Date
KR20210033759A KR20210033759A (ko) 2021-03-29
KR102276636B1 true KR102276636B1 (ko) 2021-07-12

Family

ID=75250219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190115450A KR102276636B1 (ko) 2019-09-19 2019-09-19 Ai 기반 영상 자동 추적 및 재생장치와 방법

Country Status (1)

Country Link
KR (1) KR102276636B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286889A1 (ko) * 2021-07-15 2023-01-19 엘지전자 주식회사 A/v 수신 장치 및 무선 디스플레이 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101573676B1 (ko) * 2014-08-22 2015-12-11 가온미디어 주식회사 메타데이터 기반의 객체기반 가상시점 방송 서비스 방법 및 이를 위한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102519592B1 (ko) * 2016-09-02 2023-04-10 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
KR20180092778A (ko) * 2017-02-10 2018-08-20 한국전자통신연구원 실감정보 제공 장치, 영상분석 서버 및 실감정보 제공 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101573676B1 (ko) * 2014-08-22 2015-12-11 가온미디어 주식회사 메타데이터 기반의 객체기반 가상시점 방송 서비스 방법 및 이를 위한 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286889A1 (ko) * 2021-07-15 2023-01-19 엘지전자 주식회사 A/v 수신 장치 및 무선 디스플레이 시스템

Also Published As

Publication number Publication date
KR20210033759A (ko) 2021-03-29

Similar Documents

Publication Publication Date Title
US11594028B2 (en) Video processing for enabling sports highlights generation
US11789992B2 (en) Search-based navigation of media content
US20180077430A1 (en) Cloned Video Streaming
US9363542B2 (en) Techniques to provide an enhanced video replay
US9510044B1 (en) TV content segmentation, categorization and identification and time-aligned applications
US20180077438A1 (en) Streaming audio and video for sporting venues
US20180077452A1 (en) Devices, systems, methods, and media for detecting, indexing, and comparing video signals from a video display in a background scene using a camera-enabled device
KR102583180B1 (ko) 공통적인 미디어 세그먼트의 검출
CN104602127A (zh) 导播视频同步播放方法和***以及视频导播设备
CN113395540A (zh) 虚拟演播***、虚拟演播实现方法、装置及设备、介质
KR102276636B1 (ko) Ai 기반 영상 자동 추적 및 재생장치와 방법
CN112188221B (zh) 播放控制方法、装置、计算机设备及存储介质
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
US20220224958A1 (en) Automatic generation of augmented reality media
JP2016010102A (ja) 情報提示システム
CN113938713B (zh) 一种多路超高清视频多视角漫游播放方法
US20230013988A1 (en) Enhancing viewing experience by animated tracking of user specific key instruments
Su et al. Transition effect detection for extracting highlights in baseball videos
KR102063495B1 (ko) 멀티미디어 콘텐츠 처리를 위한 장치 및 제어방법
KR102652647B1 (ko) 주요 장면 이벤트를 검출하여 타임 슬라이스 영상을 생성하는 서버, 방법 및 컴퓨터 프로그램
Yu et al. Interactive broadcast services for live soccer video based on instant semantics acquisition
CN111246234A (zh) 用于实时播放的方法、装置、电子设备和介质
US11985389B2 (en) Object or region of interest video processing system and method
US20230319346A1 (en) Systems and methods for automatically generating content items from identified events
KR101380963B1 (ko) 관련 정보 제공 시스템 및 제공 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant