KR20230056482A

KR20230056482A - 영상 압축 장치 및 방법

Info

Publication number: KR20230056482A
Application number: KR1020210140544A
Authority: KR
Inventors: 안병만
Original assignee: 한화비전 주식회사
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-04-27
Also published as: WO2023068825A1

Abstract

영상 압축 방법은, 카메라에 의해 촬상된 영상을 입력받는 단계와, 상기 촬상된 영상의 이벤트 정보를 입력받는 단계와, 상기 촬상된 영상으로부터 영상 프레임을 인코딩하는 단계와, 상기 이벤트 정보에 대응되는 매핑 테이블을 부호화하여 메타 프레임을 생성하는 단계와, 상기 메타 프레임을 상기 인코딩된 영상 프레임과 결합하여 전송 패킷을 생성하는 단계와, 상기 생성된 전송 패킷을 전송하는 단계로 이루어진다.
특히, 상기 매핑 테이블은 상기 이벤트 정보에 포함되는 객체를 구분하는 객체 종류(object type)를 부호화한 제1 매핑 테이블과, 상기 객체가 처한 상황을 구분하는 상황 범주(situation class)를 부호화한 제2 매핑 테이블을 포함한다.

Description

영상 압축 장치 및 방법{Apparatus and method for compressing images}

본 발명은 영상 압축 기술에 관한 것으로, 보다 구체적으로는, 영상에 포함된 이벤트 정보를 상기 영상과 함께 압축하는 장치 및 방법에 관한 것이다.

종래에는, 촬상 소자에 의해 캡쳐된 영상 데이터와 함께 영상 분석 결과나 이벤트 정보를 포함한 메타데이터를 네트워크를 통해 전송하는 네트워크 카메라 장치가 알려져 있다. 이러한 메타데이터의 형식으로서 XML가 사용될 수 있으며 이러한 XML(Extensible Markup Language) 문서를 압축/신장하기 위한 기술로서 EXI(Efficient XML Interchange), BiM (Binary MPEG format for XML), FI(Fast Infoset) 등이 알려져 있다.

그렇지만, 현재까지는 이와 같이 메타데이터를 XML과 같은 구조화된 문서로 표현하고 있을 뿐이고, 실제 영상 프레임과 관련하여 포맷화된 형태로 제공하지는 못한다. 또한, XML 문서가 무손실 부호화 방식으로 압축되어 전달될 수 있기는 하지만 다양한 이벤트에 포함되는 객체나 상황을 고려하여 최적화된 압축 방식은 아니다.

이와 같이, 종래에는 카메라 장치에 의해 캡쳐된 영상 데이터와 별도로 확보된 메타데이터를 별도로 전송하는 방식을 사용한다. 이에 따라, 전달되어야 하는 정보량이 증가할 뿐만 아니라 송신측 장치와 수신측 장치 간에 동기화 및 호환성을 보장하기 위한 체계가 구축되어 있지 않다.

따라서, 촬상 소자에 의해 캡쳐된 영상 데이터와 함께 전송되는 메타데이터를 보다 구조화된 포맷으로 표준화하고 아울러 메타데이터의 압축 효율을 제고할 수 있는 방안을 개발할 필요가 있다.

일본특허공보 6327816호 (2018.4.27 등록)

본 발명이 이루고자 하는 기술적 과제는, 촬상된 영상에 대응되는 메타데이터 내지 AI(Artificial Intelligence) 정보를 정형화된 포맷으로 매핑하여 전체적인 데이터의 압축률을 향상시키고자 하는 것이다.

본 발명이 이루고자 하는 다른 기술적 과제는, 촬상된 영상에 대응되는 메타데이터를 압축된 영상 프레임과 연계하여 패킷화하는 체계화된 방식을 제공하고자 하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 영상 압축 방법은, 카메라에 의해 촬상된 영상을 입력받는 단계; 상기 촬상된 영상의 이벤트 정보를 입력받는 단계; 상기 촬상된 영상으로부터 영상 프레임을 인코딩하는 단계; 상기 이벤트 정보에 대응되는 매핑 테이블을 부호화하여 메타 프레임을 생성하는 단계; 상기 메타 프레임을 상기 인코딩된 영상 프레임과 결합하여 전송 패킷을 생성하는 단계; 및 상기 생성된 전송 패킷을 전송하는 단계를 포함하되, 상기 매핑 테이블은 상기 이벤트 정보에 포함되는 객체를 구분하는 객체 종류(object type)를 부호화한 제1 매핑 테이블과, 상기 객체가 처한 상황을 구분하는 상황 범주(situation class)를 부호화한 제2 매핑 테이블을 포함한다.

상기 제1 매핑 테이블에서의 상기 객체 종류는 제1 우선순위를 가지며, 상기 제1 우선순위가 높은 객체 종류일수록 단순한 부호가 매핑되고, 상기 제2 매핑 테이블에서 상기 상황 범주는 제2 우선순위를 가지며, 상기 제2 우선순위가 높은 상황 범주일수록 단순한 부호가 매핑된다.

상기 메타 프레임은, 상기 제1 매핑 테이블이 기록되는 필드, 상기 제2 매핑 테이블이 기록되는 필드, 상기 객체 종류가 정확할 확률이 기록되는 필드, 상기 상황 범주가 정확할 확률이 기록되는 필드를 포함한다.

상기 메타 프레임은 상기 영상 프레임 중에서 상기 이벤트 정보가 있는 영상 프레임에 대해서만 생성되며, 상기 영상 프레임에서 메타 프레임이 있는지 여부는 플래그 비트(flag bit)에 의해 표시된다.

상기 촬상된 영상의 이벤트 정보는 제1 및 제2 이벤트 분석 소스로부터 각각 입력되며,

상기 제1 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도와 상기 제2 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도가 모두 제1 임계값 이상일 때에만, 상기 메타 프레임이 생성된다.

상기 제1 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도 중 어느 하나가 제1 임계값 미만이더라도 다른 하나가 상기 제1 임계값보다 높은 제2 임계값 이상이면, 상기 메타 프레임이 생성된다.

본 발명에 따르면, 촬영된 영상과 메타데이터를 연동하여 패킷화할 때, 구조화된 포맷으로 표준화할 수 있음과 동시에 압축률을 제고할 수 있다는 효과가 있다.

또한, 본 발명에 따르면, 촬영된 영상과 함께 생성되는 메타데이터를 중요도를 고려하여 우선순위를 부여함으로써 메타데이터에 대해서도 스케일러블(scalable) 전송이 가능한 효과가 있다.

또한, 본 발명에 따르면, 복수의 이벤트 분석 소스로부터 제공되는 메타데이터를 함께 고려하여, 해당 영상 프레임에 대한 이벤트 존재 여부를 보다 정확히 결정할 수 있는 효과도 있다.

도 1은 본 발명의 일 실시예에 따른 영상 압축 장치의 구성을 도시한 블록도이다.
도 2는 상기 객체 종류를 부호화한 제1 매핑 테이블을 예시한 도면이다.
도 3은 상기 상황 범주를 부호화한 제2 매핑 테이블을 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 부호화된 메타 프레임의 포맷을 구체적으로 나타낸 도면이다.
도 5는 도 1의 비디오 인코더의 구성을 보다 자세히 도시한 블록도이다.
도 6은 영상 압축 장치를 실현하는 컴퓨팅 장치의 하드웨어 구성을 예시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 영상 압축 방법을 도시한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하 첨부된 도면들을 참조하여 본 발명의 일 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 영상 압축 장치(100)의 구성을 도시한 블록도이다.

영상 압축 장치(100)는 하드웨어적으로는, 프로세서와, 상기 프로세서에 의해 실행 가능한 인스트럭션들을 저장하는 메모리를 포함하여 구성될 수 있으며, 그 기능 블록으로서는 이미지 신호 프로세서(DSP, 110), 비디오 인코더(video encoder, 120), 이벤트 분석 소스(source)로서의 이벤트 분석기(event analyzer, 130), 이벤트 판정부(event determiner, 140), 메타 프레임 생성부(meta-frame generator, 150), 전송 패킷 생성부(transmission packet generator, 160) 및 통신부(communicator, 170)를 포함하여 구성될 수 있다. 예를 들어, 영상 압축 장치(100)는 상기 프로세서의 제어에 따라 인스트럭션들에 의해 상기 기능 블록들이 수행될 수 있다.

카메라 장치(50)는 촬상 소자(51) 및 이벤트 분석기(53)를 포함하여 구성되며, CCD(Charge Coupled Device)나 CMOS(Complementary Metal-oxide Semiconductor)와 같은 촬상 소자(51)에 의해 촬상된 영상(비디오 또는 정지 영상)과, 이벤트 분석기(53)는 이벤트 분석 소스로서, 비디오 분석을 통해 얻어진 이벤트 정보를 영상 압축 장치(100)에 제공할 수 있다. 상기 이벤트 정보는 상기 촬상된 영상으로부터 얻어지는 영상의 내용을 표현할 수 있는 메타데이터로서, 객체의 종류, 이벤트의 상황 등을 포함하여 구성될 수 있다.

도 1에서는 카메라 장치(50)가 영상 압축 장치(100)와 별도의 장치로 구현되는 경우를 예시하지만, 이에 한하지 않고 카메라 장치(50)가 영상 압축 장치(100)에 통합되거나 내장(embed)될 수 있음은 물론이다.

먼저, 영상 압축 장치(100)는 카메라 장치(50)에서 촬상된 영상을 입력받고, 카메라 장치(50)에서 생성된 제1 이벤트 정보를 입력받는다.

상기 입력된 영상은 이미지 신호 프로세서(110)로 입력될 수 있으며, 이미지 신호 프로세서(110)는 상기 입력된 영상에 대한 전처리를 수행한 후 비디오 인코더(120) 및 이벤트 분석기(130)에 제공할 수 있다. 이러한 전처리에는 화이트 밸런스, 업/다운 샘플링, 노이즈 저감, 대비도 개선 등이 포함될 수 있다.

비디오 인코더(120)는 상기 전처리 영상(preprocessed image)을 인코딩하여 압축된 영상 프레임을 출력한다. 또한, 이벤트 분석기(130)는, 카메라 장치(50) 내의 이벤트 분석기(53)와 별도로, 영상 압축 장치(100) 내에 설치되어 있을 수 있다. 이벤트 분석기(130)는 상기 전처리 영상에 대해 비디오 분석(VA, video analytics)를 수행하여 제2 이벤트 정보를 생성한다.

즉, 영상 압축 장치(100) 내부의 SoC(system-on-chip) 및 외부의 카메라 장치(50)에서 각각 이벤트 정보를 생성할 수 있는 경우에는 제1 및 제2 이벤트 정보가 생성될 수 있으며, 이와 같이 생성된 제1 및 제2 이벤트 정보는 이벤트 판정부(140)에 제공될 수 있다. 이벤트 판정부(140)는 상기 이벤트 정보들로부터 현재의 영상 프레임에 이벤트가 포함되어 있는지를 판정한다. 구체적으로, 이벤트 판정부(140)는 상기 제1 이벤트 정보의 신뢰도와 상기 제2 이벤트 정보의 신뢰도가 모두 제1 임계값(예: 80%) 이상일 때에만, 현재 영상 프레임에 이벤트가 포함되어 있는 것으로 판단하고, 메타 프레임 생성부(150)에게 부호화된 메타 프레임을 생성하도록 지시할 수 있다. 반대로, 상기 제1 이벤트 정보의 신뢰도가 상기 제1 임계값보다 낮거나 상기 제2 이벤트 정보의 신뢰도가 상기 제1 임계값보다 낮으면, 이벤트 판정부(140)는 영상 프레임에 이벤트가 포함되어 있지 않다고 판단하고, 메타 프레임 생성부(150)로 하여금 현재 영상 프레임에 대한 메타 프레임을 생성하지 않게 한다.

또 다른 예로서, 상기와 같이 2개의 이벤트 정보의 신뢰도가 모두 상기 제1 임계값을 이상인 조건을 만족하지 못하더라도, 이벤트 판정부(140)는 상기 제1 이벤트 정보의 신뢰도 및 제2 이벤트 정보의 신뢰도 중 어느 하나가 상기 제1 임계값 미만이더라도 다른 하나가 상기 제1 임계값보다 높은 제2 임계값(예: 90%) 이상이면, 현재 영상 프레임에 이벤트가 포함되어 있는 것으로 판단하고, 메타 프레임 생성부(150)에게 부호화된 메타 프레임을 생성하도록 지시할 수 있다. 반대로, 상기 제1 및 제2 이벤트 정보의 신뢰도 중 어느 하나가 상기 제1 임계값보다 낮으면서, 상기 제1 및 제2 이벤트 정보의 신뢰도가 모두 상기 제2 임계값(제1 임계값보다 높은 임계값)보다 낮으면, 이벤트 판정부(140)는 영상 프레임에 이벤트가 포함되어 있지 않다고 판단하고, 메타 프레임 생성부(150)로 하여금 현재 영상 프레임에 대한 메타 프레임을 생성하지 않게 한다.

일반적으로, 이벤트 분석기의 제조사마다 사물을 판단하는 알고리즘이 다양하고 그로부터 얻어지는 신뢰도(확률)이 다양할 수 있기 때문에, 이러한 2중적인 이벤트 정보의 신뢰도 판단에 따라 보다 정확도 높은 판단 결과를 획득할 수 있는 것이다.

메타 프레임 생성부(150)는 이벤트 판정부(140)에 의해 현재 영상 프레임에 이벤트 정보가 있는 것으로 판정된 경우에, 상기 이벤트 정보에 대응되는 매핑 테이블(mapping table)을 부호화하여, 부호화된 메타 프레임(meta frame)을 생성한다. 따라서, 상기 메타 프레임은 모든 영상 프레임에 대해서 생성되는 것이 아니라, 이벤트 정보를 갖는 영상 프레임에 대해서만 생성되므로 불필요한 정보의 오버헤드를 방지할 수 있다. 상기 메타 프레임에 대한 보다 자세한 구성은 후술하는 도 2 내지 도 4를 참조하여 보다 자세히 후술하기로 한다.

이와 같이, 특정 영상 프레임에 대응하는 메타 프레임이 포함되어 있는지는, 예를 들어 별도의 플래그 비트(flag bit)에 의해 표시될 수 있다. 따라서, 영상 압축 장치(100)에 대응되는 영상 복원 장치는 상기 플래그 비트를 확인하여 메타 프레임이 포함되어 있는지 여부를 확인할 수 있으므로, 이에 따라 정확한 데이터의 판독이 가능한 것이다.

전송 패킷 생성부(160)는 압축된 영상 프레임 및 부호화된 메타 프레임을 결합하여 전송 패킷을 생성한다. 물론, 전송 패킷 생성부(160)는 특정 영상 프레임에 대해 부호화된 메타 프레임이 없는 경우에는 단순히 영상 프레임만으로 전송 패킷을 생성할 수 있다.

통신부(170)는 생성된 전송 패킷을 네트워크를 통해 전송한다. 이러한 전송 패킷을 수신하는 영상 복원 장치는 상기 플래그 비트를 읽은 후 정확한 비트 위치에서 메타 프레임과 압축된 영상 프레임을 읽어 들이고, 최종적으로 복원된 영상 프레임과 이에 대응되는 이벤트 정보를 생성할 수 있다. 이와 같이, 통신부(170)는 외부 장치와 통신 가능하게 접속하여 전송 패킷을 전송하기 위한 인터페이스로서, TCP/IP(Transmission control protocol/Internet protocol), RTSP(Real-Time Streaming Protocol) 프로토콜 및 물리층(physical layer) 등을 포함하여 구성될 수 있다.

도 1의 메타 프레임 생성부(150)에 의해 생성된 부호화된 메타 프레임은 상기 이벤트 정보에 포함되는 객체를 구분하는 객체 종류(object type)를 부호화한 제1 매핑 테이블과, 상기 객체가 처한 상황을 구분하는 상황 범주(situation class)를 부호화한 제2 매핑 테이블을 포함하여 구성될 수 있다. 여기서, 매핑 테이블이란 기본적으로, 촬상된 영상의 송신측 및 수신측에서 인코딩 및 디코딩을 수행할 때, 이벤트 정보 내지 AI 정보를 포맷화된 테이블로 매핑된 데이터(예: 이진 데이터)를 의미한다.

도 2는 상기 객체 종류를 부호화한 제1 매핑 테이블(221)을 예시한 도면이다. 제1 매핑 테이블(221)은 사람 몸체(human body), 사람 얼굴(human face), 자동차(car), 개(dog) 등의 객체 종류를 이진 부호와 매핑한 테이블이다. 상기 객체 종류는 우선순위(priority)를 가지며, 상기 우선순위가 높은 객체 종류일수록 단순한 부호가 매핑된다. 예를 들어, 우선순위가 가장 높은 사람 몸체에 가장 단순한 이진 부호인 "0000 0000"가 할당되고, 그 다음 우선순위가 높은 사람 얼굴에 그 다음으로 단순한 이진 부호인 "0000 0001"가 할당된다. 이와 같이 자주 발생될 가능성이 높은 객체에 우선순위를 부여함으로써 단순한 이진 부호가 다수 발생하게 되면 추후에 엔트로피 코딩과 같은 무손실 부호화시에 압축효율이 한층 더 증가하게 된다.

도 3은 상기 상황 범주를 부호화한 제2 매핑 테이블(222)을 예시한 도면이다. 제2 매핑 테이블(222)은 접촉 감지(attached detection), 추락 감지(fall detection), 반려동물과 함께 있는 사람(human with a pet) 등의 상황 범주를 이진 부호와 매핑한 테이블이다. 상기 상황 범주도 우선순위(priority)를 가지며, 상기 우선순위가 높은 상황 범주일수록 단순한 부호가 매핑될 수 있다. 예를 들어, 우선순위가 가장 높은 접촉 감지에 가장 단순한 이진 부호인 "0000 0000"가 할당되고, 그 다음 우선순위가 높은 추락 감지에 그 다음으로 단순한 이진 부호인 "0000 0001"가 할당된다. 이와 같이 자주 발생될 가능성이 높은 상황에 우선순위를 부여함으로써 단순한 이진 부호가 다수 발생하게 되면 추후에 엔트로피 코딩과 같은 무손실 부호화시에 압축효율이 한층 더 증가하게 된다.

도 4는 본 발명의 일 실시예에 따른 부호화된 메타 프레임(200)의 포맷을 구체적으로 나타낸 도면이다. 상기 메타 프레임(200)은 우선 메타 헤더(210)와 메타 페이로드(220)를 포함하여 구성될 수 있다. 메타 헤더(210)는 메타 페이로드(220)를 판독하기 위해 필요한 정보를 기록한 필드이며, 메타 페이로드(220)는 실제 페이로드 데이터가 기록되는 필드이다.

상기 메타 페이로드(220)는 전술한 바와 같이 제1 매핑 테이블(221) 및 제2 매핑 테이블(222)을 적어도 포함한다. 또한, 상기 메타 페이로드(220)는 제1 매핑 테이블(221)에서의 객체 종류가 갖는 신뢰도를 나타내는 객체 종류 신뢰도 필드(223)와, 제2 매핑 테이블(222)에서의 상황 범주가 갖는 신뢰도를 나타내는 상황 범주 신뢰도 필드(224)와, 리저브 비트(225)를 더 포함할 수 있다. 예를 들어, 제1 매핑 테이블(221), 제2 매핑 테이블(222), 객체 종류 신뢰도 필드(223), 상황 범주 신뢰도 필드(224)는 각각 8비트로 나타낼 수 있다.

상기 신뢰도는 객체 종류나 상황 범주가 정확할 확률을 나타내는 퍼센트 값으로 표현될 수 있다. 또는, 상기 신뢰도의 데이터량을 감소시키기 위해, 상기 신뢰도는 단순한 대표숫자로 표현될 수도 있다. 예를 들어, 상기 대표숫자는 상기 신뢰도가 100%에 가까운 경우에는 "0", 상기 신뢰도가 90% 이상일 때에는 "1", 상기 신뢰도가 80~90% 범위일 때에는 "2" 등으로 표시될 수 있다.

또한, 리저브 비트(225)는 영상 압축 장치 또는 영상 복원 장치의 제조 업체의 상황에 맞게 추가적으로 표현할 수 있는 커스텀 데이터를 기록할 수 있는 영역이다.

한편, 상기 매핑 테이블들(221, 222)에 더하여, 이러한 객체 종류 신뢰도(223)나 상황 범주 신뢰도(224)를 영상 복원 장치 측으로 전달하게 되면, 수신단의 영상 복원 장치는 자체의 기준에 따라 보다 높은 신뢰도를 갖는 이벤트 정보만을 추출하는 가변적인 처리가 가능하게 된다. 따라서, 수신단의 영상 복원 장치의 용도 및 사양에 따라서 제1 매핑 테이블(221)만을 읽고 객체 종류만 파악하는 경우나, 제1 및 제2 매핑 테이블만(221, 222)을 읽어서 객체 종류와 상황 범주를 파악하는 경우나, 상기 매핑 테이블들(221, 222) 뿐만 아니라 신뢰도 정보(223, 224)까지 모두 읽어서 보다 정밀한 객체 및 상황을 추출하는 경우 모두에 적응적으로 사용될 수 있다.

또는, 영상 복원 장치는 하나의 매핑 테이블(221, 222) 내에서도 우선도가 높은 앞쪽의 이진 데이터만을 읽어서 처리하고 우선도가 낮은 객체나 상황은 고려하지 않을 수도 있다. 즉, 도 4와 같은 포맷은 메타 프레임에 대한 스케일 가능한 속성(scalable attribute)을 제공한다.

이와 반대로, 이러한 스케일 가능한 속성은 영상 압축 장치(100) 측에 적용될 수도 있다. 예를 들어, 영상 압축 장치(100)가 사양의 제약이 있거나 충분하지 않은 장치라면, 상기 매핑 테이블(221, 222) 내에서 우선도가 높은 앞쪽의 이진 데이터만을 전송할 수도 있고, 제1 및 제2 매핑 테이블(221, 222)은 전부 전송하지만 이후의 신뢰도 필드(223, 224)는 전송을 생략할 수도 있다.

도 5는 도 1의 비디오 인코더(120)의 구성을 보다 자세히 도시한 블록도이다. 상기 비디오 인코더(120)는 MPEG-2, MPEG-4, H.264, HEVC(H.265) 등 다양한 비디오 코딩 표준에 따라, 상기 영상 신호로부터 압축된 영상 프레임을 생성하는 하드웨어 또는 소프트웨어 모듈이다.

도 5를 참조하면, 비디오 인코더(120)는 픽쳐 분할부(121), 감산기(122), 변환부(123), 양자화부(124), 스캐닝부(125), 엔트로피 부호화부(126), 픽쳐 복원부(127) 및 예측부(128)를 포함한다.

픽쳐 분할부(121)는 입력되는 비디오 신호를 분석하여 픽쳐를 소정 크기의 블록으로 분할한다. 이러한 분할의 단위는 H.264와 같이, 16x16, 8x8, 4x4를 포함한 가변적 블록 크기일 수 있으나, HEVC에서와 같이 보다 크고 다양한 블록 크기를 가질 수도 있다.

감산부(122)는 상기 분할된 원본 블록에서, 예측부(128)에서 제공되는 예측 블록을 차감하여 잔차 블록(residual block)을 생성한다.

변환부(123)는 상기 잔차 블록을 공간적 변환하여 주파수 성분을 갖는 변환 계수들을 생성한다. 상기 공간적 변환은 통상 DCT(discrete cosine transform), DST(discrete sine transform), WT(wavelet transform) 등이 사용될 수 있다.

양자화부(124)는 상기 변환 계수들을 양자화하기 위한 양자화 스텝 사이즈를 부호화 단위별로 결정한다. 그리고, 결정된 양자화 스텝 사이즈에 따라 상기 변환 블록의 계수들을 양자화하여 양자화 계수를 생성한다.

스캐닝부(125)는 상기 양자화 계수들(2차원 배열)을 소정의 방식(지그재그, 수평, 수직 스캔 등)스캐닝하여 1차원의 양자화 계수들로 변환한다.

엔트로피 부호화부(126)는 스캐닝부(125)에서 스캐닝된 1차원의 양자화 계수들과, 예측부(128)에서 제공되는 예측 정보들을 엔트로피 부호화(무손실 부호화)하여 압축된 비트스트림을 생성한다. 상기 예측 정보란, 인트라 예측 또는 인터 예측에 따른 정보들을 의미하며, 구체적으로 인트라 예측에서의 모드 정보나 인터 예측에서의 모션 벡터 및 참조 픽쳐 정보 등을 의미한다.

한편, 통상의 폐루프(closed-loop) 부호화 방식에 따르면, 원본 자체를 참조 픽쳐로 이용하지 않고, 변환 및 양자화를 거친 후 다시 역양자화 및 역변환을 거쳐서 픽쳐를 복원하고 이 복원된 픽쳐를 다른 픽쳐 또는 같은 픽쳐의 참조로 사용하게 된다. 같은 픽쳐의 다른 부분을 참조로 이용하는 것을 인트라 예측이라고 하고, 다른 픽쳐를 참조로 이용하는 것을 인터 예측이라고 한다.

픽쳐 복원부(127)는 상기 변환 및 양자화를 거쳐 얻어진 2차원의 양자화 계수들에 대해, 다시 역양자화 및 역변환을 수행하여 복원된 픽쳐(또는 픽쳐의 일부)를 얻는다. 이렇게 복원된 픽쳐는 예측부(128)에 제공되며, 예측부(128)는 R-D(rate-distortion) 코스트 관점에서 인트라 예측과 인터 예측 중에서 유리한 예측 방식에 의해 참조 픽쳐를 생성하고 이를 감산기(122)에 제공한다.

도 6은 영상 압축 장치(100)를 실현하는 컴퓨팅 장치(300)의 하드웨어 구성을 예시하는 도면이다.

컴퓨팅 장치(300)은 버스(320), 프로세서(330), 메모리(340), 스토리지(350), 입출력 인터페이스(310) 및 네트워크 인터페이스(360)를 가진다. 버스(320)는 프로세서(330), 메모리(340), 스토리지(350), 입출력 인터페이스(310) 및 네트워크 인터페이스(360)가 서로 데이터를 송수신하기 위한 데이터 전송로이다. 단, 프로세서(330) 등을 서로 접속하는 방법은 버스 연결로 제한되지 않는다. 프로세서(330)은 CPU (Central Processing Unit)나 GPU (Graphics Processing Unit) 등의 연산 처리 장치이다. 메모리(340)은 RAM (Random Access Memory)나 ROM (Read Only Memory) 등의 메모리이다. 스토리지(350)은 하드 디스크, SSD (Solid State Drive), 또는 메모리 카드 등의 저장 장치이다. 또한 스토리지(350)은 RAM 나 ROM 등의 메모리일 수 있다.

입출력 인터페이스(310)은 컴퓨팅 장치(300)과 입출력 디바이스를 접속하기 위한 인터페이스이다. 예를 들면 입출력 인터페이스(310)에는 키보드나 마우스 등이 접속된다.

네트워크 인터페이스(360)은 컴퓨팅 장치(300)을 외부 장치와 통신 가능하게 접속하여 전송 패킷을 송수신하기 위한 인터페이스이다. 네트워크 인터페이스(360)은 유선 회선과 접속하기 위한 네트워크 인터페이스라도 좋고 무선 회선과 접속하기 위한 네트워크 인터페이스라도 좋다. 예를 들면, 컴퓨팅 장치(300)은 네트워크(30)를 통해 다른 컴퓨팅 장치(300-1)와 접속될 수 있다.

스토리지(350)는 컴퓨팅 장치(300)의 각 기능을 구현하는 프로그램 모듈을 기억하고 있다. 프로세서(330)은 이들 각 프로그램 모듈을 실행함으로써, 그 프로그램 모듈에 대응하는 각 기능을 구현한다. 여기서 프로세서(330)은 상기 각 모듈을 실행할 때, 이 모듈들을 메모리(340)상으로 읽어낸 후 실행할 수 있다.

다만, 컴퓨팅 장치(300)의 하드웨어 구성은 도 6에 나타낸 구성으로 제한되지 않는다. 예를 들면 각 프로그램 모듈은 메모리(340)에 저장되어도 좋다. 이 경우, 컴퓨팅 장치(300)은 스토리지(350)을 구비하지 않아도 된다.

이와 같이, 영상 압축 장치(100)는 적어도, 프로세서(330)와 상기 프로세서(330)에 의해 실행 가능한 인스트럭션들(instructions)을 저장하는 메모리(340)를 포함한다. 특히, 도 1의 영상 압축 장치(100)는 상기 영상 압축 장치(100)에 포함된 다양한 기능 블록들 내지 단계들을 포함하는 인스트럭션들이 상기 프로세서(330)에 의해 수행됨으로써 동작된다.

도 7은 본 발명의 일 실시예에 따른 영상 압축 방법을 도시한 흐름도이다. 프로세서(330)와, 상기 프로세서(330)에 의해 실행 가능한 인스트럭션들을 저장하는 메모리(340)를 포함하는 장치에서, 상기 프로세서(330)의 제어에 따라 인스트럭션들에 의해 수행되는 영상 압축 방법은 도 7과 같은 단계들로 이루어질 수 있다.

먼저, 이미지 신호 프로세서(110)는 카메라 장치(50)에 의해 촬상된 영상을 입력받고(S71), 이벤트 판정부(140)는 상기 촬상된 영상의 이벤트 정보(이벤트 정보 1)를 입력받는다(S72).

비디오 인코더(120)는 상기 촬상된 영상으로부터 영상 프레임을 인코딩한다(S73).

메타 프레임 생성부(150)는 상기 이벤트 정보에 대응되는 매핑 테이블을 부호화하여 메타 프레임을 생성한다(S74).

전송 패킷 생성부(160)는 상기 메타 프레임을 상기 인코딩된 영상 프레임과 결합하여 전송 패킷을 생성한다(S75).

통신부(170)는 상기 생성된 전송 패킷을 영상 복원 장치 측으로 전송한다(S76).

여기서, 상기 매핑 테이블은 상기 이벤트 정보에 포함되는 객체를 구분하는 객체 종류를 부호화한 제1 매핑 테이블(221)과, 상기 객체가 처한 상황을 구분하는 상황 범주를 부호화한 제2 매핑 테이블(222)을 포함한다.

상기 제1 매핑 테이블(221)에서의 상기 객체 종류는 제1 우선순위를 가지며, 상기 제1 우선순위가 높은 객체 종류일수록 단순한 부호가 매핑되고, 상기 제2 매핑 테이블(222)에서 상기 상황 범주는 제2 우선순위를 가지며, 상기 제2 우선순위가 높은 상황 범주일수록 단순한 부호가 매핑될 수 있다.

여기서, 상기 메타 프레임(200)은 상기 제1 매핑 테이블이 기록되는 필드(221), 상기 제2 매핑 테이블이 기록되는 필드(222), 상기 객체 종류가 정확할 확률(신뢰도)이 기록되는 필드(223), 상기 상황 범주가 정확할 확률(신뢰도)이 기록되는 필드(224)를 포함한다.

다만, 상기 메타 프레임(200)은 상기 영상 프레임 중에서 상기 이벤트 정보가 있는 영상 프레임에 대해서만 생성되며, 상기 영상 프레임에서 메타 프레임이 있는지 여부는 플래그 비트(flag bit)에 의해 표시될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

50: 카메라 장치
51: 촬상 소자
53, 130: 이벤트 분석기
100: 영상 압축 장치
110: 이미지 신호 프로세서
120: 비디오 인코더
140: 이벤트 판정부
150: 메타 프레임 생성부
160: 전송 패킷 생성부
170: 통신부
200: 메타 프레임
210: 메타 헤더
220: 메타 페이로드
221: 제1 매핑 테이블
222: 제2 매핑 테이블
223: 객체 종류 신뢰도 필드
224: 상황 범주 신뢰도 필드

Claims

프로세서와, 상기 프로세서에 의해 실행 가능한 인스트럭션들을 저장하는 메모리를 포함하는 장치에서, 상기 프로세서의 제어에 따라 인스트럭션들에 의해 수행되는 영상 압축 방법은,
카메라에 의해 촬상된 영상을 입력받는 단계;
상기 촬상된 영상의 이벤트 정보를 입력받는 단계;
상기 촬상된 영상으로부터 영상 프레임을 인코딩하는 단계;
상기 이벤트 정보에 대응되는 매핑 테이블을 부호화하여 메타 프레임을 생성하는 단계;
상기 메타 프레임을 상기 인코딩된 영상 프레임과 결합하여 전송 패킷을 생성하는 단계; 및
상기 생성된 전송 패킷을 전송하는 단계를 포함하되,
상기 매핑 테이블은 상기 이벤트 정보에 포함되는 객체를 구분하는 객체 종류(object type)를 부호화한 제1 매핑 테이블과, 상기 객체가 처한 상황을 구분하는 상황 범주(situation class)를 부호화한 제2 매핑 테이블을 포함하는, 영상 압축 방법.
제1항에 있어서,
상기 제1 매핑 테이블에서의 상기 객체 종류는 제1 우선순위를 가지며, 상기 제1 우선순위가 높은 객체 종류일수록 단순한 부호가 매핑되고,
상기 제2 매핑 테이블에서 상기 상황 범주는 제2 우선순위를 가지며, 상기 제2 우선순위가 높은 상황 범주일수록 단순한 부호가 매핑되는, 영상 압축 방법.
제2항에 있어서, 상기 메타 프레임은
상기 제1 매핑 테이블이 기록되는 필드, 상기 제2 매핑 테이블이 기록되는 필드, 상기 객체 종류가 정확할 확률이 기록되는 필드, 상기 상황 범주가 정확할 확률이 기록되는 필드를 포함하는, 영상 압축 방법.
제1항에 있어서,
상기 메타 프레임은 상기 영상 프레임 중에서 상기 이벤트 정보가 있는 영상 프레임에 대해서만 생성되며
상기 영상 프레임에서 메타 프레임이 있는지 여부는 플래그 비트(flag bit)에 의해 표시되는, 영상 압축 방법.
제1항에 있어서,
상기 촬상된 영상의 이벤트 정보는 제1 및 제2 이벤트 분석 소스로부터 각각 입력되며,
상기 제1 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도와 상기 제2 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도가 모두 제1 임계값 이상일 때에만, 상기 메타 프레임이 생성되는, 영상 압축 방법.
제1항에 있어서,
상기 촬상된 영상의 이벤트 정보는 제1 및 제2 이벤트 분석 소스로부터 각각 입력되며,
상기 제1 이벤트 분석 소스로부터 입력된 이벤트 정보의 신뢰도 중 어느 하나가 제1 임계값 미만이더라도 다른 하나가 상기 제1 임계값보다 높은 제2 임계값 이상이면, 상기 메타 프레임이 생성되는, 영상 압축 방법.