KR20240042533A - Hdr 이미지 중 이차 그래픽 요소의 혼합 - Google Patents

Hdr 이미지 중 이차 그래픽 요소의 혼합 Download PDF

Info

Publication number
KR20240042533A
KR20240042533A KR1020247008922A KR20247008922A KR20240042533A KR 20240042533 A KR20240042533 A KR 20240042533A KR 1020247008922 A KR1020247008922 A KR 1020247008922A KR 20247008922 A KR20247008922 A KR 20247008922A KR 20240042533 A KR20240042533 A KR 20240042533A
Authority
KR
South Korea
Prior art keywords
luma
image
graphics
dynamic range
range
Prior art date
Application number
KR1020247008922A
Other languages
English (en)
Inventor
마크 요셉 윌리엄 메르텐스
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20240042533A publication Critical patent/KR20240042533A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • G09G5/005Adapting incoming signals to the display format of the display terminal
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • G09G5/026Control of mixing and/or overlay of colours in general
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/10Intensity circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0271Adjustment of the gradation levels within the range of the gradation scale, e.g. by redistribution or clipping
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0271Adjustment of the gradation levels within the range of the gradation scale, e.g. by redistribution or clipping
    • G09G2320/0276Adjustment of the gradation levels within the range of the gradation scale, e.g. by redistribution or clipping for the purpose of adaptation to the characteristics of a display device, i.e. gamma correction
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/06Adjustment of display parameters
    • G09G2320/0673Adjustment of display parameters for control of gamma adjustment, e.g. selecting another gamma curve
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/06Colour space transformation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/10Mixing of images, i.e. displayed pixel being the result of an operation, e.g. adding, on the corresponding input pixels
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2360/00Aspects of the architecture of display systems
    • G09G2360/16Calculation or use of calculated indices related to luminance levels in display data
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller
    • G09G2370/042Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller for monitor identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)

Abstract

훨씬 더 나은 예측 가능한 그래픽 삽입을 얻기 위해, HDR 비디오에서 상이한 시간에 삽입된 일차 및 이차 그래픽 요소의 코딩된 루마 각각의 픽셀 휘도를 더 잘 조정하여, 본 발명자는 디지털 이미지를 프로세싱하기 위한 회로에서 적어도 하나의 고 동적 범위(high dynamic range) 입력 이미지(206)와 혼합될 이차 그래픽 이미지 요소(216)의 픽셀의 제2 루마(luma)를 결정하는 방법(또는 장치)을 제안하고, 방법은, 적어도 하나의 고 동적 범위 입력 이미지를 포함하는 고 동적 범위 이미지 신호(S_im)를 수신하는 단계를 포함하고, 방법은, - 고 동적 범위 입력 이미지의 휘도의 범위의 서브범위인, 적어도 하나의 고 동적 범위 입력 이미지의 일차 그래픽 요소의 일차 그래픽 루마의 범위(R gra)를 결정하기 위해 고 동적 범위 이미지 신호를 분석하는 단계 - 일차 그래픽 루마의 범위를 결정하는 것은 일차 그래픽 루마의 범위(R_gra)의 엔드포인트를 특정하는 하위 루마(Y low) 및 상위 루마(Y high)를 결정하는 것을 포함함 -; - 그래픽 루마의 범위에 포함된 픽셀 루마의 적어도 가장 밝은 서브세트와 이차 그래픽 요소를 휘도 맵핑하는 단계; 및 - 이차 그래픽 이미지 요소를 고 동적 범위 입력 이미지와 혼합하는 단계를 포함하는 것을 특징으로 한다.

Description

HDR 이미지 중 이차 그래픽 요소의 혼합
본 발명은 특히 그래픽 요소를 포함하는 표준 저 동적 범위(low dynamic range) 이미지와 비교하여 이미지를 인코딩하는 신규 방식인 고 동적 범위(HDR: high dynamic range) 이미지를 구성하는 방법 및 장치에 관한 것이다. 특히, 본 발명은 비디오의 상이한 장면 이미지마다 잠재적으로 상이하게 특정될 수 있는 휘도 또는 톤 맵핑을 포함하는 보다 진보된 HDR 애플리케이션에 부응할 수 있고, 그에 따라 상이한 최대 휘도에서 끝나는 상이한 휘도 동적 범위의 이차 컬러 그레이딩(grading)은 일차 그레이딩을 갖는 입력 이미지로부터 계산될 수 있다(그레이딩은 통상적으로 입력 이미지에서의 시작 상대 값으로부터 출력 이미지에서의 상이한 상대 값까지 이미지 내의 다양한 객체의 픽셀의 정규화된 휘도를 재분배하는 것을 포함하고; 상대적 재분배는 또한 정규화된 휘도와 연관된 경우 픽셀의 절대 휘도 값에 영향을 미침). 특히, 본 발명은 이차 그래픽 요소가 이전에 생성된 HDR 이미지에서 일부 비디오 프로세싱 장치에 의해 혼합되어야 할 때 유용할 수 있다(이차 그래픽 요소는 적어도 하나의 이차 그래픽 요소의 혼합 전에 이미지(들)에 이미 존재하는 일차 그래픽 요소와 구별되어야 함).
2010년경의 첫 번째 연구(그리고 2015년에 최초로 구매 가능하였던 HDR 디코딩 tv의 배포 전)까지, 적어도 비디오의 경우 모든 비디오는 보편적 저 동적 범위(LDR), 소위 표준 동적 범위(Standard Dynamic Range; SDR) 인코딩 프레임워크에 따라 만들어졌다. 이는 다수의 특성을 가졌다. 첫째, 모든 디스플레이에 적합한 비디오가 하나만 만들어졌다. 시스템은 백색이 최대(100%) 신호이고, 최대 비선형 RGB 값(R'=G'=B'= 255)에 대응하는 최대 루마(luma) 코드(8 비트 YCbCr 인코딩에서 255)로 인코딩된 상대적 시스템이었다. 백색보다 더 밝은 것은 없었지만, 모든 통상적인 반사 컬러는 그러한 가장 밝은 백색보다 더 어둡게 표현될 수 있다(예를 들어, 한 장의 종이는 또한 기껏해야 모든 인입 광을 반사하거나, 청색 및 녹색을 남기고 적색 파장 중 일부를 흡수하여 눈으로 다시 반사되어 청록색 로컬 컬러(local color)를 초래할 것이고, 이는 정의에 따라 페이퍼 화이트보다 다소 어두움). 각각의 디스플레이는 이 가장 하얀 백색("드라이빙 요청(driving request)으로서")을, 예를 들어 컴퓨터 모니터에서는 80 니트(SI 수량 Cd/m^2를 더 쉽게 표기한 명칭임), 그리고 TL 백라이트를 갖는 LCD 디스플레이에서는 200 니트의, 렌더링을 위해 기술적으로 구성된 가장 밝은 컬러로서 디스플레이하였다. 시청자의 눈은 명도의 차이를 빠르게 보상하므로, 매장에 함께 있지 않을 때, 집에 있는 모든 시청자는 대략 동일한 이미지를 보았다(디스플레이 차이에도 불구하고).
종이에 인쇄되거나 페인팅될 수 있는 컬러뿐만 아니라, "페이퍼 화이트", 소위 "확산 백색"보다 훨씬 더 밝은 실제 빛나는 픽셀을 만듦으로써 이미지의 인지 가능한 모습을 개선하고 싶었다. 실제로, 이는 예를 들어 옛날에는 스튜디오 및 중요한 모든 것이 천장에 있는 램프의 배터리로부터 잘 비추어진 곳 등에서 이미지를 만들었다면, 이제는 단순히 강한 역광 조명을 배경으로 촬영하고 이를 보기 좋게 만들 수 있다는 것을 의미할 것이다. 카메라는 많은 시나리오를 위해 충분한 다수의 장면 휘도를 동시에 캡처할 수 있도록 계속 개선되었고, 명도는 컴퓨터에서 추가로 튜닝되거나 보충될 수 있었으며, 디스플레이도 계속해서 나아졌고, 심지어 소비자용 텔레비전 디스플레이도 마찬가지였다.
BBC의 하이브리드 로그감마(Hybrid Loggamma; HLG)와 같은 일부 시스템은 백색(백색에는 참조 레벨 "1" 또는 100%가 주어짐) 위, 예를 들어 최대 10x 백색의 코딩된 이미지 값을 정의함으로써 이를 수행하고, 이는 디스플레이될 10x 더 밝게 빛나는 픽셀을 정의할 수 있다.
이제 대부분의 시스템은 또한 비디오 생성자가 선택된 타겟 디스플레이 동적 범위 능력에서 자신의 이미지에 대해 절대 니트 값(즉, 각각의 엔드포인트 디스플레이에서 가변 실제 니트 출력으로 변환되는 정의되지 않은 백 레벨에 비해 2x 또는 10x가 아님)을 정의할 수 있는 패러다임으로 이동했다. 타겟 디스플레이는 비디오 생성측의 가상(의도된) 디스플레이, 예를 들어 4000 니트 특정 비디오를 정의하기 위한 4000 니트(ML_C) 타겟 디스플레이이고, 임의의 실제 소비자의 엔드포인트 디스플레이는 하위 디스플레이 최대 휘도(ML_D), 예를 들어 750 니트를 가질 수 있다. 이러한 상황에서, 최종 디스플레이는 충실히 디스플레이될 휘도 동적 범위가 너무 높은(특히 최대 휘도) HDR 입력 이미지에서의 픽셀 휘도를 어떻게든 최종 디스플레이 동적 범위 내의 값까지 순응시키는 루마 맵핑으로 통상적으로 실현되는 휘도 재맵핑 하드웨어 또는 소프트웨어를 여전히 포함할 필요가 있을 것이다. 가장 단순한 맵핑은 단순히 750 니트 초과의 모든 휘도를 750 니트로 클립핑하지만, 이는 동적 범위 맵핑을 핸들링하는 최악의 방식인데, 그 이유는 예를 들어 1000 내지 2000 니트의 범위 내의 햇빛이 비치는 구름을 갖는 일몰의 4000 니트 이미지에서 아름다운 구조가 클립핑되고, 백색의 균일한 750 패치로 디스플레이되기 때문이다. 더 나은 루마 맵핑은 HDR 입력 이미지 내의 1000 내지 2000 니트 서브범위를 적합하게 결정된 함수(수신 장치, 예를 들어 tv, STB 등의 내부에서 자율적으로 결정되거나; 비디오 생성자가 자신의 예술 영화 또는 프로그램에 가장 적합하다고 결정하고, 예를 들어 표준화된 포맷 메타데이터로서 비디오 신호와 공동 통신될 수 있음)에 의해, 예를 들어 최종 디스플레이 동적 범위의 650 내지 740으로 이동시킬 것이다. 루마는 0 내지 1023 루마 코드를 소위 전기-광학 전달 함수(EOTF)에 의해, 예를 들어 0.001 내지 4000 니트 비디오 휘도에 할당하는 함수를 이용한, 예를 들어 10 비트 단위의 휘도의 임의의 인코딩을 의미한다.
가장 단순한 시스템은 단지 HDR, 예를 들어 4000 니트 최대 휘도 이미지 자체를 (적합하게 정의된 EOTF를 이용하여) 전송하는 것이다(즉, 수신기에 이미지를 공급하지만, 예를 들어 하위 최대 휘도 능력 디스플레이를 위해 휘도 맵핑에 의해 이를 어떻게 다운그레이드해야 하는지 나타내지는 않음). 이는 HDR10 표준이 하는 것이다. HDR10+와 같은 보다 진보된 시스템은 또한 4000 니트 이미지를 하위 동적 범위, 예를 들어 750 니트로 다운맵핑하기 위한 함수를 통신할 수 있다. 이는 동일한 장면 이미지의 2개의 상이한 최대 휘도 버전 이미지 또는 참조 그레이딩 간의 맵핑 함수를 정의하고, 이어서 해당 참조 휘도 또는 루마 맵핑 함수의 변형된 버전을 계산하여 다른 휘도 맵핑 함수를 계산하고, 예를 들어 다른 디스플레이 최대 휘도에 대한 엔드포인트 함수를 계산하는 알고리즘을 사용함으로써 이를 쉽게 만든다(예를 들어, 참조 휘도 맵핑 함수는 100 니트 참조 비디오를 얻기 위해 2000 니트 입력 이미지, 예를 들어 생성자에 의해 생성된 마스터 HDR 그레이드 비디오에서 정규화된 휘도의 분포를 변화시키는 방법을 특정할 수 있고, 디스플레이 적응 알고리즘은 참조 휘도 맵핑 함수에 기반하여 최종 휘도 맵핑 함수를 계산하고, 그에 따라 700 니트 텔레비전은 0 내지 2000 니트 휘도를 그의 0 내지 700 니트 범위 내의 디스플레이될 출력 휘도에 맵핑할 수 있음). 예를 들어, SDR 이미지를 정의하는 데 동의하면, 상대 이미지가 아니라 절대 니트 이미지로도 새로 해석되어, 항상 100 니트의 최대 픽셀 휘도로 가는 경우, 비디오 생성자는 제1 참조 이미지 그레이딩인 0.001(또는 0) 내지 4000 니트 휘도를, 디스플레이 튜닝 또는 적응으로 불리는 대응하는 원하는 SDR 0 내지 100 니트 휘도(이차 참조 그레이딩임)에 맵핑하는 방법을 특정하는 함수를 정의하고 공동 통신할 수 있다. 4000 니트 ML_C 입력 이미지(수평축)와 100 니트 ML_C 이차 그레이딩/참조 이미지 둘 모두에 대해 1.0 플롯(plot)으로 정규화된 것에서 가장 어두운 20%의 컬러를, 말하자면 3배 부스팅하는 함수를 정의하는 경우, 즉, 4000 니트부터 100 니트까지 쭉 내려가는 경우, 일부 특정 최종 사용자 tv에서 750 니트까지 내려갈 필요가 있는 경우, 필요한 부스트는 예를 들어 단지 2x일 수 있다(루마에 사용하는 정의 EOFT에 따라, 언급된 바와 같이 휘도 맵핑은 통상적으로, 예를 들어 시각심리적으로 균일화된 EOTF를 사용하여 컬러 프로세싱 IC/파이프라인에서 루마 맵핑으로서 실제로 실현되기 때문이고, 이는 범위를 따르는 휘도 변화의 영향을 보다 시각적으로 균일하게, 즉, 인간에게 더 관련성이 높게 그리고 시각적으로 영향력이 있게 정의하는 것을 가능하게 하기 때문임).
훨씬 더 진보된 HDR 인코더의 제3 클래스는 다른 방식으로 다시 기술함으로써 2개의 참조 그레이딩 이미지에 기반하여 다음 레벨로 리그레이딩 데지데라타(re-grading desiderata)를 정의하는 이 원칙에 따른다. 크게 반전 가능한 함수를 사용하는 것으로 제한하는 경우, 예를 들어 4000 니트 HDR 이미지의 휘도 또는 루마를 다운맵핑하여 전송측에서 계산될 수 있는 LDR 이미지를, 비디오 생성자, 예를 들어 BD 또는 OTT 공급을 위한 헐리우드 스튜디오, 또는 스포츠 프로그램의 방송사 등이 생성한 실제 마스터 HDR 이미지에 대한 프록시로서 SDR 이미지에 실제로 전송할 수 있다. 이어서 수신측 장치는 반전된 함수를 적용하여 마스터 HDR 이미지의 근접 재구성을 재구성할 수 있다. 본 발명자들이 "모드-HDR"로 부를 HDR 이미지 자체(생성된 그대로)를 통신하는 시스템과는 대조적으로, LDR 이미지를 통신하는 시스템은 "모드-LDR 코딩 프레임워크"로 부를 것이다.
통상적인 예는 디코딩 기능 자체, 및 다음 블록으로서 디스플레이 적응을 포함하는(이 두 기법은 혼동되어서는 안 됨) 도 1(예를 들어, 본 출원인이 이전에 예를 들어 WO 2015/180854에서 특허를 받은 원리를 요약함)에 도시된다.
도 1은 예시적인 비디오 코딩 및 통신, 및 핸들링(디스플레이) 시스템을 개략적으로 도시한다. 생성측에서, 본 발명자들은 통상적인 인코더(100) 실시형태를 도시한다. 당업자는 본 발명자들이 휘도 프로세싱의 픽셀당 프로세싱 파이프라인을 먼저 도시하고(즉, 이를 통해 입력 HDR 이미지(Im_HDR)(통상적으로 비디오 생성자가 생성한 비디오의 몇몇 마스터 HDR 이미지 중 하나, 카메라 캡처 및 셰이딩 또는 오프라인 컬러 그레이딩과 같은 생성 세부사항은 당업자가 이해할 수 있고 본 설명을 개선하지 않기 때문에 생략됨)의 모든 픽셀은 순차적으로 프로세싱됨), 그 후 이미지 전체에 대해 동작하는 비디오 프로세싱 회로를 도시하는 것을 이해한다.
본 발명자들은 대응하는 HDR 루마(Y_HDR)를 획득하기 위해 루마 변환 회로(101)에서 선택된 HDR 역 EOTF를 통해 송신되는 HDR 픽셀 휘도(L_HDR)(일부 시스템은 이미 루마로부터 작동하기 시작했을 수 있음에 유의)로부터 시작한다고 가정한다. 예를 들어, 인지 시각 양자화 EOTF가 사용될 수 있다. 이 입력 HDR 루마는 루마 맵퍼(102)에 의해 루마 맵핑되어, 대응하는 SDR 루마(Y_SDR)를 획득한다. 이 유닛에서, 생성측 장치는 임의의 특정 장면 이미지에 적절한 휘도 리그레이딩, 예를 들어 입력 이미지의 컬러 특질에 대응하는 바와 같은 출력 이미지에서 동굴 이미지에 대한 적절한 평균 명도를 유지하는 것을 포함하는 적절한 컬러 변화를 적용한다. 즉, 적합하게 결정된 형상의 루마 맵핑 함수(LMF)를 획득하기 위한 입력 연결 UI가 있을 것이다. 예를 들어, 동굴 이미지에 대한 하위 최대 휘도 출력 이미지를 생성할 때, 루마 맵핑 함수의 정규화된 버전은, 예를 들어 인간 컬러 그레이더 또는 오토마톤에 의해 결정되는 바와 같이 입력의 가장 어두운 루마를, 말하자면 2.0배 부스팅할 필요가 있을 수 있고, 이는 루마 맵핑 함수가 오목하거나 소위 r 형상(유닛(102)을 표현하는 직사각형의 내부에 도시됨)임을 의미한다.
광범위하게 말하면, 2개의 클래스가 존재할 수 있다. 오프라인 시스템은 컬러 그레이딩 소프트웨어를 통해 자신의 예술적 선호도에 따라 최상의 LMF를 결정하기 위해 인간 컬러 그레이더를 이용할 수 있다. 본 발명자들은 비제한적으로 LMF가 몇 개의 노드 포인트(예를 들어, 제1 노드 포인트의 경우 (x1, y1))의 좌표로 정의되는 LUT로 정의된다고 가정한다. 인간 그레이더는 제1 선분의 경사도, 즉 제1 노드 포인트의 포지션을 설정할 수 있는데, 왜냐하면 이미지에 예를 들어 어두운 콘텐츠가 있고, 하위 동적 범위 디스플레이, 예를 들어, 특히 100 니트 ML_D LDR 디스플레이의 경우 100 니트 ML_C 이미지에 디스플레이될 때 이를 충분히 잘 보이게 하기를 원하기 때문이다.
제2 클래스는 오토마톤을 사용하여 상이한 최대 휘도를 갖는 일차 그레이딩으로부터 이차 그레이딩을 획득한다. 이러한 오토마톤은 이미지를 분석하고, 최상의 LMF를 제안한다(예를 들어, 훈련 양태 세트 중 이미지 양태에 대해 훈련된 신경망을 사용하여, 그의 출력 계층에서 일부 파라미터 함수의 정규화된 계수를 산출하거나, 임의의 결정론적 알고리즘이 사용될 수 있음). 특히 관심 있는 오토마톤인 소위 역 톤 맵핑(ITM)은 마스터 HDR 이미지를 분석하지 않고, 생성측에서 입력 LDR 이미지를 분석하고, 이 LDR 이미지에 대한 의사 HDR 이미지를 만든다. 이는 대부분의 비디오가 LDR로 도시되고, 심지어 오늘날 또는 가까운 미래에 SDR로 생성될 수 있기 때문에 매우 유용하다(적어도, 예를 들어 다중 카메라 제작 시 일부 카메라는 SDR, 예를 들어, 스포츠 게임의 드론 캡처 측면 화면을 출력할 수 있고, 이 측면 화면은 메인 프로그램의 HDR 포맷으로 변환될 필요가 있을 수 있음). 모드-LDR 코딩 시스템의 능력을 ITM 시스템과 적합하게 결합할 때, 본 출원인과 파트너는 이중 반전시킬 수 있는 시스템, 즉 원본 LDR 입력으로부터 생성된 의사 HDR 이미지의 업그레이드 함수를 정의할 수 있고, 이는 실질적으로 LDR 통신 프록시를 코딩할 때 사용되는 LMF의 역함수이다. 이러한 방식으로, 실제로 원본 LDR 이미지뿐만 아니라, 이를 위한 양호한 HDR 이미지를 만들기 위한 정보를 통신하는 시스템을 만들 수 있다(그리고 콘텐츠 생성 고객이 그러한 것을 원하는 경우 자동으로, 또는 또한 인간 입력을 갖는, 예를 들어 자동 설정을 수정하는 다른 버전에서). 오토마톤은 모든 종류의 규칙을 사용할 수 있고, 예를 들어 평균 이미지 휘도와 비교하여 소정 양의 상대적 명도가 필요한 이미지 내의 광원이 있는 곳을 결정하지만, 정확한 세부사항은 본 발명의 논의와 관련이 없다. 중요한 것은 본 혁신적인 실시형태를 이용하거나 그와 협력하는 임의의 시스템이 일부 휘도(또는 루마) 맵핑 함수(LMF)를 생성할 수 있다는 것이다. 오토마톤에 의해 결정된 루마 맵핑 함수는 유사하게 연결 UI를 통해 입력되어 루마 맵퍼(102)에 적용될 수 있다. 본 발명자들의 가장 단순한 실시형태 설명에서는, 단순히 하나의(다운그레이드) 루마 맵퍼(102)가 있다는 것에 유의한다. 이는 제한될 필요가 없는데, EOTF와 루마 맵핑 둘 모두가 통상적으로 정규화된 입력 도메인 [0,1]을 정규화된 출력 도메인 [0,1]에 맵핑하므로, (실질적으로) 0 입력을 0 출력에 맵핑하고 1을 1에 맵핑하는 하나 이상의 중간의 정규화된 맵핑이 있을 수 있기 때문이다. 이어서, 그러한 경우, 전자의 중간 루마 맵핑은 기본 맵핑으로 기능하고, 이어서 (라인에서 제2) 루마 맵퍼(102)는 제1 맵핑에 기반하여 정정 맵핑으로 기능한다.
이제 인코더는 (맵핑 함수를 통해) HDR 이미지 루마(Y_HDR)에 대응하는 LDR 이미지 루마(Y_SDR) 세트를 획득하였다. 예를 들어, 장면에서 가장 어두운 픽셀은 HDR 및 SDR 디스플레이에서 실질적으로 동일한 휘도로 디스플레이되도록 정의될 수 있지만, 더 밝은 HDR 휘도는 루마 맵퍼(102)의 내부에 도시된 LMF 함수의 볼록한 형상에 의해 도시된 바와 같이 SDR 이미지의 상위 범위로 압착될 수 있고, 이는 경사도를 감소시킨다(또는 정규화된 축 시스템의 대각선을 향해 다시 수렴함). 당업자라면 정규화를 쉽게 이해할 수 있음에 유의한다: 단지 루마 코드를 거듭제곱(2; number_of_bits)으로 나눌 필요가 있다. 정규화된 휘도는 또한 원하는 경우, 임의의 픽셀 휘도를 그의 연관된 타겟 디스플레이의 최대치(ML_C), 예를 들어 4000 니트로 나눔으로써 정의될 수 있다. 즉, 휘도 동적 범위의 상위 포인트인 타겟 디스플레이의 최대 휘도까지 구동함으로써 연관된 타겟 디스플레이의 능력을 완전히 사용하는 타겟 디스플레이에 대해 가능한 한 가장 밝은 픽셀은 정규화된 휘도 1.0(유닛(102)에서처럼 그래프의 수평축에 도시된 입력 명도 값으로 기능함)으로 표현된다. 당업자는 어떻게 다양한 상이한 정규화를 상이한 최대치로 표현할 수 있는지, 그리고 수직축에서 정규화된 입력 값을 (임의의 비트 길이, 및 임의의 선택된 EOTF의) 정규화된 루마, 또는 (임의의 연관된 최대 휘도의) 임의의 정규화된 휘도에 맵핑하는 함수를 어떻게 특정할 수 있는지 이해할 수 있다.
따라서 실내외 장면(indoors-outdoors scene)의 예를 정신적으로 상상할 수 있다. 실제 세계에서는, 실외 휘도가 통상적으로 실내 픽셀보다 100x 더 발광하므로, 레거시 LDR 이미지는 실내 객체를 훌륭하게 밝고 다채롭게 도시할 것이지만, 창밖의 모든 것은 균일한 백색으로 하드-클립핑된다(즉, 보이지 않음). 이제, 가역적 프록시 이미지로 HDR 비디오를 통신할 때, 본 발명자들은 충분한 정보가 HDR로 다시 재구성하기 위해 여전히 이용 가능하도록 제어된 방식으로, 창을 통해 보이는 밝은 외부 구역이 밝아질 것임을(아마도 심지어 채도가 낮아질 수 있음) 확신할 것이다. 이는 두 출력 모두에 대한 장점을 갖는데, 왜냐하면 LDR 이미지를 있는 그대로로만 사용하려는 임의의 시스템이, 제한된 LDR 동적 범위에서 가능한 한 최대로 실외 장면의 훌륭한 렌더링을 여전히 볼 것이기 때문이다.
따라서 Y_SDR 픽셀 휘도 세트(이의 색차와 함께, 그 세부사항은 이 설명에 필요하지 않음)는, 고전적 LDR 이미지가 스마트하게 생성되었는지 레거시 LDR 시스템에서처럼 카메라로부터 단순히 직접 생성되었는지 여부에 대해 이후의 회로부가 항상 특별한 주의를 기울일 필요가 없다는 의미에서, "고전적 LDR 이미지"를 형성할 것이다. 따라서, 비디오 컴프레서(103)는 예를 들어 MPEG HEVC 또는 VVC 압축과 같은 알고리즘을 적용한다. 이는 특히 이산 코사인 변환을 사용하여, 예를 들어 8x8 픽셀의 블록을, 이를 표현하기 위해 더 적은 정보를 필요로 하는 제한된 공간 주파수 세트로 변환하는 데이터 축소 기법의 묶음이다. 필요한 정보의 양은 얼마나 많은 DCT 주파수가 유지되고 얼마나 정확하게 표현되는지를 결정하는 양자화 인자를 결정함으로써 조절될 수 있다. 단점은 압축된 LDR 이미지(Im_C)가 입력 SDR 이미지(Im_SDR)만큼 정확하지 않고, 특히 블록 아티팩트가 있을 것이라는 점이다. 방송사의 선택에 따라, 예를 들어 하늘의 일부 블록이 이들의 평균 휘도로만 표현될 정도로 너무 심해서, 이들이 균일한 정사각형으로 나타날 수 있다. 이는 일반적으로 문제가 되지 않을 것인데, 왜냐하면 양자화 에러가 인간의 시각계에 대체로 보이지 않거나, 적어도 받아들일 만한 방식으로 컴프레서가 그의 모든 설정(양자화 인자를 포함함)을 결정할 것이기 때문이다.
포맷터(104)는 통신 채널에 필요한 모든 신호 포맷팅을 수행한다(이는 예를 들어 블루레이 디스크 상의 저장장치를 통해 통신하는 경우, 예를 들어 DVB-T 방송의 경우와 상이할 수 있음). 일반적으로, 모든 변형은 압축된 비디오 이미지(Im_C)가 이미지마다 변화할 수 있는(또는 그렇지 않을 수 있는) 루마 맵핑 함수(LMF)를 사용하여 출력 이미지 신호(S_im)에 함께 묶이는 특성을 가질 것이다.
디포맷터(151)는 포맷팅과 반대되는 것을 수행하므로, 그에 따라 압축된 LDR 이미지 및 함수(LMF)가 획득되어 HDR 이미지를 재구성하거나, 다른 유용한 동적 범위 맵핑 프로세싱이 이후의 회로부에서 수행될 수 있다(예를 들어, 특정 연결된 디스플레이에 대한 최적화). 디컴프레서(152)는 예를 들어, VVC 또는 VP9 압축을 풀어, HDR 이미지 재구성 파이프라인으로 송신될 대략적인 LDR 루마(Ya_SDR)의 시퀀스를 획득한다. 통신될 HDR 비디오를 LDR 프록시 비디오로 코딩하는 역 프로세스를 실질적으로 수행하기 위해, 루마 맵퍼(153)를 업그레이드하는 것은 SDR 루마를 재구성된 HDR 루마(YR_HDR)로 변환한다(이는 LMF의 (실질적으로) 역인 역 루마 맵핑 함수(ILMF)를 사용함). 본 발명자들은 하나의 설명 도면에서 2개의 가능한 수신기(150) 장치를 도시하였고, 이는 하나의 물리적 장치에 이중 기능으로 존재할 수 있거나(여기서 예를 들어 최종 사용자는 어떤 병렬 프로세싱을 적용할지 선택할 수 있음), 일부 장치는 병렬 프로세싱 중 하나만 가질 수 있다(예를 들어, 일부 셋톱박스는 마스터 HDR 이미지의 재구성만을 수행하여, 이를 예를 들어 하드 디스크와 같은 메모리(155)에 저장할 수 있음).
본 발명자들이 수신기 실시형태에 연결된 디스플레이 패널, 예를 들어 750 니트 ML_D 최종 사용자 디스플레이(190)를 갖는 경우, 수신기는, 예를 들어 4000 니트 재구성 이미지 대신 750 니트 출력 이미지를 계산하기 위해 디스플레이 적응 회로부(180)를 가질 수 있다(본 발명자들은 두 기법 모두가 종종 조합되어 사용될지라도, 본 발명의 교시와 거의 관계가 없는 그의 선택적인 구성요소를 도시하기 위해 이를 점선으로 도시함). 디스플레이 적응이 실현될 수 있는 많은 변형에 대해 상세히 설명하지 않고, 통상적으로 LMF의 역의 형상에 기반하여, 적응된 루마 맵핑 함수(F_ADAP)를 제안할 함수 결정 회로(157)가 있다(이는 시작 이미지의 최대 휘도와 원하는 이미지의 최대 휘도 간의 차이가 2개의 참조 그레이딩, 예를 들어 4000 니트 마스터 HDR 이미지 및 대응하는 100 니트 LDR 이미지의 최대 휘도의 차이보다 작은 경우 통상적으로 대각선에 더 가깝게 있을 것임). 이 함수는 통상적으로 ML_C = 4000 니트 대신 ML_D = 750 니트에서 끝나는 더 작은 동적 범위에서 덜 부스팅된 HDR 루마(L_MDR)를 계산하기 위해 디스플레이 적응 루마 맵퍼(156)에 로드될 것이다. 본 발명자들은 리그레이딩이란, 제1 동적 범위의 제1 이미지로부터 제2 동적 범위의 제2 이미지로의 임의의 휘도(또는 루마) 맵핑을 의미하는 것으로 하고자 하며, 여기서 적어도 일부 픽셀에는 상이한 절대 또는 상대 휘도가 주어질 것이다(예를 들어, 가장 밝은 루마를 더 작은 출력 동적 범위를 위해 더 작은 서브범위로 압축함). 이러한 그레이드된 이미지는 그레이딩으로도 불릴 수 있다. 재구성만 필요한 경우, EOTF 변환 회로(154)로 충분할 것이며, 이는 재구성된 HDR 휘도(LR_HDR)를 포함하는 픽셀 컬러를 포함하는 재구성(또는 재구성된) HDR 이미지(Im_R_HDR)를 산출한다.
비디오 콘텐츠가 자연스러운 이미지(즉, 예를 들어, 카메라로 캡처됨)로만 이루어진 경우, 고 동적 범위 기술은 입력 휘도에 대해 리그레이드된 픽셀 휘도를 계산하는 다양한 방식을 고려할 때 이미 복잡할 것이다. 추가적인 복잡성은 심지어 혼합되어 존재할 수 있는 다양한 코딩 표준의 세부사항으로부터 비롯되고, 즉 예를 들어 일부 HDR10 비디오 데이터는, 말하자면 화면 속 화면(picture-in-picture; PIP)에서와 같이 HLG 캡처와 혼합될 필요가 있다.
추가로, 통상적으로 콘텐츠 생성자는 또한 이미지에 그래픽을 추가하기를 원한다. 본 발명자들은 그래픽이라는 용어란 자연스러운 이미지 요소/구역이 아닌 모든 것을 나타내는 것으로 하고자 하며, 즉, 통상적으로 본질적으로 더 극단적으로 단순하고 일반적으로 더 제한적인 개별 컬러 세트(예를 들어, 광자 노이즈 없음)를 갖는다. 그래픽을 특성화할 수 있는 다른 방식은 비슷한 비춰지는 이미지의 일부를 형성하지 않는다는 것이지만, 쉬운 가독성 또는 이목의 집중과 같은 다른 고려사항이 중요할 수 있다. 그래픽은 통상적으로 컴퓨터에서 생성되고, 본 발명자들은 통상적으로, 예를 들어 카메라 캡처 장면에 실제로 있었던 가구와 시각적으로 구별할 수 없는 CG 가구와 같은 자연스럽지 않은 그래픽을 의미하는 것으로 하고자 한다. 예를 들어, 회사의 밝은 로고, 또는 플롯, 일기도, 정보 배너 등과 같은 다른 그래픽 요소을 가질 수 있다.
그래픽은 그래픽 요소가 종이에 만들어지는 방식을 에뮬레이트하는 오래된 LDR 시대에 시작되었다. 즉, 통상적으로 펜 또는 크레용 등으로 세트가 제한되어 있다. 실제로 텔레텍스트와 같은 초기 시스템에서, 초기에는 3원색(적색, 녹색, 청색), 2개의 이차색(황색(Ye), 청록색(Cy) 및 자홍색(Mg)), 및 흑색 및 백색이 정의되었다. 공항의 정기 항공편에 대한 정보 페이지와 같은 임의의 그래픽은 그러한 8개의 컬러 중 하나를 갖는 픽셀의 그래픽스 프리미티브(예를 들어, 픽셀 블록)로부터 생성되어야 했다. 그러나 "적색"(인간 시청자에게는 붉게 보일 필요가 있음에도 불구하고)은 고유하게 정의된 컬러가 아니고, 특히 이는 이의 사전 정의된 고유 휘도를 갖지 않는다. 보다 진보된 컬러 팔레트는 예를 들어 256개의 사전 정의된 컬러를 포함할 수 있다. 예를 들어, Unix용 X-windows 시스템과 같은 그래픽 사용자 인터페이스는 X11에서, 예를 들어 "허니듀(honeydew)", 또는 "게인스보로(gainsboro)", 또는 "레몬 쉬폰(lemon chiffon)"과 같은 다수의 선택 가능한 컬러를 정의하였다. 이러한 컬러는 디스플레이될 때 대략 소정 컬러 어피어런스를 산출하는 일부 대표 코드로 정의되어야 했고, LDR 색영역에서 혼합될 표준 적색, 녹색 및 청색의 백분율로 정의되었다. 예를 들어, 허니듀는 94% 적색, 100% 녹색, 및 94% 청색(또는 헥스코드 #F0FFF0)으로 구성되어, 연한 녹색을 띤 백색으로 디스플레이되었다.
문제는 이러한 컬러가 제한된(그리고 보편적) LDR 색영역에서 안정적인 방식으로 정의되지만, HDR 이미지에서는 정의되지 않거나 적어도 불분명하다는 것이다. 그리고 이는 몇몇 기원을 갖는다. 첫째, LDR에는 백색 종류가 한 종류뿐이므로, 그 백색과 비교하여 모든 그래픽 컬러를 정의할 수 있다. 실제로, 백색 캔버스로서의 기능을 하는 백색의 디스플레이에 적절한 컬러의 마커를 이용하여 그림을 그릴 때와 마찬가지로, 소정 색조의 흡수를 모방하는 코드는 소정 색도(또는 컬러 뉘앙스, 예를 들어 채도가 낮은 연두색)의 생성을 정의한다. 그러나 HDR에는 고유한 백색이 없다. 이는 현실 세계에서 아는 것이다. 백색으로 페인팅된 실내 벽을 보면, 아마도 그림자의 포지션에 약간의 회색 힌트가 있을 수 있지만, 대체로 이는 인간에게 백색으로 보이는 시각적 인상을 준다. 그러나 창밖의 햇빛이 비치는 백색 차고 문을 보면, 이는 또한 "백색" 종류의 컬러로 보인다. 그러나 다른 훨씬 더 밝은 백색. 고품질 HDR 핸들링 시스템(통상적으로 적절하게 디스플레이하기 위한 최적의 생성, 인코딩 및 프로세싱과 같은 그러한 양태를 포함하는 것을 핸들링)에서, 단순히 몇 개의 깔끔한 HDR 양태로 LDR 룩(LDR look)을 확장하기를 원하는 것이 아니라, 디스플레이에 다양한 종류의 백색을 렌더링하는 것도 원할 수 있다(통상적으로 실제 세계에서보다는 휘도가 낮지만). 기술적인 측면에서, 이러한 고려사항은 특히 상이한 코딩된 최대 휘도(ML_C), 예를 들어 1000 니트, 또는 5000 니트 등을 갖는 다양한 종류의 HDR 이미지를 정의할 수 있는 프레임워크의 유용한 정의로 이어졌다.
문제를 더욱 복잡하게 하는 것은, 상이한 종류의 HDR 이미지가 있다는 사실이며(상이한 ML_C를 갖고; 심지어 관련 시스템이 일반적으로 동일한 문제를 가짐), 이러한 사실은, 루마 맵핑이 입력 이미지의 동적 범위를 따르는 휘도를, 예를 들어 최종 소비자 디스플레이의 출력 동적 범위를 따르는 휘도에 맵핑하는 것을 필요로 할 것임을 의미한다. 휘도 맵핑은 통상적으로, 예를 들어 인지 시각 양자화 EOTF를 통해 휘도를 고유하게 표현하는 루마 코드를 맵핑하는 대응하는 루마 맵핑 함수로 정의되고 계산된다. 따라서, 예를 들어, 함수 F_H2S_L에 의해 0 내지 4000의 입력 이미지 휘도를 0 내지 100의 출력 휘도에 맵핑할 필요가 있다고 상상한다. 즉, L_out= F_H2S_L(L_in)이다. 인지 시각 양자화 EOTF(EOTF_PQ)가 최대 10,000 니트의 휘도를 인코딩할 수 있으므로, 입력 및 출력 휘도 둘 모두는 PQ-정의 루마로 표현될 수 있다. Y_out=OETF_PQ(L_out), 및 L_in= OETF_PQ(L_in)을 찾는다. 따라서, 루마 맵핑 F_H2S_Y를 Y_out= F_H2S_Y(Y_in)= F_H2S_Y(OETF_PQ(L_in))로서 찾을 수 있다. 또는, 휘도 맵핑 함수 및 루마 맵핑 함수는 다음을 통해 관련된다:L_out= EOTF_PQ(Y_out)= EOTF_PQ[F_H2S_Y(OETF_PQ(L_in))], 따라서:
F_H2S_L= EOTF_PQ (o) F_H2S_Y (o) OETF_PQ이고, 여기서 (o)는 합성 함수를 의미한다(일반적으로 작은 원 기호로 표시됨). 예를 들어 입력 PQ 루마로부터 Rec. 709 SDR 루마 등을 출력하기 위해, 심지어 다른 EOTF에 의해 특정된 루마에 대한 맵핑을 정의할 수 있다.
가능한 그래픽 삽입 파이프라인은 도 2를 이용하여 설명된다.
도 2는 유사한 비디오 통신 시스템을 예시하는 HDR 이미지 통신 및 핸들링 파이프라인을 도시한다. 이는 고전적 방송 서비스를 위한 스포츠 프로덕션(sports production)(경마)이다. 하나 이상의 카메라(201)는 스포츠 이벤트를 캡처하고, 그 이미지는 제작 부스(202)에서 혼합된다. 제작 부스(202)에서, 다양한 카메라로부터의 피드를 혼합하고 선호도에 따라 그레이드된(또는 셰이딩된) 전체 HDR 비디오를 제작할 수 있다. 연속적인 비디오 이미지의 픽셀 루마를 특정하는 방식은 본 발명의 설명의 범주를 벗어난다. 방송사는 네이티브 비디오 콘텐츠(native video content)(206)(적합한 셰이딩 후 카메라(들)로부터의 피드), 및 방송사 자신의 그래픽(일차 그래픽의 예)을 포함하는 원본 혼합 HDR 이미지(205)를 제작할 것이다. 이 그래픽은 상이한 애플리케이션에 많이 있을 수 있지만, 이 예에서는 경주의 선두에 있는 말 두 마리의 명칭 목록이다. 본 발명자들은 비디오 이미지의 내부에서 사전 혼합되어 통신되는 이 원본 그래픽을 일차 그래픽 요소(207)로 부를 것이다. 이는 예를 들어 위성 방송 수신 안테나(203)에 의해 현지 유통업체의 장치(210)로 분배될 것이다. 이는 예를 들어 지상파 방송 또는 케이블(219)을 통해 소비자에게 분배할, 예를 들어 네덜란드 방송사 또는 재유통업체일 수 있다. 현지 유통업체는 자체 이차 그래픽, 예를 들어 태양 내의 방송사("NL6")의 로고를 혼합할 수 있다. 본 발명자들은, 일차 그래픽의 픽셀 컬러를 예를 들어 모두 백색으로, 그리고 이차 그래픽의 픽셀 컬러를 백색, 예를 들어 내부의 60% 명도 적색 텍스트 컬러를 갖는, 백색의 90% 휘도의 황색 태양에 좌우된다는 것을 가정할 것이다. 이 방송사는 또한 다른 종류의 이차 그래픽을 혼합할 수 있고, 예를 들어 스포츠 쇼의 티저(217)가 나올 것이다. 이 추가 혼합 비디오(215)(소위 이차 혼합 이미지(들)/비디오)는 텔레비전 통신 케이블(CATV)(219)을 통해 최종 고객에게 추가로 분배된다. 최종 고객은 삼차 그래픽(등)을 혼합할 수 있는 셋톱박스(또는 컴퓨터 등)(220)를 가질 수 있다. 예에서, 자막 정보는 (통상적으로 생성된 비디오 요소를 구성하는 비디오 픽셀로 여전히 렌더링할 필요가 있는 순수한 텍스트 정보로서) 비디오 신호에서 공동 통신되고, 이는 셋톱박스에 의해 삼차 그래픽(226)으로 렌더링되고, 예를 들어 HDMI 케이블(229)을 통해 소비자 디스플레이(230)에 통신되기 전에, 삼차 비디오(225)를 산출하는 비디오 이미지로 다시 혼합된다. 실제로, 일부 핸들링 파이프라인에는 존재하지 않을 수 있는 셋톱박스 대신(또는 그에 추가하여), 최종 디스플레이는 또한 자체 조정된 그래픽을 삽입하고 있을 수 있다.
이 텍스트에서(고위 레벨의 이해에서 소정 그래픽을 나타낼 때), 본 발명자들은 이전 그래픽 상황인 일차 그래픽과 구별하기 위해 모든 추가 그래픽(이 예에서는 이차 및 삼차 그래픽)을 "이차 그래픽"으로 부를 것이고, 종종 제1 그래픽은 (통상적으로 비디오의 원본 생성자에 의해) 비디오에 배치된다. 일반적으로, 이미지(들) 자체(즉, 픽셀 컬러의 행렬, 예를 들어 YCbCr)인 Im_HDR은 HDR 이미지 또는 비디오 신호(S_im)에서 메타데이터(MET)와 공동 통신되고, 이 메타데이터는 다양한 HDR 비디오 코딩 변형 코드에서 몇 가지 것, 예를 들어 HDR 이미지의 코딩된 최대 휘도, 예를 들어 ML_C_HDR= 1000 니트, 및 종종 이미지의 리그레이드된 버전 등의 이차 이미지 컬러를 계산하기 위한 루마 맵핑 함수일 수 있다.
다양한 그래픽이 휘도 동적 범위 전체에 걸쳐 조정되지 않는 것은 아니거나, 시간이 지남에 따라 휘도가 더 나쁘게 변하는 것(예를 들어, 서로 비교하여)이 아니라, 예를 들어 최종 소비자 디스플레이(230)의 950 니트 ML_D 휘도 동적 범위에서 도시된 바와 같이, 예를 들어 동일한 평균 휘도를 갖는 것이 바람직하다. 이러한 방식으로 이차 그래픽의 렌더링에 관해, 예를 들어 텔레비전 디스플레이(또는 일차 비디오-그래픽 혼합을 수신하는 다른 장치)의 기술적인 기능을 향상시킬 수 있다. 최적의 픽셀 루마를 사용하여 디스플레이될 디스플레이 적응 비디오 이미지(display-adapted to be displayed video image)를 이미 계산한 단순한 시스템이 있고, 단순히 이미 수립된 범위에 일차 그래픽을 추가하기를 원하는 경우, 이를 수행하는 것은 그리 어렵거나 중요하지 않을 수 있지만, 특히 HDR 비디오 핸들링 파이프라인의 상이한 위치에 있는 상이한 장치에 의해 상이한 종류의 그래픽이 추가되면 상황은 더 복잡해질 수 있다.
US20180018932는 일차 그래픽 요소에 대한 다수의 혼합 기법을 교시한다(일차 그래픽이 이미 혼합된 경우 이차 그래픽을 혼합하지 않음). 또한 마스터 HDR 비디오에서 일차 그래픽의 그래픽 서브범위의 적절한 위치를 수립하지 않는다(그래픽 최대치는 단지 비디오 최대치, 즉 범위 전체에 맵핑됨).
이해하기 가장 복잡한 변형인 비디오 우선 모드는 US'932에서 설명된다 - 도 2는 도 8을 이용하여 본 출원에 요약되어 있음 -. 본 발명자들이 디스플레이될 최종 사용자 디스플레이 적응 이미지의 출력에서 안정적인 그래픽을 원하는 경우(예를 들어, 디스플레이될 최종 사용자 디스플레이 최대 휘도(ML_endUSR_disp)가 750으로 구성된 이미지), 이는 말하자면, 다수의 연속적인 이미지(예를 들어, 몇 개의 장면, 또는 사용자 인터페이스 그래픽인 경우, 그 그래픽이 제시되는 한)에 대해 동일한 값인 단색 백색 텍스트(TXT)의 모든 픽셀 휘도를 제공함으로써 실현될 수 있다. 텍스트 휘도에 대한 양호한 최종 값은, 비디오의 구름 객체가 디스플레이 동적 범위에서 투영되는 곳이라고 하겠다. 그래픽은 통상적으로 다양한 사용자가 상이한 디스플레이를 구입하였을 것이기 때문에, 통상적으로 최종 사용자 디스플레이의 최대 휘도가 아니고, 혼합될 입력 비디오(비디오 최대 휘도(ML_vid))와 동일한 동적 범위(특히 그의 그래픽 최대 휘도(ML_gra))도 갖지 않을 수 있다. 실제로, 그래픽을 어쨌든 일부 동적 범위와 연관시키는 것은 이미 다소 진보된 HDR 기법인데, 왜냐하면 LDR 시대에 그래픽은 일반적으로 일부 상대적인 3x 8 비트 코드(예를 들어, 255/255/255)를 가졌기 때문이다. 문제는 최종 사용자 디스플레이에 의해 적용될 이미지의 연속 샷에 대해 상이한 형상의 휘도 맵핑 함수를 통신하는 동적 메타데이터의 경우, 사전 혼합된 텍스트가 무엇을 수행할지를 보장할 수 없다는 것이다. 원본 텍스트(TXT_OR)를 그의 원본 휘도, 예를 들어 390 니트의 비디오에 혼합하는 경우, 디스플레이는 일부 맵핑 함수를 이용하여 그 휘도를 상향으로 이동시키고 다른 맵핑 함수를 이용하여 하향으로 이동시킬 수 있고, 즉 깜박이기 시작할 수 있다. 그러나 그래픽이 혼합되어 있는지 여부에 관계없이, 디스플레이가 어떤 동적 맵핑 함수(예를 들어, 제1 동적 맵핑 함수(F_dyn1))를 비디오에 적용할지 정확히 아는 경우 이를 사전 보상할 수 있다. 이어서, (제1 사전 보상 함수(F_precomp1)를 사용하여) 그래픽을, 예를 들어 셋톱 박스로부터 디스플레이로 송신될 HDR 이미지에서 가질 필요가 있을 휘도에 정확하게 사전 맵핑할 수 있고, 그에 따라 이는 F_dyn1에 의해, 디스플레이될 이미지에서의 원하는 최종 휘도(구름만큼 밝음)에 맵핑된다. 아마도, 다음 장면에서, 한 장의 종이가 제2 동적 맵핑 함수(F_dyn2)에 의해 TXT에 대한 동일한 최종 휘도로 업-맵핑(up-map)되므로, 본 발명자들은 제2 사전 보상 함수(F_precomp2)를 사용한다. 통상적으로, 어떤 함수가 디스플레이에 의해 적용될지는 그의 최대 휘도(ML_endUSR_disp), 및 어떻게 4000 니트 비디오 휘도를 예를 들어 100 니트 참조 이미지에 맵핑해야 하는지를 특정하는 동적 시변 참조 휘도 맵핑 함수에 좌우된다. 이어서, 사전-고정된 알고리즘은 이 참조 휘도 맵핑 함수를 새로운 동적으로 변화한 함수가 메타데이터로서 들어올 때까지 임의의 연속적인 이미지에 대해 tv에 의해 사용될 최종 디스플레이 적응 휘도 맵핑 함수로 변형한다. 그러나, 셋톱 박스가 코덱-호환되는 경우, 즉 참조 휘도 맵핑 함수를 알고 있으며, 이것이 ML_endUSR_disp의 임의의 값에 대해 최종 디스플레이 적응 휘도 맵핑 함수로 변환되는 알고리즘을 알고 있고, 연결된 디스플레이로부터 ML_endUSR_disp를 폴링(poll)하면, 임의의 그러한 사전 보상을 수행할 수 있다.
종래 기술은 보다 단순한 일차 그래픽을 혼합하는 몇 개의 다른 예를 도시한다.
US'932-도 2b를 이용하여 예시된 그래픽 우선 모드는 단순히 그래픽 최대치를 디스플레이의 최대치에 맵핑한다. 이어서, 이미 셋톱 박스에 있는 해당 범위로 비디오를 다운맵핑할 수 있다. STB에서 모든 것이 준비되고, 단순히 추가의 프로세싱을 필요로 하지 않는 최적의 디스플레이 적응 이미지가 HDMI를 통해 디스플레이에 통신되면, 그래픽 혼합은 상대적으로 단순하다. STB에는 모든 것이 준비되어 있으며, 나중에 변수 맵핑이 발생하지 않는다. 그러나, 그러한 2개의 옵션이 항상 이용 가능한 것은 아니다. 예를 들어, STB는 일부 코덱의 기술을 인가하지 않을 수 있는데, 왜냐하면 이는 비용이 많이 들고, STB가 최소한의 마진으로 판매되기 때문이다. 이어서, 디스플레이, 예를 들어 소비자 텔레비전은 어쨌든 동적 HDR 휘도 맵핑을 수행할 필요가 있을 것이다. 또한 예를 들어, tv가 STB에 그의 ML_endUSR_disp 값을 통신하기를 거부하는 경우, 사전 보상이 항상 가능한 것은 아니다. 이러한 방법이 STB 및 TV와 같은 가전 제품, 또는 컴퓨터 및 모니터에 유용할 수 있더라도, 그래픽이 삽입될 필요가 있는, "카메라"부터 최종 소비 디스플레이(예를 들어, 쇼핑몰)까지의 비디오 통신 파이프라인 내의 보다 많은 위치가 있을 수 있다.
tv가 그래픽 블렌딩을 수행할 수 있다면(US'932-도 2d에 예시된 바와 같이), 상황은 또한 상대적으로 단순할 수 있다. tv는 그의 일반적인 디스플레이 적응 휘도 맵핑 함수를 비디오에 적용하고, 그 후 그래픽을 원하는 곳 어디에든, 예를 들어 구름이 끝나는 출력 휘도로 배치할 수 있다. 이는 표준화된 코딩을 갖는 통과 DVB 자막에는 문제가 없을 수 있지만, STB는 HDMI 인터페이스를 통해 자체 UI 그래픽 요소의 그래픽을 통신하기 위한 메커니즘을 필요로 한다.
US2020193935는 그래픽이 혼합될 때 디스플레이의 맵핑을 정적으로 스위칭하므로, 그래픽은 결국 항상 동일한(시프트된) 휘도 위치에 있게 될 것이고, 이는 또한 장단점을 갖는다.
고 동적 범위 비디오/텔레비전의 최근 기술 분야에서, 양호한 그래픽 핸들링 기법이 여전히 필요하다는 것은 분명하다.
그래픽 혼합/삽입에 대한 단순한 접근법에 존재하는 문제는 디지털 이미지를 프로세싱하기 위한 회로에서 적어도 하나의 고 동적 범위 입력 이미지(206)와 혼합될 이차 그래픽 이미지 요소(216)의 픽셀의 제2 루마를 결정하는 방법에 의해 핸들링되고, 방법은,
적어도 하나의 고 동적 범위 입력 이미지를 포함하는 고 동적 범위 이미지 신호(S_im)를 수신하는 단계를 포함하고, 방법은,
- 고 동적 범위 입력 이미지의 휘도의 범위의 서브범위인, 적어도 하나의 고 동적 범위 입력 이미지의 일차 그래픽 요소의 일차 그래픽 루마의 범위(R_gra)를 결정하기 위해 고 동적 범위 이미지 신호를 분석하는 단계 - 일차 그래픽 루마의 범위를 결정하는 것은 일차 그래픽 루마의 범위(R_gra)의 엔드포인트를 특정하는 하위 루마(Y_low) 및 상위 루마(Y_high)를 결정하는 것을 포함함 -;
- 그래픽 루마의 범위에 포함된 픽셀 루마의 적어도 가장 밝은 서브세트와 이차 그래픽 요소를 휘도 맵핑하는 단계; 및
- 이차 그래픽 이미지 요소를 고 동적 범위 입력 이미지와 혼합하는 단계를 포함한다.
입력(비디오+ 일차 그래픽 혼합) HDR 이미지에서의 그래픽 서브범위에 대한 휘도 맵핑, 이러한 경우 일부 루마 맵핑 함수와 루마를 맵핑함으로써 도출할 수 있는 임의의 출력 변형 이미지는 원칙적으로 그래픽의 픽셀을 생성(즉, 정의)하는 동안 발생할 수 있다. 그러나, 일반적으로, 그래픽이 사전 정의되어 포함된 저장장치로부터 판독되지 않고, 임의의 방법 또는 장치 실시형태에 의해 생성된 경우에도, 그래픽은 일부 상이한 포맷(예를 들어, 비제한적으로, LDR 포맷 또는 1000 니트 최대 휘도 포맷)으로 생성될 것이지만, 이차 그래픽을 구성하는 픽셀의 루마(또는 임의의 코드, 예를 들어 연두색과 같은 언어 코드)는 수립된 그래픽 범위 내의 적합한 포지션(또는 아마도 다소 외부, 통상적으로 아래/어두운 끝)에 맵핑될 것이고, 여기서 이들은 다양한 그래픽 픽셀의 각각의 대응하는 이차 루마가 된다.
혼합은 종종 단순히 원본 비디오 픽셀을 그래픽 픽셀(그러나 조정된 컬러, 특히 조정된 루마의)에 의해 대체하는 것일 수 있다. 방법은 또한, 특히 더 많은 그래픽이 유지되고, 더 적은 그래픽이 혼합되는 경우 더 진보된 혼합으로 작동한다. 예를 들어 블렌딩으로 불리는 선형 가중이 사용될 수 있고, 여기서 결정된 그래픽 루마(Y_gra)의 소정 백분율은 비디오의 상보적인 백분율과 혼합된다:
Y_out = 알파*Y_gra+ (1-알파) * Y_HDR [수학식 1]
알파는 통상적으로 0.5(또는 50%) 초과이므로, 본질적으로 픽셀은 대부분 그래픽을 포함하고, 그래픽은 잘 보인다. 실제로 이상적으로는/바람직하게는 이러한 혼합은 루마(특히 PQ와 같은 고도로 비-선형적인 루마 정의의 경우)에서 발생하지 않지만 도출된 휘도 자체에서 발생한다:
L_out = 알파*L_gra+ (1-알파) * L_HDR [수학식 2]
프록시 SDR 이미지가 HDR 이미지에 대해 통신되는 실시형태에서, 이러한 HDR 비디오 휘도(L_HDR)는, 예를 들어 통신되는 HDR 표현의 메타데이터 공동 통신 최대 휘도(ML_C)를 사용함으로써, 필요한 경우 이 휘도를 디스플레이 동적 범위 내의 대응하는 휘도로 다운그레이드하기 위해 디스플레이 적응을 사용함으로써 SDR 루마를 HDR 재구성 휘도로 재변환함으로써 획득될 수 있다. 실제로, 도 3에서, 루마 맵핑 함수(또는 대응하는 휘도 맵핑 함수)를 구성하는 적어도 이러한 접근법의 우아함은, 곡선이 그래픽 범위를 안정적인 방식으로 맵핑하기 때문에, 입력뿐만 아니라 출력 범위 둘 모두에서 그래픽을 맵핑/혼합할 수 있다는 것에 있음이 확인된다. 보다 일반적으로, 본 접근법은 콘텐츠 생성자(일차 그래픽의 경우)가 어떤 포지션이 그래픽에 최적인지를 정했거나, 적어도 그래픽의 합리적인 포지션을 승인했다는 사실을 이용할 수 있다. 그러므로, 일차 그래픽과 적절하게 조정되는 경우, 이는 이차 그래픽에 대해서도 적합한 휘도를 포함할 것이다.
이러한 일차 그래픽에 대한 임의의 특정 정보를 얻지 않은 경우, 예를 들어, 비디오 생성자가 이를 코딩하고 통신하는 데 노력을 쏟기를 원하지 않기 때문에, 본 방법 또는 장치는 인입 HDR 비디오 신호(S_im)의 상황을 분석하고, 다양한 실시형태에 의해, 이차 그래픽 요소에서 적어도 대부분의 픽셀 컬러의 루마(또는 휘도)의 위치를 찾기 위한 적합한 범위(R_gra)를 결정하는 데 이를 수 있다.
이를 정확히 수행하는 방법은 그래픽 요소의 성질에 좌우된다.
본 발명자들이 하나 또는 몇 개(말하자면, 조정을 구현하기 위한 휘도 맵핑 전의 원본)의 컬러(자막 등)만 갖는 이차 그래픽을 갖는 경우, 단지 그래픽 범위의 내부의 임의의 루마를 사용하여 이차 그래픽을 렌더링할 수 있다. 더 복잡한 이미지는 흑색의 어두움을 제한할 수 있고, 예를 들어 백색 휘도의 10%보다 깊지 않거나, 일차 그래픽의 범위 외부/아래에 더 어두운 컬러를 배치할 수 있다(그러나 더 밝은 컬러의 루마를 고려하면 안정적인 그래픽 표시의 효과가 대체로 유지됨). 예를 들어, 기저 HDR 비디오(underlying HDR video) 위의 약간 변화한 흑색 서라운드 직사각형(black surround rectangle)은, 자막 컬러가 하나 이상의 연속적인 장면의 비디오 객체 루마와 안정적으로 조화를 이루는 경우 덜 성가실 수 있다. 때로는 평균보다 명백히 낮은 상대적으로 큰 어두운 컬러의 명도가 너무 많이 진동하는 것을 피하고 싶을 수 있지만, 이는 문제가 있는 경우, 예를 들어 적합한 그래픽 범위의 하위 포인트에 가까워지도록(즉, 그의 최소 휘도보다 약간 낮거나 높음) 더 어두운 해당 컬러를 밝게 함으로써 별도로 핸들링될 수 있다. 그래픽 범위(R_gra)에서 이차 그래픽의 가장 밝은 컬러를 유지하기를 원하고, 예를 들어 더 밝은 서브범위는 이차 그래픽 요소 휘도의 50%보다 밝은 모든 컬러(예를 들어, 텔레비전 수신기를 구성한 엔지니어에 의해)로 정의된다(이 백분율은 추가하고 싶은 그래픽 종류에 좌우될 수 있고, 예를 들어, 메뉴 항목은 예를 들어 일부 로고보다 정밀도룰 덜 필요로 할 수 있음). 종종 더 밝은 서브범위는 이차 그래픽 요소의 대부분을 (기하학적으로) 표현하기에 충분한 컬러를 포함할 것이고, 그에 따라 예를 들어 그의 형상이 인식될 수 있다.
적어도 일차 그래픽에서의 가장 밝은 컬러의 통상적인 루마에 대한 합리적인 아이디어를 갖는 한, 일차 그래픽의 전체 루마 분포를 완벽하게 알 필요는 없다. HDR 비디오 신호 및 이의 이미지의 상황 및 그의 객체 픽셀의 휘도 또는 루마를 분석하기 위해, 몇몇 접근법은 자체적으로 또는 조합하여 사용될 수 있고, 후자의 경우 일부 알고리즘 또는 회로부는 분석 기법을 적용하는 하나 이상의 회로의 입력에 기반하여 그래픽 범위의 최종적인 최상의 결정을 결정할 것이다(임의의 장치 또는 방법에 단 하나의 회로/접근법만 존재하는 경우, 이러한 최종 통합 단계 또는 회로가 필요하지 않음).
고 동적 범위 이미지 신호를 분석하는 방법은 고 동적 범위 입력 이미지에서 하나 이상의 일차 그래픽 요소를 검출하는 단계, 하나 이상의 일차 그래픽 요소의 픽셀의 루마를 수립하는 단계, 및 루마를 하위 루마(Y_low) 및 상위 루마(Y_high)로서 요약하는 단계를 포함하는 경우 유리하고, 여기서 하위 루마는 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 낮고 고위 루마는 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 높다.
이미지 자체를 분석하는 것은 추가 정보가 이용 가능하지 않거나 그에 의존할 수 없는 경우 견고한 옵션일 수 있다. 예를 들어, 이 알고리즘(또는 회로부)은 비디오 콘텐츠의 "원본" 버전에 2개의 일차 그래픽 요소가 존재함을 검출할 수 있다. 3개의 스피커(백색, 연한 황색, 및 연한 청색)에 대해 3개의 컬러로 일부 자막이 존재하고, 다수의 컬러, 예를 들어 자막 또는 로고 자체의 백색과 비교하여 몇 개의 원색 및 5% 휘도 흑색을 갖는 일부 로고가 있다고 하겠다. 종종 로고 및 자막의 백색(또는 적어도 백색 휘도가 예를 들어 로고의 황색 픽셀로부터 외삽될 것으로 예상될 수 있는 곳)이 동일하거나 대략 동일할 것임이 예상될 수 있다. 특히 이들이 너무 많이 상이하지 않은 경우(예를 들어, 자막이 로고의 백색보다 5x 더 밝거나, 그 반대인 경우), 본 방법은 더 밝은 백색을 지칭하는 "일부 회색"인 것처럼 더 어두운 백색을 처리함으로써, 그래픽 범위(R_gr)를 여전히 상대적으로 쉽게 정의할 수 있다. 이어서, 즉, 일차 그래픽 범위(R_gra)의 상위 부분은 가장 밝은 사전 혼합된 그래픽의 백색일 수 있고, 모든 그래픽은 식별된 차등 범위의 2배인 애플리케이션이 아닌 여전히 하나의 범위로 식별될 수 있다(이 경우, 예를 들어, 이차 그래픽은 어느 범위에서든, 또는 선호하는 범위에서 혼합될 수 있음). 두 그래픽 요소 모두의 명도(백색 휘도)가 많이 상이한 경우, 더 밝은 일차 그래픽 요소는 그래픽 분석에서 유지되고, 더 어두운 것은 폐기되어, 가장 밝은 일차 요소에 대해 R_gra를 기반으로 할 수 있다. 이 실시형태는 루마 맵핑 함수가 도 3 및 도 4를 이용하여 설명된 바와 같이 안전한 그래픽 범위를 갖지 않지만, 예를 들어 특수 구역을 갖지 않는 단순 멱함수가 단지 연속적으로 압축하는 함수로 기능하면 유용할 수 있다.
방법이 고 동적 범위 이미지 신호의 메타데이터에 기록된 하위 루마(Y_low) 및(/또는) 상위 루마(Y_high)의 값을 고 동적 범위 이미지 신호 내의 메타데이터로부터 판독하는 단계를 포함하는 경우 유리하다. 적어도 하나의 고 동적 범위 입력 이미지의 생성자는 이 메커니즘을 사용하여 자신(또는 오토마톤의 경우 이것)이 이 이미지 또는 비디오 이미지의 이 샷에 적합한 그래픽 범위라고 생각한 것을 통신할 수 있다(예를 들어, 자막의 근처 백색의 인식을 고려하여 인간의 시각계에 감소된 것으로 보여서는 안 되는 근처 폭발의 밝은 픽셀과 조정함). 자신의 일차 그래픽은 그러한 휘도로 둘 것이다. 인간의 시각계가 이미지에 있는 것(예를 들어, 국부 조명)에 관해 모든 종류의 추정을 할 수 있고 이는 상당히 복잡할 수 있지만, 본 기술적 메커니즘이 알아야 하는 사람들(예를 들어, 인간 생성자 또는 컬러 그레이더 및/또는 비디오의 사후 제작자(post-producer))에 의해 쉬운 해결을 제공한다는 것에 유의한다. 예를 들어 통신된 범위는 일차 그래픽에 실제로 사용된 휘도보다 약간 더 어두울 수 있고, 이는 일차 그래픽의 일부 조정 및 더 높은 명도를 보장한다. 이어서, 임의의 통합 단계 또는 회로부는 HDR 이미지 자체를 분석하는 것과 같은 다른 기능을 단순히 폐기하거나 스위치 오프할 수 있다. 또는 이는 이용 가능한 임의의 메커니즘을 사용할 수 있다.
고 동적 범위 이미지 신호를 분석하는 단계를 포함하는 방법이 고 동적 범위 이미지 신호 내의 메타데이터로부터 시간적으로 연속적인 이미지와 연관된 2개 이상의 루마 맵핑 함수를 판독하는 단계 및 그래픽 루마의 범위를 2개 이상의 맵핑 함수에 관한 제1 조건을 충족하는 범위로서 수립하는 단계를 포함하는 경우 유리하고, 여기서 2개 이상의 루마 맵핑 함수는 이 그래픽의 범위 내의 입력 루마를 대응하는 출력 루마에 맵핑하고 제1 조건은 각각의 입력 루마에 대해, 2개 이상의 루마 맵핑 함수로부터의 각각의 맵핑 함수를 상기 입력 루마에 적용함으로써 획득 가능한 그의 대응하는 2개 이상의 출력 루마가 실질적으로 동일하다는 것이다. 도 7은 2개의 함수가 입력 범위의 서브범위를 갖는 예를 도시하고 여기서 함수는 (실질적으로) 동일하고, 즉, 이들은 그 범위 내의 임의의 입력 값에 대해 (대략) 동일한 출력 값을 생성한다. 이는 콘텐츠 생성자가 그래픽에 강한 동적 휘도 맵핑 함수(graphics-robust dynamic luminance mapping function)를 만들려는 의도를 갖고 있었기 때문에 검출할 수 있다.
따라서 그 범위가 안정적인 출력 범위에 유사하게 맵핑될 뿐만 아니라, 그 안의 다양한 루마가 두 함수 모두에 의해 실질적으로 동일한 출력 루마에 맵핑된다(통상적으로 거의 보이지 않는, 아마도 일부 사소한 편차를 제외하고, 예를 들어, 통상적인 인간 시각이 인지할 수 있는 차이의 2% 이내, 또는 일부 더 많은 깜박임이 여전히 허용 가능한 경우 10%). 추가 분석을 통해 이러한 분석을 보충하기를 원할 수 있다.
특히 이는 또한 그래픽에 적합할 루마의 이차 범위 내에 속하는 함수 기반 결정 일차 그래픽 루마의 제2 조건의 검증을 포함할 수 있다. 단지 적어도 연속적인 샷(예를 들어, 실내 샷, 그 이후의 실외 샷)에 대해 다양한 기능이 있는 구역을 찾는다는 것이 반드시 그곳에 그래픽을 배치하고 싶을 것임을 의미하지는 않는다. 예를 들어, (입력 또는 출력)의 전체 범위 중 가장 어두운 10%만 식별되면, 이로 인해 그래픽이 어두워질 것이며, 이는 일반적으로 선호되지 않는다. 예를 들어, 고 명도 동적 범위(예를 들어, 최대 휘도 4000 니트 이상)의 ½ 내지 1/10이 자막 또는 다른 그래픽을 배치하기에 적합한 포지션일 수 있다. 하지만 4000 니트 이상의 경우 ½은 차선책일 수 있다. 이것이 상당히 밝은 그래픽 최대 명도를 산출할 것이고, 텍스트와 같은 그래픽의 경우, 초백색(super-white)을 포함하는 다수의 상이한 백색이 있을 수 있는 보다 다용도의 그래픽과 대조하여, 가장 밝은 컬러가 통상적으로 일반(확산) 백색이기 때문에, 2000 니트 레벨은 높은 것으로 간주될 수 있다. 그러나, 맵핑 함수의 생성자는 5000 니트 마스터 그레이딩의 경우, 말하자면 안정적인 그래픽 범위를 0.8*0.5 내지 1.2*0.5에 두는 것을 최적이라고 고려하였을 수 있다. 이 곡선이, 말하자면 1000 니트의 출력 최대치까지 출력을 다운그레이드하는 데 사용되는 경우, 500 니트 그래픽, 심지어 자막도 합리적인 것으로 간주될 수 있고, 즉, 적합성 기준을 충족한다. 제2 기준이 충족되지 않으면, 그래픽 혼합 장치는 예를 들어 식별된 범위에 가깝게 머무르려 하지만, 그 식별된 함수 형상 종속(즉, 2개 이상의 함수가 동일한 입력 서브범위를 동일한 출력 서브범위에 투영하는 서브범위를 갖는 경우) 그래픽 범위의 가장 낮은 값 아래의 루마와 그래픽을 혼합하기로 정할 수 있다. 다양한 이차 기준이 사용될 수 있고, 예를 들어 함수 형상 식별 안정적 그래픽 범위의 상위 포인트가 출력 범위 최대치의 백분율이 얼마나 높은지(즉, 또한 절대 최대치에 좌우되고, 즉 허용되는 백분율이 출력 범위의 최대치가 높을수록 낮을 수 있고, 예를 들어 1000 니트 범위의 경우 500 니트 상위 포인트, 및 4000 니트 출력 범위 최대치 또는 그 이상의 경우 1200 니트 상위 루마임) 및/또는 이 출력 범위 상한이 얼마나 높은 절대 휘도 값에서 디스플레이되는지의 기준이 사용될 수 있다. 따라서 통상적으로 함수 결정 범위의 식별의 관련성에 관해, 입력 루마의 범위(즉, 수신된 이미지의)를 따르는 값을 살펴보지만, 적합성에 관해서는 출력 범위 및 구상되는 출력 범위의 최대 휘도(즉, 예를 들어 또한 그래픽에서 혼합하는 트랜스코딩이 제작할 것)가 또한, 입력 루마 값만으로 늘어날 수 있는 적합한 것을 결정하기 위해 작동할 수 있다. 예를 들어, 2000 니트보다 밝은 원본 그래픽은 입력 이미지에 사전 혼합된 그래픽으로 존재하여, 예를 들어, 4000 니트 최대치 입력으로부터 시작하여 예를 들어 출력에서 900 니트로 끝나는(가장 밝은 비디오 객체의 HDR 효과에 비해 다소 밝은 자막임, 이는 이상적으로는 그래픽 백 레벨보다 더 인상적이어야 하지만, 900 니트 그래픽이 여전히 일부 시나리오에서 일부 사용자에게 허용 가능할 수 있기 때문에, 적어도 이는 자체적으로 디스카운트되지 않을 레벨일 수 있음) 레벨링 오프 소프트 클립핑 맵핑 함수를 이용할 1000 니트 최대 출력보다 통상적으로 낮아진다. 양호한 이차 기준은 이차 범위의 최대치가 이미지와 그래픽을 혼합하는 범위의 최대치의 사전-고정된 백분율보다 낮아야 한다는 것일 것이다.
임의의 장치는 예상 가능한 그래픽의 제한으로 프로그래밍될 수 있다. 예를 들어, 이들이 HDR 이미지에서 일반("LDR") 이미지 객체의 예상 서브범위에 있거나 그보다 다소 높을 것으로 예상할 수 있다. 1000 니트 ML_C 정의 HDR 이미지의 경우, 또한 몇몇 일차 그래픽 요소가 있는지 여부, 및 이들이 동일한 휘도(또는 루마) 특성을 갖는지 여부에 따라, 그래픽의 백색이 통상적으로 80 니트와 350 니트 사이의 범위 어딘가에 속할 것으로 예상할 수 있고, 흑색은 그 아래에 있다.
따라서 검증의 실시형태는 다음과 같이 진행될 수 있다. 루마 맵핑 곡선의 분석이, 말하자면 150 니트의 그래픽에 대한 상위 루마를 발견한 경우, 이는 [80. 350]의 더 넓은 범위에 속하므로 실제로 밝은 그래픽 픽셀에 대해 예상 가능한 루마 값의 범위 내에 속할 것이다. 유사한 고려사항을 하위 레벨에 대해 수행할 수 있지만, 본 발명자들이 언급된 바와 같이, 하위 레벨은 덜 중요하고, 예를 들어 단순히 결정된 상위 휘도의 10%(또는 픽셀 컬러 코딩의 적용 가능한 EOTF에서 찾아볼 때, 상위 루마의 대응하는 x%)로 설정될 수 있다. 예를 들어 방법이, 예를 들어 950 니트의 상위 루마의 휘도를 추정하면, 이는 이상적으로는 지나치게 밝은 그래픽을 원하지 않기 때문에, 분석상의 우연일 수 있다. 그러나 실제로 일부 콘텐츠 제공자가 어떻게든 이러한 밝은 자막을 생성한 것일 수 있다. 이러한 상황에서, 단지 값을 거부하고, 그래픽 범위가 충분히 확실하게 결정될 수 없다고 결론을 내리는 대신, 추가 분석은, 예를 들어 어떤 그래픽 루마를 생성자가 실제로 비디오 신호에서 공동 통신했는지 체크하여 수행될 수 있거나, 비디오 신호에서 그러한 루마 값을 찾고, 예를 들어 그 픽셀 세트가 어떻게 연결되고 얼마나 큰지 등에 대한 추가 이미지 분석을 수행하려 한다.
항상 HDR 이미지가 실제로 그의 각각의 적합한 루마 포지션에 존재하는 일차 그래픽을 가질 필요가 있는 것은 아님에 유의한다(예를 들어 본질적으로 밝은 HDR 장면을 맵핑하기 위해 조정된 제1 루마 맵핑 곡선을 갖는 이미지의 제1 샷은 실제로 그래픽 요소를 포함할 수 있지만, 일반 및 밝은 이미지 객체를 맵핑하기 위해 상이한 루마 맵핑 곡선을 갖는 제2 다음 샷은 실제 그래픽이 삽입되지 않을 수 있지만, 삽입된 경우 대략적으로 동일한 루마 값에 배치될 것임).
방법이 적어도 하나의 고 동적 범위 입력 이미지의 픽셀 루마를 적어도 하나의 대응하는 출력 이미지의 대응하는 출력 루마에 루마 맵핑하는 단계를 포함하는 경우 유리하고, 여기서 혼합은 고 동적 범위 이미지 신호의 메타데이터로부터 획득된 적어도 하나의 루마 맵핑 함수에 따라 적어도 하나의 대응하는 출력 이미지에서 발생한다.
특히 도 3과 같은 함수를 가질 때 관계는 입력 및 출력 루마 도메인 둘 모두에서 혼합할 수 있는 능력을 야기할 수 있다. 입력 또는 출력 도메인에서 혼합할지 여부가 항상 동일하지는 않을 수 있다(그리고 일부 HDR 코덱에 부응하는 일부 실시형태에서는, 입력 루마 도메인에서 혼합할 곳을 아는 것이 유용할 수 있음). 어떤 경우든, 비디오 픽셀은 종종 메타데이터 수신 루마 맵핑 함수에 의해 출력 도메인에 맵핑된다. 방법 또는 장치는 출력 결정 그래픽을 혼합하기 위해 출력 도메인(예를 들어 350 니트 최대치 ML_C)에서 적합한 루마 포지션을 결정하기 위해 이 맵핑 함수를 사용할 수 있다. 이는 어떤 장치가 언제 무엇을 혼합할 수 있는지에 관한 유연성을 생성한다. 특히 안정적인 서브구역 함수를 사용하여, 이 함수가 디스플레이 적응 시나리오에서 왜곡되더라도(즉, 원본 함수의 형상을 이차 함수의 형상과 더 유사하게 만듦으로써, 그러한 안정적인 서브범위는 늘어나거나 압축되지만, 그러한 서브범위에 대한 일차 및 참조 함수 둘 모두를 사용하여, 적응이 올바르게 수행되면 범위의 내부의 루마에 대해 그의 동일한 조정된 맵핑 특성을 유지할 것임) 이미 수행된 그래픽 혼합에 무엇이 발생할지 더 쉽게 이해할 수 있다.
방법은, 인간의 눈에 일부는 평균을 초과하여 밝게 보이고 일부는 평균 미만으로 어둡게 보이는, 상이한 밝기의 컬러의 스케일에 걸쳐 있는 컬러 세트로 이차 그래픽 이미지 요소를 설계하는 단계를 포함하는 경우 유리하고, 여기서 적어도 평균을 초과하는 밝은 컬러는 그래픽 루마의 범위 내의 루마를 갖는 적어도 하나의 고 동적 범위 입력 이미지로 혼합된다.
컬러의 스케일은, 예를 들어 거무스름하게 보이는 일부 컬러로부터 일부 밝은 컬러, 및 종종 일부 중간 밝기 컬러로 밝기가 증가(또는 감소)하는 컬러 세트이다. 이 스케일은 소정 일차의 모든 단계를 반드시 포함할 필요는 없고, 예를 들어 청색이지만 제한된 컬러 팔레트는 예를 들어 몇 개의 연한 청색 단계, 몇 개의 어두운 녹색을 갖지만, 어두운 청색은 갖지 않을 수 있다(이어서 녹색은 스케일의 더 어두운 단계를 정의함). 눈이 그래픽 요소의 대략적인 평균 밝기를 체크하면, 일부 컬러는 통상적으로 어둡게 보일 것이고, 일부는 밝게 보일 것이다. 약 50%의 밝기 측정치 또는 약 25%의 휘도는 중간점으로 간주되거나 중간점으로 사용 가능한 통상적인 값일 수 있다. 따라서 예를 들어 25% 미만의 휘도를 갖는 픽셀은 더 어두운 컬러로 간주될 수 있으므로, 더 이상 그래픽 범위 기준 이내임을 만족할 필요가 없다. 더 엄격한 시스템이 더 많은 컬러가 그래픽 범위에 있을 것을 요구하는 경우, 이차 그래픽은 덜 어두운 컬러로 설계될 수 있다.
방법의 이차 그래픽 삽입의 일부 실시형태는 픽셀 대체의 보다 예측 가능한 혼합 방법(즉, 원본 비디오의 비디오 픽셀이 있었던 곳에 적합한 수립된 루마의 그래픽 픽셀을 그리는 것)을 사용하거나, 적어도 하나의 고 동적 범위 입력 이미지의 휘도의 50% 미만의 백분율(30% 이하의 백분율이 바람직함)로 블렌딩함으로써 혼합할 수 있고, 그에 따라 비디오가 다소 빛나고 여전히 보일 수 있지만, 그래픽의 휘도는 지배적이며 그의 루마 결정으로부터 대체로 유지된다.
방법은 이차 그래픽 요소(들)의 컬러 세트가, 바람직하게는 하위 루마의 70%보다 높은 하위 루마의 백분율인 이차 하위 루마를 초과하는 루마를 갖는 상대적으로 밝은 평균 미만의 어두운 컬러의 제한된 세트를 선택하는 것을 포함하도록 설계하는 경우 유리하다. 그래픽 범위(R_gra)가 결정되면, 적합한 이차 그래픽 컬러가 결정될 수 있다. 예를 들어, 방법은 잠재적으로 심하게 변화하는 루마 맵핑의 영향을 줄이기 위해, 결정된 안전 하한보다 너무 많이 떨어지지 않도록, 예를 들어 깊이가 30 미만밖에 되지 않도록 정할 수 있다. 이 백분율은 얼마나 많은 어두운 픽셀이 이차 그래픽에 있는지, 또는 어느 포지션에 있는지 등과 같은 양태에 좌우될 수 있다. 예를 들어, 100x100 픽셀 그래픽에 어두운 픽셀이 5개만 있는 경우, 이차 그래픽의 평균 인지된 밝기는 궁극적으로 출력 이미지에 어떻게 디스플레이되든 이러한 몇 개의 어두운 픽셀에 의해 너무 많은 영향을 받지 않을 것이다.
방법은 또한 장치, 예를 들어 이차 그래픽 이미지 요소(216)의 픽셀의 제2 루마를 결정하고 이차 그래픽 이미지 요소를 일차 그래픽 요소(207)를 포함하는 적어도 하나의 고 동적 범위 입력 이미지(206)와 혼합하기 위한 장치(500)로 실현될 수 있고, 장치는,
- 적어도 하나의 고 동적 범위 입력 이미지를 포함하는 고 동적 범위 이미지 신호(S_im)를 수신하기 위한 입력(501);
- 고 동적 범위 입력 이미지의 휘도의 범위의 서브범위인, 일차 그래픽을 표현하는 픽셀의 루마를 특정하는 범위인 적어도 하나의 고 동적 범위 입력 이미지의 그래픽 루마의 범위(R_gra)를 결정하기 위해 고 동적 범위 이미지 신호를 분석하도록 배열된 이미지 신호 분석 회로(510) - 그래픽 루마의 범위를 결정하는 것은 일차 그래픽 루마의 범위(R_gra)의 엔드포인트를 특정하는 하위 루마(Y_low) 및 상위 루마(Y_high)를 결정하는 것을 포함함 -;
- 이차 그래픽 요소를 생성 또는 판독하고, 이를 그래픽 루마의 범위에 포함된 픽셀 루마의 적어도 가장 밝은 서브세트와 휘도 맵핑하도록 배열된 그래픽 생성 회로(520);
- 이차 그래픽 이미지 요소를 고 동적 범위 입력 이미지와 혼합하여, 혼합 휘도(Lmax_fi)를 갖는 픽셀을 산출하도록 배열된 이미지 혼합기(530); 및
- 혼합 휘도(Lmax_fi)를 갖는 픽셀을 포함하는 적어도 하나의 혼합 이미지(Im_out)를 출력하기 위한 출력(599)을 포함한다.
또는 장치에서, 이미지 신호 분석 회로(510)는 이미지 그래픽 분석 회로(511)를 포함하고, 이미지 그래픽 분석 회로(511)는,
- 고 동적 범위 입력 이미지에서 하나 이상의 일차 그래픽 요소를 검출하고,
- 하나 이상의 일차 그래픽 요소의 픽셀의 루마를 수립하고,
- 루마를 하위 루마(Y_low) 및 상위 루마(Y_high)로서 요약하도록 배열되고, 하위 루마는 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 낮고 고위 루마는 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 높다.
또는 장치에서, 이미지 신호 분석 회로(510)는, 예를 들어 적어도 하나의 고 동적 범위 입력 이미지의 생성자에 의해 고 동적 범위 이미지 신호 내의 메타데이터로부터 고 동적 범위 이미지 신호에 기록된 하위 루마(Y_low) 및 상위 루마(Y_high)의 값을 판독하도록 배열된 메타데이터 추출 회로(513)를 포함한다.
또는 장치에서, 이미지 신호 분석 회로(510)는 고 동적 범위 이미지 신호(S_im) 내의 메타데이터로부터 시간적으로 연속적인 이미지의 2개 이상의 루마 맵핑 함수(LMF(t), LMF_p)를 판독하고 그래픽 루마의 범위를 2개 이상의 루마 맵핑 함수에 관한 제1 조건을 충족하는 범위(R_id)로서 수립하도록 배열된 루마 맵핑 함수 분석 유닛(512)을 포함하고, 2개 이상의 루마 맵핑 함수는 이 그래픽의 범위 내의 입력 루마를 대응하는 출력 루마에 맵핑하고 제1 조건은 각각의 입력 루마에 대해, 2개 이상의 루마 맵핑 함수로부터의 각각의 맵핑 함수를 상기 입력 루마에 적용함으로써 획득 가능한 그의 대응하는 2개 이상의 출력 루마가 실질적으로 동일하다는 것이다.
또는 장치에서, 이미지 혼합기(530)는 적어도 하나의 고 동적 범위 입력 이미지의 동적 범위와 상이한 최대 휘도와 같은, 동적 범위를 갖는 적어도 하나의 대응하는 출력 이미지의 대응하는 출력 루마에 적어도 하나의 고 동적 범위 입력 이미지의 픽셀의 루마를 맵핑하도록 배열되고, 고 동적 범위 이미지 신호의 메타데이터로부터 획득된 적어도 하나의 루마 맵핑 함수에 따라, 적어도 하나의 대응하는 출력 이미지에서 혼합을 수행하도록 배열된 루마 맵퍼(533)를 포함한다.
또는 장치에서, 그래픽 생성 회로(520)는 인간의 눈에 일부는 평균을 초과하여 밝게 보이고 일부는 평균 미만으로 어둡게 보이는, 상이한 밝기의 컬러의 스케일에 걸쳐 있는 컬러 세트로 이차 그래픽 이미지 요소를 설계하도록 배열되고, 적어도 평균을 초과하는 밝은 컬러는 그래픽 루마의 범위 내의 루마를 갖는 적어도 하나의 고 동적 범위 입력 이미지로 혼합된다.
또는 장치에서, 이미지 혼합기(530)는 이차 그래픽 요소 픽셀에 의한 적어도 하나의 고 동적 범위 입력 이미지의 비디오 픽셀의 픽셀 대체에 의해, 또는 적어도 하나의 고 동적 범위 입력 이미지의 휘도의 50% 미만의 백분율(30% 이하의 백분율이 바람직함)로 블렌딩함으로써 혼합하도록 배열된다.
특히, 당업자는, 이러한 기술 요소가 ASIC(주문형 반도체, 즉 통상적으로 IC 설계자는 IC(의 일부)가 방법을 수행하게 할 것임), FPGA, 프로그래밍되는 프로세서 등과 같은 다양한 프로세싱 요소로 구현될 수 있고, 디스플레이(예를 들어, 소비자 비디오를 인코딩하는 모바일 폰) 또는 디스플레이에 외부적으로 연결될 수 있는 비-디스플레이 장치를 포함하는지 여부에 관계없이 다양한 소비자 또는 비-소비자 장치에 상주할 수 있고, 이미지 및 메타데이터가 무선 방송, 케이블 기반 통신과 같은 다양한 이미지 통신 기술을 통해 통신될 수 있고, 장치가 예를 들어 텔레비전 방송, 인터넷 주문형, 비디오 모니터링 시스템, 비디오 기반 통신 시스템 등과 같은 다양한 이미지 통신 및/또는 사용 생태계에서 사용될 수 있다는 것을 이해한다. 혁신적인 코딩 HDR 신호는, 예를 들어 적어도 하나의 일차(사전 혼합된) 그래픽 범위의 적어도 하나의 하위 및 상위 루마 값을 통신하는 다양한 방법에 대응할 수 있다.
본 발명에 따른 방법 및 장치의 이들 및 다른 양태는 이하에 설명되는 구현예 및 실시형태로부터 명백할 것이고, 그들을 참조하여 그리고 첨부 도면을 참조하여 설명될 것이며, 도면은 더 일반적인 개념을 예시하는 비제한적인 특정 예시로서의 역할을 할 뿐이며, 도면에서 파선은 구성요소가 선택적이라는 것을 나타내는 데 사용되고, 파선이 아닌 구성요소는 반드시 필수적인 것은 아니다. 파선은 또한 필수적인 것으로 설명되지만 객체의 내부에 숨겨진 요소를 나타내기 위해 또는 예를 들어 객체/구역의 선택과 같은 비유형적인 것에 대해 사용될 수 있다.
도면들에서:
도 1은 본 혁신이 이점을 제공할 수 있는 가능한 HDR 핸들링 체인(인코딩, 디코딩 및 잠재적인 디스플레이를 포함) 중 하나를 개략적으로 예시하고;
도 2는 일차 그래픽이 발생할 수 있지만, 하나 이상의 장소에 이차 그래픽을 삽입할 필요가 있는 하나의 통상적인 상황을 개략적으로 예시하고;
도 3은 보다 안정적이고 결정 가능한 그래픽 삽입을 제공하는 이미지 콘텐츠 적응 루마 맵핑 함수를 정의하는 한 가지 가능성을 개략적으로 도시하고;
도 4는 상이한 휘도 콘텐츠 장면에 대해, 보다 안정적이고 결정 가능한 그래픽 삽입을 제공하는 이미지 콘텐츠 적응 루마 맵핑 함수를 정의하는 가능성의 다른 예를 개략적으로 도시하고;
도 5는 본 발명의 원리 중 일부를 예시하는 장치의 통상적인 구성요소를 개략적으로 도시하고;
도 6은 적어도 하나의 수신된 고 동적 범위 이미지에서의 일차 그래픽의 분석으로부터 식별된 일차 그래픽 범위의 적어도 상위 및 통상적으로 또한 하위 루마를 정의하는 하나의 가능한 실시형태를 개략적으로 도시하고;
도 7은 도 3 또는 도 4를 이용하여 설명된 원리에 따라 공식화된 적어도 2개의 연속 루마 맵핑 함수로부터 적어도 상위 및 통상적으로 또한 하위 루마를 정의하는 하나의 가능한 실시형태를 개략적으로 도시하고;
도 8은 종래 기술에 따른 HDR 비디오와 일차 그래픽의 사전 보상 휘도 맵핑 기반 혼합을 설명한다.
도 3은 그래픽을 갖는 HDR 비디오 이미지를 가장 잘 구성할 수 있는 방법을 상세히 도시한다. 이는 인상적인 HDR 효과를 얻기 위해 픽셀 휘도를 구체적으로 그레이드하고 싶은 2개의 통상적인 HDR 장면 이미지(예를 들어, 시간적으로 이웃한 이미지의 샷을 가질 수 있음)를 도시한다. 특히, HDR 이미지는 밝을 뿐만 아니라 채도가 높은 컬러를 갖는 픽셀 컬러를 만드는 것을 가능하게 하는 반면, LDR에서 밝은 컬러는 채도가 낮고 훨씬 덜 아름다울 필요가 있을 것이다. 추가로, 컬러 그레이더는 통상적으로 다양한 이미지 객체의 시각심리적 영향을 살펴볼 것이므로, 예를 들어, 용의 불은 밝게 보이지만, 너무 밝지는 않다.
제한을 원하지 않으면서, 본 발명자들은 생성측이 통상적으로 다음과 같이 핸들링할 수 있는 2개의 장면을 갖고 있다. 두 장면 모두(이들이 갖는 유일한 유사성은 높은 명도의 중요한 구역을 포함한다는 것임)는 상당히 상이한 콘텐츠를 가지며 휘도가 특정될 것이지만, 즉, 상이하게 그레이드될 것이지만, 이들 둘 모두는 몇 개의 일반적으로 반사하는 객체(즉, 소정 백분율의 국부적으로 조명하는 광을 반사하는 객체)를 포함한다. 이는 장면에 존재하는 평균 양의 광을 반사하므로, LDR에서 얻을 휘도와 대등한, 상대적으로 낮은 휘도를 얻는다. 아이디어는 인간의 시각적 적응 후, 또는 그러한 적응을 가정하여 디스플레이될 이미지를 만들 때, 전구, 햇빛을 강하게 반사하는 구름 등과 같은 휘면색의 높은 명도 범위 아래의 더 어두운 컬러를 산출할 것이라는 것이다. 불을 뿜는 용 이미지(301)의 경우, 이는 용의 몸일 것이다. 바다 이미지(302)에서의 일몰의 경우, 이는 보트일 것이다. 이러한 일반 객체는 이 장면의 경우 예를 들어 최대 200 니트인 입력 동적 범위(예에서 전체 범위는 0에서 MaxL_HDR= 3000 니트까지임)에서 이용 가능한 가장 낮은 휘도를 커버하는 더 어두운 서브범위(R_Lrefl)에 속한다. 용이 적색 몸을 가지면, 예를 들어 평균적으로 130 니트 픽셀을 가질 수 있지만, 흑색 몸을 갖는 경우, 예를 들어 20 니트 픽셀을 가질 수 있다. 예를 들어 자막의 경우 그래픽 픽셀은 통상적으로 이 더 어두운 서브범위의 다소 위에 편리하게 배치될 수 있다. 이는 훌륭하게 밝고 눈에 잘 띄는 장점을 갖는 반면(LDR의 백색처럼), 비디오 자체의 HDR 효과를 압도하지는 않는다. 특히 두 이미지가 혼합된 개별 HDR 소스에서 나온 경우, 상위 휘도(또는 예를 들어 인지 시각 양자화 루마 정의에서 그 휘도를 코딩하는 그 루마)가 두 범위 모두의 일반 장면 컬러에 대해 동일할 필요는 없다고 주장할 수 있다. 그러나 비디오 이미지를 혼합하기 전에 조정에 의해 이를 부근에 있도록 제약할 수 있고(예를 들어, 용의 범위는 보트 및 바다의 범위보다 범위의 상단부에서 최대 1.5x 더 밝아질 것임), 예를 들어 둘 중 더 밝은 상단부에서 시작하는 그래픽 범위를 설정함으로써(예를 들어, 대략 200 대신 300 니트, 또는 150 대신 220에서 시작) 이를 고려할 수 있다. HDR 효과는 예를 들어 약 1500 니트의 픽셀 휘도에서 렌더링될 수 있는 용의 오렌지색 계열의 누르스름한 불이다(이는 이미지의 상대적으로 큰 부분이고, 더 밝은 휘도가 편리해 보일 것임). 일몰 시 햇빛이 비치는 구름의 경우, 이는 예를 들어 2000 니트에 도달할 수 있고, 태양면 자체는 대략 3000 니트이다(예를 들어, 3000 니트의 95%가 이를 황색으로 만듦). 이러한 모든 HDR 효과는 명백히 그래픽 범위보다 훨씬 높고, 이는 ML_C = 3000 니트의 마스터 HDR 범위에서 예를 들어 400 니트 내지 500 니트(또는 더 어두운 그래픽 컬러의 더 적은 시각적 영향을 고려할 때 50 내지 500 니트)에 놓이도록 비디오 생성자에 의해 특정될 수 있다. 더 밝은 컬러의 제한된 서브세트만 사용하는 그래픽의 경우, 그레이딩, 및 특히 휘도 맵핑에 의한 리그레이딩에서 변동될 수 있는 너무 많은 일반 및 효과 비디오 컬러를 커버하지 않고, 제한된 범위에 집중할 수 있다. 더 어두운 컬러가 필요할 때, 예를 들어 맵핑 함수의 하위 부분의 예상되거나 통신된 변이에 기반하여 400 레벨 아래로 얼마나 내려가고 싶은지의 균형을 맞출 수 있다(예를 들어, 오프라인 시나리오에서, 프로세싱하기 전에, 영상 동안 발생할 모든 곡선을 살펴보고, 하위 곡선의 상위 부분의 변동의 일부 고유값을 결정할 수 있고 - 예에서 제2 선형 세그먼트로 도시됨 -, 통신된 비디오를 즉각적으로(on-the-fly) 디스플레이할 때, 이러한 특성은 통신될 수 있고, 그래픽의 가장 깊은 흑색을 맵핑할 곳을 정할 때 고려됨). 예를 들어, 추가 루마 또는 휘도 값(각각 L_low 및 Y_low 미만)은 곡선이 예를 들어 고정된 포인트(fixed point)인 하위 그래픽 범위 포인트에서 하향으로 시작되는 평균 곡선과 비교하여 20% 또는 40%보다 많이 변동하기 시작하는 곳에서 통신될 수 있다. 이어서, 더 중요한 애플리케이션(또는 예를 들어 단색 자막 주위의 흑색 텍스트 박스와 같은 그래픽 타입)은 그의 가장 어두운 컬러에 대해 이 20% 이하의 변동 포인트의 휘도 또는 루마를 선택할 수 있으며, 덜 중요한 애플리케이션은 40% 포인트를 사용할 수 있다. 종종 상위 포인트는 하위 포인트보다 더 중요할 수 있다(예를 들어, 다시 그레이딩이 발생할 때 밝은 픽셀이 강하게 압축될 경우). 400 니트의 하위 휘도(L_low)는 일부 하위 루마 코드(Y_low)(예를 들어, PQ의 0.65에 비트 심도에 따른 인수, 예를 들어, 1023을 곱함)로 표현된다. 본 발명자들은 다른 EOTF 또는 OETF가 하이브리드 로그감마(HLG)처럼 사용될 수 있고, 본 발명자들의 기법이 심지어 EOTF/루마 코드 정의의 혼합에서도 작동할 수 있지만, 이 텍스트에서 모든 픽셀 휘도가 항상 대중적인 인지 시각 양자화 코딩으로 코딩된다고 비제한적으로 가정할 것이다(예를 들어, PQ 루마 정의 픽셀 컬러 코딩에서 제1 일차 그래픽 요소를 찾고. HLG 인코딩된 일부 이미지의 일부에서 제2 일차 그래픽 요소를 이차 참조로 찾음). 상위 일차 그래픽 범위 휘도(L_high) 및 상위 일차 그래픽 범위 루마(Y_high)는 통상적으로, 예를 들어 중요한 HDR 밝은 객체가 너무 많이 발생할 것으로 예상하지 않으므로, 구체적이지 않은 경우, 예를 들어 국부적 곡선 형상을 강력하게 부스팅하거나 압축하지 않는 경우 결정될 것이다. 고정 포인트에서 시작하는 곡선 연속성이 그래픽이 그 범위 내에 머무르면 너무 많은 시각적 맵핑 불일치 문제를 산출하지 않을 것이므로, 이를 하위 포인트의 백분율 승수(예를 들어, 150%)로 정의할 수 있다. 그래픽에 대한 양은 통상적으로 입력 비디오의 최대 휘도에 좌우될 것인데, 왜냐하면 본 발명자들은 상위 범위의 다양한 HDR 객체를 다용도 방식으로 압축할 수 있어야 할 필요성이 있을 것으로 예상하기 때문이다. 예를 들어, 입력 이미지가 1000 니트까지만 올라갈 경우, 밝은 HDR 객체를 위한 공간이 거의 남지 않기 때문에 1.5x400 니트 상위 포인트를 선택하고 싶지 않은 경우가 많을 수 있거나(일반 객체로부터 이들을 그레이드할 필요가 있을 수 있고, 이는 항상 바람직한 것은 아닐 수 있음), HDR 비디오 객체 휘도와, 적어도 수립된 일차 그래픽 범위와 함께 배치하는 경우 이차 그래픽 범위에서 가능한 고위 휘도 간에 상당한 중첩이 있을 것이다.
단지 HDR 이미지 자체를 갖는 경우(즉, 등휘도로 디스플레이될, 즉 각각의 코딩된 이미지 픽셀 휘도가 코딩된 대로 정확하게 디스플레이되는 최종 이미지처럼), 그래픽 문제는 아직 그렇게 복잡하지 않지만, 통상적으로(도 1과 함께 설명됨) HDR 입력 이미지는 루마 맵핑(또는 동등하게 휘도 맵핑)될 필요가 있을 수 있다. 본 발명자들은 대응하는 LDR 그레이드 이미지를 출력으로 획득하기 위해 용의 이미지에 대해 제1 휘도 맵핑 함수(310)를 도시한다(대응하는 루마 맵핑 함수는 입력 및 출력 휘도 범위 둘 모두를 PQ 루마의 범위로 변환함으로써, 또는 입력을 PQ 루마 축으로 삼고, 출력을 Rec. 709 고전적 LDR 루마로 삼는 식으로 획득될 수 있다). 본 발명자들은 이 함수가 개념적으로 세 부분으로 이루어져 있음을 확인한다: 입력 범위(R_Lrefl)에 속하는 더 어두운 일반 객체에 대한 적절한 형상의 맵핑, HDR 효과(R_Heffs)의 범위에 대한 맵핑, 및 중간 부분, 즉 그래픽 서브범위(R_gra)에 대한 맵핑. 비디오에서 다음 장면은 다수의 연속적인 일몰 이미지(즉, 샷)를 갖는 일몰 장면일 수 있다. 이는 도 1을 이용하여 설명된 바와 같이 통상적으로 최종 장치, 예를 들어 소비자용 텔레비전 디스플레이의 디스플레이 최적화를 안내하기 위해 비디오 신호의 메타데이터로서 공동 통신되는 다른 바람직한 리그레이딩 루마 맵핑 함수(315)를 가질 수 있다. 그러나, 비디오 생성자는 그래픽 부분이 안정적으로 유지되도록 자신의 리그레이딩 함수를 정의할 수 있고, 즉 그러한 모든 휘도는 두 HDR 장면 모두에 대해 동일한 대응하는 출력 휘도에 맵핑된다. 이어서, 그래픽은 HDR과 LDR(또는 임의의 다른 중간 디스플레이 적응 이미지, 예를 들어 950 니트 ML_D 디스플레이에 최적화된 950 니트 ML_C 이미지) 둘 모두에서 두 장면 모두에서 동일하게 보일 것이다. 또한, 비디오 생성자(즉, 휘도 맵핑 함수의 생성자)는 HDR(이 예에서는 3000 니트 마스터 HDR)과 LDR 둘 모두에서 어떤 그래픽 서브범위가 합리적일지 선택할 수 있다. 최대 휘도가 상이한 HDR 비디오를 혼합하고 그래픽을 조정할 필요가 있는 경우, 이는 맵핑의 안정적인 출력 그래픽 범위, 이 예에서는 75 내지 80 니트 LDR 범위를 통해 수행될 수 있다는 것에 유의한다. 그래픽을 자유롭게 구성할 수 있으므로, 이는 HDR 영상의 효과 범위가 무엇인지에 좌우될 수 있음에 유의한다.
이제, 도 4를 이용하여 설명된 바와 같이, 영상의 나머지 부분은 2개의 본질적으로 어두운 장면을 포함한다. 첫 번째 것은 도시를 질주하는 오토바이를 보여주는 밤 장면(401)이다. 오토바이는 예를 들어 30 니트로 렌더링되어, 상대적으로 어두운 인상을 주면서도 여전히 잘 보일 수 있다(LDR에서는, 밤을 시뮬레이션하기 위해 픽셀을 청색으로 만드는 트릭을 사용해야 했으며, HDR에서는 픽셀 자체의 어두움을 더 많이 재생할 수 있지만, 예를 들어 HDR 영상이 상대적으로 밝은 조명 아래에서 자주 시청될 것으로 기대하는 가장 어두운 픽셀의 서브범위의 더 밝은 쪽에 여전히 머무를 수 있음). 이 이미지에서 유일한 밝은 객체는, 900 니트의 픽셀 휘도를 제공하여 이를 이미지의 나머지 부분에 비해 성가시게 밝지 않게, 그리고 산만하지 않게 만들 수 있는 가로등이다. 그 후 다른 어두운 장면(402)이 나온다. 정확하게는 밤 장면은 아니지만, 일반적으로는 여전히 통상적으로 어둡다(비가 오는 날이므로, 실외 픽셀은 어둑하게 디스플레이될 것임). 정말 어두운 부분은 하수관에 숨어 있는 광대이고, 이는 그가 거의 보이지 않게 하도록 예를 들어 10 니트 이하의 휘도를 가질 것이다. 그러한 두 이미지 세트에 대해, 비디오 생성자는 일차 그래픽에 대해 하위 일반 레벨이 더 적합하다고 간주했을 수 있고, 예를 들어 HDR에서 다른 예시적인 하위 휘도(L_low2 = 80 니트)(HDR 이미지에서 루마 코드로 Y_low2로 표현됨), 및 다른 상위 휘도(L_high2)는 90 니트(HDR 그레이딩에서)이다. 본 발명자들은 대응하는 적합한 LDR 하위 휘도(Ll_low = 60) 및 LDR 상위 휘도(Ll_high = 65) 니트도 도시하고, 이는 이러한 2개의 어두운 장면에 대한 2개의 휘도 맵핑 함수(예를 들어 오토바이 야간 이미지(401)에 대한 제3 휘도 맵핑 함수(405))의 그래픽 부분에 좌우되거나, 그 반대의 경우도 마찬가지이며, 이를 결정할 것이다. 단순화를 위해 선분으로 도시되는 휘도 맵핑 함수(405)의 가장 어두운 세그먼트는 LDR 리그레이드 이미지에서도 광대가 적절하게 어둡게 보이도록 마음대로 맞춤화될 수 있고, 이는 예를 들어 레거시 LDR tv를 구동하는 데 사용될 수 있다. 이 장면 변화(예를 들어, 낮에 밝은 불을 뿜는 용에서 밤의 도시 경관으로)와 함께 그래픽 휘도가 갑자기 변화한다는 사실은 문제가 되지 않는데, 그 이유는 변화가 "임의적"인 것이 아닌 한 비디오 생성자가 원한 것이기 때문이다. 현재 메커니즘은, 예를 들어 가변 거듭제곱 계수(variable power coefficient)를 갖는 멱함수 휘도 맵핑 함수와 같은 단순한 곡선을 사용할 때 임의로 변화시키는 대신, 비디오 생성자가 원하는 경우 다양한 이미지 객체의 모든 휘도를 선택하는 것을 가능하게 한다. 그래픽에 사용되는 모든 컬러가 다양한 상이한 루마 맵핑 곡선 사이에서 동등한 맵핑을 유지하는 서브범위에 있을 필요는 없다는 것에 유의한다. 일반적으로는, 그래픽의 더 밝은 컬러가 안정적으로 유지되고, 적어도 일부 애플리케이션 또는 시스템에서 더 어두운 컬러가 다소 달라질 수 있으면 충분하다. 이차 그래픽을 혼합하는 디바이스는 일차 그래픽보다 더 작은 범위 내의 그래픽 루마, 예를 들어 실제로 다수의 연속적인 상이하게 리그레이드된 장면에서 차등적으로 맵핑되지 않는 루마만을 사용하기로 정할 수 있다.
도 5는 본 발명의 개념을 구현하는 잠재적인 장치를 (높은 레벨에서) 설명한다.
이 예시적인 실시형태에서, HDR 이미지 신호 입력(501)이 HDR 이미지 자체(즉, 픽셀 컬러의 코딩된 행렬, 디코딩할 정보가 수신기, 예를 들어 선택된 EOTF에 공동 통신되거나 알려짐)를 수신할 뿐만 아니라, 연속적인 이미지에 대한 가변 형상, 또는 동일한 장면, 예를 들어, 동굴 장면의 유사한 이미지의 샷을 가질 수 있는 비디오의 이미지 중 하나에 대응하는 시간 순간(time moment)(t)에 대한 적어도 하나의 휘도 맵핑 함수(LMF)를 수신하는 것이 가정된다(비제한적임). 또한 일차 그래픽의 하위 및 상위 루마(MET(YLo, Yhi); 본 발명자들이 휘도에 L을 사용하고 루마에 Y를 사용하는 것은 아님)에 관한 명시적인 메타데이터가 있을 수 있다(또는 없을 수 있음). 이들이 입력 도메인에서, 즉 수신된 HDR 이미지에 대해 정의되어 있다고 가정하겠다. 장치에는 이미지 그래픽 분석 회로(511)가 존재할 수 있다. 그 유닛이 작동하는 방법은 장치에 좌우될 수 있고, 예를 들어 일부 더 단순한 장치는 텍스트, 및 검출된 텍스트로부터 그래픽 범위만 검출할 수 있고, 예를 들어 범위는 가장 어두운 텍스트 픽셀부터 가장 밝은 것까지의, 발견된 모든 텍스트에 사용된 모든 루마를 포함하거나, 그 범위의 일부는 다소 크고, 예를 들어 평균 텍스트 루마보다 더 밝은 텍스트 픽셀 등이다.
도 6은 이미지에서 일차 그래픽의 분석을 수행하는 데 유리한 하나의 가능한 회로를 설명한다(다른 분석 알고리즘이 사용될 수 있음). 당업자는 본 혁신을 설명하기 위해 교시된 바와 같은 유닛의 다양한 구성과 함께, 다른 동등한 그래픽 분석 기법이 대안 또는 보충으로서 존재할 수 있다는 것을 이해한다.
컬러의 제한된 변이 구역의 검출기(601)는 통상적인 낮은 그래픽 레벨 요소에서 통상적인 그래픽 컬러를 체크하도록 배열된다. 일부 그래픽은 복잡할 수 있지만, 그 중 다수는 제한된 서브세트를 가질 것이고, 아마도 상이하게 조명될 것이지만, 예를 들어 2개의 상이한 색도만 갖는다. 예를 들어, HDR 이미지에 텍스트가 존재할 수 있기 때문에(예를 들어, 말의 명칭은 컬러 헤드 형상과 동일한 백색 또는 단일 픽셀 컬러를 가질 수 있음), 텍스트 검출기(602)는 통상적으로 이미 양호한 결정 또는 일차 그래픽 컬러의 제1 결정을 수행하기 위해 존재할 수 있다. 제1 세그먼트화 맵(SEG_MAP1)과 같은 세그먼트화 맵은 가능한 대표 일차 그래픽 픽셀로 식별된 구역을 요약하기 위한 단순한 방식이므로, 나중에 이러한 구역/맵의 컬러는 쉽게 결정될 수 있다. 예를 들어 텍스트 문자 "G"가 식별되는 경우, 기저 픽셀(underlying pixel)은 예를 들어 초기 0의 행렬에서 값 "1"을 얻을 것이다. 특성 기반 그래픽 분석기(610)도 존재할 수 있으며, 예를 들어 반복적인 방식으로(그래픽 컬러 특성/특성들을 식별, 세트를 결정, 특성을 재식별) 더 복잡한 그래픽에 사용될 수 있다. 이는 예를 들어 컬러 타입 특성화기(characterizer)(611)를 사용할 것이다. 예를 들어, 이상한 보라색(strange purple)과 같은, 고도로 채도가 높은 컬러는 (꽃 등을 제외하는 경우) 종종 픽셀이 아마도 그래픽일 것임을 시사할 수 있다(그래픽은 종종 RGB 성분 중 일부가 높거나 심지어 최대인 적어도 일부 원색을 포함하고, 하나 또는 2개의 성분은 0 또는 0에 가깝고, 자연스러운 이미지 콘텐츠는 이상적으로 이러한 컬러를 종종 포함하지 않고 은은한 컬러를 포함함). 이러한 후보는 기본적 그래픽 기하구조 분석기(612)와 같은 다른 유닛에 의해 추가로 검증될 수 있다. 예를 들어, 특성화될 수 있는 형상의 그래픽은 형상 특성화기와 매칭될 수 있다.
특정 컬러 특성을 갖는 연결된 또는 부근의(예를 들어, 반복적) 픽셀 세트가 작은 경우, 일반적으로 이를 비침해적(non-intrusive)으로 만들고 싶기 때문에, 그래픽 요소일 수 있고, 특히 몇몇 그래픽이 있는 경우 판독하거나 보기에 충분하다. 그리고 주요 영상 객체는 종종 줌 인되고 커진다(예를 들어, 보라색 코트 또는 마법의 불덩이는 더 많은 픽셀을 포함할 수 있음). 위치는 또한 경험적일 수 있다: 그래픽은 일반적으로 이미지의 가장자리 근처에 있고, 예를 들어 상단에 로고가 있거나 하단에 티커 테이프(ticker tape)가 있다. 이러한 픽셀은 검증될 제1 세그먼트화 맵(SEGMAP_1)에서 추가 초기 후보를 형성할 수 있거나, 그 반대의 경우에도 추가 분석을 통해 다시 추출할 수 있다. 숙련된 독자는, 예를 들어 그래픽 대 자연스러운 비디오의 단순성 또는 주파수 변화 양태, 예를 들어 텍스처 측정 등에 대해 훈련될 수 있었던, 예를 들어 신경망도 사용할 수 있는 방법을 이해할 수 있다. 고위 레벨 형상 분석 회로(620)는 루마를 요약하기 위한 보다 안정적인 픽셀 세트를 얻기 위해, 초기에 가정된 그래픽 구역의 추가 특성을 분석할 수 있다(즉, 예를 들어, 잠재적인 그래픽 픽셀을 초기에 식별하는 세그먼트화 맵에 기반하여 시작). 언급한 바와 같이, 칼자루까지 모든 일차 그래픽 픽셀이 정확하게 식별될 필요는 없다. 예를 들어, 에지 검출기(621)는 그래픽 형상과 주변 비디오 사이의 에지 픽셀을 검출하기 위해 존재할 수 있다.
G-기준은 이러한 경계를 탐지하는 데 사용될 수 있다(M. Mertens et al.: A robust nonlinear segment-edge finder, 1997 IEEE Workshop on Nonlinear Signal and Image Processing).
G-기준은 원하는 경우 특성(예를 들어, 보다 단순한 자연스러운 객체 컬러와 대조되는 밝고 채도가 높은 컬러)을 정의하고, 2개의 구역에서 동시 발생의 양을 계산할 때 사용될 수 있다. 카운팅이 포함되므로, 구역의 형상은 또한 원하는 경우 튜닝될 수 있다.
예를 들어, 픽셀 컬러의 2개의 색차를 사용하고 제1 특성을 정의한다:
P1= 1000*Cb+Cr
이 특성은 추가 함수, 예를 들어 국부적으로 결정된 평균 색차 기반 특성으로부터의 편차 하에서 변환될 수 있다. 예를 들어, 다음과 같다:
Delta_P1= P1_pixel - P1_determined
P2 = Function(Delta_P1)
함수는 예를 들어 Delta_value가 제1 임계치 미만인 경우 0으로 분류하고, 중간 델타 값의 경우 1 내지 9로 분류하고, 델타 값이 충분히 상이한 경우 10으로 분류할 수 있다(즉, abs(1000*Cb - 1000*Cb_reference) > 1000*Threshold1 또는 abs(Cr -Cr_reference) > Threshold2).
이어서, 2개의 구역, 예를 들어 티커 테이프의 가로 가장자리를 넘어 좌측과 우측에도 속할 때까지 이미지 위로 시프트하는, 예를 들어 2개의 인접한 직사각형을 정의한다. 시프트의 양은 매칭의 양에 좌우될 수 있다.
G_criterion은 다음과 같다: 임의의 값(P2_i)을 갖는 직사각형 1 내의 픽셀의 수(예를 들어, P2_0은 카운팅되는 픽셀의 적색 성분 =0을 의미하고, P2_1은 적색 = 10을 의미하는 식)에서 동일한 값(P2_i)을 갖는 직사각형 2 내의 픽셀의 수를 뺀 값의 절대 값의 P2의 모든 가능한 상이한 값에 대해 G= 총합이고, 마지막으로 절대 차이의 이 총합을 통상적으로 두 직사각형 모두(또는 구역이 동일하지 않은 크기를 갖는 경우 영역 조정됨) 내의 픽셀의 수인 정규화 인자로 나눈다. 이미지에서 인접한 포지션에 속하는 두 개의 동일한 크기의 테스트 직사각형을 비교할 때, 수학식은 다음과 같다:
G= sum_i {abs[count(P2_i)_right_rectangle- count(P2_i)_left_rectangle]}/ 2*L*W [수학식 3]
L 및 W는 2개의 직사각형의 길이 및 너비이다.
검출기가 그래픽의 내부에 있는 경우, 어느 직사각형에서는 컬러는 대체로 동일할 것이며, 본 발명자들은 모두 0이라는 것, 즉 에지가 없음을 확인할 것이다. 하나의 직사각형이 그래픽에 속하고, 예를 들어 채도가 높은 황색이며, 다른 쪽이 비디오에 속하고, 예를 들어 채도가 낮은 녹색(작은 녹색 성분 과잉)인 경우, 녹색 쪽(예를 들어, 녹색 그래픽 위)에서 나오는 이동 평균은 녹색이 될 것이며, 그 결과 상위 직사각형에서 P2 값은 대략 0이 되고, 계속되는 녹색과 비교하여, P2 값은 모두 예를 들어 다른 샘플링 직사각형에서 대략 10 미만이게 될 것이다. 이어서, 좌측 직사각형에서는 L*W의 상이한 픽셀이 대략 모두 0일 것이고, 우측 직사각형에는 P2 특성(예를 들어, G-기준에 대한 입력으로서 결정된 값 10을 가짐)을 갖는 L*W의 픽셀이 있을 것이며, 상이한 특성 컬러는 좌측에서 매칭을 찾을 수 없다. 즉 G-기준은 에지에 속할 때 값 1과 가까울 것이다. G-기준의 이점은 비교할 임의의 특성, 예를 들어 텍스처 기반 메트릭 등을 추가할 수 있다는 것이다. 다른 보다 고전적인 에지 검출기는 그래픽 영역의 에지 및 자연스러운 비디오 영역의 시작 위치에서 후보 포인트 세트를 찾기 위해 대안적으로 사용될 수 있다. 에지 검출기에는 종종 노이즈가 많은 특성이 있고, 즉, 갭과 허위 에지 픽셀(spurious edge pixel) 둘 모두가 있을 수 있다. 거기에 형상 분석기(622)는 발견된 에지 픽셀로부터 HDR 이미지에서 연결된 형상을 식별하기 위한 사전프로세싱 회로를 포함할 수 있다. 다양한 기법은 이미지 분석 당업자에게 알려져 있고, 예를 들어 허프 변환은 라인을 검출하는 데 사용될 수 있고, 원은 매칭될 수 있고, 스플라인 또는 뱀이 사용될 수 있는 식이다. 분석이, 4개의 라인(또는 하나의 라인 및 이미지 경계)이 특히 예를 들어 (정확히 또는 대략) 이미지만큼 넓고 하단에 있는 것과 같은 특정 특성을 갖는 직사각형을 형성함을 밝혀내면, 내부 컬러는 그래픽 픽셀이 될 수 있는 양호한 후보이다(예를 들어, 뉴스 쇼에서의 티커 테이프). 따라서 이 직사각형 전체는 제2 세그먼트화 맵(SEGMAP_2)에 추가될 수 있다. 예상되는 그래픽의 발견된 경계에 기반한 대칭 결정은 실제로 일차 그래픽 요소가 있음을 확증할 수 있다. 더 단순한 실시형태는, 예를 들어 이미지의 하단에서 검출된 직사각형(그래픽 범위(R_gr)에 대한 양호한 제1 아이디어를 얻는 데 충분한 경우가 많을 것임)과 같은 몇 개의 단순한 기하학적 요소에만 집중하고, 예를 들어 그러한 요소가 발견되지 않은 경우에만, 알고리즘은 예를 들어 몇 개의 연속적인 비디오 샷에 걸쳐 몇 초 동안 유지된 후 다시 사라지는(즉, 그래픽의 시간적 변이 거동도 고려함) 날아드는 작은 영역인 별 형상과 같은 더 복잡한 그래픽 객체를 추가로 탐색할 수 있다. 또는 반대로, 후보 식별 그래픽 구역/객체는 영상 등의 몇몇 상이한 샷에 걸쳐 특히 변치 않고 남아 있을 수 있다. 기울기 분석기 회로(623)는 고정된 컬러 세트로 이루어지지 않지만, 내부 기울기(통상적으로 수십 또는 수백분의 1 픽셀에 걸쳐 천천히 변화하는 장거리 기울기(long-reach gradient))를 갖는 그래픽의 상황을 추가로 분석할 수 있다. 즉, 이러한 기울기는 예를 들어 모두 황색을 포함하지만, 채도는 좌측에서 우측으로 변한다. 이는 아마도 일부 기울기가 그래픽 생성 기울기인지 양으로(positively) 검증하거나 음으로(negatively) 검증할 수 있다. 예를 들어, 이는 일부 실시형태에서, 예를 들어 기울기 영역의 크기, 기울기의 가파름, 기울기에 걸쳐 있는 컬러의 양, 및 특히 다시 기울기가 복잡한 하위 경계(예를 들어, 나무)에서 다시 끝나는 경우와 같은 기울기의 추가적인 기하학적 특성에 따라 아마도 하늘과 같은 이미지의 상위 부분에 있는 청색 기울기를 폐기할 수 있다. 하늘과 물을 구별하는 윤곽선인 청색 라인의 경우, 픽셀은 이 라인의 포지션이 이미지의 상위 경계보다 너무 아래에 있으면 폐기될 수 있다.
의사 이미지 분석 회로(630)는 제3 세그먼트화 맵(SEGMAP_3)에서 견고하게 결정된 그래픽 픽셀에 관해 추가적인 확실성을 제공할 수 있다. 현대적이고 더욱 만족스러운 그래픽은 예를 들어 하위 배너에 (그래픽 생성) 구름을 갖는 형상을 포함할 수 있고, 이는 거의 자연스러운 이미지처럼 보이므로, 혼동될 수 있다. 그래픽으로 올바르게 식별되더라도, 그래픽의 다른 부분에서 결정할 수 있는 그래픽의 픽셀 루마에 대한 유의한 새로운 통찰력을 제공하지 못할 수 있다. 실제로 그래픽의 일부인 경우, 어쨌든 조정된 컬러를 가질 것이고, 이는 달리 결정된 그래픽 범위(R_gra)와 대략적으로 중첩되고, 아마도 결정된 바와 같이 다소 더 높은 상위 루마(Y_high) 또는 다소 낮은 Y_low로 이어질 수 있지만, 방법이 중요한 것은 아니다. 예를 들어, 배너 직사각형의 좌측 하위 모서리에 있는 식별된 그래픽 영역에 부착된 이러한 구역은 다시 폐기될 수 있다(또는 진보된 실시형태에서, 배너의 나머지 부분과 연관된 그래픽 요소인 것으로 검증된 경우, 예를 들어, 관련 컬러를 갖는 경우 유지되지만, 이러한 의사 그래픽은 복잡할 수 있고, 이어서 폐기되는 것이 더 나을 수 있음). 폐기를 이용하여, 적합한 그래픽 범위(R_gra)를 결정하기 위한 목적으로 보다 신뢰할 수 있는 세그먼트화 맵을 획득할 수 있다. 보다 진보된 실시형태는 텍스처 또는 패턴 인식 알고리즘을 관심 있는, 즉 몇 개의 컬러 및 이들의 단순한 기울기(즉, 예를 들어 20% 미만인 채도로 벗어남)의 (종종 직사각형 또는 실질적으로 원형과 같이 기하학적으로 단순하고 종종 대칭인) 구역이 아닌 특수 구역에 적용할 수 있다. 예를 들어, 비지-니스 측정(busy-ness measure)은 픽셀 컬러가 예를 들어 10x10 픽셀의 영역별로 얼마나 자주 그리고 빠르게 변하는지를(예를 들어, 이는 컬러 변화임) 나타내도록 계산될 수 있다. 라인의 각도 확산(예를 들어, 작은 컬러 변이를 갖는 객체의 중심)을 계산하는 것은 그래픽에서 발생하는 단순한 기하학적 패턴(또한 텍스트는 일반적으로 단지 2개의 또는 몇 개의 스트로크 방향을 가짐)으로부터 자연의 일부 복잡한 패턴(예를 들어, 나뭇잎)을 구별하는 데 유용할 수 있는 다른 측정이다. 더 단순한 실시형태는 기울기를 계산할 수 있다. 단거리 기울기(short-range gradient)(즉, 그래픽에서 자주 발생하는 장거리 기울기(수십 또는 수백분의 1 픽셀에 걸쳐 천천히 변화)가 아닌, 몇 개의 픽셀에 대한 실질적인 변이)가 있는 경우, 이러한 구역은 견고성상의 이유로 맵으로부터 제외될 수 있다. 또한 그래픽 구역의 대규모 주변 기하구조의 구역에서 컬러, 예를 들어 텍스트 박스가 보색임에도 불구하고(이는 이 그래픽에 대해 의도적으로 선택되었을 수 있다는 것, 예를 들어, 주황색의 보색인 청색을 의미함), 그래픽 구역의 나머지 부분의 평균 컬러로부터 많이 벗어나면, 회로(630)의 프로세싱 논리는 궁극적으로 그래픽 범위를 결정하는 세트로부터 이 픽셀을 제거할 수 있고, 즉, SEGMAP_3으로부터 이 픽셀을 제거할 수 있다.
그러나 많은 픽셀 구역 분석 서브회로 또는 프로세스가 있지만(예시된 3개보다 많거나 적음), 최종 프로세싱은 통상적으로 루마 히스토그램 분석 회로(650)에 의해 수행된다. 이 회로는 제3 세그먼트화 맵(SEGMAP_3)(또는 임의의 동등한 세그먼트화 맵 또는 메커니즘)에서 일차 그래픽으로 식별된 픽셀의 모든 루마를 살펴볼 것이다. 이는 SEGMAP_3에서 그래픽으로 식별된 픽셀의 루마의 히스토그램에서 가장 낮은 루마 또는 그 주의에 있는 이미지 분석 기반 하위 루마(Y_low_ima)를 출력할 것이다. 루마 히스토그램이 많은 어두운 컬러를 포함하면, 출력은 최소치보다 높을 수 있고, 예를 들어 실용적인 그래픽 범위를 갖기 위해, 가장 높은 루마의 10% 이상으로 설정될 수 있다. 반대로 백색 그래픽 픽셀만 SEGMAP_3에서 검출된 경우, 하한과 상한을 동일하게 설정하는 대신(이는 유용하지 않음), 루마 히스토그램 분석 회로(650)는 예를 들어, 이미지 분석 기반 상위 루마(Y_high_ima)의 25%인 이미지 분석 기반 하위 루마(Y_low_ima)를 다시 출력할 수 있다(더 중요한 파라미터가 통상적으로 먼저 결정되고; 이는 예를 들어 백색 텍스트의 루마일 수 있음). 또한 Y_high_ima는 항상 SEGMAP_3에서 발견된 최대 루마와 정확히 동일할 필요는 없다. 예를 들어 가장 밝은 컬러로서 황색만 발견되고, 통상적으로 그 휘도가 백색의 90%임을 알면, 히스토그램에서 발견된 최대 루마의 휘도의 110%에 대해 루마를 상위 루마로 설정할 수 있다. 또는 더 밝은 컬러의 로고와 더 어두운 백색 자막이 공존하는 경우, 가장 밝은 일차 그래픽 요소에 적합한 백색 값에 대응하는 값을 설정할 수 있다.
도 5로 돌아가면, 비디오의 (연속적이거나 이웃하는) 이미지의 실행을 위해 맵핑 함수의 유사 구역을 분석하기 위한 루마 맵핑 함수 분석 유닛(512)도 있을 수 있고(즉, 루마의 서브세트가 모든 상이한 최적 이미지 종속 휘도 맵핑 함수에 의해 대략 동일한 대응하는 출력 루마에 맵핑되는 경우), 이의 예시적인 알고리즘이 도 7을 이용하여 설명된다. 즉, 임의의 장치는 유닛(511), 유닛(512), 또는 둘 모두를 가질 수 있고, 이어서 통상적으로 발견된 그래픽 범위, 예를 들어 중첩 또는 접합을 요약하는 일부 회로부를 가질 수 있다. 유닛(513)에 관해서도 마찬가지다.
소정 시간 순간(LMF(t))에 유효한 다양한 루마 맵핑 함수가 아이덴티티(identity) 분석 회로(701)에 입력된다. 하나 이상의 이전 루마 맵핑 함수(LMF_p)는 메모리(702)로부터 추출될 수 있다. 상이한 형상의 함수가 결정되면(즉, 인입 LMF(t)가, 저장된 LMF_p와 적어도 일부 포인트에서 상이한 형상을 가짐), 예전 LMF_p를 대체하거나, 2개 이상의 함수를 비교할 때 이를 보충할 수 있다. 아이덴티티 분석 회로(701)는 입력 루마의 서브구역만에서만이 아니라, 함수의 전체 아이덴티티가 있는지 여부를 먼저 체크하도록 배열된다. 몇몇 HDR 코덱은 이미지당 하나의 함수를 송신할 것이고 이 함수는 모두 하나의 동일한 장면에서 모든 이미지에 대해 동일한 형상을 가질 수 있으므로, 이는 폐기되어야 하고, 이는 아이덴티티 부울(Boolean) FID가 "예" 또는 "1"임을 발견하는 수립자(703)에 의해 도시된다. 이어서, 실제로 새로운 함수가 판독될 때까지 단순히 다음 함수가 판독된다(예를 들어, 용에 대한 함수는 예전 함수이고, 도 3의 햇빛이 비치는 곳(302)에 대한 함수는 새로운 함수임).
서브범위 아이덴티티 회로(710)는 실질적으로 모든 입력 루마 값(Y_in)에 대한 출력 값(DEL)의 차이를 계산한다. 차이가 있는 적어도 하나의 외부 구역(예를 들어, 그래픽 범위 아래), 및 출력 아이덴티티가 있는 중간 범위(R_id)를 찾는 것이 제안된다. 이 범위의 하단 루마(Yb)와 상단 루마(Yt)를 결정할 수 있다. 이는 이차 그래픽을 혼합하기에 적합한 식별된 그래픽 범위(R_gra)의 최종 하위 및 상위 루마로 출력될 수 있으며, 그렇지 않을 수도 있다. 통상적으로, 그래픽 범위 결정 회로(720)는 함수 결정 하위 루마(Y_lowfu) 및 함수 결정 상위 루마(Y_highfu)를 출력하기 전에 추가 분석을 수행할 수 있다. 이는 설명된 바와 같이, 예를 들어, 상위 루마가 통상적인 범위에 속하는지, 즉, (점선, 따라서 선택적인) 범위 공급 회로(740)로부터의 통상적인 상위 HighTyp보다 낮은지 여부를 체크하는 것에 기반할 수 있다. 통상적인 하위 루마(LowTyp)에 관해서도 동일한 사항이 발생할 수 있다. 본 발명자들이 5000 니트 마스터 HDR 이미지를 갖는 경우, 약 5000 니트의 그래픽 범위를 찾는 것은 아마도 양호한 그래픽 범위가 아닐 것인데, 그 이유는 이 그래픽이 몇몇 시청자에 의해 너무 밝다고 여겨지기 때문이다. 실시형태는 분석이 실패하는 경우 가능하고, 예를 들어 결정된 Yt는 HighTyp보다 훨씬 높고 Y_highfu에 대해 일부 평균적으로 잘 작동하는 값을 제안하지만, 일반적으로 에러 조건(ERR2)을 초래할 것이다. 또한, 중간 범위의 아이덴티티(R_id)를 갖지 않는 곡선이 통신될 수 있고, 이 경우 다시 에러 조건으로 내몰릴 수 있다(제1 에러 조건(ERR)). 본 발명자들은 단순화를 위해 그래픽 범위가 그 범위 내의 모든 포인트에 대한 두 곡선 모두에 대해 정확히 동일한 맵핑임을 나타냈지만, 일반적으로 이는 소정 허용오차(예를 들어, 최대 휘도 편차 10%) 내인 경우 유사한 것으로 여겨지도록 완화될 수 있다.
도 5로 돌아가면, 이러한 상황에서, 통합 논리 회로부(515)는 루마 맵핑 함수 분석 유닛(512)으로부터의 하위 및 상위 루마의 입력을 사용할 수 없다. 다른 경우에, Y_highfu 및 Y_high_ima의 유사성을 체크할 수 있고, 이들이 가까운 값을 제공하면, 어느 값이든 사용할 수 있거나, 예를 들어 평균은 최종 상위 루마 값(Y_high) 등으로 사용된다. 또한 존재하는 경우, 메타데이터 추출기(513)에 의해 공급되는 메타데이터 기반 상위 값(Yhi)(그리고 존재하는 경우 또한 메타데이터 하위 루마(Y_lo), 존재하지 않는 경우에는 Y_hi의 백분율, 예를 들어, 대응하는 휘도(L_hi_met)의 1/3에 의해 대체될 수 있음)을 직접 사용할 수 있다. 어떤 경우든, 적어도 상위 루마(Y_high) 및 통상적으로 또한 하위 루마(Y_low)는 그래픽 생성 회로(520)에 통신될 것이고, 그에 따라 이는 이차 그래픽 요소의 컬러를 선택(또는 이미 사전 생성된 그래픽 요소가 혼합될 필요가 있는 경우 변환)할 때 이러한 루마를 고려할 수 있다. 설명된 바와 같이, 각각의 픽셀에 적합한 그래픽 루마(Y_gra)를 통상적으로 그래픽 범위(R_gra)에 속하거나, 너무 낮거나 위에 있지 않도록 결정한다. Y_gra의 실제 값은 어떤 그래픽 패턴이 픽셀 컬러 및 루마로서 포함되는지에 좌우될 것이고, 예를 들어 가장 어두운 컬러(Y_orig_graph_min)가 Y_low에 맵핑되고 기존 또는 공식화될 그래픽(Y_orig_graph_max)에서 가장 밝은 컬러가 Y_high에 맵핑되면, Y_orig_graph_min과 Y_orig_graph_max 사이의 픽셀 컬러는 Y_low와 Y_high 사이에서 비례(또는 비선형)적으로 맵핑될 수 있다.
마지막으로 이미지 혼합기(530)는 이미지에서 (실질적으로) 모든 픽셀에 대해, (혼합이 종종 선형 도메인에서 더 우아할 수 있으므로 그래픽 픽셀 휘도(Lgra)를 사용하거나, 예를 들어 혼합이 단순한 픽셀 대체로 이루어지는 경우 그래픽 픽셀 루마(Y_gra)를 사용하여) 그래픽의 컬러와 비디오 픽셀 컬러를 혼합할 것이다.
일부 실시형태(예를 들어 출력 도메인에서 혼합할 수 있는 것)에는 루마 맵퍼(533)가 존재할 수 있다(장치의 일부 실시형태는 출력 도메인에서만 혼합하거나 입력 도메인에서만 (잠재적으로 최종 루마 맵핑 이전에) 혼합하는 능력을 갖거나, 둘 모두를 수행하고 데지데라타에 따라 스위칭할 수 있음). 적합한 그래픽이 입력 도메인에 혼합된 경우, 용의 경우와 같은 휘도 맵핑 함수는 여전히 이차 그래픽 사전 혼합 이미지에 적용될 것이고, 이 함수는 상이한 최종 사용자 디스플레이 최대 휘도 능력에 따라 다양한 상이한 최종 사용자 디스플레이에 대해 스케일링될 수 있다. 그러나 현재의 혁신에 의해, 그래픽은 추가 휘도 맵핑을 거칠 때에도, 상대적으로 안정적일 것이다. 그러나 언급된 바와 같이, 본 발명자들은 임의의 함수의 출력 도메인, 즉, 도 3의 수직축에서도 혼합할 수 있지만, 이후 휘도 맵퍼는 적용될 휘도 맵핑 함수를 알 때 출력 그래픽 범위에서 혼합하는 방법을 알 것이다. 독자는 이것이 아직 적용되지 않은 향후 동적 맵핑(휘도 또는 상대 휘도를 유의하게 변화시킬 수 있음)이고, 이로 인해 블렌딩이 더 쉬워진다는 것을 여전히 이해해야 한다. 통상적인 애플리케이션은 예를 들어 최종 사용자 tv가 최종 블렌딩을 수행하기 위해 사전 조정된 그래픽을 출력 도메인(예를 들어, PQ로 코딩될 수 있음)으로 송신할 것이다.
픽셀에 대해 혼합 휘도(Lmix_fi)(또는 통상적으로 이를 코딩하는 루마)를 갖는 최종 혼합 출력 이미지(Im_out)는 이미지 또는 비디오 신호 출력(599)을 통해 공급될 것이다.
본 텍스트에 개시되는 알고리즘 구성요소는 실제로 하드웨어(예를 들어, 주문형 IC의 일부)로서 또는 특수 디지털 신호 프로세서 또는 범용 프로세서 등에서 실행되는 소프트웨어로서 (전체적으로 또는 부분적으로) 실현될 수 있다.
당업자는 본 발명자들의 설명으로부터 어느 구성요소가 선택적인 개선일 수 있고, 다른 구성요소와 조합하여 실현될 수 있는지 그리고 방법의 (선택적인) 단계가 장치의 각각의 수단에 어떻게 대응하는지 및 그 반대도 마찬가지라는 것을 이해할 수 있어야 한다. 본 출원에서 "장치"라는 단어는 그의 가장 넓은 의미, 즉 특정 목적의 실현을 가능하게 하는 수단의 그룹으로 사용되고, 따라서 예를 들어 IC(의 작은 회로 부분) 또는 전용 기기(예컨대, 디스플레이를 갖는 기기), 또는 네트워크 시스템의 일부 등일 수 있다. "배열"은 또한 가장 넓은 의미로 사용되도록 의도되어, 특히 단일 장치, 장치의 일부, 협력 장치의 집합(부분) 등을 포함할 수 있다.
컴퓨터 프로그램 제품이라는 용어는 (중간 변환 단계, 예컨대 중간 언어로의 번역, 및 최종 프로세서 언어를 포함할 수 있는) 일련의 로딩 단계 후에 범용 또는 특수 목적 프로세서가 커맨드를 프로세서에 입력하고, 발명의 특징적인 함수 중 임의의 것을 실행하는 것을 가능하게 하는 커맨드의 집합의 임의의 물리적 실현을 포함하는 것으로 이해되어야 한다. 특히, 컴퓨터 프로그램 제품은 예를 들어 디스크 또는 테이프와 같은 캐리어 상의 데이터, 메모리에 존재하는 데이터, 유선 또는 무선 네트워크 연결을 통해 이동하는 데이터 또는 종이 상의 프로그램 코드로서 실현될 수 있다. 프로그램 코드 외에, 프로그램에 필요한 특징적인 데이터도 컴퓨터 프로그램 제품으로서 구현될 수 있다.
방법의 동작에 필요한 단계 중 일부, 예컨대 데이터 입력 및 출력 단계는 컴퓨터 프로그램 제품에서 설명되는 대신에 프로세서의 기능에 이미 존재했을 수 있다.
전술한 실시형태는 본 발명을 제한하는 것이 아니라 예시한다는 것에 유의해야 한다. 당업자가 제시된 예의 청구항의 다른 구역으로의 맵핑을 쉽게 실현할 수 있는 경우, 본 발명자들은 간소화를 위해 모든 이러한 옵션을 깊이 언급하지 않았다. 청구항에서 조합되는 바와 같은 본 발명의 요소의 조합 외에, 요소의 다른 조합이 가능하다. 요소의 임의의 조합이 단일 전용 요소에서 실현될 수 있다.
청구범위에서의 괄호 안의 임의의 참조 부호는 청구범위를 제한하도록 의도되지 않는다. "포함하는(comprising)"이라는 단어는 청구항에 열거되지 않은 요소 또는 양태의 존재를 배제하지 않는다. 요소에 선행하는 단수형 표현("a" 또는 "an")은 복수의 그러한 요소의 존재를 배제하지 않는다. 본 교시에서 장치의 유닛은 특정 실시형태에서 주문형 반도체(예를 들어, YCbCr과 같은 인입 픽셀 컬러에 기술적 컬러 수정을 적용하는 컬러 프로세싱 파이프라인) 상의 회로에 의해 형성될 수 있거나, 예를 들어 모바일 폰 내의 CPU 또는 GPU에서 실행되는 소프트웨어 정의 알고리즘일 수 있거나, FPGA에서 실행될 수 있거나 하는 식이다. 통상적으로 계산 하드웨어, 즉 범용 비트 프로세싱 계산기 또는 특정 디지털 프로세싱 유닛은 소정 회로에 온보드되거나, 오프 보드되거나, 디지털 버스를 통해 연결되거나 하는 식일 수 있는 메모리 유닛에 연결되는 동작 커맨드의 제하 하에 있을 것이다. 이러한 계산기 중 일부는 예를 들어 디스플레이의 패널 제어기, 또는 장기간 저장을 위한 하드 디스크 제어기 등과 같은 더 큰 장치에 직접 연결될 수 있거나, 예를 들어 블루레이 디스크 또는 USB 스틱과 같은 물리적 매체에 연결될 수 있다. 기능 중 일부는 네트워크를 통해 다양한 장치에 걸쳐 분산될 수 있고, 예를 들어 일부 계산은 클라우드 등의 서버에서 수행될 수 있다.

Claims (16)

  1. 디지털 이미지를 프로세싱하기 위한 회로에서 적어도 하나의 고 동적 범위(high dynamic range) 입력 이미지(206)와 혼합될 이차 그래픽 이미지 요소(216)의 픽셀의 제2 루마(luma)를 결정하는 방법으로서, 상기 방법은,
    상기 적어도 하나의 고 동적 범위 입력 이미지를 포함하는 고 동적 범위 이미지 신호(S_im)를 수신하는 단계를 포함하고, 상기 방법은,
    - 상기 고 동적 범위 입력 이미지의 휘도의 범위의 서브범위인, 상기 적어도 하나의 고 동적 범위 입력 이미지의 일차 그래픽 요소의 일차 그래픽 루마의 범위(R_gra)를 결정하기 위해 상기 고 동적 범위 이미지 신호를 분석하는 단계 - 상기 일차 그래픽 루마의 범위를 결정하는 것은 상기 일차 그래픽 루마의 범위(R_gra)의 엔드포인트를 특정하는 하위 루마(Y_low) 및 상위 루마(Y_high)를 결정하는 것을 포함함 -;
    - 상기 그래픽 루마의 범위에 포함된 픽셀 루마의 적어도 가장 밝은 서브세트와 상기 이차 그래픽 요소를 휘도 맵핑하는 단계; 및
    - 상기 이차 그래픽 이미지 요소를 상기 고 동적 범위 입력 이미지와 혼합하는 단계를 포함하는 것을 특징으로 하는, 방법.
  2. 제1항에 있어서, 상기 고 동적 범위 이미지 신호를 분석하는 단계는 상기 고 동적 범위 입력 이미지에서 하나 이상의 일차 그래픽 요소를 검출하는 단계, 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마를 수립하는 단계, 및 상기 루마를 상기 하위 루마(Y_low) 및 상기 상위 루마(Y_high)로서 요약하는 단계를 포함하고, 상기 하위 루마는 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 낮고 상기 고위 루마는 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 높은, 방법.
  3. 제1항에 있어서, 상기 고 동적 범위 이미지 신호를 분석하는 단계는 메타데이터로서 상기 고 동적 범위 이미지 신호에 기록된 상기 하위 루마(Y_low) 및 상기 상위 루마(Y_high)의 값을 상기 고 동적 범위 이미지 신호 내의 메타데이터로부터 판독하는 단계를 포함하는, 방법.
  4. 제1항에 있어서, 상기 고 동적 범위 이미지 신호를 분석하는 단계는 상기 고 동적 범위 이미지 신호 내의 메타데이터로부터 시간적으로 연속적인 이미지와 연관된 2개 이상의 루마 맵핑 함수를 판독하는 단계 및 상기 그래픽 루마의 범위를 상기 2개 이상의 맵핑 함수에 관한 제1 조건을 충족하는 범위로서 수립하는 단계를 포함하고, 상기 2개 이상의 루마 맵핑 함수는 이 그래픽의 범위 내의 입력 루마를 대응하는 출력 루마에 맵핑하고 상기 제1 조건은 각각의 입력 루마에 대해, 상기 2개 이상의 루마 맵핑 함수로부터의 각각의 맵핑 함수를 상기 입력 루마에 적용함으로써 획득 가능한 그의 대응하는 2개 이상의 출력 루마가 실질적으로 동일하다는 것인, 방법.
  5. 제4항에 있어서, 상기 그래픽 루마의 범위는 적합한 그래픽 루마의 이차 범위 내에 속한다는 제2 조건의 검증을 만족하고, 상기 이차 범위의 최대치는 이미지와 그래픽을 혼합하는 범위의 최대치의 사전-고정된 백분율보다 낮아야 하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 방법은 상기 적어도 하나의 고 동적 범위 입력 이미지의 픽셀 루마를 적어도 하나의 대응하는 출력 이미지의 대응하는 출력 루마에 루마 맵핑하는 단계를 포함하고, 상기 혼합은 상기 고 동적 범위 이미지 신호의 메타데이터로부터 획득된 적어도 하나의 루마 맵핑 함수로 상기 픽셀 루마를 맵핑함으로써 상기 적어도 하나의 대응하는 출력 이미지에서 발생하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 인간의 눈에 일부는 평균을 초과하여 밝게 보이고 일부는 평균 미만으로 어둡게 보이는, 상이한 밝기의 컬러의 스케일에 걸쳐 있는 컬러 세트로 상기 이차 그래픽 이미지 요소를 결정하는 단계를 포함하고, 적어도 평균을 초과하는 밝은 컬러가, 상기 그래픽 루마의 범위 내의 루마를 갖는 상기 적어도 하나의 고 동적 범위 입력 이미지로 혼합되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 혼합은 픽셀 대체, 또는 상기 적어도 하나의 고 동적 범위 입력 이미지의 픽셀 휘도의 50% 미만의 백분율(30% 이하의 백분율이 바람직함)로 블렌딩하는 것으로 이루어지는, 방법.
  9. 제7항에 있어서, 상기 컬러 세트의 결정은 바람직하게는 상기 하위 루마의 70%보다 높은 상기 하위 루마의 백분율인 이차 하위 루마를 초과하는 루마를 갖는 상대적으로 밝은 평균 미만의 어두운 컬러의 제한된 세트를 선택하는 것을 포함하는, 방법.
  10. 이차 그래픽 이미지 요소(216)의 픽셀의 제2 루마를 결정하고 상기 이차 그래픽 이미지 요소를 일차 그래픽 요소(207)를 포함하는 적어도 하나의 고 동적 범위 입력 이미지(206)와 혼합하기 위한 장치(500)로서, 상기 장치는,
    - 상기 적어도 하나의 고 동적 범위 입력 이미지를 포함하는 고 동적 범위 이미지 신호(S_im)를 수신하기 위한 입력(501);
    - 상기 고 동적 범위 입력 이미지의 휘도의 범위의 서브범위인, 일차 그래픽을 표현하는 픽셀의 루마를 특정하는 범위인 상기 적어도 하나의 고 동적 범위 입력 이미지의 그래픽 루마의 범위(R_gra)를 결정하기 위해 상기 고 동적 범위 이미지 신호를 분석하도록 배열된 이미지 신호 분석 회로(510) - 상기 그래픽 루마의 범위를 결정하는 것은 일차 그래픽 루마의 범위(R_gra)의 엔드포인트를 특정하는 하위 루마(Y_low) 및 상위 루마(Y_high)를 결정하는 것을 포함함 -;
    - 상기 이차 그래픽 요소를 생성 또는 판독하고, 이를 상기 그래픽 루마의 범위에 포함된 픽셀 루마의 적어도 가장 밝은 서브세트와 휘도 맵핑하도록 배열된 그래픽 생성 회로(520);
    - 상기 이차 그래픽 이미지 요소를 상기 고 동적 범위 입력 이미지와 혼합하여, 혼합 휘도(Lmax_fi)를 갖는 픽셀을 산출하도록 배열된 이미지 혼합기(530); 및
    - 상기 혼합 휘도(Lmax_fi)를 갖는 픽셀을 포함하는 적어도 하나의 혼합 이미지(Im_out)를 출력하기 위한 출력(599)을 포함하는, 장치(500).
  11. 제10항에 있어서, 상기 이미지 신호 분석 회로(510)는 이미지 그래픽 분석 회로(511)를 포함하고, 상기 이미지 그래픽 분석 회로(511)는,
    - 상기 고 동적 범위 입력 이미지에서 하나 이상의 일차 그래픽 요소를 검출하고,
    - 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마를 수립하고,
    - 상기 루마를 상기 하위 루마(Y_low) 및 상기 상위 루마(Y_high)로서 요약하도록 배열되고, 상기 하위 루마는 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 낮고 상기 고위 루마는 상기 하나 이상의 일차 그래픽 요소의 픽셀의 루마의 전부 또는 대부분보다 높은, 장치.
  12. 제10항에 있어서, 상기 이미지 신호 분석 회로(510)는 상기 고 동적 범위 이미지 신호 내의 메타데이터로부터 상기 고 동적 범위 이미지 신호의 메타데이터에 기록된 상기 하위 루마(Y_low) 및 상기 상위 루마(Y_high)의 값을 판독하도록 배열된 메타데이터 추출 회로(513)를 포함하는, 장치.
  13. 제10항에 있어서, 상기 이미지 신호 분석 회로(510)는 상기 고 동적 범위 이미지 신호(S_im) 내의 메타데이터로부터 시간적으로 연속적인 이미지의 2개 이상의 루마 맵핑 함수(LMF(t), LMF_p)를 판독하고 상기 그래픽 루마의 범위를 상기 2개 이상의 루마 맵핑 함수에 관한 제1 조건을 충족하는 범위(R_id)로서 수립하도록 배열된 루마 맵핑 함수 분석 유닛(512)을 포함하고, 상기 2개 이상의 루마 맵핑 함수는 이 그래픽의 범위 내의 입력 루마를 대응하는 출력 루마에 맵핑하고 상기 제1 조건은 각각의 입력 루마에 대해, 상기 2개 이상의 루마 맵핑 함수로부터의 각각의 맵핑 함수를 상기 입력 루마에 적용함으로써 획득 가능한 그의 대응하는 2개 이상의 출력 루마가 실질적으로 동일하다는 것인, 장치.
  14. 제10항에 있어서, 상기 이미지 혼합기(530)는 상기 적어도 하나의 고 동적 범위 입력 이미지의 동적 범위와 상이한 최대 휘도와 같은, 동적 범위를 갖는 적어도 하나의 대응하는 출력 이미지의 대응하는 출력 루마에 상기 적어도 하나의 고 동적 범위 입력 이미지의 픽셀의 루마를 맵핑하도록 배열되고, 상기 고 동적 범위 이미지 신호의 메타데이터로부터 획득된 적어도 하나의 루마 맵핑 함수에 따라, 상기 적어도 하나의 대응하는 출력 이미지에서 상기 혼합을 수행하도록 배열된 루마 맵퍼(533)를 포함하는, 장치.
  15. 제10항에 있어서, 상기 그래픽 생성 회로(520)는 인간의 눈에 일부는 평균을 초과하여 밝게 보이고 일부는 평균 미만으로 어둡게 보이는, 상이한 밝기의 컬러의 스케일에 걸쳐 있는 컬러 세트로 상기 이차 그래픽 이미지 요소를 설계하도록 배열되고, 적어도 평균을 초과하는 밝은 컬러가, 상기 그래픽 루마의 범위 내의 루마를 갖는 상기 적어도 하나의 고 동적 범위 입력 이미지로 혼합되는, 장치.
  16. 제10항에 있어서, 상기 이미지 혼합기(530)는 이차 그래픽 요소 픽셀에 의한 상기 적어도 하나의 고 동적 범위 입력 이미지의 비디오 픽셀의 픽셀 대체에 의해, 또는 상기 적어도 하나의 고 동적 범위 입력 이미지의 픽셀 휘도의 50% 미만의 백분율(30% 이하의 백분율이 바람직함)로 블렌딩함으로써 혼합하도록 배열되는, 장치.
KR1020247008922A 2022-05-24 2023-05-09 Hdr 이미지 중 이차 그래픽 요소의 혼합 KR20240042533A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP22175149.8 2022-05-24
EP22175149.8A EP4283459A1 (en) 2022-05-24 2022-05-24 Mixing secondary graphics elements in hdr images
PCT/EP2023/062204 WO2023227360A1 (en) 2022-05-24 2023-05-09 Mixing secondary graphics elements in hdr images

Publications (1)

Publication Number Publication Date
KR20240042533A true KR20240042533A (ko) 2024-04-02

Family

ID=81846375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247008922A KR20240042533A (ko) 2022-05-24 2023-05-09 Hdr 이미지 중 이차 그래픽 요소의 혼합

Country Status (6)

Country Link
EP (2) EP4283459A1 (ko)
KR (1) KR20240042533A (ko)
CN (1) CN118103810A (ko)
CA (1) CA3231693A1 (ko)
CO (1) CO2024003767A2 (ko)
WO (1) WO2023227360A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9584786B2 (en) * 2014-03-05 2017-02-28 Dolby Laboratories Licensing Corporation Graphics blending for high dynamic range video
PL3324629T3 (pl) 2014-05-28 2019-11-29 Koninklijke Philips Nv Sposoby i urządzenia do kodowania obrazów hdr oraz sposoby i urządzenia do wykorzystania tak zakodowanych obrazów
EP3371976A1 (en) * 2015-11-02 2018-09-12 Dolby Laboratories Licensing Corp. Layered representation containing crc codes and delivery of high dynamic range video
CN109219844B (zh) * 2016-05-27 2021-08-20 杜比实验室特许公司 在视频优先级与图形优先级之间转换
EP3451677A1 (en) * 2017-09-05 2019-03-06 Koninklijke Philips N.V. Graphics-safe hdr image luminance re-grading

Also Published As

Publication number Publication date
EP4283459A1 (en) 2023-11-29
CN118103810A (zh) 2024-05-28
WO2023227360A1 (en) 2023-11-30
EP4371002A1 (en) 2024-05-22
CA3231693A1 (en) 2023-11-30
CO2024003767A2 (es) 2024-04-08

Similar Documents

Publication Publication Date Title
US10057600B2 (en) Brightness region-based apparatuses and methods for HDR image encoding and decoding
CN109219961B (zh) 对hdr视频进行编码和解码的方法和装置
US11887285B2 (en) Encoding and decoding HDR videos
US20210174761A1 (en) Optimizing high dynamic range images for particular displays
EP3381179B1 (en) Handling multiple hdr image sources
RU2687267C2 (ru) Оптимизация изображений с расширенным динамическим диапазоном для определенных дисплеев
CN109064433B (zh) 改进的hdr图像编码和解码方法及设备
JP5911643B2 (ja) 色制約付きの輝度変更画像処理
CN110741624B (zh) 用于hdr(解码)编码的色域映射
CN111699507B (zh) 一种发光亮度处理器及方法、高动态范围视频编码器、解码器及编码***
JP2019512953A (ja) ダイナミックレンジマッピングのための飽和処理仕様
US20200193935A1 (en) Graphics-safe hdr image luminance re-grading
JP6831389B2 (ja) 複数のhdr画像ソースの処理
KR20240042533A (ko) Hdr 이미지 중 이차 그래픽 요소의 혼합
EP4277281A1 (en) Hdr video reconstruction by converted tone mapping