KR20050013630A

KR20050013630A - 압축된 멀티미디어 컨텐트로부터 해시들을 발생하는 방법

Info

Publication number: KR20050013630A
Application number: KR10-2004-7021157A
Authority: KR
Inventors: 아놀더스 더블유. 제이. 오멘; 안토니우스 에이. 씨. 엠. 칼커; 야코부스 미델잔스; 잽 에이. 하이츠마
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-06-24
Filing date: 2003-06-12
Publication date: 2005-02-04
Also published as: US20050259819A1; EP1518414A1; CN1663281A; AU2003239732A1; WO2004002162A1; JP2005531024A; CN100380975C

Abstract

멀티미디어 신호를 나타내는 해시 신호를 발생하기 위한 방법 및 장치가 개시된다. 상기 방법은 압축된 멀티미디어 신호를 포함하는 비트-스트림을 수신하는 단계, 미리결정된 파라미터들을 비트-스트림으로부터 선택적으로 판독하는 단계, 파라미터들로부터 해시 함수를 도출하는 단계를 포함한다.

Description

압축된 멀티미디어 컨텐트로부터 해시들을 발생하는 방법{Method for generating hashes from a compressed multimedia content}

해시 함수들은 일반적으로 대량의 데이터를 요약 및 검증하도록 사용되는 암호 분야에서 사용된다. 예를 들어, MIT(Massachusetts Institute of Technology)의 R L Rivest 교수에 의해 개발된 MD5 알고리즘은, 입력으로서 임의 길이의 메시지를 갖고, 출력으로서 128비트의 입력의 "핑거 프린트", "서명", 또는 "해시"를 생성한다. 두개의 상이한 메시지들이 동일한 해시를 갖는 것은 통계적으로 거의 불가능하다는 점이 추측된다. 따라서, 그런 암호 해시 알고리즘들은 데이터 무결성을 검증하는 유용한 방법이다.

다수의 응용들에 있어서, 오디오 및/또는 비디오 컨텐트를 포함하는 멀티미디어 신호들의 식별이 바람직하다. 그러나, 멀티미디어 신호들은 다양한 파일 형식들로 빈번하게 전송될 수 있다. 예를 들어, WAV, MP3, 및 윈도우 미디어 등의 오디오 파일들에 대해, 여러가지 상이한 파일 형식들뿐 아니라 다양한 압축이나 품질 레벨들이 존재한다. MD5와 같은 암호 해시들은 2진 데이터 형식에 기초하고,따라서 동일한 멀티미디어 컨텐트의 상이한 파일 형식들에 대해 상이한 해시 값들을 제공할 것이다. 동일한 컨텐트의 상이한 품질 버전들은 동일하거나 적어도 유사한 해시들을 생성하는 것이 요구되기 때문에, 상기는 암호 해시들이 멀티미디어 데이터를 요약하는데 적합하지 않게 한다.

데이터 처리에 대해 비교적 불변하는 멀티미디어 컨텐트의 해시들은(상기 처리가 용인가능한 컨텐트 품질을 유지하는 한), 강한 요약들, 강한 서명들, 강한 핑거프린트들, 지각 해시들, 또는 강한 해시들로 언급된다. 강한 해시들은 HAS(Human Auditory System) 및/또는 HVS(Human Visual System)에 의해 감지된 오디오-비쥬얼 컨텐트 중 지각적으로 본질적인 부분들을 캡쳐한다.

강한 해시의 한가지 정의는, HAS/HVS에 의해 감지된 컨텐트 유사성에 관해 연속인 반-고유 비트-시퀀스를 멀티미디어 컨텐트의 매 기본 시간-단위와 연관하는 함수라는 것이다. 즉, HAS/HVS가 매우 유사한 오디오, 비디오, 또는 이미지 중 두 개를 식별한다면, 연관된 해시들 또한 매우 유사할 것이다. 특히, 원컨텐트와 압축 컨텐트의 해시들은 유사할 것이다. 한편, 두 신호들이 실제로 상이한 컨텐트를 나타낸다면, 강한 해시는 두 신호들(반(semi)-고유(unique))을 구별할 수 있을 것이다. 따라서, 강한 해싱은 많은 응용들에 기본인 컨텐트 식별을 가능하게 한다.

2001년 9월에 이탈리아 브레시아에서 열린 컨텐트 기반 멀티미디어 인덱싱 2001에서, Jaap Haitsma, Ton Kalker, 및 Job Oostveen에 의한 논문 "컨텐트 식별을 위한 강한 오디오 해싱"은 강한 오디오 해싱 기술과, 컨텐트를 해싱하고 그것을 강한 해시 값들의 데이터베이스와 비교함으로써 비공지된 오디오 컨텐트가 식별되게 하는 기술을 포함하는 체계를 기술한다.

제안된 기술은 오디오 신호의 기본 윈도 시간 간격들(basic windowed time intervals)에 대해 강한 해시 값을 계산한다. 따라서, 오디오 신호가 프레임들로 분할되고, 이 후 각 시간 프레임의 스펙트럼 표현이 푸리에 변환에 의해 계산된다. 상기 기술은 HAS의 작용을 흉내내는 강한 해시 함수를 제공하고자 하는 것이고, 즉, 상기 기술은 수신자에 의해 감지될 오디오 신호의 컨텐트를 흉내내는 해시 값을 제공한다.

도 1에 도시된 바와 같은 해싱 기술에 있어서, 인코딩된 오디오 신호를 포함하는 비트-스트림은 비트-스트림 디코더(110)에 의해 수신된다. 비트-스트림 디코더는 오디오 신호를 생성하도록, 비트-스트림을 완전히 디코딩한다. 이 오디오 신호는 이 후, 프레이밍 유닛(framing unit;120)에 전송된다. 프레이밍 유닛은 오디오 신호를 일련의 기본 윈도 시간 간격들로 분할한다. 양호하게, 후속 프레임들로부터의 결과 해시 값들이 매우 유사하도록, 시간 간격들을 오버랩한다.

윈도 시간 간격 신호들 각각은 이 후, 각 시간 윈도에 대한 푸리에 변환을 계산하는 푸리에 변환 유닛(130)으로 전송된다. 절대값 계산 유닛(140)은 이 후, 푸리에 변환의 절대값을 계산하도록 사용된다. HAS는 위상에 비교적 둔감하기 때문에 상기 계산이 실행되고, 스펙트럼 절대값은 사람의 귀로 들을 수 있는 톤에 대응하므로 상기 절대값만이 보유된다.

주파수 스펙트럼 내의 미리결정된 일련의 주파수 대역들 각각에 대해 별개의 해시 값의 계산을 허용하기 위해서, 선택기들(151,152,...,158,159)이 원하는 대역들에 대응하는 푸리에 계수들을 선택하도록 사용된다. 각 대역에 대한 푸리에 계수들은 이 후, 개개의 에너지 계산 단계들(161,162,...,168,169)에 전송된다. 각각의 에너지 계산 단계는 이 후, 주파수 대역들 각각의 에너지를 계산하고, 그 후 해시 비트(H(n,x), 여기서 x는 개개의 주파수 대역에 대응하고, n은 관련 시간 프레임 간격에 대응)를 계산하고 출력(180)에 송신하는 비트 도출 회로(170)에 계산된 에너지를 전송한다. 가장 간단한 경우, 비트들은, 에너지가 미리결정된 임계보다 큰지를 나타내는 부호일 수 있다. 단일 시간 프레임에 대응하는 비트들을 대조함으로써, 해시 워드가 각 시간 프레임에 대해 계산된다.

유사하게, 2001년 8월 3일에 미국 샌디에고에서 열린 SPIE 디지털 이미지 처리의 응용들 XXIV에서, J.C.Oostveen, A.A.C.Kalker, J.A.Haitsma에 의한 논문 "디지털 비디오의 비쥬얼 해싱:응용들 및 기술들"은 동영상 시퀀스로부터 본질적인 직각 특징들을 추출하고, 짧은 세그먼트의 해시 값을 미리결정된 해시 값들의 대형 데이터베이스와 효과적으로 매칭함으로써 충분히 긴 비공지 비디오 세그먼트를 식별하는 기술을 설명한다.

상기 기술은 비쥬얼 해싱에 관한 것이기 때문에, 지각 특징들은 HVS에 의해 보여질 특징들에 관한 것이고, 즉, 그것은 HVS에 의해 동일한 것으로 고려된 컨텐트에 대해 동일(또는 유사)한 해시 신호를 생성하고자 한다. 제안된 알고리즘은 화소 블록들 상에서 계산된 휘도 성분이나, 대안적으로 크로미넌스 성분들 중 하나로부터 추출된 특징들을 고려한다.

전술된 오디오 및 비쥬얼의 강한 해싱 체계들 양자에서, 각각의 정보(오디오또는 비쥬얼) 신호는 프레임들로 분할된 비트 스트림으로부터 디코딩되고, 이 후, 지각 특징들은 해시 신호를 계산하도록 프레임들로부터 추출되고 계산된다.

본 발명은 멀티미디어 신호를 나타내는 해시 신호를 발생하는데 적합한 방법 및 장치에 관한 것이다.

도 1은 비트-스트림으로 인코딩된 오디오 신호로부터 해시 신호를 추출하기 위해 공지된 배열의 개략적인 다이어그램.

도 2는 본 발명의 실시예에 따라, 인코딩된 멀티미디어 신호로부터 해시 신호를 추출하기 위한 배열의 개략적인 다이어그램.

본 발명의 일반적인 목적은 강한 해싱 기술을 제공하는 것이다.

또한, 본 발명의 목적은 비트-스트림으로 인코딩된 멀티미디어 신호의 해시를 결정하기 위한 방법 및 배열을 제공하는 것이다.

제1 양상에서, 본 발명은 멀티미디어 신호를 나타내는 해시 신호를 발생하는 방법을 제공하는 것으로, 상기 방법은: 압축된 멀티미디어 신호를 포함하는 비트-스트림을 수신하는 단계; 미리결정된 파라미터들을 상기 비트-스트림으로부터 선택적으로 판독하는 단계; 및 상기 파라미터들로부터 해시 함수를 도출하는 단계를 포함한다.

제2 양상에서, 본 발명은 멀티미디어 신호를 나타내는 해시 신호를 제공하는 것으로, 상기 해시 신호는 멀티미디어 신호의 압축된 버전을 포함하는 비트-스트림으로부터 멀티미디어 신호의 지각 특성들에 관한 미리결정된 파라미터들을 선택적으로 판독함으로써 발생된다.

또다른 양상에서, 본 발명은 멀티미디어 신호를 나타내는 해시 신호를 발생하도록 배열된 장치를 제공하는 것으로, 상기 장치는: 압축된 멀티미디어 신호를 포함하는 비트-스트림을 수신하도록 배열된 수신기; 미리결정된 파라미터들을 상기 비트 스트림으로부터 선택적으로 판독하도록 배열된 디코더; 상기 파라미터들로부터 해시 함수를 도출하도록 배열된 처리 유닛을 포함한다.

본 발명의 또다른 특징들은 종속 청구항들에 규정된다.

본 발명의 보다 나은 이해와, 본 발명의 실시예들이 실시될 수 있는 방법을 도시하기 위해, 예로서, 첨부한 개략 도면들이 참조될 것이다.

종래의 강한 해싱 체계들은, 개개의 정보 신호가 인코딩된 신호(즉, 비트-스트림)로부터 디코딩되고, 디코딩된 정보 신호는 관련 지각 정보를 추출하도록 샘플링되는 것을 요구한다. 이 지각 정보는 이 후, 해시 함수를 결정하도록 이용된다.

본 발명자들은 전송 신호의 완전한 디코딩이 불필요한 발명을 구현했다. 대신 다수의 예들에서, 해시 함수는 비트-스트림 표현들로부터 직접 결정될 수 있다.

멀티미디어 신호들은 일반적으로 정보 소스들을 효과적으로 설명하기 위해 소스 코딩을 사용하여 인코딩된다. 소스 코딩된 데이터는 이 후, 비트-스트림에 효과적으로 전송될 수 있다.

디코딩시 멀티미디어 신호가 인식가능 하도록, 인코딩된 신호는 멀티미디어 신호의 지각 특징들에 관한 정보를 포함해야 한다. 예를 들어, 변환, 서브대역, 및 파라메트릭 인코딩된 오디오 신호들은 오디오 신호의 스펙트럼 표현들을 모두포함한다.

그런 지각 정보는 인코딩된 멀티미디어 신호를 포함하는 비트-스트림으로부터 추출되고, 전체 비트-스트림 신호를 디코딩하지 않고 해시 함수를 계산하도록 직접 사용될 수 있다는 점이 구현되었다. 이것은, 비교적 복잡한 인코딩된 비트-스트림의 디코딩 연산과, 디코딩된 멀티미디어 신호의 스팩트럼 표현(또는 다른 지각 특성)의 후속 도출을 요구하는 일반적인 해시 함수 계산들을 개선한다.

그 후, 미리결정된 대역 셋트 내의 각 대역에 대해, 어떤(반드시 스칼라이지 않음) 독특한 특성이 계산된다. 본 명세서에서, 대역들은 인코딩된 신호의 주파수 영역을 나타내는 하나 이상의 스펙트럼 값들을 갖는다는 점이 가정된다. 그런 특성들의 예들은 전력 스펙트럼 밀도의 에너지, 음질(tonality), 및 표준 편차이다. 일반적으로, 선택된 특성은 지각 계수들의 미리결정된 함수일 수 있다. 실험적으로, 에너지 차들의 부호(시간 및 주파수축을 따라 동시에)는 다양한 종류의 처리에 매우 강한 특성이라는 점이 검증되었다.

강한 특성들은 그 후 비트들로 변환되는데, 각 비트는 개개 프레임의 주파수 대역 내의 에너지 변화를 나타내고, 하나의 프레임의 모든 비트들은 상기 프레임에 대한 해시를 나타낸다.

도 2는 인코딩된 멀티미디어 신호를 포함하는 비트-스트림으로부터 직접 해시 함수를 계산하는데 적합한 장치를 도시한다. 장치의 동작은 이제, 변환 인코딩된 오디오 신호와 관련하여 기술될 것이다.

신호는 스펙트럼 분해(선택된 기본 셋트 내)에 관하여 기술되기 때문에, 변환 코더들은 일반적으로 스펙트럼 인코더들로 블린다. 스펙트럼 기간들은 입력 데이터의 연속 블록들은 오버랩(일반적으로 50% 오버랩)하기 위해 계산된다. 따라서, 변환 코더의 출력은, 하나의 시리즈가 각 스펙트럼 기간에 대한 것인, 시간 시리즈의 셋트로 보여질 수 있다.

따라서, 변환 코딩시, 입력 오디오 신호는 다수의 스펙트럼 계수들을 유발하면서 필터링될 것이다. 일반적으로, 이 계수들은 배율(scale-factor) 대역들로 표시되고, ERB-grid(Equivalent Rectangular Bandwidth grid)와 같은 비균일 주파수 분할과 유사한 주파수 대역들로 그룹화된다. 각 배율 대역에 대해, 하나의 배율은 스팩트럼 계수들을 스케일링하는 비트-스트림으로 인코딩된다. 결과 스펙트럼 계수들은 지각 모델에 따라 양자화되고, 이 후 비트-스트림 표현으로 인코딩된다.

도 2는 그런 비트-스트림을 수신하도록 배열된 장치(200)의 개략적인 다이어그램을 도시한다. 비트-스트림은 선택적 비트-스트림 디코더의 입력에서 수신된다. 디코더(210)는 멀티미디어 신호의 미리결정된 파라미터들에 관한 비트-스트림으로부터 비트들을 선택적으로 추출하도록 배열된다. 이 미리결정된 파라미터들은 이 후, 해시 함수를 결정하도록 이용된다. 변환 인코딩된 오디오 신호에 대한 양호한 실시예에서, 배율 대역에 대한 배율들(및 선택적으로 스펙트럼 값들)은 비트-스트림으로부터 추출된다. 이 배율들과 스펙트럼 값들은 이 후, 에너지들을 획득하기 위해 처리된다. 대체로, 배율들만이 에너지들의 추정을 제공한다. 스펙트럼 값들도 고려된다면, 상기 추정들은 보다 정확하게 된다. 가장 간단한 경우, 상기 값들은 이 후, 해시 함수를 계산하도록 이용된다.

그러나, 양호한 실시예에서, 상기 값들은 이 후, 계산 유닛들(260,261,...,2631,2632)에 전송된다. 각 계산 유닛은 별개의 ERB 주파수 대역에 대응하고, 배율 대역에 대한 디코딩된 배율들로부터(및 선택적으로 스펙트럼 값들로부터) ERB 주파수 대역에 대한 에너지들의 추정을 도출하도록 사용된다. 양호한 실시예에서, ERB 대역들은, 제1 대역이 300Hz에서 시작하고, 연속 대역마다 최대 3000Hz의 주파수(HAS에 대한 최대 관련 주파수 범위)까지 한 음악 톤의 대역폭을 갖는 대수 스페이싱을 갖는다.

멀티미디어 신호의 각 프레임에 대해 2진 해시 워드를 도출하도록, 에너지들은 이 후, 비트들로 변환된다. 가능한 상이한 프레임들의 에너지들에 대한 임의 함수를 계산함으로써 비트들이 할당될 수 있고, 이 후 그것을 임계 값에 비교한다. 임계는 또한, 에너지 값들의 또다른 함수의 결과일 수 있다.

양호한 실시예에서, 비트 도출 회로(270)는 대역들의 에너지 단계들을 2진 해시 워드로 변환한다.

프레임 n의 대역 m의 에너지가 EB(n,m), 프레임 n의 해시 H의 m번째 비트가 H(n,m)으로 표시되면, 해시 스트링의 비트들은 이하와 같이 공식적으로 정의될 수 있다:

이 값들을 계산하도록, 각각의 대역에 대해, 비트 도출 회로(270)는 제1 감산기(271), 프레임 지연(272), 제2 감산기(273), 및 비교기(274)를 포함한다. 33개의에너지 단계들을 포함하는 양호한 실시예에서, 오디오 프레임의 스펙트럼에 대한 33개의 에너지 단계들은 32비트 해시 워드, 즉, H(n,m)로 변환된다. 별개의 해시 워드는 오디오 신호 내의 각 시간 프레임에 대해 계산되고, 전체 해시 함수를 형성하는 해시 워드들의 연관(concatenation)을 갖는다.

연속 프레임들의 상기 계산된 해시 워드들은 버퍼나 다른 메모리 저장장치들에 저장되고, 유사한 방식으로 계산된 해시 값들의 데이터베이스와 비교함으로써 비트-스트림으로 인코딩된 멀티미디어 신호를 일치시키도록 컴퓨터들에 의해 이용될 수 있다.

상기 실시예는 특정 형태의 코딩 체계를 참조하여 기술되지만, 지각 정보를 저장하는 임의의 코딩 체계에 적용될 수 있다는 점을 알게 될 것이다.

존재하는 모든 코딩 체계에 대해, "구문 기술(syntax description)"과 "디코더 기술(decoder description)"이 존재한다. 상기 기술들은 표준화되거나 권리화될 수 있다. 구문 기술은 비트-스트림의 구조와, 인코딩된 파라미터들을 비트-스트림에 기록하거나 인코딩된 파라미터들을 비트-스트림으로부터 추출(판독)하는 방법을 포함한다. 디코더 기술은 이 추출된 파라미터들을 디코딩하고, 이 후 멀티미디어 출력을 발생하는 방법을 기술한다. 따라서, 해당 특정 코딩 체계에 대해, 구문 기술을 사용하여, 원하는 지각 정보에 관한 원하는 특정 파라미터들을 위치발견(locate)하는 것이 가능하다. 따라서, 비트-스트림을 완전히 문장분석(parsing)하거나 디코딩하지 않고, 이 파라미터들이 추출될 수 있다.

예를 들어, 서브대역 코더들에 있어서, 인코딩 처리는 변환 코더들에서 이용된 것과 유사하다. 오디오 입력 신호는 제한된 수의 서브신호들을 유발하면서 필터링된다. 각각의 서브-신호는 고정된 크기의 주파수 대역 내 신호 값들을 나타낸다. 따라서, 획득된 서브-신호들은 이 후, 지각 모델에 따라 양자화되고, 그 후 비트-스트림 표현으로 인코딩된다. 신호 값들과, 상기 신호값들을 스케일링하는 배율들은 비트-스트림으로 인코딩된다.

따라서, 기술(記述)이 인코딩된 서브대역으로부터 해시 함수를 계산하도록, 서브대역에 대한 배율은 비트-스트림으로부터 추출된다. 선택적으로, 보다 정확한 에너지들의 추정이 요구된다면, 신호 값들, 즉, 실제(스케일링된) 스펙트럼 값들이 비트 스트림으로부터 추출된다. 추출된 파라미터들은 이 후, 에너지들로 변환된다. "임계(critical)" 대역에 대응하는 서브대역들 내의 에너지들은 이 후, 그룹화된다. 임계 대역들은 강한 해시들을 형성하기 위해 요구된 원하는 지각 정보를 포함하도록 결정된 미리결정된 주파수 대역들이다.

임계 대역이 서브대역 경계와 정확히 일치하지 않는 경우, 임계 대역 내의 에너지의 추정은 예컨대, 선형 보간(또는 임의의 다른 원하는 차수의 보간)을 사용하여, 예컨대, 서브대역 에너지의 분수 부분을 취함으로써 형성될 수 있다.

도 2와 관련하여 기술된 방법에서와 같이, 이 데이터는 이 후, 해시 함수를 계산하기 위해 비트 도출 회로에 전송될 수 있다. 변환 코딩과 유사하게, 이 배율들도 복잡성을 보다 감소시키도록 사용될 수 있다.

대안적으로, 오디오 신호가 과도현상(transients), 잡음, 및 사인곡선(sinusoids)으로 표현되는 파라메트릭 인코딩 체계는 필립스사에 의해 개발되었다.상기 체계는 2002년 5월 10-13일에 열린 제112회 AES Convention Munich에서, E.Schuijers, B.den Brinker, 및 W.Oomen에 의한 "고품질 오디오를 위한 파라메트릭 코딩" 논문의 예고 5554에 기술된다.

이 기술에 있어서, 스펙트럼 분석 방법들을 사용하여, 사인곡선 성분들이 추정된다. 미리결정된 시간 간격들에서, 상기 사인곡선 성분들은 오디오 신호 내에 존재하는 주파수들을 나타낸다. 양호한 체계에서, 사인곡선 파라미터들은 8ms마다 업데이트된다. 코딩 효율성을 위해, 사인곡선 주파수들은 대수 그리드와 유사한 ERB-그리드로 양자화된다. 양자화 후 획득된 표현 단계들은 이 후, 별도로 인코딩되고, 시간축 뿐만 아니라 주파수축 양자에서 비트-스트림 표현으로 인코딩된다.

파라메트릭 표현으로부터 해시 함수를 계산하도록, 파라메트릭 비트-스트림에 포함된 주파수들이 추출되고, 해시 연산을 위해 사용된 주파수 영역들 내로 그룹화된다. 그룹(즉, 주파수 대역) 내의 각 시간 프레임과 주파수에 대해, 진폭(선택적으로 위상 정보)은 주파수 그룹 내 모든 성분들의 에너지를 계산하도록 검색된다. 이 데이터는 이 후, 해시 함수를 계산하도록 사용될 수 있다.

저주파수들에 대해, 위상 정보는 사인곡선에 포함된 실제 전력에 영향을 끼치기 때문에, 위상 정보가 선택적으로 사용된다. 사인곡선의 시작 위상에 따라, 전력이 변동할 수 있다. 그 때문에, 특히 멀디미디어 신호가 다수의 저주파수 성분들을 포함하는 경우, 위상 정보를 포함하는 것은 적절할 수 있다.

파라메트릭 표현에서, 대부분의 오디오 신호 에너지는 사인곡선 성분들에 포함되기 때문에, 사인곡선 파라미터들만을 고려하는 해시 함수를 계산하는 것은 합리적이다. 그러나, 원한다면, 과도현상과 잡음 성분들에 포함된 에너지들의 영향도 이용될 수 있다.

각각의 과도현상 대상은 오직, 단일 시간 프레임 내에 존재한다. 사인곡선 대상에서와 동일한 방식으로, 과도현상 대상 내에 포함된 주파수들은, 주파수 대역 내의 전체 에너지에 기여하는 대응하는 진폭 및 위상 정보를 갖는 주파수 대역들로 그룹화된다. 과도현상 대상 내의 사인곡선들은 엔벨로프 함수로 가중되기 때문에, 성분에 대한 에너지를 결정하는 경우, 이 엔벨로프 함수도 고려될 필요가 있다.

잡음 신호 성분들에 포함된 에너지들의 산입(inclusion)은 덜 직선이고, 계산상 복잡성을 현저히 증가시킨다. 그러나, 잡음 신호의 주요 사인곡선 성분들을 집중시켜, 충분히 신뢰성 있는 특징 신호가 획득될 수 있고, 따라서 이 사인곡선 성분들로부터 해싱 워드의 구성을 허용한다.

명확히 기술되지 않은 다양한 구현들이 본 발명의 범위 내로 이해될 수 있다는 것을 당업자는 알 수 있을 것이다. 예를 들어, 해시 발생 장치의 기능만이 기술되었지만, 디지털 회로, 아날로그 회로, 컴퓨터 프로그램, 또는 이들의 조합으로 구현될 수 있다는 것을 알게 될 것이다.

동일하게, 상기 실시예들은 특정 형태의 인코딩 체계들을 참조하여 기술되지만, 본 발명은 다른 형태들의 인코딩 체계들, 특히, 멀티미디어 신호들의 전달시에 지각적으로 중요한 정보에 관한 계수들을 포함하는 체계들에 적용될 수 있다는 것을 알게 될 것이다.

다수의 인코딩 체계들은 멀티미디어 신호들을 미리결정된 시간 프레임들과,각 시간 프레임에 대한 지각 특징들의 블록들로 동시에 분할할 것이다. 예를 들어, 각 이미지에 대해, 비디오 신호는 정방형 화소 블록들로 분할될 것이다. 동일하게, 오디오 신호는 미리결정된 주파수 대역들로 분할될 것이다. 인코딩 체계에서 사용된 것들과 일치하지 않는 지각 특징들의 블록들 및/또는 시간 프레임들로부터 해시 함수를 계산하고자 하는 경우, 인코딩 체계에서 사용된 지각 블록들이나 시간 프레임들에 기초하여 원하는 지각 블록들 및/또는 시간 프레임들 내의 멀티미디어 신호 특성들을 추정하도록, 비트 스트림으로부터 추출된 지각 특징들에 관한 성분들에서 또다른 처리가 실행될 수 있다는 점을 알게 될 것이다.

독자들은 본 출원에 관련하여 본 명세서와 동시에 또는 이전에 출원되고, 본 명세서를 공개 열람하도록 공개된 모든 논문들 및 문서들과, 여기서 참조문헌으로 포함된 모든 논문들 및 문서들의 내용들에 주의한다.

본 명세서(첨부한 청구범위, 요약, 및 도면들 포함)에 개시된 모든 특징들, 및/또는 개시된 방법 또는 처리의 모든 단계들은, 적어도 일부의 상기 특징들 및/또는 단계들이 상호 배타적인 결합들을 제외하고, 임의의 결합으로 결합될 수 있다.

본 명세서(첨부한 청구범위, 요약, 및 도면들 포함)에 개시된 각 특징은, 달리 표현되지 않는다면, 동일, 동등, 또는 유사한 목적을 위해 대안적인 특징들로 대체될 수 있다. 따라서, 달리 표현되지 않는다면, 개시된 각 특징은 일반적인 일련의 동등하거나 유사한 특징들 중 하나의 예이다.

본 발명은 전술한 실시예(들)의 상세한 설명에 제한되지 않는다. 본 발명은본 명세서(첨부한 청구범위, 요약, 및 도면들 포함)에 개시된 특징들 중 신규한 특징 또는 신규한 결합이나, 개시된 방법 또는 처리 단계들 중 신규한 방법 또는 신규한 결합으로 확장한다.

본 명세서 내의 단어 "포함하다"는 다른 요소들이나 단계들을 배재하지 않고, "하나"라는 표현은 복수를 배제하지 않으며, 단일 프로세서 또는 다른 유닛은 청구범위에 인용된 일부 수단의 기능들을 이행할 것이라는 점을 알게 될 것이다.

Claims

멀티미디어 신호를 나타내는 해시(hash) 신호를 발생하는 방법에 있어서,

압축된 멀티미디어 신호를 포함하는 비트-스트림을 수신하는 단계;

미리결정된 파라미터들을 상기 비트-스트림으로부터 선택적으로 판독하는 단계; 및

상기 파라미터들로부터 해시 함수를 도출하는 단계를 포함하는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 미리결정된 파라미터들은 상기 멀티미디어 신호의 지각(perceptual) 정보에 관한, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 멀티미디어 신호는 오디오 신호, 비디오 신호, 및 이미지 신호 중 적어도 하나를 포함하는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 멀티미디어 신호는 변환 인코딩, 서브대역 인코딩, 및 파라메트릭(parametric) 인코딩 중 적어도 하나를 사용하여 압축되는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 미리결정된 파라미터들은 주파수 대역들의 에너지들; 주파수 대역들의 진폭들; 주파수 대역들의 음질(tonality); 비디오 신호 영역의 휘도; 및 비디오 신호 영역의 크로미넌스 중 적어도 하나에 관한, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 방법은 상기 멀티미디어 신호를 압축하도록 사용된 디코딩 체계를 결정하기 위해, 수신된 비트-스트림을 분석하는 단계를 더 포함하는, 해시 신호 발생 방법.
제 6 항에 있어서, 상기 분석 단계는 다수의 코딩 체계들의 특성들을 포함하는 데이터베이스와 상기 비트-스트림의 특성들을 비교하는 단계를 포함하는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 미리결정된 파라미터들은 선택적으로 판독하는 단계는:

구문 기술(syntax description)을 사용하여 상기 비트-스트림 내의 상기 미리결정된 파라미터들을 위치발견(locate)하는 단계;

상기 위치발견된 미리결정된 파라미터들을 판독하는 단계; 및

디코더 기술(decoder description)을 사용하여 상기 미리결정된 파라미터를 디코딩하는 단계를 포함하는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 미리결정된 파라미터들은 제1 주파수 대역 셋트에 관한 것이고, 상기 해시 함수를 도출하는 단계는 상기 미리결정된 파라미터들로부터 제2 주파수 대역 셋트 내에 존재하는 스펙트럼 정보 값들의 추정들을 도출하는 단계를 포함하며, 상기 해시 함수는 이 후 상기 추정된 값들로부터 계산되는, 해시 신호 발생 방법.
제 1 항에 있어서, 상기 멀티미디어 신호는 파라메트릭 인코딩 체계를 사용하여 압축되고, 상기 미리결정된 파라미터들은 상기 파라메트릭 체계 내에 이용된 사인곡선(sinusoidal) 성분들, 잡음 성분들, 및 과도현상(transient) 성분들 중 적어도 하나에 관한, 해시 신호 발생 방법.
제 1 항에 청구된 방법을 수행하도록 배열된 컴퓨터 프로그램.
제 11 항에 청구된 컴퓨터 프로그램을 포함하는 기록 캐리어.
제 11 항에 청구된 컴퓨터 프로그램의 다운로드를 유효하게 하는 방법.
멀티미디어 신호를 나타내는 해시 신호에 있어서, 상기 해시 신호는 상기 멀티미디어 신호의 압축된 버전을 포함하는 비트-스트림으로부터 상기 멀티미디어 신호의 지각 특성들에 관한 미리결정된 파라미터들을 선택적으로 판독함으로써 발생되는, 해시 신호.
멀티미디어 신호를 나타내는 해시 신호를 발생하도록 배열된 장치에 있어서,

압축된 멀티미디어 신호를 포함하는 비트-스트림을 수신하도록 배열된 수신기;

미리결정된 파라미터들을 상기 비트-스트림으로부터 선택적으로 판독하도록 배열된 디코더(210); 및

상기 파라미터들로부터 해시 함수를 도출하도록 배열된 처리 유닛(270)을 포함하는, 해시 신호 발생 장치.