KR20070045993A

KR20070045993A - 오디오 처리

Info

Publication number: KR20070045993A
Application number: KR1020060104966A
Authority: KR
Inventors: 윌리암 에드먼드 크랜스타운 켄티쉬; 니콜라스 존 헤인즈
Original assignee: 소니 유나이티드 킹덤 리미티드
Priority date: 2005-10-28
Filing date: 2006-10-27
Publication date: 2007-05-02
Also published as: GB0522051D0; EP1814105B1; US20070100483A1; JP2007171933A; CN1975859B; EP1814105A1; DE602006005893D1; US8041058B2; GB2431837A; US20120008803A1; CN1975859A

Abstract

페이로드 신호(payload signal)가 1차 오디오 신호에 삽입되어 있는 오디오 처리 장치는, 상기 페이로드 신호에 따라 노이즈 신호를 발생하는 동작을 하는 노이즈 발생기, 상기 1차 오디오 신호의 신호 레벨을 검출하는 레벨 검출기, 변조된 노이즈 신호를 발생하기 위해 상기 1차 오디오 신호의 상기 검출된 신호 레벨의 증가 또는 감소에 응답하여 상기 노이즈 신호의 상기 레벨을 각각 증가 또는 감소시키는 변조기, 상기 1차 오디오 신호와 상기 변조된 노이즈 신호를 합성하는 합성기, 및 신호 지연 소자를 포함하며, 상기 변조기는 상기 노이즈 신호의 상기 레벨의 감소가 상기 1차 오디오 신호의 상기 신호 레벨의 대응하는 감소에 대해 시간-전진되도록(time-advanced) 상기 신호 지연 소자에 대해 동작한다.

오디오 처리, 핑거프린팅, 워터마킹, 페이로드 신호, 의사 랜덤 노이즈

Description

오디오 처리{AUDIO PROCESSING}

도 1은 지문 인코더(fingerprint encoder)를 포함하는 디지털 시네마 구성을 개략적으로 나타낸 도면.

도 2는 지문 검출기를 개략적으로 나타낸 도면.

도 3은 지문 인코더의 동작의 개략적인 개요를 나타낸 도면.

도 4는 페이로드 발생기를 개략적으로 나타낸 도면.

도 5는 지문 스트림 발생기를 개략적으로 나타낸 도면.

도 6은 스펙트럼 분석기를 개략적으로 나타낸 도면.

도 7은 스펙트럼 추종기(spectrum follower)를 개략적으로 나타낸 도면.

도 8 내지 도 11은 엔벨로프 추종기(envelope follower)의 동작을 개략적으로 나타낸 도면.

도 12는 지문 검출기의 동작의 개략적인 개요를 나타낸 도면.

도 13은 시간 정렬 유닛(temporal alignment unit)의 동작의 일부를 나타낸 개략적인 플로우차트.

도 14는 블록들로 분할된 의심 자료 및 프록시 자료를 개략적으로 나타낸 도면.

도 15는 저역 통과 필터 구성을 개략적으로 나타낸 도면.

도 16은 문턱값 적용된 신호(thresholded signal)를 개략적으로 나타낸 도면.

도 17은 상관 동작을 개략적으로 나타낸 도면.

도 18은 전원 곡선을 개략적으로 나타낸 도면.

도 19는 디컨볼버(deconvolver) 훈련 동작을 개략적으로 나타낸 도면.

도 20은 크기 곡선을 개략적으로 나타낸 도면.

도 21은 문턱값 적용되고 보간된 크기 곡선을 개략적으로 나타낸 도면.

도 22는 도 19에 나타낸 프로세스의 중간 결과를 개략적으로 나타낸 도면.

도 23은 임펄스 응답을 개략적으로 나타낸 도면.

도 24는 평활화 곡선(smoothing curve)을 개략적으로 나타낸 도면.

도 25는 평활화된 임펄스 응답을 개략적으로 나타낸 도면.

도 26은 데이터 처리 장치를 개략적으로 나타낸 도면.

<도면의 주요 부분에 대한 부호의 설명>

400: 시간 정렬

410: 디컨볼버

440: 교차-정규화

460: 언쉐이퍼

470: 스펙트럼 분석

490: 지문 발생기

본 발명은 오디오 처리에 관한 것이다.

디지털 핑거프린팅(fingerprinting) 또는 워터마킹(watermarking)(이들을 합하여 용어 법의학 마킹(forensic marking)이라고 불리울 수 있음) 등의 응용에서, 페이로드 신호가 의사 랜덤 노이즈 신호 등의 노이즈 패턴의 형태로 1차 오디오 신호에 삽입될 수 있다. 목표는 일반적으로 노이즈 신호가 거의 인식할 수 없을 정도이고 또 노이즈 신호가 들릴 수 있는 경우, 주관적으로는 방해가 되지 않게 하는 것이다. 이러한 유형의 기술은 1차 오디오 신호의 전체 대역폭, 비트레이트 및 포맷을 변경할 필요가 없는 방식으로 여러가지 유형의 페이로드가 부가될 수 있게 해준다. 페이로드 데이터는 상관 기술에 의해 나중에 복원될 수 있으며, 이는 워터마킹된 오디오 신호가 워터마크 적용과 워터마크 복원 사이에서 여러가지 방식으로 조작되거나 손상된 경우에도 여전히 효과가 있는 경우가 많다.

추가될 수 있는 페이로드 데이터의 유형의 예는 보안 데이터(예를 들어, 해적판 또는 불법 복제본을 식별하기 위한 것임), 방송 모니터링 데이터, 및 1차 오디오 신호로 나타내어진 오디오 신호에 대해 기술하는 메타데이터를 포함한다.

노이즈 신호는 1차 오디오 신호에 부가되기 이전에 변조될 수 있다. 이것은 일반적으로 1차 오디오 신호의 레벨이 증가될 때 노이즈 신호의 레벨이 증가되고 1차 오디오 신호의 레벨이 감소될 때 노이즈 신호의 레벨이 감소된다는 것을 의미한다. 이와 같이, 1차 오디오 신호 내의 더 큰 소리의 말싸움으로 노이즈 신호가 은 폐될 수 있는 경우에는 페이로드 데이터의 노이즈 신호가 더 많이 포함될 수 있다(아마도 더 나은 페이로드 데이터의 복원을 제공함).

그렇지만, 노이즈 신호가 1차 오디오 신호를 너무 흡사하게 따라가는 경우, 노이즈 신호는 들리게 될 수 있고 아마도 주관적으로는 방해가 될 수 있으며, 드럼 치는 소리, 기타 등등의 소리의 경우는 특히 그렇다.

엔벨로프-제어 오디오 처리 시스템에서, 피제어 신호(이 예에서, 노이즈 신호)의 상승 시간 및 하강 시간에 시상수가 적용될 수 있다. 이들은 어택(attack) 및 감쇠(decay)(또는 릴리스(release)) 시상수라고 알려져 있다. 이러한 척도가 이 예에 적용되는 경우, 그 결과 1차 오디오 신호 레벨의 급격한 상승은 노이즈 신호의 보다 느린 상승을 야기한다. 이것은 꽤 용인할 만하고, 어떤 상황에서는 심지어 바람직하기까지 하다. 그렇지만, 1차 오디오 신호 레벨의 급격한 감소가 노이즈 신호 레벨의 보다 느린 감소를 가져온다는 것이 더 큰 문제가 된다. 극단적인 경우에, 이것은 노이즈 신호가 순간적으로 1차 오디오 신호보다 더 크게 되는 바람직하지 않은 상황에 이르게 할 수 있다.

본 발명은 페이로드 신호(payload signal)가 1차 오디오 신호에 삽입되어 있는 오디오 처리 장치를 제공하며, 이 장치는,

상기 페이로드 신호에 따라 노이즈 신호를 발생하는 동작을 하는 노이즈 발생기,

상기 1차 오디오 신호의 신호 레벨을 검출하는 레벨 검출기,

변조된 노이즈 신호를 발생하기 위해, 상기 1차 오디오 신호의 상기 검출된 신호 레벨의 증가 또는 감소에 응답하여 상기 노이즈 신호의 상기 레벨을 각각 증가 또는 감소시키는 변조기,

상기 1차 오디오 신호와 상기 변조된 노이즈 신호를 합성하는 합성기, 및

신호 지연 소자를 포함하며,

상기 변조기는 상기 노이즈 신호의 상기 레벨의 감소가 상기 1차 오디오 신호의 상기 신호 레벨의 대응하는 감소에 대해 시간-전진되도록(time-advanced) 상기 신호 지연 소자에 대해 동작한다.

본 발명은 노이즈 신호의 레벨의 감소가 1차 오디오 신호의 신호 레벨의 대응하는 감소에 대해 시간-전진되도록 시간-전진된 릴리스 함수(time-advanced release function)를 제공함으로써 상기한 문제점을 해소한다. 환언하면, 1차 오디오 신호와 관련해서는, 1차 오디오 신호가 하강을 시작하기 이전에 노이즈 신호가 하강하기 시작한다. 이러한 시간 전진의 양은, 시스템에서의 임의의 릴리스 시상수 및 1차 오디오 신호의 오디오 대역폭과 관련하여, 노이즈 신호가 1차 오디오 신호보다 결코 크지 않도록, 또는 이들 간의 차이가 허용가능한 것으로 생각되는 한도 내에 있도록 설정될 수 있다.

게다가, 본 발명의 다른 개별적인 측면 및 특징이 첨부된 청구항에 정의되어 있다.

이제부터, 본 발명의 실시예들에 대해 첨부 도면을 참조하여 단지 예로서 설 명한다.

서론

비디오 신호에 대해 적합한 핑거프린팅 또는 워터마킹 기술 - 보다 일반적으로는 법의학 마킹 기술(forensic marking technique)이라고 함 - 이 제안되어 있다. 예를 들어, EP-A-1 324 262를 참조하기 바란다. 일반적인 수학적 체계가 원칙적으로 오디오 신호에 적용가능한 것처럼 보일 수 있지만, 몇가지 중대한 기술적 차이가 존재한다. 본 설명에서, "지문" 및 "워터마크" 둘다는 자료의 법의학적 마킹을 나타내는 데 사용된다.

고려되어야 할 주요 인자들 중 하나는 지문 데이터가 오디오 데이터 내에 어떻게 인코딩되어야만 하느냐이다. 사람의 귀는 민감도 및 다이나믹 레인지의 관점에서 사람의 눈과 아주 다르며, 이것은 많은 이전의 상업적 핑거프린팅 방식이 주관적 듣기(subjective listening)("A/B") 테스트에서 실패하게 만들었다.

사람의 귀는 48kHz 샘플링 레이트에서 한 샘플보다 작은 위상차를 들을 수 있으며, 언제나 9 자리수의 동작 다이나믹 레인지(working dynamic range)를 갖는다. 이것을 염두에 두고서, 적절한 인코딩 방법은 매체에 단순히 부가된 저레벨 노이즈 신호처럼 지문 데이터를 인코딩하는 것으로 생각된다.

노이즈는 노이즈를 이 과제에 도움이 되게 만들어 주는 많은 심리-음향(psycho-acoustic) 특성을 가지며, 그 중에서도 특히 귀는 노이즈가 저레벨에 있을 때 이를 무시하는 경향이 있으며 노이즈는 대체로 짜증나게 하기 보다는 대체로 마음을 가라앉히는(바람, 세차게 흐르는 시냇물, 또는 바다 파도를 흉내내는) 소리 이다. 노이즈 스트림의 랜덤한 속성은 또한 예를 들어 잠재의식 정보의 스트로브 효과 또는 악의적 사용이 시각적 인식에 대해 할 수 있는 방식으로 두뇌 기능을 방해할 가능성이 거의 없음을 암시한다.

이제부터, 이러한 유형의 기술의 구현에 대해 기술한다.

수학적 근거

지문 페이로드 "벡터"(예를 들어, 값의 스트림)

을 생각해보자.

삽입(embedding) 프로세스에 있어서, 이 페이로드는 오디오 신호 벡터(예를 들어, 샘플들의 스트림)

에 가산되어 워터마킹된 페이로드 벡터

를 산출한다.

페이로드 벡터

의 원소는 통계적으로 평균값 0 및 표준 편차

의 독립 확률 변수(independent random variable)이며, 여기서

는

로 표현되는 워터마크의 세기(strength)라고 한다. 간단히 말하면, 이 표기법은 페이로드가 가우시안 랜덤 노이즈 스트림이라는 것을 나타내는 데 사용된다. 노이즈 스트림은 표준 편차가 오디오 신호로서

의 범위 내에 있도록 스케일링된다. 이러한 스케일링이 중요한데 그 이유는 이것이 정확하게 행해지지 않으면, 이하에서 계산되는 유사성 지표(similarity indicator)("SimVal")가 정확하지 않게 되기 때문이다. 유의할 점은 여기서의 약속은

이 오디오 영역에서 "풀 스케일(full scale)"인 것으로 본다는 것이고, 따라서 이 경우에 가우시안 노이즈 스트림의 많은 샘플 이 실제로는 풀 스케일보다 더 크다는 것이다.

추출(extraction) 프로세스에 있어서, 원래의 프록시 벡터(proxy vector)

가 워터마킹된 의심 벡터(예를 들어, 문제의 오디오 자료의 해적판)

에서 감산되어 의심 페이로드 벡터

를 산출한다. 환언하면,

= 의심-오디오-스트림 ― 프록시-오디오-스트림이다.

컨텐츠가 후보 페이로드 벡터

로 워터마킹되었는지 여부를 검사하기 위해, 후보 페이로드 벡터

와 정규화된 의심 페이로드 벡터

간에 내부-루프 상관(inner-loop correlation)("

"로서 표현됨)이 수행되어 유사성 값(similarity value)(이후부터는 SimVal이라고 함)을 산출한다.

여기서,

는

의 벡터 크기이며,

를 의미한다. 여기서, sqrt는 제곱근 함수를 나타낸다. 유의할 점은 벡터를 정규화한다는 것이 벡터 내의 값들의 총합이 정확하게 1의 크기가 되도록 그 값들을 스케일링한다는 것을 의미한다는 것이다.

이 식은

와

간의 통계적 상관의 정도를 나타내며, 최대값은 벡터의 길이의 제곱근에 가깝다. SimVal이 특정의 문턱값 T보다 큰 경우에, 페이로드

가

에 존재한다고 말하고, SimVal <= T인 경우, 그것이 존재하지 않는다고 말한다.

SimVal의 값에 어떤 통계적 의미를 부여하기 위해, T의 값은 이하의 식에 의 해 거짓 양성(false positive)일 확률과 관계되어 있다.

여기서,

는 거짓 양성 확률이고, ln은 자연 로그이며, M은 모집단 크기(즉, 주어진 오디오 컨텐츠에 대해 발생된 고유 페이로드 벡터의 수)이다. 예를 들어, 거짓 확률(false probability)이 100,000,000 중의 1보다 좋아야 하고 모집단 크기가 1000인 경우, 값 SimVal은 8보다 커야만 한다.

일반적으로 말하면, 10의 SimVal이 본 기술을 사용한 해적판 오디오 자료의 법의학적 분석에서 유용한 목표이다. 특히 큰 모집단 M에 대해서는, 12의 값이 보다 적절할 수 있다. 경험에 근거한 시험에서, 의심 오디오 자료의 처음 몇초의 분석에서 8의 값에 도달된 경우, 일반적으로 다음 몇초 이내에 12의 값에 도달된다.

도 1은 보안 재생 장치(10)가 복호화 키와 함께 암호화된 오디오/비디오 자료를 수신하는 디지털 시네마 구성을 개략적으로 나타낸 것이다. 복호화기(20)는 오디오 및 비디오 자료를 복호화한다. 복호화된 비디오 자료는 스크린(40)에 투사하기 위해 프로젝터(30)에 제공된다. 복호화된 오디오 자료는 상기한 바와 같이 지문을 적용하는 지문 인코더(50)에 제공된다.

일반적으로, 지문은 그 자료, 그 영화 및 그 재생 인스턴스에 고유한 것일 수 있다. 이것은 영화의 특정의 상영에까지 저작권 침해(piracy)가 추적될 수 있게 해준다.

핑거프린팅된 오디오 신호는 기지의 시네마 사운드 구성에서 다수의 스피 커(70) 및 서브-우퍼(들)(80)를 구동하는 증폭기(60)로 전달된다.

핑거프린팅은 또한 비디오 정보에 적용될 수 있다. 공지의 비디오 핑거프린팅 수단(도시 생략)이 사용될 수 있다.

양호하게는, 재생 장치는 핑거프린팅되지 않은 오디오(또는 실제로, 비디오)가 획득될 수 있는 외부 연결을 갖지 않는 봉인된 장치라는 점에서 보안되어 있다. 물론, 증폭기(60) 및 프로젝터(30)가 반드시 보안 시스템의 일부를 구성할 필요는 없다.

예를 들어 극장 내에서의 캠코더의 사용에 의해, 그 영화 상영으로부터 자료의 불법 복제가 행해지는 경우, 그 영화와 연관된 오디오 컨텐츠는 지문 인코더(50)에 의해 인코딩된 지문 정보를 그 안에 포함하고 있게 된다. 이것을 입증하기 위해, 조사 또는 법률적 이유로, 자료의 의심 복제물이 원본(또는 "프록시") 자료 및 원본 지문(original fingerprint)를 발생하는 데 사용된 키와 함께 도 2의 지문 검출기(80)에 공급될 수 있다. 가장 간단하게 말하면, 지문 검출기(80)는 특정의 지문이 의심 자료에 존재할 확률을 발생한다. 이제부터, 검출 프로세스에 대해 보다 상세히 설명한다.

삽입 프로세스

비디오 핑거프린팅에서, 기술들은 일반적으로 프레임 기반(프레임은 비디오 영역에서 자연적인 처리 블록 크기임)이며, 지문 페이로드 벡터 전체가 (저레벨로) 각각의 프레임에 삽입되어 있다. 어떤 시스템에서, 지문의 세기는 프레임의 "보다 복잡한" 이미지 영역에서 또한 비디오 컨텐츠의 특성을 심각하게 변화시키지 않고 제거하는 것이 어렵거나 불가능한 보다 낮은 공간 주파수에서 더 크도록 설정되어 있다. 여기서의 착안은 상관이 하나의 벡터에 대해 행해지는 것처럼 많은 프레임에 걸쳐 각각의 프레임에 대한 상관이 누적될 수 있다는 것이며, 의심 페이로드

와 후보 페이로드

간에 실제적인 통계적 상관이 있는 경우, 상관이 프레임에서 프레임으로 갈 때마다 계속하여 상승한다는 것이다.

오디오의 경우, 일반적으로 이러한 자연적인 처리 블록이 없다.

본 실시예들에서, 고속 푸리에 변환(FFT) 동작의 효율성을 이유로 하여, 오디오 버전의 처리 블록 크기는 2의 멱승 개의 오디오 샘플, 예를 들어 64k개의 샘플(65536개의 샘플)로 설정된다. 또한, 유의할 점은 벡터 길이가 처리 블록과 동일한 크기가 된다는 것이다.

이들 오디오 프레임에 대한 연속적인 상관이 비디오 시스템에 대해서와 동일한 방식으로 누적될 수 있다.

각각의 컨텐츠 샘플에 대해 하나의 페이로드 벡터 샘플이 있다. 또한, 페이로드는 "중간-주파수"에 집중되어 있는데, 그 이유는 고주파 컨텐츠(말하자면 > 5 kHz) 및 저주파 컨텐츠(말하자면 < 150 Hz) 둘다가 오디오 품질의 과도한 손실없이 완전히 손실될 수 있기 때문이다. 이들 주파수의 손실은 해적판 제작자 쪽에서는 좋지 않은 기록 장비 또는 기술의 아티팩트(artifact)일 수 있거나, 이들 주파수가 지문 복원 프로세스를 못하게 하려고 해적판 제작자에 의해 고의적으로 제거될 수 있다. 따라서, 페이로드를 주관적으로 더 중요한 중간 주파수, 즉 품질을 심각하여 떨어뜨리지 않고는 용이하게 제거될 수 없는 주파수 내에 집중시키는 것이 보다 적절하다.

일반적으로 말하면,

1. 페이로드는 노이즈 스트림을 발생하기 위해 AES Rijndael-기반 의사-난수 스트림의 씨드가 된다.

2. 노이즈 스트림은 오디오 스트림의 인식 분석에 따라 "정형(shape)"된다.

3. 정형된 노이즈 스트림은 저레벨로 오디오 스트림에 부가된다.

발생된 노이즈 스트림은 그 안에 다수의 계층을 포함하고 있으며, 각각의 계층은 서로 다른 페이로드 데이터 서브셋으로부터 발생된다. 프레임 번호 및/또는 일자/시간 등의 다른 데이터가 페이로드 내에 포함될 수 있다는 것을 잘 알 것이다.

난수 스트림은 이동 카운터(moving counter)에 256-비트 Rijndael 암호화를 반복 적용함으로써 발생된다. 이들 숫자는 이어서 풀 스케일 백색 노이즈를 생성하기 위해 +/-1.0 내에 있도록 스케일링된다. 백색 노이즈 스트림은 쌍을 이루고 있는 점들에 Box-Muller 변환을 적용함으로써 가우시안 노이즈로 전환된다.

본 실시예에서, 노이즈 스트림에는 16개의 계층이 있다. 의사-랜덤 노이즈 발생기의 제1 계층은 페이로드의 처음 16 비트를 씨드로 하며, 제2 계층은 페이로드의 처음 32 비트를 씨드로 하고, 이하 마찬가지로 하여, 제16 계층은 256 비트 페이로드 전체를 씨드로 한다.

인식 분석은 오디오 스트림 내의 각각의 샘플에 대한 지문 노이즈 스트림을 스케일링하기 위한 이득 값을 설정하기 위해 간단한 스펙트럼 분석을 수반한다. 여기에서의 착안은 오디오 스트림 내의 보다 소리가 큰 부분이 지문 노이즈의 보다 강한 세기를 은폐시킨다는 것이다.

이 개념을 더욱 확장하면, 오디오 스트림의 중간 주파수 컨텐츠(여기에 지문이 은폐되어 있어야 함)는 양호하게는 로그 주파수 스케일에서 균일하게 확산되어 있는 몇개의 대역(말하자면 8개 또는 12개)으로 분할된다(물론 임의의 대역-분할이 사용될 수 있음). 이것은 예를 들어 주파수 스펙트럼이 여러 옥타브로 개략적으로 분할되어 있음을 의미한다. 각각의 대역은 이어서 개별적으로 처리되어, 지문 노이즈 스트림에서의 대응하는 주파수 대역의 진폭을 변조하는 데 사용되는 각자의 이득 엔벨로프를 발생한다. 모든 대역에서 엔벨로프 변조가 사용되면, 그 결과 노이즈 스트림은 원래의 오디오 신호의 희미한 소리(ghostly rendition)처럼 들린다. 보다 중요한 것은 이러한 희미한 소리가 컨텐츠와의 유사성으로 인해 원본 자료에 부가될 때 비교적 높은 신호 레벨로 부가됨에도 불구하고 귀에는 들리지 않게 된다는 것이다. 예를 들어, 변조된 노이즈가 오디오에 대해 -30dB(데시벨) 정도로 높은 레벨로 부가되더라도, 그 노이즈는 주관적으로 거의 들리지 않을 수 있다.

본 실시예는 각각의 주파수 대역에서 정보를 분리시키기 위한 "벽돌 벽(brick wall)"(측면이 가파른 응답) 콘벌루션 대역 필터를 구현하는 데 2049개의 샘플 임펄스 응답 커널을 사용한다. 이 콘벌루션은 속도를 위해 FFT 영역에서 행해진다. 대역 통과 필터에 대해 순환 필터(recursive filter)보다는 오히려 콘벌루션 필터를 사용하는 한가지 중요한 이유는 콘벌루션 필터가 주파수와 상관없는 고정된 지연을 갖도록 될 수 있기 때문이다. 이것이 중요한 이유는 노이즈 스트 림이 부가되어 있을 때 임의의 주어진 주파수 대역에 대한 노이즈 스트림의 변조가 원본 컨텐츠의 실제 엔벨로프와 일렬로 정렬되어야만 하기 때문이다. 필터가 주파수에 따라 변하는 지연을 갖는 경우, 그 결과 생기는 오정렬은 정정하기가 어려우며, 이는 노이즈의 인식도의 증가 및 주파수에 따른 상관 값의 가능한 변동을 가져올 수 있다.

도 3은 도 1의 인코더(50) 등의 지문 인코더의 동작의 개략적인 개요를 나타낸 것이다. 페이로드 발생기(100)는 지문으로서 인코딩될 페이로드 데이터를 생성한다. 상기한 바와 같이, 이것은 여러가지 컨텐츠 및 다른 식별자를 포함할 수 있으며, 컨텐츠의 재생의 그 인스턴스에 고유한 것이어도 무방하다. 페이로드 발생기에 대해서는 도 4를 참조하여 이하에서 더 설명할 것이다.

페이로드는 지문 스트림 발생기(110)에 공급된다. 상기한 바와 같이, 이것은 본질적으로 암호화 키에 기초한 AES-Rijndael 암호화를 사용하여 페이로드 발생기(100)로부터 공급된 페이로드에 의존하는 출력 시퀀스를 생성하는 난수 발생기이다. 지문 스트림 발생기에 대해서는 도 5를 참조하여 이하에서 더 설명할 것이다.

소스 자료(이에 지문에 적용되어짐)는 스펙트럼 분석기(120)에 공급된다. 이것은 하나 이상의 주파수 대역에서 소스 자료의 진폭 또는 엔벨로프를 분석한다. 스펙트럼 분석기는 스펙트럼 추종기(spectrum follower)(130)에 엔벨로프 정보를 제공한다. 스펙트럼 추종기는 스펙트럼 분석기(120)로부터의 엔벨로프 정보에 따라 지문 스트림 발생기(110)에 의해 출력된 노이즈 신호를 변조한다. 스펙트럼 분석기에 대해서는 도 6을 참조하여, 스펙트럼 추종기에 대해서는 도 7을 참조하여 이하에서 더 설명할 것이다.

스펙트럼 추종기(130)의 출력은 소스 자료보다 상당히 더 낮은 레벨에 있지만 대체로 소스 자료의 엔벨로프를 쫓아가는 노이즈 신호이다. 이 노이즈 신호가 가산기(140)에 의해 소스 자료에 가산된다. 가산기(140)의 출력은 따라서 핑거프린팅된 오디오 신호이다.

지연 요소(150)는 소스 자료 경로에 개략적으로 도시되어 있다. 이것은 스펙트럼 분석 및 엔벨로프 결정이 가산기(140)로 전달되는 그 버전과 비교하여 소스 자료의 시간-전진된 버전에 대해 행해질 수 있다는 것을 나타내기 위함이다. 이 시간-전진 특징에 대해 이하에서 더 설명할 것이다.

도 4는 페이로드 발생기를 개략적으로 나타낸 것이다. 상기한 바와 같이, 이것은 일련 번호, 위치 식별자 및 위치 비밀키 등의 여러가지 식별 데이터를 받아서, 지문 스트림 발생기(110)에 씨드로서 공급되는 페이로드 데이터(160)를 발생한다. 위치 비밀키는 암호화 장치(170)에서 위치 식별자를 암호화하는 데 사용될 수 있다. 페이로드 데이터의 여러가지 성분은 로직(180)에 의해 씨드로서 출력되기 위해 비트-정렬된다.

도 5는 지문 스트림 발생기(110)를 개략적으로 나타낸 것이다. 이것은 페이로드 발생기(100)로부터의 씨드 데이터(160) 및 확장 로직(200)에 의해 16개의 서로 다른 키(K-1...K-16)로 확장되는 키 데이터(190)를 수신한다.

프레임 번호는 선택적으로 가산기(210)에 의해 씨드 데이터(160)에 가산될 수 있다.

스트림 발생기는 16개의 AES-Rijndael 숫자 발생기(220...236)를 갖는다. 이들 각각은 키 확장 로직(200)으로부터 각자의 키를 수신한다. 그 각각은 또한 씨드 데이터(160)로부터의 각자의 일련의 비트를 씨드로 한다. 숫자 발생기(220)는 씨드 데이터(160)의 처음 16 비트를 씨드로 한다. 숫자 발생기(221)는 씨드 데이터(160)의 처음 32 비트를 씨드로 하며, 이하 마찬가지이다. 이러한 구성은 처음 16 비트의 모든 가능한 값을 먼저 검색하고 이어서 제17 내지 제32 비트(처음 16 비트는 알고 있음)의 가능한 값을 검색하고, 이하 마찬가지로 함으로써 디코딩 단계에서 특정의 지문을 검색하는 것을 보다 용이하게 만들어줄 수 있는 페이로드의 계층 구조가 구축될 수 있게 해준다.

각각의 숫자 발생기(220..236)의 출력은 가우시안 매핑 장치(240...256)에 제공된다. 이것은 숫자 발생기의 출력(대체로 백색 노이즈임)을 받아서, 공지의 매핑 프로세스를 적용하여 가우시안 프로파일을 갖는 노이즈를 생성한다.

매핑 로직(240...256)의 각각의 인스턴스로부터의 가우시안 노이즈 신호들은 가산기(260)에 의해 가산되어 노이즈 신호(270)를 출력으로서 발생한다.

도 6은 스펙트럼 분석기(120)를 개략적으로 나타낸 것이다. 이것은 (핑거프린팅될) 소스 자료를 입력으로서 수신하고 엔벨로프 정보(280)를 출력으로서 발생한다.

스펙트럼 분석기는 일단의 8개(이 예에서) 대역 필터(290...297)를 포함하며, 각각의 필터는 소스 자료로부터의 각자의 주파수 대역을 필터링한다. 이들 필터는 주파수가 중첩되거나 중첩되지 않을 수 있으며, 전체 이용가능한 주파수 범위 중 8개의 필터에 의해 처리되는 범위는 100%이거나 보다 통상적으로는 이보다 훨씬 더 작을 수 있다. 8개의 필터에 관계된 각자의 대역은 연속적이거나(즉, 서로에 인접하거나) 그렇지 않을 수 있다. 사용되는 필터(대역)의 수는 8개보다 적거나 많을 수 있다. 따라서, 여기에서의 설명이 이들 필터가 동작할 수 있는 방법의 단지 한 예에 불과하다는 것을 잘 알 것이다.

이 경우에, 중간 주파수 범위는 약 150 Hz 내지 약 5 kHz의 필터들에 의해 처리된다. 이것은 8개의 로그적으로 똑같은 대역들로 분할되고, 따라서 그 각각은 대략 1 옥타브에 걸쳐 있다. 대역 필터(290...297)에 대해 사용되는 필터링 기술은 상기한 기술에 따른다.

각각의 대역 필터의 출력에는 엔벨로프 검출기(300...307)가 있다. 이것은 각자의 대역 필터의 출력에서의 필터링된 소스 자료의 엔벨로프에 관한 엔벨로프 신호를 발생한다.

도 7은 스펙트럼 추종기를 개략적으로 나타낸 것이다. 스펙트럼 추종기는 스펙트럼 분석기(120)로부터 엔벨로프 정보(280)를 수신하고, 지문 스트림 발생기(110)로부터 가우시안 노이즈 신호(270)를 수신한다.

가우시안 노이즈 신호(270)는 일단의 대역 필터(310...317)에 공급된다. 이들은 스펙트럼 분석기(120)의 대응하는 필터들(290...297)과 동일한(또는 사용가능할 정도로 그에 가까운) 응답을 갖도록 설정되어 있다. 이것은 노이즈 스펙트럼 내에 8개의 대역을 발생한다. 필터링된 노이즈 대역들 각각은 각자의 엔벨로프 추종기(320...327)에 공급된다. 이것은 소스 자료에서의 그 대역의 엔벨로프에 관계 된 엔벨로프 신호를 받아서 동일한 대역에서의 필터링된 노이즈 신호를 변조한다. 엔벨로프 추종기(320...327) 전부의 출력은 가산기(330)에 의해 합산되어, 정형된 노이즈 신호(340)를 발생한다.

엔벨로프 추종기는 종국의 정형된 노이즈 신호(340)가 소스 자료에 대해 적절한 레벨에 있도록 하는, 예를 들어 소스 자료에 대해 -30 dB에 있도록 하는 스케일링 소자(scaling arrangement)를 포함할 수 있다.

상기한 바와 같이, 정형된 노이즈 신호는 가산기(140)에 의해 소스 자료에 가산되어, 핑거프린팅된 소스 자료를 출력 신호로서 발생한다.

핑거프린팅 프로세스는 서로 다른 오디오 채널(좌/우 채널 등)에서 개별적으로 또는 동기하여 행해질 수 있다. 그렇지만, 해적판 제작자가 다수의 채널을 비교하여 지문을 도출하려고 시도(도출한 다음에 지문을 제거 또는 무력화하려고 시도)하는 것을 막기 위해 각각의 채널에 대해 서로 다른 노이즈 신호가 사용되는 것이 선호된다. 어느 경우든지, 엔벨로프 신호(280)는 양호하게는 지문 인코딩되는 개개의 오디오 채널에 관계되어 있다.

이제부터, 상기한 엔벨로프 검출 및 엔벨로프 추종(envelope following)의 동작에 대해 도 8 내지 도 11을 참조하여 보다 상세히 설명할 것이다. 유의할 점은 상기한 스펙트럼 추종기의 경우에, 엔벨로프 추정이 각각의 채널 또는 대역에 대해 행해지게 된다는 것이다. 또한, 이하에 기술하게 될 시상수는 대역에 적용가능한 오디오 주파수 또는 주파수 범위에 의존하게, 예를 들어 그 대역 내에서 신호의 가장 빠른 상승 시간에 의존하게 될 수 있다. 이것은 시상수와 가장 빠른 상승 시간 간의 관계를 단지 변경하는 것으로 시상수가 그룹으로서 조정될 수 있게 해준다.

도 8 내지 도 11에서, 수평축은 임의의 스케일로 된 시간을 나타낸 것이고, 실선 곡선은 소스 자료에 관한 엔벨로프 신호의 예를 (개략적인 형태로) 나타낸 것이며, 점선은 엔벨로프 추종기(320...327)에 의해 적용된 변조를 (개략적인 형태로) 나타낸 것이다.

도 8에서, 소스 자료의 엔벨로프의 급격한 상승에 응답하여 노이즈 신호의 상승 시간을 제한하기 위해 엔벨로프 추종기에 의해 시상수가 적용된다. 이것은 점선의 좌측 부분에 나타내어져 있으며, 실선의 보다 수직적인 상승보다 시간 상으로 지연되어 있다. 이러한 시상수는 종종 "어택(attack)" 시상수라고 한다. 그렇지만, 도 8 내지 도 11 전부에서 유의할 점은 노이즈 신호의 상승율(rate of rise)이 제한되어 있지만, 노이즈 신호가 상승하기 시작하는 시간이 엔벨로프 신호가 상승하기 시작하는 시간과 동일하다는 것이다(검출 지연으로 인한 사소한 시간차만이 있음). 노이즈 신호의 상승의 시작을 엔벨로프 신호에 대해 지연시키는 것(또는 심지어 이하에 기술하는 시간-전진된 구성에서는, 전진시키는 것)이 가능하게 되지만, 이것은 거의 이점이 없는 것처럼 보인다. 상세하게는, 노이즈 신호의 상승을 지연시키는 것은 상승하는 신호 배후에 숨길 수 있는 유용한 페이로드를 제한하며, 노이즈 신호의 시작 시간을 전진(advance)시키는 것은 도 8의 엔벨로프의 트레일링 엣지(trailing edge)를 참조하여 기술하게 되는 것과 유사한 가청 아티팩트(audible artifact)를 제공할 수 있다.

이와 유사하게, 소스 자료 엔벨로프의 트레일링 엣지에서, 후미의 점선으로 나타낸 노이즈 엔벨로프의 감소는 또한 "감쇠(decay)" 시상수로 제한된다. 불행히도, 이것은 t₁에서 t₂까지의 기간에 걸쳐 노이즈 신호가 소스 자료 신호보다 더 크며 따라서 노이즈가 주관적으로 듣는 사람에게 방해가 될 수 있다는 것을 의미한다.

도 9는 엔벨로프 추종 오디오 이펙트 프로세서에서의 통상적인 상황을 나타낸 것으로서, 그에 의해 엔벨로프-추종 신호(이 경우에, 노이즈 신호)의 감쇠의 시작을 지연시키는 "서스테인(sustain)" 기간(350)이 정의된다. 이것은 노이즈 신호가 이제 t₁과 t₃ 사이에서 소스 자료 신호보다 더 크다는 점에서 상기한 상황을 더욱 악화시킨다. 따라서, 서스테인 기간이 본 실시예에서는 사용되지 않는다.

이 문제점을 해소하기 위한 대책에 대해 도 10 및 도 11을 참조하여 기술한다.

도 10에서, 노이즈 신호가 감소하기 시작하는 시간은 소스 자료의 엔벨로프가 감소하는 시간에 대해 전진 시간(360) 만큼 전진되어 있다. 이 예에서, 이것은 노이즈 신호가 시간 t₁까지는 대수롭지 않은 레벨로 감쇠된다는 것을 의미한다.

도 11에서, 전진 시간(360)이 약간 감소되는 경우, 노이즈 신호는 소스 자료의 엔벨로프가 감소하기 이전에 감소하기 시작하지만, 시간 t₁까지 감소를 끝마치지 않는다. 이것은 시간 t₁과 t₄ 사이에 작은 양의 노이즈가 여전히 존재한다는 것을 의미하지만, 이 문제는 도 8에 나타낸 것보다 훨씬 더 작다.

따라서, 소스 자료 엔벨로프의 감소보다 이른 시간에 노이즈 신호의 감소를 시작되게 함으로써(이는 그 노이즈 감소를 가져옴), 도 8 및 도 9에 나타낸 주관적으로 방해가 되는 과도한 노이즈가 감소되거나 회피될 수 있다.

이것을 달성하기 위해, 소스 자료에 대한 엔벨로프 정보가 가산기(140)에서의 소스 자료와 노이즈의 가산에 대해 시간-전진된 관계로 획득될 수 있도록 시스템 내의 어딘가에 지연을 포함시킬 필요가 있다. 도 3에 도시된 지연은 이것이 어떻게 달성될 수 있는지의 아주 개략적인 예이다. 당업자라면 많은 다른 가능한 방법이 이용가능하다는 것을 잘 알 것이다. 상기 예에서, 소스 자료로부터 합성기(140)까지의 경로에 지연이 부과된다. 이 구성에서, 스펙트럼 분석기(130)는 (각각의 엔벨로프 신호에 대해, 2개 이상이 도출되는 경우) 다음과 같이 동작할 수 있다. (a) 상승하는 엔벨로프에 대해서는, 엔벨로프 신호에 (도시하지 않은 지연 소자에 의해) 지연 소자에 의해 적용되는 지연

와 동등한 지연을 적용하고, (b) 하강하는 엔벨로프에 대해서는, 지연

보다 작은 지연을 엔벨로프 신호에 적용한다.

추출 프로세스

지문 추출의 주요 단계들은 다음과 같다.

1. 어떤 손상 또는 왜곡을 역전시키기 위해 의심 자료가 처리된다.

2. 의심 지문을 남겨두기 위해 의심 컨텐츠로부터 소위 프록시 컨텐츠(proxy content)(컨텐츠의 워터마킹되지 않은 원본 버전을 말하는 데 사용되는 용어)가 감 산된다. 이것은 의심 자료를 프록시 컨텐츠와 시간상으로 정렬할 수 있는 것에 의존한다. 어떤 상황에서는, 워터마킹된 프록시가 사용될 수 있다. 물론, 프록시에서의 워터마크는 상관에 의해 검출될 가능성이 있지만, 다른 워터마크(들)이 검출되는 것을 막지 못하며, 또한 무시될 수 있다. 이와 같이, 보안된 복제물이 추출 프로세스를 운영하도록 계약을 맺은 제3 당사자들에게 전송될 수 있다.

3. 의심 지문은 프록시 컨텐츠의 스펙트럼 분석에 따라 "언쉐이핑(unshape)"된다.

4. 이 컨텐츠에 대한 모집단에서의 각각의 후보 페이로드에 대해, 컨텐츠의 비교적 짧은 부분에 걸쳐 후보 페이로드를 의심 페이로드와 비교한다. 값 SimVal이 괜찮아 보이는 경우, 이 후보를 훨씬 더 긴 분석을 받게 될 후보들의 최종 선발 목록(short-list)에 추가한다.

도 12는 도 2의 검출기(80) 등의 지문 검출기의 동작의 개략적인 개요를 나타낸 것이다. 검출기는 한 컨텐츠의 해적판으로 의심되는 복제물 등의 의심 자료 및 동일한 자료의 보통의(워터마킹되지 않은) 복제물인 소위 프록시 자료를 수신한다.

의심 자료는 먼저 시간 정렬(temporal alignment) 유닛(400)에 공급된다. 이것의 동작에 대해서는 도 13 내지 도 18을 참조하여 이하에서 기술할 것이다. 그렇지만, 간략히 말하면, 시간 정렬 유닛은 프록시 자료와 의심 자료 간의 시간 오프셋을 검출하며 따라서 2 세트의 자료가 시간적으로 정렬될 수 있게 해준다. 시간 정렬(400)에 의해 아마도 달성될 수 있는 정렬은 ±1개 샘플 등의 어떤 허용 오차 내에 있다. 2개의 신호 간의 완벽한 정렬을 가능하게 해주는 추가의 시간 보정은 이하에서 기술하게 될 디컨볼버(deconvolver)(410)에 의해 수행된다.

이 디컨볼버는 의심 자료가 프록시 자료와 보다 흡사하게 만들기 위해 의심 자료에 임펄스 응답을 적용한다. 여기에서의 목표는 의심 자료에서의 신호 열화의 효과를 (적어도 부분적으로) 역전시키는 것이다. 이러한 열화의 예들은 이하에 열거되어 있다.

이것을 하기 위해, 디컨볼버(410)는 디컨볼버 훈련 유닛(420)에 의해 "훈련"된다. 디컨볼버 훈련 유닛의 동작에 대해서는 도 19 내지 도 25를 참조하여 이하에서 기술할 것이지만, 간략히 말하면 디컨볼버 훈련 유닛은 프록시 자료를 의심 자료로 바꾸기 위해 프록시 자료에 행해졌을지도 모르는 것을 나타내는 변환 응답(transform response)을 도출하기 위해 시간-정렬된 의심 자료를 프록시 자료와 비교한다. 이 변환 응답이 디컨볼버(410)에 의해 "역으로" 적용된다. 양호하게는, 이 변환 응답은 의심 자료 내의 서로 다른 위치들에서 그 특정의 지점에 존재하는 열화를 나타내기 위해 갱신된다. 이하에 기술하게 될 실시예에서, 디컨볼버 훈련 유닛에 의해 검출되는 변환 응답은 의심 자료 및 프록시 자료의 블록들에 대한 미리 정해진 수의 가장 최근의 부분들에 걸쳐 검출된 응답들의 이동 평균(rolling average)에 기초하고 있다.

지연(430)은 디컨볼버 및 디컨볼버 훈련 동작을 보상하기 위해 제공될 수 있다.

이어서, 교차 정규화(cross normalization) 유닛(440)은 디컨벌루션 된(deconvolved) 의심 자료 및 프록시 자료의 크기를 정규화하는 동작을 한다. 이것은 도 12에서 의심 자료에 대해 작용하는 것으로 도시되어 있지만, 프록시 자료의 크기가 조정될 수 있거나 다른 대안으로서 둘다의 크기가 조정될 수 있다는 것을 잘 알 것이다.

정규화 후에, 감산기(450)는 정규화되고 디컨벌루션된 의심 자료와 프록시 자료 간의 차이를 구한다. 이 차이 신호는 스펙트럼 추종기(130)에 의해 수행된 노이즈 정형의 효과를 역전시키도록 구성되어 있는 "언쉐이퍼(unshaper)"(460)에 전달된다. 이것을 하기 위해, 프록시 자료는 도 3의 스펙트럼 분석기(120)와 동일한 방식으로 동작하는 스펙트럼 분석 스테이지(470)를 거친다.

따라서, 스펙트럼 분석기(470) 및 언쉐이퍼(460)는, 언쉐이퍼(460)의 출력으로서 일반적으로 균일한 노이즈 엔벨로프를 생성하기 위해 엔벨로프-제어 이득 값의 역수가 사용되는 것을 제외하고는, 스펙트럼 분석기(120) 및 스펙트럼 추종기(130)와 동일한 방식으로 동작하는 것으로 생각될 수 있다. 언쉐이퍼(460)에 의해 발생된 노이즈 신호

가 비교기(480)으로 전달된다. 비교기에의 다른쪽 입력

은 다음과 같이 발생된다.

지문 발생기(490)는 도 3의 페이로드 발생기(100) 및 지문 스트림 발생기(110)와 동일한 방식으로 동작한다. 따라서, 이들 동작에 대해 여기에서 상세히 기술하지 않는다. 지문 발생기(490)는 이어서 의심 자료에 존재할지도 모르는 지문의 모든 가능한 변형을 생성하는 동작을 한다. 각자의 확률 값 SimVal을 도출하 기 위해 각각의 변형이 차례대로 테스트된다.

물론, 다수의 지문 발생기(490)를 이용하고 또 노이즈 스트림

이 한번에 2개 이상의 지문과 비교되도록 병렬로 동작하는 다수의 비교기(480)를 사용하는 것이 가능하게 된다.

지연(500, 510)은 지문 발생기(490)에 의해 발생된 지문이 의심 자료 내에 포함되어 있을지도 모르는 지문과 적절히 시간-정렬되도록 의심 자료에 적용되는 처리 지연을 보상하기 위해 제공된다.

언쉐이퍼의 출력을 저장하는 것이 가능하게 되며, 따라서 언쉐이퍼(460)에 의한 출력에 이르기까지의 처리를 반복할 필요없이 각자의 다른 지문(모듈(490, 500, 510)에 의해 처리됨)과의 한번 이상의 추가의 비교가 행해질 수 있다.

시간 정렬

의심 해적판 신호로 해야 하는 첫번째 일은 프록시 신호와의 진정한 동기화를 발견하는 것이다.

필요한 경우 재샘플링(re-sampling) 또는 MP3 인코딩 효과에 의해 부과된 어떤 서브-샘플 지연/전진을 보상하기 위해 서브-샘플 지연이 포함될 수 있다.

도 13은 시간 정렬 유닛(400)의 동작의 일부를 나타낸 개략적인 플로우차트이다. 이 플로우차트의 각 단계는 시간 정렬 유닛(400)의 각자의 부분 또는 기능에 의해 구현된다.

이론적으로 (한번의) 직접 상관 프로세스에 의해 의심 및 프록시 자료를 정렬하는 것이 가능하지만, 영화 사운드트랙 등의 상당한 자료의 경우, 요구되는 상 관 처리가 엄청나게 되는데, 그 이유는 처리 동작이 일반적으로 관여된 오디오 샘플의 수의 제곱에 따라 증가하기 때문이다. 따라서, 본 프로세스는 2개의 신호의 완전 상관(full correlation)을 필요로 하지 않고 적어도 대략적인 정렬을 제공하기 위한 것이다.

도 13을 참조하면, 단계(600)에서, 2개의 오디오 신호는 부분들 또는 블록들로 분할된다. 이들 블록은 2개의 신호 각각에 대해 동일한 크기를 갖지만, 미리 정해진 크기일 필요는 없다. 따라서, 한가지 옵션은 고정된 크기의 (말하자면) 64k개 샘플을 갖는 것이지만, 다른 옵션은 이 특정의 경우의 시간 정렬 처리에 대한 요구되는 블록 크기에 도달하기 위해 2개의 자료 중 더 긴 것(일반적으로 프록시 자료)의 전체 길이가 미리 정해진 수의 블록들로 나누어지도록 고정된 수의 블록들을 갖는 것이다. 어쨋든, 블록 크기는 적어도 2개의 샘플이어야만 한다.

저역 통과 프리-필터링 스테이지(도시 생략)는 도 13의 단계(600) 이전에 포함될 수 있다. 이것은 블록 크기와 관련하여 2개의 신호 간의 임의적인 오정렬에 의해 야기되는 어떤 아티팩트를 감소시킬 수 있다.

단계(605)에서, 각 신호의 절대값은 설정되고 각 블록에 대해 (절대값을 참조하여) 최대 전력이 검출된다. 물론, 평균 전력 등의 다른 전력 특성이 그 대신에 설정될 수 있다. 목표는 블록당 적은 수(예를 들어, 1개 또는 2개)의 값을 갖는, 프록시 및 의심 신호 각각으로부터의 전력 특성 신호로 끝내는 것이다. 이 예는 블록당 하나의 값을 갖는다.

단계(610)에서, 2개의 전력 특성 신호가 저역-통과 필터링되거나 평활화된 다.

도 14는 2개의 신호를 블록들로 분할하는 것을 개략적으로 나타낸 것으로, 이 예에서 프록시 자료는 영화 필름의 전체 길이를 나타내고, 의심 자료는 그 영화 필름으로부터 가져온 일부를 나타낸다.

도 15는 2개의 전력 특성 신호에 개별적으로 적용되는 저역 통과 필터를 개략적으로 나타낸 것이다. 각각의 샘플은 (곱셈기(611)에서) 계수와 곱해지고, 가산기(612)에서 가산기의 출력과 제2 계수의 곱에 가산된다. 이것은 곱셈기(613)에서 행해진다. 이 프로세스는 각 신호의 저역-통과 필터링된 버전을 생성한다.

이 스테이지에서, 2개의 전력 특성 신호는 일반적으로 0과 1 사이의 크기를 갖는다. 필터링 프로세스는 1을 넘는 몇몇 사소한 편이(excursion)를 유입시킬 수 있지만, 단계(605)에서의 절대값 검출로 인해 0보다 작은 편이는 없다.

단계(630)에서, 문턱값이 적용된다. 이것은 도 16에 개략적으로 나타내어져 있다. 이러한 문턱값의 예는 0.3일 수 있지만, 물론 여러가지 다른 값들이 사용될 수 있다.

문턱값은 다음과 같이 적용된다.

목표는 문턱값에 대응하는 전력 특성 신호값을 1의 교정값(revised value of one)으로 매핑하는 것이다. 문턱값보다 낮은 신호값은 0과 1 사이의 신호 값으로 매핑된다. 문턱값보다 높은 신호값은 1보다 큰 신호값으로 매핑된다. 따라서, 이것을 달성하는 한가지 간단한 방법은 전체 전력 특성 신호를 1/문턱값의 값(이 경우에, 3.33...이 됨)과 곱하는 것이다.

이렇게 하는 것이 타당한 이유는 그 다음 단계(640)가 신호들에 멱함수 법칙(power law)을 적용하는 것이기 때문이다. 여기에서의 예는 각각의 신호가 제곱되는 것, 즉 각각의 샘플값이 그 자신과 곱해지는 것이다. 그렇지만, 정수 또는 비정수인 1보다 큰 다른 멱수가 사용될 수 있다. 단계(630, 640)의 전체적인 효과는 보다 높은 신호값을 강조하고 보다 낮은 신호값의 효과를 감소시키는 것이다. 이렇게 되는 이유는 0과 1 사이의 수는 1보다 큰 멱수로 거듭제곱되면(예를 들어, 제곱되면) 더 작아지는 반면, 1보다 큰 신호값은 1보다 큰 멱수로 거듭제곱되면 더 커지기 때문이다.

멱함수 법칙의 적용 이후에, 그 결과 얻어지는 신호는 단계(650)에서 선택적인 고역-통과 필터링 프로세스를 거친다. 단계(660)에서, 0의 평균을 갖는 신호를 발생하기 위해 각각의 신호의 평균값이 감산된다. (이 단계는 그 다음의 상관 단계(670)의 보다 나은 동작을 위해 유용하다)

마지막으로, 단계(670)에서, 전력 특성 신호는 상관 프로세스를 거친다. 이것은 도 17에 개략적으로 나타내어져 있으며, 여기서 의심 자료로부터의 전력값은 프록시 자료와 동일한 길이의 데이터 세트를 제공하기 위해 0으로 패딩된다. 상관 프로세스는 (원하는 바대로 된다면) 피크 상관을 발생하게 되며, 중앙 위치(702)로부터의 그의 오프셋(701)은 2개의 파일 간의 시간 오프셋을 나타낸다. 이 오프셋은 프록시 신호 또는 의심 신호 중 어느 하나에 상대 지연을 적용함으로써 정정될 수 있다.

도 14 내지 도 17을 참조하여 기술된 프로세스는 보다 작은 블록 크기 및 제 한된 범위(이에 관해 상관이 수행됨)로 반복될 수 있다(제1 스테이지로부터의 오프셋(701)을 시작 위치 및 근사 해답으로서 생각함). 실제로, 이 프로세스는 적절히 감소하는 블록 크기로 2회 이상 반복될 수 있다. 이익을 얻기 위해, 블록 크기는 적어도 2개의 샘플이어야만 한다.

도 18은 단계(605)에 의해 발생되는 전력 특성 신호 및 단계(660)에 의해 발생되는 필터링된 전력 특성 신호를 개략적으로 나타낸 것이다. 여기에서, 문턱값은 0.3이고, 단계(640)에서의 멱수 계수(power factor)는 1.5이며, 1/10 스케일링이 적용되었다.

손상 역전

손상 역전(damage reversal)의 목적은 해적판 컨텐츠가 원본 프록시 버전에 가능한 한 가깝게 되도록 해적판 컨텐츠를 변환시키는 것이다. 이와 같이, 해적판 버전으로부터 프록시를 감산한 결과 얻어지는 의심 페이로드

는 가능한 한 작게 되며, 이 결과 통상적으로 SimVal의 값은 더 커지게 된다.

오디오의 경우, 우연히 또는 고의적으로 해적판 제작자에 의해 부과될 수 있는 많은 가능한 왜곡이 있으며, 그 각각의 결과 아마도 SimVal 값이 감소된다.

고역, 저역, 노치, 대역 또는 파라미터 필터링

압축, 확장, 리미팅(limiting), 게이팅(gating)

오버드라이브(overdrive), 클리핑

인플레이션(inflation), 밸브-사운드(valve-sound), 및 다른 사운드 향상 효과

재샘플링, ADC 및 DAC 재변환

주파수 드리프트, 와우와 플러터(wow-and-flutter), 위상 역전(phase reversal), 가변 속도(vari-speed)

MP3-계열 손실 인코딩/디코딩 기술

에코, 잔향(reverb), 확산(spatialization)

소위 디-에싱(de-essing), 디-히싱(de-hissing), 디-크래클링(de-crackling)

가능한 한 이들 손상 중 대다수를 방지하기 위해, 지문 복원 구성은 범용 디컨볼버를 포함하며, 이 디컨볼버는 컨볼루션 필터의 동작에 의해 생성될 수 있는 어떤 효과를 상당히 감소/제거하기 위해 프록시 신호를 참조하여 훈련될 수 있다. 디컨볼버의 다른 이전의 용도는 전기 통신에서(시스템을 통해 다수의 서로 다른 경로를 취하는 신호에 의해 부과된 원하지 않는 에코를 제거하기 위하여) 또한 아카이브된 자료 복구 프로젝트에서(노후 손상을 제거하기 위해 또는 불완전한 레코딩 장비의 아티팩트를 제거하기 위해) 찾아볼 수 있다.

간략히 말하면, 디컨볼버는 의심 해적판 오디오 자료 및 프록시 버전을 FFT 영역으로 변환함으로서 훈련된다. 원하는 신호(프록시)의 실수/허수값이 (복소수 나눗셈)을 사용하여 실제 신호(해적판)의 실수/허수값으로 나누어져, 실제 응답을 원하는 응답으로 변환하는 임펄스 응답 커널의 FFT를 얻는다. 이 결과 얻어지는 FFT는 평활화되고 이어서 이전의 경우들과 평균되어, 최근 과거에서의 그 오디오 신호에 대한 일반적인 변환을 나타내는 FFT를 도출한다. FFT는 이어서 컨벌루션 필터로서 적용할 준비가 된 시간 영역 임펄스 응답 커널로 변환된다(시간 영역 신호를 순환시키는 단계 및 엘리어싱 효과를 감소시키기 위해 "해밍" 윈도우 등의 윈도우-sync 함수(window-sync function)를 그 시간 영역 신호에 적용하는 단계를 수반하는 프로세스).

잘 훈련된 디컨볼버는 원칙적으로 예를 들어 마이크 압축 회로에 의해 해적판에 적용되는 비선형 이득 효과의 효과를 10배 정도 감소시킬 수 있다. 경험적 시험에서, 디컨볼버가 블록별 SimVal의 값을 15로부터 40까지 증가시킬 수 있음이 밝혀졌다.

도 19는 디컨볼버 훈련 유닛(420)에 의해 적용되는 디컨볼버 훈련 동작을 개략적으로 나타낸 것이다.

이 프로세스는 의심 자료(700) 및 프록시 자료(710) 둘다의 블록별 고속 푸리에 변환(FFT)으로부터 시작하고, 여기서 블록 크기는 예를 들어 64k개의 연속적인 샘플일 수 있다. 나눗셈기(720)는 FFT 중 하나를 다른 하나로 나눈다. 이 경우에, 의심 자료에 적용될 변환 응답을 발생하는 것이 요망되기 때문에, 나눗셈기는 프록시 FFT를 의심 FFT로 나누는 동작을 한다.

평균 계산기(averager)(730)는 나눗셈기(720)로부터의 현재의 나눗셈 및 버퍼(740)에 저장된 n개의 가장 최근의 나눗셈 결과를 평균한다. 물론, 가장 최근의 결과도 역시 버퍼에 부가되고 가장 오래된(least-recently) 저장된 결과는 버려진다. n의 예는 5이다. 물론, 미가공된 FFT를 저장하고, 2개의 평균(하나는 프록시에 대한 것이고 하나는 의심 자료에 대한 것임)을 작성하며, 이들 평균을 나누는 것이 가능하지만, 이것은 저장 장치 요건을 증가시킨다.

이어서, 변환기는 복소 결과인 평균된 나눗셈 결과를 크기 및 위상 표현으로 변환한다.

로직(750)은 작은 크기 값들을 제거한다. 여기에서, 크기 값이 삭제되는 반면, 대응하는 위상 값은 그대로 남아 있다. 로직(750)은 크기 값에 대해서만 동작한다. 삭제된 작은 크기 값들은 선형 보간에 의해 가장 가까운 주변의 비삭제된 크기 값들로부터 보간된 값들로 교체된다.

이 프로세스는 도 20 및 도 21에 개략적으로 나타내어져 있으며, 여기서 도 20은 크기/위상 변환기(740)의 출력을 일단의 크기 값으로 개략적으로 나타낸 것이다(위상 값은 나타내지 않음). 문턱값 T_mag보다 작은 크기 값들은 삭제되고 가장 가까운 비삭제된 값들 간의 선형 보간에 의해 교체 값(751, 752, 753)이 발생된다.

그 결과 얻어지는 크기 값들은 변환기(770)에서 다시 복소 표현으로 변환되기 이전에 저역-통과 필터(760)에 의해 평활화된다. 이어서, 역 FFT(780)가 적용된다. 이것은 도 22에 나타낸 바와 같이 임펄스 응답을 발생한다. 의심 자료와의 컨벌루션을 위해 적합한 형태에 도달하기 위해, 임펄스 응답은 2개의 반쪽-로브(half-lobe)를 결합시켜 도 23에 도시된 것 등의 중심 피크가 되도록 하기 위해 윈도우 크기의 절반만큼 회전된다. 이것은 로직(790)에 의해 수행된다.

그렇지만, 도 23에 도시된, 로직(790)으로부터의 출력은 여전히 디컨벌루션(deconvolution)을 위해 완전히 적합하지는 않다. 이러한 이유는 이 응답의 측 엽(side lobe)(791)이 전체 윈도우에 걸쳐 퍼져 있기 때문이다. 이러한 응답이 디컨볼버(410)에서 사용되는 경우 이것은 엘리어싱 문제를 야기할 수 있다. 따라서, 변조기(800)는 도 23의 응답을 도 24에 나타낸 것 등의 sync 윈도우 함수와 곱하여, 도 25에 나타낸 것 등의 요구된 임펄스 응답을 생성한다. 이 임펄스 응답이 디컨볼버(410)에 공급된다.

레벨 일치

디컨벌루션 동작 이후에, 해적판 신호는 프록시 신호의 레벨과 가능한 한 가깝게 일치하게 된다. 실제로는, 경험적 시험으로부터 이것을 하는 유용한 방법이 피크값을 일치시키는 것보다는 오히려 2개의 신호의 평균 크기를 일치시키는 것임을 알았다.

이들 3개의 단계(시간 정렬, 디컨벌루션 및 레벨 일치)가 달성되었으면, 프록시 신호가 해적판 자료로부터 감산되어, 의심 페이로드

를 남긴다.

의심 페이로드 추출

유의할 점은 삽입 프로세스에서 노이즈 정형기로부터 나오는 페이로드 신호가 그에 들어간 가우시안 노이즈 스트림과 아주 다르다는 것이다. 값 SimVal을 구할 목적으로 (통계적 의미에서) 후보 페이로드 가우시안 노이즈 스트림과 보다 가깝게 일치하는 의심 페이로드 신호를 복구하기 위해, 노이즈-정형의 효과를 역전시키는 것이, 즉 페이로드 신호를 "언쉐이핑"하는 것이 적절하다.

"언쉐이핑(unshaping)"은 이득값을 노이즈 스트림과 곱하지 않고 나눗셈이 적용되는 것을 제외하고는 동일한 노이즈-정형 컴포넌트를 사용하여 달성된다.

비교 이전에 후보 페이로드 스트림을 노이즈-정형하는 것인 다른 가능한 방법이 기술적 측면에서 볼 때 가능하지만, 법률적 이유로 선호되지 않는다. 이러한 이유는 후보 스트림이 통계적으로 독립적인 샘플로 이루어져야 한다는 디지털 저작권 관리 시스템에서 채택된 수학적 원리를 어기게 되기 때문이다. 노이즈 스트림에 필터를 적용하는 것은 자동적으로 샘플들을 관련지어준다.

다른 이유는 탐색되는 신호가 노이즈에 파묻혀 있는 경우 컨벌루션의 기술이 보다 성공적으로 동작하기 때문이다. 노이즈 중에서 노이즈 스트림을 찾는 것은 일반적으로 유사하게 정형된 잔차 오디오 신호 중에서 정형된 신호를 찾는 것보다 효과적이고 신뢰성있다(왜냐하면 훨씬 더 안정된 교차 상관을 산출하기 때문이다).

마지막으로, 도 26은 데이터 처리 장치를 나타낸 것이다. 이것은 도 1의 인코더(50) 또는 도 2의 검출기(80)가 어떻게 구현될 수 있는지의 한 예로서 제공된 것에 불과하다. 그렇지만, 유의할 점은 적어도 도 1에서, 전체적인 디지털 시네마 구성(10)이 양호하게는 외부 연결을 갖지 않는 안전한 유닛이며, 따라서 최소한 지문 인코더가 하나 이상의 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit) 등의 하드-와이어드 장치로서 보다 양호하게 구현될 수 있다는 것이다.

도 26을 참조하면, 데이터 처리 장치는 중앙 처리 장치(900), 메모리(910)(랜덤 액세스 메모리, 판독 전용 메모리, 비휘발성 메모리, 기타 등등), 예를 들어 디스플레이(930) 및 키보드, 마우스 또는 둘다 등의 사용자 입력 장치(945)에의 인터페이스를 제공하는 사용자 인터페이스 제어기(920), 하드 디스크 저장 장치, 광학 디스크 저장 장치, 또는 둘다 등의 저장 장치(930), 근거리 통신망 또는 인터넷(950)에 연결하기 위한 네트워크 인터페이스(940), 및 신호 인터페이스(960)를 포함한다. 도 26에서, 신호 인터페이스는 핑거프린팅되지 않은 자료를 수신하여 핑거프린팅된 자료를 출력한다는 점에서 지문 인코더(50)에 적절한 방식으로 도시되어 있다. 그렇지만, 이 장치는 물론 지문 검출기를 구현하는 데 사용될 수 있다.

구성요소(900, 910, 940, 920, 930, 960)는 버스(970)에 의해 상호 연결되어 있다. 동작을 설명하면, 컴퓨터 프로그램은 저장 매체(예를 들어, 광학 디스크)에 의해 또는 네트워크 또는 인터넷 연결(950)을 통해 제공되며, 메모리(910)에 저장된다. 연속적인 명령어들이 CPU(900)에 의해 실행되어, 상기한 바와 같은 지문 인코딩 또는 검출과 관련하여 기술된 기능을 수행한다.

본 발명에 의하면, 노이즈 신호의 레벨의 감소가 1차 오디오 신호의 신호 레벨의 대응하는 감소에 대해 시간-전진되도록 시간-전진된 릴리스 함수(time-advanced release function)를 제공함으로써, 노이즈 신호가 순간적으로 1차 오디오 신호보다 더 크게 되는 바람직하지 않은 상황이 발생하는 것을 방지하는 효과가 있다.

Claims

페이로드 신호(payload signal)(160)가 1차 오디오 신호에 삽입되어 있는 오디오 처리 장치로서,

상기 페이로드 신호에 따라 노이즈 신호를 발생하는 동작을 하는 노이즈 발생기(220...236),

상기 1차 오디오 신호의 신호 레벨을 검출하는 레벨 검출기(300...307),

변조된 노이즈 신호(340)를 발생하기 위해 상기 1차 오디오 신호의 상기 검출된 신호 레벨의 증가 또는 감소에 응답하여 상기 노이즈 신호의 상기 레벨을 각각 증가 또는 감소시키는 변조기(320...307),

상기 1차 오디오 신호와 상기 변조된 노이즈 신호(340)를 합성하는 합성기(140), 및

신호 지연 소자(150)를 포함하며,

상기 변조기(320...327)는 상기 노이즈 신호의 상기 레벨의 감소가 상기 1차 오디오 신호의 상기 신호 레벨의 대응하는 감소에 대해 시간-전진되도록(time-advanced) 상기 신호 지연 소자(150)에 대해 동작하는 것인 오디오 처리 장치.
제1항에 있어서, 상기 변조기는 상기 노이즈 신호의 상기 레벨의 증가가 상기 1차 오디오 신호의 상기 신호 레벨의 대응하는 증가에 대해 시간-전진되지 않도록 상기 신호 지연 소자에 대해 동작하는 것인 오디오 처리 장치.
제1항 또는 제2항에 있어서, 상기 페이로드 신호는 법의학 마킹 신호(forensic marking signal)인 것인 오디오 처리 장치.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 노이즈 발생기는 상기 페이로드 신호의 적어도 일부가 씨드(seed)로 되는 의사 랜덤 노이즈 발생기인 것인 오디오 처리 장치.
제4항에 있어서, 상기 노이즈 발생기는 보안 키에 따라 상기 페이로드 데이터의 적어도 일부를 암호화하는 동작을 하는 것인 오디오 처리 장치.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 합성기는 상기 변조된 노이즈 신호를 상기 1차 오디오 신호에 부가하는 동작을 하는 것인 오디오 처리 장치.
제1항 내지 제6항 중 어느 한 항에 있어서, 2개 이상의 각자의 오디오 주파수 대역에 대해 동작하도록 구성되어 있는, 상기 레벨 검출기, 상기 변조기 및 상기 합성기의 세트를 2개 이상 포함하며,

상기 장치는 상기 2개 이상의 합성기의 출력을 합성하는 수단(330)을 포함하는 것인 오디오 처리 장치.
페이로드 신호가 1차 오디오 신호에 삽입되어 있는 오디오 처리 방법으로서,

상기 페이로드 신호에 따라 노이즈 신호를 발생하는 단계,

상기 1차 오디오 신호의 신호 레벨을 검출하는 단계,

변조된 노이즈 신호를 발생하기 위해 상기 1차 오디오 신호의 상기 검출된 신호 레벨의 증가 또는 감소에 응답하여 상기 노이즈 신호의 상기 레벨을 각각 증가 또는 감소시키는 단계, 및

상기 1차 오디오 신호와 상기 변조된 노이즈 신호(340)를 합성하는 단계를 포함하며,

상기 노이즈 신호의 상기 레벨의 감소가 상기 1차 오디오 신호의 상기 신호 레벨의 대응하는 감소에 대해 시간-전진되도록(time-advanced) 구성되어 있는 것인 오디오 처리 방법.
컴퓨터 상에서 실행될 때, 상기 컴퓨터로 하여금 제8항에 따른 방법을 수행하도록 하는 프로그램 코드를 갖는 컴퓨터 소프트웨어.
제9항에 따른 소프트웨어가 제공되는 매체.
제10항에 있어서, 상기 매체는 저장 매체인 것인 매체.
제10항에 있어서, 상기 매체는 전송 매체인 것인 매체.