KR20030027938A

KR20030027938A - 무성 검출

Info

Publication number: KR20030027938A
Application number: KR10-2003-7000454A
Authority: KR
Inventors: 스텔라알레시오; 네스바드바잔에이디; 바비에리마우로; 스나이지더프레디
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-05-11
Filing date: 2002-05-10
Publication date: 2003-04-07
Also published as: EP1393301A1; KR100916959B1; CN1462427A; CN1462426A; DE60233223D1; CN100380441C; CN1244900C; JP2004531766A; EP1393480B1; JP4365103B2; US20040125961A1; EP1393301B1; EP1393480A2; JP4560269B2; JP2004520627A; KR20030015385A; CN100348034C; WO2002093801A2; US20040138880A1; CN1612607A

Abstract

국부 신호 전력이 주어진 고정된 또는 상대적 문턱값보다 아래일 때 무성들이 검출되고, 국부 신호 전력이 상기 주어진 고정된 또는 상대적 문턱값보다 아래인 지속기간은 제 1 범위 내에 있고, 파라미터들 즉, 신호 전력 강하/상승 비율 및 국부 전력 편차중 적어도 하나는 각각 부가의 범위내에 있다. 또한, 본 발명은 수신기(1)에서 이러한 무성 검출의 이용에 관한 것이다.

Description

무성 검출{Silence detection}

EP 1 006 685 A2는 텔레비전 신호를 처리하고 텔레비젼 신호에서 커머셜들의 존재를 검출하는 방법 및 장치를 개시하고 있다. 커머셜 후보 섹션 검출기(commercial candidate section detector)는 정적 섹션(quiet section) 및 장면 변화 지점에 기초하여 커머셜 후보 섹션을 검출한다. 커머셜 특징 양 검출기(commercial characteristic quantity detector)는, 커머셜 후보 섹션이 커머셜들의 여러 특징들을 가지는지를 판단하고, 그 판단 결과에 기초하여 미리 결정된 값을 커머셜 특징값에 부가한다. 커머셜 특징 양 검출기는 마지막 커머셜 특징값을 미리 결정된 문턱값과 비교하고, 그 비교 결과에 기초하여 커머셜 후보 섹션이 커머셜 섹션인지를 판단한다. 정적 섹션 검출기는 정적 섹션들을 검출하도록 디지털화된 오디오 신호의 레벨을 문턱값과 비교하고, 그 비교 결과를 장면 변화 검출기에 출력한다. 또한 EP 1 087 557 A2를 참조한다.

본 발명은 오디오 신호들에서 무성들 검출에 관한 것이다. 또한, 본 발명은 커머셜 검출에서의 이러한 무성 검출 이용에 관한 것이다.

도 1은 본 발명의 실시예에 따른 수신기를 도시하는 도면.

도 2는 32개의 서브대역들을 포함하는 전형적인 오디오 프레임을 도시하는것으로, 각 서브대역은 3개의 블록들로 세분화되며, 각 블록은 12개의 양자화된 샘플들을 포함하고 스케일 팩터가 제공되는 도면.

도 3은 도 2의 전형적인 오디오 프레임을 도시하는 것으로, 각 서브대역에 대한 최대 스케일 팩터가 선택되고, 가능한 선택이 회색으로 강조되는 도면.

도 4는 전형적인 도형을 도시하는 것으로, 원들은 검출된 무성들의 국부 신호 전력들을 나타내고, 십자표들은 이 국부 신호 전력들의 평균을 나타내는 도면.

도 5는 도 4에 관한 전형적인 가능도를 도시하는 도면.

본 발명의 목적은 유리한 무성 검출을 제공하는 것이다. 이를 위하여, 본 발명은 독립 청구항에 정의된 바와 같이 무성들을 검출하는 방법, 무성 검출기 및 수신기를 제공한다. 유리한 실시예들은 종속 청구항에 정의된다.

본 발명의 제 1 관점에 따르면, 국부 신호 전력(local signal power)이 주어진 고정된 또는 상대적 문턱값보다 아래일 때 무성들이 검출되고, 상기 국부 신호 전력이 주어진 고정된 또는 상대적 문턱값보다 아래인 지속 기간은 제 1 범위 내에 있고, 파라미터들, 즉 신호 전력 강하 비율 및 국부 전력 편차 중 적어도 하나는 각각 부가의 범위 내에 있다. 국부 신호 전력 레벨이 주어진 고정된 또는 상대적 전력 레벨보다 아래인 시간 전 또는 근처에서 상기 신호 전력 강하 비율이 결정되고, 국부 신호 전력 레벨이 주어진 고정된 또는 상대적 문턱 전력 레벨보다 아래인 지속기간의 적어도 일부동안 국부 신호 전력 편차가 결정된다. 선형 편차(linear deviation) 및/또는 강하 비율은 무성들의 일부를 필터링하기 위해 이용되며, 그것은 지각력이 있을 수 있지만 커머셜 검출에 관련이 없다. 강하 비율 대신에 또는 그 외에, 사람들은 국부 신호 전력 레벨이 주어진 고정된 또는 상대적 문턱 전력 레벨보다 위로 상승하는 시간에 대하여 결정되는 상승 비율을 이용할 수 있다.

바람직한 실시예에서, 무성 시간 시작, 무성 지속기간 및 국부 신호 전력 레벨은, 연속 검출된 무성들 사이의 내용이 커머셜인지 여부를 결정하기 위해 후속의 통계 모델에 이용된다. 이 파라미터들은 무성 검출에서 이용할 수 있고, 따라서 연속 검출된 무성들 사이의 내용이 커머셜인지 여부를 결정하는데 유리하게 재이용될 수 있다.

오디오 신호가 양자화된 샘플들의 블록들을 포함할 때, 주어진 블록은 스케일 팩터들의 세트를 구비하며, 상기 무성 검출은 바람직하게 압축된 오디오 신호로부터 스케일 팩터들의 세트를 추출하고, 스케일 팩터들의 조합에 기초하는 주어진 블록에서 신호 전력을 제거한다. 상기 주어진 블록은 오디오 프레임 또는 오디오 프레임의 일부일 수 있다. 스케일 팩터들은 압축된 오디오로부터 용이하게 추출될 수 있다. 본 발명의 이러한 관점은 스케일 팩터가 이것이 관련된 샘플들의 최대 가능한 값을 나타낸다는 사실에 기초한다. 스케일 팩터들의 조합, 예를 들어 제곱한 스케일 팩터들의 합은 따라서 오직 제한된 계산 부하만을 필요로 하는 신호 전력의 대강의 추정(rough estimation)을 준다. 아 대강의 추정은 예를 들어, 커머셜 검출기들에서의 무성 검출과 같은 어떤 적용들에 꽤 알맞다. 스케일 팩터들의 세트의 서브세트만을 이용하는 것이 훨씬 더 유리하다. 스케일 팩터들의 총 세트의 오직 서브세트만을 이용함으로써 계산 부하를 더 감소시킨다. 이것은 정확도가 낮다는 결과를 가져올 수도 있지만, 이것은 커머셜들 등에 대한 무성 검출과 같은 어떤 적용들에 실제 관련이 없다. 서브 세트를 형성하는 것은 시간 방향에서 및/또는 주파수 방향에서 스케일 팩터들을 생략함으로써 실행될 수 있다. 예를 들어, 상기 서브세트는 오직 압축된 오디오 신호에서 이용가능한 복수의 협대역 서브 신호들의 서브세트를 포함하고, 상기 서브세트는 바람직하게 더 낮은 주파수 서브신호들의 수에 관한 스케일 팩터들을 포함한다. 이 경우, 상기 압축된 오디오 신호는 스테레오 또는 멀티 채널 신호이고, 오직 이용가능한 채널들의 서브세트만이 이용될 수 있다.

WO 96/3271 A1가 디지털 전송을 위해 오디오 신호들을 압축 및 압축해제하는시스템을 개시하고 있으며, 보조 데이터는 다중화되고 오디오 데이터로 인코딩되며 이것이 디코딩되는 방식으로 전송될 수 있다. 이 문헌은 159 페이지에 오디오가 존재하는지를 확인하기 위해 다른 채널에서 찾아지는 최소 스케일 팩터값을 개시하고 있다.

또한 본 발명은 프로그램을 전송하는 방법 및 장치에 관한 것으로, 상기 프로그램은 적어도 오디오 신호를 포함하고, 오디오 신호에서 비교적 낮은 신호 전력 레벨을 갖는 시간 간격들이 검출되고, 부가의 무성들은 부가의 무성들이 상기 시간 간격들보다 더 짧고 부가의 무성들이 시간 간격들 동안 오디오 신호보다 더 낮은 신호 전력 레벨을 가지는 시간 간격들에 도입된다. 낮은 전력 시간 간격들에 부가의 무성들을 제공하여, 신호들이 커머셜 검출기를 제어하도록 전송되고, 그것은 무성 검출을 이용한다. 낮은 전력 시간 간격들에 부가의 무성들을 제공하는 것은 그들의 가청도(audibility)가 무성들을 높은 신호 전력 시간 간격들에 부가하는 것에 비해 낮은 이점을 갖는다. 바람직하게, 상기 무성들은 수신기 측에서 무성 검출기의 것에 대응하는 범위들 내에 전력 편차 레벨들 및 전력 강하/상승 비율들을 갖는다. 또한 본 발명은 신호 및 저장 매체를 제공한다.

본 발명의 이들 및 다른 관점들은 수반하는 도면들을 참조로 하여 명확해질 수 있다.

도면들은 오직 본 발명의 실시예들을 이용하는데 도움이 되는 요소들을 도시한다.

도 1은 압축된 오디오 신호[A]를 수신하기 위한 본 발명의 실시예에 따른 수신기(1)를 도시한다. 수신기(1)는 압축된 오디오 신호[A]를 얻기 위한 입력(10)을 포함한다. 입력(10)은 안테나, 네트워크 접속, 판독장치 등일 수 있다. 수신기(1)는 압축된 오디오 신호에서 무성들을 검출하기 위한 무성 검출기(11), 및 상기 무성들의 검출에 의존하는 오디오 신호에 영향을 끼치기 위한 영향 끼침 블록(12; influencing block)을 더 포함한다. 상기 블록(12)은 예를 들어 압축된 오디오 신호를 디코딩하기 위한 디코더일 수 있으며, 상기 디코딩은 검출된 무성들에 의존한다. 상기 블록(12)은 검출된 무성들에 의존하여 압축된 오디오의 일부들을 스킵하는 스킵핑 블록(skipping block)일 수 있다. 무성 검출기(11)는 커머셜 검출기를 형성하도록 개선될 수 있다. 검출된 커머셜물들은 디코딩동안 스킵될 수 있다. 디코딩되거나 여전히 압축된 영향받은 오디오 신호 A는 출력(13)에 출력될 수 있다. 상기 출력(13)은 네트워크 접속, 재생장치 또는 기록 장치일 수 있다. 압축된 오디오 신호[A]는 프로그램 스트림에 포함될 수 있고, 이 프로그램 스트림은 비디오 신호를 더 포함한다. 그런 경우에, 프로그램 신호는 압축된 오디오 신호에서 검출된 무성들에 적어도 부분적으로 의존하는 블록(12)에서 영향을 줄 수 있다. 비커머셜 내용만을 저장하는 저장 장치에 적용하면 유리하다.

본 발명의 실시예에 따른 커머셜 검출기는 시청각 스트림들에서 커머셜 블록들을 자동적으로 검출한다. 이는 키 프레임 추출, 편집 또는 플레이백과 같은 어떤 종류의 처리동안 커머셜물들을 스킵하는 것을 허용한다. 여러 오디오 특징들에 있어서, 국부 통계치들은 변화하는 윈도우에서 측정되며 커머셜물들의 통계 모델들과 비교된다. 이러한 비교에 의해, 오디오 신호가 얼마나 커머셜물들과 국부적으로 유사한지를 나타내는 정규화된 가능도 함수가 유도된다. 가능도 함수는 커머셜 검출을 위해 적당히 유발될 수 있다. 통계적 윈도우는 국부적인 분석에서 둘 다 상술되기 위해 선택되고, 국부적인 불규칙들과 변동들에 대하여 강건하고, 이는 검출에 영향을 미치지 않는다. 알고리즘은 어떤 조건들에 적합할 수 있고, 이는 단일 스트림 또는 하나의 스트림과 다른 스트림 사이에 따라 변경할 수 있다. 상기 알고리즘은 독립된 비디오이다. 그럼에도 불구하고, 비디오 분석은 분류를 강화하거나 확정하기 위해 포함될 수 있다. 상기 알고리즘은 여러 종류의 저장 시스템들에 적용될 수 있다.

다수의 오디오 코더들(예를 들어, MPEG-1 레이어 1/2/3, MPEG-2 레이어1/2/3, MPEG-2 AAC, MPEG-4 AAC, AC-3)은 주파수 영역 코더들이다. 이들은 소스 스펙트럼을 다수의 협대역 서브 신호들로 나누고, 각 주파수 성분 또는 샘플을 별도로 양자화한다. 주파수 성분들 또는 샘플들은 스케일 팩터에 따르고 비트 배치에 따라 양자화된다. 이 스케일 팩터들은 주파수 성분들 또는 샘플들의 최대값의 지시기들로서 여겨질 수 있다.

AC-3에서, 주파수 성분들은 가수.2^(-지수)에 의해 표현될 수 있다. 여기서 지수는 2^(-지수)와 같은 각 가수에 스케일 팩터로서 작용한다.

MPEG-1 레이어 2에서, 협대역 서브 신호들은 12개의 양자화된 샘플들의 그룹으로 분할되고, 각 그룹은 해당 스케일 팩터를 갖는다. 이 스케일 팩터는 이것이 관련된 샘플들의 최대값에 대응한다.

검출 알고리즘은 스케일 팩터들의 서브세트를 적당히 이용한다. 협대역 서브 신호들의 모든 또는 서브세트에서, 신호 전력의 상부 경계는 스케일 팩터들을 제곱하여 계산된다.

이제 MPEG 오디오 압축을 이용한 실시예를 보다 상세하게 기술한다. MPEG-1 레이어 2에서, 오디오 신호는 48 kHz, 44.1 kHZ 또는 32 kHz의 샘플링 레이트을 위해 24 msec, 26.1 msec 또는 36 msec의 시간 간격들로 각각 나뉘어진다. 각각의 이 간격들에서, 상기 신호는 프레임에서 인코딩된다. 도 1을 참조하면, 각 프레임 간격은 3개의 부분들로 나뉘어지고 상기 신호는 32개의 서브대역 성분들로 분해된다. 각 서브대역 성분 및 프레임(도 1에서 하나의 직사각형)의 각 세 번째를 위해,12개의 샘플들은 스케일 팩터에 따르고 적당히 선택된 다수의 비트들에 따라 양자화된다. 스케일 팩터는 12개의 샘플들의 절대값의 상부 경계 추정치를 부여한다. 이 추정치는 매우 정확하지 않을 수 있다. 그러나 이것은 커머셜 검출을 위해 필요하지 않다. 스케일 팩터들은 보잘 것 없는 계산 부하를 갖는 각 오디오 프레임으로부터 추출될 수 있는데, 이는 그들이 의사 대수 인덱스들(pseudo logarithmic indexes)로서 프레임에서 직접 이용할 수 있는 있기 때문이다. 어떤 제한된 프레임 헤더 디코딩만이 필요하다. 어떤 감압도 필요하지 않다.

스테레오 모드에서, 각 채널은 프레임마다 그 자신의 96개의 스케일 팩터들을 갖는다. 검출 알고리즘은 왼쪽 또는 오른쪽 채널(도 2 참조)의 각 서브대역에서 최대 스케일 팩터만을 선택하는데, 즉 32개의 값들은 버퍼링되고 선형(대수 아님) 형태로 변환된다. 이를테면, 48 kHz 오디오 샘플링 레이트를 위해, 단지 서브대역들 0...26은 표준에 따라 이용되는데, 이것은 27개의 샘플들에 1125 샘플들/초 즉, 커머셜 검출기를 위해 가장 적당한 입력 데이터 레이트인 매 24 msec를 준다. 상기 버퍼링된 스케일 팩터들의 제곱들은 서브대역 신호 전력들에 관한 경계를 얻도록 계산된다. 이어서, 이들은 다음과 같이 이용된다.

(1) 그의 합은 총 짧은 시간 전력에 관한 상부 경계를 준다.

(2) 그들은 짧은 대역폭 추정치를 계산하도록 이용될 수 있다.

하기의 표는 MPEG-1 레이어 2(ISO/IEC 11172-3: 1993을 참조)표 B.1에서 스케일 펙터들을 위해 약간의 의사 대수 인덱스들을 준다.

인덱스	스케일팩터
0	2.0000
1	1,5874
2	1.2599
3	1.0000
4	0.7937
5	0.6299

오디오 프레임 j을 위한 짧은 시간 전력의 추정은 아래와 같다.

대안적으로 스케일 팩터를 찾기 위해 룩업테이블을 이용하는 것은 가능하다. 합계는 주어진 시간예에서 서브대역들의 수 이상 실행될 것이다. 서브대역들의 서브세트가 이용될 때, 합계는 적용에 따라 서브 대역들의 총수 또는 이용된 서브 대역들의 수 이상 실행되어야 한다.

무성 검출은

1) 예컨대 상기 표시된 바와 같이 Frame_power를 이용한, 국부 신호 전력 레벨,

2) 무성 지속기간에 대한 이입되는 문턱치들 및,

다음의 파라미터들, 즉

3) 무성 동안의 국부 전력 선형 편차,

4) 무성 시작 전의 국부 전력 강하 비율, 및

5) 무성 끝에서 국부 전력 상승 비율 중 적어도 하나에 기초한다.

신호 전력 특성들이 무성 검출기가 동작하는 환경에 상당히 의존하기 때문에, 무성 검출기에 오히려 더 적합할 수 있다. 따라서, 적합할 수 있고 국부 전력 레벨이 되기 위해, 관련된 파라미터들(예를 들어, 1), 3), 및/또는 4))은 이내 그들의 평균값들에 비교된다. 국부 신호 전력을 위한 통상적인 문턱은 0.01인데, 예컨대 국부 신호 전력은 신호 전력의 시간 평균의 1퍼센트 미만이어야 한다. 시간 평균은 w 프레임들의 길이를 갖는 적응 윈도우를 이용하여 계산된다.

j는 프레임 인덱스이다.

무성 지속기간은 국부 신호 전력 레벨이 주어진 고정된 또는 적응형 문턱 전력 레벨보다 아래인 지속기간이다. 선형 편차는 무성 지속기간의 적어도 일부 이상(프레임 전력-평균 프레임 전력)의 합계이다. 선형 편차 및 강하/상승 비율은 무성들의 일부를 필터링하기 위해 이용되고, 이는 지각력이 있을 수 있지만 커머셜 검출에 관련이 없다. 상기 국부 신호 전력 레벨은 예를 들어 오디오 프레임 또는 오디오 프레임의 일부마다 상기 기술된 바와 같이 스케일 팩터들을 이용하여 바람직하게 결정된다.

커머셜 블록에서의 커머셜들간의 무성 지속기간 브레이크 동안의 실제 범위는 3/25초 내지 20/25초이다.

무성 시작 시간, 무성 지속기간 및 무성 국부 전력 레벨의 값들은 하기 언급된 통계 계산들을 위해 버퍼링된다. 커머셜물들은 하기의 특징들, 즉

1) 2개의 연속하는 검출된 무성들 사이의 시간 간격,

2) 검출된 무성들(절대 및/또는 상대)의 국부 신호 전력 레벨,

3) 무성 지속기간, 및

4) 오디오 신호의 국부 대역폭의 국부 통계 모델을 특징으로 한다.

오디오 프레임 j의 국부 대역폭은 하기 방법에서 스케일 팩터들로부터 계산될 수 있다.

각 특징을 위해 0과 1 사이의 값들을 갖는, 0.5 정규화된 가능도 함수가 얻어진다. 그것은 이 특성의 국부 통계들이 얼마나 커머셜물들의 것과 유사한지를 나타낸다. 이어서, 서로 다른 가능도 함수들은 정보를 모두 동시에 이용하는, 여전히 0.5 정규화된 글로벌 가능도 함수를 얻도록 서로 다른 가중치들과 조합된다. 글로벌 가능도 함수는 시간축의 각 점에서 계산되고, 이것은 무성 시작 순간으로서 버퍼링된다. 값 0.5는 기본적으로 "총 불확실성" 또는 "내부의 커머셜 블록인 0.5 가능성"을 의미한다. 상기 가능도 함수는 서로 다른 방식으로 이용될 수 있다. 이것은 커머셜 경계들을 검출하도록 적당히 유발될 수 있다. 그것은 선택적으로 또한 비디오 특징들을 개발한, 그 이상의 분석과 분류들을 만드는 알고리즘들에 의해 (커머셜물들과 비커머셜물들 사이의 정규화된 소프트 분류로서) 이용될 수 있다. (모노 휘도, 모노 색차 프레임 검출, 장면 변화 검출과 같은) 서로 다른 레벨들의 비디오 특징들은 같은 가능도 방법 또는 다른 방법들을 적용한 오디오 특징들과 함께 통계적으로 분석될 수 있다. 리필링(refilling)을 이용하는 유발된 커머셜 검출이 이전에 기술된 오디오 분석에 근거하여 발전되고 시험되었다. 0.5 정규화된 가능도 함수 L(t)는, 검출된 무성이 커머셜 블록에 속하는지를 결정하도록 이용될 수 있다. 이것은 함수 Q(L(t))에 의해 행해질 수 있고, 하기와 같이 정의된다.

Q(L(t))= 1 if L(t)>0.5

Q(L(t))= 0 if L(t)<=0.5,

0 및 1의 값은 검출된 무성이 비커머셜 블록 및 커머셜 블록에 각각 속함을 의미한다.

실제적인 실시예에서, 커머셜물들의 무성은 적어도 60초간 지속되는 경우에만 검출된다. 45초보다 낮은 짧은 간격을 위해, 가능도 함수가 0.5보다 아래이기만 하면, Q(t)는 1로 설정된다. 이 절차를 "내부 리필링"으로 불렸다. 상기 내부 리필링은 산발적인 내부 분실 검출들을 제거한다. "외부 리필링"은 커머셜물들의 시작과 끝에 적용된다. 이를테면 만약에:

t_j, t_j+1,.., t_j+N이, 검출된 무성들이 시작하여,

L(t_i)=0.2

L(t_i+1)=0.4

L(t_i+2)=0.6

각 j=i+3,...,i+N을 위해 L(t_j)>0.5

j>i+N을 위해 L(t_j)<0.5이고,

t_i+2-t_i+1<45.0초

t_i+N+1-t_i+N<45.0초이면,

이어서

Q(L(t_i))=0

Q(L(t_i+1))=1

Q(L(t_i+2))=1

...

Q(L(t_i+N+1))=1

j>i+N+1을 위해 Q(L(t_i))=0이다.

외부 리필링은 첫 번째와 마지막 지점들의 조직적인 분실을 피할 때 유효하다. 이러한 사실은 윈도윙 세부사항에 관계가 있다. 상기 외부 및 내부 리필링은 상부 구동되는 특정한 비선형 필터링으로 간주될 수 있다. 커머셜 블록들의 범용 통계 모델이 이용될 수 있다. 하루의 서로 다른 시간들 동안 서로 다른 커머셜 블록 모델들 및/또는 서로 다른 종류의 프로그램들(드라마, 토크쇼, 축구 시합, 등) 및/또는 서로 다른 채널들을 이용하여 통계 세부사항을 정제할 수 있다. 이것이 만족스런 실행을 얻는데 필요하지 않더라도, 물론 그것들을 개선할 수 있다. 그것은 타깃 시스템의 복잡성과 그 실행 사이를 거래하는 문제이다. 상태들이 단일 채널에 맞게 바뀌는 것에 따라 검출의 적응성이 좋아진다. 특히, 국부 최소 잡음 레벨은 단일 채널에 맞게 바뀔 수 있고 하나의 채널에서 다른 채널로 많이 바꿀 수 있다.즉 이것은 무성 검출에 중요하다. 게다가, 커머셜 블록들의 통계 모델에서의 적응성은 중요하지 않지만 유용하다. 상기 시스템은 국부 최소 잡음 레벨에서 충분한 자기 훈련(적응)으로 구현될 수 있다. 유일한 제약은 채널이 스위칭될 때마다 알고리즘의 재설정을 적용하고 있다. 적응성과 정밀도 사이에 거래하는 문제들을 위해, 적응성이 초기 기간에서 빠르고 다음에서 느리기 때문이다. 상기 알고리즘이 언제라도 빨리 적응한다면, 커머셜 블록들 내부에 비교적 빠른 적응이 정밀도를 감소시킬 것이기 때문에 검출의 정밀도는 감소할 것이다. 실제적인 실시예에서, 동반 단일 채널 적응성(along-a-single-channel adaptability)이 항상 유지되는 동안 스위치 적응성은 처음 순간들(예를 들어, 소정의 연속하는 스위치를 위해 재설정)에만 유효하다. 적응성의 안정도는 비대칭 방안에 의해 보장된다. 최소 잡음 레벨이 감소할 때, 적응성은 이것이 증가할 때보다 더 빠르다. 이는 예를 들어, 무성 검출을 위해 국부 전력 에너지 문턱이, 무성이 이전에 검출된 것보다 더 낮은 국보 전력 에너지로 검출될 때 상대적으로 빠르다는 것을 의미한다. 발생할 수 있는 2가지 종류의 오류들 즉, 분실 커머셜 검출 또는 잘못된 커머셜 검출이 있다. 둘 다 비교적 낮고 커머셜 블록들의 시작 또는 끝 부분에 한정된다. 이 알고리즘은 어째든 유연하여, 결정 파라미터들은 어느 쪽이 더 관련이 있는지에 따라, 2개의 오류 비율들 사이의 거래를 바꿀 수 있다. 이를테면, 커머셜 블록 검출이 자동 키 프레임 추출을 위한 처리하면, 이어서 낮은 분실 검출 비율이 더 중요하다. 낮은 잘못된 검출이 단순 플레이백의 경우에 더 관련이 있다. 선택된 특징들을 참조하면(그러나 다른 것들이 부가될 수 있음), 서브대역 분석 없이 별도로 국부 전력 에너지 및 대역폭을 평가하는 것이 가능하다. 상기 대역폭의 값은 대칭 이동 윈도우의 2분(다른 값들이 선택될 수 있음)에서 낮은 샘플링 레이트를 요구한다. 따라서, 이를테면 그것은 지점들의 낮은 수를 갖는 연속하는 짧은 간격 FFT을 평균하는 것에 의해 추정될 수 있다. 기한마다 또는 전체 어는 한쪽이든 하나 또는 여러 가능도 함수들의 서로 다른 표준화들 및 조합들을 구현하는 것이 가능하다. 실제 구현은 기한마다 또는 전체적으로 재정규화를 갖는 결과 조합에 기초한다. 그 결과는 기본적으로 불린 설정{0,1}으로부터 연속 간격[0,1]에 연장된 불린 AND이다. 그것은 우수한 선택성을 보장한다. 대략, 서로 다른 조건들은 모두 동시에 부드럽게 부과된다. 그들은 완전히 모두 이행될 필요는 없지만 그들은 대부분 모두 이행될 필요가 있다. 추가 조합은 그 대신에 불린 OR의 일종의 연장이었고, 그것은 충분한 선택성을 보장하지 않는다. 또한 선택성 및 강건함은 지속기간 문턱을 갖는 가능도에 관한 어려운 결정에 의해 보장된다. 가능도 잡음 공차는 더구나 내부 리필링에 의해 보장된다.

하기예에서는 36분의 기록을 고려한다. 상기 기록은 영화의 적어도 일부에서 시작한다. 초들[646,866]은 커머셜물들을 포함한다. 두 번째 866에서, TV 쇼가 시작한다. 다른 커머셜물들은 간격 [1409,1735] 초내에 있다. 도 4는 각 검출된 무성동안 계산된 국부 신호 전력들인 원들을 도시한다. 십자표는 이 값들의 후진 평균을 나타낸다. 더 낮은 전력과 함께, 커머셜 무성들(간격들[646,866] 및 [1409,1735])이 주로 무성들을 자르는 것이 명백하다. 그것은 커머셜물들 내부의 무성들의 서로 다른 분포를 대충 알 수 있다. 이를 테면 그들 거의는 10 내지 30 초 떨어져 있다. 도시된 것과 같은 통계 세부항목들은 가능도 함수 추정에서 이용된다. 도 5는 얻어진 가능도 함수를 도시한다. 충만된 유발은 [648,866] 및[1408,1735]를 검출한다.

가능한 변화들

1) 스케링 팩터들의 더 큰 일부를 버퍼링하는 것이 가능하다. 또한 그들을 서브샘플링하는 것이 가능하다. 96 좌측 채널 스케일 팩터에서의 32의 현재 선택은 효과적인 것으로 입증되었다.

2) 오디오 특성들의 서로 다른 설정을 선택하는 것이 가능하다. 다른 특성들을 도입하기 전에 물론 신중하게 연구할 필요가 있다.

3) 상기 언급된 바와 같이, 하나 또는 여러 가능도 함수들의 서로 다른 종류의 정규화들 및 조합들을 구현하는 것이 가능하다. 현재 구현은 재정규화를 갖는 결과 조합에 기초한다. 그 결과는 기본적으로 불린 설정{0,1}로부터 연속 간격[0,1]에 연장된 불린 AND이다. 그것은 우수한 선택성을 보장한다. 합의 반은 불린 OR의 일종의 연장이지만, 그것은 선택성을 충분히 보장하지 않는다.

4) 이를테면 서로 다른 윈도윙 변경들 및/또는 서로 다른 오디오 특성들이 이용되면, 리필링으로 글로벌 가능도 함수를 유발하는 선택이 변경될 수 있다.

5) 다수의 방송장치들에 의해 커머셜 블록들의 시작 및/또는 끝에 규칙적으로 놓는 것들과 같이, 특정 오디오 시퀀스들의 인식은 또한 스케일 팩터들을 직접 처리하는 것에 의해 달성될 수도 있다.

송신기 측에서, 예를 들어 그들의 신호 전력을 낮추는 것에, 무성 지속기간을 적응시키는 것에, 신호 전력 강하 비율을 증가시키는 것에, 및/또는 무성 동안 전력 편차를 감소시키는 것에 의해, 그들을 보다 낫게 검출하는 방식으로 잘린 무성들을 적응시켜 상기 가능도 함수를 돕는 것이 가능하다. 이에 반해, 또한 그들의 신호 전력을 증가시키는 것에 의해, 예를 들어, 잡음을 도입시키는 것에 의해, 무성 지속기간을 적응시키는 것에 의해, 신호 전력 강하 비율을 감소시키는 것에 의해, 및/또는 무성 동안 전력 편차를 증가시키는 것에 의해, 잘린 무성들의 검출성을 낮게 하는 것이 가능하다. 게다가, 또한 신호에 가짜의 잘린 무성들을 도입시키는 것이 가능하다. 실제적인 실시예에서, 잘린 무성의 것과 유사한 낮은 전력을 갖는 0.15 초의 가짜의 잘린 무성 및 30 초의 간격은 아마도 커머셜 블록 검출을 못쓰게 만들 것이다. 가짜의 잘린 무성들은 아마도 음성 무성들과 같은 이미 존재하는 무성들에 삽입된다. 그런 경우에, 그들은 평균 사용자에 의해 거의 눈에 띄지 않을 것이다.

이 알고리즘은 시청각 재료에서 커머셜 블록들을 검출하고 그들의 경계들을 구분한다. 이어서, 커머셜 블록들은 브라우징, 자동 트레일러 생성, 편집 또는 단순 플레이백과 같은 어떤 종류의 처리 동안 스킵될 수 있다. 이 기능은 매우 낮은 부가의 비용으로 여러 종류의 저장 시스템들에 포함될 수 있다. 그것은 데이터의 획득 동안의 실시간이나 저장된 재료에서 오프라인으로 적용될 수 있다.

상기 언급된 실시예들이 본 발명을 제한하기 보다 오히려 설명하고 있고, 본 분야에 숙련된 자들이 첨부된 청구범위의 범위로부터 벗어나지 않고 많은 대안의 실시예들을 설계할 수 있다는 것을 알아야 한다. 청구범위에서, 괄호 사이에 놓인어떤 참조 부호들은 청구범위를 제한하는 것으로 해석되지 않을 것이다. 단어 "포함하는"는 청구항에 열거된 것과는 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별적 요소들을 포함하는 하드웨어에 의해, 적당히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단들을 나열하는 장치 청구항에서, 여러 이 수단은 하드웨어의 하나 및 같은 아이템에 의해 구현될 수 있다. 어떤 방법이 상호간에 서로 다른 종속항들에서 재인용된다는 단순한 사실은 이 방법의 조합이 유리하게 이용될 수 없다는 것을 나타내진 않는다.

Claims

오디오 신호에서 무성들을 검출하는 방법에 있어서,

상기 오디오 신호에서 국부 신호 전력 레벨을 결정하는 단계,

상기 국부 신호 전력 레벨이 주어진 문턱 전력 레벨보다 아래인 지속기간을 결정하는 단계,

다음의 파라미터들, 즉

- 상기 국부 신호 전력 레벨이 상기 주어진 문턱 전력 레벨 아래로 떨어지는 시간 전 또는 근처에서 신호 전력 강하 비율, 및

- 상기 국부 신호 전력 레벨이 상기 주어진 문턱 전력 레벨보다 아래인 적어도 일부의 상기 지속기간 동안 국부 신호 전력 편차 중 적어도 하나를 결정하는 단계를 포함하며,

상기 방법은 상기 국부 전력이 상기 주어진 문턱값보다 아래일 때 무성을 검출하는 단계를 더 포함하고, 상기 지속기간은 제 1 범위 내에 있으며, 상기 파라미터들 즉, 신호 전력 강하 비율 및 국부 신호 전력 편차 중 상기 적어도 하나는 각각 부가의 범위 내에 있는, 무성들 검출 방법.
제 1 항에 있어서,

무성 시작 시간, 상기 무성 지속기간 및 상기 국부 신호 전력 레벨은 후속의 통계 모델에 이용되어 연속 검출된 무성들 사이의 내용이 커머셜인지 여부를 결정하는, 무성들 검출 방법.
제 1 또는 2 항에 있어서,

상기 오디오 신호가 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트가 제공되며, 상기 방법은,

압축된 오디오 신호로부터 상기 스케일 팩터들의 세트를 추출하는 단계, 및

상기 스케일 팩터들의 조합에 기초하여 상기 주어진 블록에서 상기 신호 전력을 추정하는 단계를 포함하는, 무성들 검출 방법.
제 3 항에 있어서,

상기 추출하는 단계 및 추정하는 단계는 상기 스케일 팩터들의 세트의 서브세트에 대해서만 실행되는, 무성들 검출 방법.
제 3 또는 4 항에 있어서,

상기 오디오 신호는 복수의 협대역 서브 신호들을 포함하며, 각 협대역 서브 신호는 신호 블록들로 세분화되며, 각 블록은 양자화된 샘플들을 포함하고 하나 또는 그 이상의 스케일 팩터들이 제공되며, 상기 추출하는 단계는 하나 또는 그 이상의 상기 서브 신호들에 대해서 실행되는, 무성들 검출 방법.
제 5 항에 있어서,

상기 추출하는 단계는 상기 복수의 서브 신호들의 서브세트에 대해서만 실행되는, 무성들 검출 방법.
제 6 항에 있어서,

상기 서브세트는 주로 많은 더 낮은 주파수 서브 신호들의 상기 스케일 팩터들을 포함하는, 무성들 검출 방법.
제 4 내지 7 항 중 어느 한 항에 있어서,

상기 블록들은 적어도 2개의 서브블록들로 세분화되며, 각 서브블록은 스케일 팩터가 제공되며, 상기 추정하는 단계에서 이용하기 위해 블록마다 최대 스케일 팩터만이 추출되는, 무성들 검출 방법.
제 1 내지 8 항 중 어느 한 항에 있어서,

상기 압축된 오디오 신호는 스테레오 또는 멀티 채널 신호이며, 상기 추출하는 단계는 상기 이용가능한 채널들의 서브세트에 대해서만 실행되는, 무성들 검출 방법.
오디오 신호에서 무성들을 검출하는 무성 검출기에 있어서,

상기 오디오 신호에서 국부 신호 전력 레벨을 결정하는 수단,

상기 국부 신호 전력 레벨이 주어진 문턱 전력 레벨보다 아래인 지속기간을결정하는 수단,

다음의 파라미터들, 즉

- 상기 국부 신호 전력 레벨이 상기 주어진 문턱 전력 레벨 아래로 떨어지는 시간 전 또는 근처에서 신호 전력 강하 비율, 및

- 상기 국부 신호 전력 레벨이 상기 주어진 문턱 전력 레벨보다 아래인 적어도 일부의 상기 지속기간 동안 국부 신호 전력 편차 중 적어도 하나를 결정하는 수단을 포함하며,

상기 검출기는 상기 국부 전력이 상기 주어진 문턱값보다 아래일 때 무성을 검출하는 수단을 더 포함하며, 상기 지속기간은 제 1 범위 내에 있으며, 상기 파라미터들 즉, 신호 전력 강하 비율 및 국부 신호 전력 편차 중 상기 적어도 하나는 각각 부가의 범위 내에 있는, 무성 검출기.
압축된 오디오 신호를 수신하는 수신기에 있어서,

압축된 오디오 신호를 얻는 입력,

상기 압축된 오디오 신호에서 무성들을 검출하기 위한 제 10 항에 청구되는 무성 검출기, 및

상기 오디오 신호에 영향을 주는 수단을 포함하며,

상기 영향을 주는 것은 적어도 부분적으로 상기 무성들의 검출에 의존하는, 수신기.
적어도 오디오 신호를 포함하는 프로그램을 송신하는 방법에 있어서,

상기 오디오 신호에서 비교적 낮은 신호 전력 레벨을 갖는 시간 간격들을 검출하는 단계, 및

부가의 무성들이 상기 시간 간격들보다 더 짧고 상기 시간 간격들 동안 상기 오디오 신호보다 더 낮은 신호 전력 레벨을 갖는 상기 시간 간격들에 부가의 무성들을 도입하는 단계를 포함하는, 프로그램 송신 방법.
적어도 오디오 신호를 포함하는 프로그램들을 송신하는 송신기에 있어서,

상기 오디오 신호에서 비교적 낮은 신호 전력 레벨을 갖는 시간 간격들을 검출하는 수단, 및

부가의 무성들이 상기 시간 간격들보다 더 짧고 상기 시간 간격들 동안 상기 오디오 신호보다 더 낮은 신호 전력 레벨을 갖는 상기 시간 간격들에 부가의 무성들을 도입하는 수단을 포함하는, 송신기.
적어도 오디오 신호를 포함하는 프로그램에 있어서,

상기 오디오 신호는 비교적 낮은 신호 전력 레벨을 갖는 시간 간격들에 존재하는 부가의 무성들을 포함하며,

상기 부가의 무성들은 상기 시간 간격들보다 더 짧고 상기 시간 간격들 동안 상기 오디오 신호보다 더 낮은 신호 전력 레벨을 갖는, 프로그램.
제 14 항에 청구되는 신호가 저장된 저장 매체.