KR20080066007A - 재생용 오디오 프로세싱 방법 및 장치 - Google Patents

재생용 오디오 프로세싱 방법 및 장치 Download PDF

Info

Publication number
KR20080066007A
KR20080066007A KR1020087010555A KR20087010555A KR20080066007A KR 20080066007 A KR20080066007 A KR 20080066007A KR 1020087010555 A KR1020087010555 A KR 1020087010555A KR 20087010555 A KR20087010555 A KR 20087010555A KR 20080066007 A KR20080066007 A KR 20080066007A
Authority
KR
South Korea
Prior art keywords
audio
chromagrams
correlation
transition
audio track
Prior art date
Application number
KR1020087010555A
Other languages
English (en)
Inventor
스테펜 씨. 파우스
파비오 비그노리
아웨크 엔. 레마
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20080066007A publication Critical patent/KR20080066007A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

오디오 트랙의 시작 영역과 이전 오디오 트랙의 종료 영역 사이의 매끄러운 전이를 제공하도록 재생용 오디오를 프로세싱하는 방법 및 장치가 개시된다. 크로마그램을 나타내는 양은 각 오디오 트랙에 대해 계산되고 각 오디오 트랙의 시작 및 종료 영역들에 대한 믹싱 포인트가 식별된다. 재생용 오디오 트랙들의 순서를 결정하고 및/또는 믹스 전이의 지속기간을 결정하기 위해 오디오 트랙의 시작 영역의 믹싱 포인트에서 크로마그램을 나타내는 양과 이전 오디오 트랙의 종료 영역의 믹싱 포인트에서 크로마그램을 나타내는 양이 상관된다.
Figure P1020087010555
전이, 양, 크로마그램, 상관, 지속기간

Description

재생용 오디오 프로세싱 방법 및 장치{Method and apparatus for processing audio for playback}
본 발명은 재생용 오디오를 프로세싱하는 방법 및 장치에 관한 것이다. 특히, 오디오의 연속한 부분들 사이에 매끄러운 전이(smooth transition)가 제공되는 오디오의 재생에 관한 것이다.
오디오 압축, 가정에서 광대역 인터넷 액세스의 이용 가능성 및 전자 음악 유통 시스템의 대중성의 진보의 결과로서, 사용자들은 계속 증가하는 오디오 파일들을 획득하고 그들의 로컬 데이터베이스들에 저장할 수 있다. 또한, 대용량 랜덤-액세스 스토리지 및 정교한 렌더링 특성을 갖는 가전-디바이스들이 순간 재생이 가능한 완전한 전자 음악 데이터베이스를 형성한다. 제한된 수의 노래들만이 수동으로 선택된 종래의 음악 재생에 반해, 사용자의 관심을 고려하면서 완전한 데이터베이스를 사용하는 지능적인 재생 목록 발생 기술에 대한 강한 요구가 있다. 또한, 이들 노래들을 매끄러운 전이와 함께 끊김없이 스트리밍하는 방법으로 표현하는 것이 바람직하다. 노래들 사이에 매끄러운 전이를 제공하는 자동 오디오 믹싱 및 재생 시스템들은 잘 알려져 있고 일반적으로 AutoDJ로 참조된다.
AutoDJ는 음악에 관한 "지식"을 갖고 이에 따라 주어진 데이터베이스로부터 노래들을 선택하고 믹싱할 수 있는 소비자 하드웨어 플랫폼 내의 소프트웨어 기능이다. AutoDJ는 오디오 믹싱을 수행하기 위해 인간 DJ들에 의해 이용되는 툴이 아니고, 오히려 인간 DJ들을 대체하고 최소의 조정으로 동작한다.
AutoDJ는 단순히 크로스페이드 전이(crossfade transition)를 제공하는 것이 아니라 오디오 콘텐트 및 사용자의 선호에 따라 상이한 유형의 전이를 적용할 수 있다. AutoDJ는 두 부분으로 나뉠 수 있다: (1) 재생 목록을 발생하고, 선호도에 따라 즉, 일부 "음악의 지식"을 갖고, 노래들을 분류하는 단계; (2) 연속하는 노래들을 믹싱하고 상기 믹싱을 재생하는 단계. 노래들을 믹싱하는 단계는 전이의 유형 및 크기를 계산하는 단계, 정확한 믹싱 포인트를 결정하는 단계 및 음악을 재생하는 단계들을 포함한다. 이러한 AutoDJ 시스템들은 연속하는 트랙들의 분석뿐만 아니라 연속하는 트랙들 사이의 다양한 전이(예를 들어, 템포의 이퀄라이제이션 및 비트 위상의 동기)를 실현하도록 복잡한 사운드 프로세싱 기능을 제안한다. 이는 간단한 기준에 기초하여 전이를 결정하고, 그 후 전이를 실행한다.
자동 오디오 믹싱을 수행하는 다수의 현재 제품들이 있고, 예를 들어, Bpm DJ 및 DJ Mix Pro. Bpm DJ는 미리 규정된 재생 목록들이 생생하게 믹스되는 폐쇄 시스템이다. 상기 미리 규정된 믹스들은 상이한 장르들에 기초한다. 예를 들어 선택은 South Dakota 웨딩 SJ 믹스, Sioux Falls, Brookings 믹스, Chamberlain 믹스, 또는 Watertown 이벤트 믹스 또는 무도회, 학교 댄스, 파티 등을 포함한다. 이들은 모두 알려진 데이터베이스 및 재생 목록들에 기초한다. 그러나, 이러한 방법은 노래들의 사전 지식을 필요로 하고 노래들의 미리 규정된 콜렉션으로만 동작할 것이다. DJ Mix Pro는 재생 목록들의 선택에 있어서 더 많은 유연성을 제공하고 입력 재생 목록들에 기초하여 어느 정도까지 비트 믹싱을 수행한다. 그러나, 이는 구 경계(phrase boundaries)와 같은 중요한 노래의 세만틱(semantics)을 결정할 수 있는 능력이 결여된다. 두 노래들 사이에 끊김 없는 전이를 생성하기 위해 자동으로 노래들을 믹싱하는 것이 또한 US2003/0183964호에 개시된다. 알려진 자동 믹싱 방법의 단점은 생성된 믹싱 전이들이 종종 짧거나 열악한 품질을 갖는다는 것이다.
따라서, (거의) 끊김 없는 전이(transition)를 생성하도록 재생 목록의 연속하는 음악 트랙들을 자동으로 선택, 순서를 매기고 믹싱하도록 단순하고 효율적인 시스템을 제공하는 것이 바람직하다. 또한, 재생 순서가 오디오 트랙들 사이에 매끄러운 전이를 제공하도록 최적화될 수 있는 다양한 재생 목록들을 제공할 수 있는 완전한 데이터베이스를 이용할 수 있는 AutoDJ를 제공하는 것이 바람직하다. 음악 트랙은 예를 들어, 후속 재생을 위해 디지털 포맷으로 저장될 수 있는 노래와 같이 오디오의 부분이다.
이는 특히, 오디오 트랙의 시작 영역과 이전 오디오 트랙의 종료 영역 사이의 매끄러운 전이(transition)를 제공하도록 재생용 오디오를 프로세싱하는 방법으로서, 상기 오디오 트랙의 상기 시작 영역의 믹싱 포인트에서 크로마그램(chromagram)을 나타내는 양(quantity)과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트에서 크로마그램을 나타내는 양을 상관시키는 단계; 및 상기 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 상기 오디오 트랙의 상기 시작 영역과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트들에서 재생 동안 연속하는 오디오 트랙들 사이의 전이를 매끄럽게 하는 단계를 포함하는, 오디오 프로세싱 방법에 의한 본 발명의 제 1 양상에 따라 달성된다. 크로마그램을 나타내는 양은 크로마그램 자체이거나 상기 크로마그램으로부터 도출된 하나 이상의 값들일 수 있다.
이는 또한, 오디오 트랙의 시작 영역과 이전 오디오 트랙의 종료 영역 사이의 매끄러운 전이를 제공하도록 재생용 오디오를 프로세싱하는 장치로서, 상기 오디오 트랙의 상기 시작 영역의 믹싱 포인트에서 크로마그램을 나타내는 양과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트에서 크로마그램을 나타내는 양을 상관시키는 상관기(correlator); 및 상기 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 상기 오디오 트랙의 상기 시작 영역과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트들에서 재생 동안 연속하는 오디오 트랙들 사이의 전이를 매끄럽게 하는 수단을 포함하는, 오디오 프로세싱 장치에 의한 본 발명의 제 2 양상에 따라 달성된다.
크로마그램들이 오디오 트랙들의 매끄러운 믹싱들을 생성하는데 가장 유용하다는 것이 알려지게 되었다. 상기 시스템은 노래들의 임의의 사전 지식을 갖는 임의의 오디오 콜렉션으로 작동할 수 있다.
크로마그램들은 각각의 연속하는 레코딩들의 쌍이 그들의 믹싱 포인트들에서 유사한 하모니 또는 화음 콘텍스트들을 갖는 방법으로 재생 목록에서 오디오 레코딩들을 선택하고 분류하는데 이용될 수 있다. 오디오 레코딩들의 이러한 최적 배열은 재생 목록에서 임의의 연속 오디오 레코딩들의 믹싱 포인트들의 크로마그램들 사이의 최대 상관을 찾음으로써 달성될 수 있다.
바람직하게, 복수의 오디오 트랙들이 연속 오디오 트랙들의 시작 및 종료 영역의 크로마그램들의 상관에 기초한 순서로 재생을 위해 선택된다. 재생 순서가 연속 오디오 트랙들의 시작 및 종료 영역의 크로마그램들의 상관을 최적화하도록 결정되는 것이 더욱 바람직하다.
재생 목록에서의 순서는 오디오 트랙들의 시퀀스가 미리 규정된 제약들을 만족시키는지에 대한 패널티가 계산되고; 가장 적은 패널티를 갖는 오디오 트랙들의 시퀀스를 반복적으로 도출하는, 로컬 검색 방법에 기초하여 결정된다. 상기 패널티는 상기 오디오 트랙들의 크로마그램들 사이의 상관에 기초하여 계산된다.
부가적으로 또는 대안적으로, 연속 오디오 트랙들 사이의 믹싱된 전이의 지속기간은 연속 오디오 트랙들의 시작 및 종료 영역의 크로마그램들의 상관에 기초하여 결정될 수 있다.
본 발명의 바람직한 실시예에서, 크로마그램들은 미리 결정된 수의 옥타브를 넘는 각 오디오 트랙의 콘텐트의 진폭 FFT-기반 스펙트럼을 조화롭게 압축함으로써 계산된다. 옥타브들의 수는 6일 수 있다. 각 오디오 트랙의 상기 조화롭게 압축된 진폭은 해밍 윈도우에 의해 상기 스펙트럼을 곱함으로써 필터링된다. 진폭 스펙트럼의 값들은 스펙트럼 피크에서 및 피크 주변에서 추출된다.
크로마그램은 음악 오디오에서 모든 12개의 크로마들의 가능성의 인코딩이다. 크로마는 옥타브와 상관없이, 키 이름(예를 들어, 'C', 'C#', 'D')에 의해 나타내는, 키의 음계 위치 카테고리이다. 따라서, 한 옥타브 떨어진 두 개의 피치들은 동일한 크로마를 공유하지만 피치 높이는 상이하다. 이에 따라, 크로마는 사실상 옥타브 주기로 순환적이다. 이러한 방법으로, 크로마그램은 음악 샘플의 화성(harmonic)/화음(chordal) 콘텐트를 12-성분 특성 벡터와 같은 매우 컴팩트한 형태로 서머라이즈한다(summarize).
특정 키로 작곡되거나 특정 화음 진행을 이용하는 음악은 비교적 자주 일어나는 특정한 크로마들을 갖고, 이들 크로마들은 더 안정적이도록 발견된다. 장조의 크로마그램들(또는 그들의 대응하는 장조 3화음)은 그들의 음조에 대해 가장 높은 발생율을 갖고, 3화음의 다른 두 개의 피치들은(장조 3화음, 5화음) 비-음계 피치들에 의해 끝나도록 장조의 나머지 피치들이 뒤따른다. 반대로, 단조의 크로마그램들(또는 그들의 대응하는 단조 3화음)은 장조 3화음 보다 낮은 발생율이지만, 단조 3화음 보다 높은 발생율을 갖는 것이 다르다. 크로마그램들은 피치와 음조의 중심 사이의 관계에만 따르고 절대 피치들에 따르지 않는다. 결론적으로, 상이한 장조 또는 단조(화음들)는 모두 서로의 전위(transposition)이다. 예를 들어, C 장조에 대한 크로마그램은 G 장조에 대한 크로마그램에 도달하기 위해 6 음계 시프트될 수 있다. 이는 두 개의 오디오 샘플들의 크로마그램들 사이의 피어슨의 곱 모멘트 상관(Pearson's product moment correlation)이 두 오디오 샘플들 사이의 화성 유사성을 계산하는데 훌륭한 후보자가 되도록 한다.
본 발명의 보다 완전한 이해를 위해, 첨부된 도면과 관련하여 이하의 기술들이 참조된다.
도 1은 공지된 자동 DJ 시스템의 단순 개략도.
도 2는 오디오 트랙의 전형적인 믹싱을 그래픽적으로 표현한 도면.
도 3은 본 발명의 실시예에 따른 AutoDJ 시스템의 단순 개략도.
도 4는 도 3의 AutoDJ 시스템의 믹서의 단순 개략도.
잘 알려진 AutoDJ의 기본 개략도가 도 1에 도시된다. 이는 콘텐트 분석기(103) 및 재생기(105)로 노래들을 출력하는 노래 데이터베이스(101)를 포함한다. 상기 콘텐트 분석기(103)는 콘텐트의 리듬 및 지각 특성을 나타내는 파라미터들을 추출하기 위해 데이터베이스(101)에 저장된 노래들을 분석한다. 이들은 다른 것들 중에서, 노래 세그멘테이션 파라미터들, 탬포 및 비트 위치(개시(onsets)), 화성 사인 등을 포함한다. 이들 파라미터들(집합적으로 AutoDJ 메타-정보로 참조됨)은 편리하게 오프라인으로 계산되고 링크된 특징 데이터베이스(107)에 저장되거나 부가된다.
재생 목록 발생기(109)는 사용자 선호도가 공급되고 데이터베이스(101)를 이용하여 적당한 재생 목록을 생성한다. 재생 목록과 같이, 주어진 전이 계획기(111)는 재생 목록의 노래들에 대응하는 AutoDJ 메타-정보를 비교하고 최적의 재생 순서를 결정하고 재생기(105)에 의해 실행될 명령들의 세트를 발생한다. 마지막으로, 재생기(105)는 노래들을 데이터베이스(101)로부터 노래들이 어떻게 믹스되어야 하는지 및 어떻게 리듬적으로 일관되고 매끄러운 방식으로 재생되어야 하는지를 지시 하는 명령들의 시퀀스를 실행하는 출력-렌더링 디바이스(113)(예를 들어 스피커)로 스트리밍한다.
끊김없는 노래 전이를 수행하기 위해, 믹스되어 성공적으로 재생될 노래들이 그들의 믹싱 포인트들에서 음악적으로 유사한 특성들을 갖는다는 것이 필수 조건이다. 따라서, 노래들의 선택 및 재생 목록에서 그들의 순서는 믹스에서 음악 유사성을 보장하기 위해 중요하다. 템포에서 작은 비유사 특성이 시간-연장 알고리즘과 같은 음악 변환 기술들을 적용함으로써 정정될 수 있다. 노래들은 "비트 믹싱"으로 알려진 그들의 비트(즉, 음악에서 인식된 펄스)를 정렬함으로써 믹싱될 수 있다. 노래들은 또한, "화성 믹싱"으로 알려진 유사한 음악적 키(또는 유사한 화성/화음)에 대해 믹싱될 수 있다.
재생 목록에서 노래들의 정확한 "최상의" 순서를 발생하기 위한 많은 알려진 기술들이 있다. 이들 중 하나가 로컬 검색으로 알려져 있다. 이러한 방법에서 사용자 선호는 재생 목록에 대한 제약으로서 규정된다. 재생 목록에 대해 "최상의" 피트를 발생하기 위해 제약을 위반한 것에 대한 패널티가 최소화된다. 이를 달성하기 위해, 어느 정도의 제약들이 만족되는지를 숫자 값들로 표현하는 패널티 함수가 이용된다. 로컬 검색은 해결책(재생 목록)이 발견되고 각 반복에서 랜덤이고, 이 해결책에 대해 작은 변화들이 생기는 반복적인 방법으로 수행된다. 해결책에 대해 생길 수 있는 이러한 변화들은 (ⅰ) 노래 추가, (ⅱ) 노래 삭제, (ⅲ) 새로운 노래로 대체, 및 (ⅳ) 재생 목록에서 두 노래들의 교환 등이다. 그 후 각 반복의 각 해결책에 대한 패널티는 최소의 패널티가 발견될 때까지 이전의 패널티와 비교된다.
AutoDJ에서 적당한 재생 목록을 발생하는 다른 알려진 방법은 사용자 선호를 모델링하도록 커널 함수들의 가우시안 선형 조합을 이용하는 것이다. 상기 모델은 커널 함수들을 이용하여 노래들의 메타데이터 사이의 유사성을 표현함으로써 사용자 선호를 학습하도록 시도한다. 일단 AutoDJ가 훈련되면, 학습된 행동이 다른 더 큰 노래들의 세트에 바로 적용된다. 기본적인 가정은 메타데이터가 그들이 링크되는 노래를 일관되게 서머라이즈한다는 것이다.
파일의 오디오 콘텐트에 부착된 메타데이터가 임의로 채워지고 노래의 행동을 나타낼 필요가 없기 때문에 많은 경우 이는 유효한 가정이 아니다. 또한, 이는 노래들의 비트 믹싱을 따르지 않는다.
본 발명의 원리에 대한 독자들의 이해를 돕기 위해, 믹싱 프로세스의 기초가 도 2 내지 도 4를 참조로 상세히 기술된다.
도 2는 음악 트랙의 전형적인 구조를 도시한다. 음악 트랙의 구조는 단지 예이고 구현될 전이의 유형은 믹싱이 적용되는 위치에 따르고, 또는 반대로 이용된 간격은 전이의 관찰된 유형에 따른다.
도 2에 도시된 바와 같이, 음악 트랙(또는 노래)은 3개의 주요 부분, 즉 인트로(intro), 요점(meat) 및 아우트로(outro)로 분해된다. 이들 및 몇몇 다른 영역들은 다음과 같이 규정될 수 있다:
제 1 청취 가능(페이드-인 순간(fade-in moment))(201). 트랙이 가청 문턱값을 처음으로 겨우 초과하는 시간에서의 위치;
인트로의 끝(end of intro; 202). 이는 단지 분석 목적으로만 이용된다. 블 렌드-인 순간(blend-in moment) 포인터에 대한 앵커(anchor)로서 이용된다. 인트로의 일부가 비트 믹스 전이에 있는 확률을 감소시킨다.
블렌드-인 순간(blend-in moment; 203). 이는 비트 믹스의 경우, 재생 목록에서 이전 트랙의 블렌드-아웃 순간(blend-out moment)과 동기하는, 비트 개시(beat onset)의 위치를 식별한다.
블렌드-아웃 순간(blend-out moment; 204). 이는 비트 믹스의 경우, 재생 목록에서 다음 트랙의 블렌드-인과 동기하는, 비트 개시의 위치를 식별한다.
아우트로의 시작(start of outro; 205). 이는 단지 분석 목적으로만 이용된다. 이는 블렌드-아웃 순간 포인터의 앵커로서 이용된다. 이는 아우트로의 일부가 비트 믹스 전이에 있는 확률을 감소시킨다;
최종 청취가능(페이드-아웃 순간(fade-out moment))(206). 트랙이 마지막으로 가청 문턱값을 겨우 초과하는 시간에서의 위치;
상기한 구획(delimiters)에 기초하여, 4 개의 믹스(분석) 영역들이 있다:
페이드-인 영역(영역 A): 전이 유형 페이드-인이 적용되는 영역. 이는 전적으로 노래의 인트로에 위치하고 페이드-인 순간(201)으로부터 시작하여 신장한다. 이의 실제 지속기간은 진행하는 노래의 특징에 따른다.
블렌드-인 영역(영역 B): 이전 노래와의 비트-믹스가 일어날 수 있는 영역. 완전히 노래의 요점 부분이고 상기 블렌드-인 순간(203)으로부터 시작하여 신장한다. 이의 정확한 지속기간은 진행하는 노래의 특징에 따른다.
블렌드-아웃 영역(영역 C): 다음 노래와 비트-믹스가 일어날 수 있는 영역. 완전히 노래의 요점 부분이고 블렌드-아웃 순간(204)까지 신장한다. 실제 지속기간은 다음 노래의 특징에 따른다.
페이드-아웃 영역(영역 D): 전이 유형 페이드-아웃이 적용되는 영역. 완전히 노래의 아우트로 부분이고 페이드-아웃 순간(206)까지 신장한다. 실제 지속기간은 다음 노래의 특징에 따른다.
각각의 분석 영역에 대해, AutoDJ 메타-정보는 데이터베이스에 저장된다. 이들 영역 외부에, 임의의 영역에 대해 메타-정보의 실시간 계산이 가능하면 화려한 믹싱이 구현될 수 있다. 메타-정보가 이용가능하지 않을 때, 바람직한 실시예의 AutoDJ는 단순한 CD-스타일 전이를 사용할 것이다.
본 발명의 실시예에 따른 AutoDJ 시스템이 제 1 단계는 콘텐트들의 자동 선택 및 분류를 가능하게 하는 신호 특성들을 추출하는 것이다. 이를 위해, AutoDJ 특성들의 두 개의 카테고리가 식별된다, 즉 특성들의 세트는 예술적으로 일관된 믹싱을 만드는데 필수적이고(재생 목록 특성으로 참조됨) 리듬적으로 일관된 믹싱을 만드는데 필수적(리듬 특성으로 참조됨)이다.
재생 목록 특성들은 사용자의 기준을 만족하는 노래들의 의미있는(예술적으로 일관된) 콜렉션을 구성하는데 이용되는 특성들의 세트들이다. 재생 목록 발생은 레코드와 함께 전달된 메타데이터에 기초하여 개시될 수 있다. 이러한 메타데이터는 수동으로 컴파일된 최상의 경우이고 아티스트의 장르와 같이 노래의 환경의 직관적인 지식에 기초한다. 공통으로 제공된 메타데이터는 출판 연도, 아티스트 이름, 장르 태그 등을 포함한다. 재생 목록 발생 방법에 기초한 메타데이터는 기본적 으로 컴파일된 메타데이터가 링크된 노래를 정확하게 기술한다고 가정한다. 그러나 이러한 가정은 드러난 콘텐트들에 부착된 메타데이터가 대부분의 경우 임의로 채워지고 노래의 행동을 나타낼 필요가 없기 때문에 거의 있을 것 같지 않게 달성된다. 따라서, 노래 특성과 메타데이터 사이의 링크는 결함이 있는 모델이 된다.
재생 목록을 발생하는 또 다른 방법은 콘텐트 자체로부터 메타데이터를 자동으로 발생하는 신호 프로세싱 툴을 이용하여 추출되는 저-레벨 특성들에 기초한다. 이는 노래들의 분류를 가능하게 한다. 이는 노래 유사성이 객관적인 양을 이용해 측정되고 이에 따라 일관된 모델이 되는 가능성을 갖는 장점을 갖는다. 재생 목록 발생에 두 개의 접근 방법: 접근 방법에 기초한 분류 및 접근 방법에 기초한 유사성 측정이 사용된다. 첫번째 접근법에서, 특성들의 세트는 먼저 추출되고 이어서 이들 특성들에 기초한다. 모델이 도출되고 노래들의 분류 및 자동 라벨링을 수행하도록 훈련된다. 일단 노래들이 라벨링되면, 메타데이터는 믹싱을 위한 재생 목록 발생에 이용된다. 상술된 바와 같이 한가지 알려진 방법은 로컬 검색이다. 두번째 접근법은 어떤 객관적인 거리 측정치에 기초하여 노래들의 유사성에 기초한다. 여기서 핵심은 객관적인 거리 측정치 및 "종자" 노래가 주어지고, 유사한 노래들이 수집되고 그들의 유사도에 기초하여 분류된다는 것이다.
리듬 특성은 모델에 용이한 명백한 노래 특성이다. 이들은 일반적으로 템포, 비트 위상, 미터 및 구 경계 등과 같은 명백한 객관적 컨셉들이다. 노래 세만틱에서, 가장 낮은 레벨에서, 각각의 연속하는 비트가 비트 기간에 의해 분리되는 노래들의 비트들이 있다. 비트들의 주파수는 노래의 템포로서 참조된다. 비트들의 세트 는 노래의 미터를 형성한다. 미터 당 비트들의 수는 노래의 장르에 따른다. 예를 들어 댄스 음악은 미터 당 4 개의 비트들이 있다. 더 높은 추상적 레벨에, 노래의 구가 있다. 이는 일반적으로 4 개의 미터들의 콜렉션이고 통상 노래에서 음성 구의 시작과 일치한다. 노래 믹싱 분야에서, 인간 DJ는 항상 믹싱될 노래들의 구 경계들을 정렬하려고 노력한다. 이러한 방법으로 리드믹 사운드 믹스(rhythmic sound mix)가 생성된다. 그러나, 구 검출 및 정렬은 음악을 더 깊이 느낄 것을 요구하고 종종 모델링하기 어렵다. 이러한 경우들에서, 미터-정렬된 비트 믹싱이 충분하다. 일반적으로, 구 정렬은 이상적이고, 미터 정렬은 작동가능하고 비트 정렬은 리듬적으로 수용가능한 음악 믹싱에 대해 충분하지 않다.
본 발명의 실시예에 따른 AutoDJ가 도 3에 도시된다.
AutoDJ(501)는 제 1 믹서(503) 및 제 2 믹서(505)를 포함한다. 각 믹서의 입력 단자들의 쌍은 AutoDJ(501)의 각각의 입력 단자들(507a, 507b, 507c, 507d)에 접속된다. 각각의 믹서(503 및 505)는 AutoDJ(501)의 제어 단자(509)에 접속된다. 각 믹서(503, 505)의 출력들은 덧셈기(511)의 각각의 입력들에 접속된다. 덧셈기(511)의 출력은 AutoDJ(501)의 출력 단자(513)에 접속된다.
제 1 입력 단자들의 쌍(507a, 507b)은 제 1 저역 통과 필터(515) 및 제 1 고역 통과 필터(517)의 출력에 접속된다. 제 2 입력 단자들의 쌍(507c, 507d)은 제 2 저역 통과 필터(519) 및 제 2 고역 통과 필터(521)의 출력에 접속된다.
전이 기간 동안, 제 1 저역 통과 필터(515) 및 제 1 고역 통과 필터(517)는 제 1 입력 신호(x[n])를 두 개의 상보적인 성분들(xL[n] 및 xH[n])로 분해하고, 제 2 저역 통과 필터(519) 및 제 2 고역 통과 필터(521)는 제 2 입력 신호(y[n])를 두 개의 상보적인 성분들(yL[n] 및 yH[n])로 각각 분해한다. 바람직하게, 이들은 저주파수(저음(bass)) 및 고 주파수(고음(treble)) 성분들이다. 이어서, 제 1 믹서(503)가 두 신호들(xL[n] 및 yL[n])의 대응하는 주파수 성분들을 믹스하기 위해 적용된다. 제 2 믹서(505)가 두 신호들(xH[n] 및 yH[n])의 대응하는 주파수 성분들을 믹스하기 위해 적용된다. 제 1 및 제 2 믹서들(503, 505)의 전이 프로파일들은도 4에 도시된 것과 유사하다.
그 후 믹서들(503, 505)의 출력들(zL[n] 및 zH[n])은 AutoDJ(501)의 출력 단자(513)의 출력인 출력 믹싱된 신호(z[n])를 발생하도록 덧셈기(511)에 의해 더해진다. AutoDJ(501)의 제어 단자(509)의 제어 신호 입력은 두 개의 믹서들(503, 505)에서 믹싱이 수행되는 방법을 지시하고 믹싱 포인트들의 위치 정보 및 오버랩 크기 정보를 포함한다.
원칙적으로, 각각 전이 프로파일을 갖는 다수의 주파수 대역들이 각각 선택될 수 있다. 또한, 각각의 주파수 대역에서 전이 프로파일은 오버랩이 없는 것부터 매우 큰 오버랩까지 가변할 수 있다.
믹서들(503, 505)의 더 상세한 설명은 도 4를 참조하여 제공된다. 제 1 및 제 2 믹서(503, 505)는 실질적으로 유사하고 간결함을 위해 제 1 믹서(503)만 도시 되고 설명된다.
제 1 믹서(503)는 위상 비교기(601)를 포함한다. 위상 비교기(601)의 입력들은 믹서(503)의 입력 단자들(603, 605)에 접속된다. 상기 믹서(503)의 입력 단자들(603, 605)은 또한 각각 제 1 및 제 2 지연 소자들(607, 609)의 입력에 접속된다. 상기 지연 소자들(607, 609)은 상기 위상 비교기(601)에 의해 발생된 제어 신호(C)에 의해 제어된다. 제 1 지연 소자(607)의 출력은 제 1 이득 소자(611)의 입력에 접속된다. 제 2 지연 소자(609)의 출력은 제 2 이득 소자(613)의 입력에 접속된다. 상기 제 1 및 제 2 이득 소자들(611, 613)은 각각 덧셈기(615)의 입력들에 접속된다. 덧셈기(615)의 출력은 믹서(503)의 출력 단자(617)에 접속된다.
입력 신호들(xL[n] 및 yL[n])은 입력 단자들(603 및 605)에 각각 위치된다. xL[n] 및 yL[n]의 위상들은 위상 비교기(601)에서 비교된다. 비교기(601)의 출력은 지연 소자들(607, 609)을 제어하여 부가 동안 위상 충돌을 최소화하는 제어 신호(C)이다. 가청 결함들을 방지하기 위해, 지연 소자들(607, 609)은 적절한 방법으로 변경된다. 상기 이득 소자들(611, 613)은 크로스 페이딩 프로파일을 구현한다. 이 경우 이러한 위상 충돌의 발생 방법으로, 믹싱될 신호들의 저음 성분들이 보상된다.
이득 소자들(611, 613)의 이득은 AutoDJ(501)의 제어 단자(509) 상의 제어 신호 입력에 의해 제어된다.
인간 DJ가 믹싱을 준비할 때 고려하는 가장 중요한 특성은 믹싱될 노래들의 음악-키들의 유사성이다. 예를 들어, C-장조를 F# 단조와 믹싱하는 것이 더 어려울 것이다. 신호 프로세싱에서, 노래의 음악-키는 소위 노래의 크로마그램에 의해 표현된다. 크로마그램은, 높은 잉여 옥타브 관계들이 감소되고 피치 구조가 강조되는 피치의 인식가능한 조직에 기초한 오디오 신호의 시-변 스펙트럼의 개념이다. 크로마그램은 노래의 음악적-키의 표현하고 표 1에 도시된 주파수-키 맵핑에 기초한다.
Figure 112008031390536-PCT00001
표 1
노래의 크로마그램은 주파수 범위 0 내지 20kHz에서 12 옥타브 빈들(octave bins)에 대한 신호의 정규화된 축적 에너지를 취함으로써 계산된다. 더 특정하기 위해, x(f) 를 오디오 신호의 주파수 응답으로 하고, fkj1 및 fkj2는 k 번째 옥타브 빈 j번째 주파수 범위에 대한 상한 및 하한 경계들을 나타낸다. fkj1 및 fkj2는 각 스펙트럼 영역의 폭이 표 1에 주어진 중심 주파수 주변의 1/2 반음이다. 그러면 k 번째 크로마그램 값(μk)는 다음과 같이 주어진다.
Figure 112008031390536-PCT00002
노래(W)의 크로마그램(x)은 12 크로마그램 값들을 단일 벡터로 집중함으로써 구성된 히스토그램이다, 즉
x = [μ0 μ1 μ2...μ11]
본 발명의 실시예에 따른 AutoDJ 시스템은, 믹스의 지속기간(오버랩의 크기)은 믹싱될 두 노래들의 크로마그램들 사이의 유사성에 비례한다. 두 크로마그램들 사이의 유사성은 두 크로마그램 벡터들 x, y의 피어슨 곱 모멘트 상관 p(x,y)에 의해 다음과 같이 규정된다:
p(x,y) = -(p(x,y)-1)/2
여기서, x 및 y는 크기 M(=12)의 크로마그램 벡터를 나타내고, p(x,y)는 다음과 같이 주어진 피어슨 곱 모멘트 상관이다.
Figure 112008031390536-PCT00003
피어슨 상관은 간격 [-1, 1] 내로 떨어지고, 1의 값은 완전한 상관을 나타내고, 0의 값은 상관이 없음을 나타내고 -1의 값은 완전히 반대 상관을 나타낸다. p(x,y)가 주어지면, 믹스의 지속기간은 관계 △=Kp(x,y)+θ를 이용하여 계산된다.
여기서, θ는 허용된 최소 오버랩이고 보통 나오는 노래의 비트 기간과 같다. K는 시간 지속 기간에 상관 값을 맵핑하는 상수이다. K는 전형적으로 비트 단위로 측정되고 16 - 32 비트들(예를 들어, 1 내지 2 구들의 최대 오버랩)의 범위의 값을 가질 수 있다.
믹싱될 노래들의 크로마그램들이 멀리 떨어져 있으면, 믹스 간격은 짧고 덜 만족스런 믹스가 발생된다.
이러한 문제를 극복하기 위해, 두 콘텐트들을 인위적으로 발생된 전이 패턴과 브리지하는 것이 바람직할 수 있다. 이 패턴은 일반적으로, 어떠한 크로마그램에도 피트될(fit) 수 있는 퍼커션 패턴이다. 퍼커션 패턴은 옥타브 빈들에 대해 더 또는 덜 평평한 스펙트럼을 갖기 때문에 유니-키 신호(uni-key signal)로 참조되고 이에 따라 모든 종류의 노래들에 대해 거의 상수 상관 값을 준다. 크로마그램과 주어진 노래가 매칭하지 않으면, 인위적인 패턴이 전이를 더 매끄럽게 하도록 두 노래들 사이에 삽입된다.
노래 A와 노래 B가 음악적 키들의 미스매칭(mismatch)을 갖는다고 가정하면, 인위적으로 발생된 전이 패턴은 이들 미스매칭을 브리지하도록 이용된다. 퍼커션 패턴은 그 크로마그램이 노래 A에 가까운 것으로부터 노래 B에 가까운 것으로 점진적으로 변화하는 방식으로 설계되거나 상술된 바와 같이 유니-키를 갖도록 선택할 수 있다. 크로마그램과는 달리, 인위적인 패턴은 또한 매우 다른 템포들 및 전체적으로 다른 스타일을 갖는 노래들을 매칭하는데 이용된다. 예를 들어, 후자는 믹싱될 노래들 사이에 중단과 같은 사운드 효과들을 도입함으로써 달성될 수 있다.
바람직한 실시예에서, AutoDJ 메타-정보는 노래들의 데이터베이스로부터 도출된다. 각각의 분석을 위해, AutoDJ 메타-정보, 즉 템포 및 비트 개시(onset), 바 경계들, 비트 강도, 스펙트럼 형상 파라미터들(크로마그램)이 오프라인으로 계산되고 도 1을 참조하여 상술된 바와 같이 링크된 데이터베이스에 저장된다. 게다가, 장르, 연대(era), 아티스트 및 객관적인 유사성 측정치(유사성-파라미터들로 참조됨)인 저-레벨 특성들과 같은 다른(비-AutoDJ로 불리는) 메타-정보가 또한 수집된 다. AutoDJ가 임의의 두 노래들 사이의 최적의 전이를 결정하지만(긴 블렌드로부터 일시정지 믹스까지의 범위로), 재생 목록은 비-AutoDJ 메타-정보에 관한 제약들이 또한 이용되고 만족될 때 더 매력적이 된다. 몇몇 가중된 조합에서 AutoDJ 메타-정보와 유사성-파라미터들을 이용하는 애플리케이션은 사용자-공급된 종자 노래로부터 시작하는, 재생 목록을 제공하도록 만들어졌다. 두 "프리셋" 사용자 선호; 가능한 한 많은 동기된 믹스들을 포함하는 재생 목록 또는 그들의 화성 사인에 대해 연속적으로 최적으로 매칭하는 트랙들을 포함하는 재생 목록이 구현된다.
자동으로 발생된 재생 목록은 각각의 전이에서 이용되는 분석 영역들의 AutoDJ 메타-정보를 분석하는 전이 계획기로 공급된다. 이러한 분석으로부터, 전이의 바람직한 유형 및 이를 수행하는데 필요한 파라미터들이 결정된다. 이어서 발생된 명령들의 세트들은 요구된 믹싱을 수행하도록 재생기에 의해 실행된다.
요구된 매끄러운 전이를 제공하도록 재생 목록이 노래들의 순서를 최적화하는 바람직한 기술은 로컬 검색 기반 방법을 이용한다. 이 방법에서, 화성 유사성은 길이 N의 노래들(S=s1s2...sN)의 시퀀스로 구성된 재생 목록에서 두(연속하는) 위치들(i 및 j=i+1) 사이의 이진 제약으로서 다음과 같이 모델링될 수 있다.
Figure 112008031390536-PCT00004
여기서, si.x는 노래 si의 믹싱 포인트 x에서 크로마그램을 나타낸다. 믹싱 포인트는 예를 들어, 두 연속하는 노래들의 아우트로와 인트로(즉, 마지막 및 최초 10초)를 포함할 수 있다. 로컬 검색을 구현하기 위해, 상기 크로마그램들 사이의 근사치가 또한 패널티 함수로 동작하게 된다. 이러한 패널티 함수들은 하나의 크로마그램이 0 내지 1의 숫자 값 범위에서 다른 크로마그램에 얼마나 가깝게 하는지를 말해준다.
전체 재생 목록이 화성 유사성에 대해 최적으로 정렬되어야 하기 때문에 모든 패널티 함수들 P*의 합이 최소가 되는 노래들의 시퀀스(s1s2...sN)를 발견하는 것이 필수적이다.
Figure 112008031390536-PCT00005
명백히, 상기 문제는 또한 최대값 문제로서 공식화될 수 있다.
먼저, 본 발명의 바람직한 실시예의 방법은, 각 노래(또는 각 노래의 각각의 연관된 믹싱 포인트에 대해)에 대한 크로마그램을 계산한다. 믹싱 포인트는 노래들의 인트로들 및 아우트로들일 수 있다. 이러한 계산은 오프라인 또는 온라인으로 될 수 있다. 그러나, 속도를 위해, 계산이 오프라인으로 수행되는 것이 바람직하다.
상기한 바와 같이, 크로마그램은 주파수들이 12 크로마 값들의 제한된 세트로 다-대-1 방법으로 맵핑되는 스펙트럼 표현을 재구성하는 것으로 규정된다. 이는 주파수를 그 주파수에 대해 동일하게 조절된 크기의 이상적인 크로마 값을 나타내는 '빈(bin)'으로 할당함으로써, 예를 들어, 상기 표 1에 도시된 바와 같이 행해진 다. 상기 '빈'은 옥타브에서 12개의 크로마들에 대응한다. 스펙트럼 표현에 있어서, 조화롭게(harmonically) 압축된 진폭의 FFT-기반 스펙트럼의 합은 5kHz 이상의 스펙트럼 콘텐트가 신호를 다운-샘플링함으로써 컷 오프(cut off)되는데 이용된다. 고 주파 영역들의 고조파들은 저 주파 영역들의 피치들에 현저하게 기여하지 않는다는 것이 가정된다. 바람직하게, 단지 제한된 수의 조화롭게 압축된 스펙트럼(15)만이 부가된다. 스펙트럼 성분들(예를 들어, 피크들)은 피치들에 기여하지 않는 가짜 피크들을 없애도록 향상된다. 더 높은 주파수에서 스펙트럼 성분들은 더 낮은 주파수들에서의 스펙트럼 성분들보다 피치에 덜 기여한다. 인간의 피치 인식이 대수법을 따르기 때문에, 주파수 횡좌표는 보간에 의해 대수(logarithmic one)로 변환된다. 전체로, 옥타브 당 171 포인트들이 3차 운형 방법(cubic spline method)에 의해 6 옥타브(25Hz부터 5kHz까지)에 대해 보간된다. 이는 선형으로부터 대수 주파수 도메인으로 가는데 있어 높은 해상도를 달성하고 수적 불안정성을 방지하는데 필요하다.
가중 함수는 인간의 청력 민감도를 모델링하는데 이용되고; 인식된 피치의 크기는 그 주파수에 따른다. 예를 들어, 동일한 진폭을 갖는 피치들의 크기는 400Hz보다 낮은 주파수에서 가파르게 떨어지기 시작한다.
화성 압축은 선형 주파수 횡좌표가 적분 인자(n)에 의해 곱해지는 것을 의미한다. 대수 주파수 도메인에서, 곱셈은 축(shaft)(또는 덧셈)과 같다. 압축 등급(n)은 분해될 화성의 인덱스로 참조된다. 수행될 압축의 수는 조사될 화성들의 수에 이른다. 모든 이들 다르게 압축된 스펙트럼 표시들이 부가되고; 감소하는 인 자들의 시퀀스는 더 높은 화성들이 더 낮은 화성들이 하는 것보다 피치에 덜 기여한다는 것을 실현하는데 이용된다.
연산 포인트의 관점으로부터, 입력 신호는 100ms의 오버랩하지 않는 시간 프레임들로 파티션된다(partitioned). 신호가 스테레오 포맷이면, 모노 버전은 먼저 두 채널들을 평균화함으로써 생성된다. 프레임 길이는, 한편으로는 알맞은 세계적 템포(30 내지 300 bpm; 또는 초 당 5 이벤트와 매 2초 마다 하나의 이벤트 사이)를 갖는 음악 공연의 음계의 최소 지속기간에 의해, 다른 한편으로는 긴 프레임들이 계산적으로 너무 집약적(intensive)이라는 사실에 의해 고무된다.
추가 프로세싱이 A0로부터(27.5Hz) A6(1760.0Hz)까지의 음악적 피치들만을 고려하기 때문에, 화성 압축은 25Hz로부터 5kHz까지 6 옥타브에 대해, 또한 더 높은 피치 주파수들의 어떤 화성을 캡처하도록 행해진다. 따라서, 5kHz보다 큰 주파수의 스펙트럼 콘텐트는 고려되지 않는다. 적어도 10kHz의 저역-통과 필터링 및 데시메이션 프로세스(decimation process)는 특정 인자에 의해 신호를 대역 제한하고 다운샘플링한다. 저역-통과 필터링은 이상적인 저역-통과 필터의 FIR 근사에 의해 떨어진다. 이러한 다운-샘플링은 결과에는 심하게 영향을 주지 않고 계산 시간 필요성을 상당히 감소시킨다. 프레임의 '나머지' 샘플들은 해밍 윈도우에 의해 곱해지고, 제로-패딩되고, 진폭 스펙트럼은 1024-포인트 FFT로부터 계산된다. 이 스펙트럼은 선형 주파수 크기 상에 4.88Hz 떨어진 512포인트로 구성된다. 다음, 주파수들 및 그들의 크기들에 심각하게 영향을 미치지 않고 피크들을 향상하는 것을 목적하는 절차들이 적용된다. 둘 이상의 FFT 포인트들(9.77Hz)이 비교적 최대값으로부 터 0과 같게 분리되는 포인트에서 모든 값들을 설정함으로써 스펙트럼 피크들에서 및 스펙트럼 피크들 주변 값들만이 고려된다. 그 후 결과적인 스펙트럼은 해닝 필터(Hanning filter)를 이용해 매끄럽게 된다.
4.88Hz의 선형 해상도가 더 낮은 피치 영역들에 대해 더 제한되기 때문에(C2와 C#2 사이의 피치 주파수 차이는 3.89Hz), 대수 주파수 크기의 스펙트럼의 값들은 대수 주파수 크기가 171(보간)에 대해 계산된 것에 대해 스펙트럼의 크기에 대해 계산된다. 보간된 스펙트럼은 증가된 아크탄젠트 함수에 의해 곱해지고, 1250Hz 이하 주파수에 대한 인간 가청 시스템의 민감도를 흉내낸다. 그 결과 대수 주파수 크기를 따라 시프트되고, 감소 인자(h)에 의해 곱해지고, 적어도 6 옥타브들에 대해 규정된 조화롭게 압축된 스펙트럼이 결과되는 분해될 모든 화성들(N=15)에 대해 부가된다.
각 프레임에 대한 크로마그램은 동일한 평균율의 각각의 크로마에 대응하는 조화롭게 압축된 스펙트럼의 스펙트럼 영역들을 위치시킴으로써 계산된다. 피치 클래스 C에 대해, 이는 C1(32.7Hz), C2(65.4Hz), C3(130.8Hz), C4(261.6Hz), C5(523.3Hz) 및 C6(1046.5Hz)에 대해 피치 주파수들 주변에 중심을 두는 4개의 스펙트럼 영역들이 된다. 각 스펙트럼 영역들의 폭은 이 중심으로부터 1/2 반음이다. 모든 4개의 스펙트럼 영역들에서의 진폭들은 하나의 크로마 영역을 형성하도록 부가된다. 그 후, 크로마 영역 내로 떨어지는 진폭들의 평균(norm; H) 및 크로마 영역들로 떨어지지 않는 모든 진폭들의 평균(R)이 취해진다. 비율 H/R의 계산이 그 크로마의 가능성을 제공한다. 모든 프레임들에 대해 크로마그램들을 부가하고 정규 화하는 것은 완전한 음악 샘플에 대한 크로마그램이 된다.
바람직한 실시예가 믹싱 포인트들에서 크로마그램들을 상관하기 위해 특정 상관 기술을 참조하였지만, 본 발명은 이러한 기술에 제한되지 않는다는 것이 이해되고 믹싱 포인트들에서 크로마그램들의 상관은 카이 제곱 거리(chi-square distance), 유클리드 거리, 엔트로피 측정, 분배 측정 등과 같은 조합된 또는 거리 측정들을 포함하는 것으로 의도된다.
본 발명의 바람직한 실시예가 첨부된 도면에 도시되고 상기 상세한 설명에 기술되었지만, 본 발명이 개시된 실시예로 제한되지 않고 이하의 청구항들에 언급된 바와 같은 본 발명의 범위를 벗어나지 않는 다양한 변경들이 가능하다는 것이 이해된다.

Claims (9)

  1. 오디오 트랙의 시작 영역과 이전 오디오 트랙의 종료 영역 사이의 매끄러운 전이(smooth transition)를 제공하도록 재생용 오디오를 프로세싱하는 방법으로서,
    상기 오디오 트랙의 상기 시작 영역의 믹싱 포인트에서 크로마그램(chromagram)을 나타내는 양(quantity)과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트에서 크로마그램을 나타내는 양을 상관시키는 단계; 및
    상기 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 상기 오디오 트랙의 상기 시작 영역과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트들에서 재생 동안 연속하는 오디오 트랙들 사이의 전이를 매끄럽게 하는 단계를 포함하는, 오디오 프로세싱 방법.
  2. 제 1 항에 있어서,
    상기 연속하는 오디오 트랙들 사이의 전이를 매끄럽게 하는 단계는 상기 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 오디오 트랙들이 재생되는 순서를 결정하는 단계를 포함하는, 오디오 프로세싱 방법.
  3. 제 2 항에 있어서,
    상기 재생 순서는 상기 연속하는 오디오 트랙들의 상기 시작 및 종료 영역들의 상기 크로마그램들을 나타내는 양들 사이의 상관을 최적화함으로써 결정되는, 오디오 프로세싱 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 순서를 결정하는 단계는,
    오디오 트랙들의 시퀀스가 미리 규정된 제약들을 만족시키는지에 대한 패널티를 계산하는 단계로서, 상기 패널티는 상기 오디오 트랙들의 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 계산되는, 상기 패널티 계산 단계; 및
    가장 적은 패널티를 갖는 오디오 트랙들의 시퀀스를 반복적으로 도출하는 단계를 포함하는, 오디오 프로세싱 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 연속하는 오디오 트랙들 사이의 믹싱된 전이의 지속기간은 상기 연속하는 오디오 트랙들의 시작 및 종료 영역들의 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 결정되는, 오디오 프로세싱 방법.
  6. 오디오 트랙의 시작 영역과 이전 오디오 트랙의 종료 영역 사이의 매끄러운 전이를 제공하도록 재생용 오디오를 프로세싱하는 장치로서,
    상기 오디오 트랙의 상기 시작 영역의 믹싱 포인트에서 크로마그램을 나타내는 양과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트에서 크로마그램을 나타내는 양을 상관시키는 상관기(correlator); 및
    상기 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 상기 오디오 트랙의 상기 시작 영역과 상기 이전 오디오 트랙의 상기 종료 영역의 믹싱 포인트들에서 재생 동안 연속하는 오디오 트랙들 사이의 전이를 매끄럽게 하는 수단을 포함하는, 오디오 프로세싱 장치.
  7. 제 6 항에 있어서,
    재생 목록에서 연속하는 오디오 트랙들의 상기 시작 및 종료 영역의 크로마그램들을 나타내는 양들 사이의 상기 상관에 기초한 순서로 재생을 위해 복수의 오디오 트랙들을 선택하는 재생 목록 발생기를 더 포함하는, 오디오 프로세싱 장치.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 연속하는 오디오 트랙들의 시작 및 종료 영역들의 크로마그램들을 나타내는 양들 사이의 상관에 기초하여 상기 연속하는 오디오 트랙들 사이의 믹싱된 전이의 지속기간을 결정하는 전이 지속기간 결정기를 더 포함하는, 오디오 프로세싱 장치.
  9. 제 1 항 내지 제 6 항에 따른 방법들을 수행하는 복수의 프로그램 코드부를 포함하는 컴퓨터 프로그램 제품.
KR1020087010555A 2005-09-30 2006-09-12 재생용 오디오 프로세싱 방법 및 장치 KR20080066007A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05109080.1 2005-09-30
EP05109080 2005-09-30

Publications (1)

Publication Number Publication Date
KR20080066007A true KR20080066007A (ko) 2008-07-15

Family

ID=37757102

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087010555A KR20080066007A (ko) 2005-09-30 2006-09-12 재생용 오디오 프로세싱 방법 및 장치

Country Status (6)

Country Link
US (1) US8069036B2 (ko)
EP (1) EP1938325A2 (ko)
JP (1) JP2009510658A (ko)
KR (1) KR20080066007A (ko)
CN (1) CN101278349A (ko)
WO (1) WO2007036824A2 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101341530A (zh) * 2005-12-22 2009-01-07 皇家飞利浦电子股份有限公司 用于确定混合参数的电子设备和方法
US7888582B2 (en) * 2007-02-08 2011-02-15 Kaleidescape, Inc. Sound sequences with transitions and playlists
KR20090118752A (ko) * 2008-05-14 2009-11-18 삼성전자주식회사 컨텐트 재생 목록 제공 방법 및 그 장치
KR20100071314A (ko) * 2008-12-19 2010-06-29 삼성전자주식회사 영상처리장치 및 영상처리장치의 제어 방법
US8422699B2 (en) * 2009-04-17 2013-04-16 Linear Acoustic, Inc. Loudness consistency at program boundaries
US20110231426A1 (en) * 2010-03-22 2011-09-22 Microsoft Corporation Song transition metadata
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
US8380334B2 (en) 2010-09-07 2013-02-19 Linear Acoustic, Inc. Carrying auxiliary data within audio signals
US9326082B2 (en) * 2010-12-30 2016-04-26 Dolby International Ab Song transition effects for browsing
WO2012091938A1 (en) 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
EP2485213A1 (en) * 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
US9070352B1 (en) 2011-10-25 2015-06-30 Mixwolf LLC System and method for mixing song data using measure groupings
US9111519B1 (en) 2011-10-26 2015-08-18 Mixwolf LLC System and method for generating cuepoints for mixing song data
US9576050B1 (en) * 2011-12-07 2017-02-21 Google Inc. Generating a playlist based on input acoustic information
BR112016004029B1 (pt) * 2013-08-28 2022-06-14 Landr Audio Inc Método para realizar a produção automática de áudio, meio legível por computador, e, sistema de produção automática de áudio
US10219029B1 (en) 2014-03-12 2019-02-26 Google Llc Determining online content insertion points in an online publication
US9269339B1 (en) * 2014-06-02 2016-02-23 Illiac Software, Inc. Automatic tonal analysis of musical scores
SE1451583A1 (en) * 2014-12-18 2016-06-19 100 Milligrams Holding Ab Computer program, apparatus and method for generating a mix of music tracks
US10147407B2 (en) 2016-08-31 2018-12-04 Gracenote, Inc. Characterizing audio using transchromagrams
US20180315407A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Automatic Music Mixing
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
US11972746B2 (en) * 2018-09-14 2024-04-30 Bellevue Investments Gmbh & Co. Kgaa Method and system for hybrid AI-based song construction
EP4115628A1 (en) * 2020-03-06 2023-01-11 algoriddim GmbH Playback transition from first to second audio track with transition functions of decomposed signals
CN112735479B (zh) * 2021-03-31 2021-07-06 南方电网数字电网研究院有限公司 语音情绪识别方法、装置、计算机设备和存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08254985A (ja) * 1995-03-17 1996-10-01 Pioneer Electron Corp 音楽再生制御装置及び音楽再生装置
US6533969B1 (en) * 1998-06-12 2003-03-18 Jeneric/Pentron, Inc. Method of making high-strength dental restorations
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
JP3687467B2 (ja) * 2000-02-25 2005-08-24 ティアック株式会社 記録媒体再生装置
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
JP3797547B2 (ja) * 2001-03-21 2006-07-19 松下電器産業株式会社 プレイリスト生成装置、オーディオ情報提供装置、オーディオ情報提供システムおよびその方法、プログラム、記録媒体
JP3780857B2 (ja) * 2001-03-26 2006-05-31 ヤマハ株式会社 波形編集方法および波形編集装置
CN1279511C (zh) * 2001-04-13 2006-10-11 多尔拜实验特许公司 一种时间标度和/或音调偏移一个音频信号的方法
GB2378873B (en) * 2001-04-28 2003-08-06 Hewlett Packard Co Automated compilation of music
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム
JP2003177743A (ja) * 2001-12-12 2003-06-27 Yamaha Corp 自動制御装置、鍵盤楽器、楽音発生装置、自動演奏ピアノおよびプログラム
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
KR100429885B1 (ko) * 2002-05-09 2004-05-03 삼성전자주식회사 열방출 특성을 개선한 멀티 칩 패키지
JP4243682B2 (ja) * 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP2006511845A (ja) * 2002-12-20 2006-04-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の配列
JP2003241800A (ja) * 2003-02-10 2003-08-29 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
US8296143B2 (en) * 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置

Also Published As

Publication number Publication date
WO2007036824A3 (en) 2007-07-19
EP1938325A2 (en) 2008-07-02
WO2007036824A2 (en) 2007-04-05
JP2009510658A (ja) 2009-03-12
CN101278349A (zh) 2008-10-01
US20080221895A1 (en) 2008-09-11
US8069036B2 (en) 2011-11-29

Similar Documents

Publication Publication Date Title
KR20080066007A (ko) 재생용 오디오 프로세싱 방법 및 장치
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
Salamon et al. Melody extraction from polyphonic music signals using pitch contour characteristics
US6910035B2 (en) System and methods for providing automatic classification of media entities according to consonance properties
US7065416B2 (en) System and methods for providing automatic classification of media entities according to melodic movement properties
US8082279B2 (en) System and methods for providing adaptive media property classification
US7532943B2 (en) System and methods for providing automatic classification of media entities according to sonic properties
US7381883B2 (en) System and methods for providing automatic classification of media entities according to tempo
US7812241B2 (en) Methods and systems for identifying similar songs
Holzapfel et al. Three dimensions of pitched instrument onset detection
Mauch et al. Timbre and Melody Features for the Recognition of Vocal Activity and Instrumental Solos in Polyphonic Music.
Hargreaves et al. Structural segmentation of multitrack audio
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
CN101499268A (zh) 自动生成音乐结构性界面信息的设备和方法及检索***
US20140277638A1 (en) System and method of predicting user audio file preferences
Salamon et al. Melody, bass line, and harmony representations for music version identification
Yoshii et al. INTER: D: a drum sound equalizer for controlling volume and timbre of drums
Kumar et al. Melody extraction from music: A comprehensive study
Eronen Signal processing methods for audio classification and music content analysis
Pampalk et al. Computational models of similarity for drum samples
Rossignol et al. State-of-the-art in fundamental frequency tracking
Kitahara Mid-level representations of musical audio signals for music information retrieval
Dixon Analysis of musical content in digital audio
Kumar et al. Melody extraction from polyphonic music using deep neural network: A literature survey
Gärtner Tempo estimation from urban music using non-negative matrix factorization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application