KR20160006703A

KR20160006703A - 마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템

Info

Publication number: KR20160006703A
Application number: KR1020157032385A
Authority: KR
Inventors: 에프스트라티오스 이오아니디스; 그레고리 찰스 허레인; 크리스토쁘 디오
Original assignee: 톰슨 라이센싱
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2016-01-19
Also published as: EP2997574A1; CN105378838A; US20160049163A1; JP2016521382A; WO2014185883A1

Abstract

마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템은 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하는 것, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하는 것, 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하는 것, 및 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 감쇄 팩터 및 지연 팩터를 구현하는 것을 포함한다. 그 방법, 장치 및 시스템은 타깃 마이크로폰의 분리된 오디오 신호의 오디오 속성들을 결정하기 위해 타깃 마이크로폰의 분리된 오디오 신호를 프로세싱하는 것, 및 분리된 오디오 신호에서의 오디오의 개별 소스들을 오디오 속성들을 이용하여 결정하는 것을 더 포함한다.

Description

마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR ISOLATING MICROPHONE AUDIO}

본 출원은, 2012년 12월 28일자로 출원되어 그 전체 내용들이 모든 목적으로 본 출원에 참조로 통합되는 국제 PCT 출원 PCT/US12/072083 과 관련된다.

본 발명은 일반적으로 마이크로폰 오디오의 분리에 관한 것으로서, 더 상세하게는, 오디오를 분리하기 위해 마이크로폰 신호들로부터 노이즈를 제거하는 방법, 장치 및 시스템에 관한 것이다.

노이즈 억제는 종종 다수의 통신 시스템들 및 콘텐츠 분배 디바이스들에서 노이즈를 억제하도록 요구되어 통신 품질 및 미디어 이해를 개선시킨다. 노이즈 억제는 다양한 기술들을 이용하여 달성될 수 있으며, 그 기술들 중 일부는 단일 마이크로폰 기술들 및 어레이 마이크로폰 기술들로서 분류될 수 있다.

어레이 마이크로폰 노이즈 감소 기술들은 빔을 형성하기 위해 상이한 위치들에 배치되고 그리고 서로로부터 어떤 최소 거리만큼 분리된 다중의 마이크로폰들을 사용한다. 통상, 빔은 스피치를 포착하는데 사용되고, 그 후, 이는 빔 외부에서 포착된 노이즈의 양을 감소시키는데 사용된다. 따라서, 어레이 마이크로폰 기술들은 비-정상성 (non-stationary) 노이즈를 억제할 수 있다. 노이즈 억제를 통한 마이크로폰 신호들의 분리는, 예를 들어, 쇼핑객 데모그래픽스 및/또는 구매 개수들을 식별하기 위해 소매 (retail) 광고 환경에서 사용될 수 있다.

하지만, 다중의 마이크로폰들은 또한 그 자체가 더 많은 노이즈를 생성한다. 추가적으로, 그러한 기술들은 본 명세서에서 설명되는 바와 같은 노이즈 소거를 가능케 하기 위해 시스템의 구성 파라미터들 및 공지된 오디오 신호들을 사용하지 않는다.

본 발명의 실시형태들은 마이크로폰 신호들을 분리하기 위한 방법, 장치 및 시스템을 제공함으로써 종래기술의 결점들을 다룬다.

본 발명의 일 실시형태에 있어서, 일 방법은 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하는 단계, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하는 단계, 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하는 단계, 및 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 감쇄 팩터 및 지연 팩터를 구현하는 단계를 포함한다. 그 방법, 장치 및 시스템은 타깃 마이크로폰의 분리된 오디오 신호의 오디오 속성들을 결정하기 위해 타깃 마이크로폰의 분리된 오디오 신호를 프로세싱하는 것, 및 분리된 오디오 신호에서의 오디오의 개별 소스들을 오디오 속성들을 이용하여 결정하는 것을 더 포함한다.

본 발명의 대안적인 실시형태에 있어서, 일 장치는 프로그램 루틴들 및 데이터를 저장하는 메모리, 및 프로그램 루틴들을 실행하는 프로세서를 포함한다. 그러한 실시형태에 있어서, 그 장치는 마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하고, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하고, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하고, 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 감쇄 팩터 및 지연 팩터를 구현하고, 타깃 마이크로폰의 분리된 오디오 신호의 오디오 속성들을 결정하기 위해 타깃 마이크로폰의 분리된 오디오 신호를 프로세싱하며, 오디오 속성들을 이용하여, 타깃 마이크로폰의 분리된 오디오 신호에서의 오디오의 개별 소스들을 결정하도록 구성된다.

본 발명의 대안적인 실시형태에 있어서, 일 시스템은 마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들, 적어도 하나의 오디오 소스, 프로그램 루틴들 및 데이터를 저장하는 메모리를 포함하는 장치, 및 프로그램 루틴들을 실행하는 프로세서를 포함한다. 그러한 시스템에 있어서, 그 장치는 마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하고, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하고, 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하고, 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 감쇄 팩터 및 지연 팩터를 구현하고, 타깃 마이크로폰의 분리된 오디오 신호의 오디오 속성들을 결정하기 위해 타깃 마이크로폰의 분리된 오디오 신호를 프로세싱하며, 오디오 속성들을 이용하여, 타깃 마이크로폰의 분리된 오디오 신호에서의 오디오의 개별 소스들을 결정하도록 구성된다.

본 발명의 교시들은 첨부 도면들과 함께 다음의 상세한 설명을 고려함으로써 용이하게 이해될 수 있다.
도 1 은 본 발명의 실시형태가 적용될 수 있는 콘텐츠 분배 시스템의 하이 레벨 블록 다이어그램을 도시한다.
도 2 는 본 발명의 실시형태가 적용될 수 있는 매장내(in-store) 광고를 제공하기 위한 매장내 광고 네트워크의 하이 레벨 블록 다이어그램을 도시한다.
도 3 은 본 발명의 실시형태에 따른, 마이크로폰 오디오를 분리하기 위한 장치의 하이 레벨 블록 다이어그램을 도시한다.
도 4 는 본 발명의 실시형태에 따른, 마이크로폰 오디오를 분리하기 위한 방법의 플로우 다이어그램을 도시한다.
도면들은 본 발명의 개념들을 예시하기 위한 목적이고 본 발명을 예시하기 위한 반드시 유일의 가능한 구성은 아님을 이해해야 한다. 이해를 용이하게 하기 위해, 동일한 참조부호들은, 가능할 경우, 도면들에 공통인 동일한 엘리먼트들을 지정하도록 사용되었다.

본 발명은, 유리하게, 마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템을 제공한다. 비록 본 발명이 스피치를 분리하기 위해 매장내 소매 광고 네트워크 환경 및 광고 콘텐츠 분배 그리고 구체적으로 체크아웃 어플리케이션의 문맥 내에서 주로 설명될 것이지만, 본 발명의 특정 실시형태들은 본 발명의 범위를 한정하는 것으로서 처리되지 않아야 한다. 본 발명의 개념들은, 패스트 푸드 식당들, 은행 금전출납원 카운터들 등과 같이 음성들과 같은 임의의 오디오의 분리가 바람직한 임의의 환경에 유리하게 적용될 수 있음이 당업자에 의해 인식되고 본 발명의 교시들에 의해 알려질 것이다.

도면들에 도시된 다양한 엘리먼트들의 기능들은 적절한 소프트웨어와 연관하여 소프트웨어를 실행 가능한 하드웨어뿐 아니라 전용 하드웨어의 사용을 통해 제공될 수 있다. 프로세서에 의해 제공될 경우, 그 기능들은 단일의 전용 프로세서에 의해, 단일의 공유된 프로세서에 의해, 또는 복수의 개별 프로세서들에 의해 제공될 수 있으며, 이들 중 일부는 공유될 수 있다. 더욱이, 용어 "프로세서" 또는 "제어기" 의 명시적인 사용은 소프트웨어를 실행가능한 하드웨어를 배타적으로 지칭하는 것으로 해석되지 않아야 하며, 디지털 신호 프로세서 ("DSP") 하드웨어, 소프트웨어를 저장하는 판독 전용 메모리 ("ROM"), 랜덤 액세스 메모리 ("RAM"), 및 비휘발성 저장부를 한정없이 암시적으로 포함할 수 있다. 더욱이, 본 발명의 원리들, 양태들, 및 실시형태들뿐 아니라 그 특정 예들을 기재하는 본 명세서에서의 모든 진술들은 그 구조적 및 기능적 균등물들 양자 모두를 포괄하도록 의도된다.

추가적으로, 그러한 균등물들은 현재 공지된 균등물들 뿐 아니라 미래에 개발되는 균등물들 양자 모두 (즉, 구조에 무관하게 동일한 기능을 수행하는 개발된 임의의 엘리먼트들) 를 포함함이 의도된다.

따라서, 예를 들어, 본 명세서에서 제시된 블록 다이어그램들은 본 발명의 원리들을 구현하는 예시적인 시스템 컴포넌트들 및/또는 회로의 개념적 뷰들을 표현함이 당업자에 의해 인식될 것이다. 유사하게, 임의의 플로우 차트들, 플로우 다이어그램들, 상태 천이 다이어그램들, 의사코드 등은, 컴퓨터 판독가능 매체에 실질적으로 표현되고 따라서 컴퓨터 또는 프로세서에 명시적으로 나타나든지 아니든지 그러한 컴퓨터 또는 프로세서에 의해 실행될 수도 있는 다양한 프로세스들을 표현한다는 것이 인식될 것이다.

도 1 은 본 발명의 실시형태가 적용될 수 있는 콘텐츠 분배 시스템의 하이 레벨 블록 다이어그램을 도시한다. 도 1 의 콘텐츠 분배 시스템 (100) 은 예시적으로 하나의 서버 (110), 튜닝/디코딩 수단과 같은 복수의 수신 디바이스들 (예시적으로, 셋탑 박스들 (STB들)) (120₁-120_n), 및 셋탑 박스들 (120₁-120_n) 각각에 대한 개별 디스플레이 (130₁-130_n) 를 포함하는 체크아웃 광고 분배 시스템을 예시적으로 포함한다. 도 1 에 도시된 바와 같이, 디스플레이 (130) 는 개별 마이크로폰 (132₁-132_n) 및 적어도 하나의 스피커 (133₁-133_n) 를 각각 포함하고, 개별 체크아웃 레인 (134₁-134_n) 근방에 위치된다. 도 1 의 콘텐츠 분배 시스템 (100) 에 있어서, 디스플레이들 (130) 의 마이크로폰들 (132) 은 마이크로폰들의 어레이를 포함한다. 도 1 의 시스템 (100) 과 같은 그러한 시스템에 있어서, 마이크로폰들 (132) 은 통상, 콘텐츠의 디스플레이들 (130) 상으로의 플레이아웃을 확인하는데 사용되고, 노이즈 소거 목적으로 더 사용될 수 있다.

비록 도 1 의 시스템 (100) 에 있어서 복수의 셋탑 박스들 (120₁-120_n) 각각이 단일의 개별 디스플레이에 예시적으로 연결되지만, 본 발명의 대안적인 실시형태들에 있어서, 복수의 셋탑 박스들 (120₁-120_n) 각각은 하나 초과의 디스플레이에 연결될 수 있다. 즉, 본 발명의 대안적인 실시형태들에 있어서, 복수의 체크아웃 레인들의 디스플레이들은 단일 셋탑 박스로 제어 및 통신될 수 있다. 추가적으로, 비록 도 1 의 콘텐츠 분배 시스템 (100) 에 있어서 튜닝/디코딩 수단이 셋탑 박스들 (120) 로서 예시적으로 도시되지만, 본 발명의 대안적인 실시형태들에 있어서, 본 발명의 튜닝/디코딩 수단은 디스플레이들 (130) 에 통합된 튜닝/디코딩 회로 또는 다른 자립형 튜닝/디코딩 디바이스들 등과 같은 대안적인 튜닝/디코딩 수단을 포함할 수 있다. 더 추가로, 본 발명의 수신 디바이스들은 오디오, 비디오, 및/또는 오디오/비디오 콘텐츠와 같은 콘텐츠를 수신 가능한 임의의 디바이스들을 포함할 수 있다.

본 발명의 일 실시형태에 있어서, 도 1 의 콘텐츠 분배 시스템 (100) 은 매장내 광고 네트워크의 부분일 수 있다. 예를 들어, 도 2 는 매장내 광고를 제공하기 위한 매장내 광고 네트워크 (200) 의 하이 레벨 블록 다이어그램을 도시한다. 도 2 의 광고 네트워크 (200) 에 있어서, 광고 네트워크 (200) 및 분배 시스템 (100) 은, 엔터테인먼트 콘텐츠, 뉴스, 및 매장내 세팅에서의 유사한 소비자 정보 콘텐츠와 함께, 음악 레코딩들, 홈 비디오, 제품 설명들, 광고 콘텐츠, 및 다른 그러한 콘텐츠의 카탈로그화, 배포, 프리젠테이션, 및 사용 추적을 제공하는 하드웨어와 소프트웨어의 조합을 채용한다. 콘텐츠는 압축형 또는 미압축형 비디오 및 오디오 스트림 포맷 (예를 들어, MPEG4/MPEG4 파트 10/AVC-H.264, VC-1, 윈도우즈 미디어 등) 으로 제시된 콘텐츠를 포함할 수 있지만, 본 시스템은 오직 그 포맷들만을 사용하는 것으로 한정되지 않아야 한다.

본 발명의 일 실시형태에 있어서, 매장내 광고 네트워크 (200) 및 콘텐츠 분배 시스템 (100) 의 다양한 엘리먼트들을 제어하기 위한 소프트웨어는 윈도우잉 환경을 사용한 32비트 오퍼레이팅 시스템 (예를 들어, MS 윈도우즈™ 또는 X 윈도우즈 오퍼레이팅 시스템) 및 고성능 컴퓨팅 하드웨어를 포함할 수 있다. 광고 네트워크 (200) 는 분산형 아키텍처를 활용할 수 있으며, 일 실시형태에 있어서, 위성 (또는 다른 방법, 예를 들어, 광역 네트워크 (WAN), 인터넷, 일련의 마이크로파 링크들, 또는 유사한 메커니즘) 및 매장내 모듈들을 통해 중앙집중식 콘텐츠 관리 및 분배 제어를 제공한다.

도 2 에 도시된 바와 같이, 매장내 광고 네트워크 (200) 및 콘텐츠 분배 시스템 (100) 에 대한 콘텐츠는 광고주 (202), 레코딩 회사 (204), 영화 스튜디오 (206) 또는 다른 콘텐츠 제공자들 (208) 로부터 제공될 수 있다. 광고주 (202) 는 제품 제조자, 서비스 제공자, 제조자 또는 서비스 제공자를 대표하는 광고 회사, 또는 다른 엔터티일 수 있다. 광고주 (202) 로부터의 광고 콘텐츠는 커머셜, "인포머셜 (info-mercial)", 제품 정보 및 제품 설명 등을 포함한 시청각 콘텐츠로 이루어질 수 있다.

레코딩 회사 (204) 는 음반사, 음악 출판사, 라이센싱/출판 엔터티 (예를 들어, BMI 또는 ASCAP), 개인 아티스트, 또는 음악 관련 콘텐츠의 다른 그러한 소스일 수 있다. 레코딩 회사 (204) 는 음악 클립들 (레코딩된 음악의 짧은 세그먼트들), 음악 비디오 클립들 등과 같은 시청각 콘텐츠를 제공한다. 영화 스튜디오 (206) 는 영화 스튜디오, 영화 제작 회사, 홍보 담당자, 또는 영화 산업과 관련된 다른 소스일 수 있다. 영화 스튜디오 (106) 는 영화 클립들, 남여 배우들과의 사전-레코딩된 인터뷰들, 영화 리뷰들, "막후 (behind-the-scenes)" 프리젠테이션들, 및 유사한 콘텐츠를 제공할 수 있다.

다른 콘텐츠 제공자 (208) 는, 예를 들어, 도 1 의 콘텐츠 분배 시스템 (100) 을 통해 분배 및 디스플레이될 수 있는 비디오, 오디오, 시청각 콘텐츠의 임의의 다른 제공자일 수 있다.

본 발명의 일 실시형태에 있어서, 콘텐츠는, 예를 들어, 전통적인 레코딩된 미디어 (테이프들, CD들, 비디오들 등) 를 사용하여 네트워크 관리 센터 (210) (NMC) 를 통해 입수된다. NMC (210) 에 제공된 콘텐츠는, 예를 들어, 로컬 사이트에 콘텐츠를 분배 및 디스플레이하는 로컬 분배 시스템 (100) 으로의 분배에 적합한 형태로 편집된다.

NMC (210) 는 수신된 콘텐츠를 디지털화하고, 그 콘텐츠를 디지털화된 데이터 파일들 (222) 의 형태로 네트워크 운영 센터 (NOC) (220) 로 제공할 수 있다. 데이터 파일들 (222) 은, 비록 디지털화된 콘텐츠의 관점에서 언급되지만, 또한 스트리밍 오디오, 스트리밍 비디오, 또는 다른 그러한 정보일 수 있음이 주목될 것이다. NMC (210) 에 의해 편집 및 수신된 콘텐츠는 커머셜들, 범퍼들, 그래픽들, 오디오 등을 포함할 수 있다. 모든 파일들은 고유하게 식별가능하도록 바람직하게 네이밍된다. 더 구체적으로, NMC (210) 는, 매장 위치들과 같이 특정 사이트들로 타겟팅되고 그리고 스케줄링 또는 주문 기반으로 하나 이상의 매장들에게 전달되는 분배 팩들을 생성한다. 분배 팩들은, 사용된다면, 현지에서 이미 존재하는 기존의 콘텐츠를 대체하거나 향상시키도록 의도된 콘텐츠를 포함한다 (그 사이트의 시스템이 처음으로 초기화되고 있지 않으면, 그 경우, 전달된 패키지들은 사이트의 초기 콘텐츠의 기반을 형성할 것임). 대안적으로, 파일들은 별개로 압축 및 전송될 수도 있거나 일부 타입의 스트리밍 압축 프로그램이 채용되었다.

NOC (220) 는 디지털화된 데이터 파일들 (222) 을, 일 예에 있어서, 통신 네트워크 (225) 를 통해 상업적 판매 아울렛 (230) 에서의 콘텐츠 분배 시스템 (100) 으로 통신한다. 통신 네트워크 (225) 는 수개의 기술들 중 임의의 하나로 구현될 수 있다. 예를 들어, 본 발명의 일 실시형태에 있어서, 디지털화된 데이터 파일들 (222) 을 상업적 판매 아울렛 (230) 의 콘텐츠 분배 시스템 (100) 으로 분배하기 위해 위성 링크가 사용될 수 있다. 이는 콘텐츠를 다양한 위치들로 브로드캐스팅 (또는 멀티캐스팅) 함으로써 콘텐츠가 용이하게 분배될 수 있게 한다. 대안적으로, 시청각 콘텐츠를 상업적 판매 아웃렛 (230) 으로 분배하고 상업적 판매 아웃렛 (230) 으로부터의 피드백을 허용하기 위해 인터넷이 사용될 수 있다. 임대 회선들, 마이크로파 네트워크 또는 다른 그러한 메커니즘을 사용하는 것과 같이 통신 네트워크 (225) 를 구현하는 다른 방식들이 또한, 본 발명의 대안적인 실시형태들에 따라 사용될 수 있다.

콘텐츠 분배 시스템 (100) 의 서버 (110) 는 콘텐츠 (예를 들어, 분배 팩들) 를 수신 가능하고, 이에 따라, 이들을 셋탑 박스들 (120) 및 디스플레이들 (130) 과 같은 다양한 수신기들로 매장 내에서 분배 가능하다. 즉, 콘텐츠 분배 시스템 (100) 에서, 콘텐츠는 스트리밍을 위해 수신 및 구성된다. 스트리밍은, 함께 또는 일제히 동작하도록 구성된 하나 이상의 서버들에 의해 수행될 수 있다. 스트리밍 콘텐츠는 판매 아울렛 (230) (예를 들어, 매장) 전반에 걸친 다양한 상이한 위치들 또는 제품들을 위해 구성된 콘텐츠를 포함할 수 있다. 예를 들어, 개별 셋탑 박스들 (120) 및 디스플레이들 (130) 은 판매 아울렛 (230) 전반에 걸쳐 특정 위치들에 위치되고, 각각의 개별 셋탑 박스 및 디스플레이의 위치로부터 미리결정된 거리 내에 위치된 제품들에 관한 콘텐츠를 디스플레이하고 오디오를 브로드캐스팅하도록 각각 구성될 수 있다.

본 발명의 다양한 실시형태들은 마이크로폰 신호들을 분리하기 위한 방법, 장치 및 시스템을 제공한다. 즉, 본 명세서에서 설명된 본 발명의 다양한 실시형태들은, 개별 체크아웃 카운터에서 유래하는 오디오 또는 사운드들이 분리될 수 있도록 상업적 체크아웃 환경에 존재하는 마이크로폰의 신호로부터 주변 노이즈를 제거하는 것으로 안내된다. 더 상세하게, 본 명세서에서 설명된 본 발명의 다양한 실시형태들은, 타깃 디스플레이 스크린에서 마이크로폰에 의해 수신 또는 검출된 사운드들이 분리될 수 있도록 어레이에 예를 들어 도 1 에 도시된 바와 같은 복수의 디스플레이 스크린들에 포함된 마이크로폰들로부터 주변 사운드들을 제거하는 것으로 안내된다. 또한, 비록 본 발명의 다양한 실시형태들이 상업적 광고 네트워크 환경 및 광고 콘텐츠 분배의 문맥 내에서 주로 설명될 것이지만, 본 발명의 특정 실시형태들은 본 발명의 범위를 한정하는 것으로서 처리되지 않아야 한다.

본 발명의 일 실시형태에 있어서, 마이크로폰들의 어레이에서의 적어도 하나의 마이크로폰으로부터 제거될 도 1 의 콘텐츠 분배 시스템의 인접 체크아웃 레인들에서 생성된 사운드들 및 다른 오디오 신호들과 같은 노이즈를 결정하기 위한 프로세스가, 본 발명의 일 실시형태에서, 빔 형성 프로세스/기술을 통해 달성될 수 있다. 본 발명의 일 실시형태를 설명하기 위해, t 는 마이크로폰들이 사운드를 (예를 들어, 매 msec마다) 레코딩하는 시간슬롯이고, y_i(t) 는 시간슬롯 (t) 에 있어서 스크린 (i) 에서의 마이크로폰에 의해 수신되거나 검출된 신호이고, x_i(t) 는 시간슬롯 (t) 에 있어서 카운터 (i) 에서 생성된 사운드 신호이고 (예를 들어, 카운터 (i) 에서의 현금출납원과 고객 간의 대화, 체크아웃 머신에 의해 행해진 스캐닝 사운드들 등 포함), T_ij 는 카운터 (i) 로부터 카운터 (j) 까지의 시간 지연에 기초한 가중값 (지연 파라미터) 이며, w_ij 는 카운터 (i) 와 카운터 (j) 간의 거리에 기초한 가중값 (감쇄 팩터) 이라고 한다. 그에 따라, 포지션 (i) 에서의 마이크로폰은 다음을 따르는 수학식 일(1) 에 따라 결정될 수 있는 모든 카운터들로부터의 사운드들을 포함하는 신호 (y_i) 를 수신한다:

또한, 수학식 (1) 에서, w_ji 는 카운터 (j) 로부터 카운터 (i) 로의 감쇄 팩터이고 T_ij 는 카운터 (j) 로부터 카운터 (i) 로의 지연 파라미터이다. 결과적으로, 카운터 (i) 로부터 오는 사운드를 분리하기 위해, 다음의 프로세싱이 발생한다. 각각의 디스플레이는 레코딩된 신호들 (y_i(t)) 을, 예를 들어, 본 발명의 다양한 실시형태들에 있어서, 셋탑 박스 (120), 또는 도 1 의 콘텐츠 분배 시스템 (100) 의 서버 (110) 또는 도 2 의 매장내 광고 네트워크 (200) 의 NMC (210) 또는 NOC (220) 와 같은 로컬 또는 원격 서버에 상주할 수 있는 프로세싱 디바이스로 브로드캐스팅한다. 이들 신호들을 가지면, 시간 (t) 에 있어서 카운터 (i) 에서 사운드 (즉, x_i(t)) 를 분리하기 위해, 프로세싱 디바이스는 수학식 일(1) 의 선형 시스템을 푼다. 이 시스템에서 미지수들은 상이한 시간슬롯들 (t) 에서의 신호들 (x_i) 이다.

도 3 은, 본 발명의 다양한 실시형태들에 있어서, 셋탑 박스 (120), 또는 도 1 의 콘텐츠 분배 시스템 (100) 의 서버 (110) 또는 도 2 의 매장내 광고 네트워크 (200) 의 NMC (210) 또는 NOC (220) 와 같은 로컬 또는 원격 서버일 수 있는 프로세싱 장치의 하이-레벨 블록 다이어그램을 도시한다. 더 상세하게, 도 3 의 프로세싱 디바이스는 프로세서 (310) 뿐 아니라 제어 프로그램들, 파일 정보, 저장된 신호들 등을 저장하기 위한 메모리 (320) 를 예시적으로 포함한다. 프로세서 (310) 는 메모리 (320) 에 저장된 소프트웨어 루틴들을 실행하는 것을 돕는 회로들뿐 아니라 전력 공급부들, 클록 회로들, 캐시 메모리 등과 같은 종래의 서포트 회로 (330) 와 협력한다. 그에 따라, 소프트웨어 프로세스들로서 본 명세서에서 논의되는 프로세스 단계들 중 일부는, 예를 들어, 프로세서 (310) 와 협력하여 다양한 단계들을 수행하는 회로로서 하드웨어 내에 구현될 수도 있음이 고려된다. 프로세싱 장치는 또한, 프로세싱 장치와 통신하는 다양한 기능 엘리먼트들 간의 인터페이스를 형성하는 입력-출력 회로 (340) 를 포함한다.

비록 도 3 의 프로세싱 장치가 본 발명에 따른 다양한 제어 기능들을 수행하도록 프로그래밍된 범용 컴퓨터로서 도시되지만, 본 발명은, 예를 들어, 주문형 집적회로 (ASIC) 로서 하드웨어에서 구현될 수 있다. 그에 따라, 본 명세서에서 설명된 프로세스 단계들은 프로세서에 의해 실행된 소프트웨어, 하드웨어, 또는 이들의 조합에 의해 균등하게 수행되는 것으로서 넓게 해석되도록 의도된다. 추가적으로, 비록 도 3 의 프로세싱 장치가 별개의 컴포넌트로서 도시되지만, 본 명세서에서 설명된 본 발명의 개념들 및 실시형태들에 따른 프로세싱 디바이스의 기능들은 셋탑 박스, 서버 등과 같은 기존의 시스템 컴포넌트에 통합될 수 있다.

상기 수학식 일(1)로 돌아가면, 본 발명의 일 실시형태에 있어서, 감쇄 팩터 (w_ij) 및 지연 팩터 (T_ij) 를 결정하기 위해, 예를 들어, 체크아웃 카운터들에서의 스캐너들에 의해 생성된 공지의 체크아웃 사운드들 또는 톤들이 사용된다. 즉, 그러한 실시형태에 있어서, 체크아웃 스캐너 톤은 공지된 사운드이고 미리결정된 볼륨을 포함한다. 각각의 스캐너가 공지된 시간 (t₁) 에서 체크아웃 톤을 생성하면, 타깃 디스플레이의 마이크로폰은 톤들을 검출하고, 그러한 정보를, 일 실시형태에 있어서 예를 들어 상기 설명된 바와 같은 본 발명의 프로세싱 디바이스 또는 서버에서의 오디오 회로로 통신할 수 있다.

로컬 사운드들이 공지되지 않은 (즉, 로컬로 생성된 오디오의 타입 및 볼륨이 공지되지 않음) 본 발명의 대안적인 실시형태에 있어서, 개별 체크아웃 레인 (134₁) 의 마이크로폰 (132₁) 과 같은 로컬 마이크로폰은 그 근처에서 그리고 빔형성 기술들 및 다른 오디오 신호 프로세싱 기술들과 같은 공지의 기술들을 사용하여 오디오 신호들을 레코딩하는데 사용될 수 있고, 어느 오디오 신호들이 그 근처에 로컬로 생성되는지를 결정할 수 있으며, 그러한 로컬로 생성된 오디오 신호들의 볼륨 및 다른 물리적 특성들을 또한 결정할 수 있다. 그 후, 로컬로 생성된 오디오 신호들의 이들 결정된 파라미터들은 상기 설명된 바와 같은 그러한 신호들의 감쇄 및 지연 팩터들을 결정하기 위해 타깃 마이크로폰에 의해 사용될 수 있다. 즉, 그러한 실시형태들에 있어서, 어레이의 개별 마이크로폰들에 의해 결정된 바와 같은 로컬로 생성된 오디오 신호들은 상기 설명된 바와 같은 그러한 신호들의 감쇄 및 지연 팩터들을 결정하기 위해 상기 설명된 바와 같은 공지의 신호들로서 타깃 마이크로폰에 의해 사용될 수 있다.

본 발명의 일 실시형태에 있어서, 오디오 회로는 예를 들어 본 발명의 디스플레이 또는 서버에 별도의 회로 카드를 포함할 수도 있거나, 또는 공동 계류중인 미국특허출원 제12/733,214호에 설명된 바와 같은 네트워크 오디오 프로세서와 같은 전용 디바이스를 포함할 수도 있다. 본 발명의 오디오 회로는, 체크아웃들에서 생성된 공지의 사운드들에 관한 정보를 갖는 각각의 체크아웃 카운터에서의 각각의 스캐너에 대한 감쇄 팩터 (w_ij) 및 지연 팩터 (T_ij) 를 계산할 수 있다.

더 상세하게, 본 발명의 일 실시형태에 있어서, 포지션 (i) 에서의 스캐닝 신호가 시간 (t₁) 에서 생성됨을 고려하면, T_ij 는 스캐닝 신호가 마이크로폰 (j) 에서 처음 레코딩된 시간슬롯과 t₁ 사이의 시간슬롯들의 수로서 계산될 수 있다. 대안적으로, 본 발명의 대안적인 실시형태에 있어서, 신호의 시작부라기 보다는 상이한 레코딩된 신호들에 걸친 제 1/최고 피크 사이의 시간슬롯들에서의 차이가 사용될 수 있다.

본 발명의 일 실시형태에 있어서, 감쇄 팩터 (w_ij) 가 유사하게 계산된다. 특히, w_ii 는 모든 i 에 대해 1 과 동일하도록 취해질 수 있다. 팩터 (w_ij) 는 시간 (t₁+T_ii) 에 있어서의 마이크로폰 (i) 에서의 신호에 대한 시간 (t₁+T_ij) 에 있어서의 마이크로폰 (j) 에서의 신호의 비율로서 계산된다. 본 발명의 대안적인 실시형태에 있어서, 스캐닝 사운드의 파형에서의 피크들 또는 다른 포지션들의 비율이 사용될 수 있다.

일단 감쇄 팩터 (w_ij) 및 지연 팩터 (T_ij) 가 계산되면, 빔형성 기술이 사용될 수 있어서, 다른 체크아웃 카운터들로부터의 사운드들이 예를 들어 타깃 디스플레이 (100) 에서의 타깃 마이크로폰에 의해 수신된 오디오 신호로부터 제거된다.

본 발명의 다양한 실시형태들에 있어서, 일단 주변 노이즈가 예를 들어 타깃 디스플레이 (110) 에서의 수신된 오디오 신호로부터 제거되었으면, 상기 설명된 바와 같이, 다수의 프로세스들이 스피치와 같은 원하는 오디오를 분리하기 위해 구현될 수 있다. 예를 들어, 타깃 디스플레이 (110) 근처의 고객 및 금전출납원의 스피치의 검출 및 분리가 요구될 수 있다. 그러한 경우, 금전출납원은 구매된 아이템들을 표현하는 일련의 오디오 톤들 이후에 통상적으로 먼저 말하는 것으로 가정된다. 금전출납원은 또한 "당신의 총금액은 ...입니다", "당신은...를 저축하셨습니다", "사모님", "선생님" 등과 같지만 이에 한정되지 않는 반복적인 진술을 행하는 것으로 가정된다.

본 발명의 일 실시형태에 있어서, 금전출납원과 고객 간의 대화를 나타내는 오디오와 같은 오디오 신호들에 대해 푸리에 변환을 수행함으로써, 다음의 오디오 속성들이 검출되거나 결정될 수 있다:

a. 주파수들

b. 평균 진폭들

c. 최대 진폭들

d. 제 1 진폭 피크의 시간

e. 진폭 피크들의 수

f. 음성 신호, 스니펫 (snippet) 또는 세그먼트가 금전출납원일 것 같은지 또는 고객일 것 같은지의 0 또는 1 표시자의 할당.

본 발명의 다양한 실시형태들에 있어서, 그러한 프로세싱은 예를 들어 타깃 디스플레이 (110) 및/또는 중앙 서버 (140) 에서의 오디오 카드에 의해 수행될 수 있다. 본 발명의 다양한 실시형태에 있어서, k-평균 클러스터링과 같지만 이에 한정되지 않는 표준 머신 학습 기술들이 적어도 오디오 샘플들과 함께 상기 결정된 오디오 속성들을 사용하여, 예를 들어, 어느 오디오 샘플들이 금전출납원의 스피치를 나타내는지를 그리고 어느 오디오 샘플들이 고객의 스피치를 나타내는지를 결정할 수 있다. 상기 설명된 바와 같이 그리고 본 발명의 상기 설명된 실시형태들에 따라, 타깃 디스플레이 (110) 근처에서 생성된 오디오 샘플들, 세그먼트들 또는 신호들이 결정/분리될 수 있다.

일단 소정의 고객에 의해 생성된 스피치와 같은 오디오가 분리되면, 선형 회귀, 판정 트리들, AdaBoost™ 및 서포트 벡터 머신들 또는 알고리즘들과 같지만 이에 한정되지 않는 표준 머신 학습 기술들이 분리된 오디오에 적용되어, 오디오에 관한 정보, 예를 들어 스피치의 경우, 고객의 성별, 연령, 민족적 배경 등을 결정하려고 시도할 수 있다. 예를 들어, 본 발명의 일 실시형태에 있어서, 트레이닝 데이터세트들의 데이터베이스가, 각 사람의 검출된 주파수들, 진폭들, 주파수 크기 피크들에 기초한 공지의 성별, 연령 및 민족성의 사람들을 이용하여 생성될 수 있다. 그 이후, 트레이닝 데이터 세트들은, 함수가 성별, 연령 또는 민족적 배경을 예측할 수 있도록 함수, 알고리즘 및/또는 소프트웨어 모듈을 트레이닝하는데 사용될 수 있다. 제어 그룹의 사람들로 하여금 성별, 연령 또는 민족성의 검출을 개선시키는 것을 돕기 위해 체크아웃 카운터에서 종종 말해지는 특정 어구들을 말하게 하는 것이 유익할 것임을 주목해야 한다. 동일한 프로세스가 스피치 이외의 오디오, 예를 들어, 제품의 스캐닝과 연관된 가청 톤들에 적용될 수 있음이 또한 주목되어야 한다. 더욱이, 본 발명의 방법이 구현되어야 하는 특정 매장으로부터의 실제 오디오가 트레이닝 데이터세트들을 생성하기 위해 수집 및 사용될 수 있으면, 함수의 정확도는 나머지 주변 노이즈, 지리적 방언/문법 등에 기초하여 더 개선될 수 있음이 또한 주목되어야 한다.

본 발명의 대안적인 실시형태들에 있어서, 스피치-투-텍스트 소프트웨어는, 연령, 성별 또는 민족성의 식별을 개선시키는 것을 돕는 엄마, 아빠, 선생님, 미스 등과 같은 특정 단어들 또는 어구들을 검출하는데 사용될 수 있다. 추가적으로, 본 발명의 추가의 대안적인 실시형태들에 있어서, 아이 울음, 옹알이 등의 분리는 가족의 존재를 가정하는데 사용될 수 있다. 본 명세서에서 설명된 본 발명의 다양한 실시형태들에 따른, 연령, 성별, 민족성, 가족 등을 포함한 고객 속성들과 같은 구매 정보, 및 제품들의 스캐닝과 연관된 가청 톤들과 같은 다른 구매 정보의 결정은 타겟팅된 광고 및 애드(ad)들을, 예를 들어 타깃 디스플레이 (110) 를 통해 고객(들)에 제공하는데 사용될 수 있다.

본 발명의 대안적인 실시형태들에 있어서, 상기 설명된 바와 같은 디스플레이 마이크로폰들로부터 결정된 오디오/스피치 정보는 소매 환경에 의해 수집된 데이터 (예를 들어, 스캐닝된 아이템들, 고객 카드 정보 등) 와 결합되어, 고객들의 성별, 연령, 및/또는 다른 데모그래픽 정보를 식별하는 것의 정확도를 증가시킬 수 있다. 본 발명의 다양한 실시형태들에 있어서, 결정된 고객 정보를 예를 들어 시간 스탬프 정보와 결합하는 것은 매우 가치있는 정보를 산출할 수 있다. 예를 들어, 여성이 하루 중 특정 시간들에 쇼핑하는 것으로 발견되면, 광고는 그 시간들 동안 여성에 더 적절한 애드들을 전달하도록 시프트될 수 있다.

본 발명의 일 실시형태에 있어서, 일단 스피치의 클린 오디오 패턴이 결정되면, 그 오디오 패턴은 성문 (voice print) 을 산출하는데 사용된다. 그 후, 그 성문은 쇼핑객을 의사 식별하는데 사용될 수 있다. 예를 들어, 매장 방문의 패턴을 관찰함으로써 유의 값이 획득된다. 쇼핑객이 매주 화요일마다 또는 일주일에 한번 또는 격주 수요일에 방문한다는 사실과 같은 쇼핑객 패턴들을 확립하도록 소정의 성문이 추적될 수 있으면, 그 데이터는 높은 가치를 갖는다. 모든 검출된 성문들로부터의 데이터를 수집하는 것은 쇼핑객 빈도의 전체 패턴들을 확립하는데 사용될 수 있다. 그 후, 이 데이터는 광고 주기 및 리프레시 일자들을 최적화하는데 사용될 수 있다. 예를 들어, 쇼핑객들이 통상 일주일에 2회 내점하고 미디어가 각각의 방문에 새롭게 보일 것이 요구됨을 이 데이터가 나타내면, 새로운 미디어가 리프레시되는 속도는 증가될 수 있다.

본 발명의 설명된 다양한 실시형태들에 따라, 일단 쇼핑객이 상기 설명된 바와 같이 성문에 의해 식별되면, 비록 쇼핑객이 오직 의사-식별되고 있더라도, 그 쇼핑객은 그 성문을 이용하여 항상 식별될 수 있다. 본 발명의 대안적인 실시형태들에 있어서, 예를 들어, 고객 카드를 사용하여 예를 들어 매장에 의해 수집된 쇼핑객 정보는 쇼핑객을 더 식별하는데 사용될 수 있다.

본 발명의 대안적인 실시형태들에 있어서, 상기 설명된 바와 같은 스피치 이외에, 타깃 마이크로폰의 분리된 오디오 신호에서의 오디오는, 예를 들어 타겟팅된 광고 및 애드들을 예를 들어 타깃 디스플레이를 통해 고객(들)에 제공함으로써 광고의 효과성을 개선하기 위한 구매 트랜잭션에 관한 정보를 획득함에 있어서의 사용을 위해 본 발명에 따라 분리될 수 있다. 더 상세하게, 본 발명의 일 실시형태에 있어서, 구매될 아이템의 스캐닝과 연관된 오디오 톤들은 타깃 디스플레이의 마이크로폰에 의해 레코딩될 수 있고, 특정 고객에 의해 구매된 다수의 아이템들을 결정하는데 사용될 수 있다. 추가적으로, 그러한 정보는, 예를 들어 특정 레지스터에서의 특정 시간에 무슨 아이템들이 구매되었는지에 관하여 소매상인에 의해 보유된 정보와 결합될 수 있으며, 구매된 특정 아이템들은 특정 고객과 연관될 수 있다.

본 발명의 다양한 실시형태들에 있어서, 상기 설명된 바와 같이 분리되었던, 마이크로폰에 의해 레코딩된 분리된 오디오는, 상기 기술된 바와 같이 예를 들어 타겟팅된 광고 및 애드들을 예를 들어 타깃 디스플레이를 통해 고객(들)에 제공함으로써 광고의 효과성을 개선하기 위한 구매 트랜잭션에 관한 정보를 획득함에 있어서 사용될 수 있다.

도 4 는 본 발명의 실시형태에 따른, 마이크로폰 오디오의 분리를 위한 방법의 플로우 다이어그램을 도시한다. 도 4 의 방법 (400) 은, 환경 사운드들/오디오가, 마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들에 의해 레코딩되는 단계 402 에서 시작한다. 방법 (400) 은 단계 404 로 진행한다.

단계 404 에서, 교정되는 마이크로폰 (즉, 타깃 마이크로폰) 이외의 어레이의 모든 다른 마이크로폰들로부터의 사운드들에 대한 감쇄 팩터가, 예를 들어, 어레이의 다른 마이크로폰들의 위치들로부터의 공지의 사운드들을 이용하여 결정된다. 방법 (400) 은 단계 406 으로 진행한다.

단계 406 에서, 교정되는 마이크로폰 (즉, 타깃 마이크로폰) 이외의 어레이의 모든 다른 마이크로폰들로부터의 사운드들에 대한 지연 팩터가, 예를 들어, 어레이의 다른 마이크로폰들의 위치들로부터의 공지의 사운드들을 이용하여 결정된다. 방법 (400) 은 단계 408 로 진행한다.

단계 408 에서, 결정된 감쇄 팩터 및 지연 팩터는, 예를 들어 본 발명의 일 실시형태에 있어서 빔형성 프로세스들/기술들을 이용함으로써 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록, 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 타깃 마이크로폰에 의해 캡처된 오디오 신호로부터 제거하기 위해 구현된다. 방법 (400) 은 단계 410 으로 진행한다.

단계 410 에서, 타깃 마이크로폰의 분리된 오디오 신호는 타깃 마이크로폰의 분리된 오디오 신호의 오디오 속성들을 결정하도록 프로세싱된다. 예를 들어 그리고 상기 설명된 바와 같이, 본 발명의 일 실시형태에 있어서, 타깃 마이크로폰의 분리된 스피치에서의 주파수, 평균 진폭, 최대 진폭, 제 1 진폭 피크의 시간, 및 진폭 피크들의 수와 같은 스피치의 오디오 속성들이, 분리된 오디오 신호들에 대해 푸리에 변환을 수행함으로써 결정될 수 있다. 그 후, 방법 (400) 은 단계 412 로 진행한다.

단계 412 에서, 타깃 마이크로폰의 분리된 오디오 신호에서의 오디오의 개별 소스들이 오디오 속성들을 이용하여 결정된다. 상기 설명된 바와 같이, 본 발명의 일 실시형태에 있어서, 타깃 마이크로폰의 분리된 오디오 신호에서의 스피치의 소스들이, 표준 머신 학습 기술들을 분리된 오디오 신호에 적용하고 그리고 결정된 스피치 속성들을 적용함으로써 결정된다. 그 후, 방법 (400) 은 옵션적인 단계들 414 또는 416 으로 진행할 수 있거나 종료될 수 있다.

옵션적인 단계 414 에서, 표준 머신 학습 기술이, 스피치의 적어도 하나의 개별 소스들의 성별, 연령, 민족적 배경 등과 같은 데모그래픽 정보를 결정하기 위해 스피치와 같은 오디오의 개별 소스들 중 적어도 하나의 분리된 오디오 신호에 적용된다.

옵션적인 단계 416 에서, 타겟팅된 광고가, 오디오의 결정된 개별 소스들 중 적어도 하나로 안내된다. 예를 들어, 상기 설명된 바와 같이, 본 발명의 일 실시형태에 있어서, 타겟팅된 광고 및 애드들은 예를 들어 타깃 디스플레이를 통해 식별된/결정된 고객(들)에 제시될 수 있다.

(한정적인 것이 아닌 예시적인 것으로 의도되는) 마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템의 다양한 실시형태들이 설명되었지만, 변형들 및 변동들이 상기 교시들의 관점에서 당업자들에 의해 실시될 수 있음이 주목된다. 따라서, 본 발명의 범위 및 사상 내에 있는 개시된 본 발명의 특정 실시형태들에서 변경들이 실시될 수도 있음을 이해해야 한다. 전술한 바는 본 발명의 다양한 실시형태들에 관한 것이지만, 본 발명의 다른 실시형태들 및 추가의 실시형태들이 그 기본적인 범위로부터 일탈함없이 발명될 수도 있다.

Claims

마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하는 단계;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하는 단계;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하는 단계;
상기 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 상기 타깃 마이크로폰에 의해 캡처된 상기 오디오 신호로부터 상기 마이크로폰들의 어레이의 상기 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 상기 감쇄 팩터 및 상기 지연 팩터를 구현하는 단계;
상기 타깃 마이크로폰의 분리된 상기 오디오 신호의 오디오 속성들을 결정하기 위해 상기 타깃 마이크로폰의 분리된 상기 오디오 신호를 프로세싱하는 단계; 및
상기 오디오 속성들을 이용하여, 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에서의 오디오의 개별 소스들을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 속성들은 스피치 속성들을 포함하고, 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에서의 스피치의 개별 소스들이 결정되는, 방법.
제 2 항에 있어서,
상기 프로세싱하는 단계는 상기 오디오 신호에서의 스피치의 속성들을 결정하기 위해 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에 푸리에 변환을 적용하는 단계를 포함하는, 방법.
제 3 항에 있어서,
상기 스피치의 속성들은 주파수, 평균 진폭, 최대 진폭, 제 1 진폭 피크의 시간, 및 진폭 피크들의 수 중 적어도 하나를 포함하는, 방법.
제 2 항에 있어서,
분리된 상기 오디오 신호에서의 스피치의 개별 소스들을 결정하는 것은 머신 학습 기술을 분리된 상기 오디오 신호에 적용하는 것, 및 결정된 상기 스피치 속성들을 적용하는 것을 포함하는, 방법.
제 5 항에 있어서,
상기 머신 학습 기술은 k-평균 클러스터링을 포함하는, 방법.
제 2 항에 있어서,
스피치의 적어도 하나의 개별 소스들의 데모그래픽 정보를 결정하기 위해 상기 스피치의 개별 소스들 중 적어도 하나의 분리된 상기 오디오 신호에 표준 머신 학습 기술을 적용하는 단계를 포함하는, 방법.
제 7 항에 있어서,
상기 표준 머신 학습 기술은 선형 회귀, 판정 트리들, AdaBoost™ 및 서포트 벡터 머신들 또는 알고리즘들 중 적어도 하나를 포함하는, 방법.
제 7 항에 있어서,
상기 데모그래픽 정보는 상기 스피치의 소스의 성별, 연령, 및 민족적 배경 중 적어도 하나를 포함하는, 방법.
제 2 항에 있어서,
상기 스피치 속성들을 이용하여 상기 스피치의 개별 소스들에 대한 성문을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
오디오 특성들은 제품의 구매와 연관된 가청 톤들의 오디오 특성들을 포함하고, 구매된 다수의 제품들이 상기 가청 톤들로부터 결정되는, 방법.
제 1 항에 있어서,
소매상인에 의해 수집된 정보를 사용하여 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에서의 상기 오디오의 개별 소스들을 식별하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오의 결정된 개별 소스들에 대해 타겟팅된 광고를 제공하는 단계를 포함하는, 방법.
장치로서,
프로그램 루틴들 및 데이터를 저장하는 메모리; 및
상기 프로그램 루틴들을 실행하는 프로세서를 포함하고;
상기 장치는,
마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하고;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하고;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하고;
상기 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 상기 타깃 마이크로폰에 의해 캡처된 상기 오디오 신호로부터 상기 마이크로폰들의 어레이의 상기 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 상기 감쇄 팩터 및 상기 지연 팩터를 구현하고;
상기 타깃 마이크로폰의 분리된 상기 오디오 신호의 오디오 속성들을 결정하기 위해 상기 타깃 마이크로폰의 분리된 상기 오디오 신호를 프로세싱하고; 그리고
상기 오디오 속성들을 이용하여, 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에서의 오디오의 개별 소스들을 결정하도록
구성되는, 장치.
제 14 항에 있어서,
상기 장치는 서버 및 셋탑 박스 중 적어도 하나의 집적화된 오디오 회로를 포함하는, 장치.
시스템으로서,
마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들;
적어도 하나의 오디오 소스; 및
프로그램 루틴들 및 데이터를 저장하는 메모리, 및 상기 프로그램 루틴들을 실행하는 프로세서를 포함하는 장치를 포함하고,
상기 장치는,
마이크로폰들의 어레이를 포함하는 적어도 2개의 마이크로폰들을 사용하여 오디오를 레코딩하고;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 감쇄 팩터를 결정하고;
상기 마이크로폰들의 어레이의 타깃 마이크로폰을 사용하여, 상기 마이크로폰들의 어레이의 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오에 대한 지연 팩터를 결정하고;
상기 타깃 마이크로폰에 의해 캡처된 오디오 신호를 분리하도록 상기 타깃 마이크로폰에 의해 캡처된 상기 오디오 신호로부터 상기 마이크로폰들의 어레이의 상기 다른 마이크로폰들의 개별 위치들로부터 발생한 오디오를 제거하기 위해 결정된 상기 감쇄 팩터 및 상기 지연 팩터를 구현하고;
상기 타깃 마이크로폰의 분리된 상기 오디오 신호의 오디오 속성들을 결정하기 위해 상기 타깃 마이크로폰의 분리된 상기 오디오 신호를 프로세싱하고; 그리고
상기 오디오 속성들을 이용하여, 상기 타깃 마이크로폰의 분리된 상기 오디오 신호에서의 개별 오디오 소스들을 결정하도록
구성되는, 시스템.
제 16 항에 있어서,
상기 적어도 2개의 마이크로폰들은 적어도 하나의 네트워크 오디오 프로세서의 마이크로폰들을 포함하는, 시스템.
제 16 항에 있어서,
상기 적어도 2개의 마이크로폰들은 소매 환경의 체크아웃 레인에서의 마이크로폰들을 포함하는, 시스템.
제 16 항에 있어서,
상기 적어도 하나의 오디오 소스는 스캐너를 포함하는, 시스템.
제 16 항에 있어서,
상기 적어도 하나의 오디오 소스는 금전출납원 및 고객을 포함하는, 시스템.