KR20240017952A

KR20240017952A - 비히클을 위한 트랜스패런트 오디오 모드

Info

Publication number: KR20240017952A
Application number: KR1020247000783A
Authority: KR
Inventors: 동익 신; 지안 궈
Original assignee: 구글 엘엘씨
Priority date: 2021-09-30
Filing date: 2022-06-02
Publication date: 2024-02-08
Also published as: CN117643074A; EP4338432A1; US11943581B2; WO2023056112A1; US20230096496A1

Abstract

일반적으로 비히클에서 트랜스패런시 모드(transparency mode)를 활성화하는 기술이 설명된다. 하나 이상의 마이크로폰과 하나 이상의 프로세서를 포함하는 장치가 기술을 수행하도록 구성될 수 있다. 마이크로폰은 비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 캡처할 수 있다. 프로세서는 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하기 위해 오디오 데이터에 대해 빔포밍을 수행할 수 있다. 다음으로, 프로세서는 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 객체 오디오 데이터에 기초하여 비히클 외부의 사운드 씬의 오디오 객체를 재생할 수 있다.

Description

비히클을 위한 트랜스패런트 오디오 모드

많은 비히클(vehicle)에는 스피커를 통해 오디오 데이터(즉, 오디오 신호)에 기초하여 음장(soundfield)을 재생(재현)하는 엔터테인먼트 또는 인포테인먼트 시스템이 장착되어 있다. 인포테인먼트 시스템에 의한 음장의 재생은 비히클 탑승자의 몰입감을 증가시킬 수 있지만, 그러한 음장의 재생은 운전자가 비히클을 운전하고 있는 환경에서 가능한 문제를 식별하는 비히클 운전자(예: 자동차 운전자)의 능력을 감소시킬 수 있다. 즉, 비히클을 빠른 속도로 운행함에 따라 발생하는 도로 소음뿐만 아니라 비히클 운전자의 비히클 운행 환경에 대한 인식이 더욱 저하될 수 있다. 이러한 인식 저하로 인해 잠재적인 안전 위험이 발생할 수 있다(예: 도로 소음 및 스피커를 통해 인포테인먼트 시스템에서 재생되는 음장 추가로 인해 사이렌, 자전거, 보행자 등의 소리가 운전자에게 들리지 않을 수 있으므로).

일반적으로 비히클에서 트랜스패런트(transparent) 오디오 모드를 제공하기 위한 기술이 설명된다. 비히클은 비히클이 동작하는 환경을 모니터링하는 헤드 유닛 또는 기타 컴퓨팅 장치를 포함할 수 있다. 예를 들어, 비히클은 비히클 바디 주위에 외부에 배치된 마이크로폰을 포함할 수 있으며, 이러한 마이크로폰은 비히클 외부의 사운드 씬(sound scene)을 나타내는 오디오 신호(또는 즉, 오디오 데이터)를 캡처한다. 그러면 비히클은 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하기 위해 오디오 데이터에 대해 빔포밍을 수행할 수 있다. 그러면 비히클은 비히클 내의 하나 이상의 스피커를 통해 객체 오디오 데이터에 기초하여 오디오 객체를 재생할 수 있다(재생된 오디오 객체를 헤드 유닛의 오디오 콘텐츠 등 다른 오디오 콘텐츠와 믹싱할 수도 있음).

이러한 방식으로, 기술의 다양한 양태는 외부 오디오 객체 식별 및 비히클 내부 재생(재현)(reproduce)을 통해 비히클 운전자의 인식을 높일 수 있다. 예를 들어, 비히클은 보행자, 자전거, 교차 비히클 교통, 사이렌, 경적 등을 오디오 개체로 식별하고 이러한 오디오 개체를 비히클 내부에서 재생하여 운전자에게 비히클 동작에 영향을 미칠 수 있는 잠재적인 안전 위험에 주의를 환기시킬 수 있다. 안전 위험을 줄이고 잠재적으로 피하면 어려운 상황(예: 다양한 물체가 가려져 있지만 음파의 편향 특성을 고려하면 가려져도 식별할 수 있는 경우)에서도 비히클이 더욱 안전하게 동작할 수 있다. 따라서 기술의 다양한 양태는 비히클 자체의 동작을 향상시킬 수 있다.

일례에서, 기술의 다양한 양태는 방법에 관한 것으로서, 방법은, 하나 이상의 마이크로폰에 의해, 비히클 외부의 사운드 씬(sound scene)을 나타내는 오디오 데이터를 캡처하는 단계; 상기 하나 이상의 프로세서에 의해, 상기 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하기 위해 상기 오디오 데이터에 대한 빔포밍을 수행하는 단계; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 상기 오디오 객체를 재생(reproduce)하는 단계를 포함한다.

또 다른 예에서, 기술의 다양한 양태는 장치에 관한 것으로서, 장치는, 비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 캡처하도록 구성된 하나 이상의 마이크로폰; 그리고 하나 이상의 프로세서를 포함하며, 상기 하나 이상의 프로세서는, 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하고; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하도록 구성된다.

또 다른 예에서, 기술의 다양한 양태는 실행될 때 하나 이상의 프로세서로 하여금 동작 세트를 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 관한 것으로서, 상기 동작 세트는, 비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 획득하는 동작; 상기 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하는 동작; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하는 동작을 포함한다.

기술의 하나 이상의 양태의 세부사항은 첨부 도면 및 아래 설명에 설명되어 있다. 기술의 다른 특징, 목적 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다.

도 1은 본 개시에 설명된 트랜스패런트(transparent) 오디오 모드 기술의 다양한 양태를 수행하도록 구성된 예시적인 비히클을 도시하는 블록도이다.
도 2a 및 도 2b는 본 개시에 설명된 기술의 다양한 양태에 따라 트랜스패런시 모드(transparency mode)를 구현하도록 구성된 비히클을 예시하는 다이어그램이다.
도 3은 본 개시에 설명된 기술의 다양한 양태에 따라 비히클에 의한 트랜스패런시 모드의 적용을 통해 검출된 잠재적인 안전 위험을 예시하는 다이어그램이다.
도 4는 본 명세서에 설명된 트랜스패런시 모드의 다양한 양태를 수행함에 있어 도 1의 예에 도시된 비히클의 동작 예를 도시한 흐름도이다.

도 1은 본 개시에 설명된 트랜스패런트 오디오 모드 기술의 다양한 양태를 수행하도록 구성된 예시적인 비히클을 도시하는 블록도이다. 이하의 설명에서는 비히클(Vehicle)(10)이 자동차인 것으로 가정한다. 그러나 본 개시 내용에 설명된 기술은 객실 내 탑승자(들)를 운반할 수 있는 모든 유형의 비히클, 예를 들어 버스, 레저용 비히클(RV), 세미트레일러 트럭, 트랙터 또는 기타 농기구, 기차 비히클, 비행기, 개인 이동 비히클 등에 적용될 수 있다.

도 1에 도시된 바와 같이, 비히클(100)은 처리(processing) 회로(112), 오디오 회로(114) 및 메모리 장치(116)를 포함한다. 일부 예에서, 처리 회로(112) 및 오디오 회로(114)는 집적 회로(IC)로서 형성될 수 있다. 예를 들어, IC는 칩 패키지 내의 프로세싱 칩으로 간주될 수도 있고, SoC(System-On-Chip)일 수도 있다.

처리 회로(112) 및 오디오 회로(114)의 예는 하나 이상의 디지털 신호 프로세서(DSP), 범용 마이크로폰로프로세서, 주문형 집적 회로(ASIC: application specific integrated circuit), FPGA(field programmable logic array), 고정 기능 회로, 프로그래밍 가능 처리 회로, 고정 기능과 프로그래밍 가능한 처리 회로의 조합, 또는 기타 동등한 집적 회로 또는 개별 논리 회로를 포함하지만 이에 제한되지는 않는다. 처리 회로(112)는 비히클(100)의 중앙 처리 장치(CPU)일 수 있다. 일부 예에서, 오디오 회로(114)는 오디오 회로(114)에 병렬 처리 기능을 제공하는 통합 및/또는 개별 논리 회로를 포함하는 특수 하드웨어일 수 있다.

처리 회로(112)는 온도 조절 인터페이스 애플리케이션, 엔터테인먼트 및/또는 인포테인먼트 애플리케이션을 포함한 다양한 탑승자 경험 관련 애플리케이션, 휴대폰 인터페이스(예: Bluetooth® 링크를 사용하여 구현됨), 애플리케이션 탐색, 비히클 기능 인터페이스 애플리케이션, 웹 또는 디렉토리 브라우저, 또는 비히클(100)의 범위 내에서 탑승자의 경험을 향상시키는 다른 애플리케이션 등과 같은, 다양한 유형의 애플리케이션을 실행할 수 있다. 메모리 장치(16)는 하나 이상의 애플리케이션의 실행을 위한 명령어를 저장할 수 있다.

메모리 장치(116)는 비히클(100)을 위한 전체 메모리를 포함하거나, 전체 메모리이거나, 그 일부일 수 있다. 메모리 장치(116)는 하나 이상의 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리 장치(116)는, 예를 들어, 랜덤 액세스 메모리(RAM), 전기적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM), 플래시 메모리 또는 명령어 및/또는 데이터 구조의 형태로 원하는 프로그램 코드를 전달하거나 저장하는 데 사용할 수 있고 컴퓨터나 하나 이상의 프로세서(예를 들어, 처리 회로(112) 및/또는 오디오 회로(114))에서 액세스할 수 있는 기타 매체를 포함하지만 이에 제한되지는 않는다.

일부 양태에서, 메모리 장치(116)는 처리 회로(112) 및/또는 오디오 회로(114)가 본 개시 내용에서 처리 회로(112) 및/또는 오디오 회로(114)에 설명된 기능을 수행하게 하는 명령어를 포함할 수 있다. 따라서, 메모리 장치(16)는 실행될 때 하나 이상의 프로세서(예를 들어, 처리 회로(112) 및/또는 오디오 회로(114))가 다양한 기능을 수행하게 하는 명령어가 저장된 컴퓨터 판독 가능 저장 매체일 수 있다.

메모리 장치(116)는 비일시적 저장 매체이다. "비일시적"이라는 용어는 저장 매체가 반송파 또는 전파된 신호로 구현되지 않음을 나타낸다. 그러나 "비일시적"이라는 용어는 메모리 장치(116)가 이동 불가능하거나 그 내용이 정적이라는 것을 의미하는 것으로 해석되어서는 안 된다. 일례로서, 메모리 장치(116)는 비히클(100)에서 제거되어 다른 장치로 이동할 수 있다. 다른 예로서, 메모리 장치(116)와 실질적으로 유사한 메모리가 비히클(100)의 하나 이상의 수용 포트에 삽입될 수 있다. 특정 예에서, 비일시적 저장 매체는 시간이 지남에 따라 변경될 수 있는 데이터를 저장할 수 있다(예: RAM).

도 1의 예에 추가로 도시된 바와 같이, 비히클(100)은 인터페이스 장치(122), 카메라(들)(124), 다중 마이크로폰(128), 및 하나 이상의 라우드스피커(126)를 포함할 수 있다. 일부 예에서, 인터페이스 장치(122)는 비히클(100)의 탑승자에 의해 제공되는 음성 명령의 오디오 데이터를 캡처하도록 구성되는 하나 이상의 마이크로폰을 포함할 수 있다. 일부 예에서, 인터페이스 장치(122)는 터치스크린이나 다른 존재 검출 디스플레이와 같은 대화형 입력/출력 디스플레이 장치를 포함할 수 있다. 예를 들어, 인터페이스 장치(122)의 일부를 형성할 수 있는 디스플레이 장치는 입력 수신 기능이 내장되어 이미지가 프로젝트될 수 있는 임의 유형의 수동 스크린 또는 이미지를 프로젝트할 수 있는 능동 스크린을 나타낼 수 있다(예: 발광 다이오드(LED) 디스플레이, 유기 LED(OLED) 디스플레이, 액정 디스플레이(LCD) 또는 기타 모든 유형의 활성 디스플레이).

도 1에서는 단일 장치로 도시되었지만. 설명의 편의를 위해, 인터페이스 장치(122)는 입력을 수신 및/또는 출력을 제공하도록 구성된 복수의 사용자 대면 장치를 포함할 수 있다. 다양한 예에서, 인터페이스 장치(122)는 헤드업 디스플레이, 헤드마운트 디스플레이, 증강 현실 컴퓨팅 장치(예: "스마트 안경"), 가상 현실 컴퓨팅 장치 또는 디스플레이, 노트북 컴퓨터나 넷북, 휴대폰(소위 "스마트폰" 포함), 태블릿 컴퓨터, 게임 시스템 또는 비히클(100)에 통합된 디스플레이의 확장 또는 이를 대신하여 동작할 수 있는 다른 유형의 컴퓨팅 장치와 같은, 비히클(100)과 유선 또는 무선 통신하는 디스플레이를 포함할 수 있다.

인터페이스 장치(122)는 사용자가 비히클(100)의 다양한 기능을 제어하기 위해 인터페이스할 수 있는 임의 유형의 물리적 또는 가상 인터페이스를 나타낼 수 있다. 인터페이스 장치(122)는 물리적 버튼, 노브(knobs), 슬라이더 또는 기타 물리적 제어 도구를 포함할 수 있다. 인터페이스 장치(122)는 또한 비히클(100)의 탑승자가 일례로서 터치 검출 스크린을 통해 가상 버튼, 노브, 슬라이더 또는 기타 가상 인터페이스 요소와 상호 작용할 수 있는 가상 인터페이스를 포함할 수 있다. 탑승자(들)는 비히클(100) 내의 기후(climate), 비히클(100)에 의한 오디오 재생, 비히클(100)에 의한 비디오 재생, 비히클(100)을 통한 전송(휴대폰 통화 등), 또는 비히클(100)에 의해 수행될 수 있는 임의의 다른 동작 중 하나 이상을 제어하기 위해 인터페이스 장치(122)와 인터페이스할 수 있다.

인터페이스 장치(122)는 또한 비히클(100)에 통합된 디스플레이의 확장판으로서 또는 이를 대신하여 동작할 때 비히클(100)으로부터 확장된 인터페이스를 나타낼 수도 있다. 즉, 인터페이스 장치(122)는 위에서 언급한 HUD, 증강 현실 컴퓨팅 장치, 가상 현실 컴퓨팅 장치 또는 디스플레이, 태블릿 컴퓨터, 또는 위에 나열된 다른 유형의 확장 디스플레이를 통해 제공되는 가상 인터페이스를 포함할 수 있다. 비히클(100)은 비히클(100)의 주행 방향을 제어하기 위한 스티어링 휠, 비히클(100)의 주행 속도를 제어하기 위한 하나 이상의 페달, 하나 이상의 핸드 브레이크 등을 포함할 수 있다. 일부 예에서, 스티어링 휠 및 페달은 운전자 구역 또는 조종사 구역과 같은 비히클(100)의 특정 실내 비히클 구역에 포함될 수 있다.

예시의 목적으로, 처리 회로(112), 오디오 회로(114) 및 인터페이스 장치(122)는 소위 헤드 유닛(비히클 헤드 유닛으로도 지칭될 수 있음)의 동작을 형성하거나 지원할 수 있다. 따라서, 헤드 유닛에 대한 언급은 처리 회로(112), 오디오 회로(114) 및 인터페이스 장치(122)를 포함하는 비히클(100) 내에 통합된 컴퓨팅 장치를 나타낼 수 있다. 처리 회로(112)는 OS가 제공하는 애플리케이션 공간에서 애플리케이션의 실행을 지원하는 커널을 갖는 운영 체제(OS)(헤드 유닛의 기본 하드웨어 및 기타 연결된 하드웨어 컴포넌트와의 상호 작용을 촉진하고 보호된 OS 공간에서 실행되는 OS 계층)를 실행할 수 있다.

비히클(100)의 카메라(들)(124)는 이미지 데이터(이미지 데이터의 시퀀스가 비디오 데이터를 형성할 수 있음)를 캡처하도록 구성된 하나 이상의 이미지 및/또는 비디오 캡처 장치를 나타낼 수 있다. 비히클(100)은 360도 이미지/비디오 데이터를 캡처할 수 있는 단일 카메라, 또는 비히클(100) 주변의 일부를 캡처하도록 구성된 다중 카메라를 포함할 수 있다(각 부분을 서로 연결하여 360도 이미지/비디오 데이터를 형성할 수 있음). 일부 예에서, 카메라(124)는 이미지/비디오 데이터의 360도(형성하는 데 필요한 모든 부분은 아님)의 개별 부분만 캡처할 수 있다. 다른 예에서, 카메라(124)는 비히클(100)을 둘러싼 전체 시각적 씬(visual scene)을 나타내는 3차원 이미지/비디오 데이터의 캡처를 가능하게 할 수 있다.

카메라(124)는 비히클(100) 바디(예: 비히클 100의 지붕)의 단일 위치에 배치되거나 비히클(100) 바디 주변의 여러 위치에 배치되어 비히클(100)이 동작하는 외부 시각적 씬을 나타내는 이미지/비디오 데이터를 캡처할 수 있다. 카메라(124)는 다양한 수준의 자율 주행, 안전 시스템(예를 들어, 차선 보조, 동적 순항 제어 등), 비히클 동작(예를 들어, 비히클(100)의 백업을 지원하기 위한 백업 카메라) 등을 지원할 수 있다.

비히클(100)의 마이크로폰(128)은 비히클(100)이 동작하는 환경의 사운드 씬(sound scene)을 캡처하기 위해 비히클(100) 외부에 배치된 복수의 서로 다른 마이크로폰(128)을 나타내는 마이크로폰 어레이를 나타낼 수 있다. 마이크로폰(128)은 각각 음파를 전기 신호로 변환하는 변환기를 나타낼 수 있다(오디오 신호라고도 하며, 디지털 신호로 처리되면 오디오 데이터라고도 함). 마이크로폰(128) 중 하나 이상은 오디오 신호 처리(예를 들어, 바람 소리 제거, 능동형 소음 제거 등)를 수행하기 위한 기준 마이크로폰 및/또는 에러 마이크로폰을 나타낼 수 있다.

라우드스피커(Loudspeakers)(126)는 처리 회로(112) 및/또는 오디오 회로(114)에 의해 직접적으로 또는 간접적으로 제공된 오디오 신호에 기초하여 음장(soundfield)을 재생(reproduce)하는 비히클(100)의 컴포넌트를 나타낸다. 예를 들어, 라우드스피커(126)는 처리 회로(112) 및/또는 오디오 회로(114)로부터 수신된 하나 이상의 전기 신호에 기초하여 압력파를 생성할 수 있다. 라우드스피커(126)는 전대역 드라이버 기반 스피커, 다중 범위별 동적 드라이버를 포함하는 개별 스피커, 또는 트위터나 우퍼와 같은 단일 동적 드라이버를 포함하는 스피커를 포함하는 다양한 유형의 스피커 하드웨어를 포함할 수 있다.

오디오 회로(114)는 라우드스피커(126)를 구동하기 위해 마이크로폰(128)를 통해 캡처된 오디오 신호/오디오 데이터에 대해 오디오 처리를 수행하도록 구성될 수 있다. 오디오 회로(114)는 또한 오디오 회로(114)가 라우드스피커(126)를 구동하기 위해 처리할 수 있는 처리 회로(112)로부터 오디오 신호/오디오 데이터를 수신할 수 있다. 본 명세서에 사용된 "드라이브(drive)"라는 용어는 오디오 신호를 압력파(음파를 나타내는 또 다른 방법이다)로 변환하는 드라이버를 포함하는 라우드스피커(126)에 오디오 신호를 제공하는 프로세스를 의미할 수 있다. "드라이브"라는 용어는 오디오 신호에 의해 표현되는 음장(사운드 씬을 가리키는 또 다른 방법이다)을 재생하기 위해 라우드스피커(126)의 드라이버에 이러한 오디오 신호를 제공하는 것을 의미한다.

비히클(100)과 같은 많은 비히클에는 라우드스피커(126)와 같은 스피커를 통해 오디오 데이터(즉, 오디오 신호)에 기초하여 음장을 재생하는 엔터테인먼트 또는 인포테인먼트 시스템이 장착되어 있다. 인포테인먼트 시스템에 의한 음장의 재생(reproduction)은 비히클 탑승자의 몰입감을 증가시킬 수 있지만, 그러한 음장의 재생은 운전자(예: 자동차 운전자)가 비히클을 운전하고 있는 환경에서 가능한 문제를 식별하는 비히클 운전자의 능력을 감소시킬 수 있다. 즉, 비히클을 빠른 속도로 운행함에 따라 발생하는 도로 소음뿐만 아니라 비히클 운전자의 비히클 운행 환경에 대한 인식이 더욱 저하될 수 있다. 이러한 인식 저하로 인해 잠재적인 안전 위험이 발생할 수 있다(예: 도로 소음 및 스피커를 통해 인포테인먼트 시스템에서 재생되는 음장 추가로 인해 사이렌, 자전거, 보행자 등의 소리가 운전자에게 들리지 않을 수 있으므로).

본 명세서에 설명된 기술의 다양한 양태에 따르면, 비히클(100)은 비히클(100) 바디 주위의 외부에 배치된 마이크로폰(128)을 포함할 수 있으며, 이러한 마이크로폰(128)은 비히클(100) 외부의 사운드 씬(sound scene)을 나타내는 오디오 신호(즉, 오디오 데이터)를 캡처한다. 처리 회로(112)는 마이크로폰(128)으로부터 그러한 오디오 데이터를 수신하고 오디오 데이터를 오디오 회로(114)에 제공할 수 있다.

오디오 회로(114)는 오디오 데이터의 수신에 응답하여 트랜스패런시 모듈(transparency module)("TM 115")(115)을 호출할 수 있다. 트랜스패런시 모듈(115)("TM 115")은 비히클(100)에 대한 트랜스패런트 오디오 모드를 지원하여 외부에서 캡처된 사운드 씬의 다양한 오디오 객체가 비히클(100) 내에서 내부적으로 재생(재현)(reproduce)될 수 있도록 하는 모듈을 나타낼 수 있다. 트랜스패런시 모듈(115)은 비히클(100) 내부에서 오디오 객체를 정확하게 재생하기 위해 다양한 유형의 오디오 신호 처리를 수행할 수 있다.

예를 들어, 트랜스패런시 모듈(115)은 비히클(100) 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하기 위해 오디오 데이터에 대해 빔포밍(Beamforming)을 수행할 수 있다. 빔포밍은 오디오 데이터에 대한 공간적 필터링을 수행하기 위한 여러 가지 오디오 신호 처리 알고리즘을 의미할 수 있으며, 일반적으로 객체 오디오 데이터를 추출(예: 건설적 결합(constructive combining)을 통해)하고 마이크로폰(128)의 공간적 위치에 따라 각 마이크로폰(128)로부터 간섭하는 오디오 신호를 거절(예: 파괴적 결합(destructive combining)에 의해)하기 위해 각각의 마이크로폰(128)로부터 오디오 신호를 결합하는 것을 포함한다. 트랜스패런시 모듈(115)은 바람, 날씨, 동물 등에 의한 주변 소음과 같은 소음을 제거(예를 들어, 필터링)하기 위해 하나 이상의 전처리 오디오 알고리즘을 수행할 수 있다.

일부 경우에, 트랜스패런시 모듈(115)은 사운드 씬에서 관심 있는 복수의 서로 다른 오디오 객체에 대한 객체 오디오 데이터를 추출하기 위해 복수의 서로 다른 공간 방향에서 이러한 빔포밍을 동시에 수행할 수 있다. 이러한 관점에서, 트랜스패런시 모듈(115)은 비히클 외부의 사운드 씬에서 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하기 위해 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행할 수 있다.

그런 다음 트랜스패런시 모듈(115)은 라우드스피커(126)와 인터페이스하여 객체 오디오 데이터에 기초하여 오디오 객체를 재생(재현)(reproduce)할 수 있다. 비히클(100)의 탑승자가 소비하기 위해 재생되는 엔터테인먼트/인포테인먼트 오디오 콘텐츠를 지원하는 처리(프로세싱) 회로(112)로부터의 오디오 데이터와 같은 기존 오디오 데이터가 재생되는 경우, 트랜스패런시 모듈(115)은 재생된 오디오 객체를 그러한 다른 오디오 콘텐츠와 믹싱할 수 있다.

일부 경우에, 트랜스패런시 모듈(115)은 또한 카메라(124)를 호출하여 비히클(100) 외부의 시각적 씬을 나타내는 비디오 데이터를 제공할 수 있다. 카메라(124) 및/또는 처리 회로(112)는 비히클(100) 외부의 시각적 씬에서 오디오 객체의 위치를 식별하기 위해 비디오 데이터에 관한 객체 검출을 수행할 수 있다. 처리 회로(112)는 객체 검출을 수행하기 위해 객체 검출 모델을 훈련시키기 위해 기계 학습을 활용할 수 있다. 일부 경우에, 객체 검출 모델은 오프라인(예를 들어, 제조업체 또는 기타 부품 제공업체)에서 훈련되고 비히클(100) 내에 설치된다(예를 들어, 메모리(116)에 저장됨). 일부 객체 검출 모델에는 신경망이나 다른 형태의 인공 지능과 관련된 거리 변환 기반 매칭(distance transform-based matching)이 포함될 수 있다.

처리 회로(112)는 사운드 씬에서 잠재적인 오디오 객체의 위치를 식별하기 위해 그러한 객체 검출을 구현할 수 있다. 예를 들어, 처리 회로(112)는 비히클(100)에 대한 보행자의 위치 및/또는 방향을 식별하기 위해 객체 검출을 수행할 수 있다. 처리 회로(112)는 각각의 잠재적 오디오 객체가 비히클(100)에 대해 어느 방향 및/또는 어느 위치에 있는지 식별하기 위해 카메라(124) 각각의 프로그래밍된 위치 및 카메라(124) 각각의 프로그래밍된 필드 폭(programmed width of field)을 획득할 수 있다.

처리 회로(112)는 식별된 위치/방향을 오디오 회로(114)에 제공할 수 있고, 오디오 회로(114)는 그러한 위치/방향을 트랜스패런시 모듈(115)에 전달할 수 있다. 그런 다음 트랜스패런시 모듈(115)은 오디오 객체의 위치/방향에 기초하여 오디오 데이터에 대한 빔포밍을 수행하여 비히클(100) 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득할 수 있다.

더욱이, 트랜스패런시 모듈(115)은, 마이크로폰(128) 위치의 프로그래밍된 정의(definition)를 요구하는 빔포밍으로 인해(그리고 시각적 객체 검출도 가능), 비히클(100)이 동작하는 3차원(3D) 사운드 씬 내에 오디오 객체가 있는 방향을 결정할 수 있다. 트랜스패런시 모듈(115)은 오디오 객체가 3D 사운드 씬에서 오디오 객체가 존재하는 방향으로부터 청각적으로 도달하는 것처럼 보이는 방식으로 재생된 오디오 객체를 믹싱할 수 있다. 트랜스패런시 모듈(115)은 라우드스피커(126)가 위치하지 않는 위치에 오디오 객체를 배치하기 위해 둘 이상의 스피커 피드(speaker feeds)(스피커 채널이라고도 함)에 걸쳐 오디오 객체를 확산(spread)시킬 수 있다(예: 벡터 기반 진폭 패닝(VBAP: vector based amplitude panning) 또는 기타 오디오 신호 후처리를 사용하여). 트랜스패런시 모듈(115)은 오디오 객체가 비히클(100)에 대한 사운드 씬에 상주하는 위치에서 가상 스피커를 효과적으로 생성할 수 있으며, 오디오 객체를 재생하기 위해 하나 이상의 라우드스피커(126)를 구동하는 하나 이상의 라우드스피커(126)(추가 오디오 콘텐츠를 오디오 객체 스피커 피드에 믹싱할 가능성이 있음)에 스피커 피드로서 오디오 객체를 재생한다.

이러한 방식으로, 기술의 다양한 양태는 외부 오디오 객체 식별 및 비히클(100) 내 내부 재생(reproduction)을 통해 비히클(100) 운전자의 인식을 증가시킬 수 있다. 예를 들어, 비히클(100)은 보행자, 자전거, 교차 비히클 교통(cross vehicular traffic), 사이렌, 경적 등을 오디오 객체로 식별하고 이러한 오디오 객체를 비히클(100) 내부에서 재생하여 비히클(100)의 동작에 영향을 미칠 수 있는 잠재적인 안전 위험에 운전자의 주의를 끌 수 있다. 안전 위험을 줄이고 잠재적으로 피하면 어려운 상황에서도 비히클이 더욱 안전하게 동작할 수 있다(예: 다양한 객체가 가려져 있지만 음파의 회절 특성을 고려하면 가려져도 식별할 수 있는 경우). 이와 같이, 기술의 다양한 양태는 비히클(100) 자체의 동작을 개선할 수 있다.

도 2a 및 도 2b는 본 개시에 설명된 기술의 다양한 양태에 따라 트랜스패런시 모드를 구현하도록 구성된 비히클을 예시하는 다이어그램이다. 도 2a의 예에 도시된 바와 같이, 비히클(200)은 도 1의 예와 관련하여 위에서 설명된 오디오 회로(114)의 예를 나타낼 수 있는 오디오 회로(214)를 포함한다. 따라서, 오디오 회로(214)는 트랜스패런시 모듈(115)을 구현하도록 구성될 수 있다.

비히클(200)은 비히클(100)의 예를 나타낼 수 있으며, 비히클(200)은 4개의 카메라(224A-224D)("카메라(224)"), 5개의 스피커(226A-226E)("라우드스피커(226")) 및 4개의 마이크로폰(228A-228D("마이크로폰 228"))를 포함한다. 카메라(224)는 카메라(들)(24)의 예를 나타낼 수 있다. 라우드스피커(226)는 라우드스피커(126)의 예를 나타낼 수 있는 반면, 마이크로폰(228)은 마이크로폰(128)의 예를 나타낼 수 있다. 4개의 카메라(224), 5개의 라우드스피커(226) 및 4개의 마이크로폰(228)를 갖는 것으로 설명되지만, 비히클(200)은 카메라(224), 라우드스피커(226) 및 마이크로폰(228) 각각을 다소 포함할 수 있다.

도 2a의 예에 도시된 바와 같이, 카메라(224A)는 비히클(200)의 전방에 배치되고, 카메라(224B, 224C)는 비히클(200)의 운전석 및 조수석 측에 배치된다. 카메라(224D)는 비히클(200)의 후방에 배치된다. 라우드스피커(226)는 중앙 채널, 우측 및 좌측 채널, 후방 우측 및 후방 좌측 채널을 갖는 공통(5.1) 구성(common (5.1) configuration)으로 비히클(200)의 내부 주위에 배치된다(설명의 편의를 위해 서브우퍼는 표시되지 않음). 마이크로폰(228)은 비히클(200)의 각 코너에 배치된다.

특정 위치 및/또는 배열에 표시되는 동안, 카메라(224), 라우드스피커(226) 및 마이크로폰(228)의 위치는 비히클(200) 외부 또는 비히클(200) 내부 어디에나 있을 수 있다는 것을 이해해야 한다. 예를 들어, 카메라(224)는 비히클(200)의 바디 외부에 위치하는 것으로 도시되어 있지만, 이러한 카메라(224)는 비히클(200)의 내부에 있을 수 있지만 비히클(200)이 동작하는 외부 시각적 씬을 캡처하기 위해 바깥쪽을 향할 수 있다. 마이크로폰(228)은 다른 예로서 비히클(200) 바디(본체) 외부에 위치할 수 있지만 위치 및/또는 배열은 다를 수 있다. 반면, 라우드스피커(226)는 비히클(200) 탑승자를 위한 사운드 씬을 재생하기 위한 목적으로 비히클(200) 내부에 위치하지만, 서로 다른 의도된 사용 사례를 수용하기 위해 서로 다른 구성으로 배열될 수 있다.

일부 경우에, 오디오 회로(214)는 외부 사운드 씬을 나타내는 오디오 데이터를 캡처하기 위해 마이크로폰(228)와 인터페이스할 수 있다. 도 2a의 예에서, 보행자(230A)는 비히클(200) 근처(예: 100, 200, 300 피트(feet) 등 일부 임계 거리 내)에 상주하며 비히클(200)이 동작하는 외부 사운드 씬의 일부를 형성한다. 카메라(224)는 시각적 씬을 나타내는 비디오 데이터를 캡처할 수 있으며, 여기서 처리 회로(112)는 보행자(230A)를 잠재적인 오디오 객체로 식별하여 비히클(200)에 대한 보행자(230A)의 위치/방향을 결정할 수 있다. 처리 회로(112)는 보행자(230A)의 이러한 위치/방향을 오디오 회로(214)를 통해 트랜스패런시 모듈(115)에 전달할 수 있다.

트랜스패런시 모듈(115)은 마이크로폰(228)에 의해 캡처된 오디오 데이터에 의해 표현되는 사운드 씬의 오디오 객체로서 보행자(230A)를 캡처하기 위해 위치/방향에 기초하여 빔포밍을 수행할 수 있다. 빔포밍은 도 2a의 예에 로브(lobes)(240A)로서 표시되어 있고, 메인 로브는 시각적 객체 검출을 통해 식별된 위치/방향에 기초하여 보행자(230A)를 향하게 된다. 로브(240A)는 또한 일부 확산성(diffuseness)을 제공하는 메인 로브의 양쪽에 2차 로브를 포함한다. 즉, 마이크로폰(228)은 사운드 씬을 나타내는 오디오 데이터를 캡처하는 특정 각도를 고정할 수 있다. 마이크로폰(228)의 수는 유한하기 때문에(즉, 이 예에서는 4개), 메인 로브는 비-임펄스 폭(non-impulse width)을 가질 수 있고, 이는 특정 각도 θ'에 대해 δθ 콘(cone)에 대해 약간의 모호성이 있을 수 있음을 의미한다(그래서 잠재적인 실제 값은 θ'- δθ와 θ' + δθ 사이 어딘가에 있다).

트랜스패런시 모듈(115)은 수학식 1에 따라 정의된 WDAS(Weighted Delay and Sum) 알고리즘을 사용하여 이러한 빔포밍을 수행할 수 있다.

여기서, 변수 N은 마이크로폰 수를 나타내며, 변수 는 특정 마이크로폰(228)를 다른 마이크로폰보다 강조하는 진폭 가중치를 나타내며, 변수 는 각각의 마이크로폰(228)에 의해 제공되는 오디오 데이터를 나타내고, 변수 는 목표 방향에서 합-마이크로폰 응답(sum-microphone response)을 증폭하기 위해 마이크로폰(228)에 의해 캡처된 각 마이크로폰 채널(오디오 데이터를 참조하는 또 다른 방법이다)에 대한 독립적인 지연을 나타낸다. 변수 k는 현재 시간을 나타낸다. 일부 경우에, 가중치()와 지연()이 공장이나 제조업체 등의 오프라인 교정(calibration)을 통해 정의된다.

WDAS 알고리즘에 관해 설명되었지만, 트랜스패런시 모듈(115)은 임의의 다른 유형의 빔포밍 알고리즘을 적용할 수 있다. 다른 유형의 빔포밍 알고리즘의 예로는 일정한 빔폭 광대역(constant beamwidth broadband) 빔포밍 알고리즘, 최소 분산 왜곡 없는 응답(minimum variance distortionless response) 빔포밍 알고리즘, 광대역 제한 최소 분산(broadband constrained minimum variance) 빔포밍 알고리즘, 통계적 고유(statistical eigen) 빔포밍 알고리즘, 빔공간(beamspace) 빔포밍 알고리즘, 근거리 적응형(near field adaptive) 빔포밍 알고리즘, 프로스트(frost) 빔포밍 알고리즘, 근거리 음향(near field acoustic) 빔포밍 알고리즘, 및 DUET(Degenerate Unmixing Estimation Technique) 빔포밍 알고리즘이 있다.

일부 경우에, 트랜스패런시 모듈(115)은 오디오 객체(즉, 이 예에서는 보행자 230A)를 나타내는 객체 오디오 데이터를 추출하기 위해 보행자(230A)를 표적으로 삼는 유도 로브(directed lobes)(240A)를 형성하도록 비히클(200) 바디(본체)의 서로 다른 위치에 배치된 마이크로폰(228)에 의해 캡처된 오디오 데이터를 처리하고, 효과적으로 필터링하고 증폭(WDAS 알고리즘의 경우)할 수 있다.

트랜스패런시 모듈(115)은 이러한 방식으로 마이크로폰(228)에 의해 제공되는 다중 채널 오디오 데이터에 대해 빔포밍을 수행하여 객체 오디오 데이터를 추출할 수 있다. 다음으로 트랜스패런시 모듈(115)은 객체 오디오 데이터에 위치를 할당하고 객체 오디오 데이터를 하나 이상의 해당 라우드스피커(226)를 구동하는 데 사용되는 하나 이상의 스피커 피드로 렌더링할 수 있다. 위에서 언급한 바와 같이, 트랜스패런시 모듈(115)은 객체 오디오 데이터에 기초하여 오디오 객체가 차량(200)에 대한 사운드 씬에 존재하는 차량(200)에 대한 위치에서 오디오 객체를 재생하도록 벡터 기반 진폭 패닝 또는 가상 스피커를 생성하기 위한 다른 오디오 신호 처리 알고리즘을 수행할 수 있다.

이 예에서, 트랜스패런시 모듈(115)은 보행자(230A)에게 전방 중앙 위치(forward center location)를 할당하고 그리고 오디오 객체(이 예에서는 보행자 230A)를 재생(재현)하기 위해 전방 중앙 스피커(226A)(그리고 스피커 어레이로도 지칭될 수 있는 스피커(226) 중 가능한 하나 이상의 추가 스피커)를 구동하는 중앙 채널 스피커 피드를 생성할 수 있다. 트랜스패런시 모듈(115)은 렌더링된 오디오 데이터(예를 들어, 스피커 피드)를 기존의 전방 중앙 채널 스피커 피드(헤드 유닛이라고도 하는 인포테인먼트 시스템의 오디오 콘텐츠가 포함될 수 있음)와 믹싱할 수 있다.

이러한 관점에서, 트랜스패런시 모듈(115)은 오디오 객체가 비히클(200)에 대해 상대적인 방향으로 오디오 객체를 재생할 수 있는 하나 이상의 라우드스피커(226)의 서브세트를 선택할 수 있다(여기서 서브세트는 전체가 아닌 하나 이상을 의미하는 데 사용되며 전체 세트의 0개 또는 모든 아이템을 포함할 수 있는 서브세트의 고전적인 수학적 정의(classical mathematical definition)를 나타내려는 의도는 아니다). 더욱이, 트랜스패런시 모듈(115)은 하나 이상의 스피커(이는 라우드스피커(226)를 가리키는 또 다른 방법이다.)(226)의 서브세트와 인터페이싱하고 객체 오디오 데이터에 기초하여 오디오 객체를 재생할 수 있다.

도 2b의 예에 도시된 바와 같이, 비히클(200)의 오디오 회로(214)는 보행자(230B)를 나타내는 새로운 오디오 객체를 식별하는 것에 응답하여 다른 방향으로 빔포밍(로브(240B)으로 표시됨)을 수행할 수 있다. 오디오 회로(214)는 트랜스패런시 모듈(115)을 호출하여 위에서 설명된 방식으로 이러한 빔포밍을 수행하고 위치/방향의 식별(예를 들어, 카메라(224) 및/또는 마이크로폰(228)을 통해) 및 추출된 객체 오디오 데이터에 기초하여 후방 좌측 스피커(226D)를 구동하기 위한 스피커 피드를 렌더링할 수 있다. 다시, 트랜스패런시 모듈(115)은 기존의 좌측 후방 스피커 피드(다른 오디오 콘텐츠에 대한)를 추출된 객체 오디오 데이터로부터 렌더링된 스피커 피드와 믹싱할 수 있다.

도 2a 및 도 2b의 두 예 모두에서는 한 방향으로만 빔포밍을 수행하는 것으로 도시되어 있지만, 트랜스패런시 모듈(115)은 비히클(200) 외부의 사운드 씬에서 2개 이상의 오디오 객체(예: 보행자 230A 및 230B)를 나타내는 2개 이상의 객체 오디오 데이터를 획득하기 위해 마이크로폰(228)에 의해 캡처된 오디오 데이터에 대해 여러 다른 방향으로 빔포밍을 수행할 수 있다. 이러한 여러 방향의 빔포밍은 마이크로폰 채널이 한 번에(즉, 한 번만) 캡처되고 트랜스패런시 모듈(115)이 비히클(200) 상에서 거의 실시간 또는 실시간으로(예: 처리 지연이 최소화됨) 빔포밍을 수행할 수 있으므로 동시(그리고 잠재적으로 동시에)에 발생할 수 있다. 이러한 실시간 또는 거의 실시간 빔포밍을 통해 트랜스패런시 모듈(115)은 사운드 씬에서 현재 시간(가능한 최소한의 처리 지연 제외) 재생 오디오 객체를 수행하여 CPT(clear pass-through) 오디오 경험을 가능하게 할 수 있다.

도 3은 본 개시에 설명된 기술의 다양한 양태에 따라 비히클에 의한 트랜스패런시 모드의 적용을 통해 검출된 잠재적인 안전 위험을 예시하는 다이어그램이다. 도 3의 예에서, 비히클(310A-310C)을 포함하는 시스템(300)이 도시되어 있다. 비히클(310A)은 도 1의 예에 도시된 비히클(100)의 예를 나타낼 수 있고 및/또는 도 2a 및 도 2b의 예에 도시된 비히클(200)의 예를 나타낼 수 있으며, 이는 본 개시에서 설명된 트랜스패런시 모드 기술의 다양한 양태를 수행하도록 구성될 수 있다.

시스템(300)은 비히클(310C)이 어떤 속도(예: 시속 25마일 - MPH, 30 MPH, 45 MPH, 55 MPH 등)로 왼쪽에서 오른쪽으로 이동하는 교차로를 묘사한다. 이러한 속도로 주행함으로써 비히클(310C)은 도로 소음, 바람 소리, 엔진 소음(내연 기관의 경우), 시뮬레이션된 엔진 소음(전기 자동차의 경우) 등과 같은 소음을 생성할 수 있다. 따라서 비히클(310C)은 비히클(310A)이 동작하는 사운드 씬에서 다른 비히클을 나타낼 수 있다. 비히클(310A)은 마이크로폰(예를 들어, 마이크로폰(228))를 통해 사운드 씬을 나타내는 오디오 데이터를 캡처할 수 있으며, 위에서 설명한 방식으로 빔포밍을 수행하여 비히클(310C)을 나타내는 객체 오디오 데이터를 추출할 수 있다. 이러한 빔포밍은 로브(340)로 예시된다.

도 3의 예에 추가로 도시된 바와 같이, 비히클(310B)은 비히클(310A)에 의해 비히클(310C)의 시야를 적어도 부분적으로 가릴 수 있으며, 이는 비히클(310A)이 비히클(310C) 앞의 교차로로 진입하는 경우 심각한 안전 위험(예: 잠재적인 사고)을 제공한다. 또한 비히클(310A)에 카메라, LIDAR(light detection and ranging)(빛 검출 및 거리 측정) 및/또는 RADAR(radio detection and ranging)(무선 검출 및 거리 측정)과 같은 안전 장비가 통합되어 있는 경우에도, 비히클(310B)이 비히클(310A)의 안전 장비를 가려서 비히클(310C)을 검출하지 못할 수도 있다.

그러나, 소리(비히클(310C)에서 발생)는 LIDAR/RADAR와 다르다는 점을 고려하면 소리는 공간에 걸쳐 회절 및 확산 특성을 갖기 때문에(예: 벽이나 막힌 곳 뒤에서 소리가 들릴 수 있음), 비히클(310A)의 트랜스패런시 모듈(115)은 (빔포밍을 사용하여) 사운드 씬에서 비히클(310C)에 대한 객체 오디오 데이터를 검출하고 추출할 수 있으며, 이에 따라 비히클(310A)의 운전자가 빠르게 접근하는 비히클(310C)을 인식할 수 있도록 내부 라우드스피커를 통해 오디오 객체를 재생(재현)(reproduce)(및/또는 비슷한 방향에서 경고)한다. 이와 같이 트랜스패런시 모듈(115)은 비히클(310A)의 운전자가 비히클(310C)과의 사고를 방지하기 위해 적절한 액션을 취할 수 있으므로(예: 교차로 진입을 피하기 위해 브레이크(break)) 비히클(310A)을 동작하는 동안 안전성을 향상시킬 수 있다.

또한, 일부 경우에, 인터페이스(122)(도 1의 예와 관련하여 위에서 설명됨)는 V2V(vehicle to vehicle) 통신 및/또는 V2X(vehicle to everything)(비히클 대 사물) 통신을 제공하여 트랜스패런시 모드와 같이 기본적으로 지원하지 않는 주변 자동차 또는 기타 컴퓨팅 장치(스마트폰 등)에 객체 오디오 데이터를 전송할 수 있다. 마찬가지로, 비히클(310B)과 같은 다른 비히클은 오디오 데이터를 캡처하고, 빔포밍을 통해 V2V 또는 V2X 통신을 통해 비히클(310A)와 같은 다른 비히클로 전송될 수 있는 객체 오디오 데이터를 추출할 수 있다. 비히클(310B)은 비히클(310B)과 비히클(310A) 사이에 폐색(occlusion)이 없다는 점을 고려하여 더 나은 신호 대 잡음비(SNR)를 갖는 객체 오디오 데이터를 제공할 수 있으므로 비히클(310B)은 비히클(310C)과 관련하여 비히클(310A)에 이러한 객체 오디오 데이터를 제공할 수 있다.

또한, 비히클(310A)에서 더 멀리 떨어져 있는 비히클은 V2V 또는 V2X 통신을 통해 객체 오디오 데이터를 제공하여 먼 사운드 씬(예: 사이렌, 사고, 교통 등)에서 다가오는 오디오 객체에 대한 더 나은 인식을 촉진할 수 있다. 따라서 비히클(310A)은 비히클(310B)과 같은 다른 비히클으로부터 비히클(310B) 외부의 사운드 씬의 오디오 객체를 나타내는 객체 오디오 데이터를 획득할 수 있다. 객체 오디오 데이터는 비히클(310B)에 대해 오디오 객체가 사운드 씬에 존재하는 위치 또는 방향을 지정할 수 있다. 비히클(310A)은 오디오 객체 데이터를 오디오 회로(114)에 전달할 수 있으며, 이는 오디오 객체 데이터에 기초하여 오디오 객체를 재생하고, 오디오 객체 데이터에 지정된 위치에 기초하여 재생된 오디오 객체를 믹싱하여 비히클(310A)에 대한 사운드 씬의 오디오 객체의 위치를 정확하게 재현(재생)할 수 있다.

도 4는 본 명세서에 설명된 트랜스패런시 모드의 다양한 양태를 수행함에 있어 도 1의 예에 도시된 비히클의 동작 예를 도시한 흐름도이다. 위에서 설명한 바와 같이, 비히클(100)은 비히클(100) 바디 주위의 외부에 배치된 마이크로폰(128)을 포함할 수 있으며, 이러한 마이크로폰(128)은 비히클(10) 외부의 사운드 씬을 나타내는 오디오 신호(즉, 오디오 데이터)를 캡처한다(400). 처리 회로(112)는 마이크로폰(128)으로부터 그러한 오디오 데이터를 수신하고 오디오 데이터를 오디오 회로(114)에 제공할 수 있다.

오디오 회로(114)는 오디오 데이터의 수신에 응답하여 트랜스패런시 모듈(115)을 호출할 수 있다. 일부 경우에, 트랜스패런시 모듈(115)은 선택적으로(박스(402) 주위에 점선으로 표시된 바와 같이) 카메라(124)를 호출하여 비히클(100) 외부의 시각적 씬을 나타내는 비디오 데이터를 제공할 수도 있다. 카메라(124) 및/또는 처리 회로(112)는 비히클(100) 외부의 시각적 씬에서 오디오 객체의 위치를 식별하기 위해 비디오 데이터에 대해 객체 검출을 수행할 수 있다(404).

처리 회로(112)는 식별된 위치/방향을 오디오 회로(114)에 제공할 수 있고, 오디오 회로(114)는 그러한 위치/방향을 트랜스패런시 모듈(115)에 전달할 수 있다. 그런 다음 트랜스패런시 모듈(115)은 오디오 데이터에 대해 빔포밍(오디오 객체의 위치/방향을 기반으로 함)을 수행하여 비히클(100) 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득할 수 있다(406). 일부 경우에, 트랜스패런시 모듈(115)은 사운드 씬에서 관심 있는 복수의 서로 다른 오디오 객체에 대한 객체 오디오 데이터를 추출하기 위해 복수의 서로 다른 공간 방향에서 이러한 빔포밍을 동시에 수행할 수 있다. 이러한 점에서, 트랜스패런시 모듈(115)은 비히클 외부의 사운드 씬에서 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하기 위해 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행할 수 있다.

그런 다음 트랜스패런시 모듈(115)은 객체 오디오 데이터에 기초하여 오디오 객체를 재생하기 위해 라우드스피커(126)와 인터페이스할 수 있다(408). 비히클(100) 탑승자가 소비하기 위해 재생되는 엔터테인먼트/인포테인먼트 오디오 콘텐츠를 지원하는 처리 회로(112)로부터의 오디오 데이터와 같은 기존 오디오 데이터가 재생되는 경우, 트랜스패런시 모듈(115)은 재생된 오디오 객체를 그러한 다른 오디오 콘텐츠와 믹싱할 수 있다.

이러한 방식으로, 기술의 다양한 양태가 다음 예를 가능하게 할 수 있다.

실시예 1. 방법은, 하나 이상의 마이크로폰에 의해, 비히클 외부의 사운드 씬(sound scene)을 나타내는 오디오 데이터를 캡처하는 단계; 상기 하나 이상의 프로세서에 의해, 상기 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대한 빔포밍을 수행하는 단계; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 상기 오디오 객체를 재생(reproduce)하는 단계를 포함한다.

실시예 2. 실시예 1의 방법에서, 상기 빔포밍을 수행하는 단계는, 상기 비히클 외부의 사운드 씬 내의 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하기 위해 상기 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행하는 단계를 포함한다.

실시예 3. 실시예 1과 2의 임의의 조합에서, 상기 비히클은 제1 비히클이고, 상기 객체 오디오 데이터는 상기 제1 비히클의 운전자에 의해 시야에서 적어도 부분적으로 가려진 제2 비히클을 나타낸다.

실시예 4. 실시예 1-3의 임의의 조합에서, 상기 객체 오디오 데이터는 보행자, 자전거 운전자 및 다른 비히클 중 하나 이상을 나타낸다.

실시예 5. 실시예 1 내지 예 4의 임의의 조합에 있어서, 상기 방법은, 카메라에 의해, 상기 비히클 외부의 시각적 씬을 나타내는 비디오 데이터를 캡처하는 단계; 상기 비히클 외부의 시각적 씬에서 상기 오디오 객체의 위치를 식별하기 위해 상기 비디오 데이터에 대한 객체 검출을 수행하는 단계를 더 포함하며, 상기 빔포밍을 수행하는 단계는 상기 오디오 객체의 위치에 기초하여, 상기 비히클 외부의 사운드 씬 내의 상기 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 관해 빔포밍을 수행하는 단계를 포함한다.

실시예 6. 실시예 1-5의 임의의 조합에서, 상기 하나 이상의 마이크로폰은 제1 마이크로폰 및 제2 마이크로폰을 포함하고, 상기 제1 및 제2 마이크로폰 각각은 상기 비히클의 바디의 서로 다른 위치에 위치하며, 상기 오디오 데이터를 캡처하는 단계는, 상기 제1 마이크로폰에 의해, 상기 비히클 외부의 사운드 씬을 나타내는 제1 오디오 데이터를 캡처하는 단계; 그리고 상기 제2 마이크로폰에 의해, 상기 비히클 외부의 사운드 씬을 나타내는 제2 오디오 데이터를 캡처하는 단계를 포함하며, 그리고 상기 빔포밍을 수행하는 단계는 상기 비히클 외부의 사운드 씬 내의 상기 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 대해 가중 합 및 지연 알고리즘을 수행하는 단계를 포함한다.

실시예 7. 실시예 1-6의 임의의 조합에서, 상기 빔포밍을 수행하는 단계는, 상기 사운드 씬 내의 상기 오디오 객체만을 나타내는 객체 오디오 데이터를 획득하고 그리고 서로 다른 위치에서 상기 사운드 씬 내의 서로 다른 오디오 객체를 나타내는 임의의 다른 객체 오디오 데이터를 제외하도록 상기 오디오 데이터에 대해 빔포밍을 수행하는 단계를 포함하고, 그리고 상기 오디오 객체를 재생하는 단계는, 상기 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 객체 오디오 데이터에 기초하여 상기 사운드 씬 내의 상기 오디오 객체만을 재생하는 단계를 포함한다.

실시예 8. 실시예 1-7의 임의의 조합에서, 상기 오디오 객체를 재생하는 단계는, 상기 오디오 객체가 상기 비히클에 대해 상대적인 방향으로 상기 오디오 객체를 재생할 수 있는 하나 이상의 스피커의 서브세트를 선택하는 단계; 그리고 상기 하나 이상의 스피커의 서브세트에 의해, 상기 객체 오디오 데이터에 기초하여 상기 오디오 객체를 재생하는 단계를 포함한다.

실시예 9. 실시예 1 내지 실시예 8의 임의의 조합의 방법에 있어서, 하나 이상의 마이크로폰의 수는 하나 이상의 스피커의 수와 다르다.

실시예 10. 실시예 1-9의 임의의 조합에서, 상기 비히클은 제1 비히클을 포함하고, 상기 객체 오디오 데이터는 상기 제1 비히클 외부의 제1 사운드 씬 내의 제1 오디오 객체를 나타내는 제1 객체 오디오 데이터를 포함하고, 상기 방법은, 제2 비히클으로부터, 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 나타내는 제2 객체 오디오 데이터를 획득하는 단계; 그리고 상기 제1 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 제2 객체 오디오 데이터에 기초하여 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 재생하는 단계를 더 포함한다.

실시예 11. 장치는, 비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 캡처하도록 구성된 하나 이상의 마이크로폰; 그리고 하나 이상의 프로세서를 포함하며, 상기 하나 이상의 프로세서는, 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하고; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하도록 구성된다.

실시예 12. 실시예 11의 장치에서, 상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬에서 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행하도록 구성된다.

실시예 13. 실시예 11과 실시예 12의 임의 조합에 있어서, 상기 비히클은 제1 비히클이고, 상기 객체 오디오 데이터는 상기 제1 비히클의 운전자에 의해 시야에서 적어도 부분적으로 가려진 제2 비히클을 나타낸다.

실시예 14. 실시예 11-13의 임의 조합에 있어서, 상기 객체 오디오 데이터는 보행자, 자전거 운전자 및 다른 비히클 중 하나 이상을 나타낸다.

실시예 15. 실시예 11-14의 임의의 조합에 있어서, 상기 장치는, 상기 비히클 외부의 시각적 씬을 나타내는 비디오 데이터를 캡처하도록 구성된 카메라를 더 포함하고, 상기 하나 이상의 프로세서는 상기 비히클 외부의 시각적 씬에서 오디오 객체의 위치를 식별하도록 상기 비디오 데이터에 관한 객체 검출을 수행하도록 더 구성되고, 상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 객체의 위치에 기초하여 상기 오디오 데이터에 대한 빔포밍을 수행하도록 구성된다.

실시예 16. 실시예 11-15의 임의의 조합에 있어서, 상기 하나 이상의 마이크로폰은 제1 마이크로폰 및 제2 마이크로폰을 포함하고, 상기 제1 및 제2 마이크로폰 각각은 상기 비히클의 바디의 서로 다른 위치에 위치하며, 상기 제1 마이크로폰은, 상기 오디오 데이터를 캡처하도록 구성될 때, 상기 비히클 외부의 사운드 씬을 나타내는 제1 오디오 데이터를 캡처하도록 구성되고; 그리고 상기 제2 마이크로폰은, 상기 오디오 데이터를 캡처하도록 구성될 때, 상기 비히클 외부의 사운드 씬을 나타내는 제2 오디오 데이터를 캡처하도록 구성되고, 상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 대해 가중 합 및 지연 알고리즘을 수행하도록 구성된다.

실시예 17. 실시예 11-16의 임의 조합에 있어서, 상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 사운드 씬 내의 상기 오디오 객체만을 나타내는 객체 오디오 데이터를 획득하고 그리고 서로 다른 위치에서 상기 사운드 씬 내의 서로 다른 오디오 객체를 나타내는 임의의 다른 객체 오디오 데이터를 제외하도록 상기 오디오 데이터에 대해 빔포밍을 수행하도록 구성되고; 그리고 상기 하나 이상의 프로세서는, 오디오 객체를 재생하도록 구성될 때, 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 사운드 씬 내의 상기 오디오 객체만을 재생하도록 구성된다.

실시예 18. 실시예 11-17의 임의 조합에 있어서, 상기 하나 이상의 프로세서는, 상기 오디오 객체를 재생하도록 구성될 때, 상기 오디오 객체가 상기 비히클에 대해 상대적인 방향으로 상기 오디오 객체를 재생할 수 있는 하나 이상의 스피커의 서브세트를 선택하고; 그리고 상기 하나 이상의 스피커의 서브세트에 의해, 상기 객체 오디오 데이터에 기초하여 상기 오디오 객체를 재생하도록 구성된다.

실시예 19. 실시예 11-18의 임의 조합에 있어서, 상기 비히클은 제1 비히클을 포함하고, 상기 객체 오디오 데이터는 상기 제1 비히클 외부의 제1 사운드 씬 내의 제1 오디오 객체를 나타내는 제1 객체 오디오 데이터를 포함하고, 그리고 상기 방법은, 제2 비히클으로부터, 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 나타내는 제2 객체 오디오 데이터를 획득하고; 그리고 상기 제1 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 제2 객체 오디오 데이터에 기초하여 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 재생하는 것을 더 포함한다.

실시예 20. 실행될 때 하나 이상의 프로세서로 하여금 동작 세트를 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 동작 세트는, 비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 획득하는 동작; 상기 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하는 동작; 그리고 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하는 동작을 포함한다.

하나 이상의 예에서, 설명된 기능은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 기능은 컴퓨터 판독 가능 매체에 하나 이상의 명령어 또는 코드로 저장되거나 전송될 수 있으며 하드웨어 기반 처리 장치에 의해 실행될 수 있다. 컴퓨터 판독 가능 매체에는 데이터 저장 매체와 같은 유형의 매체에 해당하는 컴퓨터 판독 가능 저장 매체, 또는 통신 프로토콜에 따라 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 통신 매체가 포함될 수 있다. 이러한 방식으로, 컴퓨터 판독 가능 매체는 일반적으로 (1) 비일시적 유형의 컴퓨터 판독 가능 저장 매체 또는 (2) 신호 또는 반송파와 같은 통신 매체에 해당할 수 있다. 데이터 저장 매체는 본 개시에 설명된 기술의 구현을 위한 명령어, 코드 및/또는 데이터 구조를 검색하기 위해 하나 이상의 컴퓨터 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 매체를 포함할 수 있다.

예를 들어, 이에 국한되지 않고, 그러한 컴퓨터 판독 가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 기타 광 디스크 저장 장치, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 플래시 메모리 또는 원하는 프로그램 코드를 명령어나 데이터 구조의 형태로 저장하는 데 사용할 수 있고 컴퓨터에서 액세스할 수 있는 기타 매체를 포함할 수 있다. 또한 모든 연결은 컴퓨터로 읽을 수 있는 매체라고 적절하게 불린다. 예를 들어, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선(DSL) 또는 적외선, 라디오, 전자레인지와 같은 무선 기술을 사용하여 웹 사이트, 서버 또는 기타 원격 소스에서 명령이 전송되는 경우 동축 케이블, 광섬유 케이블, 연선, DSL 또는 적외선, 라디오, 전자레인지와 같은 무선 기술이 매체의 정의에 포함된다. 그러나 컴퓨터 판독 가능 저장 매체 및 데이터 저장 매체에는 연결, 반송파, 신호 또는 기타 임시 매체가 포함되지 않고 대신 비일시적 유형의 저장 매체가 포함된다는 점을 이해해야 한다. 여기에 사용된 디스크(disk) 및 디스크(disc)에는 컴팩트 디스크(CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크(DVD), 플로피 디스크 및 블루레이 디스크가 포함된다. 여기서 디스크(disk)는 일반적으로 데이터를 자기적으로 재생하는 반면 디스크(disc)는 레이저를 사용하여 광학적으로 데이터를 재생한다. 위의 조합도 컴퓨터로 읽을 수 있는 매체의 범위에 포함되어야 한다.

명령어는 하나 이상의 디지털 신호 프로세서(DSP), 범용 마이크로폰로프로세서, 주문형 집적 회로(ASIC), FPGA(field programmable logic arrays) 또는 기타 동등한 통합 또는 개별 논리 회로와 같은 하나 이상의 프로세서에 의해 실행될 수 있다. 따라서, 본 명세서에 사용된 용어 "프로세서"는 전술한 구조 중 임의의 것 또는 본 명세서에 설명된 기술의 구현에 적합한 임의의 다른 구조를 지칭할 수 있다. 또한, 일부 양태에서, 여기에 설명된 기능은 인코딩 및 디코딩을 위해 구성되거나 결합된 코덱에 통합된 전용 하드웨어 및/또는 소프트웨어 모듈 내에 제공될 수 있다. 또한 기술은 하나 이상의 회로 또는 논리 요소에서 완전히 구현될 수 있다.

본 개시의 기술은 무선 핸드셋, 집적 회로(IC) 또는 IC 세트(예를 들어, 칩셋)를 포함하는 다양한 디바이스 또는 장치에서 구현될 수 있다. 개시된 기술을 수행하도록 구성된 장치의 기능적 측면을 강조하기 위해 다양한 컴포넌트, 모듈 또는 유닛이 본 개시에서 설명되지만, 반드시 다른 하드웨어 유닛에 의한 실현을 필요로 하는 것은 아니다. 오히려, 전술한 바와 같이, 다양한 유닛은 코덱 하드웨어 유닛에 결합될 수 있거나, 적절한 소프트웨어 및/또는 펌웨어와 함께 전술한 하나 이상의 프로세서를 포함하는 상호 운용 가능한 하드웨어 유닛의 집합에 의해 제공될 수 있다.

본 발명의 다양한 실시예가 설명되었다. 이러한 실시예 및 다른 실시예는 다음 청구범위의 범위 내에 있다.

Claims

방법으로서,
하나 이상의 마이크로폰에 의해, 비히클 외부의 사운드 씬(sound scene)을 나타내는 오디오 데이터를 캡처하는 단계;
상기 하나 이상의 프로세서에 의해, 상기 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대한 빔포밍을 수행하는 단계; 그리고
상기 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 상기 오디오 객체를 재생(reproduce)하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 빔포밍을 수행하는 단계는,
상기 비히클 외부의 사운드 씬 내의 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하기 위해 상기 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행하는 단계를 포함하는, 방법.
제1항과 제2항 중 어느 한 항에 있어서,
상기 비히클은 제1 비히클이고,
상기 객체 오디오 데이터는 상기 제1 비히클의 운전자에 의해 시야에서 적어도 부분적으로 가려진 제2 비히클을 나타내는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 객체 오디오 데이터는 보행자, 자전거 운전자 및 다른 비히클 중 하나 이상을 나타내는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 방법은,
카메라에 의해, 상기 비히클 외부의 시각적 씬을 나타내는 비디오 데이터를 캡처하는 단계;
상기 비히클 외부의 시각적 씬에서 상기 오디오 객체의 위치를 식별하기 위해 상기 비디오 데이터에 대한 객체 검출을 수행하는 단계를 더 포함하며,
상기 빔포밍을 수행하는 단계는 상기 오디오 객체의 위치에 기초하여, 상기 비히클 외부의 사운드 씬 내의 상기 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 관해 빔포밍을 수행하는 단계를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 하나 이상의 마이크로폰은 제1 마이크로폰 및 제2 마이크로폰을 포함하고, 상기 제1 및 제2 마이크로폰 각각은 상기 비히클의 바디의 서로 다른 위치에 위치하며,
상기 오디오 데이터를 캡처하는 단계는,
상기 제1 마이크로폰에 의해, 상기 비히클 외부의 사운드 씬을 나타내는 제1 오디오 데이터를 캡처하는 단계; 그리고
상기 제2 마이크로폰에 의해, 상기 비히클 외부의 사운드 씬을 나타내는 제2 오디오 데이터를 캡처하는 단계를 포함하며, 그리고
상기 빔포밍을 수행하는 단계는 상기 비히클 외부의 사운드 씬 내의 상기 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 대해 가중 합 및 지연 알고리즘을 수행하는 단계를 포함하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 빔포밍을 수행하는 단계는, 상기 사운드 씬 내의 상기 오디오 객체만을 나타내는 객체 오디오 데이터를 획득하고 그리고 서로 다른 위치에서 상기 사운드 씬 내의 서로 다른 오디오 객체를 나타내는 임의의 다른 객체 오디오 데이터를 제외하도록 상기 오디오 데이터에 대해 빔포밍을 수행하는 단계를 포함하고, 그리고
상기 오디오 객체를 재생하는 단계는, 상기 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 객체 오디오 데이터에 기초하여 상기 사운드 씬 내의 상기 오디오 객체만을 재생하는 단계를 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 오디오 객체를 재생하는 단계는,
상기 오디오 객체가 상기 비히클에 대해 상대적인 방향으로 상기 오디오 객체를 재생할 수 있는 하나 이상의 스피커의 서브세트를 선택하는 단계; 그리고
상기 하나 이상의 스피커의 서브세트에 의해, 상기 객체 오디오 데이터에 기초하여 상기 오디오 객체를 재생하는 단계를 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 하나 이상의 마이크로폰의 수는 상기 하나 이상의 스피커의 수와는 다른, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 비히클은 제1 비히클을 포함하고,
상기 객체 오디오 데이터는 상기 제1 비히클 외부의 제1 사운드 씬 내의 제1 오디오 객체를 나타내는 제1 객체 오디오 데이터를 포함하고,
상기 방법은,
제2 비히클으로부터, 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 나타내는 제2 객체 오디오 데이터를 획득하는 단계; 그리고
상기 제1 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 제2 객체 오디오 데이터에 기초하여 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 재생하는 단계를 더 포함하는, 방법.
장치로서,
비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 캡처하도록 구성된 하나 이상의 마이크로폰; 그리고
하나 이상의 프로세서를 포함하며,
상기 하나 이상의 프로세서는,
비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하고; 그리고
상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하도록 구성되는, 장치.
제11항에 있어서,
상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬에서 2개 이상의 오디오 객체를 나타내는 2개 이상의 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 복수의 서로 다른 방향으로 빔포밍을 수행하도록 구성되는, 장치.
제11항과 제12항 중 어느 한 항에 있어서,
상기 비히클은 제1 비히클이고,
상기 객체 오디오 데이터는 상기 제1 비히클의 운전자에 의해 시야에서 적어도 부분적으로 가려진 제2 비히클을 나타내는, 장치.
제11항 내지 제13항 중 어느 한 항에 있어서, 상기 객체 오디오 데이터는 보행자, 자전거 운전자 및 다른 비히클 중 하나 이상을 나타내는, 장치.
제11항 내지 제14항 중 어느 한 항에 있어서, 상기 장치는,
상기 비히클 외부의 시각적 씬을 나타내는 비디오 데이터를 캡처하도록 구성된 카메라를 더 포함하고,
상기 하나 이상의 프로세서는 상기 비히클 외부의 시각적 씬에서 오디오 객체의 위치를 식별하도록 상기 비디오 데이터에 관한 객체 검출을 수행하도록 더 구성되고,
상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 객체의 위치에 기초하여 상기 오디오 데이터에 대한 빔포밍을 수행하도록 구성되는, 장치.
제11항 내지 제15항 중 어느 한 항에 있어서,
상기 하나 이상의 마이크로폰은 제1 마이크로폰 및 제2 마이크로폰을 포함하고, 상기 제1 및 제2 마이크로폰 각각은 상기 비히클의 바디의 서로 다른 위치에 위치하며,
상기 제1 마이크로폰은, 상기 오디오 데이터를 캡처하도록 구성될 때, 상기 비히클 외부의 사운드 씬을 나타내는 제1 오디오 데이터를 캡처하도록 구성되고; 그리고
상기 제2 마이크로폰은, 상기 오디오 데이터를 캡처하도록 구성될 때, 상기 비히클 외부의 사운드 씬을 나타내는 제2 오디오 데이터를 캡처하도록 구성되고,
상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 비히클 외부의 사운드 씬 내의 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 대해 가중 합 및 지연 알고리즘을 수행하도록 구성되는, 장치.
제11항 내지 제16항 중 어느 한 항에 있어서,
상기 하나 이상의 프로세서는, 빔포밍을 수행하도록 구성될 때, 상기 사운드 씬 내의 상기 오디오 객체만을 나타내는 객체 오디오 데이터를 획득하고 그리고 서로 다른 위치에서 상기 사운드 씬 내의 서로 다른 오디오 객체를 나타내는 임의의 다른 객체 오디오 데이터를 제외하도록 상기 오디오 데이터에 대해 빔포밍을 수행하도록 구성되고; 그리고
상기 하나 이상의 프로세서는, 오디오 객체를 재생하도록 구성될 때, 상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 사운드 씬 내의 상기 오디오 객체만을 재생하도록 구성되는, 장치.
제11항 내지 제17항 중 어느 한 항에 있어서,
상기 하나 이상의 프로세서는, 상기 오디오 객체를 재생하도록 구성될 때,
상기 오디오 객체가 상기 비히클에 대해 상대적인 방향으로 상기 오디오 객체를 재생할 수 있는 하나 이상의 스피커의 서브세트를 선택하고; 그리고
상기 하나 이상의 스피커의 서브세트에 의해, 상기 객체 오디오 데이터에 기초하여 상기 오디오 객체를 재생하도록 구성되는, 장치.
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 비히클은 제1 비히클을 포함하고,
상기 객체 오디오 데이터는 상기 제1 비히클 외부의 제1 사운드 씬 내의 제1 오디오 객체를 나타내는 제1 객체 오디오 데이터를 포함하고, 그리고
상기 방법은,
제2 비히클으로부터, 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 나타내는 제2 객체 오디오 데이터를 획득하고; 그리고
상기 제1 비히클 내에 포함된 하나 이상의 스피커에 의해, 상기 제2 객체 오디오 데이터에 기초하여 상기 제2 비히클 외부의 제2 사운드 씬의 제2 오디오 객체를 재생하는 것을 더 포함하는, 장치.
실행될 때 하나 이상의 프로세서로 하여금 동작 세트를 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 동작 세트는,
비히클 외부의 사운드 씬을 나타내는 오디오 데이터를 획득하는 동작;
상기 비히클 외부의 사운드 씬에서 오디오 객체를 나타내는 객체 오디오 데이터를 획득하도록 상기 오디오 데이터에 대해 빔포밍을 수행하는 동작; 그리고
상기 비히클 내에 포함된 하나 이상의 스피커와 인터페이싱함으로써, 상기 객체 오디오 데이터에 기초하여 상기 비히클 외부의 사운드 씬의 오디오 객체를 재생하는 동작을 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.