KR20220123184A

KR20220123184A - 오디오 데이터 처리 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20220123184A
Application number: KR1020220103207A
Authority: KR
Inventors: 루이 칭; 정 리
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-12-27
Filing date: 2022-08-18
Publication date: 2022-09-06
Also published as: CN114286278B; JP2022166203A; CN114286278A; US20230122645A1

Abstract

본 발명은 음성 기술 분야, 특히, 오디오 처리 기술에 관한 것으로, 오디오 데이터 처리 방법, 장치, 전자 기기 및 저장 매체를 제공한다. 구현 방안은, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법으로서, 상기 방법은, 회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 단계; 적어도 하나의 조정 파라미터에 기반하여 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하는 단계; 및 오디오 데이터에 조정된 음향 특성을 적용하여 음향 효과가 복원된 오디오 데이터를 획득하는 단계를 포함한다.

Description

오디오 데이터 처리 방법, 장치, 전자 기기 및 저장 매체{AUDIO DATA PROCESSING METHOD, APPARATUS, ELECTRONIC DEVICE AND RECORDING MEDIUM}

본 발명은 음성 기술 분야, 특히 오디오 처리 기술에 관한 것으로, 구체적으로는 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법, 장치, 전자 기기, 컴퓨터 저장 가능 매체 및 컴퓨터 프로그램 제품에 관한 것이다.

사회와 기술이 발전함에 따라, 인터넷 매체의 도움을 받아 온라인 방식으로 강연, 공연, 또는 상연을 하거나 발표회를 여는 등 이벤트가 빈번해지고, 이에 대한 수요와 요구도 높아지고 있다.　특히, 온라인으로 참여하는 관객 수가 많은 대규모 온라인 이벤트의 경우, 관객이 해당 기간 동안 경험할 수 있는 음향 효과는 매우 중요하다.

여기에서 설명된 방법은 반드시 이전에 이미 구상되었거나 채택된 방법은 아닐 수 있다.　별도로 명시하지 않는 한, 여기에서 설명된 임의의 방법이 이 부분에 포함된다는 이유만으로 종래기술로 간주해서는 안 된다. 마찬가지로, 별도로 명시하지 않는 한, 해당 부분에서 언급된 문제가 임의의 종래기술에서 이미 공지/인식된 것으로 간주해서는 안 된다.

본 발명은 오디오 데이터 처리 방법, 장치, 전자 기기, 컴퓨터 저장 가능 매체 및 컴퓨터 프로그램 제품을 제공한다.

본 발명의 일 측면에 따르면, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법이 제공된다. 상기 방법은, 회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 단계; 적어도 하나의 조정 파라미터에 기반하여 상기 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하는 단계; 및 상기 조정된 음향 특성을 오디오 데이터에 적용하여, 음향 효과가 복원된 오디오 데이터를 획득하는 단계를 포함한다.

본 발명의 다른 측면에 따르면, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치가 제공된다. 상기 장치는, 회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하도록 구성된 획득 모듈; 적어도 하나의 조정 파라미터에 기반하여 상기 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하도록 구성된 조정 모듈; 및 상기 조정된 음향 특성을 오디오 데이터에 적용하여, 음향 효과가 복원된 오디오 데이터를 획득하도록 구성된 복원 모듈을 포함한다.

본 발명의 다른 측면에 따르면, 전자 기기가 제공된다. 상기 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 상술한 방법을 수행하도록 한다.

본 발명의 다른 양태에 따르면, 컴퓨터의 명령어를 저장한 비일시적 컴퓨터 판독 가능 저장 매체가 제공되며, 상기 컴퓨터의 명령어는 상기 컴퓨터가 상술한 방법을 수행하도록 한다.

본 발명의 다른 양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램이 제공되며, 상기 컴퓨터 프로그램은 명령어를 포함하되, 상기 명령어는 적어도 하나의 프로세서에 의해 실행될 경우에 상술한 방법을 수행하도록 한다.

본 발명의 하나 또는 복수의 실시예에 따르면, 온라인에서 수행하는 강연, 공연 또는 상연, 또는 발표회 등에 대한 음향 효과 측면에, 실제 회의장이 구비한 공간 음향 효과를 시뮬레이션할 수 있다.

본 부분에서 설명된 내용은 본 발명 실시예의 핵심 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 발명의 범위를 한정하려는 의도도 아님을 이해해야 한다. 본 발명의 다른 특징은 아래의 명세서를 통해 용이하게 이해할 것이다.

도면은 예시적으로 실시예를 도시한 것으로 명세서의 일부분을 구성하며, 명세서의 문자 설명과 함께 실시예의 예시적 실시 형태를 설명한다. 도시된 실시예는 예시 목적일 뿐, 청구범위를 한정하려는 것이 아니다. 도면 전체에 걸쳐, 동일한 부호는 유사한 요소를 가리키지만 반드시 동일한 요소를 가리키는 것은 아니다.
도1은 본 발명의 실시예에 따른 본문에서 설명되는 다양한 방법을 구현할 수 있는 예시적 시스템의 모식도를 도시한다;
도2는 본 발명의 실시예에 따른 오디오 데이터 처리 방법의 흐름도를 도시한다;
도3은 본 발명의 실시예에 따른 회의장의 수신 데이터 획득에 관한 모식도를 도시한다;
도4는 본 발명의 하나의 실시예에 따른 오디오 데이터 처리 장치의 구조 블록도를 도시한다;
도5는 본 발명의 다른 실시예에 따른 오디오 데이터 처리 장치의 구조 블록도를 도시한다;
도6은 본 발명의 실시예를 구현하는데 사용할 수 있는 예시적 전자 기기의 구조 블록도를 도시한다.

이하, 도면을 결합하여 본 발명의 시범적 실시예에 대해 설명한다. 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항이 포함되지만, 이는 단지 시범적인 것으로 간주되어야 한다. 따라서, 본 분야의 통상의 기술자는, 본 발명의 범위를 벗어나지 않으면서 여기에 설명된 실시예에 대해 다양한 변경 및 수정을 할 수 있다는 것을 인지해야 한다.　마찬가지로, 명확하고 간명하게 하기 위해, 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.

본 발명에서 달리 명시되지 않는 한, ‘제1’, ‘제2’ 등의 용어는 다양한 요소를 설명하기 위해 사용되는 것으로, 이들 요소의 위치 관계, 타이밍 관계 또는 중요도 관계를 한정하려는 의도가 아니며, 이러한 용어는 오직 하나의 요소를 다른 요소와 구분하는 데만 사용된다. 일부 예시에서, 제1 요소와 제2 요소는 해당 요소의 동일한 예를 가리킬 수 있고, 일부의 경우에는 전후 문맥의 설명에 기반하여 상이한 예를 가리킬 수도 있다.

본 발명의 다양한 상기 예시에 대한 설명에서 사용하는 용어는 오직 특정 예시를 설명하기 위한 목적으로 사용되는 것이지 한정하고자 하는 목적이 아니다.　전후 문맥에서 명시적으로 나타내지 않는 한, 요소의 수량을 특별히 한정하지 않으면, 해당 요소는 하나일 수도 있고 복수일 수도 있다.　또한, 본 발명에서 사용되는 용어 ‘및/또는’은 나열된 항목 중 어느 하나 및 가능한 모든 조합 방식을 포함한다.

관련 기술에서는, 온라인에서 수행하는 대규모(예컨대, 온라인 참여 관객 수 만 명 수준) 강연, 공연 또는 상연, 또는 발표회 등의 경우, 실제 대형 회의장(예컨대, 경기장, 실내 홀, 야외 무대 등)에서 제공하는 음향 효과에 도달하지 못하는 경우가 많다. 이는 온라인에서 생성된 오디오 스트림이 일반적으로 근거리에 설치된 마이크를 통해서만 수신되어, 음향 효과 제공에 있어서 일정한 제한이 있기 때문이다.　이로 인해, 관객들이 온라인을 통해 이러한 대규모 이벤트에 참여하더라도 실제 대형 회의장 내에서 경험할 수 있는 공간 음향 효과를 느낄 수 없다.

또한, 가상현실(VR) 기술의 발달로, 현실 세계를 시뮬레이션하는 수만 명의 가상 공간을 만들 수 있게 되었지만, 사용자가 이러한 수만 명의 가상 공간에 들어가 현실 세계와 같은 느낌을 경험할 수 있는지 여부에 대해서는 여전히 기술적 공백이 있다.

적어도 상기 문제점에 대해, 본 발명의 일 측면에 따르면, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법이 제공된다. 아래에서 도면을 결합하여 본 발명의 실시예를 상세히 설명한다.

도1은 본 발명의 실시예에 따라 본문에서 설명한 다양한 방법과 장치가 구현될 수 있는 예시적 시스템(100)의 설명도를 도시한다. 도1을 참조하면, 상기 시스템(100)은 하나 또는 복수의 클라이언트 기기(101, 102, 103, 104, 105 및 106), 서버(120) 및 하나 또는 복수의 클라이언트 기기를 서버(120)에 연결하는 하나 또는 복수의 통신 네트워크(110)를 포함한다. 클라이언트 기기(101, 102, 103, 104, 105 및 106)는 하나 또는 복수의 애플리케이션을 실행하도록 구성될 수 있다.

본 발명의 실시예에서, 서버(120)는 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법의 실행을 가능하게 하는 하나 또는 복수의 서비스 또는 소프트웨어 애플리케이션을 실행할 수 있다.

일부 실시예에서, 서버(120)는 또한 비가상 현실 및 가상 환경을 포함할 수 있는 다른 서비스 또는 소프트웨어 애플리케이션을 제공할 수 있다. 일부 실시예에서, 이러한 서비스는 web 기반 서비스 또는 클라우드 서비스로 제공될 수 있으며, 예를 들어, 서비스로서의 소프트웨어(SaaS) 모델에서 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)의 사용자에게 제공한다.

도1에 도시된 구성에서, 서버(120)는 서버(120)에 의해 수행되는 기능을 구현하는 하나 또는 복수의 컴포넌트를 포함할 수 있다. 이러한 컴포넌트는, 하나 또는 복수의 프로세서에서 실행할 수 있는 소프트웨어 컴포넌트, 하드웨어 컴포넌트 또는 이들의 조합을 포함할 수 있다. 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)를 조작하는 사용자는 차례로 하나 또는 복수의 클라이언트 애플리케이션을 이용하여 서버(120)와 상호작용을 수행하고, 이러한 컴포넌트가 제공하는 서비스를 이용할 수 있다. 이해해야 할 것은, 다양한 상이한 시스템 구성이 가능하며, 이는 시스템(100)과 다를 수 있다는 점이다. 따라서, 도1은 본문에서 설명되는 다양한 방법을 구현하기 위한 시스템의 하나의 예시이며, 한정하려는 목적은 아니다.

사용자는 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)를 사용하여 온라인에서 진행되는 강연, 공연 또는 상연, 또는 발표회 등 온라인 활동에 로그인, 액세스 또는 참여할 수 있다. 클라이언트 기기는 클라이언트 기기의 사용자가 클라이언트 기기와 상호작용할 수 있는 인터페이스를 제공할 수 있다. 클라이언트 기기는 또한 상기 인터페이스를 통해 사용자에게 정보를 출력할 수 있다. 도1은 6가지 유형의 클라이언트 기기 만을 도시하지만, 본 분야의 기술자는 본 발명이 임의의 수량의 클라이언트 기기도 지원할 수 있음을 이해할 것이다.

클라이언트 기기(101, 102, 103, 104, 105, 및/또는 106)는 각종 유형의 컴퓨터 설비, 예컨대, 휴대용 설비, 범용 컴퓨터(예컨대, 개인 컴퓨터 및 랩톱 컴퓨터), 워크스테이션 컴퓨터, 웨어러블 설비, 스마트 스크린 설비, 셀프 서비스 단말 설비, 서비스 로봇, 게임 시스템, 씬 클라이언트, 다양한 메시징 송수신 설비, 센서 또는 기타 감지 설비 등을 포함할 수 있다. 이러한 컴퓨터 설비는 각종 유형 및 버전의 소프트웨어 어플리케이션 및 오퍼레이팅 시스템, 예컨대, MICROSOFT Windows, APPLE iOS, UNIX 유사 운영 시스템, Linux 또는 Linux 유사 운영 시스템(예컨대, GOOGLE Chrome OS)을 실행할 수 있거나; 각종 모바일 오퍼레이팅 시스템, 예컨대, MICROSOFT Windows Mobile OS, iOS, Windows Phone, Android를 포함할 수 있다. 휴대용 설비는 셀룰러 폰, 스마트 폰, 태블릿, 개인정보단말기(PDA) 등을 포함할 수 있다. 웨어러블 설비는 헤드 마운티드 디스플레이(예컨대, 스마트 안경) 및 기타 설비가 포함될 수 있다. 게임 시스템은 다양한 휴대용 게임 설비, 인터넷 가능 게임 설비 등이 포함될 수 있다. 클라이언트 기기는 각종 상이한 애프리케이션, 예컨대, 다양한 Internet과 관련된 애플리케이션, 통신 애플리케이션(예컨대, 이메일 애플리케이션), 메시지 서비스(SMS) 애플리케이션을 실행할 수 있으며 다양한 통신 프로토콜을 사용할 수 있다.

네트워크(110)는 본 영역의 기술자에게 익히 알려진 임의의 타입의 네트워크일 수 있고, 다양한 사용 가능한 프로토콜 중 임의의 한 종류(TCP/IP, SNA, IPX 등을 포함하지만 이에 국한되지 않음)를 사용하여 데이터 통신을 지원할 수 있다. 단지 예시로서, 하나 또는 복수의 네트워크(110)는 근거리 통신망(LAN), 이더넷 기반 네트워크, 토큰 링, 광역 통신망(WAN), 인터넷, 가상 네트워크, 가상 사설 통신망(VPN), 인트라넷, 엑스트라넷, 공중 교환 전화망(PSTN), 적외선 네트워크, 무선 네트워크(예컨대, 블루투스, WIFI) 및/또는 이들 및/또는 다른 네트워크와의 임의의 조합일 수 있다.

서버(120)는 하나 또는 복수의 범용 컴퓨터, 전용 서버 컴퓨터(예컨대, PC(개인 컴퓨터) 서버, UNIX 서버, 미들 엔드 서버), 블레이드 서버, 대형 컴퓨터, 서버 클러스터 또는 임의의 다른 적절한 구성 및/또는 조합을 포함할 수 있다. 서버(120)는 가상 운영 체제를 실행하는 하나 또는 복수의 가상 기계를 포함하거나, 가상화의 다른 컴퓨팅 아키텍처(예컨대, 서버의 가상 저장 기기를 유지하기 위해 가상화될 수 있는 논리적 저장 장치의 하나 또는 복수의 플렉시블 풀)와 관련될 수 있다. 다양한 실시예에서, 서버(120)는 아래에 설명되는 기능을 제공하는 하나 또는 복수의 서비스 또는 소프트웨어 애플리케이션을 실행할 수 있다.

서버(120)의 컴퓨팅 유닛은 상기 임의의 오퍼레이팅 시스템 및 임의의 상업적으로 사용 가능한 서버 오퍼레이팅 시스템을 포함하는 하나 또는 복수의 오퍼레이팅 시스템을 실행할 수 있다. 서버(120)는 또한 HTTP 서버, FTP 서버, CGI 서버, JAVA 서버, 데이터베이스 서버 등을 포함하는 다양한 부가적 서버 애플리케이션 및/또는 중간층 애플리케이션 중 임의로 하나를 실행할 수 있다.

일부 실시 방법에서, 서버(120)는 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)의 사용자로부터 수신된 데이터 피드 및/또는 이벤트 업데이트를 분석 및 합병하기 위해 하나 또는 복수의 애플리케이션을 포함할 수 있다. 서버(120)는 또한 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)의 하나 또는 복수의 디스플레이 설비를 통해 데이터 피드 및/또는 실시간 이벤트를 표시하기 위한 하나 또는 복수의 애플리케이션을 포함할 수 있다.

일부 실시 방법에서, 서버(120)는 분산형 시스템 서버, 또는 블록체인과 결합된 서버일 수 있다. 서버(120)는 클라우드 서버 또는 인공지능 기술이 적용된 지능형 클라우드 컴퓨팅 서버 또는 지능형 클라우드 호스트일 수도 있다. 클라우드 서버는 기존의 물리적 호스트 및 가상 전용 서버(VPS, Virtual Private Server) 서비스의 어려운 관리 및 취약한 사업 확장의 단점을 해결하기 위한 클라우드 컴퓨팅 서비스 시스템의 하나의 호스트 제품이다.

시스템(100)은 또한 하나 또는 복수의 데이터 베이스(130)를 포함할 수 있다. 일부 실시예에서, 이러한 데이터 베이스는 데이터 및 다른 정보를 저장하는데 사용될 수 있다. 예를 들어, 데이터 베이스(130) 중 하나 또는 복수는 오디오 파일 및 비디오 파일과 같은 정보를 저장하는데 사용될 수 있다. 데이터 베이스(130)는 다양한 위치에 상주할 수 있다. 예를 들어, 서버(120)가 사용하는 데이터 베이스는 서버(120) 본지에 존재할 수 있고, 서버(120)로부터 멀어질 수 있으며, 네트워크 기반 또는 전용 연결을 통해 서버(120)와 통신할 수 있다. 데이터 베이스(130)는 상이한 타입일 수 있다. 일부 실시예에서, 서버(120)가 사용하는 데이터 베이스는 예컨대 관계형 데이터 베이스일 수 있다. 이러한 데이터 베이스 중 하나 또는 복수는 명령에 응답하여 데이터 베이스 및 데이터 베이스로부터의 데이터를 저장, 업데이트 및 검색할 수 있다.

일부 실시예에서, 데이터 베이스(130) 중 하나 또는 복수는 애플리케이션에 의해 사용되어 애플리케이션 데이터를 저장할 수도 있다. 애플리케이션에 의해 사용되는 데이터 베이스는 키 값 저장소, 객체 저장소 또는 파일 시스템에 의해 지원되는 일반 저장소와 같은 상이한 타입의 데이터 베이스일 수 있다.

도1의 시스템(100)은 본 발명의 설명에 따른 다양한 방법 및 장치를 응용할 수 있도록 다양한 방식으로 구성 및 작동될 수 있다.

도2는 본 발명의 실시예에 따른 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법200의 흐름도를 도시한다. 도2에 도시된 바와 같이, 방법200은,

회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 단계 S202;

적어도 하나의 조정 파라미터에 기반하여 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하는 단계 S204; 및

오디오 데이터에 조정된 음향 특성을 적용하여 음향 효과가 복원된 오디오 데이터를 획득하는 단계 S206를 포함한다.

본 발명의 오디오 데이터 처리 방법에 따르면, 실제 회의장의 음향 특성을 획득하고 이를 조정하여, 온라인에서 수행하는 강연, 공연 또는 상연, 또는 발표회 등 온라인 활동의 음향 효과에 대해, 실제 회의장이 구비한 공간 음향 효과를 시뮬레이션할 수 있다. 이로써, 온라인으로 참여하는 관객들은 이러한 과정에서 실제 회의장 내에서 경험할 수 있는 것과 같은 공간 음향 효과를 경험할 수 있다.

아래에서 본 발명에 따른 오디오 데이터 처리 방법의 각 단계를 상세히 설명한다.

설명해야 할 것은, 본 발명에서 말하는 ‘회의장’은 경기장, 실내 홀, 실외 야외무대 등과 같이 각종 공공 이벤트 또는 집회를 진행하기 위한 공간, 장소 또는 건축물 등을 의미할 수 있으며, 해당 규모는 대형 또는 초대형일 수 있다. 예컨대, 만명 또는 십만 명 을 수용할 수 있고(예컨대, 베이징 국립경기장 ‘니아오챠오’[Bird's Nest]), 해당 구조는 오픈형이거나 폐쇄형일 수 있다. 실제 응용에서 다양한 회의장 형태가 존재하므로, ‘회의장’이라는 용어의 사용은 본 발명의 발명 개념을 설명하고 전달하기 위한 것이다. 본 발명은 회의장의 유형, 구조 또는 규모 등에 대해 불필요한 한정을 하지 않는다.

본 발명의 기술적 방안에 있어서, 관련된 사용자의 개인정보 수집, 보관, 이용, 가공, 전송, 제공 또는 공개 등 처리는 모두 관련 법률과 법규의 규정에 부합하며, 공서양속을 위반하지 않는다.

단계 S202에서, 회의장에 대응하는 공간 음장의 초기 음향 특성은 회의장에 설치된 스피커 장비 세트의 전체 주파수 응답, 초대형 회의장 내의 공간 임펄스 응답(room impulse response, RIR), 공간 방향 특징 등을 포함할 수 있다. 일반적으로, 회의장 내에 설치된 스피커 장비 세트는 현재 회의실과 매치하여 설계되는 경우가 많기 때문에, 초기 음향 특성에도 마찬가지로 이러한 스피커 장비와 관련된 음향 특성이 포함된다.

회의장에 대응하는 공간 음장의 음향 특성은 해당 공간 음장의 다양한 속성을 나타낼 수 있다. 음향 특성은 회의장에서 수집된 원 스테레오 데이터를 기반으로 얻을 수 있으므로, 여기서는 초기 음향 특성으로 지칭할 수 있다. 상기 초기 음향 특성은 회의장 음향 효과를 복원하기 위한 초기 필터 계수에 대응할 수 있다. 아래에서 단계 S204 및 S206을 결합하여 더 나아가 설명하는 바와 같이, 상기 초기 음향 특성, 즉, 초기 필터 계수는, 최종적으로 음향 효과를 복원하는 데 사용할 수 있는 필터 계수를 얻기 위해, 다른 차원의 파라미터 조정을 겪을 것이다.

일부 실시예에 따르면, 단계 S202에서, 회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 단계는, 회의장 관련 오디오 데이터를 획득하는 단계를 포함할 수 있으며, 오디오 데이터는 회의장 내의 미리 설정된 위치에서 재생되는 오디오를 녹음하여 얻으며; 재생되는 오디오 및 수신 데이터를 기반으로 공간 음장의 초기 음향 특성을 획득한다.

상기 방식을 통해, 한편으로는 음향 효과 복원을 위한 관심이 있는 회의장에 근거하여 대응하는 공간 음장의 음향 특성을 유연하게 얻을 수 있고, 다른 한편으로는, 수집하거나 얻기 쉬운 데이터 소스(재생되는 오디오 및 대응하는 수신 데이터)의 절묘한 도움으로 공간 음장의 음향 특성의 획득을 구현할 수 있다.

실제 적용에서, 유사한 급의 회의장(예컨대, 십만 명 급과 팔만 명 급)은 상호적으로 사용할 수 있다. 이는, 십만 명 급의 회의장 수신 데이터를 획득할 수 없는 경우, 획득할 수 있는 기타 유사한 급의 회의장 수신 데이터를 사용할 수 있다는 것을 의미한다.

일반적으로, 음장의 음향 특성을 더 잘 획득하기 위한 목적으로, 회의장 내에서 수신 데이터를 녹음할 때 재생되는 오디오는 미리 설정할 수 있다. 예를 들어, 재생되는 오디오는 사람의 목소리, 백색소음, 스윕 신호 등 필요하거나 관심이 있는 다양한 소리의 주파수 구간을 커버할 수 있다. 따라서, 녹음을 통해 얻은 수신 데이터는 대응하는 소리의 주파수 구간을 포함할 수 있다.

여기서, 음장의 음향 특성을 얻기 위해, 회의장 내에서 수신 데이터를 녹음할 때 재생되는 오디오를 소스 데이터로 간주하고, 수신 데이터를 결과 데이터로 간주하는 것을 고려할 수 있다. 결과 데이터는 소스 데이터가 회의장을 거친 후 형성된 결과를 반영할 수 있다. 따라서, 소스 데이터와 결과 데이터를 기반으로 이러한 회의장을 거치는 과정을 도출할 수 있다. 즉, 회의장과 대응하는 공간 음장의 음향 특성을 획득할 수 있다.

일부 실시예에 따르면, 공간 음장의 초기 음향 특성을 획득하는 단계는, 재생되는 오디오와 수신 데이터에 대해 상관성 모델링을 수행하여, 디콘볼루션 조작을 통해 초기 음향 특성을 추출하는 단계를 포함할 수 있다.

상기 방식을 통해, 수집하거나 얻기 쉬운 데이터 소스(재생되는 오디오 및 대응하는 수신 데이터)간의 상관성의 도움으로 음장의 음향 특성을 도출할 수 있다.

상관성 모델링은 재생되는 오디오와 수신 데이터간의 상관 함수를 획득하는 단계를 포함할 수 있다. 디콘볼루션 조작을 통해 추출된 초기 음향 특성은 상술한 바와 같이 회의장의 음향 효과를 복원하기 위한 초기 필터 계수에 대응할 수 있다. 디콘볼루션 조작 자체는 본 영역에서 이미 알려진 방법인 점을 고려하여, 본 발명의 취지를 흐리지 않도록 더 이상의 상세한 설명은 하지 않는다.

일부 실시예에 따르면, 수신 데이터는, 회의장 내의 적어도 하나의 공간 방향과 관련되는 것, 회의장의 중심으로부터의 거리와 관련되는 것 중 적어도 하나를 만족할 수 있다.

상기 방식을 통해, 수신 데이터는 공간 방향, 거리상의 속성을 커버할 수 있으므로, 이로부터 획득되는 음장의 음향 특성을 실제 회의장의 상황에 더 가깝게 만들 수 있다.

여기서, 도3과 결합하여 수신 데이터의 공간 방향 및 거리상에서의 특징을 상세히 설명한다. 도3은 본 발명의 실시예에 따른 회의장 관련 수신 데이터의 획득 모식도를 도시한다.

도3에 도시된 바와 같이, 부감 각도로 회의장(300)을 도시하고, 설명의 편의를 위해 회의장(300)을 경기장 형태로 도시했다. 다만, 상술한 바와 같이, 본 발명은 회의장의 유형, 구조 또는 규모 등에 대해 불필요한 한정을 하지 않는다.

회의장(300)은 센터(301)를 가질 수 있다. 상기 센터(301)는 도3에서 경기장 센터의 축구장으로 도시 되고, 상기 축구장은 라운드 링의 트랙으로 둘러싸여있다. 또한, 회의장(300)은 또한 4개의 공간 방향(302-1 내지 302-4)을 가질 수 있으며, 이는 도3에서 우측 화살표로 방향을 도시한다.

상술한 바와 같이, 수신 데이터는 회의장 내의 미리 설정된 위치에서 재생되는 오디오를 녹음하여 얻는다. 구체적으로, 도3에 도시된 바와 같이, 미리 설정된 위치로 녹음 포인트(303 내지 308)를 예시적으로 도시하고, 여기서 녹음 포인트(303 내지 305)와 녹음 포인트(306 내지 308)는 센터(301)로부터의 거리가 순차적으로 늘어난다. 또한, 녹음 포인트(303 내지 308) 중 각각의 녹음 포인트는 4개의 공간 방향(302-1 내지 302-4)에서 오디오 녹음을 수행할 수 있다. 각각의 녹음 포인트에는 상이한 화살표 방향으로 상기 4개의 공간 방향(302-1 내지 302-4)을 도시한다.

따라서, 회의장 내의 적어도 하나의 공간 방향과 관련되게 녹음 포인트를 설정하고, 회의장의 센터로부터의 거리와 관련되게 녹음 포인트를 설정하여, 녹음된 수신 데이터는 회의장 내의 적어도 하나의 공간 방향과 관련되는 것, 회의장 센터로부터의 거리와 관련되는 것 중 적어도 하나를 만족한다.

본 분야의 기술자는, 도3은 단지 녹음 포인트를 예시적으로 나타낸 것으로, 본 발명이 이에 대해 불필요한 한정을 하려는 의도가 아님을 이해할 수 있다. 실제 적용에서, 녹음 포인트의 선택은 종종 효율과 효과 사이의 절충을 고려해야 한다. 예를 들어, 데이터 수집 비용을 고려하여, 도3은 녹음 포인트(303 내지 305)가 도면의 상단에 위치하고, 녹음 포인트(306 내지 308)는 도면의 우측에 위치하는 상황을 도시한다. 그러나, 가능하다면, 더 나아가 더 많은 녹음 포인트 설정하여, 녹음 포인트(303 내지 305) 내지 녹음 포인트(306 내지 308) 사이에 위치하도록 할 수 있으며, 이로써 공간 음장의 보다 정확한 음향 특성을 용이하게 획득할 수 있다.

일부 실시예에 따르면, 수신 데이터는 사람의 귀로 수신하는 것을 시뮬레이션하는 방식으로 재생되는 오디오를 녹음하여 얻을 수 있다.

계속해서 도3을 참고하면, 녹음 포인트(303 내지 308)에 배치된 인공 귀 녹음 기기의 다양한 방향(309-1 내지 309-4)이 도시한다. 여기서, 인공 귀 녹음 기기는 외관상으로 실제 사람의 머리와 귀의 구조를 시뮬레이션할 수 있으며, 귀(예컨대, 귓바퀴 내)에 대응하는 녹음 기기를 배치한다. 즉, 좌측 하나와 우측 하나(도3에 ‘L’ 및 ‘R’ 기호로 도시)이다. 이로써, 방향 감각과 같은 실제 사람의 귀로 수신하는 효과를 시뮬레이션하는 데 사용된다. 이해할 수 있는 점은, 도3에 도시된 녹음 포인트(303 내지 308)중 각각의 녹음 포인트에 대해, 한번의 녹음에서 4개의 인공 귀 녹음 기기를 사용하여 각각 4개의 방향을 향하도록 하거나, 하나의 인공 귀 녹음 기기를 사용하여 4번의 녹음을 수행하고, 매번 녹음에서 다른 방향을 향하게 할 수 있다는 점이다.

설명해야할 점은, 본 실시예에서 시뮬레이션된 실제 사람의 머리와 귀 구조는 특정 사용자를 겨냥한 것이 아니며, 어느 특정 사용자의 개인 정보를 반영할 수 없다는 점이다.

상기 방식을 통해, 수신 데이터는 사람의 귀로 수신한 효과를 진실되게 시뮬레이션할 수 있기 때문에, 이로부터 획득하는 음장의 음향 특성은 관중이 실제 회의장 내에 있는 상황에 더 가깝게 한다.

다시 도2를 참고하면, 단계 S204에서, 상술한 바와 같이, 초기 음향 특성은 회의장의 음향 효과를 복원하기 위한 초기 필터 계수에 대응할 수 있으며, 적어도 하나의 조정 파라미터에 기반하여 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하는 것은, 최종적으로 회의장의 음향 효과를 복원하는 데 사용할 수 있는 필터 계수와 대응할 수 있다. 이처럼, 이를 통해 얻은 필터 계수를 사용하여 관객은 온라인에서도 실제 회의장 내에서 경험할 수 있는 것과 동일한 공간 음향 효과를 경험할 수 있게 된다.

일부 실시예에 따르면, 상기 적어도 하나의 조정 파라미터는 잔향 시간, 에코 볼륨, 균형도, 전파 감쇠 중 적어도 하나를 포함할 수 있다.

상기 방식을 통해, 다양한 음향 효과 복원 수요에 따라, 음향 효과 복원을 위한 필터 계수를 수요에 따라 설계할 수 있다.

잔향 시간은 잔향 시간(T60)을 의미할 수 있고, 이는 사운드 에너지 감쇠(60dB)에 필요한 시간을 반영한다. 잔향 시간 제어를 통해 에코의 지속 시간을 제어할 수 있으므로, 회의장 내의 다양한 위치에 에코 효과를 최적화할 수 있다.

에코 볼륨, 즉 에코 분량은 에코 볼륨 감쇠 곡선의 도움을 받아 제어할 수 있다. 에코 볼륨 제어를 통해, 사람의 목소리가 상대적으로 큰 에코의 영향을 받는 것을 방지할 수 있다. 예를 들어, 강연자의 목소리가 비교적 작거나 비교적 날카로운 경우, 해당 목소리가 에코에 의해 쉽게 덮일 수 있으며, 이러한 경우, 에코 영향을 피하기 위해 에코 볼륨에 최적화를 수행할 수 있다.

균형도는 음질 조정에 사용할 수 있다. 균형도 제어를 통해 보다 균일한 음질을 얻을 수 있다.

전파 감쇠는 거리 감각의 조정, 즉, 거리 원근에 따라 감쇠가 증가 또는 감소하는 것을 포함할 수 있다. 전파 감쇠 제어를 통해, 청취에 보다 적합한 거리 감각을 얻을 수 있다.

상기 4개의 조정 파라미터는 실제 필요에 따라 선택할 수 있다. 마찬가지로, 상기 4개의 조정 파라미터의 다양한 조합은 다양한 필터 계수에 대응할 수 있고, 이에 따라 최적화된 하나의 필터풀 세트를 형성할 수 있다.

단계 S206에서, 조정된 음향 특성을 오디오 데이터에 적용하는 것은 조정된 음향 특성에 기반하여 상기 오디오 데이터를 처리하는 것을 의미한다.

일부 실시예에 따르면, 조정된 음향 특성은 적어도 하나의 필터 계수를 포함할 수 있고, 오디오 데이터에 조정된 음향 특성을 적용하여, 음향 효과가 복원된 오디오 데이터를 얻을 수 있으며, 오디오 데이터 내의 음성(voice) 특성에 기반하여, 상기 적어도 하나의 필터 계수로부터 하나 또는 복수의 필터 계수를 선택하여, 콘볼루션 조작을 통해 음향 효과가 복원된 오디오 데이터를 획득하는 단계를 포함할 수 있다.

상기 방식을 통해, 온라인 강연 등과 같은 활동에서 강연자의 음성 특징과 결합하여 회의장의 음향 효과를 복원하는 데 적합한 필터 계수를 선택할 수 있으므로, 관중이 경험하는 음향 효과를 더욱 향상시킬 수 있다.

예를 들어, 상술한 강연자의 목소리가 비교적 작거나 비교적 날카로워 해당 목소리가 에코에 의해 쉽게 덮이는 상황일 경우, 에코의 볼륨을 조정한 필터 파라미터를 사용하여 회의장의 음향 효과를 복원할 수 있다.

또한, 설명할 것은, 콘볼루션 조작 자체가 본 영역에서 이미 알려진 방법인 점을 고려하여, 본 발명의 취지를 헛갈리게 하지 않도록 상세한 설명을 거듭 하지 않는다.

상술한 바와 같이, 본 발명의 오디오 데이터 처리 방법에 따르면, 실제 회의장의 음향 특성을 획득하고 이를 조정하여, 온라인에서 수행하는 강연, 공연 또는 상연, 또는 발표회 등 온라인 활동의 음향 효과에 대해, 실제 회의장이 구비한 공간 음향 효과를 시뮬레이션할 수 있다. 이로써, 온라인으로 참여하는 관객은 이러한 과정에서 실제 회의장 내에서 경험할 수 있는 것과 같은 공간 음향 효과를 경험할 수 있다.

본 발명의 다른 양태에 따르면, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치도 제공한다. 도4는 본 발명의 하나의 실시예에 따른 오디오 데이터 처리 장치(400)의 블록도를 도시한다.

도4에 도시된 바와 같이, 상기 장치(400)는 회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하도록 구성된 획득 모듈(402); 적어도 하나의 조정 파라미터에 기반하여 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하도록 구성된 조정 모듈(404); 및 오디오 데이터에 조정된 음향 특성을 적용하여 음향 효과가 복원된 오디오 데이터를 획득하도록 구성된 복원 모듈(406)을 포함할 수 있다.

상기 모듈(402 내지 406)이 수행하는 조작은 도2에서 설명하는 단계(S202 내지 S206)에 대응할 수 있으므로, 각각의 측면에 대한 더 이상의 상세한 설명은 하지 않는다.

도5는 본 발명의 다른 실시예에 따른 오디오 데이터 처리 장치(500)의 블록도를 도시한다. 도5에 도시된 모듈(502 내지 506)은 각각 도4에 도시된 모듈(402 내지 406)에 대응할 수 있다. 이 외에, 모듈(502 및 506)은 또한 진일보한 서브 기능 모듈을 포함할 수 있다. 아래에서 상세히 설명할 것이다.

일부 실시예에 따르면, 획득 모듈(502)은, 회의장에 관한 수신 데이터를 획득하도록 구성된 제1 조작 모듈(5020)을 포함할 수 있다. 여기서, 수신 데이터는 회의장 내의 미리 설정된 위치에서 재생되는 오디오를 녹음하여 얻으며; 상기 재생되는 오디오와 수신 데이터에 기반하여 공간 음장의 초기 음향 특성을 획득하도록 구성된 제2 조작 모듈(5022)을 포함할 수 있다.

일부 실시예에 따르면, 제2 조작 모듈(5022)은, 재생되는 오디오와 수신 데이터에 대해 상관성 모델링을 수행하여, 디콘볼루션 조작을 통해 초기 음향 특성을 추출하도록 구성된 추출 모듈(5022-1)을 포함할 수 있다.

일부 실시예에 따르면, 조정된 음향 특성은 적어도 하나의 필터 계수를 포함하고, 복원 모듈(506)은, 오디오 데이터 내의 음성 특성에 기반하여, 상기 적어도 하나의 필터 계수로부터 하나 또는 복수의 필터 계수를 선택하여 콘볼루션 조작을 통해 음향 효과가 복원된 오디오 데이터를 획득하도록 구성된 제3 조작 모듈(5060)을 포함할 수 있다.

본 발명의 다른 양태에 따르면, 전자 기기 또한 제공된다. 상기 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되; 메모리에는 적어도 하나의 프로세서에 의해 실행되는 명령어가 저장하고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 본 발명에 따른 방법을 수행하도록 한다.

본 발명의 다른 양태에 따르면, 컴퓨터의 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체 또한 제공된다. 여기서, 컴퓨터의 명령어는 컴퓨터가 본 발명에 따른 방법을 수행하도록 한다.

본 발명의 다른 양태에 따르면, 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 프로세서에 의해 실행될 경우에 본 발명에 따른 방법을 수행하도록 하는 컴퓨터 프로그램 제품을 제공한다.

도6을 참고하여, 본 발명의 서버 또는 클라이언트가 될 수 있는 전자 기기(600)의 구조 블록도를 설명할 것이다. 이는 본 발명의 다양한 방면의 하드웨어에 기기에 적용할 수 있는 예시이다. 전자 기기(600)는 랩톱 컴퓨터, 데스크탑 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 또한 개인 정보 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하려는 의도가 아니다.

도6에 도시된 바와 같이, 전자 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 컴퓨터 프로그램에 또는 저장 유닛(608)에서 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 컴퓨팅 유닛(601)을 포함한다. RAM(603)에는 전자 기기(600) 조작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. 컴퓨팅 유닛(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.

전자 기기(600)의 다양한 부재는, 입력 유닛(606), 출력 유닛(607), 저장 유닛(608) 및 통신 유닛(609)을 포함하는 I/O 인터페이스(605)에 연결된다. 입력 유닛(606)은 전자 기기(600)에 정보를 입력할 수 있는 모든 유형의 장치일 수 있고, 입력 유닛(606)은 입력된 숫자 또는 문자 정보를 수신하고, 전자 기기의 사용자 설정 및/또는 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 마우스, 키보드, 터치 스크린, 트랙패드, 트랙볼, 조작 레버, 마이크 및/또는 리모콘이 포함될 수 있지만 이에 국한되지 않는다. 출력 유닛(607)은 정보를 표시할 수 있는 임의의 유형의 기기일 수 있고, 디스플레이, 스피커, 비디오/오디오 출력 단자, 진동기 및/또는 프린터를 포함할 수 있지만 이에 국한되지 않는다. 저장 유닛(608)은 자기 디스크 및 시디룸을 포함할 수 있지만 이에 국한되지 않는다. 통신 유닛(609)은 전자 기기(600)가 인터넷의 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허용하고, 모뎀, 랜 카드, 적외선 통신 장치, 무선통신 트랜송수신기 및/또는 칩셋을 포함할 수 있지만 이에 국한되지 않으며, 예컨대, 블루투스 TM 기기, 802.11 기기, WiFi 기기, WiMax 기기, 셀룰러 통신 기기 및/또는 유사물이 있다.

컴퓨팅 유닛(601)은 다양한 처리 및 컴퓨팅 능력을 구비한 범용 및/또는 전용 처리 부재일 수 있다. 컴퓨팅 유닛(601)의 일부 예시는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 다양한 기계 학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 서버(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만 이에 국한되지 않는다. 컴퓨팅 유닛(601)은 오디오 데이터 처리 방법(200)과 같이 위에서 설명된 다양한 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 상기 오디오 데이터 처리 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 저장 유닛(608)과 같은 기계 판독 가능 매체에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(602) 및/또는 통신 유닛(609)에 의해 전자 기기(600)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로딩되고 컴퓨팅 유닛(601)에 의해 실행될 때, 위에서 설명되는 오디오 데이터 처리 방법 중 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(601)은 다른 임의의 적절한 방법(예를 들어, 펌웨어를 이용)을 통해 오디오 데이터 처리 방법을 구현하도록 구성될 수 있다.

본문 위에서 설명된 시스템 및 기술의 다양한 구현 방식은, 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 전용 직접 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시예는 다음 중 적어도 하나를 포함할 수 있다: 하나 또는 복수의 컴퓨터 프로그램에서 구현되며, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행/및 또는 해석할 수 있으며. 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있다. 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있고, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합으로 만들 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공될 수 있으며, 프로그램 코드는 프로세서 또는 컨트롤러에 의해 실행될 때, 흐름도 및/또는 블록도에 지정된 기능/조작이 구현될 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되며, 부분적으로 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 발명의 전후 문맥에서, 기계 판독 가능 매체는 유형의 매체일 수 있고, 이는 명령어 실행 시스템, 장치 또는 기기에 의해 사용되거나 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는, 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자적, 자기적, 광학적, 전자기적, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 국한되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시는 하나 또는 복수의 와이어에 기반한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리 (ROM), 비휘발성 반도체 기억장치(EPROM 또는 플래시 메모리), 광섬유, 읽기용 콤팩트 디스크 기억 장치(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상기 내용의 임의의 적절한 조합을 포함한다.

사용자와의 상호작용을 제공하기 위해, 컴퓨터에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예컨대, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 포인팅 장치(예컨대, 마우스 또는 트랙볼)를 구비한다. 사용자는 상기 키보드와 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 장치 또한 사용자와의 상호작용을 제공하는 데 사용할 수 있다: 예를 들어, 사용자에게 제공된 피드백(시각적 피드백, 청각적 피드백 또는 촉각적 피드백)은 임의의 형태의 감지 피드백일 수 있고; 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력 포함)로 사용자로부터 오는 입력을 받을 수 있다.

여기서 설명된 시스템 및 기술은, 백엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버 역할) 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예컨대, 응용 서버), 또는 프론트엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 그래픽 유저 인터페이스 또는 웹 브라우저가 있는 사용자 컴퓨터이고, 사용자는 상기 그래픽 유저 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 구현 방식과 상호작용), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합이 포함된 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형식 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)을 통해 시스템 부재를 서로 연결할 수 있다.　통신 네트워크의 예시로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷 등을 포함한다.

컴퓨터 시스템에는 클라이언트와 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 통상적으로 통신 네트워크를 통해 상호작용한다. 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 구비한 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.　서버는 클라우드 서버이거나, 분산형 시스템의 서버이거나, 또는 블록체인을 결합한 서버일 수도 있다.

이해해야 할 것은, 전술한 다양한 형식의 프로세스를 사용하여 단계의 순서를 재정리, 추가 또는 삭제할 수 있다는 점이다.　예를 들어, 본 발명에 기재된 각 단계는, 본 발명에서 공개된 기술 방안이 기대하는 결과를 구현할 수 있는 한, 병행적, 순차적 또는 다른 순서로 수행될 수 있으며, 본문은 이에 대해 한정하지 않는다.

본 발명의 기술적 방안에 있어서, 관련된 사용자의 개인정보 수집, 보관, 이용, 가공, 전송, 제공 또는 공개 등 처리는 모두 관련 법률과 법규의 규정에 부합하고, 공서양속을 위반하지 않는다.

비록 도면을 참조하여 본 발명의 실시예 또는 예시를 설명하였지만, 상술한 방법, 시스템 및 기기는 단지 예시적인 실시예 또는 예시일 뿐이며, 본 발명의 범위가 이러한 실시예 또는 예시에 의해 한정되는 것이 아니고, 등록된 청구범위 및 이와 동등한 범위에 의해서만 한정된다는 것을 이해하여야 한다. 실시예 또는 예시의 여러 요소는 생략되거나 동등한 요소로 대체될 수 있다. 또한, 각 단계는 본 발명에 설명된 것과 다른 순서로 수행될 수 있다. 나아가, 실시예 또는 예시의 여러 요소들은 다양한 방식으로 조합될 수 있다. 중요한 것은 기술의 발전에 따라, 여기에 설명된 많은 요소들은 본 발명의 이후에 나타난 동등한 요소로 대체될 수 있다는 것이다.

Claims

회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법으로서,
회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 단계;
적어도 하나의 조정 파라미터에 기반하여 상기 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하는 단계; 및
상기 조정된 음향 특성을 오디오 데이터에 적용하여, 음향 효과가 복원된 오디오 데이터를 획득하는 단계를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제1항에 있어서,
회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하는 상기 단계는,
상기 회의장에 관한 수신 데이터를 획득하는 단계 - 상기 수신 데이터는 재생되는 오디오를 상기 회의장 내의 미리 설정된 위치에서 녹음하여 얻어지는 것임 - ; 및
상기 재생되는 오디오와 상기 수신 데이터에 기반하여, 상기 공간 음장의 상기 초기 음향 특성을 획득하는 단계를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제2항에 있어서,
상기 공간 음장의 상기 초기 음향 특성을 획득하는 상기 단계는,
상기 재생되는 오디오와 상기 수신 데이터에 대해 상관성 모델링을 수행하여, 디콘볼루션 조작을 통해 상기 초기 음향 특성을 추출하는 단계를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제2항 또는 제3항에 있어서,
상기 수신 데이터는, 상기 회의장 내의 적어도 하나의 공간 방향과 관련되는 것, 상기 회의장의 중심으로부터의 거리와 관련되는 것 중 적어도 하나를 만족하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 수신 데이터는, 사람의 귀로 수신하는 것을 시뮬레이션하는 방식을 통하여, 재생되는 오디오를 녹음하여 얻어지는 것인, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 적어도 하나의 조정 파라미터는, 잔향 시간, 에코 볼륨, 균형도, 전파 감쇠 중 적어도 하나를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 조정된 음향 특성은 적어도 하나의 필터 계수를 포함하고, 또한, 상기 조정된 음향 특성을 상기 오디오 데이터에 적용하여, 음향 효과가 복원된 오디오 데이터를 획득하는 상기 단계는,
상기 오디오 데이터 내의 음성(voice) 특성에 기반하여, 상기 적어도 하나의 필터 계수 중에서 하나 또는 복수의 필터 계수를 선택하여, 콘볼루션 조작을 통해 상기 음향 효과가 복원된 오디오 데이터를 획득하는 단계를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 방법.
회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치로서,
회의장에 대응하는 공간 음장의 초기 음향 특성을 획득하도록 구성된 획득 모듈;
적어도 하나의 조정 파라미터에 기반하여 상기 초기 음향 특성을 조정하여 조정된 음향 특성을 획득하도록 구성된 조정 모듈; 및
상기 조정된 음향 특성을 오디오 데이터에 적용하여, 음향 효과가 복원된 오디오 데이터를 획득하도록 구성된 복원 모듈을 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제8항에 있어서,
상기 획득 모듈은,
상기 회의장에 관한 오디오 데이터를 획득하도록 구성된 제1 조작 모듈 - 상기 수신 데이터는 재생되는 오디오를 상기 회의장 내의 미리 설정된 위치에서 녹음하여 얻어지는 것임 - ; 및
상기 재생되는 오디오와 수신 데이터에 기반하여, 상기 공간 음장의 상기 초기 음향 특성을 획득하도록 구성된 제2 조작 모듈을 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제9항에 있어서,
상기 제2 조작 모듈은,
상기 재생되는 오디오와 상기 수신 데이터에 대해 상관성 모델링을 수행하여, 디콘볼루션 조작을 통해 상기 초기 음향 특성을 추출하도록 구성된 추출 모듈을 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제9항 또는 제10항에 있어서,
상기 수신 데이터는, 상기 회의장 내의 적어도 하나의 공간 방향과 관련되는 것, 상기 회의장의 중심으로부터의 거리와 관련되는 것 중 적어도 하나를 만족하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제9항 내지 제11항 중 어느 한 항에 있어서,
상기 수신 데이터는, 사람의 귀로 수신하는 것을 시뮬레이션하는 방식을 통하여, 재생되는 오디오를 녹음하여 얻어지는 것인, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제8항 내지 제12항 중 어느 한 항에 있어서,
상기 적어도 하나의 조정 파라미터는, 잔향 시간, 에코 볼륨, 균형도, 전파 감쇠 중 적어도 하나를 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
제8항 내지 제13항 중 어느 한 항에 있어서,
상기 조정된 음향 특성은 적어도 하나의 필터 계수를 포함하고, 상기 복원 모듈은,
상기 오디오 데이터 내의 음성(voice) 특성에 기반하여, 상기 적어도 하나의 필터 계수로부터 하나 또는 복수의 필터 계수를 선택하여 콘볼루션 조작을 통해 상기 음향 효과가 복원된 오디오 데이터를 획득하도록 구성된 제3 조작 모듈을 포함하는, 회의장 음향 효과를 복원하기 위한 오디오 데이터 처리 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 의한 방법을 실행하도록 하는, 전자 기기.
컴퓨터의 명령어를 저장한 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터의 명령어는 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 의한 방법을 수행하도록 하는, 컴퓨터의 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 명령어를 포함하되, 상기 명령어는 적어도 하나의 프로세서에 의해 실행될 경우에 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하도록 하는, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.