KR20240099500A - 반주 생성 방법, 장치 및 저장 매체 - Google Patents

반주 생성 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR20240099500A
KR20240099500A KR1020247019855A KR20247019855A KR20240099500A KR 20240099500 A KR20240099500 A KR 20240099500A KR 1020247019855 A KR1020247019855 A KR 1020247019855A KR 20247019855 A KR20247019855 A KR 20247019855A KR 20240099500 A KR20240099500 A KR 20240099500A
Authority
KR
South Korea
Prior art keywords
dry sound
virtual
accompaniment
dry
choral
Prior art date
Application number
KR1020247019855A
Other languages
English (en)
Inventor
차오펭 장
지치앙 웽
지주안 코우
Original Assignee
텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드 filed Critical 텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드
Publication of KR20240099500A publication Critical patent/KR20240099500A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/341Rhythm pattern selection, synthesis or composition

Abstract

본 출원의 실시예는 반주 생성 방법, 장치 및 저장 매체를 공개한다. 반주 생성 방법은, 드라이 사운드 신호 세트를 획득하는 것 - 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함함 - 과, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 것 - x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용됨 - 과, 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하는 것과, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 획득하는 것을 포함한다. 본 출원을 채용하면, 반주의 스테레오 서라운드 효과를 구현할 수 있다.

Description

반주 생성 방법, 장치 및 저장 매체
본 출원은 컴퓨터 응용 기술 분야에 관한 것으로, 특히 반주 생성 방법, 장치 및 저장 매체에 관한 것이다.
가상 현실(virtual reality) 기술의 발전에 따라, 가상 3차원(three-dimensional, 3D) 오디오 기술은 점차 최적화되고 있다. 가상 3D 오디오 기술은 입체적인 동적 효과를 낼 수 있다. 가상 3D 오디오 기술을 노래 소프트웨어에 적용하면 사용자에게 몰입감 있는 체험을 제공할 수 있다. 현재, 가상 3D 오디오 기술이 다중 합창 장면에 적용될 때, 기존 기술 해결방안은 다중 사람의 소리를 직접 가중하여 중첩하는 것이지만, 이런 처리 방법은 음향 효과와 청감이 입체적이지 못하여 사용자 체험이 좋지 않다.
본 출원의 실시예는 반주 생성 방법, 장치 및 저장 매체를 제공하며, 오디오 입체 서라운드 효과를 전방위적으로 실현하여 사용자 체험을 향상시킬 수 있다.
한 양태에서, 본 출원의 실시예는 반주 생성 방법을 제공한다. 반주 생성 방법은,
드라이 사운드 신호 세트를 획득하는 것 - 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함하고, x는 1보다 큰 정수임 - 과,
N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 것 - x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N은 1보다 큰 정수이며, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용됨 - 과,
가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하는 것 - 가상 사운드 신호 세트는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 포함함 - 과,
사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 상기 목표 노래의 반주를 획득하는 것을 포함한다.
한 양태에서, 본 출원의 실시예는 반주 재생 처리 방법을 제공한다. 반주 재생 처리 방법은,
사용자 인터페이스를 표시하는 것 - 사용자 인터페이스는 목표 노래에 대한 선택 명령을 수신하는 데에 사용됨 - 과,
사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득하는 것과,
목표 노래에 대응하는 반주를 재생하는 것을 포함하고,
반주는 합창 드라이 사운드와 배경 음악에 따라 생성되고, 합창 드라이 사운드는 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호에 따라 생성되며, 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응되고, 드라이 사운드 신호 세트는 여러 사용자가 목표 노래에 대해 입력한 드라이 사운드 신호에 따라 획득된다.
다른 양태에서, 본 출원의 실시예는 반주 생성 장치를 제공한다. 반주 생성 장치는 획득 유닛과 처리 유닛을 포함한다.
획득 유닛은 드라이 사운드 신호 세트를 획득하는 데에 사용된다. 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함하고, x는 1보다 큰 정수이다. 획득 유닛은 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 데에 사용된다. x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N은 1보다 큰 정수이다. N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용된다.
처리 유닛은 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하는 데에 사용된다. 가상 사운드 신호 세트는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 포함한다. 처리 유닛은 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 획득하는 데에 사용된다.
다른 양태에서, 본 출원의 실시예는 반주 재생 처리 장치를 제공한다. 반주 재생 처리 장치는 획득 유닛과 처리 유닛을 포함한다.
획득 유닛은 사용자 인터페이스를 표시하는 데에 사용된다. 사용자 인터페이스는 목표 노래에 대한 선택 명령을 수신하는 데에 사용된다. 획득 유닛은 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득하는 데에 사용된다.
처리 유닛은 목표 노래에 대응하는 반주를 재생하는 데에 사용된다. 반주는 합창 드라이 사운드와 배경 음악에 따라 생성되고, 합창 드라이 사운드는 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호에 따라 생성되며, 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응되고, 드라이 사운드 신호 세트는 여러 사용자가 목표 노래에 대해 입력한 드라이 사운드 신호에 따라 획득된다.
대응하게, 본 출원의 실시예는 전자 장치를 제공한다. 전자 장치는 메모리, 프로세서 및 네트워크 인터페이스를 포함한다. 프로세서는 메모리 및 네트워크 인터페이스와 연결되고, 네트워크 인터페이스는 네트워크 통신 기능을 제공하는 데에 사용되며, 메모리는 프로그램 코드를 저장하는 데에 사용되고, 프로세서는 프로크램 코드를 호출하여 본 출원의 실시예의 방법을 수행하는 데에 사용된다.
대응하게, 본 출원의 실시예는 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 판독 가능 저장 매체에 컴퓨터 프로그램이 저장되어 있고, 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 본 출원의 실시예의 방법을 실현한다.
대응하게, 본 출원의 실시예는 컴퓨터 프로그램 제품 또는 컴퓨터 프로그램을 제공한다. 컴퓨터 프로그램 제품 또는 컴퓨터 프로그램은 컴퓨터 명령을 포함한다. 컴퓨터 명령은 컴퓨터 판독 가능 저장 매체에 저장되어 있다. 컴퓨터 장치의 프로세서가 컴퓨터 판독 가능 저장 매체에서 컴퓨터 명령을 호출하여 실행할 때, 컴퓨터 장치가 본 출원의 실시예의 방법을 실행하도록 한다.
본 출원의 실시예를 통해, 한편으로 드라이 사운드 신호 세트 중 목표 노래에 대응하는 각 드라이 사운드 신호의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응하는 가상 사운드 신호를 획득할 수 잇고, 그 다음에 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 병합하여 합창 드라이 사운드를 얻으며, 마지막으로 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 얻는다. 다른 한편으로, 사용자가 목표 노래에 대한 선택 명령을 수신할 수 있고,목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 선택 명령을 수신하였을 때, 목표 노래에 대응하는 반주를 획득하고 재생할 수 있다. 이런 방식을 통해, 드라이 사운드 신호의 가상 3차원 공간에서의 음향 영상 위치를 전면적으로 시뮬레이션할 수 있어 오디오 스테레오 서라운드 효과를 실현하고, 사용자가 대응하는 반주를 획득할 때, 청감에 있어서 몰입감을 느끼게 하고, 몰입감 있는 체험을 얻도록 한다.
본 출원의 실시예 또는 종래 기술에 따른 기술적 해결방안을 보다 명확하게 설명하기 위하여, 아래에서 실시예 또는 종래 기술을 설명하는데 필요한 첨부 도면에 대하여 간단하게 소개한다. 이하, 예시된 첨부 도면은 단지 본 출원의 일부 실시예일 뿐이고, 당업자는 이러한 도면을 기반으로 창조적인 노력 없이도 다른 도면을 획득할 수 있다는 점이 자명하다.
도 1은 본 출원의 실시예에 따른 반주 생성 방법의 응용 장면 개략도이다.
도 2는 본 출원의 실시예에 따른 반주 생성 방법의 흐름도이다.
도 3a은 본 출원의 실시예에 따른 반주 생성 방법에 있어서, 수평면, 윗쪽 평면 및 아랫쪽 평면의 개략도이다.
도 3b는 본 출원의 실시예에 따른 반주 생성 방법에 있어서, 가상 3D 공간 음향 영상 위치(acoustic image position)의 개략도이다.
도 3c는 본 출원의 실시예에 따른 반주 생성 방법에 있어서, 각 평면을 미리 설정된 각도의 간격으로 분할하는 개략도이다.
도 4는 본 출원의 실시예에 따른 다른 반주 생성 방법의 흐름도이다.
도 5는 본 출원의 실시예에 따른 반주 생성 방법에 있어서, 드라이 사운드 신호 세트 중 드라이 사운드 신호에 대응하는 듀얼 채널 신호를 획득하는 흐름도이다.
도 6은 본 출원의 실시예에 따른 반주 재생 처리 방법의 흐름도이다.
도 7a는 본 출원의 실시예에 따른 반주 재생 처리 방법에 있어서, 목표 노래에 대응하는 반주를 얻는 흐름도이다.
도 7b는 본 출원의 실시예에 따른 반주 재생 처리 방법에 있어서, 제1 단문(first single-sentence) 인터페이스를 표시하는 개략도이다.
도 7c는 본 출원의 실시예에 따른 반주 재생 처리 방법에 있어서, 제2 단문 인터페이스를 표시하는 개략도이다.
도 8a는 본 출원의 실시예에 따른 반주 생성 장치의 구조를 나타내는 개략도이다.
도 8b는 본 출원의 실시예에 따른 반주 재생 처리 장치의 구조를 나타내는 개략도이다.
도 9는 본 출원의 실시예에 따른 전자 장치의 구조를 나타내는 개략도이다.
이하, 본 출원의 실시예의 도면을 참조하면서 본 출원의 실시예의 기술적 해결방안을 명확하고 완전하게 설명한다. 설명되는 실시예는 단지 본 발명의 일부 실시예일 뿐이며, 모든 실시예가 아니다는 점이 자명하다. 본 출원의 실시예를 기반으로 당업자가 창조적인 노력 없이 획득된 모든 다른 실시예는 모두 본 출원의 보호 범위에 속한다.
본 출원의 실시예를 진일보로 상세히 설명하기 전에, 본 출원의 실시예에서 언급된 명사와 용어를 설명한다. 본 출원의 실시예에서 언급된 명사와 용어는 다음과 같은 해석이 적용된다.
1) 드라이 사운드 신호: 본 출원의 실시예에서 드라이 사운드 신호는 반주 음악이 없는 순수한 인성 신호를 가리킨다. 드라이 사운드 신호는 단인 채널 사운드 신호이며, 즉, 드라이 사운드 신호는 방향 정보를 포함하지 않는다.
2) 듀얼 채널 신호: 듀얼 채널은 2개의 사운드 채널이 있음을 가리킨다. 그 원리는 사람들이 소리를 들을 때, 왼쪽 귀와 오른쪽 귀의 사운드 위상차에 따라 음원의 특정 위치를 판단할 수 있다. 본 출원의 실시예에서, 듀얼 채널 신호는 왼쪽 채널 사운드 신호와 오른쪽 채널 사운드 신호를 가리킨다.
3) 헤드 관련 전달 함수(Head Related Transfer Functions, HRTF): HRTF는 두 귀 전달 함수라고도 할 수 있으며, 음파가 음원에서 두 귀로 전송되는 과정을 묘사한다. HRTF는 필터 그룹이며, 시간 도메인 컨벌루션(time domain convolution)이 주파수 도메인 컨벌루션(frequency domain convolution)과 동일하다는 원리를 사용하여 음원 위치 정보에 대응하는 HRTF 데이터에 따라 두 귀로 전송되는 가상 사운드 신호를 계산할 수 있다.
본 출원의 실시예는 반주 생성 방법, 장치 및 저장 매체를 제공한다. 본 출원의 실시예를 통해 동일한 목표 노래에 대응하는 복수개의 드라이 사운드 신호로 구성된 드라이 사운드 신호 세트를 획득할 수 있고, 또한 드라이 사운드 신호 세트에 포함된 각 드라이 사운드 신호의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응하는 가상 사운드 신호를 획득하며, 그 다음에 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 병합하여 합창 드라이 사운드를 얻으며, 마지막으로 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 얻는다. 이런 방식을 통해, 한편으로 드라이 사운드 신호 세트에 포함된 각 드라이 사운드 신호의 가상 3차원 공간에서의 음향 영상 위치를 전방위로 시뮬레이션할 수 있으며, 따라서 각 드라이 사운드 신호의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응하는 가상 사운드 신호가 병합 처리된 합창 드라이 사운드 신호를 획득할 수 있어 오디오 스테레오 서라운드 효과를 실현할 수 있다. 다른 한편으로, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 배경 음악을 사운드 효과 합성하여 반주를 획득하고, 이것으로 오디오 효과 몰입감을 증강한다. 총적으로 보면, 각 드라이 사운드 신호를 직접 중첩하는 처리 방식에 비해, 본 출원은 더욱 풍부한 오디오 처리 효과를 획득할 수 있으며, 사용자 체험을 향상시킬 수 있다.
도 1을 참조하면, 도 1은 본 출원의 실시예에 따른 반주 생성 방법의 응용 장면 개략도이다. 도 1에 도시된 바와 같이, 응용 장면은 스마트 디바이스(100)를 포함할 수 있다. 스마트 디바이스(100)는 유선 또는 무선 방식으로 서버(110)와 통신하고, 서버(110)는 데이터베이스(120)에 연결된다.
본 출원의 실시예에서 제공하는 반주 생성 방법은 스마트 디바이스(100)와 같은 전자 기기를 통해 실현될 수 있다. 예를 들면, 스마트 디바이스(100)가 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 선택 명령을 수신하였을 때, 목표 노래에 대응하는 드라이 사운드 신호 세트를 획득할 수 있으며, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성한다. 예를 들면, 생성된 가상 사운드 신호는 듀얼 채널 신호일 수 있다. 그 다음에 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하며, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 반주를 획득한다. 예를 들면, 도 1의 스마트 디바이스(100)에는 ‘합창 반주’ 옵션이 표시되어 있으며, 사용자는 음성으로 제어하여 합창 반주 모드의 선택 명령을 생성하거나, 사용자 인터페이스에 표시되는 선택 컨트롤을 트리거하여 합창 반주 모드의 선택 명령을 생성할 수도 있다. 드라이 사운드 신호 세트는 스마트 디바이스(100)가 로컬에 미리 저장할 수 있거나, 스마트 디바이스(100)가 서버(110) 또는 데이터베이스(120)에서 획득할 수 있다.
본 출원의 실시예에서 제공하는 반주 생성 방법은 서버(110) 등 전자 기기를 통해 실현될 수 있다. 예를 들면, 서버(110)가 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 선택 명령을 수신하였을 때, 목표 노래에 대응하는 드라이 사운드 신호 세트를 획득할 수 있으며, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성한다. 생성된 가상 사운드 신호는 예를 들어 듀얼 채널 신호일 수 있다. 그 다음에 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하며, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 반주를 획득한다. 드라이 사운드 신호 세트는 서버(110)가 로컬에 미리 저장할 수 있거나, 서버(110)가 데이터베이스(120)에서 획득할 수도 있으며, 나중에 획득한 반주는 필요할 때 호출될 수 있도록 로컬에 저장되거나 데이터베이스(120)에 저장될 수 있다. 물론, 서버(110)는 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 선택 명령을 수신하였을 때 반주를 생성하기 시작하지 않을 수도 있다. 서버(110)는 적당한 시간, 예를 들면, 서버(110)의 로드가 낮을 때, 또는 서버(110)가 목표 노래의 새로운 드라이 사운드 신호를 수신하였을 때, 또는 서버(110)가 반주 생성에 관련된 관리 작업을 수신하였을 때에 본 출원의 반주 생성 방법의 관련 작업을 수행하여 반주를 생성할 수 있다. 바람직하게는, 합창 버전의 반주는 미리 생성되어 서버에 저장될 수 있으며, 대량의 노래 반주를 생성한 후에, 사용자는 스마트 디바이스(100)를 통해 사용자 인터페이스에서 ‘합창 반주’를 선택하는 등 방식으로 목표 노래에 대한 선택 명령을 송신할 수 있다. 이렇게 서버(110)는 선택 명령에 응답하여 생성된 대량의 반주에서 목표 노래의 합창 반주를 찾아 스마트 디바이스(100)로 합창 반주를 보낼 수 있다.
본 출원의 실시예에서 제공하는 반주 생성 방법은 스마트 디바이스(100)와 같은 전자 기기와 서버(110)와 같은 전자 기기가 협동하여 실현할 수 있다. 예를 들면, 서버(110)는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성할 수 있고, 생성된 가상 사운드 신호는 예를 들어 듀얼 채널 신호일 수 있다. 그 다음에 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하며, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 반주를 획득한다. 획득한 반주는 스마트 디바이스(100)로 발송된다.
본 출원의 실시예에서 제공하는 반주 생성 방법은 스마트 디바이스(100)와 같은 전자 기기와 서버(110)와 같은 전자 기기가 컴퓨터 프로그램을 실행하여 실현될 수도 있다. 예를 들면, 컴퓨터 프로그램은 운영 체제의 네이티브 프로그램(native program) 또는 소프트웨어 모듈일 수 있고, 로컬 응용 프로그램(application, APP)일 수 있고, 미니 프로그램일 수도 있다. 결론적으로, 컴퓨터 프로그램은 임의의 형태의 응용 프로그램, 모듈 또는 플러그인일 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
본 출원의 실시예에 따른 스마트 디바이스는 개인용 컴퓨터, 노트북, 스마트폰, 태블릿 컴퓨터, 스마트 워치, 스마트 음성 대화 디바이스, 스마트 가전 제품, 차량용 단말기 및 스마트 웨어러블 디바이스 등일 수 있으나, 이에 한정되지 않는다. 서버는 독립된 물리적 서버이거나, 여러 물리적 서버로 구성된 서버 클러스터 또는 분산 시스템일 수 있으며, 또한 클라우드 서비스, 클라우드 데이터베이스, 클라우드 컴퓨팅, 클라우드 함수, 클라우드 스토리지, 네트워크 서비스, 클라우드 통신, 미들웨어 서비스, 도메인 네임 서비스, 보안 서비스, 콘텐츠 전송 네트워크 (Content Delivery Network,CDN), 빅 데이터 및 인공 지능 플랫폼 등 기본적인 클라우드 컴퓨팅 서비스를 제공하는 클라우드 서버일 수도 있다. 스마트 기기와 서버는 유선 또는 무선 통신 방식으로 직간접적으로 연결될 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
도 1에 표시된 드라이 사운드 신호와 가상 3차원 공간 음향 영상 위치의 개수는 단지 예시적일뿐이며, 실현 요구에 따라 사운드 신호 세트에 임의의 개수의 사운드 신호가 포함될 수 있고, 가상 3차원 공간에도 임의의 개수의 가상 3차원 음향 영상 위치가 존재할 수 있다.
진일보로 도 2를 참조하면, 도 2는 본 출원의 실시예에 따른 반주 생성 방법의 흐름도이다. 본 출원의 실시예의 상기 방법은 스마트폰, 태블릿 컴퓨터, 스마트 웨어러블 디바이스, 개인용 컴퓨터 등 스마트 디바이스 또는 서버 등에 적용될 수 있다. 상기 방법에는 다음 단계가 포함될 수 있지만, 이에 국한되지는 않는다.
S201, 드라이 사운드 신호 세트를 획득한다.
본 출원의 실시예에서, 전자 장치는 여러개의 사운드 신호를 포함하는 드라이 사운드 신호 세트를 획득할 수 있다.
하나의 실시예에서, 드라이 사운드 신호 세트는 오디오 데이터베이스에서 획득할 수 있다. 오디오 데이터베이스에는 여러 사용자가 같은 노래를 부를 때 입력된 초기 드라이 사운드 신호가 포함된다. 설명해야만 하는 것은, 오디오 데이터베이스에 있어서의 초기 드라이 사운드 신호는 사용자의 승인 동의 하에 입력된 것이다. 전자 장치는 초기 드라이 사운드 신호의 사운드 매개 변수에 따라 조건을 만족하는 드라이 사운드 신호를 선별하여 드라이 사운드 신호 세트를 구성할 수 있다.
하나의 실시예에서, 전자 장치는 억양 특징 매개변수(intonation characteristic parameter)와 음질 특징 매개변수(timbre characteristic parameter)에 따라 초기 드라이 사운드 신호 세트에서 조건을 만족하는 드라이 사운드 신호를 선별할 수 있다. 억양 특징 매개변수에는 음조 매개변수(pitch parameter), 리듬 매개변수(rhythm parameter) 및 율동 매개변수(prosodic parameter) 중 하나 이상이 포함될 수 있다. 억양 특징 매개변수에 따라 선별된 조건을 만족하는 드라이 사운드 신호는 노래 음조, 리듬 및 반주 선율의 일치성이 높은 특징이 있다. 음질 특징 매개변수에는 노이즈 매개변수, 에너지 매개변수 또는 속도 매개변수 중 하나 이상이 포함될 수 있다. 음질 특징 매개변수에 따라 선별된 조건을 만족하는 드라이 사운드 신호는 오디오가 선명하고, 오디오 에너지가 적당하며, 오디오 속도가 균일한 등 특징을 가지고 있다. 본 출원의 실시예는 조건을 만족하는 드라이 사운드 신호의 선별 순서를 한정하지 않는다. 예를 들면, 전자 장치는 먼저 억양 특징 매개변수에 따라 조건을 만족하는 드라이 사운드 신호를 선별한 다음에, 미리 설정된 억양 특징 매개변수 조건을 만족하는 드라이 사운드 신호에서 미리 설정된 음질 특징 매개변수 조건을 만족하는 드라이 사운드 신호를 선별할 수 있거나, 먼저 음질 특징 매개변수에 따라 조건을 만족하는 드라이 사운드 신호를 선별한 다음에, 미리 설정된 음질 특징 매개변수 조건을 만족하는 드라이 사운드 신호에서 미리 설정된 오디오 특징 매개변수 조건을 만족하는 드라이 사운드 신호를 선별할 수 있다. 이런 방식으로 초기 드라이 사운드 신호 세트에서 선별하여 획득된 드라이 사운드 신호로 구성된 드라이 사운드 신호 세트의 억양과 음질은 매우 좋다.
S202, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성한다.
본 출원의 실시예에서, 전자 장치는 드라이 사운드 신호 세트 중 각 드라이 사운드 신호의 가상 3차원 공간에서의 서로 다른 음향 영상 위치를 시뮬레이션하고, 그 다음에 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성할 수 있으며, 예를 들면, 생성된 가상 사운드 신호는 듀얼 채널 신호일 수 있다. N개의 가상 3차원 공간 음향 영상 위치는 서로 다르며, 각 가상 3차원 공간 음향 영상 위치는 하나 이상의 드라이 사운드 신호에 대응할 수 있다.
하나의 실시예에서, N개의 가상 3차원 공간 음향 영상 위치는 다음과 같이 가상 3차원 공간에서 시뮬레이션하여 획득할 수 있다. 도 3a에 도시된 바와 같이, 가상 3차원 공간에서 x, y, z축의 정방향은 각각 머리의 앞쪽, 왼쪽 및 윗쪽에 대응된다. 가상 3차원 공간은 수평면(301), 윗쪽 평면(302), 아랫쪽 평면(303)으로 구분되며, 윗쪽 평면(302)과 수평면(301) 사이의 협각은 제1 각도 임계값이고, 아랫쪽 평면(303)과 수평면(301) 사이의 협각은 제2 각도 임계값이다. 도 3b에 도시된 바와 같이, 가상 3차원 공간의 각 가상 3차원 공간 음향 영상 위치는 방위각(azimuth angle)과 앙각(elevation angle)을 포함한다. 만약 θ로 가상 3차원 공간 음향 영상 위치의 방위각을 나타내고, Φ으로 가상 3차원 공간 음향 영상 위치의 앙각을 나타내면, 각 가상 3차원 공간 음향 영상 위치는 (θ, Φ)로 나타낼 수 있다. 따라서 수평면(301)은 0°인 앙각에 대응하는 평면이고, 윗쪽 평면은 제1 각도 임계값인 앙각에 대응하는 평면이고, 제1 각도 임계값은 수평면 이상의 임의의 각도 값일 수 있으며, 아랫쪽 평면(303)은 제2 각도 임계값의 앙각에 대응하는 평면이고, 제2 각도 임계값은 수평면 이하의 임의의 각도 값일 수 있다. 예를 들면, 윗쪽 평면은 40°인 앙각에 대응하는 평면일 수 있고, 아랫쪽 평면은 -40°인 앙각에 대응하는 평면일 수 있다. 그 중에서, 방위각 θ는 가상 3차원 공간 음향 영상 위치의 평면에서 시계 방향에 따른 목표 방향선까지의 협각을 나타내는 데에 사용될 수 있다. 진일보로, 도 3c에 도시된 바와 같이, 서로 다른 앙각에 대응하는 평면을 각자에 대응하는 미리 설정된 각도를 간격으로 구분한 다음에 여러개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있다. 구체적으로, 제1 미리 설정된 각도를 간격으로 수평면을 구분하여 수평면에서 n1개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있고, 제2 미리 설정된 각도를 간격으로 윗쪽 평면을 구분하여 윗쪽 평면에서 n2개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있으며, 제3 미리 설정된 각도를 간격으로 아랬쪽 평면을 구분하여 아랫쪽 평면에서 n3개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있다. 예를 들면, 제1 미리 설정된 각도가 10°이고, 제2 미리 설정된 각도와 제3 미리 설정된 각도가 모두 15°이라고 가정하면, 10° 간격으로 수평면을 구분하여 36개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있고, 15° 간격으로 윗쪽 평면을 구분하여 24개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있으며, 15° 간격으로 아랫쪽 평면을 구분하여 24개의 가상 3차원 공간 음향 영상 위치를 획득할 수 있고, 이런 방식으로 합계 84개의 서로 다른 가상 3차원 공간 음향 영상 위치를 획득할 수 있다. 설명해야만 하는 것은, 본 출원의 실시예에서의 제1 미리 설정된 각도, 제2 미리 설정된 각도와 제3 미리 설정된 각도는 미리 설정된 임의의 각도값일 수 있고, 상술한 3개의 미리 설정된 각도의 구체적인 수치는 예로 사용될뿐이며, 본 출원의 실시예에 대한 제한을 구성하지 않는다. 이런 방식을 통해, 가상 3차원 공간의 3개의 서로 다른 평면 내에서 서로 다른 방위각을 간격으로 하여 여러개의 가상 3차원 공간 공간 음향 영상 위치를 가상하여 음원에 대한 전방위적인 몰입식 시뮬레이션을 실현할 수 있다.
하나의 실시예에서, 각 가상 3차원 공간 음향 영상 위치는 하나의 드라이 사운드 신호에 대응할 수 있고, 여러개의 드라이 사운드 신호에 대응할 수도 있다. 전자 장치는 각 가상 3D 공간 음향 영상 위치에서의 하나 이상의 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있다. 구체적으로, 전자 장치는 아래 방법으로 가상 3차원 공간에서의 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있다. 드라이 사운드 신호에 대응하는 가상 3차원 공간 음향 영상 위치의 방위각과 앙각을 획득하고, 가상 3차원 공간 음향 영상 위치의 방위각과 앙각을 기반으로 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수(HRTF)를 결정하고, 가상 3차원 공간 음향 영상 위치의 방위각과 앙각 및 대응하는 HRTF 데이터를 기반으로 가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호에 대응하는 가상 사운드 신호를 계산할 수 있다. 예를 들면, 드라이 사운드 신호 X에 대응하는 가상 3차원 공간 음향 영상 위치의 방위각과 앙각은 (θ, Φ)이고, 가상 3차원 공간 음향 영상 위치에 대응하는 HRTF 데이터 표현식은 다음과 같다.
Figure pct00001
가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호 X에 대응하는 가상 사운드 신호는 듀얼 채널 신호 YL 와 YR를 계산하고, YL 왼쪽 채널 신호이고, YR는 오른쪽 채널 신호이다.
하나의 실시예에서, 전자 장치는 드라이 사운드 신호 세트에서 일부분의 드라이 사운드 신호를 획득할 수 있다. 예를 들면, 전자 장치는 더 나은 억양과 음질을 가진 드라이 사운드 신호를 무작위로 획득하거나, 새로운 선별 규칙에 따라 선별할 수 있다. 선별된 상기 일부분의 드라이 사운드 신호에 대해 각각 지연 처리를 수행하여, 상기 일부분의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호를 획득한다. 구체적으로, 하나의 드라이 사운드 신호에 대해 지연 처리를 수행할 때, 여덟쌍의 서로 다른 시간 매개변수를 선택할 수 있다. 설명해야만 하는 것은, 여덟쌍의 시간 매개변수는 지연 왼쪽 채널 신호를 획득하는 데에 사용되는 8개의 시간 매개변수와 지연 오른쪽 채널 신호를 획득하는 데에 사용되는 8개의 시간 매개변수를 나타낸다. 총 16개의 시간 매개변수가 선택된다. 예를 들면, 일반적인 공간 임펄스 응답에서 80ms를 잔향시간으로 선택하는 것을 기반으로, 21ms~79ms 범위 내에서 16개의 서로 다른 매개변수를 선택하여 시간 매개변수로 할 수 있다. 또는 실제 수요에 따라, 기타 합리적인 범위 내에서 16개(또는 다른 수치)의 서로 다른 매개변수를 무작위로 선택하여 시간 매개변수로 할 수 있다. 이런 방식을 통해, 사람 머리의 왼쪽 귀나 오른쪽 귀에 있는 드라이 사운드 신호를 시뮬레이션하여 오디오 효과를 더욱 풍부하게 할 수 있다. 하나의 실시예에서, 선택 방식 및 지연 처리 조작을 수행할 때의 시간 매개변수(지연 기간 매개변수)의 설정에 관하여, 하나의 인터페이스를 통해 조정할 수 있으며, 합창 오디오를 제작하는 사용자가 유연하게 구성할 수 있도록 한다. 설명해야만 하는 것은, 상술한 가상 사운드 신호를 획득하는 단계, 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 획득하는 단계는 동시에 수행될 수 있고, 선후로 수행될 수도 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
S203, 가상 사운드 신호 세트 중의 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득한다.
본 출원의 실시예에서, 전자 장치는 가상 사운드 신호 세트 중의 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하할 수 있다.
하나의 실시예에서, 각 드라이 사운드 신호에 대응하는 가상 사운드 신호에 대해 병합 처리를 수행하는 것은 정규화 처리를 통해 실현될 수 있으며, 병합된 가상 사운드 신호의 라우드니스(loudness)를 [-1dB, 1dB]로 조정하는 목적을 달성할 수 있도록 한다. 병합 처리되는 각 가상 사운드 신호에는 획득된 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호에 대응하는 가상 사운드 신호와, 드라이 사운드 신호 세트 중 일부분의 드라이 사운드 신호에 대해 지연 처리를 수행하여 획득된 각 지연 듀얼 채널 신호 가 포함된다.
S203, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 반주를 획득한다.
본 출원의 실시예에서, 전자 장치는 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 최종 반주를 얻을수 있다. 예를 들면, 사운드 효과 최적화 규칙은 목표 노래의 배경 음악과 상술한 획득된 여러개의 드라이 사운드 신호에 대응하는 가상 사운드 신호의 사운드 매개변수를 조정하는 것이며, 사운드 매개변수는 음향과 음색과 같은 일반적으로 조정 가능한 가변 매개 변수일 수 있다.
하나의 실시예에서, 전자 장치는 합창 드라이 사운드를 획득한 후에 목표 노래의 배경 음악을 획득할 수 있다. 획득된 합창 드라이 사운드와 목표 노래의 배경 음악 사이의 에너지 관계가 에너지 비례 조건을 만족시키지 못할 경우, 전자 장치는 합창 드라이 사운드와 목표 노래의 배경 음악 사이의 에너지 관계를 조정할수 있다. 여기서, 에너지 비례 조건은 합창 드라이 사운드의 에너지 값과 목표 노래의 배경 음악의 에너지 값 사이의 비율이 하나의 비율 임계값보다 작게 설정하거나, 합창 드라이 사운드의 라우드니스가 목표 노래의 배경 음악의 라우드니스보다 3dB 낮게 설정할 수 있다. 이런 방식을 통해, 합창 드라이 사운드의 에너지가 목표 노래의 배경 음악의 에너지보다 큰 것을 피할 수 있어 나중에 더욱 조화로운 반주를 얻을 수 있도록 한다.
본 출원의 실시예를 통해, 각 드라이 사운드 신호의 가상 3차원 공간에서의 서로 다른 음향 영상 위치에 대응하는 가상 사운드 신호를 획득할 수 있고, 그 다음에 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하며, 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 얻는다. 이렇게 오디오 청각상의 스테레오 서라운드 효과를 실현하고 오디오 효과의 몰입감을 증강시켜 양호한 사용자 체험을 제공한다.
진일보로, 도 4를 참조하면, 도 4는 본 출원의 실시예에 따른 다른 반주 생성 방법의 흐름도이다. 본 출원의 실시예의 상기 방법은 스마트폰, 태블릿 컴퓨터, 스마트 웨어러블 디바이스, 개인용 컴퓨터, 서버 등 전자 장치에 적용될 수 있다. 상기 방법은 아래 단계를 포함할 수 있으나, 이에 국한되지는 않는다.
S401, 오디오 데이터베이스에서 초기 드라이 사운드 신호 세트를 획득한다.
본 출원의 실시예에서, 전자 장치는 오디오 데이터베이스에서 초기 드라이 사운드 신호 세트를 획득할 수 있다. 설명해야만 하는 것은, 오디오 데이터베이스에 있어서의 초기 드라이 사운드 신호 세트는 사용자의 승인 동의 하에 입력된 것이다.
하나의 실시예에서, 오디오 데이터베이스는 독립되게 설치된 데이터베이스이거나, 전자 장치와 통합될 수도 있으며, 즉, 오디오 데이터베이스는 전자 장치 내부에 저장되는 것으로 간주될 수 있다. 여기서, 초기 드라이 사운드 신호 세트는 오디오 데이터베이스에서 같은 노래를 부를 때 사용자의 승인 동의 하에 입력된 윈시 드라이 사운드 신호로 구성된 세트를 가리킨다.
S402, 각 초기 드라이 사운드 신호의 사운드 매개 변수에 따라 초기 드라이 사운드 신호 세트에서 드라이 사운드 신호를 선별하고, 선별된 드라이 사운드 신호는 드라이 사운드 신호 세트를 구성한다.
본 출원의 실시예에서, 전자 장치는 각각의 초기 드라이 사운드 신호의 사운드 매개변수에 따라 초기 드라이 사운드 신호 세트에서 조건을 만족하는 드라이 사운드 신호를 선별할 수 있으며, 초기 드라이 사운드 신호 세트를 축소하여 드라이 사운드 신호 세트를 구성한다.
하나의 실시예에서, 초기 드라이 사운드 신호의 사운드 매개변수는 초기 드라이 사운드 신호의 억양 특징 매개변수와 음질 특징 매개변수를 포함할 수 있다. 억양 특징 매개변수에는 음조 매개변수, 리듬 매개변수 및 율동 매개변수 중 하나 이상이 포함될 수 있다. 음질 특징 매개변수에는 노이즈 매개변수, 에너지 매개변수 또는 속도 매개변수 중 하나 이상이 포함될 수 있다. 이런 방식을 통해, 초기 드라이 사운드 신호 세트에서 청감이 시끄럽고, 음이탈이 나고, 오디오 시간이 너무 짧고, 오디오 에너지가 낮고, 터지는 소리와 같은 오디오 효과가 떨어지는 초기 드라이 사운드 신호를 제거하여 매우 좋은 억양과 음질을 가진 드라이 사운드 신호 세트를 획득할 수 있다.
S403, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수(HRTF)를 획득한다.
본 출원의 실시예에서, 전자 장치는 가상 3차원 공간에서 N개의 가상 3차원 공간 음향 영상 위치를 획득한 후에, N개의 가상 3차원 공간 음향 영상 위치에 따라 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 획득할 수 있다.
하나의 실시예에서, 가상 3차원 공간의 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수는 헤드 관련 전달 함수 데이터베이스에 미리 저장되어 전자 장치가 가상 3차원 공간 음향 영상 위치에 따라 헤드 관련 전달 함수 데이터베이스에서 대응하는 헤드 관련 전달 함수를 호출할 수 있도록 한다.
S404, 목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 통해 목표 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 처리하여 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 획득한다.
본 출원의 실시예에서, 전자 장치는 목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수에 따라 목표 드라이 사운드 신호를 처리함으로써, 목표 가상 3차원 공간 음향 영상 위치에 있는 목표 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있다. 목표 가상 3차원 공간 음향 영상 위치는 N개의 가상 3차원 공간 음향 영상 위치 중 임의의 하나의 가상 3차원 공간 음향 영상 위치일 수 있으며, 목표 드라이 사운드 신호는 드라이 사운드 신호 세트 중 임의의 하나의 드라이 사운드 신호일 수 있다.
하나의 실시예에서, 목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수는 가상 3차원 공간 음향 영상 위치에 대응하는 HRDF 데이터이다. 목표 가상 3차원 공간 음향 영상 위치의 방위각과 앙각에 따라 이미 알려진 HRDF 데이터에서 목표 가상 3차원 공간 음향 영상 위치에 대응하는 HRDF 데이터를 결정할 수 있다. 그 다음에 전자 장치는 목표 드라이 사운드 신호와 목표 가상 3차원 공간 음향 영상 위치에 대응하는 HRTF 데이터를 컨벌루션하여 목표 가상 3차원 공간 음향 영상 위치에 있는 목표 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있다.
S405, 드라이 사운드 신호 세트에 포함된 x개의 드라이 사운드 신호에서 p개의 드라이 사운드 신호를 획득한다.
본 출원의 실시예에서, 전자 장치는 드라이 사운드 신호 세트에 포함된 x개의 드라이 사운드 신호에서 p개의 드라이 사운드 신호를 무작위로 획득한다. 설명해야만 하는 것은, S404와 S405는 동시에 수행될 수 있거나 선후로 수행될 수도 있으며, 본 출원은 이에 대하여 한정하지 않는다.
S406, p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 획득한다.
본 출원의 실시예에서, 전자 장치는 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m1개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 획득할 수 있으며, 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호를 획득하며, m1은 양의 정수이다. p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m2개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 획득할 수 있으며, 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 오른쪽 채널 신호를 획득하며, m2는 양의 정수이다.
하나의 실시예에서, 전자 장치는 서로 다른 시간 매개변수를 가진 16개의 지연 장치를 통해 하나의 드라이 사운드 신호를 처리하여 서로 다른 지연과 감쇠 정도를 가진 16개의 드라이 사운드 신호를 획득할 수 있다. 그 다음에 서로 다른 지연과 감쇠 정도를 가진 16개의 드라이 사운드 신호를 두 그룹으로 균일하게 나눈다. 각 그룹의 서로 다른 지연과 감쇠 정도를 가진 드라이 사운드 신호를 중첩하여 나중에 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 획득한다.
하나의 실시예에서, p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호를 획득하기 전에, 저음역 강화(bass enhancement) 및 잔향 시뮬레이션 모듈(reverberation simulation module)을 추가하여 드라이 사운드 신호의 음장을 넓혀 지연 처리를 통해 획득된 듀얼 채널 신호 중 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호 간의 상관성을 줄일 수 있다. 설명해야만 하는 것은, S403 및 S404의 가상 사운드 신호를 획득하는 단계, S405 및 S406의 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 획득하는 단계는 동시에 수행될 수 있거나 선후로 수행될 수도 있으며, 본 출원은 이에 대해 한정하지 않느다. 여기서, S405와 S406은 선택 가능한 두 단계이다.
S407, 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득한다.
본 출원의 실시예에서, 전자 장치는 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득할 수 있다. 여기서, 가상 사운드 신호 세트에는 전자 장치가 N개의 가상 3차원 공간 위치를 시뮬레이션하여 획득한 각 드라이 사운드 신호에 대응하는 가상 사운드 신호와, 전자 장치가 드라이 사운드 신호 세트 중 p개의 드라이 사운드 신호에 대해 지연 처리를 수행하여 획득한 지연 듀얼 채널 신호가 포함된다.
하나의 실시예에서, 가상 사운드 신호 세트 중 각 가상 사운드 신호는 듀얼 채널 신호이다. 듀얼 채널 신호에는 왼쪽 채널 신호와 오른쪽 채널 신호가 포함된다. 각 가상 사운드 신호를 병합할 때, 왼쪽 채널 신호와 오른쪽 채널 신호를 별도로 처리할 수 있다. 왼쪽 채널 신호와 오른쪽 채널 신호는 동일한 처리 규칙에 적용된다. 여기서, 병합 처리를 수행하는 것은 정규화 처리를 통해 실현될 수 있으며, 병합 처리된 듀얼 채널 신호의 라우드니스는 [-1dB, 1dB]이다. 예를 들면, 1000개의 왼쪽 채널 신호와 1000개의 오른쪽 채널 신호를 포함하는 1000개의 듀얼 채널 신호가 있다고 가정하며, 각 왼쪽 채널 신호에 대해 별도로 정규화 처리를 수행하고, 1000개의 정규화 처리된 왼쪽 채널 신호의 합계를 1000으로 나누어 병합 처리된 왼쪽 채널 신호를 획득할 수 있다. 마찬가지로, 각 오른쪽 채널 신호에 대해 별도로 정규화 처리를 수행하고, 1000개의 정규화 처리된 오른쪽 채널 신호의 합계를 1000으로 나누어 병합 처리된 오른쪽 채널 신호를 획득할 수 있다. 이런 방식으로 합창 드라이 사운드를 획득할 수 있다.
하나의 실시예에서, 획득한 합창 드라이 사운드와 목표 노래의 배경 음악 사이의 에너지 관계는 에너지 비례 조건을 만족시킬 수 있고 에너지 비례 조건을 만족시키지 않을 수도 있다. 획득한 합창 드라이 사운드와 배경 음악 사이의 에너지 관계가 에너지 비례 조건을 만족시킬 경우, 단계 S408을 무시할 수 있다. 대응하게, 획득한 합창 드라이 사운드와 배경 음악 사이의 에너지 관계가 에너지 비례 조건을 만족시키지 못할 경우, 단계 S408을 수행한다.
S408, 목표 노래의 배경 음악을 획득하고, 합창 드라이 사운드와 배경 음악 사이의 에너지 관계를 조정한다.
본 출원의 실시예에서, 전자 장치는 목표 노래의 배경 음악을 획득하고, 합창 드라이 사운드와 대응하는 배경 음악 사이의 에너지 관계를 조정할 수 있으며, 조정된 합창 드라이 사운드와 조정된 배경 음악 사이의 에너지 관계는 에너지 비례 조건을 만족시킨다.
하나의 실시예에서, 합창 드라이 사운드의 에너지가 너무 커서 배경 음악의 에너지를 덮어씌울 수 있다. 합창 드라이 사운드와 배경 음악을 조정함으로써, 조정된 합창 드라이 사운드와 조정된 배경 음악 사이의 에너지 관계가 에너지 비례 조건을 만족할 수 있도록 한다. 이런 방식으로 합창 드라이 사운드의 에너지가 너무 큰 상황에 대처할 수 있다. 에너지 비례 조건은 합창 드라이 사운드의 에너지 값과 배경 음악의 에너지 값 사이의 비율이 하나의 비율 임계값보다 작게 설정하거나, 합창 드라이 사운드의 라우드니스가 목표 노래의 배경 음악의 라우드니스보다 3dB 낮게 설정할 수 있다.
하나의 실시예에서, 목표 노래의 배경 음악을 획득한 후에 단계S202에서 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 상세한 설명에 따라, 배경 음악을 똑같이 처리하여 비슷한 효과를 가진 합창 드라이 사운드와 배경 음악을 획득하여 더욱 조화롭고 통일된 청각 체험을 달성할 수 있다.
S409, 미리 설정된 주파수 대역에서 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행한다.
본 출원의 실시예에서, 전자 장치는 미리 설정된 주파수 대역에서 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행할 수 있다.
하나의 실시예에서, 전자 장치는 미리 설정된 주파수 대역에 스펙트럼 함몰 처리를 추가하여 스펙트럼 균형 목적을 달성할 수 있다. 예를 들면, 전자 장치는 4kHz 부근에 약 6dB의 스펙트럼 함몰 처리를 추가할 수 있다. 이런 방식을 통해, 합창 드라이 사운드의 청감이 더욱 자연스러워 스펙트럼의 부조화 로 인해 고주파 전류 소리가 발생하는 것을 방지한다.
S410, 배경 음악의 라우드니스를 획득한다.
본 출원의 실시예에서, 전자 장치는 배경 음악의 라우드니스을 획득할 수 있다.
S411, 라우드니스가 라우드니스 임계값보다 작으면, 조정된 배경 음악의 라우드니스를 라우드니스 임계값으로 향상시킨다.
본 출원의 실시예에서, 배경 음악의 라우드니스가 라우드니스 임계값보다 작으면, 전자 장치는 배경 음악의 라우드니스를 라우드니스 임계값으로 향상시킬 수 있다. 예를 들면, 라우드니스 임계값을 -14dB로 설정할 수 있고, 배경 음악의 라우드니스가 -14dB보다 작으면, 전자 장치는 배경 음악의 라우드니스를 -14dB로 향상시킬 수 있다.
S412, 반주를 획득한다.
본 출원의 실시예에서, 전자 장치는 합창 드라이 사운드와 배경 음악을 중첩하여 최종 반주를 획득할 수 있다. 설명해야만 하는 것은, 반주는 S408~S411 중 임의의 하나의 단계 또는 여러개의 단계의 조합에 따라 획득할 수 있다. 하나의 실시예에서, S408~S411은 실제 수요에 따라 선택적으로 수행할 수 있다. 예를 들면, 합창 드라이 사운드와 배경 음악 사이의 에너지 관계를 조정할 필요가 없는 상황이 있을 수 있으며, 이런 경우에 S408을 수행하지 않는다. 마찬가지로, 미리 설정된 주파수 대역에서 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행하는 것도 선택 가능하다. 또 예를 들면, S410 및 S411를 수행하지 않을 수도 있다. 도 4에서는 반주를 더욱 조화롭고 자연스럽고 하고, 음질을 더욱 좋게 하기 위한 기술적 방안만 제시되었다. S408에서 에너지 관계를 조정하고, S409에서 스펙트럼 균형을 조정하고, S410과 S411에서 라우드니스를 조정하며, 본 출원에서는 상기 세 방면의 선후 순서를 한정하지 않는다.
하나의 실시예에서, 최종 반주를 획득한 다음에, 획득된 최종 반주를 데이터베이스에 저장할 수 있으며, 따라서 전자 장치가 같은 노래에 대한 합창 요청을 받을 때 데이터베이스에서 대응하는 반주를 직접 획득할 수 있도록 한다.
본 출원의 실시예를 통해, N개의 가상 3차원 공간 위치를 시뮬레이션하여 각 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있고, 또한 각 드라이 사운드 신호에 대해 지연 처리를 수행하여 각 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호를 획득할 수 있으며, 따라서 합창 드라이 사운드를 풍부하게 할 수 있다. 또한, 합창 드라이 사운드와 배경 음악 사이의 에너지 관계를 조정하여 최종 반주 청감을 더욱 조화롭고 자연스럽게 함으로써, 사용자가 합창할 때의 공간감과 몰입감을 뚜렷하게 느낄 수 있도록 한다.
진일보로 도 5를 참조하면, 도 5는 본 출원의 실시예에 따른 반주 생성 방법에 있어서, 가상 사운드 신호를 획득하는 흐름도이다. 가상 사운드 신호를 획득하는 것은, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득하는 것과, p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호를 획득하는 것을 포함한다.
본 출원의 실시예에서, 드라이 사운드 신호 세트를 획득한 다음에, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있으며, 드라이 사운드 신호 세트 중 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호를 획득할 수도 있다.
예를 들면, 도 5에 도시된 바와 같이, 드라이 사운드 신호 세트에 포함된 드라이 사운드 신호 X와 드라이 사운드 신호 W에 대해 각각 상술한 두가지 방식으로 대응하는 가상 사운드 신호를 획득한다. 드라이 사운드 신호 X와 드라이 사운드 신호 W는 드라이 사운드 신호 세트 중 임의의 드라이 사운드 신호일 수 있다. 구체적으로, 전자 장치는 드라이 사운드 신호 세트 중 드라이 사운드 신호 X를 획득한 다음에, 가상 3차원 공간 음향 영상 위치의 방위각과 앙각에 따라 가상 3차원 공간 음향 영상 위치의 위치 정보, 즉 (θ, Φ)를 설명할 수 있다. 그 다음에 가상 3차원 공간 음향 영상 위치의 위치 정보 (θ, Φ)에 따라 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수 HRTF(θ, Φ)를 확정할 수 있고, 드라이 사운드 신호 X와 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수 HRTF(θ, Φ)에 대해 권적 연산(convolved)을 수행하여 가상 3차원 공간 음향 영상 위치의 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득할 수 있으며, 가상 사운드 신호는 왼쪽 채널 신호 YL와 오른쪽 채널 신호 YR을 포함하는 듀얼 채널 신호이다. 이런 방식을 통해 획득된 드라이 사운드 신호에 대응하는 가상 사운드 신호는 사용자의 입체적 몰입감을 증강할 수 있다.
또한, 전자 장치는 드라이 사운드 신호 세트 중 드라이 사운드 신호(W)를 획득한 후에 드라이 사운드 신호(W)에 대해 지연 처리를 수행할 수 있다. 예를 들면, 전자 장치는 와 같은 서로 다른 시간 매개변수를 가진 합계 16개의 지연 장치를 통해 드라이 사운드 신호(W)에 대해 지연 처리를 수행할 수 있다. 그 다음에 와 같은 8개의 지연 장치를 통해 지연 처리를 수행하여 획득된 8개의 드라이 사운드 신호를 중첩하여 드라이 사운드 신호(W)에 대응하는 지연 왼쪽 채널 신호(WL)를 획득하고, 와 같은 8개의 지연 장치를 통해 지연 처리를 수행하여 획득된 8개의 드라이 사운드 신호를 중첩하여 드라이 사운드 신호(W)에 대응하는 지연 오른쪽 채널 신호(WR)를 획득한다. 이런 방식으로 획득된 드라이 사운드 신호에 대응하는 지연 듀얼 채널 신호는 사람 머리의 왼쪽 귀나 오른쪽 귀에서의 듀얼 채널 신호를 시뮬레이션하여 사용자의 청각 효과를 풍부하게 할 수 있다.
하나의 실시예에서, 최종 획득된 가상 사운드 신호 세트는 상술한 두가지 상황을 포함하며, 즉 최종 가상 사운드 신호 세트는 Z={ZL,ZR},  ZL=YL+WL; ZR=YR+WR이다. 설명해야만 하는 것은, 상술한 가상 사운드 신호를 획득하는 단계, 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 획득하는 단계는 동시에 수행하거나 선후로 수행할 수 있으며, 본 출원의 실시예는 이에 대하여 한정하지 않는다. 상술한 두가지 서로 다른 방식을 통해 드라이 사운드 신호 세트 중 드라이 사운드 신호에 대응하는 가상 사운드 신호를 획득하면, 합창할 때의 장면 체험을 전방위적으로 전시하여 오디오 효과를 더욱 풍부하게 할 수 있다.
진일보로, 도 6을 참조하면, 도 6은 본 출원의 실시예에 따른 반주 재생 처리 방법의 흐름도이다. 본 출원의 실시예의 상기 방법은 전자 장치에 적용될 수 있다. 전자 장치는, 예를 들면, 스마트폰, 태블릿 컴퓨터, 스마트 웨어러블 디바이스, 개인용 컴퓨터 등 스마트 디바이스일 수 있으며, 서버 등일 수도 있다. 상기 방법은 아래 단계를 포함할 수 있으나, 이에 국한되지는 않는다.
S601, 사용자 인터페이스를 표시한다.
본 출원의 실시예에서, 전자 장치는 사용자 인터페이스를 표시할 수 있고, 사용자 인터페이스는 목표 노래에 대한 사용자의 선택 명령을 수신하는 데에 사용된다.
하나의 실시예에서, 선택 명령은 목표 노래의 반주 모드에 대한 선택 명령을 포함한다. 목표 노래의 반주 모드는 합창 반주 모드, 어쿠스틱 반주 모드, 인공지능(Artificial Intelligence,AI) 반주 모드일 수 있지만 이에 국한되지는 않는다.
하나의 실시예에서, 선택 명령은 사용자가 사용자 인터페이스에 표시되는 선택 컨트롤을 트리거하여 생성된 명령일 수 있고, 사용자가 음성으로 전자 장치를 제어하여 생성된 선택 명령일 수도 있다. 예를 들면, 전자 장치에 대한 사용자의 음성 제어는 ‘합창 반주 모드를 사용하여 재생하십시오’일 수 있다. 이렇게 전자 장치는 목표 노래의 반주 모드가 합창 반주 모드인 선택 명령을 생성할 수 있다.
S602, 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득한다.
본 출원의 실시예에서, 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 전자 장치는 목표 노래의 합창 반주 모드에 대응하는 반주를 획득할 수 있다.
하나의 실시예에서, 사용자 인터페이스에 목표 노래의 반주 모드 선택 컨트롤이 표시될 수 있다. 반주 모드 선택 컨트롤은 합창 반주 모드 선택 컨트롤, 어쿠스틱 반주 모드 선택 컨트롤을 포함할 수 있다. 목표 노래에 대응하는 반주를 획득하기 전에, 전자 장치는 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였는지 여부를 검출할 수 있으며, 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였다고 검출된 경우, 전자 장치는 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드이다고 지시하는 것을 확인한다.
하나의 실시예에서, 합창 드라이 사운드와 배경 음악에 따라 합창 반주 모드에 대응하는 반주를 생성한다. 합창 드라이 사운드는 가상 사운드 신호 세트에 따라 생성할 수 있다. 가상 사운드 신호 세트에는 획득된 드라이 사운드 신호 세트에 따라 생성된, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호가 포함된다. 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응할 수 있으며, 각 가상 3차원 공간 음향 영상 위치는 하나 이상의 드라이 사운드 신호에 대응할 수 있다. 여러 사용자가 목표 노래에 대해 입력한 드라이 사운드 신호를 기반으로 드라이 사운드 신호 세트를 획득한다. 설명해야만 하는 것은 목표 노래에 대한 사용자의 드라이 사운드 신호는 사용자의 승인 동의하에 입력된 것이다. 구체적으로, 합창 반주 모드에 대응하는 반주를 생성하는 방법은 도 2 ~ 도 5에 도시된 실시예를 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.
S603, 목표 노래에 대응하는 반주를 재생한다.
본 출원의 실시예에서, 전자 장치는 목표 노래의 합창 반주 모드에 대응하는 반주를 획득한 다음에 사용자에게 반주를 재생할 수 있다.
하나의 실시예에서, 목표 노래에 대응하는 반주는 가라오케 장면에 적용될 수 있다. 사용자는 반주를 재생하면서 노래를 부를 수 있다. 사용자의 승인 동의하에 전자 장치는 수집된 사용자의 노래 소리와 목표 노래에 대응하는 반주를 통합한 후에 재생하여 사용자에게 음악회에 있는 것과 같은 독특한 체험을 제공할 수 있다.
하나의 실시예에서, 도 7a에 도시된 바와 같이, 전자 장치가 목표 노래에 대응하는 반주를 획득하는 것은 아래 단계를 포함할 수 있지만, 이것에 국한되지는 않는다.
S701, 서버에 반주 요청을 송신한다.
본 출원의 실시예에서, 전자 장치는 서버에 반주 요청을 송신할 수 있다. 반주 요청은 목표 노래의 식별 정보를 포함할 수 있다.
하나의 실시예에서, 목표 노래의 식별 정보는 목표 노래를 식별하는 데에 사용되는 유일한 정보이다. 예를 들면, 목표 노래의 식별 정보는 목표 노래의 노래 이름일 수 있다.
S702, 서버가 반주 요청에 응답하여 반환하는 합창 드라이 사운드 및 배경 음악을 수신한다.
본 출원의 실시예에서, 전자 장치는 서버가 목표 노래의 반주 요청에 응답하여 반환하는 합창 드라이 사운드 및 배경 음악을 수신할 수 있다.
하나의 실시예에서, 서버는 합창 드라이 사운드 및 배경 음악을 별도로 반환하거나, 합창 드라이 사운드와 배경 음악을 병합한 후에 반환할 수 있으며, 구체적인 반환 방식은 사용자의 설정에 따라 선택할 수 있다.
S703, 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정한다.
본 출원의 실시예에서, 전자 장치는 반환된 합창 드라이 사운드에 따라 목표 합창 드라이 사운드 세그먼트를 확정할 수 있다
하나의 실시예에서, 도 7b에 도시된 바와 같이, 전자 장치는 제1 단문(first single-sentence) 인터페이스를 표시할 수 있다. 제1 단문 인터페이스는 합창 드라이 사운드의 시간 재생 노드 순서에 따라 합창 드라이 사운드에 대응하는 텍스트 데이터 중 각 단문을 표시한다. 사용자는 제1 단문 인터페이스에 표시되는 각 단문에 따라 목표 합창 드라이 사운드 세그먼트를 선택할 수 있다.
하나의 실시예에서, 목표 합창 드라이 사운드 세그먼트는 합창 드라이 사운드 중의 일부분 또는 전부 단문으로 구성될 수 있으며, 구체적으로 사용자의 선택 조작에 따라 결정된다.
S704, 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 배경 음악에 따라 목표 노래에 대응하는 반주를 획득한다.
본 출원의 실시예에서, 전자 장치는 사용자가 선택한 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 배경 음악에 따라 목표 노래에 대응하는 반주를 획득할 수 있다.
하나의 실시예에서, 도 7c에 도시된 바와 같이, 전자 장치는 제2 단문 인터페이스를 표시할 수 있다. 제2 단문 인터페이스는 목표 노래에 대응하는 반주 재생 과정에서 표시될 수 있으며, 또한 반주 시간 재생 노이드 순서에 따라 반주에 대응하는 텍스트 데이터 중 각 단문을 표시할 수 있다.
하나의 실시예에서, 전자 장치는 재생 과정에서 반주 중의 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였는지 여부를 검출할 수 있다. 반주 중의 합창 드라이 사운드에 대한 사용자의 음소거 선택 조작을 획득하였을 때, 현재 시간 재생 노이드에서 반주 중의 합창 드라이 사운드의 재생을 취소할 수 있으며, 반주 중의 배경 음악만 재생할 수 있다.
본 출원의 실시예를 실시함으로써, 한편으로, 목표 노래에 대한 사용자의 선택 명령을 수신할 수 있다. 사용자의 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득하고 반주를 재생할 수 있다. 다른 한편으로, 합창 반주 모드에서 목표 노래의 반주는 합창 드라이 사운드와 배경 음악에 따라 생성된다. 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정하고, 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 배경 음악에 따라 목표 노래에 대응하는 반주를 생성할 수 있다. 이런 방식을 통해, 목표 노래에 대응하는 반주를 재생할 때, 사용자가 음악회 현장에 있는 체험을 갖도록 하고, 청감에 있어서 몰입감을 느끼게 할뿐만 아니라, 사용자는 또한 반주 중의 합창 드라이 사운드를 유연하게 선택할 수 있어 반주를 더욱 흥미롭게 하고, 사용자 체험을 향상시킨다.
진일보로 도 8a를 참조하면, 도 8a는 본 출원의 실시예에 따른 반주 생성 장치의 구조를 나타내는 개략도이다. 본 출원의 실시예에 따른 상기 장치는 전자 장치에 적용될 수 있다. 전자 장치는 예를 들어 스마트폰, 태블릿 컴퓨터, 스마트 웨어러블 디바이스, 개인용 컴퓨터, 서버 등일 수 있다. 하나의 실시예에서, 도 8a에 도시된 바와 같이, 반주 생성 장치(80)는 획득 유닛(801)과 처리 유닛(802)을 포함할 수 있다.
획득 유닛(801)은 드라이 사운드 신호 세트를 획득하는 데에 사용된다. 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함하고, x는 1보다 큰 정수이다. 획득 유닛(801)은 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 데에 사용된다. x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N은 1보다 큰 정수이다. N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용된다.
처리 유닛(802)은 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하는 데에 사용된다. 가상 사운드 신호 세트는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 포함한다. 처리 유닛(802)은 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 획득하는 데에 사용된다.
하나의 실시예에서, 획득 유닛(801)은 오디오 데이터베이스에서 초기 드라이 사운드 신호 세트를 획득하는 데에 사용된다. 오디오 데이터베이스에는 여러 사용자가 같은 노래를 부를 때 입력된 초기 드라이 사운드 신호가 포함된다. 획득 유닛(801)은 또한 각 초기 드라이 사운드 신호의 사운드 매개변수에 따라 초기 드라이 사운드 신호 세트에서 드라이 사운드 신호를 선별하는 데에 사용되고, 선별된 드라이 사운드 신호는 드라이 사운드 신호 세트를 구성한다.
하나의 실시예에서, 드라이 사운드 신호 세트는 억양 특징 매개변수와 음질 특징 매개변수에 따라 초기 드라이 사운드 신호 세트에서 선별된 드라이 사운드 신호를 포함한다. 억양 특징 매개변수에는 음조 매개변수, 리듬 매개변수 및 율동 매개변수 중 하나 이상이 포함된다. 음질 특징 매개변수에는 노이즈 매개변수, 에너지 매개변수 또는 속도 매개변수 중 하나 이상이 포함된다.
하나의 실시예에서, N개의 가상 3차원 공간 음향 영상 위치는, 수평면에서 제1 미리 설정된 각도를 간격으로 수평면을 구분하여 획득된 수평면에서의 n1개의 가상 3차원 공간 음향 영상 위치와, 윗쪽 평면에서 제2 미리 설정된 각도를 간격으로 윗쪽 평면을 구분하여 획득된 윗쪽 평면에서의 n2개의 가상 3차원 공간 음향 영상 위치와, 아랫쪽 평면에서 제3 미리 설정된 각도를 간격으로 아랬쪽 평면을 구분하여 획득된 아랫쪽 평면에서의 n3개의 가상 3차원 공간 음향 영상 위치를 포함하고, 윗쪽 평면과 수평면 사이의 협각은 제1 각도 임계값이고, 아랬쪽 평면과 수평면 사이의 협각은 제2 각도 임계값이며, n1, n2 및 n3은 양의 정수이고, n1, n2 및 n3의 합은 N과 같다.
하나의 실시예에서, 획득 유닛(801)은 또한 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 획득하는 데에 사용된다. 처리 유닛(802)은 또한 목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 통해 목표 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 처리하여 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 획득하는 데에 사용된다. 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호는 듀얼 채널 신호이고, 목표 가상 3차원 공간 음향 영상 위치는 N개의 가상 3차원 공간 음향 영상 위치 중의 임의의 하나의 가상 3차원 공간 음향 영상 위치이다.
하나의 실시예에서, 가상 사운드 신호 세트는 또한 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 포함한다. 획득 유닛(801)은 또한 드라이 사운드 신호 세트에 포함된 x개의 드라이 사운드 신호에서 p개의 드라이 사운드 신호를 획득하는 데에 사용될 수 있다. p는 양의 정수이고 x보다 작거나 같다. 처리 유닛(802)은 또한 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m1개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 획득하고, 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호를 획득하는 데에 사용될 수 있으며, m1은 양의 정수이다. 처리 유닛(802)은 또한 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m2개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 획득하고, 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 오른쪽 채널 신호를 획득하는 데에 사용될 수 있으며, m2는 양의 정수이다.
하나의 실시예에서, 획득 유닛(801)은 또한 목표 노래의 배경 음악을 획득하는 데에 사용될 수 있다. 처리 유닛(802)은 또한 합창 드라이 사운드와 배경 음악 사이의 에너지 관계를 조정하는 데에 사용될 수 있다. 조정된 합창 드라이 사운드와 조정된 배경 음악 사이의 에너지 관계는 에너지 비례 조건을 만족시킨다. 반주는 조정된 합창 드라이 사운드와 배경 음악에 따라 획득된다.
하나의 실시예에서, 처리 유닛(802)은 또한 미리 설정된 주파수 대역에서 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행하는 데에 사용될 수 있다. 획득 유닛(801)은 또한 배경 음악의 라우드니스를 획득하는 데에 사용될 수 있다. 처리 유닛(802)은 또한 배경 음악의 라우드니스가 라우드니스 임계값보다 작으면, 배경 음악의 라우드니스를 라우드니스 임계값으로 향상시키는 데에 사용될 수 있다. 반주는 스펙트럼 균형 처리를 거친 합창 드라이 사운드와 라우드니스 처리를 거친 배경 음악에 따라 획득된다.
설명해야만 하는 것은, 도 8a에 대응하는 실시예에서 언급되지 않은 내용 및 각 단계의 구체적인 구현 방식은 도 2 ~ 도 5의 실시예 및 상술한 내용을 참조할 수 있고, 여기서 더 이상 설명하지 않는다.
진일보로, 도 8b를 참조하면, 도 8b는 본 출원의 실시예에 따른 반주 재생 처리 장치의 구조를 나타내는 개략도이다. 본 출원의 실시예에 따른 상기 장치는 전자 장치에 적용될 수 있다. 전자 장치는 예를 들어 스마트폰, 태블릿 컴퓨터, 스마트 웨어러블 디바이스, 개인용 컴퓨터, 서버 등일 수 있다. 하나의 실시예에서, 도 8b에 도시된 바와 같이, 반주 재생 처리 장치(81)는 획득 유닛(811)과 처리 유닛(812)을 포함할 수 있다.
획득 유닛(811)은 사용자 인터페이스를 표시하는 데에 사용된다. 사용자 인터페이스는 목표 노래에 대한 선택 명령을 수신하는 데에 사용된다. 획득 유닛(811)은 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득하는 데에 사용된다.
처리 유닛(812)은 목표 노래에 대응하는 반주를 재생하는 데에 사용된다. 반주는 합창 드라이 사운드와 배경 음악에 따라 생성되고, 합창 드라이 사운드는 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호에 따라 생성되며, 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응되고, 드라이 사운드 신호 세트는 여러 사용자가 목표 노래에 대해 입력한 드라이 사운드 신호에 따라 획득된다.
하나의 실시예에서, 합창 드라이 사운드는 가상 사운드 신호 세트에 따라 생성된다. 가상 사운드 신호 세트에는 획득된 드라이 사운드 신호 세트에 따라 생성된, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호가 포함된다. 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하며, N은 1보다 큰 정수이고, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 하나 이상의 사운드 신호에 대응하도록 허용된다.
하나의 실시예에서, 사용자 인터페이스에 목표 노래의 반주 모드 선택 컨트롤이 표시된다. 반주 모드 선택 컨트롤은 합창 반주 모드 선택 컨트롤, 어쿠스틱 반주 모드 선택 컨트롤을 포함한다. 목표 노래에 대응하는 반주를 획득하기 전에, 처리 유닛(812)은 또한 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였는지 여부를 검출하되, 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였다고 검출된 경우, 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드이다고 지시하는 것을 확인하는 데에 사용될 수 있다.
하나의 실시예에서, 처리 유닛(812)은 또한 서버에 반주 요청을 송신하는 데에 사용될 수 있다. 반주 요청은 목표 노래의 식별 정보를 포함한다. 획득 유닛(111)은 또한 서버가 반주 요청에 응답하여 반환하는 합창 드라이 사운드 및 배경 음악을 수신하는 데에 사용될 수 있다. 처리 유닛(812)은 또한 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정하고, 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 배경 음악에 따라 목표 노래에 대응하는 반주를 획득하는 데에 사용될 수 있다.
하나의 실시예에서, 처리 유닛(812)은 또한 제1 단문 인터페이스를 표시하고, 합창 드라이 사운드의 시간 재생 노드 순서에 따라 합창 드라이 사운드에 대응하는 텍스트 데이터 중 각 단문을 표시하는 데에 사용될 수 있다. 목표 합창 드라이 사운드 세그먼트는 제1 단문 인터페이스에서의 단문 선택 조작을 기반으로 확정된다.
하나의 실시예에서, 처리 유닛(812)은 또한 제2 단문 인터페이스를 표시하고, 반주 시간 재생 노이드 순서에 따라 반주에 대응하는 텍스트 데이터 중 각 단문을 표시하는 데에 사용될 수 있다. 처리 유닛(812)은 또한 재생 과정에서 반주 중의 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였는지 여부를 검출하되, 재생 과정에서 반주 중의 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였다고 검출된 경우, 현재 시간 재생 노이드에서 합창 드라이 사운드의 재생을 취소하는 데에 사용될 수 있다.
설명해야만 하는 것은, 도 8b에 대응하는 실시예에서 언급되지 않은 내용 및 각 단계의 구체적인 구현 방식은 도 2 ~ 도 7c의 실시예 및 상술한 내용을 참조할 수 있고, 여기서 더 이상 설명하지 않는다.
진일보로 도 9를 참조하면, 도 9는 본 출원의 실시예에 따른 전자 장치의 구조를 나타내는 개략도이다. 전자 장치는 네트워크 인터페이스(901), 메모리(902) 및 프로세서(903)를 포함할 수 있다. 네트워크 인터페이스(901), 메모리(902) 및 프로세서(903)는 하나 이상의 통신 버스를 통해 연결되고, 통신 버스는 이러한 구성 요소 간의 연결과 통신을 실현하는 데에 사용된다. 네트워크 인터페이스(901)는 표준 유선 인터페이스, 무선 인터페이스(예를 들면, WIFI 인터페이스)를 포함할 수 있다. 메모리(902)는 랜덤 액세스 메모리(random-access memory,RAM)와 같은 휘발성 메모리(volatile memory)를 포함할 수 있다. 메모리(902)는 플래시 메모리(flash memory), 솔리드 스테이트 드라이브(solid-state drive, SSD) 등과 같은 비휘발성 메모리(non-volatile memory)를 포함할 수도 있다. 메모리(902)는 또한 상술한 종류의 메모리의 조합을 포함할 수 있다. 프로세서(903)는 중앙 처리 장치(CPU)일 수 있다. 프로세서(903)는 하드웨어 칩을 더 포함할 수도 있다. 하드웨어 칩은 전용 집적회로(application-specific integrated circuit,ASIC), 프로그래밍 가능한 논리 장치(programmable logic device,PLD) 등일 수 있다. PLD는 필드 프로그래밍 가능한 게이트 어레이(field-programmable gate array,FPGA), 범용 어레이 로직(generic array logic,GAL) 등일 수 있다.
선택적으로, 메모리(902)는 또한 프로그램 명령을 저장하는 데에 사용되고, 프로세서(903)는 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 드라이 사운드 신호 세트를 획득하고, 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함하고, x는 1보다 큰 정수이다. N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성한다. x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N은 1보다 큰 정수이다. N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용된다. 가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득한다. 가상 사운드 신호 세트는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 포함한다. 사운드 효과 최적화 규칙에 따라 합창 드라이 사운드와 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 목표 노래의 반주를 획득한다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 오디오 데이터베이스에서 초기 드라이 사운드 신호 세트를 획득하고, 오디오 데이터베이스에는 여러 사용자가 같은 노래를 부를 때 입력된 초기 드라이 사운드 신호가 포함된다. 각 초기 드라이 사운드 신호의 사운드 매개변수에 따라 초기 드라이 사운드 신호 세트에서 드라이 사운드 신호를 선별하고, 선별된 드라이 사운드 신호는 드라이 사운드 신호 세트를 구성한다.
하나의 실시예에서, 드라이 사운드 신호 세트는 억양 특징 매개변수와 음질 특징 매개변수에 따라 초기 드라이 사운드 신호 세트에서 선별된 드라이 사운드 신호를 포함한다. 억양 특징 매개변수에는 음조 매개변수, 리듬 매개변수 및 율동 매개변수 중 하나 이상이 포함된다. 음질 특징 매개변수에는 노이즈 매개변수, 에너지 매개변수 또는 속도 매개변수 중 하나 이상이 포함된다.
하나의 실시예에서, N개의 가상 3차원 공간 음향 영상 위치는, 수평면에서 제1 미리 설정된 각도를 간격으로 수평면을 구분하여 획득된 수평면에서의 n1개의 가상 3차원 공간 음향 영상 위치와, 윗쪽 평면에서 제2 미리 설정된 각도를 간격으로 윗쪽 평면을 구분하여 획득된 윗쪽 평면에서의 n2개의 가상 3차원 공간 음향 영상 위치와, 아랫쪽 평면에서 제3 미리 설정된 각도를 간격으로 아랬쪽 평면을 구분하여 획득된 아랫쪽 평면에서의 n3개의 가상 3차원 공간 음향 영상 위치를 포함하고, 윗쪽 평면과 수평면 사이의 협각은 제1 각도 임계값이고, 아랬쪽 평면과 수평면 사이의 협각은 제2 각도 임계값이며, n1, n2 및 n3은 양의 정수이고, n1, n2 및 n3의 합은 N과 같다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 획득한다. 목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 통해 목표 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 처리하여 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 획득한다. 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호는 듀얼 채널 신호이고, 목표 가상 3차원 공간 음향 영상 위치는 N개의 가상 3차원 공간 음향 영상 위치 중의 임의의 하나의 가상 3차원 공간 음향 영상 위치이다.
하나의 실시예에서, 가상 사운드 신호 세트는 또한 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 포함한다. 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 드라이 사운드 신호 세트에 포함된 x개의 드라이 사운드 신호에서 p개의 드라이 사운드 신호를 획득하고, p는 양의 정수이고 x보다 작거나 같다. p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m1개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 획득하고, 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호를 획득하며, m1은 양의 정수이다. p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m2개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 획득하고, 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 오른쪽 채널 신호를 획득하며, m2는 양의 정수이다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 목표 노래의 배경 음악을 획득하고, 합창 드라이 사운드와 배경 음악 사이의 에너지 관계를 조정하며, 조정된 합창 드라이 사운드와 조정된 배경 음악 사이의 에너지 관계는 에너지 비례 조건을 만족시킨다. 반주는 조정된 합창 드라이 사운드와 배경 음악에 따라 획득된다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 미리 설정된 주파수 대역에서 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행한다. 배경 음악의 라우드니스를 획득한다. 배경 음악의 라우드니스가 라우드니스 임계값보다 작으면, 배경 음악의 라우드니스를 라우드니스 임계값으로 향상시킨다. 반주는 스펙트럼 균형 처리를 거친 합창 드라이 사운드와 라우드니스 처리를 거친 배경 음악에 따라 획득된다.
선택적으로, 메모리(902)는 또한 프로그램 명령을 저장하는 데에 사용되고, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 사용자 인터페이스를 표시하며, 사용자 인터페이스는 목표 노래에 대한 선택 명령을 수신하는 데에 사용된다. 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 목표 노래에 대응하는 반주를 획득한다. 목표 노래에 대응하는 반주를 재생한다. 반주는 합창 드라이 사운드와 배경 음악에 따라 생성되고, 합창 드라이 사운드는 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호에 따라 생성되며, 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응되고, 드라이 사운드 신호 세트는 여러 사용자가 목표 노래에 대해 입력한 드라이 사운드 신호에 따라 획득된다.
하나의 실시예에서, 합창 드라이 사운드는 가상 사운드 신호 세트에 따라 생성된다. 가상 사운드 신호 세트에는 획득된 드라이 사운드 신호 세트에 따라 생성된, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호가 포함된다. 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하며, N은 1보다 큰 정수이고, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 하나 이상의 사운드 신호에 대응하도록 허용된다.
하나의 실시예에서, 사용자 인터페이스에 목표 노래의 반주 모드 선택 컨트롤이 표시된다. 반주 모드 선택 컨트롤은 합창 반주 모드 선택 컨트롤, 어쿠스틱 반주 모드 선택 컨트롤을 포함한다. 목표 노래에 대응하는 반주를 획득하기 전에, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였는지 여부를 검출하되, 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였다고 검출된 경우, 사용자 인터페이스에서 수신된 선택 명령이 목표 노래의 반주 모드가 합창 반주 모드이다고 지시하는 것을 확인한다,
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 서버에 반주 요청을 송신하며, 반주 요청은 목표 노래의 식별 정보를 포함한다. 서버가 반주 요청에 응답하여 반환하는 합창 드라이 사운드 및 배경 음악을 수신한다. 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정하고, 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 배경 음악에 따라 목표 노래에 대응하는 반주를 획득한다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 제1 단문 인터페이스를 표시하고, 합창 드라이 사운드의 시간 재생 노드 순서에 따라 합창 드라이 사운드에 대응하는 텍스트 데이터 중 각 단문을 표시한다. 목표 합창 드라이 사운드 세그먼트는 제1 단문 인터페이스에서의 단문 선택 조작을 기반으로 확정된다.
하나의 실시예에서, 프로세서(903)는 또한 다음 사항을 구현하기 위해 프로그램 명령을 호출할 수도 있다. 제2 단문 인터페이스를 표시하고, 반주 시간 재생 노이드 순서에 따라 반주에 대응하는 텍스트 데이터 중 각 단문을 표시한다. 재생 과정에서 반주 중의 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였는지 여부를 검출하되, 재생 과정에서 반주 중의 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였다고 검출된 경우, 현재 시간 재생 노이드에서 합창 드라이 사운드의 재생을 취소한다.
이해할 수 있듯이, 본 출원의 실시예에 기술된 전자 장치(90)가 문제를 해결하는 원리와 유익한 효과는 본 출원의 도 2 ~ 도 7c에 도시된 실시예 및 상술한 내용에서 문제를 해결하는 원리와 유익한 효과와 유사하다. 설명의 간결을 위해 여기서 더 이상 설명하지 않는다.
또한, 본 출원의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 실시예에서 제공하는 방법을 실현한다.
본 출원의 실시예는 또한 컴퓨터 프로그램 제품 또는 컴퓨터 프로그램을 제공한다. 컴퓨터 프로그램 제품 또는 컴퓨터 프로그램은 컴퓨터 명령을 포함한다. 컴퓨터 명령은 컴퓨터 판독 가능 저장 매체에 저장된다. 컴퓨터 장치의 프로세서는 컴퓨터 판독 가능 저장 매체에서 컴퓨터 명령을 읽고, 프로세서는 컴퓨터 명령을 실행하여 컴퓨터 장치가 상술한 실시예에서 제공하는 방법을 수행하도록 한다.
본 출원의 실시예에 따른 방법의 단계는 실제 수요에 따라 순서 조정, 병합 및 삭제할 수 있다.
본 출원의 실시예에 따른 장치의 유닛은 실제 수요에 따라 병합, 분할 및 삭제할 수 있다.
당업자는 상술한 방법 실시예의 프로세스의 전부 또는 일부가 컴퓨터 프로그램을 통해 관련 하드웨어를 명령함으로써 구현될 수 있음을 이해할 수 있으며, 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있고, 컴퓨터 프로그램이 실행될 때, 상기 방법 실시예의 프로세스를 구현할 수 있다. 상술한 저장 매체는 자기 디스크, CD, 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(Random Access Memory, RAM) 등 일 수 있다.
이상 개시된 내용은 단지 본 출원의 일부 실시예일 뿐이며, 물론 이를 통해 본 출원의 청구범위를 한정할 수 없으며, 당업지는 상술한 실시예를 실현하는 전부 또는 일부 프로세스를 이해할 수 있으며, 본 출원의 청구범위에 따라 수행된 동등한 변화는 여전히 본 출원의 범위에 속한다.

Claims (16)

  1. 반주 생성 방법으로서,
    드라이 사운드 신호 세트를 획득하는 것 - 상기 드라이 사운드 신호 세트는 목표 노래에 대응하는 x개의 드라이 사운드 신호를 포함하고, 상기 x는 1보다 큰 정수임 - 과,
    N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 것 - 상기 x개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하고, N은 1보다 큰 정수이며, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 상기 x개의 드라이 사운드 신호 중 하나 또는 여러개의 사운드 신호에 대응하도록 허용됨 - 과,
    가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하는 것 - 상기 가상 사운드 신호 세트는 N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 포함함 - 과,
    사운드 효과 최적화 규칙에 따라 상기 합창 드라이 사운드와 상기 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 상기 목표 노래의 반주를 획득하는 것을 포함하는 것을 특징으로 하는 반주 생성 방법.
  2. 제 1 항에 있어서,
    드라이 사운드 신호 세트를 획득하는 것은,
    오디오 데이터베이스에서 초기 드라이 사운드 신호 세트를 획득하는 것 - 상기 오디오 데이터베이스에는 여러 사용자가 목표 노래를 부를 때 입력된 초기 드라이 사운드 신호가 포함됨 - 과,
    각 초기 드라이 사운드 신호의 사운드 매개변수에 따라 상기 초기 드라이 사운드 신호 세트에서 x개의 드라이 사운드 신호를 선별하여 상기 드라이 사운드 신호 세트를 구성하는 것을 포함하는 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서,
    상기 사운드 매개변수는 억양 특징 매개변수와 음질 특징 매개변수를 포함하고,
    상기 억양 특징 매개변수에는 음조 매개변수, 리듬 매개변수 및 율동 매개변수 중 하나 이상이 포함되고, 상기 음질 특징 매개변수에는 노이즈 매개변수, 에너지 매개변수 또는 속도 매개변수 중 하나 이상이 포함되는 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서,
    N개의 가상 3차원 공간 음향 영상 위치는,
    수평면에서 제1 미리 설정된 각도를 간격으로 상기 수평면을 구분하여 획득된 상기 수평면에서의 n1개의 가상 3차원 공간 음향 영상 위치와,
    윗쪽 평면에서 제2 미리 설정된 각도를 간격으로 상기 윗쪽 평면을 구분하여 획득된 상기 윗쪽 평면에서의 n2개의 가상 3차원 공간 음향 영상 위치와,
    아랫쪽 평면에서 제3 미리 설정된 각도를 간격으로 상기 아랬쪽 평면을 구분하여 획득된 상기 아랫쪽 평면에서의 n3개의 가상 3차원 공간 음향 영상 위치를 포함하고,
    상기 윗쪽 평면과 상기 수평면 사이의 협각은 제1 각도 임계값이고, 상기 아랬쪽 평면과 상기 수평면 사이의 협각은 제2 각도 임계값이며, 상기 n1, 상기 n2 및 상기 n3은 양의 정수이고, 상기 n1, 상기 n2 및 상기 n3의 합은 N과 같은 것을 특징으로 하는 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 기반으로 가상 사운드 신호를 생성하는 것은,
    N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 획득하는 것과,
    목표 가상 3차원 공간 음향 영상 위치에 대응하는 헤드 관련 전달 함수를 통해 상기 목표 가상 3차원 공간 음향 영상 위치에 대응하는 드라이 사운드 신호를 처리하여 상기 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호를 획득하는 것을 포함하고,
    상기 목표 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호는 듀얼 채널 신호이고,
    상기 목표 가상 3차원 공간 음향 영상 위치는 상기 N개의 가상 3차원 공간 음향 영상 위치 중의 임의의 하나의 가상 3차원 공간 음향 영상 위치인 것을 특징으로 하는 방법.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 가상 사운드 신호 세트는 또한 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호와 지연 오른쪽 채널 신호를 포함하고,
    가상 사운드 신호 세트 중 각 가상 사운드 신호를 병합하여 합창 드라이 사운드를 획득하기 전에, 상기 방법은,
    상기 드라이 사운드 신호 세트에 포함된 x개의 드라이 사운드 신호에서 p개의 드라이 사운드 신호를 획득하는 것 - 상기 p는 양의 정수이고 상기 x보다 작거나 같음 - 과,
    상기 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m1개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 획득하고, 상기 각 드라이 사운드 신호에 대응하는 m1개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 왼쪽 채널 신호를 획득하는 것 - 상기 m1은 양의 정수임 - 과,
    상기 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대해 m2개의 시간 매개변수의 지연 처리를 수행하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 획득하고, 각 드라이 사운드 신호에 대응하는 m2개의 지연 드라이 사운드 신호를 중첩하여 p개의 드라이 사운드 신호 중 각 드라이 사운드 신호에 대응하는 지연 오른쪽 채널 신호를 획득하는 것 - 상기 m2는 양의 정수임 - 을 더 포함하는 것을 특징으로 하는 방법.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    사운드 효과 최적화 규칙에 따라 상기 합창 드라이 사운드와 상기 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 상기 목표 노래의 반주를 획득하는 것은,
    상기 목표 노래의 배경 음악을 획득하고, 상기 합창 드라이 사운드와 상기 배경 음악 사이의 에너지 관계를 조정하며, 조정된 합창 드라이 사운드와 조정된 배경 음악 사이의 에너지 관계는 에너지 비례 조건을 만족시키는 것과,
    조정된 합창 드라이 사운드와 배경 음악에 따라 상기 반주를 획득하는 것을 포함하는 것을 특징으로 하는 방법.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    사운드 효과 최적화 규칙에 따라 상기 합창 드라이 사운드와 상기 목표 노래의 배경 음악에 대해 사운드 효과 합성 처리를 수행하여 상기 목표 노래의 반주를 획득하는 것은,
    미리 설정된 주파수 대역에서 상기 합창 드라이 사운드에 대해 스펙트럼 균형 처리를 수행하는 것과,
    상기 배경 음악의 라우드니스를 획득하는 š과,
    상기 배경 음악의 라우드니스가 라우드니스 임계값보다 작으면, 상기 배경 음악의 라우드니스를 라우드니스 임계값으로 향상시키는 것과,
    스펙트럼 균형 처리를 거친 합창 드라이 사운드와 라우드니스 처리를 거친 배경 음악에 따라 상기 반주를 획득하는 것을 특징으로 하는 방법.
  9. 반주 재생 처리 방법으로서,
    사용자 인터페이스를 표시하는 것 - 상기 사용자 인터페이스는 목표 노래에 대한 선택 명령을 수신하는 데에 사용됨 - 과,
    상기 사용자 인터페이스에서 수신된 선택 명령이 상기 목표 노래의 반주 모드가 합창 반주 모드임을 지시하는 경우, 상기 목표 노래에 대응하는 반주를 획득하는 것과,
    상기 목표 노래에 대응하는 반주를 재생하는 것을 포함하고,
    상기 반주는 합창 드라이 사운드와 배경 음악에 따라 생성되고, 상기 합창 드라이 사운드는 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호에 따라 생성되며, 상기 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 여러개의 서로 다른 가상 3차원 공간 음향 영상 위치에 대응되고, 상기 드라이 사운드 신호 세트는 여러 사용자가 상기 목표 노래에 대해 입력한 드라이 사운드 신호에 따라 획득되는 것을 특징으로 하는 반주 재생 처리 방법.
  10. 제 9 항에 있어서,
    상기 합창 드라이 사운드는 가상 사운드 신호 세트에 따라 생성되고, 상기 가상 사운드 신호 세트에는 획득된 드라이 사운드 신호 세트에 따라 생성된, N개의 가상 3차원 공간 음향 영상 위치 중 각 가상 3차원 공간 음향 영상 위치에서의 가상 사운드 신호가 포함되고,
    상기 드라이 사운드 신호 세트 중 여러개의 드라이 사운드 신호는 N개의 가상 3차원 공간 음향 영상 위치에 대응하며, N은 1보다 큰 정수이고, N개의 가상 3차원 공간 음향 영상 위치는 서로 다르고, 각 가상 3차원 공간 음향 영상 위치는 하나 이상의 사운드 신호에 대응하도록 허용되는 것을 특징으로 하는 방법.
  11. 제 9 항 또는 제 10 항에 있어서,
    상기 사용자 인터페이스에 목표 노래의 반주 모드 선택 컨트롤이 표시되고, 상기 반주 모드 선택 컨트롤은 합창 반주 모드 선택 컨트롤, 어쿠스틱 반주 모드 선택 컨트롤을 포함하며, 상기 목표 노래에 대응하는 반주를 획득하기 전에, 상기 방법은,
    상기 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였는지 여부를 검출하는 것과,
    상기 합창 반주 모드 선택 컨트롤에 대한 선택 조작을 획득하였다고 검출된 경우, 상기 사용자 인터페이스에서 수신된 선택 명령이 상기 목표 노래의 반주 모드가 합창 반주 모드이다고 지시하는 것을 확인하는 것을 더 포함하는 것을 특징으로 하는 방법.
  12. 제 9 항에 있어서,
    상기 목표 노래에 대응하는 반주를 획득하는 것은,
    서버에 반주 요청을 송신하는 것 - 상기 반주 요청은 상기 목표 노래의 식별 정보를 포함함 - 과,
    상기 서버가 상기 반주 요청에 응답하여 반환하는 상기 합창 드라이 사운드 및 상기 배경 음악을 수신하는 것과,
    상기 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정하는 것과,
    상기 목표 합창 드라이 사운드 세그먼트에 대응하는 합창 드라이 사운드와 상기 배경 음악에 따라 상기 목표 노래에 대응하는 반주를 획득하는 것을 포함하는 것을 특징으로 하는 방법.
  13. 제 12 항에 있어서,
    상기 합창 드라이 사운드에서 목표 합창 드라이 사운드 세그먼트를 확정하기 전에, 상기 방법은,
    제1 단문 인터페이스를 표시하고, 상기 합창 드라이 사운드의 시간 재생 노드 순서에 따라 상기 합창 드라이 사운드에 대응하는 텍스트 데이터 중 각 단문을 표시하는 것을 더 포함하고,
    상기 목표 합창 드라이 사운드 세그먼트는 상기 제1 단문 인터페이스에서의 단문 선택 조작을 기반으로 확정되는 것을 특징으로 하는 방법.
  14. 제 9 항 또는 제 12 항에 있어서,
    상기 목표 노래에 대응하는 반주를 재생한 후에, 상기 방법은,
    제2 단문 인터페이스를 표시하고, 상기 반주 시간 재생 노이드 순서에 따라 상기 반주에 대응하는 텍스트 데이터 중 각 단문을 표시하는 것과,
    재생 과정에서 상기 반주 중의 상기 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였는지 여부를 검출하는 것과,
    재생 과정에서 상기 반주 중의 상기 합창 드라이 사운드에 대한 음소거 선택 조작을 획득하였다고 검출된 경우, 현재 시간 재생 노이드에서 상기 합창 드라이 사운드의 재생을 취소하는 것을 포함하는 것을 특징으로 하는 방법.
  15. 전자 장치로서,
    메모리, 프로세서 및 네트워크 인터페이스를 포함하고,
    상기 프로세서는 상기 메모리 및 상기 네트워크 인터페이스와 연결되고, 상기 네트워크 인터페이스는 네트워크 통신 기능을 제공하는 데에 사용되고, 상기 메모리는 프로그램 코드를 저장하는 데에 사용되고, 상기 프로세서는 상기 프로크램 코드를 호출하여 제 1 항 내지 제 14 항 중 어느 한 항에 기재된 방법을 수행하는 데에 사용되는 것을 특징으로 하는 전자 장치.
  16. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제 1 항 내지 제 14 항 중 어느 한 항에 기재된 방법이 실현되는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
KR1020247019855A 2021-12-14 2022-10-11 반주 생성 방법, 장치 및 저장 매체 KR20240099500A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111527995.3 2021-12-14

Publications (1)

Publication Number Publication Date
KR20240099500A true KR20240099500A (ko) 2024-06-28

Family

ID=

Similar Documents

Publication Publication Date Title
US10750306B2 (en) Reverberation generation for headphone virtualization
CN105027580B (zh) 用于输出修改的音频信号的方法
CN105900457B (zh) 用于设计和应用数值优化的双耳房间脉冲响应的方法和***
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
JP7436664B2 (ja) リスニングシーンを構築する方法及び関連装置
CN105874820B (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
WO2023109278A1 (zh) 一种伴奏的生成方法、设备及存储介质
CN109076305A (zh) 增强现实耳机环境渲染
US11122384B2 (en) Devices and methods for binaural spatial processing and projection of audio signals
CN111107482A (zh) 修改房间特性以通过耳机进行空间音频呈现的***和方法
CN104768121A (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
JP2019512952A (ja) 音響再生システム
Yeoward et al. Real-time binaural room modelling for augmented reality applications
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
KR20240099500A (ko) 반주 생성 방법, 장치 및 저장 매체
US11102606B1 (en) Video component in 3D audio
US11146908B2 (en) Generating personalized end user head-related transfer function (HRTF) from generic HRTF
Thery et al. Impact of the visual rendering system on subjective auralization assessment in VR
CN114173275A (zh) 声音通信装置
CN114598985B (zh) 音频处理方法及装置
CN115604642B (zh) 一种空间音效的测试方法
Filipanits Design and implementation of an auralization system with a spectrum-based temporal processing optimization
US20230104111A1 (en) Determining a virtual listening environment
CN115954010A (zh) 音效处理方法、装置及电子设备
JP2023505395A (ja) 音響測定