KR102277438B1 - 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 - Google Patents

단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 Download PDF

Info

Publication number
KR102277438B1
KR102277438B1 KR1020160137701A KR20160137701A KR102277438B1 KR 102277438 B1 KR102277438 B1 KR 102277438B1 KR 1020160137701 A KR1020160137701 A KR 1020160137701A KR 20160137701 A KR20160137701 A KR 20160137701A KR 102277438 B1 KR102277438 B1 KR 102277438B1
Authority
KR
South Korea
Prior art keywords
terminal device
audio
information
counterpart terminal
head direction
Prior art date
Application number
KR1020160137701A
Other languages
English (en)
Other versions
KR20180044077A (ko
Inventor
정경훈
곽병훈
성호상
오은미
정종훈
주기현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160137701A priority Critical patent/KR102277438B1/ko
Priority to US16/343,606 priority patent/US10972854B2/en
Priority to EP17862018.3A priority patent/EP3531695B1/en
Priority to PCT/KR2017/002420 priority patent/WO2018074677A1/ko
Publication of KR20180044077A publication Critical patent/KR20180044077A/ko
Application granted granted Critical
Publication of KR102277438B1 publication Critical patent/KR102277438B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N2007/145Handheld terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

몰입형 멀티미디어 통신에 있어서, 비트 레이트 소모를 줄이면서 통화 품질을 높일 수 있는 방법 및 장치가 제공된다.
일 실시예에 따라 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법은, 상대 단말 장치로부터 수신한 패킷으로부터 상대 단말 장치의 사용자의 머리 방향 정보를 추출하는 단계, 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상대 단말 장치의 사용자의 머리 방향을 예측하는 단계, 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하는 단계, 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는 단계 및 예측된 머리 방향과 관련된 정보 및 오디오 출력 신호들이 압축된 음성 프레임을 상대 단말 장치에게 전송하는 단계를 포함할 수 있다.

Description

단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 {IN MULTIMEDIA COMMUNICATION BETWEEN TERMINAL DEVICES, METHOD FOR TRANSMITTING AUDIO SIGNAL AND OUTPUTTING AUDIO SIGNAL AND TERMINAL DEVICE PERFORMING THEREOF}
본 개시는 몰입형 멀티미디어 통신 시스템에서 최소한의 비트 레이트로 최대한의 통화 품질을 제공하기 위한 방법 및 장치에 관한 것이다.
이동 통신 기술이 발전함에 따라 고속으로 대용량의 데이터 전송이 가능해지면서, 단말 장치는 음성 통화 기능뿐만 아니라 영상 통화 기능을 수행할 수 있게 되었다. 5세대 이동 통신에서는, 4세대 이동 통신에 비해 데이터 전송 속도가 매우 빨라지게 되므로, 가상 현실(Virtual Reality) 기반의 통화가 제공될 수 있다. 예를 들어, 가상 현실 기반의 통화는, 복수의 렌즈들을 통해 입력된 이미지들로부터 생성된 광각 영상과 복수의 마이크들을 통해 입력된 현장감 있는 음성을 제공할 수 있는 카메라 및 수신된 음성과 영상을 시청할 수 있는 HMD(Head Mounted Display)에 의해 구현될 수 있다.
5세대 이동 통신이 제공하는 가상 현실 기반의 통화는 모든 방향의 미디어가 전송되어야 하지만, 제한된 주파수 자원으로 인해 모든 방향의 미디어를 전송하는 것이 어려울 수 있다. 또한, HMD를 착용한 사용자의 머리 방향이 통화 중에 변화함에 따라, 사용자가 시청하는 영상과 음성의 내용도 변화하여야 한다.
몰입형 멀티미디어 통신에 있어서, 최소한의 비트 레이트로 최대한의 통화 품질이 요구된다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법은, 상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하는 단계; 상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하는 단계; 상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하는 단계; 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는 단계; 및 상기 예측된 머리 방향과 관련된 정보 및 상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하고, 상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하고, 상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하고, 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는, 적어도 하나의 프로세서; 영상 신호를 수신하는, 적어도 하나의 카메라; 상기 오디오 입력 신호들을 수신하는, 적어도 하나의 마이크; 및 상기 예측된 머리 방향과 관련된 정보, 상기 오디오 출력 신호들이 압축된 음성 프레임 및 상기 영상 신호가 압축된 비디오 프레임을 상기 상대 단말 장치에게 전송하는, 통신부를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하고, 상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하고, 상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하고, 카메라의 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는, 적어도 하나의 프로세서; 및 상기 단말 장치와 연결된 상기 카메라로부터, 영상 신호 및 상기 오디오 입력 신호들을 수신하고, 상기 예측된 머리 방향과 관련된 정보, 상기 오디오 출력 신호들이 압축된 음성 프레임 및 상기 영상 신호가 압축된 비디오 프레임을 상기 상대 단말 장치에게 전송하는, 통신부를 포함할 수 있다.
일 실시예에 따르면, 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법은, 상기 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보 및 음성 프레임을 추출하는 단계; 상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하는 단계; 상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는 단계; 상기 보정된 오디오 신호들을 출력하는 단계; 및 상기 결정된 머리 방향 정보를 상기 상대 단말 장치에게 전송하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 HMD는, 상기 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보, 음성 프레임, 및 영상 신호를 추출하고, 상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하고, 상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는, 적어도 하나의 프로세서; 상기 보정된 오디오 신호들을 출력하는 스피커; 상기 영상 신호를 출력하는 디스플레이; 및 상기 결정된 머리 방향 정보를 상기 상대 단말 장치에게 전송하는 통신부를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 상기 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보, 음성 프레임, 및 영상 신호를 추출하고, 상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하고, 상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는, 적어도 하나의 프로세서; 및 상기 단말 장치와 연결된 HMD에게 상기 보정된 오디오 신호들 및 상기 영상 신호를 전송하고, 상기 상대 단말 장치에게 상기 결정된 머리 방향 정보를 전송하는 통신부를 포함할 수 있다.
일 실시예에 따르면, 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법은, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는 단계; 상기 결정된 오디오 채널들의 방향들에 대한 정보를 상기 상대 단말 장치에게 전송하는 단계; 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하는 단계; 및 상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는, 적어도 하나의 프로세서; 영상 신호를 수신하는, 적어도 하나의 카메라; 오디오 입력 신호들을 수신하는, 적어도 하나의 마이크; 및 상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는, 통신부를 포함하고, 상기 적어도 하나의 프로세서는, 상기 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하고, 상기 통신부는, 상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는, 적어도 하나의 프로세서; 및 상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는, 통신부를 포함하고, 상기 적어도 하나의 프로세서는, 상기 단말 장치와 연결된 카메라의 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하고, 상기 통신부는, 상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법은, 상기 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하는 단계; 상기 오디오 채널들의 방향들에 대응하는 오디오 신호들을 수신하는 단계; 및 상기 오디오 신호들을 출력하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 HMD는, 상기 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하고, 상기 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 수신하는, 통신부; 상기 오디오 신호들을 출력하는, 스피커; 상기 영상 신호를 출력하는 디스플레이; 및 상기 통신부, 스피커, 및 디스플레이를 제어하는 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에 따르면, 상대 단말 장치와 통화 기능을 수행하는 단말 장치는, 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하고, 상기 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 수신하고, 상기 단말 장치와 연결된 HMD에게 상기 오디오 신호들 및 상기 영상 신호를 전송하는, 통신부; 및 상기 통신부를 제어하는 적어도 하나의 프로세서를 포함할 수 있다.
도 1은 몰입형 멀티미디어 통신을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 몰입형 멀티미디어 통신 시스템의 전체 프로토콜 구조를 도시한다.
도 3은 일 실시예에 따른 통화 조건 교섭 방법의 흐름도를 도시한다.
도 4는 일 실시예에 따라 머리 방향을 나타내는 각도 파라미터를 도시한다.
도 5는 일 실시예에 따라 카메라에 포함되는 마이크들의 배치를 도시한다.
도 6은 일 실시예에 따라 카메라에 포함되는 마이크들의 배치를 도시한다.
도 7은 일 실시예에 따라 머리 방향 정보를 나타내기 위해 이용되는 좌표계를 도시한다.
도 8은 일 실시예에 따라 단말 장치가 머리 방향 정보를 확장된 RTP 헤더 상에 탑재하는 방법을 설명하기 위한 도면이다.
도 9는 일 실시예에 따라 단말 장치가 머리 방향 정보를 전송하는 방법을 설명하기 위한 도면이다.
도 10 내지 도 13은 일 실시예에 따라 단말 장치들 간의 통화 조건 교섭을 통해 머리 방향 정보의 형식을 결정하는 과정을 도시한다.
도 14a는 일 실시예에 따른 단말 장치의 블록도이다.
도 14b는 일 실시예에 따른 단말 장치의 구체화된 블록도이다.
도 15a는 일 실시예에 따른 카메라를 구성하는 블록도이다.
도 15b는 일 실시예에 따른 카메라와 단말 장치의 블록도이다.
도 16은 일 실시예에 따른 카메라 또는 단말 장치의 프로세서의 구조를 도시한다.
도 17은 일 실시예에 따라 단말 장치가 머리 방향 정보를 송수신하는데 시간이 소요됨을 나타내는 도면이다.
도 18은 일 실시예에 따라 머리 방향을 예측하는 방법을 설명하기 위한 도면이다.
도 19는 일 실시예에 따른 오디오 채널들의 상대적인 방향들을 나타낸다.
도 20은 일 실시예에 따라 M개의 마이크들이 설치된 카메라를 도시한다.
도 21은 일 실시예에 따른 카메라 또는 단말 장치의 프로세서의 구조를 도시한다.
도 22는 일 실시예에 따른 오디오 채널 컨트롤러의 동작을 설명하기 위한 도면이다.
도 23은 일 실시예에 따른 카메라 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
도 24는 일 실시예에 따른 카메라 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
도 25a는 일 실시예에 따른 HMD를 구성하는 블록도이다.
도 25b는 일 실시예에 따른 HMD와 단말 장치의 블록도이다.
도 26은 일 실시예에 따른 HMD 또는 단말 장치의 프로세서의 구조를 도시한다.
도 27은 일 실시예에 따른 HMD 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
도 28은 일 실시예에 따른 HMD 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
도 29는 일 실시예에 따른 HMD 측 단말 장치에게 전송되는 영상의 화각(Field of View, FOV)이 제한되어야 하는 경우를 도시한다.
도 30은 일 실시예에 따른 CMR(Codec Mode Request) 메시지 및 TMMBR(Temporary Maximum Media Bit-rate Request) 메시지의 구조를 도시한다.
도 31은 일 실시예에 따라 HMD 측 단말 장치에게 전달되는 영상의 FOV 및 오디오 채널들의 방향들을 조절하는 방법을 설명하기 위한 도면이다.
도 32a는 일 실시예에 따라 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법의 흐름도를 도시한다.
도 32b는 일 실시예에 따라 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법의 흐름도를 도시한다.
도 33 내지 도 36은 일 실시예에 따라 단말 장치들 간의 통화 조건 교섭을 통해 오디오 채널들의 방향들 및 영상의 FOV를 결정하는 과정을 도시한다.
도 37은 일 실시예에 따라 단말 장치들 간에 몰입형 멀티미디어 통신을 수행하는 방법을 설명하기 위한 도면이다.
도 38은 일 실시예에 따라 카메라 측 단말 장치가 주변 음향 환경을 분석한 결과를 도시한다.
도 39는 일 실시예에 따라 카메라 측 단말 장치가 주변 음향 환경을 고려하여, 오디오 채널들을 배치하고 비트 레이트를 할당하는 방법을 설명하기 위한 도면이다.
도 40 및 도 41은 일 실시예에 따라 HMD 측 단말 장치가 카메라 측 단말 장치에게 오디오 신호를 전송하기 위해 이용되는 비트 레이트를 조정할 것을 요청하는 제어 패킷의 형식을 도시한다.
도 42는 일 실시예에 따라 HMD 측 단말 장치가 카메라 측 단말 장치에게 영상의 FOV를 조정할 것을 요청하는 제어 패킷의 형식을 도시한다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
본 명세서에서 “영상”이란, 카메라에서 캡춰되어 HMD에게 전송되는 정지 영상, 동영상, 비디오 프레임, 비디오 스트림을 모두 포함할 수 있다.
본 명세서에서 “HMD(Head Mounted Display)”는, 사용자의 머리에 착용될 수 있는 디스플레이 장치이다. 예를 들어, HMD는 안경, 고글, 헬멧 등과 같은 형태를 가질 수 있다. HMD 장치는, 프레임 등에 의해 사용자의 머리에 임시적으로 고정될 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
몰입형 멀티미디어 통신 시스템은, 복수의 렌즈들을 통해 입력된 이미지들로부터 생성된 광각 영상과 복수의 마이크들을 통해 입력된 현장감 있는 음성을 제공할 수 있는 카메라 및 수신된 음성과 영상을 시청할 수 있는 HMD를 포함할 수 있다. HMD 및 카메라는, 멀티미디어 통신을 위하여 단말 장치에 연결되거나, 그 자체가 통신을 수행하는 단말 장치일 수 있다. HMD를 착용한 사용자는, 상하 전후 좌우 방향을 자유롭게 바라볼 수 있으며 사용자의 머리 방향 정보(Head Tracking Information)는 HMD에서 측정되어 지속적으로 전송될 수 있다.
예를 들어, 몰입형 멀티미디어 통신 시스템이 멀티미디어 스트리밍을 수행하는 경우, HMD는 머리 방향 정보를 스트리밍 서버에게 전송할 수 있다. 스트리밍 서버는, 360도 전 방향의 영상 정보를 전송하면서 특히 HMD 사용자의 머리 방향에 해당하는 영상의 화질을 보다 높여 전송할 수 있다. 오디오 신호의 경우, 스트리밍 서버는 네트워크 용량이 충분한 경우 모든 방향의 오디오 신호를 전송하고, HMD는 수신된 오디오 신호 중에서 현재 머리 방향에 대응하는 오디오 신호를 선택하여 선택된 오디오 신호를 사용자에게 출력할 수 있다. 사용자가 HMD를 통해 시청하는 영상의 내용과 청취하는 오디오의 내용이 일치하여야 한다.
만약, 스트리밍 서버가 모든 방향의 오디오 정보를 저장하기 어렵거나, 스트리밍 서버가 모든 방향의 오디오 정보를 HMD에게 전송하기 어려운 경우, 스트리밍 서버는, 좌, 우 두 채널의 오디오 신호만을 전송할 수 있다. HMD는, 사용자의 머리 방향에 맞추어 수신된 오디오 신호의 방향성을 조정할 수 있다. HMD는, 오디오 신호의 방향성을 조정하기 위해서, 디지털 필터링(Digital Filtering)의 한 방법인 Head-Related Transfer Function(HRTF)를 적용할 수 있다. HMD는, 방향성이 조정된 오디오 신호를 사용자에게 출력함으로써, 사용자에게 입체감을 제공할 수 있다.
MPEG Surround와 같은 종래의 오디오 압축 기술은, 5.1 채널 구조, 7.1 채널 구조 등으로 잘 알려진 전 방향 오디오 채널 구조들의 상관 관계를 이용한다. 종래의 오디오 압축 기술은, 오디오 채널 구조들의 상관 관계에 따라 다운 믹싱(down-mixing) 절차를 반복함으로써, 최종적으로 오디오 입력 신호를 두 채널에 대응하는 오디오 신호들로 압축할 수 있다. 종래의 오디오 압축 기술은, 오디오 압축에 사용된 다운 믹싱 절차와 공간 정보 파라미터(Spatial Parameter)를 비트 스트림(Bit-Stream)에 추가하고, 비트 스트림을 전송할 수 있다. 전송된 비트 스트림을 수신한 단말 장치는, 함께 수신된 정보를 활용하여 전 방향 오디오 채널들에 대응하는 오디오 신호들을 복구한 후 머리 방향의 오디오 신호를 선택하여 출력할 수 있다.
일 실시예에 따른 몰입형 멀티미디어 통신 시스템은, 유무선 통신 네트워크를 통한 멀티미디어의 실시간 전송을 수행할 수 있다. 몰입형 멀티미디어 통신 시스템이, 이동 통신 네트워크를 이용하는 경우, 언제 어느 장소에서나 서비스 제공이 가능하다는 장점이 있다. 그러나, 이동 통신 네트워크는, 제한된 무선 주파수 자원을 활용하고, 기지국 등의 설치로 인해 투자 비용이 높다는 단점이 있다. 따라서, 몰입형 멀티미디어 통신 시스템이, 이동 통신 네트워크를 이용하는 경우, HMD 사용자가 향하고 있지 않은 방향의 오디오와 영상까지 모두 송신하면서도 경제적인 전송 비용을 실현하기는 어렵다.
한편, HMD에게 두 채널의 오디오만을 전송하는 방식은, 전 방향 오디오 신호를 제공하기에는 음질에 한계가 있다는 단점이 있다. 예를 들어, 사용자의 머리가 뒷 방향을 향한 경우라도, 앞 방향의 오디오 신호들이 전송된다. 따라서, HMD가, 수신한 오디오 신호들을 뒷 방향에 대응되도록 HRTF를 이용하여 보정하더라도, 뒷 방향의 실제 오디오 신호가 HMD에게 전송되는 것이 아니기 때문에, HMD는 뒷 방향의 실제 오디오 신호와 동일한 소리를 그대로 출력할 수 없다.
일 실시예에 따른 몰입형 멀티미디어 시스템은, 저장되었던 오디오 신호를 전송하는 멀티미디어 스트리밍 뿐만 아니라, 카메라 측 단말 장치가 HMD 사용자의 실시간 머리 방향에 따라 오디오 신호를 실시간으로 압축하여 HMD 측 단말 장치에게 전송하는 경우에도 적용될 수 있다.
도 1은 일 실시예에 따른 몰입형 멀티미디어 통신을 설명하기 위한 도면이다.
일 실시예에 따르면, 몰입형 멀티미디어 통신 시스템은, 복수의 렌즈들을 통해 입력된 이미지들로부터 생성된 광각 영상과 복수의 마이크들을 통해 입력된 현장감 있는 음성을 제공할 수 있는 카메라(100) 및 수신된 음성과 영상을 시청할 수 있는 HMD(200)를 포함할 수 있다.
HMD(200)를 착용한 사용자는 상하 전후 좌우 방향을 자유롭게 바라볼 수 있고, 사용자의 머리 방향 정보(Head Tracking Information)는 HMD(200)에서 측정될 수 있다. HMD(200)에서 측정된 머리 방향 정보는, 영상 정보를 전송하는 카메라(100)에게 전송될 수 있다. 네트워크 용량이 충분한 경우, 카메라(100)는 모든 방향의 오디오 신호를 전송하고, HMD(200)는 현재 머리 방향에 해당하는 오디오 신호를 선택하여 청취할 수 있다. 이때 사용자가 보는 영상의 내용과 청취하는 오디오의 내용이 일치하여야 한다.
그러나, 몰입형 멀티미디어 통신 시스템이 이동 통신 네트워크를 이용하는 경우, HMD(200)의 사용자가 향하고 있지 않은 방향의 오디오와 영상까지 모두 전송하는 것은, 전송 비용의 부담을 발생시킬 수 있다. 따라서, 일 실시예에 따른 몰입형 멀티미디어 통신 시스템은 최소한의 비트 레이트로 최대한의 통화 품질을 제공하기 위해 고안되었다.
일 실시예에 따른 카메라(100) 측 단말 장치는, 원거리에 위치한 HMD(200)의 사용자의 머리 방향 정보를 네트워크를 통해 수신하고, 오디오 채널들의 방향을 결정할 수 있다. 카메라(100) 측 단말 장치는, HMD(200)의 사용자의 머리 방향 정보, 카메라(100)가 촬영하는 영상의 내용, HMD(200)의 사용자의 청각의 방향성 등을 고려함으로써, 오디오 채널들의 방향, 구성, 및 압축 방식을 결정할 수 있다. 카메라(100) 측 단말 장치는, 결정된 오디오 채널들의 방향에 대응하는 오디오 신호들을 생성하고, 생성된 오디오 신호들을 결정된 머리 방향 정보와 함께 HMD(200) 측 단말 장치에게 전송할 수 있다.
일 실시예에 따른 몰입형 멀티미디어 통신 시스템에 있어서, 카메라는, 이동 통신이 가능한 단말 장치와 연결되거나, 직접 이동 통신을 수행하는 단말 장치일 수 있다. 이하에서는, 직접 이동 통신을 수행하는 카메라 및 카메라와 연결된 단말 장치를 모두 포함하여, 카메라 측 단말 장치라고 칭한다.
또한, 일 실시예에 따른 몰입형 멀티미디어 통신 시스템에 있어서, HMD는, 이동 통신이 가능한 단말 장치와 연결되거나, 직접 이동 통신을 수행하는 단말 장치일 수 있다. 이하에서는, 직접 이동 통신을 수행하는 HMD 및 HMD와 연결된 단말 장치를 모두 포함하여, HMD 측 단말 장치라고 칭한다.
또한, 이하에서 단말 장치란, 카메라 측 단말 장치 또는 HMD 측 단말 장치를 의미할 수 있으며, 상대 단말 장치란, 카메라 측 단말 장치 또는 HMD 측 단말 장치를 의미할 수 있다. 예를 들어, 카메라 측 단말 장치의 상대 단말 장치는 HMD 측 단말 장치가 될 수 있다.
도 2는 일 실시예에 따른 몰입형 멀티미디어 통신 시스템의 전체 프로토콜 구조를 도시한다.
VoLTE(Voice over LTE)의 체계(framework)가 몰입형 멀티미디어 통신 시스템에도 이용될 수 있다.
몰입형 멀티미디어 통신 시스템은, 종래의 멀티미디어 통신 시스템과 비교하여, 1 채널 오디오(Mono)가 아닌 복수의 오디오 채널들을 이용한다는 점이 다르다. 몰입형 멀티미디어 통신 시스템은, 복수의 오디오 채널들 각각에 대하여 1개의 오디오 코덱을 이용할 수 있다.
또한, 몰입형 멀티 미디어 통신 시스템의 카메라 측 단말 장치는, 1 개의 렌즈가 아닌 복수의 렌즈들을 통해 입력된 이미지들을 스티칭(stitching)함으로써 생성된 광각(Wide-Angle) 이미지들을 영상 코덱으로 압축할 수 있다. 카메라 측 단말 장치는, 압축된 영상들을 HMD 측 단말 장치에게 전송할 수 있다.
도 2에서 Speech Codec은 멀티-채널 스피치/오디오 코덱들을 의미하고, Video Codec은 wide-angle optics에 연결된 높은 해상도의 비디오 코덱들을 의미할 수 있다. RTP(Real Time Protocol)은 인터넷과 LTE 등의 IP 기반 네트워크에서 실시간으로 데이터를 전송하는데 사용될 수 있다. RTP의 헤더는, 머리 방향 정보 또는 균등한 방향 정보를 운반하기 위해 확장될 수 있다. RTCP(Real Time Control Protocol)는 IP 기반 네트워크에서 실시간 데이터 전송을 제어하기 위해 사용될 수 있다. RTCP는, 멀티-채널 오디오 또는 광각 비디오의 혼잡(congestion)을 다루기(handling) 위한 제어 패킷들일 수 있다. IMS(IP Multimedia Subsystem)는, 오디오 채널 방향들 및 비디오 FOV(field of view)를 교섭하기 위한 절차들을 포함할 수 있다. 도 2에 도시되는 Modem은 5G 및 LTE 중 적어도 하나를 지원할 수 있다. Packet Data Convergence Protocol (PDCP), Radio Link Control (RLC), Media Access Control (MAC), 그리고 Physical Layer (PHY) 등은 단말과 기지국의 LTE 모뎀을 구성하는 통신 프로토콜들이다. Serving Gateway (S-GW), Packet Data Network Gateway (P-GW) 등은 코어 (Core) 네트워크를 구성하는 노드 (Node) 들이다.
오디오와 영상의 압축은, 오디오와 영상을 수신하는 카메라에서 이루어지거나, 카메라와 Wi-Fi, HDMI, 블루투스 등의 유무선 근거리 네트워크로 연결된 스마트폰 등의 단말 장치에서 이루어질 수 있다. 압축된 오디오와 영상은, LTE, 5G 등의 네트워크를 거쳐 HMD 측 단말 장치에게 전송될 수 있다. 카메라 측 단말 장치의 사용자의 상대방은, 단말 장치 또는 단말 장치에게 연결된 HMD를 통하여 수신된 오디오와 영상을 시청하게 된다. 음성 통화의 경우, 이러한 압축, 전송, 및 청취 과정을 최대 280 ms 이내에 완료하여야 한다.
일 실시예에 따른 카메라 측 단말 장치는, HMD 측 단말 장치로부터 HMD의 사용자의 머리 방향과 관련된 정보를 수신할 수 있다. 카메라 측 단말 장치는, 수신된 머리 방향 정보에 기초하여 오디오 채널들을 구성할 수 있다. 카메라 측 단말 장치는, 머리 방향 정보에 기초하여 사용자의 귀 방향을 추정함으로써, 귀 방향을 중심으로 청각의 특성을 고려하여 오디오 채널들을 구성할 수 있다. 카메라 측 단말 장치는, 오디오 채널들에 대응하는 오디오 신호들을 압축하고, 압축된 오디오 신호들을 HMD측 단말 장치에게 전송할 수 있다. 일 실시예에 따른 몰입형 멀티미디어 시스템에 있어서, 머리 방향 정보를 송수신하기 위한 형식은, 통화 조건 교섭 단계에서 결정될 수 있다.
일 실시예에 따른 머리방향 정보는 두 목적으로 사용될 수 있다.
첫번째 목적은, HMD 측 단말 장치에서, HMD 사용자의 현재 머리 방향을 카메라 측 단말 장치에게 알림으로써, 현재 머리 방향에 기초하여 예측되는 머리 방향을 기준으로 카메라 측 단말 장치가 오디오 채널을 구성하도록 하기 위함이다.
두번째 목적은, 카메라 측 단말 장치에서 이용되기 위함이다. 카메라 측 단말 장치는, HMD 측 단말 장치로부터 머리 방향 정보를 수신하고, 전송 지연을 고려하여 미래의 머리 방향을 예측할 수 있다. 카메라 측 단말 장치는, 예측된 머리 방향을 오디오 신호의 획득(capture)과 오디오 채널 구성에 기준으로 사용할 수 있다. 카메라 측 단말 장치는, 음성 프레임의 처리에 이용한 예측된 머리 방향을 음성 프레임과 함께 전송할 수 있다.
따라서, 일 실시예에 따른, 머리 방향 정보는 동일한 포맷으로 양 방향으로 지속적으로 전송되어야 하며, 카메라의 구조를 반영하여 생성되어야 한다.
도 3은 일 실시예에 따른 통화 조건 교섭 방법의 흐름도를 도시한다.
도 3은 카메라 측 단말 장치가, HMD측 단말 장치로부터 머리 방향 정보의 표현에 사용할 수 있는 최대 비트 수를 수신하고, 수신된 정보를 고려하여 머리 방향 정보를 구성하고 비트를 할당하는 절차를 도시하고 있다. 카메라측 단말 장치에서 결정된 머리 방향 정보의 형식을 통화 교섭(Session Negotiation) 단계에서 상대 단말 장치가 합의하면, 단말 장치와 상대 단말 장치는 결정된 형식에 따라 머리 방향 정보를 주고 받게 된다.
단계 S310에서 일 실시예에 따른 HMD측 단말 장치(200)는 머리 방향 정보에 사용 가능한 최대 비트수를 전송할 수 있다.
단계 S321에서 일 실시예에 따른 카메라측 단말 장치(100)는, 카메라의 형태에 따라 좌표계를 선정할 수 있다. 예를 들어, 카메라측 단말 장치(100)는, 카메라의 형태에 따라 좌표계를 원통형 좌표계 또는 구형 좌표계로 선정할 수 있다.
단계 S323에서 일 실시예에 따른 카메라측 단말 장치(100)는 카메라에 포함되는 마이크들의 배치에 따라, 사용자의 머리 방향을 나타내기 위한 각도 파라미터를 선정할 수 있다. 단계 S325에서 일 실시예에 따른 카메라측 단말 장치(100)는 각도 파라미터의 중요도를 결정하고, 단계 S327에서 카메라의 조정 단위를 고려하여 각도 파라미터 별로 할당되는 비트 수를 결정할 수 있다.
단계 S329에서 일 실시예에 따른 카메라측 단말 장치(100)는, 생략 가능한 각도 파라미터와 생략 조건을 결정할 수 있다. 단계 S331에서 일 실시예에 따른 카메라측 단말 장치(100)는 결정된 적어도 하나의 각도 파라미터를 전송하기 위해 필요한 비트 수를 계산하고, 계산된 비트수가 사용 가능한 최대 비트수보다 작은지 여부를 판단한다. 단계 S335에서 일 실시예에 따른 카메라측 단말 장치(100)는, 계산된 비트수가 사용 가능한 최대 비트수보다 작거나 같은 경우, 결정된 적어도 하나의 각도 파라미터 및 해당 각도 파라미터에게 할당되는 비트 수를 머리 방향 정보의 형식으로서 결정할 수 있다.
단계 S340에서 카메라측 단말 장치(100)는, HMD측 단말 장치(200)에게 결정된 머리 방향 정보 형식을 전송할 수 있다.
도 4는 일 실시예에 따라 머리 방향을 나타내는 각도 파라미터를 도시한다.
도 4의 (a)에 도시된 바와 같이, 일 실시예에 따른 단말 장치는, 머리 방향 정보를, 머리의 회전 방향을 나타내는 요(Yaw), 롤(Roll) 및 피치(Pitch)의 세 각도 파라미터들로써 표현할 수 있다. 또는, 도 4의 (b)에 도시된 바와 같이, 일 실시예에 따른 단말 장치는, (X,Y)로 도시된 HMD 시야 내의 게이즈 커서(Gaze Cursor)의 좌표를 이용하여 머리 방향 정보를 표현할 수 있다.
요(Yaw), 롤(Roll) 및 피치(Pitch) 파라미터를 이용하는 경우와 비교하여, 게이즈 커서의 좌표를 이용하는 경우, 3차원 방향 정보를 모두 표현할 수 없으나 측정 시 잡음 수준이 낮다는 장점이 있다. 일 실시예에 따르면, 머리 방향 정보는, 게이즈 커서가 위치하는 좌표 또는 영상을 분할하는 균일한 크기의 블록들 중에서 게이즈 커서가 위치하는 블록의 좌표를 포함할 수 있다. 게이즈 커서가 위치한 블록의 좌표를 전송하는 경우, 게이즈 커서의 좌표를 전송하는 경우에 비해, 이용되는 비트를 줄일 수 있다는 장점이 있다.
도 5 및 6은 일 실시예에 따라 카메라에 포함되는 마이크들의 배치를 도시한다.
도 5의 (a)에는 8개의 렌즈와 8개의 마이크를 장착한 구 형태의 카메라가 도시된다. 도 5의 (a)에 도시된 카메라는, 360도 모든 방향의 영상과 음성을 압축할 수 있다. 도 5의 (b)는, 도 5의 (a)에 도시된 카메라의 마이크들의 위치를 3차원 공간 상에 도시한 것이다. 각 화살표 방향으로 음성 또는 오디오 신호가 입력될 수 있다.
도 6의 (a)는 8개의 렌즈와 8개의 마이크를 장착한 원통 형태의 카메라를 도시한다. 도 6의 (a)에 도시된 카메라는, 360도 모든 방향의 영상과 음성을 압축할 수 있다. 도 5의 (a)에 도시된 카메라와 달리, 도 6의 (a)에 도시된 카메라는 원통형 몸체의 옆면에 마이크들이 배치되어 있다. 도 6의 (b)는, 도 6의 (a)에 도시된 카메라의 마이크들의 위치를 3차원 공간 상에 도시한 것이다.
MPEG Surround와 같은 종래의 오디오 압축 방식은 5.1 채널 구조, 7.1 채널 구조 등 일부 평면 구조의 오디오 채널들에 적용 가능하다. 그러나, 도 5 및 도 6에 도시된 바와 같이, 여러 마이크들이 다양한 입체적인 구조의 카메라 표면에 배치된 상황에서는 종래의 오디오 압축 방식이 적용되기 어렵다. 종래의 오디오 압축 방식에서는 평면 구조를 갖는 제한된 수의 오디오 채널들에게 최적화 되도록 다운 믹싱이 수행되어야 하기 때문이다. 또한, AMR, AMR-WB, EVS 등 이동 통신에서 사용되는 음성 및 오디오 압축 방식은, 실시간 전송을 위해 압축에 소요되는 시간을 최소화하는 것을 목적으로 개발되었기 때문에, 여러 방향의 오디오 신호를 비교하여 공통적인 정보를 추출하는 절차는 사용되지 않는다.
따라서, 이러한 종래 기술의 문제를 해결하기 위한 일 실시예에 따르면, 오디오 및 비디오의 획득(capturing) 또는 시청(presentation)이 평면이 아닌 입체적 구조에서 이루어지는 몰입형 멀티미디어 통신에 적합한 오디오 신호 송수신 방법이 제공된다.
도 7은 일 실시예에 따라 머리 방향 정보를 나타내기 위해 이용되는 좌표계를 도시한다. 일 실시예에 따르면, 머리 방향 정보를 나타내기 위해서, 구형 좌표계 또는 원통형 좌표계가 이용될 수 있다.
머리 방향 정보를 전송하기 위해서 이용되는 좌표계는, 카메라의 구조에 따라 선택될 수 있다. 도 5의 (a)와 같이 구형의 구조를 가진 카메라 표면에 마이크들이 배치된 경우, 구형 좌표계(Spherical Coordinate System)를 이용함으로써 머리 방향 정보를 공간 상에 표현할 수 있다. 도 6의 (a)와 같이, 원통형의 구조를 가진 카메라 표면에 마이크들이 배치된 경우, 원통형 좌표계(Cylindrical Coordinate System)를 이용하여 머리 방향 정보를 공간 상에 표현할 수 있다.
도 4의 (a)의 각도 파라미터들 중 요(Yaw) 및 피치(Pitch)로 지정하는 방향은 구형 좌표계 및 원통형 좌표계 모두에서 표현될 수 있다. 카메라가 고정되어 있는 경우, 롤(Roll) 파라미터의 전송은 불필요할 수 있다. 반면, 로봇, 드론 등의 이동하는 물체에 설치된 카메라의 경우, 롤(Roll) 파라미터가 필요할 수 있다. 이와 같이, 머리 방향 정보를 전송하기 위해서 이용되는 각도 파라미터는, 카메라의 구조에 따라 선택될 수 있다.
도 8은 일 실시예에 따라 단말 장치가 머리 방향 정보를 확장된 RTP 헤더 상에 탑재하는 방법을 설명하기 위한 도면이다.
일 실시예에 따른 단말 장치는, 머리 방향 정보를 전송하기 위해 음성 프레임을 전송하는 통신 채널과는 상이한 별도의 통신 채널을 사용할 수 있다. 또는, 일 실시예에 따른 단말 장치는, 음성 프레임과 함께 머리 방향 정보를 전송할 수 있다. 도 8에 도시된 바와 같이, 일 실시예에 따르면, 인터넷 표준기술인 RFC 5285(A General Mechanism for RTP Header Extensions)에서 정의한, RTP(Real Time Protocol)의 헤더를 확장하여 머리 방향 정보를 탑재하는 방법이 이용될 수 있다.
도 8의 (a)는, 요(Yaw), 롤(Roll), 피치(Pitch) 파라미터가 머리 방향 정보로서 상대 단말 장치에게 전송되는 경우를 도시한다. 도 8의 (b)는 게이즈 커서의 좌표가 머리 방향 정보로 상대 단말 장치에게 전송되는 경우를 도시한다. 예를 들어, 도 8에 도시된 바와 같이, 머리 방향 정보는, ID와 Length로 이루어지는 1 바이트의 헤더와 1 바이트의 제어(Control) 정보 다음에 위치할 수 있다.
머리 방향 정보는 지속적으로 전송되어야 한다. 머리 방향 정보는, 머리 방향 정보를 전송하지 않을 경우 음성 압축에 사용될 수 있는 비트 레이트를 소모하게 된다. 따라서, 머리 방향 정보의 전송은 최소화할 필요가 있다.
머리 방향 정보의 양을 최소화하기 위하여, 불필요한 파라미터는 전송되지 않아야 한다. 파라미터들의 상대적 중요도를 고려하여, 각 파라미터들에 대해서 상이하게 비트들이 할당되어야 한다.
예를 들어, 도 6의 (a)에 도시된 원통형의 카메라에서는 좌, 우 방향을 결정하는 Yaw 정보만 필요할 수 있다. 또 다른 예로서, 도 5의 (a)에 도시된 구형의 카메라 에서는 Yaw 정보가 Pitch 정보보다 정밀하게 표현되어야 할 수 있다.
또한, 카메라가 각 방향을 따라 조절 가능한 단계를 나타내기에 필요한 만큼만, 해당 방향에 대해서 비트가 할당되어야 한다. 카메라가 조절할 수 있는 각도의 단위보다 정밀한 각도를 나타내는 방향 정보가 전송될 경우, 비트 레이트가 낭비될 수 있다. 예를 들어, 16 단계로 방향을 조절 가능한 카메라에게 머리 방향 정보를 전송하기 위하여, 256 방향을 표현할 수 있는 8 비트가 할당된다면, 4 비트는 낭비된다.
도 9의 (a)는, 파라미터의 중요도에 따라 Yaw, Roll, Pitch 파라미터에 각각 8, 4, 4 비트가 할당된 경우를 도시하고 있다. 도 9의 (b)는 Yaw 파라미터 만이 전송되는 경우를 도시하고 있다. 한편, 일 실시예에 따른 단말 장치가, 도 9의 (a)과 같이 세 파라미터를 모두 전송하는 경우에도, 상황에 따라 도 9의 (b)처럼 일부 파라미터 만을 전송할 수도 있다. 예를 들어, Roll 정보는 필요하지 않고 Pitch 정보는 이전 프레임과 달라지지 않았거나 기본 값인 경우, 단말 장치는 Roll 및 Pitch 파라미터를 전송하지 않을 수 있다. 이러한 머리 방향 정보의 구성 및 생략 조건은 카메라의 구조를 반영하여 통화 조건 교섭 단계에서 결정되어야 한다.
HMD와 카메라는, 직접 통신하여 통화 조건을 교섭하거나, 각각 연결된 단말을 경유하여 통화 조건을 교섭할 수 있다. 통화 조건 교섭이란, LTE, 5G 등 이동 통신 네트워크와 유선 네트워크의 전송 경로의 특성과 사용할 코덱, 비트레이트(bit-rate), 대역폭(bandwidth) 및 패킷화(packetization) 방법 등을 단말 장치들 간의 상호 협의를 통해 결정하는 절차이다. 통화 조건 교섭에는, IP Multimedia Subsystem(IMS)이 이용될 수 있다.
Proxy Call Session Control Function(P-CSCF), Session Call Session Control Function(S-CSCF), Interrogating Call Session Control Function(I-CSCF), 그리고 Policy and Charging Rules Function(PCRF)는 IMS를 구성하는 네트워크 노드 들이다.
통화 조건 교섭에 있어서, 단말 장치들 간에는 Session Initiation Protocol(SIP) 메시지가 교환된다. SIP 메시지 내부에서 미디어 관련 정보를 서술하는 프로토콜이 Session Description Protocol(SDP)이다. 도 10 내지 도 13은 일 실시예에 따른 몰입형 멀티미디어 시스템에 있어서, HMD 측 단말 장치와 카메라 측 단말 장치가 SDP를 이용하여 머리 방향 정보의 구성 방법을 교섭(negotiate)하는 절차를 도시한다. 도 10 내지 도 13에서는, HMD의 제안에 대하여 카메라가 답하는 형식을 따르고 있으나, 그 반대도 가능하다.
도 10 내지 도 13에서 HMD와 연결된 단말 장치 A는, 각각 24.4 kbps로 EVS 코덱을 사용하여 압축된 두 개의 오디오 채널들을 포함하는 음성 스트림을 68kbps까지 송수신 가능하고, 4K 또는 1080p 해상도로 HEVC 코덱을 사용하여 압축한 비디오 스트림을 15 Mbps까지 송수신 가능함을 카메라와 연결된 단말 장치 B에게 제안한다. 단말 장치 A는, 각각 24.4kbps로 EVS 코덱을 사용하여 압축된 2 개의 오디오 채널과 IP 오버헤드를 포함하는 음성 스트림을 총 68 kbps까지 수용 가능함을 단말 장치 B에게 제안하였다.
단말 장치의 A의 제안에 대하여 단말 장치 B는 제안된 음성 스트림과 비디오 스트림을 수용하면서 수신 비디오의 비트 레이트를 10 Mbps로 축소하는 조건으로 답변하였다. b=AS는 음성 또는 영상 프레임의 비트 레이트와 RTP/UDP/IP 헤더의 비트 레이트를 합한 값을 나타낸다. 도 8에 도시된 바와 같이, ID, Length 필드(Field), 제어 정보 바이트 다음에 1 내지 3 바이트의 머리 방향 정보를 추가하더라도 b=AS는 68 kbps로 동일할 수 있다. 이는 b=AS의 계산 과정에서 가장 가까운 정수 값으로 올림(Round-Up) 하기 때문이다.
도 10 내지 13에서, 단말 장치 A가 2 내지 3 바이트를 머리방향 정보에 사용할 것을 제안하는 경우가 예로 들어 도시된다. 도 10 내지 13에서, 단말 장치 B는, 카메라의 구조를 고려하여 In-band Signal Minimizer의 절차를 사용하여 1 내지 2 바이트의 머리 방향 정보를 사용하도록 답변하는 경우가 예로 도시된다.
도 10은 3 바이트를 머리 방향 정보에 사용하자는 단말 장치 A의 제안에 대해 Yaw, Roll, Pitch에 각각 1 바이트를 사용하자는 단말 장치 B의 답변을 도시하고 있다. 도 11은 3 바이트를 머리 방향 정보에 사용하자는 단말 장치 A의 제안에 대해 Yaw와 Pitch에 각각 1 바이트를 사용하고 Roll은 사용하지 말자는 단말 장치 B의 답변을 도시하고 있다.
도 10 및 11에는 각도 파라미터에 대해서 동일한 수의 비트를 할당하는 경우를 예로 들어 도시하였지만, 실시예는 이에 제한되지 않는다. 단말 장치 B는, 각도 파라미터의 중요도에 따라 서로 다른 수의 비트들을 각 각도 파라미터에게 할당할 수 있다. 예를 들어, 3 바이트를 머리방향 정보에 사용하자는 단말 장치 A의 제안에 대하여, 단말 장치 B는, Yaw에 1 바이트를, Roll, Pitch에는 각각 4 비트를 사용하자고 답변할 수 있다.
도 12는 2 바이트를 머리 방향 정보에 사용하자는 단말 장치 A의 제안에 대해 게이즈 커서가 속한 블록의 좌표를 각각 1 바이트로 표시하자는 단말 장치 B의 답변을 도시하고 있다. 몰입형 통화에서 전송되는 영상의 해상도가 가로 X, 세로 Y 픽셀이라고 하면 각 블록의 크기는 X/2^8=X/256 보다 큰 가장 작은 정수 값이 될 수 있다. 도 13은 2 바이트를 머리방향 정보에 사용하자는 단말 장치 A의 제안에 대해 게이즈 커서(Gaze Cursor)가 속한 블록의 위치를 가로방향 12 비트, 세로방향 4 비트로 표시하자는 단말 장치 B의 답변을 도시하고 있다.
도 14a 및 도 14b는 일 실시예에 따라 몰입형 멀티미디어 통신을 수행하는 단말 장치의 블록도이다. 일 실시예에 따른 단말 장치(1400)는 멀티미디어 통신을 지원할 수 있다.
일 실시예에 따른 몰입형 멀티미디어 통신 시스템에 포함되는 단말 장치(1400)는, 수신부(1410), 프로세서(1420), 통신부(1430), 및 출력부(1440)를 포함할 수 있다. 그러나, 도 14a에 도시된 구성 요소 모두보다 많은 구성 요소에 의해 단말 장치(1400)가 구현될 수도 있다. 예를 들어, 도 14b에 도시된 바와 같이, 일 실시예에 따른 단말 장치(1400)는, 사용자 입력부(1450) 및 메모리(1460)를 더 포함할 수 있다.
예를 들어, 일 실시예에 따른 단말 장치(1400)는, 스마트 폰, 웨어러블 디바이스, 태블릿 PC, PC, 스마트 TV, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, MP3 플레이어, 및 디지털 카메라 등을 포함할 수 있으나, 이에 제한되지 않는다. 단말 장치(1400)는, 앞서 언급한 장치들 이외의 기타 모바일 컴퓨팅 장치 또는 비 모바일 컴퓨팅 장치일 수 있다.
멀티미디어 통신을 지원하는 단말 장치(1400)에는 데이터와 멀티미디어를 전송하기 위한 인터페이스(Interface)가 설치되어 있을 수 있다. 오디오의 입출력을 위해서는 마이크(1411)와 스피커(1441), 오디오 신호의 압축을 위한 코덱(1421, 1425)이 필요하다. 정지 영상 및 동영상의 입출력을 위해서는 카메라(1413)와 디스플레이(1443), 정지 영상 및 동영상 압축을 위한 코덱(1423, 1427)이 필요하다. 이러한 인터페이스 장치는 LTE, 5G 등 이동통신 네트워크에 접속하기 위한 모뎀(Modem)에 3GPP Layer 2 인터페이스로 연결된다.
수신부(1410)는, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신할 수 있다. 수신되는 음향 발신 신호 및 영상 발신 신호 중 적어도 하나는 외부 장치에게 전송하기 위해 단말 장치의 외부로부터 수신된 신호일 수 있다. 수신부(1410)는, 마이크로폰(Microphone)을 이용하여, 외부의 소리를 전기적인 음향 데이터로 변환함으로써 음향 발신 신호를 수신할 수 있다. 또는, 수신부(1410)는, 카메라를 이용하여, 단말 장치 외부의 물체들을 촬영한 영상을 영상 발신 신호로서 수신할 수 있다. 예를 들어, 수신부(1410)는, 단말 장치(1400)가 통화 기능을 수행하는 도중에, 사용자의 얼굴, 배경 영상, 사용자의 음성 및 배경 소리 중 적어도 하나를 수신할 수 있다.
프로세서(1420)는, 수신된 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 압축할 수 있다. 프로세서(1420)는, 음향 신호를 압축함에 있어서, 오디오 모드 또는 음성 모드에서 동작할 수 있다. 일 실시예에 따른 프로세서(1420)는, 오디오 모드에서 음향 신호를 압축함으로써, 음성 이외의 오디오 신호의 고품질 전송을 가능하게 할 수 있다.
음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고, 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드일 수 있다. 예를 들어, 프로세서(1420)가 음향 신호를 압축하기 위해서 EVS(Enhanced Voice Services) 코덱을 이용하는 경우에, 음성 모드는, ACELP(Algebraic Code-Excited Linear Prediction) 방식을 이용하여 음향 신호를 압축하는 모드이고, 오디오 모드는, MDCT(Modified Discrete Cosign Transform) 방식을 이용하여 음향 신호를 압축하는 모드일 수 있다.
오디오 모드는 음성 모드보다 평균적으로 높은 비트-레이트를 소모하므로 네트워크의 용량에 부담을 줄 수 있다. 또한, 음성 신호가 입력되는 경우에 프로세서(1420)가 오디오 모드에서 동작하게 되면, 압축된 신호에 포함되는 높은 수준의 배경 잡음 또는 압축된 신호의 넓은 대역폭에 의해 통화 품질이 오히려 악화될 수 있다. 따라서, 일 실시예에 따른 프로세서(1420)는, 음성 이외의 오디오 신호를 고품질로 전송해야 하는 경우에만 오디오 모드에서 동작할 수 있다. 프로세서(1420)는, 음성 모드와 오디오 모드 간에 자동적으로 전환되어 동작할 수 있다.
프로세서(1420)는, 영상 발신 신호 및 음향 발신 신호 중 적어도 하나를 주기적으로 샘플링 (sampling) 할 수 있다. 프로세서(1420)는, 영상 발신 신호의 경우, 특정한 순간에 샘플링한 한 장의 화면을 한 프레임으로서 결정할 수 있다. 프로세서(1420)는, 음향 발신 신호의 경우, 특정한 기간 동안 샘플링한 값들을 한 프레임으로서 결정할 수 있다. 프로세서(1420)는, 프레임 단위로 분할된 발신 신호를 처리할 수 있다. 프로세서(1420)는, 발신 신호의 각 프레임을 주파수-도메인 계수들로 변환하고, 주파수-도메인 계수들을 양자화함으로써, 비트스트림을 생성 할 수 있다.
또한, 프로세서(1420)는 단말 장치(1400)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1420)는, 수신부(1410), 통신부(1430), 및 출력부(1440)를 제어할 수 있다.
통신부(1430)는, 압축된 음향 발신 신호 및 압축된 영상 발신 신호 중 적어도 하나를 외부 장치에게 전송하고, 외부 장치로부터 음향 수신 신호 및 영상 수신 신호 중 적어도 하나를 수신할 수 있다. 예를 들어, 통신부(1430)는 이동 통신 네트워크를 통해 외부 장치와 통신할 수 있다. 통신부(1430)는, 통신부(1430)가 위치한 커버리지를 담당하는 기지국과 음성 및 데이터 패킷들을 주고받음으로써 외부 장치와 통신할 수 있다. 통신부(1430)는 이동 통신 네트워크를 통해 외부 장치와 통신할 수 있다. 또는, 통신부(1430)는, Wi-Fi, HDMI, 블루투스 등의 유무선 근거리 통신을 지원함으로써, 외부 장치와 통신할 수 있다. 예를 들어, 통신부(1430)는, 단말 장치(1400)에게 연결된 HMD 또는 카메라와 유선 또는 무선으로 음향 신호 및 영상 신호를 송수신할 수 있다.
또한, 통신부(1430)는, 네트워크를 통해 통화 조건을 수신할 수 있다. 통신부(1430)는, 네트워크를 통해 통화의 대상이 되는 외부 장치와 교섭함으로써 결정된 통화 조건을 수신할 수 있다. 결정된 통화 조건은, 세션 기술 프로토콜(Session Description Protocol, SDP) 메시지로 표현될 수 있다. 통화 조건에는 비트-레이트 및 대역폭과 관련된 조건들이 포함될 수 있다.
출력부(1440)는, 외부 장치로부터 수신된 음향 수신 신호를 출력할 수 있다. 출력부(1440)는, 단말 장치(1400)가 통화 기능을 수행하는 화면을 출력할 수 있다. 출력부(1440)는, 스피커에 의해 음향 수신 신호를 소리로 변환함으로써 음향 수신 신호를 출력할 수 있다. 출력부(1440)는, 단말 장치(1400)와 연결될 이어폰에게 음향 수신 신호를 출력할 수 있다.
또는, 출력부(1440)는, 디스플레이를 통해 영상 수신 신호를 출력할 수 있다. 예를 들어, 출력부(1440)는, 단말 장치(1400)가 통화 기능을 수행하는 도중에, 상대방의 얼굴, 외부 장치가 위치한 주변 환경에 관한 영상, 상대방의 음성 및 배경 소리 등을 출력할 수 있다. 출력부(1440)를 통해 출력되는 신호들은, 통신부(1430)에서 수신된 비트스트림을 프로세서(1420)에서 복호화함으로써, 회복된 신호들일 수 있다.
도 14b에 도시된 바와 같이, 일 실시예에 따른 단말 장치(1400)는, 사용자 입력부(1450) 및 메모리(1460)를 더 포함할 수 있다.
사용자 입력부(1450)는 단말 장치(1400)를 제어하기 위한 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력부(1450)는 터치 패드(1451)를 통해 터치 입력을 수신하거나, 버튼(1453)을 통해 푸시 입력을 수신할 수 있으나, 이에 제한되지 않으며 다양한 사용자 입력을 수신할 수 있다.
메모리(1460)는, 음향 발신 신호, 영상 발신 신호, 음향 수신 신호, 영상 수신 신호, 통화 조건 중 적어도 하나를 저장할 수 있다. 또한, 메모리(1460)는, 단말 장치(1400)를 제어하기 위해서 프로세서(1420)에서 실행되는 명령들을 저장할 수 있다.
한편, 도 14b에 도시된 프로세서(1420)에 포함되는 블록들의 일부 또는 전부는, 특정 기능을 실행하는 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 도 14b에 도시된 블록들이 수행하는 기능들은, 적어도 하나의 마이크로프로세서에 의해 구현되거나, 해당 기능을 위한 회로 구성들에 의해 구현될 수 있다. 도 14b에 도시된 블록들의 일부 또는 전부는 프로세서(1420)에서 실행되는 다양한 프로그래밍 언어 또는 스크립트 언어로 구성된 소프트웨어 모듈일 수 있다.
음향 신호의 입출력을 위해서, 단말 장치(1400)는, 음향 신호를 수신하는 마이크로폰(1411), 음향 신호를 압축하는 오디오 인코더(1421), 압축된 음향 신호를 복호화 하는 오디오 디코더(1425), 및 음향 신호를 출력하는 스피커(1441)를 포함할 수 있다.
영상 신호의 입출력을 위해서, 단말 장치(1400)는, 영상 신호를 수신하는 카메라(1413), 영상 신호를 압축하는 비디오 인코더(1423), 압축된 영상 신호를 복호화하는 비디오 디코더(1427), 및 영상 신호를 출력하는 디스플레이(1443)를 포함할 수 있다.
통신부(1430)는, 프로세서(1420)에서 패킷 단위로 압축된 신호들을 송신하기 위한 패킷-기반 네트워크 인터페이스(packet-based network interface)를 포함할 수 있다. 통신부(1430)는, 이 인터페이스를 통해 패킷 단위로 압축된 신호들을 수신할 수 있다. 통신부(1430)는 2/3G 또는 LTE 등의 통신 네트워크에 접속하기 위한 모뎀(Modem)의 3GPP(3rd Generation Partnership Project) Layer 2 인터페이스에게 연결될 수 있다. 통신부(1430)는, 유선 네트워크, 인터넷, Wi-Fi 등 다른 네트워크에 접속하기 위해서 해당 네트워크의 인터페이스에 연결된다.
오디오 인코더(1421) 및 오디오 디코더(1425)는, 입력되는 음향 신호 또는 영상 신호, 사용자 입력 및 네트워크 신호 중 적어도 하나에 의해 동작 방법이 결정될 수 있다. 네트워크 및 통화 상대 단말과의 통신을 위한 교섭에 기초하여, 코덱, 비트-레이트(bit-rate) 및 대역폭(bandwidth) 등이 결정될 수 있다. 단말 장치(1400)는, 결정된 코덱과 비트-레이트 및 대역폭에 기초하여, 음향 신호를 압축하고, 네트워크를 통해 압축된 음향 신호를 전송할 수 있다. 단말 장치(1400)는, 상대 단말 장치에서 전송한 음향 신호를 수신하여 복원할 수 있다.
도 14a 및 도 14b는, 몰입형 멀티미디어 통신 시스템에 있어서, 카메라 기능 및 디스플레이 기능을 제공하는 단말 장치를 이용하는 경우를 예로 들어 도시하였다.
한편, 도 1에 도시된 바와 같이, 일 실시예에 따른 몰입형 멀티미디어 시스템은, 오디오 및 영상 캡쳐에 특화된 카메라와 오디오 및 영상 출력에 특화된 HMD를 포함할 수 있다.
도 15a는 일 실시예에 따른 카메라를 구성하는 블록도이다.
일 실시예에 따른 몰입형 멀티미디어 시스템에 포함되는 카메라(1510)는 직접 이동 통신을 수행하는 단말 장치일 수 있다.
카메라(1513)는, 영상 신호를 수신할 수 있다. 마이크(1515)는, 오디오 입력 신호들을 수신할 수 있다.
프로세서(1511)는, 상대 단말 장치로부터 수신한 패킷으로부터 상대 단말 장치의 사용자의 머리 방향 정보를 추출할 수 있다. 프로세서(1511)는, 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상대 단말 장치의 사용자의 머리 방향을 예측할 수 있다. 프로세서(1511)는, 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정할 수 있다. 프로세서(1511)는, 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성할 수 있다.
프로세서(1511)는, 상대 단말 장치와의 통화 조건 교섭 단계에서, 머리 방향 정보를 송수신 하기 위한 형식을 결정할 수 있다. 또한, 프로세서(1511)는, 오디오 신호를 상대 단말 장치에게 전송하기 위하여, 카메라(1513), 마이크(1515), 및 통신부(1517)를 제어할 수 있다.
프로세서(1511)는, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정할 수 있다. 프로세서(1511)는, 상대 단말 장치와의 통화 조건 교섭 단계에서 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정할 수 있다. 프로세서(1511)는, 마이크(1515)를 통해 수신되는 오디오 입력 신호들을 조합함으로써, 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성할 수 있다.
통신부(1517)는, 프로세서(1511)에서 생성된 오디오 출력 신호들을 상대 단말 장치에게 전송할 수 있다. 통신부(1517)는, 예측된 머리 방향과 관련된 정보, 오디오 출력 신호들 및 영상 신호 중 적어도 하나를 상대 단말 장치에게 전송할 수 있다. 통신부(1517)는, 프로세서(1511)에서 결정된 오디오 채널들의 방향들에 대한 정보를 전송할 수 있다.
도 15a에는 도시되지 않았지만, 일 실시예에 따른 카메라(1510)는, 출력부(미도시)를 더 포함할 수 있다. 출력부(미도시)는, 카메라(1510)의 표면 상에 위치할 수 있다. 예를 들어, 출력부(미도시)는 카메라(1510)의 표면에 분산되어 위치한 복수의 LED(Light Emitting Diode)들을 포함할 수 있다. 출력부(미도시)는, HMD 측 단말 장치로부터 수신되는 사용자의 시선 위치를 표시할 수 있다. 그러나 실시예는 이에 제한되지 않으며, 일 실시예에 따른 카메라는 다양한 방식으로 사용자의 시선 위치를 표시할 수 있다. 일 실시예에 따른 카메라는, 송신자에게 수신자의 현재 시점을 알림으로써 자연스러운 가상 통화를 가능하게 할 수 있다.
도 15b는 일 실시예에 따른 카메라와 단말 장치의 블록도이다.
일 실시예에 따른 몰입형 멀티미디어 시스템에 포함되는 카메라(1510)는 단말 장치(1520)와 연동하여 동작할 수 있다.
이 때, 카메라(1510)와 연동하여 동작하는 단말 장치(1520)는, 프로세서(1521) 및 통신부(1523)를 포함할 수 있다. 도 15b에는 생략되었지만, 단말 장치(1520)는, 도 14a에 도시된 단말 장치(1400)에 포함될 수 있다. 따라서, 도 15b와 관련하여서는, 도 14a, 도 14b, 및 도 15a에 대한 설명이 적용될 수 있다. 중복되는 설명은 생략한다.
프로세서(1521)는, 상대 단말 장치로부터 수신한 패킷으로부터 상대 단말 장치의 사용자의 머리 방향 정보를 추출할 수 있다. 프로세서(1521)는, 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측할 수 있다. 프로세서(1521)는, 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정할 수 있다.
프로세서(1521)는, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정할 수 있다. 프로세서(1521)는, 사용 가능한 좌표계의 종류, 수신 가능한 오디오 채널의 수, 카메라 표면의 복수의 마이크들의 배치, 카메라 주변의 음향 환경, 상대 단말 장치에게 전송되는 영상의 화각(Field of View, FOV), 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 대한 정보에 기초하여, 오디오 채널들의 방향들을 결정할 수 있다.
프로세서(1521)는, 카메라(1510)에서 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성할 수 있다. 프로세서(1521)는, 단말 장치(1520)의 전반적인 동작을 제어할 수 있다.
통신부(1523)는, 단말 장치(1520)와 연결된 외부 장치로부터, 영상 신호 및 오디오 입력 신호들 중 적어도 하나를 수신할 수 있다. 통신부(1523)는, 카메라(1510)로부터, 영상 신호 및 오디오 입력 신호들 중 적어도 하나를 수신할 수 있다. 통신부(1523)는, 예측된 머리 방향과 관련된 정보, 오디오 출력 신호들 및 영상 신호 중 적어도 하나를 상대 단말 장치에게 전송할 수 있다. 통신부(1523)는, 프로세서(1521)에서 결정된 오디오 채널들의 방향들에 대한 정보를 상대 단말 장치에게 전송할 수 있다.
이하, 도 16 내지 24를 참조하여, 일 실시예에 따른 카메라 측 단말 장치가, HMD의 사용자의 머리 방향을 고려하여 HMD 측 단말 장치에게 오디오 신호를 전송하는 구체적인 방법을 설명한다.
도 16은 일 실시예에 따른 카메라 측 단말 장치의 프로세서의 구조를 도시한다.
일 실시예에 따른 카메라 측 단말 장치는, HMD 측 단말 장치로부터, HMD를 착용한 사용자의 머리 방향 정보를 전송 받을 수 있다. 일 실시예에 따른 카메라 측 단말 장치는, 전송 받은 머리 방향을 기초로 오디오 채널들의 방향을 결정할 수 있다. 일 실시예에 따른 카메라 측 단말 장치는, 결정된 오디오 채널들에 대응하는 오디오 신호들을 압축하고 전송할 수 있다.
먼저, 블록(1610)에서, 단말 장치는, 수신한 패킷에서 RTP/UDP/IP 헤더를 제거하고, RTP 헤더로부터 머리 방향 정보를 추출할 수 있다. RTP 헤더로부터 추출되는 머리 방향 정보는, 요(Yaw), 롤(Roll), 피치(Pitch) 중 적어도 하나의 각도 파라미터를 포함하거나, 게이즈 커서의 좌표를 포함할 수 있다.
Audio Tracker(1620)는, 미래의 머리 방향을 예측하고, 예측된 머리 방향에 따른 오디오 채널들의 방향을 결정할 수 있다.
도 17에는 HMD 측 단말 장치가 연결된 네트워크를 운영하는 서비스 제공자 A(Service Provider A) 및 카메라 측 단말 장치가 연결된 네트워크를 운영하는 서비스 제공자 B(Service Provider B)가 도시된다.
도 17에 도시된 바와 같이, 카메라 측 단말 장치에서 수신한 머리 방향 정보는, HMD에서 적어도 T초 이전에 결정된 정보이다. 예를 들어, T초는, HMD로부터 카메라까지의 전송시간일 수 있다. LTE 등 음성통신을 지원하는 이동통신 네트워크의 경우, T 초는 약 150 ms일 수 있다.
카메라 측 단말 장치에서 압축하여 전송하는 오디오 프레임 역시 적어도 T 초 이후에 HMD 측 단말 장치에게 도달하게 된다. 따라서 Audio Tracker(1620)는 도 18에 도시된 바와 같이 최근 L 초간 수신된 머리 방향 정보를 분석하여 약 T 초 이후의 머리 방향을 예측할 수 있다. 예를 들어, Audio Tracker(1620)는, 선형 보간법(Linear Interpolation) 등의 다양한 신호 처리 방법을 이용하여, HMD 사용자의 머리 방향을 예측할 수 있다.
다음으로, Audio Tracker(1620)는 예측된 머리 방향에 따라 오디오 채널들의 방향을 예측할 수 있다.
도 19의 (a)는, 몰입형 멀티미디어 통신 시스템이나 서라운드 사운드 시스템에서 사용되는 오디오 채널 구조의 한 예를 도시한다. 중앙의 청취자를 향하여 N 방향에서 오디오 신호가 전달되며 각 방향의 신호는 1개의 오디오 채널을 필요로 한다. 도 19의 (a)에 도시된 오디오 채널 구조에 있어서, 머리 방향은 중앙의 채널 1의 방향과 일치한다. 그러나 실시예는 이에 제한되지 않으며, 청취자의 머리 방향을 중심으로 좌우에 채널이 위치한 스테레오의 경우처럼 머리 방향과 일치하는 방향에 오디오 채널이 존재하지 않을 수도 있다. 도 19의 (a)에는, 평면 상에 오디오 채널들이 배치되는 것으로 도시되었으나, 실시예는 이에 제한되지 않는다.
도 19의 (b)는 HMD 사용자의 머리 방향을 나타내는 Yaw, Roll, Pitch 정보가 (φ, θ, ρ)이라고 할 때, HMD 사용자의 머리 방향을 기준으로 N 오디오 채널들의 방향을 도시한다. 청취자의 머리 방향이 변화함에 따라 각 오디오 채널의 방향이 변하게 되지만, 오디오 채널들 간의 상대적 방향의 차이는 일정하게 유지된다.
Audio Tracker(1620)는, 오디오 채널 구조로서 표 1의 정보를 수신할 수 있다. 오디오 채널 구조는, 통화 조건 교섭 단계에서 결정되어 audio tracker(1620)에게 전송될 수 있다.
Channel Number 1 2 ... N
Yaw φ+Δφ1 φ+Δφ2 ... φ+ΔφN
Roll θ+Δθ1 θ+Δθ2 ... θ+ΔθN
Pitch ρ+Δρ1 ρ+Δρ2 ... ρ+ΔρN
표 1의 ΔφN, ΔθN,ΔρN은, 첫번째 채널의 방향 (φ, θ, ρ)과 N번째 채널의 방향 간의 차이를 나타낸다.
도 19의 (c)는, 도 19의 (a)와 비교하여 사용자의 머리 방향이 ω1 라디안만큼 변화한 상황을 도시하고 있다. 머리 방향이 변화함에 따라 각 오디오 채널의 방향이 변하지만, 오디오 채널들 간의 상대적 방향의 차이는 일정하게 유지된다.
한편, 오디오 채널의 수는 카메라에 설치된 마이크의 수와 관련이 없다. 도 20은, M 개의 마이크가 설치된 카메라를 도시한다. 일 실시예에 따른 카메라 측 단말 장치는, M 개의 마이크로부터 입력되는 신호들을 조합함으로써, 도 19에 도시된 N 개의 오디오 채널들에 대응하는 오디오 신호들을 구성할 수 있다.
Audio Tracker(1620)에서는 상대 단말 장치로부터 머리 방향 정보를 전송 받고, 미래의 머리 방향 정보를 예측하고 미래의 머리 방향에 대한 오디오 채널의 방향을 환산할 수 있다.
다음으로, In-band Signaling Minimizer(1630)는, Audio Tracker(1620)에서 예측된 머리 방향을 멀티미디어 통신에서 이용할 수 있는 방향으로 변환한다. 수신된 패킷으로부터 추출되어 Audio Tracker(1620)에게 전달된 머리 방향 정보는, 미리 결정된 제한된 수의 비트 수로 표현된 정보이다. 그러나, Audio Tracker(1620)에서 L 초간 입력된 값들에 기반하여 예측한 미래의 머리 방향은 제한된 비트의 수를 초과하거나 카메라가 향할 수 없는 방향일 수 있다.
In-band Signaling Minimizer(1630)는, 머리 방향 표현에 사용 가능한 최대 비트 수, 마이크의 배열 형태, 채널 조정 단위 등의 정보를 기반으로, 예측된 머리 방향과 예측된 머리 방향에 기초하여 결정된 오디오 채널들의 방향들을 실제 적용할 수 있고 표현할 수 있는 방향으로 변환할 수 있다. In-band Signaling Minimizer(1630)는, 통화 조건 교섭 단계에서 중요도에 따라 상이한 비트를 할당하고, 비트 수를 제한함으로써, 송수신되는 머리 방향 정보의 양을 최소화할 수 있다.
Audio Encoder(1640)에서는, In-band Signaling Minimizer(1630)에서 변환한 각 오디오 채널의 방향에 따라 각 마이크에서 수신된 입력 신호를 조합함으로써, 각 오디오 채널에 대응하는 오디오 출력 신호를 구성하고 인코딩 할 수 있다. Audio Encoder(1640)는, 오디오 출력 신호들을 샘플링하고, 프레임 단위로 분할할 수 있다. Audio Encoder(1640)는, 각 프레임을 주파수-도메인 계수들로 변환하고, 주파수-도메인 계수들을 양자화함으로써, 비트 스트림을 생성 할 수 있다.
블록(1650)에서, In-band Signaling Minimizer(1630)에서 변환된 예측된 머리 방향 정보는, 예측된 머리 방향에 기초하여 결정된 오디오 채널들의 프레임들과 함께 상대 단말 장치에게 전송될 수 있다. 예측된 머리 방향 정보는, 상대 단말 장치에게 전송할 패킷의 RTP 헤더 상에 탑재되어 전송될 수 있다.
도 21은 도 16의 Audio Encoder(1640)의 구조를 보다 구체적으로 도시한다.
Audio Channel Controller(2110)는 In-band Signaling Minimizer(1630)에서 변환된 각 오디오 채널의 방향에 따라 마이크들의 입력 신호들을 조합함으로써, 각 오디오 채널에 대응하는 오디오 신호를 구성할 수 있다. Audio Channel Controller(2110)는, 각 오디오 채널에 대응하는 오디오 신호를 Speech Encoder에게 입력할 수 있다. 도 21은 M 개의 마이크들로부터 수신된 입력 신호들로부터 N 개의 오디오 채널들에 대응하는 오디오 신호들을 구성하는 경우를 도시한다. 도 21은 N 개의 오디오 채널들에 대응하는 오디오 신호들을 Speech Codec Mode Controller(2120)가 관리하는 경우를 도시한다.
도 21에서 예로 들어 도시된 바와 같이, Audio Channel Controller(2110)는, 각 오디오 채널의 방향에 대응하는 오디오 신호를 구성하기 위해 빔 포밍(Beam Forming)을 수행할 수 있다. 빔 포밍이란, 각 오디오 채널의 입력 신호를 구성하기 위해 마이크들에서 수신되는 입력 신호들의 delay와 gain을 조절함으로써, 해당 오디오 채널의 방향으로 오디오 신호의 세기를 최대화하는 동작을 의미한다. 도 21은, 빔 포밍의 일 예로서, 지연 후 합(Delay-and-Sum) 빔 포밍을 이용하는 경우를 예로 들어 도시하고 있다. 도 22에 도시된 바와 같이, Audio Channel Controller(2110)는 오디오 채널의 방향에 가까운 마이크에 높은 delay와 높은 gain을 적용함으로써, 해당 방향의 소리가 크게 반영되도록 할 수 있다.
도 6에 도시된 바와 같이, 원통형 구조의 옆 면에 마이크들이 위치한 경우, 오디오 채널의 방향과 마이크 방향의 차이에 대한 delay와 gain은 [표 2]와 같이 설정될 수 있다. 원통형 구조의 옆 면에 마이크들이 위치한 경우, Yaw 파라미터 만이 머리 방향 정보로서 전송되어 채널 구성에 반영될 수 있다. 도 5에 도시된 카메라처럼 마이크들이 구형 구조의 여러 방향에 위치한 경우, Yaw 파라미터 뿐만 아니라 Pitch 등 다른 파라미터의 전송이 필요할 수 있다.
Yaw 0
Figure 112016102573357-pat00001
Figure 112016102573357-pat00002
... 180 ...
Figure 112016102573357-pat00003
Figure 112016102573357-pat00004
...
Delay τ0 τ1 τ2 ... τM /2 ... τM -2 τM -1 ...
Gain α0 α1 α2 ... αM /2 ... αM -2 αM -1 ...
Audio Channel Controller(2110)는, 새로운 머리 방향 정보가 수신되면, 새로운 머리 방향에 따라 각 오디오 채널의 빔 포밍을 갱신할 수 있다.
Audio Channel Controller(2110)에서 구성한 각 오디오 채널은, 소음 억제 (Noise Suppression) 및 채널 gain 조정을 거쳐 EVS 등의 음성 코덱으로 입력될 수 있다. Speech Codec Mode Controller(2120)에서 이 과정을 관리한다. Speech Codec Mode Controller(2120)는, 예측된 머리 방향의 영상 내용 및 청각의 방향성을 고려하여, 각 채널의 소음 억제 여부를 결정하고, 채널 gain β, γ를 조절할 수 있다.
소음 억제는, 음성 신호의 신호 대 잡음비를 향상시켜 통화 품질을 높이기 위해 음성 대역이 아닌 신호를 제거한다. 만일 오디오 입력 신호가 음성이 아닌 배경 소리, 음악 등인 경우, 소음 억제에 의해 오히려 통화 품질이 저해된다. 따라서, 일 실시예에 따른 단말 장치는, 예측한 오디오 채널의 방향에 대화 가능한 사람이 있는 경우 소음을 억제하고, 그렇지 않은 경우 소음 억제 기능을 사용하지 않을 수 있다.
Speech Codec Mode Controller(2120)는 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 영상 내에 대화 가능한 사람이 있는 경우, 소음 억제 기능을 사용하고 그렇지 않은 경우 소음 억제를 최소화 할 수 있다.
EVS와 같이 음성 압축 코어와 오디오 압축 코어를 모두 보유한 코덱이 이용되는 경우, Speech Codec Mode Controller(2120)는 채널 방향의 영상의 내용에 따라 코덱을 음성 압축을 위한 음성 모드나 배경 소리, 음악 등의 압축을 위한 오디오 모드로 구동할 수 있다. Speech Codec Mode Controller(2120)는, 오디오 모드에서 오디오 신호를 압축하는 오디오 채널에 대해서, Discrete Transmission(DTX), Noise suppression 등 음성 신호 처리를 위한 기능을 사용하지 않고, 대역폭을 높일 수 있다.
Speech Codec Mode Controller(2120)는, HMD의 사용자의 머리 방향과 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 오디오 압축 방식을 조정할 수 있다. Speech Codec Mode Controller(2120)는, 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 영상 내에 대화 가능한 사람이 있는 경우, 해당 오디오 채널에 대한 오디오 신호를 음성 모드로 압축할 수 있다. Speech Codec Mode Controller(2120)는, 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 영상 내에 대화 가능한 사람이 없거나 두 명 이상의 사람들이 존재 하는 경우, 해당 오디오 채널에 대한 오디오 신호를 오디오 모드로 압축할 수 있다.
한편, 정상적인 청각을 가진 사람에게는 정면의 소리가 크게 들리고 뒷면이나 청각의 사각에 해당하는 방향의 소리는 작게 들릴 수 있다. Speech Codec Mode Controller(2120)는, 이러한 청각의 방향성을 흉내내기 위해 머리 방향 채널의 gain β를 반대 방향이나 청각의 사각에 해당하는 방향의 gain 보다 크게 설정할 수 있다. 다만, Speech Codec Mode Controller(2120)는, 음성 정보의 전달이 중요하다고 판단되는 경우, 머리 방향에 있지 않은 방향의 오디오 채널이라도 음성을 압축하고 있는 경우에 gain γ를 증가시킬 수 있다.
도 23은 일 실시예에 따른 카메라 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다. 이하에서 서술하는 방법의 각 단계는, 도 15a 및 도 15b와 관련하여 상술한 카메라 측 단말 장치의 각 구성들에 의해 수행될 수 있다.
단계 S2310에서 일 실시예에 따른 단말 장치는, 상대 단말 장치로부터 수신한 패킷으로부터 상대 단말 장치의 사용자의 머리 방향 정보를 추출할 수 있다.
추출되는 머리 방향 정보는, 미리 결정된 형식에 따라 구성된 정보일 수 있다. 일 실시예에 따른 단말 장치는, 상대 단말 장치와의 통화 조건 교섭 단계에서, 머리 방향과 관련된 정보를 송수신하기 위한 형식을 결정할 수 있다. 단말 장치는, 머리 방향과 관련된 정보의 형식을 결정함에 있어서, 상대 단말 장치로부터 사용 가능한 최대 비트수에 대한 정보를 수신할 수 있다. 단말 장치는, 수신된 최대 비트수에 대한 정보를 고려하여, 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터 및 각도 파라미터에 대해 할당되는 비트의 수를 결정할 수 있다. 단말 장치는, 결정된 각도 파라미터 및 결정된 비트 수에 대한 정보를 상대 단말 장치에게 전송할 수 있다.
단말 장치에서 결정한 머리 방향 정보의 형식을 상대 단말 장치가 합의하면, 단말 장치와 상대 단말 장치는 결정된 형식에 따라 머리 방향 정보를 주고 받게 된다. 통화 조건의 교섭과 관련하여서는 앞서 도 3에 대한 설명이 적용될 수 있다. 중복되는 설명은 생략한다.
일 실시예에 따른 단말 장치는, 수신한 패킷으로부터 RTP/UDP/IP 헤더를 제거하고, RTP 헤더로부터 머리 방향 정보를 추출할 수 있다. RTP 헤더로부터 추출되는 머리 방향 정보는, 요(Yaw), 롤(Roll), 피치(Pitch) 중 적어도 하나의 각도 파라미터를 포함하거나, 게이즈 커서의 좌표를 포함할 수 있다.
일 실시예에 따른 단말 장치는, 추출된 머리 방향을 표시할 수 있다. 또는, 일 실시예에 따른 단말 장치는, 추출된 머리 방향에 기초하여 결정된 상대 단말 장치의 사용자의 시선 위치를 표시할 수 있다. 일 실시예에 따른 단말 장치는, 단말 장치의 사용자에게 상대 단말 장치의 사용자의 현재 시점을 알림으로써 자연스러운 가상 통화를 가능하게 할 수 있다.
단계 S2320에서 일 실시예에 따른 단말 장치는, 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상대 단말 장치의 사용자의 머리 방향을 예측할 수 있다.
단말 장치는, 단계 S2310에서 추출된 머리 방향 정보 및 상대 단말 장치로부터 이 전에 수신한 패킷들로부터 추출된 머리 방향 정보를 이용하여, 소정 시간 이후의 머리 방향을 계산할 수 있다. 단말 장치는, 최근 L 초간 수신된 머리 방향 정보를 분석하여 약 T 초 이후의 머리 방향을 예측할 수 있다. 단말 장치는, 계산된 머리 방향을 미리 결정된 비트 수로 변환할 수 있다.
단계 S2330에서 일 실시예에 따른 단말 장치는, 예측된 머리 방향에 대응하는 오디오 채널들의 방향들을 결정할 수 있다.
단말 장치는, 오디오 채널 구조에 기초하여, 머리 방향이 변화함에 따른 각 오디오 채널의 방향을 결정할 수 있다. 오디오 채널 구조는, 머리 방향에 대한 각 오디오 채널들의 방향의 각도 차이에 대한 정보를 포함할 수 있다.
단말 장치는, 머리 방향 표현에 사용 가능한 최대 비트 수, 마이크의 배열 형태, 채널 조정 단위 등의 정보를 기반으로 미리 결정된 형식에 맞게, 예측된 머리 방향과 결정된 오디오 채널들의 방향들을 변환할 수 있다. 단말 장치는, 예측된 머리 방향과 예측된 머리 방향에 기초하여 결정된 오디오 채널들의 방향들을 미리 결정된 형식에 맞게 제한된 비트 수로 변환할 수 있다.
단계 S2340에서 일 실시예에 따른 단말 장치는, 복수의 채널들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성할 수 있다.
단말 장치는, 오디오 입력 신호들에 대한 빔포밍을 수행함으로써, 각 오디오 채널의 방향에 대응하는 오디오 출력 신호를 생성할 수 있다. 단말 장치는, M 개의 마이크들로부터 수신된 입력 신호들로부터 N 개의 오디오 채널들에 대응하는 오디오 출력 신호들을 생성할 수 있다. 단말 장치는, 오디오 입력 신호들의 delay와 gain을 조절함으로써, 각 오디오 채널의 방향에 대한 오디오 신호의 세기를 최대화할 수 있다.
단말 장치는, 예측된 머리 방향을 고려하여, 오디오 채널들 중 적어도 하나의 채널에 대응하는 오디오 출력 신호의 게인을 조절할 수 있다. 단말 장치는, 예측된 머리 방향의 채널에 대응하는 오디오 출력 신호의 게인을, 다른 채널에 대응하는 오디오 출력 신호의 게인보다 크게 설정할 수 있다.
단말 장치는, 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 영상 내에 대화 가능한 사람이 있는 경우, 소음 억제 기능을 사용하고 그렇지 않은 경우 소음 억제를 최소화 할 수 있다. 일 실시예에서, 단말 장치는, 각 오디오 채널 방향의 영상의 내용을 분석함으로써, 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 예를 들어, 단말 장치는, 한 사람의 얼굴이 영상 발신 신호의 주요 내용이라고 판단되는 경우, 음성 모드를 선택하고, 이외의 경우에는 오디오 모드를 선택할 수 있다.
단말 장치는, 머리 방향에 있지 않은 방향의 오디오 채널이라도 음성을 압축하고 있는 경우에 게인을 증가시킬 수 있다. 단말 장치는, 각 오디오 채널에 대응하는 오디오 출력 신호를 음성 모드에서 압축할지 또는 오디오 모드에서 압축할지 여부를 결정할 수 있다. 단말 장치는, 음성 모드에서 오디오 출력 신호가 압축되는 오디오 채널에 대응하는 게인을 증가시킬 수 있다. 단말 장치는, 결정된 모드에 기초하여 각 오디오 채널에 대응하는 오디오 출력 신호를 압축할 수 있다.
단계 S2350에서 일 실시예에 따른 단말 장치는, 예측된 머리 방향과 관련된 정보 및 오디오 출력 신호들을 상대 단말 장치에게 전송할 수 있다. 일 실시예에 따른 단말 장치는, 오디오 출력 신호들이 압축된 음성 프레임을 상대 단말 장치에게 전송할 수 있다. 예측된 머리 방향과 관련된 정보는, 상대 단말 장치에게 전송할 패킷의 RTP 헤더 상에 탑재되어 전송될 수 있다.
도 24는 일 실시예에 따른 카메라 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
일 실시예에 따른 단말 장치는 상대 단말 장치와 가상 현실 통화(Virtual Reality Call)가 시작되면, 통화 조건을 교섭할 수 있다. 단말 장치는, 통화 조건 교섭 단계에서 머리 방향 정보의 형식을 결정할 수 있다.
단말 장치는, 머리 방향에 대응하는 주변 영상을 분석하기 위한 분석 영역의 크기를 결정할 수 있다. 단말 장치는, 카메라에 설치된 M개의 마이크들을 통한 오디오 입력 신호들을 이용하여, 통화 조건 교섭 단계에서 결정된 N개의 오디오 채널을 구성할 수 있다. 단말 장치는, 새 음성 프레임이 수신되면, 수신된 음성 프레임으로부터 머리 방향 정보를 판독할 수 있다. 단말 장치는, L초간 수신된 머리 방향 정보들에 기초하여 T초 이후의 머리 방향을 예측할 수 있다.
단말 장치는, 예측된 머리 방향에 따라 각 오디오 채널의 회전 방향을 계산할 수 있다. 단말 장치는, 예측된 머리 방향을 미리 결정된 형식으로 변환할 수 있다. 단말 장치는, 예측된 머리 방향을 제한된 수의 비트로 변환함으로써, 머리 방향 정보량을 최소화 할 수 있다.
단말 장치는, 예측된 머리 방향과 청각의 방향성을 고려하여, 빔포밍을 갱신할 수 있다. 단말 장치는, 예측된 머리 방향과 청각의 방향성을 고려하여, 오디오 출력 신호에 적용되는 게인을 조절할 수 있다.
단말 장치는, 변환된 머리 방향에 대응하는 주변 영상을 분석할 수 있다. 단말 장치는, 분석 영역 내에 대화 가능 상대가 존재하는 경우, 대화 가능 상대가 존재하는 방향의 오디오 채널의 오디오 신호를 음성 모드로 압축할 수 있다. 단말 장치는, 분석 영역 내에 대화 가능 상대가 존재하지 않는 경우, 분석 영역에 대응하는 오디오 채널의 오디오 신호를 오디오 모드로 압축할 수 있다. 단말 장치는, 음성 모드에서 오디오 신호가 압축되는 오디오 채널에 대응하는 오디오 신호의 게인을 증가시킬 수 있다.
단말 장치는, 최소화된 머리 방향 정보를 압축된 음성 프레임과 함께 전송할 수 있다.
도 1에 도시된 바와 같이, 일 실시예에 따른 몰입형 멀티미디어 시스템은, 오디오 및 영상 캡쳐에 특화된 카메라와 오디오 및 영상 출력에 특화된 HMD를 포함할 수 있다. HMD 측 단말 장치는, 카메라 측 단말 장치에서 전송한 오디오 신호를 전송 받아 이를 스피커 또는 헤드폰을 통해 청취할 수 있다. HMD 측 단말 장치는, 오디오 신호와 함께, 카메라 측 단말 장치에서 해당 오디오 신호를 생성할 때 사용한 방향 정보를 전송 받을 수 있다.
도 25a는 일 실시예에 따른 HMD의 블록도이다.
일 실시예에 따른 몰입형 멀티미디어 시스템에 포함되는 HMD(2510)는 직접 이동 통신을 수행하는 단말 장치일 수 있다.
프로세서(2511)는, 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보, 음성 프레임, 및 비디오 프레임을 추출할 수 있다. 프로세서(1511)는, 상대 단말 장치와의 통화 조건 교섭 단계에서, 머리 방향 정보를 송수신 하기 위한 형식을 결정할 수 있다.
프로세서(2511)는, 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하고, 추출된 머리 방향 정보와 측정된 머리 방향 정보를 비교할 수 있다. 프로세서(2511)는, 움직임 센서(미도시)로부터 센싱된 정보에 기초하여, 사용자의 머리 방향을 측정할 수 있다. 프로세서(2511)는, 비교 결과에 기초하여, 음성 프레임에 포함되는 오디오 신호들을 보정할 수 있다.
스피커(2513)는, 상대 단말 장치로부터 수신된 오디오 신호들을 출력할 수 있다. 스피커(2513)는, 프로세서(2511)에서 보정된 오디오 신호들을 출력할 수 있다. 디스플레이(2515)는, 비디오 프레임을 출력할 수 있다. 예를 들어, 디스플레이(2515)는, 사용자의 눈으로부터 수 센치미터 내에서 영상을 디스플레이하는 접안(near-to-eye) 디스플레이를 포함할 수 있다.
통신부(2517)는, 결정된 머리 방향 정보를 상대 단말 장치에게 전송할 수 있다. 통신부(2517)는, 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신할 수 있다. 통신부(2517)는, 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 수신할 수 있다.
프로세서(2511)는, 상대 단말 장치로부터 수신한 오디오 신호를 출력하기 위해서, 통신부(2517), 스피커(2513), 및 디스플레이(2515)를 제어할 수 있다.
도 25b는 일 실시예에 따른 카메라와 단말 장치의 블록도이다.
일 실시예에 따른 몰입형 멀티미디어 시스템에 포함되는 HMD(2510)는 단말 장치(2520)와 연동하여 동작할 수 있다.
이 때, HMD(2510)와 연동하여 동작하는 단말 장치(2520)는, 프로세서(2521) 및 통신부(2523)를 포함할 수 있다. 도 25b에는 생략되었지만, 단말 장치(2520)는, 도 14a에 도시된 단말 장치(1400)에 포함될 수 있다. 따라서, 도 25b와 관련하여서는, 도 14a, 도 14b, 및 도 25a에 대한 설명이 적용될 수 있다. 중복되는 설명은 생략한다.
프로세서(2521)는, 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보, 음성 프레임, 및 비디오 프레임을 추출할 수 있다. 프로세서(2521)는, 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하고, 추출된 머리 방향 정보와 결정된 머리 방향 정보를 비교할 수 있다. 프로세서(2521)는, 비교 결과에 기초하여, 음성 프레임에 포함되는 오디오 신호들을 보정할 수 있다. 프로세서(2521)는, HMD(2510)에서 센싱된 사용자의 움직임과 관련된 정보에 기초하여, 사용자의 머리 방향과 관련된 정보를 결정할 수 있다. 프로세서(2521)는, 단말 장치(2520)의 전반적인 동작을 제어할 수 있다.
도 14a, 도 14b, 도 15a, 도 15b, 도 25a 및 도 25b에는 하나의 프로세서가 포함되는 것으로 도시하였으나, 실시예는 도시된 바에 제한되지 않는다. 상술한 프로세서의 기능 및 동작은 둘 이상의 프로세서들에 의해 실행될 수 있다.
통신부(2523)는, 단말 장치(2520)와 연결된 HMD(2510)에게 보정된 오디오 신호들 및 비디오 프레임을 전송할 수 있다. HMD(2510)는, 단말 장치(2520)로부터 수신된 보정된 오디오 신호들 및 비디오 프레임을 사용자에게 출력할 수 있다. 통신부(2523)는, 상대 단말 장치에게 결정된 머리 방향 정보를 전송할 수 있다.
통신부(2523)는, 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신할 수 있다. 통신부(2523)는, 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 상대 단말 장치로부터 수신할 수 있다. 통신부(2523)는, 단말 장치(2520)와 연결된 HMD(2510)에게 오디오 신호들 및 영상 신호를 전송할 수 있다.
도 26은 일 실시예에 따른 HMD 측 단말 장치의 동작을 설명하기 위한 도면이다.
블록(2610)에서, 단말 장치는, 상대 단말 장치로부터 수신한 패킷으로부터 RTP/UDP/IP 헤더를 제거하고, RTP 헤더로부터 머리 방향 정보를 추출할 수 있다. 단말 장치는, LTE 또는 5G 모뎀으로부터 패킷을 수신할 수 있다. RTP 헤더로부터 추출되는 머리 방향 정보는, 요(Yaw), 롤(Roll), 피치(Pitch) 중 적어도 하나의 각도 파라미터를 포함하거나, 게이즈 커서의 좌표를 포함할 수 있다.
N Speech Decoders(2620)는, 수신한 패킷으로부터 오디오 신호들을 추출하고, 복호화 할 수 있다. N Speech Decoders(2620)는, 수신한 패킷으로부터 N 개의 오디오 채널들에 대한 오디오 신호들을 추출하고, 복호화 할 수 있다.
단말 장치는, N 채널의 음성 프레임들을 획득하고, 획득된 음성 프레임들을 다양한 방법으로 출력할 수 있다.
헤드폰을 통해 오디오 신호를 출력하는 경우, 단말 장치는, 먼저 N 채널을 두 채널로 다운 믹스(Downmix)할 수 있다. 도 26에는 N 채널을 두 채널로 다운 믹스하는 N→2 Downmixer(2633)가 도시된다.
단말 장치는, 전송된 머리 방향 정보와 방향 센서(2660)가 측정한 현재 머리 방향 정보를 비교할 수 있다. 단말 장치는, 전송된 머리 방향과 현재 머리 방향의 차이를 HRTF(Head-Related Transfer Function)(2640)를 이용하여 보정할 수 있다. HRTF는, 청취자의 머리 방향에 맞추어 오디오 신호의 방향성을 조정하는 디지털 필터링(Digital Filtering) 방식이다. 단말 장치는, 전송된 오디오 신호들을, 방향의 차이만큼 회전시켜 출력할 수 있다.
N 개의 스피커들(2631)을 통해 오디오 신호를 출력하는 경우, 단말 장치는, N 채널의 오디오 신호를 각 채널에 대응하는 스피커로 출력할 수 있다.
In-band Signaling Minimizer(2650)는, 방향 센서(2660)가 측정한 현재 머리 방향을 이용할 수 있는 방향으로 변환한다. In-band Signaling Minimizer(2650)는, 머리 방향 표현에 사용 가능한 최대 비트 수, 마이크의 배열 형태, 오디오 채널 조정 단위 등의 정보를 기반으로, 방향 센서(2660)가 측정한 현재 머리 방향을 실제 적용할 수 있고 표현할 수 있는 방향으로 변환할 수 있다.
블록(2680)은, In-band Signaling Minimizer(2650)에서 변환된 머리 방향 정보를 Speech Encoder(2670)에서 압축되는 오디오 신호들과 함께 상대 단말 장치에게 전송할 수 있다. 변환된 머리 방향 정보는, 상대 단말 장치에게 전송할 패킷의 RTP 헤더 상에 탑재되어 전송될 수 있다.
도 27은 일 실시예에 따른 HMD 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다. 이하에서 서술하는 방법의 각 단계는, 도 25a 및 도 25b와 관련하여 상술한 HMD 측 단말 장치의 각 구성들에 의해 수행될 수 있다.
도 27은, HMD 측 단말 장치가, 카메라 측 단말 장치에서 압축한 음성 프레임들과 음성 프레임들을 압축 하기 위해 사용한 머리 방향 정보를 수신하고, 수신된 음성 프레임들을 출력하는 절차를 도시한다.
단계 S2710에서 일 실시예에 따른 단말 장치는, 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보 및 음성 프레임을 추출할 수 있다.
일 실시예에 따른 단말 장치는, LTE 또는 5G 모뎀으로부터 수신된 패킷으로부터 RTP/UDP/IP 헤더를 분리하고 N 채널의 음성 프레임들을 획득할 수 있다.
추출되는 머리 방향 정보는, 미리 결정된 형식에 따라 구성된 정보일 수 있다. 일 실시예에 따른 단말 장치는, 상대 단말 장치와의 통화 조건 교섭 단계에서, 머리 방향과 관련된 정보를 송수신하기 위한 형식을 결정할 수 있다. 단말 장치는, 머리 방향과 관련된 정보의 형식을 결정함에 있어서, 상대 단말 장치에게 사용 가능한 최대 비트수에 대한 정보를 전송할 수 있다. 단말 장치는, 상대 단말 장치로부터 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터 및 각도 파라미터에 대해 할당되는 비트의 수에 대한 정보를 수신할 수 있다.
상대 단말 장치에서 전송한 머리 방향 정보의 형식을 단말 장치가 합의하면, 단말 장치와 상대 단말 장치는 결정된 형식에 따라 머리 방향 정보를 주고 받게 된다. 통화 조건의 교섭과 관련하여서는 앞서 도 3에 대한 설명이 적용될 수 있다. 중복되는 설명은 생략한다.
단계 S2720에서 일 실시예에 따른 단말 장치는, 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정할 수 있다.
단말 장치는, 사용자의 머리 방향을 센싱(Sensing)하고, 센싱된 결과를 미리 결정된 비트 수로 변환할 수 있다. 단말 장치는, 머리 방향 표현에 사용 가능한 최대 비트 수, 마이크의 배열 형태, 채널 조정 단위 등의 정보를 기반으로, 방향 센서(Orientation Sensor)가 측정한 현재 머리 방향을 제한된 비트 수로 변환할 수 있다.
단말 장치는, 통화 조건 교섭 단계에서 머리 방향과 관련된 정보를 나타내기로 결정된 각도 파라미터에 대응하는 머리 방향을 센싱할 수 있다. 단말 장치는, 통화 조건 교섭 단계에서 각도 파라미터에 대해 할당되는 비트 수로 센싱된 결과를 변환할 수 있다. 방향 센서에서 측정된 머리 방향 정보는, 도 16과 관련하여 설명한 In-band Signaling Minimizer(1630)와 동일한 Inband Signal Minimizer 블록에 의해 최소화된 포맷으로 변환될 수 있다.
단계 S2730에서 일 실시예에 따른 단말 장치는, 추출된 머리 방향 정보와 결정된 머리 방향 정보를 비교한 결과에 기초하여, 음성 프레임에 포함되는 오디오 신호들을 보정할 수 있다.
단말 장치는, 추출된 머리 방향과 결정된 머리 방향의 차이를 HRTF를 이용하여 보정할 수 있다. 단말 장치는, S2710에서 추출된 음성 프레임에 포함된 오디오 신호들을, 추출된 머리 방향과 결정된 머리 방향의 차이만큼 회전시켜 출력할 수 있다.
단계 S2740에서 일 실시예에 따른 단말 장치는, 보정된 오디오 신호들을 출력할 수 있다.
일 실시예에 따른 단말 장치가 헤드폰을 통해 보정된 오디오 신호들을 출력하는 경우, 단말 장치는, 먼저 N 채널을 두 채널로 다운믹스(Downmix)하고, 다운믹스된 신호를 출력할 수 있다. 일 실시예에 따른 단말 장치가 N 채널 스피커를 통해 보정된 오디오 신호들을 출력하는 경우, 단말 장치는, N 채널 오디오 신호를 해당 방향의 스피커로 출력할 수 있다.
단계 S2750에서 일 실시예에 따른 단말 장치는, 결정된 머리 방향 정보를 상대 단말 장치에게 전송할 수 있다.
단말 장치는, 단계 S2720에서 Inband Signal Minimizer 블록에 의해 최소화된 포맷으로 변환된 머리 방향 정보를 단말 장치에서 생성된 음성 프레임과 함께 전송될 수 있다.
상술한 바와 같이, 일 실시예는, 카메라, HMD 등 몰입형 멀티미디어 통신을 위한 기기와 단말 장치 간의 연동을 관리하는 방법을 제안한다. 일 실시예에 따르면, HMD 사용자의 머리 방향이 변화함에 따라 보이는 영상이 변화하고, 변화하는 영상과 일치하는 소리가 들리게 할 수 있다. 또한, 일 실시예에 따르면, HMD 사용자의 관심 방향의 소리가 음성인 경우 명료하게 들리도록 하고, 관심 방향의 소리가 배경음인 경우 현장감 있게 들리게 하여 통화 품질을 극대화 할 수 있다.
도 28은 일 실시예에 따른 HMD 측 단말 장치가 오디오 출력 신호들을 상대 단말 장치에게 전송하는 방법의 흐름도를 도시한다.
일 실시예에 따른 단말 장치는 상대 단말 장치와 가상 현실 통화가 시작되면, 통화 조건을 교섭할 수 있다. 단말 장치는, 통화 조건 교섭 단계에서 머리 방향 정보의 형식을 결정할 수 있다.
단말 장치는, 새 음성 프레임이 수신되면, 수신된 음성 프레임으로부터 머리 방향 정보를 판독할 수 있다. 단말 장치는, 사용자의 현재 머리 방향을 측정할 수 있다. 단말 장치는, 현재 머리 방향을, 미리 결정된 형식으로 변환할 수 있다. 단말 장치는, 측정된 머리 방향을 제한된 수의 비트로 변환함으로써, 머리 방향 정보량을 최소화 할 수 있다.
단말 장치는, 변환된 머리 방향 정보와 수신된 머리 방향 정보를 비교할 수 있다. 단말 장치는, 변환된 머리 방향 정보와 수신된 머리 방향 정보가 동일할 경우, 수신된 음성 프레임에 포함되는 오디오 신호를 출력할 수 있다. 단말 장치는, 변환된 머리 방향 정보와 수신된 머리 방향 정보가 상이할 경우, 그 차이만큼 오디오 신호를 보정할 수 있다. 단말 장치는, 보정된 오디오 신호를 출력할 수 있다.
단말 장치는, 최소화된 머리 방향 정보를 압축된 음성 프레임과 함께 전송할 수 있다.
한편, 오디오 및 비디오의 획득(capturing) 또는 시청(presentation)이 평면이 아닌 입체적 구조에서 이루어지는 몰입형 멀티미디어 통신에 있어서, 단말 장치의 제한된 구조, 제한된 비트 레이트, 오디오와 영상의 상관 관계 등 때문에, 오디오 채널들이 3차원 공간에 효율적으로 배치될 것이 요구될 수 있다.
일반적인 멀티미디어 통신 시스템에서는, 단말 장치들 간에 미디어의 압축 및 패킷화 방법을 결정하는 SDP 메시지를 교환할 수 있다.
예를 들어, 단말 장치 A가 24.4 kbps로 EVS 코덱을 이용하여 압축된 6 개의 오디오 채널들을 포함하는 음성 스트림을 211 kbps까지 송수신 가능하고, 4K 또는 1080p 해상도로 HEVC 코덱을 이용하여 압축한 비디오 스트림을 15 Mbps까지 송수신 가능함을 단말 장치 B에게 제안(Offer) 할 수 있다. 이러한 제안에 대하여 단말 장치 B는 제안된 음성 스트림과 영상 스트림을 수용하되, 양방향 음성 채널의 수를 4개로 줄이고 음성 비트 레이트를 211 kbps로부터 146 kbps로 축소하고 비디오의 비트 레이트를 15Mbps로부터 10 Mbps로 축소하는 조건으로 답변(Answer) 할 수 있다.
종래의 멀티미디어 통화 시스템에 있어서, 두 단말 장치들 간에 교환되는 SDP 메시지는 오디오 채널들의 방향들과 관련된 정보를 포함하지 않으며, 균일한 간격으로 오디오 채널들이 배치되는 것을 가정할 수 있다. 예를 들어, 6 개의 오디오 채널들에 대한 오디오 신호들을 송수신하는 경우, 60도 간격으로 오디오 채널들이 배치되는 경우가 가정되고, 4 개의 오디오 채널들에 대한 오디오 신호들을 송수신하는 경우, 90도 간격으로 오디오 채널들이 배치되는 경우를 가정할 수 있다.
그러나, 정육면체 형태의 단말 장치의 각 면에 마이크들 또는 스피커들이 배치되는 경우와 같이, 360도 전 방향에 균일한 간격으로 마이크 또는 스피커가 존재하지 않는 경우, 이러한 가정이 적합하지 않을 수 있다.
또한, 도 29에 도시된 바와 같이, 360도 전 방향의 음성 또는 영상이 전송되는 것이 요구되지 않을 수도 있다.
도 29의 (a) 는 행사의 사회자 뒤에 360도 전 방향을 촬영할 수 있는 카메라를 휴대한 사람이 위치한 모습을 도시하고 있다. 사회자와 참석자들의 음성과 영상이 촬영의 목적이 되는 경우, 카메라를 휴대한 사람의 음성이나 영상을 촬영하여 전송할 필요가 없을 수 있다.
도 29의 (b) 는 360도 전 방향을 촬영한 영상의 한 예를 도시한다. 도 29의 (b)에 도시된 바와 같이, 전, 후 방향의 렌즈들을 통해 입력된 이미지들을 결합하여 1 장의 360도 영상을 구성하는 이미지 스티칭(Image Stitching) 단계에서 중앙의 영상이 크게 왜곡될 수 있다. 따라서, 일 실시예에 따른 단말 장치는, 360도 이하의 각도의 영상을 압축함으로써, 360도 각도에서 발생하는 왜곡(Distortion)을 줄일 수 있다. 또한, 단말 장치는, 360도 보다 적은 각도의 영상을 압축하는 경우, 360도 각도의 영상을 압축하는 경우에 이용되는 비트 레이트보다 감소된 비트 레이트를 사용할 수 있다. 따라서, 단말 장치는, 360도 보다 적은 각도의 영상을 압축함으로써 감소된 비트 레이트를, 360도 보다 적은 각도의 영상을 위해 할당함으로써 영상의 품질을 높일 수 있다.
그러므로, 일 실시예에 따르면, 몰입형 멀티미디어 통신 시스템에서 영상의 FOV를 효율적으로 조절하고, 오디오 채널들을 3차원 공간에 효율적으로 배치하는 방법이 제공된다.
도 30은 일 실시예에 따른 CMR(Codec Mode Request) 메시지 및 TMMBR(Temporary Maximum Media Bit-rate Request) 메시지의 구조를 도시한다.
도 30의 (a)는 AMR, AMR-WB, EVS 등의 코덱들에서 제공하는 Codec Mode Request(CMR) 메시지의 구조를 도시한다.
압축된 음성 프레임 앞에 현재 적용된 비트 레이트 정보를 포함하는 Table of Content(ToC) 바이트가 위치한다. ToC 바이트의 앞에 위치한 CMR 바이트는, 상대 단말 장치에게 요청하는 비트 레이트 정보를 포함하고 있다. AMR, AMR-WB, EVS 등의 코덱들은, 제한된 비트 레이트에서 동작할 수 있다. 코덱이 동작하는 제한된 비트 레이트는, 0을 포함하는 정수로 표현할 수 있다.
일 실시예에 따른 단말 장치는, 데이터의 전송 조건이 악화되어 현재 비트 레이트가 유지되기 어렵다고 판단하면, CMR 메시지를 상대 단말 장치에게 전송함으로써, 비트 레이트를 감소 시킬 것을 요청할 수 있다. 단말 장치는, 데이터의 전송 상황이 호전되면, 감소 시켰던 비트 레이트를 원래대로 증가 시킬 것을 상대 단말 장치에게 다시 요청 할 수 있다.
도 30의 (b)는 TMMBR 메시지의 구조를 도시하고 있다.
일 실시예에 따른 단말 장치는, 통화 조건 교섭 단계에서 결정되었던 영상의 비트 레이트가 유지되지 않는 상황이 지속되면, 데이터를 전송하는 경로 상에 장애가 발생한 것으로 판단할 수 있다. 단말 장치는, 상대 단말 장치에게 TMMBR 메시지를 전송함으로써 비트 레이트의 감소를 요청할 수 있다. TMMBR 메시지에서 비트 레이트는, Mantissa 필드 및 Exp 필드를 이용하여 표현될 수 있다. 예를 들어, 단말 장치는 상대 단말 장치에게
Figure 112016102573357-pat00005
bps로 비트 레이트를 감소할 것을 요청할 수 있다.
다차원 신호인 영상 신호의 경우, 비트 레이트가 감소되면 영상의 해상도(Resolution)도 감소되어야 할 필요가 있다. 영상의 해상도는, 통화 조건 교섭 단계에서, SDP 메시지에 포함되는 imageattr 파라미터를 이용하여 결정된다.
멀티 미디어 통신에 있어서 종래의 CMR 메시지 및 TMMBR 메시지를 교환하는 방법은, 3차원 공간 상에 배치된 멀티 채널 오디오와 넓은 광각의 영상이 전송되는 몰입형 멀티미디어 통신에서 전송 상태가 악화될 경우 발생하는 문제를 적절히 해결하지 못하는 한계가 있었다.
종래 기술에서 단말 장치가, 멀티 채널의 오디오 신호를 송수신 하는 경우, 1개의 RTP 패킷에는 1개의 CMR 및 복수의 채널들널의 ToC와 음성 프레임들이 위치하게 된다. 따라서, 종래의 단말 장치는, 복수의 오디오 채널들을 통해 음성 프레임들을 전송하는 상대 단말 장치에 1개의 CMR 만을 전송할 수 있다. 그러므로, 종래의 단말 장치가 요청하는 비트 레이트는 모든 오디오 채널에 동일하게 적용된다는 문제가 있다.
일 실시예에 따른 단말 장치는, 여러 방향에 존재하는 모든 오디오 채널들의 비트 레이트가 유지되기 어려운 경우, 관심 방향의 오디오 채널의 비트 레이트는 유지하면서 다른 오디오 채널의 비트 레이트를 감소시키는 방법을 이용할 수 있다. 일 실시예에 따르면, 모든 채널들의 비트 레이트들을 일괄적으로 감소시키는 것 보다, 단말 장치의 사용자가 체감하는 통화 품질의 열화를 줄일 수 있다.
한편, 영상의 전송 상황이 악화될 경우, 일 실시예에 따른 단말 장치는, 비트 레이트를 조정하거나, 통화 조건의 재협상을 통해 영상의 해상도를 조정하는 방법을 이용할 수 있다. 또는, 일 실시예에 따른 단말 장치는, 넓은 각도의 영상(예를 들어, 360도 전 방향 영상)의 FOV를 일시적으로 좁히는 방법을 이용할 수 있다. 일 실시예에 따른 단말 장치는, 전 방향 영상의 비트 레이트가 유지되기 어려운 경우, 영상의 FOV를 줄임으로써 사용자의 관심 방향의 영상에 비트 레이트를 집중적으로 할당할 수 있다. 일 실시예에 따르면, 전 방향 영상의 화질을 일괄적으로 감소시키는 것 보다, 단말 장치의 사용자가 체감하는 통화 품질의 열화를 줄일 수 있다.
도 31은 일 실시예에 따라 HMD 측 단말 장치에게 전달되는 영상의 FOV 및 오디오 채널들의 방향들을 조절하는 방법을 설명하기 위한 도면이다.
도 31의 (a)는 몰입형 멀티미디어 통신 시스템에서 이용되는 360도 카메라의 예를 도시한다.
도 31의 (b)는 도 31의 (a)의 카메라가 제공할 수 있는 영상의 화각 및 3차원 공간 상에 배치될 수 있는 오디오 채널들의 방향들을 도시한다.
일 실시예에 따라 몰입형 멀티미디어 통신을 수행하기 위해서 카메라 측 단말 장치는, 카메라 측 단말 장치에 설치된 음성 및 영상 코덱에 의해 음성과 영상을 압축하는 기하학적 구조를 정확히 표현하고, HMD 측 단말 장치에게 전달할 수 있다. 도 31의 (b)는, 도 31의 (a)에 도시된 구형 카메라의 영상 압축 영역과 오디오 채널의 방향을 수학적으로 표현한 것이다.
도 31의 (b)는 전 방향의 영상과 카메라가 제공할 수 있는 최대 8개의 오디오 채널들을 모두 표시하고 있다. 그러나, 일 실시예에 따르면, 필요성 또는 비트 레이트 절감을 위해, 영상의 화각과 오디오 채널의 수를 도 31의 (c)와 같이 축소할 수 있다.
일 실시예에 따른 단말 장치는, 도 31의 (c)에 도시된 바와 같이, 3차원 공간 상에 배치되는 오디오 채널들의 숫자, 각 오디오 채널에 할당되는 비트 레이트, 및 오디오 채널들의 방향들을 결정할 수 있다. 단말 장치는, 오디오 신호에 할당된 총 비트 레이트를 고려하여, 오디오 채널들의 숫자, 각 오디오 채널에 할당되는 비트 레이트, 오디오 채널들의 방향들을 결정할 수 있다.
또한, 일 실시예에 따른 단말 장치는, 단말 장치의 주변 음향 환경을 고려하여, 오디오 채널들의 숫자, 각 오디오 채널에 할당되는 비트 레이트, 오디오 채널들의 방향들을 결정할 수 있다.
일 실시예에 따른 단말 장치는, 영상의 화각과 오디오 채널들의 방향 등을 표현하기 위해서, 도 7에 도시된 원통형(Cylindrical) 또는 구형(Spherical) 좌표계(Coordinate System)에 기초한 SDP 파라미터들을 표 3과 같이 정의하고, 정의된 파라미터들을 통화 조건 교섭 단계에서 이용할 수 있다.
파라미터 정의
aoa - angle of audio(오디오 채널 방향 (각도))
- lati=[angle1 angle2 … angleN], longi=[angle1 angle2 … angleN] 형태로 오디오 채널들의 방향 표현
- 2개 이상의 오디오 채널들이 이용될 경우에 사용
aov - angle of video(영상의 범위 (각도))
- lati=[begin end], longi=[begin end] 형태로 영상의 FOV 표현
- 예: lati=[90 -90], longi=[0 240]
- lati, longti 파라미터가 없으면 상하 좌우 360도 방향의 영상 전송
lati - latitude
- 위도 (구형 좌표계에서 사용)
- 최대 범위 [90 -90]
longi - longitude
- 경도 (구형 좌표계 및 원통형 좌표계에서 사용)
- 최대 범위 [0 360]
spherical - 구형 좌표계 사용/지원
cylindrical - 원통형 좌표계 사용/지원
rotate - aoa, aov 와 함께 사용 가능
- 0: 오디오 채널 방향 또는 영상 범위가 고정
- 1: 오디오 채널 방향 또는 영상 범위가 머리 방향 이동에 따라 회전
[표 3]에서, rotate=0인 경우, 오디오 신호는 수신단에서 렌더링될 수 있으며, HOA(Higher Order Ambisonics)-based operations를 가능하게 할 수 있다. rotate=0인 경우, 머리 방향 정보는 비디오 신호만을 위해서 이용될 수 있다.
[표 3]에서, rotate=1인 경우, 오디오 채널 방향 또는 영상 범위가 머리 방향 이동에 따라 회전할 수 있다. 교섭된 통화 조건에 rotate=1이 포함되고, 영상의 FOV가 360도 이하의 부분 영상인 경우, HMD의 사용자의 머리 방향이 회전함에 따라, 카메라는 회전된 머리 방향에 대응하는 방향의 영상을 HMD에게 제공할 수 있다.
일 실시예에 따른 단말 장치는, [표 3]에 정의된 파라미터들을 이용함으로써, 영상의 화각과 오디오 채널들의 방향 등을 표현할 수 있다. 일 실시예에 따른 단말 장치는, 각 오디오 채널의 비트 레이트를 개별적으로 조절하고 영상의 화각을 조절함으로써, 채널 상황이 변화함에 따라 이러한 변화가 통화 품질에 미치는 영향을 최소화하고, 통화 품질을 극대화 할 수 있다.
도 32a는 일 실시예에 따라 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법의 흐름도를 도시한다. 이하에서 서술하는 방법의 각 단계는, 도 15a 및 도 15b와 관련하여 상술한 카메라 측 단말 장치의 각 구성들에 의해 수행될 수 있다.
S3210에서 일 실시예에 따른 단말 장치는, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정할 수 있다.
일 실시예에 따르면, 단말 장치는, 오디오 채널들의 방향들을 결정하기에 앞서, 사용 가능한 적어도 하나의 좌표계의 종류에 대한 정보를 상대 단말 장치로부터 수신할 수 있다. 단말 장치는, 사용 가능한 적어도 하나의 좌표계의 종류 중에서 하나의 좌표계의 종류를 선택할 수 있다.
단말 장치는, 오디오 채널들의 방향들을 결정하기에 앞서, 사용 가능한 좌표계의 종류, 수신 가능한 오디오의 채널의 수, 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 대한 정보를 상대 단말 장치로부터 수신할 수 있다. 단말 장치는, 상대 단말 장치로부터 수신된 정보에 기초하여, 오디오 채널들의 방향들을 결정할 수 있다.
일 실시예에 따르면, 단말 장치는, 통화 조건 교섭 단계에서, 카메라 표면의 복수의 마이크들의 배치, 카메라 주변의 음향 환경, 상대 단말 장치에게 전송되는 영상의 화각, 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 기초하여, 오디오 채널들의 방향들을 결정할 수 있다. 또한, 단말 장치는, 카메라 표면의 복수의 마이크들의 배치, 카메라 주변의 음향 환경, 상대 단말 장치에게 전송되는 영상의 화각, 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 기초하여, 오디오 채널들의 수 및 각 오디오 채널에 할당되는 비트 레이트 중 적어도 하나를 결정할 수 있다.
또한, 일 실시예에 따른 단말 장치는, 오디오 채널들의 방향들을 결정하기에 앞서, 상대 단말 장치에게 영상을 전송하기 위해 사용 가능한 최대 비트 레이트를 상대 단말 장치로부터 수신할 수 있다. 단말 장치는, 영상을 전송하기 위해 사용 가능한 최대 비트 레이트에 기초하여, 상대 단말 장치에게 전송되는 영상의 화각을 결정할 수 있다. 단말 장치는, 영상의 화각에 기초하여, 오디오 채널들의 방향들을 결정할 수 있다.
일 실시예에 따른 단말 장치는, 오디오 채널들의 방향들을 결정하기에 앞서, 머리 방향과 관련된 정보를 송수신 하기 위해 사용 가능한 최대 비트수에 대한 정보 및 머리 방향이 회전함에 따라 오디오 채널들의 방향들도 회전해야 하는지 여부에 대한 정보를 상대 단말 장치로부터 수신할 수 있다. 단말 장치는, 수신된 정보에 기초하여, 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터를 결정할 수 있다. 단말 장치는, 최대 비트수에 대한 정보에 기초하여 각도 파라미터에 대해 할당되는 비트의 수를 결정할 수 있다.
S3220에서 일 실시예에 따른 단말 장치는, S3210에서 결정된 오디오 채널들의 방향들에 대한 정보를 상대 단말 장치에게 전송할 수 있다.
결정된 오디오 채널들의 방향들에 대한 정보는, 결정된 오디오 채널들의 방향들을 나타내는 각도 값을 포함할 수 있다.
일 실시예에 따른 단말 장치는, 사용 가능한 적어도 하나의 좌표계의 종류 중에서 선택된 좌표계의 종류에 기초하여, S3210에서 결정된 오디오 채널들의 방향들을 나타내는 각도 값을 전송할 수 있다. 단말 장치는, 오디오 채널들의 방향들에 대한 정보와 함께, 선택된 좌표계의 종류에 대한 정보를 상대 단말 장치에게 전송할 수 있다.
일 실시예에 따른 단말 장치는, 영상의 화각 및 오디오 채널들의 방향들에 대한 정보와 함께, 영상의 화각에 대한 정보를 상대 단말 장치에게 전송할 수 있다.
S3230에서 일 실시예에 따른 단말 장치는, 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성할 수 있다.
일 실시예에 따른 단말 장치는, 각 오디오 채널 방향의 영상의 내용에 따라 오디오 출력 신호를 압축하기 위한 음성 코덱을 음성 모드 또는 오디오 모드로 전환할 수 있다.
S3240에서 일 실시예에 따른 단말 장치는, 오디오 출력 신호들을 상대 단말 장치에게 전송할 수 있다. 일 실시예에 따른 단말 장치는, 오디오 출력 신호들이 압축된 음성 프레임을 상대 단말 장치에게 전송할 수 있다. 상대 단말 장치에서 수신된 오디오 출력 신호들은, 복호화 과정을 거쳐 출력될 수 있다.
도 32b는 일 실시예에 따라 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법의 흐름도를 도시한다. 이하에서 서술하는 방법의 각 단계는, 도 25a 및 도 25b와 관련하여 상술한 HMD 측 단말 장치의 각 구성들에 의해 수행될 수 있다.
S3250에서 일 실시예에 따른 단말 장치는, 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신할 수 있다.
일 실시예에 따른 단말 장치는, 상대 단말 장치로부터 오디오 채널들의 방향들에 대한 정보를 수신하기에 앞서, 사용 가능한 적어도 하나의 좌표계의 종류, 수신 가능한 오디오의 채널의 수, 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 대한 정보를 전송할 수 있다. 상대 단말 장치는, 수신한 정보에 기초하여, 오디오 채널들의 방향들을 결정하고, 오디오 채널들의 방향들에 대한 정보를 전송할 수 있다.
S3260에서 일 실시예에 따른 단말 장치는, 오디오 채널들의 방향들에 대응하는 오디오 신호들을 수신할 수 있다.
S3270에서 일 실시예에 따른 단말 장치는, 오디오 신호들을 출력할 수 있다. 단말 장치는, 복수의 오디오 채널들에 대한 오디오 프레임들을 획득하고, 획득된 오디오 프레임들을 복호화할 수 있다.
도 33 내지 도 36은 일 실시예에 따라 단말 장치들 간의 통화 조건 교섭을 통해 오디오 채널들의 방향들 및 영상의 FOV를 결정하는 과정을 도시한다.
도 33은 단말 장치 A를 통해 네트워크에 연결된 HMD와 단말 장치 B를 통해 네트워크에 연결된 구(球)형 카메라 간의 통화 조건 교섭 절차를 도시한다. 구형 카메라의 예는 도 5의 (a)에 도시된다. 도 33은 일 실시예에 따른 단말 장치에 있어서, 오디오 채널들을 공간에 배치하고 영상의 FOV를 결정하는 절차를 도시한다.
도 33을 참조하면, 단말 장치 A는, 64 kbps로 EVS 코덱을 이용하여 압축된 2 개의 오디오 채널들을 포함하는 음성 스트림을 147kbps까지 송수신 가능하고, 4K 또는 1080p 해상도로 HEVC 코덱을 이용하여 압축한 비디오 스트림을 15 Mbps까지 송수신 가능함을 단말 장치 B에게 제안 하였다. 단말 장치 A는, 64 kbps로 압축된 2 개의 EVS 채널과 IP 오버헤드를 포함하는 음성 스트림을 총 147 kbps까지 송수신 가능함을 단말 장치 B에게 제안 하였다.
단말 장치 A는, 오디오 채널과 영상 FOV가 구형 또는 원통형 좌표계로 표시될 수 있음을 SDP 메시지 내에서 cylindrical, spherical로 명시한다. 단말 장치 A는, 2 byte의 머리 방향 정보를 각 음성 프레임과 함께 송신하도록 SDP 메시지 내에서 head-tracking 2라고 명시한다. 또한, 단말 장치 A는, 머리 방향이 회전함에 따라 오디오 채널들의 방향들도 회전하여야 함을 rotate=1로 명시한다. 예를 들어, 도 8에 도시된 바와 같이, 머리 방향 정보는 확장된 RTP 헤더 상에 탑재되어 전송될 수 있다.
도 34의 (a)는, 도 33에서 단말 장치 A가 단말 장치 B에게 제안한 오디오 채널들의 방향과 360도 영상을 구형 좌표계를 사용하여 도시한다.
도 33을 참조하면, 단말 장치 A의 제안에 대하여, 단말 장치 B는 제안된 EVS 스트림과 4K HEVC 스트림을 수용하되, 수신할 비디오의 비트 레이트를 9 Mbps로 축소하고 360도로부터 240도로 FOV를 축소하는 조건을 답변하였다. 도 33에서 비트 레이트를 9 Mbps로 축소함은 b=AS:9000으로 명시되고, FOV를 240도로 축소함은 longi=[0:240]으로 명시된다.
또한, 단말 장치 B는, 구형 좌표계를 사용하고, 두 오디오 채널의 기본 방향을 (위도 0도, 경도 80도) 및 (위도 0도, 경도 160도)에 각각 배치한다고 답변하였다. 단말 장치 B는, 오디오 채널의 방향은, 머리 방향이 변하면 이에 비례하여 기본 방향으로부터 변화하게 되지만, 두 오디오 채널들 간의 상대적인 각도 차이는 80도로 항상 유지하도록 답변하였다. 도 33에서, 구형 좌표계를 사용함은 spherical로 명시되고, 두 오디오 채널들의 방향은 lati=[0 0]; longi=[80 160]으로 명시되고, 머리 방향이 변함에 따라 오디오 채널과 영상의 방향도 변화하게 됨은 rotate=1로 각각 명시된다.
도 34의 (b)는, 도 33에서 단말 장치 B가 답변한 오디오 채널의 방향과 제한된 FOV의 영상을 구형 좌표계를 사용하여 도시한다.
도 35는 네트워크에 연결된 원통형 카메라가 통화조건을 교섭하면서 오디오 채널들을 공간에 배치하고 영상 FOV를 결정하는 절차를 도시한다. 환형 카메라의 예는 도 6의 (a)에 도시된다.
도 35를 참조하면, 단말 장치 A는 64 kbps로 압축된 2 개의 EVS 채널들을 포함하는 음성 스트림을 146 kbps까지 송수신 가능하고, 4K, 1080p 해상도의 HEVC 압축 비디오 스트림을 15 Mbps까지 송수신 가능함을 단말 장치 B에게 제안 하였다. 단말 장치 A는, 64 kbps로 압축된 2 개의 EVS 채널과 IP 오버헤드를 포함하는 음성 스트림을 총 146kbps까지 송수신 가능함을 단말 장치 B에게 제안 하였다.
단말 장치 A는, 오디오 채널과 영상 FOV가 구형 또는 원통형 좌표계로 표시될 수 있음을 SDP 메시지 내에서 cylindrical, spherical로 명시한다. 단말 장치 A는, 2 byte의 머리 방향 정보를 각 음성 프레임과 함께 송신하도록 SDP 메시지 내에서 head-tracking 2라고 명시한다. 또한, 단말 장치 A는, 머리 방향 정보의 전송을 요구하지 않으며, 머리 방향이 회전하더라도 오디오 채널의 방향을 회전 시키지 않도록 rotate=0라고 명시한다. 이때, RTP 패킷 당 4 바이트의 머리 방향 정보가 전송되지 않으므로, 오디오 신호의 총 비트 레이트가 도 33에 도시된 147kbps보다 1 kbps 적은 146 kbps이다. 또한, 단말 장치 A는, 머리 방향이 회전하더라도 영상의 방향을 회전 시키지 않도록 rotate=0라고 명시한다.
도 36의 (a)는, 도 35에서 단말 장치 A가 단말 장치 B에게 제안한 오디오 채널들의 방향과 360도 영상을 원통형 좌표계를 사용하여 도시한다.
도 35를 참조하면, 단말 장치 A의 제안에 대하여, 단말 장치 B는 제안된 EVS 스트림과 4K HEVC 스트림을 수용하되, 수신할 비디오의 비트 레이트를 9 Mbps로 축소하고 360도로부터 240도로 FOV를 축소하는 조건을 답변하였다. 도 35에서 비트 레이트를 9 Mbps로 축소함은 b=AS:9000으로 명시되고, FOV를 240도로 축소함은 longi=[0:240]으로 명시된다.
또한, 단말 장치 B는, 원통형 좌표계를 사용하고, 두 오디오 채널의 기본 방향을 (경도 80도) 및 (경도 160도)에 각각 배치한다고 답변하였다. 도 35에서, 원통형 좌표계를 사용함은 cylindrical로 명시되고, 두 오디오 채널들의 방향은 longi=[80 160]으로 명시된다.
도 36의 (b)는, 도 35에서 단말 장치 B가 답변한 오디오 채널의 방향과 제한된 FOV의 영상을 원통형 좌표계를 사용하여 도시한다.
HMD 측 단말 장치가 카메라 측 단말 장치와 통화 조건을 교섭함에 있어서, HMD 측 단말 장치는 전송 채널 건너편에 위치한 카메라의 구조나 주변의 음향 환경을 알 수 없다. 따라서, HMD 측 단말 장치는, HMD가 수신 가능한 오디오 채널의 수나 비트 레이트만을 제안할 수 있다. 오디오 채널의 공간적 배치는, 카메라가 여러 정보에 기반하여 주변 음향 환경을 분석함으로써 결정할 수 있다.
도 37은 일 실시예에 따라 단말 장치들 간에 몰입형 멀티미디어 통신을 수행하는 방법을 설명하기 위한 도면이다.
도 37의 Proxy Call Session Control Function(P-CSCF), Session Call Session Control Function(S-CSCF), 및 Interrogating Call Session Control Function(I-CSCF)는, 통화 조건 교섭에 이용되는 IMS를 구성하는 네트워크 노드 들이다. 도 37에는 HMD 측 단말 장치가 연결된 네트워크를 운영하는 서비스 제공자 A(Service Provider A) 및 카메라 측 단말 장치가 연결된 네트워크를 운영하는 서비스 제공자 B(Service Provider B)가 도시된다.
도 37에는, 카메라가, 통화 조건 교섭 중에 주변 음향 환경을 분석함으로써, 오디오 채널들의 배치를 결정하는 단계를 도시하고 있다. 도 37은, 최초에 통화를 시작할 때에 오디오 채널들의 배치를 결정하는 단계와, 통화 중간에 단말 장치의 사용자에 의해 FOV가 조정되거나 비트 레이트가 감소하는 경우에 오디오 채널들의 배치를 재 조정하는 단계를 도시한다.
카메라는, 카메라 주변의 배경음을 측정할 수 있다. 카메라는, 카메라 주변의 360도 전 방향에 대해서 또는 오디오 채널들이 배치될 방향에 대해서 배경음을 측정할 수 있다. 카메라에서 측정된 결과를 취합하면, 도 38과 같이 주변의 배경음 수준을 파악할 수 있다. 주변 음향 환경은 오디오 채널들의 배치에 참고될 수 있다.
도 39는, 주변음의 수준을 고려하여, 총 64 kbps의 음성 비트 레이트를 2 개 또는 4 개의 오디오 채널들로 분할하여 배치한 예를 도시한다. 주변음의 수준이란, 주변 음향에 대해서 측정된 에너지를 의미할 수 있다.
도 39의 (a)에서 1, 4 사분면의 배경음 에너지는 실선(3901)으로 표시된 임계 값 이상이고, 2, 3 사분면의 배경음 에너지는 임계값 이하이다. 카메라 측 단말 장치는, 배경음에 기초하여, 주요 음원이 1, 4 사분면에 존재하는 것으로 판단할 수 있다. 카메라 측 단말 장치는, 오디오 채널들의 방향을 1, 4 사분면에 포함되는 45도, 315도로 결정하고, 각 오디오 채널에 32 kbps의 비트 레이트를 할당하였다.
도 39의 (b)에서 각 사분면의 배경음 에너지의 수준이 비슷하다. 따라서, 카메라 측 단말 장치는, 배경음에 기초하여, 주요 음원이 각 사분면에 분포하여 존재하는 것으로 판단할 수 있다. 카메라 측 단말 장치는, 오디오 채널들의 방향들을 1, 2, 3, 4 사분면에 포함되는 45도, 135도, 225도, 315도로 각각 결정하고, 각 오디오 채널에 16 kbps의 비트 레이트를 할당하였다.
일 실시예에 따른 카메라 측 단말 장치는, 오디오 입력 신호의 에너지의 주파수 도메인에서의 분포에 기초하여, 최대 오디오 대역폭을 결정할 수 있다.
도 39에는, 배경음의 수준을 측정할 수 있는 카메라에 의해서 2차원 평면 상의 360도 전 방향에 대한 오디오 채널들의 배치 및 비트 레이트 분할이 수행되는 경우가 예로 도시되었다. 그러나 실시예는 이에 제한되지 않으며, 오디오 채널들의 배치 및 비트 레이트 분할은 360도 전 방향이 아니라 제한된 공간 영역에 대해서도 수행될 수 있다. 또한, 오디오 채널들의 배치 및 비트 레이트의 분할은, 2차원 평면이 아닌 3차원 공간에 대해서도 수행될 수 있다. 또한, 오디오 채널들의 배치 및 비트 레이트 분할은 통화가 시작되는 통화 조건 교섭 단계에서 수행될 수도 있고, 통화 도중에도 수행될 수 있다.
도 37로 되돌아 와서, 카메라 측 단말 장치는, 최초에 통화를 시작할 때 수행된 통화 조건 교섭 결과에 따라 오디오 신호를 전송할 수 있다. 일 실시예에 따른 몰입형 멀티미디어 통신 시스템에 있어서, 통화 중간에 네트워크 망 부하가 발생한 경우 또는 사용자에 의해 영상의 FOV가 조정되는 경우, 오디오 채널들 또는 영상 신호의 조정이 요구될 수 있다.
일 예로서, 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되기 어려운 망 부하 상황의 경우, 카메라 측 단말 장치는, 적어도 하나의 오디오 채널의 비트 레이트를 감소 시키라는 요청을 HMD 측 단말 장치로부터 수신할 수 있다. 카메라 측 단말 장치는, HMD의 사용자의 머리 방향에 대응하는 오디오 채널이 아닌 다른 오디오 채널의 비트 레이트를 감소시키라는 요청을 수신할 수 있다. 특정 오디오 채널의 비트 레이트를 감소 시키기 위하여, HMD 측 단말 장치가 카메라 측 단말 장치에게 전송할 수 있는 제어 패킷의 형식은 후에 도 40을 참조하여 구체적으로 설명한다.
카메라 측 단말 장치는, HMD 측 단말 장치로부터 조정 요청된 음향 조건을 분석하고, 카메라 측 단말 장치가 지원 가능한 음향 조건을 결정하여 HMD 측 단말 장치에게 전송할 수 있다. 카메라 측 단말 장치는, HMD 측 단말 장치로부터 수신된 요청에 기초하여, 조정된 비트 레이트가 할당된 오디오 채널들에 대응하는 오디오 출력 신호들을 생성할 수 있다. 카메라 측 단말 장치는, 조정된 비트 레이트가 할당된 오디오 출력 신호들을 상대 단말 장치에게 전송할 수 있다.
다른 예로서, 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되기 어려운 망 부하 상황의 경우, 카메라 측 단말 장치는, 오디오 채널들의 수 및 오디오 채널들에게 할당되는 비트 레이트 중 적어도 하나를 조정하라는 요청을 HMD 측 단말 장치로부터 수신할 수 있다. 오디오 채널들의 수 및 비트 레이트 중 적어도 하나를 조정하기 위하여, HMD 측 단말 장치가 카메라 측 단말 장치에게 전송할 수 있는 제어 패킷의 형식은 후에 도 41을 참조하여 구체적으로 설명한다.
카메라 측 단말 장치는, HMD 측 단말 장치로부터 수신된 요청에 기초하여, 오디오 채널들 중에서 적어도 하나의 오디오 채널에 대응하는 오디오 출력 신호의 전송을 중지할 수 있다. 또는, 카메라 측 단말 장치는, HMD 측 단말 장치로부터 수신된 요청에 기초하여, 오디오 채널들 중에서 적어도 하나의 오디오 채널에게 할당된 비트 레이트를 감소시킬 수 있다.
예를 들어, 카메라 측 단말 장치는, HMD의 사용자의 머리 방향에 대응하는 오디오 채널이 아닌 다른 오디오 채널에게 할당된 비트 레이트를 감소 시키거나, 다른 오디오 채널에 대한 신호의 전송을 일시적으로 중지할 수 있다. 또는, 카메라 측 단말 장치는, 음성 모드에서 동작하는 오디오 채널을 제외한 다른 오디오 채널에게 할당된 비트 레이트를 감소 시키거나, 다른 오디오 채널에 대한 신호의 전송을 일시적으로 중지할 수 있다. 또는, 카메라 측 단말 장치는, 영상 내용을 분석함으로써, 대화 가능한 사람이 있는 방향의 오디오 채널을 제외한 다른 오디오 채널에게 할당된 비트 레이트를 감소 시키거나, 다른 오디오 채널에 대한 신호의 전송을 일시적으로 중지할 수 있다.
카메라 측 단말 장치는, 조정된 오디오 채널들에 대응하는 오디오 출력 신호들을 상대 단말 장치에게 전송할 수 있다.
또 다른 예로서, 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되기 어려운 망 부하 상황의 경우, 카메라 측 단말 장치는, 영상의 화각을 감소시키라는 요청을 HMD 측 단말 장치로부터 수신할 수 있다. 영상의 화각을 감소 시키기 위하여, HMD 측 단말 장치가 카메라 측 단말 장치에게 전송할 수 있는 제어 패킷의 형식은 후에 도 42를 참조하여 구체적으로 설명한다.
카메라 측 단말 장치는, HMD 측 단말 장치로부터 수신된 요청에 기초하여, 조정된 화각의 영상 출력 신호를 생성하고, 생성된 영상 출력 신호를 전송할 수 있다.
도 40 및 도 41은 일 실시예에 따라 HMD 측 단말 장치가 카메라 측 단말 장치에게 오디오 신호를 전송하기 위해 이용되는 비트 레이트를 조정할 것을 요청하는 제어 패킷의 형식을 도시한다.
도 40은 여러 오디오 채널들이 사용되는 몰입형 멀티미디어 통신에서 전송 채널 상황이 열악하여 통화 조건에서 결정된 비트 레이트가 유지되지 못하는 경우, HMD 측 단말 장치가 카메라 측 단말 장치에게 전송할 수 있는 제어 패킷의 형식이다.
HMD 측 단말 장치는, 현재 유지 가능한 비트 레이트를 가장 중요한 오디오 채널들에게 할당하고 중요도가 낮은 채널들에 대해서는 비트 레이트를 일시적으로 감소시키기 위한 제어 패킷을 전송할 수 있다. HMD 측 단말 장치는, 네트워크 망 부하 상황이 지나간 후, 감소시켰던 비트 레이트를 다시 높이거나, 소정 시간 동안 중요도가 낮은 채널들에 대한 신호의 전송을 일시적으로 전송을 정지시키기 위한 제어 패킷을 전송할 수 있다.
도 40의 RTCP_APP_REQ_MCH는 전송되는 패킷의 목적을 표시한다. Channel ID i와 CMR for Channel i는 i 번째 채널의 음성 압축 방법을 변경하기 위한 CMR을 의미한다. 도 40에 도시된 형식에 따르면, 하나의 패킷으로 여러 오디오 채널들에 대한 CMR들을 동시에 전송할 수 있다. 각 CMR 바이트의 형식은, 사용되고 있는 코덱의 CMR 형식을 따를 수 있다. 예를 들어, AMR, AMR-WB, EVS 등의 CMR이 사용될 수 있다.
종래의 코덱에 있어서, 오디오 채널의 비트 레이트를 0으로 낮추는 파라미터는 CMR에 정의되지 않았다. 일 실시예에 따르면, 현재 쓰이지 않는 비트의 조합을 활용하여, 비트 레이트를 0으로 낮추는 파라미터를 정의할 것을 제안한다. 일 실시예에 따르면, AMR, AMR-WB, EVS 등의 종래의 코덱들에 대해서, 멀티 채널들에 대해서 복수의 CMR들을 운반할 수 있는 새로운 패킷 형태가 제안된다. 일 실시예에 따르면, 오디오 채널을 전송 중지(shutting off)하기 위해서, NO_DATA를 표현하기 위해 CMR의 사용되지 않은 필드(unused field of CMR)를 정의할 것이 제안된다. 예를 들어, 일시적인 통화 품질 열화를 겪고 있는 HMD 측 단말 장치는, HMD 사용자의 현재 머리 방향과 멀리 떨어진 방향의 오디오 채널의 비트 레이트를 우선적으로 감소시키기 위해서 도 40에 도시된 패킷을 이용할 수 있다.
도 40에는, HMD 측 단말 장치가 압축 방법을 변경할 채널을 결정하는 경우에 전송되는 제어 패킷의 예를 도시하였다. 그러나 실시예는 이에 제한되지 않는다.
네트워크 망 부하 상황을 극복하기 위해서, 압축 방법을 변경할 오디오 채널을 HMD 측 단말 장치가 결정하지 않고 카메라 측 단말 장치가 결정하는 것이 필요할 수 있다. 예를 들어, 배경음이 수신되는 오디오 채널에 대해서 비트 레이트를 감소시킴으로써, 네트워크 망 부하 상황을 극복할 수 있다. 여러 오디오 채널들 중에서 각 오디오 채널을 통해 수신되는 오디오 입력 신호가 음성인지 배경음인지 여부는 영상 신호를 캡춰하고 분석할 수 있는 카메라만이 파악할 수 있다.
HMD 측 단말 장치는 도 41에 도시된 제어 패킷을 전송함으로써, 현재 수용할 수 있는 최대 오디오 채널들의 수와 총 비트 레이트를 카메라 측 단말 장치에게 알릴 수 있다. 제어 패킷을 수신한 카메라 측 단말 장치는, 요청된 오디오 채널들의 최대 수 및 최대 비트 레이트 중 적어도 하나에 기초하여, 각 오디오 채널의 비트 레이트를 조절하거나, 오디오 채널의 수를 감소시킬 수 있다.
예를 들어, 카메라 측 단말 장치는, Speech Codec Mode Controller가 음성 모드로 오디오 입력 신호를 압축하고 있는 오디오 채널에 대해서는 비트 레이트를 유지하되, 오디오 모드로 오디오 입력 신호를 압축하고 있는 오디오 채널에 대해서는 비트 레이트를 감소시키거나 일시적으로 신호의 전송을 중단할 수 있다.
도 42는 일 실시예에 따라 HMD 측 단말 장치가 카메라 측 단말 장치에게 영상의 FOV를 조정할 것을 요청하는 제어 패킷의 형식을 도시한다.
도 42는 수신되는 영상의 비트 레이트가 통화 조건 교섭 단계에서 결정된 조건을 만족하지 못하는 경우, HMD 측 단말 장치가 카메라 측 단말 장치에게 전송하는 제어 패킷의 예를 도시한다.
HMD 측 단말 장치는, 도 30의 (b)에 도시된 TMMBR와 함께, 카메라 측 단말 장치에게 도 42의 제어 패킷을 송신함으로써, 비트 레이트와 영상 FOV를 일시적으로 감소시킬 수 있다. 또한, 네트워크 망 부하 상황이 지난 후 정상 상황으로 복귀되면, HMD 측 단말 장치는, 카메라 측 단말 장치에게 TMMBR와 도 42의 제어 패킷을 송신함으로써, 비트 레이트와 영상 FOV를 다시 복구할 수 있다. HMD 측 단말 장치는, 도 42의 제어 패킷을 이용함으로써, 영상의 위도와 경도의 범위를 재설정함으로써, 영상의 FOV를 축소 또는 확장할 수 있다.
도 42의 Longitude 1, Longitude 2는 구형 좌표계에서 FOV의 경도의 범위를 나타내고, Latitude 1, Latitude 2는 구형 좌표계에서 FOV의 위도의 범위를 나타낼 수 있다. 그러나, 실시예는 도 42에 도시된 예에 제한되지 않는다. HMD 측 단말 장치가 카메라 측 단말 장치와의 통신을 함에 있어서 위도 조정이 불필요한 경우, Longitude 1, Longitude 2 만을 이용함으로써 FOV의 범위를 나타낼 수 있다.
일 실시예에 따른 몰입형 멀티미디어 통신 시스템은, 제한된 비트 레이트를 이용하면서 통화 품질을 최적화 하기 위해, 카메라 주변의 음향 환경과 인간의 청각의 특성 등을 고려하여, 오디오 채널들을 구성할 수 있다. 일 실시예에 따른 몰입형 멀티미디어 통신 시스템은, 오디오 채널의 수, 각 오디오 채널에게 할당되는 비트 레이트, 오디오 채널들 간의 각도 차이 및 사용할 수 있는 최대 대역폭 중 적어도 하나를 결정할 수 있다. 일 실시예에 따른 카메라 측 단말 장치는, 결정된 오디오 채널 정보를 이용하여, 네트워크를 통해 HMD 측 단말 장치와 통화 조건을 교섭할 수 있다. 또한, 일 실시예에 따른 카메라 측 단말 장치는, HMD 사용자의 머리 방향에 따라 동적으로 오디오 신호의 압축 방식을 선택하고, 선택된 방식을 오디오 신호의 압축에 적용할 수 있다.
일 실시예에 따른 몰입형 멀티미디어 시스템은, 카메라 및 HMD와 단말 장치 간의 연동을 관리함으로써, 통화 품질을 최대화 하고, 통화 교섭 시간을 최소화 할 수 있으며, 통화 요금을 최소화 할 수 있다. 일 실시예에 따른 몰입형 멀티미디어 시스템은, HMD 사용자의 시점의 변화에 따른 청각 특성의 변화를 고려함으로써, 사용자가 관심 있어하는 방향의 소리를 보다 현장감있게 출력할 수 있다. 따라서, 통화 품질이 최대화될 수 있다. 일 실시예에 따른 몰입형 멀티미디어 시스템은, 카메라의 전원이 켜졌을 때, 주변 음향 환경의 탐색을 시작함으로써 통화 조건 교섭을 준비할 수 있다. 따라서, 통화 교섭 시간이 최소화 될 수 있다. 그리고, 일 실시예에 따른 몰입형 멀티미디어 시스템은, 필요 이상으로 많은 수의 오디오 채널들 및 필요 이상으로 많은 비트 레이트를 사용하지 않을 수 있다. 따라서, 주파수 자원이 절약되고 통화 요금이 최소화될 수 있다.
한편, 상술한 실시예는, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터에 의해 판독 가능한 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시예에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 또한, 상술한 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 컴퓨터가 읽고 실행할 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 기록 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 마그네틱 저장매체, 예를 들면, 롬, 플로피 디스크, 하드 디스크 등을 포함하고,) 광학적 판독 매체, 예를 들면, 시디롬, DVD 등과 같은 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
또한, 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램 명령어 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.
본 개시에서 설명된 특정 실행들은 일 실시예 일 뿐이며, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 및 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.

Claims (35)

  1. 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하는 단계;
    상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하는 단계;
    상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하는 단계;
    상기 단말 장치에 포함된 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는 단계; 및
    상기 상대 단말 장치의 사용자에 대해 예측된 머리 방향과 관련된 정보 및 상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 오디오 출력 신호들을 출력하는 상기 상대 단말 장치에게 전송하는 단계를 포함하는, 오디오 신호 전송 방법.
  2. 제1 항에 있어서,
    상기 상대 단말 장치의 사용자의 머리 방향과 관련된 정보를 상기 상대 단말 장치와 송수신하기 위한 형식을 결정하는 단계를 더 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  3. 제2 항에 있어서,
    상기 머리 방향과 관련된 정보의 형식을 결정하는 단계는,
    상기 상대 단말 장치로부터 사용 가능한 최대 비트수에 대한 정보를 수신하는 단계; 및
    상기 최대 비트수를 고려하여, 상기 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터 및 상기 각도 파라미터에 대해 할당되는 비트의 수에 대한 정보를 전송하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  4. 제1 항에 있어서,
    상기 머리 방향 정보는,
    상기 상대 단말 장치에게 전송하는 영상을 분할하는 균일한 크기의 블록들 중에서, 상기 상대 단말 장치의 사용자의 시선 방향을 나타내는 게이즈 커서가 위치하는 블록의 좌표를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  5. 제1 항에 있어서,
    상기 머리 방향을 예측하는 단계는,
    상기 추출된 머리 방향 정보 및 상기 상대 단말 장치로부터 이 전에 수신한 패킷들로부터 추출된 머리 방향 정보를 이용하여, 상기 소정 시간 이후의 머리 방향을 계산하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  6. 제5 항에 있어서,
    상기 머리 방향 정보를 예측하는 단계는,
    상기 계산된 머리 방향을 미리 결정된 비트 수로 변환하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  7. 제1 항에 있어서,
    상기 오디오 출력 신호들을 생성하는 단계는,
    상기 오디오 입력 신호들에 대한 빔포밍을 수행함으로써 각 오디오 채널의 방향에 대응하는 오디오 출력 신호를 생성하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  8. 제1 항에 있어서,
    상기 오디오 출력 신호들을 생성하는 단계는,
    상기 예측된 머리 방향을 고려하여, 상기 오디오 채널들 중 적어도 하나의 채널에 대응하는 오디오 출력 신호의 게인을 조절하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  9. 제1 항에 있어서,
    상기 오디오 출력 신호들을 생성하는 단계는,
    각 오디오 채널에 대응하는 오디오 출력 신호를 음성 모드에서 압축할지 또는 오디오 모드에서 압축할지 여부를 결정하는 단계;
    상기 음성 모드에서 오디오 출력 신호가 압축되는 오디오 채널에 대응하는 게인을 증가시키는 단계; 및
    결정된 모드에 기초하여 각 오디오 채널에 대응하는 오디오 출력 신호를 압축하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  10. 제1 항에 있어서,
    상기 추출된 머리 방향 정보에 기초하여, 상기 단말과 유선 또는 무선으로 연결된 카메라의 디스플레이에 상기 상대 단말 장치의 사용자의 머리 방향을 표시하기 위한 정보를 전송하는 단계를 더 포함하는, 오디오 신호 전송 방법.
  11. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하고, 상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하고, 상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하고, 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는, 적어도 하나의 프로세서;
    영상 신호를 수신하는, 적어도 하나의 카메라;
    상기 오디오 입력 신호들을 수신하는, 적어도 하나의 마이크; 및
    상기 상대 단말 장치의 사용자에 대해 예측된 머리 방향과 관련된 정보, 상기 오디오 출력 신호들이 압축된 음성 프레임 및 상기 영상 신호가 압축된 비디오 프레임을 상기 오디오 출력 신호들 및 상기 영상 신호를 출력하는 상기 상대 단말 장치에게 전송하는, 통신부를 포함하는, 단말 장치.
  12. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 상대 단말 장치의 사용자의 머리 방향 정보를 추출하고, 상기 추출된 머리 방향 정보에 기초하여, 소정 시간 이후의 상기 상대 단말 장치의 사용자의 머리 방향을 예측하고, 상기 예측된 머리 방향에 대응하는 오디오 채널들의 방향을 결정하고, 카메라의 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향에 대응하는 오디오 출력 신호들을 생성하는, 적어도 하나의 프로세서; 및
    상기 단말 장치와 연결된 상기 카메라로부터, 영상 신호 및 상기 오디오 입력 신호들을 수신하고, 상기 예측된 머리 방향과 관련된 정보, 상기 오디오 출력 신호들이 압축된 음성 프레임 및 상기 영상 신호가 압축된 비디오 프레임을 상기 오디오 출력 신호들 및 상기 영상 신호를 출력하는 상기 상대 단말 장치에게 전송하는, 통신부를 포함하는, 단말 장치.
  13. 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 머리 방향 정보 및 음성 프레임을 추출하는 단계;
    상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하는 단계;
    상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는 단계;
    상기 보정된 오디오 신호들을 출력하는 단계; 및
    상기 결정된 머리 방향 정보를 상기 상대 단말 장치에게 전송하는 단계를 포함하는, 오디오 신호 출력 방법.
  14. 제13 항에 있어서,
    상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 상기 상대 단말 장치와 송수신하기 위한 형식을 결정하는 단계를 더 포함하는 것을 특징으로 하는, 오디오 신호 출력 방법.
  15. 제14 항에 있어서,
    상기 머리 방향과 관련된 정보의 형식을 결정하는 단계는,
    상기 상대 단말 장치에게 사용 가능한 최대 비트수에 대한 정보를 전송하는 단계; 및
    상기 최대 비트수를 고려하여 결정된, 상기 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터 및 상기 각도 파라미터에 대해 할당되는 비트의 수에 대한 정보를 상기 상대 단말 장치로부터 수신하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 출력 방법.
  16. 제13 항에 있어서,
    상기 머리 방향과 관련된 정보의 형식을 결정하는 단계는,
    상기 머리 방향 정보는,
    상기 상대 단말 장치로부터 수신하는 영상을 분할하는 균일한 크기의 블록들 중에서, 상기 단말 장치의 사용자의 시선 방향을 나타내는 게이즈 커서가 위치하는 블록의 좌표를 포함하는 것을 특징으로 하는, 오디오 신호 출력 방법.
  17. 제13 항에 있어서,
    상기 머리 방향과 관련된 정보를 결정하는 단계는,
    상기 단말 장치의 사용자의 머리 방향을 센싱하는 단계; 및
    상기 센싱된 결과를 미리 결정된 비트 수로 변환하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 출력 방법.
  18. 제15 항에 있어서,
    상기 머리 방향과 관련된 정보를 결정하는 단계는,
    상기 각도 파라미터에 대응하는 상기 단말 장치의 사용자의 머리 방향을 센싱하는 단계; 및
    상기 센싱된 결과를 상기 각도 파라미터에 대해 할당되는 비트 수로 변환하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 출력 방법.
  19. 상대 단말 장치와 통화 기능을 수행하는 HMD에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 HMD에 대해 예측된 머리 방향 정보, 음성 프레임, 및 영상 신호를 추출하고, 상기 HMD의 사용자의 머리 방향과 관련된 정보를 결정하고, 상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는, 적어도 하나의 프로세서;
    상기 보정된 오디오 신호들을 출력하는 스피커;
    상기 영상 신호를 출력하는 디스플레이; 및
    상기 결정된 머리 방향 정보를 상기 상대 단말 장치에게 전송하는 통신부를 포함하는, HMD.
  20. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    상기 상대 단말 장치로부터 수신한 패킷으로부터 상기 단말 장치에 대해 예측된 머리 방향 정보, 음성 프레임, 및 영상 신호를 추출하고, 상기 단말 장치의 사용자의 머리 방향과 관련된 정보를 결정하고, 상기 추출된 머리 방향 정보와 상기 결정된 머리 방향 정보를 비교한 결과에 기초하여, 상기 음성 프레임에 포함되는 오디오 신호들을 보정하는, 적어도 하나의 프로세서; 및
    상기 단말 장치와 연결된 HMD에게 상기 보정된 오디오 신호들 및 상기 영상 신호를 전송하고, 상기 상대 단말 장치에게 상기 결정된 머리 방향 정보를 전송하는 통신부를 포함하는, 단말 장치.
  21. 상대 단말 장치와 통화 기능을 수행하는 단말 장치가 상대 단말 장치에게 오디오 신호를 전송하는 방법에 있어서,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하는 단계;
    상기 상대 단말 장치의 능력 정보, 상기 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 단말 장치의 환경 정보 중 적어도 하나에 기초하여, 3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는 단계;
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 상기 상대 단말 장치에게 전송하는 단계;
    복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하는 단계; 및
    상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하는 단계를 포함하는, 오디오 신호 전송 방법.
  22. 제21 항에 있어서,
    상기 결정된 오디오 채널들의 방향들에 대한 정보는,
    상기 결정된 오디오 채널들의 방향들을 나타내는 각도 값을 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  23. 제21 항에 있어서,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하는 단계;는,
    상기 상대 단말 장치로부터 사용 가능한 적어도 하나의 좌표계의 종류에 대한 정보를 수신하는 단계를 포함하고,
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는 단계는,
    상기 적어도 하나의 좌표계의 종류 중에서 선택된 좌표계의 종류 및 상기 선택된 좌표계의 종류에 기초하여 상기 결정된 오디오 채널들의 방향들을 나타내는 각도 값을 전송하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  24. 제21 항에 있어서,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하는 단계;는,
    상기 상대 단말 장치로부터 사용 가능한 좌표계의 종류, 수신 가능한 오디오의 채널의 수, 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 대한 정보를 수신하는 단계를 포함하고,
    상기 오디오 채널들의 방향들을 결정하는 단계는,
    상기 수신된 정보에 기초하여, 상기 오디오 채널들의 방향들을 결정하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  25. 제21 항에 있어서,
    상기 오디오 채널들의 방향들을 결정하는 단계는,
    상기 복수의 마이크들의 배치, 상기 단말 장치 주변의 음향 환경, 상기 상대 단말 장치에게 전송되는 영상의 화각(Field of View, FOV), 및 사용 가능한 최대 비트 레이트 중 적어도 하나에 기초하여, 상기 오디오 채널들의 수 및 각 오디오 채널에 할당되는 비트 레이트 중 적어도 하나를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  26. 제21 항에 있어서,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하는 단계;는,
    상기 상대 단말 장치에게 영상을 전송하기 위해 사용 가능한 최대 비트 레이트를 수신하는 단계를 포함하고,
    상기 오디오 채널들의 방향들을 결정하는 단계는,
    상기 영상을 전송하기 위해 사용 가능한 최대 비트 레이트에 기초하여 상기 상대 단말 장치에게 전송되는 영상의 화각(Field of View, FOV)을 결정하는 단계; 및
    상기 영상의 화각에 기초하여, 상기 오디오 채널들의 방향들을 결정하는 단계를 포함하고,
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는 단계는,
    상기 영상의 화각 및 상기 오디오 채널들의 방향들에 대한 정보를 상기 상대 단말 장치에게 전송하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  27. 제21 항에 있어서,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하는 단계;는,
    상기 상대 단말 장치의 사용자의 머리 방향과 관련된 정보에 대해 사용 가능한 최대 비트수에 대한 정보 및 상기 머리 방향이 회전함에 따라 상기 오디오 채널들의 방향들도 회전해야 하는지 여부에 대한 정보를 상기 상대 단말 장치로부터 수신하는 단계를 포함하고,
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는 단계는,
    상기 최대 비트수를 고려하여, 상기 머리 방향과 관련된 정보를 나타내기 위한 각도 파라미터 및 상기 각도 파라미터에 대해 할당되는 비트의 수에 대한 정보를 전송하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 전송 방법.
  28. 제21 항에 있어서,
    상기 단말 장치와 상기 상대 단말 장치 간의 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되지 않는 경우, 상기 상대 단말 장치의 사용자의 머리 방향에 대응하는 오디오 채널이 아닌 다른 오디오 채널의 비트 레이트를 감소시키라는 요청을 상기 상대 단말 장치로부터 수신하는 단계; 및
    상기 수신된 요청에 기초하여, 조정된 비트 레이트가 할당된 상기 오디오 채널들에 대응하는 오디오 출력 신호들을 생성하는 단계; 및
    상기 조정된 비트 레이트가 할당된 상기 오디오 출력 신호들을 상기 상대 단말 장치에게 전송하는 단계를 더 포함하는, 오디오 신호 전송 방법.
  29. 제21 항에 있어서,
    상기 단말 장치와 상기 상대 단말 장치 간의 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되지 않는 경우, 상기 오디오 채널들의 수 및 상기 오디오 채널들에게 할당되는 비트 레이트 중 적어도 하나를 조정하라는 요청을 수신하는 단계; 및
    상기 수신된 요청에 기초하여, 상기 오디오 채널들 중에서 적어도 하나의 오디오 채널에 대응하는 오디오 출력 신호의 전송을 중지하거나, 상기 오디오 채널들 중에서 적어도 하나의 오디오 채널에게 할당된 비트 레이트를 감소시키는 단계; 및
    상기 조정된 오디오 채널들에 대응하는 오디오 출력 신호들을 상기 상대 단말 장치에게 전송하는 단계를 더 포함하는, 오디오 신호 전송 방법.
  30. 제21 항에 있어서,
    상기 단말 장치와 상기 상대 단말 장치 간의 통화 조건 교섭 단계에서 결정된 비트 레이트가 유지되지 않는 경우, 상기 상대 단말 장치에게 전송되는 영상의 화각을 감소시키라는 요청을 상기 상대 단말 장치로부터 수신하는 단계; 및
    상기 수신된 요청에 기초하여, 조정된 화각의 영상 출력 신호를 생성하는 단계; 및
    상기 조정된 화각의 영상 출력 신호를 전송하는 단계를 더 포함하는, 오디오 신호 전송 방법.
  31. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는, 적어도 하나의 프로세서;
    영상 신호를 수신하는, 적어도 하나의 카메라;
    오디오 입력 신호들을 수신하는, 적어도 하나의 마이크; 및
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는, 통신부를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하고,
    상기 통신부는,
    상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하고,
    상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하고,
    상기 3차원 공간 상에 배치되는 오디오 채널들의 방향들은 상기 상대 단말 장치의 능력 정보, 상기 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 단말 장치의 환경 정보 중 적어도 하나에 기초하여 결정되는, 단말 장치.
  32. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    3차원 공간 상에 배치되는 오디오 채널들의 방향들을 결정하는, 적어도 하나의 프로세서; 및
    상기 결정된 오디오 채널들의 방향들에 대한 정보를 전송하는, 통신부를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 단말 장치와 연결된 카메라의 복수의 마이크들을 통해 수신되는 오디오 입력 신호들을 조합함으로써, 상기 결정된 오디오 채널들의 방향들에 대응하는 오디오 출력 신호들을 생성하고,
    상기 통신부는, 상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로부터 수신하고,
    상기 오디오 출력 신호들이 압축된 음성 프레임을 상기 상대 단말 장치에게 전송하고,
    상기 3차원 공간 상에 배치되는 오디오 채널들의 방향들은 상기 상대 단말 장치의 능력 정보, 상기 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 단말 장치의 환경 정보 중 적어도 하나에 기초하여 결정되는, 단말 장치.
  33. 상대 단말 장치와 통화 기능을 수행하는 단말 장치가 상대 단말 장치로부터 수신한 오디오 신호를 출력하는 방법에 있어서,
    상기 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로 전송하는 단계;
    상기 상대 단말 장치로부터, 상기 단말 장치의 능력 정보, 상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 상대 단말 장치의 환경 정보 중 적어도 하나에 기초하여 결정된 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하는 단계;
    상기 오디오 채널들의 방향들에 대응하는 오디오 신호들을 수신하는 단계; 및
    상기 오디오 신호들을 출력하는 단계를 포함하는, 오디오 신호 출력 방법.
  34. 상대 단말 장치와 통화 기능을 수행하는 HMD에 있어서,
    상기 HMD가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로 전송하고, 상기 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하고, 상기 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 수신하는, 통신부;
    상기 오디오 신호들을 출력하는, 스피커;
    상기 영상 신호를 출력하는 디스플레이; 및
    상기 통신부, 스피커, 및 디스플레이를 제어하는 적어도 하나의 프로세서를 포함하고,
    상기 3차원 공간 상에 배치되는 오디오 채널들의 방향들은 상기 HMD 의 능력 정보, 상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 상대 단말 장치의 환경 정보 중 적어도 하나에 기초하여 결정되는, HMD.
  35. 상대 단말 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    상기 단말 장치가 지원하는 통화 조건에 대한 능력 정보를 상기 상대 단말 장치로 전송하고, 상기 상대 단말 장치로부터 3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보를 수신하고, 상기 오디오 채널들의 방향들에 대응하는 오디오 신호들 및 영상 신호를 수신하고, 상기 단말 장치와 연결된 HMD에게 상기 오디오 신호들 및 상기 영상 신호를 전송하는, 통신부; 및
    상기 통신부를 제어하는 적어도 하나의 프로세서를 포함하고,
    3차원 공간 상에 배치되는 오디오 채널들의 방향들에 대한 정보는 상기 단말 장치의 능력 정보, 상기 상대 단말 장치가 지원하는 통화 조건에 대한 능력 정보 및 상기 상대 단말 장치의 환경 정보 중 적어도 하나에 기초하여 결정된, 단말 장치.
KR1020160137701A 2016-10-21 2016-10-21 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 KR102277438B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160137701A KR102277438B1 (ko) 2016-10-21 2016-10-21 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
US16/343,606 US10972854B2 (en) 2016-10-21 2017-03-07 Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same
EP17862018.3A EP3531695B1 (en) 2016-10-21 2017-03-07 Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same
PCT/KR2017/002420 WO2018074677A1 (ko) 2016-10-21 2017-03-07 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160137701A KR102277438B1 (ko) 2016-10-21 2016-10-21 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치

Publications (2)

Publication Number Publication Date
KR20180044077A KR20180044077A (ko) 2018-05-02
KR102277438B1 true KR102277438B1 (ko) 2021-07-14

Family

ID=62018798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160137701A KR102277438B1 (ko) 2016-10-21 2016-10-21 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치

Country Status (4)

Country Link
US (1) US10972854B2 (ko)
EP (1) EP3531695B1 (ko)
KR (1) KR102277438B1 (ko)
WO (1) WO2018074677A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10687050B2 (en) * 2017-03-10 2020-06-16 Qualcomm Incorporated Methods and systems of reducing latency in communication of image data between devices
US11272160B2 (en) * 2017-06-15 2022-03-08 Lenovo (Singapore) Pte. Ltd. Tracking a point of interest in a panoramic video
US10986456B2 (en) * 2017-10-05 2021-04-20 Qualcomm Incorporated Spatial relation coding using virtual higher order ambisonic coefficients
US11367452B2 (en) * 2018-03-02 2022-06-21 Intel Corporation Adaptive bitrate coding for spatial audio streaming
KR102508286B1 (ko) * 2018-08-27 2023-03-09 삼성전자 주식회사 가상 현실에서 정보를 제공하는 전자 장치 및 방법
CN111163306B (zh) * 2018-11-08 2022-04-05 华为技术有限公司 一种vr视频处理的方法及相关装置
US10728689B2 (en) * 2018-12-13 2020-07-28 Qualcomm Incorporated Soundfield modeling for efficient encoding and/or retrieval
WO2020189263A1 (ja) * 2019-03-19 2020-09-24 ソニー株式会社 音響処理装置、音響処理方法、および音響処理プログラム
JP7342451B2 (ja) * 2019-06-27 2023-09-12 ヤマハ株式会社 音声処理装置および音声処理方法
US11474970B2 (en) 2019-09-24 2022-10-18 Meta Platforms Technologies, Llc Artificial reality system with inter-processor communication (IPC)
US11487594B1 (en) 2019-09-24 2022-11-01 Meta Platforms Technologies, Llc Artificial reality system with inter-processor communication (IPC)
US11315326B2 (en) * 2019-10-15 2022-04-26 At&T Intellectual Property I, L.P. Extended reality anchor caching based on viewport prediction
US11520707B2 (en) 2019-11-15 2022-12-06 Meta Platforms Technologies, Llc System on a chip (SoC) communications to prevent direct memory access (DMA) attacks
US11190892B2 (en) * 2019-11-20 2021-11-30 Facebook Technologies, Llc Audio sample phase alignment in an artificial reality system
CN111340923A (zh) * 2020-02-23 2020-06-26 广东明星创意动画有限公司 一种快速arnold分层渲染设置方法
US11322160B2 (en) * 2020-04-24 2022-05-03 Darrell Poirier Audio collection system and method for sound capture, broadcast, analysis, and presentation
US11451742B2 (en) * 2020-12-04 2022-09-20 Blackberry Limited Speech activity detection using dual sensory based learning
CN116783878A (zh) * 2021-01-13 2023-09-19 三星电子株式会社 电子装置和图像发送/接收方法
US20220294839A1 (en) 2021-03-12 2022-09-15 Tencent America LLC Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals
EP4387241A1 (en) * 2021-08-10 2024-06-19 Samsung Electronics Co., Ltd. Method and electronic system for outputting video data and audio data
WO2023017622A1 (ja) * 2021-08-10 2023-02-16 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
CN114978356B (zh) * 2022-04-29 2023-08-29 歌尔股份有限公司 基于音频进行多频道数据传输方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008193676A (ja) * 2008-01-21 2008-08-21 Yamaha Corp 通話装置
US20130117377A1 (en) * 2011-10-28 2013-05-09 Samuel A. Miller System and Method for Augmented and Virtual Reality
JP2016048898A (ja) * 2014-08-28 2016-04-07 株式会社リコー 配信制御システム、配信制御方法、及びプログラム
US20160217760A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Reconstructing viewport upon user viewpoint misprediction
US20160241980A1 (en) * 2015-01-28 2016-08-18 Samsung Electronics Co., Ltd Adaptive ambisonic binaural rendering

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US20080056517A1 (en) * 2002-10-18 2008-03-06 The Regents Of The University Of California Dynamic binaural sound capture and reproduction in focued or frontal applications
US9344612B2 (en) * 2006-02-15 2016-05-17 Kenneth Ira Ritchey Non-interference field-of-view support apparatus for a panoramic facial sensor
KR20090007882A (ko) * 2007-07-16 2009-01-21 에스케이 텔레콤주식회사 마이크로폰 방향 제어 장치 및 방법
JP2009060220A (ja) 2007-08-30 2009-03-19 Konica Minolta Holdings Inc コミュニケーションシステム及びコミュニケーションプログラム
JP2009303021A (ja) * 2008-06-16 2009-12-24 Nissan Motor Co Ltd 音場制御システム
US20100328419A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US8587631B2 (en) * 2010-06-29 2013-11-19 Alcatel Lucent Facilitating communications using a portable communication device and directed sound output
JP2012213013A (ja) 2011-03-31 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> Tv会議システム
US8184069B1 (en) * 2011-06-20 2012-05-22 Google Inc. Systems and methods for adaptive transmission of data
US10209771B2 (en) * 2016-09-30 2019-02-19 Sony Interactive Entertainment Inc. Predictive RF beamforming for head mounted display
US9161149B2 (en) 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9979829B2 (en) * 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
US9063330B2 (en) * 2013-05-30 2015-06-23 Oculus Vr, Llc Perception based predictive tracking for head mounted displays
US9443355B2 (en) * 2013-06-28 2016-09-13 Microsoft Technology Licensing, Llc Reprojection OLED display for augmented reality experiences
GB2543276A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008193676A (ja) * 2008-01-21 2008-08-21 Yamaha Corp 通話装置
US20130117377A1 (en) * 2011-10-28 2013-05-09 Samuel A. Miller System and Method for Augmented and Virtual Reality
JP2016048898A (ja) * 2014-08-28 2016-04-07 株式会社リコー 配信制御システム、配信制御方法、及びプログラム
US20160217760A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Reconstructing viewport upon user viewpoint misprediction
US20160241980A1 (en) * 2015-01-28 2016-08-18 Samsung Electronics Co., Ltd Adaptive ambisonic binaural rendering

Also Published As

Publication number Publication date
US20190335287A1 (en) 2019-10-31
EP3531695A1 (en) 2019-08-28
KR20180044077A (ko) 2018-05-02
EP3531695A4 (en) 2019-11-06
WO2018074677A1 (ko) 2018-04-26
EP3531695B1 (en) 2024-06-19
US10972854B2 (en) 2021-04-06

Similar Documents

Publication Publication Date Title
KR102277438B1 (ko) 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
US11082662B2 (en) Enhanced audiovisual multiuser communication
US9113034B2 (en) Method and apparatus for processing audio in video communication
JP2019523607A (ja) 空間化オーディオを用いた複合現実システム
EP3440538A1 (en) Spatialized audio output based on predicted position data
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
EP3228096B1 (en) Audio terminal
US20220225050A1 (en) Head tracked spatial audio and/or video rendering
US11503405B2 (en) Capturing and synchronizing data from multiple sensors
US10812923B2 (en) Immersive media with media device
KR20210072736A (ko) 인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것
WO2014126991A1 (en) User adaptive audio processing and applications
US11856386B2 (en) Apparatus and method for processing audiovisual data
CN112970270B (zh) 沉浸式音频服务中的音频处理
EP4221263A1 (en) Head tracking and hrtf prediction
US20230283976A1 (en) Device and rendering environment tracking
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant