KR20200107758A - 음향 객체 추종을 위한 방법 및 이를 위한 장치 - Google Patents

음향 객체 추종을 위한 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR20200107758A
KR20200107758A KR1020190164724A KR20190164724A KR20200107758A KR 20200107758 A KR20200107758 A KR 20200107758A KR 1020190164724 A KR1020190164724 A KR 1020190164724A KR 20190164724 A KR20190164724 A KR 20190164724A KR 20200107758 A KR20200107758 A KR 20200107758A
Authority
KR
South Korea
Prior art keywords
audio
video
unit
frame
video object
Prior art date
Application number
KR1020190164724A
Other languages
English (en)
Inventor
정성원
최택성
강동현
이승수
조택일
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20200107758A publication Critical patent/KR20200107758A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/607Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/027Services making use of location information using location based information parameters using movement velocity, acceleration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • H04H20/89Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/95Arrangements characterised by the broadcast information itself characterised by a specific format, e.g. an encoded audio stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 멀티미디어 신호를 처리하는 방법 및 이를 위한 장치에 관한 것으로서, 보다 구체적으로 상기 멀티미디어 신호로부터 비디오 프레임(video frame)과 오디오 프레임(audio frame)을 획득하는 것; 상기 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득하고 상기 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하는 것; 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계를 결정하는 것; 및 상기 결정된 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 상기 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행하는 것을 포함하는 방법 및 이를 위한 장치에 관한 것이다.

Description

음향 객체 추종을 위한 방법 및 이를 위한 장치{METHOD AND APPARATUS FOR SOUND OBJECT FOLLOWING}
본 발명은 멀티미디어 신호 처리에 관한 것으로서, 보다 구체적으로는 비디오 신호와 오디오 신호를 출력하는 디바이스에서 입체감 있는 음향을 제공하기 위한 방법 및 이를 위한 장치에 관한 것이다.
기술의 발전으로 더 크고 선명한 디스플레이(Display)와 다수의 스피커(Speaker)들이 장착된 디바이스들이 널리 보급되고 있다. 이와 함께, 더욱 생생한 영상을 송수신하기 위한 비디오 코딩 기술과 더욱 현장감 있는(immersive) 오디오 신호를 송수신하기 위한 오디오 코딩 기술에 대한 연구가 활발히 진행되고 있으며, 이러한 비디오 코딩 기술과 오디오 코딩 기술에 기반하여 제작되거나 생성된 멀티미디어 컨텐츠들이 널리 보급되고 있다. 예를 들어, HEVC(High Efficiency Video Coding) 또는 H.265 표준에 기반하여 제작되고 이를 지원하는 컨텐츠들이 보급되고 있으며, 기존에 스테레오 기반의 컨텐츠에서 돌비 에트모스(Dolby Atmos)와 같은 멀티 채널, 객체(object) 기반 오디오 표준을 지원하는(또는 객체 기반 오디오 표준에 기반하여 제작된) 컨텐츠들이 보급되고 있다.
하지만, 기존 3차원(3D) 오디오 처리 기술을 적용하는 경우, 인코더 측에서 오디오의 음원 또는 오디오와 관련된 비디오 객체(Object)의 위치 및 움직임에 관한 정보를 오디오 비트스트림에 포함시켜 디코더 측으로 전달해 주고, 디코더는 오디오 비트스트림에 포함된 위치 및 움직임에 관한 정보에 기반하여 3차원 효과를 낼 수 있도록 오디오 신호를 처리하는 방식으로 동작한다. 따라서, 3D 오디오 처리 기술에 기반하여 오디오 컨텐츠를 제작하는 경우, 오디오 믹싱 기술자가 믹싱 과정에서 음원 또는 오디오와 관련된 비디오 객체를 위치시키고 음원 또는 비디오 객체의 위치에 기반하여 공간감을 주기 위한 믹싱 파라미터들을 생성하고 생성된 파라미터들을 객체와 함께 비트스트림에 인코딩하여 오디오 컨텐츠를 제작한다. 인코딩 과정에서 3차원 효과를 극대화할 수 있도록 오디오 전문가가 음원 또는 오디오와 관련된 비디오 객체의 위치 및 움직임을 매우 세밀하게 측정 및 조정하고 이들에 관한 정보를 생성해야 하기 때문에, 기존 3D 오디오 처리 기술에 기반하여 컨텐츠를 생성할 경우 시간 및 비용에 있어서 큰 부담이 될 수 있고 방송 및 실시간 스트리밍을 위한 컨텐츠에는 적용이 어려울 수 있다.
결과적으로, 돌비 에트모스와 같은 3D 오디오 처리 기술은 영화와 같은 일부 컨텐츠에 제한적으로 적용되고 있으며 아직 대다수 방송 및 스트리밍 컨텐츠에는 적용되지 않고 있다. 대다수 방송 및 스트리밍 컨텐츠에 포함된 오디오는 음원 또는 비디오 객체 위치에 맞게 음상이 잘 정위되지 않아서 전달되는 현장감의 제한이 있다.
본 발명의 목적은 오디오 객체와 관련된 비디오 객체의 위치에 기반하여 오디오 객체의 음상을 정위시켜 오디오의 현장감을 향상시키기 위한 방법 및 장치를 제공하는 데 있다.
본 발명의 다른 목적은 멀티미디어 신호에 포함된 오디오 객체와 비디오 객체 간의 관계 여부를 효과적으로 결정하기 위한 방법 및 장치를 제공하는데 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 제1 양상으로, 장치에서 멀티미디어 신호를 처리하는 방법이 제공되며, 상기 방법은 상기 멀티미디어 신호로부터 비디오 프레임(video frame)과 오디오 프레임(audio frame)을 획득하는 것; 상기 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득하고 상기 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하는 것; 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계를 결정하는 것; 및 상기 결정된 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 상기 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행하는 것을 포함할 수 있다.
본 발명의 제2 양상으로, 멀티미디어 신호를 처리하도록 구성된 장치가 제공되며, 상기 장치는 명령어들을 포함하는 메모리; 및 상기 메모리에 동작시 연결되고 상기 명령어들을 수행할 때 동작들을 구현하도록 구성된 프로세서를 포함하되, 상기 동작들은: 상기 멀티미디어 신호로부터 비디오 프레임(video frame)과 오디오 프레임(audio frame)을 획득하는 것; 상기 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득하고 상기 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하는 것; 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계를 결정하는 것; 및 상기 결정된 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 상기 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행하는 것을 포함할 수 있다.
바람직하게는, 상기 방법 또는 상기 동작들은 상기 적어도 하나의 비디오 객체에 대해 비디오 분류(video classification)을 수행하고 상기 적어도 하나의 오디오 객체에 대해 오디오 분류(audio classification)을 수행하는 것을 더 포함할 수 있다.
보다 바람직하게는, 상기 오디오 객체 각각은 인간 음성(human speech), 동물 소리(animal sound), 탈것 소리(vehicle sound)를 포함하는 그룹 중에서 하나로 분류될 수 있다.
보다 바람직하게는, 상기 비디오 객체는 인간 얼굴(human face), 동물(animal), 탈것(vehicle)을 포함하는 그룹 중에서 하나로 분류될 수 있다.
바람직하게는, 상기 방법 또는 상기 동작들은 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체에 대해 특징 추출(feature extraction)을 수행하여 특징 정보를 획득하는 것을 더 포함하되, 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계는 상기 획득한 특징 정보와 객체 매칭 엔진(object matching engine)에 기반하여 결정될 수 있다.
보다 바람직하게는, 상기 객체 매칭 엔진은 학습(learning)에 기반하여 훈련된(trained) 모델을 포함할 수 있다.
바람직하게는, 상기 방법 또는 상기 동작들은 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체에 대해 특징 추출(feature extraction)을 수행하여 특징 정보를 획득하는 것을 더 포함하되, 상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계는 상기 비디오 분류 결과와 상기 오디오 분류 결과와 상기 획득한 특징 정보와 객체 매칭 엔진(object matching engine)에 기반하여 결정될 수 있다.
바람직하게는, 상기 특정 오디오 객체에 대해 방향 렌더링을 수행하는 것은 상기 특정 오디오 객체와 관련된 비디오 객체의 화면 위치에 기반하여 스피커들로 출력될 오디오 신호들의 출력 이득을 조정하는 것을 포함할 수 있다.
바람직하게는, 상기 특정 오디오 객체에 대해 방향 렌더링을 수행하는 것은 상기 특정 오디오 객체와 관련된 비디오 객체의 화면 위치에 기반하여 스피커들에 대응되는 오디오 신호들의 출력 비율을 조정하는 것을 포함할 수 있다.
보다 바람직하게는, 상기 오디오 신호들의 출력 비율을 조정하는 것은: 상기 스피커들 간의 수평 방향 간격, 화면 폭, 및 상기 비디오 객체의 화면 위치에 기반하여 상기 스피커들에 대응되는 오디오 신호들의 출력 비율을 조정하는 것을 포함할 수 있다.
보다 바람직하게는, 상기 스피커들이 좌측 스피커와 우측 스피커를 포함하는 것에 기반하여, 상기 오디오 신호들의 출력 비율은 상기 좌측 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 스피커에 대응되는 오디오 신호의 출력 비율의 합이 상수 값이 되도록 조정될 수 있다.
보다 바람직하게는, 상기 스피커들이 좌측 상단 스피커, 우측 상단 스피커, 좌측 하단 스피커, 우측 하단 스피커를 포함하는 것에 기반하여, 상기 오디오 신호들의 출력 비율은 상기 좌측 상단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 상단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 좌측 하단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 하단 스피커에 대응되는 오디오 신호의 출력 비율의 합이 상수 값이 되도록 조정될 수 있다.
보다 바람직하게는, 상기 상수 값은 1일 수 있다.
본 발명에 따르면, 오디오 객체와 관련된 비디오 객체의 위치에 기반하여 오디오 객체의 음상을 정위시킴으로써 오디오의 현장감을 향상시킬 수 있다.
또한, 본 발명에 따르면, 멀티미디어 신호에 포함된 오디오 객체와 비디오 객체 간의 관계 여부를 효과적으로 결정할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 명세서에서 제안하는 방법의 순서도를 예시한다.
도 2는 멀티미디어 신호로부터 오디오 프레임과 비디오 프레임을 획득하는 예를 예시한다.
도 3은 오디오 프레임으로부터 적어도 하나의 오디오 객체를 획득하는 예를 예시한다.
도 4는 비디오 프레임으로부터 적어도 하나의 비디오 객체를 획득하는 예를 예시한다.
도 5는 본 명세서의 제안 방법에 따른 음향 객체 추종(Sound Object Following)을 위한 블록도를 예시한다.
도 6은 오디오/비디오 분류를 수행하는 예를 예시한다.
도 7 및 도 8은 비디오 객체에 대해 특징 추출을 수행하는 예를 예시한다.
도 9는 객체 매칭 엔진이 동작하는 예를 예시한다.
도 10은 비디오 객체의 화면 위치에 따라 음상 정위하는 예를 예시한다.
도 11과 도 12는 음향 객체 추종이 동작하는 예들을 예시한다.
도 13은 본 발명이 적용될 수 있는 장치의 블록도를 예시한다.
도 14는 본 발명이 적용될 수 있는 디바이스의 더욱 구체적인 블록도를 예시한다.
도 15는 본 발명에 적용되는 무선 기기의 다른 예를 나타낸다.
도 16은 본 발명에 적용되는 휴대 기기를 예시한다.
도 17은 본 발명에 적용되는 차량 또는 자율 주행 차량을 예시한다.
도 18은 본 발명에 적용되는 차량을 예시한다.
도 19는 본 발명에 적용되는 XR 기기를 예시한다.
도 20은 본 발명에 적용되는 AI 기기를 예시한다.
돌비 에트모스(Dolby Atmos)와 같은 3D 오디오 처리 기술을 방송 또는 실시간 스트리밍 컨텐츠에 적용하기 위해서는 오디오 믹싱 기술자가 3D 효과를 위한 믹싱 파라미터들을 실시간으로 생성하여 전송해야 하는데 반해 현재 기술로는 이러한 실시간 처리에 어려움이 있다. 특히, 돌비 에트모스와 같은 3D 오디오 처리 기술을 제대로 적용하기 위해서는 사용자(또는 디코더) 측에 설정된 스피커의 위치를 정확하게 알아야 반해, 컨텐츠 제작 및 공급자(또는 인코더) 측에서 일반 가정의 스피커 위치에 관한 정보를 모두 파악하기는 불가능하다. 따라서, 기존 3D 오디오 처리 기술을 방송 또는 실시간 스트리밍 컨텐츠에 포함된 오디오에 적용하기에는 기술적 어려움이 있으며, 기존 3D 오디오 처리 기술이 적용되지 않은(또는 3D 오디오 처리 기술에 기반하여 제작되거나 생성되지 않은) 컨텐츠에 포함된 오디오는 음원 또는 비디오 객체 위치에 맞게 음상이 정위되어 있지 않기 때문에 현장감이 매우 떨어지는 기술적 문제가 있다.
본 명세서에서는 3D 오디오 처리 기술이 적용되지 않은(또는 3D 오디오 처리 기술에 기반하여 제작되거나 생성되지 않은) 컨텐츠에 포함된 오디오를 음원(sound source) 또는 오디오(또는 오디오 객체(audio object))와 관련된 비디오 객체(video object)의 위치에 맞게 음상(sound image)을 정위(localize)시켜 현장감을 향상시킬 수 있는 방법을 제안한다. 구체적으로, 본 명세서에서는 음향 객체 추종(Sound Object Following)을 위한 방법을 제안한다. 음향 객체 추종은 영상 또는 비디오에서 소리를 내는 사물(또는 객체) 또는 음원의 위치를 인식하고 소리를 내는 사물(또는 객체) 또는 음원의 위치에 기반하여 음상 정위(sound image localization)되도록 오디오 출력을 제어 및/또는 조정하는 기술을 지칭할 수 있다.
본 명세서에서 제안하는 음향 객체 추종을 위한 방법은 디스플레이(Display)와 스피커(Speaker)를 포함한 장치에서 소리의 입체감, 현장감을 향상시키는 기술이다. 본 명세서의 제안 방법에서는, 단일 또는 복수의 영상 객체(image object)(또는 비디오 객체)와 단일 또는 복수의 음향 객체(sound object)(또는 오디오 객체)의 관계 여부를 판단하여, 각각 영상 객체(또는 비디오 객체) 위치에서 관련된 음향 객체(또는 오디오 객체)의 음상이 정위되도록 출력 비율(또는 이득)을 제어 및/또는 조정한다.
본 명세서의 제안 방법을 적용할 경우 기존 3D 오디오 처리 기술이 적용되지 않은 컨텐츠를 재생하더라도 음원 또는 소리를 내는 영상 객체(또는 비디오 객체)가 무엇인지 파악하고 해당 음원 또는 영상 객체(또는 비디오 객체)의 위치에서 음상이 정위되도록 관련 오디오가 출력되어 현장감을 향상시킬 수 있다. 본 명세서의 제안 방법을 적용할 경우 대형 화면, 다채널 스피커가 장착된 장치에서는 그 효과를 더욱 극대화할 수 있다.
인공 지능(AI: Artificial Intelligence)
본 명세서의 제안 방법은 인공 지능에 기반하여 구현될 수 있다. 인공 지능은 인공적인 지능 또는 이를 만들 수 있는 방법론을 연구하는 분야를 의미하며, 머신 러닝(기계 학습, Machine Learning)은 인공 지능 분야에서 다루는 다양한 문제를 정의하고 그것을 해결하는 방법론을 연구하는 분야를 의미한다. 머신 러닝은 어떠한 작업에 대하여 꾸준한 경험을 통해 그 작업에 대한 성능을 높이는 알고리즘으로 정의하기도 한다.
인공 신경망(ANN: Artificial Neural Network)은 머신 러닝에서 사용되는 모델로서, 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)들로 구성되는, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공 신경망은 다른 레이어의 뉴런들 사이의 연결 패턴, 모델 파라미터를 갱신하는 학습 과정, 출력값을 생성하는 활성화 함수(Activation Function)에 의해 정의될 수 있다.
인공 신경망은 입력층(Input Layer), 출력층(Output Layer), 그리고 선택적으로 하나 이상의 은닉층(Hidden Layer)를 포함할 수 있다. 각 층은 하나 이상의 뉴런을 포함하고, 인공 신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다. 인공 신경망에서 각 뉴런은 시냅스를 통해 입력되는 입력 신호들, 가중치, 편향에 대한 활성 함수의 함수 값을 출력할 수 있다.
모델 파라미터는 학습을 통해 결정되는 파라미터를 의미하며, 시냅스 연결의 가중치와 뉴런의 편향 등이 포함된다. 그리고, 하이퍼 파라미터는 머신 러닝 알고리즘에서 학습 전에 설정되어야 하는 파라미터를 의미하며, 학습률(Learning Rate), 반복 횟수, 미니 배치 크기, 초기화 함수 등이 포함된다.
인공 신경망의 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다. 손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표로 이용될 수 있다.
머신 러닝은 학습 방식에 따라 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)으로 분류할 수 있다.
지도 학습은 학습 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시키는 방법을 의미하며, 레이블이란 학습 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다. 비지도 학습은 학습 데이터에 대한 레이블이 주어지지 않는 상태에서 인공 신경망을 학습시키는 방법을 의미할 수 있다. 강화 학습은 어떤 환경 안에서 정의된 에이전트가 각 상태에서 누적 보상을 최대화하는 행동 혹은 행동 순서를 선택하도록 학습시키는 학습 방법을 의미할 수 있다.
인공 신경망 중에서 복수의 은닉층을 포함하는 심층 신경망(DNN: Deep Neural Network)으로 구현되는 머신 러닝을 딥 러닝(심층 학습, Deep Learning)이라 부르기도 하며, 딥 러닝은 머신 러닝의 일부이다. 이하에서, 머신 러닝은 딥 러닝을 포함하는 의미로 사용된다.
확장 현실(XR: eXtended Reality)
또한, 본 명세서의 제안 방법은 확장 현실에 적용될 수 있다. 확장 현실은 가상 현실(VR: Virtual Reality), 증강 현실(AR: Augmented Reality), 혼합 현실(MR: Mixed Reality)을 총칭한다. VR 기술은 현실 세계의 객체나 배경 등을 CG 영상으로만 제공하고, AR 기술은 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 제공하며, MR 기술은 현실 세계에 가상 객체들을 섞고 결합시켜서 제공하는 컴퓨터 그래픽 기술이다.
MR 기술은 현실 객체와 가상 객체를 함께 보여준다는 점에서 AR 기술과 유사하다. 그러나, AR 기술에서는 가상 객체가 현실 객체를 보완하는 형태로 사용되는 반면, MR 기술에서는 가상 객체와 현실 객체가 동등한 성격으로 사용된다는 점에서 차이점이 있다.
XR 기술은 HMD(Head-Mount Display), HUD(Head-Up Display), 휴대폰, 태블릿 PC, 랩탑, 데스크탑, TV, 디지털 사이니지 등에 적용될 수 있고, XR 기술이 적용된 장치를 XR 장치(XR Device)라 칭할 수 있다.
제안 방법
도 1은 본 명세서에서 제안하는 방법의 순서도를 예시한다. 도 1에 예시된 순서도는 제한적이지 않은 예이며 본 명세서의 제안 방법은 도 1에 예시된 순서도로만 제한되는 것은 아니다. 예를 들어, 본 명세서의 제안 방법을 구현함에 있어서 도 1에 예시된 단계들 중 일부가 생략될 수도 있고 도 1에 예시되지 않은 단계가 포함될 수도 있으며 일부 단계들의 순서가 바뀔 수도 있다.
앞서 설명한 바와 같이, 본 명세서의 제안 방법에서는 음원(Sound Source) 또는 소리를 발생시키는 영상 객체(image object)(또는 비디오 객체(video object))의 위치에, 음원 또는 영상 객체(또는 비디오 객체)와 관련된 오디오 객체(audio object) 위치를 정위시켜 소리를 출력하도록 스피커(또는 오디오 신호)의 출력 비율(output rate)(또는 이득(gain))을 제어 및/또는 조정한다.
S102에서, 장치는 멀티미디어 신호(multimedia signal)를 수신할 수 있다. 예를 들어, 멀티미디오 신호(예, 동영상)는 방송 신호 또는 유튜브를 통해 실시간으로 스트리밍되는 신호를 포함할 수 있다. 또한, 예를 들어, 멀티미디어 신호는 비디오 신호와 오디오 신호를 포함할 수 있다. 본 명세서에서 비디오 신호는 코딩된 비디오 비트스트림을 지칭하는 용어로 사용될 수도 있고 코딩된 비디오 비트스트림을 디코딩하여 획득된 신호를 지칭하는 용어로 사용될 수도 있다. 마찬가지로, 본 명세서에서 오디오 신호는 코딩된 오디오 비트스트림을 지칭하는 용어로 사용될 수도 있고 코딩된 오디오 비트스트림을 디코딩하여 획득된 신호를 지칭하는 용어로 사용될 수도 있다.
S104에서, 장치는 멀티미디오 신호로부터 오디오 프레임(audio frame)과 비디오 프레임(video frame)을 획득할 수 있다. 구체적으로, 멀티미디어 신호는 오디오 프레임과 비디오 프레임으로 나눌 수 있다. 오디오 프레임과 비디오 프레임은 멀티미디어(예, 동영상) 신호로부터 일정 시간 간격으로 연속하여 오디오 신호와 (정지) 영상 신호(또는 비디오 신호)를 분리하여 획득될 수 있다. 예를 들어, 오디오 프레임은 일정 시간 길이에 대응되는 오디오 샘플들의 배열을 지칭할 수 있고, 비디오 프레임은 특정 시점에서의 비디오 샘플들의 이차원 배열을 지칭할 수 있다. 일 예로, S104에서 장치는 도 2에 예시된 바와 같이 멀티미디어 신호로부터 오디오 프레임과 비디오 프레임을 획득할 수 있다.
S106에서, 장치는 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하고 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득할 수 있다. 구체적으로, 오디오 프레임에서는 단일 또는 복수개의(또는 적어도 하나의) 오디오 객체들을 획득(또는 분리)할 수 있다. 오디오 프레임 의 오디오 신호는 여러 가지 다른 종류의 음원(Sound Source)로부터 발생한 신호가 섞여있는 혼성 신호(Mixed Signal) 또는 단일 음원에서 발행한 신호이거나 또는 무음(No Sound Signal)이다. 오디오 객체는 오디오 프레임에서 분리하여 획득하는 오디오 신호이다. 비디오 프레임에서는 단일 또는 복수개의(또는 적어도 하나의) 비디오 객체들을 획득(또는 분리)할 수 있다. 비디오 프레임은 일정한 시간 간격으로 획득한 (정지) 영상이며, 해당 (정지) 영상에는 사람/동물 및 여러 가지 다른 종류의 물체 형상이 포함되어 있다. 비디오 객체는 비디오 프레임의 (정지) 영상의 일부 영역을 분리하여 획득하는 (정지) 영상 블록이다. 일 예로, S106에서 장치는 도 3에 예시된 바와 같이 오디오 프레임으로부터 적어도 하나의 오디오 객체를 획득할 수 있다. 일 예로, S106에서 장치는 도 4에 예시된 바와 같이 비디오 프레임으로부터 적어도 하나의 비디오 객체를 획득할 수 있다. 및/또는, S106은 도 5의 오디오 분리(512) 및 비디오 객체 검출(530)에 대응될 수 있으며, S106에서 장치의 동작은 도 5의 오디오 분리(512) 및 비디오 객체 검출(530)와 관련하여 설명한 동작을 포함할 수 있다.
S108에서, 장치는 (S106에서 획득한) 적어도 하나의 비디오 객체에 대해 비디오 분류(video classification)을 수행하고 (S106에서 획득한) 적어도 하나의 오디오 객체에 대해 오디오 분류(audio classification)을 수행할 수 있다. 즉, S108에서 장치는 오디오(또는 오디오 프레임)와 비디오(또는 비디오 프레임)에서 획득한 객체들(예, 오디오 객체 및/또는 비디오 객체)을 분류해준다. 오디오 분류는 오디오 객체 신호가 어떤 종류의 음원(Sound Source)에서 발행한 것인지 판단하는 것을 포함할 수 있다. 오디오 분류로 구분하는 음원의 종류에는 제한이 없다. 비디오 분류는 비디오 객체 신호(또는 (정지) 영상 블록)이 어떤 종류의 물체인지 판단하는 것을 포함할 수 있다. 비디오 분류로 구분하는 물체의 종류에는 제한이 없다. 일 예로, S108에서 장치는 도 6에 예시된 바와 같이 오디오 객체에 대해 오디오 분류를 수행하고 비디오 객체에 대해 비디오 분류를 수행할 수 있다. 및/또는, S108은 도 5의 오디오 분류(518) 및 비디오 분류(532)에 대응될 수 있으며, S108에서 장치의 동작은 도 5의 오디오 분류(518) 및 비디오 분류(532)와 관련하여 설명한 동작을 포함할 수 있다.
S110에서, 장치는 (S106에서 획득한) 적어도 하나의 비디오 객체와 적어도 하나의 오디오 객체에 대해 특징 추출(feature extraction)을 수행하여 특징 정보를 획득할 수 있다. S110에서 다수의 특징들이 추출될 수 있다. 일 예로, S110은 도 5의 오디오 특징 추출(518) 및 비디오 특징 추출(532)에 대응될 수 있으며, S110에서 장치의 동작은 오디오 특징 추출(518) 및 비디오 특징 추출(532)과 관련하여 설명한 동작을 포함할 수 있다. 및/또는, S110에서 장치의 동작은 도 7을 참조하여 설명한 동작 및/또는 도 8을 참조하여 설명한 동작을 포함할 수 있다.
S112에서, 장치는 (S110에서 획득한) 특징 정보 및 객체 매칭 엔진(object matching engine)에 기반하여 적어도 하나의 비디오 객체와 적어도 하나의 오디오 객체 간의 상관 관계를 결정할 수 있다. 구체적으로, 장치는 오디오/비디오의 특징들을 매칭 엔진에 입력하여 관계 여부를 결정한다. 일 예로, S112에서 장치는 도 9에 예시된 바와 같이 적어도 하나의 비디오 객체와 적어도 하나의 오디오 객체 간의 상관 관계를 결정할 수 있다. 및/또는, S112는 도 5의 객체 매칭 엔진(540)에 대응될 수 있으며, S112에서 장치의 동작은 도 5의 객체 매칭 엔진(540)과 관련하여 설명한 동작을 포함할 수 있다.
S116에서, 장치는 (S112에서 결정된) 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행할 수 있다. 방향 렌더링은 객체 매칭 엔진에서 오디오 객체 음원 발생원이 화면 위의 비디오 객체라고 판단한 경우에 해당 비디오 객체의 화면 위치에 따라 스피커(또는 오디오 신호)의 출력 비율(또는 이득)을 제어 및/또는 조정하는 것을 포함한다. 일 예로, S116에서 장치는 도 10에 예시된 바와 같이 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 특정 오디오 객체에 대해 방향 렌더링을 수행할 수 있다. 및/또는, S116은 도 5의 방향 렌더링(516)에 대응될 수 있으며, S116에서 장치의 동작은 도 5의 방향 렌더링(516)과 관련하여 설명한 동작을 포함할 수 있다.
도 2는 멀티미디어 신호로부터 오디오 프레임과 비디오 프레임을 획득하는 예를 예시한다. 도 2에 예시된 동작은 도 1의 S104에서 수행될 수 있다. 도 2의 예에서는 초당 25회 또는 40ms 간격으로 오디오 프레임과 비디오 프레임을 획득하는 것이 예시되어 있으나 이는 오로지 예시를 위한 것이며 본 명세서의 제안 방법은 도 2의 예로만 제한되어 적용되는 것은 아니다.
오디오 프레임(audio frame)과 비디오 프레임(video frame)은 멀티미디어(multimedia)(예, 동영상) 신호로부터 일정 시간 간격으로 연속하여 오디오 신호와 (정지) 영상 신호((still) image signal)를 분리하여 획득한다. 오디오 프레임과 비디오 프레임을 획득하는 시간 간격이 짧을수록 오디오 객체(audio object)와 비디오 객체(video object)의 관계를 결정하는 정확도를 높일 수 있다.
예를 들어, 도 2를 참조하면, 초당 25회 즉 40ms 간격으로 오디오 프레임과 비디오 프레임을 획득하는 경우 매 40ms 마다, 40ms 길이의 오디오 신호로 구성된 오디오 프레임 1개와 1장의 (정지) 영상으로 구성된 비디오 프레임을 분리하여 획득한다.
오디오 프레임의 오디오 신호는 여러 가지 다른 종류의 음원(Sound Source)으로부터 발생한 신호가 섞여있는 혼성 신호(Mixed Signal) 또는 단일 음원에서 발행한 신호이거나 또는 무음(No Sound Signal)이다. 오디오 객체(audio object)는 오디오 프레임에서 분리하여 획득하는 오디오 신호이다. 예를 들어, 오디오 프레임 이 단일 음원에서 발생한 신호인 경우 한 개의 오디오 객체를 획득할 수 있다. 예를 들어, 오디오 프레임이 혼성 신호인 경우 각각의 음원 별로 분리해서 복수의 오디오 객체를 획득할 수 있다. 각각의 음원 별로 분리할 수 없는 잔여 신호들은 별도의 몰입형 음향(Immersive Sound) 프로세스 경로로 처리한다(예, 도 5의 background 및 514 참조). 오디오 프레임에서 분리된 단일 또는 복수의 오디오 객체는 비디오 프레임에서 획득한 비디오 객체와 관계를 분석하는데 사용된다.
도 3은 오디오 프레임으로부터 적어도 하나의 오디오 객체를 획득하는 예를 예시한다. 도 3에 예시된 동작은 도 1의 S106에서 수행될 수 있다. 도 3의 예에서는 하나의 오디오 프레임(예, AudioFrame[n])으로부터 하나의 오디오 객체(예, AudioObject[n,1])가 획득되는 것을 가정하였으나, 본 명세서의 제안 방법은 이에 제한되지 않으며 하나의 오디오 프레임으로부터 복수의 오디오 객체를 획득하는 경우에도 적용될 수 있다.
예를 들어, 도 3을 참조하면, 오디오 프레임(예, AudioFrame[n])의 혼성 신호가 1개의 음원(예, 사람)에서 발생한 음성과 배경 잡음으로 구성된 경우, 사람 음성을 분리하여 1개의 오디오 객체(예, AudioObject[n,1])를 획득하고, 배경 잡음(background noise)은 잔여 신호로 분리될 수 있다. AudioFrame[n]은 n번째 오디오 프레임을 나타내고, AudioObject[n,1]은 n번째 오디오 프레임으로부터 획득한 오디오 객체를 나타낸다.
비디오 프레임은 일정한 시간 간격으로 획득한 (정지) 영상이며, 해당 (정지) 영상에는 사람/동물 및 여러 가지 다른 종류의 물체 형상이 포함되어 있다. 비디오 객체는 비디오 프레임의 (정지) 영상의 일부 영역을 분리하여 획득하는 (정지) 영상 블록이다. 비디오 객체는 사람/동물 및 여러 가지 물체의 종류를 분명하게 구분할 수 있도록 전체 (정지) 영상 영역 중에서 해당 물체의 영역 부문만 분리한다. 비디오 객체의 영상 블록을 분리하면서 동시에 해당 객체가 어떤 물체인지 분류할 수도 있다. 예를 들어, 본 명세서의 제안 방법에 따르면, 음원(Sound Source)이 될 수 있는 사람/동물/탈것 등의 비디오 객체를 획득할 수 있다. 또한, 예를 들어, 사람에 대한 비디오 객체는 음성을 발화하는 얼굴이나 입술 부분의 정지 영상 블록을 포함할 수도 있다.
도 4는 비디오 프레임으로부터 적어도 하나의 비디오 객체를 획득하는 예를 예시한다. 도 4에 예시된 동작은 도 1의 S106에서 수행될 수 있다. 도 4의 예에서는 하나의 비디오 프레임(예, VideoFrame[n])으로부터 세 개의 비디오 객체(예, VideoObject[n,1], VideoObject[n,2], VideoObject[n,3])가 획득되는 것을 가정하였으나, 본 명세서의 제안 방법은 이에 제한되지 않으며 하나의 비디오 프레임으로부터 다른 개수의 비디오 객체를 획득하는 경우에도 적용될 수 있다.
비디오 프레임에서 분리된 단일 또는 복수의 비디오 객체는 오디오 프레임 에서 획득한 오디오 객체와 관계를 분석하는데 사용된다.
예를 들어, 도 4를 참조하면, n번째 정지 영상(예, VideoFrame[n])에서는 3개의 직사각형 영역으로 표시된 사람 얼굴(Human Face) 영역의 영상 블록을 분리하여 좌측부터 우측으로 차례대로 VideoObject[n,1], VideoObject[n,2], VideoObject[n,3]을 획득한다. VideoFrame[n]은 n번째 비디오 프레임을 나타내고, VideoObject[n,1], VideoObject[n,2], VideoObject[n,3]은 각각 n번째 프레임으로부터 획득한 제1 비디오 객체, 제2 비디오 객체, 제3 비디오 객체를 나타낸다.
도 5는 본 명세서의 제안 방법에 따른 음향 객체 추종(Sound Object Following)을 위한 블록도를 예시한다.
도 5의 예에서, 오디오 분리(audio separation)(512)는 입력 오디오(audio input) 신호(502)를 오디오 객체와 그외의 잔여(residual) 신호(또는 배경(background) 신호)로 분리(또는 역다중화(또는 De-mux))하는 동작을 포함한다.
도 5의 예에서, 몰입형 서라운드(Immersive Surround)(514)는 분리된 배경 신호 또는 객체 매칭 엔진에서 오디오와 비디오의 관계가 없다고 판단한 오디오 신호에 대해 동작한다. 몰입형 서라운드(Immersive Surround)는 고전적인 입체 음향, 서라운드 프로세싱을 포함할 수 있다.
도 5의 예에서, 방향 렌더링(directional rendering)(516)은 오디오 신호(또는 분리된 오디오 객체(separated audio object))와 영상 객체(또는 비디오 객체)의 상관 관계에 따라, 특정 화면 위치에서 (오디오 신호(또는 분리된 오디오 객체)의 음상을 정위하여) 출력되도록 프로세싱하는 것을 포함할 수 있다. 방향 렌더링(516)은 화면 위치에 따라 스피커(speaker)(또는 오디오 신호)의 출력 비율(또는 이득)을 제어 및/또는 조정하여 해당 오디오 신호의 음상의 위치를 정위시킨다. 보다 구체적으로, 방향 렌더링(516)은 오디오 신호(또는 분리된 오디오 객체)와 연관된 영상 객체의 화면 내 위치에 기초하여 오디오 객체가 출력되는 스피커(또는 오디오 신호)의 출력 비율(또는 이득)을 제어 및/또는 조정하는 동작을 포함할 수 있다. 예를 들어, 방향 렌더링(516)은 도 1의 S114에 대응될 수 있다.
도 5의 예에서, 오디오 분류(audio classification)(518)은 오디오 객체 신호가 어떤 종류의 음원(Sound Source)에서 발생한 것인지 판단한다. 오디오 분류(518)로 구분하는 음원의 종류에는 제한이 없다. 오디오 객체의 오디오 분류(518) 결과는 오디오 객체와 비디오 객체의 관계를 결정하기 위한 매칭 엔진(matching engine)(540)의 입력 특징(feature)로 사용할 수 있다. 예를 들어, 오디오 분류(518)는 도 1의 S108에 대응될 수 있다.
예를 들어, 도 6에 예시된 바와 같이, 오디오 분류(518)는 오디오 객체 신호를 사람 음성(Human Speech) / 동물 소리(Animal Sound) / 탈것 소리(Vehicle Sound) / 기타(Others)와 같이 4가지 종류로 구분하여 분류(classification)할 수 있다. 어떤 종류의 음원에서 발생한 신호인지 판단할 수 없는 경우가 기타(Others)일 수 있다.
비디오 객체 검출(video object detection)(530)은 입력 비디오 신호(504)로부터 적어도 하나의 비디오 객체를 검출할 수 있다. 앞서 설명한 바와 같이, 비디오 객체는 비디오 프레임에 포함된 (정지) 영상 블록을 포함할 수 있다. 예를 들어, 비디오 객체 검출(530)은 도 1의 S106에 대응될 수 있다.
비디오 분류(video classification)(532)은 비디오 객체 (정지) 영상 블록이 어떤 종류의 물체인지 판단한다. 비디오 분류(532)로 구분하는 물체의 종류에는 제한이 없다. 비디오 객체의 비디오 분류(532) 결과는 오디오 객체와 비디오 객체 의 관계를 결정하기 위한 매칭 엔진(540)의 입력 특징(feature)로 사용할 수 있다. 예를 들어, 비디오 분류(532)는 도 1의 S108에 대응될 수 있다.
예를 들어, 도 6에 예시된 바와 같이, 비디오 분류(532)는 비디오 객체를 사람 얼굴(Human Face) / 동물(Animal) / 탈것(Vehicle) / 기타(Others)와 같이 4가지 종류로 구분하여 분류할 수 있다. 어떤 종류의 물체인지 판단할 수 없는 경우가 기타(Others)일 수 있다.
도 5의 예에서, 객체 매칭 엔진(Object Matching Engine)(540)은 오디오와 비디오의 특징 값을 입력으로 딥 러닝(Deep Learning, DL), 머신 러닝(Machine Learning, ML), 강화 학습(Reinforcement Learning) 등을 사용하여 학습한 모델이다. 예를 들어, 객체 매칭 엔진은 방대한 양의 데이터와 인공 신경망(ANN)에 기반하여 딥 러닝, 머신 러닝, 강화 학습 등과 같은 학습에 의해 이미 훈련된(trained) 모델을 포함할 수 있다. 예를 들어, 객체 매칭 엔진(540)은 도 1의 S112에 대응될 수 있다.
오디오, 비디오에서 인식에 유용한 성분을 뽑아내는 과정을 특징 추출(feature extraction)이라고 한다. 도 5의 예에서, 특징 추출(518, 532)은 적어도 하나의 오디오 객체와 적어도 하나의 비디오 객체에 대해 특징 추출을 수행하여 특징 값을 획득한다. 특징 값은 특징 정보로 지칭될 수 있다. 예를 들어, 특징 추출(518, 532)은 도 1의 S110에 대응될 수 있다.
오디오 특징 추출(audio feature extraction)(518)에서, 오디오 특징 값은 종래에 음성 인식(speech recognition)이나 오디오 인식(audio recognition)에서 사용하던 다양한 방식들을 사용하여 획득할 수 있다. 및/또는 오디오 특징 값은 말을 했는지 여부를 파악하기 위한 오디오 온셋(onset) 정보를 포함할 수 있다.
종래에 사용되었던 음성 인식 기술은 대표적으로 LPC, 로그 멜(Log-mel), MFCC가 있다. LPC는 선형 예측 코딩(linear prediction coding)의 약어로서, 어떤 주기적인 펄스(pulse) 열과 백색 가우시안 잡음(white Gaussian noise)를 여기 원(excitation source)로 해서 LPC 필터(LPC filter)를 거쳐서 음성을 생성하는 음성 생성 모델이다.
로그 멜(Log-mel)은 인간의 귀가 갖는 비선형적인 주파수 특성을 나타내는 단위이다. 즉, 인간은 낮은 주파수 영역에서는 높은 해상도(resolution)을 갖고 높은 주파수 영역에서는 낮은 해상도를 갖는데 이러한 것은 주파수 대역에서 로그(logarithm)한 특성을 나타낸다. 오디오 구간의 샘플들을 푸리에 변환(예, FFT(Fast Fourier Transform))하여 얻어지는 스펙트럼(spectrum)의 크기나 전력(power)를 구하고 이를 멜 스케일(Mel-scale)로 구성된 필터 뱅크(filters-of-bank)를 거쳐서 로그 멜을 얻을 수 있다.
MFCC는 Mel-frequency cepstral coefficients의 약어이다. MFCC는 로그 멜(Log-mel)에서 서로 간의 관련성(correlation)을 제거하는 켑스트럼 변환(cepstral transform)을 사용하여 얻을 수 있다.
비디오 특징 추출(video feature extraction)(532)에서, 비디오 특징 값은 종래에 비디오 사물 인식(video object recognition)을 위해 사용되던 다양한 방식들을 사용하여 획득할 수 있다. 및/또는, 비디오 특징 값은 얼굴 박스(Face Box), 입술 스켈레톤(Lip Skeleton), 및/또는 그 값들의 비교 값들을 사용하여 획득할 수 있다.
예를 들어, 도 7을 참조하면, 얼굴 박스와 입술 스켈레톤에 기반하여 비디오 특징 값을 획득하는 예가 예시되어 있다. 도 7에 예시된 바와 같이, 사람의 얼굴이 인식되는지 여부를 파악하고, 얼굴 박스의 높이 H와 가로 길이 W를 파악한다. 얼굴 박스는 얼굴 인식에 기반하여 파악된 직사각형 영역을 지칭하고, 얼굴 박스의 높이는 이 직사각형 영역의 높이를 지칭하고, 얼굴 박스의 가로 길이는 이 직사각형 영역의 폭을 지칭한다. H와 W를 이용하여 입술의 상하, 좌우의 값을 정규화(normalization)할 수 있다(예, 수학식 1 참조). 입술의 상하, 좌우의 길이는 입술 스켈레톤(Lip Skeleton)에서 얻은 정보를 이용하여 파악한다. 비디오 프레임에 따른 입술의 상하, 좌우의 길이를 비교하면 입술의 움직임 여부를 알 수 있다. 입술의 움직임을 전 프레임과 비교하면 어느 정도로 움직였는지에 대한 정보를 알 수 있다.
보다 구체적인 예로, 도 7의 예에서 비디오 특징 값은 수학식 1에 기반하여 획득할 수 있다. 수학식 1에서, H는 얼굴 박스의 높이를 나타내고, W는 얼굴 박스의 폭을 나타내고, D1은 입술 스켈레톤의 상하 길이를 나타내고, D2는 입술 스켈레톤의 좌우 길이를 나타내고, d1은 입술 스켈레톤의 상하 길이를 얼굴 박스의 높이 H에 기반하여 정규화한 값을 나타내고, d2는 입술 스켈레톤의 좌우 길이를 얼굴 박스의 폭 W에 기반하여 정규화한 값을 나타내고, n은 프레임 번호를 나타내고, M1은 현재 프레임 n에서 입술 스켈레톤의 상하 길이와 이전 프레임 n-1에서 입술 스켈레톤의 상하 길이의 차이를 나타내고, M2는 현재 프레임 n에서 입술 스켈레톤의 좌우 길이와 이전 프레임 n-1에서 입술 스켈레톤의 좌우 길이의 차이를 나타내고, A1은 현재 프레임 n에서의 M1 값과 이전 프레임 n-1에서의 M1 값의 차이를 나타내고, A2는 현재 프레임 n에서의 M2 값과 이전 프레임 n-1에서의 M2 값의 차이를 나타낸다.
[수학식 1]
Figure pat00001
수학식 1에서, M1은 비디오 프레임에 따른 입술의 상하 길이의 비교 결과를 나타내고, M2는 비디오 프레임에 따른 입술의 좌우 길이의 비교 결과를 나타내고, A1과 A2는 입술의 움직임을 이전 프레임과 비교하여 어느 정도로 움직였는지에 대한 정보를 나타낸다. 수학식 1에서 M1, M2, A1, A2 중에서 적어도 하나가 비디오 특징 값으로 사용될 수 있다.
다른 예로, 도 8을 참조하면, 비디오 특징 값으로서 얼굴 박스 안에서 입술 위치 비율(예, A:B:C, D:E:F)이 사용될 수 있다. 구체적으로, 얼굴 박스를 제1 직사각형 영역이라고 지칭하고 입술 스켈레톤을 포함하는 직사각형 영역을 제2 직사각형 영역이라고 지칭하면, 비디오 특징 값은 제1 직사각형 영역 내에서 제2 직사각형 영역의 상단 경계와 제1 직사각형 영역의 상단 경계 간의 거리(예, 도 8의 A), 제2 직사각형 영역의 높이(예, 도 8의 B), 제2 직사각형 영역의 하단 경계와 제1 직사각형 영역의 하단 경계 간의 거리(예, 도 8의 C)의 비율(예, A:B:C)과, 제2 직사각형 영역의 좌측 경계와 제1 직사각형 영역의 좌측 경계 간의 거리(예, 도 8의 D), 제2 직사각형 영역의 폭(예, 도 8의 E), 제2 직사각형 영역의 우측 경계와 제1 직사각형 영역의 우측 경계 간의 거리(예, 도 8의 F)의 비율(예, D:E:F)을 포함하거나 또는 이들 비율들에 기반하여 획득될 수 있다. 예를 들어, 비디오 특징 값들은 입술 위치 비율(예, A:B:C, D:E:F)을 정규화(normalization)하여 획득할 수 있다.
본 명세서의 제안 방법에서는 도 7을 참조하여 설명된 비디오 특징 값들과 도 8을 참조하여 설명된 비디오 특징 값들이 독립적으로 사용되거나 조합되어 사용될 수 있다. 따라서, 도 7을 참조하여 설명된 비디오 특징 값들과 도 8을 참조하여 설명된 비디오 특징 값들 중에서 적어도 하나 이상이 객체 매칭 엔진(540)의 입력으로 사용될 수 있다.
다시 도 5를 참조하면, 오디오와 비디오의 특징 값을 입력 값으로 학습된 모델인 객체 매칭 엔진(540)에 방송, 유투브 등과 같은 멀티미디어 신호로부터 획득한 오디오 신호(또는 오디오 객체)와 비디오 신호(또는 비디오 객체)에 대한 특징 값들을 입력하게 되면 오디오 신호(또는 오디오 객체)와 비디오 신호(또는 비디오 객체) 간의 관계 정도를 알 수 있다. 예를 들어, 오디오 객체와 비디오 객체 간의 관계 정도는 (실수) 값으로 표현될 수 있으며, 비율(rate), 상관도(correlation), 관계 정도를 나타내는 정보, 관계에 관한 정보 등으로 지칭될 수 있다. 객체 매칭 엔진(540)은 (DL, ML, 강화학습 등에 의해 이미 학습된 모델을 이용하여) 오디오/비디오 객체의 분류(518, 532) 결과 및/또는 오디오/비디오 객체에 대한 특징 추출(518, 532) 결과에 기초하여 오디오/비디오 객체 간의 관계 정도를 결정(또는 관계 정도를 나타내는 정보를 획득)하는 동작을 수행할 수 있다.
도 9는 객체 매칭 엔진(540)가 동작하는 예를 예시한다. 도 9에서는 하나의 비디오 프레임에서 3개의 비디오 객체(예, Video1, Video2, Video3)를 획득하고, 하나의 오디오 프레임에서 하나의 오디오 객체(예, Audio1)을 획득하는 것을 가정하지만, 본 명세서의 제안 방법은 이에 제한되지 않으며 다른 개수의 비디오 객체 및/또는 오디오 객체를 획득하는 경우에도 적용될 수 있다.
도 9를 참조하면, 한 화면의 비디오(또는 비디오 프레임)에서 3개의 비디오 객체(예, Video1, Video2, Video3)가 획득되면 각 객체의 분류(class)을 구분한다. Video1, Video3은 사람(Human)이라는 분류(Class)로 구분이 되고, Video2는 동물(Animal)이라고 분류(Class)가 구분된다. Audio1은 원음에서 배경음을 제거하여 획득한 오디오 신호(또는 오디오 객체)이다. 비디오 객체(예, Video1, Video2, Video3)와 오디오 객체(예, Audio1)로부터 특징 값을 추출 후, 객체 매칭 엔진(540)에 입력으로 넣으면 관계 정도를 비율(Rate)로 출력해준다. 도 9의 예에서, 비율(Rate)가 높을수록 비디오와 오디오의 관계 정도가 크다는 의미이지만, 반대로 비율(Rate)가 작을수록 비디오와 오디오의 관계 정도가 크도록 설정하는 것도 가능하다.
예를 들어, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 값이 일정 값보다 큰 것에 기반하여, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 값과 관련된 비디오 객체를 오디오 객체(예, Audio1)와 관련된 비디오 객체로 결정할 수 있다. 및/또는, 도 9의 예와 같이 비디오 객체가 복수인 경우, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 가장 큰 값(예, 0.9)과 관련된 비디오 객체(예, Video1)를 오디오 객체(예, Audio1)와 관련된 비디오 객체로 결정할 수 있다.
다른 예로, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 값이 일정 값보다 작은 것에 기반하여, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 값과 관련된 비디오 객체를 오디오 객체(예, Audio1)와 관련된 비디오 객체로 결정할 수 있다. 및/또는, 도 9의 예와 같이 비디오 객체가 복수인 경우, 관계 정도를 나타내는 정보(또는 관계에 관한 정보)(예, 비율)의 가장 작은 값(예, 0.1)과 관련된 비디오 객체(예, Video3)를 오디오 객체(예, Audio1)와 관련된 비디오 객체로 결정할 수 있다.
다시 도 5를 참조하면, 방향 렌더링(directional rendering)(516)은, 객체 매칭 엔진(540)에서 오디오 객체 음원 또는 소리를 내는 객체가 화면 위의 비디오 객체라고 판단한 경우에, 해당 비디오 객체 화면 위치에 따라 스피커(또는 오디오 신호)의 출력 비율(또는 이득)을 제어 및/또는 조정하는 것을 포함할 수 있다. 예를 들어, 도 4의 예를 참조하면, 객체 매칭 엔진(540)에서 VideoObject[n,3]이 오디오 객체와 관련된다고 판단한 경우, 방향 렌더링(516)은 VideoObject[n,3]의 화면 위치에 따라 스피커(또는 오디오 신호)의 출력 비율(또는 이득)을 제어 및/또는 조정할 수 있다.
각 스피커의 출력 비율(또는 이득)은 사용자를 기준으로 해당 비디오 객체 화면 위치에서 음상 정위(sound image localization)되도록 제어 및/또는 조정된다. 출력 비율(또는 이득)을 제어 및/또는 조정하는 스피커의 개수는 2개 이상이다. 장치의 크기, 사용자의 위치, 스피커의 개수 및 배치에 따라 음상 정위를 위한 출력 비율은 변경할 수 있다.
도 10은 4개의 스피커를 포함하는 장치에서 비디오 객체의 화면 위치에 따라 음상 정위하는 예를 예시한다. 도 10의 예는 오로지 예시일 뿐이며 본 명세서의 제안 방법은 다른 개수의 스피커를 포함하는 장치에도 동일/유사하게 적용될 수 있다.
예를 들어, 도 10을 참조하면, 4개의 스피커가 TV 좌상(LT)/우상(RT)/좌하(LB)/우하(RB)에 배치된 경우, 화면 폭(예, SCREEN_WIDTH)과 화면 높이(예, SCREEN_HEIGHT)에 대하여 화면 중앙 좌표(예, (0,0))을 기준으로 좌표 (X, Y) 위치에 음상 정위하려는 경우에, 스피커 위치 LT/RT/LB/RB에 대한 출력 비율(또는 이득) GLT/GRT/GLB/GRB은 다음과 같이 결정할 수 있다. LT는 Left Top을 의미하고, RT는 Right Top을 의미하고, LB는 Left Bottom을 의미하고, RB는 Right Bottom을 의미하고, GLT는 Gain of Left Top을 의미하고, GRT는 Gain of Right Top을 의미하고, GLB는 Gain of Left Bottom을 의미하고, GRB는 Gain of Right Bottom을 의미한다.
“사용자와 화면 사이의 거리(예, 도 10의 사용자_화면_거리), 수평 방향 스피커 간격(예, 도 10의 수평방향_스피커_간격), 화면 폭(예, 도 10의 SCREEN_WIDTH), 화면 높이(예, 도 10의 SCREEN_HEIGHT)”에 기반하여 좌표 X에 대한 수평 방향 출력 비율과 좌표 Y에 대한 수직 방향 출력 비율을 정하고, 수평 방향 출력 비율과 수직 방향 출력 비율을 기준으로 GLT + GRT + GLB + BRB = 상수 값이 되도록 결정한다.
도 11과 도 12는 각각 스피커가 2개, 4개일 경우 음향 객체 추종(Sound Object Following)이 동작하는 예들을 예시한다. SCF는 Scene Change Flag를 의미하고 GL, GR은 Gain of Left Audio, Gain of Right Audio를 의미한다. Audio Onset은 오디오 객체의 음향 출력 존재 확률을 나타내며, 예를 들어 사람 음성의 경우 말하고 있는지 여부를 0(말하지 않음)과 1(말함) 사이의 확률로 나타낸다. 사람 얼굴을 검출하고 음성과 상관관계 분석을 통해 화자 위치를 판단하고, 화자 얼굴이 있는 위치로 음성이 출력되도록 좌측, 우측 음성 신호 출력 이득(output gain)을 제어 및/또는 조정하여 변화를 준다. 모든 스피커에서 출력되는 출력비의 합은 1이여야 한다. 오디오와 비디오의 상관 관계가 높은 쪽의 스피커 출력을 높여 입체감과 현장감이 향상된 음향을 제공할 수 있다. 출력 비율은 디바이스의 디스플레이 크기와 스피커 개수, 배치, 음향 특성에 따라 튜닝하여 바뀔 수 있다.
다시 도 5를 참조하면, 믹스(mix)(520)는 몰입형 서라운드(514)에서 처리된 신호와 방향 렌더링(516)에서 처리된 신호를 믹스하여 출력 오디오(audio output) 신호(506)를 생성할 수 있다.
장치의 구조
도 13은 본 발명이 적용될 수 있는 신호 처리 장치의 블록도를 예시한다. 본 발명에 따른 장치(10)는 본 발명에 따라 비디오 신호 및 오디오 신호를 포함하는 신호를 처리하도록 구성될 수 있다. 예를 들어, 본 발명이 적용될 수 있는 신호 처리 장치(10)는 스마트폰 등과 같은 이동 단말, 랩톱 컴퓨터 등과 같은 휴대용 기기, 디지털 TV, 디지털 비디오 플레이어 등과 같은 가전 제품, 자동차 등과 같은 이동 수단 등을 포함할 수 있다. 다른 예로, 본 발명이 적용될 수 있는 신호 처리 장치(10)는 SoC(System On Chip) 형태로 구현된 ASIC(Application Specific Integrated Circuit)의 일부로 포함될 수 있다.
메모리(12)는 프로세서(11)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 비디오 신호 및 오디오 신호를 포함하는 비트스트림, 복호화된 비디오 신호, 복호화된 오디오 신호, 신호 처리를 위해 필요한 제어 정보, 신호 처리 과정에서 발생하는 임시 데이터 등을 저장할 수 있다. 또한, 메모리(12)는 각종 비디오 및 오디오 신호를 위한 버퍼로서 활용될 수 있다. 메모리(12)는 ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등과 같은 저장 장치로서 구현될 수 있다.
프로세서(11)는 신호 처리 장치 내 각 모듈의 동작을 제어한다. 특히, 프로세서(11)는 본 발명에 따른 신호 처리 방법을 수행하기 위한 각종 제어 기능을 수행할 수 있다. 프로세서(11)는 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 불릴 수 있다. 본 발명에 따른 방법은 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다. 하드웨어를 이용하여 본 발명을 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASIC(application specific integrated circuit) 또는 DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array) 등이 프로세서(11)에 구비될 수 있다. 한편, 펌웨어나 소프트웨어를 이용하여 본 발명에 따른 방법을 구현하는 경우에는 본 발명의 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등을 포함하도록 펌웨어나 소프트웨어가 구성될 수 있으며, 본 발명에 따른 방법을 수행할 수 있도록 구성된 펌웨어 또는 소프트웨어는 메모리(12)에 저장되거나 메모리(12)와 별도로 컴퓨터 판독가능한 기록 매체(미도시)에 저장되어 프로세서(11)에 의해 실행될 때 장치(10)가 본 발명에 따른 방법을 수행하도록 구성될 수 있다.
또한, 장치(10)는 네트워크 인터페이스 모듈(network interface module, NIM)(13)을 선택적으로(optionally) 포함할 수 있다. 네트워크 인터페이스 모듈(13)은 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 네트워크 인터페이스 모듈(13)을 제어하여 무선/유선 네트워크를 통해 정보 및/또는 데이터, 신호, 메시지 등을 나르는 무선/유선 신호를 전송 또는 수신할 수 있다. 네트워크 인터페이스 모듈(13)은 예를 들어 IEEE 802 계열, 3GPP LTE(-A), 3GPP 5G, Wi-Fi, ATSC(Advanced Television System Committee), DVB(Digital Video Broadcasting) 등과 같은 다양한 통신 규격을 지원하며, 해당 통신 규격에 따라 제어 정보 및/또는 부호화된 비트스트림과 같은 비디오 및 오디오 신호를 송수신할 수 있다. 네트워크 인터페이스 모듈(13)은 필요에 따라 장치에 포함되지 않을 수 있다.
또한, 장치(10)는 입출력 인터페이스(14)를 선택적으로(optionally) 포함할 수 있다. 입출력 인터페이스(14)는 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 입출력 인터페이스(14)를 제어하여 제어 신호 및/또는 데이터 신호를 입력받거나 출력할 수 있다. 입출력 모듈(14)은 예를 들어 키보드, 마우스, 터치패드, 카메라 등과 같은 입력 장치와 디스플레이 등과 같은 출력 장치와 연결될 수 있도록 USB(Universal Serial Bus), Bluetooth, NFC(Near Field Communication), 직렬/병렬 인터페이스, DVI(Digital Visual Interface), HDMI(High Definition Multimedia Interface) 등과 같은 규격을 지원할 수 있다.
도 14는 본 발명이 적용될 수 있는 디바이스의 더욱 구체적인 블록도를 예시한다.
디바이스(100)는 메모리(130), 제어부(controller)(또는 processor)(120)를 포함하고, 선택적으로(optionally) 무선 통신부(wireless communication device)(110), 입력부(input device)(150), 센싱부(sensing device)(160), 출력부(output device)(170), 인터페이스부(interface controller)(180), 및 전원 공급부(power supplier)(190) 중에서 적어도 하나를 더 포함할 수 있다. 도 14에 도시된 구성요소들은 디바이스(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 방법이 적용되는 디바이스는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
보다 구체적으로, 상기 구성요소들 중 무선 통신부(110)는, 디바이스(100)와 무선 통신 시스템 사이, 디바이스(100)와 다른 디바이스(100) 사이, 또는 디바이스(100)와 외부서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 상기 무선 통신부(110)는, 디바이스(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.
이러한 무선 통신부(110)는, 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.
입력부(150)는, 영상 신호 입력을 위한 카메라(151) 또는 영상 입력부, 오디오 신호 입력을 위한 마이크로폰(microphone, 152), 또는 오디오 입력부, 사용자로부터 정보를 입력받기 위한 사용자 입력부(153, 예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부(150)에서 수집한 오디오 데이터나 영상 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
센싱부(160)는 디바이스 내 정보, 디바이스를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센싱부(160)는 근접센서(161, proximity sensor), 조도 센서(162, illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(151 참조)), 마이크로폰(microphone, 152 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 디바이스는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.
출력부(170)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(171), 음향 출력부(172), 햅팁 모듈(173), 광 출력부(174) 중 적어도 하나를 포함할 수 있다. 디스플레이부(171)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 디바이스(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(153)로써 기능함과 동시에, 디바이스(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
인터페이스부(180)는 디바이스(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부(180)는, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port) 중 적어도 하나를 포함할 수 있다. 디바이스(100)에서는, 상기 인터페이스부(180)에 외부 기기가 연결되는 것에 대응하여, 연결된 외부 기기와 관련된 적절할 제어를 수행할 수 있다.
또한, 메모리(130)는 디바이스(100)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(130)는 디바이스(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 디바이스(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 디바이스(100)의 기본적인 기능(예를 들어, 전화 착신, 발신 기능, 메시지 수신, 발신 기능)을 위하여 출고 당시부터 디바이스(100)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(130)에 저장되고, 디바이스(100) 상에 설치되어, 제어부(120)에 의하여 상기 디바이스(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
제어부(120)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 디바이스(100)의 전반적인 동작을 제어한다. 제어부(120)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(130)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
또한, 제어부(120)는 메모리(130)에 저장된 응용 프로그램을 구동하기 위하여, 도 14와 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 제어부(120)는 상기 응용 프로그램의 구동을 위하여, 디바이스(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.
전원공급부(190)는 제어부(120)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 디바이스(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.
상기 각 구성요소들 중 적어도 일부는, 본 발명에 따른 디바이스의 동작, 제어, 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 디바이스(100)의 동작, 제어, 또는 제어방법은 상기 메모리(170)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 디바이스(100) 상에서 구현될 수 있다.
본 발명이 적용되는 무선 기기 활용 예
도 15는 본 발명에 적용되는 무선 기기의 다른 예를 나타낸다. 무선 기기는 사용-예/서비스에 따라 다양한 형태로 구현될 수 있다.
도 15를 참조하면, 무선 기기(100)는 다양한 요소(element), 성분(component), 유닛/부(unit), 및/또는 모듈(module)로 구성될 수 있다. 예를 들어, 무선 기기(100)는 통신부(110), 제어부(120), 메모리부(130) 및 추가 요소(140)를 포함할 수 있다. 통신부는 통신 회로 및 송수신기(들)을 포함할 수 있다. 예를 들어, 통신 회로는 하나 이상의 프로세서 및/또는 하나 이상의 메모리를 포함할 수 있다. 예를 들어, 송수신기(들)는 하나 이상의 송수신기 및/또는 하나 이상의 안테나를 포함할 수 있다. 제어부(120)는 통신부(110), 메모리부(130) 및 추가 요소(140)와 전기적으로 연결되며 무선 기기의 제반 동작을 제어한다. 예를 들어, 제어부(120)는 메모리부(130)에 저장된 프로그램/코드/명령/정보에 기반하여 무선 기기의 전기적/기계적 동작을 제어할 수 있다. 또한, 제어부(120)는 메모리부(130)에 저장된 정보를 통신부(110)을 통해 외부(예, 다른 통신 기기)로 무선/유선 인터페이스를 통해 전송하거나, 통신부(110)를 통해 외부(예, 다른 통신 기기)로부터 무선/유선 인터페이스를 통해 수신된 정보를 메모리부(130)에 저장할 수 있다.
추가 요소(140)는 무선 기기의 종류에 따라 다양하게 구성될 수 있다. 예를 들어, 추가 요소(140)는 파워 유닛/배터리, 입출력부(I/O unit), 구동부 및 컴퓨팅부 중 적어도 하나를 포함할 수 있다. 이로 제한되는 것은 아니지만, 무선 기기는 로봇, 차량, XR 기기, 휴대 기기, 가전, IoT 기기, 디지털 방송용 단말, 홀로그램 장치, 공공 안전 장치, MTC 장치, 의료 장치, 핀테크 장치(또는 금융 장치), 보안 장치, 기후/환경 장치, AI 서버/기기, 기지국, 네트워크 노드 등의 형태로 구현될 수 있다. 무선 기기는 사용-예/서비스에 따라 이동 가능하거나 고정된 장소에서 사용될 수 있다.
도 15에서 무선 기기(100) 내의 다양한 요소, 성분, 유닛/부, 및/또는 모듈은 전체가 유선 인터페이스를 통해 상호 연결되거나, 적어도 일부가 통신부(110)를 통해 무선으로 연결될 수 있다. 예를 들어, 무선 기기(100) 내에서 제어부(120)와 통신부(110)는 유선으로 연결되며, 제어부(120)와 제1 유닛(예, 130, 140)은 통신부(110)를 통해 무선으로 연결될 수 있다. 또한, 무선 기기(100) 내의 각 요소, 성분, 유닛/부, 및/또는 모듈은 하나 이상의 요소를 더 포함할 수 있다. 예를 들어, 제어부(120)는 하나 이상의 프로세서 집합으로 구성될 수 있다. 예를 들어, 제어부(120)는 통신 제어 프로세서, 어플리케이션 프로세서(Application processor), ECU(Electronic Control Unit), 그래픽 처리 프로세서, 메모리 제어 프로세서 등의 집합으로 구성될 수 있다. 다른 예로, 메모리부(130)는 RAM(Random Access Memory), DRAM(Dynamic RAM), ROM(Read Only Memory), 플래시 메모리(flash memory), 휘발성 메모리(volatile memory), 비-휘발성 메모리(non-volatile memory) 및/또는 이들의 조합으로 구성될 수 있다.
이하, 도 15의 구현 예에 대해 도면을 참조하여 보다 자세히 설명한다.
본 발명이 적용되는 휴대기기 예
도 16은 본 발명에 적용되는 휴대 기기를 예시한다. 휴대 기기는 스마트폰, 스마트패드, 웨어러블 기기(예, 스마트워치, 스마트글래스), 휴대용 컴퓨터(예, 노트북 등)을 포함할 수 있다. 휴대 기기는 MS(Mobile Station), UT(user terminal), MSS(Mobile Subscriber Station), SS(Subscriber Station), AMS(Advanced Mobile Station) 또는 WT(Wireless terminal)로 지칭될 수 있다.
도 16을 참조하면, 휴대 기기(100)는 안테나부(108), 통신부(110), 제어부(120), 메모리부(130), 전원공급부(140a), 인터페이스부(140b) 및 입출력부(140c)를 포함할 수 있다. 안테나부(108)는 통신부(110)의 일부로 구성될 수 있다. 블록 110~130/140a~140c는 각각 도 15의 블록 110~130/140에 대응한다.
통신부(110)는 다른 무선 기기, 기지국들과 신호(예, 데이터, 제어 신호 등)를 송수신할 수 있다. 제어부(120)는 휴대 기기(100)의 구성 요소들을 제어하여 다양한 동작을 수행할 수 있다. 제어부(120)는 AP(Application Processor)를 포함할 수 있다. 메모리부(130)는 휴대 기기(100)의 구동에 필요한 데이터/파라미터/프로그램/코드/명령을 저장할 수 있다. 또한, 메모리부(130)는 입/출력되는 데이터/정보 등을 저장할 수 있다. 전원공급부(140a)는 휴대 기기(100)에게 전원을 공급하며, 유/무선 충전 회로, 배터리 등을 포함할 수 있다. 인터페이스부(140b)는 휴대 기기(100)와 다른 외부 기기의 연결을 지원할 수 있다. 인터페이스부(140b)는 외부 기기와의 연결을 위한 다양한 포트(예, 오디오 입/출력 포트, 비디오 입/출력 포트)를 포함할 수 있다. 입출력부(140c)는 영상 정보/신호, 오디오 정보/신호, 데이터, 및/또는 사용자로부터 입력되는 정보를 입력 받거나 출력할 수 있다. 입출력부(140c)는 카메라, 마이크로폰, 사용자 입력부, 디스플레이부(140d), 스피커 및/또는 햅틱 모듈 등을 포함할 수 있다.
일 예로, 데이터 통신의 경우, 입출력부(140c)는 사용자로부터 입력된 정보/신호(예, 터치, 문자, 음성, 이미지, 비디오)를 획득하며, 획득된 정보/신호는 메모리부(130)에 저장될 수 있다. 통신부(110)는 메모리에 저장된 정보/신호를 무선 신호로 변환하고, 변환된 무선 신호를 다른 무선 기기에게 직접 전송하거나 기지국에게 전송할 수 있다. 또한, 통신부(110)는 다른 무선 기기 또는 기지국으로부터 무선 신호를 수신한 뒤, 수신된 무선 신호를 원래의 정보/신호로 복원할 수 있다. 복원된 정보/신호는 메모리부(130)에 저장된 뒤, 입출력부(140c)를 통해 다양한 형태(예, 문자, 음성, 이미지, 비디오, 헵틱)로 출력될 수 있다.
본 발명이 적용되는 차량 또는 자율 주행 차량 예
도 17은 본 발명에 적용되는 차량 또는 자율 주행 차량을 예시한다. 차량 또는 자율 주행 차량은 이동형 로봇, 차량, 기차, 유/무인 비행체(Aerial Vehicle, AV), 선박 등으로 구현될 수 있다.
도 17을 참조하면, 차량 또는 자율 주행 차량(100)은 안테나부(108), 통신부(110), 제어부(120), 구동부(140a), 전원공급부(140b), 센서부(140c) 및 자율 주행부(140d)를 포함할 수 있다. 안테나부(108)는 통신부(110)의 일부로 구성될 수 있다. 블록 110/130/140a~140d는 각각 도 15의 블록 110/130/140에 대응한다.
통신부(110)는 다른 차량, 기지국(e.g. 기지국, 노변 기지국(Road Side unit) 등), 서버 등의 외부 기기들과 신호(예, 데이터, 제어 신호 등)를 송수신할 수 있다. 제어부(120)는 차량 또는 자율 주행 차량(100)의 요소들을 제어하여 다양한 동작을 수행할 수 있다. 제어부(120)는 ECU(Electronic Control Unit)를 포함할 수 있다. 구동부(140a)는 차량 또는 자율 주행 차량(100)을 지상에서 주행하게 할 수 있다. 구동부(140a)는 엔진, 모터, 파워 트레인, 바퀴, 브레이크, 조향 장치 등을 포함할 수 있다. 전원공급부(140b)는 차량 또는 자율 주행 차량(100)에게 전원을 공급하며, 유/무선 충전 회로, 배터리 등을 포함할 수 있다. 센서부(140c)는 차량 상태, 주변 환경 정보, 사용자 정보 등을 얻을 수 있다. 센서부(140c)는 IMU(inertial measurement unit) 센서, 충돌 센서, 휠 센서(wheel sensor), 속도 센서, 경사 센서, 중량 감지 센서, 헤딩 센서(heading sensor), 포지션 모듈(position module), 차량 전진/후진 센서, 배터리 센서, 연료 센서, 타이어 센서, 스티어링 센서, 온도 센서, 습도 센서, 초음파 센서, 조도 센서, 페달 포지션 센서 등을 포함할 수 있다. 자율 주행부(140d)는 주행중인 차선을 유지하는 기술, 어댑티브 크루즈 컨트롤과 같이 속도를 자동으로 조절하는 기술, 정해진 경로를 따라 자동으로 주행하는 기술, 목적지가 설정되면 자동으로 경로를 설정하여 주행하는 기술 등을 구현할 수 있다.
일 예로, 통신부(110)는 외부 서버로부터 지도 데이터, 교통 정보 데이터 등을 수신할 수 있다. 자율 주행부(140d)는 획득된 데이터를 기반으로 자율 주행 경로와 드라이빙 플랜을 생성할 수 있다. 제어부(120)는 드라이빙 플랜에 따라 차량 또는 자율 주행 차량(100)이 자율 주행 경로를 따라 이동하도록 구동부(140a)를 제어할 수 있다(예, 속도/방향 조절). 자율 주행 도중에 통신부(110)는 외부 서버로부터 최신 교통 정보 데이터를 비/주기적으로 획득하며, 주변 차량으로부터 주변 교통 정보 데이터를 획득할 수 있다. 또한, 자율 주행 도중에 센서부(140c)는 차량 상태, 주변 환경 정보를 획득할 수 있다. 자율 주행부(140d)는 새로 획득된 데이터/정보에 기반하여 자율 주행 경로와 드라이빙 플랜을 갱신할 수 있다. 통신부(110)는 차량 위치, 자율 주행 경로, 드라이빙 플랜 등에 관한 정보를 외부 서버로 전달할 수 있다. 외부 서버는 차량 또는 자율 주행 차량들로부터 수집된 정보에 기반하여, AI 기술 등을 이용하여 교통 정보 데이터를 미리 예측할 수 있고, 예측된 교통 정보 데이터를 차량 또는 자율 주행 차량들에게 제공할 수 있다.
본 발명이 적용되는 차량 예
도 18은 본 발명에 적용되는 차량을 예시한다. 차량은 운송수단, 기차, 비행체, 선박 등으로도 구현될 수 있다.
도 18을 참조하면, 차량(100)은 통신부(110), 제어부(120), 메모리부(130), 입출력부(140a) 및 위치 측정부(140b)를 포함할 수 있다. 여기서, 블록 110~130/140a~140b는 각각 도 15의 블록 110~130/140에 대응한다.
통신부(110)는 다른 차량, 또는 기지국 등의 외부 기기들과 신호(예, 데이터, 제어 신호 등)를 송수신할 수 있다. 제어부(120)는 차량(100)의 구성 요소들을 제어하여 다양한 동작을 수행할 수 있다. 메모리부(130)는 차량(100)의 다양한 기능을 지원하는 데이터/파라미터/프로그램/코드/명령을 저장할 수 있다. 입출력부(140a)는 메모리부(130) 내의 정보에 기반하여 AR/VR 오브젝트를 출력할 수 있다. 입출력부(140a)는 HUD를 포함할 수 있다. 위치 측정부(140b)는 차량(100)의 위치 정보를 획득할 수 있다. 위치 정보는 차량(100)의 절대 위치 정보, 주행선 내에서의 위치 정보, 가속도 정보, 주변 차량과의 위치 정보 등을 포함할 수 있다. 위치 측정부(140b)는 GPS 및 다양한 센서들을 포함할 수 있다.
일 예로, 차량(100)의 통신부(110)는 외부 서버로부터 지도 정보, 교통 정보 등을 수신하여 메모리부(130)에 저장할 수 있다. 위치 측정부(140b)는 GPS 및 다양한 센서를 통하여 차량 위치 정보를 획득하여 메모리부(130)에 저장할 수 있다. 제어부(120)는 지도 정보, 교통 정보 및 차량 위치 정보 등에 기반하여 가상 오브젝트를 생성하고, 입출력부(140a)는 생성된 가상 오브젝트를 차량 내 유리창에 표시할 수 있다(1410, 1420). 또한, 제어부(120)는 차량 위치 정보에 기반하여 차량(100)이 주행선 내에서 정상적으로 운행되고 있는지 판단할 수 있다. 차량(100)이 주행선을 비정상적으로 벗어나는 경우, 제어부(120)는 입출력부(140a)를 통해 차량 내 유리창에 경고를 표시할 수 있다. 또한, 제어부(120)는 통신부(110)를 통해 주변 차량들에게 주행 이상에 관한 경고 메세지를 방송할 수 있다. 상황에 따라, 제어부(120)는 통신부(110)를 통해 관계 기관에게 차량의 위치 정보와, 주행/차량 이상에 관한 정보를 전송할 수 있다.
본 발명이 적용되는 XR 기기 예
도 19는 본 발명에 적용되는 XR 기기를 예시한다. XR 기기는 HMD, 차량에 구비된 HUD(Head-Up Display), 텔레비전, 스마트폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지(signage), 차량, 로봇 등으로 구현될 수 있다.
도 19를 참조하면, XR 기기(100a)는 통신부(110), 제어부(120), 메모리부(130), 입출력부(140a), 센서부(140b) 및 전원공급부(140c)를 포함할 수 있다. 여기서, 블록 110~130/140a~140c은 각각 도 15의 블록 110~130/140에 대응한다.
통신부(110)는 다른 무선 기기, 휴대 기기, 또는 미디어 서버 등의 외부 기기들과 신호(예, 미디어 데이터, 제어 신호 등)를 송수신할 수 있다. 미디어 데이터는 영상, 이미지, 소리 등을 포함할 수 있다. 제어부(120)는 XR 기기(100a)의 구성 요소들을 제어하여 다양한 동작을 수행할 수 있다. 예를 들어, 제어부(120)는 비디오/이미지 획득, (비디오/이미지) 인코딩, 메타데이터 생성 및 처리 등의 절차를 제어 및/또는 수행하도록 구성될 수 있다. 메모리부(130)는 XR 기기(100a)의 구동/XR 오브젝트의 생성에 필요한 데이터/파라미터/프로그램/코드/명령을 저장할 수 있다. 입출력부(140a)는 외부로부터 제어 정보, 데이터 등을 획득하며, 생성된 XR 오브젝트를 출력할 수 있다. 입출력부(140a)는 카메라, 마이크로폰, 사용자 입력부, 디스플레이부, 스피커 및/또는 햅틱 모듈 등을 포함할 수 있다. 센서부(140b)는 XR 기기 상태, 주변 환경 정보, 사용자 정보 등을 얻을 수 있다. 센서부(140b)는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰 및/또는 레이더 등을 포함할 수 있다. 전원공급부(140c)는 XR 기기(100a)에게 전원을 공급하며, 유/무선 충전 회로, 배터리 등을 포함할 수 있다.
일 예로, XR 기기(100a)의 메모리부(130)는 XR 오브젝트(예, AR/VR/MR 오브젝트)의 생성에 필요한 정보(예, 데이터 등)를 포함할 수 있다. 입출력부(140a)는 사용자로부터 XR 기기(100a)를 조작하는 명령을 회득할 수 있으며, 제어부(120)는 사용자의 구동 명령에 따라 XR 기기(100a)를 구동시킬 수 있다. 예를 들어, 사용자가 XR 기기(100a)를 통해 영화, 뉴스 등을 시청하려고 하는 경우, 제어부(120)는 통신부(130)를 통해 컨텐츠 요청 정보를 다른 기기(예, 휴대 기기(100b)) 또는 미디어 서버에 전송할 수 있다. 통신부(130)는 다른 기기(예, 휴대 기기(100b)) 또는 미디어 서버로부터 영화, 뉴스 등의 컨텐츠를 메모리부(130)로 다운로드/스트리밍 받을 수 있다. 제어부(120)는 컨텐츠에 대해 비디오/이미지 획득, (비디오/이미지) 인코딩, 메타데이터 생성/처리 등의 절차를 제어 및/또는 수행하며, 입출력부(140a)/센서부(140b)를 통해 획득한 주변 공간 또는 현실 오브젝트에 대한 정보에 기반하여 XR 오브젝트를 생성/출력할 수 있다.
또한, XR 기기(100a)는 통신부(110)를 통해 휴대 기기(100b)와 무선으로 연결되며, XR 기기(100a)의 동작은 휴대 기기(100b)에 의해 제어될 수 있다. 예를 들어, 휴대 기기(100b)는 XR 기기(100a)에 대한 콘트롤러로 동작할 수 있다. 이를 위해, XR 기기(100a)는 휴대 기기(100b)의 3차원 위치 정보를 획득한 뒤, 휴대 기기(100b)에 대응하는 XR 개체를 생성하여 출력할 수 있다.
본 발명이 적용되는 AI 기기 예
도 20은 본 발명에 적용되는 AI 기기를 예시한다. AI 기기는 TV, 프로젝터, 스마트폰, PC, 노트북, 디지털방송용 단말기, 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), 라디오, 세탁기, 냉장고, 디지털 사이니지, 로봇, 차량 등과 같은, 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다.
도 20을 참조하면, AI 기기(100)는 통신부(110), 제어부(120), 메모리부(130), 입/출력부(140a/140b), 러닝 프로세서부(140c) 및 센서부(140d)를 포함할 수 있다. 블록 110~130/140a~140d는 각각 도 15의 블록 110~130/140에 대응한다.
통신부(110)는 유무선 통신 기술을 이용하여 다른 AI 기기나 AI 서버 등의 외부 기기들과 유무선 신호(예, 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등)를 송수신할 수 있다. 이를 위해, 통신부(110)는 메모리부(130) 내의 정보를 외부 기기로 전송하거나, 외부 기기로부터 수신된 신호를 메모리부(130)로 전달할 수 있다.
제어부(120)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, AI 기기(100)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 제어부(120)는 AI 기기(100)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다. 예를 들어, 제어부(120)는 러닝 프로세서부(140c) 또는 메모리부(130)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 AI 기기(100)의 구성 요소들을 제어할 수 있다. 또한, 제어부(120)는 AI 장치(100)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리부(130) 또는 러닝 프로세서부(140c)에 저장하거나, AI 서버 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.
메모리부(130)는 AI 기기(100)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예를 들어, 메모리부(130)는 입력부(140a)로부터 얻은 데이터, 통신부(110)로부터 얻은 데이터, 러닝 프로세서부(140c)의 출력 데이터, 및 센싱부(140)로부터 얻은 데이터를 저장할 수 있다. 또한, 메모리부(130)는 제어부(120)의 동작/실행에 필요한 제어 정보 및/또는 소프트웨어 코드를 저장할 수 있다.
입력부(140a)는 AI 기기(100)의 외부로부터 다양한 종류의 데이터를 획득할 수 있다. 예를 들어, 입력부(140a)는 모델 학습을 위한 학습 데이터, 및 학습 모델이 적용될 입력 데이터 등을 획득할 수 있다. 입력부(140a)는 카메라, 마이크로폰 및/또는 사용자 입력부 등을 포함할 수 있다. 출력부(140b)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(140b)는 디스플레이부, 스피커 및/또는 햅틱 모듈 등을 포함할 수 있다. 센싱부(140)는 다양한 센서들을 이용하여 AI 기기(100)의 내부 정보, AI 기기(100)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 얻을 수 있다. 센싱부(140)는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰 및/또는 레이더 등을 포함할 수 있다.
러닝 프로세서부(140c)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 러닝 프로세서부(140c)는 AI 서버의 러닝 프로세서부와 함께 AI 프로세싱을 수행할 수 있다. 러닝 프로세서부(140c)는 통신부(110)를 통해 외부 기기로부터 수신된 정보, 및/또는 메모리부(130)에 저장된 정보를 처리할 수 있다. 또한, 러닝 프로세서부(140c)의 출력 값은 통신부(110)를 통해 외부 기기로 전송되거나/되고, 메모리부(130)에 저장될 수 있다.
이상에서 설명된 방법들 및 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
본 발명은 본 발명의 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (15)

  1. 장치에서 멀티미디어 신호를 처리하는 방법으로서,
    상기 멀티미디어 신호로부터 비디오 프레임(video frame)과 오디오 프레임(audio frame)을 획득하는 것;
    상기 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득하고 상기 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하는 것;
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계를 결정하는 것; 및
    상기 결정된 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 상기 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행하는 것을 포함하는, 방법.
  2. 청구항 1에 있어서,
    상기 적어도 하나의 비디오 객체에 대해 비디오 분류(video classification)을 수행하고 상기 적어도 하나의 오디오 객체에 대해 오디오 분류(audio classification)을 수행하는 것을 더 포함하는, 방법.
  3. 청구항 2에 있어서,
    상기 오디오 객체 각각은 인간 음성(human speech), 동물 소리(animal sound), 탈것 소리(vehicle sound)를 포함하는 그룹 중에서 하나로 분류되는, 방법.
  4. 청구항 2에 있어서,
    상기 비디오 객체는 인간 얼굴(human face), 동물(animal), 탈것(vehicle)을 포함하는 그룹 중에서 하나로 분류되는, 방법.
  5. 청구항 1에 있어서,
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체에 대해 특징 추출(feature extraction)을 수행하여 특징 정보를 획득하는 것을 더 포함하되,
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계는 상기 획득한 특징 정보와 객체 매칭 엔진(object matching engine)에 기반하여 결정되는, 방법.
  6. 청구항 5에 있어서,
    상기 객체 매칭 엔진은 학습(learning)에 기반하여 훈련된(trained) 모델을 포함하는, 방법.
  7. 청구항 2에 있어서,
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체에 대해 특징 추출(feature extraction)을 수행하여 특징 정보를 획득하는 것을 더 포함하되,
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계는 상기 비디오 분류 결과와 상기 오디오 분류 결과와 상기 획득한 특징 정보와 객체 매칭 엔진(object matching engine)에 기반하여 결정되는, 방법.
  8. 청구항 1에 있어서,
    상기 특정 오디오 객체에 대해 방향 렌더링을 수행하는 것은 상기 특정 오디오 객체와 관련된 비디오 객체의 화면 위치에 기반하여 스피커들로 출력될 오디오 신호들의 출력 이득을 조정하는 것을 포함하는, 방법.
  9. 청구항 1에 있어서,
    상기 특정 오디오 객체에 대해 방향 렌더링을 수행하는 것은 상기 특정 오디오 객체와 관련된 비디오 객체의 화면 위치에 기반하여 스피커들에 대응되는 오디오 신호들의 출력 비율을 조정하는 것을 포함하는, 방법.
  10. 청구항 9에 있어서,
    상기 오디오 신호들의 출력 비율을 조정하는 것은:
    상기 스피커들 간의 수평 방향 간격, 화면 폭, 및 상기 비디오 객체의 화면 위치에 기반하여 상기 스피커들에 대응되는 오디오 신호들의 출력 비율을 조정하는 것을 포함하는, 방법.
  11. 청구항 10에 있어서,
    상기 스피커들이 좌측 스피커와 우측 스피커를 포함하는 것에 기반하여, 상기 오디오 신호들의 출력 비율은 상기 좌측 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 스피커에 대응되는 오디오 신호의 출력 비율의 합이 상수 값이 되도록 조정되는, 방법.
  12. 청구항 11에 있어서,
    상기 상수 값은 1인, 방법.
  13. 청구항 10에 있어서,
    상기 스피커들이 좌측 상단 스피커, 우측 상단 스피커, 좌측 하단 스피커, 우측 하단 스피커를 포함하는 것에 기반하여, 상기 오디오 신호들의 출력 비율은 상기 좌측 상단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 상단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 좌측 하단 스피커에 대응되는 오디오 신호의 출력 비율과 상기 우측 하단 스피커에 대응되는 오디오 신호의 출력 비율의 합이 상수 값이 되도록 조정되는, 방법.
  14. 청구항 13에 있어서,
    상기 상수 값은 1인, 방법.
  15. 멀티미디어 신호를 처리하도록 구성된 장치로서,
    명령어들을 포함하는 메모리; 및
    상기 메모리에 동작시 연결되고 상기 명령어들을 수행할 때 동작들을 구현하도록 구성된 프로세서를 포함하되, 상기 동작들은:
    상기 멀티미디어 신호로부터 비디오 프레임(video frame)과 오디오 프레임(audio frame)을 획득하는 것;
    상기 비디오 프레임으로부터 적어도 하나의 비디오 객체(video object)를 획득하고 상기 오디오 프레임으로부터 적어도 하나의 오디오 객체(audio object)를 획득하는 것;
    상기 적어도 하나의 비디오 객체와 상기 적어도 하나의 오디오 객체 간의 상관 관계를 결정하는 것; 및
    상기 결정된 상관 관계에 따라 특정 오디오 객체와 연관된 비디오 객체의 화면 위치에 기반하여 상기 특정 오디오 객체에 대해 방향 렌더링(directional rendering)을 수행하는 것을 포함하는, 장치.
KR1020190164724A 2019-03-08 2019-12-11 음향 객체 추종을 위한 방법 및 이를 위한 장치 KR20200107758A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962815361P 2019-03-08 2019-03-08
US62/815,361 2019-03-08

Publications (1)

Publication Number Publication Date
KR20200107758A true KR20200107758A (ko) 2020-09-16

Family

ID=69770487

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190164724A KR20200107758A (ko) 2019-03-08 2019-12-11 음향 객체 추종을 위한 방법 및 이를 위한 장치
KR1020190164723A KR20200107757A (ko) 2019-03-08 2019-12-11 음향 객체 추종을 위한 방법 및 이를 위한 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020190164723A KR20200107757A (ko) 2019-03-08 2019-12-11 음향 객체 추종을 위한 방법 및 이를 위한 장치

Country Status (4)

Country Link
US (2) US11277702B2 (ko)
EP (2) EP3706442B1 (ko)
KR (2) KR20200107758A (ko)
CN (2) CN111669696A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085605A1 (ko) * 2022-10-17 2024-04-25 삼성전자 주식회사 동영상을 처리하기 위한 장치 및 이의 동작 방법

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885414B (zh) * 2020-07-24 2023-03-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及可读存储介质
KR20220036210A (ko) * 2020-09-15 2022-03-22 삼성전자주식회사 영상의 음질을 향상시키는 디바이스 및 방법
CN112153461B (zh) * 2020-09-25 2022-11-18 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质
WO2022065981A1 (ko) * 2020-09-28 2022-03-31 삼성전자 주식회사 동영상 처리 장치 및 방법
US11405720B2 (en) * 2020-12-22 2022-08-02 Meta Platforms Technologies, Llc High performance transparent piezoelectric transducers as an additional sound source for personal audio devices
US20220225050A1 (en) * 2021-01-13 2022-07-14 Dolby Laboratories Licensing Corporation Head tracked spatial audio and/or video rendering
CN113014983B (zh) * 2021-03-08 2022-12-27 Oppo广东移动通信有限公司 视频播放方法、装置、存储介质及电子设备
US20220345844A1 (en) * 2021-04-23 2022-10-27 Samsung Electronics Co., Ltd. Electronic apparatus for audio signal processing and operating method thereof
CN113316078B (zh) * 2021-07-30 2021-10-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN117014785A (zh) * 2022-04-27 2023-11-07 华为技术有限公司 一种音频播放方法及相关装置
CN115022710B (zh) * 2022-05-30 2023-09-19 咪咕文化科技有限公司 一种视频处理方法、设备及可读存储介质
CN117501363A (zh) * 2022-05-30 2024-02-02 北京小米移动软件有限公司 一种音效控制方法、装置及存储介质
CN116055982B (zh) * 2022-08-12 2023-11-17 荣耀终端有限公司 音频输出方法、设备及存储介质
WO2024059536A1 (en) * 2022-09-13 2024-03-21 Dolby Laboratories Licensing Corporation Audio-visual analytic for object rendering in capture
WO2024088336A1 (en) * 2022-10-28 2024-05-02 International Business Machines Corporation Multimodal machine learning for generating three-dimensional audio
WO2024124437A1 (zh) * 2022-12-14 2024-06-20 惠州视维新技术有限公司 视频数据的处理方法、装置、显示设备以及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8924334D0 (en) * 1989-10-28 1989-12-13 Hewlett Packard Co Audio system for a computer display
JPH11313272A (ja) 1998-04-27 1999-11-09 Sharp Corp 映像音声出力装置
AUPQ942400A0 (en) * 2000-08-15 2000-09-07 Lake Technology Limited Cinema audio processing system
US6829018B2 (en) * 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
EP1642212B1 (en) * 2003-06-30 2006-11-29 Koninklijke Philips Electronics N.V. System and method for generating a multimedia summary of multimedia streams
DE10338694B4 (de) * 2003-08-22 2005-08-25 Siemens Ag Wiedergabeeinrichtung, umfassend wenigstens einen Bildschirm zur Darstellung von Informationen
US20060059120A1 (en) * 2004-08-27 2006-03-16 Ziyou Xiong Identifying video highlights using audio-visual objects
KR100934928B1 (ko) * 2008-03-20 2010-01-06 박승민 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
CA3157717A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
WO2013079763A1 (en) * 2011-11-30 2013-06-06 Nokia Corporation Quality enhancement in multimedia capturing
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
FR3005776B1 (fr) * 2013-05-15 2015-05-22 Parrot Procede de reconnaissance vocale visuelle par suivi des deformations locales d'un ensemble de points d'interet de la bouche du locuteur
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
CN114242082A (zh) * 2014-05-30 2022-03-25 索尼公司 信息处理装置和信息处理方法
KR101909132B1 (ko) * 2015-01-16 2018-10-17 삼성전자주식회사 영상 정보에 기초하여 음향을 처리하는 방법, 및 그에 따른 디바이스
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US9548048B1 (en) * 2015-06-19 2017-01-17 Amazon Technologies, Inc. On-the-fly speech learning and computer model generation using audio-visual synchronization
US20170070835A1 (en) * 2015-09-08 2017-03-09 Intel Corporation System for generating immersive audio utilizing visual cues
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
BR112018074203A2 (pt) * 2016-05-30 2019-05-14 Sony Corporation dispositivo e método de processamento audiovisual, e, programa
US10074012B2 (en) * 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
US10204274B2 (en) * 2016-06-29 2019-02-12 Cellular South, Inc. Video to data
CN109389015A (zh) * 2017-08-10 2019-02-26 丽宝大数据股份有限公司 脸部相似度评估方法与电子装置
DE202018006448U1 (de) * 2017-08-17 2020-10-14 Google Llc Skalieren eines Bilds eines Gesichts eines Sprechers basierend auf dem Abstand eines Gesichts und einer Grösse einer Anzeige
US10248866B1 (en) * 2018-01-17 2019-04-02 Gopro, Inc. Systems and methods for identifying video highlights based on audio
JP2021096270A (ja) * 2018-03-27 2021-06-24 ソニーグループ株式会社 情報処理装置および情報処理方法
US10979669B2 (en) * 2018-04-10 2021-04-13 Facebook, Inc. Automated cinematic decisions based on descriptive models
CN109413563B (zh) * 2018-10-25 2020-07-10 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
US20200242507A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Learning data-augmentation from unlabeled media

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085605A1 (ko) * 2022-10-17 2024-04-25 삼성전자 주식회사 동영상을 처리하기 위한 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
EP3706442A1 (en) 2020-09-09
KR20200107757A (ko) 2020-09-16
US20200288256A1 (en) 2020-09-10
US11277702B2 (en) 2022-03-15
EP3706443A1 (en) 2020-09-09
US20200288255A1 (en) 2020-09-10
CN111669696A (zh) 2020-09-15
EP3706442B1 (en) 2022-10-05
CN111666802A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
EP3706442B1 (en) Method and apparatus for sound object following
US10803323B2 (en) Electronic device and method of detecting driving event of vehicle
US11663516B2 (en) Artificial intelligence apparatus and method for updating artificial intelligence model
US11138453B2 (en) Driving guide method and apparatus for vehicle
KR20190103080A (ko) 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
US20210182740A1 (en) Artificial intelligence server and method for updating artificial intelligence model by merging plurality of pieces of update information
US20190392851A1 (en) Artificial intelligence-based apparatus and method for controlling home theater speech
US20190385614A1 (en) Artificial intelligence apparatus and method for recognizing utterance voice of user
US11568239B2 (en) Artificial intelligence server and method for providing information to user
US20210173614A1 (en) Artificial intelligence device and method for operating the same
US20200372911A1 (en) Speech recognition device and method
KR20190104268A (ko) 비식별화된 음성 신호를 학습하는 인공 지능 기기 및 그 방법
US10997962B2 (en) Apparatus and method for synthesizing engine sound
KR20210128074A (ko) 립리딩 기반의 화자 검출에 따른 오디오 줌
US11501757B2 (en) Artificial intelligence apparatus
KR20190107626A (ko) 인공지능 서버
US11182922B2 (en) AI apparatus and method for determining location of user
KR20190106889A (ko) 오디오 데이터를 이용하여 사용자에게 알림을 제공하는 인공 지능 기기 및 그 방법
KR20190094304A (ko) 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법
US20210319311A1 (en) Artificial intelligence apparatus using a plurality of output layers and method for same
KR20190104104A (ko) 영상 재생 방법 및 장치
US20190377489A1 (en) Artificial intelligence device for providing voice recognition service and method of operating the same
US11205248B2 (en) Mobile terminal
EP3822972A1 (en) Artificial intelligence apparatus
US11721319B2 (en) Artificial intelligence device and method for generating speech having a different speech style

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal