KR102511720B1 - 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법 - Google Patents

360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102511720B1
KR102511720B1 KR1020170162242A KR20170162242A KR102511720B1 KR 102511720 B1 KR102511720 B1 KR 102511720B1 KR 1020170162242 A KR1020170162242 A KR 1020170162242A KR 20170162242 A KR20170162242 A KR 20170162242A KR 102511720 B1 KR102511720 B1 KR 102511720B1
Authority
KR
South Korea
Prior art keywords
speaker
text
screen
processor
area
Prior art date
Application number
KR1020170162242A
Other languages
English (en)
Other versions
KR20190063281A (ko
Inventor
권오윤
유이슬
이현주
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170162242A priority Critical patent/KR102511720B1/ko
Priority to EP18882409.8A priority patent/EP3697099A1/en
Priority to PCT/KR2018/010950 priority patent/WO2019107719A1/ko
Priority to US16/762,006 priority patent/US11570507B2/en
Publication of KR20190063281A publication Critical patent/KR20190063281A/ko
Application granted granted Critical
Publication of KR102511720B1 publication Critical patent/KR102511720B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다. 전자 장치는, 디스플레이, 프로세서, 및 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 복수의 방위 영역을 지원하는 비디오가 재생되면, 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면 및 제1 화자의 음성에 대응하는 제1 텍스트를 상기 화면 내에서 표시하고, 제2 방위 영역에 위치하는 제2 화자의 음성을 선택하는 사용자 입력에 응답하여, 제2 방위 영역의 화면을 표시하도록 할 수 있다.

Description

360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법{APPARATUS AND METHOD FOR VISUALLY DISPLAYING VOICE OF SPEAKER AT 360 VIDEO}
본 문서에서 개시되는 실시 예들은, 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법과 관련된다.
전자 장치(예: 스마트폰, 컴퓨터 장치, 또는 VR(virtual reality) 기기)는 사진, 비디오, 음악, 게임, 또는 방송과 같은 멀티미디어를 재생할 수 있다. 전자 장치는 360도의 시야 각을 지원하는 360 비디오를 재생할 수 있다. 360 비디오를 통해, 전자 장치는 전자 장치의 사용자가 특정 방위 영역에 위치하는 객체뿐만 아니라 전 방위 영역에 위치하는 객체를 확인할 수 있는 경험을 제공할 수 있다.
종래 기술에 따르면, 360 비디오가 360도의 시야 각을 지원하는 반면에 전자 장치의 디스플레이 크기는 제한되므로, 전자 장치는 360 비디오에서 특정 방위 영역(또는 방위 각으로 지칭될 수 있다)의 화면이 표시되는 동안에 나머지 방위 영역의 화면을 표시할 수 없다. 전자 장치의 사용자는 다른 방위 영역의 화면을 확인하기 위해서, 화면을 이동하는 사용자 입력을 전자 장치에게 제공해야 한다. 특정 방위 영역의 화면이 표시되는 동안에 다른 방위 영역에 위치된 화자의 음성이 출력되면, 전자 장치의 사용자는 해당하는 화자를 확인하기 어려울 수 있다.
본 발명의 다양한 실시 예들은 360 비디오에서 출력되는 음성에 대응하는 텍스트를 표시하기 위한 장치 및 그에 관한 방법을 제안하고자 한다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치는, 디스플레이, 상기 디스플레이와 전기적으로 연결된 프로세서, 및 상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 복수의 방위 영역(orientation region)을 지원하는 비디오가 재생되면, 상기 디스플레이를 통해, 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하고, 제1 화자의 음성에 대응하는 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하고, 제2 화자의 음성에 대응하는 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하고, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하도록 할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치의 방법은, 복수의 방위 영역을 지원하는 비디오가 재생되면, 상기 전자 장치의 디스플레이를 통해, 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하는 동작, 제1 화자에 대응하는 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하는 동작, 제2 화자에 대응하는 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하는 동작, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하는 동작, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하는 동작을 포함할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치는, 복수의 방위 영역을 지원하는 비디오를 수신하는 통신 모듈, 디스플레이, 상기 디스플레이와 전기적으로 연결된 프로세서, 및 상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 통신 모듈을 통해 상기 비디오가 수신되면, 상기 디스플레이를 통해 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하고, 제1 화자의 음성이 출력되면, 상기 제1 화자의 음성으로부터 변환된 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하고, 제2 화자의 음성이 출력되면, 상기 제2 화자의 음성으로부터 변환된 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하고, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하도록 할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 전자 장치는 360 비디오에서 출력되는 음성을 시각적으로 표시할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 전자 장치의 사용자는 360 비디오에서 출력되는 음성에 대응하는 화자를 편리하게 확인할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 다양한 실시 예들에 따른 네트워크 환경에서 전자 장치의 블록도를 나타낸다.
도 2는 다양한 실시 예들에 따라 360 비디오에서 음성을 시각적으로 표시하는 전자 장치의 블록도를 도시한다.
도 3은 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트 및 이미지를 표시하는 동작을 도시한다.
도 4는 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트를 말풍선(speech bubble)으로 표시하는 동작을 도시한다.
도 5는 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트에 기반하여 화면을 이동하는 전자 장치의 동작 흐름도를 도시한다.
도 6은 다양한 실시 예들에 따라 음성에 대응하는 화자가 위치하는 방위 영역을 결정하는 전자 장치의 동작 흐름도를 도시한다.
도 7은 다양한 실시 예들에 따라 음성에 대응하는 화자의 지시자를 표시하는 동작을 도시한다.
도 8은 다양한 실시 예들에 따라 복수의 텍스트를 포함하는 리스트를 표시하는 동작을 도시한다.
도 9는 다양한 실시 예들에 따라 선택된 화자에 대응하는 텍스트만을 포함하도록 리스트를 제어하는 동작을 도시한다.
도 10은 다양한 실시 예들에 따라 리스트 내에서 선택된 텍스트에 대응하는 재생 시점의 화면을 표시하는 동작을 도시한다.
도 11은 다양한 실시 예들에 따라 리스트 내에서 선택된 텍스트에 대응하는 재생 시점 및 방위 영역의 화면을 표시하는 동작을 도시한다.
도 12는 다양한 실시 예들에 따라 텍스트를 선택하는 사용자 입력에 응답하여 재생 시점을 변경하는 동작을 도시한다.
도 13은 다양한 실시 예들에 따라 출력되는 음성을 제어하는 동작을 도시한다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
도 1은 다양한 실시 예들에 따른, 네트워크 환경에서 전자 장치의 블록도를 나타낸다.
도 1를 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제1 네트워크(198)(예: 근거리 무선 통신)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 및 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 생략되거나 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서는, 예를 들면, 표시 장치(160)(예: 디스플레이)에 임베디드된 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)의 경우와 같이, 일부의 구성요소들이 통합되어 구현될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 구동하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 애플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 여기서, 보조 프로세서(123)는 메인 프로세서(121)와 별개로 또는 임베디드되어 운영될 수 있다.
이런 경우, 보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 애플리케이션 수행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부 구성 요소로서 구현될 수 있다. 메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 애플리케이션(146)을 포함할 수 있다.
입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.
음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일 실시 예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.
표시 장치(160)는 전자 장치(101)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 표시 장치(160)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일 실시 예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 외부 전자 장치(예: 전자 장치(102))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(177)는 HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 애플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(190)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.
일 실시 예에 따르면, 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(101)를 구별 및 인증할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)(예: 무선 통신 모듈(192))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.
상기 구성요소들 중 일부 구성요소들은 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시 예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시 예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일 실시 예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에게 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
이하 서술되는 다양한 실시 예들에서, 전자 장치(101)는, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, VR(virtual reality) 기능을 지원하는 헤드셋 또는 폼팩터, 또는 가전 장치 중 적어도 하나를 포함할 수 있다.
도 2는 다양한 실시 예들에 따라 360 비디오에서 음성을 시각적으로 표시하는 전자 장치의 블록도를 도시한다.
도 2를 참조하면, 프로세서(120)(예: 도 1의 프로세서(120))는 비디오가 재생되면 비디오에 포함된 음성을 음향 출력 장치(155)를 통해 출력하고, 비디오에 포함된 영상을 표시 장치(160)(예: 디스플레이)를 통해 출력할 수 있다. 본 문서에 개시되는 다양한 실시 예들에서, 전자 장치(101) 또는 프로세서(120)에 의해 재생되는 비디오는 전자 장치(101)의 메모리(140)에 미리 저장된 비디오를 의미하거나, 전자 장치(101)의 통신 모듈(190)을 통해 실시간으로 들어오는 방송용 비디오 또는 스트리밍 비디오를 의미할 수 있다. 또한, 본 문서에 개시되는 다양한 실시 예들에서, 전자 장치(101)에 의하여 재생되는 비디오는 전 방위의 시야 각(viewing angle)을 지원할 수 있다. 예를 들어, 비디오의 시야 각은 180도 또는 360도를 포함할 수 있다. 전자 장치(101)의 디스플레이(예: 표시 장치(160))의 크기는 제한되므로, 전자 장치(101)는 비디오가 지원하는 시야 각 전체를 한번에 표시할 수 없다. 예를 들어, 전자 장치(101)가 특정 방위 영역(방위 각으로 지칭될 수 있다)에 대응하는 화면을 표시하는 동안에, 전자 장치(101)는 다른 방위 영역에 대응하는 화면을 표시할 수 없다.
일 실시 예에 따르면, 프로세서(120)는 음성 검출 모듈(222), 화자 검출 모듈(224), 화자 인식 모듈(226), 및 텍스트 생성 모듈(228)을 포함할 수 있다. 프로세서(120)는 각각의 모듈을 통해 음성에 대응하는 화자를 결정하고, 음성으로부터 변환된 텍스트를 결정된 화자와 함께 표시할 수 있다. 도 2에 도시되는 각각의 모듈들은 프로세서(120)와 통합되는 하드웨어 구성이거나, 전자 장치(101)내에서 프로세서(120)와 별도로 내장된 구성일 수 있다. 또한, 각각의 모듈들은 메모리(140)에 저장되고, 프로세서(120)에 의하여 실행되는 소프트웨어 구성일 수 있다.
일 실시 예에 따르면, 음성 검출 모듈(222)은 음성을 검출하고 분석할 수 있다. 예를 들어, 음성 검출 모듈(222)은 음성의 특징(예: 주파수, 톤, 파장, 에너지, 제로 크로싱(zero crossing), 및 LPC(Linear Predictive Coding) 중 적어도 하나)을 추출하고, 추출된 음성의 특징을 메모리(140)에 저장된 음성 데이터 베이스(242)와 비교할 수 있다. 음성 검출 모듈(222)은 예를 들어, HMM(Hidden Markrov Model) 기법에 기반하여 음성을 검출 및 분석할 수 있다. 음성 검출 모듈(222)은 분석된 음성에 관한 정보를 음성 데이터 베이스(242)에 저장할 수 있다. 음성 데이터 베이스(242)에 저장되지 않은 새로운 특징이 검출되면, 음성 검출 모듈(222)은 새로운 특징에 관한 정보를 음성 데이터 베이스(242)에 갱신할 수 있다.
일 실시 예에 따르면, 화자 검출 모듈(224)은 비디오가 재생될 때 표시되는 화자의 얼굴 또는 의상을 검출하고 분석할 수 있다. 화자는 객체 또는 등장인물로 지칭될 수 있다. 예를 들어, 화자 검출 모듈(224)은 영상을 구성하는 픽셀 밝기의 불연속점을 이용하여 화자의 얼굴 윤곽선을 추출할 수 있다. 다른 예를 들어, 화자 검출 모듈(224)은 영상의 형식을 RGB에서 YCbCr로 변환하고, 색상 성분인 Cb와 Cr을 통해 피부 영역을 검출할 수 있다. 다른 예를 들어, 화자 검출 모듈(224)은 영상을 그레이(gray) 또는 이진(binary) 형태로 변환하고, 변환된 영상을 메모리(140)에 저장된 화자 데이터 베이스(244)와 비교함으로써 화자 얼굴의 특징(예: 눈, 코, 입 등)을 검출할 수 있다. 화자 검출 모듈(224)은 분석된 화자에 관한 정보를 화자 데이터 베이스(244)에 저장할 수 있다. 화자 데이터 베이스(244)에 저장되지 않은 새로운 특징이 검출되면, 화자 검출 모듈(224)은 새로운 특징에 관한 정보를 화자 데이터 베이스(244)에 갱신할 수 있다.
일 실시 예에 따르면, 화자 인식 모듈(226)은 출력되는 음성에 대응하는 화자를 결정할 수 있다. 일 실시 예에 따르면, 화자 인식 모듈(226)은 음성 데이터 베이스(242)에 저장된 음성에 관한 정보와 화자 데이터 베이스(244)에 저장된 화자에 관한 정보를 비교함으로써 출력되는 음성과 대응하는 화자를 결정할 수 있다. 예를 들어, 출력되는 음성의 성별이 여자인 경우, 화자 인식 모듈(226)은 화자 데이터 베이스(244)에 저장된 화자에 관한 정보 중 성별이 여자인 화자가 출력되는 음성에 대응하는 것으로 결정할 수 있다. 화자 인식 모듈(226)은 매칭이 된 음성 및 화자에 관한 정보를 메모리(140)에 저장할 수 있다. 이전에 출력되는 음성과 동일한 화자의 음성이 출력되면, 화자 인식 모듈(226)은 미리 저장된 정보를 이용하여 음성에 대응하는 화자를 결정할 수 있다.
일 실시 예에 따르면, 텍스트 생성 모듈(228)은 음성을 텍스트로 변환할 수 있다. 텍스트 생성 모듈(228)은 음성 검출 모듈(222)에 의하여 분석되고 음성 데이터 베이스(242)에 저장된 음성에 관한 정보를 이용하여, 음성을 텍스트로 변환할 수 있다. 텍스트 생성 모듈(228)은 사용자 인터페이스(user interface, UI) 데이터 베이스(246)에 저장된 정보를 이용하여 다양한 형태의 텍스트를 생성할 수 있다. 예를 들어, 텍스트 생성 모듈(228)은 음성으로부터 변환된 텍스트와 음성에 대응하는 화자의 이미지를 함께 생성할 수 있다. 다른 예를 들어, 텍스트 생성 모듈(228)은 음성으로부터 변환된 텍스트를 말풍선의 형태로 생성할 수 있다.
일 실시 예에 따르면, 프로세서(120)는 음향 출력 장치(155)를 통해 음성이 출력되는 동안에, 출력되는 음성에 대응하는 텍스트를 표시 장치(160)를 통해 표시할 수 있다. 프로세서(120)는 표시되는 텍스트의 화자를 식별할 수 있도록, 출력되는 음성에 대응하는 화자의 이미지를 텍스트와 함께 표시하거나, 텍스트를 말풍선 형태로 표시할 수 있다.
도 3은 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트 및 이미지를 표시하는 동작을 도시한다.
도 3의 참조 번호 301을 참조하면, 전자 장치(101)는 복수의 방위 영역 중에서 제1 방위 영역의 화면(310)을 표시할 수 있다. 제1 방위 영역은 예를 들어, 360 비디오에서 방위각(azimuth)이 0도인 영역을 의미할 수 있다. 전자 장치(101)는 제1 방위 영역에 위치하는 제1 화자(314)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 표시되는 화면의 방위각을 나타내는 UI(316)를 표시할 수 있다. 예를 들어, 제1 방위 영역의 화면(310)은 제1 방위 영역(즉, 방위각이 0도인 영역)에 대응하는 화면이므로, 전자 장치(101)는 UI(316)가 0도를 나타내도록 제어할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 제1 시점(1시간 25분 35초)에서 출력되는 음성을 검출하고, 검출된 음성의 화자가 제1 화자(314)임을 결정할 수 있다. 전자 장치(101)는 제1 시점에서 제1 화자(314)의 음성이 출력되는 동안에 제1 화자(314)의 음성에 대응하는 제1 텍스트(324)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 전자 장치(101)는 제1 텍스트(324)와 함께 제1 화자(314)를 나타내는 제1 이미지 (334)를 표시할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 화자 데이터 베이스(244)에 저장된 제1 화자(314)의 정보에 기반하여 제1 이미지(334)를 생성할 수 있다. 예를 들어, 전자 장치(101)는 화자 검출 모듈(224)에 의하여 추출된 제1 화자(314)의 얼굴을 이용하여 제1 이미지(334)를 생성할 수 있다. 제1 이미지(334)는 제1 화자(314)의 얼굴 또는 의상을 포함할 수 있다.
도 3의 참조 번호 302를 참조하면, 전자 장치(101)는 제2 시점(1시간 25분 45초)에서 출력되는 음성을 검출하고, 검출된 음성의 화자가 제2 화자(316)임을 결정할 수 있다. 제2 화자(316)는 제1 방위 영역과 다른 제2 방위 영역에 위치할 수 있다. 전자 장치(101)는 제2 시점에서 제2 화자(316)의 음성이 출력되는 동안에 제2 화자(316)의 음성에 대응하는 제2 텍스트(326)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 전자 장치(101)는 제2 텍스트(326)와 함께 제2 화자(316)를 나타내는 제2 이미지 (336)를 표시할 수 있다. 전자 장치(101)는 제1 이미지(334)와 유사한 원리로 제2 이미지(336)를 생성할 수 있다. 도 3은 제2 텍스트(326)가 표시되면 제1 텍스트(324)가 위로 이동하는 예를 도시하였지만, 전자 장치(101)는 제2 텍스트(326)가 표시되면 제1 텍스트(324) 및 제1 이미지(334)가 제1 방위 영역의 화면(310)에서 사라지도록 제어할 수 있다.
도 3의 참조 번호 303을 참조하면, 전자 장치(101)는 제2 텍스트(326) 또는 제2 이미지(336)를 선택하는 사용자 입력에 응답하여, 제2 화자(316)가 위치하는 방위 영역(즉, 제2 방위 영역)의 화면(이하, 제2 방위 영역의 화면(320)으로 지칭될 수 있다)을 표시할 수 있다. 예를 들어, 전자 장치(101)는 제2 화자(316)가 제2 방위 영역의 화면(320)의 중앙에 위치하도록 제어할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 UI(316)가 제2 방위 영역에 대응하는 방위각(즉, 37도)을 나타내도록 제어할 수 있다. 도 3은 제2 방위 영역의 화면(320)이 표시되는 동안에 제1 텍스트(324) 및 제1 이미지(334)가 표시되지 않는 예를 도시하였지만, 전자 장치(101)는 제2 방위 영역의 화면(320) 내에서 제1 텍스트(324) 및 제1 이미지(334)가 각각 제2 텍스트(326) 및 제2 이미지(336)의 상단에 표시되도록 제어할 수 있다.
도 4는 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트를 말풍선(speech bubble)으로 표시하는 동작을 도시한다.
도 4의 참조 번호 401을 참조하면, 전자 장치(101)는 제1 화자(314)를 포함하는 제1 방위 영역의 화면(310)을 표시할 수 있다. 전자 장치(101)는 제1 방위 영역의 화면(310)의 방위각을 나타내는 UI(316)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 전자 장치(101)는 제1 시점에서 출력되는 제1 화자(314)의 음성을 검출하고, 제1 화자(314)의 음성에 대응하는 제1 텍스트(324)를 말풍선 형태로 표시할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 출력되는 음성이 제1 화자(314)에 대응함을 나타내는 지시자(이하, 제1 지시자(434)로 지칭될 수 있다)를 표시할 수 있다.
도 4의 참조 번호 402를 참조하면, 전자 장치(101)는 제2 시점에서 출력되는 제2 화자(316)의 음성을 검출하고, 제2 화자(316)의 음성에 대응하는 제2 텍스트(326)를 말풍선의 형태로 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 제2 화자(316)가 제1 방위 영역의 오른쪽 영역에 위치하면, 전자 장치(101)는 말풍선 형태의 제2 텍스트(326)가 제1 방위 영역의 화면(310)의 우측에 표시되도록 제어할 수 있다.
도 4의 참조 번호 403을 참조하면, 말풍선 형태의 제2 텍스트(326)를 선택하는 사용자 입력(450)에 응답하여, 전자 장치(101)는 제2 화자(316)를 포함하는 제2 방위 영역의 화면(320)을 표시할 수 있다. 예를 들어, 전자 장치(101)는 제2 화자(316)가 제2 방위 영역의 화면(320)의 중앙에 위치하도록 제어할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 UI(316)가 제2 방위 영역에 대응하는 방위각(즉, 37도)을 나타내도록 제어할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 말풍선 형태의 제1 텍스트(324) 및 말풍선 형태의 제2 텍스트(326) 각각의 배경 색을 다르게 표시할 수 있다. 예를 들어, 전자 장치(101)는 제1 화자(314) 및 제2 화자(316) 각각의 피부색, 머리 색, 또는 의상 색에 따라 말풍선의 배경 색을 결정할 수 있다. 다른 실시 예에 따르면, 전자 장치(101)는 제1 화자(314) 및 제2 화자(316) 각각의 피부색, 머리 색, 또는 의상 색에 따라 제1 텍스트(324) 및 제2 텍스트(326) 각각의 글자 색을 다르게 표시할 수 있다.
도 5는 다양한 실시 예들에 따라 음성에 대응하는 화자의 텍스트에 기반하여 화면을 이동하는 전자 장치의 동작 흐름도를 도시한다.
도 5에 도시된 동작들은 각각 전자 장치(101) 또는 프로세서(120)에 의하여 구현될 수 있다. 또한, 메모리(140)에 포함된 명령어들이 프로세서(120)에 의하여 실행되면, 프로세서(120)가 도 5에 도시된 동작들을 구현하도록 명령어들이 야기(cause)할 수 있다.
도 5를 참조하면, 방법 500의 동작 505에서, 프로세서(120)는 복수의 방위 영역 중에서 제1 방위 영역의 화면(310)을 디스플레이를 통해 표시할 수 있다. 제1 방위 영역의 화면(310)은 제1 화자(314)를 포함할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 제1 방위 영역의 방위각을 나타내는 UI(316)를 디스플레이를 통해 표시할 수 있다.
동작 510에서, 프로세서(120)는 제1 화자(314)의 음성이 출력되면, 제1 화자(314)의 음성으로부터 변환된 제1 텍스트(324)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 제1 텍스트(324)를 제1 화자(314)의 얼굴을 나타내는 제1 이미지(334)와 함께 표시할 수 있다. 다른 실시 예에 따르면, 프로세서(120)는 제1 텍스트(324)를 말풍선의 형태로 표시할 수 있다.
동작 515에서, 프로세서(120)는 제2 화자(316)의 음성이 출력되면 제2 화자(316)의 음성으로부터 변환된 제2 텍스트(326)를 제1 방위 영역의 화면(310) 내에서 표시할 수 있다. 제2 화자(316)는 제1 방위 영역과 다른 제2 방위 영역에 위치할 수 있다. 프로세서(120)는 제2 텍스트(326)를 제2 화자(316)의 얼굴을 나타내는 제2 이미지(336)와 함께 표시하거나, 제2 텍스트(326)를 말풍선의 형태로 표시할 수 있다.
동작 520에서, 프로세서(120)는 제1 텍스트(324) 및 제2 텍스트(326) 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신할 수 있다. 예를 들어, 제1 텍스트(324) 및 제2 텍스트(326)가 각각 제1 이미지(334) 및 제2 이미지(336)와 함께 표시되면, 프로세서(120)는 텍스트 또는 이미지를 선택하는 사용자 입력을 수신할 수 있다. 다른 예를 들어, 제1 텍스트(324) 및 제2 텍스트(326)가 각각 말풍선으로 표시되면, 프로세서(120)는 말풍선을 선택하는 사용자 입력을 수신할 수 있다.
동작 525에서, 프로세서(120)는 제1 방위 영역 및 제2 방위 영역 중에서, 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시할 수 있다. 상술한 방법 500을 통해, 전자 장치(101)는 출력되는 음성에 대응하는 화자의 텍스트를 표시함으로써 전자 장치(101)의 사용자가 다른 방위 영역에 위치하는 화자를 용이하게 확인하도록 편의성을 제공할 수 있다.
도 6은 다양한 실시 예들에 따라 음성에 대응하는 화자가 위치하는 방위 영역을 결정하는 전자 장치의 동작 흐름도를 도시한다. 이하 서술되는 도 6의 동작들은 도 5의 동작 520 및 동작 525를 보다 구체적으로 한정하여 구현될 수 있다.
도 6을 참조하면, 동작 605에서 프로세서(120)는 제1 텍스트(324) 및 제2 텍스트(326) 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신할 수 있다. 동작 610에서, 프로세서(120)는 선택된 텍스트의 화자를 결정할 수 있다.
동작 615에서, 프로세서(120)는 결정된 화자가 제1 방위 영역에 위치하는 지 여부를 확인할 수 있다. 결정된 화자가 제1 방위 영역에 위치하면(즉, 제1 화자(314)이면), 프로세서(120)는 알고리즘을 종료할 수 있다. 결정된 화자가 제1 방위 영역에 위치하지 않는다면, 프로세서(120)는 화자가 다른 방위 영역(예: 제2 방위 영역)에 위치하는 것으로 결정하고 동작 620을 진행할 수 있다.
동작 620에서, 프로세서(120)는 결정된 화자가 위치하는 제2 방위 영역의 화면(320)을 표시할 수 있다. 프로세서(120)는 화자가 중앙에 위치하도록 화면을 표시하거나, 다른 화자와 함께 위치하도록 화면을 표시할 수 있다.
도 7은 다양한 실시 예들에 따라 음성에 대응하는 화자의 지시자를 표시하는 동작을 도시한다.
도 7의 참조 번호 701을 참조하면, 전자 장치(101)는 제2 텍스트(326) 또는 제2 이미지(336)를 선택하는 사용자 입력에 응답하여, 제2 화자(316)가 위치하는 제2 방위 영역의 화면(320)을 표시할 수 있다. 전자 장치(101)는 출력되는 음성에 대응하는 제2 텍스트(326) 및 제2 이미지(336)과 함께 제2 화자(316)를 가리키는 제2 지시자(436)를 제2 방위 영역의 화면(320) 내에서 표시할 수 있다. 도 7의 참조 번호 702를 참조하면, 전자 장치(101)는 제2 텍스트(326) 및 제2 이미지(336) 표시하지 않고, 말풍선 형태의 제2 텍스트(326)를 제2 지시자(436)와 함께 제2 방위 영역의 화면(320) 내에서 표시할 수 있다.
도 8은 다양한 실시 예들에 따라 복수의 텍스트를 포함하는 리스트를 표시하는 동작을 도시한다.
도 8의 참조 번호 801을 참조하면, 전자 장치(101)는 특정 방위 영역의 화면(예: 제2 방위 영역의 화면(320))이 표시되는 동안에, 복수의 텍스트를 포함하는 리스트를 호출하기 위한 리스트 버튼(810)을 표시할 수 있다. 도 8은 리스트 버튼(810)이 화면의 우측 하단에 표시되는 예를 도시하였지만 리스트 버튼(810)이 표시되는 위치는 제한되지 않는다.
도 8의 참조 번호 802를 참조하면, 리스트 버튼(810)을 선택하는 사용자 입력(850)에 응답하여, 전자 장치(101)는 복수의 텍스트를 포함하는 리스트(820)를 표시할 수 있다. 예를 들어, 리스트(820)는 제1 화자(314)의 음성으로부터 변환된 제1 텍스트(324), 제2 화자(316)의 음성으로부터 변환된 제2 텍스트(326), 및 제3 화자(318)의 음성으로부터 변환된 제3 텍스트(328)를 포함할 수 있다. 전자 장치(101)는 복수의 텍스트들 각각의 재생 시간의 순서에 따라 복수의 텍스트들을 리스트(820) 내에서 표시할 수 있다. 전자 장치(101)는 각각 제1 화자(314)의 얼굴 이미지를 포함하는 제1 이미지(334), 제2 화자(316)의 얼굴 이미지를 포함하는 제2 이미지(336), 및 제3 화자(318)의 얼굴 이미지를 포함하는 제3 이미지(338)를 각각 복수의 텍스트들 측면에 표시할 수 있다.
일 실시 예에 따르면, 리스트(820) 내에서 표시되는 복수의 텍스트들 및 복수의 이미지들 각각은 비디오의 재생 시점에 따라 위쪽으로 스크롤 될 수 있다. 예를 들어, 특정 시점에서 제2 텍스트(326)에 대응하는 음성이 출력되고, 이후 제3 텍스트(328)에 대응하는 음성이 출력되면, 전자 장치(101)는 제3 텍스트(328)에 대응하는 음성이 출력되는 동안에, 제2 텍스트(326)는 위로 스크롤 되고 제3 텍스트(328)는 리스트(820)의 중앙에 위치하도록 텍스트들을 제어할 수 있다.
일 실시 예에 따르면, 리스트(820) 내에서 표시되는 복수의 텍스트들 각각의 색상은 서로 다를 수 있다. 예를 들어, 전자 장치(101)는 화자 검출 모듈(224)을 통해 검출된 화자의 피부색, 머리 색, 또는 의상 색에 따라 리스트(820) 내에서 표시되는 복수의 텍스트들 각각의 색상을 결정할 수 있다. 복수의 텍스트들 각각의 색상에 관한 정보는 화자 데이터 베이스(244)에 저장될 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 특정 화자를 나타내는 버튼을 리스트(820) 상단에 표시할 수 있다. 각각의 버튼은 리스트(820) 내에서 표시되는 복수의 텍스트들 각각의 색상과 동일한 색상으로 표시될 수 있다. 예를 들어, 제1 텍스트(324)의 색상이 파란 색이면, 전자 장치(101)는 제1 화자(314)를 나타내는 제1 버튼(834)을 파란색으로 표시할 수 있다. 유사한 원리로, 전자 장치(101)는 제2 화자(316)를 나타내는 제2 버튼(836)을 노란색으로, 제3 화자(318)를 나타내는 제3 버튼(838)을 초록색으로, 또 다른 화자를 나타내는 제4 버튼(832)을 빨간색으로 표시할 수 있다.
도 9는 다양한 실시 예들에 따라 선택된 화자에 대응하는 텍스트만을 포함하도록 리스트를 제어하는 동작을 도시한다.
도 9의 참조 번호 901을 참조하면, 전자 장치(101)는 리스트(820)와 함께 표시되는 복수의 버튼들 중에서 제1 버튼(834)을 선택하는 사용자 입력(950)을 수신할 수 있다. 도 9의 참조 번호 902를 참조하면, 전자 장치(101)는 제1 화자(314)에 대응하는 복수의 텍스트들을 시간 순서에 따라 리스트(820)내에서 표시할 수 있다. 전자 장치(101)는 리스트(820)에 포함되는 텍스트들의 화자를 나타내기 위하여 제1 이미지(334)를 리스트(820) 내에서 표시하거나, 복수의 텍스트들의 색상을 제1 버튼(834)과 동일한 색상으로 설정할 수 있다. 다른 예를 들어, 전자 장치(101)는 제1 화자(314)를 나타내는 제1 시시자(434)를 표시할 수 있다.
도 10은 다양한 실시 예들에 따라 리스트 내에서 선택된 텍스트에 대응하는 재생 시점의 화면을 표시하는 동작을 도시한다.
도 10의 참조 번호 1001을 참조하면, 전자 장치(101)는 제2 시점(예: 1시간 25분 45초 시점)에서 리스트(820)를 포함하는 제2 방위 영역의 화면(320)을 표시할 수 있다. 전자 장치(101)는 리스트(820)에 포함되는 복수의 텍스트들 중에서 제1 텍스트(324)를 선택하는 사용자 입력(1050)을 수신할 수 있다. 다른 예를 들어, 전자 장치(101)는 리스트(820)에 포함되는 복수의 이미지들 중에서 제1 이미지(334)를 선택하는 사용자 입력을 수신할 수 있다.
도 10의 참조 번호 1002를 참조하면, 전자 장치(101)는 표시되는 화면의 방위 영역을 이동하지 않은 채로 제1 텍스트(324)에 대응하는 음성이 출력되는 제1 시점(예: 1시간 25분 35초 시점)의 화면을 표시할 수 있다. 전자 장치(101)는 제1 시점에서 제1 텍스트(324)를 제1 이미지(334)와 함께 표시하거나, 말풍선 형태로 표시할 수 있다.
도 11은 다양한 실시 예들에 따라 리스트 내에서 선택된 텍스트에 대응하는 재생 시점 및 방위 영역의 화면을 표시하는 동작을 도시한다.
도 11의 참조 번호 1101을 참조하면, 전자 장치(101)는 제2 시점(예: 1시간 25분 45초)에서 제2 방위 영역(예: 방위각이 37인 영역)의 화면(320)을 표시할 수 있다. 전자 장치(101)는 제2 텍스트(326)에 대응하는 음성이 출력되는 동안에 제3 화자(318)의 음성에 대응하는 제3 텍스트(328)를 선택하는 사용자 입력(1150)을 수신할 수 있다. 다른 예를 들어, 전자 장치(101)는 제3 텍스트(328) 대신에 제3 화자(318)를 얼굴 이미지를 포함하는 제3 이미지(338)를 선택하는 사용자 입력을 수신할 수 있다. 제3 화자(318)는 제2 방위 영역과 다른 제3 방위 영역에 위치할 수 있다.
도 11의 참조 번호 1102를 참조하면, 전자 장치(101)는 제4 텍스트(328)에 대응하는 음성이 출력되는 제3 시점(예: 1시간 25분 50초)에서 제3 화자(318)가 위치하는 제3 방위 영역의 화면(330)을 표시할 수 있다. 전자 장치(101)는 방위각을 나타내는 UI(316)가 제3 방위 영역에 대응하는 방위각(즉, 179도)를 나타내도록 제어할 수 있다. 전자 장치(101)는 제3 방위 영역의 화면(330)내에서 제3 텍스트(328)를 제3 이미지(338)와 함께 표시하거나, 말풍선 형태로 표시할 수 있다.
도 12는 다양한 실시 예들에 따라 텍스트를 선택하는 사용자 입력에 응답하여 재생 시점을 변경하는 동작을 도시한다.
도 12의 참조 번호 1201을 참조하면, 전자 장치(101)는 제4 시점(예: 1시간 25분 52초)에서 제1 화자(314) 및 제4 화자(312)가 위치하는 제1 방위 영역의 화면(310)을 표시할 수 있다. 전자 장치(101)는 제4 화자(312)의 음성이 출력되는 동안에 출력되는 음성에 대응하는 제4 텍스트(322)를 말풍선 형태로 표시할 수 있다. 다른 예를 들어, 전자 장치(101)는 제4 텍스트(322)를 제4 화자(312)의 얼굴 이미지를 포함하는 이미지와 함께 제1 방위 영역의 화면(310) 내에서 표시할 수 있다.
도 12의 참조 번호 1202를 참조하면, 전자 장치(101)는 제5 시점(예: 1시간 25분 55초)에서 제4 텍스트(322)가 사라지는 효과를 적용할 수 있다. 전자 장치(101)는 제4 텍스트(322)가 제1 방위 영역의 화면(310)에서 완전히 사라지기 전에 제4 텍스트(322)를 선택하는 사용자 입력(1250)을 수신할 수 있다.
도 12의 참조 번호 1203을 참조하면, 제4 텍스트(322)를 선택하는 사용자 입력(1250)에 응답하여, 전자 장치(101)는 비디오의 재생 시점을 제5 시점에서 제4 시점으로 변경할 수 있다. 상술한 방법을 통해, 전자 장치(101)는 텍스트를 선택하는 사용자 입력에 따라 비디오의 재생 시점을 변경할 수 있다.
도 13은 다양한 실시 예들에 따라 출력되는 음성을 제어하는 동작을 도시한다.
도 13을 참조하면, 전자 장치(101)는 제2 방위 영역의 화면(320)이 표시되는 동안에 제3 화자(318)의 제3 텍스트(348)를 말풍선 형태로 표시할 수 있다. 전자 장치(101)는 음소거 버튼(1310)을 선택하는 사용자 입력에 응답하여, 재생되는 비디오의 음량을 음소거 상태로 제어할 수 있다. 전자 장치(101)는 음성이 출력되지 않는 동안에도 해당 음성에 대응하는 텍스트(예: 제3 텍스트(348))를 표시함으로써 화자들의 대화 내용을 시각적으로 제공할 수 있다.
상술한 바와 같이, 전자 장치(예: 도 1의 전자 장치(101))는, 디스플레이(예: 도 1의 표시 장치(160)), 상기 디스플레이와 전기적으로 연결된 프로세서(예: 도 1의 프로세서(120)), 및 상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리(예: 도 1의 메모리(130))를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 복수의 방위 영역(orientation region)을 지원하는 비디오가 재생되면, 상기 디스플레이를 통해, 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하고, 제1 화자의 음성에 대응하는 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하고, 제2 화자의 음성에 대응하는 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하고, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 선택된 텍스트가 상기 제1 화자에 대응하면, 상기 제1 방위 영역의 화면을 표시하고, 상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하고, 상기 선택된 텍스트가 상기 제2 화자에 대응하면, 상기 제2 방위 영역의 화면을 표시하도록 하며, 상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하고, 상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선의 형태로 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 텍스트 및 상기 제2 텍스트를 포함하는 리스트를 호출하기 위한 리스트 버튼을 상기 디스플레이를 통해 표시하고, 상기 리스트 버튼을 선택하는 사용자 입력을 수신하고, 상기 리스트를 상기 디스플레이를 통해 표시하고, 상기 제1 화자를 나타내는 제1 버튼 및 상기 제2 화자를 나타내는 제2 버튼을 상기 리스트의 상단에 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 버튼 및 상기 제2 버튼 중에서 하나의 버튼을 선택하는 사용자 입력을 수신하고, 상기 리스트가 상기 선택된 버튼에 대응하는 화자의 복수의 텍스트를 포함하도록 상기 리스트를 제어하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 리스트 내에서 표시되는 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 리스트 내에서 선택된 텍스트의 화자가 위치하는 방위 영역의 화면을 상기 리스트 내에서 선택된 텍스트에 대응하는 재생 시점에서 표시하도록 할 수 있다.
상술한 바와 같이, 전자 장치의 방법(예: 도 5의 방법 500)은, 복수의 방위 영역을 지원하는 비디오가 재생되면, 상기 전자 장치의 디스플레이를 통해, 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하는 동작, 제1 화자에 대응하는 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하는 동작, 제2 화자에 대응하는 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하는 동작, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하는 동작, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하는 동작은, 상기 선택된 텍스트가 상기 제1 화자에 대응하면, 상기 제1 방위 영역의 화면을 표시하고, 상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하는 동작, 또는 상기 선택된 텍스트가 상기 제2 화자에 대응하면, 상기 제2 방위 영역의 화면을 표시하고, 상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 방법은 상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하는 동작을 더 포함할 수 있다.
일 실시 예에 따르면, 상기 제1 텍스트를 표시하는 동작은, 상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하는 동작을 포함하고, 상기 제2 텍스트를 표시하는 동작은, 상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 제1 텍스트 또는 상기 제2 텍스트를 표시하는 동작은, 상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선의 형태로 표시하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 방법은, 상기 제1 텍스트 및 상기 제2 텍스트를 포함하는 리스트를 호출하기 위한 리스트 버튼을 표시하는 동작, 상기 리스트 버튼을 선택하는 사용자 입력을 수신하는 동작, 상기 리스트를 표시는 동작, 및 상기 제1 화자를 나타내는 제1 버튼 및 상기 제2 화자를 나타내는 제2 버튼을 상기 리스트의 상단에 표시하는 동작을 더 포함할 수 있다.
일 실시 예에 따르면, 상기 방법은 상기 제1 버튼 및 상기 제2 버튼 중에서 하나의 버튼을 선택하는 사용자 입력을 수신하는 동작, 및 상기 리스트가 상기 선택된 버튼에 대응하는 화자의 복수의 텍스트를 포함하도록 상기 리스트를 제어하는 동작을 더 포함할 수 있다.
상술한 바와 같이, 전자 장치(예: 도 1의 전자 장치(101))는, 복수의 방위 영역을 지원하는 비디오를 수신하는 통신 모듈(예: 도 1의 통신 모듈(190)), 디스플레이(예: 도 1의 표시 장치(160)), 상기 디스플레이와 전기적으로 연결된 프로세서(예: 도 1의 프로세서(120)), 및 상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리(예: 도 1의 메모리(130))를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 통신 모듈을 통해 상기 비디오가 수신되면, 상기 디스플레이를 통해 상기 복수의 방위 영역 중에서 제1 방위 영역의 화면을 표시하고, 제1 화자의 음성이 출력되면, 상기 제1 화자의 음성으로부터 변환된 제1 텍스트를 상기 화면 내에서 표시하고, 상기 제1 화자는 상기 제1 방위 영역에 위치하고, 제2 화자의 음성이 출력되면, 상기 제2 화자의 음성으로부터 변환된 제2 텍스트를 상기 화면 내에서 표시하고, 상기 제2 화자는 상기 복수의 방위 영역 중에서 제2 방위 영역에 위치하고, 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고, 상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 선택된 텍스트에 대응하는 화자가 위치하는 방위 영역의 화면을 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 선택된 텍스트가 상기 제1 화자에 대응하면, 상기 제1 방위 영역의 화면을 표시하고, 상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하고, 상기 선택된 텍스트가 상기 제2 화자에 대응하면, 상기 제2 방위 영역의 화면을 표시하고, 상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하고, 상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하도록 할 수 있다.
일 실시 예에 따르면, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가, 상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선의 형태로 표시하도록 할 수 있다.
본 문서에 개시된 다양한 실시 예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치 중 적어도 하나를 포함할 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램(140))로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(101))를 포함할 수 있다. 상기 명령이 프로세서(예: 프로세서(120))에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 애플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 애플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (20)

  1. 전자 장치에 있어서,
    디스플레이;
    상기 디스플레이와 전기적으로 연결된 프로세서; 및
    상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    비디오가 재생되면, 상기 디스플레이를 통해, 상기 비디오에 의해 지원되는 전체 시야 각 중 특정 방위각에 대응되는 제1 방위 영역의 화면을 표시하고,
    상기 제1 방위 영역의 화면에 포함된 제1 화자의 음성에 대응하는 제1 텍스트와, 상기 제1 방위 영역의 화면에 포함되지 않는 제2 화자의 음성에 대응하는 제2 텍스트를 상기 제1 방위 영역의 화면 상에 표시하고,
    상기 제2 텍스트를 선택하는 사용자 입력을 수신하고,
    상기 선택된 제2 텍스트를 발화한 상기 제2 화자가 포함된 제2 방위 영역의 화면을 표시하도록 하고, 상기 제2 방위 영역의 화면에 대응하는 방위각은 상기 제1 방위 영역의 화면에 대응하는 방위각과 다른, 전자 장치.
  2. 청구항 1에 있어서, 상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하고,
    상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함하는, 전자 장치.
  3. 청구항 1에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하도록 하는, 전자 장치.
  4. 청구항 1에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하고,
    상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하도록 하는, 전자 장치.
  5. 청구항 1에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선(speech bubble)의 형태로 표시하도록 하는, 전자 장치.
  6. 청구항 5에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 텍스트 및 상기 제2 텍스트를 포함하는 리스트를 호출하기 위한 리스트 버튼을 상기 디스플레이를 통해 표시하고,
    상기 리스트 버튼을 선택하는 사용자 입력을 수신하고,
    상기 리스트를 상기 디스플레이를 통해 표시하고,
    상기 제1 화자를 나타내는 제1 버튼 및 상기 제2 화자를 나타내는 제2 버튼을 상기 리스트의 상단에 표시하도록 하는, 전자 장치.
  7. 청구항 6에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 버튼 및 상기 제2 버튼 중에서 하나의 버튼을 선택하는 사용자 입력을 수신하고,
    상기 리스트가 상기 선택된 버튼에 대응하는 화자의 복수의 텍스트를 포함하도록 상기 리스트를 제어하도록 하는, 전자 장치.
  8. 청구항 6에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 리스트 내에서 표시되는 상기 제1 텍스트 및 상기 제2 텍스트 중에서 하나의 텍스트를 선택하는 사용자 입력을 수신하고,
    상기 제1 방위 영역 및 상기 제2 방위 영역 중에서, 상기 리스트 내에서 선택된 텍스트의 화자가 위치하는 방위 영역의 화면을 상기 리스트 내에서 선택된 텍스트에 대응하는 재생 시점에서 표시하도록 하는, 전자 장치.
  9. 전자 장치의 방법에 있어서,
    비디오가 재생되면, 상기 전자 장치의 디스플레이를 통해, 상기 비디오에 의해 지원되는 전체 시야 각 중 특정 방위각에 대응되는 제1 방위 영역의 화면을 표시하는 동작;
    상기 제1 방위 영역의 화면에 포함된 제1 화자의 음성에 대응하는 제1 텍스트를 상기 제1 방위 영역의 화면 상에 표시하는 동작;
    상기 제1 방위 영역의 화면에 포함되지 않는 제2 화자의 음성에 대응하는 제2 텍스트를 상기 제1 방위 영역의 화면 상에 표시하는 동작;
    상기 제2 텍스트를 선택하는 사용자 입력을 수신하는 동작; 및
    상기 선택된 제2 텍스트를 발화한 상기 제2 화자가 포함된 제2 방위 영역의 화면을 표시하는 동작을 포함하고, 상기 제2 방위 영역의 화면에 대응하는 방위각은 상기 제1 방위 영역의 화면에 대응하는 방위각과 다른, 방법.
  10. 청구항 9에 있어서,
    상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하고,
    상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함하는, 방법.
  11. 청구항 9에 있어서,
    상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하는 동작을 더 포함하는, 방법.
  12. 청구항 9에 있어서,
    상기 제1 텍스트를 표시하는 동작은, 상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하는 동작을 포함하고,
    상기 제2 텍스트를 표시하는 동작은, 상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하는 동작을 포함하는, 방법.
  13. 청구항 9에 있어서,
    상기 제1 텍스트 또는 상기 제2 텍스트를 표시하는 동작은, 상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선의 형태로 표시하는 동작을 포함하는, 방법.
  14. 청구항 13에 있어서,
    상기 제1 텍스트 및 상기 제2 텍스트를 포함하는 리스트를 호출하기 위한 리스트 버튼을 표시하는 동작;
    상기 리스트 버튼을 선택하는 사용자 입력을 수신하는 동작;
    상기 리스트를 표시는 동작; 및
    상기 제1 화자를 나타내는 제1 버튼 및 상기 제2 화자를 나타내는 제2 버튼을 상기 리스트의 상단에 표시하는 동작을 더 포함하는, 방법.
  15. 청구항 14에 있어서,
    상기 제1 버튼 및 상기 제2 버튼 중에서 하나의 버튼을 선택하는 사용자 입력을 수신하는 동작; 및
    상기 리스트가 상기 선택된 버튼에 대응하는 화자의 복수의 텍스트를 포함하도록 상기 리스트를 제어하는 동작을 더 포함하는, 방법.
  16. 전자 장치에 있어서,
    통신 모듈;
    디스플레이;
    상기 디스플레이와 전기적으로 연결된 프로세서; 및
    상기 프로세서와 전기적으로 연결되고, 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들은, 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 통신 모듈을 통해 비디오가 수신되면, 상기 비디오에 의해 지원되는 전체 시야 각 중 특정 방위각에 대응되는 제1 방위 영역의 화면을 상기 디스플레이를 통해 표시하고,
    상기 제1 방위 영역의 화면에 포함된 제1 화자의 음성에 대응하는 제1 텍스트와 상기 제1 방위 영역의 화면에 포함되지 않는 제2 화자의 음성에 대응하는 제2 텍스트를 상기 제1 방위 영역의 화면 상에 표시하고,
    상기 제2 텍스트를 선택하는 사용자 입력을 수신하고,
    상기 선택된 제2 텍스트를 발화한 상기 제2 화자가 포함된 제2 방위 영역의 화면을 표시하고, 상기 제2 방위 영역의 화면에 대응하는 방위각은 상기 제1 방위 영역의 화면에 대응하는 방위각과 다르고,
    상기 제2 방위 영역의 화면 상에 복수의 텍스트를 포함하는 리스트를 표시하고,
    상기 제2 텍스트에 대응하는 음성이 출력되는 동안, 상기 리스트에 포함된 제3 텍스트를 선택하는 사용자 입력을 수신하고,
    상기 제3 텍스트에 대응하는 음성이 출력되는 재생 시점에서 상기 제3 텍스트를 발화한 제3 화자가 포함된 제3 방위 영역의 화면을 표시하도록 하고, 상기 제3 텍스트에 대응하는 음성이 출력되는 재생 시점은 상기 제2 텍스트에 대응하는 음성이 출력되는 재생 시점과 다르고, 상기 제3 방위 영역의 화면에 대응하는 방위각은 상기 제2 방위 영역의 화면에 대응하는 방위각과 다른, 전자 장치.
  17. 청구항 16에 있어서,
    상기 제1 방위 영역은 상기 제1 화자가 화면의 중앙에 위치하는 방위 영역을 포함하고,
    상기 제2 방위 영역은 상기 제2 화자가 화면의 중앙에 위치하는 방위 영역을 포함하는, 전자 장치.
  18. 청구항 16에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 화자 및 상기 제2 화자 중에서 출력되는 음성에 대응하는 화자를 가리키는 지시자를 표시하도록 하는, 전자 장치.
  19. 청구항 16에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 화자의 이미지를 상기 제1 텍스트와 함께 표시하고,
    상기 제2 화자의 이미지를 상기 제2 텍스트와 함께 표시하도록 하는, 전자 장치.
  20. 청구항 16에 있어서, 상기 명령어들은 상기 프로세서에 의하여 실행되면, 상기 프로세서가,
    상기 제1 텍스트 또는 상기 제2 텍스트를 말풍선의 형태로 표시하도록 하는, 전자 장치.
KR1020170162242A 2017-11-29 2017-11-29 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법 KR102511720B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170162242A KR102511720B1 (ko) 2017-11-29 2017-11-29 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법
EP18882409.8A EP3697099A1 (en) 2017-11-29 2018-09-18 Device and method for visually displaying speaker's voice in 360-degree video
PCT/KR2018/010950 WO2019107719A1 (ko) 2017-11-29 2018-09-18 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법
US16/762,006 US11570507B2 (en) 2017-11-29 2018-09-18 Device and method for visually displaying speaker's voice in 360-degree video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170162242A KR102511720B1 (ko) 2017-11-29 2017-11-29 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190063281A KR20190063281A (ko) 2019-06-07
KR102511720B1 true KR102511720B1 (ko) 2023-03-20

Family

ID=66665157

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170162242A KR102511720B1 (ko) 2017-11-29 2017-11-29 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법

Country Status (4)

Country Link
US (1) US11570507B2 (ko)
EP (1) EP3697099A1 (ko)
KR (1) KR102511720B1 (ko)
WO (1) WO2019107719A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
KR102098734B1 (ko) * 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
KR102636238B1 (ko) * 2021-07-30 2024-02-14 주식회사 아모센스 음성 처리 장치를 포함하는 다중 그룹 수업 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040189868A1 (en) 2003-03-24 2004-09-30 Sony Corporation And Sony Electronics Inc. Position and time sensitive closed captioning
US20130070047A1 (en) * 2011-09-16 2013-03-21 Jay J. DiGIOVANNI Low Scale Production System and Method
US20170139578A1 (en) * 2015-11-18 2017-05-18 Samsung Electronics Co., Ltd System and method for 360-degree video navigation

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009195273A (ja) 2008-02-19 2009-09-03 Sanyo Electric Co Ltd ショーケース
US20100079573A1 (en) 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
KR20110018261A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 텍스트 서브타이틀 데이터 처리 방법 및 재생 장치
US8332530B2 (en) * 2009-12-10 2012-12-11 Hulu Llc User interface including concurrent display of video program, histogram, and transcript
US8183997B1 (en) 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US20150170418A1 (en) 2012-01-18 2015-06-18 Google Inc. Method to Provide Entry Into a Virtual Map Space Using a Mobile Device's Camera
US20130246967A1 (en) 2012-03-15 2013-09-19 Google Inc. Head-Tracked User Interaction with Graphical Interface
KR101945812B1 (ko) 2012-06-08 2019-02-08 엘지전자 주식회사 이동 단말기, 및 그 동작방법
US20140002581A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
KR102108893B1 (ko) * 2013-07-11 2020-05-11 엘지전자 주식회사 이동 단말기
KR102279674B1 (ko) 2014-09-02 2021-07-20 삼성전자주식회사 전자 장치의 멀티미디어 데이터 처리 방법 및 그 전자 장치
US9984505B2 (en) * 2014-09-30 2018-05-29 Sony Interactive Entertainment Inc. Display of text information on a head-mounted display

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040189868A1 (en) 2003-03-24 2004-09-30 Sony Corporation And Sony Electronics Inc. Position and time sensitive closed captioning
US20130070047A1 (en) * 2011-09-16 2013-03-21 Jay J. DiGIOVANNI Low Scale Production System and Method
US20170139578A1 (en) * 2015-11-18 2017-05-18 Samsung Electronics Co., Ltd System and method for 360-degree video navigation

Also Published As

Publication number Publication date
EP3697099A4 (en) 2020-08-19
KR20190063281A (ko) 2019-06-07
EP3697099A1 (en) 2020-08-19
US20210377593A1 (en) 2021-12-02
WO2019107719A1 (ko) 2019-06-06
US11570507B2 (en) 2023-01-31

Similar Documents

Publication Publication Date Title
US20210042132A1 (en) Electronic device and screen sharing method using same
US20210034210A1 (en) Method for providing function or content associated with application, and electronic device for carrying out same
KR20200067567A (ko) 전자 장치의 상태 정보에 기반하여 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
US10931880B2 (en) Electronic device and method for providing information thereof
US11501409B2 (en) Electronic device for image synthesis and operating method thereof
KR102511720B1 (ko) 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법
KR20200101630A (ko) 아바타 표시를 제어하기 위한 방법 및 그 전자 장치
KR102508286B1 (ko) 가상 현실에서 정보를 제공하는 전자 장치 및 방법
US20230074380A1 (en) Electronic device for providing augmented reality service and operating method thereof
KR20190021049A (ko) 전자 장치 및 이를 이용하여 관심 영역을 설정하여 오브젝트를 식별하는 방법
KR102389201B1 (ko) 전자 장치 및 전자 장치의 제어 방법
KR20200076438A (ko) 사용자의 액티비티를 추적하는 전자 장치 및 전자 장치의 동작 방법
CN112119372B (zh) 电子设备及其控制方法
US11889181B2 (en) Electronic device having plurality of lenses where the device changes a visual object corresponding to a recommended lens
KR102543656B1 (ko) 화면 제어 방법 및 이를 지원하는 전자 장치
KR102478426B1 (ko) 동영상 콘텐트에 포함된 블랙 영역을 검출하기 위한 방법 및 그 전자 장치
US20200410962A1 (en) Information displaying method and electronic device therefor
CN111367492A (zh) 网页页面展示方法及装置、存储介质
US20210027765A1 (en) Electronic device and operating method thereof
US11144791B2 (en) Electronic apparatus for recognizing user and controlling method thereof
US20240160402A1 (en) Device and method for transmitting voice data of user in virtual space
KR20210136659A (ko) 증강 현실 서비스를 제공하기 위한 전자 장치 및 그의 동작 방법
KR20240028263A (ko) 복수의 디스플레이들을 제어하는 방법 및 이를 지원하는 전자 장치
KR20210012562A (ko) 아바타를 제공하는 전자 장치 및 그의 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant