KR102656611B1 - 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법 - Google Patents

보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102656611B1
KR102656611B1 KR1020190011315A KR20190011315A KR102656611B1 KR 102656611 B1 KR102656611 B1 KR 102656611B1 KR 1020190011315 A KR1020190011315 A KR 1020190011315A KR 20190011315 A KR20190011315 A KR 20190011315A KR 102656611 B1 KR102656611 B1 KR 102656611B1
Authority
KR
South Korea
Prior art keywords
user
voice
screen
content playback
playback device
Prior art date
Application number
KR1020190011315A
Other languages
English (en)
Other versions
KR20200093945A (ko
Inventor
전병정
권진아
민유리
박한솔
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190011315A priority Critical patent/KR102656611B1/ko
Priority to PCT/KR2019/015865 priority patent/WO2020159047A1/ko
Publication of KR20200093945A publication Critical patent/KR20200093945A/ko
Priority to US17/388,693 priority patent/US11930236B2/en
Application granted granted Critical
Publication of KR102656611B1 publication Critical patent/KR102656611B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8583Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by creating hot-spots
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

컨텐츠 재생 장치가 개시된다. 일 실시 예에 따른 컨텐츠 재생 장치는 디스플레이 및 오디오 출력부를 포함하는 출력부, 사용자로부터 음성을 입력 받는 사용자 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이를 제어하여, 상기 사용자가 음성으로 선택할 수 있는 하나 이상의 객체를 포함하고 상기 객체 중 하나에 포커스가 위치한 제1 화면을 출력하도록 하고, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 출력부를 제어하여 상기 포커스가 위치하고 있는 객체에 따라 다음 선택을 위한 발화 가능한 가이드 정보를 출력하도록 할 수 있다.

Description

보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법{Contents reproducing apparatus and method thereof using voice assistant service}
개시된 다양한 실시 예들은 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법에 관한 것으로서, 보다 상세하게는, 사용자가 화면이 출력된 후 화면에 포함된 객체를 음성으로 선택 하지 않는 경우, 사용자에게 객체 선택을 위한 발화 가능한 가이드 정보를 제공하는 방법 및 장치에 관한 것이다.
사용자는 TV, PC, 태블릿, 휴대전화 등 다양한 컨텐츠 재생 장치를 이용하여 원하는 컨텐츠를 이용할 수 있다. 이를 위해 사용자는 컨텐츠 재생 장치에서 출력된 화면에서 원하는 컨텐츠 등의 객체를 선택해야 한다. 그러나 사용자가 어떤 객체를 선택해야 할지 망설이는 경우 또는 어떤 방식으로 객체를 선택할 수 있는지를 모르는 경우가 있을 수 있다. 이 경우, 컨텐츠 재생 장치는 사용자로부터 아무런 선택을 받지 못하므로, 현재 출력된 화면을 계속하여 그대로 보여주거나 또는 현재 출력된 화면 이전의 화면으로 돌아가 이전 화면을 보여주게 된다.
다양한 실시 예들은, 사용자가 화면에서 음성으로 선택할 수 있는 객체들 중 하나를 선택하지 않는 경우, 선택이 용이하도록 사용자에게 발화 가능한 가이드 정보를 제공하는 방법 및 장치를 제공하기 위한 것이다.
일 실시 예에 따른 컨텐츠 재생 장치는, 디스플레이 및 오디오 출력부를 포함하는 출력부, 사용자로부터 음성을 입력 받는 사용자 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 디스플레이를 제어하여, 상기 사용자가 음성으로 선택할 수 있는 하나 이상의 객체를 포함하고 상기 객체 중 하나에 포커스가 위치한 제1 화면을 출력하도록 하고, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 출력부를 제어하여 상기 포커스가 위치하고 있는 객체에 따라 다음 선택을 위한 발화 가능한 가이드 정보를 출력하도록 할 수 있다.
일 실시 예에 따르면, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 제1 화면을 출력한 이후 소정 시간 동안 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우를 포함할 수 있다.
일 실시 예에 따르면, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 객체 선택을 위한 추가 정보를 요청 받는 경우를 포함할 수 있다.
일 실시 예에 따르면, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 음성 입력 시작 신호를 수신하고, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우를 포함할 수 있다.
일 실시 예에 따르면, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는 상기 음성 입력 시작 신호를 수신한 이후, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못한 상태에서 상기 사용자 인터페이스를 통하여 상기 사용자로부터 음성 입력 종료 신호를 수신하는 경우를 포함할 수 있다.
일 실시 예에 따르면, 상기 사용자 인터페이스는 제어 장치를 통해 상기 사용자로부터 제어 명령을 더 수신하고, 상기 음성 입력 시작 신호는 상기 제어 장치에 구비된 특정 키에 대한 롱 프레스(long-pressed) 입력이고, 상기 음성 입력 종료 신호는 상기 롱 프레스 입력을 해제할 수 있다.
일 실시 예에 따르면, 상기 오디오 출력부는 상기 발화 가능한 가이드 정보를 음성으로 출력하고, 상기 디스플레이는 상기 발화 가능한 가이드 정보를 나타내는 화면을 상기 제1 화면 위에 오버레이하여 출력하고, 상기 프로세서는 상기 출력부를 제어하여 상기 오디오 출력부 및 상기 디스플레이 중 하나 이상이 상기 발화 가능한 가이드 정보를 출력하도록 할 수 있다.
일 실시 예에 따르면, 상기 발화 가능한 가이드 정보는 상기 하나 이상의 객체를 음성으로 선택하는데 사용되는 발화어 정보를 포함할 수 있다.
일 실시 예에 따르면, 상기 발화 가능한 가이드 정보는, 상기 발화어 정보가 상기 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보를 더 포함할 수 있다.
일 실시 예에 따르면, 상기 발화 가능한 가이드 정보는 화면 이동 및 볼륨 조절 중 하나 이상을 선택하는 정보를 포함할 수 있다.
일 실시 예에 따르면, 상기 발화 가능한 가이드 정보는 상기 객체를 선택하기 위한 정보 및 상기 객체에 대한 설명 정보 중 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 프로세서는 상기 출력부가 상기 복수의 컨텐츠들에 대한 공통 정보 및 상기 복수의 컨텐츠들에 포함된 각각의 컨텐츠에 대한 정보 리스트 중 하나 이상을 포함하는 발화 가능한 가이드 정보를 출력하고, 상기 복수의 컨텐츠들을 펼쳐서 출력하도록 할 수 있다.
일 실시 예에 따르면, 상기 발화 가능한 가이드 정보는 상기 제1 화면에 대한 설명 정보 및 다른 정보 요청을 위한 요청 정보 중 하나 이상을 포함할 수 있다.
일 실시 예에 따른 컨텐츠 재생 방법에 있어서, 사용자가 음성으로 선택할 수 있는 하나 이상의 객체가 포함되어 있고, 상기 하나 이상의 객체 중 하나에 포커스가 위치한 제1 화면을 출력하는 단계 및 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 포커스가 위치하고 있는 객체에 따라 다음 선택을 위한 발화 가능한 가이드 정보를 출력하는 단계를 포함하는 컨텐츠 재생 방법을 제공할 수 있다.
일 실시 예에 따른 컴퓨터로 읽을 수 있는 기록 매체는 사용자가 음성으로 선택할 수 있는 하나 이상의 객체가 포함되어 있고, 상기 하나 이상의 객체 중 하나에 포커스가 위치한 제1 화면을 출력하는 단계 및 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 포커스가 위치하고 있는 객체에 따라 다음 선택을 위한 발화 가능한 가이드 정보를 출력하는 단계를 포함하는 컨텐츠 재생 방법을 실행시키기 위한 프로그램이 기록될 수 있다.
일 실시 예에 따른 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치는, 사용자에게 음성으로 객체를 선택하기 위한 발화 가능한 가이드 정보를 제공할 수 있다.
일 실시 예에 따른 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치는, 화면 및 음성 중 하나 이상을 이용하여 사용자에게 발화 가능한 가이드 정보를 제공할 수 있다.
일 실시 예에 따른 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치는, 화면에서 포커스가 위치한 객체의 종류에 따라 다른 발화 가능한 가이드 정보를 제공할 수 있다.
도 1은 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다.
도 2는 다른 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다.
도 3은 또 다른 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다.
도 4는 실시 예에 따른 컨텐츠 재생 장치의 구성을 나타내는 블록도이다.
도 5는 다른 실시 예에 따른 컨텐츠 재생 장치의 구성을 나타내는 블록도이다.
도 6은 실시 예에 따라 가이드 정보 제공 방법을 수행하는데 사용되는 제어 장치를 도시한 도면이다.
도 7은 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 8은 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 9는 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 10은 실시 예에 따른 가이드 정보 제공 방법을 도시한 순서도이다.
도 11은 실시 예에 따른 가이드 정보 제공 방법을 도시한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 본 개시에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본 명세서, 특히, 특허 청구 범위에서 사용된 “상기” 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.
본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다.
도 1에서 컨텐츠 재생 장치는 보이스 어시스턴트 서비스를 이용하는 재생 장치일 수 있다. 컨텐츠 재생 장치(미도시)는 TV, PC, 태블릿, 휴대전화와 같이 디스플레이를 포함하는 전자 기기가 될 수 있다. 컨텐츠 재생 장치는 디스플레이를 통하여 제1 화면(100)을 출력할 수 있다. 제1 화면(100)은 사용자의 제어 명령에 따라 출력되는 결과 화면일 수 있다. 예컨대, 사용자는 전자 기기에 제어 명령을 하여 제1 화면(100)이 출력되도록 할 수 있다. 제어 명령은 사용자의 음성으로 될 수 있고, 음성 이외에도, 제어 명령은 사용자의 영상, 또는 리모컨 등의 제어 장치(미도시)를 통한 광 신호 등을 포함할 수 있다. 컨텐츠 재생 장치는 사용자로부터의 제어 명령에 따라 그 결과를 제1 화면(100)으로 출력할 수 있다. 또는 제1 화면(100)은 컨텐츠 재생 장치 전원이 켜지는 경우 자동으로 출력되는 화면일 수도 있다.
제1 화면(100)에는 사용자가 음성으로 선택할 수 있는 하나 이상의 객체가 포함될 수 있다. 객체는 화면에 포함되어 출력되며 사용자가 음성으로 선택할 수 있는 아이템을 의미할 수 있다. 예컨대, 객체는 영화나 드라마와 같은 컨텐츠일 수 있다. 객체는 하나의 단일 컨텐츠일 수도 있고, 복수의 컨텐츠들의 그룹일 수도 있다.
객체는 특정 기능을 수행하기 위해 선택되는 기능 키 일수도 있다. 예컨대, 객체는 현재 화면에서 이전이나 이후의 다른 화면으로의 이동을 위한 이동 버튼일 수 있다. 객체는 제1 화면(100)에 다 출력되지 않은 정보가 있는 경우, 추가로 나머지 정보를 보기 위해 선택할 수 있는 버튼일 수도 있다. 또한, 객체는 볼륨 조절이나 채널 조절 버튼 등과 같이 컨텐츠 재생 장치를 제어하기 위한 정보일 수도 있다.
도 1에서 제1 화면(100)에는 객체들(101, 102, 103, 104, 105)이 포함되어 있다. 도 1에서 객체들(101, 102, 103, 104, 105) 중 일부 객체(101, 102, 103, 104)는 각각 하나의 컨텐츠일 수 있다. 또한, 객체(105)는 특정 기능을 수행하기 위해 선택될 수 있는 기능 키일 수 있다. 도 1에서 객체(105)는, 보이스 어시스턴스 서비스(Voice Assistant Service) 활성화 표시일 수 있다. 보이스 어시스턴트 서비스 활성화 표시는 컨텐츠 재생 장치의 보이스 어시스턴트 서비스가 활성화 중임을 나타내는 표시일 수 있다.
제1 화면(100)에 포함된 객체들 중 어느 하나에는 포커스(110)가 위치할 수 있다. 포커스(110)는 객체를 선택하기 위해 사용될 수 있다. 즉, 포커스(110)가 어느 하나의 객체에 위치하는 경우, 사용자는 제어 장치에 포함된 키를 누르는 방법 등을 이용하여 그 포커스(110)가 위치한 객체를 선택할 수 있다.
컨텐츠 재생 장치의 화면이 바뀌면 자동으로 어느 하나의 객체 위에 포커스(110)가 표시되어 출력될 수 있다. 예컨대, 포커스(110)는 바뀐 화면에서 제일 좌측에 있는 객체, 또는 제일 상단에 위치한 객체에 위치할 수 있다. 사용자는 제어 장치에 포함된 이동 키 등을 입력하여 원하는 객체로 포커스(110)를 이동할 수도 있다. 사용자는 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 원하는 위치로 포커스(110)를 이동시킬 수 있다.
도 1에서 포커스(110)는 보이스 어시스턴트 서비스 활성화 표시를 나타내는 객체(105) 위에 위치하고 있다.
실시 예에서, 사용자는 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 무엇을 택할지를 모르는 경우가 있을 수 있다. 예컨대, 객체들(101, 102, 103, 104, 105) 중 사용자가 원하는 객체가 없을 수도 있고, 또는 사용자는 각 객체들(101, 102, 103, 104, 105) 중 어느 객체를 선택해야 할지를 모르는 경우가 있을 수 있다. 또는 사용자는 각 객체들(101, 102, 103, 104, 105) 중 하나를 선택하는 방법을 모르는 경우가 있을 수도 있다.
실시 예에서, 사용자가 특정한 객체를 선택하지 않는 경우, 컨텐츠 재생 장치는 제1 화면(100)을 출력한 이후 소정 시간이 경과했는지를 판단할 수 있다. 컨텐츠 재생 장치는 제1 화면(100)을 출력하고 소정 시간 동안 사용자로부터 제1 화면(100)에 포함된 하나 이상의 객체 중 어느 하나를 선택 받지 못하는 경우, 사용자가 객체를 선택하는데 도움을 주기 위해 가이드 정보를 출력할 수 있다.
실시 예에서, 컨텐츠 재생 장치는 현재 포커스(110)가 어느 객체에 위치하고 있는지에 따라 다른 가이드 정보를 생성하여 출력할 수 있다.
실시 예에서, 컨텐츠 재생 장치는 보이스 어시스턴트 서비스를 제공할 수 있다. 보이스 어시스턴트 서비스는 음성으로 사용자와 컨텐츠 재생 장치 간에 인터랙션을 수행하는 서비스일 수 있다. 보이스 어시스턴트 서비스를 제공하기 위해 컨텐츠 재생 장치는 컨텐츠 재생 장치에 구비된 마이크를 통하여 사용자의 음성을 입력 받고 이에 대응하여 결과를 출력할 수 있다.
사용자가 보이스 어시스턴트 서비스를 이용하여 컨텐츠 재생 장치에 음성을 입력하기 위해서는, 보이스 어시스턴트 서비스가 먼저 활성화되어야 한다. 컨텐츠 재생 장치는 사용자로부터 음성 입력 시작 신호를 수신하면, 보이스 어시스턴트 서비스를 활성화시키고 사용자로부터 다음 음성 입력을 기다릴 수 있다.
컨텐츠 재생 장치는 사용자로부터 특정한 음성을 수신하는 경우, 그 특정한 음성을 음성 입력 시작 신호로 인식하고, 보이스 어시스턴트 서비스를 활성화시킬 수 있다. 예컨대 사용자는 “하이 빅스비”, 또는 “빅스비~내 말을 들어줘”와 같은 음성을 발화함으로써 음성 입력 시작 신호를 입력할 수 있다. 여기서 “빅스비”는 보이스 어시스턴트 서비스를 제공하는 서비스 제공자의 이름일 수 있으나 이에 한정되는 것은 아니다. 또는 사용자는 보이스 어시스턴트 서비스를 이용하기 위해, 컨텐츠 재생 장치와 미리 특정한 음성을 정하여, 그 음성을 보이스 어시스턴트 서비스 활성화를 위한 음성 입력 시작 신호로 설정할 수도 있다. 실시 예에서 사용자는 “빅스비 잘가”, “굿바이 빅스비”와 같은 음성을 발화함으로써 음성 입력 종료 신호를 입력할 수도 있다.
실시 예에서, 제어 장치는 보이스 어시스턴트 서비스를 활성화하기 위한 전용 키를 포함할 수 있다. 사용자가 제어 장치의 보이스 어시스턴트 서비스 제공 키를 누르면, 컨텐츠 재생 장치는 이를 음성 입력 시작 신호로 인식하고 사용자로부터 음성 명령을 기다릴 수 있다. 컨텐츠 재생 장치는 사용자가 제어 장치의 보이스 어시스턴트 서비스 제공 키를 한 번 눌렀다가 떼면 이를 음성 입력 시작 신호로 인식하고, 이후의 사용자로부터의 음성 발화를 제어 명령으로 인식하고, 다시 한번 보이스 어시스턴트 서비스 제공 키가 눌러지면 이를 음성 입력 종료 신호로 인식할 수 있다.
다른 실시 예에서, 사용자는 제어 장치의 보이스 어시스턴트 서비스 제공 키를 누른 상태에서 음성으로 제어 명령을 할 수 있다. 예컨대 사용자는 제1 화면(100)에 출력되어 있는 객체들(101, 102, 103, 104, 105) 중 어느 하나를 음성으로 선택할 수 있다. 사용자는 보이스 어시스턴트 서비스 제공 키를 누른 상태에서 제어 명령을 한 후 보이스 어시스턴트 서비스 제공 키를 누르고 있던 것을 뗄 수 있다. 컨텐츠 재생 장치는 사용자가 보이스 어시스턴트 서비스 제공 키를 누르고 있는 것을 떼면 이를 음성 입력 종료 신호로 인식할 수 있다. 즉, 제어 장치에 포함된 보이스 어시스턴트 서비스 제공 키가 눌린 상태에서 사용자가 음성을 발화하면, 컨텐츠 재생 장치는 이 때 입력되는 사용자의 음성을 제어 명령으로 인식할 수 있다.
도 1에서 제1 화면(100)은 보이스 어시스턴스 서비스 활성화 표시를 하나의 객체(105)로 포함할 수 있다. 보이스 어시스턴트 서비스 활성화 표시는 컨텐츠 재생 장치의 보이스 어시스턴트 서비스가 활성화 중임을 나타내는 표시일 수 있다. 즉, 컨텐츠 재생 장치는 사용자로부터 음성 입력 시작 신호를 수신하면, 보이스 어시스턴트 서비스를 활성화 시키고, 이를 사용자에게 알려주기 위해 화면에 보이스 어시스턴트 서비스 활성화 표시를 출력할 수 있다. 사용자는 보이스 어시스턴트 서비스 활성화 표시를 이용하여, 보이스 어시스턴트 서비스가 활성화되었음을 인식하고 컨텐츠 재생 장치에 음성으로 제어 명령을 입력할 수 있다.
실시 예에서, 컨텐츠 재생 장치는 사용자로부터 음성 입력 시작 신호를 수신한 이후, 소정 시간이 경과해도 사용자로부터 아무런 음성을 수신하지 못하면, 사용자가 객체를 선택하지 않는다고 결정하고, 발화 가능한 가이드 정보를 출력할 수 있다.
실시 예에서, 컨텐츠 재생 장치는 사용자로부터 음성 입력 시작 신호를 수신한 이후 아무런 음성 입력 없이 사용자로부터 음성 입력 종료 신호를 수신할 수 있다. 예컨대 사용자는 제어 장치에 포함된 보이스 어시스턴트 서비스 제공 키를 누른 후 아무런 음성 발화 없이 다시 보이스 어시스턴트 서비스 제공 키를 누를 수 있다. 또는 사용자는 보이스 어시스턴트 서비스 제공 키를 누른 상태에서 아무런 발화 없이 보이스 어시스턴트 서비스 제공 키를 누르고 있던 것을 해제할 수 있다. 또는 사용자는 보이스 어시스턴트 서비스 제공 키를 누른 후 소정 시간 동안 아무런 발화를 하지 않을 수도 있다.
또는, 컨텐츠 재생 장치는 사용자로부터 음성 입력 시작 신호를 수신한 이후 사용자로부터 어떤 정보를 선택할지를 모르겠다는 내용의 음성을 수신할 수도 있다. 예컨대, 컨텐츠 재생 장치는 사용자로부터 “어떻게 해?”, “알려줘” 등과 같은 음성 신호를 수신하는 경우, 사용자가 객체를 선택하는데 어려움이 있다고 결정하고, 사용자에게 다음 선택을 위한 발화 가능한 가이드 정보를 출력할 수 있다. 이 때, 사용자가 발화하는, 선택이 어렵다는 내용의 음성 신호는 컨텐츠 재생 장치의 보이스 어시스턴트 서비스를 이용하기 위해 미리 설정된 음성 신호일 수 있다. 또는 컨텐츠 재생 장치는 인공지능(AI) 기능을 이용하여 사용자로부터 수신한 음성을 분석하여, 사용자가 특정한 객체를 선택하지 못하고 있다는 결과를 도출할 수도 있다. 컨텐츠 재생 장치는 사용자가 객체를 선택하지 않는다고 결정하는 경우, 가이드 정보를 출력할 수 있다.
발화 가능한 가이드 정보는 가이드 정보를 나타내는 화면일 수도 있고, 또는 음성일 수도 있다. 컨텐츠 재생 장치는 발화 가능한 가이드 정보를 제1 화면(100) 위에 오버레이하여 출력하거나 또는 컨텐츠 재생 장치에 포함된 오디오 출력부(미도시)를 통하여 음성으로 출력할 수도 있다.
도 1에서, 컨텐츠 재생 장치는 제1 화면(100)에서 사용자로부터 특정한 객체를 음성으로 선택 받지 못하는 경우, 제2 화면(120)을 자동으로 출력할 수 있다. 제2 화면(120)은 제1 화면(100)과 거의 동일하나, 보이스 어시스턴트 서비스 결과 표시(121) 및 발화 가능한 가이드 정보(122)를 더 포함한다는 점에서 제1 화면(100)과 구별될 수 있다.
보이스 어시스턴트 서비스 결과 표시(121)는 사용자에게 보이스 어시스턴트 서비스 결과를 보여주고 있음을 나타내는 정보일 수 있다.
컨텐츠 재생 장치는 사용자로부터 아무런 음성 명령을 수신하지 못한 경우, 제1 화면(100)에서 현재 포커스(110)가 위치하고 있는 객체가 무엇인지에 따라 다른 가이드 정보(122)를 출력할 수 있다. 도 1의 제1 화면(100)의 객체들(101, 102, 103, 104, 105) 중, 포커스(110)가 보이스 어시스턴트 서비스 활성화 표시를 나타내는 객체(105) 위에 위치하고 있으므로, 컨텐츠 재생 장치는 이에 맞는 가이드 정보를 생성하여 이를 출력할 수 있다.
예컨대, 컨텐츠 재생 장치의 보이스 어시스턴트 서비스가 활성화된 이후, 사용자는 컨텐츠 재생 장치에게“영화를 추천해줘”라고 음성으로 제어 명령을 전송한 경우를 가정한다. 컨텐츠 재생 장치는 사용자로부터의 음성으로 된 제어 명령을 수신하고 그에 따라 결과물인 제1 화면(100)을 출력할 수 있다. 제1 화면(100)에는 컨텐츠 재생 장치가 추천하는 복수의 영화들의 프리 뷰 화면들이 정지 영상 또는 동영상으로 출력될 수 있다. 제1 화면(100)에 포함된 복수의 영화들은 각각 객체들(101, 102, 103, 104)일 수 있다. 사용자가, 제1 화면(100)이 출력된 이후 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 하나를 선택하지 않는 경우, 컨텐츠 재생 장치는 사용자에게 다음 선택을 위한 가이드 정보를 생성할 수 있다. 제1 화면(100)에서 포커스(110)가 보이스 어시스턴트 서비스 활성화 표시를 나타내는 객체(105) 위에 있으므로, 컨텐츠 재생 장치는, 사용자에게 컨텐츠 재생 장치가 사용자의 제어 명령을 어떻게 이해했는지를 나타내는 정보를 출력하거나 또는 사용자가 객체를 선택하는데 사용되는 발화어 정보를 사용자에게 알려줄 수 있다. 사용자가 객체를 선택하는데 사용되는 발화어 정보는 도 1의 제2 화면(120)에 출력된 발화 가능한 가이드 정보(122)와 같이 “보고 싶은 영화가 나왔다면, 영화 제목 또는 ‘첫 번째 거’라고 말해보세요.”와 같은 정보일 수 있다. 또는 컨텐츠 재생 장치가 사용자의 제어 명령을 어떻게 이해했는지를 나타내기 위해 “제가 추천하는 영화는 아래와 같습니다”와 같은 정보를 가이드 정보로 출력할 수도 있다.
사용자는 가이드 정보(122)를 이용하여, 제2 화면(120)에 출력된 객체들(101, 102, 103, 104) 중 하나를 택할 수 있다. 사용자는 “첫 번째 거” 또는 “두 번째 거”라고 발화하거나, 또는 특정 영화의 제목을 발화함으로써 객체들(101, 102, 103, 104) 중 하나를 택할 수 있다.
도 2는 다른 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다. 도 2를 참조하면, 컨텐츠 재생 장치는 제1 화면(100)을 출력할 수 있다. 컨텐츠 재생 장치는 보이스 어시스턴트 서비스를 이용하여 음성으로 제어되는 장치일 수 있다. 도 2의 제1 화면(100)은 도 1의 제1 화면(100)과 같은 화면일 수 있다. 제1 화면(100)은 사용자의 제어 명령에 상응하여 컨텐츠 재생 장치가 출력한 화면일 수 있다. 예컨대, 사용자는 컨텐츠 재생 장치에게 “영화를 추천해줘.”와 같이 제어 명령을 입력했을 수 있다. 컨텐츠 재생 장치는 제1 화면(100)에 컨텐츠 재생 장치가 추천하는 복수의 영화들의 프리 뷰 화면들을 정지 영상 또는 동영상으로 출력할 수 있다.
사용자는 제1 화면(100)이 출력된 이후 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 하나의 객체를 선택할 수 있다. 예컨대 사용자가 하나의 영화 프리뷰(101)를 객체로 선택한 경우, 컨텐츠 재생 장치는 사용자가 선택한 프리뷰(101)에 대응하는 영화인 Games of Thrones Season 4를 재생하거나, 영화 Games of Thrones Season 4에 대한 추가 정보를 출력할 수 있다. 또는 컨텐츠 재생 장치는 사용자가 추가로 선택하거나 입력해야 하는 정보가 있는 경우 추가로 선택하거나 입력할 수 있는 화면을 출력할 수 있다. 예컨대, 컨텐츠 재생 장치는 사용자가 선택한 영화 Gamed of Thrones Season 4를 어떤 해상도로 출력하기를 원하는지, 또는 그 영화를 보기 위해 결제가 필요한 경우, 결제를 위한 정보를 입력하도록 하는 화면을 출력할 수도 있다.
실시 예에서, 사용자는 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 아무 객체도 선택하지 않을 수 있다. 컨텐츠 재생 장치는 사용자로부터 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 하나를 선택 받지 못하는 경우, 포커스(110)가 위치하고 있는 객체에 따라 다음 선택을 위한 가이드 정보를 출력할 수 있다.
객체 중 하나를 선택 받지 못하는 경우는 제1 화면(100)이 출력된 이후 소정 시간 동안 사용자로부터 아무런 선택이 없는 경우일 수 있다. 제1 화면(100)이 출력된 이후, 사용자는 음성으로 또는 리모컨 등의 제어 장치를 이용하여, 또는 터치 스크린을 이용하여 제1 화면(100)에 포함된 객체 중 하나를 택할 수 있으나, 소정 시간이 경과할 때까지 아무런 선택을 하지 않는 경우가 있을 수 있다.
또는, 사용자로부터 객체 선택을 위한 추가 정보를 요청 받는 경우이거나, 또는 사용자로부터 음성 입력 시작 신호를 수신한 이후 아무런 음성을 입력 받지 못하는 경우도 객체를 선택 받지 못하는 경우일 수 있다. 또한, 음성 입력 시작 신호를 수신한 이후 사용자로부터 객체 선택을 위한 음성을 입력 받지 못하는 경우는 음성 입력 시작 신호를 수신한 이후, 객체를 선택하는 음성을 입력 받지 못한 상태에서 사용자로부터 음성 입력 종료 신호를 수신하는 경우일 수 있다.
실시 예에서, 컨텐츠 재생 장치는 사용자로부터 객체 선택이 없는 경우, 발화 가능한 가이드 정보(221)를 생성하여 출력할 수 있다. 포커스(110)가 위치하고 있는 객체가 보이스 어시스턴트 서비스 활성화 표시를 나타내는 객체(105) 위에 있으므로, 컨텐츠 재생 장치는, 사용자가 객체를 선택하는데 도움을 줄 수 있는 정보를 발화 가능한 가이드 정보로 출력할 수 있다. 즉, 발화 가능한 가이드 정보(221)는 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 중 하나의 컨텐츠를 선택하는데 도움을 주기 위한 정보일 수 있다. 컨텐츠를 선택하기 위한 정보는 각 컨텐츠를 선택하는데 사용되는 발화어 정보를 포함할 수 있다. 발화어 정보는 사용자가 음성으로 발화하여 제어 명령을 할 수 있는 음성 명령어를 표시하는 정보일 수 있다. 사용자는 가이드 정보(221)에 포함된 각 객체들(222, 223, 224, 225)에 대한 발화어 정보(226, 227, 228, 229)를 보고, 원하는 객체를 선택하기 위해 특정한 발화어를 음성으로 발화할 수 있다. 예컨대, 사용자가 Game of Thrones Season 4를 보고자 하는 경우, 사용자는 해당하는 영화의 프리뷰 화면(222) 밑에 표기된, 발화어 정보(226) “Game of Thrones, seaeon 4”라는 텍스트를 발화함으로써, 원하는 영화를 선택할 수 있게 된다.
실시 예에서, 가이드 정보(221)가 발화어 정보를 포함하는 경우, 가이드 정보(221)는 발화어 정보가, 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보를 더 포함할 수 있다. 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보는 예컨대, 가이드 정보(221)에 포함된 발화어가, 특정한 폰트나 특정한 글씨체, 특정한 색상으로 표시되거나, 또는 발화어 옆에 특정한 로고 표시를 하여 해당 텍스트가 발화어임을 표시할 수 있다.
도 3은 또 다른 실시 예에 따라 컨텐츠 재생 장치가 사용자에게 가이드 정보를 제공하는 경우를 나타내는 도면이다. 도 3에서, 컨텐츠 재생 장치는 제1 화면(100)을 출력할 수 있다. 도 3의 제1 화면(100)은 도 1 및 도 2의 제1 화면(100)과 같은 화면일 수 있다. 실시 예에서, 컨텐츠 재생 장치는 제1 화면(100)에 대해 사용자로부터 객체 선택이 없는 경우, 가이드 정보를 생성하여 출력할 수 있다.
포커스(110)가 위치하고 있는 객체가 보이스 어시스턴트 서비스 활성화 표시를 나타내는 객체(105) 위에 있으므로, 컨텐츠 재생 장치는, 사용자가 객체를 선택하는데 도움을 줄 수 있는 정보를 가이드 정보로 출력할 수 있다.
도 3에서 가이드 정보(320)는 제1 화면(100)에 포함된 객체들(101, 102, 103, 104, 105) 외에 다른 객체들이 더 있는 경우, 다른 객체를 출력하기 위해 화면을 이동하기 위한 제1 가이드 정보(321)를 포함할 수 있다. 제1 가이드 정보(321)는 화면을 이동시키거나 또는 볼륨을 조절하기 위해 선택될 수 있는 정보일 수 있다. 제1 가이드 정보(321)는 가이드 정보 화면으로 출력될 수도 있고, 또는 사용자에게 음성으로 출력될 수도 있다.
제1 가이드 정보(321)는 “리모컨 [좌우] 버튼을 이용하여 더 많은 결과를 볼 수 있어요. 또는 ‘더 보여줘’라고 말해보세요”와 같은 내용을 포함하는 정보로, 화면에 출력될 수도 있고 이와 함께 또는 별개로 음성으로만 출력될 수도 있다. 제1 가이드 정보(321)가 음성으로 출력되는 경우, 도 3에는 도시하지 않았으나, 좌, 우를 나타내는 화살표가 화면(310)에 오버레이되어 출력될 수도 있다. 사용자는 좌, 우를 나타내는 화살표를 보고, 리모컨이나 음성 등을 이용하여 화면이 좌, 또는 우 방향으로 이동하도록 제어할 수 있다.
또는, 가이드 정보(320)는 보이스 어시스턴트 서비스와 관련하여, 컨텐츠 재생 장치가 사용자의 제어 명령을 어떻게 이해했는지에 대한 정보를 포함할 수 있다. 컨텐츠 재생 장치는 사용자에게 “리모컨 [DOWN] 버튼을 눌러, 빅스비가 내 말을 어떻게 이해했는지 볼 수 있어요”와 같은 제2 가이드 정보를 포함하는 가이드 정보(320)를 출력할 수 있고, 사용자는 가이드 정보(320)를 이용하여 컨텐츠 재생 장치가 보이스 어시스턴트 서비스를 이용하여 사용자의 제어 명령을 어떻게 이해했는지를 알고 싶을 경우 사용자가 취해야 할 행동이 무엇인지를 알 수 있게 된다.
도 4는 실시 예에 따른 컨텐츠 재생 장치의 구성을 나타내는 블록도이다. 도 4를 참조하면, 컨텐츠 재생 장치(400)는 프로세서(410), 사용자 인터페이스(420), 메모리(430) 및 출력부(440)를 포함할 수 있다.
컨텐츠 재생 장치(400)는 TV일 수 있으나, 이에 한정되지 않으며, 디스플레이를 포함하는 전자 장치로 구현될 수 있다. 예를 들어, 컨텐츠 재생 장치(400)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 또한, 컨텐츠 재생 장치(400)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다. 컨텐츠 재생 장치(400)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 컨텐츠 재생 장치(400)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.
컨텐츠 재생 장치(400)는 리모컨 또는 휴대폰과 같이 컨텐츠 재생 장치(400)를 제어하기 위한 다양한 형태의 제어 장치(미도시)로 제어될 수 있다. 또는 컨텐츠 재생 장치(400)의 출력부(440)에 포함된 디스플레이부(미도시)가 터치스크린으로 구현되는 경우 컨텐츠 재생 장치(400)는 사용자의 손가락이나 입력 펜 등으로 제어될 수도 있다. 실시 예에서, 컨텐츠 재생 장치(400)는 보이스 어시스턴트 서비스를 제공할 수 있다. 따라서, 컨텐츠 재생 장치(400)는 사용자의 음성으로 제어될 수 있고, 또한 사용자에게 음성을 출력함으로써 사용자와 컨텐츠 재생 장치(400) 간에 대화가 가능하도록 할 수 있다.
프로세서(410)는 메모리(430)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 가이드 정보를 생성하고 이를 출력부(440)를 통하여 출력할 수 있다. 프로세서(410)는 제1 화면에서 포커스가 위치하고 있는 객체에 따라 다음 선택을 위한 가이드 정보를 생성하고 이를 출력하도록 할 수 있다.
프로세서(410)는 제1 화면을 출력한 이후 소정 시간 동안 사용자로부터 객체 중 하나를 선택 받지 못하는 경우, 또는 사용자 인터페이스(420)를 통하여 사용자로부터 객체 선택을 위한 추가 정보를 요청 받는 경우 가이드 정보를 생성할 수 있다. 프로세서(410)는 사용자 인터페이스(420)를 통하여 사용자로부터 음성 입력 시작 신호를 수신할 경우, 보이스 어시스턴트 서비스를 활성화 시킬 수 있다. 프로세서(410)는 보이스 어시스턴트 서비스가 활성화되어 있는 상태에서 사용자로부터 객체 선택을 위한 아무런 입력, 예컨대, 음성이나 제어 장치를 통한 광 신호 등을 입력 받지 못하는 경우, 또는 음성을 입력 받지 못한 상태에서 사용자 인터페이스(420)를 통하여 사용자로부터 음성 입력 종료 신호를 수신하는 경우 사용자가 객체를 선택하지 않았다고 판단하고, 가이드 정보를 생성할 수 있다.
실시 예에서, 프로세서(410)는 프로세서(410)의 내부에 구비되는 메모리(미도시)에 하나 이상의 인스트럭션을 저장하고, 내부에 구비되는 메모리에 저장된 하나 이상의 인스트럭션을 실행하여 앞으로 기술할 동작들이 수행되도록 제어할 수 있다. 즉, 프로세서(410)는 메모리(430) 또는 프로세서(410)의 내부에 구비되는 내부 메모리에 저장된 적어도 하나의 인스트럭션 또는 프로그램을 실행하여 소정 동작을 수행할 수 있다.
실시 예에서, 프로세서(410)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(미도시)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(미도시)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
실시 예에서, 프로세서(410)는 보이스 어시스턴트 서비스를 제공하는 보이스 어시스턴트 프로세서(미도시)를 포함할 수 있다. 보이스 어시스턴트 프로세서는 하나 이상의 인스트럭션을 실행하여 보이스 어시스턴트 서비스 기능을 제공할 수 있다.
보이스 어시스턴트 서비스는, 사용자와의 대화를 제공하는 서비스일 수 있다. 보이스 어시스턴트 프로세서는 사용자의 상황이나 컨텐츠 재생 장치(400)의 상황 등을 고려하여 사람이 사용자와 직접 대화하는 것처럼 사용자와 음성을 주고 받을 수 있는 보이스 어시스턴트 서비스를 제공할 수 있다. 또한, 보이스 어시스턴트 프로세서는 사용자의 개인 비서처럼 사용자가 필요한 정보를 적절하게 생성하고 컨텐츠 재생 장치(400)가 이를 사용자에게 제공하도록 할 수 있다.
실시 예에서, 보이스 어시스턴트 프로세서는 인공 지능인 뉴럴 네트워크를 이용하여 보이스 어시스턴트 서비스의 학습 모델을 구현할 수도 있다. 구체적으로 뉴럴 네트워크는, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델일 수 있다. 보이스 어시스턴트 서비스의 학습 모델은, 예를 들어, 사용자의 입력 음성을 해석하기 위한 학습 모델, 사용자에게 제공할 가이드 정보를 생성하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다.
프로세서(410)는, 메모리(430) 또는 내부 메모리에 저장된 하나 이상의 인스트럭션을 실행함으로써, 사용자가 객체를 선택했는지를 감지하여 가이드 정보를 생성할 수 있다.
사용자 인터페이스(420)는 컨텐츠 재생 장치(400)를 제어하기 위한 사용자 입력을 수신할 수 있다. 실시 예에서, 사용자 인터페이스(420)는 사용자의 음성을 제어 명령으로 수신할 수 있다. 사용자는 사용자 인터페이스(420)를 이용하여 음성으로 컨텐츠 재생 장치(400)에 제어 명령을 하거나, 제1 화면에 출력된 객체들 중 하나를 선택할 수 있다. 사용자 인터페이스(420)는 사용자로부터 음성 수신이 가능한 마이크(미도시) 등을 포함할 수 있으며, 이를 통하여 사용자의 음성을 제어 명령으로 인식할 수 있다. 사용자 인터페이스(420)는 음성으로 된 제어 명령 외에도 리모컨 또는 휴대폰과 같이 컨텐츠 재생 장치(400)를 제어하기 위한 다양한 형태의 장치로 제어 명령을 수신할 수 있다. 컨텐츠 재생 장치(400)의 디스플레이가 터치스크린으로 구현되는 경우 사용자 인터페이스(420)는 사용자의 손가락이나 입력 펜 등을 통한 입력을 수신할 있다. 즉, 사용자 인터페이스(420)는 사용자의 터치를 감지하는 터치 패널을 통해 신호를 수신할 수 있다. 또는 사용자 인터페이스(420)는 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 통해 신호를 수신할 수 있으나 이에 제한되지 않는다. 또한, 컨텐츠 재생 장치(400)가 제어 장치에 의해서 조작되는 경우, 사용자 인터페이스(420)는 원격 제어 장치로부터 수신되는 제어 신호를 수신할 수도 있을 것이다.
사용자 인터페이스(400)는 적외선(infrared) 또는 블루투스(bluetooth)를 포함하는 근거리 통신을 이용하여 컨텐츠 재생 장치(400)에 대한 제어 명령을 수신할 수 있다.
메모리(430)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
일 실시 예에 따른 메모리(430)는, 프로세서(410)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 또한, 메모리(430)는 프로세서(410)에 의해서 실행 가능한 하나 이상의 인스트럭션을 저장하고 있을 수 있다. 메모리(430)에는 보이스 어시스턴트 서비스를 제공하기 위한 프로그램을 저장할 수 있다. 실시 예에서 메모리(430)에는 컨텐츠가 저장되어 있을 수도 있다. 컨텐츠는 오디오, 비디오 및/또는 부가 정보로 분리되어 분리된 오디오, 비디오 및/또는 부가 정보가 프로세서(410)의 제어에 의해 메모리(430)에 저장될 수 있다.
출력부(440)는, 컨텐츠를 출력할 수 있다. 컨텐츠 출력부(440)는 컨텐츠에 포함된 영상을 출력하는 디스플레이(미도시)와 컨텐츠에 포함된 오디오를 출력하는 오디오 출력부(미도시) 중 하나 이상을 포함할 수 있다. 일 실시 예에서, 제1 화면에 포함된 객체 중 하나를 사용자로부터 선택 받지 못하는 경우, 프로세서(410)는 오디오 출력부를 제어하여 가이드 정보가 음성으로 출력되도록 하거나, 또는 디스플레이를 제어하여 가이드 정보를 나타내는 화면이 출력되도록 할 수 있다. 또는 프로세서(410)는 오디오 출력부와 디스플레이 모두가 가이드 정보를 출력하도록 할 수도 있다.
도 5는 다른 실시 예에 따른 컨텐츠 재생 장치의 구성을 나타내는 블록도이다.
도 5에 도시된 바와 같이, 컨텐츠 재생 장치(500)는, 프로세서(410), 사용자 인터페이스(420) 및 메모리(430), 이외에 튜너부(510), 통신부(520), 감지부(530), 입/출력부(540), 비디오 처리부(550), 디스플레이(555), 오디오 처리부(560), 및 오디오 출력부(570)를 더 포함할 수 있다.
프로세서(410), 사용자 인터페이스(420) 및 메모리(430)에 대하여, 도 4에서 설명한 내용과 동일한 내용은 도 5에서 생략한다.
튜너부(510)는 유선 또는 무선으로 수신되는 컨텐츠를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 컨텐츠 재생 장치(500)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 컨텐츠는 방송 신호를 포함할 수 있고, 컨텐츠는 오디오(audio), 영상 신호인 비디오(video) 및 부가 정보 중 하나 이상을 포함할 수 있다. 부가 정보는 컨텐츠가 저장된 위치, 컨텐츠의 타이틀 등을 포함할 수 있다.
튜너부(510)를 통해 수신된 컨텐츠는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(410)의 제어에 의해 메모리(430)에 저장될 수 있다.
컨텐츠 재생 장치(500)의 튜너부(510)는 하나이거나 복수개일 수 있다. 튜너부(510)는 컨텐츠 재생 장치(500)와 일체형(all-in-one)으로 구현되거나 또는 컨텐츠 재생 장치(500)와 전기적으로 연결되는 튜너부를 가지는 별개의 장치(예를 들어, 셋탑박스(set-top box, 도시되지 아니함), 입/출력부(540)에 연결되는 튜너부(도시되지 아니함))로 구현될 수 있다.
통신부(520)는 프로세서(410)의 제어에 의해 컨텐츠 재생 장치(500)를 외부 장치(예를 들어, 외부 서버)와 연결할 수 있다. 프로세서(410)는 통신부(520)를 통해 연결된 외부 서버로부터 컨텐츠를 수신하거나, 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다.
통신부(520)는 컨텐츠 재생 장치(500)의 성능 및 구조에 대응하여 무선 랜(521), 블루투스(522), 및 유선 이더넷(Ethernet)(523) 중 하나를 포함할 수 있다. 또한, 통신부(520)는 무선랜(521), 블루투스(522), 및 유선 이더넷(Ethernet)(523)의 조합을 포함할 수 있다. 통신부(520)는 프로세서(410)의 제어에 의해 제어 장치(미도시)를 통한 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.
통신부(520)는 블루투스(522) 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 미도시), BLE(bluetooth low energy, 미도시)를 더 포함할 수 있다. 실시 예에 따라, 통신부(520)는 블로투스(522)나 BLE와 같은 근거리 통신을 통하여 단말기(340)와 결합하고, 연결 신호를 송수신할 수 있다.
감지부(530)는 사용자의 음성, 사용자의 영상, 또는 사용자의 인터랙션을 감지하며, 마이크(531), 카메라부(532), 및 광 수신부(533)를 포함할 수 있다. 마이크(531)는 사용자의 발화(utterance)된 음성을 수신할 수 있다. 마이크(531)는 수신된 음성을 전기 신호로 변환하여 이를 프로세서(410)로 전송할 수 있다.
실시 예에 따른 마이크(531)는, 사용자로부터, 제1 화면에 포함된 객체들 중 하나를 선택하는 음성을 입력 받을 수 있다. 실시 예에 따른 마이크(531)는 음성 입력 시작 신호로 인식하는 특정한 음성을 입력 받을 수 있다. 예컨대, 사용자는 “하이 빅스비”, 또는 “빅스비~내 말을 들어줘”와 같은 음성을 발화함으로써 음성 입력 시작 신호를 입력할 수 있다. 또는 사용자는 보이스 어시스턴트 서비스를 이용하기 위해, 컨텐츠 재생 장치와 미리 특정한 음성을 설정하여, 그 음성을 보이스 어시스턴트 서비스 활성화를 위한 음성 입력 시작 신호로 설정할 수도 있다.
프로세서(410)는 마이크(531)를 통하여 사용자로부터의 음성을 입력 받고, 음성을 분석하여 해당 음성이 음성 입력 시작 신호인지, 음성 입력 종료 신호인지, 또는 객체 선택을 위한 음성인지 여부를 결정할 수 있다. 프로세서(410)는 사용자의 음성이 음성 입력 시작 신호인 경우, 보이스 어시스턴트 서비스를 활성화하고, 그 이후 입력되는 사용자의 음성을 객체 선택을 위한 제어 명령으로 받아들일 수 있다.
카메라부(532)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다. 카메라부(532)는 사용자로부터, 컨텐츠 제어에 대응되는 모션을 리모컨 등의 제어 장치(미도시)로부터 수신할 수 있다.
광 수신부(533)는, 제어 장치에서부터 수신되는 광 신호를 수신할 수 있다. 광 수신부(533)는 리모컨이나 핸드폰 등과 같은 제어 장치(600)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(410)의 제어에 의해 제어 신호가 추출될 수 있다.
입/출력부(540)는 프로세서(410)의 제어에 의해 컨텐츠 재생 장치(500) 외부에서부터 비디오(예를 들어, 동영상 신호나 정지 영상 신호 등), 오디오(예를 들어, 음성 신호나, 음악 신호 등) 및 부가 정보(예를 들어, 컨텐츠에 대한 설명이나 컨텐츠 타이틀, 컨텐츠 저장 위치) 등을 수신한다. 입/출력부(540)는 HDMI 포트(High-Definition Multimedia Interface port, 541), 컴포넌트 잭(component jack, 542), PC 포트(PC port, 543), 및 USB 포트(USB port, 544) 중 하나를 포함할 수 있다. 입/출력부(540)는 HDMI 포트(541), 컴포넌트 잭(542), PC 포트(543), 및 USB 포트(544)의 조합을 포함할 수 있다.
메모리(430)는, 프로세서(410)의 처리 및 제어를 위한 인스트럭션들 및 프로그램을 저장할 수 있고, 컨텐츠 재생 장치(500)로 입력되거나 컨텐츠 재생 장치(500)로부터 출력되는 데이터를 저장할 수 있다. 또한, 메모리(430)는 컨텐츠 재생 장치(500)의 동작에 필요한 데이터들을 저장할 수 있다. 또한, 메모리(430)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다.
메모리(430)는 보이스 어시스턴트 서비스를 수행하기 위한 하나 이상의 프로그램을 저장할 수 있다. 메모리(430)는 보이스 어시스턴트 서비스를 수행하기 위해 컨텐츠 재생 장치(500)가 출력할 수 있는 음성 정보를 포함할 수 있다. 또한, 메모리(430)는 음성 입력 시작 신호, 음성 입력 종료 신호를 저장하고 있을 수 있다. 또한 메모리(430)는 가이드 정보를 생성하기 위한 하나 이상의 프로그램을 포함할 수 있다.
프로세서(410)는 컨텐츠 재생 장치(500)의 전반적인 동작 및 컨텐츠 재생 장치(500)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서(410)는 사용자의 입력이 있거나 기 설정되어 저장된 조건을 만족하는 경우, 메모리(430)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.
일 실시 예에 따른 프로세서(410)는, 메모리(430)에 저장된 하나 이상의 인스트럭션을 수행함으로써, 보이스 어시스턴트 서비스를 활성화시키고, 가이드 정보를 생성할 수 있다.
또한, 프로세서(410)는 내부 메모리(미도시)를 포함할 수 있을 것이다. 이 경우, 메모리(430)에 저장되는 데이터, 프로그램, 및 인스트럭션 중 적어도 하나가 프로세서(410)의 내부 메모리(미도시)에 저장될 수 있다.
비디오 처리부(550)는, 디스플레이(555)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 영상 처리 동작을 수행할 수 있다.
디스플레이(555)는 프로세서(410)의 제어에 의해 튜너부(510)를 통해 수신된 컨텐츠에 포함된 영상 신호를 화면에 표시할 수 있다. 또한, 디스플레이(555)는 통신부(520) 또는 입/출력부(540)를 통해 입력되는 컨텐츠(예를 들어, 동영상)를 표시할 수 있다. 디스플레이(555)는 프로세서(410)의 제어에 의해 메모리(430)에 저장된 영상을 출력할 수 있다.
실시 예에서, 디스플레이(555)는 가이드 정보를 출력할 수 있다. 가이드 정보는 사용자가 다음 선택을 용이하도록 하기 위해 제공되는 것으로, 가이드 정보는 하나 이상의 객체를 선택하는데 사용되는 발화어 정보를 포함할 수 있다. 또는 가이드 정보는 발화어 정보가 발화어임을 표시하는 정보를 더 포함할 수 있다. 또는 가이드 정보는 화면 이동이나 볼륨 조절 중 하나 이상을 선택하는데 사용되는 제어 정보를 포함할 수 있다. 또는 가이드 정보는 컨텐츠를 선택하는 방법을 설명하는 정보이거나 또는 컨텐츠에 대한 정보일 수 있다. 또는 가이드 정보는 복수의 컨텐츠들에 대한 공통 정보 및 각 컨텐츠에 대한 정보 리스트 중 하나 이상을 포함할 수 있다. 또는 가이드 정보는 제1 화면을 출력하게 된 이유, 즉 컨텐츠 재생 장치(500)가 사용자의 제어 명령을 어떻게 이해하여 제1 화면을 생성하게 되었는지에 대한 설명 정보 및/또는 다른 정보를 이용하기 위해 사용자가 요청할 수 있는 정보 등을 포함할 수 있다.
디스플레이(555)가 터치 스크린으로 구현되는 경우, 디스플레이(555)는 출력 장치 이외에 입력 장치로 사용될 수 있다. 예를 들어, 디스플레이(555)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 컨텐츠 재생 장치(500)의 구현 형태에 따라, 컨텐츠 재생 장치(500)에는 두 개 이상의 디스플레이(555)가 포함될 수도 있다.
오디오 처리부(560)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(560)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
오디오 출력부(570)는 프로세서(410)의 제어에 의해 튜너부(510)를 통해 수신된 컨텐츠에 포함된 오디오, 통신부(520) 또는 입/출력부(540)를 통해 입력되는 오디오, 메모리(430)에 저장된 오디오를 출력할 수 있다. 또한, 오디오 출력부(570)는 보이스 어시스턴트 서비스 제공을 위한 음성을 출력할 수 있다.
오디오 출력부(570)는 스피커(571), 헤드폰 출력 단자(572) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(573) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(570)는 음성으로 된 가이드 정보를 출력할 수 있다.
사용자 인터페이스(420)는 컨텐츠 재생 장치(500)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 입력은 음성으로 된 제어 명령이거나 리모컨 등의 제어 장치로부터 수신되는 광 신호일 수 있다. 또는 사용자 인터페이스(420)는 제어 장치에 포함된, 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 이용하여 제어 명령을 수신할 수 있다. 사용자 인터페이스(420)는 적외선(infrared) 또는 블루투스(bluetooth)를 포함하는 근거리 통신을 이용하여 컨텐츠 재생 장치(500)에 대한 제어 명령을 수신할 수 있다.
도 5에는 도시되지 않았으나, 컨텐츠 재생 장치(500)는 보이스 어시스턴트 서비스를 제공하기 위한 보이스 어시스턴트 프로세서(미도시)를 더 포함할 수 있다. 보이스 어시스턴트 프로세서는 프로세서(410) 내부에 포함될 수도 있고, 프로세서(410)와는 별개의 프로세서로 컨텐츠 재생 장치(500)에 포함될 수 있다.
보이스 어시스턴트 프로세서는 하나 이상의 인스트럭션을 실행하여 사용자와의 대화를 제공하는 서비스를 제공할 수 있다. 실시 예에서, 보이스 어시스턴트 프로세서는 인공 지능인 뉴럴 네트워크를 이용하여 보이스 어시스턴트 서비스의 학습 모델로 구현될 수도 있다.
한편, 도 4 및 도 5에 도시된 컨텐츠 재생 장치(400, 500)의 블록도는 일 실시 예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 컨텐츠 재생 장치의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 예를 들어, 필요에 따라 둘 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 둘 이상의 구성요소로 세분화되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시 예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
도 6은 실시 예에 따라 가이드 정보 제공 방법을 수행하는데 사용되는 제어 장치를 도시한 도면이다. 도 6을 참조하면, 제어 장치(600)는 리모컨으로 구현될 수 있으나 이에 한정되는 것은 아니며 휴대폰 등과 같이 컨텐츠 재생 장치(400)를 제어하기 위한 다양한 형태의 디바이스로 구현될 수 있다. 또는 컨텐츠 재생 장치(400)의 디스플레이부가 터치스크린으로 구현되는 경우 제어 장치(600)는 사용자의 손가락이나 입력 펜 등으로 대체될 수 있다. 또한, 제어 장치(600)는 적외선(infrared) 또는 블루투스(bluetooth)를 포함하는 근거리 통신을 이용하여 컨텐츠 재생 장치(400)에 제어 명령을 전송할 수 있다.
제어 장치(600)는 구비된 키(버튼을 포함), 터치 패드(touchpad), 사용자의 음성의 수신이 가능한 마이크(도시되지 아니함), 및 제어 장치(600)의 모션 인식이 가능한 센서(도시되지 아니함) 중 적어도 하나를 이용하여 컨텐츠 재생 장치(400)의 기능을 제어할 수 있다.
도 6을 참조하면, 제어 장치(600)는 컨텐츠 재생 장치(400)의 전원을 온(on)시키거나 오프(off)시키기 위한 전원 온/오프 버튼(601), 채널 변경 버튼(602), 음량 조절 버튼(603), 이전 화면으로 돌아가기 위한 버튼(604), 화면에 포함된 객체 중 어느 하나의 객체로 포커스를 이동하기 위한 이동 버튼(605), 객체를 선택하기 위한 버튼(607) 등을 포함할 수 있다. 이동 버튼(605)은 현재 화면에 출력된 객체들 외에 추가 객체가 더 있는 경우, 추가 객체를 보기 위해 현재 화면의 좌, 우, 상, 하 중 하나의 화면으로 이동을 하기 위해 선택될 수도 있다.
실시 예에서, 제어 장치(600)는 보이스 어시스턴트 서비스 제공 키(606)를 더 포함할 수 있다. 보이스 어시스턴트 서비스 제공 키(606)는 보이스 어시스턴트 서비스를 활성화하기 위한 전용 키일 수 있다. 사용자가 제어 장치의 보이스 어시스턴트 서비스 제공 키(606)를 누르면, 컨텐츠 재생 장치(400)는 보이스 어시스턴트 서비스를 활성화시킬 수 있다. 실시 예에서, 컨텐츠 재생 장치(400)는 사용자가 보이스 어시스턴트 서비스 제공 키(606)를 입력하면, 음성 입력 시작 신호로 인식하고 사용자로부터 음성 명령을 기다릴 수 있다. 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 누르고 있는 상태에서 음성을 입력한 후, 보이스 어시스턴트 서비스 제공 키(606)를 누르고 있던 것을 뗄 수 있다. 보이스 어시스턴트 서비스 제공 키(606)가 롱 프레스(long-pressed)로 눌러져 있다가, 원래대로 돌아가는 경우, 컨텐츠 재생 장치(400)는 이를 음성 입력 종료 신호로 인식할 수 있다.
실시 예에서, 컨텐츠 재생 장치(400)는 사용자가 제어 장치의 보이스 어시스턴트 서비스 제공 키(606)를 한 번 눌렀다가 떼면 이를 음성 입력 시작 신호로 인식할 수도 있다. 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 눌렀다가 뗀 후, 음성으로 제어 명령을 할 수 있다. 이후 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 다시 눌러 음성 입력 종료 신호를 생성할 수 있다. 즉, 컨텐츠 재생 장치(400)는 사용자가 보이스 어시스턴트 서비스 제공 키(606)를 누르면 음성 입력 시작 신호로 인식하고, 다음 번 보이스 어시스턴트 서비스 제공 키(606)가 눌러질 때까지의 사용자로부터의 음성 발화를 제어 명령으로 인식할 수 있다.
실시 예에서, 컨텐츠 재생 장치(400)는 보이스 어시스턴트 서비스 제공 키(606)가 입력되어 음성 입력 시작 신호를 수신한 이후, 소정 시간이 경과해도 사용자로부터 아무런 음성을 수신하지 못할 수 있다. 사용자는 제어 장치(600)에 포함된 보이스 어시스턴트 서비스 제공 키(606)를 누른 후 아무런 음성 발화 없이 다시 보이스 어시스턴트 서비스 제공 키(606)를 누를 수 있다. 또는 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 누른 상태에서 아무런 발화 없이 보이스 어시스턴트 서비스 제공 키(606)를 누르고 있던 것을 해제할 수 있다. 또는 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 누른 후 소정 시간 동안 아무런 발화를 하지 않을 수도 있다.
또는, 사용자는 보이스 어시스턴트 서비스 제공 키(606)를 눌러 음성 입력 시작 신호를 생성한 후 어떤 정보를 선택할지를 모르겠다는 내용의 음성을 발화할 수도 있다. 예컨대, 컨텐츠 재생 장치(400)는 사용자로부터“어떻게 해?”, “알려줘” 등과 같은 음성 신호를 수신하는 경우, 사용자가 객체를 선택하는데 어려움이 있다고 결정할 수 있다.
컨텐츠 재생 장치(400)는 사용자가 객체를 선택하지 않는 경우, 사용자에게 다음 선택을 위한 가이드 정보를 출력할 수 있다.
도 7은 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 7을 참조하면, 컨텐츠 재생 장치(400)는 사용자로부터 “광주 날씨 알려줘”와 같은 음성으로 된 제어 명령을 수신할 수 있다. 컨텐츠 재생 장치(400)는 보이스 어시스턴트 서비스가 미리 활성화되어 있을 수 있고, 또는 사용자의 음성 제어 명령을 수신한 후 이를 보이스 어시스턴트 서비스 활성화를 위한 음성 입력 시작 신호로 인식하여 보이스 어시스턴트 서비스를 활성화 시킬 수도 있다.
컨텐츠 재생 장치(400)는 사용자로부터의 제어 명령에 상응하여 결과를 나타내는 제1 화면(720)을 출력할 수 있다. 컨텐츠 재생 장치(400)는 인공 지능 기능을 수행하여, 사용자가 요청한 제어 명령에 가장 부합하는 결과를 제1 화면(720)으로 출력할 수 있다. 한국에는 “광주”라는 지역이 전라도와 경기도에 각각 있으므로, 컨텐츠 재생 장치(400)는 사용자가 원하는 광주가 어느 도에 위치한 광주인지를 결정해야 한다. 실시 예에서 컨텐츠 재생 장치(400)는 인공 지능 모델을 이용하여 사용자가 원하는 지역을 찾을 수 있다. 컨텐츠 재생 장치(400)는 사용자가 현재 위치하고 있는 장소가 어디인지, 또는 사용자가 선호하는 지역이 어디인지, 또는 전라도 광주와 경기도 광주 중에 어느 지역의 날씨가 더 많이 검색되는지 등과 같은 다양한 정보를 이용하여 사용자가 원할 것으로 예상하는 지역의 날씨를 결과로 출력할 수 있다. 예컨대, 사용자가 경기도 수원에 위치하고 있는 경우, 사용자의 현재 위치에 더 가까운 지역인 경기도 광주의 날씨를 출력할 수 있다. 또는 사용자가 현재 위치한 곳이 경기도가 아니더라도, 이전에 사용자가 여러 번 경기도 광주의 날씨를 검색한 이력이 있는 경우, 컨텐츠 재생 장치(400)는 사용자의 사용 이력을 이용하여 이번에도 경기도 광주의 날씨를 출력할 수 있다.
제1 화면(720)에는 사용자가 요청한 날씨 정보가 포함되고, 또한 사용자가 선택 가능한 객체들(721, 723)이 포함될 수 있다. 도 7에서 제1 화면(720)에 포함된 객체(721)는 보이스 어시스턴스 서비스 활성화 표시일 수 있다. 보이스 어시스턴트 서비스 활성화 표시는 컨텐츠 재생 장치(400)의 보이스 어시스턴트 서비스가 활성화 중임을 나타내는 표시일 수 있다.
사용자가 객체(721)를 선택한 경우 컨텐츠 재생 장치(400)는 이미 활성화되어 있던 보이스 어시스턴트 서비스를 종료하거나 또는 사용자에게 새로운 제어 명령을 원하는 경우 사용자가 발화할 수 있는 발화어를 출력하는 등과 같이 해당 객체에 대응하는 기능을 수행할 수 있다.
제1 화면(720)에 포함된 또 다른 객체(723)는 제1 화면(720)에 출력된 정보를 더 자세히 알고자 하는 경우 선택될 수 있다. 사용자가 객체(723)를 선택할 경우, 컨텐츠 재생 장치(400)는 광주 날씨를 더 자세히 출력할 수 있다. 예컨대 컨텐츠 재생 장치(400)는 광주의 일주일 동안의 날씨, 오늘 하루의 시간 별 온도 변화 등과 같은 정보를 출력할 수 있다.
실시 예에서, 사용자가 제1 화면(720)에 포함된 객체(721, 723) 중 하나를 선택하지 않은 경우, 컨텐츠 재생 장치(400)는 제1 화면(720)이 출력된 이후 소정 시간이 경과했는지를 판단할 수 있다. 컨텐츠 재생 장치(400)는 사용자로부터 소정 시간 동안 객체 선택이 없는 경우, 포커스(722)가 위치한 객체가 무엇인지를 판단할 수 있다. 컨텐츠 재생 장치(400)는 제1 화면(720)의 객체들 중 포커스(722)가 위치한 객체가 보이스 어시스턴트 서비스 활성화 표시인 경우, 사용자가 보이스 어시스턴트 서비스를 이용하는데 어려움이 있다고 판단하고, 사용자의 선택을 용이하게 하기 위한 가이드 정보를 출력할 수 있다.
도 7에서 가이드 정보의 예로 제1 가이드 정보(730) 또는 제2 가이드 정보(740) 중 하나가 화면에 출력되거나 또는 음성으로 출력될 수 있다.
제1 가이드 정보(730)는 “경기도 광주 날씨를 알려드렸어요. 아래 키를 눌러 진입하면 더 자세히 볼 수 있어요”와 같이, 컨텐츠 재생 장치(400)가 사용자의 제어 명령을 이해한 내용에 대한 설명 정보일 수 있다.
제2 가이드 정보(740)는 “경기도 광주의 날씨를 알려드렸어요. 전라도 광주 날씨를 원하시면 ‘전라도 광주 날씨 어때’라고 물어봐 주세요”와 같이, 사용자가 다른 정보를 요청하고자 하는 경우 사용자가 요청할 수 있는 발화어 정보를 포함할 수 있다. 제2 가이드 정보(740)에 포함된 발화어 정보는, 발화어 정보가 발화될 경우 제어 명령이 될 수 있는 음성 명령어임을 표시하는 정보를 더 포함할 수 있다. 예컨대, 제2 가이드 정보(740)가 음성으로 출력되는 경우, 제2 가이드 정보(720)는 “…라고 물어봐 주세요”라는 정보를 포함하므로, 사용자는 “라고 물어봐 주세요”라는 정보를 이용하여,“라고 물어봐 주세요”라는 음성 이전의 음성에 대해 발화할 수 있음을 알 수 있게 된다. 또한, 제2 가이드 정보(740)가 화면에 텍스트로 출력되는 경우, 사용자는 텍스트를 읽어서 어떤 발화어를 말할 수 있는지를 알 수 있게 된다. 또는, 사용자는 ‘경기도 광주 날씨 어때’라는 텍스트가 작은 따옴표로 표기되어 있으므로 이를 이용하여 작은 따옴표 안에 기재된 발화어를 발화할 수 있음을 알 수 있게 된다. 또는 발화할 수 있는 발화어 옆에 음성 명령을 수행할 수 있음을 나타내는 로고가 표기될 수 있다. 실시 예에서, 발화어인 ‘경기도 광주 날씨 어때’는 특이한 글씨체나 색상 등으로 표기될 수 있다. 사용자는 여러 가지 정보를 이용하여, 발화할 수 있는 제어 명령을 인식할 수 있게 된다.
도 8은 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 8을 참조하면, 컨텐츠 재생 장치(400)는 제1 화면(810)을 출력할 수 있다. 제1 화면(810)은 사용자가 요청한 제어 명령에 상응하여 생성된 것일 수 있다. 예컨대, 사용자는 컨텐츠 재생 장치(400)에서 SF장르의 영화를 보기 위한 제어 명령을 입력할 수 있다. 사용자는 음성으로 “인기있는 SF 영화 보여줘”와 같이 제어 명령을 생성하여 컨텐츠 재생 장치(400)에 입력할 수도 있다. 또는 사용자는 리모컨 등의 제어 장치(600)를 이용하여 화면에 출력된 객체들을 차례대로 선택함으로써 제1 화면(810)이 출력되도록 할 수도 있다. 예컨대 사용자는 화면에서 제어 장치를 이용하여 “영화 보기”를 선택하고, 그 중 원하는 장르인 “SF 영화”를 선택함으로써 컨텐츠 재생 장치(400)가 제1 화면(810)을 출력하도록 할 수도 있다.
또는 제1 화면(810)은 컨텐츠 재생 장치(400)의 전원이 켜지면 자동으로 생성되어 출력되는 화면일 수도 있다.
제1 화면(810)에는 사용자가 선택할 수 있는 객체들(811, 812, 813, 814, 815)이 포함되어 있다. 사용자가 제1 화면(810)에 포함된 객체들(811, 812, 813, 814, 815) 중 하나를 선택하지 않는 경우, 컨텐츠 재생 장치(400)는 사용자의 선택을 돕기 위한 가이드 정보를 생성할 수 있다.
컨텐츠 재생 장치(400)는 가이드 정보를 생성하기 위해, 제1 화면(8101)에 포함된 객체들(811, 812, 813, 814, 815) 중 어느 객체에 포커스가 위치하고 있는지를 결정할 수 있다.
실시 예에서, 컨텐츠 재생 장치(400)는 포커스(816)가 위치한 객체(811)가 하나의 컨텐츠인 경우, 포커스(816)가 위치한 컨텐츠에 대한 정보를 가이드 정보로 출력할 수 있다. 도 8에서 가이드 정보(830)는 포커스(816)가 위치한 컨텐츠에 대한 설명 정보일 수 있다. 즉, 가이드 정보(830)는 “스타워즈 라스트 제다이, 감독 라이언 존슨, 스타워즈의 8번째 작품입니다”와 같이, 포커스(816)가 위치한 컨텐츠에 대한 설명 정보를 포함할 수 있다. 또한 가이드 정보(830)는 “시청을 원하시면 ‘첫번째 거 틀어줘’라고 말해보세요”와 같이 사용자가 컨텐츠를 선택하기 위해 무엇을 해야 하는지에 대한 가이드를 제공할 수 있다. 사용자는 가이드 정보(830)에 따라 “첫번째 거 틀어줘”라고 발화하거나 또는 “두번째 거 틀어줘”와 같이 발화함으로써 원하는 컨텐츠를 손쉽게 음성으로 선택할 수 있게 된다.
도 9는 실시 예에 따라 포커스가 위치한 객체에 따라 사용자에게 제공되는 가이드 정보를 나타내는 도면이다.
도 9을 참조하면, 사용자는 보이스 어시스턴트 서비스를 이용하여,“영화 보고 싶어”(910)라고 발화하여 음성으로 된 제어 명령을 컨텐츠 재생 장치(400)로 전송할 수 있다. 컨텐츠 재생 장치(400)는 이미 보이스 어시스턴트 서비스가 활성화되어 있거나 또는 사용자의 발화를 통해 보이스 어시스턴트 서비스가 활성화될 수 있다.
컨텐츠 재생 장치(400)는 사용자의 제어 명령에 상응하여 제1 화면(920)을 출력할 수 있다. 제1 화면(920)은 사용자가 요청한 제어 명령에 상응하여 생성된 것으로, 도 9에서 제1 화면(920)에는 장르 별로 그룹화된 영화들이 포함되어 있다. 즉, 제1 화면(920)에는 SF 영화들(921), 코메디 영화들(922), 호러 영화들(923)이 각각 그룹화되어 포함되어 있다. 또한 제1 화면(920)에는 보이스 어시스턴스 서비스 활성화 표시(924)가 포함되어 있다. 사용자는 이들 객체들(921, 922, 923, 924) 중 하나를 선택할 수 있다. 사용자가 특정 객체를 선택할 경우, 컨텐츠 재생 장치(400)는 사용자가 선택한 객체에 대응하는 정보를 출력할 수 있다.
실시 예에서, 사용자가 객체들(921, 922, 923, 924) 중 어느 하나의 객체를 선택하지 않는 경우, 컨텐츠 재생 장치(400)는 포커스(925)가 위치한 객체가 무엇인지에 따라 그에 상응하는 가이드 정보를 생성하여 가이드 정보가 포함된 화면(930, 940)을 출력할 수 있다.
컨텐츠 재생 장치(400)는 포커스(925)가 SF 영화들(921)의 객체에 위치하고 있으므로, 복수의 SF 영화 컨텐츠들에 대한 공통 정보를 포함하는 가이드 정보(931)를 출력할 수 있다. 도 9에서 가이드 정보(931), 즉,“좋아할 만한 영화들을 찾아봤어요. SF 영화들이에요. 스타워즈, 인터스텔라 외 20개의 영화를 찾았어요. 다른 장르를 보고 싶다면 ‘다른 장르 보여줘’라고 말해보세요.”는 텍스트로 화면에 출력되거나 또는 음성으로 출력될 수 있다. 사용자는 가이드 정보(931)를 이용함으로써, SF 영화가 어떤 것들이 있는지를 한눈에 쉽게 파악할 수 있게 된다.
실시 예에서, 복수의 컨텐츠들이 펼쳐진 화면(932)이 가이드 정보로 출력될 수도 있다. 이 경우 사용자가 SF 영화들(921)의 객체를 선택하지 않은 경우에도, 컨텐츠 재생 장치(400)는 포커스(925)가 위치한 그룹에 속하는 객체들을 나열하여 보여줌으로써, 사용자는 결과물을 손쉽게 확인할 수 있게 된다.
실시 예에서, 가이드 정보(941)는 포커스(925)가 위치한 그룹에 속하는 객체들에 대한 정보를 리스트로 포함할 수도 있다. 도 9에서 가이드 정보(941)는 SF 영화들(921)의 그룹에 속하는 영화들 각각에 대한 정보를 포함할 수 있다. 사용자는 가이드 정보(941)를 이용함으로써 원하는 컨텐츠를 손쉽게 파악하거나 선택할 수 있게 된다.
도 10은 실시 예에 따른 가이드 정보 제공 방법을 도시한 순서도이다. 도 10을 참조하면, 컨텐츠 재생 장치(400)는 제1 화면을 출력한다(단계 1010). 제1 화면은 사용자가 요청한 결과에 상응하는 화면일 수 있으나 이에 한정되는 것은 아니다. 제1 화면에 선택할 수 있는 객체가 하나 이상 포함되어 있는 경우, 사용자는 이 중 하나의 객체를 선택할 수 있다. 컨텐츠 재생 장치(400)는 사용자가 제1 화면에 포함된 객체 중 하나를 선택했다고 판단하면(단계 1020), 사용자가 선택한 객체를 보다 자세히 출력할 수 있다(단계 1030).
실시 예에서, 사용자는 제1 화면에 포함된 객체 중 하나를 선택하지 않을 수 있다. 컨텐츠 재생 장치(400)는 사용자로부터 제1 화면에 포함된 객체 중 하나에 대한 선택이 없다고 판단한 경우(단계 1020), 사용자 선택을 위한 가이드 정보를 출력할 수 있다(단계 1040).
가이드 정보는 음성 및/또는 화면 형태로 출력될 수 있다. 또한 가이드 정보는 하나 이상의 객체를 선택하는데 사용되는 발화어 정보를 포함할 수 있다.
도 11은 실시 예에 따른 가이드 정보 제공 방법을 도시한 순서도이다. 도 11을 참조하면, 컨텐츠 재생 장치(400)는 사용자로부터 음성 입력 시작 신호를 수신할 수 있다(단계 1110). 사용자는 제어 장치(600)에 구비된 보이스 어시스턴트 서비스 제공 키를 입력함으로써 음성 입력 시작 신호를 생성할 수 있다. 또는 사용자는 “하이 빅스비”와 같이 기 설정된 음성을 발화함으로써 음성 입력 시작 신호를 생성할 수도 있다.
컨텐츠 재생 장치(400)는 사용자로부터 객체 선택을 위한 음성을 입력 받았는지를 판단한다(단계 1120). 사용자가 객체를 선택하기 위한 음성을 입력하는 경우, 컨텐츠 재생 장치(400)는 사용자가 선택한 객체를 출력할 수 있다(단계 1130). 사용자가 객체를 선택하기 위한 음성을 입력하지 않은 경우, 컨텐츠 재생 장치(400)는 음성 입력 종료 신호가 수신되었는지 여부를 결정할 수 있다(단계 1140). 음성 입력 종료 신호는 예컨대, 사용자가 “굿바이 빅스비”와 같이 기 설정된 음성을 발화하는 경우, 또는 제어 장치(600)에 구비된 보이스 어시스턴트 서비스 제공 키를 다시 한번 입력하는 경우, 또는 보이스 어시스턴트 서비스 제공 키를 누른 상태에서 아무런 발화 없이 그 키를 누른 것을 원 상태로 해제하는 경우 생성될 수 있으나 이에 한정되는 것은 아니다. 컨텐츠 재생 장치(400)는 사용자로부터 음성 종료 신호가 수신되는 경우, 제1 화면에 포함된 객체를 선택 받지 못했다고 결정하고(단계 1150), 사용자에게 가이드 정보를 출력할 수 있다(1160).
일부 실시 예에 따른 컨텐츠 재생 장치 및 그 동작 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 전술한 본 개시의 실시 예에 따른 컨텐츠 재생 장치 및 그 동작 방법은 다중언어로 구성된 문장을 획득하는 동작, 및 다중언어 번역 모델을 이용하여, 상기 다중언어로 구성된 문장에 포함되는 단어들 각각에 대응하는 벡터 값들을 획득하고, 상기 획득한 벡터 값들을 목표 언어에 대응하는 벡터 값들로 변환하며, 상기 변환된 벡터 값들에 기초하여, 상기 목표 언어로 구성된 문장을 획득하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
전술한 설명은 예시를 위한 것이며, 발명이 속하는 기술분야의 통상의 지식을 가진 자는 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims (20)

  1. 컨텐츠 재생 장치에 있어서,
    디스플레이 및 오디오 출력부를 포함하는 출력부;
    사용자로부터 음성을 입력 받는 사용자 인터페이스;
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이를 제어하여, 상기 사용자가 음성으로 선택할 수 있는 하나 이상의 객체를 포함하고 상기 객체 중 하나에 포커스가 위치한 제1 화면을 출력하도록 하고,
    상기 사용자 인터페이스를 통하여 상기 사용자로부터 상기 제1 화면을 출력한 이후 소정 시간 동안 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 출력부를 제어하여 상기 포커스가 위치하고 있는 객체에 따라 다음 객체를 선택하는데 도움을 주기 위한 발화 가능한 가이드 정보를 출력하도록 하고,
    상기 발화 가능한 가이드 정보는 상기 하나 이상의 개체를 음성으로 선택하는 데 사용되는 발화어 정보를 포함하고, 상기 발화어 정보는 상기 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보를 포함하는, 컨텐츠 재생 장치.
  2. 삭제
  3. 제1 항에 있어서, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 객체 선택을 위한 추가 정보를 요청 받는 경우를 포함하는 컨텐츠 재생 장치.
  4. 제1 항에 있어서, 상기 사용자 인터페이스를 통하여 상기 사용자로부터 음성 입력 시작 신호를 수신하고,
    상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우를 포함하는 컨텐츠 재생 장치.
  5. 제4 항에 있어서, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는
    상기 음성 입력 시작 신호를 수신한 이후, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못한 상태에서 상기 사용자 인터페이스를 통하여 상기 사용자로부터 음성 입력 종료 신호를 수신하는 경우를 포함하는 컨텐츠 재생 장치.
  6. ◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈
    제5 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자 인터페이스를 제어하여, 제어 장치로부터 상기 사용자의 제어 명령을 더 수신하도록 하고,
    상기 음성 입력 시작 신호는 상기 제어 장치에 구비된 특정 키에 대한 롱 프레스(long-pressed) 입력이고, 상기 음성 입력 종료 신호는 상기 롱 프레스 입력을 해제하는, 컨텐츠 재생 장치.
  7. 제1 항에 있어서, 상기 오디오 출력부는 상기 발화 가능한 가이드 정보를 음성으로 출력하고, 상기 디스플레이는 상기 발화 가능한 가이드 정보를 나타내는 화면을 상기 제1 화면 위에 오버레이하여 출력하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써 상기 출력부를 제어하여 상기 오디오 출력부 및 상기 디스플레이 중 하나 이상이 상기 발화 가능한 가이드 정보를 출력하도록 하는 컨텐츠 재생 장치.
  8. 삭제
  9. 삭제
  10. 제7 항에 있어서, 상기 발화 가능한 가이드 정보는 화면 이동 및 볼륨 조절 중 하나 이상을 선택하는 정보를 포함하는 컨텐츠 재생 장치.
  11. 제1 항에 있어서, 상기 발화 가능한 가이드 정보는 상기 객체를 선택하기 위한 정보 및 상기 객체에 대한 설명 정보 중 하나 이상을 포함하는 컨텐츠 재생 장치.
  12. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 출력부가 복수의 컨텐츠들에 대한 공통 정보 및 상기 복수의 컨텐츠들에 포함된 각각의 컨텐츠에 대한 정보 리스트 중 하나 이상을 포함하는 발화 가능한 가이드 정보를 출력하고, 상기 복수의 컨텐츠들을 펼쳐서 출력하도록 하는 컨텐츠 재생 장치.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제1 항에 있어서, 상기 발화 가능한 가이드 정보는 상기 제1 화면에 대한 설명 정보 및 다른 정보 요청을 위한 요청 정보 중 하나 이상을 포함하는 컨텐츠 재생 장치.
  14. 컨텐츠 재생 방법에 있어서,
    사용자가 음성으로 선택할 수 있는 하나 이상의 객체가 포함되어 있고, 상기 하나 이상의 객체 중 하나에 포커스가 위치한 제1 화면을 출력하는 단계; 및
    상기 사용자로부터 상기 제1 화면을 출력한 이후 소정 시간 동안 상기 사용자로부터 상기 제1 화면에 포함된 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 포커스가 위치하고 있는 객체에 따라 다음 객체를 선택하는데 도움을 주기 위한 발화 가능한 가이드 정보를 출력하는 단계를 포함하고,
    상기 발화 가능한 가이드 정보는 상기 하나 이상의 개체를 음성으로 선택하는 데 사용되는 발화어 정보를 포함하고, 상기 발화어 정보는 상기 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보를 포함하는 컨텐츠 재생 방법.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제14 항에 있어서, 상기 사용자로부터 음성 입력 시작 신호를 수신하는 단계를 더 포함하고,
    상기 하나 이상의 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우를 포함하는 컨텐츠 재생 방법.
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    제15 항에 있어서, 상기 음성 입력 시작 신호 수신 이후 상기 사용자로부터 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우는
    상기 음성 입력 시작 신호를 수신한 이후, 상기 객체 중 하나를 선택하기 위한 음성을 입력 받지 못한 상태에서 상기 사용자로부터 음성 입력 종료 신호를 수신하는 경우를 포함하는 컨텐츠 재생 방법.
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제14 항에 있어서, 상기 발화 가능한 가이드 정보를 출력하는 단계는
    상기 발화 가능한 가이드 정보를 음성으로 출력하는 단계 및 상기 발화 가능한 가이드 정보를 나타내는 화면을 상기 제1 화면 위에 오버레이하여 출력하는 단계 중 하나 이상을 포함하는 컨텐츠 재생 방법.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제14 항에 있어서, 상기 발화 가능한 가이드 정보는 상기 객체를 선택하기 위한 정보 및 상기 객체에 대한 설명 정보, 객체에 포함된 복수의 컨텐츠들에 대한 공통 정보 및 각 객체에 대한 정보 리스트 중 하나 이상을 더 포함하는 컨텐츠 재생 방법.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제14 항에 있어서, 상기 포커스가 복수의 컨텐츠들의 그룹에 위치한 경우, 상기 발화 가능한 가이드 정보를 출력하는 단계는 상기 복수의 컨텐츠들을 펼쳐서 출력하는 단계를 포함하는 컨텐츠 재생 방법.
  20. 사용자가 음성으로 선택할 수 있는 하나 이상의 객체가 포함되어 있고, 상기 객체 중 하나에 포커스가 위치한 제1 화면을 출력하는 단계; 및
    상기 사용자로부터 상기 제1 화면을 출력한 이후 소정 시간 동안 상기 사용자로부터 상기 제1 화면에 포함된 상기 하나 이상의 객체 중 하나를 선택하기 위한 음성을 입력 받지 못하는 경우, 상기 포커스가 위치하고 있는 객체에 따라 다음 객체를 선택하는데 도움을 주기 위한 발화 가능한 가이드 정보를 출력하는 단계를 포함하고,
    상기 발화 가능한 가이드 정보는 상기 하나 이상의 개체를 음성으로 선택하는 데 사용되는 발화어 정보를 포함하고, 상기 발화어 정보는 상기 사용자가 발화하여 제어 명령을 할 수 있는 음성 명령어임을 표시하는 정보를 포함하는 컨텐츠 재생 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 비일시적 기록 매체.
KR1020190011315A 2019-01-29 2019-01-29 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법 KR102656611B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190011315A KR102656611B1 (ko) 2019-01-29 2019-01-29 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
PCT/KR2019/015865 WO2020159047A1 (ko) 2019-01-29 2019-11-19 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
US17/388,693 US11930236B2 (en) 2019-01-29 2021-07-29 Content playback device using voice assistant service and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190011315A KR102656611B1 (ko) 2019-01-29 2019-01-29 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20200093945A KR20200093945A (ko) 2020-08-06
KR102656611B1 true KR102656611B1 (ko) 2024-04-12

Family

ID=71841878

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190011315A KR102656611B1 (ko) 2019-01-29 2019-01-29 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법

Country Status (3)

Country Link
US (1) US11930236B2 (ko)
KR (1) KR102656611B1 (ko)
WO (1) WO2020159047A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023068405A1 (ko) * 2021-10-21 2023-04-27 엘지전자 주식회사 디스플레이 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2555536A1 (en) * 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US20170286049A1 (en) 2014-08-27 2017-10-05 Samsung Electronics Co., Ltd. Apparatus and method for recognizing voice commands
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
KR102501083B1 (ko) 2016-02-05 2023-02-17 삼성전자 주식회사 음성 인식 방법 및 이를 사용하는 전자 장치
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10203866B2 (en) * 2017-05-16 2019-02-12 Apple Inc. Devices, methods, and graphical user interfaces for navigating between user interfaces and interacting with control objects
US10303715B2 (en) * 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11036387B2 (en) * 2017-05-16 2021-06-15 Apple Inc. Devices, methods, and graphical user interfaces for navigating between user interfaces and interacting with control objects

Also Published As

Publication number Publication date
WO2020159047A1 (ko) 2020-08-06
KR20200093945A (ko) 2020-08-06
US20210360312A1 (en) 2021-11-18
US11930236B2 (en) 2024-03-12

Similar Documents

Publication Publication Date Title
US9733895B2 (en) Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
RU2625439C2 (ru) Электронное устройство и способ для предоставления пользовательского интерфейса для него
EP3190512B1 (en) Display device and operating method therefor
JP5746111B2 (ja) 電子装置及びその制御方法
JP6111030B2 (ja) 電子装置及びその制御方法
US10678563B2 (en) Display apparatus and method for controlling display apparatus
KR102527082B1 (ko) 디스플레이장치 및 그 제어방법
US20130035941A1 (en) Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US20130033644A1 (en) Electronic apparatus and method for controlling thereof
US10250935B2 (en) Electronic apparatus controlled by a user's voice and control method thereof
JP2014010449A (ja) ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム
KR20180024927A (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20150089145A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US20190237085A1 (en) Display apparatus and method for displaying screen of display apparatus
CN112188249B (zh) 一种基于电子说明书的播放方法及显示设备
KR20180098056A (ko) 영상 표시 장치 및 그 동작 방법
KR20140022320A (ko) 영상표시장치와 서버의 동작 방법
US10770067B1 (en) Dynamic voice search transitioning
KR102656611B1 (ko) 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
JP2022036352A (ja) 表示制御装置、及び表示制御方法
KR20200092464A (ko) 전자 장치 및 이를 이용하는 어시스턴트 서비스를 제공하는 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
US20240221739A1 (en) Dynamic voice search transitioning
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
US20140195014A1 (en) Electronic apparatus and method for controlling electronic apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right