KR20150104930A - 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템 - Google Patents

통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템 Download PDF

Info

Publication number
KR20150104930A
KR20150104930A KR1020140026926A KR20140026926A KR20150104930A KR 20150104930 A KR20150104930 A KR 20150104930A KR 1020140026926 A KR1020140026926 A KR 1020140026926A KR 20140026926 A KR20140026926 A KR 20140026926A KR 20150104930 A KR20150104930 A KR 20150104930A
Authority
KR
South Korea
Prior art keywords
recognition application
communication terminal
application
speech recognition
voice
Prior art date
Application number
KR1020140026926A
Other languages
English (en)
Other versions
KR101584887B1 (ko
Inventor
조세나
김용태
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020140026926A priority Critical patent/KR101584887B1/ko
Publication of KR20150104930A publication Critical patent/KR20150104930A/ko
Application granted granted Critical
Publication of KR101584887B1 publication Critical patent/KR101584887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 실시예는 음성 인식 서비스의 멀티태스크를 지원하는 방법 및 시스템에 관한 것이다. 통신 단말기에서 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법에 있어서, 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 단계; 상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시키는 단계; 상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하는 단계; 및 상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법이 제공될 수 있다.

Description

통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템{METHOD AND SYSTEM OF SUPPORTING MULTITASKING OF SPEECH RECOGNITION SERVICE IN IN COMMUNICATION DEVICE}
본 발명의 실시예는 멀티태스킹을 지원하는 음성 인식 서비스 제공 방법 및 상기 서비스를 제공하는 통신 단말기에 관한 것이다.
최근의 디지털 기술의 발달과 함께 휴대폰, 태블릿 PC 등의 전자 기기들이 보편화되고 있으며, 이러한 전자 기기들은 음성 통화, 영상 통화, 메시지 송수신, 동영상 재생, 인터넷, 전자상거래 음악 재생, 소셜 네트워크 서비스(SNS) 등의 다양한 기능을 실행할 수 있다.
전자 기기의 사용자로 하여금 더욱 편리하게 사용할 수 있도록 디지털 기술이 발전하고 있는 바, 음성 인식 서비스도 나날이 그 정확도와 편의성이 증대되고 있다.
이에, 전자 기기에 음성 인식 기술을 도입하고 있으며, 이미 세계의 주요 IT 기업이 핵심 제품과 서비스에 음성 인식 기술을 적용하고 있다.
이전의 음성 인식 기술은 인식률이 낮아 통신 기기의 제어에 사용되기 어려운 점이 있었으나 관련 기술의 지속적인 발전으로 음성 인식률이 상당 부분 제고되었다. 이를 통해 음성 인식을 이용하여 사용자의 통신 단말기에 대한 물리적 조작 없이 통신 단말기를 조작할 수 있으며, 이동 및 작업 중 음성을 통한 정보 입력이 더욱 쉬워 지고 있다.
사용자로부터 입력된 음성을 인식하기 위해 단말에 설치되는 기존의 음성 인식 어플리케이션은 멀티태스킹을 지원하고 있지 않다. 따라서, 음성 인식 어플리케이션을 통해 통신 단말기를 조작하기 위해서는, 현재 구동 중인 어플리케이션을 종료하고 음성 인식 어플리케이션을 새로 구동하여야 했다. 이러한 문제로 인해, 게임 또는 독서 등 다른 어플리케이션을 이용하는 도중, 음성 인식을 통해 통신 단말기를 조작할 수 없었다.
본 발명의 실시예에 있어서, 통신 단말기 내에서 음성 인식 어플리케이션의 멀티태스킹이 제공되지 않던 문제점을 해결하고, 다른 어플리케이션이 동작하는 중에도 음성 인식 어플리케이션을 통해 음성 인식 서비스를 제공할 수 있도록 한다.
통신 단말기에서 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법에 있어서, 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 단계; 상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시키는 단계; 상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하는 단계; 및 상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법이 제공될 수 있다.
일측에 있어서, 상기 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션이 실행 대기 모드로 동작하는 단계는, 상기 제1 어플리케이션을 상기 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시하면서 상기 제1 어플리케이션을 동작시키는 단계; 및 상기 음성인식 어플리케이션을 백그라운드(back-ground)에서 실행 대기 모드로 동작시키는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시키는 단계는, 상기 음성인식 어플리케이션의 웨이크업(awake up) 명령을 입력 받는 단계; 상기 음성인식 어플리케이션의 웨이크업(awake up) 명령이 상기 미리 정해진 음성인식 어플리케이션의 웨이크업(awake up) 명령에 해당하는지 판단하는 단계; 및 상기 음성인식 어플리케이션의 웨이크업(awake up) 명령이 미리 정해진 음성인식 어플리케이션의 웨이크업(awake up) 명령에 해당한다고 판단한 경우, 상기 음성인식 어플리케이션을 실행모드로 동작시키는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 음성인식 어플리케이션을 실행모드로 동작시키는 단계는, 상기 제1 어플리케이션이 상기 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시되도록 상기 제1 어플리케이션의 동작을 유지하면서, 백그라운드(back-ground)에서 상기 음성인식 어플리케이션을 실행 모드로 동작시키는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령은, 상기 음성인식 어플리케이션을 실행시키기 위한 미리 정해진 음성인식 어플리케이션 실행 명령일 수 있다.
또 다른 측면에 있어서, 상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령은, 사용자로부터 수신되는 음성 또는 상기 음성인식 어플리케이션의 실행 대기 모드에서 호 수신, 문자 수신, 메신저 수신 중 적어도 하나의 이벤트로 설정될 수 있다.
또 다른 측면에 있어서, 상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하는 단계는, 상기 통신 단말기 내에 저장된 주소록 데이터를 함께 상기 서버로 전송하는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는, 전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 중 적어도 하나의 동작을 실행하는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 동작에 대응하는 메시지를 상기 음성인식 어플리케이션과 연관된 창(window)에 표시하는 단계를 더 포함할 수 있다.
또 다른 측면에 있어서, 상기 전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 동작에 대응하는 메시지를 상기 음성인식 어플리케이션과 연관된 창(window)에 표시하는 단계는, 상기 음성인식 어플리케이션과 연관된 창을 반투명으로 상기 제1 어플리케이션에 오버랩(overlap)하여 상기 통신 단말기의 디스플레이 상에 표시하는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 핸즈프리 어플리케이션과 연관된 창(window)을 반투명으로 상기 제1 어플리케이션에 오버랩(overlap)하여 표시하는 단계는, 상기 창(window)의 크기를 상기 음성 데이터에 대응하는 텍스트 데이터의 길이에 따라 적응적으로 조절하여 표시하는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는, 상기 통신 단말기의 주변 소음 크기를 측정하는 단계; 상기 주변 소음 크기 및 상기 통신 단말기의 스피커 볼륨 크기를 비교하는 단계; 및 상기 스피커 볼륨 크기를 상기 주변 소음 크기에 기초하여 적응적으로 조절하는 단계를 포함할 수 있다.
또 다른 측면에 있어서, 상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는, 상기 음성인식 어플리케이션과 상기 제1 어플리케이션의 출력 볼륨 크기를 적응적으로 조절하는 단계를 포함할 수 있다.
통신 단말기에서 음성 인식 어플리케이션의 멀티태스킹이 제공되지 않던 문제점을 해결하고, 다른 어플리케이션이 동작하는 중에도 음성 인식 어플리케이션을 통해 음성 인식 서비스를 제공할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 음성 인식 서비스의 멀티태스킹을 지원하는 방법에 대해 설명하기 위한 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 멀티태스킹을 지원하는 음성 인식 서비스가 제공되는 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 멀티태스킹을 지원하는 음성 인식 서비스가 제공되는 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 멀티태스킹을 지원하는 음성 인식 서비스 중 텍스트 창이 제공되는 방법에 대해 설명하기 위한 도면이다.
이하, 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법에 대해서 첨부된 도면을 참조하여 자세히 설명하도록 한다.
앞서 설명한 바와 같이, 본 발명은 음성 인식 서비스를 제공하는 데에 있어서, 사용자가 단말을 이용하는 여러 가지 상황에서도 언제든지 음성 인식 서비스를 이용할 수 있도록 멀티태스킹을 제공하기 위한 것이다.
<사용자의 시작 명령 음성에 따라 동작하는 시나리오>
도 1은 본 발명의 일실시예에 있어서, 음성 인식 서비스의 멀티태스킹을 지원하는 방법에 대해 설명하기 위한 흐름도이다.
단계(110)에서, 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시킬 수 있다. 여기서, 제1 어플리케이션은 단말 내의 음성인식 어플리케이션 이외에 다른 어플리케이션에 대한 것으로, 제1 어플리케이션의 동작은 예컨대 게임을 하거나, 동영상을 보거나 문서를 작성 중인 상태 등에 해당할 수 있다.
실시예에서, 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 것은 음성인식 서비스를 제공하는 음성인식 어플리케이션을 실행시키는 명령에 대해서 대기시키는 것을 의미한다.
제1 어플리케이션을 동작시킬 때, 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시하면서 제1 어플리케이션을 동작시키고, 제1 어플리케이션의 동작과는 독립적으로 음성인식 어플리케이션은 백그라운드(back-ground)에서 실행 대기 모드로 동작할 수 있다. 실시예에서, 제1 어플리케이션의 동작 여부와 상관없이 음성인식 어플리케이션은 실행 대기 모드로 동작할 수 있다.
실시예에 따른 단계(110)는 제1 어플리케이션의 동작 상태뿐만 아니라, 통신 단말기의 스크린이 오프(off)되어 있는 상태, 통신 단말기가 록 오프(lock off)되어 있는 상태, 통신 단말기의 아이들(idle) 상태, 통신 단말기가 음성 호(call)를 수신한 상태, 및 통신 단말기가 문자 메시지를 수신한 상태 등에서 음성인식 어플리케이션을 실행 대기 모드로 동작시킬 수 있다.
단계(120)에서, 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시킬 수 있다.
실시예에서, 음성인식 어플리케이션이 실행 모드로 동작할 때, 제1 어플리케이션의 동작은 통신 단말기의 디스플레이의 최상위 레이어에 표시되도록 그대로 유지될 수 있으며, 음성인식 어플리케이션은 백그라운드로 동작하면서 멀티캐스팅을 제공할 수 있다.
이를 위하여, 통신 단말기의 마이크 등의 입력 수단을 통해 사용자로부터 웨이크업 명령에 대한 음성을 수신할 수 있다. 통신 단말기에서 사용자로부터 입력된 음성이 미리 정해진 웨이크업 명령과 대응하는지 여부를 확인할 수 있다. 실시예에 있어서, 미리 정해진 웨이크업 명령은 짧은 텍스트로 예컨대 ‘하이유와’같은 음성일 수 있다. "대응"한다는 것은 두 음성이 완전히 동일한 경우는 물론, 두 음성을 비교 분석 시 미리 정해진 오차 범위 내에서 실질적으로 동일한 음성으로 판단될 수 있는 경우를 의미한다.
판단 결과, 통신 단말기에서 수신된 사용자의 음성이 미리 정해진 웨이크업 명령과 대응하는 경우, 본 발명의 일실시예에 따른 음성인식 어플리케이션을 실행 모드로 동작시킬 수 있다.
음성인식 어플리케이션은 실행 대기 모드로 동작하다가 사용자로부터 입력된 웨이크업 명령을 통해 실행 모드로 동작할 수 있다.
실시예에서, 음성인식 어플리케이션은 통신 단말기로 호 수신, 문자 수신, 메신저 수신 등의 이벤트 중 적어도 하나의 이벤트가 발생하는 경우, 해당 이벤트를 웨이크업 명령으로 입력 받아 음성인식 어플리케이션을 실행 대기 모드에서 실행 모드로 동작시킬 수 있다.
일측에 있어서, 실행 모드로 동작하는 음성인식 어플리케이션은 멀티태스킹을 지원한다. 즉, 통신 단말기는 제1 어플리케이션을 계속적으로 실행하면서, 예컨대 게임을 하면서, 동영상을 감상하면서, 웹 서핑을 하면서, 음성인식 어플리케이션을 통해 사용자에게 음성 인식 서비스를 제공할 수 있다.
실시예에서, 제1 어플리케이션이 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시되도록 제1 어플리케이션의 동작을 유지하면서, 음성인식 어플리케이션을 백그라운드(back-ground)에서 실행 모드로 동작시킬 수 있다.
실시예에서, 음성인식 어플리케이션은 실행 모드로 동작함과 함께, 통신 단말기의 디스플레이의 일부 영역에 사용자의 음성을 입력 받기 위한 마이크 아이콘 또는 ‘무엇을 도와드릴까요?’ 등의 음성 입력 요청 메시지를 함께 표시할 수 있다.
단계(130)에서, 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송할 수 있다.
일측에 따르면, 음성 데이터는 사용자로부터 통신 단말기의 마이크를 통해 입력되는 음성에 해당할 수 있다. 음성인식 어플리케이션은 사용자로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 녹음하여 녹음 데이터를 생성할 수 있다.
사용자로부터 수신된 음성 데이터는 호 수신, 문자/IM 메시지 수신 및 송신, 또는 제1 어플리케이션의 실행 명령 등을 포함하는 음성일 수 있다. 상기 녹음 데이터는 서버로 전송될 수 있다. 이때, 녹음 데이터는 통신 단말기와 연결된 유무선 네트워크를 통해 서버로 전송될 수 있다.
단계(130)에서 통신 단말기는 사용자로부터 입력된 음성에 대응하는 녹음 데이터를 서버로 전송할 때, 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 녹음 데이터와 함께 서버로 전송할 수 있다. 다른 일측에 따르면, 상기 주소록 데이터 또는 통화 기록 정보는 녹음 데이터와 별도로 서버로 전송될 수도 있다.
이 경우, 서버는 녹음 데이터와 함께 전송된 주소록 데이터 또는 통화 기록 정보를 이용하여 텍스트 데이터를 가공할 수 있다. 예컨대, 호 및 메시지 발신에 대한 음성 데이터가 입력된 경우, 주소록 데이터를 녹음 데이터와 함께 서버로 전송함으로써 서버에서 호 및 메시지 발신의 대상을 검색할 수 있다.
단계(140)에서, 녹음 데이터에 대응하는 실행 결과를 서버로부터 수신하여 통신 단말기를 동작시킬 수 있다.
서버는 STT(Speech to text) 기술을 이용하여 상기 녹음 데이터를 텍스트 데이터로 변환할 수 있다. 서버가 녹음 데이터로부터 텍스트 데이터를 생성할 때에, 녹음 데이터를 분석하여 녹음 데이터에 포함된 사용자 음성 데이터의 특징을 추출하여 이를 로그 값으로 저장함으로써 이후 전송되는 녹음 데이터에 대한 사용자 음성 데이터 인식 시 참조 값으로 사용할 수 있다. 서버는 텍스트 데이터로 변환된 상기 녹음 데이터를 삭제할 수 있다.
통신 단말기는 서버로부터 전송된 텍스트 파일을 수신할 수 있다. 음성인식 어플리케이션은 녹음 데이터에 대한 실행 결과로 서버로부터 전송된 텍스트 데이터를 수신할 수 있다. 어플리케이션은 수신된 텍스트 데이터에 따라 통신 단말기를 동작시킬 수 있다. 이에 따른 통신 단말기의 동작은 전화 발신, 문자 작성 및 송신, 다른 어플리케이션의 실행 중 어느 하나일 수 있다.
다양한 변형 시나리오는 아래에서 상세히 설명된다.
<변형 시나리오들>
일측에 따르면, 서버는 사용자로부터 입력된 음성 데이터 변환 결과, 주소록 데이터 상에 동일한 텍스트 데이터로 변환된 대상자가 둘 이상(동명이인)인 경우, 텍스트 데이터에 둘 이상의 대상자에 대한 주소록 데이터를 포함시킬 수 있다. 이 경우, 서버는 통화 기록 정보를 참조하여, 둘 이상의 대상자에 대한 정보를 최근 통화 순 또는 자주 통화하는 순으로 소팅하여 통신 단말기에게 제공할 수 있다.
다른 일측에 따르면, 서버는 녹음 데이터 변환 결과, 주소록 데이터 상에 대상자의 연락처가 둘 이상(집 전화, 휴대 전화 등)인 경우, 통화 기록 정보를 참조하여, 자주 통화한 연락처를 선택하여 텍스트 데이터로 변환할 수 있다. 또한, 서버는 둘 이상의 연락처를 모두 포함하여 텍스트 데이터로 변환할 수 있고, 통신 단말기는 화면 상에 둘 이상의 연락처를 리스트 형태로 표시할 수 있다.
다른 일측에 따르면, 서버는 녹음 데이터 변환 결과, 통신 단말기가 사용자로부터 부재중 전화를 확인하라는 음성 데이터가 확인되는 경우, 통신 단말기 내의 부재중 전화가 있는지 확인 받아, 한 통 이상 있는 경우, 서버는 사용자가 확인할 수 있도록 음성 안내와 함께 리스트 업(List up)시키거나, 음성으로 발신 안내와 함께 부재중 전화의 발신자에게 자동으로 전화를 발신할 수 있다.
또 다른 일측에 따르면, 음성인식 어플리케이션은 상기 서버로부터 수신된 텍스트 데이터를 화면 상에 출력할 수 있다. 이때 어플리케이션은 상기 텍스트 데이터의 길이를 측정하여, 상기 텍스트 데이터가 통신 단말기의 화면 상에 출력될 때 텍스트 데이터를 화면 상에서 구분되게 표시하는 말풍선 형태의 창(window)의 크기를 적응적으로 조절할 수 있다. 예를 들어, 텍스트 데이터의 길이가 클수록 창의 크기를 크게 하고, 작을 수로 창의 크기를 줄여서 창 내에 배치되는 텍스트 데이터가 적절한 여백으로 배치될 수 있도록 할 수 있다.
일측에 따르면, 음성인식 어플리케이션은 통신 단말기의 마이크를 통해 입력되는 주변 소음 크기를 측정하고, 측정된 주변 소음 크기에 따라서 통신 단말기의 출력 스피커의 볼륨을 적응적으로(adaptively) 조절할 수 있다. 이때, 음성인식 어플리케이션은, 주변 소음 크기와 통신 단말기의 출력 스피커의 볼륨 크기의 수치를 비교할 수 있고, 비교 결과 주변 소음 크기가 출력 스피커의 볼륨 크기보다 더 큰 경우, 통신 단말기의 스피커 볼륨 크기를 주변 소음 크기보다 높도록 적응적으로 조절할 수 있다. 비교 결과, 주변 소음 크기가 출력 스피커의 볼륨 크기 보다 더 작은 경우, 통신 단말기의 스피커 볼륨의 크기를 낮출 수 있다.
일측에 따르면, 주변 소음 크기가 미리 정해진 스피커 볼륨의 한계치보다 큰 경우, 통신 단말기에 설치된 음성인식 어플리케이션은 음성 인식 서비스를 일시 중지할 수 있다.
또 다른 일측에 따르면, 게임, 동영상 등의 어플리케이션을 실행 중일 경우, 통신 단말기의 스피커를 통해 출력되는 음성과 음성인식 어플리케이션의 동작 중 출력되는 음성과 중첩되어 출력되는 문제점이 발생할 수 있다. 이에, 본 발명의 실시예에서는 실행 결과에 따라 통신 단말기를 동작시킬 때, 통신 단말기에서 실행 중이었던 제1 어플리케이션의 출력의 볼륨과, 제1 어플리케이션과 동시에 실행되는 음성인식 어플리케이션의 출력의 볼륨 중 음성인식 어플리케이션의 출력 볼륨이 일정 레벨 더 크도록 제1 어플리케이션의 출력의 볼륨의 크기가 자동으로 조절될 수 있다.
<전화 수신에 따라 동작을 시작하는 시나리오>
앞서 설명한 바와 같이, 음성인식 어플리케이션은 사용자의 음성이 입력되지 않아도, 호가 수신되는 경우, 실행 모드로 동작할 수 있다. 실시예에서, 음성인식 어플리케이션이 실행 모드로 동작하면서, 통신 단말기의 디스플레이는 제1 어플리케이션의 동작을 그대로 표시할 수 있다.
수신되는 호를 연결하기 위해서 사용자로부터 음성 데이터를 수신할 수 있다. 이를 위해서, 음성인식 어플리케이션의 실행 모드 동작과 함께 호 연결에 대해 사용자에게 문의하는 음성 데이터를 통신 단말기의 스피커를 통해 출력할 수 있다.
이하의 설명은 통신 단말기로 호(Call)가 수신되었을 때에 수행되는 본 발명의 실시예에 대한 것이다. 통신 단말기에 호 수신이 감지되는 경우, 통신 단말기는 백그라운드로 동작하거나, 실행되고 있지 않던 상태의 어플리케이션을 실행 모드로 동작시킬 수 있다. 실행 모드로 동작하는 어플리케이션을 통해 음성 인식 서비스가 제공될 수 있다.
통신 단말기에서 호 수신이 감지되는 경우, 호의 연결 여부에 관하여 통신 단말기의 사용자에게 문의하는 음성 데이터를 스피커를 통해 출력할 수 있다. 수신된 호를 연결할 것인지에 대해서 사용자의 의견을 묻기 위한 것이다.
실시예에 있어서, 통신 단말기에서 호 수신이 감지되는 경우, 통신 단말기는 호의 발신 번호(Caller ID 등) 및 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 서버로 전송할 수 있다. 서버는 통신 단말기로부터 전송된 발신 번호 및 주소록 데이터 또는 통화 기록 정보를 참조하여, 호 수신 음성 데이터를 생성할 수 있다. 예를 들어, 전화번호가 010-111-1111인 홍길동으로부터 호가 수신된 경우, 통신 단말기는 전화번호 및 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 서버로 전송한다.
서버는 해당 전화번호 및 주소록 데이터를 참조하여 홍길동으로부터 수신된 호임을 확인하고, "홍길동 님으로부터 전화가 왔습니다. 받으시겠습니까?" 등의 음성 데이터를 생성하여 생성된 음성 데이터를 통신 단말기로 전송한다.
호의 발신 번호에 대응하는 발신자의 명칭을 통신 단말기에 저장된 주소록 데이터로부터 검색하고, 검색된 발신자의 명칭과 대응되는 음성 데이터와, 미리 정해진 호 수신 음성 데이터가 결합된 안내 음성 데이터를 출력할 수 있다. 예컨대, 발신자의 명칭이 ‘홍길동’인 경우, ‘홍길동’에 해당하는 음성 데이터와 ‘~님에게 전화가 왔습니다. 연결할까요?’ 등의 호 수신 음성 데이터를 결합하여, '홍길동님에게 전화가 왔습니다. 연결할까요?' 등의 안내 음성 데이터를 함께 출력하여 사용자에게 호 수신을 알릴 수 있다.
이후 통신 단말기는 사용자로부터 상기 음성 데이터에 대한 확인 입력을 대기한다. 여기서 확인 입력은 호 연결 요청에 대한 긍정 또는 부정에 대한 응답이 될 수 있다.
통신 단말기는 사용자로부터 확인 입력이 음성 데이터로 수신되면, 해당 음성을 녹음하여 녹음 데이터를 생성할 수 있다. 통신 단말기는 생성된 녹음 데이터를 서버로 전송한다. 서버는 STT(Speech to text) 기술을 이용하여 녹음 데이터를 텍스트 데이터로 변환할 수 있다. 서버는 생성된 텍스트 데이터를 통신 단말기로 전송할 수 있다.
이에 음성인식 어플리케이션은 녹음 데이터에 대한 실행 결과로서 텍스트 데이터를 수신할 수 있다. 여기서, 텍스트 데이터는 호 연결 긍정을 의미하는 ‘네’, ‘예’, ‘응’, ‘그래’ 등의 텍스트가 포함되거나 호 연결 부정을 의미하는 ‘아니’, ‘싫어’, ‘안돼’ 등의 텍스트가 포함될 수 있다.
음성인식 어플리케이션은 상기 호 연결 긍정 및 호 연결 부정에 관한 텍스트 데이터를 인식하여 호 연결 요청을 수락하거나 거부할 수 있다. 실시예에 있어서, 어플리케이션에는 호 연결 긍정 및 부정에 대한 텍스트 데이터 각각에 대응하는 동작이 미리 지정되어 있을 수 있다. 따라서, 호 연결 긍정의 경우 수신된 전화를 연결하고, 호 연결 부정의 경우 호를 끊거나 호를 연결하지 않은 상태로 그대로 유지할 수 있다.
<문자 메시지 수신에 따라 동작을 시작하는 시나리오>
위에서 설명한 전화를 수신하는 실시예와 유사하게, 통신 단말기는 문자 메시지의 수신에 기초하여 음성인식 어플리케이션을 실행 모드로 동작시킬 수 있다. 앞선 실시예와 마찬가지로, 음성인식 어플리케이션이 실행 모드로 동작하면서, 통신 단말기의 디스플레이는 제1 어플리케이션의 동작을 그대로 표시할 수 있다.
통신 단말기는 문자 메시지의 발신 번호(Caller ID 등) 및 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 서버로 전송할 수 있다. 서버는 통신 단말기로부터 전송된 발신 번호 및 주소록 데이터 또는 통화 기록 정보를 참조하여, 문자 메시지 수신 음성 데이터를 생성할 수 있다. 예를 들어, 전화번호가 010-111-1111인 홍길동으로부터 문자 메시지가 수신된 경우, 통신 단말기는 상기 전화번호 및 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 서버로 전송한다.
서버는 상기 전화번호 및 주소록 데이터를 참조하여 홍길동으로부터 수신된 문자 메시지임을 확인하고, "홍길동 님으로부터 문자 메시지가 왔습니다. 읽을까요?" 등의 음성 데이터를 생성하여 생성된 음성 데이터를 통신 단말기로 전송한다.
이후 통신 단말기는 사용자로부터 상기 음성 데이터에 대한 확인 입력을 대기한다. 여기서 확인 입력은 문자 메시지 열람 요청에 대한 긍정 또는 부정에 대한 응답이 될 수 있다. 사용자로부터 확인 입력이 음성으로 수신되면, 해당 음성을 녹음하여 녹음 데이터를 생성할 수 있다. 통신 단말기는 생성된 녹음 데이터를 서버로 전송한다.
서버는 녹음 데이터로부터 텍스트 데이터를 생성할 수 있다. 서버는 STT(Speech to text) 기술을 이용하여 녹음 데이터를 텍스트 데이터로 변환할 수 있다. 서버는 생성된 텍스트 데이터를 통신 단말기로 전송할 수 있다. 이에 통신 단말기의 음성인식 어플리케이션은 녹음 데이터에 대한 결과 값으로서 서버로부터 전송된 텍스트 데이터를 수신할 수 있다. 여기서, 텍스트 데이터는 문자 메시지 읽기에 대한 긍정을 의미하는 ‘네’, ‘예’, ‘응’, ‘그래’ 등의 텍스트가 포함되거나 문자 메시지 읽기에 대한 부정을 의미하는 ‘아니’, ‘싫어’, ‘안돼’ 등의 텍스트가 포함될 수 있다.
통신 단말기의 음성인식 어플리케이션은 상기 문자 메시지 읽기 긍정 및 부정에 관한 텍스트 데이터를 인식하여 텍스트 데이터가 문자 메시지 읽기 긍정에 대응하는지 문자 메시지 읽기 부정에 대응하는지에 따라 통신 단말기를 동작시킬 수 있다.
만약, 서버로부터 수신된 텍스트 데이터가 문자 메시지 읽기 부정에 대응하는 경우, 통신 단말기는 아무 동작도 수행하지 않고 다시 대기 상태로 돌아가 다른 문자 메시지 수신을 대기할 수 있다. 반면, 문자 메시지 읽기 긍정에 대응하는 경우, 통신 단말기는 수신된 문자 메시지의 텍스트 데이터를 서버로 전송할 수 있다.
서버는 문자 메시지의 텍스트 데이터로부터 음성 데이터를 생성할 수 있다. 서버는 STT 기능을 통해 문자 메시지의 텍스트 데이터를 음성 데이터로 변환할 수 있으며, 서버는 생성된 음성 데이터를 다시 통신 단말기로 전송할 수 있다. 실시예에 따르면, 상기 STT 기능을 수행하는 서버는 TTS 기능을 수행하는 서버와 물리적으로 별개의 서버로 구현될 수 있고, 물리적으로 하나의 서버로 구현될 수 있다.
음성인식 어플리케이션은 서버로부터 수신된 음성 데이터를 통신 단말기의 스피커로 출력되도록 한다. 통신 단말기가 수신된 문자 메시지를 음성 데이터를 출력함으로써, 운전 중이거나 운동 중과 같이 통신 단말기를 조작하기 어려운 상황에서도 사용자는 수신된 문자 메시지를 쉽게 확인할 수 있다.
<음성인식 어플리케이션의 UI 예>
이하, 도 2 내지 도 3을 통해 본 발명의 음성 인식 서비스가 제공되는 일례를 설명한다. 도 2 내지 도 3의 실시예는 웨이크업 명령을 통해 음성인식 어플리케이션이 백그라운드로 동작한 이후에 수행될 수 있다.
도 2는 본 발명의 일실시예에 있어서, 멀티태스킹을 지원하는 음성 인식 서비스가 제공되는 일례를 설명하기 위한 도면이다.
통신 단말기가 사용자의 시작 명령 음성을 수신하여, 통신 단말기에서 수신된 사용자의 음성이 미리 정해진 웨이크업 명령인지 여부를 확인하고, 확인 결과 통신 단말기에서 수신된 음성이 미리 정해진 웨이크업 명령인 경우, 본 발명의 실시예에 따른 음성인식 어플리케이션을 실행 모드로 동작시킬 수 있다.
이때, 음성인식 어플리케이션은 통신 단말기에서 실행 중인 제1 어플리케이션이 통신 단말기의 최상위 레이어에 표시되도록 동작을 그대로 유지하면서 백그라운드로 동작할 수 있다.
실시예에 있어서, 음성인식 어플리케이션이 실행 모드로 백그라운드에서 동작하게 되면, 사용자로부터 수신되는 음성 데이터 입력에 대한 안내 메시지(210)를, 음성인식 어플리케이션과 연관된 창(Window)을 통신 단말기의 화면의 일부에 디스플레이 할 수 있다. 이때, 창은 통신 단말기의 화면의 일부에 반투명으로 제1 어플리케이션을 실행하는 상태 그대로 오버랩(overlap)하여 표시시킬 수 있다. 안내 메시지(210)는 생략되거나 음성으로 출력될 수도 있다. 도 2에 도시된 바와 같이, 안내 메시지(210)가 화면 일부에 표시될 때에 창을 삭제하기 위한 삭제 버튼이 제공될 수 있다.
통신 단말기의 음성인식 어플리케이션은 사용자로부터 수신되는 음성을 녹음 데이터로 생성한다. 통신 단말기는 녹음 데이터를 서버로 전송한다. 녹음 데이터를 서버로 전송할 때, 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 녹음 데이터와 함께 서버로 전송할 수 있다. 주소록 데이터 또는 통화 기록 정보는 녹음 데이터와 별도로 전송될 수도 있다.
서버에서는, 녹음 데이터를 분석하여 녹음 데이터에 포함되어 있는 ‘전화 발신’에 대한 텍스트 데이터를 생성할 수 있다. 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 수신한 서버는 전화 발신의 발신자에 대한 정보를 녹음 데이터, 주소록 데이터 또는 통화 기록 정보로부터 획득하여 텍스트 데이터를 가공할 수 있다. 서버는 변환된 텍스트 데이터를 통신 단말기로 전송한다. 통신 단말기의 음성인식 어플리케이션은 서버로부터 수신된 텍스트 데이터를 인식하여 전화 발신 동작을 수행할 수 있다.
다른 실시예에 있어서, 통신 단말기의 음성인식 어플리케이션은 발신자를 포함하는 전화 발신 음성이 녹음된 녹음 데이터를 서버로 전송하고, 서버로부터 수신한 텍스트 데이터에 포함된 발신자를 통신 단말기 내 연락처에서 검색하여 해당 발신자에게 호가 연결되도록 할 수 있다. 또 다른 실시예에 있어서, 녹음 데이터에 발신자가 포함되지 않은 경우 서버로부터 텍스트 데이터를 수신한 어플리케이션은 통신 단말기의 디스플레이에 다이얼 창을 띄울 수 있으며, 또는 발신자를 요청하는 메시지를 출력할 수도 있다.
음성인식 어플리케이션은 사용자로부터 입력된 음성 데이터에 따라 통신 단말기가 동작하도록 할 수 있다. 도 2에 따르면, 통신 단말기의 음성인식 어플리케이션은 ‘김수현에게 전화’ 동작을 수행하여, ‘김수현’에게 호 발신이 되도록 할 수 있다. 도 2를 참조하면, 음성인식 어플리케이션은 서버로부터 수신한 텍스트 데이터를 통신 단말기 화면의 일부 영역(220)에 표시할 수 있다.
도 3은, 도 2와 비슷한 일례로, 멀티태스킹을 지원하는 음성 인식 서비스가 제공되는 일례를 설명하기 위한 도면이다.
실시예에 따르면, 통신 단말기가 사용자의 시작 명령 음성을 수신하여, 통신 단말기에서 사용자로부터 수신된 음성이 미리 정해진 웨이크업 명령인지 여부를 확인하고, 확인 결과 통신 단말기에서 수신한 음성이 미리 정해진 웨이크업 명령인 경우, 본 발명의 실시예에 따른 음성인식 어플리케이션을 실행 모드로 동작할 수 있다. 이때, 음성인식 어플리케이션은 제1 어플리케이션의 동작을 통신 단말기의 최상위 레이어에 표시하면서 통신 단말기의 백그라운드로 동작할 수 있다.
실시예에 있어서, 도 3의 단말 상태는 음성인식 어플리케이션이 실행 모드로 백그라운드에서 동작하는 상태에서, 도 2와는 달리 안내 메시지를 출력하지 않을 수 있다. 사용자로부터 ‘김수현에게 온 문자 읽고 전화 연결해줘’라는 음성 데이터를 수신한다.
통신 단말기의 음성인식 어플리케이션은 사용자로부터 수신되는 음성 데이터를 녹음 데이터로 생성한다. 통신 단말기는 녹음 데이터를 서버로 전송한다. 녹음 데이터를 서버로 전송할 때, 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 녹음 데이터와 함께 서버로 전송할 수 있다. 주소록 데이터 또는 통화 기록 정보는 녹음 데이터와 별도로 전송될 수도 있다.
서버에서는, 녹음 데이터를 분석하여 녹음 데이터에 포함되어 있는 ‘문자 읽고' 및 "전화 연결'에 대한 텍스트 데이터를 생성할 수 있다. 통신 단말기에 저장된 주소록 데이터 또는 통화 기록 정보를 수신한 서버는 전화 발신의 발신자에 대한 정보를 녹음 데이터, 주소록 데이터 또는 통화 기록 정보로부터 획득하여 텍스트 데이터를 가공할 수 있다. 서버는 변환된 텍스트 데이터를 통신 단말기로 전송한다. 통신 단말기의 음성인식 어플리케이션은 서버로부터 수신된 텍스트 데이터를 인식하여 위에서 설명한 방식으로 서버와의 연동을 통한 문자 메시지의 음성 데이터 출력 및 전화 발신 동작을 수행할 수 있다.
도 3을 참조하면, 음성인식 어플리케이션은 서버로부터 수신한 텍스트 데이터를 통신 단말기 화면의 일부 영역(310)에 표시할 수 있다
실시예에서, 통신 단말기는 사용자로부터 종료 음성 명령을 수신할 수 있으며, 사용자로부터 입력된 종료 음성 명령이 미리 정해진 종료 명령 음성과 일치하는지 확인할 수 있다. 만약, 통신 단말기로 입력된 종료 음성 명령이 미리 정해진 종료 음성 명령과 일치하는 경우, 실행 중인 음성인식 어플리케이션을 종료시킬 수 있다. 음성인식 어플리케이션의 종료는 어플리케이션이 완전히 종료되거나 다시 슬립 모드로 돌아가는 것 중 하나의 동작을 포함할 수 있다. 미리 정해진 종료 음성 명령은 짧은 텍스트로 예컨대 ‘굿바이유와’ 같은 음성에 해당할 수 있다.
<통신 단말기 화면 상에 표시되는 UI 변형예>
도 4는 본 발명의 일실시예에 있어서, 멀티태스킹을 지원하는 음성 인식 서비스 중 텍스트 창이 제공되는 방법에 대해 설명하기 위한 도면이다.
도 4와 같은 음성인식 어플리케이션에 연관된 텍스트 창이 제공될 수 있는데, 창의 크기는 텍스트의 길이에 따라서 결정될 수 있다. 도 4의 텍스트 창은 도 2의 텍스트 데이터(220) 및 도 3의 텍스트 데이터(310)를 포함하는 텍스트 창이다.
실시예에서, ‘김수현님께 전화’라는 음성 데이터에 대한 텍스트 창이 제공될 수 있으며, 음성 버튼(410)을 탭 하게 되면, 입력된 내용에 대해서 다시 입력할 수 있도록 화면(411)과 같은 가장 작은 크기의 텍스트 창이 제공될 수 있다.
또한, 텍스트(420)를 탭 하게 되면, 작성되어 있는 텍스트를 수정할 수 있도록 화면(421)과 같은 자판이 제공될 수 있으며, 사용자가 직접 입력하는 텍스트의 길이 또는 크기에 따라 텍스트 창의 크기가 적응적으로 조절될 수 있다.
일측에 따르면, 음성인식 어플리케이션은 상기 서버로부터 수신된 텍스트 데이터를 화면 상에 출력할 때 상기 텍스트 데이터의 길이를 측정하여, 상기 텍스트 데이터가 통신 단말기의 화면 상에 출력될 때 텍스트 데이터를 화면 상에서 구분되게 표시하는 말풍선 형태의 창(window)의 크기를 적응적으로 조절할 수 있다. 예를 들어, 텍스트 데이터의 길이가 클수록 창의 크기를 크게 하고, 작을 수로 창의 크기를 줄여서 창 내에 배치되는 텍스트 데이터가 적절한 여백으로 배치될 수 있도록 할 수 있다.
이상과 같은 음성 인식 서비스의 멀티태스킹을 지원하는 시스템이 제공될 수 있다. 실시예에 따른 시스템은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 시스템 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
상기와 같은 실시예를 통해, 기존에 제공되던 음성 인식 서비스를 보완하여, 단말 내에서 멀티태스킹이 이루어지지 않던 문제점을 해결하고, 제1 어플리케이션이 동작하는 중에 음성 인식 서비스를 제공하는 음성 인식 어플리케이션을 멀티태스킹으로 동작시킬 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 통신 단말기에서 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법에 있어서,
    제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 단계;
    상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시키는 단계;
    상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하는 단계; 및
    상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  2. 제1항에 있어서,
    상기 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션이 실행 대기 모드로 동작하는 단계는,
    상기 제1 어플리케이션을 상기 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시하면서 상기 제1 어플리케이션을 동작시키는 단계; 및
    상기 음성인식 어플리케이션을 백그라운드(back-ground)에서 실행 대기 모드로 동작시키는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법..
  3. 제1항에 있어서,
    상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령을 입력 받아 음성인식 어플리케이션을 실행 모드로 동작시키는 단계는,
    상기 음성인식 어플리케이션의 웨이크업(awake up) 명령을 입력 받는 단계;
    상기 음성인식 어플리케이션의 웨이크업(awake up) 명령이 상기 미리 정해진 음성인식 어플리케이션의 웨이크업(awake up) 명령에 해당하는지 판단하는 단계; 및
    상기 음성인식 어플리케이션의 웨이크업(awake up) 명령이 미리 정해진 음성인식 어플리케이션의 웨이크업(awake up) 명령에 해당한다고 판단한 경우, 상기 음성인식 어플리케이션을 실행모드로 동작시키는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  4. 제3항에 있어서,
    상기 음성인식 어플리케이션을 실행모드로 동작시키는 단계는,
    상기 제1 어플리케이션이 상기 통신 단말기의 디스플레이의 최상위 레이어(Layer)에 표시되도록 상기 제1 어플리케이션의 동작을 유지하면서, 백그라운드(back-ground)에서 상기 음성인식 어플리케이션을 실행 모드로 동작시키는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  5. 제3항에 있어서,
    상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령은,
    상기 음성인식 어플리케이션을 실행시키기 위한 미리 정해진 음성인식 어플리케이션 실행 명령인
    통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  6. 제3항에 있어서,
    상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령은,
    사용자로부터 수신되는 음성 또는 상기 음성인식 어플리케이션의 실행 대기 모드에서 호 수신, 문자 수신, 메신저 수신 중 적어도 하나의 이벤트로 설정되는
    통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  7. 제1항에 있어서,
    상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하는 단계는,
    상기 통신 단말기 내에 저장된 주소록 데이터를 함께 상기 서버로 전송하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  8. 제1항에 있어서,
    상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는,
    전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 중 적어도 하나의 동작을 실행하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  9. 제8항에 있어서,
    상기 전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 동작에 대응하는 메시지를 상기 음성인식 어플리케이션과 연관된 창(window)에 표시하는 단계
    를 더 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  10. 제9항에 있어서,
    상기 전화 발신, 전화 수신, 메시지 발신, 메시지 수신 또는 메신저 수신 동작에 대응하는 메시지를 상기 음성인식 어플리케이션과 연관된 창(window)에 표시하는 단계는,
    상기 음성인식 어플리케이션과 연관된 창을 반투명으로 상기 제1 어플리케이션에 오버랩(overlap)하여 상기 통신 단말기의 디스플레이 상에 표시하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  11. 제10항에 있어서,
    상기 핸즈프리 어플리케이션과 연관된 창(window)을 반투명으로 상기 제1 어플리케이션에 오버랩(overlap)하여 표시하는 단계는,
    상기 창(window)의 크기를 상기 음성 데이터에 대응하는 텍스트 데이터의 길이에 따라 적응적으로 조절하여 표시하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  12. 제1항에 있어서,
    상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는,
    상기 통신 단말기의 주변 소음 크기를 측정하는 단계;
    상기 주변 소음 크기 및 상기 통신 단말기의 스피커 볼륨 크기를 비교하는 단계; 및
    상기 스피커 볼륨 크기를 상기 주변 소음 크기에 기초하여 적응적으로 조절하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  13. 제1항에 있어서,
    상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는 단계는,
    상기 음성인식 어플리케이션과 상기 제1 어플리케이션의 출력 볼륨 크기를 적응적으로 조절하는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  14. 제1항에 있어서,
    상기 제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 단계는,
    상기 통신 단말기의 스크린이 오프(off),
    상기 통신 단말기가 록 오프(lock off),
    상기 통신 단말기가 아이들(idle) 상태,
    상기 통신 단말기가 음성 호(call)를 수신한 상태; 및
    상기 통신 단말기가 문자 메시지를 수신한 상태
    중 적어도 하나의 상태에서도 상기 음성인식 어플리케이션을 실행 대기 모드로 동작시키는 단계
    를 포함하는 통신 단말기에서의 음성인식 어플리케이션의 멀티태스킹을 지원하는 방법.
  15. 제1항 내지 제14항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능 기록매체.
  16. 음성인식 어플리케이션이 기록된 메모리; 및
    상기 음성인식 어플리케이션의 실행을 제어하는 프로세서
    를 포함하고,
    상기 프로세서는,
    제1 어플리케이션의 동작과 함께 음성인식 어플리케이션을 실행 대기 모드로 동작시키고,
    상기 음성인식 어플리케이션의 미리 정해진 웨이크업(awake up) 명령에 의하여 상기 음성인식 어플리케이션을 실행 모드로 동작시키고,
    상기 음성인식 어플리케이션을 통해 사용자의 음성 데이터를 녹음한 녹음 데이터를 서버로 전송하고,
    상기 녹음 데이터에 대응하는 실행 결과를 상기 서버로부터 수신하여 상기 통신 단말기를 동작시키는,
    통신 단말기.
KR1020140026926A 2014-03-07 2014-03-07 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템 KR101584887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140026926A KR101584887B1 (ko) 2014-03-07 2014-03-07 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140026926A KR101584887B1 (ko) 2014-03-07 2014-03-07 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20150104930A true KR20150104930A (ko) 2015-09-16
KR101584887B1 KR101584887B1 (ko) 2016-01-22

Family

ID=54244461

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140026926A KR101584887B1 (ko) 2014-03-07 2014-03-07 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101584887B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016201341A1 (de) 2015-02-09 2016-08-11 Samsung Electro-Mechanics Co., Ltd. Mehrbandantenne mit externem leiter und elektronische einrichtung, die diese enthält
WO2018174445A1 (ko) * 2017-03-24 2018-09-27 삼성전자 주식회사 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
WO2019004659A1 (en) * 2017-06-28 2019-01-03 Samsung Electronics Co., Ltd. DISPLAY CONTROL METHOD AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
KR20210092795A (ko) * 2018-11-23 2021-07-26 후아웨이 테크놀러지 컴퍼니 리미티드 음성 제어 방법 및 전자 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102414122B1 (ko) * 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030093245A (ko) * 2001-03-16 2003-12-06 쥐씨브이1 인코포레이티드 신규한 개인용 전자 디바이스
KR20110063974A (ko) * 2009-12-07 2011-06-15 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
KR20130081176A (ko) * 2012-01-06 2013-07-16 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030093245A (ko) * 2001-03-16 2003-12-06 쥐씨브이1 인코포레이티드 신규한 개인용 전자 디바이스
KR20110063974A (ko) * 2009-12-07 2011-06-15 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
KR20130081176A (ko) * 2012-01-06 2013-07-16 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
카탈로그: 시리 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016201341A1 (de) 2015-02-09 2016-08-11 Samsung Electro-Mechanics Co., Ltd. Mehrbandantenne mit externem leiter und elektronische einrichtung, die diese enthält
DE102016201341B4 (de) 2015-02-09 2021-11-25 Samsung Electro-Mechanics Co., Ltd. Mehrbandantenne mit externem leiter und elektronische einrichtung, die diese enthält
WO2018174445A1 (ko) * 2017-03-24 2018-09-27 삼성전자 주식회사 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
KR20180108321A (ko) * 2017-03-24 2018-10-04 삼성전자주식회사 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
US11194545B2 (en) 2017-03-24 2021-12-07 Samsung Electronics Co., Ltd. Electronic device for performing operation according to user input after partial landing
WO2019004659A1 (en) * 2017-06-28 2019-01-03 Samsung Electronics Co., Ltd. DISPLAY CONTROL METHOD AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
US10788955B2 (en) 2017-06-28 2020-09-29 Samsung Electronics Co., Ltd. Method for controlling display and electronic device supporting the same
KR20210092795A (ko) * 2018-11-23 2021-07-26 후아웨이 테크놀러지 컴퍼니 리미티드 음성 제어 방법 및 전자 장치
US11450322B2 (en) * 2018-11-23 2022-09-20 Huawei Technologies Co., Ltd. Speech control method and electronic device

Also Published As

Publication number Publication date
KR101584887B1 (ko) 2016-01-22

Similar Documents

Publication Publication Date Title
US11410640B2 (en) Method and user device for providing context awareness service using speech recognition
CN105378708B (zh) 环境感知对话策略和响应生成
US9661133B2 (en) Electronic device and method for extracting incoming/outgoing information and managing contacts
CN110085222B (zh) 用于支持语音对话服务的交互装置和方法
US20130332168A1 (en) Voice activated search and control for applications
US9444423B2 (en) Method for adjusting volume and electronic device thereof
KR101584887B1 (ko) 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
KR101944416B1 (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
KR20200015267A (ko) 음성 인식을 수행할 전자 장치를 결정하는 전자 장치 및 전자 장치의 동작 방법
US9444927B2 (en) Methods for voice management, and related devices
US11178280B2 (en) Input during conversational session
KR102217301B1 (ko) 개인 일정 및 라이프 스타일을 반영한 인공지능의 컨텍 제어
CN103973542B (zh) 一种语音信息处理方法及装置
KR20130068303A (ko) 음성 명령 수행장치, 이를 구비한 이동 단말기 및 음성 명령 수행방법
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR101643808B1 (ko) 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템
KR20140116642A (ko) 음성 인식 기반의 기능 제어 방법 및 장치
KR101379405B1 (ko) 키워드 음성 인식을 통해 관련 어플리케이션을 실행시키는 음성 통화 처리 방법 및 이를 실행하는 모바일 단말
CN105357388A (zh) 一种信息推荐的方法及电子设备
US20170013118A1 (en) Electronic device and notification method thereof
US20140257808A1 (en) Apparatus and method for requesting a terminal to perform an action according to an audio command
KR101621136B1 (ko) 조도 센서를 이용한 음성 인식 서비스 제공 방법 및 음성 인식 서비스를 제공하는 통신 단말기
KR101654301B1 (ko) 스티커 정보 제공 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101712352B1 (ko) 스티커 정보 제공 장치 및 컴퓨터로 읽을 수 있는 기록매체
US11722572B2 (en) Communication platform shifting for voice-enabled device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181211

Year of fee payment: 6