KR20130070947A

KR20130070947A - 단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말

Info

Publication number: KR20130070947A
Application number: KR1020110138225A
Authority: KR
Inventors: 류창선; 김희경; 한영호; 구명완
Original assignee: 주식회사 케이티
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2013-06-28
Also published as: KR102014774B1

Abstract

단말의 음성인식을 제어하는 제어 서버 및 방법, 그리고 단말이 제공된다. 보다 상세하게는 네트워크를 통하여 단말과 설정된 제 1 프로토콜 연결을 기반으로 단말로부터 음성인식 요청신호를 수신하고, 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 단말에 대응하는 음성인식 엔진을 결정하고, 단말과 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하고, 결정된 식별정보를 단말로 전송하는 음성인식 제어 서버 및 방법, 그리고 단말이 제공된다.

Description

단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말{SERVER AND METHOD FOR CONTROLLING VOICE RECOGNITION OF DEVICE, AND THE DEVICE}

음성인식을 제어하는 서버 및 방법, 그리고 단말에 관한 것으로, 보다 상세하게는 복수의 단말 각각의 음성인식을 제어하는 서버 및 방법, 그리고 단말에 관한 것이다.

N 스크린(Screen) 서비스는 TV, PC, 태블릿 PC 또는 스마트폰 등의 다양한 기기에서 독립적으로 이용하던 서비스를 사용자 또는 콘텐츠를 중심으로 복합적으로 이용할 수 있게 해주는 서비스이다. 이러한 N 스크린 서비스가 제공됨에 있어서, 다양한 종류의 복수의 기기에서 동시에 동일한 콘텐츠를 재생시키는 기술 및 복수의 기기 중 어느 하나의 단말에서 재생하던 콘텐츠를 복수의 기기 중 다른 기기에서 끊임 없이(Seamless) 재생하는 기술 등이 요구된다. 이와 관련하여, 선행기술인 한국 특허공개번호 제2011-0009587에는 복수의 단말로 동용상 컨텐츠를 제공하는 컨텐츠 서버 간의 재생 이력 동기화를 구현하여 이 기종 단말간의 동영상 컨텐츠 이어보기를 제공하는 구성이 개시되어 있다.

한편, N-스크린 환경의 확대로 인해 패드, 스마트폰, IPTV 등 다양하고 환경 자체가 다른 단말의 이용과 사용 대수의 팽창으로 다수의 음성인터페이스 요구를 효과적으로 수행하여야 한다. 그러나, 대량의 음성 인터페이스 또는 다른 종류의 단말들의 음성 인터페이스 요구를 처리하는데 있어서, 기존의 시스템은 제한된다.

다양한 형태의 단말들의 서로 다른 특성들을 통합적으로 고려하여 단말들의 음성 인터페이스 제어를 보다 효과적으로 수행할 수 있다. 다수의 단말들의 대용량 음성 인터페이스 요청에 의한 대드락을 예방하고, 네트워크 부하를 감소시킬 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는 네트워크를 통하여 단말과 설정된 제 1 프로토콜 연결을 기반으로 상기 단말로부터 음성인식 요청신호를 수신하는 요청신호 수신부, 상기 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 상기 단말에 대응하는 음성인식 엔진을 결정하는 음성인식 엔진 결정부, 상기 단말과 상기 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하는 식별정보 결정부 및 상기 식별정보를 상기 단말로 전송하는 식별정보 전송부를 포함하는 음성인식 제어 서버를 제공할 수 있다.

또한, 본 발명의 다른 실시예는 네트워크를 통하여 단말과 제 1 프로토콜 연결을 설정하는 단계, 상기 설정된 제 1 프로토콜 연결을 기반으로 상기 단말로부터 음성인식 요청신호를 수신하는 단계, 상기 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 상기 단말에 대응하는 음성인식 엔진을 결정하는 단계, 상기 단말과 상기 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하는 단계 및 상기 결정된 식별정보를 상기 단말로 전송하는 단계를 포함하는 음성인식 제어 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예는 네트워크를 통하여 음성인식 제어 서버와 설정된 제 1 프로토콜 연결을 기반으로 상기 음성인식 제어 서버로 음성인식 요청신호를 전송하는 요청신호 전송부, 상기 음성인식 제어 서버로부터 복수의 음성인식 엔진들 중 어느 하나의 음성인식 엔진의 식별 정보를 수신하는 식별정보 수신부, 상기 수신된 식별 정보에 기초하여 상기 어느 하나의 음성인식 엔진과 제 2 프로토콜 연결을 설정하는 연결 설정부, 상기 설정된 제 2 프로토콜 연결을 기반으로 상기 어느 하나의 음성인식 엔진으로 음성 데이터를 전송하는 음성 데이터 전송부 및 상기 어느 하나의 음성인식 엔진으로부터 상기 전송된 음성 데이터에 대응하는 결과정보를 수신하는 결과정보 수신부를 포함하는 단말을 제공할 수 있다.

단말 별 특성을 고려하여 단말에 특화된 음성인식 엔진을 결정함으로써, 다양한 형태의 단말들의 서로 다른 특성들을 통합적으로 고려하여 단말들의 음성 인터페이스 제어를 보다 효과적으로 수행할 수 있다. 제어신호를 송수신하는 제 1 프로토콜과 음성 데이터를 송수신하는 제 2 프로토콜을 분리하여 운용함으로써, 다수의 단말들의 대용량 음성 인터페이스 요청에 의한 대드락을 예방하고, 네트워크 부하를 감소시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식 제어 시스템의 구성도이다.
도 2는 도 1의 음성인식 제어 서버(10)의 구성도이다.
도 3은 본 발명의 다른 실시예에 따른 음성인식 제어 서버(40) 및 음성인식 엔진 서버(50)의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 단말(20)의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 음성인식 제어 방법을 나타낸 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시예에 따른 음성인식 제어 시스템의 구성도이다. 도 1을 참조하면, 음성인식 제어 시스템은 음성인식 제어 서버(10), 복수의 단말(21 내지 23) 및 검색 서버(30)를 포함한다. 다만, 이러한 도 1의 음성인식 제어 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명의 내용이 한정 해석되는 것은 아니다. 예를 들어, 본 발명의 다양한 실시예들에 따르면, 음성인식 제어 시스템은 복수의 단말(21 내지 23)로 컨텐츠를 제공하는 컨텐츠 제공 서버를 더 포함할 수도 있다. 또한, 도 1에 개시된 바와 같이, 도 1의 음성인식 제어 시스템은 음성인식 제어 서버(10)의 외부에 위치하는 음성인식 엔진 A(11)를 더 포함할 수도 있다.

음성인식 제어 시스템을 구성하는 도 1의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(network)의 일 예에는 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network) 등이 포함되나 이에 한정되지는 않는다.

음성인식 제어 서버(10)는 복수의 단말(21 내지 23)의 음성인식을 제어한다. 이를 위해, 음성인식 제어 서버(10)는 네트워크를 통하여 복수의 단말(21 내지 23)로부터 음성인식 요청신호를 수신하고, 수신된 음성인식 요청신호에 대응하는 응답 신호를 복수의 단말(21 내지 23)로 전송한다.

음성인식 제어 서버(10)는 복수의 단말(21 내지 23)과 설정된 제 1 프로토콜 연결을 기반으로 음성인식 요청신호를 수신하고, 음성인식 요청신호에 대한 응답으로서 복수의 단말(21 내지 23)과 음성인식 엔진간의 음성 데이터가 송수신되는 제 2 프로토콜의 식별정보를 전송한다. 이와 같이, 음성인식 제어 서버(10)는 음성인식을 위한 제어신호를 송수신하는 채널과 실제 음성 데이터를 송수신하는 채널을 분리함으로써, 네트워크의 부하를 감소시킴과 동시에 효율적인 음성인식 제어를 수행할 수 있다.

음성인식 제어 서버(10)는 복수의 단말(21 내지 23) 중 어느 하나의 단말로부터 수신된 음성인식 요청신호에 기초하여 어느 하나의 단말의 특성을 파악하고, 파악된 특성에 대응하는 음성인식 엔진을 결정한다. 이와 같이, 음성인식 제어 서버(10)는 어느 하나의 단말의 특성을 고려하여, 어느 하나의 단말에 적합한 음성인식 엔진을 결정함으로써, 다양한 형태의 단말 각각의 특성을 고려한 맞춤형 음성인식 제어를 수행할 수 있다.

본 발명의 일 실시예에 따르면 음성인식 제어 서버(10)는 내부에 복수의 음성인식 엔진들을 포함하고, 단말별 특성을 고려하여 각각의 단말로 복수의 음성인식 엔진들 각각을 추천한다. 또한, 본 발명의 다른 실시예에 따르면 음성인식 제어 서버(10)는 음성인식 제어 서버(10) 외부에 위치하는 음성인식 엔진 A(50)를 단말로 추천할 수도 있다.

검색 서버(30)는 복수의 단말(21 내지 23)로부터 수신된 검색 요청 신호를 수신하고, 검색 요청 신호에 대응하는 검색 결과를 복수의 단말(21 내지 23)로 전송한다. 이 때, 검색 요청 신호는 복수의 단말(21 내지 23) 각각이 음성인식 엔진으로부터 수신한 음성 데이터의 결과정보에 의하여 생성된다.

복수의 단말(21 내지 23) 각각은 음성인식 요청신호를 음성인식 제어 서버(10)로 전송하고, 음성인식 제어 서버로부터 음성인식 엔진의 식별정보를 수신한다. 또한, 복수의 단말(21 내지 23) 각각은 음성인식 엔진으로 음성 데이터를 송신하고, 송신된 음성 데이터에 대응하는 결과정보를 수신한다. 이 때, 음성인식 요청신호 및 식별정보는 제 1 프로토콜 연결을 기반으로 단말(21 내지 23)과 음성인식 제어 서버(10)간에 송수신되고, 음성 데이터 및 결과정보는 제 2 프로토콜 연결을 기반으로 단말(21 내지 23)과 음성인식 엔진간에 송수신된다.

본 발명의 다양한 실시예들에 따르면 복수의 단말 각각은 서로 다른 종류의 단말일 수 있다. 예를 들어, 단말은 네트워크를 통해 원격지의 서버에 접속할 수 있는 TV 장치, 컴퓨터 또는 휴대용 단말일 수 있다. 여기서, TV 장치의 일 예에는 스마트 TV, IPTV 셋톱박스 등이 포함되고, 컴퓨터의 일 예에는 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등이 포함되고, 휴대용 단말의 일 예에는 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치가 포함될 수 있다.

이하의 도면들을 통하여 도 1의 음성인식 제어 시스템의 각 구성요소의 동작에 대해서 보다 상세하게 설명한다.

도 2는 도 1의 음성인식 제어 서버(10)의 구성도이다. 도 2를 참조하면, 음성인식 제어 서버(10)는 요청신호 수신부(11), 음성인식 엔진 결정부(12), 식별정보 결정부(13), 식별정보 전송부(14), 제 1 음성인식 엔진(15), 제 2 음성인식 엔진(16) 및 데이터베이스(17)를 포함한다.

다만, 도 2에 도시된 음성인식 제어 서버(10)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. 예를 들어, 음성인식 제어 서버(10)는 관리자로부터 어떤 명령 내지 정보를 입력받기 위한 관리자 인터페이스가 더 포함될 수 있다. 이 경우, 관리자 인터페이스는 일반적으로 키보드, 마우스 등과 같은 입력 장치가 될 수도 있으나, 영상 표시 장치에 표현되는 그래픽 유저 인터페이스(GUI, Graphical User interface)가 될 수도 있다. 다른 예를 들어, 음성인식 제어 서버(10)는 단말(20)과 데이터를 송수신하는 통신부를 더 포함할 수도 있다. 이 경우, 통신부는 네트워크를 경유하여 단말(20)로부터 데이터를 수신하고 수신된 데이터를 음성인식 제어 서버(10) 내부의 다른 구성요소들로 전달하거나, 음성인식 제어 서버(10) 내부의 다른 구성요소로부터 전달된 데이터를 단말(20)로 전송할 수 있다. 또 다른 예를 들어, 음성인식 제어 서버(10)는 적어도 하나 이상의 음성인식 엔진들을 더 포함할 수도 있다.

요청신호 수신부(11)는 네트워크를 통하여 단말(20)로부터 음성인식 요청신호를 수신한다. 이 때, 음성인식 요청신호는 단말(20)로 입력된 음성 데이터를 장치 또는 사람이 인식 가능한 문자 또는 숫자 형식의 데이터로 변환할 것을 요청하는 신호를 의미한다. 또한, 단말(20)은 도 1에 도시된 복수의 단말(21 내지 23) 중 어느 하나의 단말(20)을 의미하나, 도 1에 도시된 형태나 종류에 의하여 한정되는 것은 아니다.

요청신호 수신부(11)는 네트워크를 통하여 단말(20)과 설정된 제 1 프로토콜 연결을 기반으로 단말(20)로부터 음성인식 요청신호를 수신한다. 이 때, 제 1 프로토콜은 나중에 설명될 제 2 프로토콜과 다른 통신 계층 기반의 프로토콜이다. 예를 들어, 제 1 프로토콜은 어플리케이션 계층 기반의 HTTP(HyperText Transfer Protocol)이고, 제 2 프로토콜은 전송 계층 또는 네트워크 계층 기반의 TCP-IP(Transmission Control Protocol-Internet Protocol)일 수 있다.

요청신호 수신부(11)는 API(Application Programming Interface)를 이용하여 단말(20)로부터 음성인식 요청신호를 수신할 수 있다. 또한, 도 1의 식별정보 전송부(14)는 API(Application Programming Interface)를 이용하여 단말(20)로 식별정보를 전송할 수 있다. 다시 말하면, 단말(20)과 음성인식 제어 서버(20)간에 음성인식을 위한 제어신호들은 이러한 API를 통하여 송수신될 수 있으며, 이 경우, 단말(20)에는 API 클라이언트 모듈이, 음성인식 제어 서버(20)에는 API 서버 모듈이 각각 설치될 수 있다. 일반적으로, API는 소프트웨어 구성과 소프트웨어 구성간에 통신을 위한 인터페이스를 의미하는 것으로, 이러한 API의 일 예에는 HTTP API가 포함된다. 일반적으로, API는 복수의 단말 중 어느 하나의 단말과 음성인식 제어 서버(20)간의 통신과 복수의 단말 중 다른 하나의 단말과 음성인식 제어 서버(20)간의 통신간의 독립성을 보장하는데 유용하다.

음성인식 엔진 결정부(12)는 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 단말(20)에 대응하는 음성인식 엔진을 결정한다. 이 때, 음성인식 엔진 결정부(12)는 음성인식 요청신호에 포함된 단말(20)의 단말 정보에 기초하여 상기 음성인식 엔진을 결정할 수 있다. 예를 들어, 음성인식 엔진 결정부(12)는 단말(20)의 단말 정보에 기초하여 단말(20)이 스마트 폰으로 판단된 경우, 복수의 음성인식 엔진들 중 스마트 폰을 위한 음성인식 엔진을 결정할 수 있다. 다른 예를 들어, 음성인식 엔진 결정부(12)는 단말(20)의 단말 정보에 기초하여 단말(20)이 안드로이드 기반의 단말로 판단된 경우, 복수의 음성인식 엔진들 중 안드로이드 기반의 음성인식 엔진을 결정할 수 있다.

이와 같이, 음성인식 엔진 결정부(12)는 단말(20)의 단말 정보에 기초하여 단말의 하드웨어 타입 또는 소프트웨어 타입을 결정하고, 결정된 타입에 대응하는 음성인식 엔진을 결정할 수 있다. 이 때, 하드웨어 타입의 일 예에는 스마트 폰, 네비게이션, 태블릿 PC, PC, 스마트TV, 셋톱박스 등의 다양한 형태가 포함되고, 소프트웨어 타입의 일 예에는 안드로이드 OS, IOS, 윈도우 OS, 윈도우 모바일 OS, 미들웨어, 소정 어플리케이션 등 다양한 형태가 포함된다.

음성인식 엔진 결정부(12)는 단말(20)의 단말 정보, 서비스 정보 및 네트워크의 네트워크 정보 중 적어도 하나 이상에 기초하여 상기 음성인식 엔진을 결정할 수도 있다. 이 때, 서비스 정보는 단말(20)이 이용하고 있는 또는 이용하고자 하는 서비스의 종류에 대한 정보이며, 이러한 서비스 정보의 일 예에는 TV 서비스, 지도 서비스, 음악 서비스, 콜센터 서비스, 음성 다이얼 서비스 등 음성인식이 이용 가능한 다양한 형태의 서비스가 포함된다. 또한, 이와 같은 서비스 정보는 음성인식 요청신호로부터 추출되거나, 단말(20)로부터 직접 수신될 수 있다.

네트워크 정보는 네트워크의 타입을 포함한다. 이와 같은 네트워크의 일 예에는 앞서 설명된 바와 같이 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network) 등이 포함될 수 있다.

음성인식 엔진 결정부(12)는 음성인식 요청신호에 기초하여 음성인식 엔진과 함께 제 2 프로토콜 연결을 결정할 수 있다. 이 때, 제 2 프로토콜 연결은 단말(20)과 음성인식 엔진간에 음성 데이터와 결과정보가 송수신되는 연결을 의미한다. 앞서 설명된 바와 같이, 이러한 제 2 프로토콜 연결은 제 1 프로토콜 연결과 다른 통신 계층 기반의 프로토콜 연결일 수 있다.

식별정보 결정부(13)는 단말(20)과 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정한다. 이 때, 식별정보에는 결정된 음성인식 엔진의 주소정보가 포함될 수 있다. 또한, 식별정보에는 제 2 프로토콜을 나타내는 정보가 포함될 수 있다.

음성인식 엔진의 주소정보의 일 예는 음성인식 엔진이 위치하는 곳을 식별하기 위한 URL(Uniform Resource Locator)이 포함된다. 일반적으로, 단말(20)은 이러한 URL을 이용하여 복수의 음성인식 엔진들 중 단말(20)에 적합한 음성인식 엔진으로 음성 데이터를 송신할 수 있다.

식별정보는 음성 데이터의 압축 인코딩 정보를 포함할 수도 있다. 이 때, 압축 인코딩 정보는 단말(20)에서 결정된 음성인식 엔진으로 전송되는 음성 데이터를 압축 및 인코딩하기 위한 정보를 의미한다. 예를 들어, 압축 인코딩 정보는 음성 데이터를 압축 레벨 2로 압축하고, 인코딩 레벨 3의 데이터 형태로 인코딩하기 위한 정보를 포함할 수 있다.

압축 레벨은 단말의 단말 정보, 서비스 정보 및 네트워크 정보 중 적어도 하나 이상에 따라 결정될 수 있다. 예를 들어, 압축 레벨은 네트워크 정보가 3G의 경우 단말 정보 및 서비스 정보를 고려하여 레벨 7로 결정될 수 있다. 다른 예를 들어, 압축 레벨은 서비스 정보가 음악 서비스인 경우 단말 정보 및 네트워크 정보를 고려하여 레벨 10으로 결정될 수도 있다.

단말(20)은 압축 레벨에 기초하여 음성 데이터를 압축할 수 있다. 또한, 음성인식 엔진은 압축 레벨에 기초하여 압축된 음성 데이터를 복원할 수 있다. 이 경우, 음성인식 엔진은 단말(20) 또는 음성인식 제어 서버(10)로부터 압축 인코딩 정보를 획득할 수 있다.

인코딩 레벨은 역시 단말의 단말 정보, 서비스 정보 및 네트워크 정보 중 적어도 하나 이상에 따라 결정될 수 있다. 이러한 인코딩 레벨을 예시하면, 레벨 1은 IR 통신 음성인식, 레벨 2는 블루투스 음성인식, 레벨 3은 아이폰 음성인식, 레벨 4는 안드로이드 폰 음성인식, 레벨 5는 음악 멜로디 또는 허밍 각각을 나타낼 수 있다.

단말(20)은 인코딩 레벨에 기초하여 음성 데이터를 인코딩할 수 있다. 또한, 음성인식 엔진은 인코딩 레벨에 기초하여 인코딩된 음성 데이터를 디코딩할 수 있다. 이 경우, 음성인식 엔진은 단말(20) 또는 음성인식 제어 서버(10)로부터 압축 인코딩 정보를 획득할 수 있다.

식별정보 전송부(14)는 식별정보를 단말(20)로 전송한다. 또한, 단말(20)은 수신된 식별정보를 이용하여 결정된 음성인식 엔진으로 음성 데이터를 전송한다. 이 때, 단말(20)은 앞서 설명된 바와 같이 식별정보에 포함된 제 2 프로토콜 연결을 기반으로 음성 데이터를 전송할 수 있다. 또한, 단말(20)은 압축 인코딩 정보에 기초하여 음성 데이터를 인코딩하고, 인코딩된 음성 데이터를 음성인식 엔진으로 전송할 수 있다. 또한, 단말(20)은 단말(20)의 단말 정보, 서비스 정보 및 상기 제 2 프토토콜 연결의 네트워크 정보에 기초하여 음성 데이터를 인코딩하고, 인코딩된 음성 데이터를 음성인식 엔진으로 전송할 수도 있다.

제 1 음성인식 엔진(15)은 단말(20)로부터 수신된 음성 데이터에 대응하는 결과정보를 생성하고, 생성된 결과정보를 단말(20)로 전송한다. 이 때, 제 1 음성인식 엔진(15)은 앞서 언급된 결정된 음성인식 엔진을 의미한다. 또한, 결과정보는 사람 또는 장치에 의하여 이용될 수 있도록, 음성 데이터로부터 인식된 문자 또는 숫자 형식의 데이터를 의미한다.

제 2 음성인식 엔진(16)은 단말(20)과 다른 유형의 단말로부터 음성 데이터를 수신하는 경우, 수신된 음성 데이터에 대응하는 결과정보를 생성하고, 생성된 결과 정보를 다른 단말로 전송할 수 있다. 음성인식 제어 서버(10)는 복수의 단말들 각각의 특성에 따른 복수의 음성인식 엔진들을 포함할 수 있다. 따라서, 음성인식 제어 서버(10)는 제 1 음성인식 엔진(15) 및 제 2 음성인식 엔진(16) 이외의 적어도 하나 이상의 음성인식 엔진을 더 포함할 수 있다.

본 발명의 일 실시예에 따르면, 복수의 음성인식 엔진들 중 어느 하나는 음성인식 제어 서버(10)의 내부에 포함되고, 복수의 음성인식 엔진들 중 다른 하나는 음성인식 제어 서버(10)의 외부의 소정 음성인식 서버에 포함될 수도 있다.

데이터베이스(17)는 데이터를 저장한다. 이 때, 데이터는 음성인식 제어 서버(10) 내부의 각 구성요소들 간에 입력 및 출력되는 데이터를 포함하고, 제어 서버(10)와 제어 서버(10) 외부의 구성요소간에 입력 및 출력되는 데이터를 포함한다. 예를 들어, 데이터베이스(15)는 식별 정보 결정부(13)에서 식별 정보 전송부(14)로 전달되는 식별정보를 저장하고, 단말(20)에서 음성인식 제어 서버(10)로 입력되는 음성인식 요청신호를 저장할 수 있다. 이러한 데이터베이스(15)의 일 예에는 음성인식 제어 서버(10) 내부 또는 외부에 존재하는 하드디스크드라이브, 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.

도 3은 본 발명의 다른 실시예에 따른 음성인식 제어 서버(40) 및 음성인식 엔진 서버(50)의 구성도이다. 도 3을 참조하면, 음성인식 엔진 서버(50)는 제 1 음성인식 엔진(51) 및 제 2 음성인식 엔진(52)을 포함한다.

도 3을 참조하면, 음성인식 제어 서버(40)는 네트워크를 통하여 단말(20)과 설정된 제 1 프로토콜 연결을 기반으로 단말(20)로부터 음성인식 요청신호를 수신하고, 수신된 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 단말(20)에 대응하는 음성인식 엔진을 결정하고, 단말(20)과 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하고, 결정된 식별정보를 단말(20)로 전송한다. 이와 같은 음성인식 제어 서버의 동작에 관하여 설명되지 아니한 사항은 앞서 도 2의 음성인식 제어 서버(10)의 요청신호 수신부(11), 음성인식 엔진 결정부(12), 식별정보 결정부(13), 식별정보 전송부(14) 및 데이터베이스(17)에 대하여 설명된 내용과 동일 또는 설명된 내용으로부터 당업자에 의해 용이하게 유추 가능하므로 이하 설명을 생략한다.

제 1 음성인식 엔진(51)은 단말(20)과의 제 2 프로토콜 연결을 기반으로 단말(20)로부터 수신된 음성 데이터에 대응하는 결과정보를 생성하고, 생성된 결과정보를 단말(20)로 전송한다. 이 때, 제 1 음성인식 엔진(50)은 앞서 언급된 결정된 음성인식 엔진을 의미한다. 또한, 결과정보는 사람 또는 장치에 의하여 이용될 수 있도록, 음성 데이터로부터 인식된 문자 또는 숫자 형식의 데이터를 의미한다.

제 2 음성인식 엔진(52)은 단말(20)과 다른 유형의 단말로부터 음성 데이터를 수신하는 경우, 수신된 음성 데이터에 대응하는 결과정보를 생성하고, 생성된 결과 정보를 다른 단말로 전송할 수 있다. 또한, 음성인식 엔진 서버(50)는 복수의 단말들 각각의 특성에 따른 복수의 음성인식 엔진들을 포함할 수 있다. 따라서, 음성인식 엔진 서버(50)에는 제 1 음성인식 엔진(51) 및 제 2 음성인식 엔진(52) 이외의 적어도 하나 이상의 음성인식 엔진을 더 포함할 수 있다. 이와 같은, 제 1 음성인식 엔진(51) 및 제 2 음성인식 엔진에 대하여 설명하지 아니한 사항은 앞서 도 1 내지 2를 통하여 음성인식 엔진에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 당업자에 의하여 용이하게 유추 가능하므로 이하 설명을 생략한다.

도 4는 본 발명의 일 실시예에 따른 단말(20)의 구성도이다. 이와 같은 도 4의 단말(20)은 도 1에 도시된 복수의 단말(21 내지 23) 중 어느 하나의 단말일 수 있다. 다만, 단말(20)이 도 1에 도시된 복수의 단말(21 내지 23)의 형태 또는 종류로 한정 해석되지는 않는다. 도 4를 참조하면, 단말(20)은 요청신호 전송부(21), 식별정보 수신부(22), 연결 설정부(23), 음성 데이터 전송부(24), 결과 정보 수신부(25) 및 검색 요청부(26)를 포함한다.

다만, 도 4에 도시된 단말(10)은 본 발명의 하나의 구현 예에 불과하며, 도 6에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. 예를 들어, 단말(20)은 사용자로부터 어떤 명령 내지 정보를 입력받기 위한 사용자 인터페이스가 더 포함될 수 있다. 이 경우, 사용자 인터페이스는 일반적으로 키보드, 마우스 등과 같은 입력 장치가 될 수도 있으나, 영상 표시 장치에 표현되는 그래픽 유저 인터페이스(GUI, Graphical User interface)가 될 수도 있다. 다른 예를 들어, 단말(20)은 음성인식 제어 서버(10)와 데이터를 송수신하는 통신부를 더 포함할 수도 있다. 또 다른 예를 들어, 단말(20)은 일반적인 단말이 포함하는 구성들(예를 들어, 영상 및 음성 처리부)이 더 포함될 수도 있다. 또한, 단말(20)은 데이터베이스를 더 포함할 수도 있다.

요청신호 전송부(21)는 네트워크를 통하여 음성인식 제어 서버(10)와 설정된 제 1 프로토콜 연결을 기반으로 음성인식 제어 서버(10)로 음성인식 요청신호를 전송한다. 이 때, 음성인식 요청신호는 단말(20)의 단말 정보를 포함할 수 있다. 또한, 제 1 프로토콜은 제 2 프로토콜과 다른 통신 계층 기반의 프로토콜일 수 있다.

식별정보 수신부(22)는 음성인식 제어 서버(10)로부터 복수의 음성인식 엔진들 중 어느 하나의 음성인식 엔진의 식별 정보를 수신한다.

연결 설정부(23)는 수신된 식별 정보에 기초하여 어느 하나의 음성인식 엔진과 제 2 프로토콜 연결을 설정한다.

음성 데이터 전송부(24)는 설정된 제 2 프로토콜 연결을 기반으로 어느 하나의 음성인식 엔진으로 음성 데이터를 전송한다. 이 때, 음성 데이터 전송부(24)는 압축 인코딩 정보에 기초하여 음성 데이터를 인코딩하고, 인코딩된 음성 데이터를 상기 어느 하나의 음성인식 엔진으로 음성 데이터를 전송할 수 있다. 이 경우, 음성 데이터의 압축 인코딩 정보는 식별정보에 포함될 수 있다. 또한, 음성 데이터 전송부(24)는 단말(20)의 단말 정보, 서비스 정보 및 제 2 프토토콜 연결의 네트워크 정보에 기초하여 음성 데이터를 인코딩하고, 인코딩된 음성 데이터를 음성인식 엔진으로 전송할 수도 있다.

결과정보 수신부(25)는 어느 하나의 음성인식 엔진으로부터 전송된 음성 데이터에 대응하는 결과 정보를 수신한다.

검색 요청부(26)는 결과 정보에 기초하여 검색 서버(30)로 검색 요청 신호를 전송한다. 검색 요청부(26)는 검색 서버(30)로부터 검색 요청 신호에 대응하는 검색 결과를 수신할 수 있다. 다만, 본 발명의 다른 실시예에 따르면, 검색 요청부(26)는 단말(20)과 연관된 대상 단말로 검색 요청 신호에 대응하는 검색 결과를 제공할 것을 요청하는 검색 요청 신호를 검색 서버(30)로 전송할 수도 있다. 이 경우, 대상 단말은 검색 서버(30)로부터 검색 결과를 제공받을 수 있다.

이와 같은 도 4의 단말(20)은 앞서 도 1 내지 도 3을 통하여 설명된 복수의 단말(21 내지 23) 중 어느 하나의 단말 또는 단말(20)에 대하여 설명된 동작을 수행하는 것이다. 따라서, 도 4를 통하여 단말(20)에 대해 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통하여 복수의 단말(21 내지 23) 중 어느 하나의 단말 또는 단말(20)에 대하여 설명된 내용을 준용한다. 다시 말하면, 도 4의 단말(20)에 대한 보다 구체적인 설명은 앞서 도 1 내지 도 3을 통하여 설명된 내용과 동일 또는 설명된 내용으로부터 당업자에 의해 용이하게 유추 가능하므로 이하 생략한다.

도 5는 본 발명의 일 실시예에 따른 음성인식 제어 방법을 나타낸 동작 흐름도이다. 도 5에 도시된 실시예에 따른 음성인식 제어 방법은 도 2에 도시된 실시예에 따른 음성인식 제어 서버(10) 또는 도 3에 도시된 다른 실시예에 따른 음성인식 제어 서버(40)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 2 또는 도 3에 관하여 이상에서 기술된 내용은 도 5에 도시된 실시예에 따른 음성인식 제어 방법에도 적용된다.

단계 S51에서 요청신호 수신부(11)는 네트워크를 통하여 단말(20)과 제 1 프로토콜 연결을 설정한다. 단계 S52에서 요청신호 수신부(11)는 설정된 제 1 프로토콜 연결을 기반으로 단말(20)로부터 음성인식 요청신호를 수신한다. 단계 S53에서 음성인식 엔진 결정부(12)는 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 단말(20)에 대응하는 음성인식 엔진을 결정한다. 단계 S54에서 식별정보 결정부(13)는 단말(20)과 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정한다. 단계 S55에서 식별정보 전송부(14)는 결정된 식별정보를 단말(20)로 전송한다.

도 5를 통해 설명된 실시예들에 따른 음성인식 제어 방법들 각각은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 음성인식 제어 서버
11: 요청신호 수신부
12: 음성인식 엔진 결정부
13: 식별정보 결정부
14: 식별정보 전송부
20: 단말

Claims

네트워크를 통하여 단말과 설정된 제 1 프로토콜 연결을 기반으로 상기 단말로부터 음성인식 요청신호를 수신하는 요청신호 수신부;
상기 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 상기 단말에 대응하는 음성인식 엔진을 결정하는 음성인식 엔진 결정부;
상기 단말과 상기 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하는 식별정보 결정부; 및
상기 식별정보를 상기 단말로 전송하는 식별정보 전송부를 포함하는 음성인식 제어 서버.
제 1 항에 있어서,
상기 음성인식 엔진 결정부는 상기 음성인식 요청신호에 포함된 상기 단말의 단말 정보에 기초하여 상기 음성인식 엔진을 결정하는 것인, 음성인식 제어 서버.
제 2 항에 있어서,
상기 음성인식 엔진 결정부는 상기 단말의 단말 정보, 서비스 정보 및 상기 네트워크의 네트워크 정보 중 적어도 하나 이상에 기초하여 상기 음성인식 엔진을 결정하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 음성인식 엔진 결정부는 상기 음성인식 요청신호에 기초하여 상기 음성인식 엔진 및 상기 제 2 프로토콜 연결을 결정하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 제 1 프로토콜은 상기 제 2 프로토콜과 다른 통신 계층 기반의 프로토콜인 것인, 음성 인식 제어 서버.
제 1 항에 있어서,
상기 제 1 프로토콜은 HTTP (HyperText Transfer Protocol)이고, 상기 제 2 프로토콜은 TCP-IP (Transmission Control Protocol-Internet Protocol)인 것인, 음성인식 제어 서버.
제 1 항에 있어서,
복수의 음성인식 엔진들을 더 포함하는, 음성인식 제어 서버.
제 1 항에 있어서,
상기 복수의 음성인식 엔진들 중 어느 하나는 상기 음성인식 제어 서버 내부에 포함되고, 상기 복수의 음성인식 엔진들 중 다른 하나는 상기 음성인식 제어 서버 외부의 소정 음성인식 서버에 포함되는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 식별정보는 상기 음성인식 엔진의 네트워크 주소 정보를 포함하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 식별정보는 상기 음성 데이터의 압축 인코딩 정보를 포함하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 단말은 상기 식별정보를 이용하여 상기 결정된 음성인식 엔진으로 상기 음성 데이터를 전송하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 단말은 상기 단말의 단말 정보, 서비스 정보 및 상기 제 2 프토토콜 연결의 네트워크 정보에 기초하여 상기 음성 데이터를 인코딩하고, 상기 인코딩된 음성 데이터를 상기 음성인식 엔진으로 전송하는 것인, 음성인식 제어 서버.
제 1 항에 있어서,
상기 요청신호 수신부는 복수의 단말 중 제 1 단말로부터 음성인식 요청신호를 수신하고,
상기 음성인식 엔진 결정부는 상기 음성인식 요청신호에 포함된 제 2 단말의 단말 정보에 기초하여 상기 제 2 단말에 대응하는 음성인식 엔진을 결정하고,
상기 식별정보 결정부는 상기 제 2 단말과 상기 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하고,
상기 식별정보 전송부는 상기 제 2 단말로 전송하는 것인, 음성인식 제어 서버.
네트워크를 통하여 단말과 제 1 프로토콜 연결을 설정하는 단계;
상기 설정된 제 1 프로토콜 연결을 기반으로 상기 단말로부터 음성인식 요청신호를 수신하는 단계;
상기 음성인식 요청신호에 기초하여 복수의 음성인식 엔진들 중 상기 단말에 대응하는 음성인식 엔진을 결정하는 단계;
상기 단말과 상기 결정된 음성인식 엔진간에 음성 데이터가 전송되는 제 2 프로토콜 연결의 식별정보를 결정하는 단계; 및
상기 결정된 식별정보를 상기 단말로 전송하는 단계를 포함하는 음성인식 제어 방법.
네트워크를 통하여 음성인식 제어 서버와 설정된 제 1 프로토콜 연결을 기반으로 상기 음성인식 제어 서버로 음성인식 요청신호를 전송하는 요청신호 전송부;
상기 음성인식 제어 서버로부터 복수의 음성인식 엔진들 중 어느 하나의 음성인식 엔진의 식별 정보를 수신하는 식별정보 수신부;
상기 수신된 식별 정보에 기초하여 상기 어느 하나의 음성인식 엔진과 제 2 프로토콜 연결을 설정하는 연결 설정부;
상기 설정된 제 2 프로토콜 연결을 기반으로 상기 어느 하나의 음성인식 엔진으로 음성 데이터를 전송하는 음성 데이터 전송부; 및
상기 어느 하나의 음성인식 엔진으로부터 상기 전송된 음성 데이터에 대응하는 결과정보를 수신하는 결과정보 수신부를 포함하는 단말.
제 15 항에 있어서,
상기 음성인식 요청신호는 상기 단말의 단말 정보를 포함하는 것인, 음성인식 제어 서버.
제 15 항에 있어서,
상기 제 1 프로토콜은 상기 제 2 프로토콜과 다른 통신 계층 기반의 프로토콜인 것인, 음성 인식 제어 서버.
제 15 항에 있어서,
상기 식별정보는 상기 음성 데이터의 압축 인코딩 정보를 포함하고,
상기 음성 데이터 전송부는 상기 압축 인코딩 정보에 기초하여 상기 음성 데이터를 인코딩하고, 상기 인코딩된 음성 데이터를 상기 어느 하나의 음성인식 엔진으로 음성 데이터를 전송하는 것인, 단말.
제 15 항에 있어서,
상기 음성 데이터 전송부는 상기 단말의 단말 정보, 서비스 정보 및 상기 제 2 프토토콜 연결의 네트워크 정보에 기초하여 상기 음성 데이터를 인코딩하고, 상기 인코딩된 음성 데이터를 상기 음성인식 엔진으로 전송하는 것인, 단말.
제 15 항에 있어서,
상기 결과정보에 기초하여 검색 서버로 검색 요청 신호를 전송하는 검색 요청부를 더 포함하고,
상기 검색 요청 신호는 상기 단말과 연관된 대상 단말로 상기 검색 요청 신호에 대응하는 검색 결과를 제공할 것을 요청하는 신호인 것인, 단말.