KR20150103222A

KR20150103222A - 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템

Info

Publication number: KR20150103222A
Application number: KR1020157020795A
Authority: KR
Inventors: 산푸 리; 밍제 동
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-01-06
Filing date: 2013-12-20
Publication date: 2015-09-09
Also published as: KR101838095B1; CN103915095A; US10229684B2; US10971156B2; US20210366483A1; US11676605B2; CN103915095B; WO2014106433A1; US20150310864A1; US20190156833A1

Abstract

본 발명의 실시예는 음성 인식 방법, 장치 및 시스템을 제공한다. 음성 인식 방법은: 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에(before delivery of a device) 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다. 전술한 기술적 해결책에서, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.

Description

음성 인식 방법, 사용자 장치, 서버 및 시스템{VOICE RECOGNITION METHOD, USER EQUIPMENT, SERVER AND SYSTEM}

본 특허출원은, 2013년 1월 6일에 중국 특허청에 출원되고 발명의 명칭이 “METHOD, INTERACTION DEVICE, SERVER, AND SYSTEM FOR SPEECH RECOGNITION”인 중국 특허 출원 제201310003504.4호에 대한 우선권을 주장하는 바이며, 상기 문헌들의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.

본 발명은 상호 작용 장치 애플리케이션의 분야에 관한 것으로서, 구체적으로, 음성 인식 방법, 상호 작용 장치, 서버, 및 시스템에 관한 것이다.

종래의 기술에서, 사용자는 상호 작용 장치(사용자 장치(User Equipment), 줄여서 UE라 함)에 대한 다양한 애플리케이션을 유연하고 독립적으로 다운로드할 수 있다. 그러나, 이러한 모든 애플리케이션이 단말기 제조사에 의해 제공되지는 않는다. 상호 작용 장치에 내장되어 있지는 않으나, 사용자에 의해 획득되는 애플리케이션은 제3자 애플리케이션(third-party application), 예컨대, Apple사의 앱 스토어(App store) 내의 애플리케이션 및 안드로이드 마켓(Android market) 내의 애플리케이션으로 나타낸다. 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램일 수도 있다. 제3자 애플리케이션은 운영 체제에서 독립적이지만, 운영 체제의 운영 환경에서 호출되고 실행될 수 있는 프로그램 집합 또는 명령 집합이다. 수많은 제3자 애플리케이션과 함께, 사용자가 선택할 수 있는 애플리케이션은 상당히 풍부해졌다. 현재, 상호 작용 장치의 가장 일반적인 2가지 운영 체제는 안드로이드(Android) 운영 체제와 애플 운영 체제(줄여서 iOS라 함)이며, 2가지 운영 체제 모두 제3자 애플리케이션을 지원할 수 있다. 안드로이드 플랫폼 상에, 제3자는 판매를 위해 안드로이드 마켓에 개발한 애플리케이션을 업로드할 수 있고, iOS 플랫폼 상에, 제3자는 판매를 위해 앱 스토어에 개발한 애플리케이션을 업로드할 수 있다.

상호 작용 장치의 사용자는 네트워크에 연결하여 안드로이드 마켓 또는 앱 스토어 내의 애플리케이션을 상호 작용 장치에 다운로드할 수 있고, 이러한 애플리케이션은 무료 또는 유료일 수 있으며, 이러한 애플리케이션은, 예를 들면 소셜 메시지 소프트웨어 QQ, 인스턴트 메시지 소프트웨어 Skype, 또는 쇼핑 소프트웨어 Taobao와 같은 가장 일반적인 소프트웨어를 포함한다. 전술한 애플리케이션은 단말기에 아이콘으로 표시된다. 사용자가 제3자 애플리케이션을 시작해야 할 때, 사용자는 터치스크린 상의 대응하는 아이콘을 탭핑(tapping)하여 제3자 애플리케이션의 시작을 촉발한다.

상호 작용 장치에 대해, 대응하는 아이콘을 탭핑(tapping)하지 않고 어떻게 음성 인식의 방법으로 보다 지능적으로 제3자 애플리케이션을 시작하는지가 까다로운 문제이다.

이러한 측면에서, 본 발명의 실시예가 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템을 제공하므로, 음성 인식 방법으로 제3자 애플리케이션을 시작하는 문제를 해결할 수 있다.

제1 측면에 따르면, 음성 인식 방법은, 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다.

제1 가능 구현 방법에서, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에, 상기 방법은, 제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계를 더 포함한다.

제1 측면 또는 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 방법은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계; 및 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계를 더 포함하고, 여기서 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.

제1 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 방법은, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 더 포함한다.

제1 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 방법은, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계; 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계; 프롬프트 정보를 전송하는 단계 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구(prompt)하는데 이용됨 - ; 및 상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계를 더 포함하고, 대응하여, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는 구체적으로, 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다.

제1 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 선택 명령은 제2 음성 신호이고, 대응하여, 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계; 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및 상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계를 포함한다.

제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 상기 방법은, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계 전에, 상기 제3자 애플리케이션 레지스트리를 생성하는 단계를 더 포함한다.

제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 단계를 더 포함함다.

제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 방법은, 상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하는 단계; 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및 상기 시작된 제3자 애플리케이션이 상기 제3차 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계를 더 포함한다.

제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 방법은 상호 작용 장치에 의해 실행된다.

제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고, 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행된다.

제2 측면에 따르면, 음성 인식을 위한 상호 작용 장치는, 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고, 상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고, 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고, 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고, 상기 시작 유닛은, 상기 저장 유닛에 액세스하고, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고, 상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있다.

제1 가능 구현 방법에서, 상호 작용 장치는, 음성 인식 유닛을 더 포함하고, 상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하고, 상기 하나 이상의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있다.

제2 측면 또는 제2 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상호 작용 장치는, 음성 인식 유닛을 더 포함하고, 상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 상기 적어도 2개의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있고, 상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.

제2 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.

제2 측면 또는 제2 측면의 전술한 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함하고, 상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고, 상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고, 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고, 상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고, 상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.

제2 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 음성 인식 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 상기 제2 텍스트를 상기 파싱 유닛에 전송하도록 더 구성되어 있고, 상기 파싱 유닛은, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고, 상기 결정 유닛은, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있다.

제2 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 상기 상호 작용 장치는 생성 유닛을 더 포함하고, 상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송한다.

제2 측면 또는 제2 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송한다.

제3 측면에 따르면, 음성 인식을 위한 서버는, 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고, 상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고, 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고, 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고, 상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있다.

제1 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 상기 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.

제3 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 서버는 전송 유닛 및 수신 유닛을 더 포함하고, 상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고, 상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고, 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고, 상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고, 상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.

제3 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 파싱 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고, 상기 제2 텍스트는 상기 제2 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은 구체적으로, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 서버는 생성 유닛을 더 포함하고, 상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송한다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법 중 어느 하나를 참고하면, 제6 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송한다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 시작 유닛이 상기 제3자 애플리케이션을 시작한 후에, 상기 제3자 애플리케이션이 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 상기 시작된 제3자 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출한다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 수신 유닛은, 상기 제1 텍스트가 파싱되어 상기 제1 타겟 시맨틱을 획득하기 전에, 상호 작용 장치에 의해 전송된 상기 제1 텍스트를 수신하도록 더 구성되어 있다.

제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 전송 유닛은, 상기 제3자 애플리케이션이 시작된 후에, 응답 피드백을 상기 상호 작용 장치에 전송하도록 더 구성되어 있다.

제4 측면에 따르면, 음성 인식을 위한 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하고; 상기 메모리는 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하고, 상기 프로세서는 전술한 방법의 명령을 실행한다.

제1 가능 구현 방법에서, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하기 전에, 상기 프로세서는 제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득한다.

제4 측면 또는 제4 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 프로세서는 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하고, 여기서 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.

제4 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 프로세서는, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

제4 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 프로세서는 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고; 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 프롬프트 정보를 전송하고 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 - ; 상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 이에 따라 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 것은 구체적으로, 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.

제4 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 선택 명령은 제2 음성 신호이고, 대응하여, 상기 프로세서가 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 것은 구체적으로, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고; 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고; 상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 것을 포함한다.

제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 프로세서는 상기 제3자 애플리케이션 레지스트리를 생성하고 제3자 애플리케이션 레지스트리를 상기 메모리에 전송한다.

제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 프로세서는, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 것을 더 포함한다.

제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 프로세서가 상기 제3자 애플리케이션을 시작한 후에, 상기 프로세서는 상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하고; 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고; 상기 시작된 제3자 애플리케이션이 상기 제3차 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 것을 더 포함한다.

제5 측면에 따르면, 음성 인식을 위한 시스템은 전술한 상호 작용 장치, 서버, 또는 장치의 어느 하나를 제공한다.

전술한 기술적 해결책에 따르면, 사용자의 음성 신호에 대응하는 제3자 애플리케이션이 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고, 제3자 애플리케이션 레지스트리 정보 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.

본 발명의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는데 필요한 첨부된 도면을 간략하게 소개한다. 명백하게, 이하의 설명의 첨부된 도면은 단지 본 발명의 일부 실시예를 도시한 것이고, 통상의 기술자는 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출할 수 있다.
도 1은, 본 발명의 제1 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 2는, 본 발명의 제2 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 3은, 본 발명의 일 실시예에 따라, 제3자 애플리케이션이 시작된 후, 상호 작용 장치를 작동시키는 개략적인 다이어그램이다.
도 4는, 본 발명의 제3 실시예에 따른 음성 인식 기능을 지원하는 제3자 애플리케이션의 개략적인 다이어그램이다.
도 5는, 본 발명의 제4 실시예에 따른 음성 인식을 위한 시스템의 개략적인 아키텍처 다이어그램이다.
도 6은, 본 발명의 제5 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 7은, 본 발명의 제7 실시예에 따른 음성 인식을 위한 상호 작용 장치의 개략적인 블록도이다.
도 8은, 본 발명의 제8 실시예에 따른 음성 인식을 위한 상호 작용 장치의 개략적인 블록도이다.
도 9는, 본 발명의 제9 실시예에 따른 음성 인식을 위한 서버의 개략적인 블록도이다.
도 10은, 본 발명의 제10 실시예에 따른 음성 인식을 위한 서버의 개략적인 블록도이다.
도 11은, 본 발명의 제11 실시예에 따른 음성 인식을 위한 장치의 개략적인 블록도이다.

이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예의 기술적 해결책을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예는 본 발명의 모든 실시예가 아닌 일부 실시예이다. 통상의 기술자에 의해 창조적 노력 없이 본 발명의 실시예에 기초하여 획득되는 다른 모든 실시예는 본 발명의 보호 범위에 속한다.

본 명세서의 용어 “및/또는”은 연관 객체를 설명하는 연관 관계만을 설명하며, 3가지 관계가 존재할 수 있다는 것을 나타낸다. 예를 들면, A 및/또는 B는 다음 3가지 경우를 나타낼 수 있다: 오직 A만 존재, A와 B 모두 존재, 및 오직 B만 존재. 추가로, 본 명세서의 부호 ‘/’는 일반적으로 관련 객채 사이의 ‘또는’ 관계를 지시한다.

음성 인식 기술은 기계, 즉, 장치가, 인식을 이용하고 절차를 이해하여, 음성 신호를 대응하는 텍스트 또는 커맨드로 변환 가능하도록 하는 기술이다. 음성 인식 기술은 주로 3가지 측면을 포함한다: 특징 추출 기술(feature extraction technologies), 패턴 매칭 기준(pattern matching criteria), 및 모델 트레이닝 기술(model training technologies).

종래의 기술에서, 음성 인식 기술은 일반적으로 텍스트 또는 커맨드의 형식으로 인식 결과를 출력한다. 전체 음성 인식 과정에서, 음성 신호가 입력되어 처리되고, 그 후 텍스트 콘텍스트(context)가 출력되거나 커맨드가 출력되어 다른 장치를 구동하는데, 이는 마우스 또는 키보드 입력이라는 일반적인 방식에 대한 변화를 가져온다

종래의 기술에서, 상호 작용 장치는, 예를 들면, 스마트폰, 타블렛 컴퓨터(Tablet PC) 및 게임 콘솔을 포함할 수 있다. 전술한 상호 작용 장치는 일반적으로 음성 인식 기능을 가지고 있고, 음성 인식 기능에 의한 음성에서 텍스트로의 변환의 정확도를 계속해서 향상시킨다. 그러나, 제3자 애플리케이션이 이 상호 작용 장치 상에서 시작되면, 이 애플리케이션은 오직 탭핑(tapping) 또는 마우스 클릭의 방식으로만 호출될 수 있다. 따라서, 사용자는, 예를 들면 제3자 애플리케이션이 음성 인식에 의해 곧바로 시작될 수 있도록 하는 것과 같이, 상호 작용 장치의 지능 레벨을 향상시키고 싶어한다. 본 발명의 일 실시예는, 제3자 애플리케이션이 사용자의 음성 신호에 따라 곧바로 시작되는 쟁점을 구현할 수 있는 방법을 제공한다.

도 1은, 본 발명의 제1 실시예에 따른 음성 인식 방법의 개략적인 흐름도이고, 이하의 내용을 포함한다.

S11. 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하고, 여기서 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득된다.

S12. 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.

S11 및 S12는 또한 콘텍스트(context)의 시맨틱 분석으로 나타내어진다.

S13. 제3자 애플리케이션 레지스트리(registry)로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

다른 실시예에서, 제3자 애플리케이션은 사용자의 상호 작용 장치 상에 다운로드될 수 있거나, 또는 서버 상에 다운로드될 수 있고; 음성 신호를 텍스트로 변환하는 음성 인식 기능은 상호 작용 장치에 설치되어 있을 수 있거나, 또는 서버에 설치되어 있을 수 있고; 텍스트를 파싱하여 타겟 시맨틱을 획득하고, 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 상호 작용 장치에 의해 실행될 수 있거나, 또는 서버에 의해 실행될 수 있는 제3자 애플리케이션을 시작한다. 서버는, 이하에서 제3자 애플리케이션을 위한 지원을 제공하는 제3자 서버와 상이한 상호 작용 장치를 위해 지원 서비스를 제공하는데 이용된다.

본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.

선택적으로, 다른 실시예에서, 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에, 상기 방법은, 제1 음성 신호를 획득하는 단계, 및 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하는 단계를 더 포함한다.

선택적으로, 다른 실시예에서, 상기 방법은, 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계를 포함하고, 이에 따라, 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계 - 더 높은 스코어(score)는 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 및 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 더 포함한다.

선택적으로, 다른 실시예에서, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계는, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 포함한다.

선택적으로, 다른 실시예에서, 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계는 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계; 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계; 프롬프트 정보를 전송하는 단계 - 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 - ; 및 선택 명령을 수신하고, 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계를 포함하고, 이에 따라, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계는 구체적으로, 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계를 포함한다.

선택적으로, 다른 실시예에서, 선택 명령은 제2 음성 신호이고, 이에 따라, 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로, 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계; 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계를 포함한다.

선택적으로, 다른 실시예에서, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계 전에, 상기 방법은, 제3자 애플리케이션 레지스트리를 생성하는 단계를 더 포함한다.

선택적으로, 다른 실시예에서, 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하는 단계를 더 포함한다.

선택적으로, 다른 실시예에서, 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및 시작된 제3자 애플리케이션이 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계를 더 포함한다.

선택적으로, 다른 실시예에서, 상기 방법은 상호 작용 장치에 의해 실행된다.

선택적으로, 다른 실시예에서, 상기 방법에 따르면, 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행된다.

도 2는, 본 발명의 제2 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다. 제2 실시예에서, 상호 작용 장치는 이 방법을 실행하고, 사용자는 제3자 애플리케이션을 이 상호 작용 장치에 저장한다. 상호 작용 장치는 적어도 음성 인식 유닛, 파싱 유닛, 결정 유닛, 시작 유닛, 저장 유닛, 및 이와 유사한 것을 포함한다.

S21. 상호 작용 장치는 제1 음성 신호를 수신한다.

여기서, 제1 음성 신호는, 예를 들면, “Is old Hu online”와 같은 사용자의 단어이다. 상호 작용 장치는 마이크로폰을 이용하여 제1 음성 신호를 수신할 수 있다.

S22. 상호 작용 장치는 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득한다.

제1 신호를 수신한 후, 상호 작용 장치의 음성 인식 유닛은 음성 파형을 텍스트로 변환하고(음성에서 텍스트로), 여기서 텍스트는 전술한 제1 텍스트에 대응한다. 변환 후에 음성 인식 유닛에 의해 출력되는 제1 텍스트는 “Is old Hu online”, “Is old Hu first” 및/또는 “Is Tiger online”일 수 있고, 처리를 위해 결정 유닛으로 전송된다. 본 발명의 이 실시예에서, 상호 작용 장치는 음성 인식 유닛, 파싱 유닛, 결정 유닛, 및 시작 유닛을 포함하고, 각 유닛은 본 발명의 제2 실시예의 특정 단계를 개별적으로 실행한다. 다른 실시예에서, 음성 인식 유닛 및 파싱 유닛, 결정 유닛 및 사직 유닛은 상이한 장치에 포함될 수 있다.

S23. 상호 작용 장치는, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 시맨틱을 개별적으로 스코어링한다.

[87]상호 작용 장치의 파싱 유닛은, 제1 텍스트에 따라, 대응하는 선택적인 시맨틱을 목록화(list)하는데, "old Hu"가 상호 작용 장치의 주소록에 존재하고, “online”과 같은 발생 확률이 높은 단어가 사용자의 이전의 음성 입력에 존재하는 경우를 예로 든다. 파싱 유닛은 복수의 조합, 예를 들면, "Is old Hu online", "Is old Hu first", 및 "Is Tiger online"을 분류하고, 이 시맨틱의 자연스러움 및 일관성에 따라 각 조합을 스코어링하며, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.

선택적으로, 다른 실시예에서, 파싱 유닛은 스코어링 임계값을 설정할 수 있고, 사전 결정된 스코어링 규칙에 따라 제1 텍스트의 시맨틱의 다양한 조합을 스코어링할 수 있다. 파싱 유닛은 분석 태스크(task)를 수행하고, 제1 텍스트의 시맨틱의 스코어가 가장 높고 사전 결정된 임계값을 초과하는 경우에만 저장 유닛에 액세스한다.

S28. 상호 작용 장치가 제1 음성 신호를 변환하고 하나의 제1 텍스트만 획득하면, 제1 텍스트의 시맨틱을 이용하여 제1 타겟 시맨틱을 곧바로 결정한다. 스코어링 과정 S23 및 S24는 스킵될 수 있고, 대신 단계 S25 및 다음의 단계가 실행된다.

S24. 상호 작용 장치는, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

[91]선택적으로, 일 실시예에서, 상호 작용 장치의 파싱 유닛이 제1 텍스트 중 가장 높은 스코어를 가지는 한 편(piece)의 시맨틱, 예컨대, “Old Hu is online“만을 획득하면, S25이 그 다음으로 실행된다.

다른 실시예에서, 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지지 않거나, 또는 2개 이상의 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지면, 파싱 유닛은 콘텍스트(context)에 따라 음성 인식 유닛에 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백한다. 선택적으로, 파싱 유닛은, 시맨틱의 콘텍스트에 따라, “online”이 텍스트 의사 소통 및 음성 의사 소통과 밀접하게 연관되어 있다는 것을 분석한다, 즉, 음성 인식 유닛에 커맨드, 예를 들면, “Do you hope to have online speech communication or online text communication”을 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 커맨드를 사용자에게 피드백할 수 있으므로, 사용자는 더 많은 요건을 입력한다. 예를 들어, 사용자가 “speech”로 대답하면, 이에 따라 “speech” 요건이 추가되고, 파싱 유닛은 “speech” 및 “online”을 제1 타겟 시맨틱으로 사용한다.

S25. 상호 작용 장치는, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3 애플리케이션 객체를 결정한다.

상호 작용 장치의 결정 유닛은 선택된 제1 타겟 시맨틱에 따라 관련 태스크를 결정한다, 예컨대, “online”에 대응하는 태스크는 소셜 태스크이고; 시작 유닛은, QQ 및/또는 Skype와 같은, 대응하는 제3자 애플리케이션을 시작해야 한다. 설명의 편의를 위해, 이 명세서에서, 후보 제3자 애플리케이션은 제3자 애플리케이션 객체로 나타내어진다. 결정 유닛은, 본 발명에 제한되는 것은 아니지만, 사전 정의된 시맨틱과 제3자 애플리케이션 사이의 연관 관계에 기초하여 또는 제3자 애플리케이션의 사용 빈도수에 따라, 그것 스스로 선택하고, 제1 타겟 시맨틱을 이용하여 제3자 애플리케이션 객체를 결정할 수 있다.

일 실시예에서, 제1 타겟 시맨틱에 대응하는 하나의 제3자 애플리케이션 객체(예컨대, 인스턴트 메시지 소프트웨어 Skype)만이 제1 타겟 시맨틱에 따라 결정된다.

다른 실시예에서, 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함할 수 있다. 결정된 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상호 작용 장치는 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 수신 유닛은 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛은 선택 명령을 수신하고, 결정 유닛은 수신된 선택 명령에 따라 구체적으로 대응하는 타겟 제3자 애플리케이션 객체를 선택하고; 이에 따라, 시작 유닛은 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

적어도 2개의 제3자 애플리케이션 객체, 예컨대, 인스턴트 메시지 소프트웨어 Skype 및 소셜 메시지 소프트웨어 QQ가 제1 타겟 시맨틱에 따라 발견되면, 결정 유닛은, 콘텍스트에 따라 음성 인식 유닛에, 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백할 수 있다, 예를 들어, “Do you hope to have instant communication by Skype or social communication by QQ” 커맨드를 음성 인식 유닛에 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 사용자에게 이 커맨드를 피드백하므로, 사용자는 더 많은 요건을 입력한다. 사용자가 “Skype”라고 응답하면, 파싱 유닛은 “Skype”를 제2 타겟 시맨틱으로 사용한다. 그 다음, 결정 유닛은, 제2 타겟 시맨틱에 따라, 타겟 제3자 애플리케이션 객체가 인스턴트 메시지 소프트웨어 Skype라는 것을 결정한다.

S26. 상호 작용 장치는, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

상호 작용 장치의 시작 유닛은 결정된 제3자 애플리케이션에 대한 제3자 애플리케이션 등록 정보를 탐색하고, 제3자 애플리케이션을 시작한다.

특정 제3자 애플리케이션을 결정한 후, 시작 유닛은 저장 유닛에 액세스한다. 저장 유닛은 상호 작용 장치가 켜졌(power on)을 때 생성된 제3자 애플리케이션 등록 정보 테이블 또는 프로그램이 설치되었을 때 생성된 제3자 애플리케이션 등록 정보 테이블을 저장한다. 시작 유닛은 대응하는 프로그램, 예컨대 Skype를 찾아, 그 프로그램을 시작한다. 출하 전에 상호 작용 장치와 함께 제공되는 디폴트 애플리케이션 레지스트리와 상이한, 제3자 애플리케이션 등록 정보 테이블은, 제3자 애플리케이션 등록 정보 테이블이 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션이 획득되기 전에 제3자 애플리케이션 레지스트리로부터 생성되고 제3자 애플리케이션이 시작되는 한, 제3자 애플리케이션이 설치될 때 생성될 수 있고, 제3자 애플리케이션이 설치된 후 상호 작용 장치가 켜졌을 때 생성될 수도 있다. 이 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치에 저장되어 있다. 다른 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치를 제외한 다른 장치에 저장되어 있을 수도 있거나, 또는 상호 작용 장치와 다른 장치 모두에 저장되어 있을 수도 있다.

S27. 제3자 애플리케이션이 시작한 후에, 상호 작용 장치는 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 이 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하고, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.

도 3은, 본 발명의 일 실시예에 따라, 제3자 애플리케이션이 시작된 후, 상호 작용 장치를 작동시키는 개략적인 다이어그램이다. 제3자 애플리케이션(32)을 시작한 후, 상호 작용 장치(31)는 제3자 애플리케이션(32)과 정의된 API(33)를 이용하여 통신한다. 제3자 애플리케이션이 비디오 또는 음성 채팅 기능을 필요로 하면, 상호 작용 장치의 운영 체제(34)에 사전 정의된 오디오 API 인터페이스 및 비디오 API 인터페이스를 이용하여 상호 작용 장치의 카메라(35) 및 마이크로폰(36)을 호출한다. 상호 작용 장치의 기존의 운영 체제에서, 수많은 API가 다양한 제3자 애플리케이션을 지원하기 위해 정의되어 있으므로, 상이한 기능을 실행할 수 있다. 이러한 API를 이용하여, 제3자 애플리케이션은 상호 작용 장치의 플랫폼과 통신하고 상호 작용 장치의 다양한 리소스를 호출할 수 있다.

예를 들면, 제3자 애플리케이션이 시작된 후, 제3자 애플리케이션은 파싱 유닛의 시맨틱 커맨드를 수신하고, 이 시맨틱 커맨드에 따라 대응하는 동작을 완료한다. 예를 들면, 제3자 애플리케이션 QQ가 시작된 후, 파싱 유닛은, 사전 정의된 API에 의해 전달될 수도 있는, 시맨틱 커맨드를 QQ에 전송하고; 커맨드를 수신한 후, QQ는 통신 객체의 상태(status)(즉, 이름이 “Old Hu”인 친구)에 대한 QQ의 친구 목록를 탐색하고, 상태 정보를 파싱 유닛에 피드백하고; 파싱 유닛은 이 상태 정보를 대응하는 시맨틱으로 변환하고, 음성 인식 유닛을 이용하여 사용자에게 이 시맨틱을 출력하고, 마지막으로, 예컨대, “Old Hu is not online”과 같은 음성 정보의 형식으로 출력하여 사용자에게 통지한다. 이 과정에서, 제3자 애플리케이션은 사용자 인증이 필요할 수 있고, 사용자 계정 및 암호가 입력으로 요구되고, 여기서 이 유형의 정보는 파싱 유닛 및 음성 인식 유닛을 이용하여 제3자 애플리케이션에 의해 사용자에게 피드백되고; 사용자는 음성 또는 키보드 방식으로 대응하는 계정 및 암호를 입력한다.

본 발명의 제2 실시예에서, 사용자는 음성으로만 커맨드를 전송해야 하고, 상호 작용 장치는 음성을 인식할 수 있고, 나아가 시맨틱 분석을 수행할 수 있고, 마지막으로 제3자 애플리케이션을 시작한다; 또한, 상호 작용 장치는 나아가 제3자 애플리케이션을 시작한 후에 제3자 애플리케이션과 연관된 상태 정보를 사용자에게 피드백할 수 있다. 이것은 제3자 애플리케이션을 시작하는 새로운 방법을 제공하고 사용자의 사용을 상당히 용이하게 한다.

음성 인식 유닛 및 파싱 유닛과 같은 전술한 유닛 사이에 상호 작용하는 텍스트 정보는 디코딩된 코드일 수 있고, 음성 또는 화면 상의 텍스트(onscreen text)의 형식으로 사용자에게 보여질 수 있다.

본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.

도 4는, 본 발명의 제3 실시예에 따른 음성 인식 기능을 지원하는 제3자 애플리케이션의 개략적인 아키텍처 다이어그램이다. 제3 실시예에서, 상호 작용 장치는 음성 인식 기능을 가지고 있고, 사용자는 제2 실시예에서의 제3자 애플리케이션과 상이한 제3자 애플리케이션을 상호 작용 장치에 다운로드하고, 이 제3자 애플리케이션 스스로 음성 인식 기능도 지원하고, 사용자의 음성 입력에 따라 관련 동작을 실행할 수 있다. 따라서, 제2 실시예에서의 사용자의 음성 신호에 따른 대응하는 제3자 애플리케이션을 인식하고 시작하는 과정은 제3 실시예에서의 것과 동일하고, 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다. 차이점은, 제3자 애플리케이션이 제3 실시예에서 시작된 후, 제3자 애플리케이션에 의한 태스크를 실행하는 과정에 있다.

도 4를 참조하면, 제3자 애플리케이션(41)이 시작된 후, 제3자 애플리케이션(41) 스스로 음성 인식 기능을 가지고 있기 때문에, 사용자의 음성 신호(42)를 곧바로 수신할 수 있고, 음성 신호(42)를 인식하여 대응하는 커맨드를 획득하고 관련 동작을 실행할 수 있다. 제3자 애플리케이션은 사용자의 음성 신호(42)를 수신하고, 이 음성 신호(42)를 변환하여 텍스트를 획득하고, 텍스트의 시맨틱의 파싱을 완료하고, 시맨틱에 대응하는 태스크를 실행한다. 선택적으로, 제3자 애플리케이션(41)은 제3자 애플리케이션(41)에 대응하는 제3자 서버(43)를 이용하여 시맨틱 분석 및 태스크 실행을 구현할 수 있다. 텍스트의 시맨틱 커맨드에 따라 제3자 애플리케이션(41)이 상호 작용 장치(44)의 리소스를 호출해야 하면, 제3자 애플리케이션(41)은 상호 작용 장치의 운영 체제(45)에 의해 정의된 API(46)를 이용하여 상호 작용 장치에 접촉하여, 연관 리소스를 시작하다, 예컨대, 카메라(47) 및 마이크로폰(48)을 호출하여 비디오 통신을 수행한다. 예를 들면, 상호 작용 장치에 의해 시작된 제3자 애플리케이션이 QQ이고, 대응하는 제3자 서버가, 예컨대 텐센트의 서버라면, 제3자 애플리케이션과 제3자 서버 사이의 통신은 제3자에 의해 정의된 사설 인터페이스 및 프로토콜일 수 있다. 제3자 애플리케이션이 지도이고 제3자 애플리케이션이 상호 작용 장치의 GPS 정보를 호출해야 한다면, 상호 작용 장치의 주소 정보가 대응하는 API를 이용하여 질의될 수 있고, 특정 지도 정보에 대해, 대응하는 지도 정보가 제3자 애플리케이션의 제3자 서버를 액세스하여 제3자 애플리케이션에 의해 획득될 수 있다.

도 5는, 본 발명의 제4 실시예에 따른 음성 인식을 위한 시스템의 개략적인 아키텍처 다이어그램이다. 시스템(50)은 상호 작용 장치(51) 및 서버(52)를 포함한다. 상호 작용 장치(51)는 음성 인식 유닛(511), 저장 유닛(512), 운영 체제(513), 카메라(514), 마이크로폰(515), 및 이와 유사한 것을 포함할 수 있다. 서버(52)는 제3자 애플리케이션(522), 저장 유닛(523), 파싱 유닛, 결정 유닛, 및 시작 유닛을 포함할 수 있고, 파싱 유닛, 결정 유닛 및 시작 유닛은 도 5의 521로 표시되어 있다. 상호 작용 장치(51)는 네트워크(53)를 이용하여 서버(52)에 연결되어 있다. 운영 체제(513)는 다양한 제3자 애플리케이션(522)을 지원하는데 이용되는 복수의 API(516)를 정의한다.

도 5의 음성 인식을 위한 시스템에서, 상호 작용 장치는 음성 인식 기능만을 가지고 있다. 시맨틱 분석의 기능 및 제3자 애플리케이션의 시작은 서버에 의해 완료되고, 제3자 애플리케이션은 서버에 저장되어 있다. 선택적으로, 이러한 제3자 애플리케이션은 음성 인식 기능을 제공하지 않는다. 저장 유닛은 상호 작용 장치 및 서버 모두에 포함될 수 있거나, 또는 둘 중 하나에 위치될 수 있다. 시작 유닛이 저장 유닛에 액세스할 때, 시작 유닛은 하나의 저장 유닛을 택일하여 선택할 수 있다. 상호 작용 장치는 네트워크를 이용하여 서버에 연결되어 있고, 네트워크는 상호 작용 장치와 서버 사이의 통신을 위한 파이프를 제공하며, 무선 네트워크 또는 유선 네트워크일 수 있다.

도 6은, 본 발명의 제5 실시예에 따른, 도 5의 시스템(50)의 아키텍처에 기초한 음성 인식 방법의 개략적인 흐름도이다.

S61. 상호 작용 장치는 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하고, 제1 텍스트를 서버에 전송한다.

여기서, 제1 음성 신호는 사용자의 단어, 예컨대, "Is Old Hu online"이다. 제1 음성 신호가 상호 작용 장치의 마이크로폰에 의해 수신되면, 음성 파형은 상호 작용 장치의 음성 인식 유닛에 의해 제1 텍스트로 변환된다. 예를 들면, 변환 후에 음성 인식 유닛에 의해 출력된 제1 텍스트는 "Is old Hu online", "Is old Hu first", 및/또는 "Is Tiger online"일 수 있고, 처리를 위해 서버에 전송된다.

S62. 서버는 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득한다. 이 단계는 다음의 구체적 내용을 포함할 수 있다.

이 실시예에서, 서버는 파싱 유닛, 결정 유닛 및 시작 유닛을 포함한다. 서버의 파싱 유닛은 상호 작용 장치에 의해 전송된 적어도 2개의 제1 텍스트를 수신하고, 제1 음성 신호로부터의 변환을 통해 획득되고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 시맨틱을 개별적으로 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

선택적으로, 파싱 유닛은, 제1 텍스트에 따라, 대응하는 선택적인 시맨틱을 목록화(list)하는데, "old Hu"가 상호 작용 장치의 주소록에 존재하고, “online”과 같은 발생 확률이 높은 단어가 사용자의 이전의 음성 입력에 존재하는 경우를 예로 든다. 처리 유닛은 복수의 조합, 예를 들면, "Is old Hu online", "Is old Hu first", 및 "Is Tiger online"을 분류하고, 이 시맨틱의 자연스러움 및 일관성에 따라 각 조합을 스코어링하며, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.

선택적으로, 다른 실시예에서, 파싱 유닛은 스코어링 임계값을 설정할 수 있고, 사전 결정된 스코어링 규칙에 따라 제1 텍스트의 시맨틱의 다양한 조합을 스코어링할 수 있고, 적어도 2개의 제1 텍스트의 시맨틱에서, 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 제1 텍스트의 시맨틱을 제1 타겟 시맨틱으로 사용한다.

일 실시예에서, 가장 높은 스코어를 가지는 한 편(piece)의 시맨틱, 예컨대, “Old Hu is online“만 있으면, 파싱 유닛은 제1 텍스트의 시맨틱을 제1 타겟 시맨틱으로 사용한다.

다른 실시예에서, 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지지 않거나, 또는 2개 이상의 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지면, 파싱 유닛은 콘텍스트에 따라 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 상호 작용 장치의 음성 인식 유닛에 피드백할 수 있다. 전술한 실시예에서 설명된 바와 같이, 스코어링 후, 시맨틱 “online”은 시맨틱의 스코어링 임계값을 만족하지 않는다. 파싱 유닛은, 시맨틱의 콘텍스트에 따라, “online”이 텍스트 의사 소통 및 음성 의사 소통과 밀접하게 연관되어 있다는 것을 분석한다, 즉, 음성 인식 유닛에 커맨드, 예를 들면, “Do you hope to have online speech communication or online text communication”을 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 커맨드를 사용자에게 피드백할 수 있으므로, 사용자는 더 많은 요건을 입력한다. 예를 들면, 사용자가 “speech”로 대답하면, 이에 따라 “speech” 요건이 추가되고, 파싱 유닛은 “speech” 및 “online”을 제1 타겟 시맨틱으로 사용한다.

선택적으로, 다른 실시예에서, 상호 작용 장치가 제1 음성 신호를 변환하고, 하나의 제1 텍스트만을 획득하고, 제1 텍스트를 서버에 전송하면, 서버는 제1 텍스트의 시맨틱을 이용하여 제1 타겟 시맨틱을 곧바로 결정하고, 나아가 단계 S63 및 그 다음 단계를 실행한다.

S63. 서버는, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정한다.

결정 유닛은 선택된 제1 타겟 시맨틱에 따라 관련 태스크를 결정한다, 예컨대, “online”에 대응하는 태스크는 소셜 태스크이고; 시작 유닛은, QQ 및/또는 Skype와 같은, 대응하는 제3자 애플리케이션을 시작해야 한다. 설명의 편의를 위해, 이 명세서에서, 후보 제3자 애플리케이션은 제3자 애플리케이션 객체로 나타내어진다. 결정 유닛은, 본 발명에 제한되는 것은 아니지만, 사전 정의된 시맨틱과 제3자 애플리케이션 사이의 연관 관계에 기초하여 또는 제3자 애플리케이션의 사용 빈도수에 따라, 그것 스스로 선택하고, 제1 타겟 시맨틱을 이용하여 제3자 애플리케이션 객체를 결정할 수 있다.

다른 실시예에서, 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함할 수 있다. 결정된 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 서버는 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 수신 유닛은 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛은 선택 명령을 수신하고, 결정 유닛은 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하고; 이에 따라, 시작 유닛은 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

적어도 2개의 제3자 애플리케이션 객체, 예컨대, 인스턴트 메시지 소프트웨어 Skype 및 소셜 메시지 소프트웨어 QQ가 제1 타겟 시맨틱에 따라 발견되면, 처리 유닛은, 콘텍스트에 따라 음성 인식 유닛에, 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백할 수 있고, 처리 유닛은, 예를 들어, “Do you hope to have instant communication by Skype or social communication by QQ”와 같은 커맨드를 음성 인식 유닛에 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 사용자에게 이 커맨드를 피드백하므로, 사용자는 더 많은 요건을 입력한다. 사용자가 “Skype”라고 응답하면, 파싱 유닛은 “Skype”를 제2 타겟 시맨틱으로 사용한다. 그 다음, 결정 유닛은, 제2 타겟 시맨틱에 따라, 타겟 제3자 애플리케이션 객체가 인스턴트 메시지 소프트웨어 Skype라는 것을 결정한다.

S64. 서버는, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하고, 응답 피드백을 상호 작용 장치에 전송한다.

서버의 시작 유닛은 서버의 저장 유닛 또는 상호 작용 장치의 저장 유닛에 선택적으로 액세스할 수 있고, 제3자 애플리케이션 등록 정보 테이블에 따라, 결정된 제3자 애플리케이션을 탐색하고, 제3자 애플리케이션을 시작한다.

특정 제3자 애플리케이션을 결정한 후, 시작 유닛은 저장 유닛에 액세스한다. 상호 작용 장치의 저장 유닛은 제3자 애플리케이션 등록 정보 테이블을 저장하고 있고, 서버의 저장 유닛은 제3자 애플리케이션 및 제3자 애플리케이션 등록 정보 테이블을 저장하고 있다. 출하 전에 상호 작용 장치와 함께 제공되는 디폴트 애플리케이션 레지스트리와 상이한, 제3자 애플리케이션 등록 정보 테이블은, 제3자 애플리케이션이 설치될 때 생성될 수 있고, 제3자 애플리케이션이 설치된 후 상호 작용 장치가 켜졌을 때 생성될 수도 있다. 이 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치의 저장 유닛에 저장되어 있고, 서버의 시작 유닛은 상호 작용 장치의 저장 유닛에 액세스하여 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

S65. 상호 작용 장치는 서버에 의해 전송된 응답 피드백을 수신한다.

서버의 시작 유닛이 제3자 애플리케이션을 시작한 후에, 전송 유닛은 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 이 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하고, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.

선택적으로, 제3자 애플리케이션이 시작된 후에, 제3자 애플리케이션은 파싱 유닛의 시맨틱 커맨드를 수신하고, 시맨틱 커맨드에 따라 대응하는 동작을 완료한다. 예를 들어, 제3자 애플리케이션 QQ가 시작된 후, 파싱 유닛은, 사전 정의된 API에 의해 전달될 수도 있는, 시맨틱 커맨드를 QQ에 전송하고, 이 커맨드를 수신한 후, QQ는 통신 객체의 상태(즉, 이름이 “Old Hu”인 친구)에 대한 QQ의 친구 목록를 탐색하고, 상태 정보를 파싱 유닛에 피드백하고; 파싱 유닛은 이 상태 정보를 대응하는 시맨틱으로 변환하고, 상호 작용 장치의 음성 인식 유닛을 이용하여 사용자에게 이 시맨틱을 출력하고, 마지막으로, 예컨대, “Old Hu is not online”과 같은 음성 정보의 형식으로 출력하여 사용자에게 통지한다. 이 과정에서, 제3자 애플리케이션은 사용자 인증이 필요할 수 있고, 사용자 계정 및 암호가 입력으로 요구되고, 여기서 이 유형의 정보는 서버의 전송 유닛 및 상호 작용 장치의 음성 인식 유닛을 이용하여 제3자 애플리케이션에 의해 사용자에게 피드백되고; 사용자는 음성 또는 키보드 방식으로 대응하는 계정 및 암호를 입력한다.

선택적으로, 다른 제6 실시예에서, 이 실시예와 제4 및 제5 실시예 사이의 차이점은 제3자 애플리케이션 스스로 음성 인식 기능도 지원하고, 사용자의 음성 입력에 따라 관련 동작을 실행할 수 있다는 점이다. 따라서, 제6 실시예에서 인식의 처리 및 사용자의 음성 신호에 따라 대응하는 제3자 애플리케이션을 시작하는 것은 제4 실시예의 것과 동일하고, 제5 실시예를 참조하고, 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다. 차이점은, 제3자 애플리케이션이 제6 실시예에서 시작된 후, 제3자 애플리케이션에 의한 태스크를 실행하는 과정에 있다.

제3자 애플리케이션이 시작된 후, 제3자 애플리케이션 스스로 음성 인식 기능을 가지고 있기 때문에, 사용자의 음성 신호를 곧바로 수신할 수 있고, 커맨드에 따라 관련 동작을 실행할 수 있다. 제3자 애플리케이션은 사용자의 음성 신호를 수신하고, 이 음성 신호를 변환하여 텍스트를 획득하고, 텍스트의 시맨틱의 파싱을 완료하고, 시맨틱에 대응하는 태스크를 실행한다. 제3자 애플리케이션은 제3자 애플리케이션에 대응하는 제3자 서버를 이용하여 시맨틱 분석 및 태스크 실행을 구현할 수 있다. 텍스트의 시맨틱 커맨드에 따라 제3자 애플리케이션이 상호 작용 장치의 리소스를 호출해야 하면, 제3자 애플리케이션은 상호 작용 장치의 운영 체제에 의해 정의된 API를 이용하여 상호 작용 장치에 접촉하여, 연관 리소스를 시작하다, 예컨대, 카메라 및 마이크로폰을 호출하여 비디오 통신을 수행한다. 이 경우에, 상호 작용 장치에 의해 시작된 제3자 애플리케이션이 QQ이고, 대응하는 제3자 서버가, 예컨대 텐센트의 서버라면, 제3자 애플리케이션과 제3자 서버 사이의 통신은 제3자 스스로에 의해 정의된 사설 인터페이스 및 프로토콜일 수 있다. 제3자 애플리케이션이 지도이고 제3자 애플리케이션이 상호 작용 장치의 GPS 정보를 호출해야 한다면, 상호 작용 장치의 주소 정보가 대응하는 API를 이용하여 질의될 수 있고, 특정 지도 정보에 대해, 대응하는 지도 정보가 제3자 애플리케이션의 제3자 서버를 액세스하여 제3자 애플리케이션에 의해 획득될 수 있다.

도 7은, 본 발명의 제7 실시예에 따른 음성 인식을 위한 상호 작용 장치(70)의 개략적인 블록도이다. 상호 작용 장치(70)는 파싱 유닛(71), 결정 유닛(72), 시작 유닛(73), 저장 유닛(74), 및 이와 유사한 것을 포함할 수 있다. 예를 들면, 상호 작용 장치는 모바일 단말기 또는 태블릿 컴퓨터(태블릿PC)와 같은 장치일 수 있다.

파싱 유닛(71)은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스느는 제1 음성 신호로부터의 변환을 통해 획득된다.

결정 유닛(72)은 파싱 유닛에 의해 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.

시작 유닛(73)은 저장 유닛에 액세스하고, 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

저장 유닛(74)은 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장한다.

상호 작용 장치(70)는 본 발명의 제1 실시예의 음성 인식 방법을 실행할 수 있다. 세부 사항은 여기서 반복되어 설명되지 않는다.

도 8은, 본 발명의 제8 실시예에 따른 음성 인식을 위한 상호 작용 장치(80)의 개략적인 블록도이다. 상호 작용 장치(80)는 음성 인식 유닛(81), 파싱 유닛(82), 결정 유닛(83), 시작 유닛(84), 저장 유닛(85), 생성 유닛(86), 전송 유닛(87), 및 수신 유닛(88)을 포함한다. 상호 작용 장치 80의 파싱 유닛(82), 결정 유닛(83), 시작 유닛(84) 및 저장 유닛(85)은 상호 작용 장치 70의 파싱 유닛(71), 결정 유닛(72), 시작 유닛(73) 및 저장 유닛(74)과 동일하거나 유사하다. 차이점은 상호 작용 장치 80이 음성 인식 유닛(81), 생성 유닛(86), 전송 유닛(87), 및 수신 유닛(88)을 더 포함한다는 점이다.

음성 인식 유닛(81)은 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하고, 하나 이상의 제1 텍스트를 파싱 유닛(82)에 전송한다.

상호 작용 장치가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객채와 연관된 제3자 애플리케이션를 획득하고 이 제3자 애플리케이션을 시작하기 전에, 생성 유닛(86)은 제3자 애플리케이션 레지스트리를 생성하고 이 제3자 애플리케이션 레지스트리를 저장 유닛(85)에 전송한다.

파싱 유닛(82)은 구체적으로 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

파싱 유닛(82)은 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

결정 유닛(83)은 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 전송 유닛(87)은 프롬프트 정보를 전송하고, 여기서 프롬프트 정보는, 결정 유닛(83)이 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛(88)은 선택 명령을 수신하고, 결정 유닛(83)은 구체적으로, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 시작 유닛은, 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

음성 인식 유닛(81)은 나아가, 선택 명령이 제2 음성 신호이면, 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 제2 텍스트를 파싱 유닛(82)에 전송하고; 파싱 유닛(82)은 나아가, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고, 결정 유닛(83)은, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.

제3자 애플리케이션을 시작한 후에, 시작 유닛(84)은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.

상호 작용 장치(80)는 본 발명의 제1, 제2, 또는 제3 실시예의 음성 인식 방법을 구현한다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.

도 9는, 본 발명의 제9 실시예에 따른 음성 인식을 위한 서버(90)의 개략적인 블록도이다. 서버(90)는 파싱 유닛(91), 결정 유닛(92), 시작 유닛(93), 저장 유닛(94), 및 이와 유사한 것을 포함한다. 서버(90)는 상호 작용 장치를 위한 지원 서비스를 제공한다.

파싱 유닛(91)은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스느는 제1 음성 신호로부터의 변환을 통해 획득된다.

결정 유닛(92)은 파싱 유닛에 의해 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.

시작 유닛(93)은, 저장 유닛(92)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

저장 유닛(92)은 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장한다.

서버(90)는 본 발명의 제1 실시예의 음성 인식 방법을 실행한다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.

도 10은, 본 발명의 제10 실시예에 따른 음성 인식을 위한 서버(100)의 개략적인 블록도이다. 서버(100)는 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103), 저장 유닛(104), 생성 유닛(105), 전송 유닛(106), 수신 유닛(107), 및 이와 유사한 것을 포함한다. 서버 100의 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103) 및 저장 유닛(104)은 서버 90의 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103) 및 저장 유닛(104)과 동일하거나 유사하다. 차이점은 서버 100이 생성 유닛(105), 전송 유닛(106), 및 수신 유닛(107)을 더 포함한다는 점이다.

서버가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하기 전에, 생성 유닛(105)은 제3자 애플리케이션 레지스트리를 생성하고, 제3자 애플리케이션 레지스트리를 저장 유닛(104)에 전송한다.

파싱 유닛(101)은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

파싱 유닛(101)은 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

결정 유닛(102)은 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 전송 유닛(106)은 프롬프트 정보를 전송하고, 여기서 프롬프트 정보는, 결정 유닛(101)이 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛(107)은 선택 명령을 수신하고, 결정 유닛(101)은, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 시작 유닛(103)은, 저장 유닛(104)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

파싱 유닛(101)은, 선택 명령이 제2 음성 신호이면, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하며, 여기서 제2 텍스트는 제2 음성 신호로부터의 변환을 통해 획득되고, 결정 유닛(102)은, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.

제3자 애플리케이션을 시작한 후에, 시작 유닛(103)은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.

시작 유닛(103)이 제3자 애플리케이션을 시작한 후에, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하므로, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.

수신 유닛(107)은 나아가, 제1 텍스트가 제1 타겟 시맨틱을 획득하기 위해 파싱되기 전에, 상호 작용 장치에 의해 전송된 제1 텍스트를 수신한다.

전송 유닛(106)은 제3자 애플리케이션이 시작된 후 응답 피드백을 상호 작용 장치에 전송한다.

서버(100)는 본 발명의 제1, 제5 또는 제6 실시예의 음성 인식 방법을 실행한다. 간략한을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.

도 11은, 본 발명의 제11 실시예에 따른 음성 인식을 위한 장치(110)의 개략적인 블록도이다. 장치(110)는 프로세서(111), 메모리(112), 및 이와 유사한 것을 포함한다.

메모리(112)는, 본 발명의 실시예를 실행할 수 있는 프로그램, 본 발명의 실시예에서 처리될 데이터, 제3자 애플리케이션, 또는 이와 유사한 것을 저장하도록 구성되어 있는 임의의 고정된 저장 매체 또는 휴대 가능한 저장 매체 또는 RAM 및 ROM을 포함할 수 있다.

프로세서(111)는 본 발명의 실시예의, 메모리(112)에 의해 저장되어 있는 프로그램을 실행하고, 예컨대 버스를 이용하여 다른 장치와 양방향성 통신을 수행하도록 구성되어 있다.

장치(110)의 구현 방법에서, 프로세서(111)는 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고; 메모리에 액세스하고, 메모리에 의해 저장되어 있는 제3자 애플리케이션 레지스트리로부터 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다. 메모리(112)는 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장하고 있고, 프로세서(111)는 전술한 방법의 명령을 실행한다.

장치(110)가 음성 신호를 수집하는 장치 또는 모듈(예컨대, 마이크로폰)을 더 포함할 수 있고, 프로세서(111)는 마이크로폰 또는 이와 유사한 것에 의해 수집된 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득한다.

또한, 프로세서(111)는 구체적으로, 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

프로세서(111)는 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

프로세서(111)는 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 선택 명령을 수신하고, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 메모리(112)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.

프로세서(111)는 나아가, 선택 명령이 제2 음성 신호이면, 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.

제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작하기 전에, 프로세서(111)는 제3자 애플리케이션 레지스트리를 생성한다.

제3자 애플리케이션을 시작한 후, 프로세서(111)는 나아가, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하도록 할 수 있다.

장치(110)가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작하기 전에, 프로세서(111)는 제3자 애플리케이션 레지스트리를 생성하고 제3자 애플리케이션 레지스트리를 메모리(112)에 전송한다.

다른 구현 방법에서, 장치(110)가 음성 신호를 수집하는 장치 또는 모듈(예컨대, 마이크로폰)을 포함하지 않으면, 프로세서(111)는 나아가, 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하기 전에, 다른 장치에 의해 전송된 제1 텍스트를 수신하고; 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 선택적으로 제1 텍스트는 적어도 2개의 제1 텍스트를 획득하기 위해 제1 음성 신호로부터 변환되었고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고; 메모리(112)에 의해 저장되어 있는 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작한다. 메모리(112)는 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장하고 있고, 프로세서(111)는 전술한 방법의 명령을 실행한다.

프로세서(111)는, 제3자 애플리케이션이 장치(111) 상에 설치되면 또는 장치(111)가 켜진 후, 제3자 애플리케이션 레지스트리를 생성하고, 이 제3자 애플리케이션 레지스트리를 메모리(112)에 전송한다.

프로세서(111)는 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.

프로세서(111)는 나아가, 선택 명령이 제2 음성 신호이면, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하며, 여기서 제2 텍스트는 제2 음성 신호로부터의 변환을 통해 획득되고, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.

제3자 애플리케이션을 시작한 후에, 프로세서(111)는, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.

프로세서(111)가 제3자 애플리케이션을 시작한 후에, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하므로, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.

제3자 애플리케이션을 시작한 후에, 프로세서(111)는 응답 피드백을 다른 장치에 전송한다.

장치(110)는 본 발명의 제1, 제2, 제3, 제5 또는 제6 실시예의 음성 인식 방법을 구현하고, 구체적인 구현 유형으로, 예컨대 모바일 단말기, 태블릿 컴퓨터, 또는 서버일 수 있다.

본 발명의 일 실시예는 음성 인식을 위한 시스템을 더 제공하며, 이 시스템은 전술한 실시예의 장치(110), 상호 작용 장치 70, 상호 작용 장치 80, 서버 90 및 서버 100 중 임의의 하나의 장치를 포함할 수 있다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.

통상의 기술자는 이 명세서에서 개시된 실시예에서 설명된 예시를 결합하여, 유닛 및 알고리즘 단계가 전기적 하드웨어 또는 컴퓨터 소프트웨어 및 전기적 하드웨어의 조합에 의해 구현될 수 있다는 것을 알 수 있다. 기능이 하드웨어 또는 소프트웨어에 의해 수행되는지는 기술적 해결책의 디자인 제한 조건 및 특정 애플리케이션에 의존한다. 통상의 기술자는 각각의 특정 애플리케이션에 대한 설명된 기능을 구현하기 위해 상이한 방법을 사용하지만, 이 구현은 본 발명의 범위를 넘지 않아야 한다.

편리하고 간략한 설명의 목적을 위해, 전술한 시스템, 장치 및 유닛의 자세한 동작 과정에 대해, 전술한 방법 실시예의 대응하는 과정을 참고하여 통상의 기술자가 명확하게 이해할 수 있고, 세부 사항은 여기서 다시 설명되지 않는다.

본 출원서에서 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방법으로 구현될 수 있다는 것을 이해해야 한다. 예컨대, 설명된 장치 실시예는 단지 예시적인 것이다. 예를 들면, 유닛 분배는 단지 논리적인 기능 분배이며, 실제 구현에서 다른 분배일 수 있다. 예를 들면, 복수의 유닛 또는 컴포넌트는 다른 시스템으로 결합되거나 통합될 수 있고, 일부 특징은 무시될 수 있거나 수행되지 않을 수 있다. 또한, 도시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 이용하여 구현될 수 있다. 장치 또는 유닛 사이의 간접 결합 또는 통신 연결은 전기적, 기계적, 또는 다른 형태로 구현될 수 있다.

개별적 구성으로 설명된 유닛은 물리적으로 분리되어 있을 수도 있고 분리되어 있지 않을 수도 있고, 유닛으로 도시된 구성은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 장소에 위치되어 있을 수 있거나, 또는 복수의 네트워크 유닛에 분배되어 있을 수도 있다. 일부 또는 모든 유닛은 실시예의 해결책의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다.

또한, 본 발명의 실시예의 기능적 유닛은 하나의 처리 유닛에 통합될 수 있거나, 또는 유닛 각각이 물리적으로 하나로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합되어 있을 수 있다.

기능이 소프트웨어 기능적 유닛의 형식으로 구현되어 있고, 독립적인 제품으로 팔리거나 사용되면, 기능은 컴퓨터 판독 가능 저장 매체에 저장되어 있을 수 있다. 이러한 이해에 기초하여, 본 발명의 핵심적인 기술적 해결책, 또는 종래의 기술에 기여하는 부분, 또는 기술적 해결책의 부분은 소프트웨어 제품의 형식으로 구현된다. 소프트웨어 제품은 저장 매체에 저장되어 있고, 본 발명의 실시예에서 설명된 방법의 모든 또는 일부 단계를 수행하기 위한, (개인용 컴퓨터, 서버, 또는 네트워크 장치일 수 있는) 컴퓨터 장치를 명령하는 여러 가지 명령을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 리무버블 하드 디스크, 리드-온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 마그네틱 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

전술한 설명은 단지 본 발명의 특정 구현 방법이고, 본 발명의 보호 범위를 제한하고자 하는 의도는 아니다. 본 발명의 기술적 범위에 속하는 통상의 기술자가 용이하게 알 수 있는 임의의 변형 또는 대체는 본 발명의 보호 범위에 속할 것이다. 따라서, 본 발명의 보호 범위는 청구항의 보호 범위의 대상이다.

Claims

음성 인식 방법으로서,
하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ;
상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에(before delivery of a device) 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및
제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계
를 포함하는
음성 인식 방법.
제1항에 있어서,
상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에,
상기 방법은,
제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계
를 더 포함하는,
음성 인식 방법.
제1항 또는 제2항에 있어서,
상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계는, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계를 포함하고,
대응하여, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는,
사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계 - 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 및
상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하는 단계
를 포함하는,
음성 인식 방법.
제3항에 있어서,
상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하는 단계는,
상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계
를 포함하는,
음성 인식 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계는 구체적으로,
상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계;
상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계;
프롬프트 정보를 전송하는 단계 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구(prompt)하는데 이용됨 - ; 및
상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계
를 포함하고,
대응하여, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는 구체적으로,
상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계
를 포함하는,
음성 인식 방법.
제5항에 있어서,
상기 선택 명령은 제2 음성 신호이고,
대응하여, 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로,
상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계;
상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및
상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계
를 포함하는,
음성 인식 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계 전에,
상기 방법은,
상기 제3자 애플리케이션 레지스트리를 생성하는 단계
를 더 포함하는,
음성 인식 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제3자 애플리케이션을 시작하는 단계 후에,
상기 방법은,
상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 단계
를 더 포함하는,
음성 인식 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제3자 애플리케이션을 시작하는 단계 후에,
상기 방법은,
상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하는 단계;
상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및
상기 시작된 제3자 애플리케이션이 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계
를 더 포함하는,
음성 인식 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 방법은 상호 작용 장치에 의해 실행되는,
음성 인식 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고,
상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행되는,
음성 인식 방법.
음성 인식을 위한 상호 작용 장치로서,
상기 상호 작용 장치는 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고,
상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 -,
상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 -,
상기 시작 유닛은, 상기 저장 유닛에 액세스하고, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고,
상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있는,
음성 인식을 위한 상호 작용 장치.
제12항에 있어서,
상기 상호 작용 장치는 음성 인식 유닛을 더 포함하고,
상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하고, 상기 하나 이상의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있는,
음성 인식을 위한 상호 작용 장치.
제12항에 있어서,
상기 상호 작용 장치는 음성 인식 유닛을 더 포함하고,
상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 상기 적어도 2개의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있고,
상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
음성 인식을 위한 상호 작용 장치.
제14항에 있어서,
상기 파싱 유닛은 구체적으로,
상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
음성 인식을 위한 상호 작용 장치.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함하고,
상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고,
상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고 - 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 -,
상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고,
상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고,
상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는,
음성 인식을 위한 상호 작용 장치.
제16항에 있어서,
상기 음성 인식 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 상기 제2 텍스트를 상기 파싱 유닛에 전송하도록 더 구성되어 있고,
상기 파싱 유닛은, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고,
상기 결정 유닛은, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있는,
음성 인식을 위한 상호 작용 장치.
제12항 내지 제17항 중 어느 한 항에 있어서,
상기 상호 작용 장치는 생성 유닛을 더 포함하고,
상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에,
상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송하는,
음성 인식을 위한 상호 작용 장치.
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는,
음성 인식을 위한 상호 작용 장치.
음성 인식을 위한 서버로서,
파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고,
상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 -,
상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 -,
상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고,
상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있는,
음성 인식을 위한 서버.
제20항에 있어서,
상기 파싱 유닛은 구체적으로,
사전 결정된 스코어링 규칙에 따라 및 상기 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 상기 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
음성 인식을 위한 서버.
제21항에 있어서,
상기 파싱 유닛은 구체적으로,
상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
음성 인식을 위한 서버.
제20항 내지 제22항 중 어느 한 항에 있어서,
상기 서버는 전송 유닛 및 수신 유닛을 더 포함하고,
상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고,
상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고 - 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 프롬프트 정보는 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고,
상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고,
상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고,
상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는,
음성 인식을 위한 서버.
제23항에 있어서,
상기 파싱 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고,
상기 제2 텍스트는 상기 제2 음성 신호로부터의 변환을 통해 획득되고,
상기 결정 유닛은 구체적으로, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있는,
음성 인식을 위한 서버.
제20항 내지 제24항 중 어느 한 항에 있어서,
상기 서버는 생성 유닛을 더 포함하고,
상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에,
상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송하는,
음성 인식을 위한 서버.
제19항 내지 제25항 중 어느 한 항에 있어서,
상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는,
음성 인식을 위한 서버.
제20항 내지 제26항 중 어느 한 항에 있어서,
상기 시작 유닛이 상기 제3자 애플리케이션을 시작한 후에, 상기 시작된 제3자 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3자 애플리케이션이 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는,
음성 인식을 위한 서버.
제20항 내지 제27항 중 어느 한 항에 있어서,
상기 수신 유닛은, 상기 제1 텍스트가 파싱되어 상기 제1 타겟 시맨틱을 획득하기 전에, 상호 작용 장치에 의해 전송된 상기 제1 텍스트를 수신하도록 더 구성되어 있는,
음성 인식을 위한 서버.
제20항 내지 제28항 중 어느 한 항에 있어서,
상기 전송 유닛은, 상기 제3자 애플리케이션이 시작된 후에, 응답 피드백을 상기 상호 작용 장치에 전송하도록 더 구성되어 있는,
음성 인식을 위한 서버.
음성 인식을 위한 시스템으로서,
제12항 내지 제19항 중 어느 한 항에 따른 상기 상호 작용 장치 또는 제20항 내지 제29항 중 어느 한 항에 따른 상기 서버를 포함하는,
음성 인식을 위한 시스템.