KR20150103222A - 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템 - Google Patents

음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템 Download PDF

Info

Publication number
KR20150103222A
KR20150103222A KR1020157020795A KR20157020795A KR20150103222A KR 20150103222 A KR20150103222 A KR 20150103222A KR 1020157020795 A KR1020157020795 A KR 1020157020795A KR 20157020795 A KR20157020795 A KR 20157020795A KR 20150103222 A KR20150103222 A KR 20150103222A
Authority
KR
South Korea
Prior art keywords
party application
unit
target
semantic
semantics
Prior art date
Application number
KR1020157020795A
Other languages
English (en)
Other versions
KR101838095B1 (ko
Inventor
산푸 리
밍제 동
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20150103222A publication Critical patent/KR20150103222A/ko
Application granted granted Critical
Publication of KR101838095B1 publication Critical patent/KR101838095B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • H04M1/72522
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 실시예는 음성 인식 방법, 장치 및 시스템을 제공한다. 음성 인식 방법은: 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에(before delivery of a device) 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다. 전술한 기술적 해결책에서, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.

Description

음성 인식 방법, 사용자 장치, 서버 및 시스템{VOICE RECOGNITION METHOD, USER EQUIPMENT, SERVER AND SYSTEM}
본 특허출원은, 2013년 1월 6일에 중국 특허청에 출원되고 발명의 명칭이 “METHOD, INTERACTION DEVICE, SERVER, AND SYSTEM FOR SPEECH RECOGNITION”인 중국 특허 출원 제201310003504.4호에 대한 우선권을 주장하는 바이며, 상기 문헌들의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.
본 발명은 상호 작용 장치 애플리케이션의 분야에 관한 것으로서, 구체적으로, 음성 인식 방법, 상호 작용 장치, 서버, 및 시스템에 관한 것이다.
종래의 기술에서, 사용자는 상호 작용 장치(사용자 장치(User Equipment), 줄여서 UE라 함)에 대한 다양한 애플리케이션을 유연하고 독립적으로 다운로드할 수 있다. 그러나, 이러한 모든 애플리케이션이 단말기 제조사에 의해 제공되지는 않는다. 상호 작용 장치에 내장되어 있지는 않으나, 사용자에 의해 획득되는 애플리케이션은 제3자 애플리케이션(third-party application), 예컨대, Apple사의 앱 스토어(App store) 내의 애플리케이션 및 안드로이드 마켓(Android market) 내의 애플리케이션으로 나타낸다. 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램일 수도 있다. 제3자 애플리케이션은 운영 체제에서 독립적이지만, 운영 체제의 운영 환경에서 호출되고 실행될 수 있는 프로그램 집합 또는 명령 집합이다. 수많은 제3자 애플리케이션과 함께, 사용자가 선택할 수 있는 애플리케이션은 상당히 풍부해졌다. 현재, 상호 작용 장치의 가장 일반적인 2가지 운영 체제는 안드로이드(Android) 운영 체제와 애플 운영 체제(줄여서 iOS라 함)이며, 2가지 운영 체제 모두 제3자 애플리케이션을 지원할 수 있다. 안드로이드 플랫폼 상에, 제3자는 판매를 위해 안드로이드 마켓에 개발한 애플리케이션을 업로드할 수 있고, iOS 플랫폼 상에, 제3자는 판매를 위해 앱 스토어에 개발한 애플리케이션을 업로드할 수 있다.
상호 작용 장치의 사용자는 네트워크에 연결하여 안드로이드 마켓 또는 앱 스토어 내의 애플리케이션을 상호 작용 장치에 다운로드할 수 있고, 이러한 애플리케이션은 무료 또는 유료일 수 있으며, 이러한 애플리케이션은, 예를 들면 소셜 메시지 소프트웨어 QQ, 인스턴트 메시지 소프트웨어 Skype, 또는 쇼핑 소프트웨어 Taobao와 같은 가장 일반적인 소프트웨어를 포함한다. 전술한 애플리케이션은 단말기에 아이콘으로 표시된다. 사용자가 제3자 애플리케이션을 시작해야 할 때, 사용자는 터치스크린 상의 대응하는 아이콘을 탭핑(tapping)하여 제3자 애플리케이션의 시작을 촉발한다.
상호 작용 장치에 대해, 대응하는 아이콘을 탭핑(tapping)하지 않고 어떻게 음성 인식의 방법으로 보다 지능적으로 제3자 애플리케이션을 시작하는지가 까다로운 문제이다.
이러한 측면에서, 본 발명의 실시예가 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템을 제공하므로, 음성 인식 방법으로 제3자 애플리케이션을 시작하는 문제를 해결할 수 있다.
제1 측면에 따르면, 음성 인식 방법은, 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다.
제1 가능 구현 방법에서, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에, 상기 방법은, 제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계를 더 포함한다.
제1 측면 또는 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 방법은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계; 및 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계를 더 포함하고, 여기서 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.
제1 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 방법은, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 더 포함한다.
제1 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 방법은, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계; 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계; 프롬프트 정보를 전송하는 단계 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구(prompt)하는데 이용됨 - ; 및 상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계를 더 포함하고, 대응하여, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는 구체적으로, 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계를 포함한다.
제1 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 선택 명령은 제2 음성 신호이고, 대응하여, 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계; 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및 상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계를 포함한다.
제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 상기 방법은, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계 전에, 상기 제3자 애플리케이션 레지스트리를 생성하는 단계를 더 포함한다.
제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 단계를 더 포함함다.
제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 방법은, 상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하는 단계; 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및 상기 시작된 제3자 애플리케이션이 상기 제3차 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계를 더 포함한다.
제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 방법은 상호 작용 장치에 의해 실행된다.
제1 측면 또는 제1 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고, 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행된다.
제2 측면에 따르면, 음성 인식을 위한 상호 작용 장치는, 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고, 상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고, 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고, 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고, 상기 시작 유닛은, 상기 저장 유닛에 액세스하고, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고, 상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있다.
제1 가능 구현 방법에서, 상호 작용 장치는, 음성 인식 유닛을 더 포함하고, 상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하고, 상기 하나 이상의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있다.
제2 측면 또는 제2 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상호 작용 장치는, 음성 인식 유닛을 더 포함하고, 상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 상기 적어도 2개의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있고, 상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.
제2 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.
제2 측면 또는 제2 측면의 전술한 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함하고, 상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고, 상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고, 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고, 상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고, 상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.
제2 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 음성 인식 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 상기 제2 텍스트를 상기 파싱 유닛에 전송하도록 더 구성되어 있고, 상기 파싱 유닛은, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고, 상기 결정 유닛은, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있다.
제2 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 상기 상호 작용 장치는 생성 유닛을 더 포함하고, 상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송한다.
제2 측면 또는 제2 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송한다.
제3 측면에 따르면, 음성 인식을 위한 서버는, 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고, 상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고, 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고, 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고, 상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있다.
제1 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 상기 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.
제3 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 파싱 유닛은 구체적으로, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 서버는 전송 유닛 및 수신 유닛을 더 포함하고, 상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고, 상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고, 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고, 상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고, 상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고, 상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.
제3 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 파싱 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고, 상기 제2 텍스트는 상기 제2 음성 신호로부터의 변환을 통해 획득되고, 상기 결정 유닛은 구체적으로, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 서버는 생성 유닛을 더 포함하고, 상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송한다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법 중 어느 하나를 참고하면, 제6 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송한다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 시작 유닛이 상기 제3자 애플리케이션을 시작한 후에, 상기 제3자 애플리케이션이 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 상기 시작된 제3자 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출한다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 수신 유닛은, 상기 제1 텍스트가 파싱되어 상기 제1 타겟 시맨틱을 획득하기 전에, 상호 작용 장치에 의해 전송된 상기 제1 텍스트를 수신하도록 더 구성되어 있다.
제3 측면 또는 제3 측면의 전술한 가능 구현 방법을 참고하면, 제9 가능 구현 방법에서, 상기 전송 유닛은, 상기 제3자 애플리케이션이 시작된 후에, 응답 피드백을 상기 상호 작용 장치에 전송하도록 더 구성되어 있다.
제4 측면에 따르면, 음성 인식을 위한 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ; 상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하고; 상기 메모리는 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하고, 상기 프로세서는 전술한 방법의 명령을 실행한다.
제1 가능 구현 방법에서, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하기 전에, 상기 프로세서는 제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득한다.
제4 측면 또는 제4 측면의 제1 가능 구현 방법을 참고하면, 제2 가능 구현 방법에서, 상기 프로세서는 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하고, 여기서 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.
제4 측면의 제2 가능 구현 방법을 참고하면, 제3 가능 구현 방법에서, 상기 프로세서는, 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
제4 측면의 제3 가능 구현 방법을 참고하면, 제4 가능 구현 방법에서, 상기 프로세서는 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고; 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 프롬프트 정보를 전송하고 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 - ; 상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 이에 따라 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 것은 구체적으로, 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작한다.
제4 측면의 제4 가능 구현 방법을 참고하면, 제5 가능 구현 방법에서, 상기 선택 명령은 제2 음성 신호이고, 대응하여, 상기 프로세서가 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 것은 구체적으로, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고; 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고; 상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 것을 포함한다.
제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제6 가능 구현 방법에서, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에, 상기 프로세서는 상기 제3자 애플리케이션 레지스트리를 생성하고 제3자 애플리케이션 레지스트리를 상기 메모리에 전송한다.
제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제7 가능 구현 방법에서, 상기 제3자 애플리케이션을 시작한 후에, 상기 프로세서는, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 것을 더 포함한다.
제4 측면 또는 제4 측면의 전술한 가능 구현 방법을 참고하면, 제8 가능 구현 방법에서, 상기 프로세서가 상기 제3자 애플리케이션을 시작한 후에, 상기 프로세서는 상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하고; 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고; 상기 시작된 제3자 애플리케이션이 상기 제3차 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 것을 더 포함한다.
제5 측면에 따르면, 음성 인식을 위한 시스템은 전술한 상호 작용 장치, 서버, 또는 장치의 어느 하나를 제공한다.
전술한 기술적 해결책에 따르면, 사용자의 음성 신호에 대응하는 제3자 애플리케이션이 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고, 제3자 애플리케이션 레지스트리 정보 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
본 발명의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는데 필요한 첨부된 도면을 간략하게 소개한다. 명백하게, 이하의 설명의 첨부된 도면은 단지 본 발명의 일부 실시예를 도시한 것이고, 통상의 기술자는 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출할 수 있다.
도 1은, 본 발명의 제1 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 2는, 본 발명의 제2 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 3은, 본 발명의 일 실시예에 따라, 제3자 애플리케이션이 시작된 후, 상호 작용 장치를 작동시키는 개략적인 다이어그램이다.
도 4는, 본 발명의 제3 실시예에 따른 음성 인식 기능을 지원하는 제3자 애플리케이션의 개략적인 다이어그램이다.
도 5는, 본 발명의 제4 실시예에 따른 음성 인식을 위한 시스템의 개략적인 아키텍처 다이어그램이다.
도 6은, 본 발명의 제5 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 7은, 본 발명의 제7 실시예에 따른 음성 인식을 위한 상호 작용 장치의 개략적인 블록도이다.
도 8은, 본 발명의 제8 실시예에 따른 음성 인식을 위한 상호 작용 장치의 개략적인 블록도이다.
도 9는, 본 발명의 제9 실시예에 따른 음성 인식을 위한 서버의 개략적인 블록도이다.
도 10은, 본 발명의 제10 실시예에 따른 음성 인식을 위한 서버의 개략적인 블록도이다.
도 11은, 본 발명의 제11 실시예에 따른 음성 인식을 위한 장치의 개략적인 블록도이다.
이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예의 기술적 해결책을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예는 본 발명의 모든 실시예가 아닌 일부 실시예이다. 통상의 기술자에 의해 창조적 노력 없이 본 발명의 실시예에 기초하여 획득되는 다른 모든 실시예는 본 발명의 보호 범위에 속한다.
본 명세서의 용어 “및/또는”은 연관 객체를 설명하는 연관 관계만을 설명하며, 3가지 관계가 존재할 수 있다는 것을 나타낸다. 예를 들면, A 및/또는 B는 다음 3가지 경우를 나타낼 수 있다: 오직 A만 존재, A와 B 모두 존재, 및 오직 B만 존재. 추가로, 본 명세서의 부호 ‘/’는 일반적으로 관련 객채 사이의 ‘또는’ 관계를 지시한다.
음성 인식 기술은 기계, 즉, 장치가, 인식을 이용하고 절차를 이해하여, 음성 신호를 대응하는 텍스트 또는 커맨드로 변환 가능하도록 하는 기술이다. 음성 인식 기술은 주로 3가지 측면을 포함한다: 특징 추출 기술(feature extraction technologies), 패턴 매칭 기준(pattern matching criteria), 및 모델 트레이닝 기술(model training technologies).
종래의 기술에서, 음성 인식 기술은 일반적으로 텍스트 또는 커맨드의 형식으로 인식 결과를 출력한다. 전체 음성 인식 과정에서, 음성 신호가 입력되어 처리되고, 그 후 텍스트 콘텍스트(context)가 출력되거나 커맨드가 출력되어 다른 장치를 구동하는데, 이는 마우스 또는 키보드 입력이라는 일반적인 방식에 대한 변화를 가져온다
종래의 기술에서, 상호 작용 장치는, 예를 들면, 스마트폰, 타블렛 컴퓨터(Tablet PC) 및 게임 콘솔을 포함할 수 있다. 전술한 상호 작용 장치는 일반적으로 음성 인식 기능을 가지고 있고, 음성 인식 기능에 의한 음성에서 텍스트로의 변환의 정확도를 계속해서 향상시킨다. 그러나, 제3자 애플리케이션이 이 상호 작용 장치 상에서 시작되면, 이 애플리케이션은 오직 탭핑(tapping) 또는 마우스 클릭의 방식으로만 호출될 수 있다. 따라서, 사용자는, 예를 들면 제3자 애플리케이션이 음성 인식에 의해 곧바로 시작될 수 있도록 하는 것과 같이, 상호 작용 장치의 지능 레벨을 향상시키고 싶어한다. 본 발명의 일 실시예는, 제3자 애플리케이션이 사용자의 음성 신호에 따라 곧바로 시작되는 쟁점을 구현할 수 있는 방법을 제공한다.
도 1은, 본 발명의 제1 실시예에 따른 음성 인식 방법의 개략적인 흐름도이고, 이하의 내용을 포함한다.
S11. 하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하고, 여기서 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득된다.
S12. 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.
S11 및 S12는 또한 콘텍스트(context)의 시맨틱 분석으로 나타내어진다.
S13. 제3자 애플리케이션 레지스트리(registry)로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
다른 실시예에서, 제3자 애플리케이션은 사용자의 상호 작용 장치 상에 다운로드될 수 있거나, 또는 서버 상에 다운로드될 수 있고; 음성 신호를 텍스트로 변환하는 음성 인식 기능은 상호 작용 장치에 설치되어 있을 수 있거나, 또는 서버에 설치되어 있을 수 있고; 텍스트를 파싱하여 타겟 시맨틱을 획득하고, 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 상호 작용 장치에 의해 실행될 수 있거나, 또는 서버에 의해 실행될 수 있는 제3자 애플리케이션을 시작한다. 서버는, 이하에서 제3자 애플리케이션을 위한 지원을 제공하는 제3자 서버와 상이한 상호 작용 장치를 위해 지원 서비스를 제공하는데 이용된다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
선택적으로, 다른 실시예에서, 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에, 상기 방법은, 제1 음성 신호를 획득하는 단계, 및 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하는 단계를 더 포함한다.
선택적으로, 다른 실시예에서, 상기 방법은, 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계를 포함하고, 이에 따라, 사전 결정된 스코어링 규칙(scoring rule)에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계 - 더 높은 스코어(score)는 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 및 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 더 포함한다.
선택적으로, 다른 실시예에서, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계는, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계는 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계; 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계; 프롬프트 정보를 전송하는 단계 - 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 - ; 및 선택 명령을 수신하고, 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계를 포함하고, 이에 따라, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계는 구체적으로, 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 선택 명령은 제2 음성 신호이고, 이에 따라, 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로, 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계; 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계 전에, 상기 방법은, 제3자 애플리케이션 레지스트리를 생성하는 단계를 더 포함한다.
선택적으로, 다른 실시예에서, 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하는 단계를 더 포함한다.
선택적으로, 다른 실시예에서, 제3자 애플리케이션을 시작하는 단계 후에, 상기 방법은, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및 시작된 제3자 애플리케이션이 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계를 더 포함한다.
선택적으로, 다른 실시예에서, 상기 방법은 상호 작용 장치에 의해 실행된다.
선택적으로, 다른 실시예에서, 상기 방법에 따르면, 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행된다.
도 2는, 본 발명의 제2 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다. 제2 실시예에서, 상호 작용 장치는 이 방법을 실행하고, 사용자는 제3자 애플리케이션을 이 상호 작용 장치에 저장한다. 상호 작용 장치는 적어도 음성 인식 유닛, 파싱 유닛, 결정 유닛, 시작 유닛, 저장 유닛, 및 이와 유사한 것을 포함한다.
S21. 상호 작용 장치는 제1 음성 신호를 수신한다.
여기서, 제1 음성 신호는, 예를 들면, “Is old Hu online”와 같은 사용자의 단어이다. 상호 작용 장치는 마이크로폰을 이용하여 제1 음성 신호를 수신할 수 있다.
S22. 상호 작용 장치는 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득한다.
제1 신호를 수신한 후, 상호 작용 장치의 음성 인식 유닛은 음성 파형을 텍스트로 변환하고(음성에서 텍스트로), 여기서 텍스트는 전술한 제1 텍스트에 대응한다. 변환 후에 음성 인식 유닛에 의해 출력되는 제1 텍스트는 “Is old Hu online”, “Is old Hu first” 및/또는 “Is Tiger online”일 수 있고, 처리를 위해 결정 유닛으로 전송된다. 본 발명의 이 실시예에서, 상호 작용 장치는 음성 인식 유닛, 파싱 유닛, 결정 유닛, 및 시작 유닛을 포함하고, 각 유닛은 본 발명의 제2 실시예의 특정 단계를 개별적으로 실행한다. 다른 실시예에서, 음성 인식 유닛 및 파싱 유닛, 결정 유닛 및 사직 유닛은 상이한 장치에 포함될 수 있다.
S23. 상호 작용 장치는, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 시맨틱을 개별적으로 스코어링한다.
[87]상호 작용 장치의 파싱 유닛은, 제1 텍스트에 따라, 대응하는 선택적인 시맨틱을 목록화(list)하는데, "old Hu"가 상호 작용 장치의 주소록에 존재하고, “online”과 같은 발생 확률이 높은 단어가 사용자의 이전의 음성 입력에 존재하는 경우를 예로 든다. 파싱 유닛은 복수의 조합, 예를 들면, "Is old Hu online", "Is old Hu first", 및 "Is Tiger online"을 분류하고, 이 시맨틱의 자연스러움 및 일관성에 따라 각 조합을 스코어링하며, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.
선택적으로, 다른 실시예에서, 파싱 유닛은 스코어링 임계값을 설정할 수 있고, 사전 결정된 스코어링 규칙에 따라 제1 텍스트의 시맨틱의 다양한 조합을 스코어링할 수 있다. 파싱 유닛은 분석 태스크(task)를 수행하고, 제1 텍스트의 시맨틱의 스코어가 가장 높고 사전 결정된 임계값을 초과하는 경우에만 저장 유닛에 액세스한다.
S28. 상호 작용 장치가 제1 음성 신호를 변환하고 하나의 제1 텍스트만 획득하면, 제1 텍스트의 시맨틱을 이용하여 제1 타겟 시맨틱을 곧바로 결정한다. 스코어링 과정 S23 및 S24는 스킵될 수 있고, 대신 단계 S25 및 다음의 단계가 실행된다.
S24. 상호 작용 장치는, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
[91]선택적으로, 일 실시예에서, 상호 작용 장치의 파싱 유닛이 제1 텍스트 중 가장 높은 스코어를 가지는 한 편(piece)의 시맨틱, 예컨대, “Old Hu is online“만을 획득하면, S25이 그 다음으로 실행된다.
다른 실시예에서, 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지지 않거나, 또는 2개 이상의 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지면, 파싱 유닛은 콘텍스트(context)에 따라 음성 인식 유닛에 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백한다. 선택적으로, 파싱 유닛은, 시맨틱의 콘텍스트에 따라, “online”이 텍스트 의사 소통 및 음성 의사 소통과 밀접하게 연관되어 있다는 것을 분석한다, 즉, 음성 인식 유닛에 커맨드, 예를 들면, “Do you hope to have online speech communication or online text communication”을 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 커맨드를 사용자에게 피드백할 수 있으므로, 사용자는 더 많은 요건을 입력한다. 예를 들어, 사용자가 “speech”로 대답하면, 이에 따라 “speech” 요건이 추가되고, 파싱 유닛은 “speech” 및 “online”을 제1 타겟 시맨틱으로 사용한다.
S25. 상호 작용 장치는, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3 애플리케이션 객체를 결정한다.
상호 작용 장치의 결정 유닛은 선택된 제1 타겟 시맨틱에 따라 관련 태스크를 결정한다, 예컨대, “online”에 대응하는 태스크는 소셜 태스크이고; 시작 유닛은, QQ 및/또는 Skype와 같은, 대응하는 제3자 애플리케이션을 시작해야 한다. 설명의 편의를 위해, 이 명세서에서, 후보 제3자 애플리케이션은 제3자 애플리케이션 객체로 나타내어진다. 결정 유닛은, 본 발명에 제한되는 것은 아니지만, 사전 정의된 시맨틱과 제3자 애플리케이션 사이의 연관 관계에 기초하여 또는 제3자 애플리케이션의 사용 빈도수에 따라, 그것 스스로 선택하고, 제1 타겟 시맨틱을 이용하여 제3자 애플리케이션 객체를 결정할 수 있다.
일 실시예에서, 제1 타겟 시맨틱에 대응하는 하나의 제3자 애플리케이션 객체(예컨대, 인스턴트 메시지 소프트웨어 Skype)만이 제1 타겟 시맨틱에 따라 결정된다.
다른 실시예에서, 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함할 수 있다. 결정된 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상호 작용 장치는 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 수신 유닛은 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛은 선택 명령을 수신하고, 결정 유닛은 수신된 선택 명령에 따라 구체적으로 대응하는 타겟 제3자 애플리케이션 객체를 선택하고; 이에 따라, 시작 유닛은 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
적어도 2개의 제3자 애플리케이션 객체, 예컨대, 인스턴트 메시지 소프트웨어 Skype 및 소셜 메시지 소프트웨어 QQ가 제1 타겟 시맨틱에 따라 발견되면, 결정 유닛은, 콘텍스트에 따라 음성 인식 유닛에, 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백할 수 있다, 예를 들어, “Do you hope to have instant communication by Skype or social communication by QQ” 커맨드를 음성 인식 유닛에 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 사용자에게 이 커맨드를 피드백하므로, 사용자는 더 많은 요건을 입력한다. 사용자가 “Skype”라고 응답하면, 파싱 유닛은 “Skype”를 제2 타겟 시맨틱으로 사용한다. 그 다음, 결정 유닛은, 제2 타겟 시맨틱에 따라, 타겟 제3자 애플리케이션 객체가 인스턴트 메시지 소프트웨어 Skype라는 것을 결정한다.
S26. 상호 작용 장치는, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
상호 작용 장치의 시작 유닛은 결정된 제3자 애플리케이션에 대한 제3자 애플리케이션 등록 정보를 탐색하고, 제3자 애플리케이션을 시작한다.
특정 제3자 애플리케이션을 결정한 후, 시작 유닛은 저장 유닛에 액세스한다. 저장 유닛은 상호 작용 장치가 켜졌(power on)을 때 생성된 제3자 애플리케이션 등록 정보 테이블 또는 프로그램이 설치되었을 때 생성된 제3자 애플리케이션 등록 정보 테이블을 저장한다. 시작 유닛은 대응하는 프로그램, 예컨대 Skype를 찾아, 그 프로그램을 시작한다. 출하 전에 상호 작용 장치와 함께 제공되는 디폴트 애플리케이션 레지스트리와 상이한, 제3자 애플리케이션 등록 정보 테이블은, 제3자 애플리케이션 등록 정보 테이블이 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션이 획득되기 전에 제3자 애플리케이션 레지스트리로부터 생성되고 제3자 애플리케이션이 시작되는 한, 제3자 애플리케이션이 설치될 때 생성될 수 있고, 제3자 애플리케이션이 설치된 후 상호 작용 장치가 켜졌을 때 생성될 수도 있다. 이 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치에 저장되어 있다. 다른 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치를 제외한 다른 장치에 저장되어 있을 수도 있거나, 또는 상호 작용 장치와 다른 장치 모두에 저장되어 있을 수도 있다.
S27. 제3자 애플리케이션이 시작한 후에, 상호 작용 장치는 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 이 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하고, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.
도 3은, 본 발명의 일 실시예에 따라, 제3자 애플리케이션이 시작된 후, 상호 작용 장치를 작동시키는 개략적인 다이어그램이다. 제3자 애플리케이션(32)을 시작한 후, 상호 작용 장치(31)는 제3자 애플리케이션(32)과 정의된 API(33)를 이용하여 통신한다. 제3자 애플리케이션이 비디오 또는 음성 채팅 기능을 필요로 하면, 상호 작용 장치의 운영 체제(34)에 사전 정의된 오디오 API 인터페이스 및 비디오 API 인터페이스를 이용하여 상호 작용 장치의 카메라(35) 및 마이크로폰(36)을 호출한다. 상호 작용 장치의 기존의 운영 체제에서, 수많은 API가 다양한 제3자 애플리케이션을 지원하기 위해 정의되어 있으므로, 상이한 기능을 실행할 수 있다. 이러한 API를 이용하여, 제3자 애플리케이션은 상호 작용 장치의 플랫폼과 통신하고 상호 작용 장치의 다양한 리소스를 호출할 수 있다.
예를 들면, 제3자 애플리케이션이 시작된 후, 제3자 애플리케이션은 파싱 유닛의 시맨틱 커맨드를 수신하고, 이 시맨틱 커맨드에 따라 대응하는 동작을 완료한다. 예를 들면, 제3자 애플리케이션 QQ가 시작된 후, 파싱 유닛은, 사전 정의된 API에 의해 전달될 수도 있는, 시맨틱 커맨드를 QQ에 전송하고; 커맨드를 수신한 후, QQ는 통신 객체의 상태(status)(즉, 이름이 “Old Hu”인 친구)에 대한 QQ의 친구 목록를 탐색하고, 상태 정보를 파싱 유닛에 피드백하고; 파싱 유닛은 이 상태 정보를 대응하는 시맨틱으로 변환하고, 음성 인식 유닛을 이용하여 사용자에게 이 시맨틱을 출력하고, 마지막으로, 예컨대, “Old Hu is not online”과 같은 음성 정보의 형식으로 출력하여 사용자에게 통지한다. 이 과정에서, 제3자 애플리케이션은 사용자 인증이 필요할 수 있고, 사용자 계정 및 암호가 입력으로 요구되고, 여기서 이 유형의 정보는 파싱 유닛 및 음성 인식 유닛을 이용하여 제3자 애플리케이션에 의해 사용자에게 피드백되고; 사용자는 음성 또는 키보드 방식으로 대응하는 계정 및 암호를 입력한다.
본 발명의 제2 실시예에서, 사용자는 음성으로만 커맨드를 전송해야 하고, 상호 작용 장치는 음성을 인식할 수 있고, 나아가 시맨틱 분석을 수행할 수 있고, 마지막으로 제3자 애플리케이션을 시작한다; 또한, 상호 작용 장치는 나아가 제3자 애플리케이션을 시작한 후에 제3자 애플리케이션과 연관된 상태 정보를 사용자에게 피드백할 수 있다. 이것은 제3자 애플리케이션을 시작하는 새로운 방법을 제공하고 사용자의 사용을 상당히 용이하게 한다.
음성 인식 유닛 및 파싱 유닛과 같은 전술한 유닛 사이에 상호 작용하는 텍스트 정보는 디코딩된 코드일 수 있고, 음성 또는 화면 상의 텍스트(onscreen text)의 형식으로 사용자에게 보여질 수 있다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
도 4는, 본 발명의 제3 실시예에 따른 음성 인식 기능을 지원하는 제3자 애플리케이션의 개략적인 아키텍처 다이어그램이다. 제3 실시예에서, 상호 작용 장치는 음성 인식 기능을 가지고 있고, 사용자는 제2 실시예에서의 제3자 애플리케이션과 상이한 제3자 애플리케이션을 상호 작용 장치에 다운로드하고, 이 제3자 애플리케이션 스스로 음성 인식 기능도 지원하고, 사용자의 음성 입력에 따라 관련 동작을 실행할 수 있다. 따라서, 제2 실시예에서의 사용자의 음성 신호에 따른 대응하는 제3자 애플리케이션을 인식하고 시작하는 과정은 제3 실시예에서의 것과 동일하고, 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다. 차이점은, 제3자 애플리케이션이 제3 실시예에서 시작된 후, 제3자 애플리케이션에 의한 태스크를 실행하는 과정에 있다.
도 4를 참조하면, 제3자 애플리케이션(41)이 시작된 후, 제3자 애플리케이션(41) 스스로 음성 인식 기능을 가지고 있기 때문에, 사용자의 음성 신호(42)를 곧바로 수신할 수 있고, 음성 신호(42)를 인식하여 대응하는 커맨드를 획득하고 관련 동작을 실행할 수 있다. 제3자 애플리케이션은 사용자의 음성 신호(42)를 수신하고, 이 음성 신호(42)를 변환하여 텍스트를 획득하고, 텍스트의 시맨틱의 파싱을 완료하고, 시맨틱에 대응하는 태스크를 실행한다. 선택적으로, 제3자 애플리케이션(41)은 제3자 애플리케이션(41)에 대응하는 제3자 서버(43)를 이용하여 시맨틱 분석 및 태스크 실행을 구현할 수 있다. 텍스트의 시맨틱 커맨드에 따라 제3자 애플리케이션(41)이 상호 작용 장치(44)의 리소스를 호출해야 하면, 제3자 애플리케이션(41)은 상호 작용 장치의 운영 체제(45)에 의해 정의된 API(46)를 이용하여 상호 작용 장치에 접촉하여, 연관 리소스를 시작하다, 예컨대, 카메라(47) 및 마이크로폰(48)을 호출하여 비디오 통신을 수행한다. 예를 들면, 상호 작용 장치에 의해 시작된 제3자 애플리케이션이 QQ이고, 대응하는 제3자 서버가, 예컨대 텐센트의 서버라면, 제3자 애플리케이션과 제3자 서버 사이의 통신은 제3자에 의해 정의된 사설 인터페이스 및 프로토콜일 수 있다. 제3자 애플리케이션이 지도이고 제3자 애플리케이션이 상호 작용 장치의 GPS 정보를 호출해야 한다면, 상호 작용 장치의 주소 정보가 대응하는 API를 이용하여 질의될 수 있고, 특정 지도 정보에 대해, 대응하는 지도 정보가 제3자 애플리케이션의 제3자 서버를 액세스하여 제3자 애플리케이션에 의해 획득될 수 있다.
도 5는, 본 발명의 제4 실시예에 따른 음성 인식을 위한 시스템의 개략적인 아키텍처 다이어그램이다. 시스템(50)은 상호 작용 장치(51) 및 서버(52)를 포함한다. 상호 작용 장치(51)는 음성 인식 유닛(511), 저장 유닛(512), 운영 체제(513), 카메라(514), 마이크로폰(515), 및 이와 유사한 것을 포함할 수 있다. 서버(52)는 제3자 애플리케이션(522), 저장 유닛(523), 파싱 유닛, 결정 유닛, 및 시작 유닛을 포함할 수 있고, 파싱 유닛, 결정 유닛 및 시작 유닛은 도 5의 521로 표시되어 있다. 상호 작용 장치(51)는 네트워크(53)를 이용하여 서버(52)에 연결되어 있다. 운영 체제(513)는 다양한 제3자 애플리케이션(522)을 지원하는데 이용되는 복수의 API(516)를 정의한다.
도 5의 음성 인식을 위한 시스템에서, 상호 작용 장치는 음성 인식 기능만을 가지고 있다. 시맨틱 분석의 기능 및 제3자 애플리케이션의 시작은 서버에 의해 완료되고, 제3자 애플리케이션은 서버에 저장되어 있다. 선택적으로, 이러한 제3자 애플리케이션은 음성 인식 기능을 제공하지 않는다. 저장 유닛은 상호 작용 장치 및 서버 모두에 포함될 수 있거나, 또는 둘 중 하나에 위치될 수 있다. 시작 유닛이 저장 유닛에 액세스할 때, 시작 유닛은 하나의 저장 유닛을 택일하여 선택할 수 있다. 상호 작용 장치는 네트워크를 이용하여 서버에 연결되어 있고, 네트워크는 상호 작용 장치와 서버 사이의 통신을 위한 파이프를 제공하며, 무선 네트워크 또는 유선 네트워크일 수 있다.
도 6은, 본 발명의 제5 실시예에 따른, 도 5의 시스템(50)의 아키텍처에 기초한 음성 인식 방법의 개략적인 흐름도이다.
S61. 상호 작용 장치는 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하고, 제1 텍스트를 서버에 전송한다.
여기서, 제1 음성 신호는 사용자의 단어, 예컨대, "Is Old Hu online"이다. 제1 음성 신호가 상호 작용 장치의 마이크로폰에 의해 수신되면, 음성 파형은 상호 작용 장치의 음성 인식 유닛에 의해 제1 텍스트로 변환된다. 예를 들면, 변환 후에 음성 인식 유닛에 의해 출력된 제1 텍스트는 "Is old Hu online", "Is old Hu first", 및/또는 "Is Tiger online"일 수 있고, 처리를 위해 서버에 전송된다.
S62. 서버는 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득한다. 이 단계는 다음의 구체적 내용을 포함할 수 있다.
이 실시예에서, 서버는 파싱 유닛, 결정 유닛 및 시작 유닛을 포함한다. 서버의 파싱 유닛은 상호 작용 장치에 의해 전송된 적어도 2개의 제1 텍스트를 수신하고, 제1 음성 신호로부터의 변환을 통해 획득되고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 시맨틱을 개별적으로 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
선택적으로, 파싱 유닛은, 제1 텍스트에 따라, 대응하는 선택적인 시맨틱을 목록화(list)하는데, "old Hu"가 상호 작용 장치의 주소록에 존재하고, “online”과 같은 발생 확률이 높은 단어가 사용자의 이전의 음성 입력에 존재하는 경우를 예로 든다. 처리 유닛은 복수의 조합, 예를 들면, "Is old Hu online", "Is old Hu first", 및 "Is Tiger online"을 분류하고, 이 시맨틱의 자연스러움 및 일관성에 따라 각 조합을 스코어링하며, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타낸다.
선택적으로, 다른 실시예에서, 파싱 유닛은 스코어링 임계값을 설정할 수 있고, 사전 결정된 스코어링 규칙에 따라 제1 텍스트의 시맨틱의 다양한 조합을 스코어링할 수 있고, 적어도 2개의 제1 텍스트의 시맨틱에서, 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 제1 텍스트의 시맨틱을 제1 타겟 시맨틱으로 사용한다.
일 실시예에서, 가장 높은 스코어를 가지는 한 편(piece)의 시맨틱, 예컨대, “Old Hu is online“만 있으면, 파싱 유닛은 제1 텍스트의 시맨틱을 제1 타겟 시맨틱으로 사용한다.
다른 실시예에서, 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지지 않거나, 또는 2개 이상의 제1 텍스트가 사전 결정된 임계값을 초과하는 시맨틱 스코어를 가지면, 파싱 유닛은 콘텍스트에 따라 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 상호 작용 장치의 음성 인식 유닛에 피드백할 수 있다. 전술한 실시예에서 설명된 바와 같이, 스코어링 후, 시맨틱 “online”은 시맨틱의 스코어링 임계값을 만족하지 않는다. 파싱 유닛은, 시맨틱의 콘텍스트에 따라, “online”이 텍스트 의사 소통 및 음성 의사 소통과 밀접하게 연관되어 있다는 것을 분석한다, 즉, 음성 인식 유닛에 커맨드, 예를 들면, “Do you hope to have online speech communication or online text communication”을 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 커맨드를 사용자에게 피드백할 수 있으므로, 사용자는 더 많은 요건을 입력한다. 예를 들면, 사용자가 “speech”로 대답하면, 이에 따라 “speech” 요건이 추가되고, 파싱 유닛은 “speech” 및 “online”을 제1 타겟 시맨틱으로 사용한다.
선택적으로, 다른 실시예에서, 상호 작용 장치가 제1 음성 신호를 변환하고, 하나의 제1 텍스트만을 획득하고, 제1 텍스트를 서버에 전송하면, 서버는 제1 텍스트의 시맨틱을 이용하여 제1 타겟 시맨틱을 곧바로 결정하고, 나아가 단계 S63 및 그 다음 단계를 실행한다.
S63. 서버는, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정한다.
결정 유닛은 선택된 제1 타겟 시맨틱에 따라 관련 태스크를 결정한다, 예컨대, “online”에 대응하는 태스크는 소셜 태스크이고; 시작 유닛은, QQ 및/또는 Skype와 같은, 대응하는 제3자 애플리케이션을 시작해야 한다. 설명의 편의를 위해, 이 명세서에서, 후보 제3자 애플리케이션은 제3자 애플리케이션 객체로 나타내어진다. 결정 유닛은, 본 발명에 제한되는 것은 아니지만, 사전 정의된 시맨틱과 제3자 애플리케이션 사이의 연관 관계에 기초하여 또는 제3자 애플리케이션의 사용 빈도수에 따라, 그것 스스로 선택하고, 제1 타겟 시맨틱을 이용하여 제3자 애플리케이션 객체를 결정할 수 있다.
일 실시예에서, 제1 타겟 시맨틱에 대응하는 하나의 제3자 애플리케이션 객체(예컨대, 인스턴트 메시지 소프트웨어 Skype)만이 제1 타겟 시맨틱에 따라 결정된다.
다른 실시예에서, 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함할 수 있다. 결정된 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 서버는 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 수신 유닛은 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛은 선택 명령을 수신하고, 결정 유닛은 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하고; 이에 따라, 시작 유닛은 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
적어도 2개의 제3자 애플리케이션 객체, 예컨대, 인스턴트 메시지 소프트웨어 Skype 및 소셜 메시지 소프트웨어 QQ가 제1 타겟 시맨틱에 따라 발견되면, 처리 유닛은, 콘텍스트에 따라 음성 인식 유닛에, 더 많은 정보가 입력되어야 한다는 것을 나타내는 커맨드를 피드백할 수 있고, 처리 유닛은, 예를 들어, “Do you hope to have instant communication by Skype or social communication by QQ”와 같은 커맨드를 음성 인식 유닛에 피드백한다. 음성 인식 유닛은 음성 또는 텍스트 방식으로 사용자에게 이 커맨드를 피드백하므로, 사용자는 더 많은 요건을 입력한다. 사용자가 “Skype”라고 응답하면, 파싱 유닛은 “Skype”를 제2 타겟 시맨틱으로 사용한다. 그 다음, 결정 유닛은, 제2 타겟 시맨틱에 따라, 타겟 제3자 애플리케이션 객체가 인스턴트 메시지 소프트웨어 Skype라는 것을 결정한다.
S64. 서버는, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하고, 응답 피드백을 상호 작용 장치에 전송한다.
서버의 시작 유닛은 서버의 저장 유닛 또는 상호 작용 장치의 저장 유닛에 선택적으로 액세스할 수 있고, 제3자 애플리케이션 등록 정보 테이블에 따라, 결정된 제3자 애플리케이션을 탐색하고, 제3자 애플리케이션을 시작한다.
특정 제3자 애플리케이션을 결정한 후, 시작 유닛은 저장 유닛에 액세스한다. 상호 작용 장치의 저장 유닛은 제3자 애플리케이션 등록 정보 테이블을 저장하고 있고, 서버의 저장 유닛은 제3자 애플리케이션 및 제3자 애플리케이션 등록 정보 테이블을 저장하고 있다. 출하 전에 상호 작용 장치와 함께 제공되는 디폴트 애플리케이션 레지스트리와 상이한, 제3자 애플리케이션 등록 정보 테이블은, 제3자 애플리케이션이 설치될 때 생성될 수 있고, 제3자 애플리케이션이 설치된 후 상호 작용 장치가 켜졌을 때 생성될 수도 있다. 이 실시예에서, 제3자 애플리케이션 등록 정보 테이블은 상호 작용 장치의 저장 유닛에 저장되어 있고, 서버의 시작 유닛은 상호 작용 장치의 저장 유닛에 액세스하여 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
S65. 상호 작용 장치는 서버에 의해 전송된 응답 피드백을 수신한다.
서버의 시작 유닛이 제3자 애플리케이션을 시작한 후에, 전송 유닛은 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 이 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하고, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.
선택적으로, 제3자 애플리케이션이 시작된 후에, 제3자 애플리케이션은 파싱 유닛의 시맨틱 커맨드를 수신하고, 시맨틱 커맨드에 따라 대응하는 동작을 완료한다. 예를 들어, 제3자 애플리케이션 QQ가 시작된 후, 파싱 유닛은, 사전 정의된 API에 의해 전달될 수도 있는, 시맨틱 커맨드를 QQ에 전송하고, 이 커맨드를 수신한 후, QQ는 통신 객체의 상태(즉, 이름이 “Old Hu”인 친구)에 대한 QQ의 친구 목록를 탐색하고, 상태 정보를 파싱 유닛에 피드백하고; 파싱 유닛은 이 상태 정보를 대응하는 시맨틱으로 변환하고, 상호 작용 장치의 음성 인식 유닛을 이용하여 사용자에게 이 시맨틱을 출력하고, 마지막으로, 예컨대, “Old Hu is not online”과 같은 음성 정보의 형식으로 출력하여 사용자에게 통지한다. 이 과정에서, 제3자 애플리케이션은 사용자 인증이 필요할 수 있고, 사용자 계정 및 암호가 입력으로 요구되고, 여기서 이 유형의 정보는 서버의 전송 유닛 및 상호 작용 장치의 음성 인식 유닛을 이용하여 제3자 애플리케이션에 의해 사용자에게 피드백되고; 사용자는 음성 또는 키보드 방식으로 대응하는 계정 및 암호를 입력한다.
음성 인식 유닛 및 파싱 유닛과 같은 전술한 유닛 사이에 상호 작용하는 텍스트 정보는 디코딩된 코드일 수 있고, 음성 또는 화면 상의 텍스트(onscreen text)의 형식으로 사용자에게 보여질 수 있다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은 음성 신호에 따라 및 시맨틱 분석 방법으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
선택적으로, 다른 제6 실시예에서, 이 실시예와 제4 및 제5 실시예 사이의 차이점은 제3자 애플리케이션 스스로 음성 인식 기능도 지원하고, 사용자의 음성 입력에 따라 관련 동작을 실행할 수 있다는 점이다. 따라서, 제6 실시예에서 인식의 처리 및 사용자의 음성 신호에 따라 대응하는 제3자 애플리케이션을 시작하는 것은 제4 실시예의 것과 동일하고, 제5 실시예를 참조하고, 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다. 차이점은, 제3자 애플리케이션이 제6 실시예에서 시작된 후, 제3자 애플리케이션에 의한 태스크를 실행하는 과정에 있다.
제3자 애플리케이션이 시작된 후, 제3자 애플리케이션 스스로 음성 인식 기능을 가지고 있기 때문에, 사용자의 음성 신호를 곧바로 수신할 수 있고, 커맨드에 따라 관련 동작을 실행할 수 있다. 제3자 애플리케이션은 사용자의 음성 신호를 수신하고, 이 음성 신호를 변환하여 텍스트를 획득하고, 텍스트의 시맨틱의 파싱을 완료하고, 시맨틱에 대응하는 태스크를 실행한다. 제3자 애플리케이션은 제3자 애플리케이션에 대응하는 제3자 서버를 이용하여 시맨틱 분석 및 태스크 실행을 구현할 수 있다. 텍스트의 시맨틱 커맨드에 따라 제3자 애플리케이션이 상호 작용 장치의 리소스를 호출해야 하면, 제3자 애플리케이션은 상호 작용 장치의 운영 체제에 의해 정의된 API를 이용하여 상호 작용 장치에 접촉하여, 연관 리소스를 시작하다, 예컨대, 카메라 및 마이크로폰을 호출하여 비디오 통신을 수행한다. 이 경우에, 상호 작용 장치에 의해 시작된 제3자 애플리케이션이 QQ이고, 대응하는 제3자 서버가, 예컨대 텐센트의 서버라면, 제3자 애플리케이션과 제3자 서버 사이의 통신은 제3자 스스로에 의해 정의된 사설 인터페이스 및 프로토콜일 수 있다. 제3자 애플리케이션이 지도이고 제3자 애플리케이션이 상호 작용 장치의 GPS 정보를 호출해야 한다면, 상호 작용 장치의 주소 정보가 대응하는 API를 이용하여 질의될 수 있고, 특정 지도 정보에 대해, 대응하는 지도 정보가 제3자 애플리케이션의 제3자 서버를 액세스하여 제3자 애플리케이션에 의해 획득될 수 있다.
도 7은, 본 발명의 제7 실시예에 따른 음성 인식을 위한 상호 작용 장치(70)의 개략적인 블록도이다. 상호 작용 장치(70)는 파싱 유닛(71), 결정 유닛(72), 시작 유닛(73), 저장 유닛(74), 및 이와 유사한 것을 포함할 수 있다. 예를 들면, 상호 작용 장치는 모바일 단말기 또는 태블릿 컴퓨터(태블릿PC)와 같은 장치일 수 있다.
파싱 유닛(71)은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스느는 제1 음성 신호로부터의 변환을 통해 획득된다.
결정 유닛(72)은 파싱 유닛에 의해 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.
시작 유닛(73)은 저장 유닛에 액세스하고, 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
저장 유닛(74)은 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장한다.
상호 작용 장치(70)는 본 발명의 제1 실시예의 음성 인식 방법을 실행할 수 있다. 세부 사항은 여기서 반복되어 설명되지 않는다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
도 8은, 본 발명의 제8 실시예에 따른 음성 인식을 위한 상호 작용 장치(80)의 개략적인 블록도이다. 상호 작용 장치(80)는 음성 인식 유닛(81), 파싱 유닛(82), 결정 유닛(83), 시작 유닛(84), 저장 유닛(85), 생성 유닛(86), 전송 유닛(87), 및 수신 유닛(88)을 포함한다. 상호 작용 장치 80의 파싱 유닛(82), 결정 유닛(83), 시작 유닛(84) 및 저장 유닛(85)은 상호 작용 장치 70의 파싱 유닛(71), 결정 유닛(72), 시작 유닛(73) 및 저장 유닛(74)과 동일하거나 유사하다. 차이점은 상호 작용 장치 80이 음성 인식 유닛(81), 생성 유닛(86), 전송 유닛(87), 및 수신 유닛(88)을 더 포함한다는 점이다.
음성 인식 유닛(81)은 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득하고, 하나 이상의 제1 텍스트를 파싱 유닛(82)에 전송한다.
상호 작용 장치가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객채와 연관된 제3자 애플리케이션를 획득하고 이 제3자 애플리케이션을 시작하기 전에, 생성 유닛(86)은 제3자 애플리케이션 레지스트리를 생성하고 이 제3자 애플리케이션 레지스트리를 저장 유닛(85)에 전송한다.
파싱 유닛(82)은 구체적으로 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
파싱 유닛(82)은 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
결정 유닛(83)은 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 전송 유닛(87)은 프롬프트 정보를 전송하고, 여기서 프롬프트 정보는, 결정 유닛(83)이 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛(88)은 선택 명령을 수신하고, 결정 유닛(83)은 구체적으로, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 시작 유닛은, 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
음성 인식 유닛(81)은 나아가, 선택 명령이 제2 음성 신호이면, 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 제2 텍스트를 파싱 유닛(82)에 전송하고; 파싱 유닛(82)은 나아가, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고, 결정 유닛(83)은, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.
제3자 애플리케이션을 시작한 후에, 시작 유닛(84)은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.
상호 작용 장치(80)는 본 발명의 제1, 제2, 또는 제3 실시예의 음성 인식 방법을 구현한다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
도 9는, 본 발명의 제9 실시예에 따른 음성 인식을 위한 서버(90)의 개략적인 블록도이다. 서버(90)는 파싱 유닛(91), 결정 유닛(92), 시작 유닛(93), 저장 유닛(94), 및 이와 유사한 것을 포함한다. 서버(90)는 상호 작용 장치를 위한 지원 서비스를 제공한다.
파싱 유닛(91)은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스느는 제1 음성 신호로부터의 변환을 통해 획득된다.
결정 유닛(92)은 파싱 유닛에 의해 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이다.
시작 유닛(93)은, 저장 유닛(92)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
저장 유닛(92)은 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장한다.
서버(90)는 본 발명의 제1 실시예의 음성 인식 방법을 실행한다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
도 10은, 본 발명의 제10 실시예에 따른 음성 인식을 위한 서버(100)의 개략적인 블록도이다. 서버(100)는 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103), 저장 유닛(104), 생성 유닛(105), 전송 유닛(106), 수신 유닛(107), 및 이와 유사한 것을 포함한다. 서버 100의 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103) 및 저장 유닛(104)은 서버 90의 파싱 유닛(101), 결정 유닛(102), 시작 유닛(103) 및 저장 유닛(104)과 동일하거나 유사하다. 차이점은 서버 100이 생성 유닛(105), 전송 유닛(106), 및 수신 유닛(107)을 더 포함한다는 점이다.
서버가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작하기 전에, 생성 유닛(105)은 제3자 애플리케이션 레지스트리를 생성하고, 제3자 애플리케이션 레지스트리를 저장 유닛(104)에 전송한다.
파싱 유닛(101)은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
파싱 유닛(101)은 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
결정 유닛(102)은 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 전송 유닛(106)은 프롬프트 정보를 전송하고, 여기서 프롬프트 정보는, 결정 유닛(101)이 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 수신 유닛(107)은 선택 명령을 수신하고, 결정 유닛(101)은, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 시작 유닛(103)은, 저장 유닛(104)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
파싱 유닛(101)은, 선택 명령이 제2 음성 신호이면, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하며, 여기서 제2 텍스트는 제2 음성 신호로부터의 변환을 통해 획득되고, 결정 유닛(102)은, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.
제3자 애플리케이션을 시작한 후에, 시작 유닛(103)은, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.
시작 유닛(103)이 제3자 애플리케이션을 시작한 후에, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하므로, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.
수신 유닛(107)은 나아가, 제1 텍스트가 제1 타겟 시맨틱을 획득하기 위해 파싱되기 전에, 상호 작용 장치에 의해 전송된 제1 텍스트를 수신한다.
전송 유닛(106)은 제3자 애플리케이션이 시작된 후 응답 피드백을 상호 작용 장치에 전송한다.
서버(100)는 본 발명의 제1, 제5 또는 제6 실시예의 음성 인식 방법을 실행한다. 간략한을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
도 11은, 본 발명의 제11 실시예에 따른 음성 인식을 위한 장치(110)의 개략적인 블록도이다. 장치(110)는 프로세서(111), 메모리(112), 및 이와 유사한 것을 포함한다.
메모리(112)는, 본 발명의 실시예를 실행할 수 있는 프로그램, 본 발명의 실시예에서 처리될 데이터, 제3자 애플리케이션, 또는 이와 유사한 것을 저장하도록 구성되어 있는 임의의 고정된 저장 매체 또는 휴대 가능한 저장 매체 또는 RAM 및 ROM을 포함할 수 있다.
프로세서(111)는 본 발명의 실시예의, 메모리(112)에 의해 저장되어 있는 프로그램을 실행하고, 예컨대 버스를 이용하여 다른 장치와 양방향성 통신을 수행하도록 구성되어 있다.
장치(110)의 구현 방법에서, 프로세서(111)는 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득되고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고, 여기서 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램이고; 메모리에 액세스하고, 메모리에 의해 저장되어 있는 제3자 애플리케이션 레지스트리로부터 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다. 메모리(112)는 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장하고 있고, 프로세서(111)는 전술한 방법의 명령을 실행한다.
장치(110)가 음성 신호를 수집하는 장치 또는 모듈(예컨대, 마이크로폰)을 더 포함할 수 있고, 프로세서(111)는 마이크로폰 또는 이와 유사한 것에 의해 수집된 제1 음성 신호를 변환하여 하나 이상의 제1 텍스트를 획득한다.
또한, 프로세서(111)는 구체적으로, 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 사전 결정된 스코어링 규칙에 따라 및 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
프로세서(111)는 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
프로세서(111)는 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 선택 명령을 수신하고, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 메모리(112)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
프로세서(111)는 나아가, 선택 명령이 제2 음성 신호이면, 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하고, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.
제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작하기 전에, 프로세서(111)는 제3자 애플리케이션 레지스트리를 생성한다.
제3자 애플리케이션을 시작한 후, 프로세서(111)는 나아가, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송하므로, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하도록 할 수 있다.
장치(110)가, 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작하기 전에, 프로세서(111)는 제3자 애플리케이션 레지스트리를 생성하고 제3자 애플리케이션 레지스트리를 메모리(112)에 전송한다.
다른 구현 방법에서, 장치(110)가 음성 신호를 수집하는 장치 또는 모듈(예컨대, 마이크로폰)을 포함하지 않으면, 프로세서(111)는 나아가, 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하기 전에, 다른 장치에 의해 전송된 제1 텍스트를 수신하고; 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하고, 여기서 선택적으로 제1 텍스트는 적어도 2개의 제1 텍스트를 획득하기 위해 제1 음성 신호로부터 변환되었고; 획득된 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하고; 메모리(112)에 의해 저장되어 있는 제3자 애플리케이션 레지스트리로부터, 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고 제3자 애플리케이션을 시작한다. 메모리(112)는 제3자 애플리케이션 레지스트리 및 제3자 애플리케이션을 저장하고 있고, 프로세서(111)는 전술한 방법의 명령을 실행한다.
프로세서(111)는, 제3자 애플리케이션이 장치(111) 상에 설치되면 또는 장치(111)가 켜진 후, 제3자 애플리케이션 레지스트리를 생성하고, 이 제3자 애플리케이션 레지스트리를 메모리(112)에 전송한다.
프로세서(111)는 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고, 여기서 더 높은 스코어는 시맨틱의 더 나은 자연스러움 및 일관성을 나타내고, 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
프로세서(111)는 구체적으로, 적어도 2개의 제1 텍스트의 시맨틱으로부터, 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득한다.
프로세서(111)는 구체적으로, 제1 타겟 시맨틱에 따라, 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체에 대한 정보를 획득하고; 프롬프트 정보를 전송하며, 여기서 프롬프트 정보는, 제1 타겟 시맨틱과 연관된 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 제3자 애플리케이션 객체에 대한 정보를 포함하고 제3자 애플리케이션 객체에 대한 정보에 따라, 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고; 선택 명령을 수신하고, 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하고, 메모리(112)에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 제3자 애플리케이션을 시작한다.
프로세서(111)는 나아가, 선택 명령이 제2 음성 신호이면, 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하며, 여기서 제2 텍스트는 제2 음성 신호로부터의 변환을 통해 획득되고, 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정한다.
제3자 애플리케이션을 시작한 후에, 프로세서(111)는, 제3자 애플리케이션이, 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 제1 타겟 시맨틱의 시맨틱 커맨드를 제3자 애플리케이션에 전송한다.
프로세서(111)가 제3자 애플리케이션을 시작한 후에, 제3자 애플리케이션이 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 제3 텍스트의 시맨틱 커맨드에 따라, 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출하므로, API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있다.
제3자 애플리케이션을 시작한 후에, 프로세서(111)는 응답 피드백을 다른 장치에 전송한다.
장치(110)는 본 발명의 제1, 제2, 제3, 제5 또는 제6 실시예의 음성 인식 방법을 구현하고, 구체적인 구현 유형으로, 예컨대 모바일 단말기, 태블릿 컴퓨터, 또는 서버일 수 있다.
본 발명의 이 실시예에 따르면, 음성 인식 기능과 함께, 사용자의 음성 신호에 대응하는 제3자 애플리케이션은, 음성 신호에 따라 및 시맨틱 분석의 방식으로 결정될 수 있고; 제3자 애플리케이션 레지스트리 정보가 탐색되어 제3자 프로그램이 시작되므로, 사용자가 대응하는 프로그램을 시작하기 위해 제3자 애플리케이션을 탭핑(tapping)할 필요가 없게 되며, 이에 따라 보다 지능적 서비스를 사용자에게 제공할 수 있고, 사용자의 사용을 용이하게 할 수 있다.
본 발명의 일 실시예는 음성 인식을 위한 시스템을 더 제공하며, 이 시스템은 전술한 실시예의 장치(110), 상호 작용 장치 70, 상호 작용 장치 80, 서버 90 및 서버 100 중 임의의 하나의 장치를 포함할 수 있다. 간략함을 위해, 세부 사항은 여기서 반복되어 설명되지 않는다.
통상의 기술자는 이 명세서에서 개시된 실시예에서 설명된 예시를 결합하여, 유닛 및 알고리즘 단계가 전기적 하드웨어 또는 컴퓨터 소프트웨어 및 전기적 하드웨어의 조합에 의해 구현될 수 있다는 것을 알 수 있다. 기능이 하드웨어 또는 소프트웨어에 의해 수행되는지는 기술적 해결책의 디자인 제한 조건 및 특정 애플리케이션에 의존한다. 통상의 기술자는 각각의 특정 애플리케이션에 대한 설명된 기능을 구현하기 위해 상이한 방법을 사용하지만, 이 구현은 본 발명의 범위를 넘지 않아야 한다.
편리하고 간략한 설명의 목적을 위해, 전술한 시스템, 장치 및 유닛의 자세한 동작 과정에 대해, 전술한 방법 실시예의 대응하는 과정을 참고하여 통상의 기술자가 명확하게 이해할 수 있고, 세부 사항은 여기서 다시 설명되지 않는다.
본 출원서에서 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방법으로 구현될 수 있다는 것을 이해해야 한다. 예컨대, 설명된 장치 실시예는 단지 예시적인 것이다. 예를 들면, 유닛 분배는 단지 논리적인 기능 분배이며, 실제 구현에서 다른 분배일 수 있다. 예를 들면, 복수의 유닛 또는 컴포넌트는 다른 시스템으로 결합되거나 통합될 수 있고, 일부 특징은 무시될 수 있거나 수행되지 않을 수 있다. 또한, 도시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 이용하여 구현될 수 있다. 장치 또는 유닛 사이의 간접 결합 또는 통신 연결은 전기적, 기계적, 또는 다른 형태로 구현될 수 있다.
개별적 구성으로 설명된 유닛은 물리적으로 분리되어 있을 수도 있고 분리되어 있지 않을 수도 있고, 유닛으로 도시된 구성은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 장소에 위치되어 있을 수 있거나, 또는 복수의 네트워크 유닛에 분배되어 있을 수도 있다. 일부 또는 모든 유닛은 실시예의 해결책의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다.
또한, 본 발명의 실시예의 기능적 유닛은 하나의 처리 유닛에 통합될 수 있거나, 또는 유닛 각각이 물리적으로 하나로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합되어 있을 수 있다.
기능이 소프트웨어 기능적 유닛의 형식으로 구현되어 있고, 독립적인 제품으로 팔리거나 사용되면, 기능은 컴퓨터 판독 가능 저장 매체에 저장되어 있을 수 있다. 이러한 이해에 기초하여, 본 발명의 핵심적인 기술적 해결책, 또는 종래의 기술에 기여하는 부분, 또는 기술적 해결책의 부분은 소프트웨어 제품의 형식으로 구현된다. 소프트웨어 제품은 저장 매체에 저장되어 있고, 본 발명의 실시예에서 설명된 방법의 모든 또는 일부 단계를 수행하기 위한, (개인용 컴퓨터, 서버, 또는 네트워크 장치일 수 있는) 컴퓨터 장치를 명령하는 여러 가지 명령을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 리무버블 하드 디스크, 리드-온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 마그네틱 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 단지 본 발명의 특정 구현 방법이고, 본 발명의 보호 범위를 제한하고자 하는 의도는 아니다. 본 발명의 기술적 범위에 속하는 통상의 기술자가 용이하게 알 수 있는 임의의 변형 또는 대체는 본 발명의 보호 범위에 속할 것이다. 따라서, 본 발명의 보호 범위는 청구항의 보호 범위의 대상이다.

Claims (30)

  1. 음성 인식 방법으로서,
    하나 이상의 제1 텍스트를 파싱(parsing)하여 제1 타겟 시맨틱(semantic)을 획득하는 단계 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 - ;
    상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에(before delivery of a device) 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 - ; 및
    제3자 애플리케이션 레지스트리(registry)로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계
    를 포함하는
    음성 인식 방법.
  2. 제1항에 있어서,
    상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계 전에,
    상기 방법은,
    제1 음성 신호를 획득하고, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계
    를 더 포함하는,
    음성 인식 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하는 단계는, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하는 단계를 포함하고,
    대응하여, 상기 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는,
    사전 결정된 스코어링 규칙(scoring rule)에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움(naturalness) 및 일관성(coherence)에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링(scoring)하는 단계 - 더 높은 스코어(score)는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 및
    상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하는 단계
    를 포함하는,
    음성 인식 방법.
  4. 제3항에 있어서,
    상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하는 단계는,
    상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하는 단계
    를 포함하는,
    음성 인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계는 구체적으로,
    상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하는 단계;
    상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하는 단계;
    프롬프트 정보를 전송하는 단계 - 상기 프롬프트 정보는, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구(prompt)하는데 이용됨 - ; 및
    상기 선택 명령을 수신하고, 상기 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계
    를 포함하고,
    대응하여, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는 구체적으로,
    상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계
    를 포함하는,
    음성 인식 방법.
  6. 제5항에 있어서,
    상기 선택 명령은 제2 음성 신호이고,
    대응하여, 상기 수신된 선택 명령에 따라 대응하는 타겟 제3자 애플리케이션 객체를 선택하는 단계는 구체적으로,
    상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하는 단계;
    상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하는 단계; 및
    상기 제2 타겟 시맨틱에 따라 대응하는 타겟 제3자 애플리케이션 객체를 결정하는 단계
    를 포함하는,
    음성 인식 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계 전에,
    상기 방법은,
    상기 제3자 애플리케이션 레지스트리를 생성하는 단계
    를 더 포함하는,
    음성 인식 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 제3자 애플리케이션을 시작하는 단계 후에,
    상기 방법은,
    상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(application interface; API)를 호출(invoke)하고, 상기 시작된 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는 단계
    를 더 포함하는,
    음성 인식 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 제3자 애플리케이션을 시작하는 단계 후에,
    상기 방법은,
    상기 제3자 애플리케이션이 상기 사용자의 제3 음성 신호를 수신하는 단계;
    상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하는 단계; 및
    상기 시작된 제3자 애플리케이션이 애플리케이션 인터페이스(API)를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는 단계
    를 더 포함하는,
    음성 인식 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 방법은 상호 작용 장치에 의해 실행되는,
    음성 인식 방법.
  11. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하는 단계는, 서버에 의해 실행되고,
    상기 획득된 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하는 단계, 및 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는 단계는, 상호 작용 장치에 의해 실행되는,
    음성 인식 방법.
  12. 음성 인식을 위한 상호 작용 장치로서,
    상기 상호 작용 장치는 파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고,
    상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 -,
    상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 -,
    상기 시작 유닛은, 상기 저장 유닛에 액세스하고, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고,
    상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있는,
    음성 인식을 위한 상호 작용 장치.
  13. 제12항에 있어서,
    상기 상호 작용 장치는 음성 인식 유닛을 더 포함하고,
    상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 상기 하나 이상의 제1 텍스트를 획득하고, 상기 하나 이상의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있는,
    음성 인식을 위한 상호 작용 장치.
  14. 제12항에 있어서,
    상기 상호 작용 장치는 음성 인식 유닛을 더 포함하고,
    상기 음성 인식 유닛은, 상기 제1 음성 신호를 변환하여 적어도 2개의 제1 텍스트를 획득하고, 상기 적어도 2개의 제1 텍스트를 상기 파싱 유닛에 전송하도록 구성되어 있고,
    상기 파싱 유닛은 구체적으로, 사전 결정된 스코어링 규칙에 따라 및 상기 적어도 2개의 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
    음성 인식을 위한 상호 작용 장치.
  15. 제14항에 있어서,
    상기 파싱 유닛은 구체적으로,
    상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
    음성 인식을 위한 상호 작용 장치.
  16. 제12항 내지 제15항 중 어느 한 항에 있어서,
    상기 상호 작용 장치는 전송 유닛 및 수신 유닛을 더 포함하고,
    상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고,
    상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고 - 상기 프롬프트 정보는, 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용됨 -,
    상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고,
    상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고,
    상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는,
    음성 인식을 위한 상호 작용 장치.
  17. 제16항에 있어서,
    상기 음성 인식 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 음성 신호를 변환하여 제2 텍스트를 획득하고, 상기 제2 텍스트를 상기 파싱 유닛에 전송하도록 더 구성되어 있고,
    상기 파싱 유닛은, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고,
    상기 결정 유닛은, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있는,
    음성 인식을 위한 상호 작용 장치.
  18. 제12항 내지 제17항 중 어느 한 항에 있어서,
    상기 상호 작용 장치는 생성 유닛을 더 포함하고,
    상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에,
    상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송하는,
    음성 인식을 위한 상호 작용 장치.
  19. 제11항 내지 제18항 중 어느 한 항에 있어서,
    상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는,
    음성 인식을 위한 상호 작용 장치.
  20. 음성 인식을 위한 서버로서,
    파싱 유닛, 결정 유닛, 시작 유닛 및 저장 유닛을 포함하고,
    상기 파싱 유닛은 하나 이상의 제1 텍스트를 파싱하여 제1 타겟 시맨틱을 획득하도록 구성되어 있고 - 상기 제1 텍스트는 제1 음성 신호로부터의 변환을 통해 획득됨 -,
    상기 결정 유닛은, 상기 파싱 유닛에 의해 획득된 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 제3자 애플리케이션 객체를 결정하도록 구성되어 있고 - 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션은 장치의 출하 전에 음성 방식으로 시작하는 권한을 부여 받지 않은 프로그램임 -,
    상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 제3자 애플리케이션 레지스트리로부터, 상기 결정 유닛에 의해 결정된 상기 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하도록 구성되어 있고,
    상기 저장 유닛은 상기 제3자 애플리케이션 레지스트리 및 상기 제3자 애플리케이션을 저장하도록 구성되어 있는,
    음성 인식을 위한 서버.
  21. 제20항에 있어서,
    상기 파싱 유닛은 구체적으로,
    사전 결정된 스코어링 규칙에 따라 및 상기 제1 음성 신호로부터의 변환을 통해 획득된 적어도 2개의 상기 제1 텍스트의 시맨틱의 자연스러움 및 일관성에 따라, 상기 적어도 2개의 제1 텍스트 중 각각의 제1 텍스트의 시맨틱을 스코어링하고 - 더 높은 스코어는 상기 시맨틱의 더 나은 자연스러움 및 일관성을 나타냄 - ; 상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지는 시맨틱을 상기 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
    음성 인식을 위한 서버.
  22. 제21항에 있어서,
    상기 파싱 유닛은 구체적으로,
    상기 적어도 2개의 제1 텍스트의 시맨틱으로부터, 상기 제1 텍스트 중 가장 높은 스코어를 가지고 사전 설정된 임계값을 초과하는 시맨틱을 제1 타겟 시맨틱으로 획득하도록 구성되어 있는,
    음성 인식을 위한 서버.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서,
    상기 서버는 전송 유닛 및 수신 유닛을 더 포함하고,
    상기 결정 유닛은 구체적으로, 상기 제1 타겟 시맨틱에 따라, 상기 제1 타겟 시맨틱에 대응하는 모든 제3자 애플리케이션 객체를 결정하고, 상기 제3자 애플리케이션 객체의 수가 2보다 크거나 같으면, 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체에 대한 정보를 획득하도록 구성되어 있고,
    상기 전송 유닛은 프롬프트 정보를 전송하도록 구성되어 있고 - 상기 결정 유닛이 상기 제1 타겟 시맨틱과 연관된 상기 모든 제3자 애플리케이션 객체로부터 타겟 제3자 애플리케이션 객체를 선택할 수 있도록, 상기 프롬프트 정보는 상기 제3자 애플리케이션 객체에 대한 정보를 포함하고 상기 제3자 애플리케이션 객체에 대한 정보에 따라 사용자가 선택 명령을 더 전송하도록 촉구하는데 이용되고,
    상기 수신 유닛은 상기 사용자에 의해 전송된 상기 선택 명령을 수신하도록 구성되어 있고,
    상기 결정 유닛은 구체적으로, 상기 수신된 선택 명령에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 선택하도록 구성되어 있고,
    상기 시작 유닛은, 상기 저장 유닛에 의해 저장된 상기 제3자 애플리케이션 레지스트리로부터, 상기 타겟 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하는,
    음성 인식을 위한 서버.
  24. 제23항에 있어서,
    상기 파싱 유닛은, 상기 선택 명령이 제2 음성 신호이면, 상기 제2 텍스트를 파싱하여 제2 타겟 시맨틱을 획득하도록 더 구성되어 있고,
    상기 제2 텍스트는 상기 제2 음성 신호로부터의 변환을 통해 획득되고,
    상기 결정 유닛은 구체적으로, 상기 제2 타겟 시맨틱에 따라, 대응하는 타겟 제3자 애플리케이션 객체를 결정하도록 더 구성되어 있는,
    음성 인식을 위한 서버.
  25. 제20항 내지 제24항 중 어느 한 항에 있어서,
    상기 서버는 생성 유닛을 더 포함하고,
    상기 시작 유닛이, 제3자 애플리케이션 레지스트리로부터, 상기 결정된 제3자 애플리케이션 객체와 연관된 제3자 애플리케이션을 획득하고, 상기 제3자 애플리케이션을 시작하기 전에,
    상기 생성 유닛은 상기 제3자 애플리케이션 레지스트리를 생성하고, 상기 제3자 애플리케이션 레지스트리를 상기 저장 유닛에 전송하는,
    음성 인식을 위한 서버.
  26. 제19항 내지 제25항 중 어느 한 항에 있어서,
    상기 제3자 애플리케이션을 시작한 후에, 상기 시작 유닛은, 상기 제3자 애플리케이션이, 상기 제1 타겟 시맨틱의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3자 애플리케이션 인터페이스(API)를 호출할 수 있도록, 상기 제1 타겟 시맨틱의 시맨틱 커맨드를 상기 제3자 애플리케이션에 전송하는,
    음성 인식을 위한 서버.
  27. 제20항 내지 제26항 중 어느 한 항에 있어서,
    상기 시작 유닛이 상기 제3자 애플리케이션을 시작한 후에, 상기 시작된 제3자 애플리케이션이 상기 API를 이용하여 필요한 하드웨어 리소스 또는 소프트웨어 리소스를 획득할 수 있도록, 상기 제3자 애플리케이션이 상기 제3 음성 신호를 변환하여 제3 텍스트를 획득하고, 상기 제3 텍스트의 시맨틱 커맨드에 따라, 상기 시작된 제3자 애플리케이션과 매칭하는 제3차 애플리케이션 인터페이스(API)를 호출하는,
    음성 인식을 위한 서버.
  28. 제20항 내지 제27항 중 어느 한 항에 있어서,
    상기 수신 유닛은, 상기 제1 텍스트가 파싱되어 상기 제1 타겟 시맨틱을 획득하기 전에, 상호 작용 장치에 의해 전송된 상기 제1 텍스트를 수신하도록 더 구성되어 있는,
    음성 인식을 위한 서버.
  29. 제20항 내지 제28항 중 어느 한 항에 있어서,
    상기 전송 유닛은, 상기 제3자 애플리케이션이 시작된 후에, 응답 피드백을 상기 상호 작용 장치에 전송하도록 더 구성되어 있는,
    음성 인식을 위한 서버.
  30. 음성 인식을 위한 시스템으로서,
    제12항 내지 제19항 중 어느 한 항에 따른 상기 상호 작용 장치 또는 제20항 내지 제29항 중 어느 한 항에 따른 상기 서버를 포함하는,
    음성 인식을 위한 시스템.
KR1020157020795A 2013-01-06 2013-12-20 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템 KR101838095B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310003504.4 2013-01-06
CN201310003504.4A CN103915095B (zh) 2013-01-06 2013-01-06 语音识别的方法、交互设备、服务器和***
PCT/CN2013/090033 WO2014106433A1 (zh) 2013-01-06 2013-12-20 语音识别的方法、交互设备、服务器和***

Publications (2)

Publication Number Publication Date
KR20150103222A true KR20150103222A (ko) 2015-09-09
KR101838095B1 KR101838095B1 (ko) 2018-03-13

Family

ID=51040723

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157020795A KR101838095B1 (ko) 2013-01-06 2013-12-20 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템

Country Status (4)

Country Link
US (3) US10229684B2 (ko)
KR (1) KR101838095B1 (ko)
CN (1) CN103915095B (ko)
WO (1) WO2014106433A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190120353A (ko) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 디바이스, 장치, 및 저장 매체
US11244676B2 (en) 2018-03-13 2022-02-08 Samsung Electronics Co., Ltd Apparatus for processing user voice input

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109324833B (zh) * 2014-09-19 2020-07-07 华为技术有限公司 一种运行应用程序的方法及装置
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN104683456B (zh) 2015-02-13 2017-06-23 腾讯科技(深圳)有限公司 业务处理方法、服务器及终端
US20170147286A1 (en) * 2015-11-20 2017-05-25 GM Global Technology Operations LLC Methods and systems for interfacing a speech dialog with new applications
CN105912725A (zh) * 2016-05-12 2016-08-31 上海劲牛信息技术有限公司 一种通过自然语言交互调用海量智慧应用的***
CN106373571A (zh) * 2016-09-30 2017-02-01 北京奇虎科技有限公司 一种语音控制方法及装置
CN106486119B (zh) * 2016-10-20 2019-09-20 海信集团有限公司 一种识别语音信息的方法和装置
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
CN107492374A (zh) * 2017-10-11 2017-12-19 深圳市汉普电子技术开发有限公司 一种语音控制方法、智能设备及存储介质
CN107783705A (zh) * 2017-10-20 2018-03-09 珠海市魅族科技有限公司 展示应用程序的方法、装置、计算机装置及存储介质
CN107944954A (zh) * 2017-11-15 2018-04-20 联想(北京)有限公司 信息处理方法及其装置
CN110286955A (zh) * 2018-03-16 2019-09-27 青岛海尔多媒体有限公司 应用程序启动的方法、装置及计算机可读存储介质
EP3718041A1 (en) 2018-03-21 2020-10-07 Google LLC Data transfer in secure processing environments
CN108847242B (zh) * 2018-05-30 2021-05-25 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
US10811009B2 (en) * 2018-06-27 2020-10-20 International Business Machines Corporation Automatic skill routing in conversational computing frameworks
CN109408679A (zh) * 2018-09-28 2019-03-01 平安科技(深圳)有限公司 智能管理应用程序的方法、装置、电子设备及存储介质
CN109166582A (zh) * 2018-10-16 2019-01-08 深圳供电局有限公司 一种语音识别的自动控制***及方法
CN109147775A (zh) * 2018-10-18 2019-01-04 深圳供电局有限公司 一种基于神经网络的语音识别方法及装置
WO2020150899A1 (zh) * 2019-01-22 2020-07-30 京东方科技集团股份有限公司 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN110310648A (zh) * 2019-05-21 2019-10-08 深圳壹账通智能科技有限公司 移动终端的控制方法、装置、移动终端及可读存储介质
CN110503959B (zh) * 2019-09-03 2022-02-22 腾讯科技(深圳)有限公司 语音识别数据分发方法、装置、计算机设备及存储介质
CN111583956B (zh) * 2020-04-30 2024-03-26 联想(北京)有限公司 语音处理方法和装置
CN111629164B (zh) * 2020-05-29 2021-09-14 联想(北京)有限公司 一种视频录制生成方法及电子设备
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
US11430467B1 (en) * 2020-09-21 2022-08-30 Amazon Technologies, Inc. Interaction emotion determination
CN113012695B (zh) * 2021-02-18 2022-11-25 北京百度网讯科技有限公司 智能控制方法、装置、电子设备及计算机可读存储介质
US11978449B2 (en) * 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor
CN113496703A (zh) * 2021-07-23 2021-10-12 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品
CN116909768A (zh) * 2023-07-12 2023-10-20 深圳市魔数智擎人工智能有限公司 一种基于工作流的应用程序中对用户输入和交互建模

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6330537B1 (en) * 1999-08-26 2001-12-11 Matsushita Electric Industrial Co., Ltd. Automatic filtering of TV contents using speech recognition and natural language
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US6748361B1 (en) * 1999-12-14 2004-06-08 International Business Machines Corporation Personal speech assistant supporting a dialog manager
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7167831B2 (en) 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7461352B2 (en) * 2003-02-10 2008-12-02 Ronald Mark Katsuranis Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
US7356472B2 (en) * 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
DE102005016853A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem
US20070047719A1 (en) * 2005-09-01 2007-03-01 Vishal Dhawan Voice application network platform
US9456068B2 (en) * 2005-09-01 2016-09-27 Xtone, Inc. System and method for connecting a user to business services
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
US8000969B2 (en) * 2006-12-19 2011-08-16 Nuance Communications, Inc. Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
CN101276586A (zh) * 2007-03-26 2008-10-01 京达国际科技股份有限公司 语音控制装置及方法
CN101067780B (zh) * 2007-06-21 2010-06-02 腾讯科技(深圳)有限公司 智能设备的文字输入***及方法
US20090327979A1 (en) * 2008-06-30 2009-12-31 Nokia Corporation User interface for a peripheral device
US8811965B2 (en) * 2008-10-14 2014-08-19 Todd Michael Cohan System and method for automatic data security back-up and control for mobile devices
KR101528266B1 (ko) 2009-01-05 2015-06-11 삼성전자 주식회사 휴대 단말기 및 그의 응용프로그램 제공 방법
US8639513B2 (en) * 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
US8786664B2 (en) * 2010-04-28 2014-07-22 Qualcomm Incorporated System and method for providing integrated video communication applications on a mobile computing device
US8731939B1 (en) * 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
KR20120063372A (ko) 2010-12-07 2012-06-15 현대자동차주식회사 추상화 api 층위를 이용한 독립형 음성인식 방법 및 시스템
CN102541574A (zh) * 2010-12-13 2012-07-04 鸿富锦精密工业(深圳)有限公司 应用程序开启***及方法
KR20120090151A (ko) * 2011-02-05 2012-08-17 박재현 음성인식기술을 이용한 스마트폰에서의 어플리케이션 실행 방법
US10631246B2 (en) * 2011-02-14 2020-04-21 Microsoft Technology Licensing, Llc Task switching on mobile devices
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
CN102394976A (zh) * 2011-11-01 2012-03-28 宇龙计算机通信科技(深圳)有限公司 基于联系人启动通讯应用的方法及移动终端
CN202533866U (zh) * 2011-11-16 2012-11-14 歌尔声学股份有限公司 一种语音识别控制***
CN102520788B (zh) * 2011-11-16 2015-01-21 歌尔声学股份有限公司 一种语音识别控制方法
CN102830915A (zh) * 2012-08-02 2012-12-19 聚熵信息技术(上海)有限公司 语义输入控制***及其方法
US9292253B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
CN102868827A (zh) * 2012-09-15 2013-01-09 潘天华 一种利用语音命令控制手机应用程序启动的方法
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US20140108010A1 (en) * 2012-10-11 2014-04-17 Intermec Ip Corp. Voice-enabled documents for facilitating operational procedures
CN103024169A (zh) * 2012-12-10 2013-04-03 深圳市永利讯科技股份有限公司 一种通讯终端应用程序的语音启动方法和装置
US9741343B1 (en) * 2013-12-19 2017-08-22 Amazon Technologies, Inc. Voice interaction application selection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190120353A (ko) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 디바이스, 장치, 및 저장 매체
US11244676B2 (en) 2018-03-13 2022-02-08 Samsung Electronics Co., Ltd Apparatus for processing user voice input

Also Published As

Publication number Publication date
KR101838095B1 (ko) 2018-03-13
CN103915095A (zh) 2014-07-09
US10229684B2 (en) 2019-03-12
US10971156B2 (en) 2021-04-06
US20210366483A1 (en) 2021-11-25
US11676605B2 (en) 2023-06-13
CN103915095B (zh) 2017-05-31
WO2014106433A1 (zh) 2014-07-10
US20150310864A1 (en) 2015-10-29
US20190156833A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
KR101838095B1 (ko) 음성 인식을 위한 방법, 상호 작용 장치, 서버 및 시스템
JP6032713B2 (ja) 電子装置及びそのデータ処理方法
CN109075820B (zh) 一种蓝牙配对方法、终端设备以及可读存储介质
US10824300B2 (en) Predictive determination of actions
US11095599B2 (en) Method and system of operating a social networking application via an external device
JP2018525751A (ja) 音声及びビデオ通話のためのインタラクティブ制御方法及び装置
US11404052B2 (en) Service data processing method and apparatus and related device
US20160353173A1 (en) Voice processing method and system for smart tvs
CN109508167A (zh) 在语音识别***中控制显示装置的显示装置和方法
KR101966268B1 (ko) 메시지 표시 방법, 기기 및 장치
US11087758B2 (en) Method and voice input apparatus for converting voice input to text input
CN103701994A (zh) 一种自动应答的方法及装置
KR102357620B1 (ko) 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법
CN110418181B (zh) 对智能电视的业务处理方法、装置、智能设备及存储介质
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
CN104239371B (zh) 一种指令信息处理方法及装置
KR101858544B1 (ko) 정보 처리 방법 및 장치
KR101516414B1 (ko) 가변형 프로토콜을 이용한 멀티 네트워크 접속제어 시스템
KR102574294B1 (ko) 인공지능 플랫폼 제공 장치 및 이를 이용한 컨텐츠 서비스 방법
US10721344B2 (en) Method for adding contact information from instant messaging with circle gestures and user equipment
KR101018275B1 (ko) 단문 메시지 서비스를 이용한 콘텐츠 서비스 시스템 및 그 방법
KR20150107066A (ko) 메신저 서비스 시스템, 그 시스템에서의 상용구를 이용한 메신저 서비스 방법 및 장치
KR20180107880A (ko) 어투 제어 장치 및 방법
JP2020140355A (ja) 帰宅通知サービスの提供方法、サーバシステム、サーバ装置及びプログラム
TW201123011A (en) Remote command execution over a network

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant