KR20200027554A - 음성 인식 방법 및 장치, 그리고 저장 매체 - Google Patents

음성 인식 방법 및 장치, 그리고 저장 매체 Download PDF

Info

Publication number
KR20200027554A
KR20200027554A KR1020207004025A KR20207004025A KR20200027554A KR 20200027554 A KR20200027554 A KR 20200027554A KR 1020207004025 A KR1020207004025 A KR 1020207004025A KR 20207004025 A KR20207004025 A KR 20207004025A KR 20200027554 A KR20200027554 A KR 20200027554A
Authority
KR
South Korea
Prior art keywords
audio data
speech recognition
fuzzy
processing unit
awakening
Prior art date
Application number
KR1020207004025A
Other languages
English (en)
Other versions
KR102354275B1 (ko
Inventor
후이중 탕
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20200027554A publication Critical patent/KR20200027554A/ko
Application granted granted Critical
Publication of KR102354275B1 publication Critical patent/KR102354275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72527
    • H04M1/72563
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0261Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephone Function (AREA)

Abstract

음성 인식 방법 및 장치, 그리고 저장 매체가 개시된다. 본 실시예에서, 오디오 데이터가 취득된 후, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행될 수 있고, 각성 단어가 존재한다고 결정되는 경우에만 휴면 상태의 CPU가 DSP에 의해 각성되며, 상기 CPU는 상기 오디오 데이터에 대해 의미 분석을 수행하는 데 사용된다. 이 방안에서, 동작 전력 소비가 낮은 DSP가 동작 전력 소비가 높은 CPU를 대체하는 데 사용되며; 따라서 CPU가 항상 각성 상태일 필요는 없고, 휴면 상태일 수 있으며, 필요한 경우에만 각성되어, 이동성 및 음성 각성 기능을 유지한다는 전제하에서 시스템 전력 소비를 크게 줄일 수 있으므로, 이동 단말기의 대기 시간을 연장시키고 이동 단말기의 성능을 향상시킨다.

Description

음성 인식 방법 및 장치, 그리고 저장 매체
본 출원은 2017년 7월 19일에 "음성 인식 방법 및 장치, 그리고 저장 매체(SPEECH RECOGNITION METHOD AND APPARATUS, AND STORAGE MEDIUM)"라는 명칭으로 중국 특허청에 출원된 중국 특허출원 제201710588382.8호를 우선권으로 주장하며, 그 내용 전부는 인용에 의해 본 출원에 포함된다.
본 개시는 통신 기술분야에 관한 것으로, 특히 음성 인식에 관한 것이다.
인공 지능의 발달에 따라, 지능형 하드웨어 제품(intelligent hardware product)이 빠르게 개발되었다. 지능형 하드웨어 제품은 인공 지능 기능, 예를 들어 지능형 이동 단말기(간단히 이동 단말기라고 함)와 통합된 하드웨어 기기를 의미한다. 지능형 하드웨어 제품의 핵심 기능은 주로 "인간"과의 상호작용에 있다. 학습 비용이 낮은 자연스러운 상호작용 방식인 음성 상호작용은 지능형 하드웨어 제품의 주류 기술이 되었다.
음성 상호작용에서, 중요한 문제는 음성 각성(speech wakeup)을 어떻게 수행하는가이다. 이동 단말기를 예로 들면, 종래기술에서, 빠른 음성 각성을 수행하기 위해, 단말기의 녹음 기능은 ON 상태를 유지해야 하고, 중앙 처리 유닛(central processing unit, CPU)은 언제라도 오디오 데이터를 처리할 수 있다. 사용자가 말을 하지 않더라도 CPU는 휴면 상태(dormant state)에 들어갈 수 없다. 이 방안에서, CPU는 다양한 오디오 데이터를 인코딩, 디코딩 및 재생하고 다양한 다른 기능을 구현해야 하기 때문에, CPU의 사양에는 높은 요건이 부과된다. 또한, 전체 시스템의 전력 소비가 높아서, 배터리 구동형 이동 단말기의 대기 시간이 크게 단축된다. 따라서, 관련 기술에서는 외부 전원으로 전력을 공급하거나 물리 키를 사용하여 각성을 수행하는 방안이 추가로 제공된다. 그러나 이동 단말기에 외부 전원이 공급되면, 이동 단말기의 이동성은 불가피하게 영향을 받는다. 물리 키를 사용하여 각성을 수행하면 음성 각성을 실현할 수 없다. 즉, 종래의 방안에서, 이동 단말기의 이동성 및 음성 각성 기능을 유지하기 위해 대량의 배터리 전력이 필연적으로 소비되는데, 이는 이동 단말기의 대기 시간을 크게 감소시켜, 이동 단말기의 성능에 영향을 미친다.
본 개시의 실시예에 따른 음성 인식 방법 및 장치, 그리고 저장 매체를 제공하여, 시스템 전력 소비를 감소시켜서, 이동 단말기의 이동성 및 음성 각성 기능을 유지하면서 이동 단말기의 대기 시간을 연장시켜, 이동 단말기의 성능을 향상시킨다.
제1 측면에서, 본 개시의 일 실시예에 따른 음성 인식 방법이 제공되며, 상기 음성 인식 방법은,
오디오 데이터를 취득하는 단계;
디지털 신호 프로세서(digital signal processor, DSP)에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식(fuzzy speech recognition)을 수행하는 단계; 및
퍼지 음성 인식 결과가 각성 단어(wakeup word)가 존재함을 지시하는 경우에 상기 DSP에 의해, 휴면 상태의 CPU를 각성시키는 단계 - 상기 CPU는 상기 오디오 데이터에 대해 의미 분석(semantic analysis)을 수행하도록 구성됨 -를 포함한다.
일부 실시예에서, 상기 DSP에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계는,
상기 디지털 신호 프로세서에 의해, 퍼지 클러스터링 분석 방법(fuzzy clustering analysis method)으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계를 포함한다.
일부 실시예에서, 상기 디지털 신호 프로세서에 의해, 퍼지 클러스터링 분석 방법으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계는,
상기 퍼지 클러스터링 분석 방법으로 퍼지 클러스터링 신경망(fuzzy clustering neural network)을 확립하는 단계;
상기 퍼지 클러스터링 신경망을 확률 밀도 함수의 추정기(estimator)로 사용하여, 상기 오디오 데이터가 상기 각성 단어를 포함할 확률을 예측하는 단계;
예측 결과가 상기 확률이 설정 값 이상임을 지시하는 경우, 상기 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하는 단계; 및
상기 예측 결과가 상기 확률이 상기 설정 값보다 작음을 지시하는 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하는 단계를 포함한다.
일부 실시예에서, 상기 디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계는,
상기 디지털 신호 프로세서에 의해, 퍼지 매칭 알고리즘(fuzzy matching algorithm)으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계를 포함한다.
일부 실시예에서, 상기 디지털 신호 프로세서에 의해, 퍼지 매칭 알고리즘으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계는,
상기 각성 단어의 발음의 특징 맵(feature map)을 취득하여 표준 특징 맵을 획득하는 단계;
상기 오디오 데이터 내의 단어 각각의 발음의 특징 맵을 분석하여, 매칭될 특징 맵을 획득하는 단계;
미리 설정된 멤버십 함수에 기초하여, 상기 매칭될 특징 맵이 상기 표준 특징 맵에 속하는 정도(extent)를 계산하는 단계;
상기 정도가 미리 설정된 값 이상인 경우, 상기 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하는 단계; 및
상기 정도가 상기 미리 설정된 값보다 작은 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하는 단계를 포함한다.
일부 실시예에서, 상기 디지털 신호 프로세서에 의해, 휴면 상태의 중앙 처리 유닛을 각성시키는 단계 후에, 상기 음성 인식 방법은,
상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하고, 분석 결과에 기초하여, 상기 중앙 처리 유닛에 의해 상기 분석 결과에 대응하는 동작을 수행하는 단계를 더 포함한다.
일부 실시예에서, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하기 전에, 상기 음성 인식 방법은,
상기 디지털 신호 프로세서로부터, 상기 오디오 데이터 내의 상기 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득하는 단계;
상기 중앙 처리 유닛에 의해 상기 각성 데이터에 대해 음성 인식을 수행하는 단계;
음성 인식 결과가 상기 각성 단어가 존재함을 지시하는 경우, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 수행하는 단계; 및
상기 음성 인식 결과가 상기 각성 단어가 존재하지 않음을 지시하는 경우, 상기 중앙 처리 유닛을 휴면 상태로 설정하고, 상기 오디오 데이터를 취득하는 단계를 수행하기 위해 복귀하는 단계를 더 포함한다.
일부 실시예에서, 상기 중앙 처리 유닛에 의해 상기 각성 데이터에 대해 음성 인식을 수행하는 단계는,
상기 중앙 처리 유닛의 동작 상태를 제1 상태로 설정하는 단계 - 상기 제1 상태는 단일 코어 및 저주파 동작 상태를 지시함 -; 및
상기 제1 상태에서 상기 각성 데이터에 대해 음성 인식을 수행하는 단계를 포함한다.
일부 실시예에서, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 의미 분석을 수행하는 단계는,
상기 중앙 처리 유닛의 동작 상태를 제2 상태로 설정하는 단계 - 상기 제2 상태는 멀티 코어 및 고주파 동작 상태를 지시함 -; 및
상기 제2 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 포함한다.
일부 실시예에서, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계는,
상기 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면(semantic scene)을 결정하는 단계;
상기 의미 장면에 기초하여 상기 중앙 처리 유닛의 동작 코어의 수 및 주 주파수(dominant frequency)의 크기를 결정하는 단계;
상기 동작 코어의 수 및 상기 주 주파수의 크기에 기초하여 상기 중앙 처리 유닛의 동작 상태를 설정하여, 제3 상태를 획득하는 단계; 및
상기 제3 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 포함한다.
일부 실시예에서, 상기 디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계 전에, 상기 음성 인식 방법은,
상기 오디오 데이터에 대해 노이즈 감소 프로세스(noise reduction process) 및/또는 에코 제거 프로세스(echo cancellation process)를 수행하는 단계를 더 포함한다.
일부 실시예에서, 상기 분석 결과에 기초하여, 상기 분석 결과에 대응하는 동작을 수행하는 단계는,
상기 분석 결과에 기초하여 동작 객체(operation object) 및 동작 내용(operation content)을 결정하는 단계; 및
상기 동작 객체에 대해 상기 동작 내용을 수행하는 단계를 포함한다.
제2 측면에서, 본 개시의 일 실시예에 따른 음성 인식 장치가 더 제공되며, 상기 음성 인식 장치는,
오디오 데이터를 취득하도록 구성된 취득 유닛;
DSP에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하도록 구성된 퍼지 인식 유닛; 및
퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 휴면 상태의 CPU를 각성시키도록 구성된 각성 유닛 - 상기 CPU는 상기 오디오 데이터에 대해 의미 분석을 수행하도록 구성됨 -을 포함한다.
일부 실시예에서, 상기 퍼지 인식 유닛은 추가로, 상기 DSP에 의해 퍼지 클러스터링 분석 방법으로 상기 오디오 데이터에 대해 음성 인식을 수행하여 퍼지 음성 인식 결과를 획득하도록 구성된다.
예를 들어, 상기 퍼지 인식 유닛은, 상기 퍼지 클러스터링 분석 방법으로 퍼지 클러스터링 신경망을 확립하고; 상기 퍼지 클러스터링 신경망을 확률 밀도 함수의 추정기로 사용하여, 상기 오디오 데이터가 상기 각성 단어를 포함할 확률을 예측하고; 예측 결과가 상기 확률이 설정 값 이상임을 지시하는 경우, 상기 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하고; 상기 예측 결과가 상기 확률이 상기 설정 값 미만임을 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하도록 구성될 수 있다.
일부 실시예에서, 상기 퍼지 인식 유닛은 추가로, 상기 DSP에 의해 퍼지 매칭 알고리즘으로 상기 오디오 데이터에 대해 음성 인식을 수행하여 상기 퍼지 음성 인식 결과를 획득하도록 구성된다.
예를 들어, 상기 퍼지 인식 유닛은, 상기 각성 단어의 발음의 특징 맵을 취득하여, 표준 특징 맵을 획득하고; 상기 오디오 데이터 내의 단어 각각의 발음의 특징 맵을 분석하여, 매칭될 특징 맵을 획득하고; 미리 설정된 멤버십 함수에 기초하여, 상기 매칭될 특징 맵이 상기 표준 특징 맵에 속하는 정도를 계산하고; 상기 정도가 미리 설정된 값 이상인 경우, 상기 각성 단어가 존재함을 나타내는 퍼지 음성 인식 결과를 생성하고; 상기 정도가 상기 미리 설정된 값보다 작은 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하도록 구성될 수 있다.
일부 실시예에서, 상기 음성 인식 장치는 추가로 처리 유닛을 더 포함할 수 있다. 상기 처리 유닛은 상기 CPU에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하고, 분석 결과에 기초하여, 상기 분석 결과에 대응하는 동작을 수행하도록 구성된다.
일부 실시예에서, 상기 음성 인식 장치는 정밀 인식 유닛(precise recognition unit)을 더 포함한다. 상기 정밀 인식 유닛은, 상기 DSP로부터, 상기 오디오 데이터 내의 상기 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득하고; 상기 CPU에 의해 상기 각성 데이터에 대해 음성 인식을 수행하고; 음성 인식 결과가 상기 각성 단어가 존재함을 지시하는 경우, 상기 CPU에 의해 상기 오디오 데이터에 대해 의미 분석을 수행하는 동작을 수행하도록 상기 처리 유닛을 트리거하고; 상기 음성 인식 결과가 상기 각성 워드가 존재하지 않음을 지시하는 경우, 상기 CPU를 휴면 상태로 설정하고, 상기 오디오 데이터를 취득하는 동작을 수행하도록 상기 취득 유닛을 트리거하도록 구성된다.
상기 정밀 인식 유닛은 추가로, 상기 CPU의 동작 상태를 제1 상태로 설정하고 - 상기 제1 상태는 단일 코어 및 저주파 동작 상태를 지시함 -; 상기 제1 상태에서 상기 각성 데이터에 대해 음성 인식을 수행하도록 구성될 수 있다.
일부 실시예에서, 상기 처리 유닛은 추가로, 상기 CPU의 동작 상태를 제2 상태로 설정하고 - 상기 제2 상태는 멀티 코어 및 고주파 동작 상태를 지시함 -; 상기 제2 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하도록 구성될 수 있다.
일부 실시예에서, 상기 처리 유닛은 추가로, 상기 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면을 결정하고; 상기 의미 장면에 기초하여 상기 CPU의 동작 코어의 수 및 주 주파수의 크기를 결정하고; 상기 동작 코어의 수 및 상기 주 주파수의 크기에 기초하여 상기 CPU의 동작 상태를 설정하여, 제3 상태를 획득하고; 상기 제3 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하도록 구성될 수 있다.
일부 실시예에서, 상기 음성 인식 장치는 필터링 유닛을 더 포함할 수 있다. 상기 필터링 유닛은 상기 오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하도록 구성된다.
제3 측면에서, 본 개시의 일 실시예에 따라 이동 단말기가 더 제공된다. 상기 이동 단말기는 저장 매체 및 프로세서를 포함한다. 상기 저장 매체는 다수의 명령어를 저장하고, 상기 프로세서는 명령어를 로드하고 실행하도록 구성된다. 상기 명령어는 본 개시의 실시예 중 어느 하나에 따른 음성 인식 방법의 단계를 수행하는 데 사용된다.
제4 측면에서, 본 개시의 실시예에 따라 저장 매체가 추가로 제공된다. 상기 저장 매체는 다수의 명령어를 저장하며, 상기 명령어는 프로세서에 의해 로딩될 때, 상기 프로세서로 하여금 본 개시의 실시예 중 어느 하나에 따른 음성 인식 방법의 단계를 수행하게 한다.
본 개시의 실시예에서, 오디오 데이터가 취득된 후, 퍼지 음성 인식이 DSP에 의해 오디오 데이터에 대해 수행될 수 있다. 휴면 상태의 CPU는 각성 단어가 존재한다고 결정되는 경우에만 DSP에 의해 각성되고, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다. 이 방안에서는 전력 소비가 높은 CPU를 사용하는 대신, 전력 소비가 낮은 DSP를 사용하여 오디오 데이터를 검출하기 때문에, CPU가 항상 각성 상태일 필요는 없으며, CPU는 휴면 상태에 있을 수 있고 필요한 경우에만 각성된다. 따라서, 외부 전원 또는 물리 키만을 사용하여 각성이 수행되는 종래의 방안과 비교하여, 이 방안에서는 이동성 및 음성 각성 기능을 유지하면서 시스템 전력 소비를 크게 감소시킬 수 있으므로, 이동 단말기의 대기 시간을 연장시킬 수 있어서, 이동 단말기의 성능을 향상시킬 수 있다.
본 발명의 실시예에서의 기술적 방안을 보다 명확하게 설명하기 위해, 실시예의 설명에 사용될 도면을 이하에서 간략하게 설명한다. 명백하게, 이하의 설명에서의 도면은 본 개시의 일부 실시예를 보여줄 뿐이며, 당업자는 창조적 노력 없이 이들 도면으로부터 다른 도면을 도출할 수 있다.
도 1a는 본 개시의 일 실시예에 따른 이동 단말기의 아키텍처도이다.
도 1b는 본 개시의 일 실시예에 따른 음성 인식 방법의 시나리오의 개략도이다.
도 1c는 본 개시의 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 1d는 본 개시의 일 실시예에 따른 음성 인식 방법의 블록도이다.
도 2a는 본 개시의 다른 실시예에 따른 음성 인식 방법의 흐름도이다.
도 2b는 본 개시의 다른 실시예에 따른 음성 인식 방법의 블록도이다.
도 3a는 본 개시의 일 실시예에 따른 음성 인식 장치의 개략 구성도이다.
도 3b는 본 개시의 다른 실시예에 따른 음성 인식 장치의 개략 구성도이다.
도 3c는 본 개시의 또 다른 실시예에 따른 음성 인식 장치의 개략 구성도이다.
도 4는 본 발명의 일 실시예에 따른 이동 단말기의 개략 구성도이다.
본 개시의 실시예에서의 도면을 참조하여 본 개시의 실시예에서의 기술적 방안을 명확하고 완전하게 설명한다. 명백히, 설명된 실시예는 본 개시의 모든 실시예가 아니라 일부일 뿐이다. 당업자에 의해 창의적인 노력 없이 본 개시의 실시예에 기초하여 획득된 다른 모든 실시예는 본 개시의 보호 범위 내에 속한다.
본 발명의 실시예에 따라 음성 인식 방법 및 장치, 그리고 저장 매체가 제공된다.
구체적으로, 음성 인식 장치는 이동 단말기, 예를 들어, 이동 전화, 웨어러블 지능형 기기, 태블릿 컴퓨터 및/또는 노트북 컴퓨터와 같은 기기에 통합될 수 있다.
예를 들어, 음성 인식 장치가 이동 단말기에 통합되는 경우를 예로 든다. 도 1a를 참조하면, DSP는 이동 단말기에 배치될 수 있다. 예를 들어, DSP는 코더-디코더(coder-decoder, Codec)(예: DSP 기능을 갖는 코더-디코더)에 배치될 수 있다. 이러한 방식으로, 예를 들어, 도 1b에 도시된 바와 같이, 이동 단말기가 오디오 데이터를 취득하는 경우, 예를 들어, 이동 단말기가 마이크로폰(microphone, MIC)에 의해 사용자의 사운드를 수신하는 경우, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행될 수 있고, 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 휴면 상태의 CPU가 DSP에 의해 각성된다. CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성될 수 있다. 그렇지 않고, 퍼지 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, CPU는 각성되지 않고, DSP는 오디오 데이터를 계속 검출한다.
DSP는 디지털 신호 처리 및 동작을 수행하기에 적합한 마이크로프로세서이며, 다양한 디지털 신호 처리 알고리즘을 실시간으로 신속하게 구현할 수 있음에 유의해야 한다. 또한, 다른 프로세서에 비해, DSP는 오버헤드가 낮거나 오버헤드가 0(zero)인 루프 및 점프를 수행하는 하드웨어 지원 특성으로 인해 전력 소비가 낮다. 게다가 DSP에는 노이즈 감소 기능도 있다.
이하에 상세하게 설명한다. 이하의 실시예의 시퀀스 번호는 실시예의 선호도를 제한하려는 의도는 아님에 유의해야 한다.
[실시예 1]
본 실시예에서는, 음성 인식 장치의 관점에서 설명을 제공한다. 구체적으로, 음성 인식 장치는 이동 단말기 등에 통합될 수 있다. 이동 단말기는 이동 전화, 웨어러블 지능형 기기, 태블릿 컴퓨터 및/또는 노트북 컴퓨터와 같은 기기일 수 있다.
본 실시예에 따라 음성 인식 방법이 제공되는데, 이 음성 인식 방법은 오디오 데이터를 취득하는 단계; DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계; 및 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 DSP에 의해 휴면 상태의 CPU를 각성시키는 단계를 포함하며, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다.
도 1c에 도시된 바와 같이, 음성 인식 방법은 다음의 단계 101 내지 103을 포함할 수 있다.
단계 101에서, 오디오 데이터를 취득한다.
예를 들어, 오디오 데이터는 MIC, 예를 들어 이동 단말기에 내장된 MIC 모듈에 의해 수집될 수 있다.
오디오 데이터는 다양한 유형의 사운드가 변환되어 있는 데이터를 포함할 수 있다. 사운드의 범주는 한정되지 않을 수 있다. 예를 들어, 사운드는 말소리, 동물 소리, 물체에 부딪혀 나는 소리, 및/또는 음악일 수 있다.
단계 102에서, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행된다.
퍼지 음성 인식 방식은 여러 가지 있을 수 있다. 예를 들어, 퍼지 클러스터링 분석 방법이 오디오 데이터에 대해 음성 인식을 수행하는 데 사용될 수 있다. 대안적으로, 퍼지 매칭 알고리즘이 오디오 데이터에 대해 음성 인식을 수행하는 데 사용될 수 있다. 즉, "DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는" 단계는 다음과 같이 수행될 수 있다.
(1) DSP에 의해, 퍼지 클러스터링 분석 방법으로 오디오 데이터에 대해 음성 인식을 수행되어, 퍼지 음성 인식 결과를 획득한다.
예를 들어, 퍼지 클러스터링 신경망이 퍼지 클러스터링 분석 방법으로 확립될 수 있다. 퍼지 클러스터링 신경망은 오디오 데이터가 각성 단어를 포함할 확률을 예측하기 위해, 확률 밀도 함수의 추정기로 사용된다. 예측 결과가 확률이 설정 값 이상임을 지시하는 경우, 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과가 생성된다. 그렇지 않고, 예측 결과가 확률이 설정 값보다 작음을 지시하는 경우, 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과가 생성된다.
퍼지 클러스터링 분석 방법을 사용하면, 일반적으로 퍼지 매트릭스가 연구 대상 자체의 속성에 따라 구성되고, 퍼지 매트릭스에 기초한 멤버십에 기초하여 클러스터링 관계가 결정된다. 즉, 샘플 간의 퍼지 관계가 퍼지 수학적 방법(fuzzy mathematics method)에 의해 정량적으로 결정되므로, 클러스터링이 객관적이고 정확하게 수행된다. 클러스터링은 다양한 클래스 내의 데이터 간에 차이는 크고, 하나의 클래스 내의 데이터 간의 차이는 작은 방식으로 데이터 세트를 여러 클래스 또는 클러스터로 나누는 동작을 나타낸다.
설정 값은 실제 애플리케이션 요건에 따라 설정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
(2) DSP에 의해, 퍼지 매칭 알고리즘으로 오디오 데이터에 대해 음성 인식이 수행되어, 퍼지 음성 인식 결과를 획득한다.
예를 들어, 표준 특징 맵을 획득하기 위해, 각성 단어의 발음의 특징 맵이 취득될 수 있다. 매칭될 특징 맵을 획득하기 위해, 오디오 데이터 내의 단어 각각의 발음의 특징 맵이 분석된다. 그런 다음, 매칭될 특징 맵이 표준 특징 맵에 속하는 정도가 미리 설정된 멤버십 함수에 기초하여 계산된다. 그 정도가 미리 설정된 값 이상인 경우, 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과가 생성된다. 그렇지 않고, 그 정도가 미리 설정된 값보다 작은 경우, 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과가 생성된다.
멤버십 함수 및 미리 설정된 값은 실제 애플리케이션 요건에 따라 설정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
대안적으로, 음성 인식의 정확도를 향상시키기 위해, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행되기 전에, 노이즈 감소 프로세스 및/또는 에코 제거 프로세스와 같은 필터링 프로세스가 오디오 데이터에 대해 추가로 수행될 수 있다. 즉, 도 1d에 도시된 바와 같이, "DSP가 오디오 데이터에 대해 퍼지 음성 인식을 수행하는" 단계 전에, 이 음성 인식 방법은,
오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하여, 처리된 오디오 데이터를 획득하는 단계를 더 포함할 수 있다.
이 경우, "DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는" 단계는, DSP에 의해, 처리된 오디오 데이터에 대해 퍼지 음성 인식을 수행함으로써 구현될 수 있다.
단계 103에서, 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, DSP가 휴면 상태의 CPU를 각성시킨다. 즉, CPU의 실행 프로그램(running program)이 DSP에 의해 활성화된다. 예를 들어, CPU 내의 기록 및 오디오 데이터와 관련된 실행 프로그램이 활성화될 수 있다.
각성 단어는 하나 이상 있을 수 있다. 각성 단어는 실제 애플리케이션 요건에 따라 미리 설정될 수 있다. 예를 들어, 각성 단어에 "전화 걸기" 및 "메시지 보내기"를 포함하는 경우를 예로 든다. 퍼지 음성 인식 결과가 "전화 걸기" 또는 "메시지 보내기"라는 단어가 오디오 데이터에 존재함을 지시하는 경우, CPU는 DSP에 의해 각성될 수 있으며, 다른 경우는 유추에 의해 추론될 수 있다.
"DSP에 의해, 휴면 상태의 CPU를 각성시키는" 단계 후에, 이 음성 인식 방법은,
CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 기초하여, 분석 결과에 대응하는 동작을 수행하는 단계를 더 포함할 수 있다.
예를 들어, 분석 결과에 기초하여 동작 객체 및 동작 내용이 결정될 수 있다. 그런 다음, 동작 내용이 동작 객체에 대해 수행된다.
DSP의 자원은 한정되므로, 음성 인식의 정확도는 높지 않다. 따라서, 인식의 정확도를 더욱 향상시켜 실수로 CPU가 각성되는 경우를 회피하기 위해, 대안적으로, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하기 전에, CPU에 의해 오디오 데이터는 추가로 인식될 수 있다. 즉, "CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는" 단계 전에, 이 음성 인식 방법은,
DSP부터, 오디오 데이터에서 각성 단어를 포함하는 데이터를 판독하여, 각성 데이터를 획득하는 단계; CPU가 각성 데이터에 대해 음성 인식을 수행하는 단계; 및 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는 단계를 수행하는 단계; 및 그렇지 않고, 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, CPU를 휴면 상태로 설정하고, 오디오 데이터를 취득하는 단계(즉, 단계 101)를 수행하기 위해 복귀하는 단계를 더 포함할 수 있다.
대안적으로, 전력 소비를 감소시키기 위해, CPU가 각성되는 경우, 모든 코어가 동작할 수 있는 것은 아니며, 동작은 저주파에서 단일 코어로 수행된다. 즉, "CPU에 의해 각성 데이터에 대해 음성 인식을 수행하는" 단계는,
CPU의 동작 상태를 단일 코어 및 저주파 동작 상태로 설정하여, CPU가 이 동작 상태에서 각성 데이터에 대해 음성 인식을 수행하도록 하는 단계를 포함할 수 있다.
설명의 편의를 위해, 본 개시의 본 실시예에서, "단일 코어 및 저주파"의 동작 상태는 제1 상태로 지칭된다. 즉, CPU는 제1 상태에서 각성 데이터에 대해 음성 인식을 수행할 수 있다.
대안적으로, 처리 효율을 향상시키기 위해, CPU가 각성 단어가 존재한다고 결정하는 경우, 코어 수를 증가시킬 수 있고, 주 주파수를 증가시켜 오디오 데이터에 대해 의미 분석을 수행할 수 있다. 즉, "CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는" 단계는,
CPU의 동작 상태를 멀티 코어 및 고주파 동작 상태로 설정하여, CPU에 의해 이 동작 상태에서 오디오 데이터에 대해 의미 분석을 수행하는 단계를 포함할 수 있다.
설명의 편의를 위해, 본 개시의 본 실시예에서, "멀티 코어 및 고주파"의 동작 상태는 제2 상태로 지칭된다. 즉, CPU의 동작 상태는 제2 상태로 설정될 수 있고, CPU는 제2 상태에서 오디오 데이터에 대해 의미 분석을 수행할 수 있다.
본 개시의 본 실시예에서, 멀티 코어는 프로세서에 통합된 둘 이상의 완전한 컴퓨팅 엔진(코어)이 사용된다는 것을 가리킨다 것에 유의해야 한다. 저주파는 주 주파수가 미리 설정된 주파수보다 낮다는 것을 의미한다. 고주파는 주 주파수가 미리 설정된 주파수 이상임을 의미한다. 미리 설정된 주파수는 실제 애플리케이션 요건사항에 따라 결정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
대안적으로, 처리의 유연성을 향상시켜 전력 소비와 처리 효율의 균형을 맞추기 위해, CPU의 동작 코어의 수 및 주 주파수의 크기는 구체적인 음성 장면에 기초하여 추가로 조정될 수 있다. 즉, "CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는" 단계는,
오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면을 결정하는 단계; 의미 장면에 기초하여 CPU의 동작 코어의 수 및 주 주파수의 크기를 결정하는 단계; 동작 코어의 수 및 주 주파수의 크기에 기초하여 CPU의 동작 상태를 설정하여, 제3 상태를 획득하는 단계; 및 제3 상태에서 오디오 데이터에 대해 의미 분석을 수행하는 단계를 포함할 수 있다.
예를 들어, "전화 걸기"의 의미 장면에서, 의미 분석은 더 낮은 주 주파수에서 더 적은 수의 동작 코어로 오디오 데이터에 대해 수행될 수 있다. "검색"의 의미 장면에서, 의미 분석은 더 높은 주 주파수에서 더 많은 수의 코어로 오디오 데이터에 대해 수행될 수 있다.
이상으로부터, 본 실시예에서, 오디오 데이터가 취득된 후, 퍼지 음성 인식이 DSP에 의해 오디오 데이터에 대해 수행될 수 있음을 알 수 있다. 휴면 상태의 CPU는 각성 단어가 존재한다고 결정되는 경우에만 DSP에 의해 각성되고, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다. 이 방안에서는 전력 소비가 높은 CPU를 사용하는 대신, 전력 소비가 낮은 DSP를 사용하여 오디오 데이터를 감지하기 때문에, CPU가 항상 각성 상태일 필요는 없으며, CPU는 휴면 상태에 있을 수 있고 필요한 경우에만 각성된다. 따라서, 외부 전원 또는 물리 키만을 사용하여 각성이 수행되는 종래의 방안과 비교하여, 이 방안에서는 이동성 및 음성 각성 기능을 유지하면서 시스템 전력 소비를 크게 감소시킬 수 있으므로, 이동 단말기의 대기 시간을 연장시킬 수 있어서, 이동 단말기의 성능을 향상시킬 수 있다.
[실시예 2]
실시예 1에서 설명된 방법에 따라, 이하에서는 일례와 함께 상세하게 설명한다.
본 실시예에서, 음성 인식 장치가 이동 단말기에 통합되는 예를 사용하여 설명한다.
도 2a에 도시된 바와 같이, 음성 인식 방법은 다음 단계 201 내지 207을 포함할 수 있다.
단계 201에서, 이동 단말기가 MIC에 의해 오디오 데이터를 수집한다.
MIC는 이동 단말기와 독립적으로 배치될 수 있거나, 이동 단말기에 내장될 수 있다. 오디오 데이터는 다양한 유형의 사운드가 변환되어 있는 데이터를 포함할 수 있다. 사운드의 범주는 한정되지 않을 수 있다. 예를 들어, 사운드는 말소리, 동물 소리, 물체에 부딪혀 나는 소리, 및/또는 음악일 수 있다.
단계 202에서, 이동 단말기는 DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행한다. 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, 단계 203이 수행되고; 그렇지 않고, 퍼지 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, 이 음성 인식 방법은 단계 201로 복귀한다.
하나 이상의 각성 단어가 있을 수 있다. 각성 단어는 실제 애플리케이션 요건에 따라 미리 설정될 수 있다. 예를 들어, 각성 단어는 "전화 걸기", "메시지 보내기", "*는 누구인가" 및/또는 "*는 무엇인가"일 수 있으며, 여기서 "*"는 임의의 명사, 예를 들어 "Zhang San은 누구인가","Li Si는 누구인가 " 또는 "Java는 무엇인가"를 나타낼 수 있다.
예를 들어, 도 1a에 도시된 바와 같이, DSP는 이동 단말기의 코더-디코더(즉, 코덱)에 배치될 수 있다. 코더-디코더는 오디오 데이터를 압축 및 압축 해제(즉, 코딩 및 디코딩)할 수 있다. MIC는 오디오 데이터를 수집한 후, 압축 및/또는 압축 해제와 같은 처리를 위해 오디오 데이터를 코더-디코더로 전송하며, 그런 다음 처리된 오디오 데이터는 퍼지 음성 인식을 위해 DSP에 송신된다. 퍼지 음성 인식 방식은 다수 있을 수 있다. 예를 들어, 퍼지 클러스터링 분석 방법이 오디오 데이터에 대해 음성 인식을 수행하기 위해 사용될 수 있다. 대안적으로, 퍼지 매칭 알고리즘이 오디오 데이터에 대해 음성 인식을 수행하기 위해 사용될 수 있다. 예를 들어, 이동 단말기는 DSP에 의해 다음과 같이 오디오 데이터에 대해 음성 인식을 수행할 수 있다.
(1) 이동 단말기는 DSP에 의해, 퍼지 클러스터링 분석 방법으로 오디오 데이터에 대해 음성 인식을 수행하여, 퍼지 음성 인식 결과를 획득한다.
예를 들어, DSP는 퍼지 클러스터링 분석 방법으로 퍼지 클러스터링 신경망을 확립하고; 퍼지 클러스터링 신경망을 확률 밀도 함수의 추정기로서 사용하여, 오디오 데이터가 각성 단어를 포함할 확률을 예측하고; 예측 결과가 확률이 설정된 값 이상임을 지시하는 경우, 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하고; 그렇지 않고, 예측 결과가 확률이 설정 값보다 작음을 지시하는 경우, 각성 단어가 존재하지 않음을 지지하는 퍼지 음성 인식 결과를 생성할 수 있다.
설정 값은 실제 애플리케이션 요건에 따라 설정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
(2) 이동 단말기는 DSP에 의해, 퍼지 매칭 알고리즘으로 오디오 데이터에 대해 음성 인식을 수행하여, 퍼지 음성 인식 결과를 획득한다.
예를 들어, DSP는 각성 단어의 발음의 특징 맵을 취득하여, 표준 특징 맵을 획득하고; 오디오 데이터 내의 단어 각각의 발음의 특징 맵을 분석하여, 매칭될 특징 맵을 획득하고; 미리 설정된 멤버십 함수에 기초하여, 매칭될 특징 맵이 표준 특징 맵에 속하는 정도를 계산하고; 그 정도가 미리 설정된 값 이상인 경우, 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하고; 그 정도가 미리 설정된 값보다 작은 경우, 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성할 수 있다.
멤버십 함수 및 미리 설정된 값은 실제 애플리케이션 요건에 따라 설정될 수 있다. 또한, 매칭될 특징 맵이 표준 특징 맵에 속하는 정도는 멤버십에 의해 표현될 수 있다. 1에 가까운 맴버십은 매칭될 특징 맵이 표준 기능 맵에 속하는 정도가 높음을 지시한다. 0에 가까운 멤버십은 매칭될 특징 맵이 표준 기능 맵에 속하는 정도가 낮음을 지시한다. 여기서는 세부 사항을 설명하지 않는다.
대안적으로, 음성 인식의 정확도를 향상시키기 위해, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행되기 전에, 오디오 데이터 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스와 같은 필터링 프로세스가 추가로 수행될 수 있다. 즉, 도 2b에 도시된 바와 같이,
"이동 단말기가 DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는" 단계 전에, 이 음성 인식 방법은,
이동 단말기가 오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하여, 처리된 오디오 데이터를 획득하는 단계를 더 포함할 수 있다.
이 경우, "이동 단말기가 DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는" 단계는, 이동 단말기가 DSP에 의해, 처리된 오디오 데이터에 대해 퍼지 음성 인식을 수행함으로써 구현될 수 있다.
단계 203에서, 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 DSP는 휴면 상태의 CPU를 각성시킨다.
예를 들어, CPU의 실행 프로그램이 DSP에 의해 활성화될 수 있다. 예를 들어, CPU 내의 기록 및 오디오 데이터와 관련된 실행 프로그램이 활성화될 수 있다.
예를 들어, 각성 단어가 "전화 걸기" 및 "메시지 보내기"를 포함하는 경우를 예로 든다. 퍼지 음성 인식 결과가 "전화 걸기" 또는 "메시지 보내기"라는 단어가 오디오 데이터에 존재함을 지시하는 경우, CPU는 DSP에 의해 각성될 수 있다. 다른 경우는 유추에 의해 추론될 수 있다.
단계 204에서, 이동 단말기는 DSP로부터 오디오 데이터에 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득한다.
예를 들어, 각성 단어 "전화 걸기"를 예로 든다. DSP가, 오디오 데이터 세그먼트에 대해 음성 인식을 수행하는 경우, 데이터 세그먼트 A가 "전화 걸기"라는 각성 단어를 가지고 있다고 결정하면, 이동 단말기는 데이터 세그먼트 A를 판독하고, 데이터 세그먼트 A를 각성 데이터로서 사용할 수 있다.
다른 예에서, 각성 단어 "메시지 보내기"를 예로 든다. DSP가, 오디오 데이터 세그먼트에 대해 음성 인식을 수행하는 경우, 데이터 세그먼트 B가 "메시지 보내기"이라는 각성 단어를 가지고 있다고 결정하면, 이동 단말기는 데이터 세그먼트 B를 판독하고 데이터 세그먼트 B를 각성 데이터로서 사용할 수 있다. 다른 경우는 유추에 의해 추론될 수 있다.
단계 205에서, 이동 단말기는 CPU에 의해 각성 데이터에 대해 음성 인식을 수행한다. 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, 단계 206이 수행되고; 그렇지 않고, 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, CPU는 휴면 상태로 설정되고, 이 음성 인식 방법은 오디오 데이터를 취득하는 단계(즉, 단계 201)로 복귀한다.
예를 들어, 도 2b를 참조하면, DSP는 오디오 데이터에 대해 음성 인식을 수행하는 동작을 수행할 것을 통지받을 수 있다.
대안적으로, 전력 소비를 감소시키기 위해, CPU가 각성되는 경우, 모든 코어가 동작될 수 있는 것은 아니며, 연산 및 처리는 저주파에서 단일 코어로 수행된다. 즉, "CPU에 의해 각성 데이터에 대해 음성 인식을 수행하는" 동작은,
CPU의 동작 상태를 제1 상태, 즉 단일 코어 및 저주파 동작 상태로 설정하여, CPU가 제1 상태에서 각성 데이터에 대해 음성 인식을 수행하는 것을 포함할 수 있다.
단계 204 및 205는 대안이다.
단계 206에서, 이동 단말기는 CPU에 의해 오디오 데이터에 대해 의미 분석을 수행한다.
예를 들어, CPU의 동작 상태는 제2 상태, 즉 멀티 코어 및 고주파 동작 상태로 설정될 수 있고, CPU는 제2 상태에서 오디오 데이터에 대해 의미 분석을 수행한다.
대안적으로, 처리의 유연성을 향상시켜 전력 소비와 처리 효율의 균형을 맞추기 위해, 구체적인 음성 장면에 기초하여, CPU의 동작 코어의 수 및 주 주파수의 크기가 조정될 수 있다. 예를 들어, 이동 단말기는 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면을 결정하고, 의미 장면에 기초하여 CPU의 동작 코어의 수 및 주 주파수의 크기를 결정하고, CPU의 동작 코어의 수 및 주 주파수의 크기에 기초하여 CPU의 동작 상태(즉, 제3 상태)를 설정하고, 이 동작 상태에서 오디오 데이터에 대해 의미 분석을 수행한다.
예를 들어, "전화 걸기"의 의미 장면에서, CPU는 주 주파수 X mhz에서 단일 동작 코어로 동작해야 한다. "메시지 보내기"의 의미 장면에서, CPU는 Y mhz의 주 주파수에서 단일 동작 코어로 동작해야 한다. "검색"의 의미 장면에서, CPU는 주 주파수 Z mhz에서 두 개의 동작 코어로 동작해야 한다. 세부 사항은 다음과 같다.
각성 단어가 "전화 걸기"이면, CPU는 주 주파수 X mhz에서 단일 동작 코어로 동작하도록 설정될 수 있다. 그런 다음, CPU는 이 동작 상태에서 오디오 데이터에 대해 의미 분석을 수행한다.
각성 단어가 "메시지 보내기"이면, CPU는 주 주파수 Y mhz에서 단일 동작 코어로 동작하도록 설정될 수 있다. 그런 다음, CPU는 이 동작 상태에서 오디오 데이터에 대해 의미 분석을 수행한다.
각성 단어가 "검색"이면, CPU는 주 주파수 Z mhz에서 두 개의 동작 코어로 동작하도록 설정될 수 있다. 그런 다음, CPU는 이 작동 상태에서 오디오 데이터에 대해 의미 분석을 수행한다.
다른 경우는 유추에 의해 추론될 수 있다.
도 2b에 도시된 바와 같이, CPU가 각성된 후, 이동 단말기는 MIC에 의해 다른 오디오 데이터를 추가로 수집할 수 있다는 것에 유의해야 한다. 각성되는 CPU는 다른 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 기초하여 대응하는 동작을 수행한다. 의미 분석 방식 및 "분석 결과에 기초하여 대응하는 동작을 수행하는" 방식에 대한 세부 사항은 단계 206 및 207을 참조할 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
단계 207에서, 이동 단말기는 분석 결과에 기초하여, 분석 결과에 대응하는 동작을 수행한다.
예를 들어, 분석 결과에 기초하여 동작 객체 및 동작 내용이 결정될 수 있다. 그런 다음, 동작 내용이 CPU에 의해 동작 객체에 대해 수행된다.
예를 들어, 각성 단어 "장산(Chang San)에게 전화 걸기"를 예로 든다. 이동 단말기는 동작 객체를 "주소록 내의 장산의 전화번호"로 결정하고, 동작 내용을 "전화번호 다이얼링"으로 결정할 수 있다. 이 경우, 이동 단말기는 CPU에 의해 주소록에서 장산의 전화번호를 다이얼링하여 "장산에게 전화 걸기" 태스크를 수행할 수 있다.
다른 예를 들어, "시 검색(searching for poetry)" 각성 작업을 예로 든다. 이동 단말기는 동작 객체를 "검색 엔진 애플리케이션"으로 결정하고, 동작 내용을 "검색 엔진 애플리케이션을 사용하여 키워드 '시"를 검색하는 것"으로 결정할 수 있다. 이 경우, 이동 단말기에서 검색 엔진 애플리케이션이 시작될 수 있고, "시 검색" 태스크를 수행하기 위해, 검색 엔진 애플리케이션을 사용하여 키워드 "시"가 검색된다. 다른 경우는 유추에 의해 추론될 수 있다.
이상으로부터, 본 실시예에서, 오디오 데이터가 취득된 후, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행될 수 있음을 알 수 있다. 휴면 상태의 CPU는 각성 단어가 존재한다고 결정되는 경우에만 DSP에 의해 각성되고, CPU는 각성 단어가 단일 코어 및 저주파 동작 상태에 존재하는지 여부를 추가로 판정한다. CPU가 각성 단어가 존재하지 않는다고 결정하면, CPU는 휴면 상태로 전환되고, DSP는 각성 단어를 계속하여 검출한다. CPU는 각성 단어가 존재한다고 결정하는 경우에만 오디오 데이터에 대해 의미 분석을 수행하고, 그런 다음, CPU는 분석 결과에 기초하여 대응하는 동작을 수행한다. 이 방안에서는 전력 소비가 높은 CPU를 사용하는 대신, 전력 소비가 낮은 DSP를 사용하여 오디오 데이터를 감지하기 때문에, CPU가 항상 각성 상태일 필요는 없고, CPU는 휴면 상태에 있을 수 있고 필요한 경우에만 각성된다. 따라서, 외부 전원 또는 물리 키만을 사용하여 각성이 수행되는 종래의 방안과 비교하여, 이 방안에서는 이동성 및 음성 각성 기능을 유지하면서 시스템 전력 소비를 크게 감소시킬 수 있으므로, 이동 단말기의 대기 시간을 연장시킬 수 있어서, 이동 단말기의 성능을 향상시킬 수 있다.
또한, 이 방안에서, 각성 단어는 DSP에 의해 인식될 뿐만 아니라 CPU에 의해 추가로 인식될 수 있어서, 인식의 정확도가 높다. 또한, CPU는 낮은 전력 소비의 동작 상태(예: 단일 코어 및 저주파 동작 상태)에서 각성 단어를 인식하고, CPU는 각성 단어가 존재하는 것으로 결정하는 경우에만 높은 전력 소비의 동작 상태에서 의미 분석을 수행하여, 자원이 합리적이고 효과적으로 이용되므로, 이동 단말기의 성능을 더 향상시킨다.
[실시예 3]
상기 방법을 더 잘 구현하기 위해, 본 개시의 일 실시예에 따른 음성 인식 장치가 더 제공된다. 구체적으로, 음성 인식 장치는 예를 들어, 이동 전화, 웨어러블 지능형 기기, 태블릿 컴퓨터 및/또는 노트북 컴퓨터와 같은, 이동 단말기에 통합될 수 있다.
예를 들어, 도 3a를 참조하면, 음성 인식 장치는 취득 유닛(301), 퍼지 인식 유닛(302) 및 각성 유닛(303)을 포함할 수 있다.
(1) 취득 유닛(301)은 오디오 데이터를 취득하도록 구성된다. 예를 들어, 취득 유닛(301)은 이동 단말기에 내장된 MIC 모듈과 같은 MIC에 의해 오디오 데이터를 수집하도록 구성될 수 있다.
(2) 퍼지 인식 유닛(302)은 DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하도록 구성된다. 퍼지 음성 인식 방식은 여러 가지 있을 수 있다. 예를 들어, 퍼지 클러스터링 분석 방법이 오디오 데이터에 대해 음성 인식을 수행하는 데 사용될 수 있다. 대안적으로, 퍼지 매칭 알고리즘이 오디오 데이터에 대해 음성 인식을 수행하는 데 사용될 수 있다. 세부 사항은 다음과 같다.
제1 방식에서, 퍼지 인식 유닛(302)은 추가로, DSP에 의해, 퍼지 클러스터링 분석 방법으로 오디오 데이터에 대해 음성 인식을 수행하여, 퍼지 음성 인식 결과를 획득하도록 구성될 수 있다.
예를 들어, 퍼지 인식 유닛(302)은 추가로, 퍼지 클러스터링 분석 방법으로 퍼지 클러스터링 신경망을 확립하고; 퍼지 클러스터링 신경망을 확률 밀도 함수의 추정기로 사용하여, 오디오 데이터가 각성 단어를 포함할 확률을 예측하고; 예측 결과가 확률이 설정 값 이상임을 지시하는 경우, 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하고; 예측 결과가 확률이 설정 값 미만임을 경우, 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하도록 구성될 수 있다.
설정 값은 실제 애플리케이션 요건에 따라 설정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
제2 방식에서, 퍼지 인식 유닛(302)은 추가로, DSP에 의해, 퍼지 매칭 알고리즘으로 오디오 데이터에 대해 음성 인식을 수행하여, 퍼지 음성 인식 결과를 획득하도록 구성된다.
예를 들어, 퍼지 인식 유닛(302)은 추가로, 각성 단어의 발음의 특징 맵을 취득하여, 표준 특징 맵을 획득하고; 오디오 데이터 내의 단어 각각의 발음의 특징 맵을 분석하여, 매칭될 특징 맵을 획득하고; 미리 설정된 멤버십 함수에 기초하여, 매칭될 특징 맵이 표준 특징 맵에 속하는 정도를 계산하고; 그 정도가 미리 설정된 값 이상인 경우, 각성 단어가 존재함을 나타내는 퍼지 음성 인식 결과를 생성하고; 그 정도가 미리 설정된 값보다 작은 경우, 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하도록 구성될 수 있다.
멤버십 함수 및 미리 설정된 값은 실제 애플리케이션 요건에 따라 설정될 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
일부 구현예에서, 도 3b에 도시된 바와 같이, 음성 인식 장치는 처리 유닛(304)을 더 포함할 수 있다.
처리 유닛(304)은 CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 기초하여 분석 결과에 대응하는 동작을 수행하도록 구성된다.
예를 들어, 처리 유닛(304)은 추가로, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 기초하여 동작 객체 및 동작 내용을 결정하고, 동작 객체에 대한 동작 내용을 수행하도록 구성될 수 있다.
대안적으로, 음성 인식의 정확도를 향상시키기 위해, 퍼지 인식 유닛(302)이 오디오 데이터에 대해 퍼지 음성 인식을 수행하기 전에, 오디오 데이터는 노이즈 감소 프로세스 및/또는 에코 제거 프로세스와 같은 필터링 프로세스에 의해 추가로 처리될 수 있다. 즉, 도 3c에 도시된 바와 같이, 음성 인식 장치는 필터링 유닛(305)을 더 포함할 수 있다.
필터링 유닛(305)은 오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하도록 구성될 수 있다.
이 경우, 퍼지 인식 유닛(302)은 추가로, 필터링 유닛(305)에 의해 처리된 오디오 데이터에 대해 퍼지 음성 인식을 수행하도록 구성될 수 있다.
(3) 각성 유닛(303)은, 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 휴면 상태의 CPU를 각성시키도록 구성될 수 있다.
하나 이상의 각성 단어가 있을 수 있다. 각성 단어는 실제 애플리케이션 프로그램 요건에 따라 설정될 수 있다. 여기서는 세부 사항을 설명하지 않는다. 대안적으로, 인식의 정확도를 더욱 향상시켜 실수로 CPU가 각성되는 경우를 피하기 위해, 처리 유닛(304)은 CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하기 전에, 오디오 데이터는 추가로 인식될 수 있다. 즉, 도 3c에 도시된 바와 같이, 음성 인식 장치는 정밀 인식 유닛(306)을 더 포함할 수 있다.
정밀 인식 유닛(306)은, DSP로부터, 오디오 데이터 내의 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득하고; CPU에 의해 각성 데이터에 대해 음성 인식을 수행하고; 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는 동작을 수행하도록 처리 유닛(304)을 트리거하고; 음성 인식 결과가 각성 단어가가 존재하지 않음을 지시하는 경우, CPU를 휴면 상태로 설정하고, 오디오 데이터를 취득하는 동작을 수행하도록 취득 유닛을 트리거하도록 구성된다.
대안적으로, 전력 소비를 감소시키기 위해, CPU가 각성되는 경우, 모든 코어가 동작될 수 있는 것은 아니며, 동작은 저주파에서 단일 코어로 수행된다.
즉, 정밀 인식 유닛(306)은 추가로, CPU의 동작 상태를 제1 상태로 설정하고, 제1 상태에서 각성 데이터에 대해 음성 인식을 수행하도록 구성될 수 있다. 제1 상태는 단일 코어 및 저주파 동작 상태를 지시한다.
대안적으로, 처리 효율을 향상시키기 위해, 각성 단어가 존재한다고 결정되는 경우, CPU는 증가된 주 주파수에서 증가된 수의 동작 코어로 동작하여, 오디오 데이터에 대해 의미 분석을 수행할 수 있다.
즉, 처리 유닛(304)은 추가로, CPU의 동작 상태를 제2 상태로 설정하고, 제2 상태에서 오디오 데이터에 대해 의미 분석을 수행하도록 구성될 수 있다. 제2 상태는 멀티 코어 및 고주파 동작 상태를 지시한다.
대안적으로, 처리의 유연성을 향상시켜 전력 소비와 처리 효율의 균형을 맞추기 위해, CPU의 동작 코어의 수 및 주 주파수의 크기는 구체적인 음성 장면에 기초하여 추가로 조정될 수 있다.
즉, 처리 유닛(304)은 추가로, 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면을 결정하고; 의미 장면에 기초하여 CPU의 동작 코어의 수 및 주 주파수의 크기를 결정하고; 동작 코어의 수 및 주 주파수의 크기에 기초하여 CPU의 동작 상태를 설정하여, 제3 상태를 획득하고; 제3 상태에서 오디오 데이터에 대해 의미 분석을 수행하도록 구성될 수 있다.
구체적인 구현예에서, 전술한 유닛은 독립적인 엔티티로서 구현될 수 있거나, 동일하거나 수 개의 엔티티로서 무작위로 조합될 수 있다. 전술한 유닛의 구체적인 구현에 대해서는, 전술한 방법 실시예를 참조할 수 있으며, 여기서서는 세부 사항을 설명하지 않는다.
이상으로부터, 본 실시예에서, 음성 인식 장치가 취득 유닛(301)에 의해 오디오 데이터를 취득한 후, 퍼지 인식 유닛(302)은 오디오 데이터에 대해 퍼지 음성 인식을 수행할 수 있음을 알 수 있다. 각성 단어가 존재한다고 결정되는 경우에만, 휴면 상태의 CPU는 각성 유닛(303)에 의해 각성되고, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성될 수 있다. 이 방안에서는 전력 소비가 높은 CPU를 사용하는 대신, 전력 소비가 낮은 DSP를 사용하여 오디오 데이터를 검출하기 때문에, CPU가 항상 각성 상태일 필요는 없으며, CPU는 휴면 상태에 있을 수 있고 필요한 경우에만 깨어난다. 따라서, 외부 전원 또는 물리 키만을 사용하여 각성을 수행하는 종래의 방안과 비교하여, 이 방안에서는 이동성 및 음성 각성 기능을 유지하면서 시스템 전력 소비를 크게 감소시킬 수 있으므로, 이동 단말기의 대기 시간을 연장시킬 수 있어서, 이동 단말기의 성능을 향상시킬 수 있다.
[실시예 4]
이에 상응하여, 본 개시의 일 실시예에 따른 이동 단말기가 더 제공된다. 도 4에 도시된 바와 같이, 도 4에 도시된 바와 같이, 이동 단말기는 무선 주파수 (radio frequency, RF) 회로(401), 메모리(402), 입력 유닛(403), 디스플레이 유닛(404), 센서(405), 오디오 회로(406), Wi-Fi(WIreless FIdelity ) 모듈(407), 하나 이상의 처리 코어를 포함하는 프로세서(408), 및 전원(409)을 포함할 수 있다. 당업자라면 도 4에 도시된 이동 단말기의 구성이 이동 단말기에 대한 제한을 구성하는 것이 아미고, 이동 단말기는 도 4에 도시된 구성요소보다 더 많거나 더 적은 구성요소를 포함할 수 있거나, 일부 구성요소가 결합되거나, 또는 다른 구성요소가 사용될 수 있다는 것을 이해할 수 있을 것이다.
RF 회로(401)는 정보의 수신 및 송신 프로세스 또는 호출 프로세스 중에 신호를 수신 및 송신하도록 구성될 수 있다. 구체적으로, RF 회로는 기지국으로부터 다운링크 정보를 수신하고, 처리를 위해 하나 이상의 프로세서(408)에 다운링크 정보를 송신한다. 또한 RF 회로(401)은 업링크 데이터를 기지국에 송신하기도 한다. 일반적으로, RF 회로(401)는 안테나, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 가입자 식별 모듈(subscriber identity module, SIM) 카드, 송수신기, 결합기, 저잡음 증폭기(low noise amplifier, LNA) 및 듀플렉서를 포함하지만, 이에 한정되는 것은 아니다. 또한, RF 회로(401)는 무선 통신에 의해 네트워크 및 다른 기기와 통신할 수도 있다. 무선 통신은 GSM(Global System for Mobile communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 전자메일, SMS(Short Messaging Service) 등의 임의의 통신 표준 또는 프로토콜을 사용할 수 있지만, 이에 한정되는 것은 아니다.
메모리(402)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(408)는 메모리(402)에 저장된 소프트웨어 프로그램 및 모듈을 실행하여 다양한 기능 애플리케이션 및 데이터 처리를 수행한다. 메모리(402)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영체제, 적어도 하나의 기능(예컨대, 사운드 재생 기능 및 이미지 표시 기능)에 의해 요구되는 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 이동 단말기의 사용 등에 따라 생성된 데이터(예컨대, 오디오 데이터 및 주소록)를 저장할 수 있다. 또한, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 적어도 하나의 자기 디스크 저장장치(magnetic disk storage device), 플래시 메모리(flash memory) 또는 다른 휘발성 고체 상태 저장장치(volatile solid-state storage device)와 같은 비휘발성 메모리를 포함할 수 있다. 이에 상응하여, 메모리(402)는 메모리(402)에 대한 프로세스(408) 및 입력 유닛(403)의 액세스를 제공하기 위해 메모리 제어기를 더 포함할 수 있다.
입력 유닛(403)은 입력된 디지털 정보 또는 문자 정보를 수신하고, 사용자 설정 및 기능 제어와 관련된 키보드, 마우스, 조이스틱, 광학적 또는 트랙볼 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 특정 실시예에서, 입력 유닛(403)은 터치 감지면(touch-sensitive surface) 및 다른 입력 기기를 포함할 수 있다. 터치 스크린 또는 터치 패널로도 지칭될 수 있는 터치 감지면은 터치 감지면 상 또는 그 부근에서의 사용자의 터치 조작(예컨대, 손가락 또는 스타일러스와 같은 임의 적합한 객체 또는 액세서리를 사용하여 터치 감지면 상 또는 그 부근에서의 사용자의 조작)을 수집하여, 미리 설정된 프로그램에 따라 대응하는 연결 장치를 구동할 수 있다. 대안적으로, 터치 감지면은 두 부분, 즉 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 조작에 의해 발생한 신호를 검출하고, 그 신호를 터치 제어기에 송신한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 정보를 터치 포인트 좌표로 변환하고, 터치 포인트 좌표를 프로세서(408)에 송신한다. 또한, 터치 제어기는 프로세서(408)로부터 송신되는 커맨드를 수신하여 실행할 수 있다. 또한, 터치 감지면은 저항성, 용량성, 적외선 또는 탄성 표면파형(surface acoustic wave type) 터치 감지면일 수 있다. 터치 감지면에 외에, 입력 유닛(403)은 다른 입력 기기를 더 포함할 수 있다. 구체적으로, 다른 입력 기기는 물리 키보드, 기능 키(예: 볼륨 제어 키 또는 전원 온/오프 키), 트랙볼, 마우스 및 조이스틱을 포함하지만 이에 한정되는 것은 아니다.
디스플레이 유닛(404)은 사용자가 입력한 정보 또는 사용자에게 제공되는 정보, 및 이동 단말기의 다양한 그래픽 사용자 인터페이스를 표시하도록 구성될 수 있다. 이들 그래픽 사용자 인터페이스는 그래프, 텍스트, 아이콘, 비디오, 또는 이들의 임의 조합으로 형성될 수 있다. 디스플레이 유닛(404)은 디스플레이 패널을 포함할 수 있다. 대안적으로, 디스플레이 패널은 LCD(Liquid Crystal Display) 또는 OLED(Organic Light-Emitting Diode) 등을 사용하여 구성될 수 있다. 또한, 터치 감지면은 디스플레이 패널을 덮을 수 있다. 터치 감지면 또는 그 근방의 터치 조작을 검출한 후, 터치 감지면은 터치 이벤트의 유형을 결정하도록 터치 조작을 프로세서(408)에 송신하고, 그러면 프로세서(408)는 터치 이벤트의 유형에 따라 디스플레이 패널 상에 대응하는 시각적 출력을 제공한다. 도 4에는, 터치 감지면과 디스플레이 패널이 두 개의 별개의 부품으로 사용되어 입력 및 출력 기능을 구현하지만, 일부 실시예에서는, 터치 감지면과 디스플레이 패널을 총합하여 입력 및 출력 기능을 구현할 수 있다.
이동 단말기는 광 센서, 움직임 센서 및 기타 센서와 같은 하나 이상의 센서(405)를 더 포함할 수 있다. 구체적으로, 광 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널의 휘도를 조절할 수 있다. 근접 센서는 이동 단말기가 귀로 이동될 때 디스플레이 패널 및/또는 백라이트를 스위치 오프할 수 있다. 움직임 센서의 한 종류로서, 중력 가속도 센서는 다양한 방향(일반적으로 3축)의 가속도를 검출할 수 있고, 정적일 때 중력의 크기 및 방향을 검출할 수 있으며, 이동 전화의 자세를 인식하는 애플리케이션(예: 가로 방향과 세로 방향의 전환, 관련 게임, 자력계 자세 교정), 진동 인식 관련 기능(예컨대, 보수계, 노크 등) 등에 적용될 수 있다. 이동 단말기에 구성될 수 있는 자이로스코프, 기압계, 습도계, 온도계 및 적외선 센서와 같은 다른 센서에 대해서는 여기서 다시 설명하지 않는다.
오디오 회로(406), 라우드스피커 및 마이크로폰은 사용자와 이동 단말기 사이에 오디오 인터페이스를 제공할 수 있다. 오디오 회로(406)는 수신된 오디오 데이터를 전기 신호로 변환하여 라우드스피커에 송신할 수 있다. 라우드스피커는 출력을 위해 전기 신호를 사운드 신호로 변환한다. 한편, 마이크로폰은 수집된 사운드 신호를 전기 신호로 변환한다. 오디오 회로(406)는 전기 신호를 수신하여 전기 신호를 오디오 데이터로 변환하고, 처리를 위해 프로세서(408)에 오디오 데이터를 출력한다. 그러면, 프로세서(408)는 RF 회로(401)를 사용하여, 예를 들어 다른 이동 단말기에 오디오 데이터를 송신하거나, 추가 처리를 위해 오디오 데이터를 메모리(402)에 출력한다. 오디오 회로(406)는 이어플러그 잭(earplug jack)을 더 포함하여, 주변 이어폰과 이동 단말기 사이의 통신을 제공할 수 있다.
Wi-Fi는 단거리 무선 전송 기술을 나타낸다. 이동 단말기는 Wi-Fi 모듈(407)을 사용하여, 사용자가 이메일을 수신 및 송신하고, 웹 페이지를 브라우징하고, 스트리밍 미디어에 액세스하는 것 등을 도울 수 있는데, 이는 사용자에게 무선 광대역 인터넷 액세스를 제공한다. 또한, 도 4는 Wi-Fi 모듈(407)을 도시하지만, Wi-Fi 모듈은 이동 단말기의 필수 구성요소가 아니며, 필요한 경우, 본 개시의 본질의 범위가 변경되지 않는 한, Wi-Fi 모듈은 생략될 수 있다.
프로세서(408)는 이동 단말기의 제어 센터이며, 다양한 인터페이스 및 회선을 사용하여 이동 전화의 다양한 부분에 연결된다. 프로세서(408)는 메모리(402)에 저장된 소프트웨어 프로그램 및/또는 모듈을 운영 또는 실행하고, 메모리(402)에 저장된 데이터를 호출함으로써, 이동 단말기의 다양한 기능 및 데이터 처리를 수행하여, 이동 단말기에 대한 전반적인 모니터링을 수행한다. 대안적으로, 프로세서(408)는 하나 이상의 프로세서 코어를 포함할 수 있다. 바람직하게는, 프로세서(408)는 애플리케이션 프로세서와 모뎀을 통합할 수 있다. 애플리케이션 프로세서는 주로 운영체제, 사용자 인터페이스, 애플리케이션 등을 처리한다. 모뎀은 주로 무선 통신을 처리한다. 전술한 모뎀 프로세서는 프로세서(408)에 통합될 수 없는 것으로 이해될 수 있다.
이동 단말기는 구성요소에 전력을 공급하기 위한 전원(409)(예컨대, 배터리 등)을 더 포함한다. 바람직하게는, 전원은 전력 관리 시스템을 사용하여 프로세서(408)에 논리적으로 연결될 수 있어, 충전, 방전 및 전력 소비 관리와 같은 기능을 전력 관리 시스템을 사용하여 구현할 수 있다. 전원(409)은 직류 전원 또는 교류 전원, 재충전 시스템, 정전 검출 회로, 전원 컨버터 또는 인버터, 전원 상태 지시자, 및 임의의 다른 구성요소 중 하나 이상을 더 포함할 수 있다.
도면에 도시되지는 않았지만, 이동 단말기는 카메라, 블루투스 모듈 등을 더 포함할 수 있으며, 여기서는 이를 더 설명하지 않는다. 구체적으로, 본 실시예에서, 이동 단말기 내의 프로세서(408)는 다음 명령에 따라 애플리케이션의 하나 이상의 프로세스에 대응하는 실행 파일을 메모리(402)에 로드하고, 프로세서(408)는 메모리(402)에 저장된 애플리케이션을 실행하여, 다음 기능:
오디오 데이터를 취득하는 기능; DSP가 오디오 데이터에 대해 퍼지 음성 인식 수행하는 기능; 및 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, DSP가 휴면 상태의 CPU를 깨우는 기능을 수행할 수 있으며, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다.
CPU가 깨어난 후, CPU는 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 따라 대응하는 동작을 수행할 수 있다.
예를 들어, 구체적으로, 퍼지 클러스터링 분석 방법 또는 퍼지 매칭 알고리즘으로 오디오 데이터에 대해 음성 인식이 수행된다. 세부 사항에 대해서는 전술한 실시예를 참조할 수 있으며, 세부 사항은 여기서 설명하지 않는다.
대안적으로, 음성 인식의 정확도를 향상시키기 위해, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하기 전에, 노이즈 감소 프로세스 및/또는 에코 제거 프로세스와 같은 필터링 프로세스가 오디오 데이터에 대해 추가로 수행될 수 있다. 즉, 프로세서(408)는 메모리(402)에 저장된 애플리케이션 프로그램을 추가로 실행하여 다음 기능:
오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하여 처리된 오디오 데이터를 획득하는 기능을 구현할 수 있다.
대안적으로, 인식의 정확도를 더욱 향상시켜 실수로 CPU가 깨워지는 경우를 회피하기 위해, CPU에 의해 오디오 데이터에 대해 의미 분석이 수행되기 전에, CPU에 의해 오디오 데이터는 추가로 인식될 수 있다. 즉, 프로세서(408)는 메모리(402)에 저장된 애플리케이션 프로그램을 추가로 실행하여, 다음 기능:
DSP부터, 오디오 데이터에서 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득하는 기능; CPU에 의해 각성 데이터에 대해 음성 인식을 수행하는 기능; 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는 동작을 수행하는 기능; 및 그렇지 않으면, 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, CPU를 휴면 상태로 설정하고, 오디오 데이터를 취득하는 동작을 수행하기 위해 복귀하는 기능을 구현할 수 있다.
전술한 동작의 구체적인 구현에 대해서는 전술한 실시예를 참조할 수 있으며, 세부 사항은 여기서 설명하지 않는다.
이상으로부터, 본 실시예에서, 오디오 데이터가 취득된 후, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식이 수행될 수 있음을 알 수 있다. 휴면 상태의 CPU는 각성 단어가 존재한다고 결정되는 경우에만 DSP에 의해 각성되며, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다. 이 방안에서는 전력 소비가 높은 CPU를 사용하는 대신, 전력 소비가 낮은 DSP를 사용하여 오디오 데이터를 감지하므로, CPU가 항상 각성 상태일 필요는 없으며, CPU는 휴면 상태에 있고 필요한 경우에만 깨어난다. 따라서, 외부 전원 또는 물리 키만을 사용하여 각성을 수행하는 종래의 방안과 비교하여, 이 방안에서는 이동성 및 음성 각성 기능을 유지하면서 시스템 전력 소비를 크게 감소시킬 수 있이므로, 이동 단말기의 대기 시간을 연장시킬 수 있어서, 이동 단말기의 성능을 향상시킬 수 있다.
[실시예 5]
당업자는 전술한 실시예에서의 다양한 방법의 모든 단계 또는 일부 단계가 명령어를 통해 구현되거나, 명령어를 통해 관련 하드웨어를 제어함으로써 구현될 수 있으며, 명령어는 컴퓨터로 판독 가능한 저장 매체에 저장되고 프로세서에 의해 로딩되어 실행될 될 수 있음을 이해할 수 있다.
따라서, 본 개시의 실시예에 따라 저장 매체가 추가로 제공되며, 저장 매체에는 다수의 명령어가 저장되고, 명령어는 프로세서에 의해 로딩되어 본 개시의 실시예에 따른 임의의 음성 인식 방법의 단계를 수행할 수 있다. 예를 들어, 명령어는 다음 단계:
오디오 데이터를 취득하는 단계; DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계; 및 퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, DSP에 의해 휴면 상태의 CPU를 각성시키는 단계를 수행하는 데 사용될 수 있으며, CPU는 오디오 데이터에 대해 의미 분석을 수행하도록 구성된다.
CPU가 각성된 후, CPU는 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 따라 대응하는 동작을 수행할 수 있다.
예를 들어, 구체적으로, 음성 인식은 퍼지 클러스터링 분석 방법 또는 퍼지 매칭 알고리즘으로 오디오 데이터에 대해 수행될 수 있다. 세부 사항에 대해서는 전술한 실시예를 참조할 수 있으므로, 여기서는 세부 사항을 설명하지 않는다.
대안적으로, 음성 인식의 정확도를 향상시키기 위해, DSP에 의해 오디오 데이터에 대해 퍼지 음성 인식을 수행하기 전에, 노이즈 감소 프로세스 및/또는 에코 제거 프로세스와 같은 필터링 프로세스가 오디오 데이터에 대해 추가로 수행될 수 있다. 즉, 명령어는 다음 동작:
오디오 데이터에 대해 노이즈 감소 프로세스 및/또는 에코 제거 프로세스를 수행하여 처리된 오디오 데이터를 획득하는 동작을 수행하는 데 추가로 사용될 수 있다.
대안적으로, 인식의 정확도를 더욱 향상시켜 실수로 CPU가 각성되는 경우를 회피하기 위해, CPU에 의해 오디오 데이터에 대해 의미 분석이 수행되기 전에, CPU에 의해 오디오 데이터가 추가로 인식될 수 있다. 즉, 명령어는 다음 동작:
DSP부터, 오디오 데이터에서 각성 단어를 포함하는 데이터를 판독하여 각성 데이터를 획득하는 기능; CPU에 의해 각성 데이터에 대해 음성 인식을 수행하는 기능; 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우, CPU에 의해 오디오 데이터에 대해 의미 분석을 수행하는 동작을 수행하는 기능; 및 그렇지 않고, 음성 인식 결과가 각성 단어가 존재하지 않음을 지시하는 경우, CPU를 휴면 상태로 설정하고, 오디오 데이터를 취득하는 동작을 수행하는 데 추가로 사용될 수 있다.
전술한 동작의 구체적인 구현에 대해서는 전술한 실시예를 참조할 수 있으며, 세부 사항은 여기서 설명하지 않는다.
저장 매체로는 ROM(Read-Only Memory), RAM(Random Access Memory), 자기 디스크, 광 디스크 등을 포함할 수 있다.
저장 매체에 저장된 명령어는 본 개시의 실시예에 따른 임의의 음성 인식 방법의 단계를 수행하는 데 사용될 수 있기 때문에, 명령어는 본 개시의 실시예에 따른 임의의 음성 인식 방법에 의해 구현될 수 있은 유리한 효과를 구현할 수 있다.
세부 사항에 대해서는 전술한 시시예를 참조할 수 있으며, 여기서는 세부 사항을 설명하지 않는다.
이상에서는 본 개시의 실시예에서 제공되는 음성 인식 방법 및 장치, 그리고 저장 매체를 상세하게 설명하였다. 본 명세서에서는 본 개시의 원리 및 실시예를 구체적인 예를 사용하여 설명하였지만, 전술한 실시예의 설명은 본 개시의 방법 및 그 핵심 사상을 이해하는 것을 돕기 위해 의도된 것이다. 또한, 당업자는 본 개시의 사상에 따라 구체적인 실시예 및 애플리케이션 범위를 변경할 수 있다. 결론적으로, 본 명세서의 내용은 본 개시에 대한 제한으로 해석되어서는 안 된다.

Claims (17)

  1. 오디오 데이터를 취득하는 단계;
    디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식(fuzzy speech recognition)을 수행하는 단계; 및
    퍼지 음성 인식 결과가 각성 단어(wakeup word)가 존재함을 지시하는 경우에 상기 디지털 신호 프로세서에 의해, 휴면 상태의 중앙 처리 유닛을 각성시키는 단계 - 상기 중앙 처리 유닛은 상기 오디오 데이터에 대해 의미 분석(semantic analysis)을 수행하도록 구성됨 -
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계는,
    상기 디지털 신호 프로세서에 의해, 퍼지 클러스터링 분석 방법(fuzzy clustering analysis method)으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계를 포함하는, 음성 인식 방법.
  3. 제2항에 있어서,
    상기 디지털 신호 프로세서에 의해, 퍼지 클러스터링 분석 방법으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계는,
    상기 퍼지 클러스터링 분석 방법으로 퍼지 클러스터링 신경망(fuzzy clustering neural network)을 확립하는 단계;
    상기 퍼지 클러스터링 신경망을 확률 밀도 함수의 추정기(estimator)로 사용하여, 상기 오디오 데이터가 상기 각성 단어를 포함할 확률을 예측하는 단계;
    예측 결과가 상기 확률이 설정 값 이상임을 지시하는 경우, 상기 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하는 단계; 및
    상기 예측 결과가 상기 확률이 상기 설정 값보다 작음을 지시하는 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하는 단계를 포함하는, 음성 인식 방법.
  4. 제1항에 있어서,
    상기 디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계는,
    상기 디지털 신호 프로세서에 의해, 퍼지 매칭 알고리즘(fuzzy matching algorithm)으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계를 포함하는, 음성 인식 방법.
  5. 제4항에 있어서,
    상기 디지털 신호 프로세서에 의해, 퍼지 매칭 알고리즘으로 상기 오디오 데이터에 대해 음성 인식을 수행하여, 상기 퍼지 음성 인식 결과를 획득하는 단계는,
    상기 각성 단어의 발음의 특징 맵을 취득하여, 표준 특징 맵을 획득하는 단계;
    상기 오디오 데이터 내의 단어 각각의 발음의 특징 맵을 분석하여, 매칭될 특징 맵을 획득하는 단계;
    미리 설정된 멤버십 함수에 기초하여, 상기 매칭될 특징 맵이 상기 표준 특징 맵에 속하는 정도(extent)를 계산하는 단계;
    상기 정도가 미리 설정된 값 이상인 경우, 상기 각성 단어가 존재함을 지시하는 퍼지 음성 인식 결과를 생성하는 단계; 및
    상기 정도가 상기 미리 설정된 값보다 작은 경우, 상기 각성 단어가 존재하지 않음을 지시하는 퍼지 음성 인식 결과를 생성하는 단계를 포함하는, 음성 인식 방법.
  6. 제1항에 있어서,
    상기 디지털 신호 프로세서에 의해, 휴면 상태의 중앙 처리 유닛을 각성시키는 단계 후에, 상기 음성 인식 방법은,
    상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하고, 분석 결과에 기초하여, 상기 중앙처리 유닛에 의해 상기 분석 결과에 대응하는 동작을 수행하는 단계를 더 포함하는 음성 인식 방법.
  7. 제6항에 있어서,
    상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하기 전에, 상기 음성 인식 방법은,
    상기 디지털 신호 프로세서로부터, 상기 오디오 데이터 내의 상기 각성 단어를 포함하는 데이터를 판독하여, 각성 데이터를 획득하는 단계;
    상기 중앙 처리 유닛에 의해 상기 각성 데이터에 대해 음성 인식을 수행하는 단계;
    음성 인식 결과가 상기 각성 단어가 존재함을 지시하는 경우, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 수행하는 단계; 및
    상기 음성 인식 결과가 상기 각성 단어가 존재하지 않음을 지시하는 경우, 상기 중앙 처리 유닛을 휴면 상태로 설정하고, 상기 오디오 데이터를 취득하는 단계를 수행하기 위해 복귀하는 단계를 더 포함하는 음성 인식 방법.
  8. 제7항에 있어서,
    상기 중앙 처리 유닛에 의해 상기 각성 데이터에 대해 음성 인식을 수행하는 단계는,
    상기 중앙 처리 유닛의 동작 상태를 제1 상태로 설정하는 단계 - 상기 제1 상태는 단일 코어 및 저주파 동작 상태를 지시함 -; 및
    상기 제1 상태에서 상기 각성 데이터에 대해 음성 인식을 수행하는 단계를 포함하는, 음성 인식 방법.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 의미 분석을 수행하는 단계는,
    상기 중앙 처리 유닛의 동작 상태를 제2 상태로 설정하는 단계 - 상기 제2 상태는 멀티 코어 및 고주파 동작 상태를 지시함 -; 및
    상기 제2 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 포함하는, 음성 인식 방법.
  10. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계는,
    상기 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면(semantic scene)을 결정하는 단계;
    상기 의미 장면에 기초하여 상기 중앙 처리 유닛의 동작 코어의 수 및 주 주파수(dominant frequency)의 크기를 결정하는 단계;
    상기 동작 코어의 수 및 상기 주 주파수의 크기에 기초하여 상기 중앙 처리 유닛의 동작 상태를 설정하여, 제3 상태를 획득하는 단계; 및
    상기 제3 상태에서 상기 오디오 데이터에 대해 상기 의미 분석을 수행하는 단계를 포함하는, 음성 인식 방법.
  11. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하는 단계 전에, 상기 음성 인식 방법은,
    상기 오디오 데이터에 대해 노이즈 감소 프로세스(noise reduction process) 및/또는 에코 제거 프로세스(echo cancellation process)를 수행하는 단계를 더 포함하는 음성 인식 방법.
  12. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 분석 결과에 기초하여, 상기 분석 결과에 대응하는 동작을 수행하는 단계는,
    상기 분석 결과에 기초하여 동작 객체 및 동작 내용을 결정하는 단계; 및
    상기 동작 객체에 대해 상기 동작 내용을 수행하는 단계를 포함하는, 음성 인식 방법.
  13. 오디오 데이터를 취득하도록 구성된 취득 유닛;
    디지털 신호 프로세서에 의해 상기 오디오 데이터에 대해 퍼지 음성 인식을 수행하도록 구성된 퍼지 인식 유닛; 및
    퍼지 음성 인식 결과가 각성 단어가 존재함을 지시하는 경우에 휴면 상태의 중앙 처리 유닛을 각성시키도록 구성된 각성 유닛 - 상기 중앙 처리 유닛은 상기 오디오 데이터에 대해 의미 분석을 수행하도록 구성됨 -
    을 포함하는 음성 인식 장치.
  14. 제13항에 있어서,
    처리 유닛을 더 포함하고,
    상기 처리 유닛은, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 의미 분석을 수행하고, 분석 결과에 기초하여 상기 분석 결과에 대응하는 동작을 수행하도록 구성되는, 음성 인식 장치.
  15. 제13항에 있어서,
    정밀 인식 유닛(precise recognition unit)을 더 포함하고,
    상기 정밀 인식 유닛은,
    상기 디지털 신호 프로세서로부터, 상기 오디오 데이터 내의 상기 각성 단어를 포함하는 데이터를 판독하여, 각성 데이터를 획득하고;
    상기 중앙 처리 유닛에 의해 상기 각성 데이터에 대해 음성 인식을 수행하고;
    음성 인식 결과가 상기 각성 단어가 존재함을 지시하는 경우, 상기 중앙 처리 유닛에 의해 상기 오디오 데이터에 대해 의미 분석을 수행하는 동작을 수행하도록 처리 유닛을 트리거하고;
    상기 음성 인식 결과가 상기 각성 단어가 존재하지 않음을 지시하는 경우, 상기 중앙 처리 유닛을 휴면 상태로 설정하고, 상기 오디오 데이터를 취득하는 동작을 수행하도록 상기 취득 유닛을 트리거하도록 구성되는, 음성 인식 장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 처리 유닛은 추가로, 상기 오디오 데이터에 대응하는 각성 단어에 기초하여 의미 장면을 결정하고; 상기 의미 장면에 기초하여 상기 중앙 처리 유닛의 동작 코어의 수 및 주 주파수의 크기를 결정하고; 상기 동작 코어의 수 및 상기 주 주파수의 크기에 기초하여 상기 중앙 처리 유닛의 동작 상태를 설정하여, 제3 상태를 획득하고; 상기 제3 상태에서 상기 오디오 데이터에 대해 의미 분석을 수행하도록 구성되는, 음성 인식 장치.
  17. 복수의 명령어가 저장된 저장 매체로서,
    상기 명령어는, 프로세서에 의해 로딩될 때, 상기 프로세서로 하여금 제1항 내지 제12항 중 어느 한 항에 따른 음성 인식 방법의 단계를 수행하게 하는,
    저장 매체.
KR1020207004025A 2017-07-19 2018-06-20 음성 인식 방법 및 장치, 그리고 저장 매체 KR102354275B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710588382.8 2017-07-19
CN201710588382.8A CN107360327B (zh) 2017-07-19 2017-07-19 语音识别方法、装置和存储介质
PCT/CN2018/091926 WO2019015435A1 (zh) 2017-07-19 2018-06-20 语音识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
KR20200027554A true KR20200027554A (ko) 2020-03-12
KR102354275B1 KR102354275B1 (ko) 2022-01-21

Family

ID=60285244

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207004025A KR102354275B1 (ko) 2017-07-19 2018-06-20 음성 인식 방법 및 장치, 그리고 저장 매체

Country Status (5)

Country Link
US (1) US11244672B2 (ko)
JP (1) JP6949195B2 (ko)
KR (1) KR102354275B1 (ko)
CN (1) CN107360327B (ko)
WO (1) WO2019015435A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360327B (zh) 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
CN108337362A (zh) * 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
CN110164426B (zh) * 2018-02-10 2021-10-26 佛山市顺德区美的电热电器制造有限公司 语音控制方法和计算机存储介质
CN108831477B (zh) * 2018-06-14 2021-07-09 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109003604A (zh) * 2018-06-20 2018-12-14 恒玄科技(上海)有限公司 一种实现低功耗待机的语音识别方法及***
CN108986822A (zh) * 2018-08-31 2018-12-11 出门问问信息科技有限公司 语音识别方法、装置、电子设备及非暂态计算机存储介质
CN109686370A (zh) * 2018-12-24 2019-04-26 苏州思必驰信息科技有限公司 基于语音控制进行斗地主游戏的方法及装置
CN111383632B (zh) * 2018-12-28 2023-10-31 北京小米移动软件有限公司 电子设备
CN109886386B (zh) * 2019-01-30 2020-10-27 北京声智科技有限公司 唤醒模型的确定方法及装置
CN109922397B (zh) * 2019-03-20 2020-06-16 深圳趣唱科技有限公司 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备
CN110175016A (zh) * 2019-05-29 2019-08-27 英业达科技有限公司 启动语音助理的方法及具有语音助理的电子装置
CN112015258B (zh) * 2019-05-31 2022-07-15 瑞昱半导体股份有限公司 处理***与控制方法
CN110265029A (zh) * 2019-06-21 2019-09-20 百度在线网络技术(北京)有限公司 语音芯片和电子设备
CN112207811B (zh) * 2019-07-11 2022-05-17 杭州海康威视数字技术股份有限公司 一种机器人控制方法、装置、机器人及存储介质
CN116167422A (zh) * 2019-07-31 2023-05-26 华为技术有限公司 一种集成芯片以及处理传感器数据的方法
CN110968353A (zh) * 2019-12-06 2020-04-07 惠州Tcl移动通信有限公司 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN111071879A (zh) * 2020-01-01 2020-04-28 门鑫 电梯楼层登记方法、装置及存储介质
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质
CN111369999B (zh) * 2020-03-12 2024-05-14 北京百度网讯科技有限公司 一种信号处理方法、装置以及电子设备
CN113628616A (zh) * 2020-05-06 2021-11-09 阿里巴巴集团控股有限公司 音频采集设备、无线耳机以及电子设备***
CN111679861A (zh) * 2020-05-09 2020-09-18 浙江大华技术股份有限公司 电子设备的唤醒装置、方法和计算机设备和存储介质
CN111696553B (zh) * 2020-06-05 2023-08-22 北京搜狗科技发展有限公司 一种语音处理方法、装置及可读介质
US11877237B2 (en) * 2020-06-15 2024-01-16 TriSpace Technologies (OPC) Pvt. Ltd. System and method for optimizing power consumption in multimedia signal processing in mobile devices
CN111755002B (zh) * 2020-06-19 2021-08-10 北京百度网讯科技有限公司 语音识别装置、电子设备和语音识别方法
CN111833870A (zh) * 2020-07-01 2020-10-27 中国第一汽车股份有限公司 车载语音***的唤醒方法、装置、车辆和介质
CN112133302B (zh) * 2020-08-26 2024-05-07 北京小米松果电子有限公司 预唤醒终端的方法、装置及存储介质
CN111986671B (zh) * 2020-08-28 2024-04-05 京东科技信息技术有限公司 服务机器人及其语音开关机方法和装置
CN112216283B (zh) * 2020-09-24 2024-02-23 建信金融科技有限责任公司 一种语音识别方法、装置、设备及存储介质
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
TWM619473U (zh) * 2021-01-13 2021-11-11 神盾股份有限公司 語音助理系統
CN113053360A (zh) * 2021-03-09 2021-06-29 南京师范大学 一种精准度高的基于语音软件识别方法
CN113297363A (zh) * 2021-05-28 2021-08-24 安徽领云物联科技有限公司 智能语义交互机器人***
CN113393838A (zh) * 2021-06-30 2021-09-14 北京探境科技有限公司 语音处理方法、装置、计算机可读存储介质及计算机设备
CN117253488A (zh) * 2022-06-10 2023-12-19 Oppo广东移动通信有限公司 语音识别方法、装置、设备及存储介质
CN116822529B (zh) * 2023-08-29 2023-12-29 国网信息通信产业集团有限公司 基于语义泛化的知识要素抽取方法
CN117524228A (zh) * 2024-01-08 2024-02-06 腾讯科技(深圳)有限公司 语音数据处理方法、装置、设备及介质
CN117672200B (zh) * 2024-02-02 2024-04-16 天津市爱德科技发展有限公司 一种物联网设备的控制方法、设备及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149286A (ja) * 1992-11-10 1994-05-27 Clarion Co Ltd 不特定話者音声認識装置
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
US20150221307A1 (en) * 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode
JP2016505888A (ja) * 2012-12-11 2016-02-25 アマゾン テクノロジーズ インコーポレイテッド 発話認識電力管理

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2906605B2 (ja) * 1990-07-12 1999-06-21 松下電器産業株式会社 パターン認識装置
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
CN102866921B (zh) 2012-08-29 2016-05-11 惠州Tcl移动通信有限公司 一种多核cpu的调控方法及***
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
KR102299330B1 (ko) 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN104866274B (zh) * 2014-12-01 2018-06-01 联想(北京)有限公司 信息处理方法及电子设备
JP6501217B2 (ja) * 2015-02-16 2019-04-17 アルパイン株式会社 情報端末システム
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
CN106356059A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 语音控制方法、装置及投影仪设备
CN105976808B (zh) * 2016-04-18 2023-07-25 成都启英泰伦科技有限公司 一种智能语音识别***及方法
CN106020987A (zh) * 2016-05-31 2016-10-12 广东欧珀移动通信有限公司 处理器中内核运行配置的确定方法以及装置
US20180293974A1 (en) * 2017-04-10 2018-10-11 Intel IP Corporation Spoken language understanding based on buffered keyword spotting and speech recognition
US10311870B2 (en) * 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149286A (ja) * 1992-11-10 1994-05-27 Clarion Co Ltd 不特定話者音声認識装置
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
JP2016505888A (ja) * 2012-12-11 2016-02-25 アマゾン テクノロジーズ インコーポレイテッド 発話認識電力管理
US20150221307A1 (en) * 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode

Also Published As

Publication number Publication date
CN107360327B (zh) 2021-05-07
CN107360327A (zh) 2017-11-17
US11244672B2 (en) 2022-02-08
US20200152177A1 (en) 2020-05-14
WO2019015435A1 (zh) 2019-01-24
KR102354275B1 (ko) 2022-01-21
JP6949195B2 (ja) 2021-10-13
JP2020527754A (ja) 2020-09-10

Similar Documents

Publication Publication Date Title
KR102354275B1 (ko) 음성 인식 방법 및 장치, 그리고 저장 매체
WO2017206916A1 (zh) 处理器中内核运行配置的确定方法以及相关产品
US11366510B2 (en) Processing method for reducing power consumption and mobile terminal
CN108712566B (zh) 一种语音助手唤醒方法及移动终端
CN105630846B (zh) 头像更新方法及装置
WO2017206915A1 (zh) 处理器中内核运行配置的确定方法以及相关产品
CN109389977B (zh) 一种语音交互方法及装置
CN111443803A (zh) 模式切换方法、装置、存储介质及移动终端
CN111897916B (zh) 语音指令识别方法、装置、终端设备及存储介质
CN115985323B (zh) 语音唤醒方法、装置、电子设备及可读存储介质
CN110277097B (zh) 数据处理方法及相关设备
CN111580911A (zh) 一种终端的操作提示方法、装置、存储介质及终端
WO2015067206A1 (zh) 一种文件查找的方法及终端
CN111027406B (zh) 图片识别方法、装置、存储介质及电子设备
CN111966206B (zh) 一种指纹感应器的省电控制方法、装置及移动终端
CN112367428A (zh) 电量的显示方法、***、存储介质及移动终端
CN106896896B (zh) 省电方法、装置及电子设备
CN115995231B (zh) 语音唤醒方法、装置、电子设备及可读存储介质
CN111405649B (zh) 一种信息传输方法、装置及移动终端
CN112433694B (zh) 光强度调整方法及装置、存储介质和动终端
CN111182141B (zh) 一种获取终端装置状态的方法、装置及存储介质
CN116935852A (zh) 语音识别方法、装置、计算机可读存储介质及计算机设备
CN117234137A (zh) Mcu时钟频率切换电路、mcu和电子设备
CN113536039A (zh) 视频的文本信息匹配方法、装置、存储介质及电子设备
CN113902513A (zh) 药品结算方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant