KR20180107940A - 음성 인식을 위한 학습 방법 및 장치 - Google Patents

음성 인식을 위한 학습 방법 및 장치 Download PDF

Info

Publication number
KR20180107940A
KR20180107940A KR1020170036909A KR20170036909A KR20180107940A KR 20180107940 A KR20180107940 A KR 20180107940A KR 1020170036909 A KR1020170036909 A KR 1020170036909A KR 20170036909 A KR20170036909 A KR 20170036909A KR 20180107940 A KR20180107940 A KR 20180107940A
Authority
KR
South Korea
Prior art keywords
learning
empirical
samples
current iteration
sample
Prior art date
Application number
KR1020170036909A
Other languages
English (en)
Other versions
KR102399535B1 (ko
Inventor
민윤홍
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170036909A priority Critical patent/KR102399535B1/ko
Priority to US15/678,390 priority patent/US10540958B2/en
Priority to CN201711064668.2A priority patent/CN108630197B/zh
Priority to EP17200655.3A priority patent/EP3379531A1/en
Priority to JP2017245279A priority patent/JP7055630B2/ja
Publication of KR20180107940A publication Critical patent/KR20180107940A/ko
Application granted granted Critical
Publication of KR102399535B1 publication Critical patent/KR102399535B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

학습 방법 및 장치가 개시된다. 일실시예에 따른 학습 장치는 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하고, 판단 결과에 기초하여, 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하고, 선택된 샘플에 기초하여 뉴럴 네트워크를 학습시킬 수 있다.

Description

음성 인식을 위한 학습 방법 및 장치{LEARNING METHOD AND APPARATUS FOR SPEECH RECOGNITION}
아래 실시예들은 음성 인식을 위한 학습 기술에 관한 것이다.
음성 인식 시스템에서 사용되는 음향 모델은 GMM(Gaussian Mixture Model) 및 HMM(Hidden Markov Model)의 하이브리드(hybrid) 형태로 구현되었다. 최근에는 딥 러닝(Deep Learning) 기법이 상용화되면서 뉴럴 네트워크(Neural Network) 기반의 음향 모델이 주로 사용되고 있다.
뉴럴 네트워크 기반의 음향 모델을 학습시키는데 있어서 다양한 기법들이 제안되고 있다. 음향 모델의 초기 모델로부터 학습이 완료된 모델까지 수렴하는 속도를 학습 속도라 하는데, 이러한 학습 속도를 높이고 학습의 정확도 및 효율을 개선할 수 있는 학습 기법이 요구된다.
일실시예에 따른 학습 방법은 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하는 단계; 상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하는 단계; 및 상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계를 포함한다.
일실시예에 따르면, 상기 판단하는 단계는 상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수인지 여부를 판단하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 판단하는 단계는 상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수 및 미리 정의된 제2 수의 합보다 작은지 여부를 판단하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 판단하는 단계는 상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 임계 값 이하인지 여부를 판단하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 판단하는 단계는 상기 현재 반복이 배치(batch) 기법을 이용하는지 여부를 판단하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트로부터 어느 하나의 샘플을 무작위로(randomly) 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 트레이닝 세트로부터 어느 하나의 제1 샘플을 무작위로 선택하는 단계; 및 상기 무작위로 선택된 제1 샘플과 유사도가 가장 높은 제2 샘플을 상기 경험 재현 세트로부터 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 유사도는 음향 샘플의 트라이폰(triphone)의 분포에 기초하여 정의될 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 어느 하나의 샘플을 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트로부터 무작위로 복수의 샘플들을 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트 및 상기 트레이닝 세트로부터 미리 정의된 비율로 복수의 샘플들을 무작위로 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 트레이닝 세트로부터 복수의 제1 샘플들을 무작위로 선택하는 단계; 및 상기 경험 재현 세트로부터 상기 무작위로 선택된 복수의 제1 샘플들과 유사도가 가장 높은 복수의 제2 샘플들을 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 선택하는 단계는 상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 복수의 샘플들을 선택하는 단계를 포함할 수 있다.
일실시예에 따른 학습 방법 상기 학습 결과 및 상기 선택된 샘플에 기초하여, 상기 경험 재현 세트를 갱신(update)할지 여부를 판단하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는 상기 경험 재현 세트에 포함된 샘플들의 분포에서 상기 선택된 샘플의 적어도 하나의 확률; 상기 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력; 상기 현재 반복에 대응하는 트레이닝 에러(training error)의 감소; 및 상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 상기 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이 중 적어도 하나에 기초하여 상기 선택된 샘플의 적어도 하나의 품질을 계산하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는 상기 계산된 품질을 상기 경험 재현 세트에 포함된 상기 샘플들의 품질들과 비교하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 상기 비교 결과에 기초하여, 상기 계산된 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 상기 선택된 샘플로 대체하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는 상기 계산된 품질을 임계 값과 비교하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 상기 비교 결과에 기초하여, 상기 선택된 샘플을 상기 경험 재현 세트에 추가하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 상기 품질이 상기 차이에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 작아질 수 있다.
일실시예에 따르면, 상기 품질이 상기 출력에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 커질 수 있다.
일실시예에 따르면, 상기 경험 재현 세트는 미리 정의된 환경에서 녹음된 음향 샘플들 및 트라이폰의 분포가 미리 정의된 기준으로 균등하게 분포된 음향 샘플들 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 학습 방법은 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계; 상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계; 및 상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 단계를 포함한다.
일실시예에 따른 학습 장치는 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하고, 상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하고, 상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 프로세서를 포함한다.
일실시예에 따른 학습 장치는 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키고, 상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하고, 상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 프로세서를 포함한다.
도 1은 일실시예에 따른 학습 방법을 설명하기 위한 순서도이다.
도 2는 일실시예에 따른 학습 방법을 설명하기 위한 개념도이다.
도 3은 일실시예에 따른 현재 반복의 학습 과정을 설명하기 위한 순서도이다.
도 4a는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 4b는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 4c는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 5는 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 7은 일실시예에 따른 학습 장치의 구성의 예시도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 학습 방법을 설명하기 위한 순서도이다.
도 1을 참조하면, 일실시예에 따른 학습 장치는 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단한다(101). 학습 장치는 인식기를 학습시키는 장치로서, 소프트웨어 모듈, 하드웨어 모듈 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 학습 장치는 음성 인식 시스템을 구축할 때 사용되는 음향 모델, 언어 모델 또는 단대단(end-to-end) 음성 인식 모델을 학습시킬 수 있다. 음향 모델은 음성 인식(Automatic Speech Recognition; ASR)에서 이용되는 모델로서, 음성의 신호적인 특성과 언어 요소 사이의 관계를 처리할 수 있는데, 예를 들어 음성 신호의 발음을 추정할 수 있다. 음향 모델과 구별되는 개념인 언어 모델은 단어 또는 문장이 문법적으로나 의미적으로 어느 정도 올바른지를 추정하는 모델로서, 음성 인식 시스템은 음향 모델과 언어 모델이 결합된 형태로 구현될 수 있다. 단대단 음성 인식 모델은 음성 인식 시스템 내 음향 모델과 언어 모델이 통합되어 음성 신호로부터 단어 또는 문장이 직접적으로 추정되는 형태로 구현될 수 있다.
음향 모델은 음성 인식기가 설치된 다양한 유형의 장치(스마트 폰, 스마트 TV, 스마트 자동차, 웨어러블 장치 등) 또는 서버에 채용될 수 있다. 딥 러닝 기반으로 설계된 음향 모델은 복수의 샘플들에 의해 학습될 수 있다. 예를 들어, 뉴럴 네트워크 기반의 음향 모델은 복수의 음성 신호들, 음성 특징들, 프레임 별 단음(phone)(또는 senone)들에 의해 학습될 수 있다. 이하에서, 설명되는 학습 방법은 음향 모델의 학습에 적용될 수 있다. 다만, 학습 방법의 실시예들은 음성 인식 시스템 또는 뉴럴 네트워크 기반 인식기에 국한되어 적용될 필요는 없고, 다양한 유형의 모델 또는 장치에 채용되어 응용될 수 있다.
일실시예에 따른 학습 장치는 뉴럴 네트워크의 학습을 위해 복수의 반복들(iterations)을 수행할 수 있고, 복수의 반복들 중 적어도 일부를 경험 재현 반복을 이용하여 수행할 수 있다. 학습 장치는 학습시키고자 하는 뉴럴 네트워크로 샘플들을 입력하고, 뉴럴 네트워크를 갱신하는 과정을 반복적으로 수행할 수 있는데, 예를 들면 뉴럴 네트워크를 구성하는 노드들 사이의 가중치들을 최적화하는 기법을 통해 뉴럴 네트워크를 학습시킬 수 있다.
여기서, 반복이란 학습에 의해 수행되는 반복들 중 어느 하나로서, 예를 들면 뉴럴 네트워크를 반복적으로 갱신 또는 최적화하는 단계들 중에서 적어도 하나의 특정 샘플로 뉴럴 네트워크를 갱신 또는 최적화하는 단계의 단위를 의미할 수 있다. 학습 장치는 적어도 하나의 제1 샘플을 이용하여 제1 반복을 수행하고, 제1 반복을 완료한 후에 적어도 하나의 제2 샘플을 이용하여 제2 반복을 수행할 수 있다. 학습 장치는 반복들을 수행하고, 모든 반복들을 완료하여 뉴럴 네트워크를 학습시킬 수 있다. 반복들의 횟수는 설계 의도에 따라 다양하게 정의될 수 있다. 예를 들어, 반복들의 횟수는 미리 정의된 수, 미리 정의된 조건, 샘플들의 수, 반복에 대응하는 트레이닝 에러(training error), 이전 반복의 트레이닝 에러 및 현재 반복의 트레이닝 에러 사이의 차이 등에 기초하여 정의될 수 있으나, 이에 제한되지 않고 다양한 기준 또는 정책들이 채용될 수 있다.
또한, 경험 재현 반복이란 반복들 중에서 경험 재현 세트에 기초하여 수행되는 반복을 의미한다. 학습 장치는 복수의 샘플들을 이용하여 학습을 위한 반복들을 수행할 수 있는데, 이러한 샘플들 중에서 일부를 경험 재현 세트로 별도 관리하고, 경험 재현 반복 시 경험 재현 세트를 이용할 수 있다. 학습 장치는 학습에 이용되는 샘플들 중에서 학습에 유용한 적어도 하나의 샘플을 선별하여 저장할 수 있고, 저장된 샘플을 이용하여 경험 재현 세트를 구성할 수 있다. 경험 재현 세트는 경험 재현 반복을 수행하기 위해 별도로 관리되는 샘플들의 집합일 수 있다.
샘플은 음향 모델을 학습시키기 위한 데이터로서, 트레이닝 샘플로 지칭되기도 한다. 샘플은 음성 신호, 음성 신호를 전처리한 데이터, 음성 신호의 특징 또는 특징 벡터, 음성 신호의 프레임 별 단음(phone)(또는 senone) 등 다양한 형태로 구현될 수 있으며, 실시예는 샘플의 유형을 제한하지 않는다. 음성 신호의 샘플은 단어, 음소, 형태소, 발음 기호 단위, 구, 절, 문장 및 문단 등 설계 의도에 따라 다양한 형태로 정의 또는 설계될 수 있고, 실시예는 샘플이 함축하는 정보의 유형을 제한하지 않는다.
학습 장치는 신경 과학 및 인지 과학에서 사람의 학습 과정의 모델 중 하나인 경험 재현에 의한 학습 모델을 모사하여, 기계 학습에 적용할 수 있다. 상술한 바와 같이 학습 장치는 학습에 유용한 것으로 판단되는 샘플들을 경험 재현 세트로 별도 관리하고, 학습을 하는 과정에 경험 재현 세트를 정기적 또는 비정기적으로 채용하여 학습의 속도와 정확도를 높일 수 있다.
학습 장치는 학습을 위한 반복들을 수행하기 이전에 적어도 하나의 반복이 경험 재현 반복에 의해 수행될지 여부를 판단하거나 각 반복을 수행하기 이전에 각 반복이 경험 재현 반복에 의해 수행될지 여부를 판단할 수 있다. 현재 반복이 경험 재현 반복에 의해 수행될지 여부를 판단하는 보다 구체적인 실시예는 도 3을 참조하여 후술한다.
학습 장치는 판단 결과에 기초하여 샘플을 선택한다(102). 예를 들어, 학습 장치는 경험 재현 세트 또는 트레이닝 세트로부터 하나 또는 그 이상의 샘플을 선택할 수 있다. 또는 학습 장치는 경험 재현 세트로부터 하나 또는 그 이상의 샘플을 선택하고, 트레이닝 세트로부터 하나 또는 그 이상의 샘플을 선택할 수 있다.
학습 장치는 선택된 샘플에 기초하여 뉴럴 네트워크를 학습시킨다(103). 예를 들어, 학습 장치는 경험 재현 세트를 이용하여 경험 재현 반복을 수행할 수 있다. 학습에 활용되는 샘플들은 경험 재현 세트에 포함된 샘플들 및 트레이닝 세트에 포함된 샘플들로 구성될 수 있고, 여기서 트레이닝 세트는 전체 샘플들 중 경험 재현 세트에 포함된 샘플들을 제외한 나머지 샘플들의 집합이다. 학습 장치는 경험 재현 반복을 수행하기 위해 뉴럴 네트워크로 입력되는 적어도 하나의 샘플을 구성할 수 있는데, 이 때 구성되는 적어도 하나의 샘플에 경험 재현 세트에 포함된 적어도 하나의 샘플을 포함시킬 수 있다. 따라서, 경험 재현 반복은 뉴럴 네트워크로 입력되는 적어도 하나의 샘플에 경험 재현 세트에 포함된 샘플을 포함시켜 수행하는 반복을 의미할 수 있다.
실시예에 따라, 학습 장치는 경험 재현 세트를 갱신할지 여부를 판단하고, 경험 재현 세트를 갱신할 수 있다. 예를 들어, 학습 장치는 학습을 위한 반복들을 수행하는 과정에서 경험 재현 세트를 갱신할 수 있으며, 갱신된 경험 재현 세트를 이용하여 추후 반복들을 수행할 수 있다. 경험 재현 세트의 갱신과 관련된 보다 구체적인 사항은 후술한다.
도 2는 일실시예에 따른 학습 방법을 설명하기 위한 개념도이다. 도 2를 참조하면, 학습 장치는 경험 재현 세트(201) 및 트레이닝 세트(202)에 포함된 샘플들 중 적어도 하나를 이용하여 뉴럴 네트워크(204)를 학습시킬 수 있다.
보다 구체적으로, 학습 장치는 현재 반복이 경험 재현 반복에 의해 수행될지 여부의 판단 결과에 기초하여 경험 재현 세트(201) 및 트레이닝 세트(202) 중 적어도 하나로부터 적어도 하나의 샘플을 선택할 수 있다. 상술한 바와 같이 현재 반복이 경험 재현 반복에 해당하는 경우, 학습 장치는 전체 샘플들 중 현재 반복을 위한 샘플 선택 시 경험 재현 세트(201)로부터 적어도 하나의 샘플을 선택할 수 있다. 예를 들어, 학습 장치는 경험 재현 반복 시 경험 재현 세트(201)로부터 샘플 S1을 선택할 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복 시 뉴럴 네트워크(204)로 입력하기 위한 샘플을 복수 개로 구성할 수 있는데, 복수의 샘플들을 이용하여 단일 반복을 수행하는 기법을 배치(batch) 기법이라 지칭한다. 여기서, 학습 장치는 현재 반복이 배치 기법을 이용하는지 여부를 판단할 수 있다. 학습 장치는 현재 반복이 배치 기법을 이용하는 경우, 뉴럴 네트워크(204)로 입력하기 위한 복수의 샘플들의 집합인 배치(203)를 생성할 수 있다. 학습 장치는 경험 재현 세트(201) 및/또는 트레이닝 세트(202)로부터 선택된 하나 또는 그 이상의 샘플들을 이용하여 배치(203)를 생성할 수 있다.
학습 장치는 현재 반복이 경험 재현 반복인지 여부 및 배치 기법을 이용하는지 여부에 따라 뉴럴 네트워크(204)로 입력하기 위한 적어도 하나의 샘플을 전체 샘플들로부터 적응적으로 선택할 수 있다.
예를 들어, 현재 반복이 경험 재현 반복에 해당하면서 배치 기법을 이용하는 경우, 학습 장치는 경험 재현 세트(201)로부터 선택된 샘플들만을 이용하여 배치(203)를 생성할 수 있다. 또는, 학습 장치는 경험 재현 세트(201)로부터 선택된 샘플과 트레이닝 세트(202)로부터 선택된 샘플을 함께 이용하여 배치(203)를 생성할 수도 있다.
현재 반복이 경험 재현 반복에 해당하면서 배치 기법을 이용하지 않는 경우, 학습 장치는 뉴럴 네트워크(204)로 입력하기 위한 단일의 샘플을 경험 재현 세트(201)로부터 선택할 수 있다.
현재 반복이 경험 재현 반복에 해당하지 않으면서 배치 기법을 이용하는 경우, 학습 장치는 트레이닝 세트(202)로부터 선택된 샘플들만을 이용하여 배치(203)를 생성할 수 있다. 또한, 현재 반복이 경험 재현 반복에 해당하지 않으면서 배치 기법을 이용하지 않는 경우, 학습 장치는 트레이닝 세트(202)로부터 어느 하나의 샘플을 선택할 수 있다.
학습 장치는 경험 재현 세트(201) 및 트레이닝 세트(202) 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 뉴럴 네트워크(204)를 학습시킬 수 있다. 일실시예에 따르면, 학습 장치는 현재 반복 시 다양한 유형의 기법들을 채용하여 뉴럴 네트워크를 학습시킬 수 있다. 예를 들면, 학습 장치는 SGD(Stochastic Gradient Descent) 기법을 이용하여 뉴럴 네트워크를 학습시킬 수 있고, SGD 기법을 이용할 때 단일 샘플 또는 샘플들의 집합인 배치 단위로 뉴럴 네트워크를 학습시킬 수 있다.
일 예로, 단일 샘플이 이용되는 경우, 학습 장치는 샘플의 레이블과 뉴럴 네트워크(204)의 출력에 기초한 SGD 기법을 이용할 수 있다.
다른 예로, 배치 기법이 이용되는 경우, 학습 장치는 샘플들의 레이블들 또는 배치에 대응하는 레이블과 뉴럴 네트워크(204)의 출력들에 기초한 SGD 기법을 이용할 수 있다. 여기서, SGD 기법은 배치에 대응하는 출력들을 이용할 수 있고, 이러한 SGD 기법에는 미니-배치(mini-batch) SGD 기법이 채용될 수 있다. 학습 장치는 선택된 샘플들 S1 및 S2로 구성된 배치(203)에 기초하여 뉴럴 네트워크(204)를 학습시킬 수 있다. 학습 장치는 복수의 출력들 및 복수의 레이블들에 의해 설계된 손실 함수를 이용할 수 있다. 배치 기법 이용 시 채용되는 손실 함수는 설계의도에 따라 다양하게 응용될 수 있고, 배치 단위의 레이블과 배치 단위의 출력에 의해 설계될 수도 있다.
예를 들어, 학습 장치는 배치(203)에 포함된 샘플들 S1 및 S2를 뉴럴 네트워크(204)로 입력하고, 뉴럴 네트워크(204)의 출력들과 샘플들 S1 및 S2의 레이블들에 기초하여 트레이닝 에러를 계산할 수 있다. 학습 장치는 미리 정의된 손실 함수(loss function)을 이용하여 트레이닝 에러를 계산할 수 있다. 손실 함수는 레이블, 출력 및 파라미터를 입력 변수로 미리 정의될 수 있고, 여기서 파라미터는 뉴럴 네트워크(204) 내 가중치들에 의해 설정될 수 있다. 예를 들어, 손실 함수는 MSE(Mean Square Error) 형태, 엔트로피(entropy) 형태 등으로 설계될 수 있는데, 손실 함수가 설계되는 실시예에는 다양한 기법 또는 방식이 채용될 수 있다.
일실시예에 따르면, 학습 장치는 학습 결과 및 선택된 샘플에 기초하여 경험 재현 세트(201)를 갱신할지 여부를 판단할 수 있다. 학습 장치는 현재 반복을 완료하기 전에 경험 재현 세트(201)를 갱신할지 여부를 판단할 수 있다. 경험 재현 세트(201)를 갱신한다는 것은 경험 재현 세트(201)에 포함된 샘플들의 조합을 갱신하는 것을 의미하고, 예를 들면 학습 장치는 경험 재현 세트(201)에 포함된 샘플들을 새로운 샘플로 대체하거나 경험 재현 세트(201)에 새로운 샘플을 추가할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복의 학습 결과에 기초하여 샘플들 S1 및 S2 중 S2로 경험 재현 세트(201) 내 샘플 S3를 대체할 수 있다. 일실시예에 따르면, 학습 장치는 S2의 품질과 S3의 품질을 비교하거나 S2의 품질과 임계 값을 비교할 수 있고, 비교 결과에 따라 S3를 S2로 대체할 수 있다.
학습 장치는 S1을 경험 재현 세트(201) 내 포함되도록 유지할 수 있다. 학습 장치는 경험 재현 세트(201)로부터 S1을 선택하면서, S1을 경험 재현 세트(201)로부터 제외시킬 수 있고, 학습 결과에 기초하여 S1을 다시 경험 재현 세트(201)로 추가할지 여부를 판단할 수 있다. 또는, 학습 장치는 S1을 선택하면서 S1을 경험 재현 세트(201) 내 포함되도록 유지시킬 수 있고, 학습 결과에 기초하여 S1을 경험 재현 세트(201) 내 포함되도록 유지할지 여부 또는 경험 재현 세트(201)로부터 제외시킬지 여부를 판단할 수 있다. 해당 반복 시점에 경험 재현 세트(201)로부터 선택된 샘플이 경험 재현 세트(201)로부터 제외될지 여부는 설계 의도에 따라 설정될 수 있고, 실시예는 이에 제한되지 않는다. 학습 장치는 샘플에 대응하는 품질을 이용하여 경험 재현 세트(201)를 갱신할 수 있는데, 경험 재현 세트(201)를 갱신하는 조건, 기준, 방식 또는 정책과 관련된 상세한 실시예는 후술한다.
학습 장치는 경험 재현 세트(201)를 갱신할지 여부의 판단 결과에 기초하여 경험 재현 세트(201)를 갱신할 수 있다. 학습 장치는 경험 재현 세트(201)를 갱신하는 것으로 판단된 경우, 현재 반복에 이용된 적어도 하나의 샘플 및 적어도 하나의 품질에 기초하여 경험 재현 세트(201)를 갱신할 수 있는데, 경험 재현 세트(201)의 갱신 및 샘플의 품질과 관련된 실시예는 후술한다.
도 3은 일실시예에 따른 현재 반복의 학습 과정을 설명하기 위한 순서도이다.
도 3을 참조하면, 학습 장치는 학습을 위한 k번째 반복을 시작할 수 있다(301). 여기서, k번째는 학습 장치에 의해 수행되는 반복들 중 현재 반복의 횟수 또는 순서를 의미한다.
학습 장치는 현재 반복이 경험 재현 반복에 의해 수행되는지 여부를 판단할 수 있다(302). 일실시예에 따르면, 학습 장치는 학습을 위한 반복들 중 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수인지 여부를 판단할 수 있다. 예를 들면, 학습 장치는 학습을 위한 반복들 중에서 반복 횟수가 미리 정의된 M의 배수인 반복을 경험 재현 반복으로 수행할 수 있다. 이 경우, 학습 장치는 k가 미리 정의된 M의 배수인지 여부를 판단하고, 판단 결과에 따라 경험 재현 반복을 수행할지 여부를 판단할 수 있다.
일실시예에 따르면, 학습 장치는 학습을 위한 반복들 중 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수 및 미리 정의된 제2 수의 합보다 작은지 여부를 판단할 수 있다. 예를 들면, 학습 장치는 학습을 위한 반복들 중에서 반복 횟수가 미리 정의된 M의 배수인 반복을 경험 재현 반복으로 수행하고, M의 배수인 반복 횟수에 대응하는 경험 재현 반복을 수행한 이후 N번만큼 경험 재현 반복을 추가적으로 수행할 수 있다. 이 경우, 학습 장치는 k가 M의 배수 및 N의 합보다 작거나 같은지 여부를 판단할 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 임계 값 이하인지 여부를 판단할 수 있다. 상술한 바와 같이, 학습 장치는 SGD 기법을 채용한 특정 반복을 수행하여 뉴럴 네트워크의 트레이닝 에러가 얼마나 감소하였는지를 측정 또는 계산할 수 있다. 학습 장치는 반복들에 대응하는 트레이닝 에러들 또는 트레이닝 에러들의 감소들을 계산 또는 측정하고, 계산 또는 측정된 값들을 반복들에 매핑시켜 기록할 수 있다. 학습 장치는 (k-1) 번째 반복에 대응하는 트레이닝 에러의 감소가 임계 값 이하인 경우, k번째 반복이 경험 재현 반복에 의해 수행되는 것으로 판단할 수 있다. 이전 반복에 대응하는 트레이닝 에러의 감소를 기준으로 경험 재현 반복의 수행 여부를 판단하는 실시예가 설명되었지만, 학습 장치는 이전 반복들의 트레이닝 에러의 감소들, 트레이닝 에러의 감소들의 변화량 또는 트레이닝 에러들을 기준으로 경험 재현 반복의 수행 여부를 판단할 수 있다. 학습 장치는 이전 반복들에 대응하는 트레이닝 에러들을 기초로 특정 파라미터를 생성할 수 있고, 이러한 특정 파라미터에 기초하여 경험 재현 반복의 수행 여부를 판단할 수 있다. 경험 재현 반복의 수행 여부를 판단하는데 기준이 되는 변수들의 실시예에는 설계 의도에 따라 다양한 방식들이 채용되어 응용될 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복이 배치 기법을 이용하는지 여부를 판단할 수 있다. 상술한 바와 같이, 학습 장치는 특정 반복을 수행하기 위해 복수의 샘플들의 집합을 이용할 수 있고, 이러한 샘플들의 집합인 배치를 이용하여 현재 반복을 수행할지 여부를 판단할 수 있다. 학습 장치는 k번째 반복이 배치 기법을 기반으로 한 SGD 기법을 이용하는지 여부를 판단할 수 있고, 배치 기법이 이용되는 경우 k번째 반복이 경험 재현 반복에 의해 수행되는 것으로 판단할 수 있다. 학습 장치는 미리 정해진 스케쥴에 따라 k번째 반복이 배치 기법을 이용하는지 여부를 판단할 수 있고, 이전 반복들에 대응하는 학습 결과들 또는 이전 반복들에 의해 생성된 파라미터에 기초하여 k번째 반복이 배치 기법을 이용하는지 여부를 적응적으로 판단할 수 있다. 학습 장치는 현재 반복이 배치 기법을 이용하는 경우 정책적으로 경험 재현 반복을 수행할 수 있다.
학습 장치는 현재 반복이 경험 재현 반복에 의해 수행되는 경우 경험 재현 세트로부터 적어도 하나의 샘플을 선택할 수 있다(303). 상술한 바와 같이 경험 재현 반복이 배치 기법을 이용하는 경우, 학습 장치는 경험 재현 반복을 위한 복수의 샘플들을 선택할 수 있다. 경험 재현 반복이 배치 기법을 이용하지 않는 경우 학습 장치는 경험 재현 반복을 위한 샘플을 경험 재현 세트로부터 선택할 수 있다.
일실시예에 따르면, 학습 장치는 경험 재현 세트로부터 어느 하나의 샘플을 무작위로(randomly) 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 경험 재현 세트로부터 무작위로 선택된 어느 하나의 샘플을 이용하여 SGD 기법을 수행할 수 있다.
일실시예에 따르면, 학습 장치는 트레이닝 세트로부터 선택된 어느 하나의 샘플과 유사한 샘플을 경험 재현 세트로부터 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 트레이닝 세트로부터 어느 하나의 제1 샘플을 무작위로 선택할 수 있다. 학습 장치는 무작위로 선택된 제1 샘플과 유사도가 가장 높은 제2 샘플을 경험 재현 세트로부터 선택할 수 있다. 유사도는 샘플들을 분류할 때 기준이 되는 척도에 기초하여 정의될 수 있는데, 예를 들어 유사도는 음향 샘플의 트라이폰(triphone)의 분포에 기초하여 정의될 수 있다. 학습을 시키고자 하는 뉴럴 네트워크가 음향 모델인 경우, 학습 장치는 샘플들로서 음향 신호들 또는 음향 샘플들을 채용할 수 있다. 학습 장치는 발음 기호들의 분포를 표현하는 트라이폰의 분포를 이용하여 음향 신호들 사이의 유사도를 의미하는 함수를 정의할 수 있고, 이러한 함수를 샘플들 사이의 유사성 판단 기준으로 활용할 수 있다. 다만, 유사도는 상술한 방식에 한정되지 않고 다양한 기법과 기준을 활용하여 설계 의도에 따라 다양하게 정의될 수 있다.
일실시예에 따르면, 학습 장치는 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 경험 재현 세트로부터 어느 하나의 샘플을 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 경험 재현 세트에 포함된 샘플들 중 가장 높은 품질의 샘플을 선택할 수 있다. 학습 장치는 경험 재현 세트에 포함된 샘플들 중 미리 정의된 기준을 충족하는 샘플을 선택할 수도 있고, 샘플들의 품질들을 임계 값과 비교하는 방식을 통해 특정 샘플을 경험 재현 세트로부터 선택할 수도 있다. 샘플의 품질에 기초하여 경험 재현 세트로부터 특정 샘플을 선택하는 실시예에는 설계 의도에 따라 다양한 기준 또는 정책이 적용될 수 있다. 샘플의 품질은 학습에 얼마나 유용한지를 나타내는 파라미터로 정의될 수 있다. 품질이 가장 높다 또는 가장 좋다는 것은 품질을 나타내는 값이 가장 크다는 것을 의미할 수 있는데, 품질을 표현하는 정량적인 값 또는 파라미터는 설계 의도에 따라 다양하게 정의될 수 있다. 예를 들어, 미리 정의된 환경(예를 들어, 소음과 음질과 관련된 기준이 미리 통제된 환경)에서 녹음된 음향 샘플의 품질은 무작위로 수집된 음향 샘플의 품질보다 높을 가능성이 크다. 품질이 트라이폰의 분포에 기초하여 정의된 경우, 트라이폰의 분포가 미리 정의된 기준으로 균등하게 분포된 음향 샘플의 품질은 무작위로 수집된 음향 샘플의 품질보다 높을 가능성이 크다.
일실시예에 따르면, 학습에 이용되는 샘플들의 품질들은 미리 저장되거나 학습 장치에 의해 학습 과정에서 갱신될 수 있다. 예를 들어, 학습 장치는 경험 재현 세트에 포함된 샘플들의 품질들을 테이블로 기록하거나 데이터베이스로 구축할 수 있다. 학습 장치는 경험 재현 세트에 포함된 샘플들의 품질들을 반복들을 수행하면서 갱신할 수 있고, 갱신된 품질들에 기초하여 경험 재현 세트로부터 적어도 하나의 샘플을 선택할 수 있다. 학습 장치는 샘플들 중에서 상대적으로 품질이 높은 샘플들을 이용하여 경험 재현 세트를 구성할 수 있고, 경험 재현 세트를 이용한 경험 재현 반복을 정기적 또는 비정기적으로 수행하여 학습 속도 및 학습의 정확도와 관련된 성능을 높일 수 있다. 샘플의 품질을 정의하는 조건, 함수 또는 기준 등은 다양하게 설계될 수 있고, 품질이 정의되는 실시예는 도 4a 내지 도 4c를 참조하여 자세한 설명을 보충하겠다.
일실시예에 따르면, 학습 장치는 현재 반복인 경험 재현 반복이 배치 기법을 이용하는 경우, 상술한 방식들을 응용하여 복수의 샘플들을 선택할 수 있다. 학습 장치는 경험 재현 세트로부터 무작위로 복수의 샘플들을 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 경험 재현 세트로부터 무작위로 선택된 샘플들을 이용하여 SGD 기법을 수행할 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복인 경험 재현 반복이 배치 기법을 이용하는 경우, 경험 재현 세트 및 트레이닝 세트로부터 미리 정의된 비율로 복수의 샘플들을 무작위로 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 경험 재현 세트 및 트레이닝 세트로부터 M 대 N의 비율로 샘플들을 무작위로 선택할 수 있다. 여기서, M 대 N의 비율은 현재 반복의 횟수, 경험 재현 세트에 포함된 샘플들의 수, 트레이닝 세트에 포함된 샘플들의 수, 이전 반복들의 트레이닝 에러들 및 샘플들의 품질들 중 적어도 하나에 기초하여 정의될 수 있지만, 비율의 정의 방식은 상술한 방식에 제한되지 않고 설계 의도에 따라 다양하게 변형될 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복인 경험 재현 반복이 배치 기법을 이용하는 경우, 트레이닝 세트로부터 선택된 샘플들과 유사한 샘플들을 경험 재현 세트로부터 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 트레이닝 세트로부터 복수의 제1 샘플들을 무작위로 선택할 수 있다. 학습 장치는 경험 재현 세트로부터 무작위로 선택된 복수의 제1 샘플들과 유사도가 가장 높은 복수의 제2 샘플들을 선택할 수 있다. 학습 장치는 제1 샘플들과 각각 유사도가 가장 높은 샘플들을 경험 재현 세트로부터 선택할 수 있다. 학습 장치는 트라이폰의 분포에 기초하여 분류된 샘플들의 분포를 이용하여 제1 샘플들과 유사도가 가장 높은 샘플들을 경험 재현 세트로부터 선택할 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복인 경험 재현 반복이 배치 기법을 이용하는 경우, 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 경험 재현 세트로부터 복수의 샘플들을 선택할 수 있다. 예를 들어, 학습 장치는 현재 반복인 경험 재현 반복이 SGD 기법을 이용하는 경우, 경험 재현 세트에 포함된 샘플들 중 품질이 높은 순서로 복수의 샘플들을 선택할 수 있다. 학습 장치는 경험 재현 세트에 포함된 샘플들 중 미리 정의된 기준을 충족하는 샘플들을 선택할 수도 있고, 샘플들의 품질들을 임계 값과 비교하여 샘플들을 경험 재현 세트로부터 선택할 수도 있다.
학습 장치는 현재 반복이 경험 재현 반복에 의해 수행되지 않는 경우 트레이닝 세트로부터 적어도 하나의 샘플을 선택할 수 있다(304). 학습 장치는 경험 재현 반복이 아닌 현재 반복이 배치 기법을 이용하는 경우, 트레이닝 세트로부터 복수의 샘플들을 선택할 수 있다.
학습 장치는 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 선택된 샘플을 이용하여 뉴럴 네트워크의 가중치들을 갱신할 수 있다(305). 상술한 바와 같이 학습 장치는 역전파 기법 및 SGD 기법을 이용하여 가중치들을 갱신할 수 있다.
학습 장치는 학습 결과 및 선택된 적어도 하나의 샘플에 기초하여 경험 재현 세트를 갱신할지 여부를 판단할 수 있다(306). 일실시예에 따르면, 학습 장치는 현재 반복에서 이용된 적어도 하나의 샘플을 경험 재현 세트에 추가할지 여부 또는 경험 재현 세트에 포함된 샘플들 중 적어도 하나를 현재 반복에서 이용된 적어도 하나의 샘플로 대체할지 여부를 판단할 수 있다. 예를 들어, 학습 장치는 현재 반복에서 이용된 샘플의 품질에 기초하여 경험 재현 세트의 갱신 여부를 판단할 수 있다. 학습 장치는 현재 반복에서 이용된 샘플의 품질을 계산할 수 있고, 계산된 품질과 경험 재현 세트에 포함된 샘플들의 품질들을 비교하여 경험 재현 세트의 갱신 여부를 판단할 수 있다.
학습 장치는 현재 반복에서 선택된 적어도 샘플의 적어도 하나의 품질을 계산하는데 있어서, 경험 재현 세트에 포함된 샘플들의 분포에서 현재 반복에서 선택된 샘플의 적어도 하나의 확률, 현재 반복에서 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력, 현재 반복에 대응하는 트레이닝 에러의 감소, 및 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이 중 적어도 하나를 고려할 수 있다. 경험 재현 세트에 포함된 샘플들의 정보는 표 1과 같이 테이블 형태로 저장될 수 있고, 학습 장치는 데이터베이스 또는 메모리로부터 경험 재현 세트에 포함된 샘플들의 정보를 획득할 수 있다.
Figure pat00001
표 1을 참조하면, 경험 재현 세트는 S1 내지 SN의 샘플들을 포함하고, S1 내지 SN의 샘플들은 레이블, 샘플들의 분포에 있어서의 확률, 트레이닝 에러의 감소, 트레이닝 에러의 감소의 차이 및 뉴럴 네트워크의 출력과 매핑되어 데이터베이스 형태로 구축될 수 있다. 여기서, 품질은 샘플들의 분포에 있어서의 확률, 트레이닝 에러의 감소, 트레이닝 에러의 감소의 차이 및 뉴럴 네트워크의 출력 중 적어도 하나에 기초하여 정의되어 정량화될 수 있다.
학습 장치는 경험 재현 세트에 포함된 샘플들의 분포에서 현재 반복에서 선택된 샘플의 확률을 계산할 수 있고, 계산된 확률에 기초하여 현재 반복에서 선택된 샘플의 품질을 계산할 수 있다. 샘플들의 분포는 샘플들을 미리 정해진 기준(예를 들어, 서로 유사한 정도)으로 분류한 결과 생성되는 그룹들 각각에 속한 샘플들의 수가 분포된 정도로 이해될 수 있다. 예를 들어, 특정 샘플의 확률은 해당 샘플이 속한 그룹 내 샘플들의 수를 전체 샘플들의 수로 나눈 값으로 계산될 수 있다.
도 4a를 참조하면, 샘플들의 분포는 정규 분포일 수 있고, 정규 분포에서 S1의 확률은 P1이고, S2의 확률은 P2일 수 있다. 샘플들의 분포는 유사도 또는 트라이폰의 분포를 기준으로 샘플들을 분류한 결과 나타나는 분포일 수 있다. 학습 장치는 P1에 기초하여 S1의 품질을 계산하고, P2에 기초하여 S2의 품질을 계산할 수 있다. 일실시예에 따르면, 학습 장치는 상대적으로 확률이 더 작은 S1의 품질을 S2보다 더 높게 계산할 수 있다. 학습 장치는 현재 반복에서 선택된 샘플의 확률(경험 재현 세트에 포함된 샘플들의 분포에서의 확률)과 경험 재현 세트에 포함된 샘플들의 확률들을 비교하고, 비교 결과에 기초하여 경험 재현 세트의 갱신 여부를 판단할 수 있다. 예를 들어, 학습 장치는 경험 재현 세트에 포함된 샘플들의 확률들 중 가장 높은 확률이 현재 반복에서 선택된 샘플의 확률보다 크다면, 현재 반복에서 선택된 샘플을 경험 재현 세트에 추가하고, 가장 높은 확률에 대응하는 샘플을 경험 재현 세트로부터 제외시킬 수 있다. 학습 장치는 샘플들의 분포에서의 확률을 이용하여 경험 재현 세트 내에 상대적으로 많이 분포된 샘플을 경험 재현 세트로부터 제외시키고, 상대적으로 적게 분포된 샘플을 경험 재현 세트에 포함시킬 수 있다.
도 4b를 참조하면, 샘플들 S1 내지 SN은 트라이폰의 분포에 기초하여 도시된 바와 같이 나열 또는 분류될 수 있다. 이 경우, S1의 확률이 S2 내지 SN의 확률들 보다 작으므로, 학습 장치는 S1의 품질을 S2 내지 SN의 품질들보다 상대적으로 높게 계산할 수 있다. 도 4b에서 명암은 트라이폰의 분포를 기준으로 샘플들을 식별하기 위한 시각적인 표현을 의미한다. 학습 장치는 샘플들의 분포에 기초하여 경험 재현 세트를 갱신하므로, 반복들을 수행하여 경험 재현 세트에 포함된 샘플들을 균등하게 분포시킬 수 있다. 학습 장치는 표 1과 같이 경험 재현 세트에 포함된 샘플들 S1 내지 SN과 샘플들 S1 내지 SN에 대응하는 확률들 P1 내지 PN을 테이블의 형태로 관리할 수 있다.
학습 장치는 현재 반복에서 선택된 샘플을 이용하여 뉴럴 네트워크를 학습시킬 수 있고, 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력에 기초하여 현재 반복에서 선택된 샘플의 품질을 계산할 수 있다. 도 4c를 참조하면, 뉴럴 네트워크(401)는 입력 레이어(402), 중간 레이어들 및 출력 레이어(403)를 포함할 수 있다. 학습 장치는 현재 반복에서 선택된 샘플 Sn을 입력 레이어(402)를 통해 뉴럴 네트워크로 입력하고, 뉴럴 네트워크의 출력 레이어를 통해 출력 On을 획득하며, 출력 On을 이용하여 뉴럴 네트워크를 학습시킬 수 있다. 샘플 Sn이 음향 샘플인 경우, 학습 장치는 복수의 프레임들을 이용하여 음향 샘플의 특징을 생성하고, 생성된 특징을 이용하여 뉴럴 네트워크를 학습시킬 수 있다. 출력 On은 출력 레이어(403)의 노드들로부터 출력된 확률(log-likelihood) 값들에 기초하여 정의될 수 있고, 출력 레이어(403)의 노드들의 활성화 함수들에 의해 정의될 수 있다. 학습 장치는 현재 반복에서 선택된 샘플 Sn에 대응하는 출력 On에 기초하여, 샘플 Sn의 품질을 계산할 수 있다. 예를 들면, 학습 장치는 출력 레이어(403)의 노드들로부터 출력되는 값을 표현하는 출력 On이 작아질수록 샘플 Sn의 품질을 높게 계산할 수 있다. 출력이 상대적으로 작다는 것은 뉴럴 네트워크가 그 작은 출력에 대응하는 샘플을 낮은 인식률로 인식한다는 것을 의미할 수 있고, 또는 그 샘플과 관련된 반복이 더 수행될 필요가 있다는 것을 의미할 수 있다. 이에, 학습 장치는 출력이 작아질수록 그 출력에 대응하는 샘플의 품질을 높게 설정하여, 그 샘플을 학습에 보다 많이 참여시킬 수 있다.
학습 장치는 표 1과 같이 경험 재현 세트에 포함된 샘플들 S1 내지 SN에 대응하는 출력들 O1 내지 ON을 테이블의 형태로 관리할 수 있다. 학습 장치는 현재 반복에서 선택된 샘플의 출력과 경험 재현 세트에 포함된 샘플들의 출력들을 비교하고, 비교 결과에 기초하여 경험 재현 세트의 갱신 여부를 판단할 수 있다. 예를 들어, 학습 장치는 경험 재현 세트에 포함된 샘플들의 출력들 중 가장 높은 출력이 현재 반복에서 선택된 샘플의 출력보다 크다면, 현재 반복에서 선택된 샘플을 경험 재현 세트에 추가하고, 가장 높은 출력에 대응하는 샘플을 경험 재현 세트로부터 제외시킬 수 있다. 학습 장치는 뉴럴 네트워크의 출력들을 이용하여 경험 재현 세트 내에 상대적으로 출력이 큰 샘플을 경험 재현 세트로부터 제외시키고, 상대적으로 출력이 작은 경험 재현 세트에 포함시킬 수 있다. 이를 통해, 학습 장치는 뉴럴 네트워크의 출력이 작은 샘플을 경험 재현 반복을 통해 정기적으로, 비정기적으로 또는 반복적으로 학습에 참여시킬 수 있다.
학습 장치는 현재 반복에 대응하는 트레이닝 에러의 감소에 기초하여 현재 반복에서 선택된 샘플의 품질을 계산할 수 있고, 표 1과 같이 경험 재현 세트에 포함된 샘플들 S1 내지 SN에 대응하는 트레이닝 에러의 감소들 P1 내지 PN을 테이블의 형태로 관리할 수 있다. 학습 장치는 현재 반복에서 선택된 샘플에 대응하는 트레이닝 에러의 감소와 경험 재현 세트에 포함된 샘플들의 트레이닝 에러의 감소들을 비교하고, 비교 결과에 기초하여 경험 재현 세트의 갱신 여부를 판단할 수 있다. 예를 들어, 학습 장치는 경험 재현 세트에 포함된 샘플들에 대응하는 감소들 중 가장 낮은 감소가 현재 반복에서 선택된 샘플의 감소보다 작다면, 현재 반복에서 선택된 샘플을 경험 재현 세트에 추가하고, 가장 낮은 감소에 대응하는 샘플을 경험 재현 세트로부터 제외시킬 수 있다. 학습 장치는 트레이닝 에러의 감소를 이용하여 경험 재현 세트 내에 상대적으로 감소가 상대적으로 작은 샘플을 경험 재현 세트로부터 제외시키고, 상대적으로 감소가 큰 샘플을 경험 재현 세트에 포함시킬 수 있다. 이를 통해, 학습 장치는 트레이닝 에러의 감소가 큰 샘플을 경험 재현 반복을 통해 정기적으로, 비정기적으로 또는 반복적으로 학습에 참여시킬 수 있다.
학습 장치는 트레이닝 에러의 감소의 차이에 기초하여 현재 반복에서 선택된 샘플의 품질을 계산할 수 있다. 여기서, 트레이닝 에러의 감소의 차이는 현재 반복에 대응하는 트레이닝 에러의 감소와 이전 반복에 대응하는 트레이닝 에러의 감소의 차이를 포함한다. 학습 장치는 표 1과 같이 경험 재현 세트에 포함된 샘플들 S1 내지 SN에 대응하는 트레이닝 에러의 감소의 차이들 D1 내지 DN을 테이블의 형태로 관리할 수 있다. 학습 장치는 현재 반복에서 선택된 샘플에 대응하는 차이와 경험 재현 세트에 포함된 샘플들에 대응하는 차이들을 비교하고, 비교 결과에 기초하여 경험 재현 세트의 갱신 여부를 판단할 수 있다. 예를 들어, 학습 장치는 경험 재현 세트에 포함된 샘플들에 대응하는 차이들 중 가장 작은 차이가 현재 반복에서 선택된 샘플에 대응하는 차이보다 작다면, 현재 반복에서 선택된 샘플을 경험 재현 세트에 추가하고, 가장 작은 차이에 대응하는 샘플을 경험 재현 세트로부터 제외시킬 수 있다. 학습 장치는 트레이닝 에러의 감소의 차이를 이용하여 경험 재현 세트 내에 상대적으로 차이가 상대적으로 작은 샘플을 경험 재현 세트로부터 제외시키고, 상대적으로 차이가 큰 샘플을 경험 재현 세트에 포함시킬 수 있다. 이를 통해, 학습 장치는 트레이닝 에러의 감소의 차이가 큰 샘플을 경험 재현 반복을 통해 정기적으로, 비정기적으로 또는 반복적으로 학습에 참여시킬 수 있다. 샘플의 품질을 정의하는 방식은 상술한 기준들에 제한되지 않고, 상술한 방식들은 샘플들의 집합인 배치의 품질을 정의하는데 채용될 수 있다.
다시 도 3을 참조하면, 학습 장치는 현재 반복에서 선택된 샘플을 이용하여 경험 재현 세트를 갱신할 수 있다(307). 일실시예에 따르면, 학습 장치는 현재 반복에서 선택된 샘플의 품질과 경험 재현 세트에 포함된 샘플들의 품질들과 비교할 수 있다. 학습 장치는 비교 결과에 기초하여 경험 재현 세트에 포함된 샘플들 중 현재 반복에서 선택된 샘플의 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 현재 반복에서 선택된 샘플로 대체할 수 있다.
일실시예에 따르면, 학습 장치는 현재 반복에서 선택된 샘플의 품질을 임계 값과 비교할 수 있다. 학습 장치는 비교 결과에 기초하여 현재 반복에서 선택된 샘플을 경험 재현 세트에 추가할 수 있다. 예를 들어, 샘플의 품질이 트레이닝 에러의 감소의 차이에 기초하여 계산되는 경우, 품질과 비교되는 기준인 임계 값은 현재 반복에 대응하는 반복 횟수가 커질수록 작아질 수 있다. 샘플의 품질이 뉴럴 네트워크의 출력에 기초하여 계산되는 경우, 품질과 비교되는 기준인 임계 값은 현재 반복에 대응하는 반복 횟수가 커질수록 커질 수 있다. 학습 장치는 경험 재현 세트에 포함된 샘플들의 품질과 임계 값을 비교하고, 비교 결과에 기초하여 경험 재현 세트에 포함된 샘플들 중 적어도 하나를 경험 재현 세트로부터 제외시킬 수 있다. 학습 장치는 현재 반복에서 선택된 샘플을 이용하여 경험 재현 세트를 갱신하는 동작에 있어서, 상술한 방식에 제한되지 않고 다양한 기법과 방식들을 채용하여 샘플의 품질을 활용할 수 있다.
학습 장치는 경험 재현 세트의 갱신을 완료하거나 경험 재현 세트를 갱신하지 않는 것으로 판단된 경우, k번째 반복을 종료할 수 있다(308). 학습 장치는 k번째 반복을 종료한 후 k번째 반복에 대응하는 트레이닝 에러, 트레이닝 에러의 감소 및 트레이닝 에러의 감소의 차이 중 적어도 하나에 기초하여 뉴럴 네트워크의 학습을 종료할지 여부 또는 (k+1)번째 반복을 시작할지 여부를 판단할 수 있다.
도 5는 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 5를 참조하면, 경험 재현 세트(501)는 복수의 배치들 B1 내지 BN을 포함할 수 있다. 학습 장치는 경험 재현 세트(501)에 포함된 배치들 B1 내지 BN과 배치들 B1 내지 BN에 대응하는 품질 등을 상술한 방식과 같이 테이블 형태로 관리할 수 있다. 학습 장치는 상술한 실시예들을 채용하여 경험 재현 세트(501)를 구성 및 갱신할 수 있다. 예를 들면, 학습 장치는 경험 재현 세트(501)를 배치 단위로 갱신할 수 있고, 배치에 대응하는 품질을 이용하여 경험 재현 세트(501)에 포함된 배치 B3를 Bnew으로 대체할 수 있다.
도 6은 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 6을 참조하면, 학습 장치는 뉴럴 네트워크(603)의 학습을 시작하기 전에 경험 재현 세트(601)에 샘플을 포함시키지 않을 수 있다. 예를 들어, 학습 장치는 비어 있는(empty) 경험 재현 세트(601)를 정의하고, 뉴럴 네트워크(603)의 학습을 시작할 수 있고, 학습을 위한 반복들을 수행하는 과정에서 경험 재현 세트(601)를 갱신할 수 있다. 경험 재현 세트(601)의 갱신 동작에는 상술한 실시예들이 적용된다. 학습 장치는 학습을 위한 반복들 중 최초 반복 시 트레이닝 세트(602)로부터 샘플 Snew를 선택하고, 선택된 Snew를 이용하여 뉴럴 네트워크(603)를 학습시키고, 뉴럴 네트워크(603)의 출력에 기초하여 Snew의 품질을 계산할 수 있다. 학습 장치는 Snew의 품질에 기초하여 Snew를 경험 재현 세트(601)에 추가할 수 있다.
도 6을 참조하여 경험 재현 세트(601)가 최초에 비어있도록 설정되는 실시예가 설명되었지만, 경험 재현 세트(601)는 미리 정의된 조건을 충족하는 샘플들로 최초에 구성될 수 있다. 상술한 바와 같이, 학습에 유용하다고 판단되는 샘플들의 집합으로 경험 재현 세트(601)가 구성될 수 있다. 일실시예에 따르면, 학습 장치는 미리 정의된 수의 샘플들의 집합으로 경험 재현 세트(601)를 유지할 수 있는데, 예를 들어 학습 장치는 반복들을 수행하는 과정에서 경험 재현 세트(601)에 포함된 샘플들의 수를 N개로 유지할 수 있다. 학습 장치는 학습을 위한 반복들을 수행하는 과정에서 N개의 샘플들의 품질들을 기록하고, 샘플들의 품질들 및 현재 반복에서 선택된 샘플의 품질에 기초하여 경험 재현 세트(601)를 갱신할 수 있다. 일실시예에 따르면, 학습 장치는 학습을 위한 반복들을 수행하는 과정에서 경험 재현 세트(601)에 포함된 샘플들의 수를 적응적으로 갱신할 수도 있다. 학습 장치는 샘플들의 수를 갱신하는데 있어서, 품질, 샘플들의 분포, 트레이닝 에러, 트레이닝 에러의 감소, 트레이닝 에러의 감소의 차이 및 뉴럴 네트워크의 출력 중 적어도 하나를 고려할 수 있다.
도 7은 일실시예에 따른 학습 장치의 구성의 예시도이다.
도 7를 참조하면, 학습 장치(701)는 프로세서(702) 및 메모리(703)를 포함한다. 프로세서(702)는 도 1 내지 도 6을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 6을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(703)는 샘플들과 관련된 정보를 저장하거나 학습 방법이 구현된 프로그램을 저장할 수 있다. 메모리(703)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.
프로세서(702)는 프로그램을 실행하고, 학습 장치(701)를 제어할 수 있다. 프로세서(702)에 의하여 실행되는 프로그램의 코드는 메모리(703)에 저장될 수 있다. 학습 장치(701)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (32)

  1. 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하는 단계;
    상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하는 단계; 및
    상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계
    를 포함하는
    학습 방법.
  2. 제1항에 있어서,
    상기 판단하는 단계는
    상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수인지 여부를 판단하는 단계
    를 포함하는,
    학습 방법.
  3. 제1항에 있어서,
    상기 판단하는 단계는
    상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수 및 미리 정의된 제2 수의 합보다 작은지 여부를 판단하는 단계
    를 포함하는,
    학습 방법.
  4. 제1항에 있어서,
    상기 판단하는 단계는
    상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 임계 값 이하인지 여부를 판단하는 단계
    를 포함하는,
    학습 방법.
  5. 제1항에 있어서,
    상기 판단하는 단계는
    상기 현재 반복이 배치(batch) 기법을 이용하는지 여부를 판단하는 단계
    를 포함하는,
    학습 방법.
  6. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트로부터 어느 하나의 샘플을 무작위로(randomly) 선택하는 단계
    를 포함하는,
    학습 방법.
  7. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 트레이닝 세트로부터 어느 하나의 제1 샘플을 무작위로 선택하는 단계; 및
    상기 무작위로 선택된 제1 샘플과 유사도가 가장 높은 제2 샘플을 상기 경험 재현 세트로부터 선택하는 단계
    를 포함하는,
    학습 방법.
  8. 제7항에 있어서,
    상기 유사도는 음향 샘플의 트라이폰(triphone)의 분포에 기초하여 정의되는,
    학습 방법.
  9. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 어느 하나의 샘플을 선택하는 단계
    를 포함하는,
    학습 방법.
  10. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트로부터 무작위로 복수의 샘플들을 선택하는 단계
    를 포함하는,
    학습 방법.
  11. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트 및 상기 트레이닝 세트로부터 미리 정의된 비율로 복수의 샘플들을 무작위로 선택하는 단계
    를 포함하는,
    학습 방법.
  12. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 트레이닝 세트로부터 복수의 제1 샘플들을 무작위로 선택하는 단계; 및
    상기 경험 재현 세트로부터 상기 무작위로 선택된 복수의 제1 샘플들과 유사도가 가장 높은 복수의 제2 샘플들을 선택하는 단계
    를 포함하는,
    학습 방법.
  13. 제1항에 있어서,
    상기 선택하는 단계는
    상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 복수의 샘플들을 선택하는 단계
    를 포함하는,
    학습 방법.
  14. 제1항에 있어서,
    상기 학습 결과 및 상기 선택된 샘플에 기초하여, 상기 경험 재현 세트를 갱신(update)할지 여부를 판단하는 단계
    를 더 포함하는
    학습 방법.
  15. 제14항에 있어서,
    상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
    상기 경험 재현 세트에 포함된 샘플들의 분포에서 상기 선택된 샘플의 적어도 하나의 확률;
    상기 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력;
    상기 현재 반복에 대응하는 트레이닝 에러(training error)의 감소; 및
    상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 상기 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이
    중 적어도 하나에 기초하여 상기 선택된 샘플의 적어도 하나의 품질을 계산하는 단계
    를 포함하는,
    학습 방법.
  16. 제15항에 있어서,
    상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
    상기 계산된 품질을 상기 경험 재현 세트에 포함된 상기 샘플들의 품질들과 비교하는 단계
    를 더 포함하는,
    학습 방법.
  17. 제16항에 있어서,
    상기 비교 결과에 기초하여, 상기 계산된 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 상기 선택된 샘플로 대체하는 단계
    를 더 포함하는,
    학습 방법.
  18. 제15항에 있어서,
    상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
    상기 계산된 품질을 임계 값과 비교하는 단계
    를 더 포함하는,
    학습 방법.
  19. 제18항에 있어서,
    상기 비교 결과에 기초하여, 상기 선택된 샘플을 상기 경험 재현 세트에 추가하는 단계
    를 더 포함하는,
    학습 방법.
  20. 제18항에 있어서,
    상기 품질이 상기 차이에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 작아지는,
    학습 방법.
  21. 제18항에 있어서,
    상기 품질이 상기 출력에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 커지는,
    학습 방법.
  22. 제1항에 있어서,
    상기 경험 재현 세트는
    미리 정의된 환경에서 녹음된 음향 샘플들 및 트라이폰의 분포가 미리 정의된 기준으로 균등하게 분포된 음향 샘플들 중 적어도 하나를 포함하는,
    학습 방법.
  23. 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계;
    상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계; 및
    상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 단계
    를 포함하는
    학습 방법.
  24. 제23항에 있어서,
    상기 판단하는 단계는
    상기 경험 재현 세트에 포함된 샘플들의 분포에서 상기 선택된 샘플의 적어도 하나의 확률;
    상기 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력;
    상기 현재 반복에 대응하는 트레이닝 에러(training error)의 감소; 및
    상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 상기 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이
    중 적어도 하나에 기초하여 상기 선택된 샘플의 적어도 하나의 품질을 계산하는 단계
    를 포함하는,
    학습 방법.
  25. 제24항에 있어서,
    상기 판단하는 단계는
    상기 계산된 품질을 상기 경험 재현 세트에 포함된 상기 샘플들의 품질들과 비교하는 단계를 더 포함하고,
    상기 갱신하는 단계는
    상기 비교 결과에 기초하여, 상기 계산된 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 상기 선택된 샘플로 대체하는 단계를 더 포함하는,
    학습 방법.
  26. 제24항에 있어서,
    상기 판단하는 단계는
    상기 계산된 품질을 임계 값과 비교하는 단계를 더 포함하고,
    상기 갱신하는 단계는
    상기 비교 결과에 기초하여, 상기 선택된 샘플을 상기 경험 재현 세트에 추가하는 단계를 더 포함하는,
    학습 방법.
  27. 제26항에 있어서,
    상기 품질이 상기 차이에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 작아지는,
    학습 방법.
  28. 제26항에 있어서,
    상기 품질이 상기 출력에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 커지는,
    학습 방법.
  29. 제23항에 있어서,
    상기 학습시키는 단계는
    상기 현재 반복이 상기 경험 재현 세트를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하는 단계
    를 포함하는,
    학습 방법.
  30. 하드웨어와 결합되어 제1항 내지 제29항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  31. 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하고,
    상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하고,
    상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 프로세서
    를 포함하는
    학습 장치.
  32. 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키고,
    상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하고,
    상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 프로세서
    를 포함하는
    학습 장치.
KR1020170036909A 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치 KR102399535B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170036909A KR102399535B1 (ko) 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치
US15/678,390 US10540958B2 (en) 2017-03-23 2017-08-16 Neural network training method and apparatus using experience replay sets for recognition
CN201711064668.2A CN108630197B (zh) 2017-03-23 2017-11-02 用于语音识别的训练方法和设备
EP17200655.3A EP3379531A1 (en) 2017-03-23 2017-11-08 Training method and apparatus for speech recognition
JP2017245279A JP7055630B2 (ja) 2017-03-23 2017-12-21 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170036909A KR102399535B1 (ko) 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180107940A true KR20180107940A (ko) 2018-10-04
KR102399535B1 KR102399535B1 (ko) 2022-05-19

Family

ID=60301805

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170036909A KR102399535B1 (ko) 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치

Country Status (5)

Country Link
US (1) US10540958B2 (ko)
EP (1) EP3379531A1 (ko)
JP (1) JP7055630B2 (ko)
KR (1) KR102399535B1 (ko)
CN (1) CN108630197B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
CN110033089B (zh) * 2019-04-17 2021-03-26 山东大学 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及***
CN109979257B (zh) * 2019-04-27 2021-01-08 深圳市数字星河科技有限公司 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN110556100B (zh) * 2019-09-10 2021-09-17 思必驰科技股份有限公司 端到端语音识别模型的训练方法及***
CN111291657B (zh) * 2020-01-21 2022-09-16 同济大学 一种基于难例挖掘的人群计数模型训练方法及应用
CN111951789B (zh) * 2020-08-14 2021-08-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN111933121B (zh) * 2020-08-31 2024-03-12 广州市百果园信息技术有限公司 一种声学模型训练方法及装置
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113344056B (zh) * 2021-05-31 2022-11-22 北京邮电大学 一种人员移动性预测模型的训练方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242747A1 (en) * 2014-02-26 2015-08-27 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895939A (ja) * 1994-09-28 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの学習方法及び時系列データの学習装置
US7058617B1 (en) * 1996-05-06 2006-06-06 Pavilion Technologies, Inc. Method and apparatus for training a system model with gain constraints
JP3827037B2 (ja) * 1997-05-23 2006-09-27 ソニー株式会社 学習方法および装置、ロボット、並びに記録媒体
EP1065601A1 (en) * 1999-07-02 2001-01-03 BRITISH TELECOMMUNICATIONS public limited company Training process
EP1417643A2 (en) * 2001-01-31 2004-05-12 Prediction Dynamics Limited Neural network training
US7194320B2 (en) * 2003-06-05 2007-03-20 Neuco, Inc. Method for implementing indirect controller
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7295700B2 (en) 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
US7245250B1 (en) * 2005-08-16 2007-07-17 Itt Manufacturing Enterprises, Inc. Synthetic aperture radar image compression
WO2009032220A1 (en) * 2007-08-31 2009-03-12 Saudi Arabian Oil Company Artificial neural network models for determining relative permeability of hydrocarbon reservoirs
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别***
US8959014B2 (en) 2011-06-30 2015-02-17 Google Inc. Training acoustic models using distributed computing techniques
US20130090926A1 (en) 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
PT2639749T (pt) 2012-03-15 2017-01-18 Cortical Io Gmbh Métodos, aparelhos e produtos para processamento semântico de texto
US9202464B1 (en) 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
EP3192012A4 (en) * 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
CN105636197B (zh) * 2014-11-06 2019-04-26 株式会社理光 距离估计方法和装置、以及节点定位方法和设备
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10445641B2 (en) * 2015-02-06 2019-10-15 Deepmind Technologies Limited Distributed training of reinforcement learning systems
EP3292518A4 (en) * 2015-05-05 2019-01-16 RetailMeNot, Inc. EVOLUTIVE COMPLEX EVENT TREATMENT COMPRISING PROBABILISED AUTOMATIC LEARNING MODELS FOR PREDICTING SUBSEQUENT GEOGRAPHIC LOCATIONS
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
AU2016297852C1 (en) * 2015-07-24 2019-12-05 Deepmind Technologies Limited Continuous control with deep reinforcement learning
KR102140672B1 (ko) * 2015-09-11 2020-08-03 구글 엘엘씨 트레이닝 증강 학습 신경 네트워크
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
KR20170036909A (ko) 2015-09-24 2017-04-04 푸시맨 주식회사 푸시 메시지 발송 장치
CN117910545A (zh) * 2015-11-12 2024-04-19 渊慧科技有限公司 使用优先化经验存储器训练神经网络
JP6679898B2 (ja) * 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US11042798B2 (en) * 2016-02-04 2021-06-22 Adobe Inc. Regularized iterative collaborative feature learning from web and user behavior data
US20170263147A1 (en) * 2016-03-08 2017-09-14 Your Trainer Inc. Systems and methods of dynamically creating a personalized workout video
CN105955921B (zh) * 2016-04-18 2019-03-26 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
US10204097B2 (en) * 2016-08-16 2019-02-12 Microsoft Technology Licensing, Llc Efficient dialogue policy learning
US10671908B2 (en) * 2016-11-23 2020-06-02 Microsoft Technology Licensing, Llc Differential recurrent neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242747A1 (en) * 2014-02-26 2015-08-27 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media

Also Published As

Publication number Publication date
CN108630197A (zh) 2018-10-09
EP3379531A1 (en) 2018-09-26
JP2018160234A (ja) 2018-10-11
JP7055630B2 (ja) 2022-04-18
US20180277098A1 (en) 2018-09-27
CN108630197B (zh) 2023-10-31
KR102399535B1 (ko) 2022-05-19
US10540958B2 (en) 2020-01-21

Similar Documents

Publication Publication Date Title
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
US10990902B2 (en) Implementing a classification model for recognition processing
US10741170B2 (en) Speech recognition method and apparatus
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
CN113544703B (zh) 高效的离策略信用分配
CN110546656B (zh) 前馈生成式神经网络
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
JP6448723B2 (ja) 対話システム、対話方法、および対話システムを適合させる方法
US9202464B1 (en) Curriculum learning for speech recognition
US9177550B2 (en) Conservatively adapting a deep neural network in a recognition system
KR100486735B1 (ko) 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US8589164B1 (en) Methods and systems for speech recognition processing using search query information
WO2016181951A1 (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
US20160180839A1 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
KR20160069329A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102637339B1 (ko) 음성 인식 모델을 개인화하는 방법 및 장치
GB2607133A (en) Knowledge distillation using deep clustering
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
JP6712540B2 (ja) モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム
CN115620725A (zh) 语音识别***的优化方法、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right