KR102494627B1 - 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 - Google Patents

데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 Download PDF

Info

Publication number
KR102494627B1
KR102494627B1 KR1020200096923A KR20200096923A KR102494627B1 KR 102494627 B1 KR102494627 B1 KR 102494627B1 KR 1020200096923 A KR1020200096923 A KR 1020200096923A KR 20200096923 A KR20200096923 A KR 20200096923A KR 102494627 B1 KR102494627 B1 KR 102494627B1
Authority
KR
South Korea
Prior art keywords
label
labels
erroneous
speech recognition
filtering
Prior art date
Application number
KR1020200096923A
Other languages
English (en)
Other versions
KR20220016682A (ko
Inventor
장준혁
이재홍
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020200096923A priority Critical patent/KR102494627B1/ko
Priority to US18/040,381 priority patent/US20230290336A1/en
Priority to PCT/KR2021/009250 priority patent/WO2022030805A1/ko
Publication of KR20220016682A publication Critical patent/KR20220016682A/ko
Application granted granted Critical
Publication of KR102494627B1 publication Critical patent/KR102494627B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법이 제시된다. 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법은, 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및 필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계를 포함하고, 상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.

Description

데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법{DATA LABEL CORRECTION FOR SPEECH RECOGNITION SYSTEM AND METHOD THEREOF}
아래의 실시예들은 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법에 관한 것으로, 더욱 상세하게는 음성 인식을 위해 자동적으로 음성 인식에서 데이터의 정답인 라벨들 중 잘못된 라벨을 자동으로 교정하는 시스템 및 방법에 관한 것이다.
트랜스포머(Transformer) 기반의 시계열 모델은 길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이다. 본 모델의 구조는 음성 시계열을 메모리(memory)로 변경시켜주는 인코더(encoder)와 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성되어 있다. 특히, 음성 혹은 라벨들 간의 관계를 고려하는 집중 얼라인먼트(attention alignment)와 메모리에 현재 라벨에 맵핑되는 부분이 어디인지 찾는 집중 네트워크(attention network) 두 가지를 사용한다.
종래의 기술로써 자동 교정 시스템은 "Han, B., Yao, Q., Yu, X., Niu, G., Xu, M., Hu, W., Tsang, I., Sugiyama, M.: Co-teaching: Robust training of deep neural networks with extremely noisy labels. In NeurIPS. (2018)", "Jiang, L., Zhou, Z., Leung, T., Li, L.J., Fei-Fei, L.: Mentornet: Learning data-driven curriculum for very deep neural networks on corrupted labels. In ICML. (2018)", "Zhang, Z., Sabuncu, M.: Generalized cross entropy loss for training deep neural networks with noisy labels. In NeurIPS. (2018)" 등이 잡음 데이터(noisy data)를 학습에서 제외시키는 방식을 주로 사용해 왔다. 여기서 제외시키기 위한 룰을 정하기 위해 구조가 같은 두 개의 모델을 사용하여, 상대방 모델이 사용할 데이터를 손실(loss)이 작은 데이터를 기준으로 선별하여 전달하는 방식이 제안되었다. 이와 동일하게 두 개의 모델을 사용하지만 한 개의 모델이 멘토(mentor)가 되어 다른 스튜던트(student) 모델에서 사용할 정답을 제공해 주는 역할을 수행하는 연구가 있었지만, 이는 멘토(mentor) 모델의 성능에 따라 오염되는 라벨들의 비율이 민감하게 증가하는 약점이 있다. 이와는 좀 다르게, 오염된 라벨들에 강인한 손실(loss) 함수를 사용하여 얻어진 모델의 신뢰성(confidence)과 고정된 역치 값을 사용하여 필터링하는 방법도 있다.
기존의 방법은 주어진 데이터를 지도 학습(supervised learning)으로 학습하고, 이 때 필수적인 라벨들이 오염되는 경우가 흔한데, 이는 주로 비전문가에 의해서 데이터에 대한 라벨들이 만드는 경우에 발생한다. 이러한 현상은 pre-trained 모델에 의해서 슈도(pseudo) 라벨들을 생성하여 사용하는 준-지도 학습(semi-supervised learning)의 경우에는 더욱 큰 문제가 된다. 이러한 문제는 음성과 같은 시계열 데이터를 대상으로 트랜스포머(Transformer)와 같은 종단간 방식의 음성 인식 알고리즘에서 더욱 치명적인 결과를 초래하는데, 시간적으로 과거의 라벨들을 사용하여 추론(inference)을 재귀적으로 하는 방식의 특성상 오차 전파(error propagation)가 발생하는 단점을 가지고 있다.
Han, B., Yao, Q., Yu, X., Niu, G., Xu, M., Hu, W., Tsang, I., Sugiyama, M.: Co-teaching: Robust training of deep neural networks with extremely noisy labels. In NeurIPS. (2018) Jiang, L., Zhou, Z., Leung, T., Li, L.J., Fei-Fei, L.: Mentornet: Learning data-driven curriculum for very deep neural networks on corrupted labels. In ICML. (2018) Zhang, Z., Sabuncu, M.: Generalized cross entropy loss for training deep neural networks with noisy labels. In NeurIPS. (2018)
실시예들은 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법에 관하여 기술하며, 보다 구체적으로 음성 인식을 위해 자동적으로 음성 인식에서 데이터의 정답인 라벨들 중 잘못된 라벨을 자동으로 교정하는 기술을 제공한다.
실시예들은 트랜스포머(Transformer) 모델을 구성하여, 모델 스스로가 잘못된 라벨을 찾아 교정하는 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법을 제공하는데 있다.
실시예들은 음성과 같은 시계열 데이터의 특징상 1개의 문장에 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 특징에 기반하여, 매 디코더 타임 스텝(decoder time step)마다의 라벨간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정함으로써, 음성 인식 모델이 잘못된 라벨에 의해서 성능이 감소되는 문제를 완화시킬 수 있는 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법을 제공하는데 있다.
일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법은, 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및 필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계를 포함하고, 상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.
상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 단계; 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 단계; 및 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 단계를 포함할 수 있다.
상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 상기 전이(transition) 확률을 사용한 신뢰성, 상기 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 상기 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 단계; 및 상기 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 단계를 더 포함할 수 있다.
상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는, 상기 시계열 음성 데이터에 대하여 적용하기 위해, 상기 잘못된 라벨에 해당하는 디코더 타임 스텝(decoder time step)을 학습에서 제외할 수 있다.
상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는, 전체 분류 라벨 종류 개수 K에 K+1 번째의 새로운 종류를 추가하여 도움 라벨로 정의하고, 상기 잘못된 라벨을 상기 도움 라벨로 대체할 수 있다.
상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는, 상기 잘못된 라벨을 상기 전이(transition) 확률로부터 샘플링(sampling)한 새로운 라벨로 대체하는 대체할 수 있다.
상기 트랜스포머(Transformer) 기반 음성 인식 모델은, 길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이고, 상기 시계열 음성 데이터를 메모리로 변경시켜주는 인코더(encoder) 및 상기 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성될 수 있다.
상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는, 상기 전이(transition) 확률, 상기 소스-집중(source-attention) 확률 및 상기 셀프-집중(self-attention) 확률과 교체 시 샘플링(sampling)에서 사용하는 전이(transition) 확률을 얻기 위해 Q-shot 학습 방법으로 반복적으로 학습할 수 있다.
다른 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템은, 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 라벨 필터링부; 및 필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 라벨 교정부를 포함하고, 상기 라벨 필터링부는, 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.
상기 라벨 필터링부는, 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 전이 확률 신뢰성 산정부; 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 셀프-집중 확률 신뢰성 산정부; 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 소스-집중 신뢰성 산정부; 상기 전이(transition) 확률을 사용한 신뢰성, 상기 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 상기 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 합쳐진 신뢰성 산정부; 및 상기 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 라벨 위치 탐색부를 포함할 수 있다.
실시예들에 따르면 트랜스포머(Transformer) 모델을 구성하여, 모델 스스로가 잘못된 라벨을 찾아 교정하는 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법을 제공할 수 있다.
실시예들에 따르면 음성과 같은 시계열 데이터의 특징상 1개의 문장에 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 특징에 기반하여, 매 디코더 타임 스텝(decoder time step)마다의 라벨간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정함으로써, 음성 인식 모델이 잘못된 라벨에 의해서 성능이 감소되는 문제를 완화시킬 수 있는 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법을 제공할 수 있다.
도 1은 일 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2는 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템을 나타내는 블록도이다.
도 3은 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법을 나타내는 흐름도이다.
도 4는 일 실시예에 따른 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반 필터링을 수행하는 방법을 나타내는 흐름도이다.
도 5는 일 실시예에 따른 라벨을 자동 교정하는 음성 인식 시스템의 구성을 나타내는 도면이다.
도 6은는 일 실시예에 따른 단어 오류율의 비교 결과를 나타낸다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
아래의 실시예들은 음성 인식을 위해 자동적으로 음성 인식에서 데이터의 정답인 라벨들 중 잘못된 라벨을 자동으로 교정하는 방법으로, 보다 구체적으로는 트랜스포머(Transformer) 모델을 구성하여, 모델 스스로가 잘못된 라벨을 찾아 교정하는 음성 인식 방법에 관한 것이다.
실시예들은 시계열 음성 데이터에서 잘못된 라벨의 위치를 찾고 트랜스포머(Transformer) 종단간 음성 인식 모델의 성능을 향상시킬 수 있는 라벨로 교체하는 방법을 제안한다. 제안하는 기법은 음성과 같은 시계열 데이터의 특징상 1개의 문장에 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 특징에 기반하여, 매 디코더 타임 스텝(decoder time step)마다의 라벨간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정함으로써, 음성 인식 모델이 잘못된 라벨에 의해서 성능이 감소되는 효과를 완화시키는 것을 그 목적으로 한다.
도 1은 일 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 1을 참조하면, 일 실시예들에 따른 전자 장치(100)는 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나 이상을 포함할 수 있다.
입력 모듈(110)은 전자 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 전자 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
출력 모듈(120)은 전자 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
메모리(130)는 전자 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.
프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(140)는 라벨 필터링부 및 라벨 교정부를 포함하여 이루어질 수 있다. 이를 통해 프로세서(140)는 데이터 라벨을 자동 교정할 수 있다.
도 2는 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템을 나타내는 블록도이다.
도 2를 참조하면, 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템(200)은 라벨 필터링부(210) 및 라벨 교정부(220)를 포함하여 이루어질 수 있다. 여기서, 라벨 필터링부(210)는 전이 확률 신뢰성 산정부, 셀프-집중 확률 신뢰성 산정부, 소스-집중 신뢰성 산정부, 합쳐진 신뢰성 산정부 및 라벨 위치 탐색부를 포함할 수 있다. 여기서, 데이터 라벨을 자동 교정하는 음성 인식 시스템(200)은 도 1의 프로세서(140)에 포함할 수 있다.
먼저, 트랜스포머(Transformer) 기반 음성 인식 모델은, 길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이고, 시계열 음성 데이터를 메모리로 변경시켜주는 인코더(encoder) 및 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성될 수 있다.
라벨 필터링부(210)는 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행할 수 있다. 이러한 라벨 필터링부(210)는 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.
라벨 필터링부(210)는 전이 확률 신뢰성 산정부, 셀프-집중 확률 신뢰성 산정부, 소스-집중 신뢰성 산정부, 합쳐진 신뢰성 산정부 및 라벨 위치 탐색부를 포함할 수 있다.
보다 구체적으로, 라벨 필터링부(210)는 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 전이 확률 신뢰성 산정부, 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 셀프-집중 확률 신뢰성 산정부, 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 소스-집중 신뢰성 산정부, 전이(transition) 확률을 사용한 신뢰성, 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 합쳐진 신뢰성 산정부, 및 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 라벨 위치 탐색부를 포함할 수 있다.
라벨 교정부(220)는 필터링 후, 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시킬 수 있다.
도 3은 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법을 나타내는 흐름도이다. 그리고, 도 4는 일 실시예에 따른 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반 필터링을 수행하는 방법을 나타내는 흐름도이다.
도 3을 참조하면, 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법은, 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계(S110), 및 필터링 후, 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계(S120)를 포함하고, 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.
또한, 도 4를 참조하면, 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계(S110)는, 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 단계(S111), 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 단계(S112), 및 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 단계(S113)를 포함할 수 있다.
더욱이, 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는, 전이(transition) 확률을 사용한 신뢰성, 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 단계(S114), 및 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 단계(S115)를 더 포함할 수 있다.
아래에서 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법의 각 단계를 설명한다.
일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 방법은 도 2에서 설명한 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템을 예를 들어 설명할 수 있다. 앞에서 설명한 바와 같이, 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템(200)은 라벨 필터링부(210) 및 라벨 교정부(220)를 포함하여 이루어질 수 있다.
단계(S110)에서, 라벨 필터링부(210)는 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행할 수 있다. 이러한 라벨 필터링부(210)는 매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정할 수 있다.
여기서 라벨 필터링부(210)는 전이 확률 신뢰성 산정부, 셀프-집중 확률 신뢰성 산정부, 소스-집중 신뢰성 산정부, 합쳐진 신뢰성 산정부 및 라벨 위치 탐색부를 포함할 수 있다.
단계(S111)에서, 라벨 필터링부(210)의 전이 확률 신뢰성 산정부는 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산할 수 있다.
단계(S112)에서, 라벨 필터링부(210)의 셀프-집중 신뢰성 산정부는 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산할 수 있다.
단계(S113)에서, 라벨 필터링부(210)의 소스-집중 신뢰성 산정부는 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산할 수 있다.
단계(S114)에서, 라벨 필터링부(210)의 합쳐진 신뢰성 산정부는 전이(transition) 확률을 사용한 신뢰성, 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성할 수 있다.
단계(S115)에서, 라벨 필터링부(210)의 라벨 위치 탐색부는 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾을 수 있다.
단계(S120)에서, 라벨 교정부(220)는 필터링 후, 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시킬 수 있다.
잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 모델의 성능을 향상시키기 위한 교체 방법 3가지를 제안할 수 있다.
일 예로, 라벨 교정부(220)는 시계열 음성 데이터에 대하여 적용하기 위해, 잘못된 라벨에 해당하는 디코더 타임 스텝(decoder time step)을 학습에서 제외할 수 있다.
다른 예로, 라벨 교정부(220)는 전체 분류 라벨 종류 개수 K에 K+1 번째의 새로운 종류를 추가하여 도움 라벨로 정의하고, 잘못된 라벨을 도움 라벨로 대체할 수 있다.
또 다른 예로, 라벨 교정부(220)는 잘못된 라벨을 전이(transition) 확률로부터 샘플링(sampling)한 새로운 라벨로 대체하는 대체할 수 있다.
이러한 라벨 교정부(220)는 전이(transition) 확률, 소스-집중(source-attention) 확률 및 셀프-집중(self-attention) 확률과 교체 시 샘플링(sampling)에서 사용하는 전이(transition) 확률을 얻기 위해 Q-shot 학습 방법으로 반복적으로 학습할 수 있다.
아래에서 일 실시예에 따른 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법에 대해 보다 구체적으로 설명한다.
도 5는 일 실시예에 따른 라벨을 자동 교정하는 음성 인식 시스템의 구성을 나타내는 도면이다.
도 5를 참조하면, 본 실시예에서는 잘못된 라벨의 교정 방법으로 신뢰성 기반 필터링 방법과 교체(confidence-based filtering and replacement, CFR) 방법으로 구성이 되어 있으며, 각 방법을 위한 적응형 역치 값과 Q-shot 학습 방법을 포함할 수 있다.
먼저, 신뢰성 기반(confidence-based) 필터링의 가부에 사용되는 신뢰성을 정의한다. 신뢰성은 사용하는 확률 값이 uniform 분포에 가까워질수록 신뢰할 수 없다는 가정하에서, 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨들 간의 전이(transition) 확률, 음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률, 그리고 라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 이용하여 아래와 같이 각각 구할 수 있다.
트랜스포머(Transformer) 기반의 시계열 모델은 길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이고, 구조는 음성 시계열을 메모리로 변경시켜주는 인코더(encoder)와 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성될 수 있다. 인코더 enc (.)와 디코더 dec (.)는 셀프-집중(self-attention) 기반 신경망(neural network)으로 구성되어 있다. 인코더는 음성 특징 x를 메모리 h로 변환하며, 다음과 같이 나타낼 수 있다.
Figure 112020081424577-pat00001
여기서, x = [x1, x2, ..., xN]은 길이가 N인 입력 음성 시퀀스를 나타내고, 메모리 h = [h1, h2, ..., hR]는 음성 관련 특징을 나타내며, 인코더를 사용한 서브 샘플링을 통해 길이가 R로 줄어들며 변환된다.
디코더는 디코딩 타임 스텝 t에 라벨 yt를 목표로 하며, 사후 확률 P (yo | x)이 다음과 같이 계산될 수 있다.
Figure 112020081424577-pat00002
여기서,
Figure 112020081424577-pat00003
Figure 112020081424577-pat00004
는 디코더 인덱스 t에서의 라벨이고, C = {c1, ..., cK}이다.
먼저, 디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 이용한 신뢰성은 아래와 같이 정의될 수 있다.
[수학식 1]
Figure 112020081424577-pat00005
여기서,
Figure 112020081424577-pat00006
는 디코더 타임 스텝 t의 (잡음) 라벨 yt에 대한 전이(transition) 확률을 나타내고,
Figure 112020081424577-pat00007
는 디코더 타임 스텝 t의 모든 클래스에 대한 전이(transition) 확률을 나타낸다.
이와 유사한 방식으로 집중 확률(attention probability)의 신뢰성을 구할 수 있는데, 이 때 셀프-집중(self-attention) 및 소스-집중(source-attention)에 대한 신뢰성들은 아래와 같이 정의될 수 있다.
[수학식 2]
Figure 112020081424577-pat00008
[수학식 3]
Figure 112020081424577-pat00009
여기서,
Figure 112020081424577-pat00010
는 디코더 타임 스텝 t에서 디코더 타임 스텝 r와의 셀프-집중(self-attention) 정렬을 나타내고,
Figure 112020081424577-pat00011
는 디코더 타임 스텝 t에서 각각 메모리 타임 스텝
Figure 112020081424577-pat00012
와의 소스-집중(source-attention) 정렬을 나타낸다.
다음에, 위의 3개의 신뢰성의 장점을 동시에 고려하기 위한 합쳐진 신뢰성을 다음 식과 같이 표현할 수 있다.
[수학식 4]
Figure 112020081424577-pat00013
여기서,
Figure 112020081424577-pat00014
은 하이퍼파라미터(hyperparameter)이다.
앞서 얻어진 합쳐진 신뢰성을 통해서 잘못된 라벨의 위치를 찾는 방법은 다음 식과 같이 나타낼 수 있다.
[수학식 5]
Figure 112020081424577-pat00015
여기서,
Figure 112020081424577-pat00016
는 임계 값이고 1(.)은 임계 값(threshold)이다. 각각의 디코더 타임 스텝 t와 관련하여 여기서 획득된 마스크를 표현하면 m = [m1, m2,… . . , mT]이다.
앞서 얻어진 위치에 의해 잘못된 라벨(incorrect label)로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 모델의 성능을 향상시키기 위한 교체 방법 3가지를 제안할 수 있다.
먼저, 시계열 데이터에 대하여 적용하기 위해, 잘못된 라벨에 해당 디코더 타임 스텝(decoder time step)을 학습에서 제외하는 방식을 적용할 수 있다. 두 번째는, 전체 분류 라벨 종류 개수 K에 K+1 번째의 새로운 종류를 추가하여 이를 도움 라벨로 정의하고 잘못된 라벨을 대체하는 방법이다. 세 번째로, 전이(transition) 확률로부터 샘플링(sampling)한 새로운 라벨로 대체하는 방법이다.
앞서 언급된 신뢰성 기반의 필터링에 사용하는 역치 값을 추론 시 적응적으로 결정하기 위한 방법을 소개한다. 이를 위해, 먼저 전체 디코딩 타임(decoding time) 안에서 매 타임 스텝(time step)에서 추정한 잘못된 라벨의 위치의 값이 1인 경우의 총 개수를 전체 디코딩 타임(decoding time)으로 나누어 준 라벨 오염 비율을 아래와 같이 정의할 수 있다.
[수학식 6]
Figure 112020081424577-pat00017
여기서,
Figure 112020081424577-pat00018
이 0인 기준을 나타내고
Figure 112020081424577-pat00019
을 만족한다. 여기서, B는 미니 배치(mini-batch)의 크기를 나타내며,
Figure 112020081424577-pat00020
은 잘못된 라벨의 수를 나타낸다.
학습 과정의 데이터들에 대해 그리드 검색(grid search)을 통해 가정된 고정된 라벨 오염 비율과 비교하여 양의 값을 가진 부분을 증가하는 방향으로, 반대의 경우 감소시키는 방향으로 적응적으로 아래와 같이 업데이트할 수 있으며, 다음 식과 같이 나타낼 수 있다.
[수학식 7]
Figure 112020081424577-pat00021
여기서, 학습률
Figure 112020081424577-pat00022
및 라벨-파손(label-corruption)률
Figure 112020081424577-pat00023
은 하이퍼파라미터이다. 즉, 전체 디코딩 타임 T에 대해
Figure 112020081424577-pat00024
Figure 112020081424577-pat00025
보다 크면
Figure 112020081424577-pat00026
가 감소하고,
Figure 112020081424577-pat00027
Figure 112020081424577-pat00028
보다 작으면
Figure 112020081424577-pat00029
가 증가하여 학습 과정에서
Figure 112020081424577-pat00030
Figure 112020081424577-pat00031
따르게 된다.
합쳐진 신뢰성을 구할 때 사용하는 3가지 확률, 즉 전이(transition) 확률, 소스-집중(source-attention) 확률 및 셀프-집중(self-attention) 확률과 교체 시 샘플링(sampling)에서 사용하는 전이(transition) 확률을 얻기 위해 반복적인 Q-shot 학습 방법을 제공할 수 있다. 여기서, 디코더 타임 스텝(decoder time step)마다 주어진 라벨에 대한 신뢰성을 결정하기 과거의 라벨들로부터 얻어지는 확률이 필요하다.
그러나 학습 과정에서 비-자동회귀(non-autoregressive)한 특징을 가지는 트랜스포머(Transformer) 디코더의 경우 디코더 타임 스텝(decoder time step)의 라벨에서 앞서 언급된 3가지 확률을 계산하는데 순차적으로 계산되지 않고, 1번의 shot으로 전체 디코더 타임 스텝(decoder time step)에 대한 확률이 계산될 수 있다. 대안으로, 학습 과정에서 반복적으로 추정을 디코더에게 Q회 시행시킴으로써 Q-1회에서 얻어진 확률을 사용하여 신뢰성을 계산하고 샘플링(sampling)도 수행할 수 있다.
표 1은 앞에서 설명한 Q-shot 학습 방법을 나타내는 알고리즘이다.
[표 1]
Figure 112020081424577-pat00032
아래에서는 라벨 교체 방법을 보다 상세히 설명한다.
디코더 타임 스텝(decoder time step) t에서 마스크에 의해 부정확한 라벨로 간주되는 라벨을 교체함으로써 모델의 성능을 개선하기 위한 3 개의 대체 방법이 제안될 수 있다.
먼저, 학습 중 부정확한 라벨의 해당 디코더 타임 스텝(decoder time step) t를 배제하는 라벨 배제 방법은 부정확한 라벨에 따라 역전파를 비활성화하기 위해 사용될 수 있다.
두 번째로, 프록시 라벨 방법은 (K + 1) 번째 새 클래스 cK + 1을 위에서 언급 한 전체 클래스 세트 C = {c1, ..., cK}에 추가할 수 있다. 이는 프록시 라벨로 정의되고 잘못된 라벨을 대체할 수 있다. 이는 다음과 같이 표현될 수 있다.
Figure 112020081424577-pat00033
여기서,
Figure 112020081424577-pat00034
는 잘못된 라벨을 대체하는 라벨이다. 클래스는 예외 라벨을 모델링할 수 있는데, 이는 트랜스포머 모델에 의해 추정된 결정 경계와 거리가 멀어 결정 경계의 과도하게 꼬인 현상을 완화할 수 있다.
세 번째로, 리샘플링 방법은 argmax를 취하기보다는 다항식 전이 확률로부터 라벨
Figure 112020081424577-pat00035
를 샘플링하기 위해 사용되며, 이는 다음과 같이 표현 될 수 있다.
Figure 112020081424577-pat00036
여기서, Ct는 디코더 타임 스텝(decoder time step) t의 모든 클래스 Ct = {c1, ..., cK}를 나타낸다. 이 방법의 장점은 모델이 확률이 가장 높은 라벨 이외의 라벨(예컨대, 두 번째 또는 세 번째 확률 값이 높은 라벨)을 볼 수 있다는 것이다.
따라서, 위의 두 번째 방법과 유사한 정규화 효과 및 라벨의 moire 다양성(diversity)으로 인한 일종의 이점은 실제로 Q-번(time) 추론을 통해 argmax가 있는 라벨 이외의 다른 라벨을 볼 수 있다.
도 6은는 일 실시예에 따른 단어 오류율의 비교 결과를 나타낸다.
앞에서 설명한 각 방법을 연구하기 위해 잡음이 있는 표지로 인한 기준선의 성능 및 성능 저하에 대한 실험을 수행할 수 있다. 도 6을 참조하면, 단어 오류율(Word Error Rate, WER)의 비교 결과를 나타내며, s-train-100의 40 %가 잘못된 라벨(심한 소음이 있는 라벨 케이스)인 경우 단어 오류율(WER)이 급격히 증가한다.
실시예들에 따르면 순차 데이터에서 라벨 손상 문제를 완화하고 시뮬레이션 및 준-지도 학습(semi-supervised learning) 작업의 성능 향상을 보여준다. 결과는 잘못된 라벨 위치를 학습하는 동안 트랜스포머에서 얻은 신뢰성을 통해 확인할 수 있다. 또한, 샘플링 및 프록시(proxy) 라벨을 사용하여 얻은 성능은 Oracle 데이터셋을 사용한 모델의 성능과 비슷하다. 이 방법에는 가정된 라벨 손상 비율과 적응 임계 값을 사용하여 테스트 데이터셋을 최적화할 수 있다.
이상과 같이, 실시예들은 음성과 같은 시계열 데이터에서의 잘못된 라벨에 의해서 성능이 저하되는 현상을 해결하는 목적으로, 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 한 후 해당 위치를 학습에 도움이 될 수 있는 라벨로 교체하는 방법을 제시한다. 또한, 신뢰성 기반(confidence-based) 필터링을 수행할지에 대한 가부를 결정하는 역치 값을 학습 데이터 셋의 잘못된 라벨의 개수인 라벨 오염 비율을 이용하여 적응적으로 구하여, 테스트 데이터셋의 성능에 최적화하도록 한다. 추가적으로, 신뢰성의 계산과 교체에 필요한 확률을 구하기 위한 Q-shot 학습 방법을 제시한다.
실시예들에 따른 음성 인식 시스템은 신뢰성 기반(confidence-based) 필터링과 교체 방법으로 잘못된 라벨을 교정함으로써 라벨이 잘못됨으로써 음성 인식의 성능을 저하시키는 라벨 오염 문제를 완화시켜 고도화된 음성 인식을 가능하게 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계
    를 포함하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하고,
    상기 트랜스포머(Transformer) 기반 음성 인식 모델은,
    길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이고, 상기 시계열 음성 데이터를 메모리로 변경시켜주는 인코더(encoder) 및 상기 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성되는 것
    을 특징으로 하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  2. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계
    를 포함하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 단계;
    라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 단계; 및
    음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 단계
    를 포함하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  3. 제2항에 있어서,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    상기 전이(transition) 확률을 사용한 신뢰성, 상기 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 상기 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 단계; 및
    상기 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 단계
    를 더 포함하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  4. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계
    를 포함하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하고,
    상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는,
    상기 시계열 음성 데이터에 대하여 적용하기 위해, 상기 잘못된 라벨에 해당하는 디코더 타임 스텝(decoder time step)을 학습에서 제외하는 것
    을 특징으로 하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  5. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계
    를 포함하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하고,
    상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는,
    전체 분류 라벨 종류 개수 K에 K+1 번째의 새로운 종류를 추가하여 도움 라벨로 정의하고, 상기 잘못된 라벨을 상기 도움 라벨로 대체하는 것
    을 특징으로 하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  6. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계
    를 포함하고,
    상기 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 단계는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하고,
    상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는,
    상기 잘못된 라벨을 상기 전이(transition) 확률로부터 샘플링(sampling)한 새로운 라벨로 대체하는 대체하는 것
    을 특징으로 하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  7. 삭제
  8. 제2항에 있어서,
    상기 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 단계는,
    상기 전이(transition) 확률, 상기 소스-집중(source-attention) 확률 및 상기 셀프-집중(self-attention) 확률과 교체 시 샘플링(sampling)에서 사용하는 전이(transition) 확률을 얻기 위해 Q-shot 학습 방법으로 반복적으로 학습하는 것
    을 특징으로 하는, 데이터 라벨을 자동 교정하는 음성 인식 방법.
  9. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 라벨 필터링부; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 라벨 교정부
    를 포함하고,
    상기 라벨 필터링부는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하는, 데이터 라벨을 자동 교정하고,
    상기 트랜스포머(Transformer) 기반 음성 인식 모델은,
    길이가 다른 두 개의 시계열을 집중 메커니즘(attention mechanism)을 이용하여 맵핑하는 모델이고, 상기 시계열 음성 데이터를 메모리로 변경시켜주는 인코더(encoder) 및 상기 메모리와 과거의 라벨들을 사용하여 현재의 라벨을 예측하는 디코더(decoder)로 구성되는 것
    을 특징으로 하는 음성 인식 시스템.
  10. 트랜스포머(Transformer) 기반 음성 인식 모델을 이용하여 정답 라벨과 잘못된 라벨이 시간적으로 혼재해 있는 시계열 음성 데이터에서 잘못된 라벨의 발생 위치를 찾기 위해 신뢰성 기반(confidence-based) 필터링을 수행하는 라벨 필터링부; 및
    필터링 후, 상기 잘못된 라벨의 발생 위치에 의해 잘못된 라벨로 판단된 디코더 타임 스텝(decoder time step)에서의 라벨을 교체하여 상기 트랜스포머(Transformer) 기반 음성 인식 모델의 성능을 향상시키는 라벨 교정부
    를 포함하고,
    상기 라벨 필터링부는,
    매 디코더 타임 스텝(decoder time step)마다의 라벨 간의 전이(transition) 확률을 이용한 신뢰성(confidence)으로 잘못된 라벨을 찾아 교정하는, 데이터 라벨을 자동 교정하고,
    상기 라벨 필터링부는,
    디코더 타임 스텝(decoder time step) 사이에서 전이되는 라벨 간의 전이(transition) 확률을 사용하여 신뢰성을 계산하는 전이 확률 신뢰성 산정부;
    라벨들 간의 상관성을 표현하고 있는 셀프-집중(self-attention) 확률을 사용하여 신뢰성을 계산하는 셀프-집중 확률 신뢰성 산정부;
    음성과 라벨들 간의 상관도가 고려된 소스-집중(source-attention) 확률을 사용하여 신뢰성을 계산하는 소스-집중 신뢰성 산정부;
    상기 전이(transition) 확률을 사용한 신뢰성, 상기 셀프-집중(self-attention) 확률을 사용한 신뢰성 및 상기 소스-집중(source-attention) 확률을 사용한 신뢰성을 결합하여, 합쳐진 신뢰성을 생성하는 합쳐진 신뢰성 산정부; 및
    상기 합쳐진 신뢰성을 통해 잘못된 라벨의 위치를 찾는 라벨 위치 탐색부
    를 포함하는, 데이터 라벨을 자동 교정하는 음성 인식 시스템.
KR1020200096923A 2020-08-03 2020-08-03 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 KR102494627B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200096923A KR102494627B1 (ko) 2020-08-03 2020-08-03 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법
US18/040,381 US20230290336A1 (en) 2020-08-03 2021-07-19 Speech recognition system and method for automatically calibrating data label
PCT/KR2021/009250 WO2022030805A1 (ko) 2020-08-03 2021-07-19 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200096923A KR102494627B1 (ko) 2020-08-03 2020-08-03 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220016682A KR20220016682A (ko) 2022-02-10
KR102494627B1 true KR102494627B1 (ko) 2023-02-01

Family

ID=80117370

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200096923A KR102494627B1 (ko) 2020-08-03 2020-08-03 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법

Country Status (3)

Country Link
US (1) US20230290336A1 (ko)
KR (1) KR102494627B1 (ko)
WO (1) WO2022030805A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11978435B2 (en) * 2020-10-13 2024-05-07 Mitsubishi Electric Research Laboratories, Inc. Long-context end-to-end speech recognition system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078775A (ja) 2010-03-12 2012-04-19 Asahi Kasei Corp 音声認識装置および音声認識方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
KR100229438B1 (ko) * 1997-04-09 1999-11-01 정명식 계층적 피드백 구조를 갖는 음성인식시스템
AU2002336458A1 (en) * 2002-09-06 2004-03-29 Jordan R. Cohen Methods, systems, and programming for performing speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078775A (ja) 2010-03-12 2012-04-19 Asahi Kasei Corp 音声認識装置および音声認識方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jacob Kahn, et al. Self-training for end-to-end speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). 2020.04.09.
Linhao Dong, et al, Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). 2018.04.15.

Also Published As

Publication number Publication date
WO2022030805A1 (ko) 2022-02-10
KR20220016682A (ko) 2022-02-10
US20230290336A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
US20210383220A1 (en) Deep neural network ensembles for decoding error correction codes
WO2021164064A1 (zh) 一种信道编码和纠错译码方法、设备以及存储介质
CN112148585A (zh) 用于动态类型语言的代码审查辅助的方法、***、制品、和设备
US10291268B1 (en) Methods and systems for performing radio-frequency signal noise reduction in the absence of noise models
US11281999B2 (en) Predictive accuracy of classifiers using balanced training sets
US10783452B2 (en) Learning apparatus and method for learning a model corresponding to a function changing in time series
US20210241067A1 (en) Hyper-Graph Network Decoders for Algebraic Block Codes
US11630953B2 (en) Systems and methods for end-to-end deep reinforcement learning based coreference resolution
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
US20190079469A1 (en) Adaptive control of negative learning for limited reconstruction capability auto encoder
US20210081800A1 (en) Method, device and medium for diagnosing and optimizing data analysis system
KR102494627B1 (ko) 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법
Wang et al. A low-complexity belief propagation based decoding scheme for polar codes-decodability detection and early stopping prediction
CN112084301A (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN115809464A (zh) 基于知识蒸馏的轻量级源代码漏洞检测方法
US20200356850A1 (en) Fusion of neural networks
US20240062057A1 (en) Regularizing targets in model distillation utilizing past state knowledge to improve teacher-student machine learning models
US20230034322A1 (en) Computer-implemented method, device, and computer program product
CN114519346A (zh) 基于语言模型的译码处理方法、装置、设备和介质
US11983246B2 (en) Data analysis system, learning device, method, and program
JP2010535459A (ja) 線形計画法復号のための座標上昇法
WO2021014746A1 (ja) 情報処理方法、情報処理装置、および情報処理プログラム
US20220343211A1 (en) Method, electronic device, and computer program product for training model
US12026046B2 (en) Error log anomaly detection
US20240232295A9 (en) Method, electronic device, and computer program product for detecting model performance

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right