KR20220059759A - 종단형 음성 인식 방법 및 장치 - Google Patents

종단형 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20220059759A
KR20220059759A KR1020200145327A KR20200145327A KR20220059759A KR 20220059759 A KR20220059759 A KR 20220059759A KR 1020200145327 A KR1020200145327 A KR 1020200145327A KR 20200145327 A KR20200145327 A KR 20200145327A KR 20220059759 A KR20220059759 A KR 20220059759A
Authority
KR
South Korea
Prior art keywords
speech recognition
voice
recognition result
speech
phoneme
Prior art date
Application number
KR1020200145327A
Other languages
English (en)
Inventor
박기영
오유리
박전규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200145327A priority Critical patent/KR20220059759A/ko
Publication of KR20220059759A publication Critical patent/KR20220059759A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 attention 기반의 인코더-디코더 구조의 종단형 음성인식 시스템에서 훈련과정에서 짧은 구 단위로 발화를 분할하여 신경망을 훈련하고, 음성을 인식하는 단계에서 입력된 음성을 짧은 시간 간격으로 중복구간을 두어 분할하여 음성인식을 수행함으로써 높은 인식성능의 인식결과를 내면서 동시에 사용자에게 인식결과를 빠르게 제공한다.

Description

종단형 음성 인식 방법 및 장치{method and apparatus for end-to-end speech recognition}
본 발명은 종단형 음성 인식 기술에 관한 것으로, 더욱 상세하게는 음성 인식에 대한 응답 특성을 개선하기 위한 종단형 음성 인식 기술에 관한 것이다.
음성 인식 기술은 발전을 거듭하여 방송 및 회의 발성의 녹취, 사람 간 전화 통화 내용의 녹취 등 대화체 발성에 대해서도 높은 인식성능을 보이고 있는 상황이며 이외의 다양한 분야에서 널리 활용되고 있다.
최근에 활발히 개발되고 있는 종단형 음성 인식기의 경우 음성 신호와 그에 대응되는 텍스트 파일을 이용하여 단일 신경망을 훈련시킴으로써 언어별 전문 지식 없이 언어 모델과 음향 모델이 결합된 종래의 음성 인식 기술보다 높은 인식 성능을 보여주고 있다.
여러 가지 종단형 음성 인식기 중 어텐션(attention: 주의 집중) 기반의 종단형 음성 인식기는 시계열의 입력 정보에 대한 음성 인식을 수행한다. 따라서, 시계열의 입력 정보를 기반으로 음성 인식 결과를 획득하기 위해서는, 문장 또는 구절 단위의 전체 시계열 정보를 모두 입력받은 이후에 음성 인식을 위한 계산을 수행한다. 즉, 한 문장 또는 한 구절이 모두 입력된 이후에 음성 인식을 위한 계산을 수행하므로, 음성 인식 결과도 한 문장 또는 한 구절이 모두 입력된 이후에 한 문장 또는 한 구절 전체에 대한 음성 인식 결과를 출력한다. 다시 말해, 한 문장 또는 한 구절이 모두 입력되기 전에는 음성 인식 결과를 출력하지 않는다. 이는 종단형 음성 인식기의 빠른 응답 특성을 저해하는 요소이다.
상술한 문제점을 해결하기 위한 본 발명의 목적은 문장 단위(또는 구절 단위)보다 더 작은 단위로 입력 음성에 대한 음성 인식을 수행하도록 훈련된 종단형 음성 인식 장치 및 그 방법을 제공하는데 있다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
상술한 목적을 달성하기 위한 본 발명의 종단형 음성 인식 방법은, 훈련용 음성 파일을 사전에 결정된 시간 간격에 대응하는 세그먼트 단위로 분할하고, 훈련용 음성 파일로부터 분할된 상기 세그먼트 단위의 음성 파일을 이용하여 상기 어텐션 기반의 인코더-디코더를 훈련하는 단계; 실제 음성 파일을 상기 세그먼트 단위로 분할하는 단계; 상기 훈련된 어텐션 기반의 인코더-디코더를 이용하여 상기 실제 음성 파일로부터 상기 세그먼트 단위로 분할된 음성 파일들 각각에 음성 인식으로 수행하여 m개의 음성인식 결과들을 획득하는 단계; 및 상기 m개의 음성인식 결과들을 연결하여 최종 음성 인식 결과를 출력하는 단계를 포함한다.
여기서, 상기 분할하는 단계는, 상기 시간 간격보다 작은 시간 간격으로 중복 구간을 두어 실제 음성 파일을 상기 세그먼트 단위로 분할하는 단계이다.
본 발명에 따르면, 종단형 음성 인식 장치가 문장 단위(또는 구절 단위)보다 더 작은 단위로 입력 음성에 대한 음성 인식을 수행하도록 훈련됨으로써, 기존의 어텐션(attention) 기반의 인코더-디코더 구조가 제공하는 높은 성능을 그대로 유지하는 동시에 사용자에게 음성 인식 결과를 빠르게 응답할 수 있다.
또한 모델의 훈련 시에 적용된 발화의 길이 및 유닛의 개수와 음성 인식시에 적용되는 발화의 길이 및 유닛의 개수가 일치함으로써 훈련 환경과 음성 인식 환경이 동일해지는 효과가 있어 음성인식 성능도 높아진다.
도 1은 본 발명의 실시 예에 따른 종단형 음성 인식 장치의 구성을 개략적으로 도시한 블록도.
도 2는 본 발명의 실시 예에 따른 종단형 음성 인식 장치의 훈련 단계를 도식적으로 나타낸 도면.
도 3은 도 2의 훈련 단계를 통해 훈련된 종단형 음성 인식 장치의 음성 인식 과정을 도식적으로 나타낸 도면.
도 4 및 5는 도 3에 도시한 후처리기가 음성 인식을 수행한 결과에 따라 생성한 다수의 음성 인식 결과들을 연결하는 방법을 도식적으로 설명하기 위한 도면들.
도 6은 본 발명의 종단형 음성 인식 방법을 적용할 수 있는 예시적인 컴퓨팅 디바이스를 도시하는 블록도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명은 어텐션(attention) 기반의 인코더-디코더 구조의 종단형 음성 인식기에서 훈련과정에서 짧은 구 단위로 발화를 분할하여 신경망을 훈련하고, 음성 인식 단계에서 입력된 음성을 짧은 시간 간격으로 중복구간을 두어 분할하여 음성 인식을 수행함으로써 높은 인식성능의 인식결과를 내면서 동시에 사용자에게 인식결과를 빠르게 제공할 수 있다.
이하, 도면을 참조하여, 본 발명의 바람직한 실시 예에 대해 상세히 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 종단형 음성 인식 장치의 구성을 개략적으로 도시한 블록도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 종단형 음성 인식 장치(100)는 컴퓨팅 장치 또는 컴퓨팅 장치 내에 포함된 것일 수 있다. 여기서, 컴퓨팅 장치는, 예를 들면, 데스크 탑, 서버, 웨어러블 기기, 가전기기, 모바일 단말, PDA 등일 수 있으며, 이에 한정하지 않고, 사용자에게 음성 인식 서비스를 제공할 필요가 있는 모든 종류의 장치를 포함한다.
본 발명의 실시 예에 따른 종단형 음성 인식 장치(100)는, 개략적으로 전처리기(110), 시퀀스-투-시퀀스 모델(Sequence-to-Sequence)(130), 후처리기(150), 프로세서(170) 및 메모리(190)를 포함할 수 있다.
프로세서(170)는 전처리기(110), 시퀀스-투 시퀀스 모델(Sequence-to-Sequence)(130), 후처리기(150)의 동작 및 실행을 제어하는 것으로, 적어도 하나의 CPU, 적어도 하나의 GPU 또는 이들의 조합일 수 있다.
전처리기(110)는 연속적인 실제 음성 신호에 대응하는 실제 음성 파일(또는 테스트 음성 파일)을 입력받고, 사전에 수행된 종단형 음성 인식 장치(100)의 훈련 단계에서 결정된 짧은 시간 단위(예를 들어, 3초)로 상기 실제 음성 파일을 m개의 세그먼트들(segment_1, segment_2, segment_3 ~ segment_m-1 및 segment_m)로 분할한다.
이때, 전처리기(110)는 상기 실제 음성 파일을 m개의 세그먼트들로 분할하되, 세그먼트 간에 일정 시간(예를 들어 1초)에 대응하는 길이만큼 중복되도록 분할한다.
예를 들어, 상기 실제 음성 파일이 3초의 시간 구간으로 분할되고, 분할된 세그먼트들이 1초의 시간구간만큼 중복되는 경우, 현재시간의 세그먼트segment_2는 이전 시간의 세그먼트 segment_2와 1초의 시간에 대응하는 길이만큼 중복되고, 다음 시간의 세그먼트 segment_3과 1초의 시간에 대응하는 길이만큼 중복된다.
시퀀스-투-시퀀스 모델(130)은 전처리기(110)에 의해 실제 음성 파일로부터 분할된 m개의 세그먼트들에 대해 음성 인식을 수행한다.
시퀀스-투-시퀀스 모델(Sequence-to-Sequence)(130)은 인코더와 디코더가 연결된 구조로서, 어텐션 기반 인코더(132)와 어텐션 기반 디코더(134)를 포함할 수 있다.
어텐션(attention) 기반 인코더(132)는 다층 신경망을 포함하도록 구성되며, 상기 전처리기(110)에 의해 분할된 m개의 세그먼트들 각각에 대응하는 m개의 특징 벡터열을 상기 다층 신경망에 인가하여 축약된 정보를 추출하는 어텐션 인코딩 과정을 수행한다.
어텐션(attention) 기반 디코더(134)는 상기 어텐션 기반 인코더(132)의 출력 정보를 이용하여 그 출력 정보에 포함된 출력 심볼을 순차적으로 출력하는 어텐션 디코딩 과정을 통해 음성 인식을 수행한다.
어텐션(attention, 주의집중)은 인코더 및 디코더의 각 층에서 어떠한 시간의 정보에 가중치를 주어야하는 지, 또한 디코더에서 인코더의 시계열 정보 중 어떠한 시간의 정보에 가중치를 주어야하는 지를 결정한다.
이러한 어텐션 기반의 인코더-디코더는 우수한 인식 성능을 보여주고 있는 신경망 구조이다. 다만, 본 발명은 어텐션 기반의 인코더-디코더의 알고리즘 자체에 특징이 있는 것이 아니므로, 이에 대한 상세한 설명은 공지된 기술로 대신하다.
후처리기(150)는 시퀀스-투-시퀀스 모델(130)의 음성 인식에 따라 세그먼트 단위(segment-wise)로 출력된 m개의 음성 인식 결과들(예, m개의 출력 문자열)을 연결(concatenation)하는 후처리 과정을 수행한다.
이때, 시퀀스-투-시퀀스 모델(130)에서 수행한 음성 인식은 세그먼트 간에 일정 시간(예를 들어 1초)에 대응하는 길이만큼 중복되도록 분할된 m개의 세그먼트들을 대상으로 수행된 것이므로, 인접한 음성 인식 결과들은 중복된 부분이 존재한다.
따라서, m개의 음성 인식 결과들의 연결과정에서 인접한 음성 인식 결과들 간의 중복되는 부분에 대한 처리가 필요하다.
일 예로, m-1 번째 음성 인식 결과(m-1 번째 출력 문자열) 내에서 m 번째 음성 인식 결과와 중복되는 구간에 포함된 m-1 번째 음소(phoneme)를 나타내는 m-1 번째 특징 벡터값과 m 번째 음성 인식 결과(m 번째 출력 문자열) 내에서 m-1 번째 음성 인식 결과와 중복되는 구간에 포함된 m 번째 음소를 나타내는 m 번째 특징 벡터값 사이의 거리값이 기준 거리값 이하이면, m-1 번째 음소와 m 번째 음소는 서로 동일한 음소(중복된 음소(duplicate phoneme))로 판단하여, 이들 중 어느 하나의 음소를 제거한 후 m-1 번째 음성 인식 결과와 m 번째 음성 인식 결과를 연결하는 후처리 과정을 수행한다.
반대로, m-1 번째 음소를 나타내는 m-1 번째 특징 벡터값과 m 번째 음소를 나타내는 m 번째 특징 벡터값 사이의 거리값이 기준 거리값을 초과하면, m-1 번째 음소와 m 번째 음소 중 어느 하나를 제거하지 않고, m-1 번째 음성 인식 결과와 m 번째 음성 인식 결과를 그대로 연결하는 후처리 과정을 수행한다.
이러한 후처리 과정을 통해 m개의 음성 인식 결과들을 모두 연결한 최종 음성 인식 결과가 획득된다.
도 2는 본 발명의 실시 예에 따른 종단형 음성 인식 장치의 훈련 단계를 도식적으로 설명하기 위한 도면이다.
도 2를 참조하면, 먼저 훈련 단계의 절차는 다음과 같다.
전처리기(110)가, 사전에 준비된 훈련 코퍼스(훈련 스크립터)를 입력받는다. 훈련 코퍼스는 훈련용 음성 파일(사용자의 음성을 사전에 녹음한 음성 파일)과 훈련용 전사 파일을 포함하며, 여기서, 훈련용 전사 파일은 훈련용 음성 파일에 대응하는 텍스트 파일일 수 있다.
이어, 전처리가(110)가, 전사 파일과 강제-정렬(forced-align) 절차를 이용하여 음성 파일에 포함된 단어별 시작 시간과 끝 시간을 추정한다. 이때, 추정치는 어느 정도의 오류를 포함하고 있어도 무방하다.
이어, 전처리기가(110)가 훈련 단계에서 결정된 시간 간격(예를 들어 3초)의 한 세그먼트의 길이로 훈련용 음성 파일을 분할하되, 상기 추정된 단어별 시작 시간과 끝 시간에 기반하여 단어와 단어 사이의 경계점을 찾고, 단어의 중간에서 잘리지 않도록 어절의 경계를 기준으로 훈련용 음성 파일을 분할한다.
이어, 분할된 훈련용 음성 파일들(word1~3, word4~7, ..., word(N-k)~(N))을 입력으로 이용하여 본 발명의 실시 예에 따른 종단형 음성기(시퀀스-투-시퀀스 모델)이 훈련(학습)된다.
도 3은 도 2의 훈련 단계를 통해 훈련된 종단형 음성 인식 장치의 음성 인식 단계를 도식적으로 설명하기 위한 도면이다.
도 3을 참조하면, 음성 인식 단계의 절차는 다음과 같다.
먼저, 전처리기(110)가 연속적인 음성 파일이 입력되면 훈련 단계에서 결정한 짧은 시간 간격(예를 들어 3초) 단위로 음성 파일을 분할하되 세그먼트 간에 일정 시간(예를 들어 1초)의 중복 구간을 두어 파일을 분할한다.
이어, 어텐션 기반 인코더-디코더로 구성된 시퀀스-투-시퀀스 모델(130)이 음성 파일로부터 분할된 세그먼트들(segment_1 ~ segment_m) 각각에 음성 인식을 수행하여, 연속된 세그먼트들(segment_1 ~ segment_m)에 대한 각각의 음성 인식 결과들(음성인식결과_1 ~ 음성인식결과_m)을 출력한다.
이어, 후처리기(150)가, 연속된 세그먼트의 음성 인식 결과들(음성인식결과_1 ~ 음성인식결과_m) 간의 중복 구간을 확인하고, 중복 구간이 확인되면, 현재의 음성 인식 결과의 중복 구간에 포함된 음소와 현재의 음성 인식 결과에 인접한 다른 음성 인식 결과의 중복 구간에 포함된 음소의 유사도가 높은 경우, 어느 하나의 음소를 삭제한 후에 현재의 음성 인식 결과와 다른 음성 인식 결과를 연결하여, 이를 최종 음성 인식 결과로 획득한다. 여기서, 중복 구간의 확인은 어절의 경계정보를 활용할 수 있다.
도 4 및 5는 도 3에 도시한 후처리기가 음성 인식을 수행한 결과에 따라 생성한 다수의 음성 인식 결과들을 연결하는 방법을 도식적으로 설명하기 위한 도면들이다.
먼저, 도 4를 참조하면, m-1번째 음성 인식 결과와 m번째 음성 인식 결과 간에 중복 구간이 확인되면, m-1번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m-1)의 특징 벡터값과 m번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m)의 특징 벡터값 간의 거리값을 기준 거리값과 비교하여, 기준 거리값 이하이면, 음소(음소_m-1)와 음소(음소_m)가 유사도가 높은 동일한 음소로 판단하여, 음소(음소_m-1)와 음소(음소_m) 중 어느 하나를 삭제한 후 m-1번째 음성 인식 결과와 m번째 음성 인식 결과를 연결한다. 도 4에서는 음소(음소_m)를 삭제한 후 m-1번째 음성 인식 결과와 m번째 음성 인식 결과를 연결한 예를 도시한 것이다.
이러한 연결과정을 보다 쉽게 설명하면, m-1번째 음성 인식 결과가 "나는 학교에"이고, m번째 음성 인식 결과가 "학교에 간다"이고, m-1번째 음성 인식 결과의 중복 구간에는 "학교에"라는 인식결과를 포함하고, m번째 음성 인식 결과의 중복 구간에는 "학교에"라는 인식 결과를 포함하고 있을 때, m-1번째 음성 인식 결과의 중복 구간에 포함된 인식결과와 m번째 음성 인식 결과의 중복 구간에 포함된 인식결과가 동일하므로, m-1번째 음성 인식 결과의 "학교에" 또는 m번째 음성 인식 결과의 "학교에"를 삭제한 후, m-1번째 음성 인식 결과와 m번째 음성 인식 결과를 연결하면, "나는 학교에 간다"라는 최종 음성 인식 결과를 획득하게 된다.
한편, m-1번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m-1)와 m번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m) 간의 유사도가 낮은 경우, 즉, m-1번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m-1)의 특징 벡터값과 m번째 음성 인식 결과의 중복 구간에 포함된 음소(음소_m)의 특징 벡터값 간의 거리값이 기준 거리값을 초과하면, 도 5에 도시된 바와 같이, 음소(음소_m-1) 또는 음소(음소_m)의 삭제 없이, m-1번째 음성 인식 결과와 m번째 음성 인식 결과를 그대로 연결하여 이를 최종 음성 인식 결과로 출력한다.
이처럼 본 발명의 어텐션(attention) 기반의 종단형 음성 인식 장치는 문장 단위(또는 구절 단위)보다 더 작은 단위(예, 일정 개수의 단어들을 포함하는 단위 또는 구 단위)로 분할된 입력 음성에 대한 음성 인식을 수행하도록 훈련되고, 이렇게 훈련된 종단형 음성 인식 장치가 음성 인식을 수행함으로써, 기존의 어텐션(attention) 기반의 인코더-디코더 구조가 제공하는 높은 성능을 그대로 유지하는 동시에 사용자에게 음성 인식 결과를 빠르게 응답할 수 있다.
도 6은 본 발명의 종단형 음성 인식 방법을 적용할 수 있는 예시적인 컴퓨팅 디바이스를 도시하는 블록도이다.
컴퓨팅 디바이스(500)는 본 명세서에서 논의된 것과 같은 다양한 절차를 수행하는데 사용될 수 있다. 컴퓨팅 디바이스(500)는 데스크탑 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, 휴대형 컴퓨터, 태블릿 컴퓨터, 등과 같은 다양한 컴퓨팅 디바이스 중 임의의 것일 수 있다.
컴퓨팅 디바이스(500)는 하나 이상의 프로세서(CPU, GPU)(402), 하나 이상의 메모리 디바이스(들)(404), 하나 이상의 인터페이스(들)(406), 하나 이상의 대용량 저장 디바이스(들)(408), 하나 이상의 입/출력(I/O) 디바이스(들)(410), 및 디스플레이 디바이스(430)를 포함하고, 이들 모두는 버스(412)에 접속된다.
프로세서(들)(402)는 메모리 디바이스(들)(404) 및/또는 대용량 저장 디바이스(들)(408)에 저장된 명령을 실행하는 하나 이상의 프로세서 또는 제어기를 포함한다. 프로세서(들)(402)는 또한 캐시 메모리와 같은 다양한 유형의 컴퓨터-판독가능 매체를 포함할 수 있다.
메모리 디바이스(들)(404)는 휘발성 메모리(예를 들어, 랜덤 액세스 메모리(RAM)(414)) 및/또는 비휘발성 메모리(예를 들어, 판독-전용 메모리(ROM)(416))와 같은 다양한 컴퓨터-판독가능 매체를 포함한다. 메모리 디바이스(들)(404)는 또한 플래시 메모리와 같은 재기록 가능 ROM을 포함할 수 있다.
대용량 저장 디바이스(들)(408)는 자기 테이프, 자기 디스크, 광 디스크, 고체-상태 메모리(예: 플래시 메모리) 등과 같은 다양한 컴퓨터 판독가능 매체를 포함한다. 도 4에 도시된 바와 같이, 특정 대용량 저장 디바이스는 하드 디스크 드라이브(424)이다. 다양한 드라이브는 또한 다양한 컴퓨터 판독 가능 매체로부터 판독 및/또는 컴퓨터 판독 가능 매체에 기록을 가능하게 하기 위해 대용량 저장 디바이스(들)(408)에 포함될 수 있다. 대용량 저장 디바이스(들)(408)는 탈착 가능 저장 장치(426) 및/또는 고정식 매체를 포함한다.
입/출력(I/O) 디바이스(들)(410)는 데이터 및/또는 다른 정보가 컴퓨팅 디바이스([0035] 400)에 입력되거나 컴퓨터 디바이스(400)로부터 검색되게 하는 다양한 디바이스를 포함한다. 예시적인 I/O 디바이스(들)(410)는 커서 제어 디바이스, 키보드, 키패드, 마이크, 모니터 또는 다른 디스플레이 디바이스, 스피커, 프린터, 네트워크 인터페이스 카드, 모뎀, 렌즈, CCD 또는 다른 이미지 캡쳐 디바이스, 등을 포함한다.
디스플레이 디바이스(430)는 컴퓨팅 디바이스(400)의 하나 이상의 사용자에게 정보를 디스플레이할 수 있는 임의의 유형의 디바이스를 포함한다. 디스플레이 디바이스(430)의 예는 모니터, 디스플레이 터미널, 비디오 프로젝션 디바이스, 등을 포함한다.
그래픽-처리 유닛(GPU)(432)은 프로세서(들)(402) 및/또는 디스플레이 디바이스(430)에 접속될 수 있다. GPU는 컴퓨터 생성 이미지를 렌더링하고 다른 그래픽 처리를 수행하도록 동작할 수 있다.
GPU는 프로세서(들)(402)와 같은 범용 프로세서의 기능의 일부 또는 모두를 포함할 수 있다. GPU는 또한 그래픽 처리에 특정된 추가 기능을 포함할 수 있다. GPU는 좌표 변환, 음영, 텍스처링, 래스터화 및 컴퓨터 생성 이미지 렌더링에 유용한 다른 기능과 관련된 하드-코딩 및/또는 하드-와이어 그래픽 기능을 포함할 수 있다.
인터페이스(들)(406)는 컴퓨팅 디바이스(400)가 다른 시스템, 다른 디바이스 또는 다른 컴퓨팅 환경과 상호작용할 수 있게 하는 다양한 인터페이스를 포함한다.
예시적인 인터페이스(들)(406)는 근거리 네트워크(LAN), 광역 네트워크 (WAN), 무선 네트워크 및 인터넷에 대한 인터페이스와 같은 임의의 수의 상이한 네트워크 인터페이스(420)를 포함한다.
다른 인터페이스(들)는 사용자 인터페이스(418) 및 주변 디바이스 인터페이스(422)를 포함한다.
인터페이스(들)(406)는 또한 하나 이상의 사용자 인터페이스 요소(418)를 포함할 수 있다. 인터페이스(들)(406)는 또한 프린터, 포인팅 디바이스(마우스, 트랙 패드, 등), 키보드, 등을 위한 인터페이스와 같은 하나 이상의 주변 인터페이스를 포함할 수 있다.
버스(412)는 프로세서(들)(402), 메모리 디바이스(들)(404), 인터페이스(들)(406), 대용량 저장 디바이스(들)(408), 및 I/O 디바이스(들)(410)가 서로 통신하도록, 뿐만 아니라 버스(412)에 접속된 다른 디바이스 또는 구성요소와 통신하도록 허용한다.
버스(412)는 시스템 버스, PCI 버스, IEEE 1394 버스, USB 버스 등과 같은 여러 유형의 버스 구조 중 하나 이상을 나타낸다.
설명을 위해, 프로그램 및 다른 실행 가능한 프로그램 구성 요소가 본 명세서에서 개별적인 블록으로 도시되었지만, 그러한 프로그램 및 구성 요소는 컴퓨팅 디바이스(400)의 상이한 저장 구성 요소에 다양한 시간에 상주할 수 있고, 프로세서(들)(402)에 의해 실행됨이 이해된다. 대안적으로, 여기에 설명된 시스템 및 절차는 하드웨어, 또는 하드웨어로, 또는 하드웨어, 소프트웨어 및/또는 펌웨어의 조합으로 구현될 수 있다. 예를 들어, 하나 이상의 주문형 집적 회로(ASICs)는 본 명세서에 기술된 하나 이상의 시스템 및 절차를 수행하도록 프로그래밍 될 수 있다.
이제까지 본 발명을 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양하게 변경 또는 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명을 위한 예시적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (1)

  1. 어텐션(attention) 기반의 인코더-디코더를 갖는 종단형 음성 인식 방법에서,
    훈련용 음성 파일을 사전에 결정된 시간 간격에 대응하는 세그먼트 단위로 분할하고, 훈련용 음성 파일로부터 분할된 상기 세그먼트 단위의 음성 파일을 이용하여 상기 어텐션 기반의 인코더-디코더를 훈련하는 단계;
    실제 음성 파일을 상기 세그먼트 단위로 분할하는 단계;
    상기 훈련된 어텐션 기반의 인코더-디코더를 이용하여 상기 실제 음성 파일로부터 상기 세그먼트 단위로 분할된 음성 파일들 각각에 음성 인식으로 수행하여 m개의 음성인식 결과들을 획득하는 단계; 및
    상기 m개의 음성인식 결과들을 연결하여 최종 음성 인식 결과를 출력하는 단계를 포함하고,
    상기 분할하는 단계는,
    상기 시간 간격보다 작은 시간 간격으로 중복 구간을 두어 실제 음성 파일을 상기 세그먼트 단위로 분할하는 단계인 것인 종단형 음성 인식 방법.
KR1020200145327A 2020-11-03 2020-11-03 종단형 음성 인식 방법 및 장치 KR20220059759A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200145327A KR20220059759A (ko) 2020-11-03 2020-11-03 종단형 음성 인식 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200145327A KR20220059759A (ko) 2020-11-03 2020-11-03 종단형 음성 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220059759A true KR20220059759A (ko) 2022-05-10

Family

ID=81591836

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145327A KR20220059759A (ko) 2020-11-03 2020-11-03 종단형 음성 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220059759A (ko)

Similar Documents

Publication Publication Date Title
CN113811946B (zh) 数字序列的端到端自动语音识别
US20220076693A1 (en) Bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
CN113168828B (zh) 基于合成数据训练的会话代理管线
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
CN110603583A (zh) 语音识别***和用于语音识别的方法
CN112435654B (zh) 通过帧***对语音数据进行数据增强
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
US11120802B2 (en) Diarization driven by the ASR based segmentation
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN112397056B (zh) 语音评测方法及计算机存储介质
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN113674733A (zh) 用于说话时间估计的方法和设备
CN113450758B (zh) 语音合成方法、装置、设备及介质
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
JP4859125B2 (ja) 発音評定装置、およびプログラム
CN117012177A (zh) 语音合成方法、电子设备和存储介质
CN111816164A (zh) 用于语音识别的方法及设备
KR20220059759A (ko) 종단형 음성 인식 방법 및 장치
JP4808764B2 (ja) 音声認識システムおよび方法
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2020173441A (ja) 音声認識方法及び装置
US20240185844A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text presentations