KR20180062003A - 음성 인식 오류 교정 방법 - Google Patents

음성 인식 오류 교정 방법 Download PDF

Info

Publication number
KR20180062003A
KR20180062003A KR1020160161799A KR20160161799A KR20180062003A KR 20180062003 A KR20180062003 A KR 20180062003A KR 1020160161799 A KR1020160161799 A KR 1020160161799A KR 20160161799 A KR20160161799 A KR 20160161799A KR 20180062003 A KR20180062003 A KR 20180062003A
Authority
KR
South Korea
Prior art keywords
vocabulary
speech recognition
error
pronunciation
speech
Prior art date
Application number
KR1020160161799A
Other languages
English (en)
Inventor
이기영
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160161799A priority Critical patent/KR20180062003A/ko
Publication of KR20180062003A publication Critical patent/KR20180062003A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 오류 교정 방법이 개시된다. 상기 방법은, 워드 임베딩 기법에 따라 벡터 공간에 사상된 현재 어휘의 위치와 이전 어휘의 위치 사이의 거리값을 이용하여, 상기 현재 어휘가 음성 인식 오류가 발생한 오류 어휘인지를 결정하는 단계; 상기 현재 어휘가 오류 어휘로 결정된 경우, 어휘 발음 사전을 참조하여, 상기 결정된 오류 어휘의 발음과 유사한 발음을 갖는 교정 어휘 후보를 생성하는 단계; 및 일반 도메인 기반의 언어 모델과 특정 도메인 기반의 언어 모델을 참조하여, 상기 생성된 교정 어휘 후보에서 상기 오류 어휘가 복구된 교정 어휘를 결정하는 단계를 포함한다.

Description

음성 인식 오류 교정 방법{METHOD OF CORRECTING SPEECH RECOGNITION ERRORS}
본 발명은 발화 문맥(uttered context) 기반의 음성 인식 오류 교정 방법에 관한 것으로, 상세하게는 음성 인식 기반의 응용 장치에서 음성 인식 오류를 교정하는 방법에 관한 것이다.
최근, 음성 인식 기술과 언어 처리 기술이 결합된 다양한 형태의 응용 기술 들이 개발되고 있으며, 이러한 응용기술은 자동 번역, 자동 통역, 동시통역, 화상 통역 등 다양한 분야에 적용될 수 있다.
음성 인식 기술은 다양한 이유로 인해 음성 인식 오류를 발생시키며, 이러한 음성 인식 오류는 음성 인식 결과를 입력으로 사용하는 다양한 응용모듈에서의 오류를 증폭시킨다. 따라서 음성 인식 오류를 교정하고자 하는 많은 노력이 있었다.
종래의 음성 인식 오류를 교정하는 방법에서는, 음성 인식된 결과 문장을 구성하는 어휘들을 태깅하여 그 품사를 확인한 후, 특정 품사를 포함하는 품사열이 일반적이지 않으면, 해당 어휘에 오류가 있는 것으로 판단하고, 오류가 있는 것으로 판단된 오류 어휘에 대해 유사한 발음을 갖는 후보 어휘들(유사 발음 어휘들)을 선정하고, 선정된 후보 어휘들 중에서 가장 확률이 높은 어휘를 선택하여, 상기 오류 어휘를 상기 선택된 어휘로 교체하는 방식으로, 음성 인식 오류에 대한 교정을 수행한다.
하지만, 이러한 종래의 음성 인식 기술은 대부분 대용량의 언어 모델(language model)을 사용하기 때문에, 특정 주제와 연관된 특정 문장의 음성 인식 오류를 포함하고 있는지 판단하기 어렵다. 즉, 상기 특정 문장이 음성 인식 오류를 포함하고 있더라도 의미적으로 오류가 없는 경우가 많기 때문에 정확하게 오류를 교정하기 어렵다.
또한, 종래의 음성 인식 기술에서는, 형태소 태깅의 부정확성 때문에, 음성 인식 오류가 없는 어휘를 잘못 태깅하여 틀린 품사 정보가 부착될 경우, 음성 인식 오류가 없는 어휘임에도 오류가 있는 어휘로 잘못 인식하여 교정하는 경우가 빈번하다.
따라서, 본 발명에서 해결하고자 하는 과제는 특정 주제와 연관된 음성 인식 문장 내에서 음성 인식 오류가 발생한 오류 어휘를 검출하고 교정할 수 있는 음성 인식 오류 교정 방법을 제공하는 데 있다.
상술한 과제를 달성하기 위한 본 발명의 일면에 따른 음성 인식 오류 교정 방법은, 워드 임베딩 기법에 따라 벡터 공간에 사상된 현재 어휘의 위치와 이전 어휘의 위치 사이의 거리값을 이용하여, 상기 현재 어휘가 음성 인식 오류가 발생한 오류 어휘인지를 결정하는 단계; 상기 현재 어휘가 오류 어휘로 결정된 경우, 어휘 발음 사전을 참조하여, 상기 결정된 오류 어휘의 발음과 유사한 발음을 갖는 교정 어휘 후보를 생성하는 단계; 및 일반 도메인 기반의 언어 모델과 특정 도메인 기반의 언어 모델을 참조하여, 상기 생성된 교정 어휘 후보에서 상기 오류 어휘가 복구된 교정 어휘를 결정하는 단계를 포함한다.
본 발명에 따르면, 특정 문맥 윈도우를 정의하고, 정의된 특정 문맥 윈도우 내에서의 다양한 문맥 정보를 사용하여 효율적으로 음성 인식 오류를 검출한다. 이러한 문맥 윈도우는 적용되는 응용분야에 따라 다양하게 정의될 수 있다. 예를 들어, 강연 통역이나 화상 통역 등에 적용될 경우에는 발화 시작부터 특정 시점까지를 문맥 윈도우의 크기로 정의되며, 이 크기는 강연이나 화상 대화가 끝날 때까지 증가한다. 즉, 본 발명은 특정 문맥 윈도우 내에서 발견될 수 있는 어휘들 간의 의미적 유사성, 그리고 동일 어휘의 반복적 발화와 같은 특성을 활용하여 보다 정확하게 음성인식 오류를 교정할 수 있다. 또한, 본 발명은 강연 통역, 화상 대화 번역, 화상 통역 등과 같은 다양한 음성 및 언어 처리 장치로 확장되어 적용될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치를 구현하기 위한 하드웨어 구성도이다.
도 2는 도 1에 도시한 프로세서의 기능 블록도이다.
도 3은 도 2에 도시한 음성 인식 오류 교정부의 기능 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 인식 오류 교정 방법을 나타내는 순서도이다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면과 연관되어 기재된다. 본 발명의 실시 예는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 실시 예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 다양한 실시 예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
종래의 음성 인식 오류 교정 방법은 일반적으로 품사 문맥 정보를 활용하여 음성 인식 오류를 교정했지만, 최근의 음성 인식 기술에서는 대용량의 언어 모델을 이용하여 음성 인식을 수행하기 때문에, 음성 인식된 문장 내의 음성 인식 오류가 오류처럼 보이지 않기 때문에 이러한 방법으로는 음성 인식 오류를 검출하거나 교정할 수 없는 한계가 있다.
이에, 본 발명에서는 문맥 윈도우를 정의하고, 문맥 윈도우 내에서의 다양한 문맥 정보를 활용하여 음성 인식 오류를 효율적으로 검출하여 교정하는 방법을 제공한다.
이러한 문맥 윈도우는 적용되는 응용분야에 따라 다양하게 정의될 수 있다. 예를 들어, 강연 통역이나 화상 통역 등에 적용될 경우에는 발화 시작부터 특정 시점까지를 문맥 윈도우의 크기로 정의되며, 이 문맥 윈도우의 크기는 강연이나 화상 대화가 끝날 때까지 증가한다. 즉, 본 발명에서는 특정 문맥 윈도우 내에서 발견될 수 있는 발화 문장 어휘들 간의 의미적 유사성, 그리고 동일어휘의 반복적 발화와 같은 특성을 활용하여 음성 인식 오류를 더욱 정확하게 교정할 수 있는 장점을 제공할 수 있다.
한편, 음성 인식 오류를 더욱 정확하게 교정할 수 있는 본 발명의 음성 인식 장치는 다양한 전자 장치에 탑재되거나 다양한 전자 장치로 구현될 수 있다.
상기 전자 장치는, 예를 들면, 인공 지능을 구비한 로봇 장치이거나, 통신 기능을 갖는 사용자 단말 또는 서버일 수 있다. 상기 사용자 단말은, 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 또는 스마트 와치(smart watch))일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치(100)를 구현하기 위한 구성도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 인식 장치(100)는 음성 인식 오류를 검출하여, 검출된 음성 인식 오류를 교정하고, 음성 인식 오류가 교정된 음성 인식 결과를 응용 장치(200)에 출력할 수 있다.
상기 응용 장치(200)는 자동 번역, 자동 통역, 동시 통역, 화상 통역, 강연 통역, 화상 대화 번역, 화상 통역 등과 같은 통역/번역 서비스를 제공하는 모든 종류의 장치일 수 있다.
상기 음성 인식 장치(100)가 전자 장치에 적용되는 경우, 상기 음성 인식 장치(100)는, 도 1에 도시된 바와 같이, 하나 이상의 프로세서(110), 메모리(130), 사용자 입력 장치(140), 사용자 출력 장치(150) 및 저장소(160)를 포함하며, 이들 각각은 시스템 버스(120)를 통해 통신할 수 있다. 또한, 상기 음성 인식 장치(100)는 네트워크에 연결된 네트워크 인터페이스를 포함할 수 있다.
상기 프로세서(110)는 메모리(130) 및/또는 저장소(160)에 저장된 처리 명령어를 실행하는 중앙 처리 유닛 또는 반도체 장치일 수 있다.
상기 메모리(130) 및 상기 저장소(160)는 휘발성 저장 매체 또는 비 휘발성 저장 매체를 포함할 수 있다. 예컨대, 상기 메모리(130)는 ROM(131) 및 RAM(133)을 포함할 수 있다.
또한, 본 발명의 실시 예에 따른 음성 인식 장치(100)에서 수행되는 음성 인식 오류 교정 방법은 컴퓨터 실행 가능 명령어를 가진 비(non)-일시적 컴퓨터 판독 가능 매체로서 구현 될 수 있다. 일 실시 예에서, 상기 음성 인식 오류 교정 방법이 프로세서(110)에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 발명의 적어도 한 양태에 따른 방법을 수행 할 수 있다.
도 2는 도 1에 도시된 프로세서의 기능 블록도이다.
도 2를 참조하면, 상기 프로세서(110)는 음성 인식부(112) 및 음성 인식 오류 교정부(114)를 포함할 수 있다. 상기 음성 인식부(112)와 상기 음성 인식 오류 교정부(114)는 로직으로 구현되어, 상기 프로세서(110) 내부에 탑재될 수 있다.
상기 음성 인식부(112)는, 음성 인식 학습모델(도시하지 않음)을 참조하여, 사용자의 발화 음성을 인식하고, 그 음성 인식 결과에 대응하는 텍스트 형태의 문장(음성 인식된 문장 또는 음성 인식된 어휘열)을 상기 음성 인식 교정부(114)로 출력할 수 있다. 여기서, 음성 인식 학습 모델은, 예를 들면, 음향 모델(acoustic model), 대용량의 언어 모델(language model) 및 발음 모델(pronunciation model) 등일 수 있으며, 상기 음성 인식부(112)는 이러한 음성 인식 학습 모델을 참조하도록 도 1의 저장소(160)에 저장될 수 있다.
상기 음성 인식 오류 교정부(114)는 정의된 문맥 윈도우의 크기 안에서 지속적으로 업데이트되는 워드 위치 데이터베이스(114-7, 도 3에 도시함), 발화 어휘 데이터베이스(114-9, 도 3에 도시함)와 어휘 발음 사전(130, 도 3에 도시함) 등을 참조로 하여, 음성 인식 오류를 검출할 수 있다.
상기 문맥 윈도우 크기는 본 발명의 음성 인식 장치(100)와 연동하는 응용 장치(200, 도 1에 도시함)에 따라 달라질 수 있다.
일 예로, 상기 음성 인식 장치(100)가 일반 대화를 기반으로 하는 자동 통역이나 대화 등을 처리하는 응용 장치(200, 도 1에 도시함)와 연동하는 경우, 상기 문맥 윈도우 크기는 음성 인식된 현재의 문장 이전의 N(N은 1 이상의 자연수) 개의 문장으로 제한될 수 있다.
다른 예로, 상기 음성 인식 장치(100)가 화상 통역, 강연 통역 등을 처리하는 응용 장치(200, 도 1에 도시함)와 연동하는 경우, 상기 문맥 윈도우 크기는 화상 회의 또는 강연의 시작 시점부터 발화자에 의해 발화되는 모든 문장들을 포함할 수 있다.
도 3은 도 2에 도시한 음성 인식 오류 교정부의 기능 블록도이다.
도 3을 참조하면, 상기 음성 인식 오류 교정부(114)는 오류 어휘 결정부(114-1), 교정 어휘 후보 생성부(114-3), 교정 어휘 결정부(114-5), 발화 어휘 DB(114-7), 상기 어휘 위치 정보 DB(114-9) 및 특정 도메인 기반의 언어 모델 DB(114-11)을 포함할 수 있다. 상기 DB들(114-7, 114-9 및 114-11)은 도 1의 저장소(160)에 저장될 수 있다.
오류 어휘 결정부 (114-1)
상기 DB들(114-7, 114-9 및 114-11)은 음성 인식 오류를 검출하기 위해 사용되는 DB일 수 있다. 추가로, 상기 음성 인식 오류를 검출하기 위해, 어휘 발음 사전(130)과 품사 엔그램(n-gram) 정보 DB(120)가 더 사용될 수 있으며, 상기 품사 엔그램 정보 DB(120)와 상기 어휘 발음 사전(130) 또한 도 1의 저장소(160)에 저장될 수 있다.
상기 DB들(114-7, 114-9 및 114-11)은 상기 음성 인식부(112)에 의해 음성 인식된 문장이 입력될 때마다 실시간으로 업데이트될 수 있다. 이와는 다르게, 상기 품사 엔그램 정보 DB(120)와 상기 어휘 발음 사전(130)은 사전에 구축된 DB일 수 있다.
구체적으로, 상기 발화 어휘 DB(114-7)에는 상기 음성 인식된 문장에 포함된 어휘들이 실시간으로 저장될 수 있다.
상기 어휘 위치 정보 DB(114-9)에는 상기 음성 인식된 문장에 포함된 어휘들이 단어 공간(word space)에 사상된(또는 투사된) 위치 정보(또는 벡터값)가 실시간으로 저장될 수 있다. 다르게, 상기 어휘 위치 정보 DB(114-9)에는 상기 음성 인식된 문장에 포함된 어휘들 중에서 의미적으로 관계가 있는 어휘들로 클러스터링 된 어휘 클래스가 상기 단어 공간에 사상된(또는 투사된) 위치 정보(벡터값)가 실시간으로 저장될 수 있다. 상기 단어 공간은 워드 임베딩 기술(Word Embedding)에 따라 음성 인식된 문장 내의 각 어휘들이 사상될(또는 투사될) 벡터 공간으로 정의되며, 상기 워드 임베딩 기술은 신경망 언어모델로부터 도출된 기술로 유사한 단어들을 상기 벡터 공간상에 가깝게 배치하여 어휘 의미를 표현할 수 있는 기술이다.
상기 특정 도메인 기반의 언어 모델 DB(114-11)에는 상기 음성 인식된 문장에 포함된 어휘들 중에서 특정 문맥 윈도우의 사이즈 내에서 특정 도메인과 관련된 어휘들에 대한 언어 모델링 결과가 실시간으로 저장될 수 있다. 상기 언어 모델링 결과는 상기 특정 도메인과 관련된 어휘들에 대한 n-gram 정보일 수 있다. 여기서, 상기 특정 도메인은 특정 주제와 관련된 강연(온라인 강연, 실시간 강연), 화상 회의 등일 수 있다.
상기 DB들(114-7, 114-9 및 114-11)과는 다르게, 사전에 구축된 상기 품사 엔그램(n-gram) 정보 DB(120)에는 품사 엔그램(n-gram) 정보가 저장된 DB로서, 상기 품사 엔그램(n-gram) 정보는 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 것으로서, n-gram은, 예를 들면, 바이그램(n=2)과 트라이그램(n=3)이 있을 수 있다.
상기 DB들(114-7, 114-9 및 114-11)과는 다르게, 사전에 구축된 상기 어휘 발음 사전(130)에는 음성 인식된 문장 내의 각 어휘들에 대한 발음 기호 정보가 저장될 수 있다.
상기 오류 어휘 결정부(114-1)는 상기 DB들(114-7, 114-9 및 114-11), 상기 품사 엔그램(n-gram) 정보 DB(120) 및 상기 어휘 발음 사전(130)을 참조하여, 음성 인식된 문장 내의 각 어휘들 중에서 음성 인식 오류 가능성이 있는 오류 어휘를 결정할 수 있다.
상기 음성 인식 오류 가능성이 있는 오류 어휘를 결정하기 위해, 상기 오류 어휘 결정부(114-1)는 각 어휘들에 대한 음성 인식 오류 가능성을 수치화한 음성 인식 오류치를 계산하고, 계산된 음성 인식 오류치와 임계치를 비교하여, 상기 음성 인식 오류치가 상기 임계치를 초과한 경우, 대상 어휘를 음성 인식 오류 가능성이 높은 오류 어휘로 결정한다.
상기 음성 인식 오류치(E)는 아래의 수식로 계산될 수 있다.
Figure pat00001
상기 변수 A는 상기 벡터 공간에서 현재 시점에서 음성 인식된 어휘(이하, '현재의 어휘'라 함)의 위치 정보(벡터값)와 이전 시점까지 클러스터링 된 어휘 클래스의 위치 정보(벡터값) 사이의 거리값(A)이고, 상기 변수 w1은 상기 A에 할당되는 가중치이다. 상기 오류 어휘 결정부(114-1)는 상기 어휘 위치 정보 DB(114-9)를 참조하여 상기 거리값(A)을 계산될 수 있다. 음성 인식이 적용되는 분야에서, 강연이나 화상 회의 등은 특정 도메인(특정 주제)을 가지고 있기 때문에 발화자에 의해서 발화된 어휘들은 서로 의미적으로 관계가 있으며 단어 공간 상에서 비교적 가까운 거리로 사상된다. 이러한 이유로 특정 시점에서 발화된 어휘와 '현재까지 발화된 어휘 클래스' 사이의 거리가 멀수록 오류 가능성이 크다고 할 수 있다.
상기 변수 B는 상기 현재의 어휘와 이전 시점에서 음성 인식된 어휘들(이하, 이전의 어휘들) 간의 발음 유사도이고, 상기 변수 w2는 상기 B에 할당되는 가중치이다. 상기 오류 어휘 결정부(114-1)는 상기 어휘 발음 사전(130)을 참조하여 상기 현재의 어휘의 발음 기호와 이전의 각 어휘들의 발음 기호들 간의 유사도를 확률적 방법으로 계산할 수 있다. 동일한 주제의 회의 또는 강연에서 발화자는 동일한 주제에서 자주 사용되는 어휘가 반복적으로 발화하는 경향이 높다. 그러므로 발화 어휘 DB(207)에 수집된 어휘들 중에서 발음이 유사한 어휘들이 존재한다면, 발음이 유사한 어휘들 중에서 적어도 하나의 어휘는 잘못 음성 인식된 오류 어휘일 가능성이 크다. 예를 들면, '학습'의 의미를 갖는'learning'이라는 어휘와 '달리기'의 의미를 갖는 'running'이라는 어휘는 서로 의미가 전혀 다르지만, 서로 유사한 발음을 갖는다. 만일, 이러한 어휘들이 발화 어휘 DB(207)에 존재한다면, 이들 중 어느 하나의 어휘를 포함하는 문장은 'learning'을 'running'으로 잘못 음성 인식했거나, 반대로, 'running'을 'learning'으로 잘못 음성 인식한 결과일 확률이 높다. 이러한 점에서, 현재의 어휘와 이전의 어휘들 간의 발음 유사도는 음성 인식 오류를 판단함에 있어 중요한 변수라 할 수 있다.
상기 변수 C는 품사 엔그램(n-gram) 확률값이고, 상기 변수 w3은 상기 B에 할당되는 가중치이다. 상기 오류 어휘 결정부(114-1)는 품사 엔그램 DB(120)를 참조하여 어휘들에 대한 품사 엔그램(n-gram) 확률값을 계산할 수 있다. 오류 어휘를 구성하는 단어는 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률이 작을 것이다. 즉, 과거의 n-1개의 어휘로부터 다음에 나타날 오류 어휘의 빈도수는 비교적 낮은 빈도로 발견될 것이다. 이러한 점에서 품사 엔그램(n-gram) 확률값(C)도 음성 인식 오류를 검출하는 데 중요한 변수가 될 수 있다.
이와 같이, 본 발명의 일 실시 예에서는 음성 인식 오류 가능성을 상기 벡터 공간에서 현재 시점에서 음성 인식된 어휘(이하, '현재의 어휘'라 함)의 위치 정보(벡터값)와 이전 시점까지 클러스터링 된 어휘 클래스의 위치 정보(벡터값) 사이의 거리값(A), 상기 현재의 어휘와 이전 시점에서 음성 인식된 어휘들(이하, 이전의 어휘들) 간의 발음 유사도(B) 및 품사 엔그램(n-gram) 확률값(C)로 이루어진 3가지 주요 요소를 기준으로 해당 어휘가 오류 어휘인지를 판단할 수 있다. 각 변수에 할당되는 가중치들(w1, w2 및 w3)은 휴리스틱(heuristics) 하게 결정될 수 있다.
한편, 본 실시 예에서는, 위의 3가지 주요 요소를 모두 고려하여 음성 인식된 어휘의 음성 인식 오류 가능성을 판단한 예를 기술하고 있지만, 3가지 주요 요소를 모두 고려하지 않고, 한가지 또는 두 가지의 주요 요소만을 고려하여 음성 인식 오류 가능성을 판단할 수도 있다.
교정 어휘 후보 생성부 (114-3)
상기 교정 어휘 후보 생성부(114-3)는 상기 오류 어휘 결정부(114-1)에서 음성 인식 오류가 있는 것으로 결정된 오류 어휘에 대해 어휘 발음 사전(130)을 참조하여, 교정 어휘 후보(또는 정답 어휘 후보)를 생성한다. 즉, 상기 교정 어휘 결정부(114-5)는 상기 어휘 발음 사전(130)에서 상기 오류 어휘의 발음과 유사한 발음을 갖는 어휘들을 검색하고, 검색된 어휘들을 교정 어휘 후보로 생성한다.
교정 어휘 결정부 (114-5)
상기 교정 어휘 결정부(114-5)는 일반 도메인 기반의 언어 모델(140)과 추가로 특정 도메인(특정 주제) 기반의 언어 모델(114-11)을 참조하여, 상기 교정 어휘 후보 생성부(114-3)에서 생성한 교정 어휘 후보 중에서 교정 어휘를 결정한다. 이와 같이, 일반 도메인 기반의 언어 모델(140)만을 이용함으로써, 특정 주제와 연관된 특정 문장이 음성 인식 오류를 포함하고 있는지 판단하기 어려운 종래의 문제점을 해결할 수 있다.
일반 도메인 기반의 언어 모델(140)은 잘 알려진 바와 같이, 대용량 코퍼스로부터 학습된 모델로서, 일반 주제와 관련된 어휘들을 서로에 대해 등급을 매기고 주어진 교정 어휘 후보들에 대해 가장 적합한 교정 어휘로 선택하는데 사용될 수 있는 확률 및/또는 다른 적절한 점수 데이터(예를 들어, 조건부 확률, 점수, 단어 계수, n-gram 모델 데이터, 빈도 데이터, 문맥 빈도 등)에 단어들을 연관시키도록 구성될 수 있다.
특정 도메인 기반의 언어 모델(114-11)은 상기 언어 모델 생성부(114-13)로부터 생성될 수 있으며, 화상 회의 및 강연에서 다루는 특정 주제와 관련된 단어 후보들을 서로에 대해 등급을 매기고 주어진 교정 어휘 후보에 내에서 가장 적합한 교정 어휘를 선택하는데 사용될 수 있는 확률 및/또는 다른 적절한 점수 데이터(예를 들어, 조건부 확률, 점수, 단어 계수, n-gram 모델 데이터, 빈도 데이터, 문맥 빈도 등)에 단어들을 연관시키도록 구성될 수 있다.
상기 교정 어휘 결정부(114-5)는 아래의 수학식 2를 통해 교정 어휘 후보 중에서 교정 어휘를 결정하기 교정 어휘 결정 지수를 결정할 수 있다.
Figure pat00002
여기서, 문맥빈도1은 상기 특정 도메인 기반의 언어 모델(114-11)을 참조하여, 상기 교정 어휘 후보에 포함된 각 교정 어휘에 대한 문맥빈도이고, 상기 문맥빈도2는 상기 일반 도메인 기반의 언어 모델(130)을 참조하여, 상기 교정 어휘 후보에 포함된 각 교정 어휘에 대한 문맥빈도이다. 상기 w4는 교정 어휘 결정 지수를 계산하기 위해, 부여되는 가중치로서, 화상 회의 또는 강연의 특성을 고려하여, 상기 특정 도메인 기반의 언어 모델(114-11) 기반의 문맥 빈도가 상기 일반 도메인 기반의 언어 모델(140) 기반의 문맥 빈도보다 높게 설정될 수 있다.
위와 같은 수학식 2에 따라 교정 어휘 후보에서 가장 적합한 교정 어휘가 결정되면, 상기 오류 어휘가 상기 결정된 교정 어휘로 복구된 문자열이 도 1에 도시한 응용 장치(200, 도 1에 도시함)로 입력된다.
한편, 위의 수학식 2의 문맥 빈도는 교정 어휘 후보에 내에서 가장 적합한 교정 어휘를 선택하는데 사용될 수 있는 확률, 조건부 확률, 점수, 단어 계수, n-gram 모델 데이터, 빈도 데이터 등의 용어로 대체될 수 있다.
도 4는 본 발명의 일 실시 예에 따른 음성 인식 오류 교정 방법을 나타내는 순서도로서, 도 1 내지 도 3에서 설명한 내용과 중복된 내용은 간략히 설명하거나 생략하기로 한다.
도 4를 참조하면, 먼저, 단계 S410에서, 특정 주제와 관련된 화상 회의 및 강연에서 이루어지는 발화자의 음성에 대해 음성 인식을 수행하는 과정이 수행된다.
이어, 단계 S420에서, 음성 인식을 수행한 결과에 따라 음성 인식된 어휘가 음성 인식 오류가 발생한 오류 어휘인 지를 판단하는 과정이 수행된다. 판단 과정은, 전술한 수학식 1에 따라 계산된 어류 어휘의 음성 인식 오류치(E)와 임계치를 비교한 결과를 토대로 판단할 수 있다.
이어, 단계 S430에서, 음성 인식된 어휘가 오류 어휘로 확인되면, 단계 S440으로 진행하고, 음성 인식된 어휘가 오류 어휘가 아닌 것으로 확인되면, 단계 S410 이전으로 돌아가 S410 내지 S420를 다시 반복 수행한다.
음성 인식된 어휘가 오류 어휘로 확인된 경우, 단계 S440에서, 상기 오류 어휘에 대해 어휘 발음 사전(130)을 참조하여, 교정 어휘 후보(또는 정답 어휘 후보)를 생성하는 과정이 수행된다.
이어, 단계 S450에서, 일반 도메인 기반의 언어 모델(140)과 추가로 특정 도메인(특정 주제) 기반의 언어 모델(114-11)을 참조하여, 상기 생성된 교정 어휘 후보 중에서 교정 어휘를 결정하는 과정이 수행됨으로써, 음성 인식 오류 교정 방법과 관련된 일련의 모든 과정이 종료된다.
이상에서 본 발명에 대하여 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 워드 임베딩 기법에 따라 벡터 공간에 사상된 현재 어휘의 위치와 이전 어휘의 위치 사이의 거리값을 이용하여, 상기 현재 어휘가 음성 인식 오류가 발생한 오류 어휘인지를 결정하는 단계;
    상기 현재 어휘가 오류 어휘로 결정된 경우, 어휘 발음 사전을 참조하여, 상기 결정된 오류 어휘의 발음과 유사한 발음을 갖는 교정 어휘 후보를 생성하는 단계; 및
    일반 도메인 기반의 언어 모델과 특정 도메인 기반의 언어 모델을 참조하여, 상기 생성된 교정 어휘 후보에서 상기 오류 어휘가 복구된 교정 어휘를 결정하는 단계
    를 포함하는 음성 인식 오류 교정 방법.
KR1020160161799A 2016-11-30 2016-11-30 음성 인식 오류 교정 방법 KR20180062003A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160161799A KR20180062003A (ko) 2016-11-30 2016-11-30 음성 인식 오류 교정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160161799A KR20180062003A (ko) 2016-11-30 2016-11-30 음성 인식 오류 교정 방법

Publications (1)

Publication Number Publication Date
KR20180062003A true KR20180062003A (ko) 2018-06-08

Family

ID=62600571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160161799A KR20180062003A (ko) 2016-11-30 2016-11-30 음성 인식 오류 교정 방법

Country Status (1)

Country Link
KR (1) KR20180062003A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689881A (zh) * 2018-06-20 2020-01-14 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
WO2020013428A1 (ko) * 2018-07-13 2020-01-16 삼성전자 주식회사 개인화 asr 모델을 생성하는 전자 장치 및 이를 동작하는 방법
CN111079450A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
CN111508484A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 语音数据的处理方法及装置
KR102149541B1 (ko) * 2019-11-28 2020-08-28 (주)위세아이텍 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법
CN112399201A (zh) * 2020-10-09 2021-02-23 腾讯科技(深圳)有限公司 一种视频时效确定方法、装置、电子设备和介质
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
KR102374405B1 (ko) 2021-06-28 2022-03-15 주식회사 무하유 Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법
CN114495917A (zh) * 2021-12-24 2022-05-13 贝壳找房网(北京)信息技术有限公司 语音标注方法、装置、计算机程序产品及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
CN110689881B (zh) * 2018-06-20 2022-07-12 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
CN110689881A (zh) * 2018-06-20 2020-01-14 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
WO2020013428A1 (ko) * 2018-07-13 2020-01-16 삼성전자 주식회사 개인화 asr 모델을 생성하는 전자 장치 및 이를 동작하는 방법
CN111508484A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 语音数据的处理方法及装置
CN111508484B (zh) * 2019-01-31 2024-04-19 阿里巴巴集团控股有限公司 语音数据的处理方法及装置
KR102149541B1 (ko) * 2019-11-28 2020-08-28 (주)위세아이텍 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법
CN111079450A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
US11409968B2 (en) 2019-12-20 2022-08-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Language conversion method and apparatus based on syntactic linearity, and non-transitory computer-readable storage medium
CN112399201A (zh) * 2020-10-09 2021-02-23 腾讯科技(深圳)有限公司 一种视频时效确定方法、装置、电子设备和介质
CN112399201B (zh) * 2020-10-09 2023-11-14 腾讯科技(深圳)有限公司 一种视频时效确定方法、装置、电子设备和介质
KR102374405B1 (ko) 2021-06-28 2022-03-15 주식회사 무하유 Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법
KR20230001496A (ko) 2021-06-28 2023-01-04 주식회사 무하유 Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법
CN114495917A (zh) * 2021-12-24 2022-05-13 贝壳找房网(北京)信息技术有限公司 语音标注方法、装置、计算机程序产品及存储介质

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
KR20180062003A (ko) 음성 인식 오류 교정 방법
Kim et al. Two-stage multi-intent detection for spoken language understanding
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
CN109754809B (zh) 语音识别方法、装置、电子设备及存储介质
CN108899013B (zh) 语音搜索方法、装置和语音识别***
US9558741B2 (en) Systems and methods for speech recognition
US11580145B1 (en) Query rephrasing using encoder neural network and decoder neural network
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
CN114580382A (zh) 文本纠错方法以及装置
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
US6763331B2 (en) Sentence recognition apparatus, sentence recognition method, program, and medium
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US10152298B1 (en) Confidence estimation based on frequency
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
US11907665B2 (en) Method and system for processing user inputs using natural language processing
US20150178274A1 (en) Speech translation apparatus and speech translation method
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
US10614170B2 (en) Method of translating speech signal and electronic device employing the same
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
Sun et al. Learning OOV through semantic relatedness in spoken dialog systems.
US20220277732A1 (en) Method and apparatus for training speech recognition model, electronic device and storage medium