KR102396983B1

KR102396983B1 - 문법 교정 방법 및 장치

Info

Publication number: KR102396983B1
Application number: KR1020150000166A
Authority: KR
Inventors: 최희열
Original assignee: 삼성전자주식회사
Priority date: 2015-01-02
Filing date: 2015-01-02
Publication date: 2022-05-12
Also published as: US20160196257A1; KR20160083706A; US10467340B2

Abstract

문법 교정 기법이 개시된다. 일 실시예에 따른 문법 교정 기법은 음성 인식을 통하여 생성된 문장을 수신하고, 수신된 문장의 음성 인식 결과와 관련된 정보에 기초하여 해당 문장의 문법을 교정한다.

Description

문법 교정 방법 및 장치{METHOD FOR CORRECTING GRAMMAR AND APPARATUS THEREOF}

아래 실시예들은 문법 교정 방법 및 장치에 관한 것이다.

일반적으로, 음성 인식 시스템에 적용되는 현재의 음성 인식 기법은 기술적으로 완벽하지 않으며, 노이즈 등의 다양한 요인으로 인하여 필연적인 인식 오류를 가지게 된다. 이로 인하여, 음성 인식 결과 생성된 텍스트에는 문법적 오류가 포함될 수 있다.

음성 인식 결과 생성된 텍스트에 포함된 문법적 오류는 문법적 오류를 교정하는 일반적인 기법들을 통하여 교정될 수 있다. 다만, 문법적 오류를 교정하는 일반적인 기법들은 주어진 텍스트만 고려하여 교정을 수행하므로, 최종적으로 실제 음성과 상이한 음성 인식 결과가 도출될 수 있다.

일 측에 따른 문법 교정 방법은 음성 인식을 통하여 생성된 문장을 수신하는 단계; 상기 문장의 음성 인식 결과와 관련된 정보를 수신하는 단계; 및 상기 정보에 기초하여 상기 문장의 문법을 교정하는 단계를 포함한다.

상기 정보는 상기 문장 내 단어들의 인식 신뢰도들을 포함할 수 있다. 상기 정보는 상기 문장의 발음과 관련된 인식 신뢰도 및 상기 문장의 의미와 관련된 인식 신뢰도 중 적어도 하나에 기초하여 결정될 수 있다. 상기 정보는 상기 문장을 생성하기 위한 음성 모델(acoustic model) 및 언어 모델(language model) 중 적어도 하나에 기초하여 결정될 수 있다.

상기 교정하는 단계는 상기 문장의 문법을 검사함으로써, 상기 문장에 포함된 단어들 중 문법 오류와 관련된 복수의 후보 단어들을 검출하는 단계; 상기 정보에 기초하여 상기 복수의 후보 단어들 중 적어도 하나의 후보 단어를 선택하는 단계; 및 상기 선택된 적어도 하나의 후보 단어를 교정하는 단계를 포함할 수 있다.

상기 선택하는 단계는 상기 복수의 후보 단어들 중 인식 신뢰도가 가장 낮은 후보 단어를 선택하는 단계를 포함할 수 있다. 상기 복수의 후보 단어들은 문법적으로(grammatically) 서로 연관될 수 있다.

상기 문법 교정 방법은 음성 모델 및 언어 모델에 기초하여 음성을 인식함으로써, 상기 문장을 생성하는 단계를 더 포함할 수 있다.

일 측에 따른 문법 교정 장치는 음성 인식 결과에 해당하는 문장의 문법을 검사하는 검사부; 및 상기 문장 내 단어들의 인식 신뢰도들에 기초하여 상기 문장의 문법을 교정하는 교정부를 포함한다.

상기 검사부는 상기 문장에 포함된 단어들 중 문법 오류와 관련된 복수의 후보 단어들을 검출할 수 있다. 상기 복수의 후보 단어들은 문법적으로 서로 연관될 수 있다.

상기 교정부는 상기 인식 신뢰도들에 기초하여 문법 오류와 관련된 복수의 후보 단어들 중 적어도 하나의 후보 단어를 선택하고, 상기 선택된 적어도 하나의 후보 단어를 교정할 수 있다. 상기 교정부는 상기 복수의 후보 단어들 중 인식 신뢰도가 가장 낮은 후보 단어를 선택할 수 있다.

상기 인식 신뢰도들은 상기 문장의 발음과 관련된 인식 신뢰도 및 상기 문장의 의미와 관련된 인식 신뢰도 중 적어도 하나에 기초하여 결정될 수 있다. 상기 인식 신뢰도들은 음성 인식을 통하여 상기 문장을 생성하기 위한 음성 모델 및 언어 모델 중 적어도 하나에 기초하여 결정될 수 있다.

상기 문법 교정 장치는 음성 모델 및 언어 모델에 기초하여 음성을 인식하는 음성 인식부를 더 포함할 수 있다.

도 1은 일 실시예에 따른 문법 교정 시스템을 설명하는 도면.
도 2는 일 실시예에 따른 음성 인식 장치를 설명하는 도면.
도 3 및 도 4는 일 실시예에 따른 문법 교정 장치를 설명하는 도면.
도 5 내지 도 7은 음성 인식 결과와 관련된 정보에 기초하여 음성 인식된 문장의 문법이 교정되는 구체적인 실시예들을 설명하는 도면들.
도 8 및 도 9는 일 실시예에 따른 문법 교정 방법을 나타낸 동작 흐름도들.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 하기에서 설명될 실시예들은 음성 인식 기법에 적용될 수 있으며, 실시예들은 음성 인식 기법이 활용되는 스마트 폰, 태블릿 컴퓨터, 웨어러블 장치, 스마트 가전제품, 퍼스널 컴퓨터, 랩톱 컴퓨터, 의료 장치, 지능형 차량 제어 장치, 키오스크, 및 기타 컴퓨팅 장치 등 다양한 형태의 제품으로 구현될 수 있다.

도 1은 일 실시예에 따른 문법 교정 시스템을 설명하는 도면이다. 도 1을 참조하면, 일 실시예에 따른 문법 교정 시스템(100)은 음성 인식 장치(120) 및 문법 교정 장치(110)를 포함한다. 음성 인식 장치(120)는 음성을 인식하는 장치이다. 음성 인식 장치(120)는 음성 모델(131) 및 언어 모델(132)을 이용하여 사용자의 음성을 인식할 수 있다. 음성 인식 장치(120)는 음성 인식 결과에 해당하는 문장을 생성할 수 있다. 이하, 사용자의 음성은 '음성' 또는 '실제 음성'이라고 지칭될 수 있다.

문법 교정 장치(110)는 음성 인식을 통하여 생성된 문장의 문법을 교정하는 장치이다. 이하, 음성 인식을 통하여 생성된 문장은 '음성 인식된 문장'이라고 지칭될 수 있다. 문법 교정 장치(110)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.

문법 교정 장치(110)는 음성 인식된 문장을 다양한 방식으로 수신할 수 있다. 예를 들어, 문법 교정 장치(120)는 음성 인식 장치(120)와 유선 또는 무선으로 연결됨으로써, 음성 인식 장치(120)로부터 직접 음성 인식된 문장을 수신할 수 있다. 또는, 문법 교정 장치(120)는 인터넷 등 네트워크를 통하여 음성 인식된 문장을 수신할 수 있다. 음성 인식된 문장은 네트워크 내 서버에 저장되고, 문법 교정 장치(120)는 서버로부터 음성 인식된 문장을 수신할 수 있다. 또는, 문법 교정 장치(120)는 USB, 이동 단말 등 다양한 외부 기기로부터 음성 인식된 문장을 수신할 수 있다.

문법 교정 장치(110)는 음성 인식 결과와 관련된 정보에 기초하여 음성 인식된 문장의 문법을 교정할 수 있다. 음성 인식 결과와 관련된 정보는 음성 인식된 문장이 실제 음성에 일치하는 정도를 나타내는 정보를 포함할 수 있다. 예를 들어, 음성 인식 결과와 관련된 정보는 음성 인식된 문장이 실제 음성에 일치한다고 예측되는 정도를 나타낼 수 있다.

음성 인식 결과와 관련된 정보는 음성 인식 장치(120)에 의하여 생성될 수 있다. 예를 들어, 음성 인식 장치(120)는 음성 인식을 위한 디코딩 동작을 수행하면서, 음성 인식 결과와 관련된 정보를 생성할 수 있다. 음성 인식 장치(120)의 동작과 관련된 보다 상세한 사항들은 후술한다.

문법 교정 장치(110)는 음성 인식 결과와 관련된 정보를 다양한 방식으로 수신할 수 있다. 예를 들어, 문법 교정 장치(110)는 음성 인식된 문장을 수신하는 방식과 동일하게 음성 인식 결과와 관련된 정보를 수신할 수 있다. 또는, 문법 교정 장치(110)는 음성 인식된 문장을 수신하는 방식과 다른 방식으로 음성 인식 결과와 관련된 정보를 수신할 수도 있다.

문법 교정 장치(110)는 음성 인식된 문장의 문법을 검사함으로써, 음성 인식된 문장의 문법 오류를 검출할 수 있다. 예를 들어, 문법 교정 장치(110)는 음성 인식된 문장의 언어에 대응하는 형태론(morphology) 및/또는 구문론(syntax)를 이용하여, 음성 인식된 문장의 문법 오류를 검출할 수 있다. 형태론은 특정 언어에서 형태소(morpheme)들이 결합하여 단어를 형성하는 규칙이고, 구문론은 특정 언어에서 단어들이 결합하여 문장을 형성하는 규칙이다.

문법 교정 장치(110)는 음성 인식 결과와 관련된 정보에 기초하여 문법 오류를 교정할 수 있다. 문법 교정 장치(110)는 음성 인식된 문장의 문법을 교정함으로써, 최종 문장을 생성할 수 있다. 이처럼, 문법 교정 장치(110)는 음성 인식 과정에서 생성된 정보를 활용하여 음성 인식된 문장의 문법을 교정하는 기술을 제공할 수 있다. 이로 인하여, 최종 문장이 실제 음성에 일치하는 정도가 증가될 수 있다. 문법 교정 장치(110)의 동작과 관련된 보다 상세한 사항들은 후술한다.

도 2는 일 실시예에 따른 음성 인식 장치를 설명하는 도면이다. 도 2를 참조하면, 일 실시예에 따른 음성 인식 장치(120)는 특징 추출부(121), 음소 인식부(122), 및 디코딩부(123)를 포함한다. 특징 추출부(121), 음소 인식부(122), 및 디코딩부(123)는 각각 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.

특징 추출부(121)는 음성으로부터 특징들을 추출한다. 특징 추출부(121)는 LCP(Local Configuration Pattern) 기법, MFCC(Mel Frequency Cepstral Coefficient) 기법 등을 이용하여 음성으로부터 특징들을 추출할 수 있다.

음소 인식부(122)는 음성 모델(131)을 이용하여 특징들로부터 음소들을 인식한다. 음소는 언어의 음성체계에서 음성의 의미를 구별시키는 최소의 소리 단위이다. 음성 모델(131)은 DTW(Dynamic Time Warping) 기반 음성 모델, HMM(Hidden Markov Model) 기반 음성 모델 등을 포함할 수 있다. 일 예로, 음소 인식부(122)는 특징들에 기초하여, 다양한 음소 후보들 및 음소 후보들의 인식 신뢰도와 관련된 정보를 디코딩부(123)에 제공할 수 있다. 인식 신뢰도는 인식의 확신 정도로, 인식 신뢰도와 관련된 정보는 확률, 스코어 등 다양한 형태로 표현될 수 있다.

디코딩부(123)는 음성 모델(131) 및 언어 모델(132)를 이용하여 음성 인식된 문장을 생성할 수 있다. 디코딩부(123)는 음성 모델(131)에 기초하여, 음성 인식된 문장의 발음과 실제 음성의 발음이 일치하도록 음성 인식된 문장을 생성할 수 있다. 일 예로, 디코딩부(123)는 음소 인식부(122)로부터 다양한 음소 후보들 및 해당 후보들의 인식 신뢰도와 관련된 정보를 수신하고, 각 후보들의 인식 신뢰도와 관련된 정보에 기초하여 적절한 음소 후보들을 선택함으로써 음성 인식된 문장을 생성하기 위한 단어들을 생성할 수 있다.

디코딩부(123)는 언어 모델(132)에 기초하여, 음성 인식된 문장의 의미가 의미론(semantics)적으로 적합해지도록 음성 인식된 문장을 생성할 수 있다. 언어 모델(132)은 N-그램 언어 모델, 양 방향 회귀 신경망 언어 모델 등을 포함할 수 있다. 일 예로, 디코딩부(123)는 음성 모델(131)에 기초하여 생성된 단어들을 언어 모델(132)에 기초하여 적절히 조합함으로써, 음성 인식된 문장을 생성할 수 있다.

디코딩부(123)는 음성 인식 결과와 관련된 정보를 출력할 수 있다. 음성 인식 결과와 관련된 정보는 음성 인식된 문장에 포함된 단어들의 인식 신뢰도들을 포함할 수 있다. 인식 신뢰도는 확률, 스코어 등 다양한 형태로 표현될 수 있다.

예를 들어, 음성 인식된 문장에 포함된 각 단어들의 인식 신뢰도는 해당 단어가 실제 음성에 일치하는 정도를 나타낼 수 있다. 이 경우, 특정 단어의 인식 신뢰도가 높을수록, 해당 단어가 실제 음성에 일치하는 정도가 증가할 수 있다.

또는, 음성 인식된 문장에 포함된 각 단어들의 인식 신뢰도는 문장 내에서 해당 단어의 의미가 적절한 정도를 나타낼 수 있다. 이 경우, 특정 단어의 인식 신뢰도가 높을수록, 문장 내에서 해당 단어의 의미가 적절한 정도가 증가할 수 있다.

또는, 음성 인식된 문장에 포함된 각 단어들의 인식 신뢰도는 해당 단어가 실제 음성에 일치하는 정도와 문장 내에서 해당 단어의 의미가 적절한 정도를 종합적으로 나타낼 수도 있다. 이 경우, 특정 단어의 인식 신뢰도가 높을수록, 해당 단어가 실제 음성에 일치하는 정도 및 문장 내에서 해당 단어의 의미가 적절한 정도가 종합적으로 증가할 수 있다.

음성 인식 결과와 관련된 정보는 음성 인식된 문장의 발음과 관련된 인식 신뢰도(이하, '발음 관련 인식 신뢰도'라고 함) 및/또는 음성 인식된 문장의 의미와 관련된 인식 신뢰도(이하, '의미 관련 인식 신뢰도'라고 함)에 기초하여 결정될 수 있다. 음성 인식된 문장의 발음 관련 인식 신뢰도는 해당 단어가 실제 음성에 일치하는 정도를 나타내고, 음성 인식된 문장의 의미 관련 인식 신뢰도는 문장 내에서 해당 단어의 의미가 적절한 정도를 나타낼 수 있다.

음성 인식 결과와 관련된 정보는 음성 모델(131) 및/또는 언어 모델(132)에 기초하여 결정될 수 있다. 예를 들어, 음성 인식된 문장의 발음 관련 인식 신뢰도는 음성 모델(131)에 기초하여 결정될 수 있고, 음성 인식된 문장의 의미 관련 인식 신뢰도는 언어 모델(132)에 기초하여 결정될 수 있다.

도 3 및 도 4는 일 실시예에 따른 문법 교정 장치를 설명하는 도면이다. 도 3을 참조하면, 일 실시예에 따른 문법 교정 장치(110)는 제1 수신부(111), 제2 수신부(112), 및 문법 교정부(113)를 포함한다. 제1 수신부(111), 제2 수신부(112), 및 문법 교정부(113)는 소프트웨어 모듈, 하드웨어 모듈, 및 이들의 다양한 조합으로 구현될 수 있다.

제1 수신부(111)는 음성 인식된 문장을 수신하고, 제2 수신부(112)는 음성 인식 결과와 관련된 정보를 수신한다. 문법 교정부(113)는 음성 인식 결과와 관련된 정보에 기초하여, 음성 인식된 문장의 문법을 교정할 수 있다.

도 4를 참조하면, 문법 교정부(113)는 검사부(114), 선택부(115), 및 교정부(116)를 포함한다. 문법 교정부(113)는 검사부(114), 선택부(115), 및 교정부(116)는 소프트웨어 모듈, 하드웨어 모듈, 및 이들의 다양한 조합으로 구현될 수 있다.

검사부(114)는 음성 인식된 문장의 문법을 검사함으로써, 음성 인식된 문장에 포함된 단어들 중 문법 오류(grammar error)와 관련된 복수의 후보 단어들을 검출할 수 있다. 복수의 후보 단어들은 문법적으로(grammatically) 서로 연관될 수 있다. 예를 들어, 음성 인식된 문장에 단수형 명사와 복수형 동사가 서로 연관되어 있는 문법 오류가 존재할 수 있다. 이 경우, 검사부(114)는 문법 오류와 관련된 복수의 후보 단어들로 해당 단수형 명사와 해당 복수형 동사를 검출할 수 있다.

선택부(115)는 음성 인식 결과와 관련된 정보에 기초하여, 복수의 후보 단어들 중 적어도 하나의 후보 단어를 선택할 수 있다. 선택부(115)는 음성 인식 결과에 관련된 정보에 기초하여, 복수의 후보 단어들 중 인식 신뢰도가 가장 낮은 후보 단어를 선택할 수 있다.

선택부(115)는 복수의 후보 단어들 중 실제 음성에 일치하는 정도가 가장 낮은 후보 단어를 선택할 수 있다. 또는, 선택부(115)는 복수의 후보 단어들 중 문장 내에서 의미가 적절한 정도가 가장 낮은 후보 단어를 선택할 수 있다. 또는, 선택부(115)는 복수의 후보 단어들 중 실제 음성에 일치하는 정도 및 문장 내에서 의미가 적절한 정도가 종합적으로 가장 낮은 후보 단어를 선택할 수 있다.

예를 들어, 검사부(114)에 의하여 단수형 명사와 복수형 동사가 검출되는 경우, 선택부(115)는 단수형 명사의 인식 신뢰도와 복수형 동사의 인식 신뢰도를 비교할 수 있다. 선택부(115)는 단수형 명사와 복수형 동사 중 상대적으로 더 낮은 인식 신뢰도를 가지는 후보 단어를 선택할 수 있다.

교정부(116)는 선택부(115)에 의하여 선택된 적어도 하나의 후보 단어를 교정할 수 있다. 예를 들어, 교정부(116)는 음성 인식된 문장의 언어에 대응하는 형태론 및/또는 구문론을 이용하여, 선택된 적어도 하나의 후보 단어를 교정할 수 있다.

예를 들어, 선택부(115)에 의하여 단수형 명사가 선택된 경우, 교정부(116)는 단수형 명사를 복수형 명사로 교정할 수 있다. 또는, 선택부(115)에 의하여 복수형 동사가 선택된 경우, 교정부(116)는 복수형 동사를 단수형 동사로 교정할 수 있다.

선택부(115)에 의하여 선택된 후보 단어는 인식 신뢰도가 낮으므로, 교정부(116)는 인식 신뢰도가 낮은 후보 단어를 교정함으로써 음성 인식된 문장의 문법 오류를 해소할 수 있다. 이로 인하여, 실시예들은 음성 인식의 정확도를 향상시키는 기술을 제공할 수 있다.

도 5 내지 도 7은 음성 인식 결과와 관련된 정보에 기초하여 음성 인식된 문장의 문법이 교정되는 구체적인 실시예들을 설명하는 도면들이다. 도 5를 참조하면, 실제 음성(510)은 "the dogs eat apples"일 수 있다. 이 때, 노이즈(511) 등 다양한 요인들로 인하여, 인식 오류가 발생될 수 있다. 예를 들어, 실제 음성(510) 내 'eat'이 노이즈(511)로 인하여 'eats'로 인식될 수 있다. 이 경우, 음성 인식된 문장(520)은 "the dogs eats apples"일 수 있다.

음성 인식 결과와 관련된 정보(530)는 음성 인식된 문장(520)에 포함된 각 단어들의 인식 신뢰도를 포함할 수 있다. 음성 인식된 문장(520)의 'eats'가 인식될 때 노이즈(511)가 있었으므로, 'eats'의 인식 신뢰도는 다른 단어들의 인식 신뢰도들에 비하여 낮을 수 있다.

검사부(114)는 음성 인식된 문장(520)의 문법을 검사함으로써, 문법 오류와 관련된 후보 단어들을 검출할 수 있다. 예를 들어, 검사부(114)는 문법 오류와 관련된 제1 후보 단어로 'dogs'를 검출하고, 문법 오류와 관련된 제2 후보 단어로 'eats'를 검출할 수 있다.

선택부(115)는 음성 인식 결과와 관련된 정보(530)에 기초하여, 후보 단어들 중 교정 대상 단어를 선택할 수 있다. 예를 들어, 선택부(115)는 제1 후보 단어인 'dogs'의 인식 신뢰도와 제2 후보 단어인 'eats'의 인식 신뢰도를 비교할 수 있다. 제1 후보 단어인 'dogs'의 인식 신뢰도는 80%이고, 제2 후보 단어인 'eats'의 인식 신뢰도는 30%이므로, 선택부(115)는 교정 대상 단어로 제2 후보 단어인 'eats'를 선택할 수 있다.

교정부(116)는 선택부(115)에 의하여 선택된 후보 단어를 교정할 수 있다. 예를 들어, 교정부(116)는 제2 후보 단어인 'eats'를 'eat'으로 교정할 수 있다. 교정부(116)는 최종 문장으로 "the dogs eat apples"를 출력할 수 있다.

도 6a를 참조하면, 실제 음성(610)은 "she loves her cat"일 수 있다. 이 때, 노이즈(611), 노이즈(612) 등 다양한 요인들로 인하여, 인식 오류가 발생될 수 있다. 예를 들어, 노이즈(611)은 경미한 잡음에 해당하고, 노이즈(612)는 큰 소음에 해당할 수 있다. 이 경우, 실제 음성(610) 내 'she'의 인식 신뢰도가 노이즈(611)로 인하여 낮아질 수 있다. 또한, 실제 음성(610) 내 'her'가 노이즈(612)로 인하여 'his'로 인식될 수 있다. 음성 인식된 문장(620)은 "she loves his cat"일 수 있다.

음성 인식 결과와 관련된 정보(630)는 음성 인식된 문장(620)에 포함된 각 단어들의 인식 신뢰도를 포함할 수 있다. 음성 인식된 문장(620)의 'she'가 인식될 때 경미한 잡음에 해당하는 노이즈(611)가 있었으므로, 'she'의 인식 신뢰도는 정상적으로 인식된 다른 단어들의 인식 신뢰도들에 비하여 낮을 수 있다. 또한, 음성 인식된 문장(620)의 'his'가 인식될 때 큰 소음에 해당하는 노이즈(612)가 있었으므로, 'his'는 가장 낮은 인식 신뢰도를 가질 수 있다.

검사부(114)는 음성 인식된 문장(620)의 문법을 검사함으로써, 문법 오류와 관련된 후보 단어들을 검출할 수 있다. 예를 들어, 검사부(114)는 문법 오류와 관련된 제1 후보 단어로 'she'를 검출하고, 문법 오류와 관련된 제2 후보 단어로 'his'를 검출할 수 있다.

문법적 오류를 교정하는 일반적인 기법에 의하면, 문법 교정으로 인하여 실제 음성과 상이한 결과가 도출될 수 있다. 예를 들어, 도 6b를 참조하면, "she loves his cat"의 문법 오류를 교정하는 방식은 두 가지가 있다. 첫 번째로, 'she'를 'he'로 교정하는 방식이다. 두 번째로, 'his'를 'her'로 교정하는 방식이다.

문법적 오류를 교정하는 일반적인 기법에 의하면, 교정 전 단어와 교정 후 단어 사이의 발음 차이에 기초하여, 문법 오류를 교정하는 방식이 결정될 수 있다. 예를 들어, 'she'와 'he' 사이의 발음 차이는 'his'와 'her' 사이의 발음 차이보다 더 크므로, 'she'를 'he'로 교정하는 방식이 선택될 수 있다. 이 경우, "she loves his cat"은 "he loves his cat"으로 교정될 수 있다.

반면, 다시 도 6a를 참조하면, 선택부(115)는 음성 인식 결과와 관련된 정보(630)에 기초하여, 후보 단어들 중 교정 대상 단어를 선택할 수 있다. 예를 들어, 선택부(115)는 제1 후보 단어인 'she'의 인식 신뢰도와 제2 후보 단어인 'his'의 인식 신뢰도를 비교할 수 있다. 제1 후보 단어인 'she'의 인식 신뢰도는 60%이고, 제2 후보 단어인 'his'의 인식 신뢰도는 20%이므로, 선택부(115)는 교정 대상 단어로 제2 후보 단어인 'his'를 선택할 수 있다.

교정부(116)는 선택부(115)에 의하여 선택된 후보 단어를 교정할 수 있다. 예를 들어, 교정부(116)는 제2 후보 단어인 'his'를 'her'로 교정할 수 있다. 교정부(116)는 최종 문장으로 "she loves her cat"을 출력할 수 있다.

도 7을 참조하면, 실제 음성(710)은 "the fragile goods should be delivered carefully"일 수 있다. 이 때, 다양한 요인들로 인하여 인식 오류가 발생될 수 있다. 예를 들어, 실제 음성(710)에서 'goods' 뒤에 'should'가 연이어 발음됨으로써, 실제 음성(710) 내 'goods'가 'good'으로 인식될 수 있다. 이 경우, 음성 인식된 문장(720)은 "the fragile good should be delivered carefully"일 수 있다.

음성 인식 결과와 관련된 정보(730)는 음성 인식된 문장(720)에 포함된 각 단어들의 인식 신뢰도를 포함할 수 있다. 실제 음성(710) 내 'goods'가 'good'으로 인식되었으나, 음성 인식된 문장(720) 내 'good'의 발음 관련 인식 신뢰도는 다른 단어들의 발음 관련 인식 신뢰도들에 비하여 크게 낮지 않을 수 있다. 반면, 음성 인식된 문장(720) 내 'good'의 의미 관련 인식 신뢰도는 다른 단어들의 의미 관련 인식 신뢰도들에 비하여 크게 낮을 수 있다. 이로 인하여, 음성 인식된 문장(720) 내 'good'은 종합적으로 가장 낮은 인식 신뢰도를 가질 수 있다.

검사부(114)는 음성 인식된 문장(720)의 문법을 검사함으로써, 문법 오류와 관련된 후보 단어들을 검출할 수 있다. 예를 들어, 검사부(114)는 문법 오류와 관련된 제1 후보 단어로 'good'을 검출하고, 문법 오류와 관련된 제2 후보 단어로 'need'를 검출할 수 있다.

선택부(115)는 음성 인식 결과와 관련된 정보(730)에 기초하여, 후보 단어들 중 교정 대상 단어를 선택할 수 있다. 예를 들어, 선택부(115)는 제1 후보 단어인 'good'의 인식 신뢰도와 제2 후보 단어인 'need'의 인식 신뢰도를 비교할 수 있다. 제1 후보 단어인 'good'의 인식 신뢰도는 30%이고, 제2 후보 단어인 'need'의 인식 신뢰도는 75%이므로, 선택부(115)는 교정 대상 단어로 제1 후보 단어인 'good'을 선택할 수 있다.

교정부(116)는 선택부(115)에 의하여 선택된 후보 단어를 교정할 수 있다. 예를 들어, 교정부(116)는 제1 후보 단어인 'good'을 'goods'로 교정할 수 있다. 교정부(116)는 최종 문장으로 "the fragile goods should be delivered carefully"를 출력할 수 있다.

도 8 및 도 9는 일 실시예에 따른 문법 교정 방법을 나타낸 동작 흐름도들이다. 도 8을 참조하면, 일 실시예에 따른 문법 교정 방법은 음성 인식을 통하여 생성된 문장을 수신하는 단계(810), 음성 인식된 문장의 음성 인식 결과와 관련된 정보를 수신하는 단계(820), 및 음성 인식 결과와 관련된 정보에 기초하여 음성 인식된 문장의 문법을 교정하는 단계(830)를 포함한다.

도 9를 참조하면, 음성 인식 결과와 관련된 정보에 기초하여 음성 인식된 문장의 문법을 교정하는 단계(830)는 단계(910) 내지 단계(950)을 포함할 수 있다. 단계(910)에서 음성 인식된 문장의 문법이 검사될 수 있다. 문법 검사 결과에 기초하여, 단계(920)에서 음성 인식된 문장에 문법 오류가 존재하는지 여부가 판단될 수 있다. 문법 오류가 존재하지 않는다는 판단에 따라, 교정 없이 동작이 종료될 수 있다.

문법 오류가 존재한다는 판단에 따라, 단계(930)에서 복수의 후보 단어들이 문법적으로 연관되는지 여부가 판단될 수 있다. 복수의 후보 단어들이 문법적으로 연관되지 않는다는 판단에 따라, 단계(950)에서 문법 오류와 관련된 단일 단어가 교정될 수 있다. 예를 들어, "she love her cat"라는 문장이 인식된 경우, 문법 오류와 관련된 단어는 단일 단어인 'love'일 수 있다. 이 경우, 'love'가 'loves'로 교정될 수 있다.

복수의 후보 단어들이 문법적으로 연관된다는 판단에 따라, 단계(940)에서 교정할 후보 단어가 선택될 수 있다. 이 경우, 단계(950)에서 선택된 후보 단어가 교정될 수 있다. 도 8 및 도 9에 도시된 각 단계들에는 도 1 내지 도 7을 통하여 전술한 사항들이 그대로 적용되므로, 보다 상세한 설명은 생략한다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 인식을 통하여 생성된 문장을 수신하는 단계;
상기 문장의 음성 인식 결과와 관련된 정보-상기 정보는 상기 음성 인식과 관련하여 상기 문장 내 각 단어들의 인식 신뢰도들을 포함함-를 수신하는 단계; 및
상기 정보에 기초하여 상기 문장의 문법을 교정하는 단계
를 포함하고,
상기 정보에 기초하여 상기 문장의 문법을 교정하는 단계는,
상기 문장의 문법을 검사함으로써, 상기 문장에 포함된 단어들 중 문법 오류-상기 문법 오류는 음성 인식과 관련됨-와 관련된 복수의 후보 단어들을 검출하는 단계;
상기 정보에 기초하여 상기 문법 오류가 상기 복수의 후보 단어들에 기초한 것으로 판단되면, 상기 복수의 후보 단어들 중 수정이 필요한 적어도 하나의 후보 단어를 선택하는 단계; 및
상기 선택된 적어도 하나의 후보 단어를 제외한 나머지 하나 이상의 후보 단어들을 기반으로 상기 후보 단어를 교정함으로써 상기 음성 인식의 최종 문장을 생성하는 단계
를 포함하고,
상기 각 단어들의 인식 신뢰도들은,
상기 문장 내 각 단어들의 발음에 대한 인식 신뢰도 및 상기 문장의 의미와 관련된 상기 각 단어들의 인식 신뢰도를 포함하는,
문법 교정 방법.
삭제
삭제
제1항에 있어서,
상기 정보는
상기 문장을 생성하기 위한 음성 모델(acoustic model) 및 언어 모델(language model) 중 적어도 하나에 기초하여 결정되는, 문법 교정 방법.
삭제
삭제
제1항에 있어서,
상기 선택하는 단계는
상기 복수의 후보 단어들 중 인식 신뢰도가 가장 낮은 후보 단어를 선택하는 단계
를 포함하는, 문법 교정 방법.
제1항에 있어서,
음성 모델 및 언어 모델에 기초하여 음성을 인식함으로써, 상기 문장을 생성하는 단계
를 더 포함하는, 문법 교정 방법.
하드웨어와 결합되어 제1항, 제4항, 제7항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
음성 인식 결과에 해당하는 문장의 문법을 검사함으로써 상기 문장에 포함된 단어들 중 문법 오류-상기 문법 오류는 음성 인식과 관련됨-와 관련된 복수의 후보 단어들을 검출하는 검사부; 및
상기 문장 내 각 단어들의 인식 신뢰도들에 기초하여 상기 문법 오류가 상기 복수의 후보 단어들에 기초한 것으로 판단되면, 상기 복수의 후보 단어들 중 수정이 필요한 적어도 하나의 후보 단어를 선택하고, 상기 선택된 적어도 하나의 후보 단어를 제외한 나머지 하나 이상의 후보 단어들을 기반으로 상기 후보 단어를상기 문장의 문법을 교정함으로써 상기 음성 인식의 최종 문장을 생성하는 교정부
를 포함하고,
상기 각 단어들의 인식 신뢰도들은,
상기 문장 내 각 단어들의 발음에 대한 인식 신뢰도 및 상기 문장의 의미와 관련된 상기 각 단어들의 인식 신뢰도를 포함하는,
문법 교정 장치.
삭제
제10항에 있어서,
상기 복수의 후보 단어들은 문법적으로 서로 연관되는, 문법 교정 장치.
삭제
제10항에 있어서,
상기 교정부는
상기 복수의 후보 단어들 중 인식 신뢰도가 가장 낮은 후보 단어를 선택하는, 문법 교정 장치.
삭제
제10항에 있어서,
상기 인식 신뢰도들은
음성 인식을 통하여 상기 문장을 생성하기 위한 음성 모델 및 언어 모델 중 적어도 하나에 기초하여 결정되는, 문법 교정 장치.
제10항에 있어서,
음성 모델 및 언어 모델에 기초하여 음성을 인식하는 음성 인식부
를 더 포함하는, 문법 교정 장치.