KR100441181B1

KR100441181B1 - 음성인식방법및장치

Info

Publication number: KR100441181B1
Application number: KR1019960011331A
Authority: KR
Inventors: 야수하루 아사노; 히로아키 오가와; 야수히코 카토; 테츠야 카가미; 마사오 와타리; 마코토 아카바네; 카즈오 이시이; 미유키 다나카; 히로시 카쿠다
Original assignee: 소니 가부시끼 가이샤
Priority date: 1995-04-07
Filing date: 1996-04-08
Publication date: 2005-04-06
Also published as: EP0736857A3; EP0736857B1; EP0736857A2; CN1140870A; US5848389A; JP3741156B2; KR960038734A; DE69625950D1; DE69625950T2; JPH08278794A

Abstract

문장 음성 인식을 행하는 음성의 인식 장치에 있어서, 입력된 음성을 음향 분석하고 입력 음성의 특징 파라미터를 추출하는 추출 수단과, 추출 수단에서 출력되는 특징 파라미터에 기초하여 입력 음성의 인식을 행하고 복수의 인식 결과 후보를 구하는 인식 수단과, 복수의 용례를 기억하고 있는 용례 기억 수단과, 복수의 인식 결과 후보 각각과 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고 그 유사도에 기초하여 음성의 인식 결과를 구하는 계산 수단을 구비하며, 인식 수단은 단어 단위로 상기 입력 음성의 인식을 행하는 음성 인식 장치를 제공한다.

Description

음성 인식 방법 및 장치

(산업상의 이용분야)

본 발명은 예컨대 음성을 인식하고 그 인식 결과의 언어를 다른 언어로 번역하는 경우 등에 이용하기에 적합한 음성 인식 장치 및 음성 인식 방법 및 음성 번역 장치에 관한 것이다.

(종래의 기술)

제 1 도는 종래의 문장 음성(文音聲) 인식(회화 음성 인식, 또는 음성 이해)을 행하는 음성 인식 장치의 일예의 구성을 도시하고 있다. 음성 입력부(1)는 그곳에 입력되는, 말하자면 공기의 파(波)인 음성을 전기적인 파인 음성 신호로 변환하는, 예컨대, 마이크 등과 그 마이크로부터 출력되는 음성 신호를 증폭하는 앰프 등으로 구성되어 있다. AD 변환부(2)는 음성 입력부(1)로부터 출력되는 아날로그 음성 신호를 소정의 클록의 타이밍으로 샘플링하고 양자화를 행하여, 디지털 음성 신호(디지털 데이터)로 변환하도록 이루어진다.

분석부(3)는 AD 변환부(2)에서 출력되는 음성 신호를 음향 분석하고, 이것에 의해서, 예컨대 소정의 대역마다의 음성의 파워나 선형 예측 계수(LDC), 캡스트럼(Cepstrum) 계수 등의 음성의 특징 파라미터를 추출하도록 되어 있다. 즉, 분석부(3)는 예컨대 필터 뱅크에 의해 음성 신호를 소정의 대역마다 필터링하고, 그 필터링 결과를 정류 평활화함으로써 소정의 대역마다의 음성의 파워를 구하도록 되어 있다. 또는, 분석부(3)는 입력된 음성에 대해서, 예컨대 선형 예측 분석 처리를 실시함으로써 선형 예측 계수를 구하고, 또 그 선형 예측 계수로부터 캡스트럼 계수를 구하도록 되어 있다.

분석부(3)에서 구해진 특징 파라미터는, 그대로 또는 그곳에서 필요에 따라 벡터 양자화되어 인식부(50)에 출력되도록 되어 있다.

인식부(50)는 분석부(3)로부터의 특징 파라미터(또는, 특징 파라미터를 벡터 양자화하여 얻어지는 심볼)에 기초하고, 예컨대 다이내믹 프로그래밍(DP) 매칭법이나 숨은 마코브 모델(HMM) 등의 음성 인식 알고리즘에 따라서 음성 인식을 행하도록 되어 있다. 여기서, 인식부(50)에서, 음운 단위에서의 음성 인식이 행해지는 경우, 그 결과 얻어지는 음성 인식 결과 후보로서의 음운의 후보(음운 후보)가 예컨대 래티스(격자형 데이터)의 형태로 파서부(51)에 출력된다(이 래티스의 형태로 출력되는 음운 후보를, 이하, 적당히 음운 후보 래티스라고 한다).

파서부(51)는 우선 단어(또는 형태소)의 색인(예컨대, 판독한다는 단어이면 「판독한다」라는 색인), 그 음운 정보(판독), 그 품사, 및 기타 필요한 정보가 등록되어 있는 단어 사전(52)을 참조하여, 인식부(50)로부터의 음운 후보 래티스에 포함되는 음운 후보를 조합해서 1 이상의 단어로 하고, 다시 그 단어를 1 이상 조합해서 단어 열(문장)을 작성한다. 그리고 이 단어 열에 대해서 소정의 파싱 알고리즘에 기초하여 문법 규칙 사전(53)에 등록되어 있는 문법 규칙을 적용한다. 파서부(51)는 인식부(50)로부터의 음운 후보 래티스로부터 작성 가능한 단어 열에 대해서 문법 규칙을 적용하는 것을 반복하고 문법 규칙에 가장 합치하는 단어 열, 즉, 문장을 문장 음성 인식 결과(또는 음성이해 결과)로서 출력하도록 되어 있다. 또한, 문법 규칙은 예컨대 음성 인식의 분야 등에 있어서의 전문가에 의해 작성된다.

이상과 같이 구성되는 음성 인식 장치에서는 음성 입력부(1)에 음성이 입력되면 그 음성은 음성 신호로서 AD 변환부(2)를 거쳐서 분석부(3)에 출력된다. 분석부(3)에서는 음성 신호가 음향 분석되고 음성의 특징 파라미터가 추출된다. 이 특징 파라미터는 인식부(50)에 공급되고 인식부(50)에서는 그 특징 파라미터를 이용하여 음소 단위에서의 음성 인식이 행해지고 그 결과 얻어지는 음운 후보 래티스가 파서부(51)에 출력된다. 파서부(51)에서는 단어 사전(52) 및 문법 규칙 사전(53)을 참조하여 인식부(50)로부터의 음운 후보 래티스로부터 얻어지는 단어 열이 문장 음성 인식(음성 이해)되고 그 인식 결과가 출력된다.

그런데, 파서부(51)에서 문장 음성 인식을 행하기 위한 파싱 알고리즘으로서는, 예컨대, 문맥 자유 문법에 기초하여, 해석 중에 복수의 가능성이 있는 경우에는 모든 가능성을 시험하고 도중 결과를 남기면서 병렬적으로 해석을 진행하는 방법(이와 같은 방법에 의해 파싱을 행하는 파서는 차트 파서라고 한다)이나, 문맥 자유 문법으로부터 해석에 필요한 정보를 미리 계산하고 LR 해석표라고 하는 표를 자동적으로 작성하고, 그것을 참조하면서 해석을 진행하는 방법(이와 같은 방법으로 파싱을 행하는 파서는 확장 LR 파서라고 한다) 등이 알려져 있다.

여기서, 상술한 LR 파서의 LR은 다음의 것을 의미한다 즉, LR 중 L은 Left-to-right의 약자로, 문장을 왼쪽에서 오른쪽 방향으로 주사하는 것을 의미한다. 또, R은 Rightmost derivation(가장 오른쪽 도출)의 약자로, 문맥 자유 문법의 재기록 규칙에 있어서 가장 오른쪽의 비종단 기호에 규칙을 적용하는 것을 의미한다. 또한, 문장을 왼쪽에서 오른쪽 방향으로 주사하는 동시에, 가장 오른쪽 도출의 역인 가장 왼쪽 도출을 행하는 파서도 있으며, 이와 같은 파서는 LL 파서라고 한다.

또, 예컨대 기따(北)의 「HMM 음운 인식과 확장 LR 구문 해석법을 이용하는 연속 음성 인식」, 정보처리 학회논문지, Vol.31, NO.3, pp 472-480(1990)이나 이토의 「확장 LR 구문 해석법을 이용한 연속 음성 인식」, 전자정보통신학회기술보고, SP90-74 등에서는 상술한 방법을 개량한 것이 제안되어 있다. 즉, 이것들에서는 파서부에 있어서 확장 LR 파서가 생기(生起)하는 음운열을 예측하고, 예측된 음운에 대해서 인식부에서 HMM에 의해 음운 조합을 행하는 방법이 제안되어 있으며, 이 방법에 의하면 인식 처리에 있어서의 계산량을 삭감할 수 있다.

또한, 기따의 「확률 문법을 사용한 음성 언어 처리」, 인공지능학회 언어· 음성 이해와 대화 처리 연구회, SIG-SLUD-9204-6에서는 확장 LR 파서에서 적용하는 문법 규칙에 규칙의 적용 확률 정보를 고려하는 방법이 제안되어 있다. 즉, 이 방법에서는 우선 문법 규칙으로 이용하는 문맥 자유 문법에 대해서 대량의 학습용 텍스트를 이용하여 각 생성 규칙의 적용 확률을 구하고, 그 문맥 자유 문법을 LR 해석표에 전개할 때 LR 해석표에 확률 정보도 표현하도록 하고, 확장 LR 파서에 의한 해석 도중에 생기 확률 계산을 행하도록 되어 있다. 이것에 의해, 출현 빈도가 높은 언어 표현에는 높은 확률 값이 얻어지고, 비문장(문법적으로 잘못된 문장)에는 매우 작은 확률 값이 얻어지게 되어 있다. 이 방법에 의하면 더 이상의 계산량의 삭감을 도모할 수 있다.

한편, 이상과 같은 방법에 대해서, 최초로 계산적으로 부하가 적은 정보를 이용하여 복수개의 가설을 구하고, 그 가설을 보다 고차원의 정보로 좁히는, 말하자면, 언어적인 제약을 2 단계로 나누어 행하는 방법이, 예컨대 "A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Continuous Speech Recognition", F.K.Soong and et.al., Proceedings of Speech and Natural Language Workshop, DARPA, pp.12-19,(1990)이나, "The N-best algorithm : An efficient and exact procedure for finding the N most likely sentence hypotheses" R.Schwartz and et.al., Proceedings of ICASSP 90, pp.81-84(1990) 등에 기재되어 있다.

이 방법에서는 우선 인식부에서 분석부의 분석 결과를 이용하여, 예컨대 HMM 등에 의해 인식 처리를 행할 때, 예컨대 바이그램(Bigram), 트리그램(trigram) 등의 통계적 언어 모델이나 유한 상태 네트워크 등을 이용하여 완만한 언어적 제약을 가한다. 바이그램, 트리그램은 예컨대 1차, 2차 마코브 과정의 모델이며, 음소, 음절, 단어 등의 연쇄 확률을 대량의 텍스트 데이터베이스를 기초로 하여 학습한 것이며, 자연 언어의 국소적인 성질을 정밀도 양호하게 근사할 수 있는 모델로서 알려져 있다.

그리고, 이와 같은 제약 하에서, 예컨대 공지의 비터비(Viterbi) 알고리즘을 이용한 빔서치 등에 의해 적당하게 가지치기를 행하고, 그 결과 남은 복수의 문장 후보를 출력한다. 그후, 그 복수의 문장 후보에 대해서 보다 정밀한 문법 규칙을 적용하여 문장 음성 인식(음성 이해)을 행한다.

그런데, 상술한 종래의 방법에 있어서, 파서부에서 이용하는 문법 규칙은 인간이 말하는 여러 가지 문장의 형태를 망라하도록 전문가가 작성하고 있는데, 이 규칙을 적절하게(정확한 문장 음성 인식을 행할 수 있도록) 기술하는 것은 매우 곤란했었다. 즉, 문법 규칙을 과도하게 엄밀히 하면 그 규칙에 합치하지 않는 발화(發話)는 모두 문장으로서 인식되지 않고, 역으로 문법을 과도하게 엄밀하지 않게 하면 문장으로서 구문적으로 의미를 이루지 않는(문법적으로 잘못된) 것이 인식 결과로 되는 과제가 있었다.

그래서, 파싱이 적절하게 이루어지지 않는 문장 예(文例)(발화)를 찾아내고, 그 문장 예에 기초하여 문법 규칙을 개선하는 일이 일반적으로 행해지고 있다. 그러나, 문법 규칙을 어떻게 수정하는 것이 효과적인지는 일반적으로 알기 어렵고, 문법 규칙을 변경함으로써 인식 처리가 어떻게 변화하는가를 예측하는 것이 곤란하였기 때문에, 변경 전까지는 올바른 처리가 이루어졌던 문장에 대해서 변경 후에는 잘못된 처리가 이루어지는 경우가 있고, 문법 규칙의 수정은 용이하지 않았었다.

본 발명의 목적 및 요약

본 발명은 이와 같은 상황을 감안해서 이뤄진 것으로, 문법 규칙을 이용하지 않고 발화의 음성 인식 결과 후보의 문법적 적격성을 판정할 수 있도록 하고, 이것에 의해 정밀도가 높은 문장 음성 인식(음성 이해)을 용이하게 행할 수 있도록 한 것이다.

본 발명의 음성 인식 장치는 복수의 용례를 기억하고 있는 용례 기억 수단과, 복수의 인식 결과 후보 각각과 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고 그 유사도에 기초하여 음성의 인식 결과를 구하는 계산 수단을 구비하는 것을 특징으로 한다.

본 발명의 음성 인식 방법은 복수의 용례를 기억하고 있는 용례 기억 수단을 구비하고, 문장 음성 인식을 행하는 음성 인식 장치의 음성 인식 방법으로서, 복수의 인식 결과 후보 각각과 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고 그 유사도에 기초하여 음성의 인식 결과를 구하는 것을 특징으로 한다.

본 발명의 음성 번역 장치는 복수의 용례를 기억하고 있는 용례 기억 수단과, 복수의 인식 결과 후보 각각과 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고, 그 유사도에 기초하여 음성의 인식 결과를 구하는 계산 수단과, 계산 수단에서 출력되는 음성의 음성 인식 결과의 언어를 다른 언어로 번역하는 번역 수단을 구비하는 것을 특징으로 한다.

본 실시예의 상세한 설명

제 2 도는 본 발명을 적용한 음성 인식 장치의 제 1 실시예의 구성을 도시하고 있다. 또한, 도면 중 제 1 도에 있어서의 경우와 대응하는 부분에 대해서는 동일부호를 붙이고, 이하 그 설명은 적절히 생략한다.

인식부(4)(인식 수단)는 제 1 도의 인식부(50)와 마찬가지로 분석부(3)로부터의 특징 파라미터(또는 그 특징 파라미터를 벡터 양자화한 심볼)를 이용하여 소정의 음성 인식 알고리즘에 따라 음성 인식을 행하도록 되어 있다. 다만, 인식부(50)에서는 음소 단위의 음성 인식이 행해지도록 되어 있었지만, 인식부(4)에서는 예컨대 후술하는 단어 사전(6)을 참조해서 단어 단위의 음성 인식이 행해지도록 되어 있다. 그리고, 인식부(4)는 단어 단위의 음성 인식 결과 얻어지는 음성 인식 결과 후보로서의 단어의 후보(단어 후보)가 예컨대 래티스의 형태로 출력되도록 되어 있다(이 래티스의 형태로 출력되는 단어 후보를, 이하, 적당히 단어 후보 래티스라고 한다).

용례 검색부(5)(계산 수단)는 인식부(4)로부터의 단어 후보 래티스에 포함되는 단어 후보를 조합하여 적어도 1 이상의 단어로 이루어지는 단어 열(문장)를 복수 작성한다. 그리고, 그 복수의 단어 열(문장) 각각과 후술하는 용례 데이터 베이스(7)에 기억되어 있는 용례 각각과의 유사도를 계산하고, 그 유사도에 기초하여 음성 입력부(1)에 입력된 음성의 인식 결과(문장)를 결정하도록 되어 있다.

또한, 용례 검색부(5)에 있어서의 유사도의 계산은 시소러스 기억부(8)에 기억되어 있는 시소러스를 이용하여 행하도록 되어 있다. 또한, 단어 후보 래티스에 포함되는 단어 후보를 조합하여 적어도 1 이상의 단어로 이루어지는 단어 열(문장)을 복수 작성하는 처리는 용례 검색부(5)가 아닌 인식부(4)에서 행해지도록 할 수 있다.

단어 사전(6)(단어 기억 수단)에는 단어의 색인 및 그것의 음운 정보(판독), 또한 필요하다면 단어의 품사 그 밖의 정보가 대응하여 기억(등록)되어 있다. 인식부(4)에서는 이 단어 사전(6)에 기억되어 있는 단어를 대상으로 하여 음성 인식이 행해지도록 되어 있다.

용례 데이터베이스(7)(용례 기억 수단)에는 복수의 용례가 기억(등록)되어 있다. 이 용례는, 예를 들어 신문에 게재되어 있는 문장이나 아나운서가 읽어 가는 원고에 기재된 문장 등에 기초하여 작성된다.

시소러스 기억부(8)(단어 개념 기억 수단)는 적어도 단어 사전(6)에 등록되어 있는 단어를 그 개념마다 분류하여 기억하고 있다. 본 실시예에서는 시소러스 기억부(8)에는 후술하는 제 5 도에 도시하는 바와 같이 단어를 그 개념에 기초하여 트리 구조로 계층화한 시소러스가 기억되어 있다.

이상과 같이 구성되는 음성 인식 장치에 있어서는, 음성 입력부(1)에 입력된 음성은 AD 변환부(2), 또한 분석부(3)(추출 수단)를 거침으로써 특징 파라미터(또는 심볼)로 되어 인식부(4)에 출력된다. 인식부(4)에서는 분석부(3)의 출력을 이용하여, 예를 들어, HMM에 따라 단어 단위의 음성 인식이 행해진다.

여기서, HMM에 대하여 간단히 설명한다. HMM은 비결정 유한 상태 오토매톤으로서 정의되고, 그 모델은 몇 개인가의 상태와 그 상태 사이의 천이를 나타내는 경로로 구성이 된다. 이와 같은 모델에 있어서 각 상태로부터의 상태의 천이 과정은 마코브 과정으로 되고, 또한 상태가 천이할 때에는 심볼이 1개 출력되는 것으로서 모델의 학습이 행해진다. 이제 모델의 상태가 N개이고 모델로부터 출력되는 심볼의 종류가 K개 있다면, 이 학습에서는 다수의 학습 데이터를 이용하여, 상태 i로부터 상태 j로 천이할 확률(상태 천이 확률) a_ij와, 그때에 심볼 yk가 출력될 확률(출력 심볼 확률) b_ij(yk)이 얻어진다(단, 0<N+1, 0<k<K+1).

또한, HMM의 파라미터에는 최초에 상태 i에 있을 확률(초기 상태 확률) π i도 있지만, 음성 인식에서는 상태가 자기 자신인지, 또는 자신보다 우측의 상태로 밖에 천이하지 않는 left-to-right 모델이 통상 사용되므로, 초기 상태는 모델의 가장 좌측의 상태가 된다(최초에 가장 좌측의 상태에 있을 확률이 1이 되고 다른 상태로 있을 확률은 0이 된다). 이 때문에 통상은 학습에 있어서 초기 상태 확률을 구할 필요는 없다.

한편 인식 시에는 학습 결과 얻어진 상태 천이 확률 및 출력 심볼 확률을 이용하여, 분석부(3)로부터 출력되는 심볼 계열이 관측(생기)될 확률(생기 확률)이 계산되고 그 확률이 높은 것이 인식 결과가 된다.

본 실시예에서, 인식부(4)에는 미리 학습을 행함으로써 얻어진, 예를 들어 음소 단위의 모델(음소 모델)이 기억되어 있다. 인식부(4)는 단어 사전(6)에 등록되어 있는 단어의 음운 정보를 참조하여 음소 모델을 연결하고, 단어 사전(6)에 등록되어 있는 단어의 모델을 작성한다. 그래서 이 모델을 이용하여, 상술한 바와 같이 생기 확률을 계산하고, 그 확률이 높은 단어로 이루어지는 래티스를 단어 후보 래티스로서 출력한다.

또한, 인식부(4)에는 음소 모델은 아니고, 예를 들어 단어 단위의 모델(단어 모델)을 기억시켜 두고, 그 모델을 그대로 이용하여 연속 음성 인식시키도록 하는 것도 가능하다.

인식부(4)로부터 출력된 단어 후보 래티스는 용례 검색부(5)에 공급된다. 용례 검색부(5)는 단어 후보 래티스를 수신하면, 예를 들어 제 2 도의 흐름도에 따른 처리를 행한다. 즉, 먼저 최초로 단계 S1에서, 단어 래티스를 구성하는 단어가 조합되고, 적어도 하나 이상의 단어로 이루어지는 단어 열(문장)이 작성된다. 또한, 이때 단어 후보 래티스의 단어는 시간 축 방향으로 겹치지 않도록 또한 시계열적으로 조합된다.

즉, 예를 들어 제 4 도에 도시되는 바와 같은 시각 t1 내지 t5를 음성 구간으로 하는 단어 후보 래티스가 인식부(4)로부터 출력된 것으로 한다. 또한 제 4 도에서는 시각 t1 내지 t2, t2 내지 t4, t4 내지 t5, t1 내지 t3, t3 내지 t5에 있어서, 단어 a, b, c, d, e가 각각 생기 확률이 가장 높은 단어로서 인식된 모양을 표시하고 있다.

이 경우, 시간 축 방향으로 겹치지 않은 시계열의 단어의 조합은 (a,b,c), (d,e), (a,e), (d,c)의 4가지가 된다.

단계 S1에서는 상술한 것 중 어느 하나의 조합이 작성된다.

또한, 실제로는 인식 시에 음운의 세그멘테이션에 오차가 생기므로, 제 4 도에 도시한 바와 같이 어떤 단어의 음성 구간의 직후에 다른 단어의 음성 구간이 위치하는 일은 거의 없다. 연속으로 발화된 단어 A, B, C이라도 통상은, 예를 들어, 제 4 도에 도시하는 바와 같이 단어 A와 B의 음성 구간은 시간적으로 겹쳐지거나 또는 단어 B와 C의 음성 구간은 시간적으로 떨어진 것으로 된다. 거기서, 단계 S1에서는 시간 축 방향으로 겹쳐지지 않는다고 해도, 명백히 동일 시각에 상이한 단어가 발화되어 있는 것으로 인정되지 않는 한은 다소의 겹침은 허용해서 단어의 조합이 작성되도록 되어 있다.

단어의 조합이 작성된 후는 단계 S2로 진행하고, 그 단어의 조합과 용례 데이터베이스(7)에 등록되어 있는 용례 각각과의 유사도가 계산된다. 여기서, 본 실시예에서는 이 유사도를 계산하는 방법으로서, 예를 들어, 1991년 12월 6일에 공개된 일본 특개평 제 3-276367 호에 개시되어 있는 바와 같이 단어를 그 의미의 유사성(개념)에 기초하여 트리 구조로 계층화한 시소러스를 이용하는 방법을 적용한다. 즉, 단어의 조합을 구성하는 어떤 단어와 그 단어에 대응하는 용례를 구성하는 단어가 동일한 카테고리에 속한다고 생각되는 개념의 계층이 제 k 계층이었던 경우에, 이들 단어간의 개념적인 유사성을 나타내는 단어 유사도를 (k-1)/n(단, n은 시소러스의 계층 수)로 하고, 단어의 조합을 구성하는 각각의 단어와 용례를 구성하는 단어 각각에 대한 단어 유사도를 적산한다. 그래서, 그 적산 결과를 단어의 조합과 용례와의 유사도로 한다.

구체적으로는, 예를 들어 이제 시소러스 기억부(8)에 제 6 도에 도시하는 바와 같은 시소러스가 기억되어 있는 것으로 한 경우, 다음과 같이 하여 유사도가 계산된다.

단, 제 6 도에 있어서는 장방형으로 감싸고 있는 것은 개념을 나타내고, 타원으로 감싸고 있는 것은 단어를 나타낸다. 이 도면에서는, 가장 상위 계층(제 4 계층)에 속하는 개념이 「Hendou(change(변동))」, 「Koudou(action(행동))」, 「Jinbutsu(person(인물))′, 「Shakai(society(사회))」, 그 밖의 것으로 분류되어 있고, 그 중, 예를 들어, 개념 「Jinbutsu(person, character)」는 그것에 포함되는 개념 「Ninshou(person)」, 「Shinzoku(relatives(친족))」, 그 밖의 것으로 분류되어 있다. 또한, 개념 「Ninshou(person)」은 그것에 포함되는 개념 「Jishou(the first person(자칭))」, 「Tashou(the second or third person(타칭))」, 그 밖의 것으로 분류되어 있고, 그 중, 예를 들어, 개념 「Tashou(the second or third person)」에는 그 범주에 있는 단어 「Kare(he(그))」, 「Kanojo(she(그녀))」, 기타가 속하는 것으로 되어 있다.

또한, 제 6 도에 있어서, 가장 하위 개념의 계층을 제 1 계층으로 하고, 아래로부터 2번째 개념의 계층을 제 2 계층으로 하고, 이하 마찬가지로 하여, 아래로부터 3번째 개념의 계층 또는 가장 상위 개념의 계층을 각각 제 3 계층 또는 제 4 계층으로 한다. 제 6 도의 시소러스는 4계층으로 구성되므로, 시소러스를 제 1 계층까지 거슬러 올라 개념이 일치하는 단어끼리의 단어 유사도는 0(=(1-1)/4)로 되고, 또한 시소러스를 제 2 계층까지 거슬러 올라 개념이 일치하는 단어끼리의 유사도는 1/4(=(2-1)/4)로 된다. 이하 마찬가지로, 시소러스를 제 3 또는 제 4 계층까지 거슬러 올라 개념이 일치하는 단어끼리의 단어 유사도는 1/2 또는 3/4로 된다.

예를 들어, 이제 단어 사전(6)에는 자립어만이 등록되어 있고, 따라서 인식부(4)에서는 자립어만을 대상으로 하여 연속 음성 인식이 행해지고, 이에 따라 단계 S1에서 단어 「Kare(he)」, 「Ninchi(one's new post(임지))」, 「Omomuku(go, leave(향하여 가다))」의 조합 (「Kare(he)」, 「Ninchl(one's new post)」, 「Omomuku(go, leave)」) (이하, 적당히 입력 단어 열이라 함)이 작성됨과 동시에, 용례로서, 예를 들어, 「Watashi wa Gakkou ni Iku」를 고려한 경우, 먼저 입력 단어 열(「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」)를 구성하는 단어 「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」 각각과 용례 「Watashi wa Gakkou ni Iku(I go to school)」를 구성하는 「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」에 대응하는 단어 「Watashi(I(나))」, 「Gakkou(school(학교))」, 「Iku(go to(가다))」 각각의 단어 유사도는 다음과 같이 된다. 여기서, 단어 X와 Y와의 단어 유사도를 d(X,Y)로 나타낸다.

즉, 단어 「Kare(he)」와 「Watashi(I)」는 제 2 계층까지 거슬러 올라감으로써 개념 「Ninshou(person)」에 일치하므로, 단어 유사도 d(「Kare(he)」, 「Watashi(I)」는 1/4이 된다. 또한, 단어 「Ninchi(one's new post)」와 「Gakkou(school)」는 제 3 계층까지 거슬러 올라가서 개념 「Shakai(society)」에 일치하므로, 단어 유사도 d(「Ninchi(one's new post)」와 「Gakkou (school)」는 1/2이 된다. 또한, 단어 「Omomuku(go, leave)」와 「Iku(go to)」는 제 1 계층까지 거슬러 올라감으로써 개념 「Ouhuku(go to and back(왕복))」에 일치하므로, 단어 유사도 d(「Omomuku (go, leave)」, 「Iku(go to)」)는 0이 된다.

이상의 단어 유사도를 적산하면, 그 적산치는 3/4(=1/4+1/2+0)이 되고 이것이 입력 단어 열(「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」)와 용례 「Watashi wa Gakkou ni Iku(I go to school)」의 유사도가 된다.

이상과 같이 하여, 입력 단어 열(「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」)에 대한 유사도의 계산이 용례 데이터베이스(7)에 등록되어 있는 모든 용례에 대해서 행해진다.

제 3 도로 되돌아가서, 단계 S2에서 유사도의 계산이 종료되면 단계 S3으로 진행하고, 인식부(4)로부터의 단어 후보 래티스로부터 얻어지는 모든 단어의 조합에 대해서 단계 S2의 유사도 계산을 했는지의 여부가 판정된다. 단계 S3에서, 단어 후보 래티스로부터 얻어지는 모든 단어의 조합에 대해서 유사도 계산을 하지 않았다고 판정된 경우 단계 S1로 되돌아가고, 새로운 단어의 조합(입력 단어 열)을 작성하고, 이하 마찬가지의 처리를 반복한다.

즉, 이에 따라 단계 S1에서, 예를 들어 새로운 입력 단어 열로서, 예를 들어, (「Kanojo(she)」, 「Haha(mother(모))」, 「Niteiru(look like(유사하다))」)가 작성된 경우에는, 이 입력 단어 열을 구성하는 단어 「Kanojo(she)」, 「Haha(mother)」, 「Niteiru(look like)」 (단, 「Niteiru」는 「Niru」가 된다)각각과 상술한 용례 「Watashi wa Gakkou ni Iku(I go to school)」를 구성하는 「Kanojo(she)」, 「Haha(mother)」, 「Niteiru(look like)」에 대응하는 단어 「Watashi(I)」, 「Gakkou(school)」, 「Iku(go to)」 각각의 단어 유사도 d(「Kanojo(she)」, 「Watashi(I)」), d(「Haha(mother)」, 「Gakkou(school)」), d(「Niru(look like)」, 「Iku(go to)」)는 단계 S2에서 상술한 경우와 마찬가지로 하여, 1/4, 3/4, 3/4으로 계산되고, 그 결과 입력 단어 열 (「Kanojo(she)」, 「Haha(mother)」, 「Niteiru(look like)」와 용례 「Watashi wa Gakkou ni Iku (I go to school)」의 유사도는 7/4(1/4+3/4+3/4)로 구해진다.

한편, 단계 S3에 있어서 단어 후보 래티스로부터 얻어지는 모든 단어의 조합에 대해서 유사도 계산을 하였다고 판정된 경우 단계 S4로 진행하고, 유사도가 가장 높은 용례와 입력 단어 열이 선택되고 단계 S5로 진행한다. 단계 S5에서는 단계 S4에서 선택된 용례를 구성하는 단어 중, 동일하게 단계 S4에서 선택된 입력 단어 열을 구성하는 단어에 대응하는 것이 그 입력 단어 열을 구성하는 단어로 각각 치환되고, 그것이 문장 음성 인식 결과로서 출력되어 처리를 종료한다.

즉, 예를 들어, 지금 설명을 간단히 하기 위해 용례로서 「Watashi wa Gakkou ni Iku(I go to school)」만이 용례 데이터베이스(7)에 기억되어 있고, 입력 단어 열로서 (「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」) 및 (「Kanojo(she)」, 「Haha(mother)」, 「Niteiru(look like)」)의 2개만이 작성되었다면, 상술한 바와 같이 입력 단어 열(「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」) 또는 (「Kanojo(she)」, 「Haha(mother)」, 「Niteiru(look like)」 각각과 용례 「Watashi wa Gakkou ni Iku(I go to school)」의 유사도는 3/4 또는 7/4이 된다. 본 실시예에서는, 유사도가 높은 경우란 유사도의 값이 작은 경우이고(이것은 제 6 도에서 시소러스를 구성하는 가장 하위 개념의 계층으로부터 제 1 계층, 제 2 계층, ...로 하였으므로, 이와는 역으로 시소러스를 구성하는 가장 상위 개념의 계층으로부터 제 1 계층, 제 2 계층, ...으로 하면 유사도가 높은 경우란 유사도 값이 큰 경우가 된다), 따라서 단계 S4에서는 입력 단어 열(「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」)와 용례 「Watashi wa Gakkou ni Iku(I go to school)」이 선택된다.

그래서, 단계 S5에서는 용례 「Watashi wa Gakkou ni Iku(I go to school)」를 구성하는 단어 중 입력 단어 열 (「Kare(he)」, 「Ninchi(One's new post)」, 「Omomuku(go, leave)」)를 구성하는 단어에 대응하는 것, 즉 「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」에 대응하는 「Watashi(I)」, 「Gakkou(school)」, 「Iku(go to)」가 그 입력 단어 열을 구성하는 단어 「Kare(he)」, 「Ninchi(one's new post)」, 「Omomuku(go, leave)」로 각각 치환된다. 그래서, 그 치환 결과 「Kare wa Ninshi ni Omomuku(He leaves for his new post)」가 문장 음성 인식 결과로서 출력된다.

이상과 같이, 이 음성 인식 장치에 의하면 음성 인식 결과 후보로서 복수의 입력 단어 열이 출력된 경우에, 그들이 말하자면 용례에 의해 좁혀지고, 용례에 가장 유사한 입력 단어 열이 음성 인식 결과로서 얻어진다. 따라서, 복수의 음성 인식 결과 후보를 좁혀주므로(복수의 음성 인식 결과 후보로부터 1개의 음성 인식 결과를 선택한다), 전문가가 기술한 문법 규칙을 이용할 필요가 없고, 또한 용례는 신문 등의 기재로부터 용이하게 작성할 수 있으므로, 장치의 개발(제작)을 용이하게 행하는 것이 가능하게 된다.

또한, 정확한 음성 인식 결과가 얻어지지 않는 입력 음성이 있었던 경우에는, 그 음성을 용례로 하여 용례 데이터베이스(7)에 추가하는 것만으로 끝나고, 인식 성능을 용이하게 개선할 수 있다. 이 경우, 단계 S2에서 유사도를 계산할 대상이 되는 용례가 증가할 뿐이므로 용례 추가 전까지 정확히 인식되어 있던 음성이 용례의 추가 후에 정확하게 인식되지 않게 되는 것도 없다.

또한, 용례 데이터베이스(7)에 용례와 함께 그 의미 표현 등을 대응시켜 등록하여 두도록 하여, 입력된 음성의 의미 내용을 이해하는 것이 용이하게 가능하게 된다.

다음으로, 제 7 도는 본 발명을 적용한 음성 인식 장치의 제 2 실시예의 구성을 도시하고 있다. 또한, 도면 중 제 2 도에 있어서의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고 있다. 즉, 이 음성 인식 장치는 인식부(4)에 대신하여 인식부(11)(인식 수단)가 설치되고, 또한 언어 모델 기억부(12)(언어 모델 기억 수단)가 새로 설치되는 외에는, 제 2 도의 음성 인식 장치와 동일하게 구성되어 있다.

언어 모델 기억부(12)는, 예를 들어, 바이그램이나 트리그램 등의 통계적 언어 모델 등을 기억하고 있다. 여기서, 언어 모델이란 신문 정보나 잡지 정보 등의 대량의 문장 데이터를 이용하여, 어떤 단위의 연쇄가 어느 정도의 확률로 생기하는가를 계산한 것이다. 바꾸어 말하면, 어떤 단어의 다음에는 어떠한 단어가 이어지느냐에 대한 출력 확률을 단어끼리의 조합과 함께 표시한 테이블이다. 통계를 취하는 단위는 음운, 단어, 품사 등이다. 통계를 취하는 방법에는 개개 단위의 단독 생기 확률(unigram), 특정 단위의 2연쇄가 생기할 확률(bigram), 특정 단위의 3연쇄가 생기할 확률(trigram) 등이 있다.

단어 단위의 bigram의 예가 제 8 도에 도시되어 있다.

인식부(11)는, 예를 들어, 인식부(4)에서의 경우와 같은 음성 인식 처리를, 언어 모델 기억부(12)에 기억되어 있는 언어 모델에 의해 엄밀하지 않은 언어적 제약을 가하여, 그 제어하에서, 예를 들어, 비터비 알고리즘을 사용한 빔서치 등에 의해 적당히 가지를 치면서 행한다. 그래서, 그 결과 남은 복수의 음성 인식 결과로서의 복수의 문장 후보를 얻어, 각 문장 후보를 거기에서, 예를 들어, 조사를 삭제함으로써 자립어만으로 이루어지는 단어 열로 변환하여 용례 검색부(5)에 출력한다.

용례 검색부(5)에서는 인식부(11)로부터의 복수의 단어 열을 입력 단어 열로 하여 용례와의 유사도가 계산된다.

따라서, 인식부(11)에서는 언어 모델에 의한 제약이 엄밀하지 않기 때문에, 거기서 출력되는 문장 후보 중에는 문법적, 의미적으로 정확한 것이 아닌 잘못된 것도 포함된다고 생각이 되지만, 그와 같은 것은 용례 검색부(5)에서의 유사도가 낮아지기 때문에 최종적인 음성 인식 결과로는 되지 않는다. 그래서, 이 경우에는 인식부(11)에서 입력 단어 열이 언어 모델에 의해 걸리는 제약에 의해 좁혀지므로, 용례 검색부(5)에서 유사도 계산 대상이 되는 입력 단어 열의 수가 제 2 도에 있어서의 경우와 비교해서 적어지고, 그 결과 처리의 고속화를 도모할 수 있다.

또한, 언어적 제약은 언어 모델에 의하는 이외에, 예컨대 유한 상태 네트워크 등을 이용하여 가하는 것도 가능하다.

다음으로, 제 9 도는 본 발명을 적용한 음성 인식 장치의 제 3 실시예의 구성을 도시하고 있다. 또한, 도면 중, 제 2 도에 있어서의 경우와 대응하는 부분에 대해서는 동일 부호를 붙이고 있다. 즉, 이 음성 인식 장치는 인식부(4) 및 용례 검색부(5)에 대신하여 인식/용례 검색부(21)가 설치되고, 또한, 단어 사전(6) 및 시소러스 기억부(8)에 대신하여 확장 단어 사전(22)이 설치되어 있는 이외에는 제 2 도의 음성 인식 장치와 동일하게 구성되어 있다.

인식/용례 검색부(21)는 인식부(4) 및 용례 검색부(5)를 일체화한 것이며, 연속 음성 인식 처리와 유사도의 계산을 병렬해서 행할 수 있도록 되어 있다. 또한, 확장 단어 사전(22)은 시소러스 기억부(8)에 기억되어 있던 시소러스와 단어 사전(6)을 일체화한 것이며, 예컨대 제 6 도에 도시한 시소러스의 단어에 그 음운 정보나 품사, 기타의 필요한 정보를 대응시킨 것이 기억되어 있다.

이상과 같이 구성되는 음성 인식 장치에서는 인식/용례 검색부(21)에 있어서, 인식부(4)에 있어서의 경우와 마찬가지로 확장 단어 사전(22)을 참조하면서 음성 인식이 행해지는데, 이 확장 단어 사전(22)을 참조할 때, 음성 인식에 필요한 정보(예를 들어, 단어의 음운 정보 등)만이 아니라, 유사도를 계산하기 위해서 필요한 정보도 판독되도록 되어 있다.

따라서, 그후 유사도 계산을 행할 때에는, 확장 단어 사전(22)을 참조할 필요가 없으므로 처리의 고속화를 도모할 수 있다. 또한, 이 경우, 확장 단어 사전(22)은 단어 사전(6) 또는 시소러스 기억부(8)를 각각 독립적으로 실현한 경우와 비교하여 그 기억 용량을 저감할 수 있다.

다음으로, 제 10 도는 본 발명을 적용한 음성 번역 장치의 일 실시예의 구성을 도시한다. 이 음성 번역 장치는 음성 인식 장치(41), 번역부(42) 및 대역 사전(43)으로 구성되어 있다. 음성 인식 장치(41)는 제 2 도에 도시한 음성 인식 장치와 마찬가지로 구성되어 있다. 번역부(42)(번역 수단)는 음성 인식 장치(41)의 출력 언어를 대역 사전(43)을 참조하면서 다른 언어로 번역하도록 이루어져 있다. 대역 사전(43)은, 예를 들어, 일본어의 단어와, 그것을 영어로 번역한 영어 단어(또는 영어 단어 열)를 대응시켜 기억하고 있다.

또한, 음성 인식 장치(41)를 구성하는 단어 사전(6), 용례 데이터베이스(7) 및 시소러스 기억부(8)의 기억 내용은, 예를 들어, 일본어에 관한 것으로 되어 있다. 단, 용례 데이터베이스(7)에는 일본어의 용례 이외에, 그 용례를 영역(英譯)한 것이, 대응하는 일본어의 용례에 관계(대응)되어 기억되어 있다.

다음으로, 그 동작에 대해서, 제 11 도를 참조하여 설명한다. 음성 번역 장치에서는 일본어 음성이 입력되면, 음성 인식 장치(41)에서 제 2 도에 있어서의 경우와 마찬가지의 처리가 행해지고, 이것에 의해, 용례 검색부(5)에서 가장 유사도가 높은 입력 단어 열 및 용례가 구해지고, 그 입력 단어 열 및 용례가 번역부(42)에 출력된다.

여기서, 예를 들어, 이제 가장 유사도가 높게 되는 입력 단어 열 및 용례가 각각 (「Watashi」, 「Gakkou」, 「Iku」) 및 「Watashi wa Tera ni Iku」였다고 하면, 번역부(42)에는 입력 단어 열(「Watashi」, 「Gakkou」, 「Iku」) 및 용례 「Watashi wa Tera ni Iku」와 함께 그 용례에 대응되어 있는 영문의 용례로서의, 예를 들어 「I go to the temple」도 번역부(42)에 출력된다. 또한, 용례 「나는 절에 간다」와 「I go to the temple」는 각각을 구성하는, 대응하는 단어끼리(「Watashi」와 「I」, 「Tera」와 「temple」, 「Iku」와 「go to」)가, 예를 들어, 제 11a 도에 도시한 바와 같이 대응되어 있다.

번역부(42)에서는 (일본어의) 용례 「Watashi wa Tera ni Iku」를 구성하는 단어 중, 입력 단어 열에 대응하는 것 「Watashi」, 「Tera」, 「Iku」가 제 11b 도에 도시한 바와 같이, 입력 단어 열을 구성하는 단어 「Watashi」, 「Gakkou」, 「Iku」로 각각 치환되고, 이것에 의해 용례 「Watashi wa Tera ni Iku」가 「Watashi wa Gakkou ni Iku」로 변환된다. 그 결과, 이 「Watashi wa Gakkou ni Iku」는 「Watashi wa Tera ni Iku」와 대응되어 있던 「I go to the temple」과, 제 11c 도에 도시한 바와 같이 대응된다.

그후, 번역부(42)는 대역 사전(43)을 참조하여, 입력 단어 열을 구성하는 단어를 영어 단어(혹은 영어 단어 열)로 변환한다. 즉, 지금의 경우, 입력 단어 열을 구성하는 단어 「Watashi」, 「Gakkou」, 「Iku」가 제 11d 도에 도시한 바와 같이 「I」, 「school」, 「go to」로 각각 변환된다.

그리고, 번역부(42)는 제 11e 도에 도시한 바와 같이, 제 11c 도에 도시한 「Watashi에 대응하는 「I」, 「Gakkou」에 대응하는 「the temple」, 「Iku」에 대응하는 「go to」를, 제 11d 도에 도시한 「Watashi」에 대응하는 「I」, 「Gakkou」에 대응하는 「school」, 「Iku」에 대응하는 「go to」로 각각 치환하고, 그 결과 얻어지는 영문 「I go to school」을 출력한다. 이 번역 결과는, 예를 들어, 디스플레이 등에서 표시되고, 또는 음성 합성 장치에 입력되어 합성음으로서 출력된다.

종래의 음성 번역 장치에서는 음성 인식 결과로서 1개의 문장이 출력된 경우에, 그 문장에 대해 기계 번역을 행하도록 되어 있었다. 여기서, 종래의 기계 번역 방법으로서는 입력된 문장을 일단 중간 언어로 변환하고, 그 중간 언어에 기초하여, 입력 문장의 의미를 이해하여, 그후, 목적하는 언어로 변환한다는 것이 주류였지만, 최근에는 다음과 같은 용례에 기초한 처리를 도입하는 방법이 검토되고 있다. 즉, 이 방법은 입력된 텍스트에 유사한 용례를 검색하고, 그 결과 얻어진 용례를 구성하는 단어를 2 언어(입력 텍스트의 언어와 번역 후의 언어)간의 대역 사전에 기초하여, 목적하는 언어의 단어를 치환하고, 이것에 의해 번역 결과를 얻는 것으로, 이 방법에 의하면, 입력 문장을 중간 언어로 변환할 필요가 없다.

이에 반해, 제 10 도의 음성 번역 장치에서는 음성 인식에 있어서 용례에 기초한 처리를 도입하고 있기 때문에, 음성 인식에 이용한 용례를 그대로 번역에 이용할 수 있고, 그 결과, 음성 인식 장치, 기계 번역 장치를 각각 독립적으로 구성하여 접속한 번역 장치와 비교하여, 처리의 간단화 및 고속화를 도모할 수 있다.

이상, 본 발명의 실시예에 관해 설명했지만, 본 발명은 상술한 실시예에 한정되지 않으며, 예를 들어 음성을 입력하고, 그 음성에 대응한 처리를 행하는 장치에 적용 가능하다.

또한, 본 실시예에 있어서는 단어 유사도를 그대로 적산하고, 그 적산 결과를 유사도로 했지만, 이외에, 유사도는 단어 유사도에 대해, 예를 들어 시소러스의 구조 등에 대응하는 가중치 부가를 행하고, 그것을 적산한 것으로 하는 것도 가능하다.

또한, 본 실시예에서는 유사도를 구하는데 용어 사전을 이용하도록 했지만, 유사도를 구하는 방법은 이것에 한정되지 않는다.

또한, 제 10 도의 음성 번역 장치에서는 일본어에서 영어로의 번역을 행하도록 했지만, 단어 사전(6), 용례 데이터베이스(7), 시소러스 기억부(8) 및 대역 사전(43)의 등록 내용을 변경함으로써, 예를 들어, 일본어 이외의 언어를 영어로 번역하거나, 또는 일본어를 영어 이외의 언어로 번역하는 것 등이 가능하다.

또한, 제 10 도의 음성 번역 장치에는 제 2 도의 음성 번역 장치와 마찬가지로 구성되는 음성 인식 장치(41)를 설치하도록 했지만, 음성 인식 장치(41)는 이외, 예를 들어 제 7 도와 제 9 도에 도시한 음성 인식 장치와 마찬가지로 구성하는 것 등이 가능하다.

본 발명의 음성 인식 장치 및 음성 인식 방법에 의하면, 다수의 인식 결과 후보 각각과 용례 각각과의 유사도가 산출되고, 그 유사도에 기초하여 음성 인식 결과가 구해진다. 따라서, 문법 규칙을 이용하지 않고, 복수의 인식 결과 후보를 좁혀서 음성 인식 결과를 얻을 수 있다.

본 발명의 음성 번역 장치에 의하면, 복수의 인식 결과 후보 각각과 용례 각각과의 유사도가 계산되고, 그 유사도에 기초하여, 음성의 인식 결과가 구해진다. 그리고, 그 음성 인식 결과의 언어가 다른 언어로 번역된다. 따라서, 음성으로 입력된 원어를 용이하게 번역하는 것이 가능해진다.

제 1 도는 종래의 음성 인식 장치의 일예의 구성을 도시하는 블럭도.

제 2 도는 본 발명을 적용한 음성 인식 장치의 제 1 실시예의 구성을 도시하는 블럭도.

제 3 도는 제 2 도의 용례 검색부(5)의 동작을 설명하기 위한 흐름도.

제 4 도는 제 3 도의 단계 S1의 처리를 설명하기 위한 도면.

제 5 도는 제 3 도의 단계 S1의 처리를 설명하기 위한 도면.

제 6 도는 제 2 도의 시소러스 기억부(8)에 기억되어 있는 시소러스를 도시하는 도면.

제 7 도는 본 발명을 적용한 음성 인식 장치의 제 2 실시예의 구성을 도시하는 블럭도.

제 8 도는 본 발명에 적용되는 언어 모델의 예(단어 bigram)를 도시하는 도면.

제 9 도는 본 발명을 적용한 음성 인식 장치의 제 3 실시예의 구성을 도시하는 블럭도.

제 10 도는 본 발명을 적용한 음성 번역 장치의 일 실시예의 구성을 도시하는 블럭도.

제 11 도는 제 8 도의 음성 번역 장치의 동작을 설명하기 위한 도면.

* 도면의 주요부분에 대한 부호의 설명 *

1 : 음성 입력부 2 : AD 변환부

3 : 분석부 4 : 인식 용례 검색부

7 : 용례 데이터 베이스 22 : 확장 단어 사전

Claims

문장 음성(文音聲) 인식을 행하는 음성 인식 장치에 있어서,

입력된 음성을 음향 분석하고, 상기 입력 음성의 특징 파라미터를 추출하는 추출 수단과,

상기 추출 수단에서 출력되는 상기 특징 파라미터에 기초하여 상기 입력 음성의 인식을 행하고, 복수의 인식 결과 후보를 구하는 인식 수단과,

복수의 용례를 기억하고 있는 용례 기억 수단과,

상기 복수의 인식 결과 후보 각각과 상기 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고, 그 유사도에 기초하여 상기 음성의 인식 결과를 구하는 계산 수단을 구비하고,

단어를 그 개념마다 분류하여 기억하고 있는 단어 개념 기억 수단을 더 구비하고,

상기 인식 결과 후보는 하나 이상의 단어의 조합으로 이루어지고,

상기 계산 수단은 상기 인식 결과 후보를 구성하는 단어 각각과 상기 용례를 구성하는 단어 각각과의 개념적인 유사성을 나타내는 단어 유사도를 상기 단어 개념 기억 수단을 참조하여 구하고, 그 단어 유사도에 기초하여 상기 유사도를 계산하는, 음성 인식 장치.
제 1 항에 있어서,

상기 인식 수단은 단어 단위로 상기 입력 음성의 인식을 행하는, 음성 인식 장치.
제 1 항에 있어서,

상기 단어 개념 기억 수단은 단어를 그 개념에 기초하여 트리 구조로 계층화하여 기억하고 있는, 음성 인식 장치.
제 1 항에 있어서,

복수의 단어끼리의 접속에 관해서 확률적으로 분류된 언어 모델을 기억하고 있는 언어 모델 기억 수단을 더 구비하고,

상기 인식 수단은 상기 언어 모델 기억 수단에 기억되어 있는 언어 모델의 제약하에서, 상기 음성의 인식을 행하고 복수의 인식 결과 후보를 구하는, 음성 인식 장치.
제 1 항에 있어서,

상기 인식 수단에 의한 인식 대상이 되는 단어 및 그 단어의 음운 정보와 품사 정보를 적어도 기억하고 있는 단어 기억 수단을 더 구비하고,

상기 단어 개념 기억 수단 및 단어 기억 수단은 일체화되어 있는, 음성 인식 장치.
문장 음성 인식을 행하는 음성 인식 방법에 있어서,

입력된 음성을 음향 분석하고 상기 입력 음성의 특징 파라미터를 추출하는 제 1 단계와,

상기 추출된 특징 파라미터에 기초하여 상기 음성 인식을 행하고 복수의 인식 결과 후보를 구하는 제 2 단계와,

상기 복수의 인식 결과 후보 각각과 복수의 용례를 기억하고 있는 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고, 그 유사도에 기초하여 상기 음성의 인식 결과를 구하는 제 3 단계를 포함하고,

상기 인식 결과 후보는 하나 이상의 단어의 조합으로 이루어지고,

상기 제 3 단계는 상기 인식 결과 후보를 구성하는 단어 각각과 상기 용례를 구성하는 단어 각각과의 개념적인 유사성을 나타내는 단어 유사도를, 단어를 그 개념마다 분류하여 기억하고 있는 단어 개념 기억 수단을 참조하여 구하고, 그 단어 유사도에 기초하여 상기 유사도를 계산하는, 음성 인식 방법.
입력된 음성의 언어를 다른 언어로 번역하는 음성 번역 장치에 있어서,

상기 입력된 음성을 음향 분석하고 상기 입력 음성의 특징 파라미터를 추출하는 추출 수단과,

상기 추출 수단에서 출력되는 상기 특징 파라미터에 기초하여 상기 입력 음성의 인식을 행하고 복수의 인식 결과 후보를 구하는 인식 수단과,

복수의 용례를 기억하고 있는 용례 기억 수단과,

상기 복수의 인식 결과 후보 각각과 상기 용례 기억 수단에 기억되어 있는 용례 각각과의 유사도를 계산하고, 그 유사도에 기초하여 상기 음성 인식 결과를 구하는 계산 수단과,

상기 계산 수단에서 출력되는 상기 음성의 음성 인식 결과의 언어를 상기 다른 언어로 번역하는 번역 수단을 구비하고,

단어를 그 개념마다 분류하여 기억하고 있는 단어 개념 기억 수단을 더 구비하고,

상기 인식 결과 후보는 하나 이상의 단어의 조합으로 이루어지고,

상기 계산 수단은 상기 인식 결과 후보를 구성하는 단어 각각과 상기 용례를 구성하는 단어 각각과의 개념적인 유사성을 나타내는 단어 유사도를 상기 단어 개념 기억 수단을 참조하여 구하고, 그 단어 유사도에 기초하여 상기 유사도를 계산하는, 음성 번역 장치.
제 7 항에 있어서,

상기 인식 수단은 단어 단위로 상기 입력 음성의 인식을 행하는, 음성 번역 장치.
제 7 항에 있어서,

상기 단어 개념 기억 수단은 단어를 그 개념에 기초하여 트리 구조로 계층화하여 기억하고 있는, 음성 번역 장치.
제 7 항에 있어서,

복수의 단어끼리의 접속에 관해서 확률적으로 분류된 언어 모델을 기억하고 있는 언어 모델 기억 수단을 더 구비하고,

상기 인식 수단은 상기 언어 모델 기억 수단에 기억되어 있는 언어 모델의 제약하에서, 상기 음성의 인식을 행하고 복수의 인식 결과 후보를 구하는, 음성 번역 장치.
제 7 항에 있어서,

상기 인식 수단에 의한 인식 대상이 되는 단어 및 그 단어의 음운 정보와 품사 정보를 적어도 기억하고 있는 단어 기억 수단을 더 구비하고,

상기 단어 개념 기억 수단 및 단어 기억 수단은 일체화되어 있는, 음성 번역 장치.