KR100374921B1 - 단어열인식방법및단어열결정장치 - Google Patents

단어열인식방법및단어열결정장치 Download PDF

Info

Publication number
KR100374921B1
KR100374921B1 KR1019950009155A KR19950009155A KR100374921B1 KR 100374921 B1 KR100374921 B1 KR 100374921B1 KR 1019950009155 A KR1019950009155 A KR 1019950009155A KR 19950009155 A KR19950009155 A KR 19950009155A KR 100374921 B1 KR100374921 B1 KR 100374921B1
Authority
KR
South Korea
Prior art keywords
word
words
language model
grid
score
Prior art date
Application number
KR1019950009155A
Other languages
English (en)
Inventor
헤르만네이
싸비에르아우베르트
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Application granted granted Critical
Publication of KR100374921B1 publication Critical patent/KR100374921B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

연속적으로 말해지는 언어의 인식 동안에, 동적 프로그래밍법에 의해 탐색 공간 내에서 다수의 가정들이 생성된다. 상이한 직전 단어들에 대한 여러 가정들이 단어 내에서 개시되어 동일한 종점으로 진행될 때, 관련된 종점에서의 가정들의 데이터가 단어 결과들로서 개별적으로 저장된다. 본 발명에 따라, 언어 모델의 고려와 같은 다른 동작들이 수행되는 단어 격자가 상기 단어 결과들로부터 형성된다. 이 단어 격자 내에서 가능한 경로들의 수는, 각각의 단어에 대해 최적의 직전 단어 또는 이 최적의 선행 단어 연결만이 언어 모델 고려 동안에 유지된다는 점에서, 감소된다. 단일의 단어열이, 잔존하는 경로에 의해 역방향으로 출력하기에 가장 매력적인 열인 것으로 결정될 수 있다.

Description

단어열 인식 방법 및 단어열 결정 장치
본 발명은 전반적으로 음성 신호 내의 단어들의 자동 인식에 관한 것으로, 특히 하나 이상의 문장들로 구성된 자연적으로 말해지는 음성 신호의 자동 인식에 관한 것이며, 여기서 상기 음성 신호 내의 개개의 단어들은 포즈(pauses)에 의해 구분되어 있지 않으며, 따라서 단어 경계들은 자동 인식 동안에 자동적으로 결정되어야 한다.
자동 인식을 위해, 상기 음성 신호는 동적 프로그래밍법에 따라, 각각의 단어를 나타내는 기준 신호 계열과 비교되는 테스트 신호들의 시계열로 변환된다. 상기 기준 신호들은 어휘를 구성한다. 상기 어휘의 기준 신호들의 매력적인 구성은, 복수의 단어들에 공통되는 단어 부분들을 나타내는 기준 신호들의 서브 계열(sub-series)이 단지 한번, 즉 복수의 단어들에 공통되는 어휘 트리의 분기에서 발생되는 트리(tree) 형태이다. 그러나, 특히 이 경우에는, 고차 언어 모델, 즉 n>1 인 n-그램(n-gram) 언어 모델을 고려하는 것이 매우 곤란하다는 문제가 있다.
동적 프로그래밍법에 기초하는 음성 인식은, 테스트 신호 계열에 대하여, 어휘의 각각의 단어에 대해 가장 매력적인 스코어를 가진 기준 신호 계열을 발생한다. 이것을 가정(hypothesis) 또는 단어 내의 가정이라고 한다. 이와 같은 가정이 단어 종점(word end)에 도달할 때, 다음 테스트 신호에 대한 가정이 긴 단어 내에서뿐만 아니라 단어의 시점에서도, 즉 기준 신호 계열의 시점 또는 어휘 트리의 루트(root)에서도 계속된다. 이것은 가정들의 수를 매우 급격하게 증가시키며, 그 수는 각각의 가정의 스코어를 해당 순간의 최적의 스코어보다 소정의 양만큼 초과하는 임계값과 연속적으로 비교하여 제한된다. 단어열에 대한 가정들의 수를 더욱 줄이기 위해, 상이한 순간에서 시작되는, 즉 가능한 상이한 직전 단어들(predecessor words)의 종점 후의 시간적으로 인접한 상이한 테스트 신호로 시작되는 단어 내의 가정 중에서, 단어 종점에서 가장 매력적인 스코어를 가지고 있고 동시에 동일한 테스트 신호로 단어 종점에 도달되는 가정만을 연속적으로 선택하는 것이 공지되어 있다. 따라서, 이와 같은 단어종점에 대해 하나의 직전 단어만이 유지된다.
문헌 "Proceedings of the ICASS91, Toronto, Canada"(1991, pp.701-704)에 게재된 R.Schwartz 및 S.Austin의 논문 "A comparison of Several approximate algorithms for finding multiple (N-BEST) sentence hypothesis"에는, 단어 내의 모든 가정들의 스코어들이 상기 임계값을 초과하지 않는 한, 상기 가정들이 동일한 기준 신호 계열을 통해 특히 단어 종점에서 확장될 때에도, 단어 내의 모든 가정들, 즉 상이한 순간들(instants)에서 또는 상이한 테스트 신호들로 시작되는 가정들이 상기 단어 종점까지 개별적으로 연속되는 방법에 대해 기재되어 있다. 각각의 단어 종점에서, 상기 가정들의 데이터, 즉 종료되는 단어의 식별, 종점으로서의 관련 시간, 단어 내의 가정들의 시점, 및 관련 직전 단어의 식별 뿐만 아니라 이 가정에 도달되는 스코어가 저장된다. 이에 따라, 다수의 상이한 단어열이 형성되고, 문장의 끝에서, 최량의 스코어들을 가진 여러 단어열들이 도출된다.
이 공지된 방법은 단어의 최적 시점이 직전 단어에 의존하지만 다른 직전 단어들에는 의존하지 않는다는 개념에 기초를 두고 있다. 관련된 열이 선택될 수 있는 여러 단어 문장을 말해진 문장으로부터 도출할 가능성이 있으나, 이들 가능성은 정확한 단어 문장이 결정되는 단어 문장들 중에 존재하지 않을 수 있도록 제한된다. 또한, 이 경우에는 언어 모델이 고려되지 않는다.
본 발명의 목적은, 기존의 방법과 실질적으로 동일한 비용으로 단어열을 결정 및 공급하는 매우 많은 수의 가능성들을 제공하고, 또한 고차 언어 모델을 매우 간단한 방식으로 고려하며, 또한 어휘 트리로서 구성되는 기준 신호 계열을 매력적인 사용을 가능하게 하는데 있다.
이 목적은 청구 범위 제 1 항에 기재된 방법에 의해 달성된다.
본 발명에 따른 해결책은 2 단계 인식 방법의 새로운 형태에 관한 것이다. 제 1 단계 동안에는, 단지 단어 쌍들의 문장들이 음향 레벨로 형성되고, 상기 단어 쌍들 내의 단어 경계들이 최적화된다. 제 2 단계 동안에는, 형성되는 단어 쌍들은 단어 격자들(word grids), 및 언어 모델의 적용과 같은 모든 추가적인 단계들이 수행되는 단어 레벨에서 고려된다. 상기 단어 격자에서는, 복수의 경로들이 가능하며, 다른 단어 문장이 각각의 경로 상에 배치된다. 각각의 종료된 단어에 대한 단어 결과로부터, 각각의 상기 단어 결과는 종료된 단어와 직전 단어로 구성되는 단어 쌍에 속하며, 이에 따라 동일한 단어가 상이한 직전 단어들과 더불어 발생할 수 있으며, 최적의 단어 쌍은 언어 모델을 고려하여 형성될 수 있다. 이를 위해, 모든 단어 쌍의 종점에서 도달되는 스코어는 종료 단어, 직전 단어, 및 가능한 경우 다른 직전 단어들로부터의 관련 단어 쌍에 의해 결정되는 언어 모델 값만큼 증가되며, 최량의 스코어를 가진 단어 쌍만이 고려된다. 이와 같은 단어 쌍의 결정, 즉 각각의 종료 단어에 대한 최적의 직전 단어의 결정은 상기 단어 격자 내에서 실행되며, 시간이 소모되는 음향 비교가 종료되고 상기 단어 격자 내에서 최적의 직전 단어의 결정과 같은 계산이 매우 신속하게 수행될 수 있다. 연결의 결과로서 직전 단어가 직전 단어 쌍에 대한 종료 단어를 매번 나타내고, 공지된 방식으로 각각의 단어의 시점의 지시에 의해 형성되므로, 역방향 포인터들로서 시점 지시를 역방향으로 추적함으로써 단일 최적의 단어열이 상기 최적의 단어 쌍으로부터 결정될 수 있다. 이는 문장의 끝에서 행해질 수 있으며, 즉 음성 신호의 소정의 구분을 문장으로 하고 그 구분의 끝에서 행해질 수 있지만, 문장 내의 규칙적인 순간에 행해질 수도 있다. 이는, 설명된 방식으로 단어 격자 내에서 형성되거나 잔존하는 최적의 가정들이 모든 가정들에 공통되는 문장의 시점 방향의 지점에 실제로 항상 신속하게 도달하며, 이에 의해 상기 지점 직전의 단어열이 최종 단어열로서 미리 출력될 수 있기 때문이다.
또한, 단어 격자 내의 계산들은 매우 신속하게 실행될 수 있다는 사실은 대체 단어들의 선택에 이용될 수 있다. 이는, 그때까지 형성되는 가정들이 대략 균등한 순간들에서 단어 격자 내에서 역추적될 때 단어열이 이 문장의 시점에서부터 출력되도록, 부정확한 단어가 검출시 삭제되고 단어 격자내의 최적의 가정 결정이 단어 격자에서 삭제된 단어를 고려함이 없이 다시 실행되기 때문이다. 따라서, 초기에 삭제된 부정확한 단어 대신에, 다른 단어가 출력되고 이 단어가 또한 부정확하다면, 또한 이 단어는 삭제될 수 있고 이 동작이 반복될 수 있다. 결국 정확한 단어가 출력될 때, 다른 단어열 출력은 일반적으로 부정확한 단어 다음에 원래 단어열로부터 벗어나지만, 결과적으로 실제로 발음된 단어열에 보다 대응할 것이다.
본 발명의 다른 목적은, 특히 어휘 트리로서 구성된 기준 신호 계열의 경우에 고차 언어 모델이 고려될 수 있다는 점에서 보다 낮은 인식 에러율로 동작하는, 음성 신호로부터 단어열을 인식하는 장치를 제공하는데 있다. 이 목적은 청구 범위 제 2 항에 기재된 장치에 의해 달성된다. 본 발명에 따른 장치는 또한 제 1 내지 제 3 수단이 단어 경계들이 최적화된 단어 쌍들을 형성하는 2 단 구성을 갖는다. 제 2 메모리는 상기 단어 쌍들이 추가 처리되는 제 2 단에 대한 인터페이스를 구성한다. 소수의 추가 수단을 사용하여, 상기 제 2 단은 단어 격자들로서 형성되게 되는 단어 쌍들의 복잡한 처리를 가능하게 한다.
이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 설명한다.
제 1 도는 2 개의 직전 단어(V1 및 V2)에서 시작되어 하나의 단어(W) 내의 동일 종점까지 연속되는 2 개의 가정의 진행을 나타내며, 이 예에서, 상기 가정은 명료성을 위해 W 내에서 상이한 시점들에서부터 시작되어, 동일한 종점까지 진행된다. 원칙적으로, 이와 같은 시점들도 동시적일 수 있다. 시간(t), 따라서 음성 신호로부터 도출되는 테스트 신호 계열(i)이 수평축 상에 표기된다. 3 개의 단어 (V1,V2,W)에 대한 기준 신호 계열(r)은 수직축 상에 표기되며, 여기서 R1은 단어 (V1)의 최종 기준 신호이고, R2는 단어(V2)의 최종 기준 신호이며, R3는 단어(W)의 최종 기준 신호이다. 테스트 신호 계열(i)은 기준 신호 계열과 비교되며, 제 1 도의 예에서는, 단어(V2)의 기준 신호에 대해 행해지는 비교가 기준 신호(i0)부터 시작되고, 단어(V1)의 기준 신호에 대해 행해지는 비교는 테스트 신호(i1)부터 시작된다. EP 0 533 260 Al(PHD 91-138) 호 공보에 공개된 동적 프로그래밍법에 따라서 테스트 신호들과 기준 신호들을 비교함으로써, 단어(V1) 내에서, 이 단어내의 가정(H1)이라고 칭하는 경로가 얻어진다. 유사하게, 단어(V2) 내에서 테스트 신호들의 비교에 의해 가정(H2)을 나타내는 경로가 생성된다. 일반적으로, 실제로는 두 단어 내에는 보다 일찍 시작하거나 보다 늦게 시작하는 다른 가정들도 존재하지만, 여기서는 명료성을 위해 그들에 대해 고찰하지 않는다.
가정(H2)은 최종 기준 신호(R2), 즉 단어(V2)의 종점에 도달하며, 이 단어종점으로부터, 상기 가정(H2)은 다음 테스트 신호들이 상이한 단어들의 제 1 기준 신호들과 비교된다는 점에서 상기 단어들 내에서 연속되며, 이 경우에서는 상기 단어(W)에서의 연속성, 즉 상기 단어(W)에서의 가정(H2)의 연속성에 대해서만 고찰한다.
상기 가정(H1)은 유사한 방식으로 단어(V1)의 최종 기준 신호(R1), 즉 단어 (V1)의 종점에 도달하고, 그 후에, 다음의 테스트 신호가 새로운 단어 시점과 비교되며, 즉 상이한 단어들 내에서 연속되며, 여기서는 단어(W) 내에서의 가정(H1)의 연속성에 대해서만 고찰한다. 이들 연속 상태에서는, 이들 단어(V1 및 V2)의 단어 경계의 최적 위치(i2 및 i3)가 자동적으로 얻어진다.
상기 2 개의 가정(H1 및 H2)은 초기에는 단어(W) 내에서 개별적으로 진행되고 최후에 동일한 격자점을 통과하며, 최종 테스트 신호들에서 동일한 기준 신호들과의 비교가 2 개의 가정에 대해 최적의 경로를 생성한다. i4에서, 상기 2 개의 가정(H1 및 H2)은 상기 단어(W)의 최종 기준값(R3), 즉 이 단어의 종점에 도달한다. 2 개의 가정(H1 및 H2)은 서로 독립적으로 유지된다.
상기 가정(H1 및 H2)이 테스트 신호(i4)에서 단어(W)의 종점에 도달한 후, 2개의 가정(H1 및 H2)의 각각에 대한 단어 결과가 도출되며, 상기 가정(H1)에 대한 단어 결과는, 종료된 단어(W)의 식별에 관한 지시, 테스트 신호(i4) 또는 관련 순간의 지시, 시점(i3) 및 관련된 직전 단어(V1)의 지시를 포함한다. 유사하게, 상기 가정(H2)에 대한 단어 결과는 단어(W)의 지시, 종점(i4)의 지시, 시점의 지시(이 경우, i2) 및 관련된 직전 단어(V2)의 지시를 포함한다. 또한, 상기 단어(W)의 종점에서의 가정(H1 및 H2)을 통해 얻어진 대응 스코어들은 두 단어 결과들에 포함된다.
상기 가정(H1 및 H2)에 대한 직전 단어(V1 및 V2)의 종점에서의 단어 결과들은 마찬가지로 도출되어 저장되었지만, 여기서는 상세하게 설명하지 않음에 주의한다.
유사하게, 다른 단어들의 종점 또는 단어(W)의 종점에 다시 도달하는 다른 순간들에서, 특히 방대한 어휘의 경우에 여러 개의 단어 종점들이 동시에 도달할때, 다른 단어 결과들이 도출된다. 저장된 단어 결과들은 제 2a 및 2b 도에 간략하게 도시된 바와 같이 단어 격자로서 고려된다. 제 2a 도는 단어 격자 자체를 나타내고, 제 2b 도는 단어 결과들에 대한 메모리 위치들의 내용을 나타낸다.
음성 신호, 즉 말해진 문장은 순간(t0)에서 시작되는 것으로 가정한다. 이 예에서, 테스트 신호들 대신에 순간들을 참조하지만, 이것은 원칙적으로 동일하다.
순간 (t1)에서, 단어(a)의 종점에 도달하고, 단어 결과가 제 2b 도의 t1 아래에 표시된 바와 같이 저장되며, 이 단어 결과는, 위의 설명과 일치되게, 그 발생순간의 종료된 단어의 종점 및 직전 단어의 종점의 지시를 포함한다. 유사하게, 순간(t2)에서, 단어(b)의 종점에 도달하고, 순간(t3)에서 단어(c)의 종점에 도달하며, 위에서 설명한 대응 단어 결과들이 저장된다. 그러므로, 모든 경우에, 상기 단어들의 시점은 순간(t0)이며, 직전 단어들은 존재하지 않고 상기 단어들의 종점에서의 스코어는 각각 S1, S2, S3이다.
상기 단어(a)는 3 개의 단어들, 즉 단어들(d, e, g)에 의해 연속되며, 이는단어의 종점에 이르는 가정이 3 개의 가정로 분할됨을 의미한다. 유사하게, 상기 단어(b)는 2 개의 단어(d, g)에 의해 연속되고 단어(e)와 같은 다른 단어들에 의해서는 연속되지 않으며, 이는 단어(b)의 종점으로부터 나오는 가정이 상기 단어들의 임계값을 초과하는 스코어를 가지고 있고, 이에 의해 상기 단어들의 종점에 도달하기 전에 종료되기 때문이다. 마지막으로, 상기 단어(c)는 단어들(d, e, f)에 의해 연속된다.
간결성을 위해, 상기 단어들(a, b, c)은 각종 단어들(d, g,...)과 연속되게 동일 종점을 가진 것으로 가정함에 주의한다. 그러나, 실제로는 그렇지 않다. 한편, 상이한 단어들의 종점들, 예컨대 제 2a 도의 t1 및 t2가 일치할 수 있다. 다른 단어들의 경우도 마찬가지이다.
순간 t4에서 종료되는 단어(d)는 3 개의 직전 단어들(a, b, c)을 가지며, 상기 직전 단어들의 각각에 대해, 단어 결과가 제 2b 도의 t4 밑에 표시된 바와 같이 저장된다. 단어들(e, f)은 동일한 순간(t5)에서 종료되며, 그러므로, 모든 대응하는 단어 결과들은 t5 밑에 저장되며, 여기서 단어(e)는 2 개의 직전 단어들만을 갖는 반면에, 단어(f)는 하나의 직전 단어만을 갖는다. 순간(t6)에서 종료되는 단어(g)는 2 개의 직전 단어들, 즉 a 및 b을 가지며, 대응하는 단어 결과들은 t6 밑에 저장된다.
순간 t7에서, 음성 신호의 종점에 도달된다. 따라서, 3 개의 단어들(h, i, k)의 종점에 도달된다. 상기 단어(h)는 3 개의 직전 단어들(d, f, g)을 가지며, 각각의 단어 결과는 제 2b 도에 도시된 바와 같이 t7 아래에 저장된다. 유사하게, 상기 단어(i)는 t7 아래에 개별적으로 저장될 필요가 있는 동일한 3 개의 직전 단어들(d, g, f)을 갖는다. 이에 대해 제 2b 도에는 완전하게 도시되어 있지 않다. 명료성을 위해, 제 2b 도에는 단어 k에 대한 3 개의 단어 결과들이 생략되어 있다.
상이한 단어열들, 예컨대 단어열 a-g-i, b-d-h, c-f-k 등을 초래하는 다수의 경로들이 가능함은 제 2a 도에 도시된 단어 격자로부터 명백하다. 이들 단어열들은, 순간 t7에서 종료되는 단어들(h, i, k)의 각각으로부터 직전 단어 및 그와 유사한 직전 단어들이 그 단어들의 저장된 시점을 통해 발견됨으로써 결정될 수 있다. 상기 많은 단어열들로부터, 최량의 스코어를 가진 t7 아래의 단어 결과로 종료되는 그 단어열이 선택될 수 있다.
단어들(a 내지 k)이 모두 다를 필요가 없음에 주의한다. 예컨대, 단어 a와 f는 동일할 수도 있다.
그러나, 단어열들이 언어 모델, 특히 고차 언어 모델로 평가될 때 인식의 신뢰도가 개선될 수 있다. 그러므로, 바이그램(bigram) 언어 모델이 단어 쌍 b-g, b-d, a-g 등과 같은 각각의 제 1 단어 쌍의 종료시에 사용될 때, 관련된 언어 모델 값이 모든 제 2 단어의 종료시에 도달되는 스코어에 더해지고, 제 2 단어들(d, e, f 및 g)의 각각에 대해 직전 단어가 유지되며, 이 경우에 스코어와 언어 모델값의 합은 최소가 된다. 예컨대, 단어 쌍(b-g)이 단어 쌍(a-g)의 스코어보다 작은 스코어에 도달할 수도 있다. 그러나, 상기 단어 쌍(a-g)은 훨씬 더 매력적인 언어 모델값을 가질 수 있으며, 따라서 상기 단어 쌍(a-g)에 대해 언어 모델값과 스코어의 합이 최소로 될 수 있다.
유사하게, 단어 h 또는 i 또는 k가 최종 단어인 단어 쌍들에 대해 언어 모델이 고려될 수 있으며, 각각의 직전 단어에 대해, 원래 스코어와 언어 모델값의 합으로부터 얻어지는 새로운 스코어가 사용된다. 최종 단어들(h, i, k)의 각각에 대해, 각각의 직전 단어 쌍에 대한 스코어 및 대응 언어 모델값으로부터 새로운 스코어가 얻어지며, 이에 따라 단어들(h, i, k)의 각각에 대해, 단일의 경로만이 순간 to에서의 시점까지 잔류한다. 이들 경로 또는 열로부터, 최종 단어 h 또는 i 또는 k에 대해 가장 바람직한 스코어에 도달한 그 하나가 선택된다.
유사하게, 조금 더 많은 계산만을 요구하는 트라이그램(trigram) 언어 모델이 사용될 수 있으며, 이는 그 주요 부분이 단어들의 가정을 결정하여 제 2a 도에 따라 단어 격자를 발생하는데 필요하기 때문이다.
제 3 도는 음성 신호로부터 단어열을 결정하는 장치의 블록도이다. 상기 음성 신호는 마이크로폰(10)을 통해 픽업되어, 전기 신호로 변환된다. 상기 마이크로폰은 상기 장치의 나머지 부분과 일체로 형성될 수 있다. 그러나, 상기 마이크로폰은 원격 위치에 배열될 수도 있다. 예컨대, 상기 마이크로폰과 상기 장치의 나머지 부분간의 접속은 전화선에 의해 형성될 수 있다.
마이크로폰(10)에 의해 공급되는 전기 신호가 아날로그 신호이면, 상기 아날로그 신호는 유닛(12)에서 기존의 방식으로 주기적인 샘플링에 의해 디지탈 신호로 변환되며, 이들 테스트 신호는 반복되는 순간들(recurrent instants)에서 도출된다. 상기 테스트 신호들은 음성 신호의 예컨대 10 ms의 미리 결정된 시간 구간들 동안에 주어진 주파수 범위에서 예컨대 음성 신호의 에너지를 나타낸다.
상기 테스트 신호들은 유닛(16)에 인가되며, 이 유닛에서 상기 테스트 신호들은 메모리(14)에 저장된 기준 신호들과 비교된다. 상기 기준 신호들은 미리 결정된 테스트 문장들로부터 미리 결정될 수 있으며, 또한 영구적으로 저장될 수 있다. 그러나, 단어열의 인식 동안에 얻어진 결과들로부터 도출되는 이들 기준 신호들을 수정 및 보충(supplement)할 수도 있다. 이와 같은 단계들은 원래 공지되어 있고, 본 발명의 일부를 구성하지 않으며, 따라서 여기서는 상세하게 설명하지 않는다.
블록(16)에서의 비교는 특히 테스트 신호들의 계열과 메모리(14)에 저장된 기준 신호들의 계열이 일치하는 지에 관한 척도인 스코어들을 생성한다. 이 비교는 동적 프로그래밍 법에 의해 기존의 방식으로 실행된다. 또한, 스코어를 형성하는 동안에, 적어도 하나의 임계값과의 비교가 실행된다. 이 임계값을 초과할 때, 관련된 기준 신호들의 계열에 대한 비교는 중지된다. 또한, 비교 동안에, 이전의 기록(prior history), 즉 기준 신호들의 계열에 대한 비교의 시점 및 적어도 하나의 직전 단어가 갱신된다.
상기 메모리(14) 내의 기준 신호들의 계열은 주어진 어휘의 단어들을 나타낸다. 비교 동안에, 이와 같은 계열의 종점, 따라서 단어 종점에 도달할 때, 단어 결과가 도출된다, 이는 유닛(18)에서 실행된다. 각각의 단어 결과는 제 2b 도를 참조하여 설명된 지시들을 적어도 포함한다. 상기 단어 결과들의 결정시, 음향 레벨이라고 칭하는 인식의 제 1 레벨이 중지되고 상기 단어 결과들이 메모리(20)에 저장된다.
유닛(24)에서, 단어 결과가 메모리(22)에 기억된 언어 모델값으로 처리된다.이미 설명된 바와 같이, 각 단어 결과의 스코어는 언어 모델에 일치하는 값만큼 증가된다. 이 증가된 스코어는 상기 유닛(16)에 다시 인가되어 언어 모델을 고려하여 다음 테스트 신호와 기준 신호 계열의 시점과의 비교를 연속적으로 행하게 한다.
보충된 단어 결과들이 유닛(26)에 제공되며, 이 유닛에서는 최적의 단어열이 단어 결과들 내의 스코어를 기초로 선택될 수 있다. 이 선택은 문장의 종료시 행해질 수 있다. 그러나, 규칙적인 간격으로 예컨대 단어들의 수만큼 순간 상황을 지연시키는 단어 서브 열을 출력할 수 있으며, 이는 현재 순간 전의 주어진 시점까지 최적의 단어열이 알려지기 때문이다. 이 경우에는, 최종 단어열이 출력 장치(28), 예컨대 프린터 또는 디스플레이 스크린에 부분적으로 출력될 수 있다.
디스플레이 스크린에 출력할 때, 조작자는 에러, 즉 부정확하게 인식된 단어를 인식한다. 따라서, 조작자는 그 단어를 소거하고 최적의 단어열을 다시 출력하기 시작한다. 이에 따라, 종종, 상기 삭제된 단어 대신에 유사 단어가 나타나는 단어 격자를 통해 상이한 경로가 얻어진다. 상기 유사 단어도 부정확한 경우에는, 상기 동작이 반복될 수 있다. 이는 유닛(30)에 의해 표시되어 있다. 이 유닛에 의해, 음성 신호의 특별히 매력적인 대화식 처리 및 정확한 단어열의 에러 없는 실제적인 인식이 가능하다.
일부 유닛 또는 모든 유닛들은 대응하는 프로그래밍된 컴퓨터에 의해 실현될수도 있음을 주의한다. 일반적으로, 상기 메모리들 중 적어도 일부는 상기 컴퓨터의 메인 메모리에 효과적으로 포함되게 된다.
제 1 도는 2 개의 상이한 직전 단어들부터 시작하는 2 개의 가정의 진행을 나타낸 도면.
제 2a 도 및 제 2b 도는 개개의 단어 결과들에 대한 메모리 위치들의 내용으로 단어 결과들로부터 형성되는 단어 격자(word grid)를 나타낸 도면.
제 3 도는 본 발명에 따른 장치의 블록도.
* 도면의 주요부분에 대한 부호의 설명
10 : 마이크로폰 14, 22 : 메모리
26 : 출력 장치

Claims (2)

  1. 음성 신호로부터 미리 결정된 어휘의 단어열(sequence of words)을 인식하는 방법에 있어서,
    테스트 신호 계열(series of test signals)을 생성하기 위해 반복되는 순간들에서 상기 음성 신호를 샘플링하는 단계와;
    단어열 가정들을 형성하기 위하여 상기 테스트 신호들과 각종 기준 신호 계열들간의 비교를 음향 레벨에서 그리고 동적 프로그래밍 법에 의해 행함으로써 단어 격자(word grid)를 형성하는 단계로서, 관련된 직전 단어(associated predecessor word)의 지시 및 관련된 언어 모델값에 의해 증가되는 스코어를 적어도 포함하는 적어도 하나의 단어 결과가 매번 단어 종점과 관련되는, 상기 단어 격자 형성 단계와;
    이와 같이 형성되는 단어 격자 및 언어 모델값들에 의해 증가되는 스코어들을 기초로 최적의 단어열을 선택하는 단계를 포함하는, 단어열 인식 방법.
  2. 음성 신호로부터 소정의 어휘의 단어열을 결정하는 장치에 있어서,
    테스트 신호 계열을 생성하기 위해 반복되는 순간들에서 상기 음성 신호를 샘플링하는 수단(12)과;
    단어 격자를 형성하는 수단(16,18,20,22,24)으로서, 단어열 가정들을 형성하기 위해 상기 테스트 신호들과 각종 기준 신호 계열들간의 비교를 음향 레벨에서그리고 동적 프로그래밍 법에 의해 수행하며, 관련된 직전 단어의 지시 및 관련된 언어 모델값에 의해 증가되는 스코어를 적어도 포함하는 각각의 단어 결과가 단어종점과 관련되어 있는, 상기 수단(16,18,20,22,24)과;
    이와 같이 형성된 단어 격자 및 언어 모델값들에 의해 증가되는 스코어들을 기초로 최적의 단어열을 선택하는 수단(26)을 포함하는, 단어열 결정 장치.
KR1019950009155A 1994-04-15 1995-04-14 단어열인식방법및단어열결정장치 KR100374921B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DEP4412930.0 1994-04-15
DE4412930A DE4412930A1 (de) 1994-04-15 1994-04-15 Verfahren zum Ermitteln einer Folge von Wörtern

Publications (1)

Publication Number Publication Date
KR100374921B1 true KR100374921B1 (ko) 2003-05-09

Family

ID=6515424

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950009155A KR100374921B1 (ko) 1994-04-15 1995-04-14 단어열인식방법및단어열결정장치

Country Status (5)

Country Link
EP (1) EP0677835B1 (ko)
JP (1) JPH08328580A (ko)
KR (1) KR100374921B1 (ko)
CN (1) CN1103986C (ko)
DE (2) DE4412930A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734409B1 (ko) * 2002-10-29 2007-07-03 노키아 코포레이션 핸드헬드 전자 장치에서 텍스트를 편집하는 방법 및 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3050180B2 (ja) * 1997-08-08 2000-06-12 日本電気株式会社 音声認識装置
EP1215662A4 (en) * 2000-02-28 2005-09-21 Sony Corp SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, AND RECORDING MEDIUM
JP4465564B2 (ja) 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
CN101609671B (zh) * 2009-07-21 2011-09-07 北京邮电大学 一种连续语音识别结果评价的方法和装置
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3786822T2 (de) * 1986-04-25 1994-01-13 Texas Instruments Inc Spracherkennungssystem.
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734409B1 (ko) * 2002-10-29 2007-07-03 노키아 코포레이션 핸드헬드 전자 장치에서 텍스트를 편집하는 방법 및 시스템

Also Published As

Publication number Publication date
JPH08328580A (ja) 1996-12-13
CN1124863A (zh) 1996-06-19
CN1103986C (zh) 2003-03-26
EP0677835A2 (de) 1995-10-18
EP0677835A3 (de) 1996-04-17
EP0677835B1 (de) 2000-07-12
DE59508549D1 (de) 2000-08-17
DE4412930A1 (de) 1995-10-19

Similar Documents

Publication Publication Date Title
US5634083A (en) Method of and device for determining words in a speech signal
US8311832B2 (en) Hybrid-captioning system
US5515475A (en) Speech recognition method using a two-pass search
US5268990A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US4783803A (en) Speech recognition apparatus and method
US20170133038A1 (en) Method and apparatus for keyword speech recognition
JPH10254490A (ja) 言語モデルの適応化方法
AU2003246894B2 (en) Speech dialogue systems with repair facility
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
KR19990014292A (ko) 신뢰성 있는 바지-인과 음성검출의 조기종료에 유용한 연속 상태의 음성 인식에서의 단어 카운팅 방법과 절차
US6393398B1 (en) Continuous speech recognizing apparatus and a recording medium thereof
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
WO2003067572A2 (en) Speech recognition circuit using parallel processors
JP3980082B2 (ja) 信号処理方法及び装置
JP3652711B2 (ja) 単語列の認識方法および装置
JP2002215187A (ja) 音声認識方法及びその装置
US5687288A (en) System with speaking-rate-adaptive transition values for determining words from a speech signal
KR100374921B1 (ko) 단어열인식방법및단어열결정장치
EP0482395A2 (en) Method and apparatus for generating models of spoken words based on a small number of utterances
US9583095B2 (en) Speech processing device, method, and storage medium
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
US6275802B1 (en) Search algorithm for large vocabulary speech recognition
EP0488208B1 (en) High speed recognition of a string of words connected according to a regular grammar by dp matching
US20030110032A1 (en) Fast search in speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070126

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee