KR100512662B1

KR100512662B1 - 음성검출의조기종료와신뢰성있는바지-인에유용한연속적인음성인식에서의워드카운팅방법및장치

Info

Publication number: KR100512662B1
Application number: KR10-1998-0030787A
Authority: KR
Inventors: 라피드 안툰 수카르; 아난드 랑가스와미 세틀러
Original assignee: 루센트 테크놀러지스 인크
Priority date: 1997-07-31
Filing date: 1998-07-30
Publication date: 2005-11-21
Also published as: DE69827202T2; EP0895224A2; CA2238642A1; DE69827202D1; KR19990014292A; EP0895224A3; JPH1195791A; USRE38649E1; US5956675A; EP0895224B1; JP3568785B2; CA2238642C

Abstract

에너지에 근거한 음성의 종료가 이루어지기 전에 이용가능하고, 가장 가능성있는 음성인식 결과가 얻어지도록 음성 인식기술이 발전되어왔다. 본 발명은 음성-응답 시스템에 대한 지적인 바지-인(intelligent barge-in)을 제공하고, 처리 스루풋(processing throughput)을 증가시키기 위해, 전체 워드 시퀀스와 관련되는 작업들의 패러렐링(paralleling) 그리고/또는 파이프라이닝(pipelining)을 제공하도록 서브 시퀀스들을 출력하기 위한 워드들을 카운트하기 위해 신속하게 이용가능한 음성인식 결과들을 혁신적으로 사용하고 있다.

Description

음성검출의 조기종료와 신뢰성 있는 바지-인에 유용한 연속적인 음성 인식에서의 워드 카운팅 방법 및 장치

기술분야

본 발명은 자동 음성인식 방법과 장치에 관한 것으로서, 특히 연결된 워드들의 인식을 신속하게 하는 장치와 방법에 관한 것이다.

여러 가지의 자동 음성인식 방법들과 시스템들이 존재하며, 널리 알려져 있다. 동적 프로그래밍과 Hidden Markov Models(HMMS)를 이용하는 방법들은 IEEE Transactions on Acoustics, Speech and, Signal Processing의 1989년 통권 37호 11월호에 실려져 있는 Chin Hui Lee와 Lawrence R. Rabiner의 "Frame -Synchronous Network Search Algorithm for Connected Word Recognition"이라는 논문에 게재된 것으로 알려져 있다. 리-라비너 논문은 1989년에 연결된 워드들의 자동 음성인식을 위한 방법들과 시스템들의 양호한 개요를 제공하고 있다.

E. Buhrke, W.Chou와 Q.Zhou의 논문 "A Wave Decoder for Continuous Speech Recognition"은 1996년 10월 ICSLP의 Proceedings에 게재되었는데, 음성인식 기능과 하드웨어 조건들을 개선시키기 위해 빔 검색(beam searching)으로 알려진 기술을 설명하고 있다. Buhrke-Chou-Zhou의 논문은 또한 최상의 제 1 검색 전략과 기술들을 설명하고 있는 D.B. Paul의 "An Efficient A* Stack Decoder..."를 언급하고 있다.

음성 인식은 상술한 논문들에서 설명한 바와 같이, 입력 음성 발음과 대응하는 워드들(W1-Wn)의 최상(가장 높은 가능성 있는 점수)의 시퀀스를 검색하는 것을 포함하고 있다. 음성 인식을 위해 사용되는 지배적인 검색 알고리즘은 동적 비터비 디코더이다. 이 디코더는 그 구현에 있어 효과적이다. 발음에 대응하는 최상의 워드 시퀀스를 발견하기 위해서 모든 가능한 워드들에 대한 완전한 검색은 너무 방대하고, 시간을 많이 요구하게 된다. 규모와 시간문제들을 해결하기 위해서, 빔 검색이 자주 구현되었다. 빔 검색에서는, 현재의 최상의 점수(score)로부터 미리정해진 수학적 거리 내에 있는 가능한 이들 상기 워드 시퀀스 가설들(hypotheses)들이 보유되고, 확장된다. 가능성이 없는 가설들은 검색으로부터 제거되거나 또는 삭제된다. 가능성이 없는 워드 시퀀스 가설들을 제거하는 것은 검색이 요구하는 크기와 시간을 감소시키는 효과를 가지며, 음성 인식 시스템의 실제적인 구현이 가능하게 한다.

인식될 발음의 시작 시에, 미리정해진 문법에 근거하여 시퀀스를 시작하기 위해 유효한 워드들인 이들 워드들만이 활성될 수 있다. 각 시간 프레임에서, 비터비 알고리즘을 사용하는 동적 프로그램은 워드 망의 활성 부분에 걸쳐 수행된다. 워드 망의 활성 부분은 빔 검색 방법이 사용될 때에 시간에 따라 변한다는 것을 알아야 한다. 가능성이 없는 워드 시퀀스들은 삭제되며, 가능성 있는 워드들은 미리 정해진 문법에서 명시된 바에 따라 확장된다. 이들 좀 더 가능성 있는 워드 시퀀스들은 미리정해진 문법 내에서 명시된 바에 따라 확장되며, 워드 망(word network)의 활성 부분(active portion)내에 포함되게 된다. 각 시간 프레임에서, 시스템이 모든 존속가능한 워드 시퀀스들의 링크된 목록을 디코딩 트리(tree)상의 각 노드들에 편집한다(compile). 이러한 디코딩 트리는 그것의 노드들과 함께, 매 시간 프레임 동안에 갱신된다. 더 이상 활성 상태가 아닌 임의의 노드는 제거되고, 새로운 노드들이 새로운 활성 워드들에 대해 추가된다. 그러므로, 디코딩 트리는 링크된 목록에 따른 빔 검색 알고리즘의 동작에 의해 삭제되지 않은 존속가능한 워드 시퀀스들을 유지한다. 디코딩 트리의 각 노드는 워드와 대응하고, 워드 종료시간, 워드 시퀀스의 이전 워드 노드에 대한 포인터 및 여기에 저장된 워드 시퀀스의 누적 점수와 같은 정보를 가지고 있다. 발음의 종료에서, 최적의 누적 점수들을 가진 워드 노드들은 가장 가능성 있는 워드 시퀀스를 얻기 위해 디코딩 트리 내에 있는 포인터 엔트리들(pointer entries)의 시퀀스들을 통해 트래버스 백(traverse back)한다. 이러한 트래버싱백은 보통 음성 인식에서 "백트래킹(backtracking)"이라고 알려져 있다.

자동 음성인식에 대한 공지된 방법들 및 시스템들의 공통적인 단점은 발음의 종료부분을 결정하기 위해서 에너지 검출기들을 사용한다는 것이다. 에너지 검출은 발음의 시작과 종료를 결정하기 위해 신호 처리 및 관련된 분야들에서 잘 알려진 기술을 제공한다. 에너지 검출에 근거한 음성 인식 방법(200)이 도2에 도시되어 있다. 방법(200)은 음성 처리를 위해 시간 프레임들로 전화선 상에서 수신되는 것과 같은 입력 신호를 디지털화하기 위해 백그라운드 시간 프레이밍 장치(background time framing arrangement)(도시 안됨)를 사용하고 있다. 시간 프레임들은 임의의 프레임이 음성 처리를 결정하기 위해 수행할 수 있는 충분한 에너지를 가지고 있는 지를 단계(20)에서 분석된다. 프레임이 고려할 충분한 에너지를 가지고 있지 않다면, 단계(202)는 다음 프레임에 대해 반복되지만, 만약 프레임의 내용을 고려하도록 충분한 에너지가 있다면, 방법(200)은 통상적인 음성인식 단계들인 단계들(204-210)로 진행한다. 다음에는, 단계(220)에서, 수신된 에너지와 임의의 시스템이 동시에 발생된 오럴(aural) 프롬프트(prompt)를 플레이(play)시키는지를 알아보기 위해서, 음성 인식 처리를 시작하는 프레임들이 검사된다. 만약 답변이 "예"라면, 바지 인(barge in) 조건들이 발생되며, 발음의 음성처리의 나머지 부분을 위해 오럴 프롬프트가 단계(222)에서 중지된다. 다음에는, 단계(220)에서의 부정적인 결정 또는 단계(222)에서의 프롬프트 디스에이블(disable)로부터 단계(224)는 충분한 에너지가 없는 갭(gap) 시간이 발생되었는지를 결정한다. 이러한 갭 시간은 현재 발음의 종료를 의미한다. 그것이 발생되지 않았다면, 그것은 분석할 음성이 더 있다는 것을 의미하고, 본 방법은 단계(204)로 돌아가고, 그렇지 않으면, 에너지가 없는 갭 시간은 현재 발음의 종료로 해석되며, 발음에 대응하는 가장 가능성 있는 워드 시퀀스를 발견하기 위해서 백트래킹이 시작된다. 불행하게도, 이러한 갭 시간은 통상 1초 내지 초의 범위를 가지고 있는 시간 지연에 해당한다. 개별적인 호출자에 대해, 이러한 지연은 문제가 되지 않지만, 전화 서비스 제공자에게는, 자동 컬렉트 위치 서비스(collect placing service)와 같이, 하루에 수 천통의 호출들에 대해 1초 내지 초라는 지연은 증가할 수 있다. 6000 호출들에 대해, 음성 인식 시스템을 사용하고 있는 동안에, 초는 2시간 30분이라는 지연에 해당한다. 대량으로 사용하는 시스템들에 대해서는, 이러한 1초 내지 초라는 지연은 전화 서비스 제공자에게 더 많은 음성 인식기들을 사도록 하거나 또는 요금청구 가능한 전화 서비스의 많은 시간을 손실하게 한다. 게다가, 가장 가능성 있는 워드 시퀀스를 발견하기 위해 백트래킹이 발음 결정의 종료가 에너지 갭 시간에 근거하여 이루어질 때까지 시작되지 않으므로, 패러렐(parallel) 및/또는 파이프라이닝 처리를 위해 부분적인 워드 시퀀스들의 사용은 불가능하다.

발명의 요약

간단히 말하자면, 본 발명의 한 실시예에 따라, 상기 문제점들은 음성 발언(speech utterance)이 시작되었는지를 결정하는 단계를 가지며, 만약 발음이 시작되지 않았다면, 다음 프레임을 얻고, 이러한 음성 발음 시작 결정 단계를 재동작시키는 방법을 제공함으로써 해결된다. 발음이 시작되었다면, 다음 단계는 시간적으로 다음에 있는 프레임 주기를 나타내는 음성 발음의 음성 프레임을 얻는다. 다음에는, 음성 인식에서 사용되는 음성 프레임으로부터 특징들이 추출된다. 다음 단계는 음성 인식망을 만들기 위한 동적 프로그래밍을 수행하고, 이어서 음성인식 망을 이용하는 빔 검색을 수행하는 단계가 수행된다. 다음 단계는 빔 검색 후, 음성 발음의 디코딩 트리(decoding tree)를 갱신하는 것이다. 다음 단계는 음성 발음의 제1 워드가 수신되었는지를 결정하는 것이다. 그리고, 그 워드가 수신되었다면, 임의의 오럴 프롬프트(aural prompt)를 디스에이블시키고, 다음 단계로 진행되며, 만약 그렇지 않다면, 제1 워드가 수신되지 않았다고 결정된다면, 다음 단계로 진행한다. 이 다음 단계는 N 개의 워드들이 수신되었는지를 결정하고, 만약 N개의 워드들이 수신되지 않았다면, 다음 프레임을 얻는 단계로 돌아가며, 그렇지 않다면, 다음 단계로 진행한다. N은 음성 발음의 종료를 나타내는 음성 발음의 최대 워드 카운트이므로, 이 다음 단계는 수신된 음성 발언에 대응하는 가장 큰 가능성을 가지고 있는 워드 스트링(word string)을 얻기 위해 가장 큰 가능한 점수를 가지고 있는 빔 검색 경로를 통해 백트래킹하는 것이다. 스트링이 결정된 후에, 다음 단계는 워드 스트링을 출력하는 것이다.

본 발명의 다른 양태에 따르면, 상술한 문제점들은 음성 발언의 음성 인식을 위한 시스템을 제공함으로써 해결되며, 상기 시스템은 음성 발언이 시작되었는지를 결정하는 수단과, 시간적으로 다음에 있는 프레임 주기를 나타내는 음성 발언의 음성 프레임을 얻기 위해 상기 음성 발음 시작 결정 수단에 응답하는 수단과, 상기 음성 프레임으로부터 특징들을 추출하기 위한 수단과, 동적 프로그래밍을 이용하여 음성 인식 망을 구축하기 위한 수단과, 음성 인식 망을 이용하여 빔 검색을 수행하기 위한 수단과, 빔 검색 후에 음성 발음의 디코딩 트리를 갱신하기 위한 수단과, 음성 발음의 제1 워드가 수신되었는지를 결정하고, 그것이 수신되었다면, 오럴 프롬프트를 디스에이블하기 위한 수단과, 음성 발음의 또 다른 음성 인식처리를 빨리 종료하기 위해서 N 개의 워드들이 수신되었는지를 결정하기 위한 수단과, 수신된 음성 발음에 대응하는 가장 큰 가능성을 가진 워드 스트링을 얻기 위해 가장 큰 가능한 점수를 가지는 빔 검색 경로(beam search path)를 통해 백트래킹하기 위해 상기 N 워드 결정 수단에 응답하는 수단과, 상기 워드 스트링을 출력하기 위한 수단을 포함한다. 본 발명의 특정 실시예에 따르면, 이러한 시스템은 연결된 메모리 내에 저장되고, 그로부터 검색되는 저장된 프로그램을 실행하는 처리기에 의해 제공된다.

도1을 참조하면, 본 발명에 따르는 시스템(102)을 이용하기 위한 장치(10)의 블록도가 도시되어 있다.

시스템(102)은 메모리(106)내에 저장된 프로그램들을 따르는 처리기(104)를 가지고 있다. 시스템(102)의 다수의 예들은 한 개의 회로판에서 구현될 수 있으며, 그로 인해, 음성 인식을 위한 다중 채널들을 제공한다. 메모리(106)는 음성 인식 프로그램과 지원 데이터를 저장하기 위해서 예컨대 ROM, RAM과 벌크 저장장치(bulk storage)와 같은 모든 유형들의 메모리를 포함한다. 시스템(102)은 연속해서 전화망(80)으로부터 데이터를 받아들이며, 그 데이터를 시간 프레임들로 나누며, 그후에 매 시간 프레임을 처리하여 저장된 프로그램들과 처리기에 의해서 제공되는 음성인식 방법들에 의해 분석되어지는 수신된 입력신호들의 수 많은 특성들과 계수들을 제공한다. 발명의 배경에서 언급된 바와 같이, 이 음성 처리기술들은 HMM들(Hidden Markov Models)과 빔 검색 기술들을 포함한다.

발명의 배경에서 언급된 바와 같이, 도2는 음성 인식을 위한 기존의 방법(200)을 도시하고 있다. 방법(200)은 도1에 도시된 시스템(102) 상에서 사용하기 위해 구현될 수 있다.

이하, 도1과 도3을 참조하면, 시스템(102)을 사용하여 구현되는 다른 방법이 도시되어 있다. 방법(300)은 본 발명에 따르는 방법이다. 방법(300)은 음성(speech)일 수 있는 에너지가 시스템(102)에 의해서 수신되었는지 아닌지를 결정하는 단계(302)로 시작된다. 만약 그 결정이 음성일 수 있는 에너지가 수신되지 않았다는 것이라면, 단계(302)는 다음 주기동안에 반복된다. 그러므로, 단계(302)는 도2의 단계(202)와 같이, 전화망(80)으로부터 수신되는 신호들을 연속적으로 프레임(frame)하도록 시간 프레이밍 처리를 요구한다. 종종, 이 프레임들은 비어 있거나, 또는 단지 잡음신호들만을 갖는다. 이러한 경우에서, 에너지 레벨이 낮으므로, 단계(302)는 비어 있거나 또는 낮은 에너지 레벨 프레임을 인식된 음성으로 결정하지 않을 것이다. 만약, 많은 양의 잡음 또는 누군가가 기침, 호흡 또는 대화와 같은 음성 또는 어떤 종류의 발음이 존재하면, 단계(302)는 음성 인식 처리들을 시작하기 위해서 충분한 음성 에너지가 존재한다고 결정할 것이고, 음성인식처리가 시작된다. 다음에는, 단계(304)가 최근의 시간 프레임을 순차적으로 로드한다; 만약 이것이 단순히 시작이라면, 이것은 제1 프레임이다. 제1 프레임 후에, 단계(304)는 현재 발음의 음성처리가 완료될 때까지 모든 프레임들을 순차적으로 로드할 것이다. 단계(304)에서 로딩을 한 후에, 각 프레임은 단계(306)에서 추출되고 저장되는 그 특징들을 갖는다. 이러한 특징 추출은 통상적인 특징 추출이다.

단계(308)에서, 추출된 특징들이 Hidden Markov Model들과 같은, 미리정해진 문법의 워드들 및 워드 시퀀스의 모델들과 비교된다. 추출된 특징들이 활성인 워드 모델들과 비교되므로, 가능한 점수들이 단계(308)에서 수집된다. 단계(310)는 활성 노드 모델 점수들을 취하고, 인식되는 발음이 될 수 있는 가능한 워드 시퀀스들의 워드 망을 구축하기 위해서 동적 프로그래밍을 수행한다. 이 동적 프로그래밍은 동작 중에 비터비 알고리즘을 수행한다. 일단 현재 프로그램에 대한 동적 프로그래밍이 완료되면, 빔 검색이 단계(312)에서 수행된다. 이러한 빔 검색은 가능성이 없는 워드 시퀀스들을 삭제하고, 가능성 있는 워드 시퀀스들을 확장하고 갱신하는 활성 워드 목록을 저장한다. 다음에, 단계(314)는 발음과 대응하는 가장 가능성 있는 워드 시퀀스를 발음의 종료시에 제공하기 위해서 구축된 디코딩 트리를 갱신한다. 단계(314)후에, 방법(300)은 두 개의 평행한 경로들로 동작한다. 두 개의 경로들은 활성이며, 발음 종료의 각 정의들에 따라 발음의 종료를 찾는다.

단계(320)는 미리정해진 문법의 제 1 워드가 발음 내에서 인식되었는지를 결정한다. 이러한 결정은 음성 인식에 근거한 것이며, 에너지에 근거한 것이다. 이러한 결정은 디코딩 트리의 비침묵(non-silence) 노드들과 관련된 포인터들을 통해 트래버싱함으로써 디코딩 트리내에 포함된 존속가능한 워드 시쿼스들을 조사함으로써 행해진다. 만약 모든 존속가능한 경로들이 미리정해진 문법 내에 있는 적어도 하나의 비침묵 워드를 포함하고 있다면, 제1 워드가 발음되었다고 결정된다. 만약 문법의 제1 워드가 발음되었다면, 단계(322)에서 음성인식에 근거한 바지-인이 선언되고, 임의의 오럴 프롬프트가 디스에이블된다. 만약 이것이 제1 워드가 아니거나, 또는 다음 단계가 제1 워드처리 단계(322)후에 있다면, 방법(300)은 단계(324)로 진행한다. 하지만, 단계들(320,322)의 인식에 근거한 바지-인이 절대 감지(absolute sense)에 있어, 에너지 검출방법보다 더 느리며, 미리정해진 문법의 부분이 아닌 워드들 또는 음성들에 대해 음성 인식에 근거한 바지-인이 더욱 신뢰성이 있다. 이러한 개선된 바지-인의 신뢰도는 바지-인에 대해 중지되는 오럴 프로프트가 기침, 잡담 또는 오럴 프롬프트에 대한 예측된 응답과 관련이 없는 다른 음성들에 대해서는 중지하지 않는다는 것을 의미한다. 그러므로, 스피커(speaker)는 진정한 바지-인 음성이 아닌 몇몇 음성에 의해 우연히 중지되는 오럴 프롬프트에 의해 혼란을 겪거나 그의 대화 속도가 느려지지 않게 된다.

단계(324)에서, 가장 가능성 있는 워드 시퀀스들 내의 워드들의 수의 각 카운트가 행해진다. 단계(324)에서, 현재 프레임에 대한 디코딩 트리의 내용들이 검사되며, 모든 존속가능한 워드 시퀀스들의 워드들의 수를 카운트한다. 이러한 검사는 디코딩 트리 내에 포함되는 존속가능한 워드 시퀀스들을 검사하고, 그후에, 디코딩 트리의 비침묵 노드들과 관련된 포인터들을 통해 트래버싱함으로써 수행된다. 만약 디코딩 트리 내의 각 워드 시퀀스들 각각은 각 시퀀스 내에 정확하게 n개의 워드들을 가지고 있다면, n개의 워드들이 발음되어졌다고 결정된다. 그러나, 만약 존송가능한 워드 시퀀스들 중 적어도 하나가 n개의 워드들과 다르다면, 그 검사는 현재 프레임에 대해 워드 카운트가 n이라고 결론을 내리지 못한다. n개의 워드 카운트가 나타날 경우에는 최대 워드 카운트 N을 가진 워드 카운트 n을 얻을 수가 있다. 만약 n의 카운트가 N, 즉, 시퀀스 내의 최대 예측되는 수와 동일하다면, 발음의 음성처리는 완료되도록 선언되며, 백트래킹은 가장 가능성 있는 워드 시퀀스를 출력하기 위해서 시작된다. N개의 워드들의 가장 가능성 있는 워드 시퀀스의 출력은 현재 발음을 인식하는 일을 종료한다. 음성 인식에 근거한 발음종료는 결과의 정확도에 영향을 끼치지 않으면서, 처리되는 매 각 워드 시퀀스에 대해 약 1초를 절약하게 된다.

단계들(320-324)와 병행하여 수행되는 것은, 현재의 비어 있는 프레임과 충분한 에너지를 포함하고 있는 최종 프레임간의 갭 시간을 측정하는 단계(330)이다. 그 갭 시간이 초과된다면, 그것은 발음이 N 개의 예측된 워드들이 인식되기 전에 중지했다는 것을 의미한다. 만약 갭 시간이 N번째 워드가 결정되기전에 결정된다면, 그후에, 단계(330)는 발음이 완료되었다는 것을 선언하며, 가장 가능성 있는 워드 시퀀스를 출력하기 위해 백트래킹이 시작된다. 통상적으로, 방법(300)에서는, 갭 시간종료는 에러를 의미하지만, 인식기의 출력은 음성 합성기(도시 안됨)에 의해 발음기(utterer)로 다시 판독되거나 수용된다. N의 예들은 장거리 전화 번호들이 될 수 있으며, 대부분의 신용카드들에서 16개의 디지탈 번호가 될 수도 있다.

이하, 도4를 참조하면, 본 발명의 다른 실시예가 도시되어 있다. 방법(400)은 방법(300)과 매우 유사하다. 방법(400)의 단계들(402-414)은 실제적으로 방법(300)의 단계(302-314)와 동일하며, 따라서 더 이상 논의되지 않을 것이다.

디코딩 트리 갱신 단계(414)후에, 방법(400)은 방법(300)과 같이 두 개의 평행한 경로들로 분리된다. 단계(421)는 현재 프레임에 대한 디코딩 트리의 내용들을 검사하며, 모든 존속가능한 워드 시퀀스들의 워드들의 수를 계산한다. 이러한 검사는 디코딩 트리 내에 포함되어 있는 존속가능한 워드 시퀀스들을 검사하고, 디코딩 트리의 비침묵 노드들과 관련된 포인터들을 트래버싱함으로써 수행된다. 만약 디코딩 트리내의 각 워드가 각 시퀀스 내에서 정확하게 n개의 워드들을 가진다면, n개의 워드들이 발음되어졌다고 결정된다. 그러나, 만약 존속가능한 워드 시퀀스들 중 적어도 하나가 n개 이외의 워드들을 가진다면, 그후에, 검사는 현재 프레임에 대해 워드 카운트가 n이라고 결론을 내리지 못한다. n개의 워드 카운트가 단계(421)에서 얻어질 때에, 워드 카운트 n은 단계(424)에 의한 사용을 위해 출력되고, 방법(400)은 단계(424)로 진행한다. 단계(424)에서, 워드 카운트 n이 1 및 최대 워드 카운트 N과 비교된다. 1과의 비교는 제1 워드가 발음되었다면, 현재의 워드는 제1 워드가 되며, 그 후에는, 음성인식에 근거한 바지-인이 선언되며, 임의의 오럴 프롬프트가 단계(426)에서 디스에이블된다는 점에서 방법(300)의 단계(320)와 매우 유사하다. 만약 단계(424)에서 워드 카운트 n의 비교가 1보다 크지만, N보다 작다면, 유효한 워드 서브시퀀스 또는 그룹이 존재하고, 그렇지 않으면, n에 대한 동의(agreement)는 존재하지 않게 되며, 결정되지 않은 n은 단계(421)의 결과가 되고, 방법(400)은 단계(404)로 돌아간다. 방법의 이러한 장점은 처음의 세 개 또는 네 개의 워드들이 안정되자마자, 10 워드 길이의 장거리 전화번호 또는 16 워드 신용카드 번호에 대해서는, 그것들이 워드 시퀀스의 종료전에 출력을 위해 이용가능하다는 것이다. 이러한 3,4, 또는 7 워드 그룹들은 전체의 발음 전에 출력될 수 있으며, 전체 음성 인식된 워드 시퀀스는 완료된다. 그러므로, 지역 코드들, 지역 코드들과 교환들, 또는 신용카드 회사의 액세스 라인(access lines)들은 액세스될 수 있으며, 억세스가 완료될 때에 워드 시퀀스의 나머지를 기다리게 된다. 이것은 발음의 초기 부분들 동안에 인식된 데이터의 파이프라이닝이 바로 사용될 수 있도록하며, 발음의 나머지 부분이 도착했을 때 그 부분이 파이프라인을 완료하도록 한다. 단계(426) 또는 단계(427)후에, 방법(400)은 단계(404)로 돌아가서, 발음의 종료가 달성될 때까지 데이터의 다음 시간 프레임을 처리한다.

단계(421)의 결과가 워드 카운트 n = N 이라면, 그후에, 발음에 대한 워드들의 최대 카운트가 얻어지며, 음성 인식은 처리를 중지할 수 있으며, 발음에 대응하는 가장 가능성 있는 워드 시퀀스를 발견하기 위해서 백트래킹을 시작한다. n=N 일때, 이러한 백트래킹은 바로 시작된다. 그러면, 발음이 완료되었다고 결론 내리기 위해서 에너지 검출결정에 의해 사용된 1초에서 1.30초 동안 대기할 필요가 없어지게 된다. 워드 카운팅이 효과가 있는 이유는 만약 워드들의 정확한 수가 인식되었다면, 그후에, 처리가 종료될 수 있으며, 가장 가능성 있는 응답에 대한 백트래킹이 시작되기 때문이다.

부분적인 워드 시퀀스는 또한 적당한 경우에 최대 워드 카운트 N을 변경시키기 위해서 검색표(look-up table)와 함께 사용될 수 있다는 것을 알아야 한다. 예를 들면, 만약 하나의 신용카드회사가 워드 시퀀스 내에 비표준 수의 워드들을 가지고 있다면, 그 신용카드회사의 계좌 중 하나를 나타내는 부분적인 워드 시퀀스의 인식은 따라서 방법(400)으로 하여금 발음의 마지막 워드가 도달되기 전에 최대 워드 카운트 N를 변경시키게 한다. 전화번호의 번호에 대해서도 마찬가지로, 없는 앞자리번호와, 지역 코드 또는 교환 앞자리번호는 보통의 10 자리 지역 코드와 지역 번호로부터 필요에 따라 더 크거나 또는 더 작은 최대 워드 카운트로 변경하는데 사용될 수 있다. 게다가, 명확하게 지역 코드들 또는 전화번호들이 아니라, 신용카드회사 지정기들(designators)일 수 있는 부분적인 워드 시퀀스들은 전화 번호 인식에서 신용카드번호 인식으로 기능을 전환하기 위해 사용될 수 있다. 신용카드 번호를 취하는 기능으로부터 전화번호를 취하는 기능으로의 반대 스위칭이 또한 제공될 수 있다. 이러한 스위칭을 위해, 최대 워드 카운트 N은 통상 변경되어야만 한다.

방법(400)은 방법(300)과 같이, 단계들(421-427)와 동시에 동작하는 에너지에 근거한 결정 브랜치(branch)를 갖는다. 단계(430)는 그것 내에 충분한 에너지를 포함하고 있는 최종 프레임 및 현재 비어 있는 프레임간의 갭 시간을 측정한다. 이 갭 시간이 초과된다면, 그후에, 예측된 워드들의 수(n)가 인식되어지기 전에, 발음이 중지한다. 만약 갭 시간이 n번째 워드가 결정되기 전에 결정된다면, 그후에, 단계(430)는 발음이 완료되었다는 것을 선언하며, 가장 가능성 있는 워드 시퀀스를 출력하기 위해 백트래킹이 시작된다. 통상적으로, 방법(400)에서, 에너지에 근거한 갭 시간종료는 에러를 의미하지만, 그러나, 인식기의 출력은 음성 합성기(도시 안됨)에 의해 스피커로 사용하거나 다시 판독기에 수용될 수 있다.

음성 인식 또는 에너지 검출에 의해 결정되는 방법(400)의 종료에서, 백트래킹 동작은 디코딩 트리에 대해서 수행되어, 입력 발음과 대응하는 가장 가능성 있는 워드 시퀀스를 얻으며, 그 워드 시퀀스는 방법(400)에 의해서 출력된다.

그러므로, 워드 카운팅의 사용을 통해 좀 더 빠른 음성 인식방법 및 장치가 개시되었음을 이해할 것이다. 이러한 더 빠른 음성 인식 방법과 장치는 음성 인식과 관련된 작업들을 패러렐 또는 파이프라이닝을 위해 부분적인 워드 시퀀스들을 출력할 수 있다. 게다가, 이러한 방법과 장치는 음성 응답 시스템들을 위해서 좀 더 신뢰성 있는 바지-인(barge-in) 동작을 제공할 수 있다. 본 발명은 특히 양호한 실시예들을 참조하여 기술되었지만, 당업자들은 형태, 상세사항들 및 응용들이 여기에서 만들어질 수 있음을 이해할 것이다. 첨부된 청구범위는 본 발명으로부터 벗어나지 않는 형태, 상세사항들 및 응용들의 모든 변경들을 커버하는 것으로 의도된다.

본 발명은 자동 음성인식 방법과 장치에 관한 것으로서, 특히 연결된 워드들의 인식을 신속하게 하는 장치와 방법을 제공한다.

도1은 본 발명에 따르는 음성인식 장치를 포함하는 시스템을 도시한 브록도.

도2는 종래의 에너지 레벨 트리거된(energy level triggered) 음성인식 방법을 도시한 흐름도.

도3은 에너지와 인식에 근거한 음성인식 방법을 도시한 흐름도.

도4는 발음(utterance)의 부분적인 결과들을 출력하기 위한 인식에 근거한 음성인식 방법을 도시한 흐름도.

*도면의 주요 부분에 대한 부호의 설명*

80 : 전화망 106 : 메모리

102 : 시스템 200 : 기존의 방법

104 : 처리기

Claims

음성인식(speech recognition) 방법에 있어서,

a. 음성 발음이 시작되었는지를 결정하고, 만약 발음이 시작되지 않았다면, 단계(a)의 시작부분으로 돌아가고, 그렇지 않을 경우에는, 단계(b)로 진행하는 단계와,

b. 시간적으로 다음에 있는 프레임 주기를 나타내는 음성 프레임(speech frame)을 얻는 단계와,

c. 상기 음성 프레임으로부터 특징들을 추출하는 단계와,

d. 음성인식 문법(speech recognition grammer)의 워드 모델들(word models)을 점수화하기 위해 현재의 음성 프레임으로부터 추출된 상기 특징들을 사용하는 단계와,

e. 비터비(Vierbi) 알고리즘을 이용하여 워드 시퀀스들의 활성 망(active network)을 동적으로 프로그래밍하는 단계와,

f. 상기 활성 망을 갱신하기 위해 가능성이 없는 워드들을 삭제하고, 가능성 있는 워드들을 확장하는 단계와,

g. 디코딩 트리(decoding tree)를 갱신하는 단계와,

h. 상기 음성 발음의 이 음성 프레임에 대해 워드 카운트 n을 결정하는 단계와,

i. n을 검사하고, 만약 워드 카운트가 1과 같다면, 임의의 오럴 프롬프트(aural prompt)를 디스에이블(disable)하고, 단계(b)로 진행하며, 만약 워드 카운트 n이 1보다 크지만 종료 카운트 N보다 작으면, 단계(j)로 진행하며; 상기 워드 카운트 n이 적어도 종료 카운트 N과 같다면, 단계(l)로 진행하는 단계와,

j. n 개의 워드들이 워드 카운트들 각각에 의해 인식되는 것으로 결정되었는지를 결정하고, n개의 워드들이 인식되는 것으로 결정되지 않았다면, 단계(b)로 돌아가며, n개의 워드들이 인식되었다면, 상기 n개의 워드들을 출력하고, 단계(b)로 돌아가고;, 그렇지 않을 경우에는, 단계(l)로 진행하는 단계와,

k. 다른 최대 워드 카운트를 요구하는 부분적인 워드 시퀀스가 워드 시퀀스에 대응하는지를 결정하고, 다른 최대 워드 카운트가 요구되면, 최대 워드 카운트 N을 상기 다른 최대 워드 카운트로 조정하는 단계와,

l. 현재의 활성 시퀀스들 각각의 워드 카운트들이 동일한 제거 카운트 N과 같은지를 결정함으로써 상기 발음의 종료가 이뤄졌는지를 결정하고, 상기 현재의 활성 워드 시퀀스들의 워드 카운트들 각각이 N과 같으면 상기 발음이 종료되었음을 선언하고 단계 n으로 진행하며, 그렇지 않으면 단계 m으로 진행하는 단계와,

m. 미리지정된 갭 시간(prespecified gap time)에 대해 어떤 음성 에너지가 존재하지 않았는지를 결정하고 어떠한 것도 존재하지 않았는다면, 발음이 종료되었음을 선언하고, 단계(n)로 진행하며, 그렇지 않을 경우에는, 단계(b)로 진행하는 단계와,

n. 상기 발음과 매칭하는 가장 큰 가능성을 가진 워드 시퀀스를 얻기 위해 다양한 활성 워드 시퀀스들을 통해 백트래킹(backtracking)하는 단계와,

o. 가장 가능성을 가진 워드 시퀀스에 대응하는 스트링(string)을 출력하는 단계를 포함하는, 음성 인식 방법.
제1 항에 있어서, 단계 h는,

상기 현재의 음성 프레임을 위한 디코딩 트리 내에 포함되는 모든 실행가능한 워드 시퀀스들을 검사하는 단계와,

상기 디코딩 트리의 비침묵 노드들(non-silence nodes)과 관련되는 포인터들 N을 통해서 트래버싱(traversing)하는 단계와,

모든 상기 실행가능한 워드 시퀀스들의 워드들의 수를 카운트하는 단계를 더 포함하는, 음성 인식 방법.
제1 항에 있어서,

인식되는 제1 워드는 미리지정된 문법 내에서 발견되는 워드이어야 하는, 음성 인식 방법.
제1 항에 있어서,

다른 최대 워드 카운트를 요구하는 부분적인 워드 시퀀스는 전화 번호 앞부분인, 음성 인식 방법.
제1 항에 있어서,

상기 부분적인 워드 시퀀스는 신용카드 계좌번호의 부분인, 음성 인식 방법.