KR100609253B1

KR100609253B1 - 언어 모델들에 기초한 정보 검색 및 음성 인식

Info

Publication number: KR100609253B1
Application number: KR1020007010945A
Authority: KR
Inventors: 마하잔밀린드브이.; 황쥬동디
Original assignee: 마이크로소프트 코포레이션
Priority date: 1998-03-30
Filing date: 1999-02-09
Publication date: 2006-08-04
Also published as: KR20010042377A; DE69932044T2; CN1253821C; JP4664423B2; EP1066625A1; CN1295705A; CN1474378A; JP4494632B2; JP2002510076A; US6418431B1; EP1066625B1; CA2321112A1; WO1999050830A1; CN1171199C; JP2009238235A; DE69932044D1; CA2321112C

Abstract

언어 모델(70)은 더 작은 제 1 데이터 저장부(72) 및 더 큰 제 2 데이터 저장부(74)에 액세스하는 음성 인식 시스템(60)에서 사용된다. 언어 모델(70)은 제 1 데이터 저장부(72)내에 포함된 정보에 기초하여 정보 검색 질의를 형성하고 제 2 데이터 저장부(74)에 질의함으로서 적응된다. 제 2 데이터 저장부(74)로부터 검색된 정보는 언어 모델(70)을 적응시키는데 사용된다. 또한, 언어 모델은 제 2 데이터 저장부(74)로부터 정보를 검색하는데 사용된다. 언어 모델은 제 1 데이터 저장부(72)내의 정보에 기초하고, 제 2 데이터 저장부(74)내의 정보에 기초하여 정해진다. 소정의 제 1 언어 모델에 대해, 또한 소정의 제 2 언어 모델에 대해, 제 2 데이터 저장부(74)내에서 문서의 혼란도가 결정된다. 문서의 관련성은 제 1 및 제 2 혼란도들에 기초하여 결정된다. 임계값 레벨을 초과하는 관련성 측정치를 갖는 문서는 검색된다.

음성 인식, 정보 검색, 일반 언어 모델, 토픽 언어 모델, 관련성, 혼란도.

Description

언어 모델들에 기초한 정보 검색 및 음성 인식 {Information retrieval and speech recognition based on language models}

본 발명은 음성 인식 및 정보 검색에 관한 것이다. 특히, 본 발명은 언어 모델(language model)을 적응시키는데 정보 검색 기술들을 사용하는 음성 인식 시스템, 및 관련 문서들을 검색하는데 음성 인식 언어 모델들을 사용하는 정보 검색 기술에 관한 것이다.

일반적으로, 정보 검색은 사용자가 정보의 대형 저장부로부터 사용자에게 관련된 정보를 찾아 검색하는 처리이다. 정보 검색을 실행할 때는 사용자가 필요로 하는 정보를 모두 검색하는 것이 중요하고(즉, 완전한 것이 중요하고), 동시에 사용자에게 검색되는 비관련 정보를 제한하는 것이 중요하다.(즉, 선택적인 것이 중요하다). 이들 차원들은 때로 재현도(recall)(완성도) 및 정확성(precision)(선택성)이라 칭하여진다. 많은 정보 검색 시스템들에서, 재현도 및 정확성 차원들 모두에 걸쳐 양호한 성능을 달성할 필요가 있다.

일부 기존의 검색 시스템들에서는 질의되고 탐색될 수 있는 정보의 양이 매우 크다. 예를 들면, 일부 정보 검색 시스템들은 일반적으로 인터넷, 디지털 비디오 디스크들, 및 다른 컴퓨터 데이터베이스들에서 정보를 탐색하도록 셋업된다. 이러한 정보 검색 시스템들은 전형적으로 예를 들면, 인터넷 탐색 엔진들 및 도서관 카탈로그 탐색 엔진들로 실현된다.

많은 정보 검색 기술들이 공지되어 있다. 이러한 기술들에서의 사용자 입력 질의(query)는 전형적으로 예를 들어, 사용자가 문서들 또는 현존하는 문서들의 특정 세트와 유사한 정보를 요구할 때 명시적 사용자 발생 질의로, 또는 암시적 질의(implicit query)로 제공된다. 전형적인 정보 검색 시스템들은 단일 단어(word) 레벨로 또는 용어(term) 레벨로 대형 데이터 저장부 내 문서들을 탐색한다. 각 문서들은 관련성(relevancy)(또는 유사성) 스코어로 할당되고, 정보 검색 시스템은 사용자에게 탐색된 문서들의 특정한 서브 세트를 제공하고, 전형적으로 그 서브 세트는 소정의 임계값을 초과하는 관련성 스코어를 갖는다.

일부 기존에 공지된 정보 검색 기술들 또는 방법들은 전체 텍스트 스캐닝(full text scanning), 서명 파일들(signature files)의 사용, 반전(inversion), 벡터 모델링(vector modeling)과 클러스터링(clustering), 및 tf*idf(term frequency * inverse document frequency)를 포함한다. 전체 텍스트 스캐닝에서는 탐색되는 문서가 특정한 문자 스트링들(letter strings)을 포함하는지의 여부를 결정하는 질의에서 불 함수들(Boolean functions)이 사용된다. 이러한 스캐닝 기술들에서는 탐색 스트링(즉, 질의)을 만족시키는지의 여부를 알도록 문서의 각 문자를 탐색하고, 이어서 불일치(mismatch)가 발견될 때 한 위치 우측으로 탐색을 이동시키는 것이 공통적이다. 시스템은 불일치가 발견될 때 하나보다 많은 위치를 우측으로 이동시키는 것과 같이, 질의를 미리 처리하는 다른 방법들을 사용하도록 적응되었다.

서명 파일들의 사용은 탐색되는 문서들로부터 공통된 단어들을 없애고 비공통 단어들을 어간들(stems)로 줄이는 것을 포함한다. 탐색되는 각 문서는 비트 스트링(즉, 서명)을 산출한다. 다양한 문서들에 대한 서명들은 문서들 자체로부터 분리된 파일에 순차적으로 저장된다.

반전 기술들은 각 문서를 나타내는 키워드들의 리스트를 구성하는 것을 포함한다. 키워드들은 인덱스 파일에 저장된다. 각 키워드에 대해, 적격인 문서를 나타내는 포인터들(pointers)의 리스트가 유지된다. 이때, 질의는 인덱스에 대해 진행되고, 포인터들은 관련되고 자격이 있는 문서들을 식별하는데 사용된다.

벡터 모델링 및 클러스터링은 유사한 문서들을 클러스터들로 칭하여지는 그룹들로 그룹화하는 것을 포함한다(이 기술은 또한 문서들 대신에 용어들에 적용될 수 있다). 클러스터를 발생하기 위해, 공통 단어들을 제거하고 단어들의 나머지 부분을 어간들로 줄임(접두사(prefix) 및 접미사(suffix) 제거를 포함함)으로써 인덱스가 형성된다. 동의어는 또한 공통적으로 빈도, 특수성, 관련성 등에 의해 가중화된 용어들을 가질 수 있는 개념 클래스에 배치된다. 인덱스는 t-차원의 공간에서 한 지점으로 문서들을 나타내는데 사용된다. 점들은 전형적으로 반복 처리를 통해 전개되는 유사성 매트릭스를 가진 그룹들로 분할된다. 클러스터를 탐색하기 위해, 질의는 t-차원 벡터로 표현되고 클러스터 중심과 비교된다. 클러스터-질의 유사성 함수가 발생되어 관련 문서들을 추출하는데 사용된다. 추출된(또는 검색된) 문서들은 통상 소정의 임계값을 초과하는 유사성 값을 갖는 것들이다.

의미 정보(semantic information)는 일부 정보 검색 기술에서 보다 나은 성능을 이루기 위해 정보 저장부내의 각 문서에 대한 정보를 더 많이 포착하는데 사용된다. 이러한 시스템에서는 질의들의 의미 내용을 탐색되는 문서들의 내용에 일치시키는데 자연어 처리가 사용된다. 탐색되는 문서들을 인덱스화하는 용어들로는 문장들 또는 구들(phrases)이 사용된다. 잠재적 의미 인덱싱은 특정한 문서에서 한 용어의 발생들의 수가 매트릭스에 플롯되는 용어/문서 매트릭스를 형성하는 것을 포함한다. 작은 단일값들은 전형적으로 제거되고, 나머지 용어의 빈도 벡터들은 맵핑된다. 질의들은 또한 용어 빈도 벡터들로 형성되고, 문서들에 대한 용어 빈도 벡터들을 포함하는 매트릭스에 대해 맵핑된다. 문서들은 코사인 유사성 측정(cosine similarity measure)을 구하기 위해 표준화된 선형곱들을 사용함으로써 등급이 정해진다.

의미 정보를 사용하는 또 다른 종류의 정보 검색 기술은 신경망(neural network)이다. 본질적으로, 용어 사전(thesaurus)이 구성되고, 은닉층의 노드가 용어 사전에서 각 개념에 대응하여 생성된다. 이때, 탐색들을 실행하는데는 확산 활성화 방법이 사용된다.

tf*idf(term frequency * inverse document frequency)는 문서들의 관련성을 결정하는데 사용되는 또 다른 기술이다. 먼저, 질의에서 사용된 용어가 문서에서 그 용어의 빈도를 결정하도록 문서에 대해 측정된다. 문서 및 용어가 관련되는 정도는 문서에서 용어의 빈도가 증가됨에 따라 증가되는 것으로 생각된다. 또한, 문서들 간에 구별할 때 용어의 유용성(usefulness)은 그 용어가 나타나는 문서들의 수가 증가됨에 따라 감소되는 것으로 생각된다. 그러므로, 특정한 용어의 빈도가 또한 모든 문서들에서 그 용어의 빈도 레벨을 결정하도록 전체 데이터 저장부에 대해 측정된다. 이러한 두 측정들은 탐색되는 데이터 저장부 내 소정의 문서의 관련성을 결정하는데 사용된다.

탐색에 액세스 가능한 데이터베이스들이 더 다양해지고 그러한 데이터베이스들이 더 커짐에 따라, 정보 검색과 연관된 문제점도 또한 더 커진다. 다른 말로 하면, 탐색중인 더 크고 더 다양한 데이터베이스들로 재현도 및 정확성 모두에 있어 만족스러운 성능을 얻는 것이 때로 더 어렵다.

음성 인식 시스템들은 발성의 의미 사본을 발생하기 위해 발성에 포함된 음향적 및 언어학적(또는 언어) 정보의 조합을 사용한다. 음성 인식 시스템에서 인식기에 의해 사용되는 언어 정보는 집합적으로 언어 모델이라 칭하여진다.

많은 기존 음성 인식 시스템들은 속성상 통계적인 언어 모델을 사용한다. 이러한 언어 모델들은 전형적으로, 언어 모델 발생기에 제공되는 많은 양의 텍스트 트레이닝 데이터(textual training data)에 기초하여 공지된 기술들을 사용하여 발생된다. N-문법 언어 모델은 예를 들면, 카츠(Katz) 기술과 같은 공지된 통계적 기술이나 2항 후부 분포 백오프 기술(binomial posterior distribution backoff technique)을 사용할 수 있다. 이러한 기술들을 사용할 때, 언어 모델들은 단어(w(n))가 단어들의 시퀀스(w1, w2, ..., w(n-1))를 따르는 확률을 평가한다. 이러한 확률값들은 집합적으로 N-문법 언어 모델을 형성한다.

언어 모델 발생기에 제공되는 큰 텍스트 총체로부터 확률값들을 평가하는데 사용될 수 있는 다수의 공지된 방법들이 있고, 이를 행하는 정확한 방법은 본 발명에서 중요하지 않다. 인식기가 언어에서 단어들의 시퀀스들의 가능성(likelihood), 허용가능성, 또는 의미에 대한 정보를 사용하도록 허용함으로써, 인식 처리의 정확도 및 속도를 개선하는데 언어 모델이 중요한 역할을 한다고 말하는 것으로 충분하다. 부가하여, 언어에 대해 더 많은 정보를 포착하는 언어 모델들은 더 신속하고 더 정확한 음성 인식 시스템들을 가져온다.

전형적으로, 언어 모델을 트레이닝하는데 사용되는 대형 트레이닝 텍스트 총체는 그 특별한 목적을 위해, 일정하게 모아져서 언어 모델 발생기에 제공된다. 그래서, 통상 언어 모델들은 폭넓은 사용 클래스들을 위해 생성된다. 사용 클래스들로는 일반적인 영어 언어, 사무용 서신, 스포츠 등일 수 있다.

그러나, 임의의 특정 사용자의 관심들과, 특정 사용자에 의해 사용되는 언어는 전형적으로 이들 폭넓은 언어 모델 카테고리들 보다 훨씬 더 특정할 수 있다. 그래서, 이러한 언어 모델에 의해 발생되는 확률 평가들은 사용자에 의해 사용되는 실제 언어를 정확하게 모델화하지 못할 수 있다. 또한, 사용자들 사이의 다양한 관심들이 거의 무제한적이므로, 각 사용자에 대해 매우 전문화된 언어 모델들을 발생하는 것이 매우 어렵다.

일부 종래의 시스템들은 사용에 의해 언어 모델을 적응함으로써 이러한 문제점을 처리하도록 시도하였다. 적응시키는 동안, 언어 모델에 의해 단어 시퀀스들로 할당된 확률 평가들은 사용자의 실제 언어를 더 가깝게 반영하도록 조정된다. 그 적응에 사용되는 텍스트 데이터는 사용자 특정화된 것이다. 이 텍스트 데이터는 예를 들면, 사용자에 의해 기록된 텍스트 또는 사용자에 의해 발생, 판독, 또는 저장된 문서내의 텍스트로 구성된다. 그러나, 언어 모델이 정확하게 적응되기 위해서는 많은 양의 데이터가 공급되어야 한다. 통상 사용 가능한 사용자 특정 데이터는 전형적으로 너무 부족하여 언어 모델을 신속하게 적응시키거나 의미 있는 사용자 특정 언어 모델을 발생할 수 없다.

언어 모델은 더 작은 제 1 데이터 저장부 및 더 큰 제 2 데이터 저장부에 대한 액세스를 갖는 음성 인식 시스템에서 사용된다. 언어 모델은 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의를 형성하고 제 2 데이터 저장부에 질의함으로서 적응된다. 제 2 데이터 저장부로부터 검색된 정보가 언어 모델을 적응 또는 구성하는데 사용된다.

한가지 바람직한 실시예에서, 일반적으로 더 작은 제 1 저장부는 음성 인식 시스템의 사용자에 의해 현재 사용되고 있는 언어를 보다 더 잘 나타내는 것으로 믿어진다. 일반적으로 더 큰 제 2 저장부는 퍼센트 면에서 사용자의 언어를 덜 나타낼 수 있다.

또한, 언어 모델들은 제 2 데이터 저장부로부터 정보를 검색하는데 사용된다. 언어 모델들은 제 1 데이터 저장부내의 정보에 기초하고, 제 2 데이터 저장부내의 정보에 기초하여 세워진다. 제 1 언어 모델이 주어지고 제 2 언어 모델이 주어질 때, 제 2 데이터 저장부 내 문서의 혼란도(perlexity)가 결정된다. 문서의 관련성은 제 1 및 제 2 혼란도들에 기초하여 결정된다. 임계값 레벨을 초과하는 관련성 측정치를 갖는 문서들이 검색된다.

한 실시예에서, 제 1 데이터 저장부는 사용자에 의한 질의 또는 요구를 나타내고, 제 2 데이터 저장부는 탐색되는 라이브러리를 나타낸다.

도 1은 본 발명에 따른 시스템을 구현하는 환경예의 블록도.

도 2는 본 발명에 따른 시스템의 보다 상세한 블록도.

도 3은 본 발명의 한 바람직한 실시예에 따른 문서 검색 기술을 설명하는 흐름도.

도 4는 본 발명의 또 다른 바람직한 실시예에 따라 언어 모델을 적응시키기 위한 기술을 설명하는 흐름도.

개요

도 1 및 이와 관련된 논의는 본 발명이 실시되는 적절한 컴퓨팅(computing) 환경의 간략하고 일반적인 설명을 제공하도자 한다. 필요하지 않을지라도, 본 발명은 적어도 부분적으로는 개인용 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능한 지시의 일반적인 맥락에서 설명된다. 일반적으로, 프로그램 모듈은 특정한 태스크를 실행하거나 특정 추상적 데이터 종류를 실시하는 루틴 프로그램, 객체(object), 구성 성분, 데이터 구조를 포함한다. 또한, 당업자는 본 발명이 휴대용 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반이거나 프로그램 가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인 프레임 컴퓨터 등을 포함하여 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 인정할 것이다. 본 발명은 또한 통신 네트워크를 통해 연결된 리모트(remote) 처리 디바이스에 의해 작업이 실행되는 분산 컴퓨팅 환경에서도 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬(local) 및 리모트 메모리 저장 디바이스 모두에 위치한다.

도 1을 참고로, 본 발명을 실시하는 전형적인 시스템은 처리 유닛(21)(하나 이상의 프로세서를 포함하는), 시스템 메모리(22), 및 시스템 메모리를 포함하는 다양한 시스템 구성 성분을 처리 유닛(21)에 연결하는 시스템 버스(23)를 포함하는 종래 개인용 컴퓨터(20)의 형태인 범용 컴퓨팅 디바이스를 포함한다. 시스템 버스(23)는 메모리 버스나 메모리 제어기, 주변 버스, 및 다양한 버스 설계를 사용하는 로컬 버스를 포함하여 수가지 종류의 버스 구조 중 임의의 것이다. 시스템 메모리는 판독 전용 메모리(ROM)(24) 및 랜덤 액세스 메모리(RAM)(25)를 포함한다. 개인용 컴퓨터(200) 내의 소자 사이에서 예를 들면, 스타트 업(start-up) 하는 정보를 전달하도록 돕는 기본 루틴을 포함하는 기본 입력/출력(26)(BIOS)은 ROM(24)에 저장된다. 개인용 컴퓨터(20)는 또한 하드 디스크(도시되지 않은)의 판독 및 기록을 위한 하드 디스크 드라이브(27), 착탈형 자기 디스크(29)의 판독 또는 기록을 위한 자기 디스크 드라이브(28), 및 CD ROM이나 다른 광매체와 같은 착탈형 광디스크(31)의 판독 또는 기록을 위한 광디스크 드라이브(30)를 포함한다. 하드 디스크 드라이브(27), 자기 디스크 드라이브(28), 및 광디스크 드라이브(30)는 각각 하드 디스크 드라이브 인터페이스(32), 자기 디스크 드라이브 인터페이스(33), 및 광디스크 드라이브 인터페이스(34)에 의해 시스템 버스(23)에 연결된다. 드라이브 및 연관된 컴퓨터 판독가능 매체는 컴퓨터 판독가능 지시, 데이터 구조, 프로그램 모듈, 및 개인용 컴퓨터(20)에 대한 다른 데이터의 비휘발성 메모리 제공한다.

비록 여기서 설명된 전형적인 환경은 하드 디스크, 착탈형 자기 디스크(29), 및 착탈형 광디스크(31)를 사용하지만, 기술분야 당업자는 자기 카셋트, 플래시 메모리 카드(flash memory card), 디지털 비디오 디스크, 베르누이 카트리지(Bernoulli cartridge), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 등과 같이 컴퓨터에 의해 액세스 가능한 데이터를 저장할 수 있는 다른 종류의 컴퓨터 판독가능 매체가 전형적인 운영 환경에서 또한 사용될 수 있음을 이해하여야 한다.

운영 체계(35), 하나 이상의 응용 프로그램(36), 다른 프로그램 모듈(37), 및 프로그램 데이터(38)를 포함하여, 복수의 프로그램 모듈은 하드 디스크, 자기 디스크(29), 광디스크(31), ROM(24), 또는 RAM(25)에 저장된다. 사용자는 키보드(40) 및 지시 디바이스(42)와 같은 입력 디바이스를 통해 개인용 컴퓨터(20)에 명령 및 정보를 입력한다. 다른 입력 디바이스(도시되지 않은)로는 마이크로폰(microphone), 조이스틱(joystick), 게임 패드(pad), 위성방송 수신용 안테나, 스캐너 등이 포함된다. 이들 및 다른 입력 디바이스는 때로 시스템 버스에 연결된 직렬 포트 인터페이스(46)를 통해 처리 유닛(21)에 연결되지만, 병렬 포트, 게임 포트, 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 연결될 수 있다. 모니터(47) 또는 다른 종류의 디스플레이 디바이스는 또한 비디오 어댑터(video adapter)(48)와 같은 인터페이스를 통해 시스템 버스(23)에 연결된다. 모니터(47)에 부가하여, 개인용 컴퓨터는 전형적으로 스피커 및 프린터와 같은 다른 주변 출력 디바이스(도시되지 않은)를 포함한다.

개인용 컴퓨터(20)는 리모트 컴퓨터(remote computer)(49)와 같은 하나 이상의 리모트 컴퓨터에 대한 로직 연결을 사용하는 네트워크화된 환경에서 동작된다. 리모트 컴퓨터(49)는 또 다른 개인용 컴퓨터, 서버(server), 라우터(router), 네트워크 PC, 피어 디바이스(peer device), 또는 다른 네트워크 노드(node)가 될 수 있고, 전형적으로 개인용 컴퓨터(20)에 관련되어 상술된 소자 중 다수 또는 모두를 포함하지만, 도 1에서는 메모리 저장 디바이스(50)만이 도시된다. 도 1에 도시된 로직 연결은 LAN(local area network)(51) 및 WAN(wide area network)(52)을 포함한다. 이러한 네트워크 환경은 사무실, 기업내 컴퓨터 네트워크 인트라넷, 및 인터넷에서 일반적이다.

LAN 네트워크 환경에서 사용될 때, 개인용 컴퓨터(20)는 네트워크 인터페이스 또는 어댑터(53)를 통해 LAN에 연결된다. WAN 네트워크 환경에서 사용될 때, 개인용 컴퓨터(20)는 전형적으로 인터넷과 같이, WAN(52)을 통해 통신을 이루는 모뎀(54) 또는 다른 수단을 포함한다. 내부 또는 외부에 있는 모뎀(54)은 직렬 포트 인터페이스(46)를 통해 시스템 버스(23)에 연결된다. 네트워크 환경에서, 개인용 컴퓨터(20)에 관련되어 설명된 프로그램 모듈이나 그 일부는 리모트 메모리 저장 디바이스에 저장된다. 도시된 네트워크 연결은 예시적인 것이고 컴퓨터 사이에 통신 링크를 이루는 다른 수단이 사용될 수 있는 것으로 생각된다.

도 2는 본 발명의 특성에 따른 음성 인식/정보 검색(speech recognition/information retrieval, SR/IR) 시스템(60)의 블록도를 설명한다. SR/IR 시스템(60)은 마이크로폰(62), 아날로그-디지털(A/D) 변환기(64), 사용자 입력 디바이스(66), SR/IR 프로세서 모듈(68), 언어 모델(language model, LM) 저장 모듈(70), 토픽(topic) 데이터 저장부(72), 일반 데이터 저장부(74), 및 사용자 출력 디바이스(76)를 포함한다.

전체적인 시스템(60)이나 시스템(60)의 일부는 도 1에 도시된 환경에서 실시될 수 있음을 주목하여야 한다. 예를 들면, 마이크로폰(62)은 양호하게 적절한 인터페이스 및 A/D 변환기(64)를 통해 개인용 컴퓨터(20)에 입력 디바이스로 제공된다. 사용자 입력 디바이스(66)는 양호하게 키보드(40), 마우스(42), 또는 다른 적절한 입력 디바이스로 실시된다. 언어 모델 저장 모듈(70)은 양호하게 도 1에 도시된 적절한 메모리 디바이스에 저장되거나, 도 1에 대해 설명된 데이터 입력 메커니즘에 의해 SR/IR 모듈(68)로 제공된다. SR/IR 모듈(68)은 양호하게 컴퓨터(20)내의 하드웨어 모듈(CPU(21)에서 실시되거나 CPU(21)로부터 분리된 전용 음성 인식 또는 정보 검색 프로세서와 같이)이거나, 도 1에서 설명된 정보 저장 디바이스 중 임의의 것에 저장되고 CPU(21) 또는 다른 적절한 프로세서에 의해 액세스 가능한 소프트웨어 모듈이다.

토픽 데이터 저장부(72)는 또한 양호하게 도 1에 도시된 적절한 메모리 디바이스에 저장되거나, 도 1에 도시된 시스템에 의해 액세스 가능하다. 또한, 토픽 데이터 저장부(72)는 컴퓨터(20)의 일부일 필요 없이, 단순하게 컴퓨터(20)에 의해 액세스 가능할 수 있다. 예를 들면, 토픽 데이터 저장부(72)는 부분적으로 또는 전체적으로 메모리(50)에 저장될 수 있다. 생성되고 있는 특별한 문서뿐만 아니라 사용자에 의해 생성된 다른 문서도 토픽 데이터 저장부(72)내에 저장된다. 물론, 토픽 데이터 저장부(72)내에 포함된 데이터는 주제 문제, 문서의 종류(예를 들면, 편지, 메모, 전자 우편 전달, 팩시밀리 등), 또는 다른 적절한 기준과 같이 임의의 수의 기준에 따라 배열될 수 있는 것으로 인식된다.

일반 데이터 저장부(74)는 양호하게 토픽 데이터 저장부(72)보다 더 큰 데이터베이스로, 도 1에 도시된 시스템에 의해 액세스 가능하다. 일반 데이터 저장부는 예를 들면, WAN(52)을 통해 또는 LAN(51)을 통해 액세스 가능한 임의의 데이터베이스 또는 데이터베이스의 집합이다.

부가하여, 출력 디바이스(76)는 한 바람직한 실시예에서, 모니터(47) 또는 프린터, 또는 다른 적절한 출력 디바이스로 실시된다.

임의의 경우에서, 본 설명을 위해, 시스템(60)은 음성 인식 및 정보 검색 모두를 실행하는데 적절한 시스템을 도시한다. 그러나, 시스템(60)은 후술되는 본 발명의 다양한 특징 및 특성에 적절하게 음성 인식 또는 정보 검색만을 실행하도록 구성될 수 있음을 주목하여야 한다.

언어 모듈의 적응

이제 시스템(60)의 음성 인식에 대해 설명된다. 음성을 인식할 때, 시스템(60)은 공지된 방식으로 음향 정보를 사용하여 트레이닝(training)된다. 시스템(60)은 상기 정보를 나중에 마이크로폰(62)을 통해 시스템(60)에 입력된 발성을 인식하는데 사용한다. 간략히, 음성은 사용자에 의해 마이크로폰(62)에 제공된 가청 목소리 신호의 형태로 시스템(60)에 입력된다. 마이크로폰(62)은 가청 음성 신호를 A/D 변환기(64)에 제공되는 아날로그 전자 신호로 변환한다. A/D 변환기(64)는 아날로그 음성 신호를 SR/IR 모듈(68)에 제공되는 디지털 신호의 시퀀스로 변환한다.

한 바람직한 실시예에서, SR/IR 모듈(68)은 디지털 신호에 스펙트럼 분석을 실행하고 주파수 스펙트럼의 각 주파수 대역에 대해 크기 값을 계산하는 종래 어레이(array) 프로세서인 특성 추출 모듈을 포함한다. 특성 추출 모듈은 디지털 신호를 복수의 주파수 대역에 대해 확률값을 포함하는 출력 확률 분포의 스트링으로 변환되는 복수의 디지털 샘플을 포함하는 프레임(frame)으로 나눈다. 출력 확률 분포는 마이크로폰(62)에 의해 수신된 음성을 나타내는 유망한 음성 유닛(음소(phoneme), 단어(word), 또는 단어 시퀀스와 같은)을 얻는 공지된 방식으로 처리된다.

한 바람직한 실시예에서, SR/IR 모듈(68)은 N개의 가장 유망한 단어 또는 단어 시퀀스를 나타내는 N개의 유망한 단어 가정을 식별한다. SR/IR 모듈(68)은 이어서 LM 저장 모듈(70)에 액세스한다. LM 저장 모듈(70)에 저장된 언어 모델은 단어 (w1, w2, ..., w(n-1))의 시퀀스에 이어서 단어( w(n))의 확률을 평가하는데 사용된다. 이들 확률은 이어서 발성에 의해 표현되는 가장 유망한 단어 또는 단어 시퀀스를 얻기 위해 N개의 최상의 가정 중에서 선택하는데 사용된다. 가장 유망한 가정은 사용자 출력 디바이스(76)에서 출력된다.

LM 저장 모듈(70)에 저장된 언어 모델은 처음에 SR/IR 모듈(68)에 의해 구성되거나, 도 1에서 논의된 바와 같은 데이터 입력 메커니즘을 사용해 LM 저장 모듈(70)로 로드된다(예를 들면, 플로피 디스크를 사용하여). SR/IR 모듈(68)이 언어 모듈을 구성하는 실시예에서, 큰 트레이닝 텍스트 총체(training text corpus)는 SR/IR 모듈(68)에 제공된다. 그 트레이닝 텍스트 총체를 사용하여, SR/IR 모듈(68)은 공지된 방식으로 언어 모델을 구성하고, 이를 LM 저장 모듈(70)에 저장한다.

부가하여, 복수의 언어 모델이 LM 저장 모듈(70)에 저장될 수 있음을 주목하여야 한다. 예를 들면, 복수의 토픽 의존 언어 모델은 LM 저장 모듈(70)에 저장되고, 음성 인식 시스템으로 생성되고 있는 특별한 문서의 주제에 대해 사용자가 입력한 것에 기초하여 SR/IR 모듈(68)에 의해 검색될 수 있다.

임의의 경우에서, LM 저장 모듈(70)에 저장된 특별한 언어 모델 또는 모델들은 더 신속하고 정확한 모델을 얻기 위해 시스템(60)의 사용자의 실제 단어 사용(usage)에 기초하여 적응되는(그러나, 먼저 얻어지고) 것이 바람직하고, 이는 사용자에 의해 사용되는 실제 언어를 정확하게 모델화하게 된다.

도 3은 본 발명의 한 특성에 따라, LM 저장 모듈(70)에 저장된 언어 모델의 적응을 이루는 한가지 기술을 설명한다. 먼저, 언어 모델이 시스템(60)에 의해 수신된다. 언어 모델은 주제 문제에 특정되거나, 사용자에 특정되거나, 응용에 특정되거나, 또는 단순하게 일반적인 언어 모델이 될 수 있다. 앞서 논의된 바와 같이, 언어 모델은 시스템(60)에 의해 구성되고 LM 저장 모듈(70)에 저장되거나, 단순히 적절한 입력 메커니즘을 통해 LM 저장 모듈(70)로 로드될 수 있다. 언어 모델을 수신하는 단계는 도 3에서 블록(78)으로 나타낸다.

언어 모델을 적응시키기 위해, 시스템(60)은 양호하게 토픽 데이터 저장부(72)내에 저장된 정보를 모듈(70)에 저장된 언어 모델을 적응시키는데 사용되는 텍스트 총체 부분으로 사용한다. 토픽 데이터 저장부(72)는 양호하게 준비되고 있는 현재 문서, 현 사용자에 의해 준비된 다른 문서, 또는 현 사용자에 의해 판독되거나, 현 사용자에 의해 저장된, 또는 현재 작업에 관련된 것으로 현 사용자에 의해 식별된 다른 문서를 포함한다.

전형적으로, 사용자에 특정되거나 현재 토픽 또는 작업에 특정된 데이터의 양은 모듈(70)에 저장된 언어 모델을 신속하게 적응시키는데, 또는 사용자/작업에 더 할당된 언어 모델을 발생하는데 충분하지 못하다. 그러므로, 시스템(60)은 토픽 데이터 저장부(72)내에 저장된 사용자/작업 할당 정보를 일반 데이터 저장부(74)에 대한 질의를 발생하는데 사용한다. 일반 데이터 저장부(74)는 인터넷을 통해(예를 들면, WAN(52)을 통해) 액세스 가능한 하나 이상의 데이터베이스, 라이브러리(library) 데이터베이스, 또는 시스템(60)에 의해 액세스 가능한(예를 들면, LAN(51)을 통해) 또 다른 적절한 대형 데이터베이스를 포함할 수 있음을 상기한다. 일반 데이터 저장부(74)에 대한 질의는 도 3에서 블록(80)으로 나타낸다.

일반 데이터 저장부(74)에 대한 질의를 발생하고 실행하는데 사용되는 특별한 정보 검색 기술은 본 발명의 이러한 특성에 중요하지 않다. 오히려, 적절한 질의 전개 및 정보 검색 기술이 사용될 수 있다. 본 기술에 따른 적응은 관련 문서들을 더 많이 검색하는 정보 검색 기술들로 더 잘 작업됨을 주목하여야 한다.

다음에는 정보 검색 질의에 의해 식별되는 문서가 검색된다. 이는 블록(82)으로 나타낸다. 한 바람직한 실시예에서, 도 3의 점선(84)으로 나타낸 바와 같이, 블록(86)에서 처리가 단순히 계속된다. 그 바람직한 실시예에서, 모듈(70)에 저장된 토픽 언어 모델은 토픽 데이터 저장부(72)내에 저장된 정보에 기초하고, 일반 데이터 저장부(74)에 대해 실행되는 질의의 결과로 일반 데이터 저장부(74)로부터 검색된 정보에 기초하여 조정 또는 적응된다. 그래서, 언어 모델에 의해 발생된 확률 평가는 토픽 데이터 저장부(72)내의 정보 및 일반 데이터 저장부(74)로부터 검색된 정보를 모두 포함하는 텍스트 총체에 기초하여 조정된다. 이는 토픽 데이터 저장부(72)내에 저장된 정보를 단순히 사용하는 것 보다 모듈(70)에 저장된 언어 모델을 적응시키는데 훨씬 더 많은 텍스트 총체를 제공한다. 적응 텍스트 총체가 훨씬 더 크므로, 언어 모델에 의해 발생된 확률이 더 잘 평가될 수 있고, 결과적인 언어 모델은 사용자에 의한 실제 사용량을 모델화하기 위해 더 나은(즉, 보다 신속하고 정확한) 메커니즘을 산출한다. 적응은 블록(86)으로 나타낸다.

언어 모델이 적응되는 방법은 복수의 형태 중 하나를 취할 수 있다. 한 바람직한 실시예에서는 일반 데이터 저장부(74)에 대한 질의에 의해 검색된 문서들의 서브 세트만이 모듈(70)에 저장된 언어 모델을 적응시키는데 사용된다. 또한, 일반 데이터 저장부(74)에 대한 질의에 기초하여 검색된 문서들은 토픽 데이터 저장부(72)내에 이미 포함된 것과 관련되어 가중화될 수 있다. 검색된 문서들은 양호하게 데이터 저장부(72)내에 이미 저장된 것 보다 덜 가중화된다. 그래서, 검색된 문서들에 기초한 모듈(70)에 저장된 언어 모델에 대한 효과는 이미 저장된(생각건대 사용자에 관련된 것으로 공지된) 문서에 기초하는 것 보다 더 적다.

또한, 언어 모델은 또 다른 방법으로 적응될 수 있다. 질의의 결과는 모듈(70)에 이미 저장된 언어 모델과 조합되는 언어 모델을 정하는데 사용될 수 있다. 이 조합은 보간(interpolation), 삭제 보간(deleted interpolation), 또는 다른 적절한 기술과 같이, 공지된 평활화 기술을 사용하여 실행될 수 있다. 모듈(70)에 저장된 토픽 언어 모델을 적응시키는데 삭제 보간이 사용되는 실시예에서, 일반 데이터 저장부(74)로부터 검색된 문서들 및 토픽 데이터 저장부(72)내에 이미 저장된 문서들은 다음과 같이 가중화된다.

여기서, P_r은 검색된 문서들에 기초하여 언어 모델에 의해 발생된 확률값이고, P_t는 토픽 데이터 저장부(72)내에 이미 있는 문서에 기초하여 언어 모델에 의해 발생된 확률값이고, 또한 λ는 양호하게 실험적으로 결정된 값을 갖는 삭제 보간 매개 변수이다. 정보 검색 기술이 매우 정확한 것으로 믿어지면, λ는 더 높은 값을 갖게 된다(예를 들면, 0.8 또는 0.9). 그러나, 정보 검색 기술이 정확한 것으로 믿어지지 않는 경우, λ는 더 낮은 값을 갖는다(예를 들면, 0.4 또는 0.5). 그러나, 0.1 - 0.9와 같은 임의의 λ 값이 적절하다.

또 다른 실시예에서, λ의 값은 질의의 수가 증가됨에 따라 점차 증가된다. 다른 말로 하면, 토픽 데이터 저장부(72)내에 저장된 정보의 양이 더 커지기 때문에, 실행된 질의의 수가 증가됨에 따라, 언어 모델을 적응시키는데 사용되는 텍스트 총체는 더 커지거나 더 정확해질 수 있다. 그래서, 정보 검색 기술을 사용해 검색된 문서들이 초기에 검색된 것 보다 더 관련된다. 그러므로, λ의 값은 질의의 수가 증가됨에 따라 점차 증가될 수 있다.

또한, 검색된 데이터로부터 수개의 언어 모델이 구성될 수 있음을 주목하여야 한다. 예를 들면, 한 언어 모델은 가장 관련된 100개 문서를 사용해 구성될 수 있고, 제 2 언어 모델은 가장 관련된 200개 문서를 사용해 구성될 수 있다. 검색된 문서들을 사용하여 구성된 복수의 언어 모델은 일반 언어 모델로부터, 또한 토픽 데이터 저장부(72)로부터 공지된 관련 데이터로부터 발생되는 언어 모델과 조합될 수 있다. 삭제 보간을 사용하는 언어 모델 조합은 다음과 같이 표현될 수 있다.

여기서, P_i는 i^th 언어 모델에 의해 발생된 확률이고, 0 <= λ_i <=1은 i^th 언어 모델에 대한 보간 가중치이고, Σλ_i = 1이다.

일단 언어 모델이 적응되면, 적응되거나 조정된 언어 모델은 음성 인식에서 사용된다. 이는 블록(88)으로 나타낸다.

본 발명의 한가지 바람직한 특성에 따라, 시스템(60)은 자동적 또한 간헐적으로 토픽 할당 질의를 재발생하고 일반 데이터 저장부(74)내에 저장된 정보에 대해 이를 전달한다. 예를 들면, 바람직한 실시예에서, 모듈(70)에 저장된 언어 모델은 진행중에(예를 들면, 사용자가 시스템(60)을 사용하고 있을 때) 적응된다. 그러므로, 시스템(60)은 처음에 시스템(60)의 전력이 상승되자마자 질의를 실행하고 언어 모델을 적응시키고, 이어서 각 시간에 새로운 문서를 생성한다. 그러나, 특별히, 시스템(60)은 문서가 생성되고 있는 동안에도 새로운 질의를 생성하고 언이 모델을 간헐적으로 적응시키도록 구성된다. 그래서, 시스템(60)은 매 소정의 단어수 마다, 매 소정의 시간 간격 마다, 또는 다른 적절한 기준에 기초하여 질의를 반복하도록 구성된다.

그 기준이 무엇이든, 이는 질의 임계값을 설정하는데 사용된다. 시스템(60)은 이와 같이 질의 임계값에 이르렀는지의 여부를 결정한다. 그런 경우, 시스템(60)은 또 다른 질의를 발생하고, 블록(80)으로 나타낸 바와 같이 일반적인 데이터 저장에 대해 이를 실행한다. 질의 임계값에 이르지 않았으면, 시스템(60)은 단순히 음성 인식을 정상적으로 계속한다. 이는 도 3에서 블록(90, 92)으로 나타낸다.

본 발명의 다른 바람직한 특성에 따라, 다른 정보가 또한 모듈(70)에 저장된 언어 모델을 적응시키는데 사용될 수 있다. 이러한 특성은 도 3에서 블록(94, 96, 98)으로 나타낸다. 예를 들어, 한 바람직한 실시예에서는 일반 데이터 저장부(74)의 정보에 대해 질의가 실행된 후에, 질의로부터 검색된 각 문서들의 관련성(relevancy) 측정이 결정된다. 이어서, 문서들은 관련성 측정에 따라 등급이 정해진다. 이는 블록(94)으로 나타낸다. 검색된 문서들의 서브 세트(관련성 임계값 이상의 관련성 측정치를 갖는 것)는 언어 모델을 적응시키는데 사용된다. 또한, 검색된 문서들은 블록(96)에 의해 나타낸 관련성 측정에 따라 가중화될 수 있다. 문서는 가중화되어 모듈(70)에 저장된 언어 모델을 적응시키도록 사용될 수 있다.

본 발명의 또 다른 실시예에서, 다른 정보가 또한 언어 모델을 조정하는데 사용된다. 예를 들면, 시스템(60)이 문서를 준비하도록 사용자에 의해 사용될 특별한 응용을 식별하도록 구성될 수 있다. 예를 들어, 사용자가 워드프로세서 응용을 사용중이면, 사용자는 이-메일 응용에서의 경우보다 더 형식적인 문서를 발생할 수 있다. 시스템(60)은 응용을 인식하고, 더 형식적인 문서(즉, 더 형식적인 단어 사용과 단어 시퀀스를 갖는 문서)를 찾도록 일반 데이터 저장부(72)내에 포함된 정보에 대해 질의를 생성할 때 그 정보를 사용하거나, 간단하게 수신된 덜 형식적인 문서 보다 질의에 의해 수신된 더 형식적인 문서를 더 높이 가중화하도록 구성될 수 있다. 또한, 사용자가 메모 템플리트를 풀업(pull up)하여 내부 메모를 발생하면, 시스템(60)은 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 발생할 때 토픽 데이터 저장부(72)로부터 유사한 메모만을 검색하도록 구성될 수 있다.

본 발명에 따라 많은 다른 매개 변수가 또한 사용될 수 있다. 예를 들면, 사용자는 업무 시간 동안 사무 편지 및 메모와 같은 보다 형식적인 문서를 기록하지만, 낮이나 저녁에는 개인 편지와 같은 덜 형식적인 문서를 발생하는 경향이 있다. 그러므로, 사용자에 의해 문서가 생성되는 시간대에 기초하여, 시스템(60)은 똑같은 시간대에 생성되었던 문서를 토픽 데이터 저장부(72)로부터 검색함으로서 질의를 발생하도록 구성될 수 있다. 시스템(60)은 또한 간단하게 그 질의에 기초하여 검색된 유사한 문서를 다른 문서 보다 더 무겁게 가중화하도록 구성될 수 있다.

모듈(70)에 저장된 언어 모델의 적응은 사용자가 시스템(60)의 음성 인식 특성을 사용하는지의 여부에 관계없이 간헐적으로 실행될 수 있음을 주목하여야 한다. 시스템(60)의 전력이 상승하는 동안, 이는 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 반복하고 소정의 기준에 따라 모듈(70)에 저장된 언어 모델을 적응시키도록 구성될 수 있다.

그래서, 본 발명의 언어 모델 적응 특성은 모듈(70)에 저장된 언어 모델을 발생 또는 개선하는데 사용 가능한 사용자에 특정된 데이터의 양을 신속하고 효과적으로 확장하는데 사용될 수 있음을 볼 수 있다. 사용 가능한 사용자에 특정된 데이터는 먼저 사용자에 특정된 문서에 유사한 텍스트나 문서를 식별하도록 큰 정보 저장부에 대한 질의로 사용된다. 이때, 모듈(70)에 저장된 사용자 특정 언어 모델을 발생 또는 적응시키는데 사용되는 텍스트 총체는 다른 경우 보다 훨씬 더 큰 집합이므로, 언어 모델에 의해 제공되는 확률은 더 잘 평가될 수 있다. 다시, 언어 모델이 정해지고 적응되는 특별한 방식 및 정보 검색을 실행하는 특별한 기술은 본 발명의 특성에 중요하지 않고, 적절한 기술이 사용될 수 있음을 주목하여야 한다.

정보 검색을 개선하기 위한 언어 모델의 사용

삭제

도 4는 시스템(60)이 정보 검색을 개선할 수 있는 기술을 설명하는 흐름도이다. 상술된 바와 같이, 통계적인 n-문법 언어 모델은 한 단어에 대해 그 단어까지 주어진 단어 시퀀스에서(즉, 주어진 단어 히스토리(word history) H에서) 확률 평가를 만든다. n-문법 언어 모델은 히스토리(H)에서(n-1) 이전 단어만을 다음 단어의 확률에 영향력을 갖는 것으로 생각한다. 예를 들어, 이중-문법(또는 2-문법) 언어 모델은 이전 단어를 다음 단어에 영향력을 갖는 것으로 생각한다. 그러므로, n-문법 언어 모델에서, 단어 발생 확률은 다음과 같이 표현된다.

여기서, w는 관심을 두는 단어이고, w1은 시퀀스에서 단어(w) 이전의 제 1 단어이고, w2는 단어(w) 이전의 제 2 단어이며, w(n-1)은 단어(w) 이전에서 n-1 위치에 놓인 단어이다.

또한, 단어 시퀀스의 확률은 소정의 히스토리에서 각 단어의 확률의 곱에 기초하여 결정된다. 그러므로, 단어 시퀀스(w1, ..., wm)의 확률은 다음과 같이 표현된다.

언어 모델을 논의할 때, 단어 시퀀스의 혼란도(perplexity) 개념이 또한 공지되어 있다. 혼란도는 언어 모델에서 평균적인 브랜치 인자(branching factor)의 통계적인 측정치이다. 다른 말로 하면, 혼란도는 소정의 관심을 두는 단어 또는 단어 시퀀스에서 언어 모델에 의해 예측되는 가능한 단어의 평균수를 통계적으로 측정한 것이다. 그러므로, 소정의 단어 시퀀스(w1, ..., wm)의 혼란도는 다음과 같이 표현된다.

또한, 소정의 언어 모델 LM에 대한 단어 시퀀스(

)의 혼란도는 다음과 같이 표현된다.

그래서, 소정의 언어 모델에서 단어 시퀀스의 혼란도는 소정의 단어 시퀀스 및 그 히스토리에서 그 언어 모델에 의해 예측되는 단어의 평균수와 대략 같다. 이 값은 사용되고 있는 특별한 언어 모델의 예측력에 따라 변한다. 언어 모델이 정해지는 특별한 방식과 사용되는 특별한 언어 모델은 본 발명에서 중요하지 않다.

본 발명의 한 특성은 시스템(60)에 의해 실행되는 정보 검색의 정확도를 개선하기 위해 언어 모델과 관련되는 것으로 혼란도의 개념을 사용한다. 이를 행하기 위해, 시스템(60)은 먼저 도 4에서 블록(100)으로 나타낸 바와 같이 일반 언어 모델을 수신 또는 생성한다. 그래서, 시스템(60)은 언어 모델 발생기를 갖추어 구성될 수 있다. 이 경우, 임의의 공지된 적절한 방식으로 큰 텍스트 총체에 기초하여 일반 언어 모델을 발생하는 언어 모델 발생기에 트레이닝 데이터의 큰 텍스트 총체가 제공되는 것이 바람직하다. 트레이닝 데이터는 양호하게 일반 데이터 저장부(74)내에 저장된 정보이다(또는 그 정보의 서브 세트). 그후, 언어 모델은 모듈(70)에 저장된다. 그러나, 다른 방법으로, 시스템(60)에는 간단하게 모듈(70)로 로드되는 종래의 상업적으로 사용 가능한 일반 언어 모델이 제공될 수 있다. 또 다른 방법에서는 시스템(60)이 일반 데이터 저장부(74)의 정보와 구별되는 또 다른 큰 텍스트 데이터 세트에서 일반 언어 모델을 생성한다. 바람직한 실시예에서, 시스템(60)은 3-문법 언어 모델을 생성하거나 그에 제공된다.

다음에, 시스템(60)은 사용자에게 관심이 있는 특별한 토픽과 관련된 토픽 언어 모델을 수신하거나 생성한다. 다시, 시스템(60)에는 상업적으로 사용 가능한 토픽 언어 모델이 제공되거나, 시스템이 토픽 언어 모델을 스스로 발생하여 트레이닝할 수 있다.

토픽 언어 모델을 발생하기 위해, 사용자는 양호하게 관심 있는 특정 토픽에 관련된 트레이닝 데이터를 시스템(60)에 제공한다. 예를 들면, 사용자는 몇가지 기사를 가질 수 있고, 일반 데이터 저장부(74)내에 저장된 정보로부터 다른 유사한 기사를 검색하는 걸 바랄 수 있다. 또는, 사용자는 간단하게 탐색 질의이나 요구를 시스템에 공급할 수 있다. 토픽 언어 모델은 관련된 기사를 사용해 시스템(60)에 의해 발생되거나, 관련 기사의 텍스트 일부가 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 표시하는데 사용되고, 그 질의에 기초하여 검색된 정보가 사용자 공급 정보와 조합되어 토픽 언어 모델을 생성하는데 사용될 수 있다. 또 다른 바람직한 실시예에서, 토픽 언어 모델을 생성하는데 사용되는 트레이닝 데이터가 드물 때, 토픽 언어 모델은 드문 데이터를 사용하여 발생되고, 이어서 새로운 토픽 언어 모델을 얻기 위해 일반 언어 모델과 조합된다. 조합 기술은 본 발명에서 중요하지 않고, 보간(interpolation), 삭제 보간(deleted interpolation), 또는 다른 적절한 기술과 같은 평활화 기술을 사용해 이루어질 수 있다. 토픽 언어 모델을 수신 또는 생성하는 처리는 도 4에서 블록(102)으로 나타낸다.

일반 언어 모델 및 토픽 언어 모델이 시스템(60)에 의해 발생 또는 수신된 후에, 시스템(60)은 정보 검색 처리에서 고려되어야 하는 일반 데이터 저장부(74)내의 각 문서(또는 문서 일부)에 유사성 측정치를 할당하기 시작한다. 이를 행하기 위해, 시스템(60)은 먼저 일반 데이터 저장부(74)로부터 문서를 선택한다. 이는 블록(104)으로 나타낸다.

다음에, 시스템(60)은 블록(106)으로 나타낸 바와 같이 일반 언어 모델에 대해 그 문서의 혼란도를 결정한다. 이는 다음과 같이 표현된다.

여기서, GLM은 일반 언어 모델을 나타내고, doc_i는 선택된 문서를 나타낸다.

시스템(60)은 이어서 블록(108)으로 나타낸 바와 같이 토픽 언어 모델에 대해 문서의 혼란도를 결정한다. 이는 다음과 같이 표현된다.

여기서, TLM은 토픽 언어 모델을 나타낸다.

시스템(60)은 블록(106, 108)에서 결정된 혼란도에 기초하여 선택된 문서에 대해 관련성 측정치를 결정한다. 관련성 측정치는 양호하게 다음과 같이 두 혼란도의 비율로 표시된다.

주어진 특별한 언어 모델에서 문서(단어의 시퀀스와 같은)의 혼란도는 주어진 문서에서 언어 모델에 의해 예측될 수 있는 단어의 평균수를 대략적으로 나타냄을 상기한다. 그러므로, 혼란도가 비교적 높으면, 그 언어 모델을 전개하는데 사용된 트레이닝 데이터는 문서에서 사용되고 있는 용어에 대해 언어 모델을 잘 트레이닝하지 못하였다. 그러므로, 고려되는 문서는 언어 모델을 전개하는데 사용된 트레이닝 데이터와 유사하지 않은 경향이 있다. 그러나, 그 문서의 혼란도가 낮으면, 그 언어 모델을 전개하는데 사용된 트레이닝 데이터가 문서에 나타나는 용어에 대해 언어 모델을 잘 트레이닝하였을 가망이 있으므로, 그 문서는 그 언어 모델을 트레이닝하는데 사용된 트레이닝 언어에 유사할 수 있다.

그러므로, 한 바람직한 실시예에서는 유사성 측정치가 토픽 언어 모델만을 사용하여 검색될 수 있다. 그러나, 보다 바람직한 실시예에서는 토픽 언어 모델과 일반 언어 모델이 모두 사용된다. 그 이유는 고려되는 문서가 관련되는지 여부와 무관하게 일부 언어 구성이 문서에 다소간 나타날 수 있기 때문이다. 비록 토픽 언어 모델의 혼란도를 적용하여 얻어진 미가공(raw) 관련성 점수가 꽤 높더라도, 정보 검색 시스템은 이들 유사성 문서에 대해 구별되지 않는 것이 바람직하다. 그러한 경우로, 관심 있는 문서에서 사용되고 있는 언어 구성이 상당히 유사하지 않으면, 일반 언어 모델에 대해 검색된 혼란도 값도 또한 높아진다. 일반 언어 모델 및 토픽 언어 모델에 대해 결정된 혼란도의 비율을 사용함으로서, 시스템은 기본적으로 기본선(일반 언어 모델)에 대해 결정되어, 토픽 언어 모델에 대한 문서의 혼란도를 제공함으로서 간단히 검색된 미가공 수 보다 더 의미가 있는 수를 검색한다. 그래서, 두 혼란도의 비율로 관련성 측정치를 제공하는 것이 보다 정확한 관련성 측정치를 산출하는 것으로 믿어진다.

유사하게, 관심 있는 문서에서 사용되는 언어 구성이 관심 있는 토픽과 관계없이 매우 일반적이면, 문서가 특별히 관련되지 않더라도, 토픽 언어 모델에 의해 검색된 혼란도 값은 비교적 낮아진다. 그러나, 일반 언어 모델에 의해 검색된 혼란도 값도 또한 매우 낮아질 수 있다. 그러므로, 두 혼란도의 비율로 관련성 측정치를 제공함으로써, 정보 검색 기술이 보다 관련 문서들을 검색하게 되는 것으로 믿어진다.

혼란도에 기초하여 선택된 문서의 관련성을 결정하는 단계는 블록(110)으로 나타낸다. 두 혼란도의 비율로 관련성 인자를 표시하는 것은 다음과 같이 확장될 수 있다.

여기서, P_T = 토픽 언어 모델에 대해 주어진 히스토리에서, 단어 시퀀스의 확률이고, P_G = 일반 언어 모델에 대해 주어진 히스토리에서, 단어 시퀀스의 확률이다.

일단 관련성 측정치가 결정되면, 시스템(60)은 관련성 측정치가 관련성 임계값을 만족시키는지의 여부를 결정한다. 관련성 임계값은 미리 결정되거나, 사용자에 의해 입력되거나, 또는 시스템(60)에 의해 검색되고 있는 문서의 수에 기초하고, 다른 기준에 기초하여 적응될 수 있다. 시스템(60)은 단순하게 문서가 사용자에게 제공되기에 충분히 높은 관련성 측정치를 갖는지의 여부를 결정한다. 이는 블록(112)으로 나타낸다.

문서가 관련성 임계값을 만족시키지 못하면, 이는 사용자에게 제공되지 않고 블록(116)에 대한 처리가 계속된다. 그러나, 문서가 관련성 임계값을 만족시키지 못하면, 이는 검색되어 토픽 데이터 저장부(72)내에 저장되거나, 출력 디바이스(76)에서 사용자에게 제공된다. 이는 블록(114)으로 나타낸다.

시스템(60)은 이어서 일반 데이터 저장부(74)에서 추가 문서를 조사하는지의 여부를 결정한다. 그런 경우, 처리는 다시 블록(104)으로 되돌아가, 또 다른 문서가 선택되고 그 문서의 관련성이 결정된다. 더 조사될 문서가 없으면, 처리는 옵션 블록(118)에 대해 계속된다. 이는 블록(116)으로 나타낸다.

일반 모든 문서(또는 문서의 서브 세트)가 조사되었으면, 시스템(60)은 간단하게 문서를 사용자에게 제공하거나, 문서를 저장하거나, 관련성에 따라 문서의 등급을 정할 수 있다. 관련성에 따라 문서의 등급이 정해지는 실시예에서는 시스템(60)이 간단하게 각 문서에 대해 결정된 관련성 측정치에 따라 문서의 등급을 정한다. 시스템(60)은 관련성에 따라 등급이 정해진 문서를 사용자에게 제공하거나, 간단하게 등급 결정에 기초하여 검색된 문서들의 서브 세트를 제공할 수 있다. 이는 블록(118)으로 나타낸다.

이 기술을 사용해, 일반 언어 모델은 일반 데이터 저장부(74)내에 저장된 정보, 또는 그 정보의 일부 대표적인 샘플에 기초하여 한번만 발생될 필요가 있음을 볼 수 있다. 다른 방법으로, 일반 언어 모델은 일반 데이터 저장부(74)내에서 정보의 내용이 변할 때 간헐적으로 업데이트될 수 있다. 토픽 언어 모델은 양호하게 사용자에 의해 제공되는 각 질의에 대해 한번 발생된다.

결론

본 발명의 한 특성은 음성 인식 동안 사용되는 언어 모델 또는 모델들을 개선하고 적응시키는데 정보 검색을 사용하는 기술을 제공한다. 시스템은 언어 모델을 직접적으로 전개하고 적응시키도록 사용자에 의해 이미 발생된 텍스트의 공지된 히스토리를 사용하지만, 언어 모델을 발생 또는 적응시키는데 사용되는 트레이닝 데이터를 확장하는 유사한 문서를 찾기 위해 일반 데이터 저장부에 대한 토픽 특정 질의를 또한 전달한다. 이는 과거에 사용된 광범위하고 예상되는 토픽 의존 언어 모델 보다 훨씬 더 정확한 언어 모델을 제공한다. 큰 데이터 저장부에 대한 질의는 또한 양호하게 증가된 정확도를 갖는 동적으로 적응되는 언어 모델을 얻기 위해 주기적으로 또는 간헐적으로 반복된다.

본 발명의 또 다른 특정으로, 정보 검색 기술을 개선하는 언어 모델이 사용된다. 시스템은 양호하게 일반 언어 모델 및 토픽 언어 모델을 얻는다(상술된 기술이나 또 다른 공지된 기술을 사용해). 시스템은 얻어진 언어 모델에 의해 검색된 혼란도 값에 기초하여 탐색되는 문서의 관련성 측정치를 계산한다. 언어 모델이 내용에 의존하는 모델이므로, 이는 시스템이 단어 그 자체를 고려할 뿐만 아니라, 단어가 나타나는 내용이 문서의 관련성을 결정하도록 허용한다. 이는 정보 검색 기술의 재현도 및 정확성 모두를 개선하고, 결과적으로 관련 정보가 탐색되고 있는 문서에서 나타날 가능성(또는 확률)이 더 잘 평가되게 하여, 정보 검색 시스템의 더 나은 성능을 제공하게 된다.

비록 본 발명이 바람직한 실시예를 참고로 설명되었지만, 당업자는 본 발명의 의도 및 범위에서 벗어나지 않고 형태 및 상세한 부분에서 변화가 이루어질 수 있는 것으로 인식하게 된다.

Claims

제 1 데이터 저장부 및 제 2 데이터 저장부에 액세스 하는 음성 인식 시스템에 사용되는 언어 모델(language model)을 적응시키는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부에 비해 큰, 상기 방법에 있어서,

상기 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의(query)를 형성하는(formulate) 단계;

상기 형성된 질의에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계;

상기 질의에 기초하여 상기 제 2 데이터 저장부로부터 정보를 검색하는 단계; 및

검색된 상기 정보 및 상기 제 1 데이터 저장부내의 정보에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는 방법.
제 1 항에 있어서,

사용자가 상기 음성 인식 시스템을 사용하고 있는 동안에 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계를 반복하는 단계를 더 포함하는 방법.
제 2 항에 있어서,

사용자가 상기 음성 인식 시스템을 사용하고 있는 동안, 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계가 간헐적(intermittently)으로 수행되는, 방법.
제 1 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

사용자에 의해 미리 생성되어 상기 제 1 데이터 저장부내에 저장된 문서들에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

사용자에 의해 작성되고 있는 문서에 포함된 정보에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

사용자에 의해 작성되고 있는 문서의 종류에 관련된 정보에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 6 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

문서를 작성하기 위해 상기 사용자에 의해 사용되고 있는 템플리트(template)에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 6 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

문서를 작성하기 위해 상기 사용자에 의해 사용되고 있는 응용 프로그램에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 6 항에 있어서,

상기 정보 검색 질의를 형성하는 단계는,

상기 사용자가 문서를 작성하고 있는 동안의 하루 중 시간대에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
제 1항에 있어서,

상기 정보를 검색하는 단계는,

상기 제 2 정보 저장부로부터 복수의 문서들을 검색하는 단계; 및

검색된 각 문서와 연관된 관련성 측정치를 결정하는 단계를 포함하는, 방법.
제 10 항에 있어서,

상기 언어 모델을 적응시키는 단계는,

임계값을 만족시키는 관련성 측정치를 갖는 검색된 관련 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
제 11 항에 있어서,

상기 언어 모델을 적응시키는 단계는,

각 관련 문서에 가중치(weight)를 할당하는 단계; 및

각 관련 문서에 할당된 상기 가중치에 따라 상기 관련 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 제 2 데이터 저장부로부터 정보를 검색하는 단계는 상기 제 2 데이터 저장부로부터 복수의 문서들을 검색하는 단계를 포함하고;

상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 상기 제 1 데이터 저장부내의 정보보다 더 낮은 가중치를 부여하는 단계를 더 포함하며,

상기 언어 모델을 적응시키는 단계는 상기 제 1 데이터 저장부내의 정보와, 상기 제 1 데이터 저장부내의 상기 정보에 대비하여 가중치가 부여된 상기 검색된 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 언어 모델은 단어 시퀀스들의 확률 평가들을 포함하고,

상기 언어 모델을 적응시키는 단계는,

상기 제 1 데이터 저장부내의 상기 정보 및 상기 제 2 데이터 저장부로부터 검색된 상기 정보에 기초하여 상기 확률 평가들을 조정하는 단계를 포함하는, 방법.
제 12 항에 있어서,

상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 가중치를 할당하는 단계는,

적어도 증가된 가중치가 가중치 임계값에 도달할 때까지, 상기 제 2 데이터 저장부에 질의된 횟수가 증가됨에 따라 상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 상기 증가된 가중치를 할당하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 제 2 데이터 저장부에 질의하는 단계는,

글로벌 컴퓨터 네트워크를 통해 정보를 질의하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 적응시키는 단계는,

상기 제 1 데이터 저장부내의 상기 정보 및 제 1 질의로부터 검색된 정보에 기초하여 제 1 언어 모델을 구성하는 단계를 포함하는, 방법.
제 17 항에 있어서,

상기 적응시키는 단계는,

후속 질의로부터 검색된 정보에 기초하여 제 2 언어 모델을 구성하는 단계; 및

상기 제 1 및 제 2 언어 모델들을 조합하는 단계를 더 포함하는, 방법.
제 1 데이터 저장부 내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,

상기 제 1 데이터 저장부내에 저장된 정보에 기초하여 제 1 언어 모델을 제공하는 단계;

제 2 언어 모델을 제공하는 단계;

상기 제 1 언어 모델이 주어지면, 상기 제 2 데이터 저장부 내 문서의 제 1 혼란도(perplexity)를 결정하는 단계;

상기 제 2 언어 모델이 주어지면, 상기 문서의 제 2 혼란도를 결정하는 단계;

상기 제 1 및 제 2 혼란도들에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계; 및

상기 관련성 측정치에 기초하여 상기 문서를 선택적으로 검색하는 단계를 포함하는 방법.
제 19 항에 있어서,

상기 제 2 데이터 저장부내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 상기 제 2 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계; 및

임계값 레벨을 만족하는 관련성 측정치를 갖는 복수의 문서들로부터 관련 문서들을 검색하는 단계를 더 포함하는 방법.
제 19 항에 있어서,

상기 제 2 언어 모델을 제공하는 단계는,

상기 제 2 데이터 저장부내에 저장된 정보에 기초하여 상기 제 2 언어 모델을 제공하는 단계를 포함하는, 방법.
제 19 항에 있어서,

상기 관련성 측정치를 결정하는 단계는,

상기 제 1 및 제 2 혼란도 상호간의 비를 결정하는 단계; 및

상기 비에 기초하여 상기 관련성 측정치를 결정하는 단계를 포함하는, 방법.
제 20 항에 있어서,

상기 관련 문서들을 검색하는 단계는,

각 문서에 대해 결정된 상기 관련성 측정치에 따라 문서들의 등급을 정하는 단계를 포함하는, 방법.
제 1 데이터 저장부 내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,

상기 제 1 데이터 저장부내의 정보에 기초하여 제 1 문맥 의존 언어 모델을 제공하는 단계;

상기 제 2 데이터 저장부내의 정보에 기초하여 제 2 문맥 의존 언어 모델을 제공하는 단계;

주어진 문서에 대한 상기 제 1 언어 모델의 예측 능력 및 주어진 문서에 대한 제 2 언어 모델의 예측 능력에 기초하여, 상기 제 2 데이터 저장부 내 문서의 관련성을 결정하는 단계; 및

상기 관련성이 관련성 임계값을 만족시키면, 상기 문서를 검색하는 단계를 포함하는 방법.
제 24 항에 있어서,

상기 제 1 및 제 2 언어 모델들의 예측 능력에 기초하여 문서의 관련성을 결정하는 단계는,

주어진 문서에 대한 상기 제 1 언어 모델의 브랜치 인자(branching factor)및 주어진 문서에 대한 상기 제 2 언어 모델의 브랜치 인자에 기초하여 상기 관련성을 결정하는 단계를 포함하는, 방법.
제 24항에 있어서,

상기 제 2 데이터 저장부 내에서 복수의 문서들에 대한 관련성을 결정하는 단계들을 반복하는 단계;

상기 결정된 관련성을 상기 관련성 임계값과 비교하는 단계; 및

상기 관련성 임계값을 만족시키는 관련성을 갖는 문서들을 검색하는 단계를 더 포함하는 방법.
제 26 항에 있어서,

상기 관련성 임계값을 만족시키는 다수의 문서들에 기초하여 상기 관련성 임계값을 적응시키는 단계를 더 포함하는 방법.
제 24 항에 있어서,

상기 제 1 언어 모델을 제공하는 단계는,

상기 제 1 데이터 저장부 내의 정보에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계; 및

상기 제 1 데이터 저장부내의 상기 정보 및 상기 질의에 기초하여 검색된 상기 제 2 데이터 저장부로부터의 정보에 기초하여 상기 제 1 언어 모델을 구성하는 단계를 포함하는, 방법.
제 24 항에 있어서,

상기 제 1 언어 모델을 제공하는 단계는,

상기 제 1 데이터 저장부내의 정보에 기초하여 예비 언어 모델을 구성하는 단계; 및

상기 제 1 언어 모델을 얻기 위해 상기 예비 언어 모델을 상기 제 2 언어 모델과 조합하는 단계를 포함하는, 방법.
제 24 항에 있어서,

상기 제 2 언어 모델을 제공하는 단계는,

상기 제 2 데이터 저장부내에 저장된 모든 정보의 서브 세트에 기초하여 상기 제 2 언어 모델을 구성하는 단계를 포함하는, 방법.
제 1 데이터 저장부내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,

상기 제 1 데이터 저장부내에 저장된 정보에 기초하여 제 1 언어 모델을 제공하는 단계;

상기 제 1 언어 모델이 주어지면, 상기 제 2 데이터 저장부 내 문서의 제 1 혼란도를 결정하는 단계;

상기 제 1 혼란도에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계;

상기 제 2 데이터 저장부 내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계; 및

임계값 레벨을 만족시키는 관련성 측정치를 갖는 복수의 문서들로부터 관련 문서를 검색하는 단계를 포함하는 방법.
제 31 항에 있어서,

상기 제 2 데이터 저장부내에 저장된 정보에 기초하여 제 2 언어 모델을 제공하는 단계;

상기 제 2 언어 모델이 주어지면, 상기 문서의 제 2 혼란도를 결정하는 단계를 더 포함하고,

상기 관련성 측정치를 결정하는 단계는 상기 제 1 혼란도 및 상기 제 2 혼란도에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계를 포함하고,

상기 반복하는 단계는 상기 제 2 데이터 저장부내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 상기 제 2 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계를 포함하는, 방법.
음성을 인식하는 방법에 있어서,

제 1 데이터 저장부를 제공하는 단계;

상기 제 1 데이터 저장부에 비해 큰 제 2 데이터 저장부를 제공하는 단계;

언어 모델을 제공하는 단계;

상기 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의를 형성하는 단계;

상기 형성된 질의에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계;

상기 질의에 기초하여 상기 제 2 데이터 저장부로부터 정보를 검색하는 단계; 및

상기 검색된 정보 및 상기 제 1 데이터 저장부내의 상기 정보에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는 방법.
제 33 항에 있어서,

사용자가 상기 음성 인식 시스템을 사용하고 있는 동안, 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계를 간헐적으로 반복하는 단계를 더 포함하는 방법.
제 34 항에 있어서,

상기 반복하는 단계는,

시간에 기초하여 상기 단계들을 간헐적으로 반복하는 단계를 포함하는, 방법.
제 34 항에 있어서,

상기 반복하는 단계는,

상기 사용자가 상기 음성 인식 시스템을 사용하여 문서를 작성하고 있는 동안에, 상기 문서의 작성 중 미리 정해진 수의 단어들이 인식된 후에 상기 단계들을 반복하는 단계를 포함하는, 방법.