KR100609253B1 - 언어 모델들에 기초한 정보 검색 및 음성 인식 - Google Patents

언어 모델들에 기초한 정보 검색 및 음성 인식 Download PDF

Info

Publication number
KR100609253B1
KR100609253B1 KR1020007010945A KR20007010945A KR100609253B1 KR 100609253 B1 KR100609253 B1 KR 100609253B1 KR 1020007010945 A KR1020007010945 A KR 1020007010945A KR 20007010945 A KR20007010945 A KR 20007010945A KR 100609253 B1 KR100609253 B1 KR 100609253B1
Authority
KR
South Korea
Prior art keywords
data store
language model
information
document
documents
Prior art date
Application number
KR1020007010945A
Other languages
English (en)
Other versions
KR20010042377A (ko
Inventor
마하잔밀린드브이.
황쥬동디
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20010042377A publication Critical patent/KR20010042377A/ko
Application granted granted Critical
Publication of KR100609253B1 publication Critical patent/KR100609253B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

언어 모델(70)은 더 작은 제 1 데이터 저장부(72) 및 더 큰 제 2 데이터 저장부(74)에 액세스하는 음성 인식 시스템(60)에서 사용된다. 언어 모델(70)은 제 1 데이터 저장부(72)내에 포함된 정보에 기초하여 정보 검색 질의를 형성하고 제 2 데이터 저장부(74)에 질의함으로서 적응된다. 제 2 데이터 저장부(74)로부터 검색된 정보는 언어 모델(70)을 적응시키는데 사용된다. 또한, 언어 모델은 제 2 데이터 저장부(74)로부터 정보를 검색하는데 사용된다. 언어 모델은 제 1 데이터 저장부(72)내의 정보에 기초하고, 제 2 데이터 저장부(74)내의 정보에 기초하여 정해진다. 소정의 제 1 언어 모델에 대해, 또한 소정의 제 2 언어 모델에 대해, 제 2 데이터 저장부(74)내에서 문서의 혼란도가 결정된다. 문서의 관련성은 제 1 및 제 2 혼란도들에 기초하여 결정된다. 임계값 레벨을 초과하는 관련성 측정치를 갖는 문서는 검색된다.
음성 인식, 정보 검색, 일반 언어 모델, 토픽 언어 모델, 관련성, 혼란도.

Description

언어 모델들에 기초한 정보 검색 및 음성 인식 {Information retrieval and speech recognition based on language models}
본 발명은 음성 인식 및 정보 검색에 관한 것이다. 특히, 본 발명은 언어 모델(language model)을 적응시키는데 정보 검색 기술들을 사용하는 음성 인식 시스템, 및 관련 문서들을 검색하는데 음성 인식 언어 모델들을 사용하는 정보 검색 기술에 관한 것이다.
일반적으로, 정보 검색은 사용자가 정보의 대형 저장부로부터 사용자에게 관련된 정보를 찾아 검색하는 처리이다. 정보 검색을 실행할 때는 사용자가 필요로 하는 정보를 모두 검색하는 것이 중요하고(즉, 완전한 것이 중요하고), 동시에 사용자에게 검색되는 비관련 정보를 제한하는 것이 중요하다.(즉, 선택적인 것이 중요하다). 이들 차원들은 때로 재현도(recall)(완성도) 및 정확성(precision)(선택성)이라 칭하여진다. 많은 정보 검색 시스템들에서, 재현도 및 정확성 차원들 모두에 걸쳐 양호한 성능을 달성할 필요가 있다.
일부 기존의 검색 시스템들에서는 질의되고 탐색될 수 있는 정보의 양이 매우 크다. 예를 들면, 일부 정보 검색 시스템들은 일반적으로 인터넷, 디지털 비디오 디스크들, 및 다른 컴퓨터 데이터베이스들에서 정보를 탐색하도록 셋업된다. 이러한 정보 검색 시스템들은 전형적으로 예를 들면, 인터넷 탐색 엔진들 및 도서관 카탈로그 탐색 엔진들로 실현된다.
많은 정보 검색 기술들이 공지되어 있다. 이러한 기술들에서의 사용자 입력 질의(query)는 전형적으로 예를 들어, 사용자가 문서들 또는 현존하는 문서들의 특정 세트와 유사한 정보를 요구할 때 명시적 사용자 발생 질의로, 또는 암시적 질의(implicit query)로 제공된다. 전형적인 정보 검색 시스템들은 단일 단어(word) 레벨로 또는 용어(term) 레벨로 대형 데이터 저장부 내 문서들을 탐색한다. 각 문서들은 관련성(relevancy)(또는 유사성) 스코어로 할당되고, 정보 검색 시스템은 사용자에게 탐색된 문서들의 특정한 서브 세트를 제공하고, 전형적으로 그 서브 세트는 소정의 임계값을 초과하는 관련성 스코어를 갖는다.
일부 기존에 공지된 정보 검색 기술들 또는 방법들은 전체 텍스트 스캐닝(full text scanning), 서명 파일들(signature files)의 사용, 반전(inversion), 벡터 모델링(vector modeling)과 클러스터링(clustering), 및 tf*idf(term frequency * inverse document frequency)를 포함한다. 전체 텍스트 스캐닝에서는 탐색되는 문서가 특정한 문자 스트링들(letter strings)을 포함하는지의 여부를 결정하는 질의에서 불 함수들(Boolean functions)이 사용된다. 이러한 스캐닝 기술들에서는 탐색 스트링(즉, 질의)을 만족시키는지의 여부를 알도록 문서의 각 문자를 탐색하고, 이어서 불일치(mismatch)가 발견될 때 한 위치 우측으로 탐색을 이동시키는 것이 공통적이다. 시스템은 불일치가 발견될 때 하나보다 많은 위치를 우측으로 이동시키는 것과 같이, 질의를 미리 처리하는 다른 방법들을 사용하도록 적응되었다.
서명 파일들의 사용은 탐색되는 문서들로부터 공통된 단어들을 없애고 비공통 단어들을 어간들(stems)로 줄이는 것을 포함한다. 탐색되는 각 문서는 비트 스트링(즉, 서명)을 산출한다. 다양한 문서들에 대한 서명들은 문서들 자체로부터 분리된 파일에 순차적으로 저장된다.
반전 기술들은 각 문서를 나타내는 키워드들의 리스트를 구성하는 것을 포함한다. 키워드들은 인덱스 파일에 저장된다. 각 키워드에 대해, 적격인 문서를 나타내는 포인터들(pointers)의 리스트가 유지된다. 이때, 질의는 인덱스에 대해 진행되고, 포인터들은 관련되고 자격이 있는 문서들을 식별하는데 사용된다.
벡터 모델링 및 클러스터링은 유사한 문서들을 클러스터들로 칭하여지는 그룹들로 그룹화하는 것을 포함한다(이 기술은 또한 문서들 대신에 용어들에 적용될 수 있다). 클러스터를 발생하기 위해, 공통 단어들을 제거하고 단어들의 나머지 부분을 어간들로 줄임(접두사(prefix) 및 접미사(suffix) 제거를 포함함)으로써 인덱스가 형성된다. 동의어는 또한 공통적으로 빈도, 특수성, 관련성 등에 의해 가중화된 용어들을 가질 수 있는 개념 클래스에 배치된다. 인덱스는 t-차원의 공간에서 한 지점으로 문서들을 나타내는데 사용된다. 점들은 전형적으로 반복 처리를 통해 전개되는 유사성 매트릭스를 가진 그룹들로 분할된다. 클러스터를 탐색하기 위해, 질의는 t-차원 벡터로 표현되고 클러스터 중심과 비교된다. 클러스터-질의 유사성 함수가 발생되어 관련 문서들을 추출하는데 사용된다. 추출된(또는 검색된) 문서들은 통상 소정의 임계값을 초과하는 유사성 값을 갖는 것들이다.
의미 정보(semantic information)는 일부 정보 검색 기술에서 보다 나은 성능을 이루기 위해 정보 저장부내의 각 문서에 대한 정보를 더 많이 포착하는데 사용된다. 이러한 시스템에서는 질의들의 의미 내용을 탐색되는 문서들의 내용에 일치시키는데 자연어 처리가 사용된다. 탐색되는 문서들을 인덱스화하는 용어들로는 문장들 또는 구들(phrases)이 사용된다. 잠재적 의미 인덱싱은 특정한 문서에서 한 용어의 발생들의 수가 매트릭스에 플롯되는 용어/문서 매트릭스를 형성하는 것을 포함한다. 작은 단일값들은 전형적으로 제거되고, 나머지 용어의 빈도 벡터들은 맵핑된다. 질의들은 또한 용어 빈도 벡터들로 형성되고, 문서들에 대한 용어 빈도 벡터들을 포함하는 매트릭스에 대해 맵핑된다. 문서들은 코사인 유사성 측정(cosine similarity measure)을 구하기 위해 표준화된 선형곱들을 사용함으로써 등급이 정해진다.
의미 정보를 사용하는 또 다른 종류의 정보 검색 기술은 신경망(neural network)이다. 본질적으로, 용어 사전(thesaurus)이 구성되고, 은닉층의 노드가 용어 사전에서 각 개념에 대응하여 생성된다. 이때, 탐색들을 실행하는데는 확산 활성화 방법이 사용된다.
tf*idf(term frequency * inverse document frequency)는 문서들의 관련성을 결정하는데 사용되는 또 다른 기술이다. 먼저, 질의에서 사용된 용어가 문서에서 그 용어의 빈도를 결정하도록 문서에 대해 측정된다. 문서 및 용어가 관련되는 정도는 문서에서 용어의 빈도가 증가됨에 따라 증가되는 것으로 생각된다. 또한, 문서들 간에 구별할 때 용어의 유용성(usefulness)은 그 용어가 나타나는 문서들의 수가 증가됨에 따라 감소되는 것으로 생각된다. 그러므로, 특정한 용어의 빈도가 또한 모든 문서들에서 그 용어의 빈도 레벨을 결정하도록 전체 데이터 저장부에 대해 측정된다. 이러한 두 측정들은 탐색되는 데이터 저장부 내 소정의 문서의 관련성을 결정하는데 사용된다.
탐색에 액세스 가능한 데이터베이스들이 더 다양해지고 그러한 데이터베이스들이 더 커짐에 따라, 정보 검색과 연관된 문제점도 또한 더 커진다. 다른 말로 하면, 탐색중인 더 크고 더 다양한 데이터베이스들로 재현도 및 정확성 모두에 있어 만족스러운 성능을 얻는 것이 때로 더 어렵다.
음성 인식 시스템들은 발성의 의미 사본을 발생하기 위해 발성에 포함된 음향적 및 언어학적(또는 언어) 정보의 조합을 사용한다. 음성 인식 시스템에서 인식기에 의해 사용되는 언어 정보는 집합적으로 언어 모델이라 칭하여진다.
많은 기존 음성 인식 시스템들은 속성상 통계적인 언어 모델을 사용한다. 이러한 언어 모델들은 전형적으로, 언어 모델 발생기에 제공되는 많은 양의 텍스트 트레이닝 데이터(textual training data)에 기초하여 공지된 기술들을 사용하여 발생된다. N-문법 언어 모델은 예를 들면, 카츠(Katz) 기술과 같은 공지된 통계적 기술이나 2항 후부 분포 백오프 기술(binomial posterior distribution backoff technique)을 사용할 수 있다. 이러한 기술들을 사용할 때, 언어 모델들은 단어(w(n))가 단어들의 시퀀스(w1, w2, ..., w(n-1))를 따르는 확률을 평가한다. 이러한 확률값들은 집합적으로 N-문법 언어 모델을 형성한다.
언어 모델 발생기에 제공되는 큰 텍스트 총체로부터 확률값들을 평가하는데 사용될 수 있는 다수의 공지된 방법들이 있고, 이를 행하는 정확한 방법은 본 발명에서 중요하지 않다. 인식기가 언어에서 단어들의 시퀀스들의 가능성(likelihood), 허용가능성, 또는 의미에 대한 정보를 사용하도록 허용함으로써, 인식 처리의 정확도 및 속도를 개선하는데 언어 모델이 중요한 역할을 한다고 말하는 것으로 충분하다. 부가하여, 언어에 대해 더 많은 정보를 포착하는 언어 모델들은 더 신속하고 더 정확한 음성 인식 시스템들을 가져온다.
전형적으로, 언어 모델을 트레이닝하는데 사용되는 대형 트레이닝 텍스트 총체는 그 특별한 목적을 위해, 일정하게 모아져서 언어 모델 발생기에 제공된다. 그래서, 통상 언어 모델들은 폭넓은 사용 클래스들을 위해 생성된다. 사용 클래스들로는 일반적인 영어 언어, 사무용 서신, 스포츠 등일 수 있다.
그러나, 임의의 특정 사용자의 관심들과, 특정 사용자에 의해 사용되는 언어는 전형적으로 이들 폭넓은 언어 모델 카테고리들 보다 훨씬 더 특정할 수 있다. 그래서, 이러한 언어 모델에 의해 발생되는 확률 평가들은 사용자에 의해 사용되는 실제 언어를 정확하게 모델화하지 못할 수 있다. 또한, 사용자들 사이의 다양한 관심들이 거의 무제한적이므로, 각 사용자에 대해 매우 전문화된 언어 모델들을 발생하는 것이 매우 어렵다.
일부 종래의 시스템들은 사용에 의해 언어 모델을 적응함으로써 이러한 문제점을 처리하도록 시도하였다. 적응시키는 동안, 언어 모델에 의해 단어 시퀀스들로 할당된 확률 평가들은 사용자의 실제 언어를 더 가깝게 반영하도록 조정된다. 그 적응에 사용되는 텍스트 데이터는 사용자 특정화된 것이다. 이 텍스트 데이터는 예를 들면, 사용자에 의해 기록된 텍스트 또는 사용자에 의해 발생, 판독, 또는 저장된 문서내의 텍스트로 구성된다. 그러나, 언어 모델이 정확하게 적응되기 위해서는 많은 양의 데이터가 공급되어야 한다. 통상 사용 가능한 사용자 특정 데이터는 전형적으로 너무 부족하여 언어 모델을 신속하게 적응시키거나 의미 있는 사용자 특정 언어 모델을 발생할 수 없다.
언어 모델은 더 작은 제 1 데이터 저장부 및 더 큰 제 2 데이터 저장부에 대한 액세스를 갖는 음성 인식 시스템에서 사용된다. 언어 모델은 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의를 형성하고 제 2 데이터 저장부에 질의함으로서 적응된다. 제 2 데이터 저장부로부터 검색된 정보가 언어 모델을 적응 또는 구성하는데 사용된다.
한가지 바람직한 실시예에서, 일반적으로 더 작은 제 1 저장부는 음성 인식 시스템의 사용자에 의해 현재 사용되고 있는 언어를 보다 더 잘 나타내는 것으로 믿어진다. 일반적으로 더 큰 제 2 저장부는 퍼센트 면에서 사용자의 언어를 덜 나타낼 수 있다.
또한, 언어 모델들은 제 2 데이터 저장부로부터 정보를 검색하는데 사용된다. 언어 모델들은 제 1 데이터 저장부내의 정보에 기초하고, 제 2 데이터 저장부내의 정보에 기초하여 세워진다. 제 1 언어 모델이 주어지고 제 2 언어 모델이 주어질 때, 제 2 데이터 저장부 내 문서의 혼란도(perlexity)가 결정된다. 문서의 관련성은 제 1 및 제 2 혼란도들에 기초하여 결정된다. 임계값 레벨을 초과하는 관련성 측정치를 갖는 문서들이 검색된다.
한 실시예에서, 제 1 데이터 저장부는 사용자에 의한 질의 또는 요구를 나타내고, 제 2 데이터 저장부는 탐색되는 라이브러리를 나타낸다.
도 1은 본 발명에 따른 시스템을 구현하는 환경예의 블록도.
도 2는 본 발명에 따른 시스템의 보다 상세한 블록도.
도 3은 본 발명의 한 바람직한 실시예에 따른 문서 검색 기술을 설명하는 흐름도.
도 4는 본 발명의 또 다른 바람직한 실시예에 따라 언어 모델을 적응시키기 위한 기술을 설명하는 흐름도.
개요
도 1 및 이와 관련된 논의는 본 발명이 실시되는 적절한 컴퓨팅(computing) 환경의 간략하고 일반적인 설명을 제공하도자 한다. 필요하지 않을지라도, 본 발명은 적어도 부분적으로는 개인용 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능한 지시의 일반적인 맥락에서 설명된다. 일반적으로, 프로그램 모듈은 특정한 태스크를 실행하거나 특정 추상적 데이터 종류를 실시하는 루틴 프로그램, 객체(object), 구성 성분, 데이터 구조를 포함한다. 또한, 당업자는 본 발명이 휴대용 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반이거나 프로그램 가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인 프레임 컴퓨터 등을 포함하여 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 인정할 것이다. 본 발명은 또한 통신 네트워크를 통해 연결된 리모트(remote) 처리 디바이스에 의해 작업이 실행되는 분산 컴퓨팅 환경에서도 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬(local) 및 리모트 메모리 저장 디바이스 모두에 위치한다.
도 1을 참고로, 본 발명을 실시하는 전형적인 시스템은 처리 유닛(21)(하나 이상의 프로세서를 포함하는), 시스템 메모리(22), 및 시스템 메모리를 포함하는 다양한 시스템 구성 성분을 처리 유닛(21)에 연결하는 시스템 버스(23)를 포함하는 종래 개인용 컴퓨터(20)의 형태인 범용 컴퓨팅 디바이스를 포함한다. 시스템 버스(23)는 메모리 버스나 메모리 제어기, 주변 버스, 및 다양한 버스 설계를 사용하는 로컬 버스를 포함하여 수가지 종류의 버스 구조 중 임의의 것이다. 시스템 메모리는 판독 전용 메모리(ROM)(24) 및 랜덤 액세스 메모리(RAM)(25)를 포함한다. 개인용 컴퓨터(200) 내의 소자 사이에서 예를 들면, 스타트 업(start-up) 하는 정보를 전달하도록 돕는 기본 루틴을 포함하는 기본 입력/출력(26)(BIOS)은 ROM(24)에 저장된다. 개인용 컴퓨터(20)는 또한 하드 디스크(도시되지 않은)의 판독 및 기록을 위한 하드 디스크 드라이브(27), 착탈형 자기 디스크(29)의 판독 또는 기록을 위한 자기 디스크 드라이브(28), 및 CD ROM이나 다른 광매체와 같은 착탈형 광디스크(31)의 판독 또는 기록을 위한 광디스크 드라이브(30)를 포함한다. 하드 디스크 드라이브(27), 자기 디스크 드라이브(28), 및 광디스크 드라이브(30)는 각각 하드 디스크 드라이브 인터페이스(32), 자기 디스크 드라이브 인터페이스(33), 및 광디스크 드라이브 인터페이스(34)에 의해 시스템 버스(23)에 연결된다. 드라이브 및 연관된 컴퓨터 판독가능 매체는 컴퓨터 판독가능 지시, 데이터 구조, 프로그램 모듈, 및 개인용 컴퓨터(20)에 대한 다른 데이터의 비휘발성 메모리 제공한다.
비록 여기서 설명된 전형적인 환경은 하드 디스크, 착탈형 자기 디스크(29), 및 착탈형 광디스크(31)를 사용하지만, 기술분야 당업자는 자기 카셋트, 플래시 메모리 카드(flash memory card), 디지털 비디오 디스크, 베르누이 카트리지(Bernoulli cartridge), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 등과 같이 컴퓨터에 의해 액세스 가능한 데이터를 저장할 수 있는 다른 종류의 컴퓨터 판독가능 매체가 전형적인 운영 환경에서 또한 사용될 수 있음을 이해하여야 한다.
운영 체계(35), 하나 이상의 응용 프로그램(36), 다른 프로그램 모듈(37), 및 프로그램 데이터(38)를 포함하여, 복수의 프로그램 모듈은 하드 디스크, 자기 디스크(29), 광디스크(31), ROM(24), 또는 RAM(25)에 저장된다. 사용자는 키보드(40) 및 지시 디바이스(42)와 같은 입력 디바이스를 통해 개인용 컴퓨터(20)에 명령 및 정보를 입력한다. 다른 입력 디바이스(도시되지 않은)로는 마이크로폰(microphone), 조이스틱(joystick), 게임 패드(pad), 위성방송 수신용 안테나, 스캐너 등이 포함된다. 이들 및 다른 입력 디바이스는 때로 시스템 버스에 연결된 직렬 포트 인터페이스(46)를 통해 처리 유닛(21)에 연결되지만, 병렬 포트, 게임 포트, 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 연결될 수 있다. 모니터(47) 또는 다른 종류의 디스플레이 디바이스는 또한 비디오 어댑터(video adapter)(48)와 같은 인터페이스를 통해 시스템 버스(23)에 연결된다. 모니터(47)에 부가하여, 개인용 컴퓨터는 전형적으로 스피커 및 프린터와 같은 다른 주변 출력 디바이스(도시되지 않은)를 포함한다.
개인용 컴퓨터(20)는 리모트 컴퓨터(remote computer)(49)와 같은 하나 이상의 리모트 컴퓨터에 대한 로직 연결을 사용하는 네트워크화된 환경에서 동작된다. 리모트 컴퓨터(49)는 또 다른 개인용 컴퓨터, 서버(server), 라우터(router), 네트워크 PC, 피어 디바이스(peer device), 또는 다른 네트워크 노드(node)가 될 수 있고, 전형적으로 개인용 컴퓨터(20)에 관련되어 상술된 소자 중 다수 또는 모두를 포함하지만, 도 1에서는 메모리 저장 디바이스(50)만이 도시된다. 도 1에 도시된 로직 연결은 LAN(local area network)(51) 및 WAN(wide area network)(52)을 포함한다. 이러한 네트워크 환경은 사무실, 기업내 컴퓨터 네트워크 인트라넷, 및 인터넷에서 일반적이다.
LAN 네트워크 환경에서 사용될 때, 개인용 컴퓨터(20)는 네트워크 인터페이스 또는 어댑터(53)를 통해 LAN에 연결된다. WAN 네트워크 환경에서 사용될 때, 개인용 컴퓨터(20)는 전형적으로 인터넷과 같이, WAN(52)을 통해 통신을 이루는 모뎀(54) 또는 다른 수단을 포함한다. 내부 또는 외부에 있는 모뎀(54)은 직렬 포트 인터페이스(46)를 통해 시스템 버스(23)에 연결된다. 네트워크 환경에서, 개인용 컴퓨터(20)에 관련되어 설명된 프로그램 모듈이나 그 일부는 리모트 메모리 저장 디바이스에 저장된다. 도시된 네트워크 연결은 예시적인 것이고 컴퓨터 사이에 통신 링크를 이루는 다른 수단이 사용될 수 있는 것으로 생각된다.
도 2는 본 발명의 특성에 따른 음성 인식/정보 검색(speech recognition/information retrieval, SR/IR) 시스템(60)의 블록도를 설명한다. SR/IR 시스템(60)은 마이크로폰(62), 아날로그-디지털(A/D) 변환기(64), 사용자 입력 디바이스(66), SR/IR 프로세서 모듈(68), 언어 모델(language model, LM) 저장 모듈(70), 토픽(topic) 데이터 저장부(72), 일반 데이터 저장부(74), 및 사용자 출력 디바이스(76)를 포함한다.
전체적인 시스템(60)이나 시스템(60)의 일부는 도 1에 도시된 환경에서 실시될 수 있음을 주목하여야 한다. 예를 들면, 마이크로폰(62)은 양호하게 적절한 인터페이스 및 A/D 변환기(64)를 통해 개인용 컴퓨터(20)에 입력 디바이스로 제공된다. 사용자 입력 디바이스(66)는 양호하게 키보드(40), 마우스(42), 또는 다른 적절한 입력 디바이스로 실시된다. 언어 모델 저장 모듈(70)은 양호하게 도 1에 도시된 적절한 메모리 디바이스에 저장되거나, 도 1에 대해 설명된 데이터 입력 메커니즘에 의해 SR/IR 모듈(68)로 제공된다. SR/IR 모듈(68)은 양호하게 컴퓨터(20)내의 하드웨어 모듈(CPU(21)에서 실시되거나 CPU(21)로부터 분리된 전용 음성 인식 또는 정보 검색 프로세서와 같이)이거나, 도 1에서 설명된 정보 저장 디바이스 중 임의의 것에 저장되고 CPU(21) 또는 다른 적절한 프로세서에 의해 액세스 가능한 소프트웨어 모듈이다.
토픽 데이터 저장부(72)는 또한 양호하게 도 1에 도시된 적절한 메모리 디바이스에 저장되거나, 도 1에 도시된 시스템에 의해 액세스 가능하다. 또한, 토픽 데이터 저장부(72)는 컴퓨터(20)의 일부일 필요 없이, 단순하게 컴퓨터(20)에 의해 액세스 가능할 수 있다. 예를 들면, 토픽 데이터 저장부(72)는 부분적으로 또는 전체적으로 메모리(50)에 저장될 수 있다. 생성되고 있는 특별한 문서뿐만 아니라 사용자에 의해 생성된 다른 문서도 토픽 데이터 저장부(72)내에 저장된다. 물론, 토픽 데이터 저장부(72)내에 포함된 데이터는 주제 문제, 문서의 종류(예를 들면, 편지, 메모, 전자 우편 전달, 팩시밀리 등), 또는 다른 적절한 기준과 같이 임의의 수의 기준에 따라 배열될 수 있는 것으로 인식된다.
일반 데이터 저장부(74)는 양호하게 토픽 데이터 저장부(72)보다 더 큰 데이터베이스로, 도 1에 도시된 시스템에 의해 액세스 가능하다. 일반 데이터 저장부는 예를 들면, WAN(52)을 통해 또는 LAN(51)을 통해 액세스 가능한 임의의 데이터베이스 또는 데이터베이스의 집합이다.
부가하여, 출력 디바이스(76)는 한 바람직한 실시예에서, 모니터(47) 또는 프린터, 또는 다른 적절한 출력 디바이스로 실시된다.
임의의 경우에서, 본 설명을 위해, 시스템(60)은 음성 인식 및 정보 검색 모두를 실행하는데 적절한 시스템을 도시한다. 그러나, 시스템(60)은 후술되는 본 발명의 다양한 특징 및 특성에 적절하게 음성 인식 또는 정보 검색만을 실행하도록 구성될 수 있음을 주목하여야 한다.
언어 모듈의 적응
이제 시스템(60)의 음성 인식에 대해 설명된다. 음성을 인식할 때, 시스템(60)은 공지된 방식으로 음향 정보를 사용하여 트레이닝(training)된다. 시스템(60)은 상기 정보를 나중에 마이크로폰(62)을 통해 시스템(60)에 입력된 발성을 인식하는데 사용한다. 간략히, 음성은 사용자에 의해 마이크로폰(62)에 제공된 가청 목소리 신호의 형태로 시스템(60)에 입력된다. 마이크로폰(62)은 가청 음성 신호를 A/D 변환기(64)에 제공되는 아날로그 전자 신호로 변환한다. A/D 변환기(64)는 아날로그 음성 신호를 SR/IR 모듈(68)에 제공되는 디지털 신호의 시퀀스로 변환한다.
한 바람직한 실시예에서, SR/IR 모듈(68)은 디지털 신호에 스펙트럼 분석을 실행하고 주파수 스펙트럼의 각 주파수 대역에 대해 크기 값을 계산하는 종래 어레이(array) 프로세서인 특성 추출 모듈을 포함한다. 특성 추출 모듈은 디지털 신호를 복수의 주파수 대역에 대해 확률값을 포함하는 출력 확률 분포의 스트링으로 변환되는 복수의 디지털 샘플을 포함하는 프레임(frame)으로 나눈다. 출력 확률 분포는 마이크로폰(62)에 의해 수신된 음성을 나타내는 유망한 음성 유닛(음소(phoneme), 단어(word), 또는 단어 시퀀스와 같은)을 얻는 공지된 방식으로 처리된다.
한 바람직한 실시예에서, SR/IR 모듈(68)은 N개의 가장 유망한 단어 또는 단어 시퀀스를 나타내는 N개의 유망한 단어 가정을 식별한다. SR/IR 모듈(68)은 이어서 LM 저장 모듈(70)에 액세스한다. LM 저장 모듈(70)에 저장된 언어 모델은 단어 (w1, w2, ..., w(n-1))의 시퀀스에 이어서 단어( w(n))의 확률을 평가하는데 사용된다. 이들 확률은 이어서 발성에 의해 표현되는 가장 유망한 단어 또는 단어 시퀀스를 얻기 위해 N개의 최상의 가정 중에서 선택하는데 사용된다. 가장 유망한 가정은 사용자 출력 디바이스(76)에서 출력된다.
LM 저장 모듈(70)에 저장된 언어 모델은 처음에 SR/IR 모듈(68)에 의해 구성되거나, 도 1에서 논의된 바와 같은 데이터 입력 메커니즘을 사용해 LM 저장 모듈(70)로 로드된다(예를 들면, 플로피 디스크를 사용하여). SR/IR 모듈(68)이 언어 모듈을 구성하는 실시예에서, 큰 트레이닝 텍스트 총체(training text corpus)는 SR/IR 모듈(68)에 제공된다. 그 트레이닝 텍스트 총체를 사용하여, SR/IR 모듈(68)은 공지된 방식으로 언어 모델을 구성하고, 이를 LM 저장 모듈(70)에 저장한다.
부가하여, 복수의 언어 모델이 LM 저장 모듈(70)에 저장될 수 있음을 주목하여야 한다. 예를 들면, 복수의 토픽 의존 언어 모델은 LM 저장 모듈(70)에 저장되고, 음성 인식 시스템으로 생성되고 있는 특별한 문서의 주제에 대해 사용자가 입력한 것에 기초하여 SR/IR 모듈(68)에 의해 검색될 수 있다.
임의의 경우에서, LM 저장 모듈(70)에 저장된 특별한 언어 모델 또는 모델들은 더 신속하고 정확한 모델을 얻기 위해 시스템(60)의 사용자의 실제 단어 사용(usage)에 기초하여 적응되는(그러나, 먼저 얻어지고) 것이 바람직하고, 이는 사용자에 의해 사용되는 실제 언어를 정확하게 모델화하게 된다.
도 3은 본 발명의 한 특성에 따라, LM 저장 모듈(70)에 저장된 언어 모델의 적응을 이루는 한가지 기술을 설명한다. 먼저, 언어 모델이 시스템(60)에 의해 수신된다. 언어 모델은 주제 문제에 특정되거나, 사용자에 특정되거나, 응용에 특정되거나, 또는 단순하게 일반적인 언어 모델이 될 수 있다. 앞서 논의된 바와 같이, 언어 모델은 시스템(60)에 의해 구성되고 LM 저장 모듈(70)에 저장되거나, 단순히 적절한 입력 메커니즘을 통해 LM 저장 모듈(70)로 로드될 수 있다. 언어 모델을 수신하는 단계는 도 3에서 블록(78)으로 나타낸다.
언어 모델을 적응시키기 위해, 시스템(60)은 양호하게 토픽 데이터 저장부(72)내에 저장된 정보를 모듈(70)에 저장된 언어 모델을 적응시키는데 사용되는 텍스트 총체 부분으로 사용한다. 토픽 데이터 저장부(72)는 양호하게 준비되고 있는 현재 문서, 현 사용자에 의해 준비된 다른 문서, 또는 현 사용자에 의해 판독되거나, 현 사용자에 의해 저장된, 또는 현재 작업에 관련된 것으로 현 사용자에 의해 식별된 다른 문서를 포함한다.
전형적으로, 사용자에 특정되거나 현재 토픽 또는 작업에 특정된 데이터의 양은 모듈(70)에 저장된 언어 모델을 신속하게 적응시키는데, 또는 사용자/작업에 더 할당된 언어 모델을 발생하는데 충분하지 못하다. 그러므로, 시스템(60)은 토픽 데이터 저장부(72)내에 저장된 사용자/작업 할당 정보를 일반 데이터 저장부(74)에 대한 질의를 발생하는데 사용한다. 일반 데이터 저장부(74)는 인터넷을 통해(예를 들면, WAN(52)을 통해) 액세스 가능한 하나 이상의 데이터베이스, 라이브러리(library) 데이터베이스, 또는 시스템(60)에 의해 액세스 가능한(예를 들면, LAN(51)을 통해) 또 다른 적절한 대형 데이터베이스를 포함할 수 있음을 상기한다. 일반 데이터 저장부(74)에 대한 질의는 도 3에서 블록(80)으로 나타낸다.
일반 데이터 저장부(74)에 대한 질의를 발생하고 실행하는데 사용되는 특별한 정보 검색 기술은 본 발명의 이러한 특성에 중요하지 않다. 오히려, 적절한 질의 전개 및 정보 검색 기술이 사용될 수 있다. 본 기술에 따른 적응은 관련 문서들을 더 많이 검색하는 정보 검색 기술들로 더 잘 작업됨을 주목하여야 한다.
다음에는 정보 검색 질의에 의해 식별되는 문서가 검색된다. 이는 블록(82)으로 나타낸다. 한 바람직한 실시예에서, 도 3의 점선(84)으로 나타낸 바와 같이, 블록(86)에서 처리가 단순히 계속된다. 그 바람직한 실시예에서, 모듈(70)에 저장된 토픽 언어 모델은 토픽 데이터 저장부(72)내에 저장된 정보에 기초하고, 일반 데이터 저장부(74)에 대해 실행되는 질의의 결과로 일반 데이터 저장부(74)로부터 검색된 정보에 기초하여 조정 또는 적응된다. 그래서, 언어 모델에 의해 발생된 확률 평가는 토픽 데이터 저장부(72)내의 정보 및 일반 데이터 저장부(74)로부터 검색된 정보를 모두 포함하는 텍스트 총체에 기초하여 조정된다. 이는 토픽 데이터 저장부(72)내에 저장된 정보를 단순히 사용하는 것 보다 모듈(70)에 저장된 언어 모델을 적응시키는데 훨씬 더 많은 텍스트 총체를 제공한다. 적응 텍스트 총체가 훨씬 더 크므로, 언어 모델에 의해 발생된 확률이 더 잘 평가될 수 있고, 결과적인 언어 모델은 사용자에 의한 실제 사용량을 모델화하기 위해 더 나은(즉, 보다 신속하고 정확한) 메커니즘을 산출한다. 적응은 블록(86)으로 나타낸다.
언어 모델이 적응되는 방법은 복수의 형태 중 하나를 취할 수 있다. 한 바람직한 실시예에서는 일반 데이터 저장부(74)에 대한 질의에 의해 검색된 문서들의 서브 세트만이 모듈(70)에 저장된 언어 모델을 적응시키는데 사용된다. 또한, 일반 데이터 저장부(74)에 대한 질의에 기초하여 검색된 문서들은 토픽 데이터 저장부(72)내에 이미 포함된 것과 관련되어 가중화될 수 있다. 검색된 문서들은 양호하게 데이터 저장부(72)내에 이미 저장된 것 보다 덜 가중화된다. 그래서, 검색된 문서들에 기초한 모듈(70)에 저장된 언어 모델에 대한 효과는 이미 저장된(생각건대 사용자에 관련된 것으로 공지된) 문서에 기초하는 것 보다 더 적다.
또한, 언어 모델은 또 다른 방법으로 적응될 수 있다. 질의의 결과는 모듈(70)에 이미 저장된 언어 모델과 조합되는 언어 모델을 정하는데 사용될 수 있다. 이 조합은 보간(interpolation), 삭제 보간(deleted interpolation), 또는 다른 적절한 기술과 같이, 공지된 평활화 기술을 사용하여 실행될 수 있다. 모듈(70)에 저장된 토픽 언어 모델을 적응시키는데 삭제 보간이 사용되는 실시예에서, 일반 데이터 저장부(74)로부터 검색된 문서들 및 토픽 데이터 저장부(72)내에 이미 저장된 문서들은 다음과 같이 가중화된다.
Figure 112000020576251-pct00001
여기서, Pr은 검색된 문서들에 기초하여 언어 모델에 의해 발생된 확률값이고, Pt는 토픽 데이터 저장부(72)내에 이미 있는 문서에 기초하여 언어 모델에 의해 발생된 확률값이고, 또한 λ는 양호하게 실험적으로 결정된 값을 갖는 삭제 보간 매개 변수이다. 정보 검색 기술이 매우 정확한 것으로 믿어지면, λ는 더 높은 값을 갖게 된다(예를 들면, 0.8 또는 0.9). 그러나, 정보 검색 기술이 정확한 것으로 믿어지지 않는 경우, λ는 더 낮은 값을 갖는다(예를 들면, 0.4 또는 0.5). 그러나, 0.1 - 0.9와 같은 임의의 λ 값이 적절하다.
또 다른 실시예에서, λ의 값은 질의의 수가 증가됨에 따라 점차 증가된다. 다른 말로 하면, 토픽 데이터 저장부(72)내에 저장된 정보의 양이 더 커지기 때문에, 실행된 질의의 수가 증가됨에 따라, 언어 모델을 적응시키는데 사용되는 텍스트 총체는 더 커지거나 더 정확해질 수 있다. 그래서, 정보 검색 기술을 사용해 검색된 문서들이 초기에 검색된 것 보다 더 관련된다. 그러므로, λ의 값은 질의의 수가 증가됨에 따라 점차 증가될 수 있다.
또한, 검색된 데이터로부터 수개의 언어 모델이 구성될 수 있음을 주목하여야 한다. 예를 들면, 한 언어 모델은 가장 관련된 100개 문서를 사용해 구성될 수 있고, 제 2 언어 모델은 가장 관련된 200개 문서를 사용해 구성될 수 있다. 검색된 문서들을 사용하여 구성된 복수의 언어 모델은 일반 언어 모델로부터, 또한 토픽 데이터 저장부(72)로부터 공지된 관련 데이터로부터 발생되는 언어 모델과 조합될 수 있다. 삭제 보간을 사용하는 언어 모델 조합은 다음과 같이 표현될 수 있다.
Figure 112000020576251-pct00002
여기서, Pi는 ith 언어 모델에 의해 발생된 확률이고, 0 <= λi <=1은 ith 언어 모델에 대한 보간 가중치이고, Σλi = 1이다.
일단 언어 모델이 적응되면, 적응되거나 조정된 언어 모델은 음성 인식에서 사용된다. 이는 블록(88)으로 나타낸다.
본 발명의 한가지 바람직한 특성에 따라, 시스템(60)은 자동적 또한 간헐적으로 토픽 할당 질의를 재발생하고 일반 데이터 저장부(74)내에 저장된 정보에 대해 이를 전달한다. 예를 들면, 바람직한 실시예에서, 모듈(70)에 저장된 언어 모델은 진행중에(예를 들면, 사용자가 시스템(60)을 사용하고 있을 때) 적응된다. 그러므로, 시스템(60)은 처음에 시스템(60)의 전력이 상승되자마자 질의를 실행하고 언어 모델을 적응시키고, 이어서 각 시간에 새로운 문서를 생성한다. 그러나, 특별히, 시스템(60)은 문서가 생성되고 있는 동안에도 새로운 질의를 생성하고 언이 모델을 간헐적으로 적응시키도록 구성된다. 그래서, 시스템(60)은 매 소정의 단어수 마다, 매 소정의 시간 간격 마다, 또는 다른 적절한 기준에 기초하여 질의를 반복하도록 구성된다.
그 기준이 무엇이든, 이는 질의 임계값을 설정하는데 사용된다. 시스템(60)은 이와 같이 질의 임계값에 이르렀는지의 여부를 결정한다. 그런 경우, 시스템(60)은 또 다른 질의를 발생하고, 블록(80)으로 나타낸 바와 같이 일반적인 데이터 저장에 대해 이를 실행한다. 질의 임계값에 이르지 않았으면, 시스템(60)은 단순히 음성 인식을 정상적으로 계속한다. 이는 도 3에서 블록(90, 92)으로 나타낸다.
본 발명의 다른 바람직한 특성에 따라, 다른 정보가 또한 모듈(70)에 저장된 언어 모델을 적응시키는데 사용될 수 있다. 이러한 특성은 도 3에서 블록(94, 96, 98)으로 나타낸다. 예를 들어, 한 바람직한 실시예에서는 일반 데이터 저장부(74)의 정보에 대해 질의가 실행된 후에, 질의로부터 검색된 각 문서들의 관련성(relevancy) 측정이 결정된다. 이어서, 문서들은 관련성 측정에 따라 등급이 정해진다. 이는 블록(94)으로 나타낸다. 검색된 문서들의 서브 세트(관련성 임계값 이상의 관련성 측정치를 갖는 것)는 언어 모델을 적응시키는데 사용된다. 또한, 검색된 문서들은 블록(96)에 의해 나타낸 관련성 측정에 따라 가중화될 수 있다. 문서는 가중화되어 모듈(70)에 저장된 언어 모델을 적응시키도록 사용될 수 있다.
본 발명의 또 다른 실시예에서, 다른 정보가 또한 언어 모델을 조정하는데 사용된다. 예를 들면, 시스템(60)이 문서를 준비하도록 사용자에 의해 사용될 특별한 응용을 식별하도록 구성될 수 있다. 예를 들어, 사용자가 워드프로세서 응용을 사용중이면, 사용자는 이-메일 응용에서의 경우보다 더 형식적인 문서를 발생할 수 있다. 시스템(60)은 응용을 인식하고, 더 형식적인 문서(즉, 더 형식적인 단어 사용과 단어 시퀀스를 갖는 문서)를 찾도록 일반 데이터 저장부(72)내에 포함된 정보에 대해 질의를 생성할 때 그 정보를 사용하거나, 간단하게 수신된 덜 형식적인 문서 보다 질의에 의해 수신된 더 형식적인 문서를 더 높이 가중화하도록 구성될 수 있다. 또한, 사용자가 메모 템플리트를 풀업(pull up)하여 내부 메모를 발생하면, 시스템(60)은 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 발생할 때 토픽 데이터 저장부(72)로부터 유사한 메모만을 검색하도록 구성될 수 있다.
본 발명에 따라 많은 다른 매개 변수가 또한 사용될 수 있다. 예를 들면, 사용자는 업무 시간 동안 사무 편지 및 메모와 같은 보다 형식적인 문서를 기록하지만, 낮이나 저녁에는 개인 편지와 같은 덜 형식적인 문서를 발생하는 경향이 있다. 그러므로, 사용자에 의해 문서가 생성되는 시간대에 기초하여, 시스템(60)은 똑같은 시간대에 생성되었던 문서를 토픽 데이터 저장부(72)로부터 검색함으로서 질의를 발생하도록 구성될 수 있다. 시스템(60)은 또한 간단하게 그 질의에 기초하여 검색된 유사한 문서를 다른 문서 보다 더 무겁게 가중화하도록 구성될 수 있다.
모듈(70)에 저장된 언어 모델의 적응은 사용자가 시스템(60)의 음성 인식 특성을 사용하는지의 여부에 관계없이 간헐적으로 실행될 수 있음을 주목하여야 한다. 시스템(60)의 전력이 상승하는 동안, 이는 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 반복하고 소정의 기준에 따라 모듈(70)에 저장된 언어 모델을 적응시키도록 구성될 수 있다.
그래서, 본 발명의 언어 모델 적응 특성은 모듈(70)에 저장된 언어 모델을 발생 또는 개선하는데 사용 가능한 사용자에 특정된 데이터의 양을 신속하고 효과적으로 확장하는데 사용될 수 있음을 볼 수 있다. 사용 가능한 사용자에 특정된 데이터는 먼저 사용자에 특정된 문서에 유사한 텍스트나 문서를 식별하도록 큰 정보 저장부에 대한 질의로 사용된다. 이때, 모듈(70)에 저장된 사용자 특정 언어 모델을 발생 또는 적응시키는데 사용되는 텍스트 총체는 다른 경우 보다 훨씬 더 큰 집합이므로, 언어 모델에 의해 제공되는 확률은 더 잘 평가될 수 있다. 다시, 언어 모델이 정해지고 적응되는 특별한 방식 및 정보 검색을 실행하는 특별한 기술은 본 발명의 특성에 중요하지 않고, 적절한 기술이 사용될 수 있음을 주목하여야 한다.
정보 검색을 개선하기 위한 언어 모델의 사용
삭제
도 4는 시스템(60)이 정보 검색을 개선할 수 있는 기술을 설명하는 흐름도이다. 상술된 바와 같이, 통계적인 n-문법 언어 모델은 한 단어에 대해 그 단어까지 주어진 단어 시퀀스에서(즉, 주어진 단어 히스토리(word history) H에서) 확률 평가를 만든다. n-문법 언어 모델은 히스토리(H)에서(n-1) 이전 단어만을 다음 단어의 확률에 영향력을 갖는 것으로 생각한다. 예를 들어, 이중-문법(또는 2-문법) 언어 모델은 이전 단어를 다음 단어에 영향력을 갖는 것으로 생각한다. 그러므로, n-문법 언어 모델에서, 단어 발생 확률은 다음과 같이 표현된다.
Figure 112000020576251-pct00003
여기서, w는 관심을 두는 단어이고, w1은 시퀀스에서 단어(w) 이전의 제 1 단어이고, w2는 단어(w) 이전의 제 2 단어이며, w(n-1)은 단어(w) 이전에서 n-1 위치에 놓인 단어이다.
또한, 단어 시퀀스의 확률은 소정의 히스토리에서 각 단어의 확률의 곱에 기초하여 결정된다. 그러므로, 단어 시퀀스(w1, ..., wm)의 확률은 다음과 같이 표현된다.
Figure 112000020576251-pct00004
언어 모델을 논의할 때, 단어 시퀀스의 혼란도(perplexity) 개념이 또한 공지되어 있다. 혼란도는 언어 모델에서 평균적인 브랜치 인자(branching factor)의 통계적인 측정치이다. 다른 말로 하면, 혼란도는 소정의 관심을 두는 단어 또는 단어 시퀀스에서 언어 모델에 의해 예측되는 가능한 단어의 평균수를 통계적으로 측정한 것이다. 그러므로, 소정의 단어 시퀀스(w1, ..., wm)의 혼란도는 다음과 같이 표현된다.
Figure 112000020576251-pct00005
또한, 소정의 언어 모델 LM에 대한 단어 시퀀스(
Figure 112004005297618-pct00016
)의 혼란도는 다음과 같이 표현된다.
Figure 112000020576251-pct00007
그래서, 소정의 언어 모델에서 단어 시퀀스의 혼란도는 소정의 단어 시퀀스 및 그 히스토리에서 그 언어 모델에 의해 예측되는 단어의 평균수와 대략 같다. 이 값은 사용되고 있는 특별한 언어 모델의 예측력에 따라 변한다. 언어 모델이 정해지는 특별한 방식과 사용되는 특별한 언어 모델은 본 발명에서 중요하지 않다.
본 발명의 한 특성은 시스템(60)에 의해 실행되는 정보 검색의 정확도를 개선하기 위해 언어 모델과 관련되는 것으로 혼란도의 개념을 사용한다. 이를 행하기 위해, 시스템(60)은 먼저 도 4에서 블록(100)으로 나타낸 바와 같이 일반 언어 모델을 수신 또는 생성한다. 그래서, 시스템(60)은 언어 모델 발생기를 갖추어 구성될 수 있다. 이 경우, 임의의 공지된 적절한 방식으로 큰 텍스트 총체에 기초하여 일반 언어 모델을 발생하는 언어 모델 발생기에 트레이닝 데이터의 큰 텍스트 총체가 제공되는 것이 바람직하다. 트레이닝 데이터는 양호하게 일반 데이터 저장부(74)내에 저장된 정보이다(또는 그 정보의 서브 세트). 그후, 언어 모델은 모듈(70)에 저장된다. 그러나, 다른 방법으로, 시스템(60)에는 간단하게 모듈(70)로 로드되는 종래의 상업적으로 사용 가능한 일반 언어 모델이 제공될 수 있다. 또 다른 방법에서는 시스템(60)이 일반 데이터 저장부(74)의 정보와 구별되는 또 다른 큰 텍스트 데이터 세트에서 일반 언어 모델을 생성한다. 바람직한 실시예에서, 시스템(60)은 3-문법 언어 모델을 생성하거나 그에 제공된다.
다음에, 시스템(60)은 사용자에게 관심이 있는 특별한 토픽과 관련된 토픽 언어 모델을 수신하거나 생성한다. 다시, 시스템(60)에는 상업적으로 사용 가능한 토픽 언어 모델이 제공되거나, 시스템이 토픽 언어 모델을 스스로 발생하여 트레이닝할 수 있다.
토픽 언어 모델을 발생하기 위해, 사용자는 양호하게 관심 있는 특정 토픽에 관련된 트레이닝 데이터를 시스템(60)에 제공한다. 예를 들면, 사용자는 몇가지 기사를 가질 수 있고, 일반 데이터 저장부(74)내에 저장된 정보로부터 다른 유사한 기사를 검색하는 걸 바랄 수 있다. 또는, 사용자는 간단하게 탐색 질의이나 요구를 시스템에 공급할 수 있다. 토픽 언어 모델은 관련된 기사를 사용해 시스템(60)에 의해 발생되거나, 관련 기사의 텍스트 일부가 일반 데이터 저장부(74)내에 저장된 정보에 대해 질의를 표시하는데 사용되고, 그 질의에 기초하여 검색된 정보가 사용자 공급 정보와 조합되어 토픽 언어 모델을 생성하는데 사용될 수 있다. 또 다른 바람직한 실시예에서, 토픽 언어 모델을 생성하는데 사용되는 트레이닝 데이터가 드물 때, 토픽 언어 모델은 드문 데이터를 사용하여 발생되고, 이어서 새로운 토픽 언어 모델을 얻기 위해 일반 언어 모델과 조합된다. 조합 기술은 본 발명에서 중요하지 않고, 보간(interpolation), 삭제 보간(deleted interpolation), 또는 다른 적절한 기술과 같은 평활화 기술을 사용해 이루어질 수 있다. 토픽 언어 모델을 수신 또는 생성하는 처리는 도 4에서 블록(102)으로 나타낸다.
일반 언어 모델 및 토픽 언어 모델이 시스템(60)에 의해 발생 또는 수신된 후에, 시스템(60)은 정보 검색 처리에서 고려되어야 하는 일반 데이터 저장부(74)내의 각 문서(또는 문서 일부)에 유사성 측정치를 할당하기 시작한다. 이를 행하기 위해, 시스템(60)은 먼저 일반 데이터 저장부(74)로부터 문서를 선택한다. 이는 블록(104)으로 나타낸다.
다음에, 시스템(60)은 블록(106)으로 나타낸 바와 같이 일반 언어 모델에 대해 그 문서의 혼란도를 결정한다. 이는 다음과 같이 표현된다.
Figure 112000020576251-pct00008
여기서, GLM은 일반 언어 모델을 나타내고, doci는 선택된 문서를 나타낸다.
시스템(60)은 이어서 블록(108)으로 나타낸 바와 같이 토픽 언어 모델에 대해 문서의 혼란도를 결정한다. 이는 다음과 같이 표현된다.
Figure 112000020576251-pct00009
여기서, TLM은 토픽 언어 모델을 나타낸다.
시스템(60)은 블록(106, 108)에서 결정된 혼란도에 기초하여 선택된 문서에 대해 관련성 측정치를 결정한다. 관련성 측정치는 양호하게 다음과 같이 두 혼란도의 비율로 표시된다.
Figure 112000020576251-pct00010
주어진 특별한 언어 모델에서 문서(단어의 시퀀스와 같은)의 혼란도는 주어진 문서에서 언어 모델에 의해 예측될 수 있는 단어의 평균수를 대략적으로 나타냄을 상기한다. 그러므로, 혼란도가 비교적 높으면, 그 언어 모델을 전개하는데 사용된 트레이닝 데이터는 문서에서 사용되고 있는 용어에 대해 언어 모델을 잘 트레이닝하지 못하였다. 그러므로, 고려되는 문서는 언어 모델을 전개하는데 사용된 트레이닝 데이터와 유사하지 않은 경향이 있다. 그러나, 그 문서의 혼란도가 낮으면, 그 언어 모델을 전개하는데 사용된 트레이닝 데이터가 문서에 나타나는 용어에 대해 언어 모델을 잘 트레이닝하였을 가망이 있으므로, 그 문서는 그 언어 모델을 트레이닝하는데 사용된 트레이닝 언어에 유사할 수 있다.
그러므로, 한 바람직한 실시예에서는 유사성 측정치가 토픽 언어 모델만을 사용하여 검색될 수 있다. 그러나, 보다 바람직한 실시예에서는 토픽 언어 모델과 일반 언어 모델이 모두 사용된다. 그 이유는 고려되는 문서가 관련되는지 여부와 무관하게 일부 언어 구성이 문서에 다소간 나타날 수 있기 때문이다. 비록 토픽 언어 모델의 혼란도를 적용하여 얻어진 미가공(raw) 관련성 점수가 꽤 높더라도, 정보 검색 시스템은 이들 유사성 문서에 대해 구별되지 않는 것이 바람직하다. 그러한 경우로, 관심 있는 문서에서 사용되고 있는 언어 구성이 상당히 유사하지 않으면, 일반 언어 모델에 대해 검색된 혼란도 값도 또한 높아진다. 일반 언어 모델 및 토픽 언어 모델에 대해 결정된 혼란도의 비율을 사용함으로서, 시스템은 기본적으로 기본선(일반 언어 모델)에 대해 결정되어, 토픽 언어 모델에 대한 문서의 혼란도를 제공함으로서 간단히 검색된 미가공 수 보다 더 의미가 있는 수를 검색한다. 그래서, 두 혼란도의 비율로 관련성 측정치를 제공하는 것이 보다 정확한 관련성 측정치를 산출하는 것으로 믿어진다.
유사하게, 관심 있는 문서에서 사용되는 언어 구성이 관심 있는 토픽과 관계없이 매우 일반적이면, 문서가 특별히 관련되지 않더라도, 토픽 언어 모델에 의해 검색된 혼란도 값은 비교적 낮아진다. 그러나, 일반 언어 모델에 의해 검색된 혼란도 값도 또한 매우 낮아질 수 있다. 그러므로, 두 혼란도의 비율로 관련성 측정치를 제공함으로써, 정보 검색 기술이 보다 관련 문서들을 검색하게 되는 것으로 믿어진다.
혼란도에 기초하여 선택된 문서의 관련성을 결정하는 단계는 블록(110)으로 나타낸다. 두 혼란도의 비율로 관련성 인자를 표시하는 것은 다음과 같이 확장될 수 있다.
Figure 112000020576251-pct00011
여기서, PT = 토픽 언어 모델에 대해 주어진 히스토리에서, 단어 시퀀스의 확률이고, PG = 일반 언어 모델에 대해 주어진 히스토리에서, 단어 시퀀스의 확률이다.
일단 관련성 측정치가 결정되면, 시스템(60)은 관련성 측정치가 관련성 임계값을 만족시키는지의 여부를 결정한다. 관련성 임계값은 미리 결정되거나, 사용자에 의해 입력되거나, 또는 시스템(60)에 의해 검색되고 있는 문서의 수에 기초하고, 다른 기준에 기초하여 적응될 수 있다. 시스템(60)은 단순하게 문서가 사용자에게 제공되기에 충분히 높은 관련성 측정치를 갖는지의 여부를 결정한다. 이는 블록(112)으로 나타낸다.
문서가 관련성 임계값을 만족시키지 못하면, 이는 사용자에게 제공되지 않고 블록(116)에 대한 처리가 계속된다. 그러나, 문서가 관련성 임계값을 만족시키지 못하면, 이는 검색되어 토픽 데이터 저장부(72)내에 저장되거나, 출력 디바이스(76)에서 사용자에게 제공된다. 이는 블록(114)으로 나타낸다.
시스템(60)은 이어서 일반 데이터 저장부(74)에서 추가 문서를 조사하는지의 여부를 결정한다. 그런 경우, 처리는 다시 블록(104)으로 되돌아가, 또 다른 문서가 선택되고 그 문서의 관련성이 결정된다. 더 조사될 문서가 없으면, 처리는 옵션 블록(118)에 대해 계속된다. 이는 블록(116)으로 나타낸다.
일반 모든 문서(또는 문서의 서브 세트)가 조사되었으면, 시스템(60)은 간단하게 문서를 사용자에게 제공하거나, 문서를 저장하거나, 관련성에 따라 문서의 등급을 정할 수 있다. 관련성에 따라 문서의 등급이 정해지는 실시예에서는 시스템(60)이 간단하게 각 문서에 대해 결정된 관련성 측정치에 따라 문서의 등급을 정한다. 시스템(60)은 관련성에 따라 등급이 정해진 문서를 사용자에게 제공하거나, 간단하게 등급 결정에 기초하여 검색된 문서들의 서브 세트를 제공할 수 있다. 이는 블록(118)으로 나타낸다.
이 기술을 사용해, 일반 언어 모델은 일반 데이터 저장부(74)내에 저장된 정보, 또는 그 정보의 일부 대표적인 샘플에 기초하여 한번만 발생될 필요가 있음을 볼 수 있다. 다른 방법으로, 일반 언어 모델은 일반 데이터 저장부(74)내에서 정보의 내용이 변할 때 간헐적으로 업데이트될 수 있다. 토픽 언어 모델은 양호하게 사용자에 의해 제공되는 각 질의에 대해 한번 발생된다.
결론
본 발명의 한 특성은 음성 인식 동안 사용되는 언어 모델 또는 모델들을 개선하고 적응시키는데 정보 검색을 사용하는 기술을 제공한다. 시스템은 언어 모델을 직접적으로 전개하고 적응시키도록 사용자에 의해 이미 발생된 텍스트의 공지된 히스토리를 사용하지만, 언어 모델을 발생 또는 적응시키는데 사용되는 트레이닝 데이터를 확장하는 유사한 문서를 찾기 위해 일반 데이터 저장부에 대한 토픽 특정 질의를 또한 전달한다. 이는 과거에 사용된 광범위하고 예상되는 토픽 의존 언어 모델 보다 훨씬 더 정확한 언어 모델을 제공한다. 큰 데이터 저장부에 대한 질의는 또한 양호하게 증가된 정확도를 갖는 동적으로 적응되는 언어 모델을 얻기 위해 주기적으로 또는 간헐적으로 반복된다.
본 발명의 또 다른 특정으로, 정보 검색 기술을 개선하는 언어 모델이 사용된다. 시스템은 양호하게 일반 언어 모델 및 토픽 언어 모델을 얻는다(상술된 기술이나 또 다른 공지된 기술을 사용해). 시스템은 얻어진 언어 모델에 의해 검색된 혼란도 값에 기초하여 탐색되는 문서의 관련성 측정치를 계산한다. 언어 모델이 내용에 의존하는 모델이므로, 이는 시스템이 단어 그 자체를 고려할 뿐만 아니라, 단어가 나타나는 내용이 문서의 관련성을 결정하도록 허용한다. 이는 정보 검색 기술의 재현도 및 정확성 모두를 개선하고, 결과적으로 관련 정보가 탐색되고 있는 문서에서 나타날 가능성(또는 확률)이 더 잘 평가되게 하여, 정보 검색 시스템의 더 나은 성능을 제공하게 된다.
비록 본 발명이 바람직한 실시예를 참고로 설명되었지만, 당업자는 본 발명의 의도 및 범위에서 벗어나지 않고 형태 및 상세한 부분에서 변화가 이루어질 수 있는 것으로 인식하게 된다.

Claims (36)

  1. 제 1 데이터 저장부 및 제 2 데이터 저장부에 액세스 하는 음성 인식 시스템에 사용되는 언어 모델(language model)을 적응시키는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부에 비해 큰, 상기 방법에 있어서,
    상기 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의(query)를 형성하는(formulate) 단계;
    상기 형성된 질의에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계;
    상기 질의에 기초하여 상기 제 2 데이터 저장부로부터 정보를 검색하는 단계; 및
    검색된 상기 정보 및 상기 제 1 데이터 저장부내의 정보에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는 방법.
  2. 제 1 항에 있어서,
    사용자가 상기 음성 인식 시스템을 사용하고 있는 동안에 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계를 반복하는 단계를 더 포함하는 방법.
  3. 제 2 항에 있어서,
    사용자가 상기 음성 인식 시스템을 사용하고 있는 동안, 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계가 간헐적(intermittently)으로 수행되는, 방법.
  4. 제 1 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    사용자에 의해 미리 생성되어 상기 제 1 데이터 저장부내에 저장된 문서들에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  5. 제 1 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    사용자에 의해 작성되고 있는 문서에 포함된 정보에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  6. 제 1 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    사용자에 의해 작성되고 있는 문서의 종류에 관련된 정보에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    문서를 작성하기 위해 상기 사용자에 의해 사용되고 있는 템플리트(template)에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  8. 제 6 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    문서를 작성하기 위해 상기 사용자에 의해 사용되고 있는 응용 프로그램에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  9. 제 6 항에 있어서,
    상기 정보 검색 질의를 형성하는 단계는,
    상기 사용자가 문서를 작성하고 있는 동안의 하루 중 시간대에 기초하여 정보 검색 질의를 형성하는 단계를 포함하는, 방법.
  10. 제 1항에 있어서,
    상기 정보를 검색하는 단계는,
    상기 제 2 정보 저장부로부터 복수의 문서들을 검색하는 단계; 및
    검색된 각 문서와 연관된 관련성 측정치를 결정하는 단계를 포함하는, 방법.
  11. 제 10 항에 있어서,
    상기 언어 모델을 적응시키는 단계는,
    임계값을 만족시키는 관련성 측정치를 갖는 검색된 관련 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
  12. 제 11 항에 있어서,
    상기 언어 모델을 적응시키는 단계는,
    각 관련 문서에 가중치(weight)를 할당하는 단계; 및
    각 관련 문서에 할당된 상기 가중치에 따라 상기 관련 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
  13. 제 1 항에 있어서,
    상기 제 2 데이터 저장부로부터 정보를 검색하는 단계는 상기 제 2 데이터 저장부로부터 복수의 문서들을 검색하는 단계를 포함하고;
    상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 상기 제 1 데이터 저장부내의 정보보다 더 낮은 가중치를 부여하는 단계를 더 포함하며,
    상기 언어 모델을 적응시키는 단계는 상기 제 1 데이터 저장부내의 정보와, 상기 제 1 데이터 저장부내의 상기 정보에 대비하여 가중치가 부여된 상기 검색된 문서들에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는, 방법.
  14. 제 1 항에 있어서,
    상기 언어 모델은 단어 시퀀스들의 확률 평가들을 포함하고,
    상기 언어 모델을 적응시키는 단계는,
    상기 제 1 데이터 저장부내의 상기 정보 및 상기 제 2 데이터 저장부로부터 검색된 상기 정보에 기초하여 상기 확률 평가들을 조정하는 단계를 포함하는, 방법.
  15. 제 12 항에 있어서,
    상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 가중치를 할당하는 단계는,
    적어도 증가된 가중치가 가중치 임계값에 도달할 때까지, 상기 제 2 데이터 저장부에 질의된 횟수가 증가됨에 따라 상기 제 2 데이터 저장부로부터 검색된 상기 문서들에 상기 증가된 가중치를 할당하는 단계를 포함하는, 방법.
  16. 제 1 항에 있어서,
    상기 제 2 데이터 저장부에 질의하는 단계는,
    글로벌 컴퓨터 네트워크를 통해 정보를 질의하는 단계를 포함하는, 방법.
  17. 제 1 항에 있어서,
    상기 적응시키는 단계는,
    상기 제 1 데이터 저장부내의 상기 정보 및 제 1 질의로부터 검색된 정보에 기초하여 제 1 언어 모델을 구성하는 단계를 포함하는, 방법.
  18. 제 17 항에 있어서,
    상기 적응시키는 단계는,
    후속 질의로부터 검색된 정보에 기초하여 제 2 언어 모델을 구성하는 단계; 및
    상기 제 1 및 제 2 언어 모델들을 조합하는 단계를 더 포함하는, 방법.
  19. 제 1 데이터 저장부 내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,
    상기 제 1 데이터 저장부내에 저장된 정보에 기초하여 제 1 언어 모델을 제공하는 단계;
    제 2 언어 모델을 제공하는 단계;
    상기 제 1 언어 모델이 주어지면, 상기 제 2 데이터 저장부 내 문서의 제 1 혼란도(perplexity)를 결정하는 단계;
    상기 제 2 언어 모델이 주어지면, 상기 문서의 제 2 혼란도를 결정하는 단계;
    상기 제 1 및 제 2 혼란도들에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계; 및
    상기 관련성 측정치에 기초하여 상기 문서를 선택적으로 검색하는 단계를 포함하는 방법.
  20. 제 19 항에 있어서,
    상기 제 2 데이터 저장부내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 상기 제 2 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계; 및
    임계값 레벨을 만족하는 관련성 측정치를 갖는 복수의 문서들로부터 관련 문서들을 검색하는 단계를 더 포함하는 방법.
  21. 제 19 항에 있어서,
    상기 제 2 언어 모델을 제공하는 단계는,
    상기 제 2 데이터 저장부내에 저장된 정보에 기초하여 상기 제 2 언어 모델을 제공하는 단계를 포함하는, 방법.
  22. 제 19 항에 있어서,
    상기 관련성 측정치를 결정하는 단계는,
    상기 제 1 및 제 2 혼란도 상호간의 비를 결정하는 단계; 및
    상기 비에 기초하여 상기 관련성 측정치를 결정하는 단계를 포함하는, 방법.
  23. 제 20 항에 있어서,
    상기 관련 문서들을 검색하는 단계는,
    각 문서에 대해 결정된 상기 관련성 측정치에 따라 문서들의 등급을 정하는 단계를 포함하는, 방법.
  24. 제 1 데이터 저장부 내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,
    상기 제 1 데이터 저장부내의 정보에 기초하여 제 1 문맥 의존 언어 모델을 제공하는 단계;
    상기 제 2 데이터 저장부내의 정보에 기초하여 제 2 문맥 의존 언어 모델을 제공하는 단계;
    주어진 문서에 대한 상기 제 1 언어 모델의 예측 능력 및 주어진 문서에 대한 제 2 언어 모델의 예측 능력에 기초하여, 상기 제 2 데이터 저장부 내 문서의 관련성을 결정하는 단계; 및
    상기 관련성이 관련성 임계값을 만족시키면, 상기 문서를 검색하는 단계를 포함하는 방법.
  25. 제 24 항에 있어서,
    상기 제 1 및 제 2 언어 모델들의 예측 능력에 기초하여 문서의 관련성을 결정하는 단계는,
    주어진 문서에 대한 상기 제 1 언어 모델의 브랜치 인자(branching factor)및 주어진 문서에 대한 상기 제 2 언어 모델의 브랜치 인자에 기초하여 상기 관련성을 결정하는 단계를 포함하는, 방법.
  26. 제 24항에 있어서,
    상기 제 2 데이터 저장부 내에서 복수의 문서들에 대한 관련성을 결정하는 단계들을 반복하는 단계;
    상기 결정된 관련성을 상기 관련성 임계값과 비교하는 단계; 및
    상기 관련성 임계값을 만족시키는 관련성을 갖는 문서들을 검색하는 단계를 더 포함하는 방법.
  27. 제 26 항에 있어서,
    상기 관련성 임계값을 만족시키는 다수의 문서들에 기초하여 상기 관련성 임계값을 적응시키는 단계를 더 포함하는 방법.
  28. 제 24 항에 있어서,
    상기 제 1 언어 모델을 제공하는 단계는,
    상기 제 1 데이터 저장부 내의 정보에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계; 및
    상기 제 1 데이터 저장부내의 상기 정보 및 상기 질의에 기초하여 검색된 상기 제 2 데이터 저장부로부터의 정보에 기초하여 상기 제 1 언어 모델을 구성하는 단계를 포함하는, 방법.
  29. 제 24 항에 있어서,
    상기 제 1 언어 모델을 제공하는 단계는,
    상기 제 1 데이터 저장부내의 정보에 기초하여 예비 언어 모델을 구성하는 단계; 및
    상기 제 1 언어 모델을 얻기 위해 상기 예비 언어 모델을 상기 제 2 언어 모델과 조합하는 단계를 포함하는, 방법.
  30. 제 24 항에 있어서,
    상기 제 2 언어 모델을 제공하는 단계는,
    상기 제 2 데이터 저장부내에 저장된 모든 정보의 서브 세트에 기초하여 상기 제 2 언어 모델을 구성하는 단계를 포함하는, 방법.
  31. 제 1 데이터 저장부내에 저장된 정보에 관련된 제 2 데이터 저장부로부터 정보를 검색하는 방법으로서, 상기 제 2 데이터 저장부는 상기 제 1 데이터 저장부보다 큰, 상기 방법에 있어서,
    상기 제 1 데이터 저장부내에 저장된 정보에 기초하여 제 1 언어 모델을 제공하는 단계;
    상기 제 1 언어 모델이 주어지면, 상기 제 2 데이터 저장부 내 문서의 제 1 혼란도를 결정하는 단계;
    상기 제 1 혼란도에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계;
    상기 제 2 데이터 저장부 내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계; 및
    임계값 레벨을 만족시키는 관련성 측정치를 갖는 복수의 문서들로부터 관련 문서를 검색하는 단계를 포함하는 방법.
  32. 제 31 항에 있어서,
    상기 제 2 데이터 저장부내에 저장된 정보에 기초하여 제 2 언어 모델을 제공하는 단계;
    상기 제 2 언어 모델이 주어지면, 상기 문서의 제 2 혼란도를 결정하는 단계를 더 포함하고,
    상기 관련성 측정치를 결정하는 단계는 상기 제 1 혼란도 및 상기 제 2 혼란도에 기초하여 상기 문서의 관련성 측정치를 결정하는 단계를 포함하고,
    상기 반복하는 단계는 상기 제 2 데이터 저장부내의 복수의 문서들에 대해, 상기 제 1 혼란도를 결정하는 단계, 상기 제 2 혼란도를 결정하는 단계, 및 상기 관련성 측정치를 결정하는 단계를 반복하는 단계를 포함하는, 방법.
  33. 음성을 인식하는 방법에 있어서,
    제 1 데이터 저장부를 제공하는 단계;
    상기 제 1 데이터 저장부에 비해 큰 제 2 데이터 저장부를 제공하는 단계;
    언어 모델을 제공하는 단계;
    상기 제 1 데이터 저장부내에 포함된 정보에 기초하여 정보 검색 질의를 형성하는 단계;
    상기 형성된 질의에 기초하여 상기 제 2 데이터 저장부에 질의하는 단계;
    상기 질의에 기초하여 상기 제 2 데이터 저장부로부터 정보를 검색하는 단계; 및
    상기 검색된 정보 및 상기 제 1 데이터 저장부내의 상기 정보에 기초하여 상기 언어 모델을 적응시키는 단계를 포함하는 방법.
  34. 제 33 항에 있어서,
    사용자가 상기 음성 인식 시스템을 사용하고 있는 동안, 상기 형성하는 단계, 상기 질의하는 단계, 상기 검색하는 단계, 및 상기 적응시키는 단계를 간헐적으로 반복하는 단계를 더 포함하는 방법.
  35. 제 34 항에 있어서,
    상기 반복하는 단계는,
    시간에 기초하여 상기 단계들을 간헐적으로 반복하는 단계를 포함하는, 방법.
  36. 제 34 항에 있어서,
    상기 반복하는 단계는,
    상기 사용자가 상기 음성 인식 시스템을 사용하여 문서를 작성하고 있는 동안에, 상기 문서의 작성 중 미리 정해진 수의 단어들이 인식된 후에 상기 단계들을 반복하는 단계를 포함하는, 방법.
KR1020007010945A 1998-03-30 1999-02-09 언어 모델들에 기초한 정보 검색 및 음성 인식 KR100609253B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/050,286 1998-03-30
US9/050,286 1998-03-30
US09/050,286 US6418431B1 (en) 1998-03-30 1998-03-30 Information retrieval and speech recognition based on language models

Publications (2)

Publication Number Publication Date
KR20010042377A KR20010042377A (ko) 2001-05-25
KR100609253B1 true KR100609253B1 (ko) 2006-08-04

Family

ID=21964405

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007010945A KR100609253B1 (ko) 1998-03-30 1999-02-09 언어 모델들에 기초한 정보 검색 및 음성 인식

Country Status (8)

Country Link
US (1) US6418431B1 (ko)
EP (1) EP1066625B1 (ko)
JP (2) JP4494632B2 (ko)
KR (1) KR100609253B1 (ko)
CN (2) CN1253821C (ko)
CA (1) CA2321112C (ko)
DE (1) DE69932044T2 (ko)
WO (1) WO1999050830A1 (ko)

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628528B2 (ja) * 1998-10-26 2005-03-16 富士通株式会社 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7447635B1 (en) 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
JP2003515832A (ja) * 1999-11-25 2003-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声ナビゲーションのためのカテゴリーによるウェブページの参照
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6957172B2 (en) 2000-03-09 2005-10-18 Smartsignal Corporation Complex signal decomposition and modeling
WO2001067262A1 (en) * 2000-03-09 2001-09-13 Smartsignal Corporation Generalized lensing angular similarity operator
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7411108B2 (en) * 2000-06-30 2008-08-12 Chevron Phillips Chemical Company Lp Process for the removal of conjugated olefins from a monoolefin stream
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4105841B2 (ja) 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6618722B1 (en) * 2000-07-24 2003-09-09 International Business Machines Corporation Session-history-based recency-biased natural language document search
US6735587B2 (en) * 2000-07-28 2004-05-11 International Business Machines Corporation Maintaining pre-computed aggregate views incrementally in the presence of non-minimal changes
US6606597B1 (en) 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7072838B1 (en) * 2001-03-20 2006-07-04 Nuance Communications, Inc. Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US20030158725A1 (en) * 2002-02-15 2003-08-21 Sun Microsystems, Inc. Method and apparatus for identifying words with common stems
US7769592B2 (en) * 2002-02-22 2010-08-03 Nuance Communications, Inc. Automatic selection of a disambiguation data field for a speech interface
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7490116B2 (en) * 2003-01-23 2009-02-10 Verdasys, Inc. Identifying history of modification within large collections of unstructured data
US7720680B2 (en) * 2004-06-17 2010-05-18 Robert Bosch Gmbh Interactive manual, system and method for vehicles and other complex equipment
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7392186B2 (en) * 2004-03-30 2008-06-24 Sony Corporation System and method for effectively implementing an optimized language model for speech recognition
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100651940B1 (ko) * 2004-08-31 2006-12-06 엘지전자 주식회사 음성 인식 장치 및 방법
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
CN100421153C (zh) * 2004-10-22 2008-09-24 顾稚敏 一种预存式语言识别***及其方法
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) * 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7606708B2 (en) * 2005-02-01 2009-10-20 Samsung Electronics Co., Ltd. Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
WO2006099621A2 (en) * 2005-03-17 2006-09-21 University Of Southern California Topic specific language models built from large numbers of documents
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
EP1791114B1 (en) * 2005-11-25 2009-08-12 Swisscom AG A method for personalization of a service
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9299345B1 (en) * 2006-06-20 2016-03-29 At&T Intellectual Property Ii, L.P. Bootstrapping language models for spoken dialog systems using the world wide web
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8275577B2 (en) * 2006-09-19 2012-09-25 Smartsignal Corporation Kernel-based method for detecting boiler tube leaks
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
US8311774B2 (en) 2006-12-15 2012-11-13 Smartsignal Corporation Robust distance measures for on-line monitoring
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
US20080319733A1 (en) * 2007-06-20 2008-12-25 At&T Corp. System and method to dynamically manipulate and disambiguate confusable speech input using a table
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
WO2009102885A1 (en) * 2008-02-12 2009-08-20 Phone Through, Inc. Systems and methods for enabling interactivity among a plurality of devices
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
EP2128774A1 (en) * 2008-05-29 2009-12-02 Accenture Global Services GmbH Techniques for computing similarity measurements between segments representative of documents
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
JP5475795B2 (ja) * 2008-11-05 2014-04-16 グーグル・インコーポレーテッド カスタム言語モデル
US8255412B2 (en) * 2008-12-17 2012-08-28 Microsoft Corporation Boosting algorithm for ranking model adaptation
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) * 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US11531668B2 (en) * 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
WO2010119233A1 (en) * 2009-04-16 2010-10-21 Kabushiki Kaisha Toshiba A data retrieval and indexing method and apparatus
US8533223B2 (en) * 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
US8572084B2 (en) * 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
WO2011028553A1 (en) 2009-08-24 2011-03-10 Fti Technology Llc Generating a reference set for use during document review
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8527534B2 (en) * 2010-03-18 2013-09-03 Microsoft Corporation Bootstrap and adapt a document search engine
JP5790646B2 (ja) * 2010-05-20 2015-10-07 日本電気株式会社 パープレキシティ算出装置
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9081760B2 (en) 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling
EP2733582A4 (en) * 2011-07-14 2015-01-14 Shenzhen Shi Ji Guang Su Information Technology Co Ltd METHOD, DEVICE AND SYSTEM FOR CHARACTER ENTRY
US8620853B2 (en) 2011-07-19 2013-12-31 Smartsignal Corporation Monitoring method using kernel regression modeling with pattern sequences
US9250625B2 (en) 2011-07-19 2016-02-02 Ge Intelligent Platforms, Inc. System of sequential kernel regression modeling for forecasting and prognostics
US8660980B2 (en) 2011-07-19 2014-02-25 Smartsignal Corporation Monitoring system using kernel regression modeling with pattern sequences
US9256224B2 (en) 2011-07-19 2016-02-09 GE Intelligent Platforms, Inc Method of sequential kernel regression modeling for forecasting and prognostics
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US8719025B2 (en) * 2012-05-14 2014-05-06 International Business Machines Corporation Contextual voice query dilation to improve spoken web searching
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9043205B2 (en) 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9251135B2 (en) * 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9564122B2 (en) 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9886432B2 (en) * 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
WO2016070034A1 (en) * 2014-10-31 2016-05-06 Linkedin Corporation Transfer learning for bilingual content classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) * 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10140983B2 (en) * 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049666B2 (en) 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和***
US11151324B2 (en) * 2019-02-03 2021-10-19 International Business Machines Corporation Generating completed responses via primal networks trained with dual networks
US11281867B2 (en) * 2019-02-03 2022-03-22 International Business Machines Corporation Performing multi-objective tasks via primal networks trained with dual networks
US11410644B2 (en) * 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
DE102020200499A1 (de) * 2019-12-23 2021-06-24 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
US20230046851A1 (en) * 2021-08-13 2023-02-16 Avanade Holdings Llc Multi-model approach to natural language processing and recommendation generation
CN113722447B (zh) * 2021-11-03 2022-02-08 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5668928A (en) * 1995-01-31 1997-09-16 Kor Team International, Inc. Speech recognition system and method with automatic syntax generation
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
EP0801786B1 (en) * 1995-11-04 2000-06-28 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system

Also Published As

Publication number Publication date
KR20010042377A (ko) 2001-05-25
DE69932044T2 (de) 2006-11-23
CN1253821C (zh) 2006-04-26
JP4664423B2 (ja) 2011-04-06
EP1066625A1 (en) 2001-01-10
CN1295705A (zh) 2001-05-16
CN1474378A (zh) 2004-02-11
JP4494632B2 (ja) 2010-06-30
JP2002510076A (ja) 2002-04-02
US6418431B1 (en) 2002-07-09
EP1066625B1 (en) 2006-06-21
CA2321112A1 (en) 1999-10-07
WO1999050830A1 (en) 1999-10-07
CN1171199C (zh) 2004-10-13
JP2009238235A (ja) 2009-10-15
DE69932044D1 (de) 2006-08-03
CA2321112C (en) 2005-01-11

Similar Documents

Publication Publication Date Title
KR100609253B1 (ko) 언어 모델들에 기초한 정보 검색 및 음성 인식
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
RU2393533C2 (ru) Предложение родственных терминов для многосмыслового запроса
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US5950189A (en) Retrieval system and method
US7739286B2 (en) Topic specific language models built from large numbers of documents
Peng et al. Context sensitive stemming for web search
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
JP4172801B2 (ja) テキストからキーワードを検索する効率的なシステム、および、その方法
US20100185691A1 (en) Scalable semi-structured named entity detection
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Kurimo Indexing audio documents by using latent semantic analysis and som
WO2011037753A1 (en) Method and apparatus for ordering results of a query
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
CN115544225A (zh) 基于语义的数字档案信息关联检索方法
Kurimo Thematic indexing of spoken documents by using self-organizing maps
CA2473172C (en) Information retrieval and speech recognition based on language models
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
KR100817432B1 (ko) 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템
Karimpour et al. Using Part of Speech Tagging in Persian Information Retrieval.
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质
Chowdhury Word embedding based query expansion
Lee et al. A Multimedia Retrieval System for Retrieving Chinese Text and Speech Documents
JP2002334081A (ja) 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130628

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140627

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160630

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee