KR970006402B1 - 품사결정과 이용방법 - Google Patents

품사결정과 이용방법 Download PDF

Info

Publication number
KR970006402B1
KR970006402B1 KR1019890001364A KR890001364A KR970006402B1 KR 970006402 B1 KR970006402 B1 KR 970006402B1 KR 1019890001364 A KR1019890001364 A KR 1019890001364A KR 890001364 A KR890001364 A KR 890001364A KR 970006402 B1 KR970006402 B1 KR 970006402B1
Authority
KR
South Korea
Prior art keywords
speech
probability
word
words
parts
Prior art date
Application number
KR1019890001364A
Other languages
English (en)
Other versions
KR890013549A (ko
Inventor
워드 처어치 케니스
Original Assignee
아메리칸 텔리폰 앤드 텔리그라프 캄파니
엘리 웨이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아메리칸 텔리폰 앤드 텔리그라프 캄파니, 엘리 웨이스 filed Critical 아메리칸 텔리폰 앤드 텔리그라프 캄파니
Publication of KR890013549A publication Critical patent/KR890013549A/ko
Application granted granted Critical
Publication of KR970006402B1 publication Critical patent/KR970006402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

내용없음.

Description

품사결정과 이용방법
제1도는 본 발명에 따른 품사 지정 방법의 흐름도.
제2도는 본 발명에 따른 명사구 분석 방법의 흐름도.
제3도는 제1도 및 제2도의 방법을 이용하는 음성 합성기를 보인 블럭도.
제4도는 제1도의 방법을 이용한 텍스트 편집을 보인 블럭도.
본 발명은 명사구 분석의 중간 방법을 포함하고, 음성합성, 음성인식, 작문의 연습, 교정, 색인 및 데이타 검색을 포함하는 품사 결정 방법과 그 결과의 활용 방법에 관한 것이다.
품사를 결정하는 능력, 특히, 다른 품사로 사용될 수 있는 단어들에 대해 품사를 결정하는 능력이, 영어 사용시의 많은 갖가지의 문제에 관련 한다고 오랫동안 인정되어 왔다. 예를 들어, 음의 고저, 지속기간 및 힘을 포함하는 언어 강세는 특정 품사의 단어와 그들의 문장 어순에 달려 있다고 알려져 있다. 따라서, 음성합성은 인간의 음성과 유사한 소리를 생성하기 위해 기록된 입력 또는 비음성적인 텍스트의 품사분석을 필요로 한다.
또한, 자동적인 품사 결정은 자동적인 음성인식, 컴퓨터를 이용한 방법에 의한 작문의 교육과 연습, 단어처리 워크스테이션에서 생성된 문서의 교정과 편집, 문서의 색인 및 데이타 베이스로 부터 단어 관련 데이타의 다양한 검색에 있어서 중요한 역할을 할 수 있다.
예를 들면, 이들 사용의 일부를 ATT의 Writer's Work-bench
Figure kpo00001
의 다양한 형태에서 볼 수 있다. 이에 관해서는 1998년, 1월호 The Atlantic Monthly의 66페이지 부터 계속되는 Barbara Wallraff씨가 쓴 The Literate Computer란 논문, 특히 68페이지의 마지막 두 패라그라프를 참조할 것. 색인에 대한 품사의 관계는 1986년 4월 1일 C. L Raye씨에게 허여된 미국특허 제4,580,218에서 볼 수 있다.
지금까지는, 자동적인 품사 결정의 2가지 주요 방법이 문헌상으로 논의 되어 왔으며, 어느정도 사용되어 왔다. 그 첫 번째 방법은, 특정관심 사항의 검출을 위해 고안된 각종 특별 법칙에 의한 것이다. 이들 법칙은, 예를 들어, 품사를 예견하기 위한 단어 어미의 사용 또는 그의 일부 개작에 관련하기도 한다. 품사 결정을 위한 일부 특별 법칙은 UNIXTM운영체제하에서 실행되는 Writer's WorkbenchR응용 프로그램에 사용되어 왔다. 이들 법칙은(그들이) 만족스럽게 해결할 수 있는 상황이 극히 제한되고, 기본적 통일성이 부족한 경향이 있다. 그 기법은 L.L. Cherry씨의 1978년 6월 Bell Telephone Laboratories, Incorporated, Computer Science Technical Report No. 81, PARTS-A System for Assigning Word Classes to English Text에 기재되어 있다.
통일성 면에서 잠재적으로 더 뛰어난 두 번째 주요 방법은, 영국 University of Lancaster, ICAME New, 1983, Vol. 7, PP. 13-33에 실린 G. Leech씨 등의 논문 The Automatic Tagging of the LOB Corpus에 기재된 n-그램(n-gram) 기법이다. 거기에 기재된 기법의 일부는 연속되는 품사의 개연성 있는 조합에 관한 일정한 법칙을 기초로 한, 어떤 앞선 단어 또는 뒤따르는 단어에 대한 현 시점에서 선택된 최선의 품사에 의존한다. 이러한 분석과 함께, 다양한 특별 법칙이 또한 사용되기 때문에 전체적으로는 이 방법도 여전히 바라는바 보다는 정확하지 않다. 또한, 이 방법은 체계적인 형태로 어휘상 확률의 모형을 만들 수 없다.
전술한 기법들은 전술한 고려사항 및 그 결과가 실망스러웠기 때문에, 본 기술분야의 연구원들 사이에 실제적으로 관심을 끌지 못했다.
사실상, 어떠한 n-그램 기법도 개연성 있는 구조의 문장을 충분히 넓게 또는 전반적으로 관찰할 수 없기 때문에 불충분한 결과를 가져오리라는 것은 이미 예상되어 왔다. 다른 한편, 문장내의 품사를 분석함에 있어서, 인간의 능력이 갖는 정도의 총체적인 관점을 컴퓨터에 생동감있게 프로그램하는 것은 불가능하였다. 이에 관해서는 M. Marcus씨 저서의 1980년 Cambridge, MA, MIT Press의 A Theory of Syntactic Recognition for Natural Language 책을 참조할 것. 결론적으로, n-그램 단어 발생 빈도 분석 기법과는 대조적으로, n-그램형 품사결정 기법은 보다 깊이 있는 조사에 사용되는 방대한 양의 완전히 태그된 텍스트 발생을 돕는 작업에 대체로 국한되어 왔다. 그러한 목적을 위해서는, 매우 능력있는 사람이 개입하여 그 결과를 정정해야만 한다.
그럼에도 불구하고, 높은 정확도로 품사를 확인할 수 있어, 처음에 언급한 모든 용도에 쉽게 적용될 수 있는 n-그램 기법과 같이 비교적 단순한 기법은 여전히 바람직하다.
본 발명의 한 태양에 따르면, 개개 단어의 어휘상 확률과 정규화된 3단어의 문맥상 확률의 곱을 극대화함으로써 한 메세지 단어들에 품사가 지정된다. 정규화는 포함된 2단어의 문맥상의 확률을 사용한다. (그들 사이에 다수의 공간을 포함하는)문장의 종료점, 구두점 및 발생 빈도가 낮은 단어는 어휘상 확률로 지정되거나 마치 단어처럼 달리 처리되어, 그결과, 종전의 n-그램 품사지정 및 종전의 특별 법칙 사용에서 당면하였던 불연속성이 해소된다. 따라서, 이 기법이 보편성이 확립된다.
본 발명의 또 다른 특징에 따르면, 미리 지정된 품사를 가진 단어가 있는 메세지의 명사구는 음성합성에 그들의 사용을 용이하게 하는 식으로 인지된다. 이 명사구 분석은 또한 달리 응용될 수도 있다. 특히, 명사구 분석방법은 높은 확률적인 방법으로서, 이것은 처음에 매 단어의 시작 또는 끝에 명사구의 개시와 종류를 지정하고, 단지 매우 높은 확률의 비반복 지정들이 남을 때 까지 가장 낮은 확률을 가진 지정들을 제거해감으로서 그와 같은 지정들은 점진적으로 제거한다. 비반복 지정이란 다른 명사구내에 부분적으로나 또는 전체적으로 포함되지 않는 명사구 지정을 말한다.
선택적으로, 본 발명의 상기 방법은, 다른 명사구 내에서 전체적으로 발생하는 일부 높은 확률의 명사구를 또한 보유할 수 있는데, 이는, 예를 들어, 음성합성에 있어서 그와 같은 지정들이 실제로 유용하기 때문이다.
항상 제거되는 일부 명사구 지정들은(예를 들어, 문장의 처음에) 대응하는 개시(지정)가 없는 종료(지정) 또는(예를 들면, 문장의 끝에) 종료(지정)가 없는 개시(지정)이지만, 본 발명은 명사구의 종류와 개시의 낮은 확률 지정을 더욱 제거한다. 즉, 환언하면, 가장 높은 확률 지정만을 보유한다.
본 발명의 부차적 방법에 따르면, 메세지의 각 문장을 처음부터 끝까지 반복적으로 주사하고, 각 주사시에 각 쌍의 시작과 종류에 대한 확률을 곱하고, 문장의 해당 부분에 대해 이미 얻어진 가징 높은 확률 이상으로 또는 그 근사치의 적(積)을 갖는 그들 조합을 유지함으로써 다른 낮은 확률의 명사구는 제거되거나, 적어도 다른 높은 확률 명사구와는 일치하게 된다.
본 발명의 또다른 방법에 따르면, 본 발명의 품사 지정 방법의 출력은 본 발명의 명사구 분석 방법의 입력이 될 수도 있다. 이러한 관계상, 양쪽 방법에서 사용되는 최대의 적당한 최적화 기법은, 각각의 방법이 그 자체로도 선행 기술 보다 성능이 더 뛰어나기 때문에, 서로 보강하려는 경향이 있다.
본 발명의 기타 대상과 이점은 도면을 참조한 다음의 상세설명으로 부터 명백하게 될 것이다.
제1도의 방법에 있어서, 설명 목적상, 메세지는 전자적 형태로 판독하고, 저장된 텍스트 메세지로 가정한다. 블럭(11)에 도시된 바와 같이, 문장별로, 그 저장된 텍스트를 판독하는 첫 번째 단계가 실행된다. 이 단계는 문장 경계의 결정을 필요로 한다. 여기에는 잘 알려진 많은 기법이 있으나, 본 발명에서는 초기에 매 마침표로 문장을 종류한다고 가정하고, 그 문장 및 그의 결과를 본 발명의 방법으로 마침표가 더욱 적당하게 사용되었다는 것이 후에 증명되었을 때 버리는 기법을 선호하여 사용한다.
어떻든, 본 발명의 방법은 각 문장에 대해 끝에서 시작하여 조작이 진행된다. 이어지는 단계는 세 개의 일반적인 단계, 즉 단어를 토큰화 하는 단계(블럭 12)와; 문장의 끝에서 시작하여 어휘상의 품사 확률을 계산하는 단계(블럭 13); 그리고, 문맥상의 품사 확률을 최적화하는 단계(블럭 14)로서 분류될 수 있으며, 이때에, 품사 분석의 많은 가능한 용도에 그 결과를 적용하는 일반적인 종료단계(15)도 포함된다.
이들 일반적인 단계들은 이하에서 설명되는 바와 같이, 보다 자세한 단계들로 나누어질 수 있다.
단어를 토큰화 하는데 있어서, 본 발명에서는 품사분석에 통상 사용하는 어학적 방법에 적지만 중대한 수정을 가하고 있다. 그렇지만, 편의상 W. Nelson Francis씨 등이 쓴 1982년 Houghton Mifflin Co.의 Frequency Analysis of English Usage 책의 6-8페이지에 있는 List of Tags에 표기된 품사의 명칭과 동일한 것을 사용한다. 그 명칭들은 실시예를 이해하는데 도움이 되는 경우 여기에서 반복 사용한다.
토큰화 과정은 단어와, 구두점 및 괄호와 같은 어떤 비단어의 인식을 포함한다. 또한, 매 문장 마침표 다음에 두 개의 공란 여백을 지정하여 Francis씨 등의 저서의 기본을 구성한 것과 같은 태그된 텍스트(이에 선행하는 텍스트는 통상적으로 Browm Corpus으로 불리운다)에 그와 같은 공란에 대한 새로운 한 세트의 빈도를 생성하는 것이 중요하다는 것을 발견하였다. 이 과정에 포함된 토큰 형태는 문장이 종료 했다는 것을 알리는 구조적인 인디케이터와 문장의 실제단어들이다. 그러한 구조적인 인디케이터들은, 예를 들어, 마침표에 대한 기계판독 문자와 같은 문장 종료 인디케이터, 텍스트 단어와 함께 화일(file)된 원고 또는 원고 화일에 저장된 대응 포맷팅 문자로 표현된 표제 또는 패라그래프 인디케이터 및 화일종료 인디케이터를 포함한다.
조금 후에 보겠지만, 문장내의 각 최종단어가 마침표와, 그 뒤따른 공란에 대한 문맥상의 확률과 함께 그 문맥상 확률이 측정됨을 발견할 수 있을 것이다. 이들 세 개는 트라이그램(trigram)을 형성하며; 따라서, 확률분석으로, 이 단어가 어떤 품사로서 문장을 종료시킬 수 있는 것이 어느정도 확실히 가능한가?하는 문제를 조사한다. 이 경우에, 이같은 점에 있어서 마침표를 관찰하는 문맥상의 확률은 매우 높고(약 1.0); 공란의 경우에 대한 문맥상의 확률은 1.0이다. 어쨋든, 이들 확률들은 정규화 확률의 분자와 분모의 모두에 있어 동일하고, 따라서, 그 결과로 발생하는 문맥상의 확률은 바로, 문장의 끝에서 그 대상의 품사를 관측할 측정된 확률이며, 이것은 텍스트 자료로 부터 표로 만들어져 컴퓨터의 영구 메모리에 저장될 수 있는 통계이다.
블럭(12)에 관련하여 설명된 바와 같이, 관측된 단어들과 문자를 토큰화 한후에, 본 발명에서는 아래에서와 같이 발생 빈도에 의존하는 어휘상이 품사 확률(주어진 단어 j에 대한 품사 i를 관찰할 확률)을 계산한다. 즉, 관심대상인 온갖 어미의 단어가 Brown Corpus에서 매우 합리적으로 높은 빈도로 나타났다면, 그 계산은 품사에 관계없이, 그 단어가 특정 품사로서 관찰된 발생 빈도를 그것의 전체 발생 빈도로 나눈 몫이다.
이 같은 계산을 낮은 발생 빈도를 갖는 문자 또는 단어의 경우에는 다음과 같이 대체한다. 즉, Zipf의 법칙하에서, 많은 텍스트를 본다고 해도, 수회만 나타나는 긴 단어가 반드시 존재한다고 간주한다. Brown Corpus에 있어, 예를 들면 40,000단어가 다섯 번 또는 그 이하로 나타난다. 만일, yawn과 같은 단어가 동사로서 한번 명사로서 한번 나타난다면, 그것이 형용사가 될 확률은 얼마인가?에 대해서는 더 많은 정보 없이는 대답하기가 불가능하다. 다행히도, 사전들의 도움을 받으면 이러한 문제를 어느정도 경감시킬 수 있다. 사전에 있어서의 가능한 빈도 수에 하나를 더한다. 예를 들면 yawn을 명사이든가 동사로 사전에 수록될 것이다. 따라서, 그 가능성을 보정(smooth)한다. 이 경우에, 확률을 변하지 않는다. 그 보정의 전후 모두에 있어, yawn이 명사일 가능성이 그때의 50%이고, 동사일 가능성이 그 나머지라고 추산한다. yawn이 형용사가 될 가망은 없다.
어떤 다른 경우에 있어서는 보정에 의해 커다란 오차를 유발한다. 단어 Cans을 고찰해보면, Brown Corpus에서 이 단어는 동사로는 결코 나타나지 않지만, 복수명사로는 5번 나타난다. 다행히도, 사전(그리고, 그의 어형론상의 루틴)에는 양쪽의 확률이 주어진다. 따라서, 수정된 평가에서, Cans은 1/7번은 동사로, 6/7번은 복수명사로서 나타난다.
따라서, 교육자료인 축소판이 아닌 사전에 따라, 각 가능한 품사로서의 관찰 발생 빈도에 하나를 더하고; 그로부터 그 어휘상의 확률을 계산한다.
이 단어에 대한 본 발명의 확률 검색 계통을 만들기 위해, 어휘상 확률에 정규화되고 추산된 문맥상의 확률, 즉, 기결정된 연속되는 품사 Y와 Z가 주어진 품사 X가 발견될 확률을 품사 Z가 주어진 품사 Y가 발견될 바이그램 빈도로 나눈 값을 곱한다. 후자의 두 데이타는 Francis등이 그들의 책에 인용한 기 태크된 자료로 부터 목록화 될 수 있다. 목록화된 데이타는 컴퓨터의 메모리 내에 저장된다.
본 발명의 선행 세트계산치로 부터 최대 확률을 유지하여, 매 다른 품사로서의 그 대상 단어에 대해 전술한 과정을 반복한다. 문장중의 마지막 단어에 대해 다음 과정을 진행하기 전에, 마지막 단어에 대한 최대적(積) 확률에 도달하게 되었다.
상기 과정에 대해 2가지 것을 미리 관찰할 수 있었다. 첫째로, Leech씨 등의 참고문헌에 사용된 것과 같이, 곱셈에 사용되는 어휘상의 확률은 연속값으로 존재하며 3개의 임의로 지정된 값중의 하나는 아니다. 둘째로, 비록 수학의 적용이 실제로 문장의 끝에서 판정되는 단어에 대해서는 사소하게 느껴질 수도 있지만 중요한 점은 어디에서나 사용될 수 있는 동일 수학이라는 것이다.
보다 완전한 특정예를 들 때, 확률 추정치는 태그된 Brown Corpus을 이용하여 얻은 것으로, Francis씨 등에 의해 상기에 인용된 분석에 참고는 되었으나 거기에 포함되지 않은 것임을 명심하라. 그것은 수작업으로 지정되고 힘들게 점검된 품사 태그를 갖는 약 1,000,000 단어의 집성체(Corpus)이다.
본 방법의 전체적인 실행은 그 방법의 실행이 성질상 상당히 지협적이고, 일반적으로는, 예를 들어, 조동사 일수도 있는 것의 용법을 결정하기 위해 명사구의 양편을 바라 볼 필요가 없다는 것을 고려할 때 놀라울 정도로 훌륭했다.
만일 사전내의 모든 가능성이 동일한 비중으로 주어진다면, 어구의 분석은 매우 어렵다. 사전은 적당한 것에 초점을 맞추는 것이 아니라 가능한 것에 초점을 맞추는 경향이 있다. I see a bird라는 간단한 문장을 고려해보면, 모든 실제적인 용도에 관해, 문장내의 모든 단어는 명확하다. Francis과 Kucera에 따르면, I라는 단어는 대명사로서 5838번의 관찰에 5837번 나타나고(100%), see라는 단어는 동사로서 772번 관찰에 771번 나타나고(100%), a라는 단어는 관사로서 23019번 관찰에 23013번 나타나고(100%), bird라는 단어는 명사로서 26번 관찰에 26번 나타난다. 그러나, Webster의 Seventh New Collegiate Dictionary에 따르면 모든 단어는 불명확하다. 태그(품사)의 원하는 지정외에도, 최초의 세단어는 명사로 기록되고 마지막 단어는 자동사로 기록된다. 사람들은 이들 의사지정이 어구분석에 의해 문장 구성상 잘못 형성된 것으로 판명되어 제외될 수도 있다고 기대했는지도 모른다. 불행히도, 선행기술은 그런 결과를 가져오는 일관된 방법을 갖지못했다. 만일 분석기가
[NP[N city][N school][N Committee][N meeting]],
라는 형태의 명사구를 받아들인다면, 그때, 그 분석기는, [NP[N I][N see][N a][N bird]](여기서 NP는 명사구를 의미하고 N은 명사를 의미한다)을 판정하여 제외시킬 수 없다. 유사하게, 아래와 같이 표시하는 것이 구문적으로 틀리지 않기 때문에 분석기는 또한, 아마도 bird를 자동사로서 받아들여야만 한다.
[S[NP[N I][N See][N a]][VP[V bird]]
(여기서, S는 주어 VP는 동사구 V은 동사를 의미한다)
이들 품사의 지정은 틀린 것이 아니고, 그들은 단지 극단적으로 있을 법하지 않을 뿐이다. 다시 I see a bird.라는 문장을 고려해보자, 문제는 각기 Tagged Brown Corpus으로 부터 추산되는 어휘상 및 문맥상의 확률 모두를 최적화하는 단어에 대한 품사 지정을 찾는 것이다.
어휘의 확률은 아래의 빈도로 부터 계산된다.(PPSS=단수대명사; NP=고유명사; VB=동사; UH=감탄사; IN=전치사; AT=관사; NN=명사)
Figure kpo00002
어휘의 확률은 명확한 방법으로 계산된다. 예를 들면 I이 대명사일 확률, P(PPSS│I)는
Figure kpo00003
또는
Figure kpo00004
로 계산된다. see이 동사일 확률은
Figure kpo00005
로 계산된다.
다른 어휘의 확률도 동일한 형태로 계산한다.
이어지는 두 개의 품사 Y와 Z이 주어진, 품사 X가 관찰되는 확률 즉, 문맥상의 확률은 바이그램 품사빈도 YZ로 트라이그램 품사 빈도 XYZ를 나눈 것으로 계산된다. 따라서, 예를 들면, 하나의 관사와 하나의 명사 바로 앞에서 동사가 관찰될 확률은
Figure kpo00006
로 계산된다. 즉,
Figure kpo00007
이다. 동일한 관계로 명사가 관찰될 확률은
Figure kpo00008
으로 계산될 수 있다. 즉, 629/53091=0.01 이다. 다음 문맥상의 확률도 동일한 형태로 계산한다.
검색은 어휘상의 확률과 문맥상의 확률의 곱을 최적화하는 단어에 대한 품사 태그의 지정을 찾을 목적으로 수행된다. 개념상으로, 검색은 입력단어에 대해 품상의 모든 가능한 지정들을 열거한다. 이 경우에 있어, 4개의 입력 단어가 있으며 그중에서 3개는 두가지 면에서 모호한 이들은 입력 단어에 대해 2*2*2*1=8개의 가능한 품사지정의 한 세트를 형성한다.
Figure kpo00009
어휘상의 확률과 문맥상의 확률의 곱에 의한 각 8개의 결과가 기록되며, 최상의 결과가 선택된다. 이 경우에는 첫 번째 결과가 가장 좋다.
실제로는, 기록기능은 2단어 이상을 볼 수 없기 때문에 모든 가능한 지정을 열거할 필요는 없다. 바꾸어 말하면, 품사 결과를 열거하는 과정에 있어서, 어떤 경우에 있어서는, 어떤 결과가 또 다른 결과에 도저히 필적할 수 없고 따라서, 버려질 수 있다는 것을 알게된다. 이런 사실 때문에, 단지 0(n) 경로가 열거된다. 예를 통해, 이런 최적화를 설명한다.
brid에 대한 모든 품사의 지정을 찾아서 부분적인 결과를 기록한다. 이후로 모든 기록들은 로그 확률로 해석된다.
(-4.848072 NN)
a에 대한 모든 품사지정을 찾아서 기록한다. 이 점에 있어서는, 다음의 두가지 경로가 있다. 즉,
(-7.4453945 AT NN)
(-15.01957 IN NN)
이제, see의 지정을 찾아서 기록한다. 이 점에 있어서, 경로의 수는 여전히 지수적으로 증가하는 것처럼 보일 것이다.
(-10.1914 VB AT NN)
(-18.54318 VB IN NN)
(-29.974142 UH AT NN)
(-36.53299 UH IN NN)
이제, I의 지정을 찾아서 기록한다. 모든 4가지 경로, 즉 PPSS VB IN NN, NN VB IN NN, PPSS UH IN NN과 NP UH IN NN이 어떤 다른 경로보다 적게 스코어되어 있고 어떤 부가적인 입력도 그 상대적인 스코어를 변화시킬 수 있는 방법이 없기 때문에, a이 불어적 전치사 IN일지도 모른다는 가정은 더 이상 필요하지 않다는 것에 주목하라. 특별히, PPSS VB IN NN 경로는 PPSS VB AT NN 경로보다 더 낮게 기록되며, 부가적인 입력은 문맥상의 기록 기능이 3품사의 제한된 영역을 가지고 그것은 PPSS와 VB의 존재 범위를 넘어서 보는데는 충분하지 못하기 때문에 PPSS VB IN NN에 도움이 되지 못한다.
(-12.927581 PPSS VB AT NN)
(-24.177242 NP VB AT NN)
(-35.667458 PPSS UH AT NN)
(-44.33943 NP UH AT NN)
검색은 범위 밖에 있는 단어에 대한 공란(blank) 품사를 가정하여 두 번 이상 반복한다.
(-13.262333 blank PPSS VB AT NN)
(-26.5196 blank NP VB AT NN)
결국, 결과는 PPSS VB AT NN이다.
(-13.262333 blank blank PPSS VB AT NN)
단순하고 좀더 흥미로운 예로 Can they can cans을 보면
Cans
(-5.456845 NNS), 여기서 NNS는 복수명사를 나타낸다.
Can
(-12.603266 NN NNS)
(-15.935471 VB NNS)
(-15.946739 MD NNS), 여기서 MD는 보조동사를 나타낸다.
They
(-18.02618 PPSS MD NNS)
(-18.779934 PPSS VB NNS)
(-21.411636 PPSS NN NNS)
Can
(-21.766554 MD PPSS VB NNS)
(-26.45485 NN PPSS MD NNS)
(-28.306572 VB PPSS MD NNS)
(-21.932137 blank MD PPSS VB NNS)
(-30.170452 blank VB PPSS MD NNS)
(-31.453785 blank NN PPSS MD NNS)
그리고, 결과는 : Can/MD They/PPSS Can/VB Can/NNS이다.
확률을 최적화하는 본 발명 방법의 다른 자세한 것은 부록 A를 참조하라.
이 설명은 블럭(14)의 설명을 통해 동작 설명을 완성한다.
블럭(15)에서 발생하는 이용의 예로서, 표시장치는 특히 인간 조작원을 갖는 대화형 시스템에 있어서, 개념적으로 가장 단순하지만 그래도 실제적이다. 보다 상세한 이용의 예는 이후에 설명되는 제3도, 제4도에서 설명될 것이다. 그러나, 먼저, 하나 이상의 도구를 설명하는 것이 바람직하다, 그러한 도구는 본 발명 방법의 확장을 이용한 명사구 분석이다.
유사한 확률론적인 방법이 매우 높은 정확성으로 단순한 명사구를 찾는데 적용되었다. 그 제안된 방법은 선행 분석의 확률론적 유사물이다. 선행분석은 (종단 또는 비종단)의 두 종류 사이에 열린 괄호를 삽입할 것인지 닫힌 괄호를 삽입할 것인지를 보인 표를 사용한다는 것을 상기하라, 그 제안된 방법은 모든쌍의 품사들 사이에 열린 괄호와 닫히 괄호의 확률을 제공하는 표를 사용한다. 아래에 5개 품사에 대한 예를 보인다 : AT(관사), NN(단수명사), NNS(비단수명사), VB(원형동사), IN(전치사), Brown Corpus로부터 선택된 교육자료의 약 40,000 단어로부터 이들 확률이 계산된다. 이 교육자료는 번거로운 반자동 수단에 의해 명사구로 분석된다.
Figure kpo00010
확률론적인 분석기에서 입력으로서 일련의 품사가 주어지고, 명사구의 처음과 끝에 해당하는 괄호의 삽입이 요구된다. 개념적으로, 분석기는 입력의 모든 가능한 분석을 열거하고, 선행확률에 의해 그들을 각각 기록한다. 예를 들어, 입력 순서가 NN VB인 경우를 고려해 보면, 이 순서를 괄호로 묶기 위해서 5가지 가능한 방법이 있다.
(비 반복을 가정하면)
·NN VB
·[NN] VB
·[NN VB]
·[NN] [VB]
·NN [VB]
이들 어구분석의 각각은(NN 전, NN 이후, VB 이후의) 세위치중 어느 한 위치에 열린/닫힌 괄호가 나타날(또는 나타나지 않을) 확률인 6가지 선행 확률을 곱함으로서 스코어된다. 가장 높게 스코어된 어구 분석이 출력으로 되돌려진다.
상기 방법은 대단히 단순하다는 점에도 불구하고 뛰어나게 작용한다. 여기에는 괄호의 수를 무시하고 두 명사구를 함께 실행하는 경향이 있다.
명사구 분석은, 제2도에서 설명된 바와 같이, 제1도의 품사지정으로 부터의 출력을 입력으로서 가정하는 것이 주목될 것이다. 그러나, 어떤 품사지정 기법의 결과를 또한 사용할 수도 있다.
각 경우에 있어서, 블럭(22)에서, 모든 가능한 명사구 경계가 지정된다. 블럭(23)에서, 쌍을 이루지 않는 경계들은 제거된다. 각 문장에 대해, 이들은 문장의 시작에서의 종료 경계지정과 문장끝(공란을 포함하는)에서의 시작 경계 지정을 포함한다.
블럭(24)의 동작에는 명사구 경계의 각각 시종일관된 지정에 대한 확률계도를 설계하는 것이 포함된다. 가장 높은 확률 지정은, 블럭(25)에서 나타낸 것처럼, 이후의 과정, 예로서, 결과의 이용을 위해 유지된다.
이제, 본 발명의 보다 특별한 응용으로 전환해 보자 품사를 태그하는 것은 음성합성, 음성인식, 철자정정, 교정, 질의응답, 기계번역, 큰 텍스트 데이타 베이스 검색(예를 들면, 특허, 신문 등)을 포함하는 많은 분야에서 잠재적으로 응용할 수 있는 실제적인 문제이다. 여기서는, 특별히, 음성합성 응용을 고려하는데, 여기에서 발음은 때때로 품사에 의존한다는 것이 명백하다. 발음이 품사에 의존하는 아래의 세가지 예를 고려해 보자.
먼저, wind와 같은 단어는 명사일 때 동사인 때와는 다른 모음을 갖고 있다. 즉, the wind is strong에서와 같이 명사 wind는 단 모음을 갖는데 반해, Do not forget to wind your watch에 있어서와 같이 동사 wind는 장모음을 갖는다.
두 번째로, It is a shame that he is leaving 에서의 보충사 that과는 달리 Did you see THAT?에서 대명사 that은 강조된다.
세 번째로, Oily FLUID과 TRANSMISSION fluid 사이의 차이을 알아보면, 예로서, Erik Fudge씨가 쓴 1984년 London의 George Allen Unroin(Publishers) Ltd.사의 English Word Stress에 설명된 바와 같이, 일반 규칙으로서 TRANSMISSION fluid과 같은 명사-명사 수순은 전형적으로 강세가 왼쪽에 있지만, Oily FLUID에서와 같은 형용사-명사 수순일 때 강세는 전형적으로 오른쪽에 있게 된다. 이들은 만일 합성기가 정확한 품사 정보를 억세스 했다면 보다 자연스럽게 발음될 수 있는 많은 구문들 중에서 단지 3가지일 뿐이다.
제3도에서, 품사 태거(tagger)(31)는 제1도의 방법을 이용한 컴퓨터이다. 명사구 분석기(32)는 제2도의 방법을 이용한 컴퓨터이다.
구문분석기 내에 있는 태거(31)과 분석기(32)의 출력이 C.H. Coker씨 등에게 허여된 미국특허 제3,704,345호의 제1도의 절대 강세 신호 발생기(18)에 대한 입력신호로 인가된다.
고려하고 있는 규칙의 예로서, Fudge book의 144-149페이지에 실린 부록 5.1에 주의를 돌려보면, 거기에는 명사구에 대한 규칙이 제시되고 있다.
다른 관점에서, 제3도의 실시태양의 동작은 Coker 특허의 제1도의 실시태양의 동작과 유사하다.
유사하게, 제4도의 실시태양에 있어서, 품사 태그(41)는 제1도에 도시된 것처럼 동작하며; 명사구 분석기(42)는 제2도에 도시된 것과 같은 작용을 한다.
그 경우에 있어서, 명사구와 품사 정보는 텍스트 편집 시스템(43)에 공급되는데, 이것은 F.R. Lange씨 등에 허여된 미국특허 제4,674,065호에 설명된 유형이다. 특히, 품사 태거(41)와 명사구 분석기(42)는 Lange씨 등의 특허에 있어 편집 화면 생성을 돕기 위한 품사 섹션(33)의 대용으로 제공된다. 제1도와 제2도에 도시된 본 발명 방법의 고유정확도는 선행 기술의 경우보다 유용한 편집 화면을 생성할 수 있다.
선택적으로, 텍스트 편집 시스템(43)은, 1981년 2월 L.L. Cherry씨 등이 쓴 Bell Telephone Laboratories, Incorporated.의 Computer Science Technical Report, No. 91의 Writing Tools-The STYLE Diction Programs에 기재된 Writer's Work benchR시스템일수도 있다. 본 발명의 방법은 거기에 Parts로 명명된 방법과 대체될 수도 있을 것이다.
본 발명의 정신 및 범주를 벗어남 없이도 본 발명의 다양한 변경이 이루어 질 수 있음은 명백하다.
예를 들어, Fudge book의 강세 규칙을 이행하는 하나의 방법으로 Jonathan Allen씨 등이 쓴 Cambridge University Press, Cambrige(1987)의 From Text to Speech : The MIT Talk System. 특히, 제10장 The Fundamental Frequency Generator에 소개된 알고리즘이 될 수 있다. 또한, 어휘상의 확률은 보정에 의해 개선될 수도 있는 유일한 확률은 아니다. 또한 문맥상의 빈도는 Zipf's 법칙에 따르는 것처럼 보인다. 즉, 세 품사의 모든 순서열의 세트에 대해, 로그 페이퍼상에 그것의 열방향으로 순서열의 빈도를 기입했고, 전형적인 선형 관계 및 거의 -1의 기울기를 관찰했다. 보정 기법은 문맥상 빈도 선택에 잘 적용될 수 있음이 명확하다. 이것은 명사구 어휘분석에 사용된 선행확률에 대해서도 동일하다.
본 발명의 기법은 또한 음성인식과 같은 다른 응용에도 적절하다. 품사의 문맥상 확률이 인식이될 구어에 대해 보다 좋은 선택을 가능하게 할 수도 있다. 본 발명의 기법은, 또한, C.W. Thampson씨 등에게 허여되고 1987년 8월 18일 발행된 미국특허 제4,688,194호에 개시된 데이타베이스 질의시스템에 있어서 설명된 품사 태그화에 직접 대체될 수 있다. 본 발명의 기타 변형 및 응용도 또한 본 발명의 정신 및 범주내에 속한다.
[부록 A]
Figure kpo00011
각 줄은 문장내(역순으로)의 한단어(토큰)에 해당한다. pos는 품사, lex_prob는 어휘상 확률이다.
품사의 최상 순서열 출력
new_active_paths : ={}; set of no paths
하나의 경로는 일련의 품사와 하나의 스코어에 대한 하나의 레코드이다. 변수 old_active_paths는 set of paths로 초기화되고, 그 경로는 가능치 1.0이고 일련의 비품사와 1.0의 가능스코어를 포함한다는 경로인 하나의 set of 1 paths로 초기화된다.
Figure kpo00012
Figure kpo00013
입력화일 :
Figure kpo00014
출력파일 :
blank blank NN AT VB PPSS blank blank
old_active_parts : 의 추적
(차후로, 스코어들은 로그확률로 해석된다.)
단어 bird을 집행시킨 이후 old_active_paths는
Figure kpo00015
단어 a을 집행시킨 이후 old_active_paths는
Figure kpo00016
단어 see 이후
Figure kpo00017
단어 I을 집행시킨 이후
Figure kpo00018
범위밖의 단어에 대해서는 blank 품사로 가정하여 두 번 이상 검색을 계속한다.
Figure kpo00019
결국,
Figure kpo00020

Claims (6)

  1. 메세지 내에 존재할 개연성이 있는 단어와 다양한 품사로서 상기 단어의 활용에 관한 데이타를 컴퓨터 시스템에 저장하는 저장단계와; 상기 컴퓨터의 처리수단을 이용하여, 메세지내의 적어도 이웃하는 단어에 대한 개연성 있는 품사에 응답하고 상기 저장된 데이타에 응답하여 메세지내의 각 단어에 대해 개연성 있는 품사를 선택하는 선택 단계를 포함하여 상기 메세지 내의 단어들에 대해 품사를 지정하는 자동화된 품사지정 방법에 있어서 : 상기 저장 단계가 (1) 상기 개연성 있는 단어 중에서 각기 하나의 단어가 품사로서 발생할 실제 확률(이하 어휘상 확률이라 함)과, (2) 각각의 상기 단어가 특정 품사인 단어와 이웃하여 특정 품사로서 발생할 실제 확률(이하, 문맥상 확률이라 함)에 관련하는 확률 데이타를 저장하는 단계를 포함하며, 상기 선택단계가 상기 메세지내의 각 단어에 대해 상기 단어에 대한 상기 저장된 어휘상 확률과 적어도 상기 이웃단어에 대한 저장된 문맥상 확률에 응답하며, Viterbi 최적화 기법으로 통상 알려진 유한 상태(finite-state) 최적화 기법에 의해 특정 품사의 확률이 되는 상기 각 단어의 전체 확률을 최적화하는 단계를 포함하는 것을 특징으로 하는 자동화된 품사지정 방법.
  2. 제1항에 있어서, 상기 자동화된 품사지정 방법이 상기 메세지 내의 쌍을 이루는 명사구의 시작 및 종료 경계를 지정하는 단계를 더 포함하며, 모든 개연성 있는 명사구 경계를 지정하는 단계와, 모든 쌍을 이루지 않는 명사구 경계를 제거하는 단계와, 문맥상 명사구 경계 확률을 최적화하는 단계를 포함하는 것을 특징으로 하는 자동화된 품사지정 방법.
  3. 제1항에 있어서, 상기 확률 데이타를 저장하는 단계가 개연성 없는 품사의 활용을 제거한 보정된 데이타를 저장하는 단계를 포함하며, 상기 선택단계가 어휘상 확률과 문맥상 확률의 곱을 결정하는 결정 단계와, 동일 단어에 대해 선행의 곱을 초과하는 곱을 유지하면서 다수의 가능한 품사조합에 대해 상기 결정 단계를 반복하는 반복 단계를 포함하며, 여기서, 어휘상 확률은 특정 품사로서 단어의 발생빈도를 모든 품사로서 그 단어의 발생빈도를 나눈 몫이며, 문맥상 확률은 트라이그램(trigram) 빈도를 바이그램(bigram) 빈도로 나누어 평가한 것이고, 여기서, 트라이그램 빈도는 두 개의 다음 단어에 대해 기결정된 그 다음 두 개의 품사가 순차적으로 따르는 특정 품사의 발생 빈도이며, 바이그램 빈도는 그 다음(next-following) 단어에 대해 기결정된 그 다음 순차적으로 따르는 다음 단어의 품사의 발생빈도인 자동화된 품사지정 방법.
  4. 일련의 단어를 포함하는 메세지에서 명사구의 시작과 종료 경계를 결정하는 자동화된 방법으로서, 상기 단어들간에 발생하는 명사구 경계 확률을 고려한 데이타를 컴퓨터 시스템에 저장하는 단계를 포함하며, 상기 컴퓨터 시스템의 처리수단에 의해 모든 가능한 명사구 경계를 지정하는 단계와; 문맥상의 명사구 경계 확률과 상기 저장된 데이타를 이용하여 상기 경계에 대한 최적 선택을 수행하는 선택 단계를 수행되는 것을 특징으로 하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.
  5. 제1항 또는 제4항에 있어서, 상기 가까운(near-by) 저장 단계가 단어들의 품사에 관하여 n-그램분석에 의해 상기 메세지 내의 품사를 지정하는 지정 단계를 포함하며, 상기 지정단계가 상기 메세지의 비언어적인 기록으로서 절대적으로 결정된 발생빈도를 가지는 단어로서 어떤 비단어들을 표시하는 단계와; 상기 비단어의 용도를 달리하는 문맥상 품사 확률에 관련하여, 상기 메세지 내의 서로 가까운 단어가 특정 품사로 될 정규화된 문맥상의 최적확률을 계산한 단계(여기에서, 상기 정규화된 문맥상의 확률은 트라이그램 품사 확률을 바이그램 품사 확률로 나눈 것으로, 이들 트라이그램 및 바이그램은 공란을 포함하는 문장의 끝에서 시작하여 결정된다)를 포함하는 것을 특징으로 하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.
  6. 제1항 또는 제3항에 있어서, 상기 저장단계가 (1) 문장 전후에서 발생하는 구두점 및 공란과 같은 비단어인 어떤 토큰(token) 중의 각기 하나가 발생할 실제 개연성(어휘상 개연성)과 다른 토큰에 인접하거나 특정 품사인 단어에 이웃하여 발생하는 상기 각 토큰 발생의 개연성에 관련한 확률 데이타를 저장하는 단계와; 단어인 경우, 토큰 처리 단계를 선택하는 단계를 포함하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.
KR1019890001364A 1988-02-05 1989-02-04 품사결정과 이용방법 KR970006402B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US07/152,740 US5146405A (en) 1988-02-05 1988-02-05 Methods for part-of-speech determination and usage
US152,740 1988-02-05
US152740 1988-02-05

Publications (2)

Publication Number Publication Date
KR890013549A KR890013549A (ko) 1989-09-23
KR970006402B1 true KR970006402B1 (ko) 1997-04-28

Family

ID=22544213

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019890001364A KR970006402B1 (ko) 1988-02-05 1989-02-04 품사결정과 이용방법

Country Status (9)

Country Link
US (1) US5146405A (ko)
EP (1) EP0327266B1 (ko)
JP (1) JPH0769910B2 (ko)
KR (1) KR970006402B1 (ko)
AU (1) AU617749B2 (ko)
CA (1) CA1301345C (ko)
DE (1) DE68923981T2 (ko)
ES (1) ES2076952T3 (ko)
IN (1) IN175380B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100887726B1 (ko) * 2007-05-28 2009-03-12 엔에이치엔(주) 자동 띄어쓰기 방법 및 그 시스템

Families Citing this family (194)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530863A (en) * 1989-05-19 1996-06-25 Fujitsu Limited Programming language processing system with program translation performed by term rewriting with pattern matching
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
NL9100849A (nl) * 1991-05-16 1992-12-16 Oce Nederland Bv Werkwijze voor het met behulp van een computersysteem corrigeren van een fout in een, in een natuurlijke taal gestelde zin, alsmede een inrichting geschikt voor het uitvoeren van deze werkwijze.
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5383120A (en) * 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
JPH06195373A (ja) * 1992-12-24 1994-07-15 Sharp Corp 機械翻訳装置
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
WO1995010832A1 (en) * 1993-10-15 1995-04-20 At & T Corp. A method for training a system, the resulting apparatus, and method of use thereof
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
US5873660A (en) * 1995-06-19 1999-02-23 Microsoft Corporation Morphological search and replace
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5802533A (en) * 1996-08-07 1998-09-01 Walker; Randall C. Text processor
US6279017B1 (en) * 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text
US6823301B1 (en) * 1997-03-04 2004-11-23 Hiroshi Ishikura Language analysis using a reading point
US7672829B2 (en) * 1997-03-04 2010-03-02 Hiroshi Ishikura Pivot translation method and system
AU9455498A (en) * 1997-09-24 1999-04-12 Scansoft, Inc. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6182028B1 (en) 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
CN1159662C (zh) 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
EP1266313A2 (en) 1999-03-19 2002-12-18 Trados GmbH Workflow management system
DE19942171A1 (de) * 1999-09-03 2001-03-15 Siemens Ag Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
AU2621301A (en) * 1999-11-01 2001-05-14 Kurzweil Cyberart Technologies, Inc. Computer generated poetry system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7120574B2 (en) 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US6684202B1 (en) * 2000-05-31 2004-01-27 Lexis Nexis Computer-based system and method for finding rules of law in text
US6810375B1 (en) 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US6952666B1 (en) * 2000-07-20 2005-10-04 Microsoft Corporation Ranking parser for a natural language processing system
US6741988B1 (en) 2000-08-11 2004-05-25 Attensity Corporation Relational text index creation and searching
US6732097B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6738765B1 (en) 2000-08-11 2004-05-18 Attensity Corporation Relational text index creation and searching
US6732098B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6728707B1 (en) 2000-08-11 2004-04-27 Attensity Corporation Relational text index creation and searching
US7171349B1 (en) 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US8272873B1 (en) 2000-10-16 2012-09-25 Progressive Language, Inc. Language learning system
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6910004B2 (en) * 2000-12-19 2005-06-21 Xerox Corporation Method and computer system for part-of-speech tagging of incomplete sentences
US20020129066A1 (en) * 2000-12-28 2002-09-12 Milward David R. Computer implemented method for reformatting logically complex clauses in an electronic text-based document
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
WO2002097663A1 (en) * 2001-05-31 2002-12-05 University Of Southern California Integer programming decoder for machine translation
US8214196B2 (en) * 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
CA2530899C (en) 2002-06-28 2013-06-25 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
US10733976B2 (en) * 2003-03-01 2020-08-04 Robert E. Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US7813916B2 (en) 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7664748B2 (en) * 2004-07-12 2010-02-16 John Eric Harrity Systems and methods for changing symbol sequences in documents
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
DE112005002534T5 (de) 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
JP2007024960A (ja) 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US20100280818A1 (en) * 2006-03-03 2010-11-04 Childers Stephen R Key Talk
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
EP2156369B1 (en) 2007-05-06 2015-09-02 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8914278B2 (en) * 2007-08-01 2014-12-16 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8190423B2 (en) * 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) * 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
WO2010105214A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CA2774278C (en) * 2009-09-25 2018-10-30 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
US20110161067A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using pos tagging for symbol assignment
KR20120125310A (ko) * 2010-02-01 2012-11-14 진저 소프트웨어 인코퍼레이티드 특히 소형 키보드 디바이스를 위한 인터넷 코퍼스를 사용하는 자동 문맥 감응식 언어 교정
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
EP2546760A1 (en) 2011-07-11 2013-01-16 Accenture Global Services Limited Provision of user input in systems for jointly discovering topics and sentiment
US8620837B2 (en) 2011-07-11 2013-12-31 Accenture Global Services Limited Determination of a basis for a new domain model based on a plurality of learned models
US8676730B2 (en) * 2011-07-11 2014-03-18 Accenture Global Services Limited Sentiment classifiers based on feature extraction
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9263059B2 (en) 2012-09-28 2016-02-16 International Business Machines Corporation Deep tagging background noises
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
EP2915068A4 (en) 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、***及其语言模型建立方法、装置
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和***
US9311299B1 (en) * 2013-07-31 2016-04-12 Google Inc. Weakly supervised part-of-speech tagging with coupled token and type constraints
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
DE202013104836U1 (de) 2013-10-29 2014-01-30 Foseco International Limited Speiseraufbau
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
GB2542288A (en) * 2014-04-25 2017-03-15 Mayo Foundation Enhancing reading accuracy, efficiency and retention
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
KR20170140808A (ko) * 2015-03-10 2017-12-21 에이심메트리카 랩스 인코퍼레이티드 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
JP6649472B2 (ja) 2015-05-18 2020-02-19 バーコード リミティド 活性化可能な品質表示ラベルのための熱変色性インク証印
CA2991275A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10599767B1 (en) * 2018-05-31 2020-03-24 The Ultimate Software Group, Inc. System for providing intelligent part of speech processing of complex natural language
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
RU2721190C1 (ru) 2018-12-25 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
CN111353295A (zh) * 2020-02-27 2020-06-30 广东博智林机器人有限公司 序列标注方法、装置、存储介质及计算机设备
US11594213B2 (en) * 2020-03-03 2023-02-28 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US4456973A (en) * 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100887726B1 (ko) * 2007-05-28 2009-03-12 엔에이치엔(주) 자동 띄어쓰기 방법 및 그 시스템

Also Published As

Publication number Publication date
JPH01224796A (ja) 1989-09-07
JPH0769910B2 (ja) 1995-07-31
EP0327266A3 (en) 1992-01-02
EP0327266B1 (en) 1995-08-30
DE68923981D1 (de) 1995-10-05
ES2076952T3 (es) 1995-11-16
AU617749B2 (en) 1991-12-05
US5146405A (en) 1992-09-08
KR890013549A (ko) 1989-09-23
EP0327266A2 (en) 1989-08-09
DE68923981T2 (de) 1996-05-15
CA1301345C (en) 1992-05-19
IN175380B (ko) 1995-06-10
AU2899089A (en) 1989-08-10

Similar Documents

Publication Publication Date Title
KR970006402B1 (ko) 품사결정과 이용방법
Oostdijk Corpus linguistics and the automatic analysis of English
US6115683A (en) Automatic essay scoring system using content-based techniques
Wan et al. Speech errors and the representation of tone in Mandarin Chinese
Pedler Computer correction of real-word spelling errors in dyslexic text
US20100332217A1 (en) Method for text improvement via linguistic abstractions
KR20040111715A (ko) 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법
Verberne Context-sensitive spell checking based on word trigram probabilities
Bergenholtz et al. A new perspective on the access process
Abdulrahman et al. A language model for spell checking of educational texts in Kurdish (Sorani)
Ferris The design of an automatic analysis program for L2 text research: Necessity and feasibility
Sethi et al. Automated title generation in English language using NLP
Ferret et al. QALC-the Question-Answering program of the Language and Cognition group at LIMSI-CNRS
Verkerk et al. LASLA and Collatinus: a convergence in lexica
Abuleil et al. Extracting an Arabic lexicon from Arabic newspaper text
Kong et al. Learning on demand-course lecture distillation by information extraction and semantic structuring for spoken documents
Van Halteren Performance of taggers
JP2007241900A (ja) ネーミングシステム及びネーミング自動化方法
Navas et al. Assigning phrase breaks using CARTs for Basque TTS
Kamlangpuech et al. eCSCDA: An efficient system for analyzing contents of Computer Science Courses
Suliman Types of Deixis Used in The Doum-Tree of Wad hamid: A Corpus-based Study
Torralbo et al. Automatic generation of term definitions using multidocument summarisation from the Web
Salama et al. Building a POS-Annotated Corpus For Egyptian Children
Sečujski et al. A software tool for semi-automatic part-of-speech tagging and sentence accentuation in Serbian language
Kamlangpuech et al. eCSCDA: An efficient system for analyzing

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20010330

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee