KR970006402B1

KR970006402B1 - 품사결정과 이용방법

Info

Publication number: KR970006402B1
Application number: KR1019890001364A
Authority: KR
Inventors: 워드 처어치 케니스
Original assignee: 아메리칸 텔리폰 앤드 텔리그라프 캄파니; 엘리 웨이스
Priority date: 1988-02-05
Filing date: 1989-02-04
Publication date: 1997-04-28
Also published as: JPH01224796A; JPH0769910B2; EP0327266A3; EP0327266B1; DE68923981D1; ES2076952T3; AU617749B2; US5146405A; KR890013549A; EP0327266A2; DE68923981T2; CA1301345C; IN175380B; AU2899089A

Abstract

내용없음.

Description

품사결정과 이용방법

제1도는 본 발명에 따른 품사 지정 방법의 흐름도.

제2도는 본 발명에 따른 명사구 분석 방법의 흐름도.

제3도는 제1도 및 제2도의 방법을 이용하는 음성 합성기를 보인 블럭도.

제4도는 제1도의 방법을 이용한 텍스트 편집을 보인 블럭도.

본 발명은 명사구 분석의 중간 방법을 포함하고, 음성합성, 음성인식, 작문의 연습, 교정, 색인 및 데이타 검색을 포함하는 품사 결정 방법과 그 결과의 활용 방법에 관한 것이다.

품사를 결정하는 능력, 특히, 다른 품사로 사용될 수 있는 단어들에 대해 품사를 결정하는 능력이, 영어 사용시의 많은 갖가지의 문제에 관련 한다고 오랫동안 인정되어 왔다. 예를 들어, 음의 고저, 지속기간 및 힘을 포함하는 언어 강세는 특정 품사의 단어와 그들의 문장 어순에 달려 있다고 알려져 있다. 따라서, 음성합성은 인간의 음성과 유사한 소리를 생성하기 위해 기록된 입력 또는 비음성적인 텍스트의 품사분석을 필요로 한다.

또한, 자동적인 품사 결정은 자동적인 음성인식, 컴퓨터를 이용한 방법에 의한 작문의 교육과 연습, 단어처리 워크스테이션에서 생성된 문서의 교정과 편집, 문서의 색인 및 데이타 베이스로 부터 단어 관련 데이타의 다양한 검색에 있어서 중요한 역할을 할 수 있다.

예를 들면, 이들 사용의 일부를 ATT의 Writer's Work-bench

의 다양한 형태에서 볼 수 있다. 이에 관해서는 1998년, 1월호 The Atlantic Monthly의 66페이지 부터 계속되는 Barbara Wallraff씨가 쓴 The Literate Computer란 논문, 특히 68페이지의 마지막 두 패라그라프를 참조할 것. 색인에 대한 품사의 관계는 1986년 4월 1일 C. L Raye씨에게 허여된 미국특허 제4,580,218에서 볼 수 있다.

지금까지는, 자동적인 품사 결정의 2가지 주요 방법이 문헌상으로 논의 되어 왔으며, 어느정도 사용되어 왔다. 그 첫 번째 방법은, 특정관심 사항의 검출을 위해 고안된 각종 특별 법칙에 의한 것이다. 이들 법칙은, 예를 들어, 품사를 예견하기 위한 단어 어미의 사용 또는 그의 일부 개작에 관련하기도 한다. 품사 결정을 위한 일부 특별 법칙은 UNIX^TM운영체제하에서 실행되는 Writer's Workbench^R응용 프로그램에 사용되어 왔다. 이들 법칙은(그들이) 만족스럽게 해결할 수 있는 상황이 극히 제한되고, 기본적 통일성이 부족한 경향이 있다. 그 기법은 L.L. Cherry씨의 1978년 6월 Bell Telephone Laboratories, Incorporated, Computer Science Technical Report No. 81, PARTS-A System for Assigning Word Classes to English Text에 기재되어 있다.

통일성 면에서 잠재적으로 더 뛰어난 두 번째 주요 방법은, 영국 University of Lancaster, ICAME New, 1983, Vol. 7, PP. 13-33에 실린 G. Leech씨 등의 논문 The Automatic Tagging of the LOB Corpus에 기재된 n-그램(n-gram) 기법이다. 거기에 기재된 기법의 일부는 연속되는 품사의 개연성 있는 조합에 관한 일정한 법칙을 기초로 한, 어떤 앞선 단어 또는 뒤따르는 단어에 대한 현 시점에서 선택된 최선의 품사에 의존한다. 이러한 분석과 함께, 다양한 특별 법칙이 또한 사용되기 때문에 전체적으로는 이 방법도 여전히 바라는바 보다는 정확하지 않다. 또한, 이 방법은 체계적인 형태로 어휘상 확률의 모형을 만들 수 없다.

전술한 기법들은 전술한 고려사항 및 그 결과가 실망스러웠기 때문에, 본 기술분야의 연구원들 사이에 실제적으로 관심을 끌지 못했다.

사실상, 어떠한 n-그램 기법도 개연성 있는 구조의 문장을 충분히 넓게 또는 전반적으로 관찰할 수 없기 때문에 불충분한 결과를 가져오리라는 것은 이미 예상되어 왔다. 다른 한편, 문장내의 품사를 분석함에 있어서, 인간의 능력이 갖는 정도의 총체적인 관점을 컴퓨터에 생동감있게 프로그램하는 것은 불가능하였다. 이에 관해서는 M. Marcus씨 저서의 1980년 Cambridge, MA, MIT Press의 A Theory of Syntactic Recognition for Natural Language 책을 참조할 것. 결론적으로, n-그램 단어 발생 빈도 분석 기법과는 대조적으로, n-그램형 품사결정 기법은 보다 깊이 있는 조사에 사용되는 방대한 양의 완전히 태그된 텍스트 발생을 돕는 작업에 대체로 국한되어 왔다. 그러한 목적을 위해서는, 매우 능력있는 사람이 개입하여 그 결과를 정정해야만 한다.

그럼에도 불구하고, 높은 정확도로 품사를 확인할 수 있어, 처음에 언급한 모든 용도에 쉽게 적용될 수 있는 n-그램 기법과 같이 비교적 단순한 기법은 여전히 바람직하다.

본 발명의 한 태양에 따르면, 개개 단어의 어휘상 확률과 정규화된 3단어의 문맥상 확률의 곱을 극대화함으로써 한 메세지 단어들에 품사가 지정된다. 정규화는 포함된 2단어의 문맥상의 확률을 사용한다. (그들 사이에 다수의 공간을 포함하는)문장의 종료점, 구두점 및 발생 빈도가 낮은 단어는 어휘상 확률로 지정되거나 마치 단어처럼 달리 처리되어, 그결과, 종전의 n-그램 품사지정 및 종전의 특별 법칙 사용에서 당면하였던 불연속성이 해소된다. 따라서, 이 기법이 보편성이 확립된다.

본 발명의 또 다른 특징에 따르면, 미리 지정된 품사를 가진 단어가 있는 메세지의 명사구는 음성합성에 그들의 사용을 용이하게 하는 식으로 인지된다. 이 명사구 분석은 또한 달리 응용될 수도 있다. 특히, 명사구 분석방법은 높은 확률적인 방법으로서, 이것은 처음에 매 단어의 시작 또는 끝에 명사구의 개시와 종류를 지정하고, 단지 매우 높은 확률의 비반복 지정들이 남을 때 까지 가장 낮은 확률을 가진 지정들을 제거해감으로서 그와 같은 지정들은 점진적으로 제거한다. 비반복 지정이란 다른 명사구내에 부분적으로나 또는 전체적으로 포함되지 않는 명사구 지정을 말한다.

선택적으로, 본 발명의 상기 방법은, 다른 명사구 내에서 전체적으로 발생하는 일부 높은 확률의 명사구를 또한 보유할 수 있는데, 이는, 예를 들어, 음성합성에 있어서 그와 같은 지정들이 실제로 유용하기 때문이다.

항상 제거되는 일부 명사구 지정들은(예를 들어, 문장의 처음에) 대응하는 개시(지정)가 없는 종료(지정) 또는(예를 들면, 문장의 끝에) 종료(지정)가 없는 개시(지정)이지만, 본 발명은 명사구의 종류와 개시의 낮은 확률 지정을 더욱 제거한다. 즉, 환언하면, 가장 높은 확률 지정만을 보유한다.

본 발명의 부차적 방법에 따르면, 메세지의 각 문장을 처음부터 끝까지 반복적으로 주사하고, 각 주사시에 각 쌍의 시작과 종류에 대한 확률을 곱하고, 문장의 해당 부분에 대해 이미 얻어진 가징 높은 확률 이상으로 또는 그 근사치의 적(積)을 갖는 그들 조합을 유지함으로써 다른 낮은 확률의 명사구는 제거되거나, 적어도 다른 높은 확률 명사구와는 일치하게 된다.

본 발명의 또다른 방법에 따르면, 본 발명의 품사 지정 방법의 출력은 본 발명의 명사구 분석 방법의 입력이 될 수도 있다. 이러한 관계상, 양쪽 방법에서 사용되는 최대의 적당한 최적화 기법은, 각각의 방법이 그 자체로도 선행 기술 보다 성능이 더 뛰어나기 때문에, 서로 보강하려는 경향이 있다.

본 발명의 기타 대상과 이점은 도면을 참조한 다음의 상세설명으로 부터 명백하게 될 것이다.

제1도의 방법에 있어서, 설명 목적상, 메세지는 전자적 형태로 판독하고, 저장된 텍스트 메세지로 가정한다. 블럭(11)에 도시된 바와 같이, 문장별로, 그 저장된 텍스트를 판독하는 첫 번째 단계가 실행된다. 이 단계는 문장 경계의 결정을 필요로 한다. 여기에는 잘 알려진 많은 기법이 있으나, 본 발명에서는 초기에 매 마침표로 문장을 종류한다고 가정하고, 그 문장 및 그의 결과를 본 발명의 방법으로 마침표가 더욱 적당하게 사용되었다는 것이 후에 증명되었을 때 버리는 기법을 선호하여 사용한다.

어떻든, 본 발명의 방법은 각 문장에 대해 끝에서 시작하여 조작이 진행된다. 이어지는 단계는 세 개의 일반적인 단계, 즉 단어를 토큰화 하는 단계(블럭 12)와; 문장의 끝에서 시작하여 어휘상의 품사 확률을 계산하는 단계(블럭 13); 그리고, 문맥상의 품사 확률을 최적화하는 단계(블럭 14)로서 분류될 수 있으며, 이때에, 품사 분석의 많은 가능한 용도에 그 결과를 적용하는 일반적인 종료단계(15)도 포함된다.

이들 일반적인 단계들은 이하에서 설명되는 바와 같이, 보다 자세한 단계들로 나누어질 수 있다.

단어를 토큰화 하는데 있어서, 본 발명에서는 품사분석에 통상 사용하는 어학적 방법에 적지만 중대한 수정을 가하고 있다. 그렇지만, 편의상 W. Nelson Francis씨 등이 쓴 1982년 Houghton Mifflin Co.의 Frequency Analysis of English Usage 책의 6-8페이지에 있는 List of Tags에 표기된 품사의 명칭과 동일한 것을 사용한다. 그 명칭들은 실시예를 이해하는데 도움이 되는 경우 여기에서 반복 사용한다.

토큰화 과정은 단어와, 구두점 및 괄호와 같은 어떤 비단어의 인식을 포함한다. 또한, 매 문장 마침표 다음에 두 개의 공란 여백을 지정하여 Francis씨 등의 저서의 기본을 구성한 것과 같은 태그된 텍스트(이에 선행하는 텍스트는 통상적으로 Browm Corpus으로 불리운다)에 그와 같은 공란에 대한 새로운 한 세트의 빈도를 생성하는 것이 중요하다는 것을 발견하였다. 이 과정에 포함된 토큰 형태는 문장이 종료 했다는 것을 알리는 구조적인 인디케이터와 문장의 실제단어들이다. 그러한 구조적인 인디케이터들은, 예를 들어, 마침표에 대한 기계판독 문자와 같은 문장 종료 인디케이터, 텍스트 단어와 함께 화일(file)된 원고 또는 원고 화일에 저장된 대응 포맷팅 문자로 표현된 표제 또는 패라그래프 인디케이터 및 화일종료 인디케이터를 포함한다.

조금 후에 보겠지만, 문장내의 각 최종단어가 마침표와, 그 뒤따른 공란에 대한 문맥상의 확률과 함께 그 문맥상 확률이 측정됨을 발견할 수 있을 것이다. 이들 세 개는 트라이그램(trigram)을 형성하며; 따라서, 확률분석으로, 이 단어가 어떤 품사로서 문장을 종료시킬 수 있는 것이 어느정도 확실히 가능한가?하는 문제를 조사한다. 이 경우에, 이같은 점에 있어서 마침표를 관찰하는 문맥상의 확률은 매우 높고(약 1.0); 공란의 경우에 대한 문맥상의 확률은 1.0이다. 어쨋든, 이들 확률들은 정규화 확률의 분자와 분모의 모두에 있어 동일하고, 따라서, 그 결과로 발생하는 문맥상의 확률은 바로, 문장의 끝에서 그 대상의 품사를 관측할 측정된 확률이며, 이것은 텍스트 자료로 부터 표로 만들어져 컴퓨터의 영구 메모리에 저장될 수 있는 통계이다.

블럭(12)에 관련하여 설명된 바와 같이, 관측된 단어들과 문자를 토큰화 한후에, 본 발명에서는 아래에서와 같이 발생 빈도에 의존하는 어휘상이 품사 확률(주어진 단어 j에 대한 품사 i를 관찰할 확률)을 계산한다. 즉, 관심대상인 온갖 어미의 단어가 Brown Corpus에서 매우 합리적으로 높은 빈도로 나타났다면, 그 계산은 품사에 관계없이, 그 단어가 특정 품사로서 관찰된 발생 빈도를 그것의 전체 발생 빈도로 나눈 몫이다.

이 같은 계산을 낮은 발생 빈도를 갖는 문자 또는 단어의 경우에는 다음과 같이 대체한다. 즉, Zipf의 법칙하에서, 많은 텍스트를 본다고 해도, 수회만 나타나는 긴 단어가 반드시 존재한다고 간주한다. Brown Corpus에 있어, 예를 들면 40,000단어가 다섯 번 또는 그 이하로 나타난다. 만일, yawn과 같은 단어가 동사로서 한번 명사로서 한번 나타난다면, 그것이 형용사가 될 확률은 얼마인가?에 대해서는 더 많은 정보 없이는 대답하기가 불가능하다. 다행히도, 사전들의 도움을 받으면 이러한 문제를 어느정도 경감시킬 수 있다. 사전에 있어서의 가능한 빈도 수에 하나를 더한다. 예를 들면 yawn을 명사이든가 동사로 사전에 수록될 것이다. 따라서, 그 가능성을 보정(smooth)한다. 이 경우에, 확률을 변하지 않는다. 그 보정의 전후 모두에 있어, yawn이 명사일 가능성이 그때의 50%이고, 동사일 가능성이 그 나머지라고 추산한다. yawn이 형용사가 될 가망은 없다.

어떤 다른 경우에 있어서는 보정에 의해 커다란 오차를 유발한다. 단어 Cans을 고찰해보면, Brown Corpus에서 이 단어는 동사로는 결코 나타나지 않지만, 복수명사로는 5번 나타난다. 다행히도, 사전(그리고, 그의 어형론상의 루틴)에는 양쪽의 확률이 주어진다. 따라서, 수정된 평가에서, Cans은 1/7번은 동사로, 6/7번은 복수명사로서 나타난다.

따라서, 교육자료인 축소판이 아닌 사전에 따라, 각 가능한 품사로서의 관찰 발생 빈도에 하나를 더하고; 그로부터 그 어휘상의 확률을 계산한다.

이 단어에 대한 본 발명의 확률 검색 계통을 만들기 위해, 어휘상 확률에 정규화되고 추산된 문맥상의 확률, 즉, 기결정된 연속되는 품사 Y와 Z가 주어진 품사 X가 발견될 확률을 품사 Z가 주어진 품사 Y가 발견될 바이그램 빈도로 나눈 값을 곱한다. 후자의 두 데이타는 Francis등이 그들의 책에 인용한 기 태크된 자료로 부터 목록화 될 수 있다. 목록화된 데이타는 컴퓨터의 메모리 내에 저장된다.

본 발명의 선행 세트계산치로 부터 최대 확률을 유지하여, 매 다른 품사로서의 그 대상 단어에 대해 전술한 과정을 반복한다. 문장중의 마지막 단어에 대해 다음 과정을 진행하기 전에, 마지막 단어에 대한 최대적(積) 확률에 도달하게 되었다.

상기 과정에 대해 2가지 것을 미리 관찰할 수 있었다. 첫째로, Leech씨 등의 참고문헌에 사용된 것과 같이, 곱셈에 사용되는 어휘상의 확률은 연속값으로 존재하며 3개의 임의로 지정된 값중의 하나는 아니다. 둘째로, 비록 수학의 적용이 실제로 문장의 끝에서 판정되는 단어에 대해서는 사소하게 느껴질 수도 있지만 중요한 점은 어디에서나 사용될 수 있는 동일 수학이라는 것이다.

보다 완전한 특정예를 들 때, 확률 추정치는 태그된 Brown Corpus을 이용하여 얻은 것으로, Francis씨 등에 의해 상기에 인용된 분석에 참고는 되었으나 거기에 포함되지 않은 것임을 명심하라. 그것은 수작업으로 지정되고 힘들게 점검된 품사 태그를 갖는 약 1,000,000 단어의 집성체(Corpus)이다.

본 방법의 전체적인 실행은 그 방법의 실행이 성질상 상당히 지협적이고, 일반적으로는, 예를 들어, 조동사 일수도 있는 것의 용법을 결정하기 위해 명사구의 양편을 바라 볼 필요가 없다는 것을 고려할 때 놀라울 정도로 훌륭했다.

만일 사전내의 모든 가능성이 동일한 비중으로 주어진다면, 어구의 분석은 매우 어렵다. 사전은 적당한 것에 초점을 맞추는 것이 아니라 가능한 것에 초점을 맞추는 경향이 있다. I see a bird라는 간단한 문장을 고려해보면, 모든 실제적인 용도에 관해, 문장내의 모든 단어는 명확하다. Francis과 Kucera에 따르면, I라는 단어는 대명사로서 5838번의 관찰에 5837번 나타나고(100%), see라는 단어는 동사로서 772번 관찰에 771번 나타나고(100%), a라는 단어는 관사로서 23019번 관찰에 23013번 나타나고(100%), bird라는 단어는 명사로서 26번 관찰에 26번 나타난다. 그러나, Webster의 Seventh New Collegiate Dictionary에 따르면 모든 단어는 불명확하다. 태그(품사)의 원하는 지정외에도, 최초의 세단어는 명사로 기록되고 마지막 단어는 자동사로 기록된다. 사람들은 이들 의사지정이 어구분석에 의해 문장 구성상 잘못 형성된 것으로 판명되어 제외될 수도 있다고 기대했는지도 모른다. 불행히도, 선행기술은 그런 결과를 가져오는 일관된 방법을 갖지못했다. 만일 분석기가

[NP[N city][N school][N Committee][N meeting]],

라는 형태의 명사구를 받아들인다면, 그때, 그 분석기는, [NP[N I][N see][N a][N bird]](여기서 NP는 명사구를 의미하고 N은 명사를 의미한다)을 판정하여 제외시킬 수 없다. 유사하게, 아래와 같이 표시하는 것이 구문적으로 틀리지 않기 때문에 분석기는 또한, 아마도 bird를 자동사로서 받아들여야만 한다.

[S[NP[N I][N See][N a]][VP[V bird]]

(여기서, S는 주어 VP는 동사구 V은 동사를 의미한다)

이들 품사의 지정은 틀린 것이 아니고, 그들은 단지 극단적으로 있을 법하지 않을 뿐이다. 다시 I see a bird.라는 문장을 고려해보자, 문제는 각기 Tagged Brown Corpus으로 부터 추산되는 어휘상 및 문맥상의 확률 모두를 최적화하는 단어에 대한 품사 지정을 찾는 것이다.

어휘의 확률은 아래의 빈도로 부터 계산된다.(PPSS=단수대명사; NP=고유명사; VB=동사; UH=감탄사; IN=전치사; AT=관사; NN=명사)

어휘의 확률은 명확한 방법으로 계산된다. 예를 들면 I이 대명사일 확률, P(PPSS│I)는

또는

로 계산된다. see이 동사일 확률은

로 계산된다.

다른 어휘의 확률도 동일한 형태로 계산한다.

이어지는 두 개의 품사 Y와 Z이 주어진, 품사 X가 관찰되는 확률 즉, 문맥상의 확률은 바이그램 품사빈도 YZ로 트라이그램 품사 빈도 XYZ를 나눈 것으로 계산된다. 따라서, 예를 들면, 하나의 관사와 하나의 명사 바로 앞에서 동사가 관찰될 확률은

로 계산된다. 즉,

이다. 동일한 관계로 명사가 관찰될 확률은

으로 계산될 수 있다. 즉, 629/53091=0.01 이다. 다음 문맥상의 확률도 동일한 형태로 계산한다.

검색은 어휘상의 확률과 문맥상의 확률의 곱을 최적화하는 단어에 대한 품사 태그의 지정을 찾을 목적으로 수행된다. 개념상으로, 검색은 입력단어에 대해 품상의 모든 가능한 지정들을 열거한다. 이 경우에 있어, 4개의 입력 단어가 있으며 그중에서 3개는 두가지 면에서 모호한 이들은 입력 단어에 대해 2*2*2*1=8개의 가능한 품사지정의 한 세트를 형성한다.

어휘상의 확률과 문맥상의 확률의 곱에 의한 각 8개의 결과가 기록되며, 최상의 결과가 선택된다. 이 경우에는 첫 번째 결과가 가장 좋다.

실제로는, 기록기능은 2단어 이상을 볼 수 없기 때문에 모든 가능한 지정을 열거할 필요는 없다. 바꾸어 말하면, 품사 결과를 열거하는 과정에 있어서, 어떤 경우에 있어서는, 어떤 결과가 또 다른 결과에 도저히 필적할 수 없고 따라서, 버려질 수 있다는 것을 알게된다. 이런 사실 때문에, 단지 0(n) 경로가 열거된다. 예를 통해, 이런 최적화를 설명한다.

brid에 대한 모든 품사의 지정을 찾아서 부분적인 결과를 기록한다. 이후로 모든 기록들은 로그 확률로 해석된다.

(-4.848072 NN)

a에 대한 모든 품사지정을 찾아서 기록한다. 이 점에 있어서는, 다음의 두가지 경로가 있다. 즉,

(-7.4453945 AT NN)

(-15.01957 IN NN)

이제, see의 지정을 찾아서 기록한다. 이 점에 있어서, 경로의 수는 여전히 지수적으로 증가하는 것처럼 보일 것이다.

(-10.1914 VB AT NN)

(-18.54318 VB IN NN)

(-29.974142 UH AT NN)

(-36.53299 UH IN NN)

이제, I의 지정을 찾아서 기록한다. 모든 4가지 경로, 즉 PPSS VB IN NN, NN VB IN NN, PPSS UH IN NN과 NP UH IN NN이 어떤 다른 경로보다 적게 스코어되어 있고 어떤 부가적인 입력도 그 상대적인 스코어를 변화시킬 수 있는 방법이 없기 때문에, a이 불어적 전치사 IN일지도 모른다는 가정은 더 이상 필요하지 않다는 것에 주목하라. 특별히, PPSS VB IN NN 경로는 PPSS VB AT NN 경로보다 더 낮게 기록되며, 부가적인 입력은 문맥상의 기록 기능이 3품사의 제한된 영역을 가지고 그것은 PPSS와 VB의 존재 범위를 넘어서 보는데는 충분하지 못하기 때문에 PPSS VB IN NN에 도움이 되지 못한다.

(-12.927581 PPSS VB AT NN)

(-24.177242 NP VB AT NN)

(-35.667458 PPSS UH AT NN)

(-44.33943 NP UH AT NN)

검색은 범위 밖에 있는 단어에 대한 공란(blank) 품사를 가정하여 두 번 이상 반복한다.

(-13.262333 blank PPSS VB AT NN)

(-26.5196 blank NP VB AT NN)

결국, 결과는 PPSS VB AT NN이다.

(-13.262333 blank blank PPSS VB AT NN)

단순하고 좀더 흥미로운 예로 Can they can cans을 보면

Cans

(-5.456845 NNS), 여기서 NNS는 복수명사를 나타낸다.

Can

(-12.603266 NN NNS)

(-15.935471 VB NNS)

(-15.946739 MD NNS), 여기서 MD는 보조동사를 나타낸다.

They

(-18.02618 PPSS MD NNS)

(-18.779934 PPSS VB NNS)

(-21.411636 PPSS NN NNS)

Can

(-21.766554 MD PPSS VB NNS)

(-26.45485 NN PPSS MD NNS)

(-28.306572 VB PPSS MD NNS)

(-21.932137 blank MD PPSS VB NNS)

(-30.170452 blank VB PPSS MD NNS)

(-31.453785 blank NN PPSS MD NNS)

그리고, 결과는 : Can/MD They/PPSS Can/VB Can/NNS이다.

확률을 최적화하는 본 발명 방법의 다른 자세한 것은 부록 A를 참조하라.

이 설명은 블럭(14)의 설명을 통해 동작 설명을 완성한다.

블럭(15)에서 발생하는 이용의 예로서, 표시장치는 특히 인간 조작원을 갖는 대화형 시스템에 있어서, 개념적으로 가장 단순하지만 그래도 실제적이다. 보다 상세한 이용의 예는 이후에 설명되는 제3도, 제4도에서 설명될 것이다. 그러나, 먼저, 하나 이상의 도구를 설명하는 것이 바람직하다, 그러한 도구는 본 발명 방법의 확장을 이용한 명사구 분석이다.

유사한 확률론적인 방법이 매우 높은 정확성으로 단순한 명사구를 찾는데 적용되었다. 그 제안된 방법은 선행 분석의 확률론적 유사물이다. 선행분석은 (종단 또는 비종단)의 두 종류 사이에 열린 괄호를 삽입할 것인지 닫힌 괄호를 삽입할 것인지를 보인 표를 사용한다는 것을 상기하라, 그 제안된 방법은 모든쌍의 품사들 사이에 열린 괄호와 닫히 괄호의 확률을 제공하는 표를 사용한다. 아래에 5개 품사에 대한 예를 보인다 : AT(관사), NN(단수명사), NNS(비단수명사), VB(원형동사), IN(전치사), Brown Corpus로부터 선택된 교육자료의 약 40,000 단어로부터 이들 확률이 계산된다. 이 교육자료는 번거로운 반자동 수단에 의해 명사구로 분석된다.

확률론적인 분석기에서 입력으로서 일련의 품사가 주어지고, 명사구의 처음과 끝에 해당하는 괄호의 삽입이 요구된다. 개념적으로, 분석기는 입력의 모든 가능한 분석을 열거하고, 선행확률에 의해 그들을 각각 기록한다. 예를 들어, 입력 순서가 NN VB인 경우를 고려해 보면, 이 순서를 괄호로 묶기 위해서 5가지 가능한 방법이 있다.

(비 반복을 가정하면)

·NN VB

·[NN] VB

·[NN VB]

·[NN] [VB]

·NN [VB]

이들 어구분석의 각각은(NN 전, NN 이후, VB 이후의) 세위치중 어느 한 위치에 열린/닫힌 괄호가 나타날(또는 나타나지 않을) 확률인 6가지 선행 확률을 곱함으로서 스코어된다. 가장 높게 스코어된 어구 분석이 출력으로 되돌려진다.

상기 방법은 대단히 단순하다는 점에도 불구하고 뛰어나게 작용한다. 여기에는 괄호의 수를 무시하고 두 명사구를 함께 실행하는 경향이 있다.

명사구 분석은, 제2도에서 설명된 바와 같이, 제1도의 품사지정으로 부터의 출력을 입력으로서 가정하는 것이 주목될 것이다. 그러나, 어떤 품사지정 기법의 결과를 또한 사용할 수도 있다.

각 경우에 있어서, 블럭(22)에서, 모든 가능한 명사구 경계가 지정된다. 블럭(23)에서, 쌍을 이루지 않는 경계들은 제거된다. 각 문장에 대해, 이들은 문장의 시작에서의 종료 경계지정과 문장끝(공란을 포함하는)에서의 시작 경계 지정을 포함한다.

블럭(24)의 동작에는 명사구 경계의 각각 시종일관된 지정에 대한 확률계도를 설계하는 것이 포함된다. 가장 높은 확률 지정은, 블럭(25)에서 나타낸 것처럼, 이후의 과정, 예로서, 결과의 이용을 위해 유지된다.

이제, 본 발명의 보다 특별한 응용으로 전환해 보자 품사를 태그하는 것은 음성합성, 음성인식, 철자정정, 교정, 질의응답, 기계번역, 큰 텍스트 데이타 베이스 검색(예를 들면, 특허, 신문 등)을 포함하는 많은 분야에서 잠재적으로 응용할 수 있는 실제적인 문제이다. 여기서는, 특별히, 음성합성 응용을 고려하는데, 여기에서 발음은 때때로 품사에 의존한다는 것이 명백하다. 발음이 품사에 의존하는 아래의 세가지 예를 고려해 보자.

먼저, wind와 같은 단어는 명사일 때 동사인 때와는 다른 모음을 갖고 있다. 즉, the wind is strong에서와 같이 명사 wind는 단 모음을 갖는데 반해, Do not forget to wind your watch에 있어서와 같이 동사 wind는 장모음을 갖는다.

두 번째로, It is a shame that he is leaving 에서의 보충사 that과는 달리 Did you see THAT?에서 대명사 that은 강조된다.

세 번째로, Oily FLUID과 TRANSMISSION fluid 사이의 차이을 알아보면, 예로서, Erik Fudge씨가 쓴 1984년 London의 George Allen Unroin(Publishers) Ltd.사의 English Word Stress에 설명된 바와 같이, 일반 규칙으로서 TRANSMISSION fluid과 같은 명사-명사 수순은 전형적으로 강세가 왼쪽에 있지만, Oily FLUID에서와 같은 형용사-명사 수순일 때 강세는 전형적으로 오른쪽에 있게 된다. 이들은 만일 합성기가 정확한 품사 정보를 억세스 했다면 보다 자연스럽게 발음될 수 있는 많은 구문들 중에서 단지 3가지일 뿐이다.

제3도에서, 품사 태거(tagger)(31)는 제1도의 방법을 이용한 컴퓨터이다. 명사구 분석기(32)는 제2도의 방법을 이용한 컴퓨터이다.

구문분석기 내에 있는 태거(31)과 분석기(32)의 출력이 C.H. Coker씨 등에게 허여된 미국특허 제3,704,345호의 제1도의 절대 강세 신호 발생기(18)에 대한 입력신호로 인가된다.

고려하고 있는 규칙의 예로서, Fudge book의 144-149페이지에 실린 부록 5.1에 주의를 돌려보면, 거기에는 명사구에 대한 규칙이 제시되고 있다.

다른 관점에서, 제3도의 실시태양의 동작은 Coker 특허의 제1도의 실시태양의 동작과 유사하다.

유사하게, 제4도의 실시태양에 있어서, 품사 태그(41)는 제1도에 도시된 것처럼 동작하며; 명사구 분석기(42)는 제2도에 도시된 것과 같은 작용을 한다.

그 경우에 있어서, 명사구와 품사 정보는 텍스트 편집 시스템(43)에 공급되는데, 이것은 F.R. Lange씨 등에 허여된 미국특허 제4,674,065호에 설명된 유형이다. 특히, 품사 태거(41)와 명사구 분석기(42)는 Lange씨 등의 특허에 있어 편집 화면 생성을 돕기 위한 품사 섹션(33)의 대용으로 제공된다. 제1도와 제2도에 도시된 본 발명 방법의 고유정확도는 선행 기술의 경우보다 유용한 편집 화면을 생성할 수 있다.

선택적으로, 텍스트 편집 시스템(43)은, 1981년 2월 L.L. Cherry씨 등이 쓴 Bell Telephone Laboratories, Incorporated.의 Computer Science Technical Report, No. 91의 Writing Tools-The STYLE Diction Programs에 기재된 Writer's Work bench^R시스템일수도 있다. 본 발명의 방법은 거기에 Parts로 명명된 방법과 대체될 수도 있을 것이다.

본 발명의 정신 및 범주를 벗어남 없이도 본 발명의 다양한 변경이 이루어 질 수 있음은 명백하다.

예를 들어, Fudge book의 강세 규칙을 이행하는 하나의 방법으로 Jonathan Allen씨 등이 쓴 Cambridge University Press, Cambrige(1987)의 From Text to Speech : The MIT Talk System. 특히, 제10장 The Fundamental Frequency Generator에 소개된 알고리즘이 될 수 있다. 또한, 어휘상의 확률은 보정에 의해 개선될 수도 있는 유일한 확률은 아니다. 또한 문맥상의 빈도는 Zipf's 법칙에 따르는 것처럼 보인다. 즉, 세 품사의 모든 순서열의 세트에 대해, 로그 페이퍼상에 그것의 열방향으로 순서열의 빈도를 기입했고, 전형적인 선형 관계 및 거의 -1의 기울기를 관찰했다. 보정 기법은 문맥상 빈도 선택에 잘 적용될 수 있음이 명확하다. 이것은 명사구 어휘분석에 사용된 선행확률에 대해서도 동일하다.

본 발명의 기법은 또한 음성인식과 같은 다른 응용에도 적절하다. 품사의 문맥상 확률이 인식이될 구어에 대해 보다 좋은 선택을 가능하게 할 수도 있다. 본 발명의 기법은, 또한, C.W. Thampson씨 등에게 허여되고 1987년 8월 18일 발행된 미국특허 제4,688,194호에 개시된 데이타베이스 질의시스템에 있어서 설명된 품사 태그화에 직접 대체될 수 있다. 본 발명의 기타 변형 및 응용도 또한 본 발명의 정신 및 범주내에 속한다.

[부록 A]

각 줄은 문장내(역순으로)의 한단어(토큰)에 해당한다. pos는 품사, lex_prob는 어휘상 확률이다.

품사의 최상 순서열 출력

new_active_paths : ={}; set of no paths

하나의 경로는 일련의 품사와 하나의 스코어에 대한 하나의 레코드이다. 변수 old_active_paths는 set of paths로 초기화되고, 그 경로는 가능치 1.0이고 일련의 비품사와 1.0의 가능스코어를 포함한다는 경로인 하나의 set of 1 paths로 초기화된다.

입력화일 :

출력파일 :

blank blank NN AT VB PPSS blank blank

old_active_parts : 의 추적

(차후로, 스코어들은 로그확률로 해석된다.)

단어 bird을 집행시킨 이후 old_active_paths는

단어 a을 집행시킨 이후 old_active_paths는

단어 see 이후

단어 I을 집행시킨 이후

범위밖의 단어에 대해서는 blank 품사로 가정하여 두 번 이상 검색을 계속한다.

결국,

Claims

메세지 내에 존재할 개연성이 있는 단어와 다양한 품사로서 상기 단어의 활용에 관한 데이타를 컴퓨터 시스템에 저장하는 저장단계와; 상기 컴퓨터의 처리수단을 이용하여, 메세지내의 적어도 이웃하는 단어에 대한 개연성 있는 품사에 응답하고 상기 저장된 데이타에 응답하여 메세지내의 각 단어에 대해 개연성 있는 품사를 선택하는 선택 단계를 포함하여 상기 메세지 내의 단어들에 대해 품사를 지정하는 자동화된 품사지정 방법에 있어서 : 상기 저장 단계가 (1) 상기 개연성 있는 단어 중에서 각기 하나의 단어가 품사로서 발생할 실제 확률(이하 어휘상 확률이라 함)과, (2) 각각의 상기 단어가 특정 품사인 단어와 이웃하여 특정 품사로서 발생할 실제 확률(이하, 문맥상 확률이라 함)에 관련하는 확률 데이타를 저장하는 단계를 포함하며, 상기 선택단계가 상기 메세지내의 각 단어에 대해 상기 단어에 대한 상기 저장된 어휘상 확률과 적어도 상기 이웃단어에 대한 저장된 문맥상 확률에 응답하며, Viterbi 최적화 기법으로 통상 알려진 유한 상태(finite-state) 최적화 기법에 의해 특정 품사의 확률이 되는 상기 각 단어의 전체 확률을 최적화하는 단계를 포함하는 것을 특징으로 하는 자동화된 품사지정 방법.
제1항에 있어서, 상기 자동화된 품사지정 방법이 상기 메세지 내의 쌍을 이루는 명사구의 시작 및 종료 경계를 지정하는 단계를 더 포함하며, 모든 개연성 있는 명사구 경계를 지정하는 단계와, 모든 쌍을 이루지 않는 명사구 경계를 제거하는 단계와, 문맥상 명사구 경계 확률을 최적화하는 단계를 포함하는 것을 특징으로 하는 자동화된 품사지정 방법.
제1항에 있어서, 상기 확률 데이타를 저장하는 단계가 개연성 없는 품사의 활용을 제거한 보정된 데이타를 저장하는 단계를 포함하며, 상기 선택단계가 어휘상 확률과 문맥상 확률의 곱을 결정하는 결정 단계와, 동일 단어에 대해 선행의 곱을 초과하는 곱을 유지하면서 다수의 가능한 품사조합에 대해 상기 결정 단계를 반복하는 반복 단계를 포함하며, 여기서, 어휘상 확률은 특정 품사로서 단어의 발생빈도를 모든 품사로서 그 단어의 발생빈도를 나눈 몫이며, 문맥상 확률은 트라이그램(trigram) 빈도를 바이그램(bigram) 빈도로 나누어 평가한 것이고, 여기서, 트라이그램 빈도는 두 개의 다음 단어에 대해 기결정된 그 다음 두 개의 품사가 순차적으로 따르는 특정 품사의 발생 빈도이며, 바이그램 빈도는 그 다음(next-following) 단어에 대해 기결정된 그 다음 순차적으로 따르는 다음 단어의 품사의 발생빈도인 자동화된 품사지정 방법.
일련의 단어를 포함하는 메세지에서 명사구의 시작과 종료 경계를 결정하는 자동화된 방법으로서, 상기 단어들간에 발생하는 명사구 경계 확률을 고려한 데이타를 컴퓨터 시스템에 저장하는 단계를 포함하며, 상기 컴퓨터 시스템의 처리수단에 의해 모든 가능한 명사구 경계를 지정하는 단계와; 문맥상의 명사구 경계 확률과 상기 저장된 데이타를 이용하여 상기 경계에 대한 최적 선택을 수행하는 선택 단계를 수행되는 것을 특징으로 하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.
제1항 또는 제4항에 있어서, 상기 가까운(near-by) 저장 단계가 단어들의 품사에 관하여 n-그램분석에 의해 상기 메세지 내의 품사를 지정하는 지정 단계를 포함하며, 상기 지정단계가 상기 메세지의 비언어적인 기록으로서 절대적으로 결정된 발생빈도를 가지는 단어로서 어떤 비단어들을 표시하는 단계와; 상기 비단어의 용도를 달리하는 문맥상 품사 확률에 관련하여, 상기 메세지 내의 서로 가까운 단어가 특정 품사로 될 정규화된 문맥상의 최적확률을 계산한 단계(여기에서, 상기 정규화된 문맥상의 확률은 트라이그램 품사 확률을 바이그램 품사 확률로 나눈 것으로, 이들 트라이그램 및 바이그램은 공란을 포함하는 문장의 끝에서 시작하여 결정된다)를 포함하는 것을 특징으로 하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.
제1항 또는 제3항에 있어서, 상기 저장단계가 (1) 문장 전후에서 발생하는 구두점 및 공란과 같은 비단어인 어떤 토큰(token) 중의 각기 하나가 발생할 실제 개연성(어휘상 개연성)과 다른 토큰에 인접하거나 특정 품사인 단어에 이웃하여 발생하는 상기 각 토큰 발생의 개연성에 관련한 확률 데이타를 저장하는 단계와; 단어인 경우, 토큰 처리 단계를 선택하는 단계를 포함하는 명사구의 시작과 종료를 결정하기 위한 자동화된 방법.