KR100835706B1 - System and method for korean morphological analysis for automatic indexing - Google Patents

System and method for korean morphological analysis for automatic indexing Download PDF

Info

Publication number
KR100835706B1
KR100835706B1 KR1020070068704A KR20070068704A KR100835706B1 KR 100835706 B1 KR100835706 B1 KR 100835706B1 KR 1020070068704 A KR1020070068704 A KR 1020070068704A KR 20070068704 A KR20070068704 A KR 20070068704A KR 100835706 B1 KR100835706 B1 KR 100835706B1
Authority
KR
South Korea
Prior art keywords
analysis
index
dictionary
word
korean
Prior art date
Application number
KR1020070068704A
Other languages
Korean (ko)
Inventor
최성필
조민희
서정현
김진숙
최윤수
진두석
이민호
김광영
정창후
윤화묵
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020070068704A priority Critical patent/KR100835706B1/en
Application granted granted Critical
Publication of KR100835706B1 publication Critical patent/KR100835706B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

A system and a method for analyzing morphemes of Hangul for automatic indexing are provided to index a large size of data automatically and efficiently to maximize a word analysis speed, and modularize and structure a morpheme analyzer. A dictionary manager(100) manages an analysis dictionary by managing a dictionary database. A morpheme analyzer(200) performs a morpheme analysis by receiving an analysis dictionary management result, and modularizing more than one of uninflected word, inflected word, numeric word, non-registration, independent word, and morpheme analyses. An index provider(300) provides an index by receiving a morpheme analysis result from the morpheme analyzer. The dictionary manager manages more than one of a part-of-speech dictionary, a functionality dictionary, and a form morpheme dictionary as the analysis database. The morpheme analyzer includes an uninflected word analyzing module(210), an inflected word analyzing module(220), a numeric word analyzing module(230), a non-registration analyzing module(240), an independent word analyzing module(250), and a type morpheme analyzing module(260).

Description

자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법{System and method for korean morphological analysis for automatic indexing}Korean morphological analysis system for automatic indexing and its method {System and method for korean morphological analysis for automatic indexing}

본 발명은 한국어 형태소 분석에 관한 것으로, 특히 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하기에 적당하도록 한 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체에 관한 것이다.The present invention relates to Korean morpheme analysis, and in particular, a Korean morpheme analysis system for automatic indexing, which is suitable for efficiently performing an automatic index for a large amount of data so as to maximize the speed of word analysis, and to modularize and structure the morpheme analyzer. And a program for executing the method and the method are recorded.

일반적으로 최근 들어 다양한 형태소 분석 시스템이 개발되어 활용되고 있으며, 실제로 많은 분야에 적용하기 위하여 독특한 자료구조와 알고리즘이 적용되고 있다.In general, various morphological analysis systems have been developed and utilized in recent years, and unique data structures and algorithms have been applied for practical application in many fields.

자연어처리 시스템, 특히 한국어 처리 시스템의 가장 중요한 요소는 언어의 유연한 확장성이나 생성 현상, 혹은 신조어나 고유명사, 전문용어들에 대한 시스템의 유연성과 확장성이다.The most important element of natural language processing system, especially Korean language processing system, is the flexibility and extensibility of language, or the flexibility and extensibility of new words, proper nouns, and terminology.

형태소 분석 시스템은 우선, 시스템 개발자 측면에서는 어절 분석 요소들이 전체 시스템의 성능에 직접적인 영향을 주기 때문에 좀 더 쉽고 효율적인 방법으로 분석 시스템 자체를 변경하고 성능향상을 도모할 수 있어야 한다.First of all, stemming analysis system should be able to change the analysis system itself and improve performance in an easier and more efficient way because the word analysis factors directly affect the performance of the whole system.

또한 시스템 관리자 측면에서 형태소 분석 시스템은 사전 엔트리를 보다 효율적으로 관리하고 사용자 정의 사전에 대한 다양한 처리를 기반으로 새로운 언어 현상에 능동적으로 대처할 수 있어야 한다.In addition, from the system administrator's perspective, stemming systems need to be able to manage dictionary entries more efficiently and actively cope with new language phenomena based on various processing of user-defined dictionaries.

대부분의 종래 시스템들은 구조의 복잡성, 혹은 어절 생성 현상에 부적절한 알고리즘이나 자료구조로 인해 변경이나 업데이트가 불가능한 문제점이 있었다.Most conventional systems have a problem that changes or updates are impossible due to the complexity of the structure or algorithms or data structures that are inappropriate for word generation.

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있는 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체를 제공하는데 있다.Accordingly, the present invention has been proposed to solve the above-mentioned conventional problems, and an object of the present invention is to efficiently perform an automatic index for a large amount of data in order to maximize the rate of word analysis, modularize and structure the morpheme analyzer. To provide a computer-readable recording medium characterized in that a Korean morpheme analysis system for automatic indexing and a program for executing the method and method are recorded.

도 1은 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 시스템의 블록구성도이다.1 is a block diagram of a Korean morpheme analysis system for automatic indexing according to an embodiment of the present invention.

이에 도시된 바와 같이, 사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부(100)와; 상기 사전 관리부(100)에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부(200)와; 상기 형태소 분석부(200)에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부(300);를 포함하여 구성된 것을 특징으로 한다.As shown therein, a dictionary manager 100 for managing a dictionary database to manage an analysis dictionary; A morpheme analysis unit which receives the analysis pre-management result from the dictionary management unit 100 and modulates one or more analysis among the telegram analysis, the verbal sentence, the rhetoric analysis, the unregistered analysis, the independent language analysis, and the morphological analysis for each type to perform morphological analysis ( 200); And an index provider 300 that receives an morphological analysis result from the morpheme analysis unit 200 and provides an index.

상기 사전 관리부(100)는, 품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 한다.The dictionary manager 100 manages one or more dictionaries among a part-of-speech dictionary, a functional dictionary including a ending and a survey, and a formal morpheme dictionary as an analysis dictionary.

상기 사전 관리부(100)는, 사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 한다.The dictionary manager 100 may generate a dictionary file image and perform dictionary search, insertion, deletion, and change.

상기 사전 관리부(100)는, 일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 한다.The dictionary manager 100 may include a general dictionary search, a search dictionary search, and a parent dictionary search.

상기 형태소 분석부(200)는, 도 1 및 도 4에 도시된 바와 같이, 명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 모듈(210)과; 동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 모듈(220)과; 수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 모듈(230)과; 형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 모듈(240)과; 독립어, 관형사를 분석하는 독립언 분석 모듈(250)과; 특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 분석부(260);를 포함하여 구성된 것을 특징으로 한다.The morpheme analysis unit 200, as shown in Figures 1 and 4, a noun analysis module 210 for performing a noun equivalent phrase analysis and compound noun analysis; Verb analysis module 220 for performing verb, adjective analysis, and ending analysis; An investigation analysis module 230 for performing investigation of the investigation constraint rules and investigation structure; An unregistered word analysis module 240 for performing a morphological preliminary test and a real-type boundary diagram inspection; An independent language analysis module 250 for analyzing the independent language and the adjective; And a morpheme analysis unit 260 for performing a specific positional analysis, a single word analysis, and a buffer analysis.

상기 체언 분석 모듈(210)은, 조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용언화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 한다.The message analysis module 210 is characterized by performing a search dictionary search and constraint check, suffix analysis, verbal affix processing, "ida" processing, compound noun processing.

상기 체언 분석 모듈(210)은, 도 15에 도시된 바와 같이, 체언류 품사를 탐색하는 사전 탐색부(211)와; 상기 사전 탐색부(211)의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 모듈(212)과; 상기 접미사 분석 모듈(212)의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 모듈(213)과; 상기 접미사 분석 모듈(212)의 결과를 전달받고, 축약형 특수처리와 불규칙 처리를 수행하는 동-형 접사 분석 모듈(214)과; 상기 접미사 분석 모듈(212), 상기 '이다' 분석 모듈(213), 상기 동-형 접사 분석 모듈(214)의 결과를 전달받고, 조사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 모듈(215)과; 상기 '이다' 분석 모듈(213), 상기 동-형 접사 분석 모듈(214)의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 모듈(216)과; 상기 접미사 분석 모듈(212), 상기 '이다' 분석 모듈(213), 상기 동-형 접사 분석 모듈(214), 상기 조사 분석 모듈(215), 상기 어미 분석 모듈(216)의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 모듈(217);을 포함하여 구성된 것을 특징으로 한다.The message analysis module 210 may include a dictionary search unit 211 for searching for a speech part-of-speech as illustrated in FIG. 15; A suffix analysis module 212 that receives the results of the dictionary search unit 211, performs a suffix dictionary search, and performs special processing on 'and', 'only', and 'only'; An 'ida' analysis module 213 that receives the results of the suffix analysis module 212 and performs special processing on the 'yi', 'was', and 'da' patterns; A suffix analysis module 214 that receives the results of the suffix analysis module 212 and performs abbreviated special processing and irregular processing; Survey analysis module 215 that receives the results of the suffix analysis module 212, the 'ida' analysis module 213, and the same-type affix analysis module 214, and performs a survey pre-search and survey constraint checking. )and; A mother analysis module (216) for receiving the results of the 'ida' analysis module (213) and the same-type macro analysis module (214) and performing a context shift; Receiving the results of the suffix analysis module 212, the 'ida' analysis module 213, the same-type affix analysis module 214, the survey analysis module 215, and the mother analysis module 216, And a compound noun analysis module 217 for performing element noun discrimination and performing a suffix, 'ida', a verb / adjective, and a survey analysis.

상기 복합명사 분석 모듈(217)은, 도 17에 도시된 바와 같이, 접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 한다.As shown in FIG. 17, the compound noun analysis module 217 assumes that nouns with suffixes cannot be element nouns of compound nouns and that nouns composed of single letters cannot be partial nouns of compound nouns. It is characterized by performing analysis on compound nouns with hypothesis 2.

상기 복합명사 분석 모듈(217)은, 도 18에 도시된 바와 같이, 남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 한다.As shown in FIG. 18, the compound noun analysis module 217 extracts two or more syllable nouns by performing a pre-search at all positions of the remaining analysis word, and extracts two or more syllable nouns from the current analysis word for the extracted two-syllable noun. It consists of a vertex of the dictionary information along with the location of the, and the list of nouns generated by checking each noun position and length in the vertex thus constructed, and stores it in a matrix.

상기 용언 분석 모듈(220)은, "아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 한다.The term analysis module 220 is characterized by performing the "ah / o" abbreviated variant processing, the mediation collection "U" insertion processing, "ㅏ / ㅐ" variant circular restoration processing, irregular conjugation form processing, mother analysis .

상기 용언 분석 모듈(220)은, 도 20에 도시된 바와 같이, 용언류 품사를 탐색하는 사전 탐색부(221)와; 상기 사전 탐색부(221)의 결과를 전달받고, '으' 처리와 생략된 '아' 처리를 수행하는 매개모음 분석부(222)와; 상기 사전 탐색부(221)의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리부(223)와; 상기 매개모음 분석부(222)와 상기 불규칙 용언 특수 처리부(223)의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석부(224)와; 상기 보조용언 분석부(224)의 결과를 전달받고, 보조용언으로 시작하는 형식형태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석부(225)와; 상기 보조용언 분석부(224)의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석부(226);를 포함하여 구성된 것을 특징으로 한다.As shown in FIG. 20, the verb analysis module 220 includes a dictionary search unit 221 for searching a verb part-of-speech; An intermediate collection analyzer 222 that receives the result of the dictionary search unit 221 and performs a 'U' process and an omitted 'A' process; An irregular verb special processing unit 223 which receives the result of the preliminary searching unit 221 and performs deformation and restoration for each irregularity; The auxiliary verb analysis unit 224 receives the results of the intermediate collection analyzer 222 and the irregular verb special processing unit 223, and performs a combined auxiliary verb dictionary search, constraint checking, and random variation processing of the auxiliary verb. Wow; An auxiliary verb mode analysis unit 225 for receiving a result of the auxiliary verb analyzing unit 224 and performing verbal analysis in an auxiliary verb mode for analyzing formal morphemes starting with an auxiliary verb; The general mode analysis unit 226 receives the result of the auxiliary verb analysis unit 224 and performs a verbal analysis in a general mode in which formal morphemes start from a word ending ending.

상기 보조용언 모드 분석부(225) 또는 상기 일반 모드 분석부(226)는 각각, 상기 보조용언 분석부(224)의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석부와; 상기 선어말 어미 분석부의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사부와; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되 면 문맥 이동을 수행하는 조사 사전 탐색부와; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색부;를 포함하여 구성된 것을 특징으로 한다.The auxiliary language mode analysis unit 225 or the general mode analysis unit 226 receives a result of the auxiliary language analysis unit 224, respectively, and performs a word ending dictionary search, constraint checking, and mediation analysis. A mother analyzer; A noun type malleable inspection unit which receives the result of the front end ending analysis unit and examines a pattern of 'ㅁ', 'negative', and 'gi'; An investigation dictionary search unit for performing a context shift when a 'ㅁ', 'neg', and 'gi' pattern is detected according to a test result of the noun-type malleable checker; And a mother dictionary search unit for searching the mother dictionary if the 'ㅁ', 'sound', and 'gi' patterns are not detected according to the test result of the noun-type malleable mother checker.

상기 수사 분석 모듈(230)은, 수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 한다.The rhetorical analysis module 230 performs rhetorical pattern inspection, unit noun analysis, and tail morphological analysis.

상기 미등록어 분석 모듈(240)은, 고빈도 조사 검사, 형식 형태소 패턴 검사를 수행하는 것을 특징으로 한다.The non-registered word analysis module 240 is characterized by performing a high frequency survey test, a formal morpheme pattern test.

상기 색인 제공부(300)는, 도 29에 도시된 바와 같이, 상용조합형, UTF(UCS transformation format)-8, UCS(Universal Character Set)-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환부(310)와; 색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리부(320)와; 한글-한자 상호 변환을 수행하는 한글-한자 변환부(330)와; 입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리부(340)와; 불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리부(350)와; 영어 스태밍 기능을 수행하는 영어 스태밍 모듈(360);을 포함하여 구성된 것을 특징으로 한다.As illustrated in FIG. 29, the index providing unit 300 performs Unicode conversion for commercial combination type, UTF (UCS transformation format) -8, Universal Character Set (UCS) -2, UCS-4, and completion type. Unicode conversion unit 310 and; A result processor 320 for designating an index word position and type, and managing a result buffer; A Hangul-Hanja conversion unit 330 for performing Hangul-Hanja conversion; A word separation manager 340 which performs Korean, English, and Japanese detection to separate input words, and performs special processing of sentence encoding unit symbols; Section-specific stopwords management unit 350 for inserting / deleting stopwords and searching; It is characterized in that the configuration, including; English stamming module 360 for performing the English stemming function.

상기 색인 제공부(300)는, 도 29 및 도 30에 도시된 바와 같이, 문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 한다.29 and 30, the index providing unit 300, INDEX_AS_IS extracts the entire contents or values of a section from a document as one index word, and extracts the entire contents of a section from the document as an index word. INDEX_AS_IS_MA, which consists of numbers, which distinguishes the minimum morphological units of nouns, surveys, suffixes, verbs, and adjectives, and extracts simple nouns that can represent the contents of the section by performing morphological analysis on each word of the text. INDEX_AS_NUMERIC, which extracts index words for sections, one syllable in English for basic sections, two indexes for Korean for extracts, and INDEX_BY_CHAR for extracting index words. A simple noun that can represent the contents of a section after separating minimal morphological units such as, suffixes, verbs, and adjectives It is characterized by providing one or more index types from INDEX_BY_MA, which extracts stems by processing regular plurals and verb tense changes, and INDEX_BY_TOKEN, which selects index words from words or words in sections. .

한편 도 2는 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 방법을 보인 흐름도이다.2 is a flowchart illustrating a method of analyzing Korean morphemes for automatic indexing according to an embodiment of the present invention.

이에 도시된 바와 같이, 사전 데이터베이스를 관리하여 분석 사전을 관리하는 제 1 단계(ST1)와; 상기 제 1 단계에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 제 2 단계(ST2)와; 상기 제 2 단계에서의 형태소 분석 결과를 전달받고 색인을 제공하는 제 3 단계(ST3);를 포함하여 수행하는 것을 특징으로 한다.As shown therein, a first step ST1 for managing an analysis dictionary by managing a dictionary database; A second step (ST2) of receiving a result of analysis preliminary management in the first step and performing a morphological analysis by modularizing one or more of the following analysis: message analysis, verbal analysis, rhetoric analysis, unregistered analysis, independent language analysis, and morphological analysis by type Wow; And a third step (ST3) of receiving the result of the morphological analysis in the second step and providing an index.

상기 제 1 단계는, 품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 한다.The first step is characterized by managing one or more dictionaries from a part-of-speech dictionary, a functional dictionary including endings and surveys, and a formal morpheme dictionary as an analysis dictionary.

상기 제 1 단계는, 사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 한다.In the first step, the dictionary file image is generated, and the dictionary search, insertion, deletion, and change are performed.

상기 제 1 단계는, 일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 한다.The first step may be performed including a general dictionary search, a search dictionary search, and a parent dictionary search.

상기 제 2 단계는, 도 4에 도시된 바와 같이, 명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 단계와; 동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 단계와; 수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 단계와; 형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 단계와; 독립어, 관형사를 분석하는 독립언 분석 단계와; 특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 단계;를 포함하여 수행하는 것을 특징으로 한다.The second step may include a message analysis step of performing a noun equivalent phrase analysis and a compound noun analysis, as shown in FIG. 4; Verbal analysis step of performing verb, adjective and ending analysis; An investigation analysis step of conducting an investigation constraint investigation and an investigation structure analysis; A non-registered word analysis step of performing a morphological preliminary test and a real-type boundary diagram check; An independent language analysis step of analyzing the independent language and the adjective; And a morphological step for each type of performing a specific positional analysis, a single word analysis, and a buffer analysis.

상기 체언 분석 단계는, 조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용언화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 한다.The message analysis step is characterized by performing a search dictionary search and constraint check, suffix analysis, verbal affix processing, "is" processing, compound noun processing.

상기 체언 분석 단계는, 도 15에 도시된 바와 같이, 체언류 품사를 탐색하는 사전 탐색 단계와; 상기 사전 탐색 단계의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 단계와; 상기 접미사 분석 단계의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 단계와; 상기 접미사 분석 단계의 결과를 전달받고, 축약형 특수처리와 불규칙 처리를 수행하는 동-형 접사 분석 단계와; 상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 조 사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 단계와; 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 단계와; 상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계, 상기 조사 분석 단계, 상기 어미 분석 단계의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 단계;를 포함하여 수행하는 것을 특징으로 한다.The message analysis step may include a pre-search step of searching for a spoken part-of-speech as shown in FIG. 15; A suffix analysis step of receiving a result of the dictionary search step, performing a suffix dictionary search, and performing special processing on 'and', 'only', and 'only'; An 'ida' analysis step of receiving the result of the suffix analysis step and performing special processing on the 'yi', 'was' and 'da' patterns; Receiving a result of the suffix analysis step, and performing an abbreviated special process and an irregular process; A survey analysis step of receiving the results of the suffix analysis step, the 'ida' analysis step, and the homo-suffix analysis step, and performing an investigation dictionary search and a survey constraint check; A mother analysis step of receiving a result of the 'ida' analysis step and the homo-type macro analysis step and performing a context shift; Receive the results of the suffix analysis step, the 'ida' analysis step, the isotype affix analysis step, the survey analysis step, the ending analysis step, performs element noun determination, the suffix, 'is', And a compound noun analysis step of performing an adjective and an investigation analysis.

상기 복합명사 분석 단계는, 도 17에 도시된 바와 같이, 접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 한다.In the compound noun analysis step, as shown in FIG. 17, the assumption 1 that a noun with a suffix cannot be an element noun of a compound noun and the assumption 2 that a noun composed of a single letter cannot be a partial noun of a compound noun And analyzing the compound nouns.

상기 복합명사 분석 단계는, 도 18에 도시된 바와 같이, 남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 한다.The compound noun analysis step, as shown in Figure 18, by performing a pre-search in all the positions of the remaining analysis words to extract two or more syllable nouns, and the position in the current analysis word for the extracted two-syllable nouns and Together, the dictionary information is composed of one vertex, and the list of nouns generated by checking each noun position and length in the vertices thus constructed is stored in a matrix.

상기 용언 분석 단계는, "아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 한다.The verb analysis step is characterized by performing a "a / h" abbreviated variant processing, an intermediary "o" insertion process, a "ㅏ / ㅐ" variant circular restoration process, an irregular conjugation form process, and a mother analysis.

상기 용언 분석 단계는, 도 20에 도시된 바와 같이, 용언류 품사를 탐색하는 사전 탐색 단계와; 상기 사전 탐색 단계의 결과를 전달받고, '으' 처리와 생략된 ' 아' 처리를 수행하는 매개모음 분석 단계와; 상기 사전 탐색 단계의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리 단계와; 상기 매개모음 분석 단계와 상기 불규칙 용언 특수 처리 단계의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석 단계와; 상기 보조용언 분석 단계의 결과를 전달받고, 보조용언으로 시작하는 형식형태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석 단계와; 상기 보조용언 분석 단계의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석 단계;를 포함하여 수행하는 것을 특징으로 한다.The verb analysis step may include a dictionary search step of searching for a verb part-of-speech as illustrated in FIG. 20; Receiving a result of the preliminary search step, and performing an intermediate collection analysis step of performing a 'h' process and a 'h' process omitted; An irregular verb special processing step of receiving a result of the pre-search step and performing deformation and restoration for each irregularity; An auxiliary verb analysis step of receiving the results of the intermediate collection analysis step and the irregular verb special processing step, and performing a combined auxiliary verb dictionary search, constraint checking, and random variation processing of the auxiliary verb; An auxiliary verb mode analysis step of receiving a result of the auxiliary verb analysis step, and performing verb analysis in an auxiliary verb mode for analyzing formal morphemes starting with the auxiliary verb; And receiving a result of the auxiliary verb analysis step, and performing a verbal analysis in a general mode in which a formal morpheme starts from a word ending ending.

상기 보조용언 모드 분석 단계 또는 상기 일반 모드 분석 단계는 각각, 상기 보조용언 분석 단계의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석 단계와; 상기 선어말 어미 분석 단계의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사 단계와; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되면 문맥 이동을 수행하는 조사 사전 탐색 단계와; 상기 명사형 전성어미 검사 단계의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색 단계;를 포함하여 수행하는 것을 특징으로 한다.The auxiliary verb mode analysis step or the general mode analysis step may include: a final word analysis step of receiving a result of the auxiliary verb analysis step to perform dictionary ending search, constraint checking, and intermediate vowel analysis; A noun-type prime ending test step of receiving a result of the step-end ending analysis step and examining a pattern of 'ㅁ', 'neg', and 'gi'; An investigation dictionary search step of performing a context shift when a 'ㅁ', 'neg', and 'gi' pattern is detected according to a test result of the noun-like malleable checker; And a mother dictionary search step of searching for a mother dictionary if the 'ㅁ', 'sound', and 'gi' patterns are not detected according to the test result of the noun-like prime ending test step.

상기 수사 분석 단계는, 수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 한다.The rhetorical analysis step is characterized by performing a rhetorical pattern check, unit noun analysis, tail morpheme analysis.

상기 미등록어 분석 단계는, 고빈도 조사 검사, 형식 형태소 패턴 검사를 수 행하는 것을 특징으로 한다.The non-registered word analysis step is characterized by performing a high frequency investigation test, a formal morpheme pattern test.

상기 제 3 단계는, 도 29에 도시된 바와 같이, 상용조합형, UTF-8, UCS-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환 단계와; 색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리 단계와; 한글-한자 상호 변환을 수행하는 한글-한자 변환 단계와; 입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리 단계와; 불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리 단계와; 영어 스태밍 기능을 수행하는 영어 스태밍 단계;를 포함하여 수행하는 것을 특징으로 한다.The third step may include: a Unicode conversion step of performing Unicode conversion for a commercial combination type, UTF-8, UCS-2, UCS-4, and completion type; A result processing step of designating an index word location and type, and managing a result buffer; A Hangul-Hanja conversion step of performing Hangul-Hanja conversion; A phrase separation management step of performing Korean, English, and Japanese detection for the separation of input words, and performing a special processing of a sentence encoding unit code; Section-specific stopwords management step of inserting / deleting stopwords dictionary and searching; It is characterized by performing, including; English stamming step of performing an English stamming function.

상기 제 3 단계는, 도 29 및 도 30에 도시된 바와 같이, 문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내 의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 한다.In the third step, as shown in FIGS. 29 and 30, INDEX_AS_IS extracts the entire contents or values of a section from a document as one index word, and extracts the entire contents of a section from the document as an index word and simultaneously extracts the entire Korean text. For the basic section consisting of numbers and INDEX_AS_IS_MA, which extracts simple nouns that can represent the contents of a section as index terms after distinguishing the minimum morphological units such as nouns, investigations, suffixes, verbs, and adjectives INDEX_AS_NUMERIC, which extracts index words, INDEX_BY_CHAR, which generates index words by extracting one syllable in English and two syllables in Korean, and morpheme analysis of each word in Korean text. After identifying the smallest morphological units such as verbs and adjectives, index simple nouns that can represent the contents of the section. In the case of English, one or more index types are provided among INDEX_BY_MA, which extracts stems by processing regular plurals and verb tense changes, and INDEX_BY_TOKEN, which selects index words among words or words in a section. .

본 발명에 의한 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체는 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있는 효과가 있게 된다.A computer readable recording medium for recording the Korean morphological analysis system for automatic indexing and the method and method for executing the method according to the present invention is characterized by maximizing the word analysis speed, modularization and structure of the morphological analyzer. This makes it possible to efficiently perform automatic indexing of large amounts of data.

이와 같이 구성된 본 발명에 의한 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.On the basis of the accompanying drawings a preferred embodiment of a computer-readable recording medium characterized in that the Korean morpheme analysis system for automatic indexing and the method and method for executing the method are recorded. It will be described in detail as follows. In the following description of the present invention, detailed descriptions of well-known functions or configurations will be omitted if it is determined that the detailed description of the present invention may unnecessarily obscure the subject matter of the present invention. In addition, terms to be described below are terms defined in consideration of functions in the present invention, which may vary according to intention or precedent of a user or an operator, and thus, the meaning of each term should be interpreted based on the contents throughout the present specification. will be.

먼저 본 발명은 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하고자 한 것이다.First, the present invention aims to efficiently perform an automatic index for a large amount of data in order to maximize the rate of word analysis, modularize and structure the morpheme analyzer.

종래의 시스템들은 구조의 복잡성, 혹은 어절 생성 현상에 부적절한 알고리즘이나 자료구조로 인해 변경이나 업데이트가 불가능한 문제점이 있었다. 따라서 이러한 문제점들을 해결하기 위해서 본 발명에서는 한국어 어절 생성 규칙을 적용한 형태소 분석 자료구조 및 알고리즘을 개발하고, 이를 쉽게 변경하고 관리할 수 있는 시스템 구조로 구현하였으며, 분석 속도를 높이기 위한 다양한 최적화 알고리즘을 효과적으로 적용하였다.Conventional systems have a problem that cannot be changed or updated due to the complexity of the structure or algorithms or data structures that are inappropriate for word generation. Therefore, in order to solve these problems, the present invention has developed a morphological analysis data structure and algorithm applying Korean word generation rules, implemented a system structure that can be easily changed and managed, and effectively implements various optimization algorithms to increase the analysis speed. Applied.

형태소 분석 수준에서는 많은 유능한 연구자들에 의해서 다양한 분석 기법과 아이디어가 많이 개발되어 있다. 문제는 이러한 효과적인 기법들이 어떻게 유기적으로 결합되느냐이다. 본 발명의 목적은 이런 기법들의 적용과 결합에 있다. 예를 들어, 어절 분석에는 최장일치에 기반한 좌-우 분석과 규칙 패턴과 사전에 기반한 우-좌 분석이 존재한다. 좌-우 분석은 한국어 어절의 생성 오토마타의 순서를 그대로 적용하므로 구현이나 관리에 편리하다. 우-좌 분석은 형식형태소를 우선적으로 분석함으로써 사전 탐색 회수를 줄일 수 있고 미등록어에 대한 방어 능력을 강화할 수 있다. 따라서 이 두 가지 기법을 하나로 결합하면 두 기법들의 장점을 동시에 얻을 수 있다. 본 발명에서 개발된 시스템은 이러한 유용한 기법들의 결합과 시스템의 튜닝 및 관리를 위한 디자인 및 구현, 그리고 형태소 분석기가 수행해야 하는 필수적인 기능들을 모두 구현하고 이를 결합하는 형태로 개발되었다.At the morphological level, many competent researchers have developed a variety of analytical techniques and ideas. The question is how these effective techniques combine organically. The object of the present invention is to combine and apply these techniques. For example, word analysis includes left-right analysis based on longest match and right-left analysis based on rule patterns and dictionaries. The left-right analysis applies the order of generation automata of Korean word so that it is convenient to implement or manage. Right-left analysis can reduce the number of prior searches and strengthen the defense against unregistered words by first analyzing the morphemes. Therefore, combining these two techniques into one gives the benefits of both techniques simultaneously. The system developed in the present invention was developed in the form of combining all the useful techniques, design and implementation for tuning and managing the system, and implementing and combining all the essential functions that the morphological analyzer should perform.

한편, 형태소 분석 기술은 다음과 같은 특징을 가지고 있어야 한다.On the other hand, morphological analysis techniques should have the following characteristics.

첫째, 대용량 입력 문서를 빠른 시간 내에 정보 검색 시스템에 적재할 수 있도록 어절 분석 속도를 최대화가 가능한 기술이 포함되어야 한다.First, technology to maximize word analysis speed should be included so that large input documents can be loaded into information retrieval system in a short time.

둘째, 전체 시스템 구조가 효율적으로 구성된 정보 검색 시스템의 하부 엔진으로 포함되기 위해서는 형태소 분석 모듈 또한 자체적으로 모듈화와 구조화가 이루어져야 한다. 이는 대부분의 자연어 처리 시스템의 문제점 가운데 하나로써 복잡한 시스템 구조로 인한 시스템 관리나 응용의 어려움을 최소화하여 전체 정보 검색 시스템의 확장성을 도모한다는 차원에서 의미가 있다.Second, the stemming module must also be modularized and structured in order for the entire system structure to be included as a sub-engine of an efficient information retrieval system. This is one of the problems of most natural language processing systems. It is meaningful in that it aims to expand the overall information retrieval system by minimizing the difficulty of system management or application due to the complex system structure.

셋째, 형태소에 대한 정확한 분석을 위해서는 한국어 어절 분석 오토마타에 나타나는 모든 필요한 분석 아이템에 대해 정확한 분석 방법을 제시하고 이를 효율적으로 처리할 수 있어야 한다. 예를 들어, 대부분의 시스템이 용언 분석 과정에서 선어말어미나 어말어미처리, 규칙, 불규칙처리 방법론에 대해서는 강조하는 반면, 보조용언이나 아/어 변이체 처리, 수사 처리 등에 대해서는 적절한 시스템 구현 방법이나 규칙을 기술하지 않고 있다. 이것은 전체 시스템의 성능에 크게 영향을 주지 않을 수도 있으나 시스템의 확장성이나 보다 정확한 어절 분석을 위한 요소 기능으로 매우 중요한 부분이다.Third, for accurate analysis of morphemes, it is necessary to present an accurate analysis method for all necessary analysis items appearing in Korean word analysis automata and to process them efficiently. For example, while most systems emphasize preword endings, endings, rules, and irregular processing methodologies during verbal analysis, they use appropriate system implementation methods or rules for supplementary verbs, word / mutant processing, and rhetorical processing. It is not described. This may not significantly affect the performance of the entire system, but it is very important as a function of the scalability of the system or a factor for more accurate word analysis.

도 1은 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 시스템의 블록구성도이다.1 is a block diagram of a Korean morpheme analysis system for automatic indexing according to an embodiment of the present invention.

그래서 본 발명은 사전 관리부(100), 형태소 분석부(200), 색인 제공부(300) 로 구성할 수 있다.Thus, the present invention can be configured by the dictionary management unit 100, morpheme analysis unit 200, index providing unit 300.

사전 관리부(100)는 사전 데이터베이스를 관리하여 분석 사전을 관리한다.The dictionary manager 100 manages the dictionary database to manage the analysis dictionary.

형태소 분석부(200)는 사전 관리부(100)에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행한다.The morpheme analysis unit 200 receives the analysis pre-management result from the dictionary management unit 100, and modulates morphological analysis by modularizing one or more analysis among message analysis, verbal sentence, rhetoric analysis, unregistered analysis, independent language analysis, and morphological analysis by type. To perform.

이러한 형태소 분석부(200)는 체언 분석 모듈(210), 용언 분석 모듈(220), 수사 분석 모듈(230), 미등록어 분석 모듈(240), 독립언 분석 모듈(250), 유형별 형태소 분석부(260)로 구성할 수 있다. 그래서 체언 분석 모듈(210)은 명사 상당어구 분석과 복합명사 분석을 수행하고, 용언 분석 모듈(220)은 동사, 형용사 분석과 어미 분석을 수행하며, 수사 분석 모듈(230)은 수사제약규칙 검사와 수사구조 분석을 수행하고, 미등록어 분석 모듈(240)은 형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하며, 독립언 분석 모듈(250)은 독립어, 관형사를 분석하고, 유형별 형태소 분석부(260)는 특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행한다.The morpheme analysis unit 200 may be a message analysis module 210, a verb analysis module 220, a rhetorical analysis module 230, a non-registered word analysis module 240, an independent language analysis module 250, and a morphological analysis unit 260 for each type. ) Can be configured. So the message analysis module 210 performs a noun equivalent phrase analysis and compound noun analysis, the verb analysis module 220 performs a verb, adjective analysis and ending analysis, and the rhetorical analysis module 230 checks the investigation constraints and Investigating the structure of the investigation, the non-registered word analysis module 240 performs a formal morpheme preliminary test and a real-type boundary diagram inspection, and the independent language analysis module 250 analyzes the independent words and the tubular history, and the morphological analysis unit by type 260. ) Performs specific location analysis, single word analysis, and buffer analysis.

색인 제공부(300)는 형태소 분석부(200)에서의 형태소 분석 결과를 전달받고 색인을 제공한다.The index provider 300 receives the result of the morpheme analysis from the morpheme analyzer 200 and provides the index.

도 2는 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 방법을 보인 흐름도이다.2 is a flowchart illustrating a method of analyzing Korean morphemes for automatic indexing according to an embodiment of the present invention.

그래서 제 1 단계(ST1)에서는 사전 데이터베이스를 관리하여 분석 사전을 관리하고, 제 2 단계(ST2)에서는 제 1 단계에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하며, 제 3 단계(ST3)에서는 제 2 단계에서의 형태소 분석 결과를 전달받고 색인을 제공한다.Therefore, in the first step ST1, the dictionary management is managed by managing the dictionary database, and in the second step ST2, the analysis dictionary management result is received in the first step, and the message analysis, the verbal sentence, the rhetoric analysis, the unregistered analysis are performed. In the third step (ST3), the result of the morphological analysis is received and an index is provided by modularizing one or more analysis among independent language analysis and morphological analysis by type.

도 3은 본 발명에서 형태소 분석 시스템의 필수 요구사항을 보인 표이다.Figure 3 is a table showing the essential requirements of the morphological analysis system in the present invention.

큰 규모의 언어처리 시스템과 정보 검색 시스템의 기반 시스템으로의 역할을 충실히 수행하기 위해서 본 발명에서는 기본적인 언어학적 분석 외에 다음과 같은 요구사항을 정의하고 이러한 다양한 요구사항에 적절히 대처할 수 있는 시스템을 개발하려고 하였다.In order to faithfully serve as a foundation system of large-scale linguistic processing system and information retrieval system, the present invention defines the following requirements in addition to basic linguistic analysis and develops a system capable of appropriately coping with these various requirements. It was.

즉, 사전에서는 어절 분석 속도를 높이기 위하여 품사 사전의 구조화와 탐색 방법, 또한 이를 위한 다양한 접근 방법에 대한 평가를 통해 최적의 알고리즘이 구현되어야 한다. 또한 모듈화에서는 전체적인 시스템 구조를 디자인함에 있어서 모듈화된 하부 시스템이 유기적으로 결합되어야 하고 모듈별로 차별화된 검증 및 평가가 가능해야 한다. 또한 복합명사에서는 대부분의 형태소 분석 시스템에서 적용하고 있는 재귀적 복합명사 분석을 탈피하여 빈번한 재귀적 호출에 따른 시스템 부하를 줄이고 확장성을 도모할 수 있어야 한다. 또한 수사에서는 한국어 어절의 상당부분을 차지하고 있는 수사 분석이 가능해야 한다. 또한 미등록어에서는 형태소 분석에 실패한 어절들에 대한 적절한 미등록어 형태소 추정이 가능해야 한다.In other words, in order to speed up word analysis, the optimal algorithm should be implemented through evaluating the structure and search method of the part-of-speech dictionary and various approaches for this. In modularization, modular sub-systems must be organically combined in the design of the overall system structure, and differentiated verification and evaluation by module must be possible. In addition, compound nouns should avoid the recursive compound noun analysis applied in most morphological systems and reduce the system load due to frequent recursive invocations and promote scalability. In addition, the investigation should be able to analyze the investigation, which takes up a large part of the Korean word. In addition, in the case of unregistered words, proper morpheme estimation of unregistered words should be possible for words that have failed morphological analysis.

도 4는 본 발명에서 형태소 분석 시스템 구조를 보인 개념도이다.4 is a conceptual diagram showing the structure of the morpheme analysis system in the present invention.

도 4에서 보는 바와 같이 각 기능적 요소들은 완벽하게 모듈화되어 있다. 또한 각 모듈별로 특수 기능을 수행하는 하부 모듈이 존재한다. 도 4에서 보이는 각 모듈은 형태소 분석 상에서 가장 크게 그 기능을 차지하는 모듈이다. 만일 시스템 상에서 새로운 기능이 필요하다면 그 기능에 부합하는 모듈을 구현하여 형태소 분석 모듈 패키지의 일부분으로 추가하고 기존의 다른 모듈과 연동하는 과정만을 기술하여 적용시키면 된다. 이 작업이 용이한 이유는 각 모듈간의 통신이 형태소 분석 결과를 저장하는 전역변수 1개와 함수 파라미터, 리턴 값으로만 이루어지기 때문이다. 형태소 분석 모듈 패키지를 둘러싸는 'WRAPPER 기능 모듈'은 사용자의 요구사항이나 시스템 적용 환경에 맞도록 형태소 분석 모듈들을 이용하여 다양한 기능을 구현하는 기능을 수행한다. 사전 관리기는 Tree 구조를 기반으로 시스템에서 사용하는 사전들을 저장하고 이를 고속으로 접근할 수 있는 API(Application Program Interface)를 제공하며, 실제 어절 분석 모듈인 어절 형태소 분석기는 한국어 어절의 구성 형태에 따른 유한 오토마타의 각 상태 전의 구조로 이루어진다.As shown in Figure 4, each functional element is completely modular. In addition, there are submodules that perform special functions for each module. Each module shown in FIG. 4 is the module that occupies the most in morphological analysis. If a new function is needed in the system, a module corresponding to the function can be implemented, added as a part of the stemming module package, and only the process of interworking with another existing module can be described and applied. This is easy because the communication between each module consists of only one global variable, a function parameter, and a return value that stores the stemming result. The WRAPPER function module, which surrounds the morphological analysis module package, implements various functions using morphological analysis modules according to the user's requirements or the system application environment. Dictionary manager provides API (Application Program Interface) to store dictionary used in system based on Tree structure and to access it at high speed. The word stemmer, which is an actual word analysis module, is a finite It consists of the structure before each state of automata.

도 5는 본 발명에서 형태소 분석 결과 저장 구조체를 보인 표이다.5 is a table showing a morphological analysis result storage structure in the present invention.

그리고 하부 모듈들은 각각의 상관관계를 설명하는 API로 밀결합 되어 있다. 이러한 밀결합이 전역변수나 기타 복잡한 설정으로 이루어진 것이 아니라 완벽한 상관관계 API로 구성되어 있으므로 모듈화에 따른 전체 시스템의 확장성 및 관리 효율성이 보장되도록 구성되었다.And the lower modules are tightly coupled with the APIs that describe each correlation. Since this tight coupling is not composed of global variables or other complicated settings, but is composed of a complete correlation API, it is designed to ensure the scalability and management efficiency of the entire system by modularization.

한편 본 발명은 사전 관리부(100), 형태소 분석부(200), 색인 제공부(300)로 구성되어 있는데, 이하 각 구성에 대해서 좀 더 상세히 설명하면 다음과 같다.On the other hand, the present invention is composed of a dictionary management unit 100, a morpheme analysis unit 200, the index providing unit 300, the following will be described in more detail with respect to each configuration.

먼저 사전 관리부(100)에 의한 어절 분석 사전의 구조와 사전 접근 API를 설명한다.First, the structure of the word analysis dictionary by the dictionary manager 100 and the dictionary access API will be described.

도 6은 본 발명에서 분석 사전 정보를 보인 표이다.6 is a table showing analysis dictionary information in the present invention.

그래서 본 발명에서 개발된 형태소 분석 시스템의 사전 표제어 정보 구성은 도 6과 같다. 도 6에 나타난 바와 같이 본 시스템의 사전 표제어 정보 구성의 특징은 용언 분석 정보와 더불어 각 용언의 불규칙 형태가 표제어의 일부분으로 포함된다는 것이다. 즉, 기존의 형태소 분석 시스템에서 불규칙 용언의 활용꼴을 원형으로 복원함에 있어서 구현 코드 상에서의 규칙을 기반으로 원형 복원이 이루어지는 것과는 달리, 본 시스템에서는 불규칙 활용꼴을 사전의 표제어로 포함시킴으로써 한 번의 사전 탐색으로 현재 어절이 어떤 종류의 불규칙 활용꼴인지 여부를 즉시 파악할 수 있도록 하였다. 예를 들면, "다르다"는 "르"불규칙으로서 불규칙 활용시에 "달라--"로 변형되므로 이를 사전에 표제어로 추가함으로써 "달라서" 등이 "르" 불규칙의 활용꼴이라는 것을 바로 알 수가 있다.So, the pre-headword information structure of the morpheme analysis system developed in the present invention is shown in FIG. As shown in FIG. 6, a feature of the dictionary heading information structure of the system is that the irregular form of each word is included as part of the heading together with the verbal analysis information. In other words, in the existing morphological analysis system, in the restoration of irregular usage forms to the original form, unlike the restoration of the original form based on the rules on the implementation code, in this system, the irregular usage forms are included in the dictionary term as a dictionary dictionary. The search made it possible to immediately determine what kind of irregular usage the current word is. For example, "different" is a "le" irregularity and is transformed into "dall" during irregular use, so by adding it to the heading dictionary, we can see immediately that "different" and so on are the forms of "le" irregular. .

도 7은 본 발명에서 조사/어미 사전 정보를 보인 표이다.7 is a table showing the survey / mother dictionary information in the present invention.

도 7의 조사, 어미 사전 정보는 표제어인 조사/어미의 기능에 따라 세부 정보로 표시하고 이를 기반으로 어절 분석 시에 규칙에 의한 제약을 가함으로써 불필요한 분석 결과의 생성을 억제시킨다.The investigation and ending dictionary information of FIG. 7 is displayed as detailed information according to the function of the investigation / end, which is a headword, and based on this, the generation of unnecessary analysis results is suppressed by applying a restriction by a rule during word analysis.

도 8은 본 발명에서 보조적 연결어미와 보조 용언을 보인 표이다.8 is a table showing the auxiliary connection ending and auxiliary verbs in the present invention.

이러한 도 8은 본 시스템에서 적용하고 있는 보조적 연결어미와 보조용언을 나열하고 있다. 보조적 연결어미와 보조용언간의 무의미한 결합은 분석시 많은 과분석 오류를 범하게 된다. 따라서 보조적 연결어미와 보조용언의 결합 여부를 분석하여 이를 결합형 사전으로 구성하면 의미가 연결되지 않는 두 품사간의 결합을 제한시킬 수 있다. 본 발명에서는 다양한 한국어 분석 자료를 바탕으로 보조적 연결 어미와 보조용언의 결합 관계를 분석하고 이를 보조적 연결어미-보조용언 결합형 사전으로 구성하였다.FIG. 8 lists auxiliary link endings and auxiliary words applied in the present system. Insignificant combinations between supplementary linkages and supplementary verbs can lead to many overanalysis errors in the analysis. Therefore, by analyzing the combination of the auxiliary connection ending and the auxiliary verb and constructing it as a combined dictionary, it is possible to limit the coupling between two parts of speech that have no meaning. In the present invention, based on a variety of Korean analysis data, the analysis of the combined relationship between the auxiliary connection ending and auxiliary verbs and configured it as an auxiliary connection ending-auxiliary verb combined dictionary.

도 9는 본 발명에서 결합형 보조용언 사전 정보를 보인 표이다.9 is a table showing the combined auxiliary dictionary information in the present invention.

일반적으로 자주 사용되고 있는 보조적 연결어미 30개와 보조용언 36개를 분석하여 의미적으로 결합이 허용되는 결합형 보조적 연결어미-보조용언 238개를 생성하였다. 보조적 연결어미와 보조용언 결합형 사전의 사전 정보는 도 9와 같다.Analysis of 30 commonly used auxiliary linkages and 36 supplementary verbs was performed to generate 238 combined auxiliary linking endings and auxiliary verbs that could be semantically combined. The dictionary information of the auxiliary connection ending and the auxiliary verb combined dictionary is shown in FIG. 9.

보조용언 또한 불규칙 활용이 될 수 있으므로 이를 표시하기 위해서 2자리 숫자를 사용하였다. 첫째 숫자는 불규칙의 종류를 나타내며, 두 번째 숫자는 보조적 연결어미와 보조용언간의 경계 위치를 나타낸다.Secondary digits may also be used irregularly, so two digits are used to indicate them. The first number indicates the type of irregularity, and the second number indicates the location of the boundary between the supplementary linking end and the supplementary verb.

이와 같이, 보조적 연결어미와 보조용언의 결합형을 사전으로 구축함으로써 일반 어절 분석에서 도출될 수 있는 다양한 형태의 과분석 오류를 방지할 수 있었다. 예를 들면 보조적 연결어미 "ㄹ지"는 의미적으로 보조용언 "못하"와는 결합할 수 없다. 그러나 보조적 연결어미 "지"는 보조용언 "못하"와 결합이 가능하다. 이러한 의미적 결합관계를 사전에 기술함으로써 "볼지못하다"("보"+"ㄹ지"+"못하"+"다")와 같은 어절이 분석 성공되는 결과를 미연에 방지할 수 있다.In this way, by constructing a combination of auxiliary linkages and auxiliary words in advance, various types of overanalysis errors that can be derived from general word analysis could be prevented. For example, the supplementary linking term "dripping" cannot be semantically combined with the supplementary verb "nothing". However, the supplementary linking term "ji" can be combined with the supplementary word "not". By describing these semantic relations in advance, it is possible to prevent the results of phrases such as "not see" ("not" + "not" + "not" + "not").

이와 같이 본용언과 보조용언의 분리를 위해 많은 사전 탐색과 규칙 비교 연산 등을 수행함으로써 발생하는 시스템 부하를 줄이고 동시에 분석 정확도를 향상시킬 수 있는 것이다.In this way, a large number of dictionary searches and rule comparison operations are performed to separate main verbs and auxiliary verbs, thereby reducing system load and improving analysis accuracy.

또한 사전 접근 API 구현은 다음과 같다.Also, the dictionary access API implementation is as follows.

본 시스템에서 개발된 사전의 구조는 한국어 사전 표제어의 전자적 저장 방 법으로 가장 널리 활용되고 있는 TRIE에 기반한다.The structure of the dictionary developed in this system is based on TRIE which is the most widely used electronic storage method of Korean dictionary headings.

도 10은 본 발명에서 TRIE 사전 음절 노드의 구조를 보인 그래프이다.10 is a graph showing the structure of a TRIE pre-syllable node in the present invention.

TRIE 사전의 한 노드는 총 6 byte로 구성된다. 처음 2 byte는 표제어의 한 음절을 저장하기 위해서 사용하고, 현재 음절 노드의 다음 노드를 가리키는 인덱스를 저장하기 위해서 20 bit를 사용한다. 현재 음절 노드가 사전에 등재된 표제어의 마지막 음절일 경우 현재 표제어의 사전 정보를 저장하기 위해서 10 bit를 사용한다. "Jong" 필드는 현재 음절의 종성이 표제어로서 의미가 있는지 없는지를 표시하는 필드로서 정적사전(품사사전)에서는 사용되지 않고, 사용자 정의 사전에서 사용될 수 있다. "Break" 필드는 현재 음절 노드가 표제어의 마지막 음절인지 여부를 표시하는 필드로서 이 필드가 1이면 표제어 사전 정보 필드에 정보 값이 저장되게 된다.One node of the TRIE dictionary consists of a total of six bytes. The first 2 bytes are used to store one syllable of the heading, and 20 bits to store the index pointing to the next node of the current syllable node. If the current syllable node is the last syllable of a pre-registered heading, 10 bits are used to store the dictionary information of the current heading. The "Jong" field indicates whether the final syllable's finality is meaningful as a headword. It is not used in a static dictionary and can be used in a user-defined dictionary. The "Break" field indicates whether the current syllable node is the last syllable of the heading. If this field is 1, the information value is stored in the heading dictionary information field.

도 11은 본 발명에서 TRIE 사전에 표제어가 저장되는 구조를 보인 그래프이다.11 is a graph illustrating a structure in which a headword is stored in a TRIE dictionary in the present invention.

이러한 도 11은 사전 표제어가 실제로 전자사전에 저장되는 구조를 나타낸다. 도 11의 상단 부분은 표제어가 전자사전에 저장되는 의미적인 구조를 나타내고 아래 부분은 실제로 메모리와 디스크에 적재되는 구조를 나타낸다. 한 표제어가 여러 개의 사전 정보를 포함하는 표제어의 경우는 각 표제어 정보를 나타내는 음절 노드를 연속해서 저장한다. 이 때 다수의 표제어 정보를 저장하기 위해서 6 바이트 음절 노드 전체를 사용하는데 소요되는 저장 공간 차원에서 비효율성이 문제가 되기는 하나, 사전 크기가 커지더라도 검색 속도를 최적으로 하기 위해 단일화된 노 드 접근 차원에서 그 의미가 있다.11 shows a structure in which dictionary headings are actually stored in an electronic dictionary. The upper part of FIG. 11 shows a semantic structure in which a headword is stored in an electronic dictionary, and the lower part shows a structure actually loaded in a memory and a disk. In the case of a heading in which a heading includes several dictionary information, the syllable nodes representing each heading information are stored consecutively. Although inefficiency is an issue in terms of the storage space used to use the entire 6-byte syllable node to store a large number of heading information, the unified node access dimension to optimize the search speed even if the dictionary size is large. In that sense.

사전 접근 API의 근간이 되는 2가지 알고리즘은 실제로 최적의 속도를 위한 단일화된 구조를 가진다. 특히 사전 탐색 알고리즘에서 현재 입력 어절의 사전 탐색 결과로 모든 하위 스트링에 대한 사전 탐색 결과를 함께 도출해야 하므로 효율적인 구현이 절대적으로 요구된다. 또한 명사류 정보에 대한 일괄적인 처리를 위해서 사전 탐색 알고리즘에서는 모든 종류의 명사 정보를 하나로 묶어서 명사 표시 정보를 리턴하는 기능이 있다.The two algorithms underlying the pre-access API actually have a unified structure for optimal speed. In particular, the pre-search algorithm must derive the pre-search results for all substrings as the pre-search result of the current input word, so an efficient implementation is absolutely required. In addition, in order to collectively process noun information, the dictionary search algorithm has a function of grouping all kinds of noun information into one and returning noun display information.

도 12는 본 발명에서 사전 탐색 관련 모듈 API를 보인 표이다.12 is a table showing a dictionary search-related module API in the present invention.

이러한 도 12는 사전 탐색 관련 모듈을 설명한 것이다. 크게 일반사전 탐색, 조사사전 탐색, 어미사전 탐색 함수로 나뉜다. 각 함수가 캡슐화되어 있으므로 전달되는 매개변수가 비교적 많은 특징이 있다.12 illustrates a dictionary search related module. It is divided into general dictionary search, research dictionary search, and ending dictionary search function. Since each function is encapsulated, there are relatively many features that are passed to the parameters.

한편 형태소 분석부(200)에 의한 어절 형태소 분석을 설명하면 다음과 같다.Meanwhile, the word morpheme analysis by the morpheme analysis unit 200 will be described below.

한국어의 어절 구성 형태에 대한 일반적인 규칙은 각 모듈별로 쉽게 구현이 가능하다. 본 발명에서 개발된 시스템은 최장 일치에 의한 좌-우 분석 기법을 사용하였으므로 우선적으로 실질 형태소에 대한 사전 탐색 후에 모든 세부 분석 절차가 이어지게 된다.General rules for the word composition form of Korean can be easily implemented for each module. Since the system developed in the present invention uses the left-right analysis technique by the longest concordance, all detailed analysis procedures are followed after the prior search for the real morpheme.

도 13은 본 발명에서 단어생성규칙에 따른 어절 분석 기능을 보인 표이다.13 is a table showing a word analysis function according to the word generation rule in the present invention.

그래서 입력 어절에 대한 형태소 분석은 크게 (1) 체언 분석, (2) 용언 분석, (3) 부사류 분석, (4) 독립언 분석, (5) 미등록어 분석, (6) 수사 분석 등으로 나뉜다.Thus, morphological analysis of input word is divided into (1) predicate analysis, (2) verb analysis, (3) adverb analysis, (4) independent language analysis, (5) unregistered word analysis, and (6) rhetorical analysis.

이 각각의 분석 단계는 하나하나의 모듈로 구현되어 순서대로 이루어진다.Each of these analysis steps is implemented in a single module and performed in order.

체언 분석은 조사 사전 탐색 및 제약 조건 검사, 접미사 처리, 용언화 접사 처리, "이다" 처리, 복합명사 처리 등으로 구분된다. 체언 분석 중에서 용언화 접사 처리 부분은 체언 분석에서 용언 분석 부분인 어미 처리로 분석 특성이 변화되는 특징이 있다. 용언 분석에는 어미 처리, 선어말 어미 처리, 보조용언 처리 등이 있으며, 도 13은 단어형성규칙에 따른 세부 어절 분석 기능을 열거하고 있다.Message analysis is divided into search dictionary search and constraint checking, suffix processing, verbal affix processing, "ida" processing, compound noun processing, and so on. The verbal affix processing part of the message analysis has the characteristic that the analysis characteristic is changed by the mother processing which is the verb analysis part in the message analysis. The word analysis includes a word processing, a word ending processing, a supplementary word processing, and the like. FIG. 13 lists detailed word analysis functions according to a word forming rule.

각 분석 분류에 따른 세부 분석 항목이 위에서 설명한 각 모듈의 세부 모듈로 구성된다. 특정 분석 분류에서 분석 순서는 대부분 고정되어 있고 몇 가지 예외처리를 거치게 된다. 예를 들어, 체언 분석에서 용언화 접사 처리 모듈이 성공하게 되면 그 다음으로 이어지는 모듈은 용언 분석 분류에서의 어미 분석이 된다. 이것은 상당한 문맥 이동이다. 이러한 문맥 이동이 손쉽게 이루어지는 가장 중요한 이유는 어미 분석 세부 모듈이 완벽하게 캡슐화되어 있기 때문에 그 결과로 용언화 접사 처리 부분에서 간단한 모듈 호출로 쉽게 문맥의 이동이 가능하기 때문이다.Detailed analysis items according to each analysis classification are composed of detailed modules of each module described above. In a particular class of analysis, the order of analysis is mostly fixed, with some exceptions. For example, if the verbal affix processing module succeeds in the telegram analysis, the next module is the mother analysis in the verbal analysis classification. This is a significant context shift. The most important reason for this context shift is because the parent analysis detail module is completely encapsulated, and as a result, the context shift is easy with simple module calls in the verb affix.

미등록어 분석은 자주 사용되고 적용 패턴이 일정한 조사가 미등록어에 존재하는 가에 대한 여부를 검사하는 부분과 대용량 말뭉치에서 추출된 체언의 후미어 패턴 사전에 기반한 후미어 패턴 검사로 나뉜다. 수사 분석은 수사 형태소 패턴에 따른 수사, 수관형사, 단위명사, 후치 명사 등을 판별하는 기능으로 구성된다.The non-registered word analysis is divided into the part that checks whether the survey which is frequently used and the application pattern is present in the non-registered word, and the after-pattern pattern test based on the tail-pattern dictionary of the words extracted from the large corpus. Investigation analysis consists of the functions of discriminating investigations, crown detectives, unit nouns, post nouns, etc. according to the investigation morpheme pattern.

도 14는 본 발명에서 어절 분석 주 모듈 API를 보인 표이다.14 is a table showing a word analysis main module API in the present invention.

이러한 도 14는 어절 분석시에 가장 먼저 호출되고 모든 하부 분석 모듈의 출발점이 되는 어절 분석 함수를 보여주고 있다. 사전 탐색이 완료된 어절에 대해 서 탐색된 사전 정보에 따라서 품사별로 분석 방법이 달라지게 된다.14 shows a word analysis function that is called first during word analysis and is a starting point of all sub-analysis modules. The analysis method varies depending on the parts of speech according to the dictionary information searched for the word for which the dictionary search is completed.

형태소 분석부(200)에서 체언 분석 모듈(210)은 다음과 같이 작용한다.In the morpheme analysis unit 200, the message analysis module 210 acts as follows.

체언은 실질형태소와 형식형태소 사이의 변이가 적고 형식형태소의 종류가 많지 않으므로 비교적 다른 품사에 비해서 분석이 쉽다. 그러나 분석 단계에 따라서 많은 규칙이 포함되어야 하고 때에 따라서는 용언 분석 문맥으로의 문맥 이동이 발생하므로 이에 대한 적절한 구현 및 처리가 필요하다. 또한 정보 검색 분야에서 보면 문서의 특징을 나타내는 색인어의 대부분을 이루는 명사, 대명사, 고유명사 등에 대한 어절 분석은 자동 색인 시스템의 중요한 부분이다. 특히 여러 개의 명사가 결합되어 있는 복합 명사 분석은 전체 시스템 속도의 약 50% 이상을 차지하므로 분석 속도를 최적화하기 위한 다양한 방법론이 적용되어야 한다.The statement is easier to analyze than other parts of speech because there are few variations between real and formal morphemes and few types of formal morphemes. However, according to the analysis stage, many rules must be included, and in some cases, a context shift to the verbal analysis context is required, so appropriate implementation and processing thereof are required. Also, in the field of information retrieval, word analysis of nouns, pronouns, proper nouns, etc., which form the majority of the index words that characterize documents, is an important part of the automatic indexing system. In particular, complex noun analysis, which combines several nouns, takes up more than 50% of the total system speed. Therefore, various methodologies must be applied to optimize the analysis speed.

도 15는 본 발명에서 체언 분석 및 호출 경로를 보인 개념도이다.15 is a conceptual diagram illustrating a message analysis and call path in the present invention.

이러한 도 15는 사전에서 체언으로 판명된 좌측 최장 부분 어절의 나머지 부분 어절을 분석하는 과정을 도식화한 것이다. 실선으로 표시된 화살표는 모듈의 호출 순서 및 문맥 흐름을 나타내고 점선으로 표시된 화살표는 복합명사 모듈이 사용하는 각각의 체언 분석 모듈에 대한 호출을 도식화한 것이다. 복합명사 분석은 각 단위명사 분석 사이에 일반적인 체언 분석 기능을 사용해야 한다. 만일 체언 분석 문맥을 이루는 각 단위 분석이 모듈화되어 있지 않다면 복합명사용 체언분석 모듈들을 다시 구성하거나 기능이 제한된 모듈만을 사용할 수 밖에 없다. 도 15에서 각 세부 기능들을 구성하는 요소들이 모두 모듈화되어 있으므로 이를 사용하는 복합명사 분석 모듈을 구성하기가 쉽다. 이러한 특성을 이용하여 재귀호출을 사용하지 않 고도 528라인 정도의 소규모 루틴으로 복합명사 분석 모듈을 구성할 수 있었다.15 is a diagram illustrating a process of analyzing the remaining partial words of the left longest partial word found in the dictionary. The solid arrows represent the calling sequence and context flow of the module, while the dashed arrows represent the calls to each message analysis module used by the compound noun module. Compound noun analysis should use the general verbal analysis function between each unit noun analysis. If each unit analysis that forms the context of the telegram analysis is not modular, then it may be necessary to reconstruct the multi-name telegram analysis module or to use only a limited module. In FIG. 15, since all elements constituting each of the detailed functions are modular, it is easy to construct a compound noun analysis module using the same. Using this feature, we could construct a compound noun analysis module with a small routine of about 528 lines without using recursion.

사전 탐색에서 명사로 판별된 어절에 대해서 접미사 분석을 한 후, "이다" 조사가 붙거나 동사/형용사화 접사가 붙은 어절에 대해서 어미분석을 수행하였다. 또한 각 단계별로 제약조건을 두어서 각 분석 단계에 들어갈 필요가 없는 부분 어절에 대해서는 바로 다음 단계로 넘어 갈 수 있도록 하였다. 조사사전 탐색 부분은 조사 바로 앞 음절 정보와 조사 부분 어절 정보를 입력받아서 체언과 조사의 결합 제약조건을 검사한다. 또한 체언 분석 부분은 접미사 검사나 다른 부수적인 검사 루틴에서 모두 실패한 부분 어절에 대하여 복합명사 분석을 수행한다. 본 시스템에서는 다음과 같은 두 가지의 가정 하에서 복합명사 분석을 수행하였다.After the suffix was analyzed for the words identified as nouns in the dictionary search, the words were analyzed for words with "ida" search or verb / adjective affixes. In addition, constraints are placed at each step so that the part of the word that does not need to enter each analysis step can be moved directly to the next step. The search dictionary search section receives the syllable information and the search section word information immediately before the survey to check the combination constraint of the statement and the survey. The message parsing section also performs compound noun analysis on partial words that failed both in suffix checks and other ancillary check routines. In this system, compound noun analysis was performed under the following two assumptions.

도 16은 본 발명에서 체언 분석 모듈 API를 보인 표이다.16 is a table showing the message analysis module API in the present invention.

먼저 도 16은 체언 분석에 사용되는 기능 모듈들을 열거한 것이다. 마찬가지로 분석 기능별로 모두 완전히 모듈화가 되어 있다.First, Figure 16 lists the functional modules used in the message analysis. Similarly, all of the analytics are fully modular.

복합명사 분석 모듈은 입력 매개변수로 이전 분석 위치 바로 이전에 위치한 음절을 입력으로 받아서 음절간 제약조건 검사가 가능하도록 하였다. 본 시스템에서는 복합명사 분석시에 두 가지 가정을 세우고 이 가정에 따라서 복합명사 분석을 수행한다.The compound noun analysis module accepts the syllables located just before the previous analysis position as input parameters, and enables constraint checking between syllables. In this system, two assumptions are made in compound noun analysis and compound noun analysis is performed according to this assumption.

도 17은 본 발명에서 복합명사 분석시의 가정을 보인 표이다.17 is a table showing assumptions when analyzing a compound noun in the present invention.

(가정 1)은 접미사를 실질형태소로 보는 것이 아니라 형식형태소로 간주하는 것이다. 접미사에는 한 글자로 구성된 단어들이 많으며 이를 복합명사의 일부분으로 분석하기 위해서는 많은 제약조건에 따른 오류가 발생하기 쉽다. 따라서 복합명 사를 구성하는 접미사가 붙은 명사는 하나의 단일명사로 간주하여 사전에 포함시키는 것이 오류를 최소화시키는 방법이다.Assumption 1 does not regard the suffix as a real morpheme, but as a formal morpheme. Suffixes contain many single-letter words, and errors are subject to many constraints in order to analyze them as part of compound nouns. Therefore, a noun with a suffix constituting a compound noun is regarded as a single noun and included in a dictionary to minimize errors.

(가정 2)는 (가정 1)과 의미적으로 연관되는 가정이다. 한 글자로 구성된 명사를 복합명사의 요소명사로 포함시키면 복합명사 분석 자체가 무의미할 수 있다. 따라서 두 글자 이상으로 구성된 명사만이 복합명사의 요소명사가 될 수 있다고 가정한다.(Assumption 2) is an assumption that is semantically related to (Assumption 1). The inclusion of a single letter noun as an elemental noun in a compound noun can make the compound noun analysis itself meaningless. Therefore, it is assumed that only nouns consisting of two or more letters can be elementary nouns in the compound noun.

이와 같은 가정 하에서 입력 어절에 대한 복합명사의 분석은 다음의 도 18과 같은 알고리즘으로 수행된다.Under this assumption, the analysis of compound nouns on the input word is performed by the algorithm shown in FIG.

도 18은 본 발명에서 복합명사 분석 알고리즘을 보인 흐름도이다.18 is a flowchart illustrating a compound noun analysis algorithm in the present invention.

이 분석 알고리즘의 가장 큰 특징은 입력 단어에 대해서 복합명사의 요소명사일 가능성이 있는 후보 단위명사를 추출하여 이들을 하나의 그래프로 구성한다는 것이다. 각 그래프의 입력 edge와 출력 edge는 각각 현재 후보 단위명사의 이전 후보 단위명사, 이후 후보 단위명사의 vertex를 가리킨다. 실제 복합명사 분석은 이 그래프가 구성된 후에 수행된다. The most distinctive feature of this analysis algorithm is that it extracts candidate unit nouns that are likely to be elemental nouns of compound nouns and inputs them into a graph. The input and output edges of each graph indicate the vertex of the previous candidate unit noun and the subsequent candidate unit noun of the current candidate unit noun, respectively. Actual compound noun analysis is performed after this graph is constructed.

우선, 남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성한다. 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장한다. 실제 복합명사 분석 모듈에서는 스택을 이용하여 유효한 명사 리스트를 따라가며 분석을 수행한 후, 복합 명사 분석 결과를 생성하게 된다.First, a dictionary search is performed at all positions of the remaining analysis words to extract nouns of two or more syllables, and the dictionary information is composed of one vertex together with the positions of the current analysis words for the extracted two or more syllables. It creates a list of linked nouns by checking each noun position and length in the vertices thus constructed and stores them in a matrix. In the actual compound noun analysis module, the analysis is performed by following a list of valid nouns using a stack, and then generating a compound noun analysis result.

도 19는 본 발명에서 복합명사 분석을 보인 개념도이다.19 is a conceptual diagram illustrating a compound noun analysis in the present invention.

이러한 도 19는 도 18의 알고리즘을 이용하여 복합명사가 분석되는 개념과 구조를 나타낸다.19 illustrates a concept and a structure in which a compound noun is analyzed using the algorithm of FIG. 18.

도 19에서 입력 문자열의 두 번째 음절위치를 제외한 모든 위치에서의 사전 탐색 결과로 여러 개의 후보 요소명사가 추출된다. 이 후보 요소명사를 그래프의 한 vertex로 간주하고 그래프의 각 노드를 스택을 이용하여 방문하면서 복합명사 분석 모듈을 호출하게 된다. 만일 입력 문자열의 끝까지 분석이 성공되면 하나의 복합명사 분석 결과로 분석결과 버퍼에 저장하게 된다. In FIG. 19, a plurality of candidate element nouns are extracted as a dictionary search result at all positions except the second syllable position of the input string. This candidate element noun is considered a vertex of the graph, and each node of the graph is visited using the stack, and the compound noun analysis module is called. If the analysis succeeds to the end of the input string, it is stored in the analysis result buffer as a compound noun analysis result.

본 발명에서 수행된 복합 명사 분석 알고리즘은 모든 분석 대상 음절 위치에서의 사전 탐색에 따른 사전 탐색 횟수의 증가에 대한 문제점이 있을 수 있으나, 일반적인 복합명사 분석 알고리즘에서 사용하고 있는 재귀적 호출이나 복잡한 모듈의 구현을 피할 수 있는 장점이 있다. 만일 분석 상의 오류나 추가로 수행되어야 할 기능적 모듈을 전체 복합 명사 모듈에 추가시킬 때는 후보 요소명사 그래프 생성 부분은 수정할 필요없이 그래프의 각 노드들을 방문하며 실제 복합명사를 분석하는 부분만을 수정하면 된다.The compound noun analysis algorithm performed in the present invention may have a problem of an increase in the number of dictionary searches according to a dictionary search at all syllable positions, but it is possible to use a recursive call or a complex module used in a general compound noun analysis algorithm. There is an advantage to avoid implementation. If you add an analysis error or additional functional module to the entire compound noun module, you do not need to modify the candidate element noun graph generation section, but only visit the nodes of the graph and modify the actual compound noun.

또한 형태소 분석부(200)에서 용언 분석 모듈(220)은 다음과 같이 작용한다.In addition, the verb analysis module 220 in the morpheme analysis unit 200 acts as follows.

형태소 분석 단계에서 가장 복잡한 부분이 용언 분석 모듈이다. 용언 분석이 복잡한 이유는 실질형태소와 형식형태소 사이에서 다양한 형태의 변이가 생기기 때문이다. 따라서 이러한 변화 형태를 규칙화하고 규칙화하기에 까다로운 복잡한 부분은 실제 루틴으로 구현함으로써 전체적인 분석 모듈이 복잡해진다.The most complex part of the stemming phase is the verb analysis module. The verbal analysis is complicated because there are various forms of variation between real and formal morphemes. Therefore, the complex analysis part of the difficult part of regularizing and regularizing these forms of change is complicated by the actual analysis module.

자동 색인 시스템에서의 용언에 대한 분석은 두 가지 측면에서 중요한 의미를 가진다. 첫째, 용언 분석 기능이 미약하면 분석 과정에서 처리되지 못한 용언들이 미등록어 처리기로 넘어가게 되고 그 결과 무의미한 색인어의 과도한 생성이라는 문제점이 발생한다. 둘째, 기존의 정보검색 시스템이 체언 중에서도 명사만을 색인어로 채택한 것과는 달리, 본 발명에서는 동사나 형용사까지도 색인어로서 추출하여 문장의 특성을 나타내는 색인어 리스트를 생성할 수 있도록 하였다. 그 이유는 정확한 용언 분석은 시스템 전체의 확장성과 밀접한 관계가 있기 때문이다.Analysis of verbs in automated indexing systems is important in two ways. First, if the verb analysis function is weak, verbs that could not be processed in the analysis process are passed to the unregistered word processor, resulting in excessive generation of meaningless index words. Second, unlike the existing information retrieval system adopting only nouns as index terms, the present invention allows extracts of verbs and adjectives as index terms to generate a list of index terms representing the characteristics of sentences. This is because accurate verbal analysis is closely related to the scalability of the entire system.

도 20은 본 발명에서 분석 모드에 따른 용언 분석을 보인 개념도이다.20 is a conceptual diagram illustrating verbal analysis according to an analysis mode in the present invention.

용언 분석은 크게 두 가지 모드로 수행될 수 있다. 보조용언 모드와 일반 모드가 그것이다. 보조용언 모드는 보조용언으로 시작하는 형식형태소를 분석하는 모드이고, 일반 모드는 선어말 어미에서부터 형식형태소가 시작하는 모드이다. 모드의 분기는 보조용언 분석 모듈 내의 보조용언 사전 탐색 기능에서 수행된다. 각 모듈의 수행 절차를 하나로 묶어서 분석하기보다는 모드별로 다른 모듈을 구성하여 두 모듈을 유기적으로 결합하도록 하였다. 다시 말해서, 보조용언 모드에서 분석 중에 분석에 실패하게 되면 바로 일반 모드의 시작점으로 분기하는 형태이다. 일반 모드는 그 분석 절차가 기본적인 용언의 형식형태소에 준하므로 분석 실패에 대한 분기가 필요가 없다. 단순히 용언 분석 실패를 윗부분에 알려주면 된다.The verbal analysis can be performed in two modes. Auxiliary verb mode and normal mode. The auxiliary verb mode analyzes formal morphemes starting with the auxiliary verbs, and the general mode is the mode where formal morphemes start from the ending word. The branching of the mode is performed in the auxiliary verb dictionary search function in the auxiliary verb analysis module. Rather than grouping the performance of each module into a single analysis, different modules were configured for each mode to organically combine the two modules. In other words, if an analysis fails during analysis in auxiliary verb mode, it branches to the starting point of normal mode. Normal mode does not require branching of analysis failures, as the analysis procedure conforms to the formal verbal form. Simply tell the top of a verbal failure.

도 20은 문장 내에 출현하는 용언에 대한 분석 과정을 나타내고 있다. 사전 탐색에서 좌측 최장 부분 어절이 용언으로 판단되면 우선 선택된 용언이 규칙인지 불규칙인지를 결정한다. 이러한 결정은 상기에서 언급된 불규칙 사전 정보에 의하 여 즉시 이루어진다. 불규칙 용언으로 판정이 되면 불규칙 처리 루틴을 통하여 원형을 복원하고 어미 처리부의 시작 부분인 보조용언 검사를 수행하게 되며, 검사 후에 선어말 어미 검사를 수행하고 어미 사전 탐색을 하게 된다. 이때 보조용언 검사 후나 선어말 어미 검사 후에 명사형 전성어미('ㅁ", '음", "기")가 감지되면 체언 분석 루트로 넘어가서 조사 사전 탐색을 수행하게 된다.20 illustrates a process of analyzing verbs appearing in sentences. If the longest left word in the dictionary search is determined to be a verb, it is first determined whether the selected verb is a rule or an irregular word. This decision is made on the basis of the irregular dictionary information mentioned above. If it is determined as an irregular term, the original form is restored through an irregular processing routine, and an auxiliary word test, which is the beginning of the mother processing unit, is performed. At this time, if noun-type malleables ('ㅁ', 'Um', and 'gi') are detected after the auxiliary verb test or after the end-word ending test, the search proceeds to the telegram analysis route and performs a search dictionary search.

도 21은 본 발명에서 용언 분석 모듈을 보인 표이다.21 is a table showing a verb analysis module in the present invention.

도 21에 나온 함수들은 용언 분석에 사용되는 대표적인 함수들이다. 'CheckEomi'는 위의 도 20의 알고리즘대로 용언형 형식형태소에 대한 형태소 분석을 수행한다. 또한 각 불규칙 형태별로 분석 함수를 분리하고 원형 복원과 함께 제약조건 검사를 수행하게 된다.The functions shown in FIG. 21 are representative functions used for verbal analysis. 'CheckEomi' performs morphological analysis on verbal formal morphemes according to the algorithm of FIG. 20 above. In addition, the analysis function is separated for each irregular shape and constraint checking is performed along with the reconstruction.

또한 형태소 분석부(200)에서 독립언 분석 모듈(250)에 의한 부사, 독립어, 관형사 분석은 다음과 같다.In addition, the adverb, the independent language, and the adjective analysis by the independent language analysis module 250 in the morpheme analysis unit 200 are as follows.

본 발명에서 개발된 분석 모듈은 부사 다음에 올 수 있는 형태소는 보조사 외에는 없다고 가정하고 보조사 사전을 탐색한다. 독립어는 홀로 존재하게 되므로 뒤에 다른 어떤 형태소도 올 수 없다. 관형사는 뒤에 명사 및 복합 명사가 올 수 있으므로, 나머지 분석 어절에 대해서 복합명사 분석을 수행하게 된다. The analysis module developed in the present invention searches the assistant dictionary on the assumption that there is no morpheme that can follow the adverb except the assistant. Since the independent word exists alone, no other morpheme can follow it. Since the adjectives can be followed by nouns and compound nouns, the compound noun analysis is performed on the remaining analysis words.

또한 형태소 분석부(200)에서 수사 분석 모듈(230)은 다음과 같이 작용한다.In addition, the investigation analysis module 230 in the morpheme analysis unit 200 acts as follows.

본 발명에서 개발된 수사 형태소 분석 모듈은 모든 수사 패턴들을 처리하기 위하여 일반적인 분석 모듈이라기보다는 일반 문서에서 높은 빈도로 출현되는 수사 패턴에 대한 효율적인 처리를 위한 모듈이다. 따라서 본 모듈은 다어절에 걸친 복 합 수사를 처리하기 위해서 전처리 단계로 태깅 모듈을 수행하거나 구문 분석을 통한 복합적인 처리보다는 한 어절 내에 포함되어 있는 수를 의미하는 단어를 인식하고 이를 효과적으로 분석하거나 색인어로 추출하는 기능을 수행한다.The investigative morpheme analysis module developed in the present invention is a module for efficient processing of the investigation pattern that appears frequently in a general document rather than a general analysis module to process all the investigation patterns. Therefore, the module recognizes and effectively analyzes the words that represent the numbers contained in a word rather than performing the tagging module as a preprocessing step or a complex process through parsing to process a compound investigation over multiple words. To perform the function of extraction.

일반적인 표제어 사전과는 달리 수사 사전은 기능적으로 제한되어 있으며, 형태가 일정하게 유지된다는 특징이 있다. 따라서 본 발명에서는 수사 형태소 분석을 위한 특화된 사전 정보와 사전 표제어를 구성하고 이를 시스템에 적용하였다.Unlike general heading dictionaries, rhetorical dictionaries are functionally limited and their form remains constant. Therefore, in the present invention, specialized dictionary information and dictionary heading for rhetorical morphological analysis are constructed and applied to the system.

도 22는 본 발명에서 수사 사전 정보를 보인 표이다.22 is a table showing the investigation dictionary information in the present invention.

이러한 도 22는 수사의 기능과 형태에 따른 수사 표제어 정보를 나타낸다. 단위명사 결합형 수사는 사용빈도가 아주 높은 수사와 단위명사의 결합형을 사전에 추가함으로써 분석시 발생하는 문제점들을 해결할 수 있도록 수사 사전에 추가하였다. 예를 들면, "넉달", "닷냥" 등은 수사가 뒷부분의 단위명사와 결합하면서 변형이 생긴 어절이다. 따라서 이를 구분하여 수사 사전과 단위명사 사전에 추가하기보다는 하나로 묶어서 루틴에서 처리를 하는 것이 더 효율적이다. 왜냐하면 "넉", "닷"과 같은 변형 수사를 수사 사전에 모두 추가하면 이를 위한 제약 조건 검사도 훨씬 많아지기 때문이다.22 shows the investigation heading information according to the function and form of the investigation. Combined nouns with unit nouns were added to the investigation dictionaries to solve problems in analysis by adding a combination of very frequent investigations and unit nouns to the dictionary. For example, "four months" and "dot" are words that transformed when the rhetoric combined with the later unit nouns. Therefore, it is more efficient to group them together and process them in the routine than to add them to the investigation and unit noun dictionaries. Because adding variant rhetoric, such as "knock" and "dot", to the rhetorical dictionary, there are much more constraint checks for this.

이 사전 정보를 바탕으로 약 91개의 수사 표제어와 263개의 단위명사를 정제하여 사전으로 구성하였으며, 수사 형태소 분석을 수행하기 위하여 도 23과 같은 분석 알고리즘이 적용되었다.Based on this dictionary information, about 91 rhetorical headwords and 263 unit nouns were refined to form a dictionary, and the analysis algorithm as shown in FIG. 23 was applied to perform the rhetorical morphological analysis.

도 23은 본 발명에서 수사 형태소 분석 알고리즘을 보인 흐름도이다.23 is a flowchart illustrating a rhetorical morphological analysis algorithm in the present invention.

수사 뒤에 나오는 조사나 접미사 혹은 명사의 분석은 일반 어절 형태소 분석 모듈을 수정하여 분석 모드에 따른 어절 분석이 가능하도록 하였다. 즉, 수사 다음의 조사나 접미사를 분석하기 위해서는(SUSA_POSTNOUN 모드) 일반 명사가 사전에서 검색되었다고 가정하고 명사 다음의 조사나 접미사를 분석하듯이 수사의 후절어를 분석해야 한다. 수사 다음의 명사 분석(SUSA_NOUN 모드)도 마찬가지이다. 이와 같이 분석 모드에 따른 다양한 어절 분석 API를 제공함으로써 보다 세부적인 수사 형태소 분석을 수행할 수 있게 된다.The investigation, analysis of suffixes or nouns following the investigation modified the general word morpheme analysis module to enable word analysis according to the analysis mode. In other words, to analyze a post-investigation or suffix (SUSA_POSTNOUN mode), the nouns of the investigation should be analyzed as if a normal noun was found in a dictionary, and the search or suffix following a noun would be analyzed. The same is true of the noun analysis (SUSA_NOUN mode) following the investigation. Thus, by providing a variety of word analysis API according to the analysis mode, it is possible to perform a more detailed investigation morpheme analysis.

도 24는 본 발명에서 수사 분석 모듈 API를 보인 표이다.24 is a table showing the investigation analysis module API in the present invention.

또한 형태소 분석부(200)에서 미등록 분석 모듈(240)은 다음과 같이 작용한다.In addition, the unregistered analysis module 240 in the morpheme analysis unit 200 acts as follows.

형태소 분석 수행 후에 분석에 실패한 어절들은 미등록어 분석을 거치게 된다. 본 발명에서 개발된 미등록어 분석기는 일반적으로 사용되는 역방향 분석에 의한 형식형태소 분리 기법이 아닌 형식형태소 사전을 통한 단순 사전 탐색에 의해서 수행된다. 형식형태소를 추출하기 위해서 전체 9,438,209어절로 구성된 말뭉치에 대해서 본 발명에서 개발된 형태소 분석기를 이용하여 형태소 분석을 수행하고 각각 체언, 용언 뒤에 붙는 형식형태소를 따로 분리 추출하였다. 또한 실질형태소와 형식형태소의 경계 음절 바이그램을 추출하여 통계치에 적용하였다. 추출된 형식형태소 사전 및 음절 바이그램에 대한 분석 정보는 도 25의 표와 같다.Words that fail the analysis after the morphological analysis are subjected to unregistered word analysis. The unregistered word analyzer developed in the present invention is performed by a simple dictionary search through a formal morpheme dictionary rather than a conventional morphological separation technique by backward analysis. In order to extract the morphemes, morphological analysis was performed on the corpus composed of 9,438,209 phrases using the morpheme analyzer developed in the present invention. In addition, boundary syllable bigrams of real and formal morphemes were extracted and applied to statistics. Analysis information on the extracted morpheme dictionary and syllable bygram are shown in the table of FIG. 25.

도 25는 본 발명에서 형식형태소 분석 정보를 보인 표이다.25 is a table showing formal morphological analysis information in the present invention.

도 25의 표를 보면, 체언형 형식형태소에 비해서 용언형 형식형태소와 경계 바이그램의 종류가 매우 많음을 알 수 있다. 이는 용언형 형식형태소는 불규칙 활 용이나 탈락, 그리고 축약 등에 의해서 실질형태소와 형식형태소의 경계 부분에 변이가 많이 생기기 때문이다.Referring to the table of FIG. 25, it can be seen that there are many types of verbal formal morphemes and boundary bygrams as compared to the teletype formal morphemes. This is because verbal formal morphemes have a lot of variation in the boundary between real morphemes and formal morphemes due to irregular utilization, dropping, and abbreviation.

도 26은 본 발명에서 체언형 형식형태소의 빈도 순위별 누적빈도를 보인 그래프이고, 도 27은 본 발명에서 용언형 형식형태소의 빈도 순위별 누적빈도를 보인 그래프이다.FIG. 26 is a graph showing a cumulative frequency for each frequency rank of a verbal form morpheme in the present invention, and FIG. 27 is a graph showing a cumulative frequency for each frequency rank of a verbal form morpheme in the present invention.

이러한 도 26 및 도 27은 각각 체언형, 용언형 형식 형태소에 대한 빈도 순위 변화에 따른 누적 빈도를 나타낸 것이다. 체언형 형식 형태소는 빈도 순위 100등까지의 누적 분포 비율이 전체 형태소 개수의 90% 이상을 차지하는 반면, 용언형 형식형태소는 50%정도만 차지하고 있다. 이는 앞에서도 설명하였듯이 체언형 형식형태소에 비해서 규칙 및 불규칙 활용이 많이 발생하여 형식형태소의 종류가 광범위하게 적용되는데 그 이유가 있다.26 and 27 show cumulative frequencies according to changes in frequency ranks for the telegram and verbal form morphemes, respectively. Cumulative formal morphemes account for more than 90% of the total number of morphemes, while cumulative distribution ratios up to the top 100 ranks only about 50%. As described above, there are many reasons for the use of formal morphemes because the use of rules and irregularities occurs more frequently than the formal type morphemes.

대용량 말뭉치에 대한 형태소 분석을 수행할 때, 본 발명에서는 협소 문맥(local context)을 이용한 HMM(Hidden Markov Model, 은닉 마르코브 모델) 품사 태거를 사용한다. 이 품사 태거에서 추출된 형태소 분석 결과에서 확률값으로 상위 3위 안에 나온 형태소 분석 결과를 저장하게 된다.When performing morphological analysis on large corpus, the present invention uses a Hidden Markov Model (HMM) part-of-speech tagger using a local context. The morphological analysis results obtained from the parts of speech tagger are stored in the top three as probability values.

위와 같이 구성된 사전을 이용하여 입력어절에 대한 형식형태소 사전 탐색 및 실질-형식 형태소 경계 음절 바이그램 사전 탐색을 수행한 후에 체언 및 용언 판별을 수행하고 판별된 결과에 따라서 형태소 분리 작업을 수행한다. 본 발명에서 개발된 시스템에서는 미등록어는 체언일 가능성이 더 높다고 가정하고 우선 체언형 미등록어인지를 검사한다.After performing the formal morpheme dictionary search and the real-form morphological boundary syllable bigram dictionary search for the input word using the dictionary configured as described above, the verb and the word discrimination are performed, and the morpheme separation work is performed according to the determined result. In the system developed in the present invention, it is assumed that the unregistered word is more likely to be a spoken word, and first, it is checked whether it is a spoken unregistered word.

도 28은 본 발명에서 활용꼴 형태소 복원 내용을 보인 표이다.28 is a table showing the contents of the morpheme restoration utilized in the present invention.

체언으로 판별된 미등록어에 대한 형태소 분리는 비교적 쉬운 반면에 용언으로 판별된 미등록어에 대한 형태소 분리는 불규칙 활용 및 축약꼴이 발생할 수 있으므로 이에 대한 원형 복원 작업을 수행하게 된다.Morphological separation of unregistered words determined by verbs is relatively easy, while morphological separation of unregistered words determined by verbs may cause irregular utilization and abbreviation, thus performing a prototype restoration work.

한편, 색인 제공부(300)에 대해 상세히 설명하면 다음과 같다.Meanwhile, the index providing unit 300 will be described in detail as follows.

본 발명에서 개발된 한국어 형태소 분석 시스템은 범용 정보검색 시스템에 적용될 수 있다. 범용 정보검색 시스템은 다양한 색인 형태를 제공할 수 있으므로 형태소 분석 시스템 위에 IDX(Index, 인덱스, 색인) 모듈이라고 불리는 색인 모듈을 탑재하여 전체 시스템에 적용되었다. IDX 모듈의 구조는 도 29와 같다.Korean morpheme analysis system developed in the present invention can be applied to a general information retrieval system. Since general information retrieval system can provide various index forms, it is applied to the whole system by mounting index module called IDX (Index, index, index) module on top of morphological analysis system. The structure of the IDX module is shown in FIG.

도 29는 본 발명에서 IDX 구조를 보인 개념도이다.29 is a conceptual diagram showing an IDX structure in the present invention.

유니코드 변환기는 모든 종류의 유니코드와 조합형 및 완성형 코드간의 변환 기능을 수행한다. 본 발명이 적용되는 범용 정보검색 시스템은 기본적으로 UTF-8을 저장 기준 코드로 정하고 있다. 따라서 색인 결과도 UTF-8(UCS transformation format - 8, 유니코드)로 변환되어 제공된다. 형태소 분석기 내부에도 어절 분리기가 내장되어 있으나, 시스템의 효율적인 결합을 위해서 어절 분리 및 관리기를 IDX로 끌어올렸다. 불용어 관리 및 영어 스태밍 모듈도 어절 분리 및 관리기와 함께 유기적으로 동작하게 된다. 한자 변환 색인이나 영어 스태밍 여부 등은 IDX의 옵션으로 지정하여 사용자가 상황에 맞게 적절히 색인 기능을 수행하도록 하였다. 여기서 스태밍은 영어 단어에 대해서 어근을 분리해 내는 과정을 말한다.The Unicode converter converts all kinds of Unicode and combinatorial and complete code. The general-purpose information retrieval system to which the present invention is applied basically sets UTF-8 as the storage reference code. Therefore, index results are also provided in UTF-8 (UCS transformation format-8, Unicode). The word separator is also built into the stemmer, but the word separator and manager were pulled up to IDX for efficient system integration. Terminology management and English stemming modules work organically with word separators and managers. The Chinese character conversion index and English stamming are specified as IDX options so that the user can perform the index function appropriately. Here, stemming refers to the process of separating roots from English words.

IDX에는 총 6가지의 색인 유형이 제공된다. 각 색인 유형에 대한 설명은 도 30의 표에 나타나있다.IDX comes with a total of six index types. A description of each index type is shown in the table of FIG.

도 30은 본 발명에서 색인 유형을 보인 표이다.30 is a table showing the index type in the present invention.

형태소 분석기를 색인 기능의 근간으로 두고 사용자의 요구사항에 부합하는 다양한 색인 형태를 제공함으로써 시스템의 효용성을 극대화하였다.With the stemmer as the basis of the indexing function, the system is maximized by providing various index types that meet the user's requirements.

INDEX_AS_IS 는 문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출한다. 그렇게 함으로써 그 섹션에 대한 완전 일치(Exact Matching)의 검색을 지원한다. INDEX_AS_IS 로 색인된 섹션에 대해 단지 문자열 값의 일치(Character String equality) 여부만을 확인하는 수준에서의 검색을 수행한다. 관계연산자(<, <=, >, >=, -)를 이용한 문자열 값의 비교는 가능하다. INDEX_AS_IS 색인 방식은 '제어번호'와 같이 레코드를 구별할 수 있도록 유일하게 부여된 기본 섹션에 주로 사용된다.INDEX_AS_IS extracts the entire contents or values of a section from a document into a single index word. Doing so supports searching for Exact Matching for that section. Performs a search at the level checking only for Character String equality for the section indexed with INDEX_AS_IS. You can compare string values using the relational operators (<, <=,>,> =,-). The INDEX_AS_IS indexing method is mainly used for basic sections that are uniquely assigned to distinguish records, such as 'control number'.

INDEX_AS_IS_MA 는 앞서 설명한 INDEX_AS_IS 색인방식을 다소 변형시킨 방법과 INDEX_BY_MA 색인방식을 동시에 만족하는 색인 방식이다. 즉, 문서에서 섹션의 내용 전체를 색인어로 추출하고, 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후, 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출한다. INDEX_AS_IS_MA 는 단행본의 제목과 같은 짧은 섹션에 사용한다.INDEX_AS_IS_MA is an index method that satisfies both the above-described INDEX_AS_IS index method and INDEX_BY_MA index method simultaneously. That is, by extracting the entire contents of a section from the document as an index word, and performing morphological analysis on each word of Hangul text, the minimum morphological units such as nouns, surveys, suffixes, verbs, and adjectives are classified. Extract a simple noun that can be represented as an index word. INDEX_AS_IS_MA should be used for short sections, such as the title of a book.

INDEX_AS_NUMERIC 은 숫자로 구성된 기본 섹션에 대하여 색인어를 추출한다. INDEX_AS_NUMERIC 로 지정된 섹션은 단일의 값(atomic value)만을 갖는 것으로 가 정하며, 이들 섹션에 대해서는 관계연산(<, <=, >, >=, =, -)이 가능하다. 이 색인 방식은 '날짜'와 같이 년월일 형태로 일정한 형식이 갖추어지고 숫자로 이루어진 섹션에 대해 주로 사용한다.INDEX_AS_NUMERIC extracts index words for the base section of numbers. Sections designated as INDEX_AS_NUMERIC are assumed to have only atomic values. For these sections, relational operations (<, <=,>,> =, =,-) are possible. This indexing method is commonly used for sections that have a uniform, numeric format, such as date, or date.

INDEX_BY_CHAR 는 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성한다. 이 방식은 한글 내용이 담긴 기본 섹션 중에서 '3사람 이름'과 같은 섹션에 주로 사용한다. 즉, 사람 이름이 '홍 길동', '홍길동', '홍길 동' 등과 같이 한글 띄어쓰기가 자유롭게 되어 있는 경우 ''홍', '길', '동'과 같이 음절단위로 색인하여 저장하면, 사용자가 사람 이름을 검색할 경우 띄어쓰기에 관계없이 검색이 가능하도록 한다.INDEX_BY_CHAR generates index words by extracting one syllable in English and two syllables in Korean. This method is mainly used for sections like '3 person names' among basic sections containing Korean content. That is, if a person's name is freely written in Korean, such as 'Hong Gil-dong', 'Hong-gil-dong', and 'Hong-gil-dong', if the user's name is indexed and stored in syllable units, such as 'Hong', 'Gil', 'Dong', Searches for a person's name, regardless of spaces.

INDEX_BY_MA 는 INDEX_BY_TOKEN 의 색인 방식에서 한 단계 더 나아가 한글 텍스트의 색인을 위해 한글 형태소 해석기(Morphological analyzer) 를 사용하며 영어 텍스트의 경우에는 옵션으로 스태머(stemmer)를 이용한다. 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후, 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출한다. 그리고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출한다. 따라서 이 방식은 단순한 INDEX_BY_TOKEN 의 어절 단위 색인보다 양질의 색인을 수행한다. 따라서 INDEX_BY_MA 는 '논문 제목'이나 '초록'과 같은 기본 섹션에 적합하다.INDEX_BY_MA goes one step further from the indexing method of INDEX_BY_TOKEN and uses a Morphological analyzer for indexing Hangul text, and optionally uses a stemmer for English text. Morphological analysis is performed on each word of Hangeul text to classify the minimum morphological units such as nouns, surveys, suffixes, verbs, and adjectives, and extracts simple nouns that can represent the contents of sections. In the case of English, stems are extracted by processing regular plurals and verb tense changes. Thus, this method performs a better index than the simple index word index of INDEX_BY_TOKEN. Therefore INDEX_BY_MA is suitable for basic sections such as 'paper title' or 'abstract'.

INDEX_BY_TOKEN 은 텍스트 검색과 같이 내용 기반의 부분 일치(Partial matching) 검색을 지원해야 하는 섹션에 적용 가능하다. INDEX_BY_TOKEN 색인 방식 은 섹션의 내용 또는 값 전체를 색인어로 사용하는 것이 아니라, 섹션내의 어절 또는 단어들 중에서 색인어를 선정한다. INDEX_BY_TOKEN 은 섹션에서 불용어를 제외한 어절 또는 단어들을 색인어로 추출하는 초보적인 색인 방식으로, 별도의 후처리를 수행하지 않고 원문에 나타난 형태 그대로를 색인어로 사용한다. 따라서 이 방식은 영어로만 작성된 섹션, '사람 이름'이나 '지명'과 같은 고유명사들을 주로 포함하고 있는 섹션이나 논문의 '키워드 리스트'와 같이 별다른 후처리가 필요 없는 섹션들에 적합하다.INDEX_BY_TOKEN is applicable to sections that need to support content-based partial matching searches, such as text searches. The INDEX_BY_TOKEN indexing method selects index terms from the words or words in the section, rather than using the entire contents or values of the section as index terms. INDEX_BY_TOKEN is a rudimentary indexing method that extracts words or words except for stopwords from sections, and uses the index form as it appears in the original text without performing any post-processing. Thus, this approach is suitable for sections that are written only in English, sections that primarily contain proper nouns, such as 'person's name' or 'name', or sections that don't require special post-processing, such as a keyword list of articles.

그리고 개발된 IDX 시스템에 대한 속도 측정 실험을 수행하였다. 실험 환경 및 실험 데이터는 도 31의 표와 같다.And we performed the speed measurement experiment on the developed IDX system. Experimental environment and experimental data are shown in the table of FIG. 31.

도 31은 본 발명에서 속도 측정 실험 환경 및 대상 데이터를 보인 표이다.31 is a table showing the speed measurement experiment environment and the target data in the present invention.

색인 유형은 가장 기본적인 유형인 IndexByMA로 지정하였으며 색인 시간에는 유니코드 변환, 어절 분리, 형태소 분석, 결과 저장 시간 등이 모두 포함되었다.The index type was designated as the most basic type, IndexByMA, and the index time includes Unicode conversion, word separation, stemming, and result storage time.

도 32는 본 발명에서 속도 측정 결과를 보인 표이다.32 is a table showing the results of speed measurement in the present invention.

도 32의 실험 결과에서 대상 데이터의 토큰 수보다 추출된 색인어 개수가 더 많은 이유는 태깅을 수행하지 않고 모든 형태소 분석 결과를 색인어로 제시하기 때문이다. 또한 유니코드 변환이나 어절 분리 및 결과 저장에 걸리는 시간이 전체 색인 시간의 약 30%를 차지하는 것을 알 수 있다.The reason why the number of index words extracted is larger than the number of tokens of the target data in the experimental result of FIG. 32 is that all morphological analysis results are presented as index words without tagging. You can also see that the time required for Unicode conversion, word splitting, and result storage takes about 30% of the total index time.

본 발명에서 구현된 시스템은 어절 분석 속도를 높일 수 있는 최적의 알고리즘으로 구현되었으며, 모듈화된 하부 시스템의 유기적이고 효율적인 결합에 중점을 두고 각 모듈별 성능 및 속도 검증이 가능하도록 하였다. 또한, 재귀적 복합명사 분석을 탈피하여 시스템 부하를 줄였으며 다층적 수사 패턴 인식에 기반한 수사 형태소 분석 기능을 추가하였다. 형태소 분석기의 특징상 성능에 대한 실험 및 평가는 오해의 소지가 상당히 많다. 본 발명에서 개발된 시스템은 품사 태거가 포함된 자동 색인 시스템이 아니므로 분석 정확도에 대한 실험 결과는 그 의미가 매우 제한적일 수밖에 없다. 따라서 불명확한 정확도에 대한 실험결과를 제시하기보다는 시스템의 기능을 분석적으로 설명하는데 중점을 둠으로써 전체적인 시스템의 언어 일반성에 대한 효율적인 처리능력과 언어 특수성에 대한 집중화된 방어능력에 대해서 설명하였다.The system implemented in the present invention was implemented with an optimal algorithm to speed up the word analysis, and focused on the organic and efficient combination of the modular sub-system to enable performance and speed verification for each module. In addition, it reduces the system load by regressing the recursive compound noun analysis, and adds the investigational morpheme analysis function based on the multi-layered investigation pattern recognition. Due to the nature of morphological analyzers, experimentation and evaluation of performance are quite misleading. Since the system developed in the present invention is not an automatic indexing system including a part-of-speech tagger, the experimental results on the analysis accuracy are inevitably limited. Therefore, the study focused on analytical explanations of the function of the system rather than presenting experimental results with indefinite accuracy, thus explaining the efficient handling of the general system's language generality and the centralized defense against language specificity.

실제로 구현된 시스템에 대한 성능 평가 실험을 여러 차례 수행하였고, 결과에 대한 다양한 검증을 시도하였으나 형태소 분석 시스템의 특징상 그 성능을 객관적으로 평가하기에는 무리가 있었다. 그 이유는 다음과 같다. 형태소 분석 시스템은 크게 분석 모듈 구현과 사전 구성으로 구성된다. 어떻게 보면 정확도를 판가름하는 대부분의 분석 기능이 사전에 기초를 두고 있다고 해도 과언이 아니다. 이러한 상황에서 모듈에 대한 정확도의 판가름에 대한 실험은 전체 시스템 평가에 중요한 요소(factor)가 되지 못한다. 또한 형태소 분석 시스템은 분석 가능한 모든 분석 결과를 제시한다. 일반적으로 대부분의 분석 알고리즘은 분석 가능한 범위 한도 내에서 거의 100%의 정확도를 나타낸다. 본 발명에서 구현된 시스템도 마찬가지이다. 따라서 시스템의 정확도나 검증에 초점을 맞추기보다는 시스템이 어떻게 구성되어 있느냐에 중점을 두어 설명했다.We performed several performance evaluation experiments on the implemented system, and tried various verifications on the results, but it was hard to objectively evaluate the performance due to the characteristics of the morphological analysis system. The reason for this is as follows. The morphological analysis system consists of the analysis module implementation and the preconfiguration. In a sense, it is no exaggeration to say that most analysis functions that determine accuracy are based on dictionaries. In this situation, experimentation with the accuracy of the module is not an important factor in the overall system evaluation. The morphological analysis system also presents all possible analytical results. In general, most analysis algorithms are almost 100% accurate within the limits of their analysis. The same applies to the system implemented in the present invention. Therefore, rather than focusing on the accuracy or verification of the system, the focus is on how the system is constructed.

본 발명에서 개발된 시스템의 특징은 어절 분석 속도를 높이기 위하여 품사 사전의 구조화와 탐색 방법에 대한 다양한 접근 방법의 평가를 통해 최적의 알고리즘을 구현하였으며, 전체적인 시스템 구조를 디자인함에 있어서 모듈화된 하부 시스템의 유기적이고 효율적인 결합에 중점을 두고 각 모듈별 성능 및 속도 검증이 가능하도록 하였다. 또한, 대부분의 형태소 분석 시스템에서 적용하고 있는 재귀적 복합명사 분석을 탈피하여 빈번한 재귀적 호출에 따른 시스템 부하를 줄이고 확장성을 도모하였으며, 다층적 수사 패턴 인식에 기반한 수사 형태소 분석 시스템을 개발하여 형태소 분석 시스템과 결합하였다.The characteristic of the system developed in the present invention is to implement the optimal algorithm through the evaluation of various approaches to the structure of the part-of-speech dictionary and the search method in order to speed up the word analysis, and to design the overall system structure of the modular system Focusing on organic and efficient combination, each module can be verified for performance and speed. In addition, it avoids the recursive compound noun analysis applied in most morphological analysis systems, reducing the system load and scalability due to frequent recursive calls, and developed a morphological analysis system based on multi-layered investigation pattern recognition. Combined with the analysis system.

본 발명에서 구현된 형태소 분석 시스템이 정보검색 시스템과 결합하여 검색 결과의 정확도와 재현율을 최적화시키기 위해서는 부가적인 시스템이 추가로 결합되어야 한다. 우선 검색의 대상이 되는 많은 문서가 띄어쓰기, 철자 등을 포함한 다양한 어절 기반 오류를 포함하고 있기 때문에 오류가 포함된 문서를 효과적으로 색인하기 위해서는 자동 띄어쓰기 기능과 철자 교정 기능 등이 자동 색인 엔진과 결합해야 한다. 이러한 문제를 해결하기 위하여 다양한 접근 방법이 시도되었으나 기존의 형태소 분석 시스템은 색인 시스템과 기타 어절 오류 분석 시스템을 독립적으로 결합시키기 때문에 두 종류의 시스템이 서로 교환하고 공유해야 하는 많은 어절 정보들이 소실되게 된다. 따라서 형태소 분석기와 어절 오류 분석기를 유기적으로 통합하는 작업이 요구된다. 이를 위해서 음절 N-gram기반 자동 띄어쓰기 오류 수정 시스템과 오류 패턴에 기반한 철자오류 수정 시스템을 개별적으로 개발하여 성능을 검증하였으며, 이를 유기적으로 통합하면 된다.In order for the morphological analysis system implemented in the present invention to be combined with an information retrieval system to optimize the accuracy and reproducibility of the search results, additional systems must be further combined. First of all, many documents that are searched for contain various word-based errors, including spacing, spelling, etc., so that automatic spacing and spell correction can be combined with the automatic indexing engine to effectively index documents that contain errors. . Various approaches have been attempted to solve this problem, but the conventional stemming system independently combines the indexing system with other word error analysis systems, which results in the loss of many word information that must be exchanged and shared by the two systems. . Therefore, there is a need for an organic integration of the stemmer and word error analyzer. For this purpose, the syllable N-gram-based automatic spacing error correction system and the spelling error correction system based on the error pattern have been separately developed and verified for performance.

이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.Although the above has been described as being limited to the preferred embodiment of the present invention, the present invention is not limited thereto and various changes, modifications, and equivalents may be used. Therefore, the present invention can be applied by appropriately modifying the above embodiments, it will be obvious that such application also belongs to the scope of the present invention based on the technical idea described in the claims below.

도 1은 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 시스템의 블록구성도이다.1 is a block diagram of a Korean morpheme analysis system for automatic indexing according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 의한 자동 색인을 위한 한국어 형태소 분석 방법을 보인 흐름도이다.2 is a flowchart illustrating a method of analyzing Korean morphemes for automatic indexing according to an embodiment of the present invention.

도 3은 본 발명에서 형태소 분석 시스템의 필수 요구사항을 보인 표이다.Figure 3 is a table showing the essential requirements of the morphological analysis system in the present invention.

도 4는 본 발명에서 형태소 분석 시스템 구조를 보인 개념도이다.4 is a conceptual diagram showing the structure of the morpheme analysis system in the present invention.

도 5는 본 발명에서 형태소 분석 결과 저장 구조체를 보인 표이다.5 is a table showing a morphological analysis result storage structure in the present invention.

도 6은 본 발명에서 분석 사전 정보를 보인 표이다.6 is a table showing analysis dictionary information in the present invention.

도 7은 본 발명에서 조사/어미 사전 정보를 보인 표이다.7 is a table showing the survey / mother dictionary information in the present invention.

도 8은 본 발명에서 보조적 연결어미와 보조 용언을 보인 표이다.8 is a table showing the auxiliary connection ending and auxiliary verbs in the present invention.

도 9는 본 발명에서 결합형 보조용언 사전 정보를 보인 표이다.9 is a table showing the combined auxiliary dictionary information in the present invention.

도 10은 본 발명에서 TRIE 사전 음절 노드의 구조를 보인 그래프이다.10 is a graph showing the structure of a TRIE pre-syllable node in the present invention.

도 11은 본 발명에서 TRIE 사전에 표제어가 저장되는 구조를 보인 그래프이다.11 is a graph illustrating a structure in which a headword is stored in a TRIE dictionary in the present invention.

도 12는 본 발명에서 사전 탐색 관련 모듈 API를 보인 표이다.12 is a table showing a dictionary search-related module API in the present invention.

도 13은 본 발명에서 단어생성규칙에 따른 어절 분석 기능을 보인 표이다.13 is a table showing a word analysis function according to the word generation rule in the present invention.

도 14는 본 발명에서 어절 분석 주 모듈 API를 보인 표이다.14 is a table showing a word analysis main module API in the present invention.

도 15는 본 발명에서 체언 분석 및 호출 경로를 보인 개념도이다.15 is a conceptual diagram illustrating a message analysis and call path in the present invention.

도 16은 본 발명에서 체언 분석 모듈 API를 보인 표이다.16 is a table showing the message analysis module API in the present invention.

도 17은 본 발명에서 복합명사 분석시의 가정을 보인 표이다.17 is a table showing assumptions when analyzing a compound noun in the present invention.

도 18은 본 발명에서 복합명사 분석 알고리즘을 보인 흐름도이다.18 is a flowchart illustrating a compound noun analysis algorithm in the present invention.

도 19는 본 발명에서 복합명사 분석을 보인 개념도이다.19 is a conceptual diagram illustrating a compound noun analysis in the present invention.

도 20은 본 발명에서 분석 모드에 따른 용언 분석을 보인 개념도이다.20 is a conceptual diagram illustrating verbal analysis according to an analysis mode in the present invention.

도 21은 본 발명에서 용언 분석 모듈을 보인 표이다.21 is a table showing a verb analysis module in the present invention.

도 22는 본 발명에서 수사 사전 정보를 보인 표이다.22 is a table showing the investigation dictionary information in the present invention.

도 23은 본 발명에서 수사 형태소 분석 알고리즘을 보인 흐름도이다.23 is a flowchart illustrating a rhetorical morphological analysis algorithm in the present invention.

도 24는 본 발명에서 수사 분석 모듈 API를 보인 표이다.24 is a table showing the investigation analysis module API in the present invention.

도 25는 본 발명에서 형식형태소 분석 정보를 보인 표이다.25 is a table showing formal morphological analysis information in the present invention.

도 26은 본 발명에서 체언형 형식형태소의 빈도 순위별 누적빈도를 보인 그래프이다.Figure 26 is a graph showing the cumulative frequency by frequency rank of the teletype formal morphemes in the present invention.

도 27은 본 발명에서 용언형 형식형태소의 빈도 순위별 누적빈도를 보인 그래프이다.27 is a graph showing the cumulative frequency of each frequency rank of the verbal form morpheme in the present invention.

도 28은 본 발명에서 활용꼴 형태소 복원 내용을 보인 표이다.28 is a table showing the contents of the morpheme restoration utilized in the present invention.

도 29는 본 발명에서 IDX 구조를 보인 개념도이다.29 is a conceptual diagram showing an IDX structure in the present invention.

도 30은 본 발명에서 색인 유형을 보인 표이다.30 is a table showing the index type in the present invention.

도 31은 본 발명에서 속도 측정 실험 환경 및 대상 데이터를 보인 표이다.31 is a table showing the speed measurement experiment environment and the target data in the present invention.

도 32는 본 발명에서 속도 측정 결과를 보인 표이다.32 is a table showing the results of speed measurement in the present invention.

* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

100 : 사전 관리부100: pre-management

200 : 형태소 분석부200: morphological analysis unit

210 : 체언 분석 모듈210: Correspondence Analysis Module

211 : 사전 탐색부211: dictionary search unit

212 : 접미사 분석 모듈212: Suffix Analysis Module

213 : '이다' 분석 모듈213: 'ida' analysis module

214 : 동-형 접사 분석 모듈214: isomorphic macro analysis module

215 : 조사 분석 모듈215: Survey Analysis Module

216 : 어미 분석 모듈216: Mother Analysis Module

217 : 복합명사 분석 모듈217: compound noun analysis module

220 : 용언 분석 모듈220: verbal analysis module

221 : 사전 탐색부221: dictionary search unit

222 : 매개모음 분석부222: mediated collection analysis unit

223 : 불규칙 용언 특수 처리부223: irregular processing special processing unit

224 : 보조용언 분석부224: auxiliary verb analysis unit

225 : 보조용언 모드 분석부225: auxiliary verb mode analysis unit

226 : 일반 모드 분석부226: general mode analysis unit

230 : 수사 분석 모듈230: investigation analysis module

240 : 미등록어 분석 모듈240: unregistered word analysis module

250 : 독립언 분석 모듈250: independent analysis module

260 : 유형별 형태소 분석부260: Morphological analysis unit by type

300 : 색인 제공부300: index provider

310 : 유니코드 변환부310: Unicode conversion unit

320 : 결과 처리부320: result processing unit

330 : 한글-한자 변환부330: Hangul-Hanja conversion unit

340 : 어절 분리 관리부340: word separation management unit

350 : 섹션별 불용어 관리부350: stopwords management section

360 : 영어 스태밍 모듈360: English stemming module

Claims (33)

사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부와;A dictionary manager for managing an analysis dictionary by managing a dictionary database; 상기 사전 관리부에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부와;A morpheme analysis unit which receives the analysis pre-management result from the dictionary management unit and performs morphological analysis by modularizing one or more analyzes among message analysis, verbal sentence, rhetoric analysis, unregistered analysis, independent language analysis, and morphological analysis by type; 상기 형태소 분석부에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부;An index provider which receives the result of the morphological analysis from the morphological analyzer and provides an index; 를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 1에 있어서,The method according to claim 1, 상기 사전 관리부는,The pre-management unit, 품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean morpheme analysis system for automatic indexing, characterized in that it manages one or more dictionaries among parts of speech dictionary, functional dictionary including endings and surveys, and formal morpheme dictionary as an analysis dictionary. 청구항 1에 있어서,The method according to claim 1, 상기 사전 관리부는,The pre-management unit, 사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for automatic indexing, generating dictionary file images, performing dictionary lookups, insertions, deletions and alterations. 청구항 1에 있어서,The method according to claim 1, 상기 사전 관리부는,The pre-management unit, 일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for automatic indexing, including general dictionary search, survey dictionary search, and parent dictionary search. 청구항 1에 있어서,The method according to claim 1, 상기 형태소 분석부는,The morpheme analysis unit, 명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 모듈과;A message analysis module for performing a noun equivalent phrase analysis and a compound noun analysis; 동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 모듈과;A verb analysis module for performing verb, adjective and ending analysis; 수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 모듈과;An investigation analysis module for performing investigation of investigation constraint rules and investigation structure; 형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 모듈과;An unregistered word analysis module for performing a morphological preliminary inspection and a real-type boundary diagram inspection; 독립어, 관형사를 분석하는 독립언 분석 모듈과;An independent language analysis module analyzing an independent language and an adjective; 특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 분석 부;A morphological analysis unit for performing a specific positional analysis, a single word analysis, and a buffer analysis; 를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 5에 있어서,The method according to claim 5, 상기 체언 분석 모듈은,The message analysis module, 조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용언화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.A Korean stemming system for automatic indexing, comprising preliminary search and constraint checking, suffix analysis, verbal affix processing, "is" processing, and compound noun processing. 청구항 5에 있어서,The method according to claim 5, 상기 체언 분석 모듈은,The message analysis module, 체언류 품사를 탐색하는 사전 탐색부와;A dictionary search unit for searching for spoken parts of speech; 상기 사전 탐색부의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 모듈과;A suffix analysis module configured to receive a result of the dictionary search unit, perform a suffix dictionary search, and perform special processing on 'and', 'only', and 'only'; 상기 접미사 분석 모듈의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 모듈과;An 'ida' analysis module which receives the result of the suffix analysis module and performs special processing on the 'yi', 'was', and 'da' patterns; 상기 접미사 분석 모듈의 결과를 전달받고, 축약형 특수처리와 불규칙 처리 를 수행하는 동-형 접사 분석 모듈과;A same-type affix analysis module that receives the results of the suffix analysis module and performs abbreviated special processing and irregular processing; 상기 접미사 분석 모듈, 상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈의 결과를 전달받고, 조사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 모듈과;A survey analysis module which receives the results of the suffix analysis module, the 'ida' analysis module, and the same-type affix analysis module, and performs a survey presearch and a survey constraint check; 상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 모듈과;A mother analysis module for receiving a result of the 'ida' analysis module and the same-type macro analysis module and performing a context shift; 상기 접미사 분석 모듈, 상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈, 상기 조사 분석 모듈, 상기 어미 분석 모듈의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 모듈;Receive the results of the suffix analysis module, the 'ida' analysis module, the isotype affix analysis module, the survey analysis module, the mother analysis module, perform element noun determination, and suffix, 'is', A compound noun analysis module for performing adjective and survey analysis; 을 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 7에 있어서,The method according to claim 7, 상기 복합명사 분석 모듈은,The compound noun analysis module, 접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.An automatic index characterized by performing analysis on compound nouns with the assumption that suffixed nouns cannot be elemental nouns of compound nouns1 and the assumption that single-letter nouns cannot be partial nouns of compound nouns. Korean stemming system for the future. 청구항 7에 있어서,The method according to claim 7, 상기 복합명사 분석 모듈은,The compound noun analysis module, 남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Dictionary search is performed at all positions of the remaining analysis words to extract nouns of two or more syllables, and the dictionary information is composed of one vertex together with the position of the current analysis word for the extracted two or more syllable nouns. A Korean morpheme analysis system for automatic indexing, comprising: generating a list of linked nouns by checking each noun location and length and storing them in a matrix. 청구항 5에 있어서,The method according to claim 5, 상기 용언 분석 모듈은,The verb analysis module, "아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.A Korean morpheme analysis system for automatic indexing, which performs "ah / o" abbreviated variant processing, intermediary "o" insertion processing, "ㅏ / ㅐ" variant circular restoration processing, irregular conjugation processing, and mother analysis. 청구항 5에 있어서,The method according to claim 5, 상기 용언 분석 모듈은,The verb analysis module, 용언류 품사를 탐색하는 사전 탐색부와;A dictionary search unit for searching a verbal part-of-speech; 상기 사전 탐색부의 결과를 전달받고, '으' 처리와 생략된 '아' 처리를 수행하는 매개모음 분석부와;An intermediate collection analyzer receiving the result of the preliminary searching unit and performing a 'h' process and an omitted 'a' process; 상기 사전 탐색부의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리부와;An irregular verb special processing unit that receives the result of the pre-search unit and performs deformation and restoration for each irregularity; 상기 매개모음 분석부와 상기 불규칙 용언 특수 처리부의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석부와;An auxiliary verb analysis unit configured to receive the results of the intermediate collection analyzer and the irregular verb special processing unit, and perform a combined auxiliary verb dictionary search, constraint checking, and random variation processing of the auxiliary verb; 상기 보조용언 분석부의 결과를 전달받고, 보조용언으로 시작하는 형식형태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석부와;An auxiliary verb mode analysis unit configured to receive a result of the auxiliary verb analysis unit, and perform verb analysis in an auxiliary verb mode for analyzing formal morphemes starting with the auxiliary verbs; 상기 보조용언 분석부의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석부;A general mode analyzer configured to receive a result of the auxiliary verb analysis unit and to perform verbal analysis in a general mode in which formal morphemes start from a word ending ending; 를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 11에 있어서,The method according to claim 11, 상기 보조용언 모드 분석부 또는 상기 일반 모드 분석부는 각각,The auxiliary verb mode analysis unit or the general mode analysis unit, respectively, 상기 보조용언 분석부의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석부와;A word ending analysis unit configured to receive the result of the auxiliary verb analysis unit to perform dictionary ending search, constraint checking, and mediation analysis; 상기 선어말 어미 분석부의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사부와;A noun type malleable inspection unit which receives the result of the front end ending analysis unit and examines a pattern of 'ㅁ', 'negative', and 'gi'; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되면 문맥 이동을 수행하는 조사 사전 탐색부와;An investigation dictionary search unit for performing a context shift when a 'ㅁ', 'neg', and 'gi' pattern is detected according to a test result of the noun-type malleable checker; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색부;A mother dictionary search unit for searching for a mother dictionary if the 'ㅁ', 'sound', and 'gi' patterns are not detected according to the test result of the noun-type malleable mother checker; 를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 5에 있어서,The method according to claim 5, 상기 수사 분석 모듈은,The investigation analysis module, 수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.A Korean morpheme analysis system for automatic indexing, which includes investigation of rhetorical patterns, unit noun analysis, and tail morpheme analysis. 청구항 5에 있어서,The method according to claim 5, 상기 미등록어 분석 모듈은,The non-registered word analysis module, 고빈도 조사 검사, 형식 형태소 패턴 검사를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean morphological analysis system for automatic indexing, characterized in that it performs a high frequency survey test, a formal morphological pattern test. 청구항 1 내지 청구항 14 중 어느 하나의 항에 있어서,The method according to any one of claims 1 to 14, 상기 색인 제공부는,The index providing unit, 상용조합형, UTF-8, UCS-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환부와;Unicode conversion unit for performing Unicode conversion for commercial combination, UTF-8, UCS-2, UCS-4, complete type; 색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리부와;A result processor for designating an index word position and type, and managing a result buffer; 한글-한자 상호 변환을 수행하는 한글-한자 변환부와;A Hangul-Hanja conversion unit for performing Hangul-Hanja conversion; 입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리부와;A word separation management unit which performs Korean, English, and Japanese detection to separate input words, and performs special processing of sentence encoding unit symbols; 불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리부와;Section-specific stopwords management unit for inserting / deleting stopwords dictionary and searching; 영어 스태밍 기능을 수행하는 영어 스태밍 모듈;An English stemming module for performing an English stemming function; 을 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.Korean stemming system for an automatic index, characterized in that comprises a. 청구항 15에 있어서,The method according to claim 15, 상기 색인 제공부는,The index providing unit, 문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템.INDEX_AS_IS, which extracts the entire contents of a section from a document as an index word, extracts the entire contents of a section from an index word in a document, and performs a morphological analysis on each word of Hangul text at the same time. INDEX_AS_IS_MA, which extracts simple nouns that can represent the contents of the section after identifying the smallest morphological units, etc., INDEX_AS_NUMERIC, which extracts index terms for basic sections of numbers, and one syllable in English for basic sections. In case of Hangul, INDEX_BY_CHAR, which extracts two syllables and performs morphological analysis on each word of Hangul text, classifies the minimum morphological units of nouns, surveys, suffixes, verbs, adjectives, etc. Extract simple nouns as index words, and in English, regular plurals and A Korean stemming system for automatic indexing, comprising one or more index types from INDEX_BY_MA, which extracts stems by processing verb tense, and INDEX_BY_TOKEN, which selects index words among words or words in a section. 사전 데이터베이스를 관리하여 분석 사전을 관리하는 제 1 단계와;Managing a dictionary to manage the dictionary database; 상기 제 1 단계에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 제 2 단계와;A second step of receiving a result of analysis pre-management in the first step, and performing a morphological analysis by modularizing one or more analysis among message analysis, verbal sentence, rhetoric analysis, unregistered analysis, independent language analysis, and morphological analysis by type; 상기 제 2 단계에서의 형태소 분석 결과를 전달받고 색인을 제공하는 제 3 단계;A third step of receiving a result of the morphological analysis in the second step and providing an index; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 17에 있어서,The method according to claim 17, 상기 제 1 단계는,The first step is, 품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A method of analyzing Korean morphemes for an automatic index, characterized by managing one or more dictionaries from a part-of-speech dictionary, a functional dictionary including endings and surveys, and a morphological dictionary. 청구항 17에 있어서,The method according to claim 17, 상기 제 1 단계는,The first step is, 사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A Korean stemming method for automatic indexing, which generates a dictionary file image and performs dictionary search, insertion, deletion and modification. 청구항 17에 있어서,The method according to claim 17, 상기 제 1 단계는,The first step is, 일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean stemming method for automatic indexing, including general dictionary search, survey dictionary search, and parent dictionary search. 청구항 17에 있어서,The method according to claim 17, 상기 제 2 단계는,The second step, 명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 단계와;A message analysis step of performing a noun equivalent phrase analysis and a compound noun analysis; 동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 단계와;Verbal analysis step of performing verb, adjective and ending analysis; 수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 단계와;An investigation analysis step of conducting an investigation constraint investigation and an investigation structure analysis; 형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 단계와;A non-registered word analysis step of performing a morphological preliminary test and a real-type boundary diagram check; 독립어, 관형사를 분석하는 독립언 분석 단계와;An independent language analysis step of analyzing the independent language and the adjective; 특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 단계;A type-specific morpheme step of performing a specific positional analysis, a single word analysis, and a buffer analysis; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 21에 있어서,The method according to claim 21, 상기 체언 분석 단계는, 조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.The verb analysis step, the Korean morpheme analysis method for the automatic index, characterized in that performing a search dictionary search and constraint checking, suffix analysis, suffix affix processing, "is" processing, compound noun processing. 청구항 21에 있어서,The method according to claim 21, 상기 체언 분석 단계는,The message analysis step, 체언류 품사를 탐색하는 사전 탐색 단계와;A dictionary search step of searching for spoken parts of speech; 상기 사전 탐색 단계의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 단계와;A suffix analysis step of receiving a result of the dictionary search step, performing a suffix dictionary search, and performing special processing on 'and', 'only', and 'only'; 상기 접미사 분석 단계의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 단계와;An 'ida' analysis step of receiving the result of the suffix analysis step and performing special processing on the 'yi', 'was' and 'da' patterns; 상기 접미사 분석 단계의 결과를 전달받고, 축약형 특수처리와 불규칙 처리를 수행하는 동-형 접사 분석 단계와;Receiving a result of the suffix analysis step, and performing an abbreviated special process and an irregular process; 상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 조사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 단계와;A survey analysis step of receiving the results of the suffix analysis step, the 'ida' analysis step, and the homo-suffix analysis step, and performing a search dictionary search and a search constraint check; 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 단계와;A mother analysis step of receiving a result of the 'ida' analysis step and the homo-type macro analysis step and performing a context shift; 상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계, 상기 조사 분석 단계, 상기 어미 분석 단계의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 단 계;Receive the results of the suffix analysis step, the 'ida' analysis step, the isotype affix analysis step, the survey analysis step, the ending analysis step, performs element noun determination, the suffix, 'is', Compound noun analysis step that performs adjective and survey analysis; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 23에 있어서,The method according to claim 23, 상기 복합명사 분석 단계는,The compound noun analysis step, 접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.An automatic index characterized by performing analysis on compound nouns with the assumption that suffixed nouns cannot be elemental nouns of compound nouns1 and the assumption that single-letter nouns cannot be partial nouns of compound nouns. Korean morpheme analysis method. 청구항 23에 있어서,The method according to claim 23, 상기 복합명사 분석 단계는,The compound noun analysis step, 남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A dictionary search is performed at all positions of the remaining analytic words to extract nouns of two or more syllables. A method of Korean morpheme analysis for automatic indexing, comprising: generating a list of linked nouns by checking each noun location and length, and storing them in a matrix. 청구항 21에 있어서,The method according to claim 21, 상기 용언 분석 단계는,The verb analysis step, "아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A Korean morpheme analysis method for an automatic index, characterized by performing "ah / o" abbreviated variant processing, intermediary "o" insertion processing, "ㅏ / ㅐ" variant circular reconstruction processing, irregular conjugation processing, and parental analysis. 청구항 21에 있어서,The method according to claim 21, 상기 용언 분석 단계는,The verb analysis step, 용언류 품사를 탐색하는 사전 탐색 단계와;A dictionary search step of searching for a verbal part-of-speech; 상기 사전 탐색 단계의 결과를 전달받고, '으' 처리와 생략된 '아' 처리를 수행하는 매개모음 분석 단계와;Receiving a result of the preliminary search step, and performing an intermediate collection analysis step of performing a 'o' process and an omitted 'a' process; 상기 사전 탐색 단계의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리 단계와;An irregular verb special processing step of receiving a result of the pre-search step and performing deformation and restoration for each irregularity; 상기 매개모음 분석 단계와 상기 불규칙 용언 특수 처리 단계의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석 단계와;An auxiliary verb analysis step of receiving the results of the intermediate collection analysis step and the irregular verb special processing step, and performing a combined auxiliary verb dictionary search, constraint checking, and random variation processing of the auxiliary verb; 상기 보조용언 분석 단계의 결과를 전달받고, 보조용언으로 시작하는 형식형 태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석 단계와;An auxiliary verb mode analysis step of receiving a result of the auxiliary verb analysis step, and performing verbal analysis in an auxiliary verb mode for analyzing a formal word starting with an auxiliary verb; 상기 보조용언 분석 단계의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석 단계;A general mode analysis step of receiving a result of the auxiliary verb analysis step, and performing verbal analysis in a general mode in which formal morphemes start from a word ending ending; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 27에 있어서,The method of claim 27, 상기 보조용언 모드 분석 단계 또는 상기 일반 모드 분석 단계는 각각,The auxiliary verb mode analysis step or the normal mode analysis step, respectively, 상기 보조용언 분석 단계의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석 단계와;A front end ending analysis step of receiving the result of the auxiliary verb analysis step, performing a front end ending search, constraint checking, and an intermediate bar analysis; 상기 선어말 어미 분석 단계의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사 단계와;A noun-type prime ending test step of receiving a result of the step-end ending analysis step and examining a pattern of 'ㅁ', 'neg', and 'gi'; 상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되면 문맥 이동을 수행하는 조사 사전 탐색 단계와;An investigation dictionary search step of performing a context shift when a 'ㅁ', 'neg', and 'gi' pattern is detected according to a test result of the noun-like malleable checker; 상기 명사형 전성어미 검사 단계의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색 단계;A mother dictionary searching step of searching for a mother dictionary if the 'ㅁ', 'sound', and 'gi' patterns are not detected according to the test result of the noun-like prime ending inspection step; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 21에 있어서,The method according to claim 21, 상기 수사 분석 단계는,The investigation analysis step, 수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A Korean morpheme analysis method for an automatic index, characterized by performing rhetorical pattern checking, unit noun analysis, and tail morpheme analysis. 청구항 21에 있어서,The method according to claim 21, 상기 미등록어 분석 단계는,The non-registered word analysis step, 고빈도 조사 검사, 형식 형태소 패턴 검사를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.A Korean morphological analysis method for an automatic index, characterized by performing a high frequency survey test and a formal morphological pattern test. 청구항 17에 있어서,The method according to claim 17, 상기 제 3 단계는,The third step, 상용조합형, UTF-8, UCS-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환 단계와;A Unicode conversion step of performing Unicode conversion for commercial combination, UTF-8, UCS-2, UCS-4, and completion type; 색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리 단계와;A result processing step of designating an index word location and type, and managing a result buffer; 한글-한자 상호 변환을 수행하는 한글-한자 변환 단계와;A Hangul-Hanja conversion step of performing Hangul-Hanja conversion; 입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리 단계와;A phrase separation management step of performing Korean, English, and Japanese detection for the separation of input words, and performing a special processing of a sentence encoding unit code; 불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리 단계와;Section-specific stopwords management step of inserting / deleting stopwords dictionary and searching; 영어 스태밍 기능을 수행하는 영어 스태밍 단계;An English stemming step of performing an English stemming function; 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 17에 있어서,The method according to claim 17, 상기 제 3 단계는,The third step, 문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 한다.INDEX_AS_IS, which extracts the entire contents of a section from a document as an index word, extracts the entire contents of a section from an index word in a document, and performs a morphological analysis on each word of Hangul text, by using nouns, investigations, suffixes, verbs, and adjectives. INDEX_AS_IS_MA, which extracts simple nouns that can represent the contents of the section after identifying the smallest morphological units, etc., INDEX_AS_NUMERIC, which extracts index terms for basic sections of numbers, and one syllable in English for basic sections. In case of Hangul, INDEX_BY_CHAR, which extracts two syllables and performs morphological analysis on each word of Hangul text, classifies the minimum morphological units of nouns, surveys, suffixes, verbs, adjectives, etc. Extract simple nouns as index words, and in English, regular plurals and Among INDEX_BY_TOKEN for selecting the index term among the Eojeol or words within INDEX_BY_MA, the section was treated in such's temporal change to extract the stem is characterized by providing at least one index type. 를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법.Korean morpheme analysis method for an automatic index, characterized in that to perform. 청구항 17 내지 청구항 32 중 어느 하나의 항에 의한 자동 색인을 위한 한국어 형태소 분석 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing a Korean morpheme analysis method for automatic indexing according to any one of claims 17 to 32.
KR1020070068704A 2007-07-09 2007-07-09 System and method for korean morphological analysis for automatic indexing KR100835706B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070068704A KR100835706B1 (en) 2007-07-09 2007-07-09 System and method for korean morphological analysis for automatic indexing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070068704A KR100835706B1 (en) 2007-07-09 2007-07-09 System and method for korean morphological analysis for automatic indexing

Publications (1)

Publication Number Publication Date
KR100835706B1 true KR100835706B1 (en) 2008-06-05

Family

ID=39770254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070068704A KR100835706B1 (en) 2007-07-09 2007-07-09 System and method for korean morphological analysis for automatic indexing

Country Status (1)

Country Link
KR (1) KR100835706B1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101275391B1 (en) 2012-04-06 2013-06-17 엔에이치엔(주) Data indexing method and system for serch servise supporting unicode
KR101472029B1 (en) 2014-09-02 2014-12-16 김창환 Natural language-based syntax analysis method using index element and system thereof
KR20160066387A (en) 2014-12-02 2016-06-10 울산대학교 산학협력단 Method and apparatus of estimating unregistered noun for morpheme analyzer
KR101663454B1 (en) * 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using keyword weight and method thereof
KR101663453B1 (en) * 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using morpheme transform type and method thereof
KR20190059826A (en) * 2017-11-23 2019-05-31 숙명여자대학교산학협력단 Apparatus for tokenizing based on korean affix and method thereof
KR20190066859A (en) 2017-12-06 2019-06-14 주식회사 데이터스트림즈 Korean morphological analysis method
KR20200075539A (en) * 2018-12-18 2020-06-26 (주)아이브릭스 Method and apparatus for structuring patent claims
KR20220047027A (en) * 2020-10-08 2022-04-15 명지대학교 산학협력단 A system for selecting Media Things (MThings) for performing a mission by using service descriptions in the Internet of Media Things (IoMT), a method therefor, and a computer-readable recording medium in which a program that performs this method is recorded

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000021962A (en) * 1998-09-30 2000-04-25 정선종 Apparatus and method for analyzing korea morphemic based on previous analysis by part character series
KR20020051596A (en) * 2000-12-23 2002-06-29 오길록 Automatic sentence indexing method
KR20040101678A (en) * 2003-05-26 2004-12-03 한국전자통신연구원 Apparatus and method for analyzing compounded morpheme

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000021962A (en) * 1998-09-30 2000-04-25 정선종 Apparatus and method for analyzing korea morphemic based on previous analysis by part character series
KR20020051596A (en) * 2000-12-23 2002-06-29 오길록 Automatic sentence indexing method
KR20040101678A (en) * 2003-05-26 2004-12-03 한국전자통신연구원 Apparatus and method for analyzing compounded morpheme

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
한국공개특허 2000-0021962 A
한국공개특허 2002-0051596 A
한국공개특허 2004-0101678 A

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101275391B1 (en) 2012-04-06 2013-06-17 엔에이치엔(주) Data indexing method and system for serch servise supporting unicode
KR101472029B1 (en) 2014-09-02 2014-12-16 김창환 Natural language-based syntax analysis method using index element and system thereof
KR20160066387A (en) 2014-12-02 2016-06-10 울산대학교 산학협력단 Method and apparatus of estimating unregistered noun for morpheme analyzer
KR101663454B1 (en) * 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using keyword weight and method thereof
KR101663453B1 (en) * 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using morpheme transform type and method thereof
KR20190059826A (en) * 2017-11-23 2019-05-31 숙명여자대학교산학협력단 Apparatus for tokenizing based on korean affix and method thereof
KR102042991B1 (en) * 2017-11-23 2019-11-11 숙명여자대학교산학협력단 Apparatus for tokenizing based on korean affix and method thereof
KR20190066859A (en) 2017-12-06 2019-06-14 주식회사 데이터스트림즈 Korean morphological analysis method
KR20200075539A (en) * 2018-12-18 2020-06-26 (주)아이브릭스 Method and apparatus for structuring patent claims
KR102181677B1 (en) * 2018-12-18 2020-11-24 (주)아이브릭스 Method and apparatus for structuring patent claims
KR20220047027A (en) * 2020-10-08 2022-04-15 명지대학교 산학협력단 A system for selecting Media Things (MThings) for performing a mission by using service descriptions in the Internet of Media Things (IoMT), a method therefor, and a computer-readable recording medium in which a program that performs this method is recorded
KR102444435B1 (en) * 2020-10-08 2022-09-16 명지대학교 산학협력단 A system for selecting Media Things (MThings) for performing a mission by using service descriptions in the Internet of Media Things (IoMT), a method therefor, and a computer-readable recording medium in which a program that performs this method is recorded

Similar Documents

Publication Publication Date Title
KR100835706B1 (en) System and method for korean morphological analysis for automatic indexing
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
US10296584B2 (en) Semantic textual analysis
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
US8280721B2 (en) Efficiently representing word sense probabilities
US20090089047A1 (en) Natural Language Hypernym Weighting For Word Sense Disambiguation
US20050197829A1 (en) Word collection method and system for use in word-breaking
Packer et al. Extracting person names from diverse and noisy OCR text
JP2000315216A (en) Method and device for retrieving natural language
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
JP2011118689A (en) Retrieval method and system
Afzal et al. Semantically enhanced concept search of the Holy Quran: Qur’anic English WordNet
Hazman et al. Ontology learning from domain specific web documents
US8229970B2 (en) Efficient storage and retrieval of posting lists
Garrido et al. TM-gen: A topic map generator from text documents
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
Nguyen et al. An ontology-based approach for key phrase extraction
KR20030006201A (en) Integrated Natural Language Question-Answering System for Automatic Retrieving of Homepage
Sembok et al. A rule and template based stemming algorithm for Arabic language
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
Altan A Turkish automatic text summarization system
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
KR100745367B1 (en) Method of index and retrieval of record based on template and question answering system using as the same
Vickers Ontology-based free-form query processing for the semantic web

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130410

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150707

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20181127

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190529

Year of fee payment: 12