KR100886687B1 - 중국어 미등록어 자동 추출 방법 및 장치 - Google Patents

중국어 미등록어 자동 추출 방법 및 장치 Download PDF

Info

Publication number
KR100886687B1
KR100886687B1 KR1020070129360A KR20070129360A KR100886687B1 KR 100886687 B1 KR100886687 B1 KR 100886687B1 KR 1020070129360 A KR1020070129360 A KR 1020070129360A KR 20070129360 A KR20070129360 A KR 20070129360A KR 100886687 B1 KR100886687 B1 KR 100886687B1
Authority
KR
South Korea
Prior art keywords
word
unregistered
extracting
words
token
Prior art date
Application number
KR1020070129360A
Other languages
English (en)
Inventor
윤창호
권오욱
오영순
노윤형
최승권
서영애
이기영
양성일
김창현
김영길
김운
황영숙
박은진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070129360A priority Critical patent/KR100886687B1/ko
Application granted granted Critical
Publication of KR100886687B1 publication Critical patent/KR100886687B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 중국어 미등록어 자동 추출 기술에 관한 것으로, 중국어 문장이 포함된 웹문서를 입력받으면, 입력된 웹문서의 html 태그를 제거하고, 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하며, 형태소 분석을 진행하여 분석결과를 출력하고, 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 것을 특징으로 한다. 본 발명에 의하면, 중국어 미등록어 추출방식을 통하여 쉽고 빠르게 중국어 분석용 사전을 구축 할 수 있으며, 특히 신조어, 미등록 용언에 대한 사전 보강은 실제 웹문서 번역시스템에 있어서 정확도를 크게 향상 시킬 수 있다.
Figure R1020070129360
중국어, 어근, 단음절, 메타 태그 정보

Description

중국어 미등록어 자동 추출 방법 및 장치{METHOD AND APPARATUS FOR AUTO-DETECTING OF UNREGISTERED WORD IN CHINESE LANGUAGE}
본 발명은 중국어 번역 기술에 관한 것으로서, 특히 기존의 기계번역 시스템에 내장된 통계적 고유명사 추출 방법과는 달리, 실제 번역 대상인 대용량의 웹 문서를 대상으로 하여 html 태그, 통계 정보, 단음절 토큰 등 정보를 이용하여 중국어 미등록어를 추출하는데 적합한 중국어 미등록어 자동 추출 방법 및 장치에 관한 것이다.
본 발명은 정보통신부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용 특화 한중영 자동번역 기술 개발].
기존의 중국어 미등록어 추출에 관한 연구는 고유명사 추출에 집중 되었다. 인명, 지명, 조직명을 포함하는 고유명사는 기계번역 시스템에서 미등록어가 될 가능성이 비교적 크다. 따라서 고유명사를 자동 추출하기 위해 통계적인 방법을 많이 사용하고 있다.
고유명사가 정확하게 태깅된 코퍼스(Corpus)를 이용하여 고유명사의 시작 토 큰, 고유명사의 가운데 토큰, 고유명사의 마지막 토큰에 대한 태깅 정보를 획득하고, 좌우 문맥 정보를 추가하여 자동학습을 진행하여 추정 모듈을 만들고, 이 모듈을 이용하여 고유명사 추정을 진행한다. 고유명사 중 일반 중국어 단어가 인명으로 사용될 수 있기 때문에, 인명 추출 성능이 지명이나 조직명보다 낮다. 이 방법은 고유명사 정보가 부착된 대용량 학습 코퍼스가 필요하기 때문에, 코퍼스의 양과 질에 따라서 그 성능이 좌우된다. 따라서 낮은 성능의 고유명사 추정 모듈을 기계번역 시스템에 적용하게 되면, 잘못된 추정결과가 오적용 되어 번역 성능의 저하를 초래한다.
상기한 바와 같이 동작하는 종래 기술에 의한 중국어 번역 시스템에 있어서, 웹 문서 대상의 중한 기계번역 시스템에서의 미등록어는, 고유명사뿐만 아니라, 웹에서 새롭게 계속 만들어지는 신조어, 축약어, 전문용어 등을 포함한다. 따라서 기존의 고유명사 추정 방법으로는 신조어와 같은 미등록어 추출이 불가능하다.
그 이유는 학습코퍼스가 없고, 학습코퍼스가 있다고 가정하여도 신조어를 이루는 구성 성분의 두드러진 특성이 없기 때문에 추정이 불가능하다는 문제점이 있었다.
이에 본 발명은, 실제 번역 대상인 대용량의 웹 문서를 대상으로 하여 html 태그 정보, 통계 정보, 단음절 토큰 정보를 이용하여 중국어 미등록어를 추출할 수 있는 중국어 미등록어 자동 추출 방법 및 장치를 제공한다.
본 발명의 일 실시예 방법은, 중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 과정과, 상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 과정과, 형태소 분석을 진행하여 분석결과를 출력하는 과정과, 상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 상기 메타 태그 정보에 포함된 단어 를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 과정을 포함한다.
본 발명의 일 실시예 장치는, 중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 제거부와, 상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 태그 분류부와, 형태소 분석을 진행하여 분석결과를 출력하는 형태소 분석부와, 상기 분석 결과를 이용하여 어근 중심의 미등록어를 어근 중심 추출 모듈과, 단음절 토큰을 중심으로 미등록어를 추출하는 단음절 중심 추출 모듈과, 4음절로된 동사 미등록어를 추출하는 동사 중심 추출 모듈을 포함하는 일반 태그를 이용한 추출 방식부와, 상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부와, 상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 메타 태그를 이용한 추출 방식부를 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 중국어 미등록어 추출방식을 통하여 쉽고 빠르게 중국어 분석용 사전을 구축 할 수 있으며, 특히 신조어, 미등록 용언에 대한 사전 보강은 실제 웹문서 번역시스템에 있어서 정확도를 크게 향상 시킬 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기 에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 실제 번역 대상인 대용량의 웹 문서를 대상으로 하여 HTML 태그 정보와, 형태소 분석을 통한 통계적 정보와, 단음절 토큰의 단어 가능 여부를 판단하고, 그 정보를 이용하여 중국어 미등록어를 추출하는 것이다.
즉, 태그 분류 모듈을 통해 메타 태그로 분류 된 문장은 토큰 길이 별로 분류하고, 빈도 정보를 구하여 각각 추출하고, 일반 태그로 분류된 문장은 통계정보를 이용한 미등록어 추출 방식으로서, 어근을 중심으로 추출하는 모듈과 나열된 단음절 토큰을 중심으로 추출하는 모듈과 연속된 동사로 태깅된 토큰을 중심으로 추출하는 모듈을 이용하여 미등록어를 추출한다. 또한, 단음절 토큰의 단어가능 여부를 이용한 미등록어 추출 방식으로 단음절 토큰 판단 모듈과 그 결과를 이용한 미등록어 추정 모듈을 이용하여 미등록어를 추출한다.
도 1은 본 발명의 바람직한 실시예에 따른 미등록어 자동 추출 장치의 구조를 도시한 블록도이다.
도 1을 참조하면, 미등록어 자동 추출 장치(100)는 HTML 디태깅 모듈(102)과, 태그 분류 모듈(104), 일반 태그를 이용한 추출 방식부(108), 메타 태그를 이 용한 추출 방식부(108)를 포함하며, 일반 태그를 이용한 추출 방식부(108)는 통계적 추출 방식부(112)와, 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부(122)를 포함한다.
이에 미등록어 자동 추출 장치(100)를 이용하여 중국어 미등록어의 자동 추출을 수행하는 과정을 구체적으로 설명하면, 실시간으로 업데이트 되는 실제 웹문서가 미등록어 자동 추출 장치(100)에 입력되면, 먼저 HTML 디태깅 모듈(102)에서는 웹문서에서 html 태그를 제거하고, 이를 태그 분류 모듈(104)로 전달한다. 태그 분류 모듈(104)에서는 문장별로 메타 태그와, 링크 태그 그리고 일반 태그로 분류하여 처리를 수행하는 것으로서, 메타 태그로 분류된 문장은 메타 태그를 이용한 추출 방식부(108)에서 처리되며, 일반 태그로 분류된 문장은 일반 태그를 이용한 추출 방식부(106)에서 처리되어 문장내의 미등록어를 추출하게 된다.
여기서, 메타 태그 정보를 이용한 미등록어 추출방법은, 웹 문서 작성자가 기 구축해놓은 메타 정보를 쉽게 이용하여, 쉽고 빠르게 미등록어를 구축하고자 하는 것이며, 형태소 분석 결과를 이용한 통계적인 추출방법은, 신조어 등 미등록어가 단음절 토큰으로 잘린다는 특성을 이용하여 미등록어 추출 재현율을 높이고자 하는 것이다.
먼저, 메타 태그를 이용한 추출 방식부(108)에서의 처리 방식을 설명하면, 웹 개발자가 웹문서를 작성 할 때 해당 문서의 내용을 요약하기 위해 메타 태그의 키워드(keyword), 디스트립션(discription) 속성에 문서 내용을 대표하는 키워드들을 부착한다. 이 키워드는 명사가 대부분이며, 그 중 신조어 혹은 전문용어가 많이 사용된다. 쉽고 빠르게 대량의 신규 구축된 웹문서를 확보 할 수 있다는 점을 이용하여, 메타 태그에 사용된 키워드 값을 수집하면 완전하지 않지만 적은 노력으로 미등록어를 추출하는 것이 가능하다. 키워드를 토큰 길이별로 분류하고, 빈도를 구하면 단일어와 복합명사를 각각 추출할 수 있다.
즉, 키워드를 토큰 길이별로 분류하는 것으로, 1토큰으로 이루어진 단어는 빈도수를 산출하여, 기 설정된 빈도수 보다 많은 횟수가 탐색되는 경우는 이를 미등록어로 추출한다. 또한, 2토근 이상으로 이루어진 단어에 대해서는 먼저 형태소 분석을 수행(132)하여 형태소 분석결과 명사인 경우는 복합명사(134)로서 추출하게 된다. 이로써, 추출된 미등록어는 미등록어 추정결과 3(134)으로 추출된다.
한편, 일반 태그를 이용한 추출 방식부(106)에서의 처리 방식을 설명하면, 반 태그를 이용한 추출 방식부(106)에서 통계적 추출 방식(112)은 어근 중심 추출 모듈(114), 단음절 토큰 중심 추출 모듈(116), 동사 중심 추출 모듈(118)과 같이 3가지 서브 모듈(114, 116, 118)로 구성된다. 3가지 서브 모듈(114, 116, 118)은 각각 독립적인 모듈로서 각각 장점을 갖고 있다. 먼저 어근 중심 추출 모듈(114)은, 어근을 중심으로 미등록어를 추출하는 모듈로서, 여기서 어근은 "山, 節, 街頭, 村, 學校, 公司" 등과 같이 지명, 지리, 회사, 학교 등 고유명사의 맨 뒤에 오는 접미사이다. 이러한 접미사를 중심으로 고유명사가 구성이 된다는 특성을 이용하여 미등록어를 추출하는 방법이다.
그러므로 기 보유 사전 및 코퍼스를 이용하여 고 빈도 어근 사전을 구축하고, 형태소 분석을 통하여 얻어진 결과에서 어근 사전을 이용하여 어근을 검색하 고, 검색된 어근을 중심으로 품사정보와 단어길이를 이용하여 미등록어 범위를 추정함으로써, 미등록어로서 추출한다.
단음절 토큰 중심 추출 모듈(116)은, 단음절 토큰을 중심으로 미등록어를 추출하는 모듈로서, 사전에 등록되지 않은 미등록어는 형태소 분석(110) 시에 단음절 토큰으로 분리되는 특성이 있다. 예를 들면 "
Figure 112007089465980-pat00001
"라는 미등록어가 포함된 중국어 입력문장이 들어오면 "深/형용사
Figure 112007089465980-pat00002
/명사" 으로 단음절 토큰으로 분리하여 분석될 가능성이 매우 높다. "深"와 같은 단음절 토큰은 중국어에서 "깊다"라는 형용사로서 자주 쓰이는 일반 단어이기 때문에 단어분석이 잘못되면 번역 성능에 치명적인 저하를 초래한다. 연속된 단음절 토큰으로 분리된 문자열은 원래 하나의 단어일 확률이 크며, 따라서 이러한 단음절 토큰열은 미등록어 추출 후보로 선택하고, 빈도 정보를 구하여 기 설정된 빈도수를 초과하여 기재되어 있는 경우는 미등록어로서 추출한다.
동사 중심 추출 모듈(118)은, 연속된 동사로 태깅된 토큰을 중심으로 미등록어를 추출하는 모듈로서, 중국어 용언 중에는 4음절로 구성된 단어가 많이 있으며, 이 중 사자성어가 많이 포함되었을 뿐만 아니라, 사자성어는 아니지만 실제 자주 쓰이어 하나의 굳어진 용언으로 된 단어들이 많다. 이런 단어들은 대부분 미등록어 용언이고, 이들을 추출하기 위하여 연속된 동사열 빈도를 이용하여 4음절 미등록 용언을 추출한다. 이에 상기와 같이 3가지 서브 모듈(114, 116, 118)을 통해 미등록어 추정결과1(120)로서 추출한다.
일반 태그를 이용한 추출 방식부(106)에서 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부(122)는 기존의 단음절 토큰 열을 이용한 미등록어 추출 방식에 대해 보완한 장치라고 볼 수 있다. 단음절 토큰 열을 이용한 방식은 선택 기준이 오직 단음절 토큰 열이어야 하기 때문에 "
Figure 112007089465980-pat00003
/마우스깔개"와 같이 "鼠標/마우스
Figure 112007089465980-pat00004
/깔다" 두음절 + 한음절로 구성된 미등록어에 대해서는 추출할 수 없다. 이 문제를 해결하기 위하여, 정확히 태깅된 학습코퍼스를 이용하여 학습을 진행한다.
기존의 방법에서 사용된 학습코퍼스는 고유명사 정보가 부착된 학습코퍼스였기에 양과 질적인 면에서 모두 제약을 받았지만, 본 장치에서 사용되는 학습코퍼스는 단어분리와 품사정보만으로 충분하기에, 대량의 학습코퍼스를 쉽게 구할 수 있다.
이에 단음절 토큰의 단어 여부 판단 모듈(124)에서는 학습코퍼스에서 먼저 단어분리 정보를 이용하여 중국어 각각 문자들이 단독으로 단어로 될 확률, 단어의 앞에 올 확률, 뒤에 올 확률 등 통계 정보를 구한다. 또한 단음절이 독립적으로 단어로 가능할 때 좌우 단어의 품사 정보를 참조하여 통계정보를 보완한다. 이렇게 학습된 모듈을 통하여 입력으로 들어온 단음절 토큰이 독립적으로 한 단어로 가능한지를 판단한다.
이후, 단음절 토큰 중심 미등록어 추정 모듈(126)에서 만일 확률 값이 기 설정된 임계값을 넘지 못한다면 독립적으로 분리할 수 없다고 판단하고, 즉 잘못 분리되었다고 판단하고, 이 토큰을 중심으로 품사정보를 이용하여 좌우로 확장을 시 도한다. 확장 휴리스틱에 근거하여 추정한 미등록어 후보들을 길이에 따라 분류하고 빈도를 구함으로써 미등록어 추정결과 2(128)로서, 추출을 진행한다.
도 2는 본 발명의 바람직한 실시예에 따른 미등록어 자동 추출 장치의 미등록어 자동 추출 절차를 도시한 흐름도이다.
도 2를 참조하면, 200단계에서 웹문서를 입력받은 경우 202단계에서 HTML 태그를 제거하고, 204단계에서 입력된 웹문서의 문장별로 태그 분류를 수행하게 된다. 이에 206단계에서 태그가 메타 태그인 경우는 208단계로 진행하여 토큰 길이별 단어를 분류하여, 210단계에서 토큰 길이가 1토큰인 경우는 212단계로 진행하여 기 설정된 빈도수 이상의 단어가 메타 태그로 나오는 경우는 고빈도 단어로 추출하여 228단계로 진행한다. 또한, 2토큰 이상의 단어인 경우는 214단계로 진행하여 형태소를 분석하고, 분석된 형태소가 명사인 경우는 복합 명사로서 추출하여 228단계로 진행한다.
한편, 206단계에서 태그가 일반태그인 경우에는, 218단계 일반 태그인 경우는 218단계에서 형태소를 분석하고, 220단계에서 먼저, 어근 중심으로 미등록어를 추출하고, 222단계에서 단음절 중심으로 미등록어를 추출한다. 그리고 224단계에서는 동사 중심의 미등록어를 추출하고, 226단계에서는 단음절 토큰 중심의 미등록어를 추출하여 228단계로 진행하다. 여기서, 220단계 내지 226단계의 순서는 구현되는 방식에 따라 단계별 처리 순서가 바뀔 수 있다. 이후 228단계에서는 최종적으로 각각의 미등록어로서 추출된 단어들을 미등록어 추정결과를 출력하게 된다.
상기와 같이 대용량 웹문서를 이용한 중국어 미등록어 추출 장치는, 중국어 미등록어를 추출하기 위해 여러가지 특성들을 각각 분석하고, 이용하여, 신조어, 축약어, 전문용어, 미등록 동사 등에 대해 가능한 많고, 정확한 미등록어를 추출함으로써, 중국어 분석 사전 구축을 보다 쉽고 효율적으로 수행한다.
이상 설명한 바와 같이, 본 발명은 실제 번역 대상인 대용량의 웹 문서를 대상으로 하여 HTML 태그 정보와, 형태소 분석을 통한 통계적 정보와, 단음절 토큰의 단어 가능 여부를 판단하고, 그 정보를 이용하여 중국어 미등록어를 추출한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 바람직한 실시예에 따른 미등록어 자동 추출 장치의 구조를 도시한 블록도,
도 2는 본 발명의 바람직한 실시예에 따른 미등록어 자동 추출 장치의 미등록어 자동 추출 절차를 도시한 흐름도,
도 3은 본 발명의 바람직한 실시예에 따른 위치 정보 서버의 구조를 도시한 블록도,
< 도면의 주요 부분에 대한 부호 설명 >
100: 미등록어 자동 추출 장치 102: HTML 태그 제거
104: 태그 분류 106: 일반 태그를 이용한 추출 방식
108: 메타 태그를 이용한 추출 방식 110: 형태소 분석
112: 통계적 추출 방식 114: 어근 중심 추출
116: 단음절 토큰 중심 추출 118: 동사 중심 추출
122: 단음절 토큰의 단어 가능 여부를 이용한 추출 방식
124: 단음절 토큰의 단어 여부 판단 모듈
126: 단음절 토큰 중심 미등록어 추정 모듈
130: 고빈도 단어 추출 132: 형태소 분석
134: 복합 명사 추출

Claims (8)

  1. 중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 과정과,
    상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 과정과,
    형태소 분석을 진행하여 분석결과를 출력하는 과정과,
    상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 과정
    을 포함하는 중국어 미등록어 자동 추출 방법.
  2. 제 1항에 있어서,
    상기 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하는 과정과,
    단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미등록어로 추출하는 과정과,
    동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추 출하는 과정
    을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법.
  3. 제 1항에 있어서,
    상기 방법은,
    학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하는 과정과,
    상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용하여 확장을 통하여 미등록어를 추출하는 과정
    을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법.
  4. 제 1항에 있어서,
    상기 방법은,
    상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하는 과정과,
    상기 토큰 길이가 1이며, 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하는 과정과,
    상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 과정
    을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법.
  5. 중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 제거부와,
    상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 태그 분류부와,
    형태소 분석을 진행하여 분석결과를 출력하는 형태소 분석부와,
    상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 어근 중심 추출 모듈과, 단음절 토큰을 중심으로 미등록어를 추출하는 단음절 중심 추출 모듈과, 4음절로 된 동사 미등록어를 추출하는 동사 중심 추출 모듈을 포함하는 일반 태그를 이용한 추출 방식부와,
    상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부와,
    상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 메타 태그를 이용한 추출 방식부
    를 포함하는 중국어 미등록어 자동 추출 시스템.
  6. 제 5항에 있어서,
    상기 일반 태그를 이용한 추출 방식부는,
    상기 형태소 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하고,
    단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미 등록어로 추출하고,
    동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템.
  7. 제 5항에 있어서,
    상기 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부는,
    학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하고, 상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용한 확장을 통하여 미등록어를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템.
  8. 제 5항에 있어서,
    상기 메타 태그를 이용한 추출 방식부는,
    상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하여, 상기 토큰 길이가 1인 경우에 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하고,
    상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템.
KR1020070129360A 2007-12-12 2007-12-12 중국어 미등록어 자동 추출 방법 및 장치 KR100886687B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070129360A KR100886687B1 (ko) 2007-12-12 2007-12-12 중국어 미등록어 자동 추출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070129360A KR100886687B1 (ko) 2007-12-12 2007-12-12 중국어 미등록어 자동 추출 방법 및 장치

Publications (1)

Publication Number Publication Date
KR100886687B1 true KR100886687B1 (ko) 2009-03-04

Family

ID=40697643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070129360A KR100886687B1 (ko) 2007-12-12 2007-12-12 중국어 미등록어 자동 추출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100886687B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242296B2 (en) 2014-01-28 2019-03-26 Samsung Electronics Co., Ltd. Method and device for realizing chinese character input based on uncertainty information
KR20210076877A (ko) * 2019-12-16 2021-06-24 부산대학교 산학협력단 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
KR20230068092A (ko) 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063815A (ko) * 2003-12-19 2005-06-28 한국전자통신연구원 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
JP2005339347A (ja) 2004-05-28 2005-12-08 Toshiba Corp 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
KR20060042296A (ko) * 2004-11-09 2006-05-12 삼성전자주식회사 사전 업데이트 방법 및 그 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063815A (ko) * 2003-12-19 2005-06-28 한국전자통신연구원 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
JP2005339347A (ja) 2004-05-28 2005-12-08 Toshiba Corp 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
KR20060042296A (ko) * 2004-11-09 2006-05-12 삼성전자주식회사 사전 업데이트 방법 및 그 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242296B2 (en) 2014-01-28 2019-03-26 Samsung Electronics Co., Ltd. Method and device for realizing chinese character input based on uncertainty information
KR20210076877A (ko) * 2019-12-16 2021-06-24 부산대학교 산학협력단 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
KR102604758B1 (ko) * 2019-12-16 2023-11-22 부산대학교 산학협력단 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
KR20230068092A (ko) 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Similar Documents

Publication Publication Date Title
Faaß et al. Sdewac–a corpus of parsable sentences from the web
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Lita et al. Truecasing
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN106570171A (zh) 一种基于语义的科技情报处理方法及***
US20120035914A1 (en) System and method for handling multiple languages in text
KR940022316A (ko) 일문 문서용 키 워드 추출장치
WO2017177809A1 (zh) 语言文本的分词方法和***
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
Savary et al. Without lexicons, multiword expression identification will never fly: A position statement
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
Hazman et al. Ontology learning from domain specific web documents
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
KR20110017129A (ko) 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체
KR100886687B1 (ko) 중국어 미등록어 자동 추출 방법 및 장치
CN111680493B (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Sunitha et al. Automatic summarization of Malayalam documents using clause identification method

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111208

Year of fee payment: 20