KR101335144B1 - 도메인 대역어 추천 시스템 및 그 방법 - Google Patents

도메인 대역어 추천 시스템 및 그 방법 Download PDF

Info

Publication number
KR101335144B1
KR101335144B1 KR1020120019527A KR20120019527A KR101335144B1 KR 101335144 B1 KR101335144 B1 KR 101335144B1 KR 1020120019527 A KR1020120019527 A KR 1020120019527A KR 20120019527 A KR20120019527 A KR 20120019527A KR 101335144 B1 KR101335144 B1 KR 101335144B1
Authority
KR
South Korea
Prior art keywords
word
bandword
candidate
band
frequency
Prior art date
Application number
KR1020120019527A
Other languages
English (en)
Other versions
KR20130097890A (ko
Inventor
김판구
최동진
김정인
고미아
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Priority to KR1020120019527A priority Critical patent/KR101335144B1/ko
Publication of KR20130097890A publication Critical patent/KR20130097890A/ko
Application granted granted Critical
Publication of KR101335144B1 publication Critical patent/KR101335144B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 번역할 단어 입력 및 추천 대역어에 관한 정보를 표시하는 디스플레이부와, 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 그 후보 단어의 빈도수와 가중치를 계산한 뒤, 기 설정된 임계값 이상인 데이터들만 선정하여 대역어 데이터베이스를 구축하는 대역어 데이터 베이스부와, 상기 디스플레이부에 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고, 상기 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어 순으로 디스플레이부에 출력하는 추천 대역어 결정부를 포함하여 구성된 것을 특징으로 하는 도메인 대역어 추천 시스템 및 그 방법을 제공한다.
본 발명의 도메인 대역어 추천 시스템 및 그 방법에 따르면, 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있다.

Description

도메인 대역어 추천 시스템 및 그 방법{System and Method for Recommending Alternative Words for Specific Domain Area}
본 발명은 도메인 대역어 추천 시스템 및 그 방법에 관한 것으로, 좀 더 상세하게는 한글단어의 입력시 기존 대역어 사전을 검색하여 후보대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어를 우선으로 예시문과 함께 사용자에게 제공하는 도메인 대역어 추천 시스템 및 그 방법에 관한 것이다.
기존의 대역어 사전 구축 방법은 예를 들어 영어 문서와 번역된 한글 문서를 1:1 매칭 분석하여 전문가에 의해 수동으로 또는 공기어휘(Co-occurrence words)를 이용하여 대역어를 선정하였다.
이러한 기존의 대역어 사전들은 한국어와 의미적, 문맥적으로 일치하는 단어를 제공하지 못하고 단편적인 번역수준으로만 접근하고 있다. 즉, 단어의 문맥적 상황을 고려하지 않고 단순히 의미가 유사할 경우 대역어로 사용자에게 제공해주고 있다.
이러한 대역어 사전을 이용하여 영어작문을 하는 경우, 한국어 뜻에 걸 맞는 영어의 정확한 단어 선정이 매우 어렵고, 단어 선정이 잘못된 경우 의미전달을 명확히 하지 못한 경우가 발생 되게 된다.
따라서, 해당 대역어 국가의 사람들이 흔히 사용하는 특정 도메인 영역에서 단어를 수집하고 추출하여 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소할 수 있는 대역어 추천시스템 및 그 방법이 요구된다.
한국공개특허: 10-2008-0039009 (공개일 2008. 05.07)
한국등록특허: 10-0892003 (공고일 2009. 04.07)
본 발명은 종래의 문제점을 해결하기 위해 안출 된 것으로서,
본 발명의 목적은 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고 그 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축한 다음, 기존 대역어 사전을 기반으로 번역할 단어의 후보 대역어들을 추출하고, 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 예시문과 함께 사용자에게 제공되는 도메인 대역어 추천 시스템 및 그 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위해 제공되는 일 관점에 따른 본 발명의 도메인 대역어 추천 시스템은 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 출력이 이루어지는 것을 특징으로 한다.
상기 시스템은 번역할 단어 및 대역어 검색실행명령을 입력하는 디스플레이부와, 특정 도메인 대용량 문서에서 대역어 후보 단어를 추출하고 추출된 대역어 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부와, 상기 디스플레이부에 입력된 단어의 대역어 검색신호를 받아 기존 대역어 사전을 기반으로 후보 대역어를 추출한 다음 상기 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교한 후 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부에 출력하는 추천 대역어 결정부로 구성되는 것을 특징으로 한다.
여기서, 상기 디스플레이부는 터치에 의해 입력이 이루어지는 터치스크린이 적용되는 것이 바람직하다.
그리고, 상기 디스플레이부에 출력되는 추천 대역어에 대한 정보는 추천 대역어와, 빈도수와, 예시문을 포함한다.
상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 대역어 후보 단어를 추출하고, 아울러 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 한다.
또한, 상기 대역어 데이터베이스부는 대역어 후보 단어의 출현 빈도수 및 가중치를 계산한 뒤 기 설정된 임계값 이상의 대역어 후보 단어들만 선정하여 대역어 데이터베이스를 구축한 것을 특징으로 한다.
다른 관점에 따른 본 발명의 도메인 대역어 추천 시스템은 번역할 단어 입력 및 추천 대역어에 관한 정보를 표시하는 디스플레이부; 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 그 후보 단어의 빈도수와 가중치를 계산한 뒤, 기 설정된 임계값 이상인 데이터들만 선정하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부; 및 상기 디스플레이부에 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고, 상기 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어 순으로 디스플레이부에 출력하는 추천 대역어 결정부를 포함하여 구성된 것을 특징으로 한다.
상기 디스플레이부는 번역할 단어를 입력하는 단어입력부와, 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부와, 추천 대역어에 대한 정보를 출력하는 추천 대역어 출력부로 구성되는 것을 특징으로 한다.
상기 추천 대역어 결정부는 기존 대역어 사전을 검색하여 후보 대역어를 추출하는 후보 대역어 추출부와, 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하는 비교부와, 후보 대역어 중 빈도수와 가중치가 높은 대역어 순으로 추천대역어로 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 추천 대역어 선정부로 구성되는 것을 특징으로 한다. 여기서, 상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함한다.
상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림 등을 제거하는 필터링부와, 필터링된 문서에서 분석하여 대역어 후보 단어를 추출하는 단어 추출부와, 추출된 대역어 후보 단어의 빈도수를 계산하는 빈도수 추출부와, 대역어 후보 단어의 의미적 가중치를 부여하는 가중치 부여부와, 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축하는 대역어 후보 단어 선정부로 구성되는 것을 특징으로 한다.
여기서, 상기 단어 추출부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하며, 상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 한다.
본 발명의 도메인 대역어 추천 방법은 번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계; 상기 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어들을 추출하는 단계; 상기 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하는 단계; 및 상기 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 단계;를 포함하는 것을 특징으로 한다.
상기 대역어 데이터베이스는 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 상기 추출된 대역어 후보 단어의 빈도수와 가중치를 계산한 다음, 후보 대역어의 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 구축된 것을 특징으로 한다. 여기서, 상기 대역어 후보 단어의 추출은 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 추출되고, 또한 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것을 특징으로 한다.
그리고, 상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함하는 것을 특징으로 하며, 상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 한다.
본 발명의 도메인 대역어 추천 시스템 및 그 방법에 따르면, 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있는 효과가 있다.
또한, 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소하고, 의미의 전달을 확실히 할 수 있으며, 나아가 교육적인 효과를 얻을 수 있다.
도 1 은 본 발명에 따른 도메인 대역어 추천 시스템을 도시한 구성도.
도 2는 본 발명에 따른 도메인 대역어 추천 시스템에서 디스플레이부를 도시한 구성도.
도 3은 본 발명에 따른 도메인 대역어 추천 시스템의 동작을 설명하기 위한 흐름도.
도 4는 본 발명에 따른 도메인 대역어 추천 방법을 설명하기 위한 순서도.
본 발명의 상기와 같은 목적, 특징 및 다른 장점들은 첨부도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명함으로써 더욱 명백해질 것이다. 이하, 첨부된 도면을 참조하여 도메인 대역어 추천 시스템 및 그 방법을 상세히 설명하기로 한다. 본 명세서를 위해서, 도면에서의 동일한 참조번호들은 달리 지시하지 않는 한 동일한 구성 부분을 나타낸다.
도 1 은 본 발명에 따른 도메인 대역어 추천 시스템을 도시한 구성도이고, 도 2는 본 발명에 따른 도메인 대역어 추천 시스템에서 디스플레이부를 도시한 구성도이며, 도 3은 본 발명에 따른 도메인 대역어 추천 시스템의 동작을 설명하기 위한 흐름도이다.
본 발명의 도메인 대역어 추천 시스템은 입력된 한글단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 사용자에게 제공하여 사용자가 문맥적으로 정확한 대역어를 선정할 수 있도록 한 것이다.
도 1 내지 도 3에 도시한 바와 같이 본 발명의 시스템은 디스플레이부(100)와, 대역어 데이터베이스부(200)와, 추천 대역어 결정부(300)를 포함한다.
디스플레이부(100)는 번역할 단어를 입력하고, 추천 대역어에 관한 정보를 표시하는 화면 창으로, 터치스크린이 적용되어 터치에 의해 입력이 이루어지는 것이 바람직하다. 이러한 디스플레이부(100)는 번역할 단어를 입력하는 단어입력부(112)와, 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부(114)와, 추천 대역어에 관한 정보를 출력하는 추천 대역어 출력부(116)로 구성된다.
대역어 데이터베이스부(200)는 문맥적 상황을 고려한 대역어를 사용자에게 추천하기 위하여 목표 대역어 언어로 작성된 대용량 도메인 문서(210)에서 대역어 데이터베이스를 구축한다. 대역어 데이터베이스부(200)는 필터링부(212)와, 단어 추출부(214)와, 빈도수 추출부(216)와, 가중치 부여부(218)와, 대역어 후보 단어 선정부(220)로 구성된다.
여기서, 필터링부(212)는 특정 도메인 대용량 문서에서 특수문자 및 수식과 그림을 제거한다. 자연어(사람이 사용하는 언어)로 작성된 웹문서에는 의미를 지니지 않는 불필요한 단어와 특수문자들이 자주 등장하게 된다. 불필요한 단어와 특수문자들은 정확한 대역어를 구축하는 과정에서 오류를 범할 수 있는 역할을 수행할 수 있기 때문에 일차적으로 특수문자 및 수식과 그림 등을 제거한다.
그리고, 단어 추출부(214)는 특수문자 및 수식과 그림이 제거된 대용량 문서에서 대역어 후보가 될 수 있는 단어를 추출한다. 이때, 단어의 추출은 문장의 작성 시 의미적으로 판단하기 어려운 동사와 명사를 중심으로 추출한다. 일반적으로 사용자는 동사 및 명사의 사용에 많은 오류를 범하고 있기 때문에 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것이 바람직하다.
그리고, 빈도수 추출부(216)는 추출된 대역어 후보 단어들이 대용량 도메인 문서(210)상에 출현한 총 빈도수를 계산한다. 여기서, 대역어 후보 단어들이 갖는 빈도수는 중요한 통계적 지표로써 해당 언어의 나라 사람들이 빈번히 사용하는 단어일수록 의미적 또는 문맥적으로 대역어 후보에 선정되기에 적합하다. 하지만, 모든 상황에 적용할 수 없기 때문에 의미적 가중치를 부여한다.
가중치 부여부(218)는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency)등을 적용하여 가중치를 부여할 수 있다. 이러한 빈도수의 계산과, 가중치의 부여는 해당 분야에서 주로 사용되는 단어인 만큼 의미적, 문맥적으로 일치하는 가능성을 높이고, 대역단어 선정의 오류를 최소화할 수 있다.
대역어 후보 단어 선정부(220)는 계산된 출현 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축한다. 이때, 임계값은 본 발명의 실험과 검증을 거친 후 그 기준 값을 정한다.
추천 대역어 결정부(300)는 후보 대역어 추출부(312)와, 비교부(314))와, 추천 대역어 선정부(316)로 구성된다.
후보 대역어 추출부(312)는 디스플레이부(100)에 입력된 단어를 바탕으로 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출한다.
그리고, 비교부(314)는 기 구축된 대역어 데이터베이스부에서 후보 대역어들의 빈도수와 가중치를 비교한다.
추천 대역어 선정부(316)는 후보 대역어들 중 빈도수 및 가중치가 높은 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부(100)의 추천 대역어 출력부(116)에 출력한다. 여기서, 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예시문을 포함한다.
도 3을 참고하여 본 발명의 도메인 대역어 추천시스템의 작용을 설명하면 다음과 같다.
먼저, 디스플레이부의 단어입력부(112)에 번역할 한글 단어를 입력한 후 실행버튼부(114)를 눌러 대역어 검색명령신호를 입력하면, 추천 대역어 결정부(300)는 입력된 한글단어의 대역어 검색신호를 받아 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출한다. 이어, 추출된 후보 대역어들은 기 구축된 대역어 데이터베이스부(200)에서 갖는 후보 대역어들의 빈도수 및 가중치가 비교되어 그 빈도수 및 가중치가 높은 대역어 위주로 추천 대역어 선정이 이루어지고 선정된 추천대역어에 관한 정보가 디스플레이부(100)의 추천 대역어 출력부(116)에 출력되어 진다.
예를 들어, 단어입력부(112)에 “구축하다”라는 한글 단어가 입력되고 대역어 검색명령신호가 입력되었을 경우, 추천 대역어 결정부(300)는 기존 영어 대역어 사전을 검색하여 기존 영어 대역어 사전에 정의되어 있는 “build”,“construct”,“establish”등의 후보 대역어들을 추출한다. 이때, 기존 영어 대역어 사전에 정의된 단어들은 사용자에게 해당 도메인에서 대역단어가 사용될 수 있는 문맥적, 의미적 상황을 고려하지 못하고 단편적인 번역수준에 그치고 있다. 컴퓨터에 관련된 문서에서 “construct”는 “구축하다”로 해석될 수 있는 반면, 건설업과 같은 다른 분야에서는 “건축하다”로 해석될 수 있기 때문에 이러한 의미적 문맥적 오류를 해결하기 위하여 기존 대역어 사전(320)에서 후보 대역어를 추출하고 이 후보 대역어들이 기 구축된 대역어 데이터베이스(200)에서 갖는 빈도수와 가중치를 비교하게 된다. 이는 해당 분야에서 주로 사용하는 단어일수록 의미적, 문맥적으로 일치하는 가능성이 높은 통계적 규칙에 기반하고, 대역어 선정의 오류를 최소화한다.
그리고, 후보 대역어 중 높은 빈도수와 가중치를 갖는 값을 위주로 추천 대역어 출력부(116)에 예시문과 함께 대역어에 관한 정보를 출력한다.
그리고, 사용자는 추천 대역어 출력부(116)에 출력된 추천 대역어와 예시문을 바탕으로 가장 적합한 대역어를 선택할 수 있다.
이와 같이 본 발명의 도메인 대역어 추천시스템은 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고 그 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축한 다음, 기존 대역어 사전을 기반으로 번역할 단어의 후보 대역어들을 추출하고, 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 예시문과 함께 사용자에게 제공함으로써 문맥적으로 정확한 대역어를 선정할 수 있다. 또한, 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소하고 나아가 교육적인 효과를 얻을 수 있다.
도 4는 본 발명에 따른 도메인 대역어 추천 방법을 설명하기 위한 순서도이다.
도 4에 도시된 바와 같이 본 발명의 도메인 대역어 추천 방법은 번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계(S100); 입력된 단어를 바탕으로 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출하는 단계(S200); 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스부(200)에서 갖는 빈도수와 가중치를 비교하는 단계(S300); 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 대한 정보를 출력하는 단계(S400);를 포함한다.
S100 단계는 터치스크린 환경의 가상 키보드를 이용하여 번역할 단어를 입력하고 대역어 검색을 실시한다.
S200 단계에서 추출된 후보 대역어들은 사용자에게 해당 도메인에서 대역단어가 사용될 수 있는 문맥적, 의미적 상황을 고려하지 않은 단편적인 대역어들이다.
S300 단계에서는 기존 대역어 사전(320)에서 검색된 후보 대역어의 의미적, 문맥적 오류를 해결하기 위하여 기 구축된 대역어 데이터베이스부(200)에서 갖는 후보 대역어들의 빈도수와 가중치를 비교하게 된다. 여기서, 대역어 데이터베이스부(200)는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거치고, 특수문자, 수식, 그림이 제거된 문서에서 동사 및 명사만을 대역어 대상으로 제한하여 대역어후보 단어를 추출한 다음, 추출된 대역어 후보 단어들이 대용량 도메인 문서(210)상에 출현되는 총 빈도수를 계산하고 아울러 의미적 가중치를 부여한다. 그리고, 총 빈도수와 가중치가 기 설정된 임계값 이상인 대역어 후보 단어들만 선정하여 기 구축된다.
S400 단계에서는 후보 대역어의 빈도수와 가중치가 높은 대역어 순으로 추천 대역어의 선정이 이루어지고 선정된 추천 대역어는 예시문과 함께 디스플레이부(100)의 추천 대역어 출력부(116)에 출력된다.
그리고, 사용자는 추천 대역어 출력부에 출력된 추천 대역어와 예시문을 바탕으로 가장 적합한 대역어를 선택하여 작문의 어려움을 해결한다.
이와 같이 본 발명의 도메인 대역어 추천 방법은 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있게 된다.
이상에서 본 발명의 바람직한 실시 예에 대하여 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니한다. 즉, 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자라면 첨부된 특허청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능하며, 그러한 모든 적절한 변경 및 수정은 균등물들로 본 발명의 범위에 속하는 것으로 간주 되어야 할 것이다.
100: 디스플레이부 112: 단어입력부
114: 실행버튼부 116: 추천 대역어 출력부
200: 대역어 데이터 베이스부 212: 필터부
214: 단어추출부 216: 빈도수 추출부
218: 가중치 부여부 220: 대역어 후보 단어 선정부
300: 추천 대역어 결정부 312: 후보 대역어 추출부
314: 비교부 316: 추천 대역어 선정부
320: 기존 대역어 사전

Claims (20)

  1. 터치스크린이 적용되어 번역할 단어 및 대역어 검색실행명령을 입력하는 디스플레이부;
    특정 도메인 대용량 문서에서 대역어 후보 단어를 추출하고 추출된 대역어 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부;
    상기 디스플레이부에 입력된 단어의 대역어 검색신호를 받아 기존 대역어 사전을 기반으로 후보 대역어를 추출한 다음 상기 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교한 후 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부에 출력하는 추천 대역어 결정부를 포함하며,
    상기 추천 대역어에 대한 정보는 추천 대역어와, 빈도수와, 예시문을 포함하고,
    상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자와 수식 및 그림을 제거하는 과정을 거쳐 대역어 후보 단어를 추출하며, 대역어 후보 단위의 출현 빈도수 및 가중치를 계산한 뒤 기 설정된 임계값 이상의 대역어 후보 단어들만 선정하여 대역어 데이터베이스를 구축한 것을 특징으로 하는 도메인 대역어 추천 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 대역어 데이터베이스부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
  7. 삭제
  8. 번역할 단어를 입력하는 단어입력부와 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부와 추천 대역어에 대한 정보를 출력하는 추천 대역어 출력부로 구성되는 디스플레이부;
    특정 도메인 대용량 문서에서 특수문자, 수식, 그림 등을 제거하는 필터링부와, 필터링된 문서에서 분석하여 대역어 후보 단어를 추출하는 단어 추출부와, 추출된 대역어 후보 단어의 빈도수를 계산하는 빈도수 추출부와, 대역어 후보 단어의 의미적 가중치를 부여하는 가중치 부여부와, 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축하는 대역어 후보 단어 선정부로 구성되는 대역어 데이터베이스부;
    기존 대역어 사전을 검색하여 후보 대역어를 추출하는 후보 대역어 추출부와, 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하는 비교부와, 후보 대역어 중 빈도수와 가중치가 높은 대역어 순으로 추천대역어로 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 추천 대역어 선정부로 구성되는 추천 대역어 결정부를 포함하며,
    상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 특징으로 하는 도메인 대역어 추천 시스템.
  9. 삭제
  10. 삭제
  11. 제 8 항에 있어서,
    상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
  12. 삭제
  13. 제 8 항에 있어서,
    상기 단어 추출부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
  14. 삭제
  15. 번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계;
    상기 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어들을 추출하는 단계;
    특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고 이 추출된 대역어 후보 단어의 빈도수와 가중치를 계산한 다음 후보 대역어의 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 구축된 대역어 데이터베이스에 대해 상기 추출된 후보 대역어들이 갖는 빈도수와 가중치를 비교하는 단계; 및
    상기 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 단계를 포함하며,
    상기 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어들을 추출하는 단계는
    특정 도메인 대용량 문서에서 특수문자와 수식 및 그림을 제거하는 과정을 거쳐 후보 대역어들을 추출하고,
    상기 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 단계에서
    상기 추천 대역어에 관한 정보는 추천 대역어와 빈도수 및 예문을 포함하고, 상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency) 및 문서 빈도수(DF: Document Frequency) 그리고 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 특징으로 하는 도메인 대역어 추천 방법.
  16. 삭제
  17. 삭제
  18. 제 15 항에 있어서,
    상기 대역어 후보 단어의 추출은 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것을 특징으로 하는 도메인 대역어 추천 방법.
  19. 삭제
  20. 삭제
KR1020120019527A 2012-02-27 2012-02-27 도메인 대역어 추천 시스템 및 그 방법 KR101335144B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120019527A KR101335144B1 (ko) 2012-02-27 2012-02-27 도메인 대역어 추천 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120019527A KR101335144B1 (ko) 2012-02-27 2012-02-27 도메인 대역어 추천 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20130097890A KR20130097890A (ko) 2013-09-04
KR101335144B1 true KR101335144B1 (ko) 2013-12-05

Family

ID=49450019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120019527A KR101335144B1 (ko) 2012-02-27 2012-02-27 도메인 대역어 추천 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101335144B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190052924A (ko) * 2017-11-09 2019-05-17 한국전자통신연구원 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198860B1 (ko) * 2019-04-26 2021-01-06 김정태 외국어 말하기용 동사 학습방법 및 시스템
KR102046640B1 (ko) * 2019-07-22 2019-12-02 (주)위세아이텍 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
KR102153259B1 (ko) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법
KR102406251B1 (ko) * 2021-11-18 2022-06-07 염종명 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070059869A (ko) * 2005-12-07 2007-06-12 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
KR20100110628A (ko) * 2009-04-03 2010-10-13 (주)인피니티텔레콤 문자 입력 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070059869A (ko) * 2005-12-07 2007-06-12 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
KR20100110628A (ko) * 2009-04-03 2010-10-13 (주)인피니티텔레콤 문자 입력 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
황명권 외 5명, ‘도메인 N-Gram 생성 및 활용’, 한국정보과학회 학술발표논문집 vol.37, No.2, pp. 47-51, 2010.11*
황명권 외 5명, '도메인 N-Gram 생성 및 활용', 한국정보과학회 학술발표논문집 vol.37, No.2, pp. 47-51, 2010.11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190052924A (ko) * 2017-11-09 2019-05-17 한국전자통신연구원 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법
KR102253015B1 (ko) * 2017-11-09 2021-05-17 한국전자통신연구원 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법

Also Published As

Publication number Publication date
KR20130097890A (ko) 2013-09-04

Similar Documents

Publication Publication Date Title
US9916304B2 (en) Method of creating translation corpus
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
KR101335144B1 (ko) 도메인 대역어 추천 시스템 및 그 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Kaity et al. An automatic non-English sentiment lexicon builder using unannotated corpus
Lynch et al. The translator’s visibility: Detecting translatorial fingerprints in contemporaneous parallel translations
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Marciniak et al. Termopl-a flexible tool for terminology extraction
Abidi et al. An automatic learning of an algerian dialect lexicon by using multilingual word embeddings
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
Bakari et al. Logic-based approach for improving Arabic question answering
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Richardson et al. Robust transliteration mining from comparable corpora with bilingual topic models
Johansson et al. Automatic extraction of synonyms from an easy-to-read corpus
KR101355284B1 (ko) 터치스크린 환경에서 단어 추천 및 문장 완성 방법
Berghoff Deriving lexical statistics for psycholinguistic research on isiXhosa
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Alethary et al. Automated Arabic-Arabic sign language translation system based on 3D avatar technology
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
KR100669239B1 (ko) 어휘 개념망 구축을 위한 상위어 자동 추천 방법
Garcia et al. Discovering bilingual collocations in parallel corpora
JP7047825B2 (ja) 検索装置、検索方法、検索プログラム
Kanerva et al. Fully Delexicalized Contexts for Syntax-Based Word Embeddings
JP2018055620A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161021

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee