KR100837797B1 - 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 - Google Patents

약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 Download PDF

Info

Publication number
KR100837797B1
KR100837797B1 KR1020060092174A KR20060092174A KR100837797B1 KR 100837797 B1 KR100837797 B1 KR 100837797B1 KR 1020060092174 A KR1020060092174 A KR 1020060092174A KR 20060092174 A KR20060092174 A KR 20060092174A KR 100837797 B1 KR100837797 B1 KR 100837797B1
Authority
KR
South Korea
Prior art keywords
abbreviation
candidates
actual
probability
abbreviations
Prior art date
Application number
KR1020060092174A
Other languages
English (en)
Other versions
KR20080026931A (ko
Inventor
임해창
윤여찬
송영인
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020060092174A priority Critical patent/KR100837797B1/ko
Publication of KR20080026931A publication Critical patent/KR20080026931A/ko
Application granted granted Critical
Publication of KR100837797B1 publication Critical patent/KR100837797B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)

Abstract

약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그 기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치가 개시된다.
본 발명은 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계, 상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계, 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 소정의 분류 모형에 적용하여 상기 약어 후보들이 실제 약어일 확률을 연산하는 단계 및 상기 약어 후보들 중 상기 실제 약어일 확률이 약어 임계값 이상인 약어 후보들을 약어 사전에 등재시키는 단계를 포함한다.
본 발명에 의하면, 한국어 약어의 사전을 자동으로 구축하는 방법을 제공하고, 동시에 높은 효율성과 높은 정확도를 제공하며, 한국어의 언어학적 특성을 고려하여 가능한 약어 후보만을 생성하므로 약어 사전을 구축하기 위해 사용되는 시간을 효율적으로 줄일 수 있고, 약어가 가지는 특징을 이용한 확률 모형을 사용하여 높은 정확도 및 높은 재현율을 가지는 사전을 구축 할 수 있다.

Description

약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그 기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치 {Method for automatic construction of acronym dictionary based on acronym type, Recording medium thereof and Apparatus for automatic construction of acronym dictionary based on acronym type}
도 1은 본 발명에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치의 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
도 3a 및 도 3b는 도 2의 분류 모형을 유형별로 분리하는 이유로서 생성 유형별로 선호하는 음절의 수를 나타낸 그래프이다.
도 4는 본 발명의 다른 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
도 5는 본 발명의 또다른 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
본 발명은 자연어 처리에 관한 것으로, 특히, 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그 기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치에 관한 것이다.
약어란 본디의 음절이나 형태소 등이 줄어서 된 말로 가령 '국산품'을 '국산으로 줄여 쓴다든지 '한국전력공사'라는 기업명을 '한전'으로 줄여 사용하는 것이 이러한 약어 사용의 예이다. 약어는 언어의 효율성을 위해 사용되는 현상으로 특히 인터넷이 활발히 사용되는 현재에 더욱 빈번하게 일어나는 현상이라고 할 수 있다.
이러한 약어를 파악하고 약어의 원어를 찾아 주는 일은 웹에서 원하는 정보를 검색하는 정보검색이나 특정 문서에서 원하는 정보만을 추출하는 정보추출을 위해 요구되는 일이다. 예를 들어, 정보검색의 경우, 검색을 하려는 사용자의 질의에 약어가 출현 하였을 시, 약어의 원어를 자동으로 질의에 추가하여 확장함으로서 원하는 문서를 찾을 가능성을 높여주고, 또한 질의에 원어만이 사용되었을 때, 약어가 출현한 문서도 함께 검색함으로써 성능을 향상 시킬 수 있다. 뿐만 아니라 약어의 사전을 구축함으로써, 언어학 및 국어학 연구에도 도움을 주며 또한 문서에 약어가 사용 되었을 때 쉽게 약어가 어떤 원어를 가리키는 지를 확인 할 수 있도록 하여 문서의 이해를 도울 수 있다.
그러나, 약어의 경우, 이미 존재하는 약어의 수가 대단히 많고, 또한 끊임없이 계속해서 새로 생성된다.
따라서, 종래의 약어 사전은 수동으로 사전을 구축하기에 어려움이 많고, 한 국어 약어의 특성을 반영할 수 없으며, 약어 사전을 자동으로 구축할 수 없는 문제점이 있다.
따라서, 본 발명이 이루고자 하는 첫번째 기술적 과제는 한국어 약어의 사전을 자동으로 구축하는 방법을 제공하고 동시에 높은 효율성과 높은 정확도를 제공하며, 한국어의 언어학적 특성을 고려하여 가능한 약어 후보만을 생성하므로 약어 사전을 구축하기 위해 사용되는 시간을 효율적으로 줄일 수 있고, 약어가 가지는 특징을 이용한 확률 모형을 사용하여 높은 정확도 및 높은 재현율을 가지는 사전을 구축 할 수 있는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 제공하는데 있다.
본 발명이 이루고자 하는 두번째 기술적 과제는 상기의 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
본 발명이 이루고자 하는 세번째 기술적 과제는 상기의 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법이 적용된 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치를 제공하는데 있다.
상기의 첫번째 기술적 과제를 이루기 위하여, 본 발명은 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계, 상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계, 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률을 연산하는 단계 및 상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 제공한다.
또한, 상기의 첫번째 기술적 과제를 이루기 위하여, 본 발명은 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계, 상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계, 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산하는 단계, 상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 선별하는 단계, 상기 선별된 약어 후보들 중 상기 실제 약어일 확률과 상기 약어가 아닐 확률 사이의 차이가 실제 약어가 아닐 확률이 큰 약어 후보를 추가로 가려내어 정확률을 높이기 위한 정확률 임계값보다 작은 약어 후보들을 상기 선별된 약어 후보들에서 제거하는 단계 및 상기 선별된 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 제공한다.
또한, 상기의 첫번째 기술적 과제를 이루기 위하여, 본 발명은 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계, 상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계, 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산하는 단계, 상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 선별하는 단계, 상기 실제 약어일 확률이 상기 약어 임계값보다 작은 약어 후보들 중 상기 실제 약어일 확률과 상기 약어가 아닐 확률 사이의 차이가 실제 약어가 될 수 있는 약어 후보를 복원하여 재현률을 높이기 위한 재현률 임계값보다 크거나 같은 약어 후보들을 상기 선별된 약어 후보들에 추가하는 단계, 상기 선별된 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 제공한다.
상기의 두번째 기술적 과제를 이루기 위하여, 본 발명은 상기의 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기의 세번째 기술적 과제를 이루기 위하여, 본 발명은 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 원어 수집부, 상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 약어 후보 생성부, 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형부 및 상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 약어 사전에 등재시키는 사전 생성부를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치를 제공한다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예를 설명하기로 한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있 으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다.
도 1은 본 발명에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치의 블럭도이다.
본 발명에 따른 약어 사전 자동 구축 장치는 도 1과 같이 주어진 원어에 대하여 약어 생성상의 특징을 고려, 가능한 모든 약어의 후보를 생성한 후, 이 중 실제 사용되는 약어를 확률 모형을 이용하여 분류함으로써 사전을 구축 할 수 있다. 원어의 경우, 웹사이트 등에서 쉽게 획득이 용이 하다. 특히, 고유명사의 경우, 특정 도메인과 관련된 웹사이트를 통해 원어의 리스트를 수집하는 것이 어렵지 않다. 가령 기업명 목록의 경우, 한국상공회의소 사이트나 증권거래소 사이트 등에서 그 목록을 쉽게 얻을 수 있다. 따라서, 목적에 따라 충분한 양의 사전을 구축할 수 있다.
원어 수집부(110)는 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집한다. 이때, 인터넷에 연결하기 위해서 네트워크 인터페이스부(120)를 이용할 수 있다. 예를 들어, 네트워크 인터페이스부(120)는 이더넷 지원 카드, 무선랜 카드 등의 인터페이스 장치일 수 있다.
약어 후보 생성부(130)는 원어 수집부(110)에 의해 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성한다.
분류 모형부(140)는 약어 후보 생성부(130)에서 생성된 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 소정의 분류 모형에 적용하여 약어 후보들이 실제 약어일 확률을 연산한다. 예를 들어, 소정의 분류 모형은 단순 베이지안 분류 모형일 수 있다.
사전 생성부(150)는 약어 후보들 중 분류 모형부(140)에서 연산된 실제 약어일 확률이 약어 임계값 이상인 약어 후보들을 약어 사전에 등재시킨다. 사전에 등재시키는 과정은 데이터 베이스를 구축하는 과정을 포함한다. 예를 들어, 데이터 베이스는 하드 디스크 드라이브, 광 기록 매체 및 그 기록 장치를 포함할 수 있다. 이때, 약어 임계값은 약어 후보 중에 실제 약어가 아닐 확률이 높은 후보들을 가려내기 위한 임계값으로서, 반복 실험을 통하여 결정될 수 있다.
예를 들어, 본 발명에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치는 대용량의 데이터 베이스를 구축할 수 있는 저장 수단, 저장 수단과 연결된 I/O 장치, 주된 연산을 수행하고 분류 모형 및 형태소 분석기를 위한 연산을 수행하는 마이크로 프로세서, 마이크로 프로세서를 위한 메모리 및 인터넷에 연결하여 IP주소를 할당받는 인터페이스 카드를 포함하는 컴퓨터 시스템을 이용하여 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
먼저, 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집한다(210 과정).
다음, 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성한다(220 과정). 바람직하게는, 이 과정(220 과정)은 수집된 원어들의 형태소를 분석하여 원어들을 구성 명사로 분할 하는 과정 및 구성 명사로 분할된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 과정을 포함할 수 있다.
약어 후보들이 생성되면, 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 소정의 분류 모형에 적용하여 약어 후보들이 실제 약어일 확률을 연산한다(230 과정). 바람직하게는, 이 과정(230 과정)은 명사 생략형, 음절 조합형 및 혼합형에 대해 특유한 자질들을 고려하여 각각 분류 모형을 구성하는 과정 및 약어 후보들을 구성된 분류 모형 중 대응하는 분류 모형에 적용하는 과정을 포함할 수 있다.
마지막으로, 약어 후보들 중 실제 약어일 확률이 약어 임계값 이상인 약어 후보들을 약어 사전에 등재시킨다(240 과정).
위의 각 단계를 예를 들어 설명하면 다음과 같다.
우선 원어가 수집되었다고 가정하고, 첫 번째 단계로서 주어진 원어들에 대하여 가능할 법한 약어의 후보들을 생성한다. 한국어 약어의 경우, '교육인적자원부'를 '교육부'로 줄여 사용하는 것과 같이 특정 명사를 생략하여 약어를 생성하거나 '정보통신부'를 '정통부'로 줄여 사용하는 것과 같이 특정 명사의 특정 음절을 조합하여 약어를 생성할 수 있다. 본 발명에서는 표 1과 같이 약어를 생성하는 방식을 나누고 이와 같은 방식에 따라 가능한 약어의 후보를 생성 한다.
Figure 112006068637088-pat00001
위의 분류에 따라 약어를 생성하기 위해서 본 발명에서는 원어를 구성하는 각각의 명사에 대하여 아래의 같은 규칙 중 하나를 적용한다.
규칙 1. 명사 생략
규칙 2 .명사의 첫 음절, 혹은 끝 음절 선택하여 약어에 참여 시킴
규칙 3. 명사 전체를 약어에 참여 시킴
또한 적용 된 규칙에 따라, 생성된 약어의 유형을 아래와 같이 결정 할 수 있다.
즉, 명사생략형은 규칙 1 혹은 규칙 3을 적용하여 생성된 약어로서, 예를 들어, "교육/인적/자원/부"를 "교육부"로 하는 경우이고, 음절조합형은 규칙 1 혹은 규칙 2를 적용하여 생성된 약어로서, 예를 들어, "국가/정보/원"을 "국정원"으로 하는 경우이다. 또한, 혼합형은 규칙2와 규칙3을 모두 적용하여 생성 된 약어로서, 예를 들어, "대우자동차판매"를 "대우자판"으로 하는 경우이다.
위와 같은 방식을 적용하여 약어후보를 생성하기 위해서는 원어를 구성명사로 나눠주는 작업이 필요하다. 이를 위해서 본 발명에서 기존에 개발된 형태소 분석기들을 이용할 수 있다.
두 번째 단계로서 첫 번째 단계에서 생성된 원어, 약어 후보 쌍에 대하여 확률 모형을 사용하여 실제 사용되는 원어, 약어 쌍 만을 선별할 수 있다. 이때, 사용될 수 있는 확률모형은 분류를 위해 흔히 사용되는 단순 베이지안 분류 모형을 포함한다. 단순 베이지안 분류모형은 수학식 1을 사용하여 원어와 약어 후보가 주어진 상태에서 약어 후보가 실제 약어일 확률과 약어가 아닐 확률을 연산한다.
Figure 112006068637088-pat00002
Figure 112006068637088-pat00003
Figure 112006068637088-pat00004
는 자질 집합
Figure 112006068637088-pat00005
로 바꾸어 표현 가능 하며 이는 다시 자질집합을 구성하는 자질로 나누어
Figure 112006068637088-pat00006
으로 나타낼 수 있다. 이를 다시 수학식 2를 사용하여 최종적으로 약어 후보가 실제 약어 인지 아닌지를 가려 낼 수 있다.
Figure 112006068637088-pat00007
수학식 1과 수학식 2에서는 각각 후보 단어가 약어일 확률, 약어가 아닐 확률, 또한 약어인지를 실제 판정하기 위하여 주어진 원어와 약어 후보를 자질들의 집합으로 표현하였다. 즉 약어를 특정한 상태로 표현하고 이 상태에서 약어일 확률과 약어가 아닐 확률을 계산한 것이다. 예를 들어 주어진 원어와 약어 후보가 약어의 길이, 약어가 출현한 웹문서의 수 두 개의 자질로 이루어져 있고, 특정 원어와 약어 후보에 대하여 (약어의 길이 = 3, 출현한 웹 문서의 수 = 10)의 상태로 표현할 수 있을 때, 이러한 상태인 단어가 약어인 경우를 주어진 문서에서 세 확률을 계산한 다는 것이다. 즉 주어진 문서(학습집합)에 길이가 3이고 출현한 웹문서의 수가 10인 단어가 10개 있고, 이중 7개가 실제 약어라면 이러한 상태를 가지는 단어가 약어일 확률은 0.7이 되는 것이다.
주어진 원어와 약어 후보를 표현하기 위해 사용될 수 있는 자질들은 다음과 같다. 즉, 약어 생성 시 생략된 명사와 생략되지 않은 명사의 수의 차이, 약어 생성 시 생략되는 명사의 수, 약어의 음절 수, 원어와 약어의 음절의 수의 차이, 선택 된 끝 음절의 개수, 혼합형에서의 조합된 음절개수, 웹 문서에서의 약어와 원어 의 공기빈도 등이다.
원어와 약어의 음절의 수의 차이에 대해서 예를 들면 다음과 같다. '한국전력'이라는 약어의 경우, 원어 '한국전력공사'에서 한 개의 단위명사 '공사'가 생략되었다 볼 수 있고, 두 개의 음절 '공','사'가 생략되었다고 볼 수도 있다. 따라서 축약의 단위로 음절과 단위명사 두 가지를 모두 고려하여 자질을 구성, 어느 정도의 축약이 발생하는지와 약어의 길이를 고려하여 실제 약어 후보가 약어인지를 판별 할 수 있다.
선택 된 끝 음절의 개수에 대해서 예를 들면 다음과 같다. 음절조합형 및 혼합형에서 음절을 선택할 경우, 한국전력공사의 약어인 한전과 같이 단위명사의 첫 음절을 선택하는 경우가 흔하고, 끝 음절을 선택하는 경우는 많지 않다. 따라서 약어에 포함된 끝 음절의 수를 고려한다.
혼합형에서의 조합된 음절개수에 대해서 예를 들면 다음과 같다. 혼합형에서 단위 명사의 특정 음절을 뽑아 조합할 때, 몇 개의 특정 음절을 사용하는 지를 고려한다.
약어의 경우, 원어와 동시에 웹 문서에서 출현하는 경향을 찾을 수 있으며, 반면에 약어후보가 대응되는 원어의 약어로 쓰이지 않을 경우 공기 하는 문서를 찾기 어렵다. 따라서 약어와 원어가 동시 출현한 웹문서를 찾아 그 공기 빈도를 통해 실제 약어인지를 판별 할 수 있다.
웹 문서는 정보검색을 이용하여 수집 하되, 약어후보와 원어를 질의로 한 것, 약어후보만을 질의로 한 것의 두 종류 문서를 각 질의에 대하여 복수 개를 수 집 하여 사용한다.
도 3a 및 도 3b는 도 2의 분류 모형을 유형별로 분리하는 이유로서 생성 유형별로 선호하는 음절의 수를 나타낸 그래프이다.
한국어 약어의 경우, 생성 유형별로 길이 등의 특성이 서로 다른데 가령 도 3a 및 도 3b에서 나타난 것과 같이 생성 유형별로 선호하는 음절의 수가 다른 것을 확인 할 수 있다. 또한 특정 자질의 경우, 특정 유형에만 적용할 수 있으며(예를 들어, #OfRepChar) 따라서 생성유형별로 학습집합 분리하고, 고려하는 자질을 달리하여 모형을 구성하여 성능의 향상을 기대할 수 있다. 이하에서는 생성유형을 고려하여 모형을 분리한 경우와 유형을 고려하지 않는 모형 두 가지를 적용, 각 성능을 평가한다.
실험을 위해 기업명, 국가단체명, 대학명으로 구성된 4음절 이상의 314개의 원어가 사용되었다. 314개의 원어 중, 307개의 원어에 대한 835개의 원어, 약어 쌍을 Positive Example로 사용하였고, 314개의 원어로 생성 가능 한 50139개의 부적절한 원어, 약어 쌍을 Negative Example로 구성하여 학습하였다.
이하에서, AbbNum은 약어 생성시 생략되는 명사의 수, DiffNoun은 약어 생성시 생략된 명사와 생략되지 않은 명사의 수의 차이, AcroLen은 약어의 음절 수, DiffLen은 원어와 약어의 음절의 수의 차이, #ofLastChar은 선택 된 끝 음절의 개수, #ofRepChar은 혼합형에서의 조합된 음절개수, CoOccurFreq는 수집한 문서에서의 공기빈도, DefFreq는 약어후보를 질의로 하여 검색한 문서에서 원어의 출현 빈도의 자질을 의미한다.
평가와 학습을 위하여 5 Fold Cross Validation을 이용하였고, 각 결과 값의 평균을 통해 성능을 측정하였다. 평가를 위한 정확률과 재현율은 다음의 수학식 3과 같이 연산한다.
Figure 112006068637088-pat00008
표 2는 생성유형별로 모형을 나누지 않았을 때, 각 자질 추가시의 성능을 나타낸 것이다.
자질 정확률 재현율 F maesure
Baseline 47.91% 68.60% 56.41%
AbbNum 52.71% 67.20% 59.08%
DiffLen 50.15% 67.70% 57.62%
#OfLastChar 58.78% 69.60% 63.74%
all 58.68% 73.00% 65.06%
표 3은 본 발명에 따라 약어 생성유형을 고려하였을 때의 성능을 나타낸 것이다.
유형 자질 정확률 재현율 F-Measure
명사생략형 DiffNoun 72.58% 69.33% 70.92%
음절조합형 #OfLastChar +DefFreq 67.47% 68.29% 67.88%
혼합형 DiffLen +#OfLastChar +#OfRepChar 51.67% 79.45% 62.62%
통합 성능 64.52% 72.00% 68.05%
Baseline으로는 다른 특성을 고려하지 않고, 웹 문서에서 원어와 약어의 공기 빈도만을 자질로 사용한 분류기의 성능을 사용 한다. 표 1은 Baseline의 성능과 생성유형별로 모형을 나누지 않은 경우에 대하여 Baseline에 성능을 향상시키는 유용한 자질을 추가하였을 때의 성능을 나타낸다. Baseline에 비해 약 8.4%의 성능이 향상됨을 알 수 있다. 표 2는 약어의 생성유형에 따라 자질 및 학습 집합을 달리 하였을 때의 성능 및 유용한 자질과 전체 학습 집합에 대한 통합 성능을 보여준다. 명사축약형의 경우, 의미 있는 수준의 학습집합이 없어 유형별로 모형을 나누지 않은 경우에만 성능을 측정하도록 한다. 생성 유형을 고려하지 않았을 때에 비하여 약 3%의 성능이 향상 됨을 확인 할 수 있다.
실제 약어가 아닌 단어를 약어로 분류한 경우 중 상당수는, 철자 오류가 발생한 단어가 웹에 출현하였을 경우이다. 이러한 단어의 상당수가 (대우자동차판매, 대우자동판매)와 같이 중간의 한글자가 탈락하는 경우임을 감안하여 이러한 후보를 제거함으로써 70.51%의 정확률과 71%의 재현율, 70.75%의 F-measure 값을 얻을 수 있다.
약어 사전의 경우, 목적에 따라 재현율 보다는 정확률이 중요 할 수 있고, 또한 그 반대의 경우가 중요할 수도 있다. 따라서 이를 조정할 필요성이 요구 된다. 본 발명에서는 분류기의 확률 결과 값을 정규화 한 후, 약어라고 판단 한 후보 중 약어일 확률과 약어가 아닐 확률의 값의 차이가 일정 이상 되지 않을 경우 약어라 판단 하지 않는 방법으로 정확률을 높이고 재현율을 낮출 수 있다. 아래는 이 같은 방식으로 약어를 판단하기 위한 식을 나타낸다.
정확률을 낮추고 재현율을 높이기 위해서는 이와 반대로 약어라고 판단하지 않은 후보에 대하여 확률 값의 차이가 일정 값 이상이 될 경우, 약어라고 판단 한다.
표 4는 이와 같은 방법으로 조정하였을 때의 정확률과 재현율 및 F-measure 값을 나타낸 것이다.
정확률 재현율 F-Measure
정확률 상승 82.30% 54.40% 65.50%
재현율 상승 53.38% 83.00% 64.97%
도 4는 본 발명의 다른 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
먼저, 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집한다(410 과정).
다음, 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성한다(420 과정).
약어 후보들이 생성되면, 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 소정의 분류 모형에 적용하여 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산한다(430 과정).
다음, 약어 후보들 중 실제 약어일 확률이 약어 임계값 이상인 약어 후보들을 선별한다(440 과정).
약어 후보들이 선별되면, 선별된 약어 후보들 중 실제 약어일 확률과 약어가 아닐 확률 사이의 차이가 정확률 임계값 미만인 약어 후보들을 선별된 약어 후보들에서 제거한다(450, 460 과정).
이때, 정확률 임계값은 약어 후보 중에 실제 약어가 아닐 확률이 높은 후보들을 추가적으로 가려내어 정확률을 높이기 위한 임계값으로서, 반복 실험을 통하여 결정될 수 있다.
마지막으로, 선별된 약어 후보들을 약어 사전에 등재시킨다(470 과정).
도 5는 본 발명의 또다른 실시예에 따른 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법의 흐름도이다.
먼저, 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집한다(510 과정).
다음, 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성한다(520 과정).
약어 후보들이 생성되면, 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 소정의 분류 모형에 적용하여 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산한다(530 과정).
다음, 약어 후보들 중 실제 약어일 확률이 약어 임계값 이상인 약어 후보들을 선별한다(540 과정).
약어 후보들이 선별되면, 위에서 약어가 아니라고 판단된 즉, 실제 약어일 확률이 약어 임계값 미만인 약어 후보들 중 실제 약어일 확률과 약어가 아닐 확률 사이의 차이가 재현률 임계값 이상인 약어 후보들을 선별된 약어 후보들에 추가한다(550, 560 과정).
이때, 재현률 임계값은 위의 과정에서 약어 후보 중에 약어가 아닌 것으로 판단되었더라도 약어가 될 수 있는 후보들을 복원하여 재현률을 높이기 위한 임계값으로서, 반복 실험을 통하여 결정될 수 있다.
마지막으로, 선별된 약어 후보들을 약어 사전에 등재시킨다(570 과정).
바람직하게는, 본 발명의 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법을 컴퓨터에서 실행시키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다.
본 발명은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 테이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
상술한 바와 같이, 본 발명에 의하면, 한국어 약어의 사전을 자동으로 구축하는 방법을 제공하고, 동시에 높은 효율성과 높은 정확도를 제공하며, 한국어의 언어학적 특성을 고려하여 가능한 약어 후보만을 생성하므로 약어 사전을 구축하기 위해 사용되는 시간을 효율적으로 줄일 수 있고, 약어가 가지는 특징을 이용한 확률 모형을 사용하여 높은 정확도 및 높은 재현율을 가지는 사전을 구축 할 수 있는 효과가 있다.

Claims (13)

  1. 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계;
    상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계;
    상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률을 연산하는 단계; 및
    상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  2. 제 1 항에 있어서,
    상기 약어 후보들을 생성하는 단계는
    상기 수집된 원어들의 형태소를 분석하여 상기 원어들을 구성 명사로 분할하는 단계; 및
    상기 구성 명사로 분할된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계를 포함하는 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  3. 제 1 항에 있어서,
    상기 약어 후보들이 실제 약어일 확률을 연산하는 단계는
    명사 생략형, 음절 조합형 및 혼합형에 대해 각각 분류 모형을 구성하는 단계; 및
    상기 약어 후보들을 상기 구성된 분류 모형 중 대응하는 분류 모형에 적용하는 단계를 포함하는 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  4. 제 3 항에 있어서,
    상기 분류 모형을 구성하는 단계는
    상기 명사 생략형에 대한 분류 모형은 약어를 구별하기 위한 자질로서 약어 생성시 생략되는 명사의 수를 고려하는 모형인 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  5. 제 3 항에 있어서,
    상기 분류 모형을 구성하는 단계는
    상기 음질 조합형에 대한 분류 모형은 약어를 구별하기 위한 자질로서 선택된 끝음절의 개수 및 약어 후보를 질의로 하여 검색된 문서에서 원어의 출현 빈도를 고려하는 모형인 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  6. 제 3 항에 있어서,
    상기 분류 모형을 구성하는 단계는
    상기 혼합형에 대한 분류 모형은 약어를 구별하기 위한 자질로서 원어와 약어의 음절 수의 차이, 선택된 끝음절의 개수 및 혼합형에서의 조합된 음절 개수를 고려하는 모형인 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  7. 제 1 항에 있어서,
    상기 약어 후보들이 실제 약어일 확률을 연산하는 단계는
    상기 분류 모형이 단순 베이지안 분류 모형인 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  8. 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계;
    상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계;
    상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산하는 단계;
    상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 선별하는 단계;
    상기 선별된 약어 후보들 중 상기 실제 약어일 확률과 상기 약어가 아닐 확률 사이의 차이가 실제 약어가 아닐 확률이 큰 약어 후보를 추가로 가려내어 정확률을 높이기 위한 정확률 임계값보다 작은 약어 후보들을 상기 선별된 약어 후보들에서 제거하는 단계; 및
    상기 선별된 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  9. 제 8 항에 있어서,
    상기 약어 후보들이 실제 약어일 확률을 연산하는 단계는
    명사 생략형, 음절 조합형 및 혼합형에 대해 각각 분류 모형을 구성하는 단계; 및
    상기 약어 후보들을 상기 구성된 분류 모형 중 대응하는 분류 모형에 적용하는 단계를 포함하는 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  10. 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 단계;
    상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 단계;
    상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률 및 약어가 아닐 확률을 연산하는 단계;
    상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 선별하는 단계;
    상기 실제 약어일 확률이 상기 약어 임계값보다 작은 약어 후보들 중 상기 실제 약어일 확률과 상기 약어가 아닐 확률 사이의 차이가 실제 약어가 될 수 있는 약어 후보를 복원하여 재현률을 높이기 위한 재현률 임계값보다 크거나 같은 약어 후보들을 상기 선별된 약어 후보들에 추가하는 단계;
    상기 선별된 약어 후보들을 약어 사전에 등재시키는 단계를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  11. 제 10 항에 있어서,
    상기 약어 후보들이 실제 약어일 확률을 연산하는 단계는
    명사 생략형, 음절 조합형 및 혼합형에 대해 각각 분류 모형을 구성하는 단계; 및
    상기 약어 후보들을 상기 구성된 분류 모형 중 대응하는 분류 모형에 적용하는 단계를 포함하는 것을 특징으로 하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법.
  12. 제 1 항 내지 제 12 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  13. 인터넷 상에 존재하는 웹 문서들로부터 원어들을 수집하는 원어 수집부;
    상기 수집된 원어들에 대해 명사 생략형, 음절 조합형 또는 혼합형 중 적어도 하나의 형태에 해당하는 약어 후보들을 생성하는 약어 후보 생성부;
    상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형으로서 약어를 구별하기 위한 자질을 고려하는 상기 분류 모형에 상기 약어 후보들이 인터넷 상에 존재하는 웹 문서들에 존재하는 빈도를 적용하여 상기 약어 후보들이 실제 약어일 확률을 연산하는 분류 모형부; 및
    상기 약어 후보들 중 실제 약어가 아닐 확률이 큰 약어 후보를 가려내기 위한 약어 임계값보다 상기 실제 약어일 확률이 크거나 같은 약어 후보들을 약어 사전에 등재시키는 사전 생성부를 포함하는 약어 생성 유형을 고려하는 약어 사전 자동 구축 장치.
KR1020060092174A 2006-09-22 2006-09-22 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 KR100837797B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060092174A KR100837797B1 (ko) 2006-09-22 2006-09-22 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060092174A KR100837797B1 (ko) 2006-09-22 2006-09-22 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치

Publications (2)

Publication Number Publication Date
KR20080026931A KR20080026931A (ko) 2008-03-26
KR100837797B1 true KR100837797B1 (ko) 2008-06-13

Family

ID=39414134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060092174A KR100837797B1 (ko) 2006-09-22 2006-09-22 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치

Country Status (1)

Country Link
KR (1) KR100837797B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102273136B1 (ko) * 2019-10-17 2021-07-02 연세대학교 산학협력단 멀티 홉 이웃을 이용한 제로샷 지식 그래프 완성 방법 및 장치
KR102500106B1 (ko) * 2019-12-06 2023-02-16 주식회사 엘지유플러스 약어 사전 구축 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004090A (ko) * 1999-06-28 2001-01-15 정선종 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
KR20060063346A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 어휘 개념망 구축을 위한 상위어 자동 추천 방법
JP2013001312A (ja) * 2011-06-20 2013-01-07 Bridgestone Corp ビードリング及び該ビードリングを有する空気入りタイヤ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004090A (ko) * 1999-06-28 2001-01-15 정선종 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
KR20060063346A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 어휘 개념망 구축을 위한 상위어 자동 추천 방법
JP2013001312A (ja) * 2011-06-20 2013-01-07 Bridgestone Corp ビードリング及び該ビードリングを有する空気入りタイヤ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문 웹검색을 이용한 한글대역어에 대한 영어약어의 중의성 해소[제25회 한국정보처리학회 춘계학술발표대회 논문집 제 13권 제1호 (2006.5)]

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof

Also Published As

Publication number Publication date
KR20080026931A (ko) 2008-03-26

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US7461056B2 (en) Text mining apparatus and associated methods
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
Nenkova et al. A compositional context sensitive multi-document summarizer: exploring the factors that influence summarization
US8402036B2 (en) Phrase based snippet generation
KR101498001B1 (ko) 디스플레이를 위한 고품질 리뷰 선택
US8290975B2 (en) Graph-based keyword expansion
CN105512291B (zh) 用于扩展数据库搜索查询的方法和***
US20040236725A1 (en) Disambiguation of term occurrences
US8392441B1 (en) Synonym generation using online decompounding and transitivity
JPH11272699A (ja) 文書要約装置およびその方法
US20120035912A1 (en) Multilingual sentence extractor
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
US20150006563A1 (en) Transitive Synonym Creation
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
US8862586B2 (en) Document analysis system
JP2009122807A (ja) 連想検索システム
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JP5426292B2 (ja) 意見分類装置およびプログラム
US20060161537A1 (en) Detecting content-rich text
Tahir et al. FNG-IE: an improved graph-based method for keyword extraction from scholarly big-data
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120319

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee