KR101220709B1 - 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법 - Google Patents

한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법 Download PDF

Info

Publication number
KR101220709B1
KR101220709B1 KR1020100010013A KR20100010013A KR101220709B1 KR 101220709 B1 KR101220709 B1 KR 101220709B1 KR 1020100010013 A KR1020100010013 A KR 1020100010013A KR 20100010013 A KR20100010013 A KR 20100010013A KR 101220709 B1 KR101220709 B1 KR 101220709B1
Authority
KR
South Korea
Prior art keywords
word
search
character
string
hangul
Prior art date
Application number
KR1020100010013A
Other languages
English (en)
Other versions
KR20110090309A (ko
Inventor
이동창
김상호
황성택
김지훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100010013A priority Critical patent/KR101220709B1/ko
Priority to US13/020,495 priority patent/US20110188756A1/en
Publication of KR20110090309A publication Critical patent/KR20110090309A/ko
Application granted granted Critical
Publication of KR101220709B1 publication Critical patent/KR101220709B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서 인식 결과에 대한 정확한 전자 사전 검색 결과를 제공하는 방법을 제안한다. 특히 본 발명은 한글 및 한자가 혼용된 문서에 대해 문자 인식을 수행하여 인식 결과를 표시하고, 사용자에 의해 인식 결과로부터 검색할 문자열이 선택되면 선택된 문자열이 한글 또는 한자인지의 여부를 판단하고, 선택된 문자열에 포함된 한글 단어 또는 한자 단어를 검출하고, 검출된 한글 단어 또는 한자 단어에 대응하는 전자 사전 검색 결과를 출력하는 과정으로 이루어진다. 이렇게 함으로써, 사용자는 검색 단어를 직접 입력하지 않고도 전자 사전 기능을 이용할 수 있을 뿐만 아니라 한글 및 한자가 혼용된 문서에 대해 정확한 전자 사전 검색 결과를 얻을 수 있게 된다.

Description

한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법{SEARCH APPARATUS AND METHOD FOR DOCUMENT MIXING HANGEUL AND CHINESE CHARACTERS USING ELECTRONIC DICTIONARY}
본 발명은 전자 사전 검색 장치 및 방법에 관한 것으로, 특히 한글뿐만 아니라 한자가 포함된 문자를 인식하고 이를 검색하기 위한 전자 사전 검색 장치 및 방법에 관한 것이다.
카메라가 장착된 이동 통신 단말기가 대중화됨에 따라 사용자는 언제 어디서든 편리하게 촬영을 할 수 있다. 또한 이동 통신 단말기의 효용 가치를 높이고 사용자의 다양한 욕구를 만족시키기 위해 이러한 이동 통신 단말기와 다양한 부가 기능들을 접목시키기는 활용이 필요하다. 이러한 활용의 한 예로써, 이동 통신 단말기에 구현된 직장인 및 수험생들에게 많은 관심을 받고 있는 전자 사전 기능이 있다.
이러한 전자 사전 기능은 다양한 방법으로 구현되고 있는데, 사용자가 직접 검색 단어를 입력하거나 카메라를 이용하여 원하는 문자를 촬영함으로써 검색 단어를 입력하는 방법 등이 있다. 카메라를 이용한 전자 사전 기능은 크게 사용자가 카메라를 이용하여 문서 영상을 입력하고, 입력된 문서 영상을 문자 인식하고, 인식된 문자에 대해 전자 사전 데이터베이스를 검색한 후 검색된 결과를 화면에 표시함으로써 구현된다. 이에 따라 사용자는 검색 단어를 직접 입력하지 않고도 전자 사전 기능을 이용할 수 있다.
일반적으로 문자 인식을 수행함에 있어, 촬영된 문서 영상을 일단 흑백 영상 데이터로 변환하고 이진화 등의 영상 전처리를 실행한 후에 이진화된 문자 이미지에 대해 개별 문자를 분리하고 그 특징을 추출함으로써 특징 기반 문자 인식을 수행한다. 개별 문자 분리란 연속된 문자열 또는 단어로부터 낱개의 문자를 추출하는 기술로, 이는 문자 인식에 선행되어야 할 과정 중의 하나이다.
그리고나서 사용자는 문자 인식 결과로부터 검색할 단어를 선택하고, 선택된 단어는 전자 사전 데이터베이스에 연동되어 번역 결과로 출력된다. 여기서, 출력된 번역 결과의 정확성은 인식된 단어 정보에 의존적이다. 이와 같이 문자 인식 과정에서는 인식된 결과에 대한 전자사전 번역 결과의 정확성이 요구된다. 게다가 이동 통신 단말기의 내부 전자사전 데이터베이스를 이용하는 제한적 환경에서는 인식 결과에 대한 번역 결과의 정확성 확보가 더욱 중요하다.
상기한 바와 같이 사용자는 단어 단위로 검색 단어를 선택할 뿐만 아니라 전자 사전에서도 단어 단위로 검색을 수행한다. 이에 따라 실제 한글 인식의 경우 명사와 명사가 결합된 형태의 복합명사에 대해 단어 단위로 전자 사전을 검색할 경우에는 정확한 번역 결과를 얻기 어려운 실정이다. 특히 이동 통신 단말기와 같이 용량이 제한된 전자 사전 데이터베이스를 이용할 경우에는 더욱 정확한 번역 결과가 출력되지 않을 가능성이 높아지게 된다. 게다가 기존의 문자 인식 방법은 한글 또는 영문만으로만 이루어진 문서들을 대상으로 하고 있다. 이에 따라 한글, 한자가 혼용된 문서의 경우 정확한 번역 결과를 얻기 어려워 기존의 문자 인식 방법을 그대로 적용하는 데 한계가 있다.
따라서 본 발명은 한글 및 한자가 혼용된 문서에서 효율적으로 문자의 분리를 수행하여 전자 사전 검색 성능을 향상시키기 위한 장치 및 방법을 제공한다.
상기한 바를 달성하기 위한 본 발명은, 전자 사전 검색 장치에 있어서, 문서 영상에 대한 문자 인식을 수행하는 문자 인식부와, 상기 문자 인식 결과 중에서 사용자에 의해 검색할 문자열이 선택되면, 상기 선택된 문자열이 한글 또는 한자에 해당하는지를 판단하는 인식 결과 후처리부와, 상기 선택된 문자열이 한자에 해당할 경우 상기 선택된 문자열의 한자 단어를 한글 사전 데이터베이스에서 검색하고, 상기 선택된 문자열이 한글에 해당할 경우 상기 선택된 문자열의 한글 단어를 한자 사전 데이터베이스에서 검색하는 전자 사전 검색부와, 상기 문자 인식 결과 및 상기 전자 사전 검색부에 의한 검색 결과를 표시하는 표시부를 포함함을 특징으로 한다.
또한 본 발명은, 카메라를 구비한 전자 사전 검색 장치에서 문자 인식에 대한 전자 사전 검색 결과를 제공하기 위한 방법에 있어서, 문서 영상에 대한 문자 인식을 수행하는 과정과, 상기 문자 인식 결과 중에서 사용자에 의해 검색할 문자열이 선택되면, 상기 선택된 문자열이 한글 또는 한자에 해당하는지를 판단하는 과정과, 상기 판단 결과에 따라 한글 또는 한자 사전 데이터베이스에서 상기 선택된 문자열에 대한 전자 사전 검색을 수행하는 과정을 포함함을 특징으로 한다.
본 발명에 따르면, 한글과 한자가 혼재되어 있는 문서의 문자 인식 및 전자사전 연동 정보 검색에 있어서, 함께 인식된 한글과 한자가 대해서 각각 동시에 전자사전 정보가 검색되도록 구성하여 전자 사전의 검색 기능을 향상시킬 수 있는 이점이 있다.
또한 본 발명은 이동 통신 단말기 내부에 전자사전 데이터베이스가 구현됨으로 인한 한정된 자원 환경 하에서도 한글 및 한자가 혼용된 문서에 대한 전자 사건 검색 결과를 제공할 수 있는 이점이 있다.
또한 본 발명은 사용자가 선택한 인식된 문자열에 대해서, 해당 문자의 문법적 특성에 맞는 후처리 방법을 사용하여 전자사전 검색을 수행함으로써, 보다 더 정확한 전자사전 검색 결과 정보를 제공하는 장점이 있다.
도 1은 본 발명의 실시예에 따른 전자 사전 검색 장치의 내부블록 구성도,
도 2 및 도 3은 본 발명의 실시예에 따른 전자 사전 검색 장치에서의 한글 및 한자가 혼용된 문서에 대한 인식 과정을 보인 도면,
도 4는 본 발명의 실시예에 따라 한자 단어에 대한 검색 결과를 예시한 도면,
도 5는 본 발명의 실시예에 따라 한글 단어에 대한 검색 결과를 예시한 도면.
이하 첨부된 도면을 참조하여 본 발명을 구성하는 장치 및 동작 방법을 본 발명의 실시 예를 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
본 발명은 문서 인식 결과에 대한 정확한 전자 사전 검색 결과를 제공하는 방법을 제안한다. 특히 본 발명은 한글 및 한자가 혼용된 문서에 대해 문자 인식을 수행하여 인식 결과를 표시하고, 사용자에 의해 인식 결과로부터 검색할 문자열이 선택되면 선택된 문자열이 한글 또는 한자인지의 여부를 판단하고, 선택된 문자열에 포함된 한글 단어 또는 한자 단어를 검출하고, 검출된 한글 단어 또는 한자 단어에 대응하는 전자 사전 검색 결과를 출력하는 과정으로 이루어진다. 이렇게 함으로써, 사용자는 검색 단어를 직접 입력하지 않고도 전자 사전 기능을 이용할 수 있을 뿐만 아니라 한글 및 한자가 혼용된 문서에 대해 정확한 전자 사전 검색 결과를 얻을 수 있게 된다.
상기한 바와 같은 기능이 구현된 전자 사전 검색 장치의 구성요소 및 그 동작을 도 1을 참조하여 살펴보기로 한다. 여기서, 전자 사전 검색 장치로는 예를 들어, 이동 통신 단말기, MP3 플레이어, PMP, 게임기, 노트북 등의 전자 기기가 이에 해당할 수 있다.
도 1을 참조하면, 전자 사전 검색 장치는 문서 영상 촬영부(100), 영상 전처리부(110), 문자 인식부(120), 인식 결과 후처리부(130) 및 전자 사전 검색부(140)를 포함한다.
먼저, 문서 영상 촬영부(100)는 문서 영상을 촬영하는 수단으로, 카메라 등이 해당된다. 문서 영상 촬영부(100)는 촬영된 문서에 대한 영상 데이터를 영상 전처리부(110)로 전달한다.
영상 전처리부(110)는 그 영상 데이터를 흑백 영상 데이터로 변환하고, 이진화 등의 처리를 수행한다.
문자 인식부(120)는 영상 전처리부(110)로부터 전달된 영상 데이터에 대해 문자 인식을 수행하여 텍스트 데이터로 바꾼다. 구체적으로, 문자 인식부(120)는 텍스트 데이터 내의 각각의 문자들을 개별 문자들로 분리하고, 그 특징의 형태에 따라서 미리 구축되어 있는 특징 데이터베이스와 매칭시키는 과정을 거쳐 문자 인식을 수행한다. 인식된 문자들은 인식 결과의 기본적인 구조인 라인(Line) - 단어(Word) - 문자(Character)의 구조로 임시 저장된다.
이러한 문자 인식이 완료되면 표시부(150)는 화면을 통해 인식 결과를 표시한다. 표시부(150) 상에 표시되는 인식 결과로부터 사용자는 원하는 단어를 선택할 수 있다.
전자 사전 검색부(140)는 선택된 단어에 대해 전자 사전 데이터베이스를 검색하여 그 선택된 단어에 대한 검색 결과를 출력한다. 이때, 본 발명에 따른 전자 사전 검색 장치는 보다 정확한 사전 검색 결과를 제공하기 위해 검색 전에 인식된 결과에 대한 후처리 과정을 수행할 수 있도록 인식 결과 후처리부(130)를 더 구비한다.
특히 한글 및 한자가 혼용된 문서 영상의 경우 인식 결과 후처리부(130)는 사용자가 선택한 단어가 한자 단어 또는 한글 단어인지를 판단한다. 이러한 판단 결과를 포함하는 후처리된 인식 결과를 전자 사전 검색부(140)로 제공한다.
우선, 한자 단어의 경우 전자 사전 검색부(140)는 한글 데이터베이스를 검색하여 그 한자 단어에 대한 검색 결과를 표시부(150)를 통해 출력한다. 이때, 한자 단어의 경우 그 한자 단어를 구성하는 개별 한자들도 고유의 뜻을 가지고 있다. 따라서 한자 단어의 개별 한자에 대한 사전 검색 기능도 제공하는 것이 바람직하다. 이를 위해 전자 사전 검색부(140)는 사용자에 의해 그 한자 단어의 낱개 한자가 선택되면, 선택된 낱개 한자를 한글 데이터베이스에서 검색하여 그 낱개 한자에 대한 검색 결과를 표시부(150)를 통해 출력한다.
한글 단어의 경우 전자 사전 검색부(140)는 한자 데이터베이스를 검색하여 그 한글 단어에 대한 검색 결과를 표시부(150)를 통해 출력한다. 특히 본 발명에서는 복합 명사에 대해 향상된 전자 사전 검색 결과를 제공하기 위해 선택된 한글 단어에 대한 검색 결과가 없는 경우, 전자 사전 검색부(140)는 복합 명사를 분리하는 등의 선택된 한글 단어에 대한 검색어를 재구성한다.
본 발명의 실시예에 따라 복합 명사를 처리하는 과정은 다음과 같은 두 단계로 이루어진다. 복합 명사의 처리 과정을 상세히 설명하기 위해 "영상신호처리를" 이라는 단어가 선택된 경우를 예로 들어 설명하기로 한다. 여기서, 2개 이상의 단어가 조합되어 하나의 단어를 이루는 말을 복합어라 하는데, 본 발명의 실시예에서는 이를 복합 명사라고 칭한다.
첫번째 단계에서, 전자 사전 검색부(140)는 표 1에서와 같이 선택된 단어의 첫번째 문자부터 한 글자씩 추가하면서 한 글자씩 추가되는 단어가 전자 사전 데이터베이스에 존재하는지 여부를 판단한다. 그리고나서 전자 사전 검색부(140)는 전자 사전 데이터베이스에 존재하는 단어들 중 가장 긴 단어를 선택된 단어에 대한 검색 결과로써 출력한다. 이에 따라 "영상"에 대한 검색 결과가 출력된다.
단어 조합 전자 사전 존재 여부
영상
영상신 ×
영상신호 ×
영상신호처 ×
영상신호처리를 ×
이어, 전자 사전 검색부(140)는 검색된 단어를 제외한 남아있는 문자열의 첫번째 문자부터 한 글자씩 추가하면서 전자 사전 데이터베이스에 존재하는지 여부를 판단한다. 이에 따라 "영상신호처리를"이라는 선택된 단어에서 "영상"에 대한 검색 결과가 출력된 이후에는 "신호처리를"이라는 문자열이 남으므로, 그 "신호처리를"에 대한 순차적인 검색을 수행한다. 이에 따라 "신호"에 대한 검색 결과가 출력된다.
단어 조합 전자 사전 존재 여부
신호
신호처 ×
신호처리를 ×
전자 사전 검색부(140)는 하기 표 3에서와 같은 남아있는 문자열에 대해 상기와 같은 방법을 반복 수행하는데, 남아있는 문자열 중 가장 끝에 있는 문자는 조사일 확률이 매우 높다. 따라서 전자 사전 검색부(140)는 나머지 문자열에 대한 조사 포함 여부를 판단한다.
단어 조합 전자 사전 존재 여부
처리
처리를 ×
상기 표 3에서, 전자 사전 검색부(140)는 맨 마지막 문자 즉, "를"이 조사 및 어미 리스트에 존재하는지를 판단한다. 판단 결과 그 리스트에 존재하는 경우 그 맨 마지막 문자를 제외한 나머지 문자열에 대한 전자 사전 검색을 수행한다. 이와 같이 "를"과 같은 문자는 사전적 의미 검색 결과를 기대할 수 없으므로 조사로 간주하여 전자 사전 검색 시 제외시키는 것이 효과적이다. 이에 따라 "처리"에 대한 검색 결과가 출력된다.
상기한 바와 같이 전자 사전 검색부(140)는 선택된 문자열 중에서 검색을 통해 전자 사전 데이터베이스에 존재하는 가장 긴 문자열을 제1검색어로 선정하고, 그 제1검색어에 대한 검색 결과를 표시한다. 이어, 전자 사전 검색부(140)는 선택된 문자열 중에서 상기 제1검색어를 제외한 나머지 문자열의 마지막 문자가 조사인지를 판단하고, 상기 마지막 문자가 조사일 경우 상기 나머지 문자열에서 상기 마지막 문자를 제거한 후, 상기 마지막 문자가 제거된 문자열 중에서 제2검색어를 선정하고, 상기 제2검색어에 대한 검색 결과를 출력한다. 이어, 전자 사전 검색부(140)는 제2검색어를 제외한 나머지 문자열 중에서 제3검색어를 선정하는 등의 반복 검색어 선정 방법을 통해 복합 문자에 대한 전자 사전 검색 기능을 수행한다.
이러한 전자 사전 검색부(140)의 검색 결과는 한자 단어의 경우 한자 단어에 대한 뜻이 한글 표기로 표시부(150)를 통해 출력되며, 한자 단어의 낱개 한자를 검색한 경우에는 그 낱개 한자에 대한 뜻이 표시부(150)를 통해 출력된다. 또한 한글 단어의 경우 전자 사전 검색부(140)의 검색 결과는 한자 표기로 표시부(150)를 통해 출력되며, 복합 명사의 경우 재구성된 검색어에 대한 뜻이 한자 표기로 표시부(150)를 통해 출력된다.
표시부(150)는 문서 영상의 중간 처리 결과나 문자 인식 결과 및 전자 사전 검색 결과 등을 사용자에게 표시한다.
이와 같이 후처리된 인식 결과를 이용하여 전자 사전 검색부(140)는 전자 사전 검색을 수행하고, 검색된 결과를 표시부(150)를 통해 출력한다. 이렇게 함으로써 사용자는 한글 및 한자가 혼용된 문서 이미지에서 검색어를 일일이 입력하지 않고 클릭 등의 방법을 통해 검색어를 지정하기만 하면 지정된 검색어에 대한 검색 결과를 볼 수 있게 된다.
상기한 바와 같은 구성을 가지는 전자 사전 검색 장치에서의 동작 과정을 살펴보기 위해 도 2 및 도 3을 참조하기로 한다. 여기서, 사용자는 전자 사전 검색 장치에 구비된 카메라 등을 구동함으로써 인식하려는 문서를 촬영할 수 있으며, 이하의 설명에서는 도 4 및 도 5에서와 같이 한글 및 한자가 혼용된 문서를 촬영하는 경우를 예로 들어 설명한다.
도 2를 참조하면, 200단계에서 한글 및 한자가 혼용된 문서 영상이 촬영되면, 전자 사전 검색 장치는 촬영된 문서 영상을 205단계에서 화면 상에 표시한다. 또한, 촬영된 문서 영상은 메모리에 저장된다. 그리고나서 전자 사전 검색 장치는 저장된 문서 영상을 인식에 적합하도록 영상을 처리하는 동작을 수행한다. 이에 따라 210단계에서 영상 전처리 및 문자 인식을 수행한다. 구체적으로, 촬영된 문서 영상은 컬러 영상이므로 그레이 영상으로 변환된 후 이진화 처리되며, 이렇게 전처리된 영상 내의 개별 문자들을 분리하고 분리된 문자들의 특징에 기반하여 문자 인식 과정을 수행한다.
이러한 문자 인식 과정이 완료되면 215단계에서 문자 인식 결과가 화면에 표시된다. 이러한 문자 인식 결과가 표시된 화면에서 사용자는 검색을 위한 문자열을 선택할 수 있다. 이에 따라 전자 사전 검색 장치는 220단계에서 검색할 문자열이 선택되는지를 판단하고, 판단 결과 문자열이 선택되면 225단계에서 선택된 문자열을 분석한다. 이때, 사용자가 선택하는 문자열은 단어 기반으로 선택된다. 다르게는 선택하는 문자열은 띄어쓰기 단위로 선택될 수도 있다.
도 4 및 도 5에서와 같이 사용자가 촬영한 문서 영상에는 한글 및 한자가 혼용되어 있기 때문에 선택된 문자열이 한글인지 한자에 해당하는지를 판단하는 과정이 우선적으로 수행되어야 한다. 이를 위해 선택된 문자열을 분석한 후, 225단계에서 분석 결과 선택된 문자열이 한글인지 한자인지를 판단한다. 판단 결과 한글인 경우 도 3의 300단계로 진행하는데, 도 2의 230단계와 도 3의 300단계가 서로 연결되어 있음을 나타내기 위해 심볼 A를 사용하였다. 또한 도 3의 325단계와 도 2의 225단계가 서로 연결되어 있음을 나타내기 위해 심볼 B를 사용하였다.
만일 사용자에 의해 선택된 문자열이 한자에 해당하는 경우 전자 사전 검색 장치는 235단계에서 선택된 문자열에 해당하는 한자 단어를 한글 사전 데이터베이스에서 검색한다. 한자 단어의 경우 한글 표기를 위해 한글 사전 데이터베이스가 이용되는 것이다. 이러한 검색에 따라 전자 사전 검색 장치는 240단계에서 그 한자 단어에 대한 검색 결과를 표시한다.
도 4(a)는 촬영된 문서 영상의 인식 결과를 예시하며, 그 중에서 사용자가 한자 단어를 선택한 경우의 검색 결과를 예시하고 있다. 도 4(a)에서와 같이 인식된 문자들 중에서 사용자가 "中途"(400)라는 문자열을 선택했을 경우, 선택된 문자열에 대한 전자 사전 검색 결과가 결과창(405)에 표시된다. 이러한 결과창(405)에는 '중도'라는 음과 '일이 되어가는 동안' 이라는 뜻이 표시된다.
한편, 검색된 결과는 화면상에 표시되는데 한자의 경우, 단어 단위의 검색도 그 의미가 중요하지만 단어를 구성하는 개별 한자들도 고유의 뜻을 가지고 있기 때문에 인식된 한자 단어에 대해서 낱자의 사전 검색 기능도 포함되어야 한다. 이에 따라 전자 사전 검색 장치는 개별 한자에 대한 검색 기능도 제공하며, 이에 따라 245단계에서 사용자로부터 한자 낱자 검색 요청이 있는지를 판단한다. 판단 결과 한자 낱자 검색 요청이 있으면 250단계에서 검색 요청된 한자 낱자를 한글 사전 데이터베이스에서 검색하고 그 검색 결과를 표시한다.
도 4(b)는 선택된 문자열(400)에 대한 한자 낱자(410) 검색 요청 결과를 예시하고 있다. 도 4(b)에 도시된 바와 같이, 사용자가 "中途"(400)라는 문자열을 선택한 후 다시 "途"(410)라는 한자 낱자를 선택한다면 검색창(415)에는 '도'라는 음과 '길, 도로' 라는 뜻이 표시된다.
한편, 230단계에서 사용자가 선택한 문자열이 한글에 해당하는 경우 도 3의 300단계에서와 같이 선택된 문자열에 해당하는 한글 단어를 한자 표기를 위해 한자 사전 데이터베이스에서 검색한다. 305단계에서 검색 결과가 존재할 경우에는 325단계로 진행하여 한글 단어에 대한 검색 결과를 표시한다. 만일 검색 결과가 존재하지 않을 경우 310단계로 진행하여 선택된 문자열에 대한 검색어를 재구성한다.
일반적으로 단말기 내부 전자 사전 DB에 등록되어 있는 단어별 데이터는 고유명사를 제외한다면 대부분 하나의 단어별로 구성되어 있다. 예를 들어 '우리나라' 및 '기술지원' 등과 같은 두 개의 단어로 이루어진 복합 명사의 경우에는 정확한 검색 결과를 사전에서 제공하지 못한다. 그러므로 전자 사전 검색 이전에 복합 명사를 분리해야할 필요성이 있다. 이에 따라 발명의 실시예에서는 검색어를 재구성하는 방법을 이용하여 정확한 검색 결과를 제공하고자 한다. 이러한 검색어의 재구성 방법으로 선택된 문자열의 앞에서부터 전자 사전 데이터베이스에 존재 여부를 판단해가면서 문자수를 하나씩 늘려가는 방법을 사용한다.
도 5(a)는 촬영된 문서 영상의 인식 결과를 예시하며, 그 중에서 사용자가 한글 단어를 선택한 경우 그 한글 단어에 대한 한자 표기와 뜻이 검색 결과로써 표시되는 경우를 예시하고 있다. 만일 사용자가 선택한 문자열이 "정찰기를"이라는 한글 단어에 해당할 경우 전자 사전 검색 장치는 그 한글 단어의 가장 앞 문자인 "정"에 대한 전자 사전 데이터베이스 검색 결과의 존재 유무를 판단한다. 이러한 전자 사전 검색을 문자수를 하나씩 늘여가면서 반복 수행한 후, 전자 사전 검색 결과 그 전자 사전 데이터베이스에 존재하는 가장 긴 단어를 하나의 검색어로 분리한다. 그리고나서 남아있는 문자열에 대해서는 상기 검색 과정을 반복 수행한다.
따라서 사용자가 "정찰기를"이라는 문자열을 선택하더라도 전자 사전 데이터베이스에는 "정찰"에 대한 뜻만 저장되어 있을 경우 도 5(a)에서와 같이 "정찰"(500)에 대해 검색창(505)에는 한자 표기와 함께 뜻이 표시된다.
한편, 도 5(a)에서는 "정찰기를"이라는 선택된 문자열 중에서 "정찰"이라는 한글 단어가 분리되어 검색 결과가 표시되는데, 이러한 경우 "기를"이라는 문자열이 남게 된다. 이러한 경우 전자 사전 검색 장치는 315단계에서 조사 및 어미 리스트를 검색함으로써 남아있는 문자열 중 맨 마지막 문자가 조사에 해당하는지를 판단한다. 판단 결과 조사 및 어미 리스트에 맨 마지막 문자에 해당하는 문자가 존재할 경우 이를 조사라고 판단하여 남아있는 문자열에서 제거한다. 즉, "기를"에서 "기"만 남게 된다. 그러면 전자 사전 검색 장치는 남은 문자열 즉, 한글 단어에 대한 한자 사전 데이터베이스 검색을 수행하여 320단계에서 검색 결과가 존재하는지를 판단한다. 판단 결과 검색 결과가 존재할 경우 325단계에서 그 한글 단어에 대한 검색 결과를 표시한다. 그리고나서 도 2의 255단계로 진행하여 사용자에 의해 검색 문자열이 재선택되는지를 판단하고, 검색 문자열이 재선택되는 경우 225단계로 되돌아가 상기 과정을 반복 수행한다.
도 5(b)는 "정찰기를"에서 "정찰"이라는 단어가 분리됨으로써 남은 "기를"(510)이라는 한글 단어에 대한 검색 결과를 예시하고 있다. 도 5(b)에서와 같이 "기를"에 대해서는 "를"은 조사로 간주되어 제거되므로, 검색창(515)에는 한글 사전 검색 결과로 "기"에 대한 뜻만 표시되게 된다.
상기한 바와 같이 본 발명은 한글과 한자를 동시에 인식하고, 인식된 한글 또는 한자의 특징에 대응되게 문자열 처리를 수행한 후, 이를 토대로 전자 사전 검색을 수행하는 것이다.

Claims (16)

  1. 전자 사전 검색 장치에 있어서,
    문서 영상에 대한 문자 인식을 수행하는 문자 인식부와,
    상기 문자 인식 결과 중에서 사용자에 의해 검색할 문자열이 선택되면, 상기 선택된 문자열이 한글 또는 한자에 해당하는지를 판단하는 인식 결과 후처리부와,
    상기 선택된 문자열이 한자에 해당할 경우 상기 선택된 문자열의 한자 단어를 한글 사전 데이터베이스에서 검색하고, 상기 선택된 문자열이 한글에 해당할 경우 상기 선택된 문자열의 한글 단어를 한자 사전 데이터베이스에서 검색하는 전자 사전 검색부와,
    상기 문자 인식 결과 및 상기 전자 사전 검색부에 의한 검색 결과를 표시하는 표시부를 포함하고,
    상기 전자 사전 검색부는,
    상기 선택된 문자열의 한글 단어가 상기 한자 사전 데이터베이스에서 검색되지 않는 경우, 상기 선택된 문자열의 첫번째 문자부터 순차적으로 하나씩 문자수를 늘려가면서 상기 한자 사전 데이터베이스에서 검색하고,
    상기 선택된 문자열 중에서 상기 검색을 통해 상기 한자 사전 데이터베이스에 존재하는 가장 긴 문자열을 제1검색어로 선정하고, 상기 제1검색어에 대한 검색 결과를 출력함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  2. 제1항에 있어서,
    한글 및 한자가 혼용된 문서 영상을 촬영하는 문서 영상 촬영부와,
    상기 촬영된 문서 영상을 흑백 영상으로 변환한 후 이진화 처리한 문서 영상을 상기 문자 인식부로 전달하는 영상 전처리부를 더 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  3. 제1항에 있어서, 상기 전자 사전 검색부는,
    상기 선택된 문자열의 한자 단어를 상기 한글 사전 데이터베이스에서 검색한 후, 상기 한자 단어에 대한 음과 뜻을 한글 표기로 상기 표시부 상에 표시함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  4. 제3항에 있어서, 상기 전자 사전 검색부는,
    상기 선택된 문자열의 한자 단어에 대한 한자 낱자 검색 요청이 있는지를 판단하고, 상기 한자 낱자 검색 요청이 있는 경우 상기 검색 요청된 한자 낱자를 상기 한글 사전 데이터베이스에서 검색한 후, 상기 한자 낱자에 대한 음과 뜻을 한글 표기로 상기 표시부 상에 표시함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  5. 제1항에 있어서, 상기 전자 사전 검색부는,
    상기 선택된 문자열의 한글 단어를 상기 한자 사전 데이터베이스에서 검색한 후, 상기 한글 단어에 대한 한자 표기와 뜻을 상기 표시부 상에 표시함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  6. 삭제
  7. 삭제
  8. 제1항에 있어서, 상기 전자 사전 검색부는,
    상기 선택된 문자열 중 상기 제1검색어를 제외한 나머지 문자열의 마지막 문자가 조사인지를 판단하고, 상기 마지막 문자가 조사일 경우 상기 나머지 문자열에서 상기 마지막 문자를 제거한 후, 상기 마지막 문자가 제거된 문자열 중에서 제2검색어를 선정하고, 상기 제2검색어에 대한 검색 결과를 출력함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치.
  9. 카메라를 구비한 전자 사전 검색 장치에서 문자 인식에 대한 전자 사전 검색 결과를 제공하기 위한 방법에 있어서,
    문서 영상에 대한 문자 인식을 수행하는 과정과,
    상기 문자 인식 결과 중에서 사용자에 의해 검색할 문자열이 선택되면, 상기 선택된 문자열이 한글 또는 한자에 해당하는지를 판단하는 과정과,
    상기 판단 결과에 따라 한글 또는 한자 사전 데이터베이스에서 상기 선택된 문자열에 대한 전자 사전 검색을 수행하는 과정과,
    상기 선택된 문자열의 한글 단어가 상기 한자 사전 데이터베이스에서 검색되지 않는 경우, 상기 선택된 문자열의 첫번째 문자부터 순차적으로 하나씩 문자수를 늘려가면서 상기 한자 사전 데이터베이스에서 검색하는 과정과,
    상기 선택된 문자열 중에서 상기 검색을 통해 상기 한자 사전 데이터베이스에 존재하는 가장 긴 문자열을 제1검색어로 선정하는 과정과,
    상기 제1검색어에 대한 검색 결과를 출력하는 과정을 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
  10. 제9항에 있어서,
    한글 및 한자가 혼용된 문서 영상을 촬영하는 과정과,
    상기 촬영된 문서 영상을 흑백 영상으로 변환한 후, 이진화 처리한 문서 영상을 상기 문자 인식을 위해 제공하는 과정을 더 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
  11. 제9항에 있어서, 상기 전자 사전 검색을 수행하는 과정은,
    상기 선택된 문자열이 한자에 해당할 경우 상기 선택된 문자열의 한자 단어를 상기 한글 사전 데이터베이스에서 검색하는 과정과,
    상기 한자 단어에 대한 음과 뜻을 한글 표기로 표시하는 과정을 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
  12. 제11항에 있어서,
    상기 선택된 문자열의 한자 단어에 대한 한자 낱자 검색 요청이 있는지를 판단하는 과정과,
    상기 한자 낱자 검색 요청이 있는 경우 상기 검색 요청된 한자 낱자를 상기 한글 사전 데이터베이스에서 검색하는 과정과,
    상기 한자 낱자에 대한 음과 뜻을 한글 표기로 표시하는 과정을 더 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
  13. 제9항에 있어서, 상기 전자 사전 검색을 수행하는 과정은,
    상기 선택된 문자열이 한글에 해당할 경우 상기 선택된 문자열의 한글 단어를 상기 한자 사전 데이터베이스에서 검색하는 과정과,
    상기 한글 단어에 대한 한자 표기와 뜻을 표시하는 과정을 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
  14. 삭제
  15. 삭제
  16. 제9항에 있어서,
    상기 선택된 문자열 중 상기 제1검색어를 제외한 나머지 문자열의 마지막 문자가 조사인지를 판단하는 과정과,
    상기 마지막 문자가 조사일 경우 상기 나머지 문자열에서 상기 마지막 문자를 제거하는 과정과,
    상기 마지막 문자가 제거된 문자열 중에서 제2검색어를 선정하고, 상기 제2검색어에 대한 검색 결과를 출력하는 과정을 더 포함함을 특징으로 하는 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 방법.
KR1020100010013A 2010-02-03 2010-02-03 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법 KR101220709B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100010013A KR101220709B1 (ko) 2010-02-03 2010-02-03 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
US13/020,495 US20110188756A1 (en) 2010-02-03 2011-02-03 E-dictionary search apparatus and method for document in which korean characters and chinese characters are mixed

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100010013A KR101220709B1 (ko) 2010-02-03 2010-02-03 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110090309A KR20110090309A (ko) 2011-08-10
KR101220709B1 true KR101220709B1 (ko) 2013-01-10

Family

ID=44341709

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100010013A KR101220709B1 (ko) 2010-02-03 2010-02-03 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법

Country Status (2)

Country Link
US (1) US20110188756A1 (ko)
KR (1) KR101220709B1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8959082B2 (en) * 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
US20130106683A1 (en) * 2011-10-31 2013-05-02 Elwha LLC, a limited liability company of the State of Delaware Context-sensitive query enrichment
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US8959109B2 (en) * 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
EP2891078A4 (en) 2012-08-30 2016-03-23 Microsoft Technology Licensing Llc CHOICE OF CANDIDATE BASED ON CHARACTERISTICS
EP3030982A4 (en) 2013-08-09 2016-08-03 Microsoft Technology Licensing Llc INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT
KR102326105B1 (ko) * 2015-05-27 2021-11-12 삼성에스디에스 주식회사 워드 추출 방법 및 장치
SG10202108490QA (en) * 2017-08-08 2021-09-29 Education Index Man Asia Pacific Pte Ltd Language-adapted user interfaces

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930023866A (ko) * 1992-05-28 1993-12-21 이헌조 문서인식장치의 혼용문자 절출방법
KR20050034660A (ko) * 2005-02-23 2005-04-14 (주)태성모바일 휴대폰의 내장 카메라를 이용한 휴대폰 내장 전자사전 검색방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4890230A (en) * 1986-12-19 1989-12-26 Electric Industry Co., Ltd. Electronic dictionary
JPH02253369A (ja) * 1989-03-28 1990-10-12 Canon Inc 電子辞書
JP2723118B2 (ja) * 1992-08-31 1998-03-09 インターナショナル・ビジネス・マシーンズ・コーポレイション 2次元オブジェクトの認識に用いるためのニューラル・ネットワーク及び光学式文字認識装置
JP3499671B2 (ja) * 1996-02-09 2004-02-23 富士通株式会社 データ圧縮装置及びデータ復元装置
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
EP2144189A3 (en) * 2008-07-10 2014-03-05 Samsung Electronics Co., Ltd. Method for recognizing and translating characters in camera-based image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930023866A (ko) * 1992-05-28 1993-12-21 이헌조 문서인식장치의 혼용문자 절출방법
KR20050034660A (ko) * 2005-02-23 2005-04-14 (주)태성모바일 휴대폰의 내장 카메라를 이용한 휴대폰 내장 전자사전 검색방법

Also Published As

Publication number Publication date
KR20110090309A (ko) 2011-08-10
US20110188756A1 (en) 2011-08-04

Similar Documents

Publication Publication Date Title
KR101220709B1 (ko) 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
Nayef et al. Icdar2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt
CN104504109B (zh) 图片搜索方法和装置
Burie et al. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc)
US8577882B2 (en) Method and system for searching multilingual documents
US8625899B2 (en) Method for recognizing and translating characters in camera-based image
US8538943B1 (en) Providing images of named resources in response to a search query
JP4408129B2 (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
KR20220122761A (ko) 검색 방법 및 기기, 및 전자 장치 및 저장 매체
EP2124159A1 (en) Image learning, automatic annotation, retrieval method, and device
US20080270378A1 (en) Method, Apparatus and Computer Program Product for Determining Relevance and/or Ambiguity in a Search System
US20080215548A1 (en) Information search method and system
CN110019647A (zh) 一种关键词搜索方法、装置和搜索引擎
CN107330040B (zh) 一种学习题目搜索方法及其***
JP2019520662A (ja) 商標画像のコンテンツ・ベースの検索及び取得
US10152540B2 (en) Linking thumbnail of image to web page
EP2806336A1 (en) Text prediction in a text input associated with an image
JP2010217996A (ja) 文字認識装置、文字認識プログラム、および文字認識方法
CN106407358A (zh) 一种图像搜索方法、装置及移动终端
KR20210086836A (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
US7286722B2 (en) Memo image managing apparatus, memo image managing system and memo image managing method
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
KR101626500B1 (ko) 광학 문자 인식을 기반으로 한 단어 정리 시스템 및 방법
CN111542817A (zh) 信息处理装置、视频检索方法、生成方法及程序
JP2008191936A (ja) コンテンツ登録・検索システムの構築支援方法、およびコンテンツ登録・検索システムの構築支援装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151229

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190123

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200103

Year of fee payment: 8