KR20090123523A - 광학 문자 인식 시스템 및 방법 - Google Patents

광학 문자 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20090123523A
KR20090123523A KR1020080049655A KR20080049655A KR20090123523A KR 20090123523 A KR20090123523 A KR 20090123523A KR 1020080049655 A KR1020080049655 A KR 1020080049655A KR 20080049655 A KR20080049655 A KR 20080049655A KR 20090123523 A KR20090123523 A KR 20090123523A
Authority
KR
South Korea
Prior art keywords
character
document
image
learning
character recognition
Prior art date
Application number
KR1020080049655A
Other languages
English (en)
Other versions
KR100957508B1 (ko
Inventor
장동식
박상성
신영근
정원교
장진우
이경호
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020080049655A priority Critical patent/KR100957508B1/ko
Publication of KR20090123523A publication Critical patent/KR20090123523A/ko
Application granted granted Critical
Publication of KR100957508B1 publication Critical patent/KR100957508B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

광학 문자 인식 시스템 및 방법이 개시된다. 광학 문자 인식 시스템은 문서 형식 설정부, 이미지 등록부, 문자 인식부, 및 데이터 저장부를 포함한다. 문서 형식 설정부는 문자 인식을 하고자 하는 문서의 형식 및 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정하며, 이미지 등록부는 문자 인식을 수행할 문서 이미지를 입력한다. 또한, 문자 인식부는 문서 이미지가 문서 형식 설정부에서 설정된 문서의 형식에 해당할 경우, 인식 영역 내의 문자를 문자 학습에 의해 생성된 기준 값과 비교하여 인식하고, 데이터 저장부는 문서 형식 설정부, 이미지 등록부 및 문자 인식부에서 발생한 데이터를 저장한다. 이러한 구성으로 입력된 임의의 문서가 인식 영역이 설정된 문서 형식에 해당될 경우, 필요한 부분만을 빠르게 인식하여 문자 인식의 효율성을 높이고, 대량으로 문자 인식을 가능하게 할 수 있다.
OCR, 광학 문자 인식, 인식 영역

Description

광학 문자 인식 시스템 및 방법{System and method for recognizing optical characters}
본 발명은 광학 문자 인식 시스템 및 방법에 관한 것으로, 보다 상세하게는 문자 인식을 하고자하는 영역을 미리 설정하여, 입력된 문서에서 설정된 영역만을 문자 인식하기 위한 광학 문자 인식 시스템 및 방법에 관한 것이다.
최근 들어 문서나 서류 등의 보관에 대한 중요성이 커지고 있다. 그리하여 종이의 형태로 관리하던 문서나 서류들을 편리하게 관리하기 위해 전자화시키고 있는데, 이러한 종이로 되어 있는 서류들을 전자화시키기 위해서는 사람들이 해당 서류를 보고 직접 수작업으로 일일이 입력해야 한다는 번거로움이 있었다.
현재는, 이러한 번거로움을 줄이기 위해 문서나 서류를 스캔하고, 스캔한 이미지에서 광학 문자 인식 기술(OCR)을 이용해 문자를 추출하는 방식을 통해 전자화시키고 있다.
광학 문자 인식(OCR: Optical Character Recognition)이란, 스캐너를 통해 입력된 문서 영상에서 문자에 해당하는 부분의 내용을 인식하는 기술을 말한다.
그러나 광학 문자 인식을 이용한 문자 인식에서도 문제점이 존재하는데, 이 는 일반적으로 광학 문자 인식을 이용할 경우, 문서 전체를 읽어서 전체 문서를 인식하는 형식으로 주로 구현되기 때문이다. 즉, 광학 문자 인식을 통해 문자 인식을 한 이후에, 인식된 전체 문서에서 필요한 부분과 필요하지 않은 부분을 일일이 분류해야 하는 번거로움이 있다는 것이 문제점이라고 할 수 있다.
본 발명은 이와 같은 종래의 문제점을 해결하기 위해 안출된 것으로서, 입력된 임의의 문서가 인식 영역이 설정된 문서 형식에 해당될 경우, 필요한 부분만을 빠르게 인식할 수 있어 문자 인식의 효율성을 높이고, 대량으로 문자 인식을 가능하게 하기 위한 광학 문자 인식 시스템 및 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해 본 발명에 따른 광학 문자 인식 시스템은 문서 형식 설정부, 이미지 등록부, 문자 인식부, 및 데이터 저장부를 포함한다.
문서 형식 설정부는 문자 인식을 하고자 하는 문서의 형식 및 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정하며, 이미지 등록부는 문자 인식을 수행할 문서 이미지를 입력한다.
또한, 문자 인식부는 문서 이미지가 문서 형식 설정부에서 설정된 문서의 형식에 해당할 경우, 인식 영역 내의 문자를 문자 학습에 의해 생성된 기준 값과 비교하여 인식하고, 데이터 저장부는 문서 형식 설정부, 이미지 등록부 및 문자 인식부에서 발생한 데이터를 저장한다.
이러한 구성으로 입력된 임의의 문서가 인식 영역이 설정된 문서 형식에 해당될 경우, 필요한 부분만을 빠르게 인식하여 문자 인식의 효율성을 높이고, 대량으로 문자 인식을 가능하게 할 수 있다.
문자 인식부는 문서 이미지의 전체 크기를 조절하고 이미지의 픽셀 값을 이 진화하여 문자를 인식할 수 있는데, 이로 인해 문자와 배경을 확실하게 구분할 수 있다.
또한, 문자 인식부는 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 가진 픽셀 중, 최하단 픽셀들을 연결하여 라인을 식별함으로써 문자를 인식할 수 있다.
또한, 문자 인식부는 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하여 문자를 인식할 수 있다.
본 발명에 따른 광학 문자 인식 시스템은 문자의 기준 값을 생성하기 위해 다수의 문자 이미지를 학습하여 데이터 저장부에 저장하는 문자 학습부를 더 포함할 수 있다.
문자 학습부는 학습할 이미지의 전체 크기를 조절하고 이미지의 픽셀 값을 이진화하여 문자를 학습할 수 있으며, 이진화된 학습 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하여 문자를 학습할 수 있다.
또한, 문자 학습부는 그룹화된 픽셀을 미리 설정된 크기로 정규화하고, 정규화된 그룹을 미리 지정되어 있는 학습 데이터에 대응하여 문자를 학습할 수 있다.
또한, 본 발명은 문자 인식을 하고자 하는 문서의 형식 및 상기 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정하여 저장하는 문서 형식 설정 단계, 문자 인식을 하고자 수행할 문서 이미지를 입력하는 이미지 등록 단계, 문서 이미지가 문서 형식 설정 단계에서 설정된 문서의 형식에 해당할 경우, 인식 영역 내의 문자를 문자 학습에 의해서 생성된 기준 값과 비교하여 인식하고 저장하는 문자 인식 단계를 포함하는 것을 특징으로 하는 광학 문자 인식 방법을 제공한다.
이때, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 인식 단계는 인식 영역 내의 문자를 상기 기준 값과 비교하기 전에, 문서 이미지의 전체 크기를 미리 설정된 규격에 맞게 축소하고, 축소된 이미지의 픽셀 값을 이진화하는 문서 이미지 변환 단계를 포함하는 것이 바람직하다.
또한, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 인식 단계는 문서 이미지 변환 단계 이후에, 이진화된 문서 이미지가 설정된 문서의 형식에 해당할 경우, 이진화된 이미지에서 문자를 지칭하는 픽셀 값을 가진 픽셀 중, 최하단 픽셀들을 연결하여 라인을 식별하는 문서 이미지 라인 식별 단계를 더 포함하는 것이 바람직하다.
또한, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 인식 단계는 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하는 문서 문자 그룹 생성 단계를 더 포함하는 것이 바람직하다.
본 발명에 따른 광학 문자 인식 방법은 문서 형식 설정 단계 이전에, 문자의 기준 값을 생성하기 위해 다수의 문자 이미지를 학습하여 저장하는 문자 학습 단계를 더 포함할 수 있다.
이때, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 학습 단계는 다수의 문자 이미지를 학습하기 전에, 미리 설정된 규격에 맞게 학습할 이미지의 전체 크기를 축소하고, 축소된 이미지의 픽셀 값을 이진화하는 학습 이미지 변환 단 계를 포함하는 것이 바람직하다.
또한, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 학습 단계는 이진화된 학습 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하는 학습 문자 그룹 생성 단계를 더 포함하는 것이 바람직하다.
또한, 본 발명에 따른 광학 문자 인식 방법에 있어서, 문자 학습 단계는 학습 문자 그룹 생성 단계 이후에, 그룹화된 픽셀을 미리 설정된 크기로 정규화 하여 미리 지정되어 있는 학습 데이터에 대응하는 문자 지정 단계를 더 포함하는 것이 바람직하다.
또한, 본 발명에 따른 광학 문자 인식 방법에 있어서 둘 이상의 그룹화된 픽셀들의 이격 거리가 미리 설정된 이격 거리 범위 내에 위치할 경우, 하나의 그룹으로 그룹화할 수 있다.
본 발명은 정형화된 문서 양식에 사용자가 기재한 문자의 인식을 수행함에 있어서, 정형화된 양식 중 사용자가 기재하는 영역을 문자 인식 대상 영역으로 사전에 설정하고, 문자 인식을 수행할 때 문서 양식 전체에 문서 인식을 수행하는 대신에 문자 인식 대상 영역에 대해서만 문자 인식을 수행함으로써 문자 인식 속도를 향상시키고 보다 정확한 문자 인식이 가능하게 되어, 전체적으로 문자 인식의 효율을 향상시킬 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명한다. 발 명의 이해를 보다 명확하게 하기 위해 동일한 구성요소에 대해서는 상이한 도면에서도 동일한 부호를 사용하도록 한다.
도 1은 본 발명에 따른 광학 문자 인식 시스템의 일 실시 예의 개략적인 블록도이다.
문자 인식을 하고자하는 영역이 미리 설정된 문서 형식을 이용하여, 입력된 문서 이미지에서 설정된 영역만을 문자 인식하기 위한 광학 문자 인식 시스템은 문자 학습부(100), 문서 형식 설정부(200), 이미지 등록부(300), 문자 인식부(400), 및 데이터 저장부(500)를 포함한다.
문자 학습부(100)는 문자의 기준 값을 생성하기 위해 다수의 문자 이미지를 학습하여 데이터 저장부(500)에 저장한다. 도 2는 기준 값이 되는 문자 이미지의 실시 예를 도시한 도면으로, 문자 이미지 학습시 도 2에 도시된 바와 같은 다양한 서체의 문자 이미지를 사전에 정의된 순서에 따라서 입력하여 학습을 수행할 수 있다.
즉, 도 2에 도시된 문자 이미지를 입력하고, 해당 이미지에 대한 픽셀 값의 정보를 추출하여 문자 학습부(100)에서 기준 값을 생성하여 데이터 저장부(500)에 저장하는 것이다.
이때, 문자의 글씨체(예컨대, 굴림체, 고딕체, 명조체, 궁서체 등)가 다른 다수의 문자 이미지의 픽셀 값 정보를 추출하여 기준 값을 생성하는 것이 바람직하며, 이로 인해 문자 인식시의 정확성을 높일 수 있다.
문서 형식 설정부(200)는 문자 인식을 하고자 하는 문서의 형식 및 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정한다. 즉, 고정된 양식을 가진 문서들(예컨대, 보험 계약서, 금융 상품 계약서 등)은 고객으로부터 직접 작성되는 부분이 한정되어 있으므로 문자 인식을 하기 전에 인식을 하기 위한 문서의 형식과 그 형식에서 필요한 인식 영역(고객으로부터 직접 작성되는 부분)을 미리 설정해놓는 것이다.
이러한 문서의 형식과 인식 영역은 벡터로 설정할 수 있는데, 벡터의 형식은 '[문서 이름, 데이터 순서, 좌하 좌표, 우하 좌표, 좌상 좌표, 우상 좌표]'로 나타낼 수 있다. 여기에서 데이터 순서는 0부터 시작할 수 있다.
예컨대, '보험증서 1'이라는 문서에서 인식하고자 하는 영역의 위치 사각형의 좌표가 '(100, 150), (200, 150), (100, 180), (200, 180)'과 '(300, 150), (400, 150), (300, 180), (400, 180)'와 같이 두 군데일 경우, 벡터의 형식은 '[보험증서 1, 0, 100,150, 200,150, 100,180, 200,180]'과 '[보험증서 1, 1, 300,150, 400,150, 300,180, 400,180]'로 나타낼 수 있다.
이미지 등록부(300)는 문자 인식을 수행할 문서 이미지를 입력한다. 이미지 등록부(300)로는 문서를 이미지화할 수 있는 스캐너와 같은 장치들이 해당될 수 있다.
또한, 문자 인식부(400)는 문서 이미지가 문서 형식 설정부(200)에서 설정된 문서의 형식에 해당할 경우, 설정된 인식 영역 내의 문자를 문자 학습에 의해 생성된 기준 값과 비교하여 인식한다. 즉, 이미지 등록부(300)를 통해 임의의 문서 이미지가 입력되었을 때, 자동으로 문서 이미지의 형식을 인식하여 임의의 문서가 문 서 형식 설정부(200)에서 설정된 문서 형식들 중 일치하는 것이 있을 경우, 해당되는 형식의 설정된 영역 내의 문자를 인식하는 것이다.
여기에서, 자동으로 문서 이미지의 형식을 인식하기 위해, 상술한 문서 형식 설정부(200)에서 인식 영역을 설정할 경우, 문서의 명칭이 위치한 영역을 포함하여 지정하는 것이 바람직할 것이다.
데이터 저장부(500)는 문서 형식 설정부(200), 이미지 등록부(300) 및 문자 인식부(400)에서 발생한 데이터를 저장한다.
즉, 문서 형식 설정부(200)에서 발생한 인식 영역이 설정된 문서 형식 데이터, 이미지 등록부(300)에서 발생한 문자 인식을 하고자 하는 임의의 문서 이미지 데이터, 및 문자 인식부(400)에서 발생한 문자 인식이 완료된 데이터를 저장할 수 있다.
여기에서, 인식 영역이 설정된 문서의 형식은 상술한 바와 같이 '[보험증서 1, 0, 100,150, 200,150, 100,180, 200,180]'의 벡터 형식으로 저장될 수 있다.
이러한 구성으로, 입력된 임의의 문서가 인식 영역이 설정된 문서 형식에 해당될 경우, 필요한 부분만을 빠르게 인식할 수 있어 문자 인식의 효율성을 높일 수 있고, 대량으로 문자 인식을 가능하게 할 수 있다.
도 3은 본 발명에 따른 광학 문자 인식 방법 중에서 문자 인식 단계의 전처리 단계인 문자 학습 단계(S100) 및 문서 형식 설정 단계(S200)를 나타낸 일 실시 예의 개략적인 흐름도이다.
문자 학습 단계(S100)는 먼저 문자 인식시 이용되는 문자의 기준 값을 생성 하기 위해 학습할 문자 이미지를 입력한다(S110).
다음으로, 입력된 이미지의 전체 크기를 조절하고 이미지의 전체 픽셀을 이진화한다(S120). 이미지 전체 크기의 조절은 미리 설정되어 있는 일정한 규격에 맞게 조절할 수 있는데, 데이터의 크기를 줄이기 위해 미리 설정되어 있는 규격보다 작은 크기의 이미지는 조절하지 않고, 큰 크기의 이미지만 축소하는 방식으로 이미지 크기를 조절할 수 있다.
이렇게 크기가 조절된 이미지들은 전체 픽셀을 0(흰색) 또는 1(검은색)의 바이너리로 구분하여 이진화한다. 0은 배경을 지칭하고, 1은 문자를 지칭하며, 이로 인해 문자와 배경을 확실하게 구분할 수 있다.
다음으로, 이진화된 이미지에서 문자 인식을 효율적으로 하기 위해 라인 식별을 하는데(S130), 도 4의 일반적인 라인 식별의 실시 예를 도시한 도면을 참조하면, 이미지에 라인을 생성하는 것이 아니라 1로 인식된 문자 픽셀들 중 최하위에 위치한 픽셀을 연결하여 라인(1a)으로 인식하는 것이다. 이때, 최하위에 위치한 픽셀을 중심으로 좌상(2), 중상(3), 우상(4), 좌(5), 우(6), 좌하(7), 중하(8), 우하(9)와 같이 인접한 8방향에 위치한 픽셀의 유사도를 측정하여 임의의 라인이 끝나는 마지막 점을 찾을 수 있다.
라인 식별 단계(S130)는 문자 학습 단계(S100)에서 생략되어도 무방할 것이다.
라인이 식별되면, 각 라인별로 서로 이웃하고 있는 픽셀 값이 1인 문자를 지칭하는 픽셀들끼리 그룹화한다(S140). 이 경우에도, 라인 식별 단계(S130)에서와 마찬가지로 픽셀의 유사도를 측정하는데, 유사도 측정을 통한 그룹화 방법은 후에도 6을 참조하여 상세히 설명할 것이다.
다음으로, 그룹화된 학습 이미지 픽셀을 미리 설정된 크기에 맞도록 정규화시키고, 정규화된 문자 이미지에 미리 지정된 학습 데이터를 지정한다(S150). 예컨대, 도 5를 참조하면, 그룹화된 학습 이미지 픽셀의 크기가 10×20 또는 30×40일 경우 모두 미리 설정된 크기인 20×30으로 정규화시킬 수 있다. 본 발명에서는 20×30의 크기로 정규화하지만, 다른 크기로 정규화하여도 무방할 것이다.
정규화된 문자에 미리 지정된 학습 데이터를 지정하는 예를 들어보면, 도 2에 도시된 문자 이미지를 학습시켰을 경우, 지정되는 문자는 학습 데이터인 'A, B, C, D,…, Z, a, b, c, …, z, 0, 1, 2, …, 9'가 될 것이다. 학습 데이터는 정해진 것이므로 첫 번째로 그룹화된 것은 'A'이고, 두 번째로 그룹화된 것은 'B'이고, 마지막으로 그룹화된 것은 '9'가 된다.
이와 같이 학습 데이터에 지정된 다수의 학습 이미지를 통합하여 문자의 기준 값을 생성한다(S160).
본 발명에서는 이러한 문자 학습 단계(S100)를 상술한 방법 대신에 현재 사용되고 있는 어떠한 문자 학습 방법을 사용하더라도 무방할 것이다.
다음으로, 문서 형식 설정 단계(S200)가 이어지는데, 인식하고자 하는 문서의 형식을 저장한 다음(S210), 문서의 형식에서 문자 인식을 수행하고자 하는 영역을 저장한다(S220).
'금융 상품 계약서'를 예로 들어보면, 인식하고자 하는 문서의 형식에는 금 융 상품 가입자의 신상 정보, 가입하고자 하는 금융 상품명, 상품 만기일, 이율, 이체일, 및 이체 계좌번호 등의 내용을 기록할 수 있도록 형성된 영역들이 포함될 수 있다.
또한, 문자 인식을 수행하고자 하는 영역은 상술한 금융 상품 계약서를 구성하고 있는 다수의 영역에서 계약자가 자필로 작성해야 하는 공란이 될 수 있으며, 이 공란들의 좌표를 저장한다.
도 6은 도 3을 참조하여 상술한 유사도 측정을 통한 학습 이미지 픽셀 그룹화 단계(S140)의 실시 예를 나타낸 흐름도이다.
도 3의 학습 이미지 라인 식별 단계(S130)에서 먼저 이진화된 학습 이미지의 모든 픽셀들을 미 방문점으로 세팅한다(S141). 그리고 나서, 미 방문점의 픽셀 값을 검색하는데(S142), 처음에는 방문한 픽셀이 없으므로 전체 이미지의 맨 처음 픽셀부터 시작할 수 있다.
다음으로, 각 픽셀별로 문자를 지칭하는 픽셀 값인 1을 가진 픽셀인지를 확인하여(S143), 문자를 지칭하지 않는 픽셀 값인 0을 가진 픽셀이라면 다시 미 방문점의 픽셀 값을 검색하게 되는데, 이 경우에는, 이전에 방문한 픽셀을 제외하고, 다음 미 방문 픽셀의 값을 검색할 수 있다. 만약, 검색한 픽셀이 문자를 지칭하는 픽셀 값인 1을 가지고 있다면, 새로운 번호로 그룹화를 시작한다(S144).
이때, 도 4에 도시된 바와 같이, 검색한 1 값을 가진 픽셀을 중심으로 인접한 8방향(2 내지 9)의 픽셀 중에서 미 방문 픽셀이 픽셀 값 1을 가졌는지를 확인하여(S145), 픽셀 값 1을 가진 픽셀이 있을 경우 같은 번호로 그룹화 한다(S146). 그 리고 나서, 가장 최근에 그룹화된 픽셀을 중심으로 다시 단계 S145부터 반복한다.
이때, 인접한 8방향의 픽셀 중에서 픽셀 값 1을 가진 미 방문 픽셀이 하나도 없을 경우에는 이진화된 학습 이미지의 모든 픽셀을 방문하였는지를 확인하여(S147), 모든 픽셀을 방문하였다면 그룹화를 종료하고, 미 방문 픽셀이 존재할 경우에는 단계 S142로 돌아가서 미 방문점의 픽셀 값 검색부터 다시 시작한다.
도 7은 본 발명에 따른 광학 문자 인식 방법 중에서 문자 인식 단계를 나타낸 일 실시 예의 개략적인 흐름도이다.
도 3의 문자 학습 단계(S100) 및 문서 형식 설정 단계(S200)가 종료되면 문자 인식 단계가 실행된다.
이미지 등록부(300)를 통해 문자 인식하고자 하는 임의의 문서 이미지가 입력(S300)되면, 입력된 문서 이미지의 전체 크기를 상술한 도 3의 설명에서 언급한 학습 이미지 축소 및 이진화 단계(S120)와 동일한 방식으로 축소하고 이진화시킨다(S400).
이렇게 이진화된 문서 이미지가 문서 형식 설정 단계(S200)에서 설정된 문서 형식에 해당할 경우, 문서 이미지는 상술한 도 3의 설명에서 언급한 학습 이미지 라인 식별 단계(S130) 내지 학습 이미지 픽셀 그룹화 단계(S140)에서와 동일한 방식으로 문서 이미지 라인을 식별하고(S500) 문서 이미지 픽셀을 그룹화한다(S600).
문서 이미지가 설정된 문서 형식에 해당하는지 여부는 상술한 도 2의 설명에서 언급된 벡터의 형식을 이용하여 알 수 있다. 즉, '[문서 이름, 데이터 순서, 좌하 좌표, 우하 좌표, 좌상 좌표, 우상 좌표]'의 벡터 형식으로 문서 형식이 설정되 었을 경우, 입력된 문서 이미지에 '문서 이름'을 설정한 영역의 좌표를 적용하여, 영역 내의 문자를 인식함으로써 알 수 있다.
즉, 본 발명에서는 '문서 이름' 영역이 후술할 나머지 문자 인식 단계를 거쳐서 먼저 문자 인식된 후, 설정된 문서 형식에 해당하는 문서 이미지에서만 나머지 설정 영역 내의 문자 인식을 실행할 수 있다.
다음으로, 그룹화한 문서 이미지 픽셀의 크기 또한 상술한 도 3의 설명에서 언급한 문자 지정 단계(S150)에서의 그룹화된 문서 이미지 픽셀의 크기를 미리 설정된 크기에 맞도록 정규화시키는 방식과 동일한 방식으로 정규화시킨다(S700).
이후, 저장된 문서 형식에서 설정된 문자 인식 영역 중, '문서 이름'을 제외한 나머지 영역에 해당하는 좌표 영역 내의 그룹화된 문서 이미지 픽셀을 문자 인식한다(S800). 이때, 아래의 수학식 1에 따라서 문자 학습 단계(S100)에서 생성한 문자의 기준 값과, 인식하려는 문서 이미지 픽셀의 MSE(Mean Square Error) 값을 비교하여 문자 인식을 할 수 있다.
Figure 112008038184512-PAT00001
MSE 값을 구하는 수학식은 위와 같고, T는 타깃(Target)으로, 20×30으로 정규화된 학습한 문자의 기준 값을 의미하고, I는 입력(Input)으로, 20×30으로 정규 화된 입력 문서 이미지의 그룹화된 픽셀을 의미한다.
상기 수학식 1을 상세히 서술해보면, MSE 값은 각 픽셀별로 타깃에서 입력의 픽셀 값을 뺀 값의 절대 값을 모두 합한 다음, 20×30으로 정규화된 하나의 이미지를 구성하고 있는 픽셀의 총 개수로 나누었을 때의 평균값을 의미한다.
즉, MSE 값이 클수록 타깃과 입력의 픽셀 오차가 크다는 것으로 간주할 수 있고, MSE 값을 백분율로 나타내어 그 값이 사전에 정의된 오차 범위(예컨대, 25%)를 초과할 경우에는 기준 값에 해당하는 문자가 아닌 것으로 간주할 수 있다.
예컨대, 도 8을 참조하여 MSE 값을 구해보면, M×N=20×30=600이므로, 20×30의 이미지는 600개의 픽셀로 구성되어 있음을 알 수 있다.
각 픽셀별로 타깃에서 입력의 픽셀 값을 뺀 값의 절대 값을 계산해보면, |T(x6y11)-I(x6y11)|=1, |T(x7y12)-I(x7y12)|=1, |T(x8y8)-I(x8y8)|=1, |T(x8y9)-I(x8y9)|=1, |T(x11y8)-I(x11y8)|=1, |T(x11y9)-I(x11y9)|=1, |T(x14y17)-I(x14y17)|=1, |T(x15y16)-I(x15y16)|=1, |T(x15y20)-I(x15y20)|=1, |T(x16y19)-I(x16y19)|=1, |T(x16y23)-I(x16y23)|=1, |T(x17y22)-I(x17y22)|=1 (이미지에서 굵게 표시된 픽셀들의 계산 값을 의미함)을 제외한 나머지 픽셀의 계산 값은 0이므로, 절대 값의 합은 12이다.
즉, 12/600을 백분율로 고치면 2%가 나와 25%를 초과하지 않으므로 도 8에 도시한 문서 이미지는 타깃 이미지에 해당하는 문자로 간주되어 문자 인식될 수 있다.
상술한 단계를 거쳐 문자 인식이 완료된 입력 문서는 데이터 저장부(500)에 저장된다(S900).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명에 따른 광학 문자 인식 시스템의 일 실시 예의 개략적인 블록도.
도 2는 기준 값이 되는 문자 이미지의 실시 예를 도시한 도면.
도 3은 본 발명에 따른 광학 문자 인식 방법 중에서 문자 인식 단계의 전처리 단계인 문자 학습 단계 및 문서 형식 설정 단계를 나타낸 일 실시 예의 개략적인 흐름도.
도 4는 일반적인 라인 식별의 실시 예를 도시한 도면.
도 5는 그룹화된 이미지 픽셀의 크기를 정규화시키는 실시 예를 도시한 도면.
도 6은 도 3의 유사도 측정을 통한 학습 이미지 픽셀 그룹화 단계의 실시 예를 나타낸 흐름도.
도 7은 본 발명에 따른 광학 문자 인식 방법 중에서 문자 인식 단계를 나타낸 일 실시 예의 개략적인 흐름도.
도 8은 MSE 값을 비교하여 문자 인식을 하는 타깃 이미지와 입력 이미지의 실시 예를 도시한 도면.

Claims (18)

  1. 문자 인식을 하고자 하는 문서의 형식 및 상기 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정하는 문서 형식 설정부;
    문자 인식을 수행할 문서 이미지를 입력하는 이미지 등록부;
    상기 문서 이미지가 상기 문서 형식 설정부에서 설정된 문서의 형식에 해당할 경우, 상기 인식 영역 내의 문자를 문자 학습에 의해 생성된 기준 값과 비교하여 인식하는 문자 인식부; 및
    상기 문서 형식 설정부, 상기 이미지 등록부 및 상기 문자 인식부에서 발생한 데이터를 저장하는 데이터 저장부; 를 포함하는 것을 특징으로 하는 광학 문자 인식 시스템.
  2. 제 1항에 있어서,
    상기 문자 인식부는,
    상기 문서 이미지의 전체 크기를 조절하고 이미지의 픽셀 값을 이진화하여 문자를 인식하는 것을 특징으로 하는 광학 문자 인식 시스템.
  3. 제 2항에 있어서,
    상기 문자 인식부는,
    상기 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 가진 픽셀 중, 최하단 픽셀들을 연결하여 라인을 식별함으로써 문자를 인식하는 것을 특징으로 하는 광학 문자 인식 시스템.
  4. 제 2항에 있어서,
    상기 문자 인식부는,
    상기 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화하여 문자를 인식하는 것을 특징으로 하는 광학 문자 인식 시스템.
  5. 제 1항에 있어서,
    상기 문자의 기준 값을 생성하기 위해 다수의 문자 이미지를 학습하여 상기 데이터 저장부에 저장하는 문자 학습부; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 시스템.
  6. 제 5항에 있어서,
    상기 문자 학습부는,
    상기 학습할 이미지의 전체 크기를 조절하고 이미지의 픽셀 값을 이진화하여 문자를 학습하는 것을 특징으로 하는 광학 문자 인식 시스템.
  7. 제 6항에 있어서,
    상기 문자 학습부는,
    상기 이진화된 학습 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하여 문자를 학습하는 것을 특징으로 하는 광학 문자 인식 시스템.
  8. 제 7항에 있어서,
    상기 문자 학습부는,
    상기 그룹화된 픽셀을 미리 설정된 크기로 정규화하고, 상기 정규화된 그룹을 미리 지정되어 있는 학습 데이터에 대응하여 문자를 학습하는 것을 특징으로 하는 광학 문자 인식 시스템.
  9. 문자 인식을 하고자 하는 문서의 형식 및 상기 문서에서 문자 인식을 수행하고자 하는 인식 영역을 설정하여 저장하는 문서 형식 설정 단계;
    문자 인식을 하고자 수행할 문서 이미지를 입력하는 이미지 등록 단계; 및
    상기 문서 이미지가 상기 문서 형식 설정 단계에서 설정된 문서의 형식에 해당할 경우, 인식 영역 내의 문자를 문자 학습에 의해서 생성된 기준 값과 비교하여 인식하고 저장하는 문자 인식 단계; 를 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  10. 제 9항에 있어서,
    상기 문자 인식 단계는,
    상기 인식 영역 내의 문자를 상기 기준 값과 비교하기 전에, 상기 문서 이미지의 전체 크기를 미리 설정된 규격에 맞게 축소하고, 축소된 이미지의 픽셀 값을 이진화하는 문서 이미지 변환 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  11. 제 10항에 있어서,
    상기 문자 인식 단계는,
    문서 이미지 변환 단계 이후에, 상기 이진화된 문서 이미지가 상기 설정된 문서의 형식에 해당할 경우, 상기 이진화된 이미지에서 문자를 지칭하는 픽셀 값을 가진 픽셀 중, 최하단 픽셀들을 연결하여 라인을 식별하는 문서 이미지 라인 식별 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  12. 제 10항에 있어서,
    상기 문자 인식 단계는,
    상기 이진화된 문서 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화 하는 문서 문자 그룹 생성 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  13. 제 9항에 있어서,
    상기 문서 형식 설정 단계 이전에, 상기 문자의 기준 값을 생성하기 위해 다수의 문자 이미지를 학습하여 저장하는 문자 학습 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  14. 제 13항에 있어서,
    상기 문자 학습 단계는,
    다수의 문자 이미지를 학습하기 전에, 미리 설정된 규격에 맞게 학습할 이미지의 전체 크기를 축소하고, 축소된 이미지의 픽셀 값을 이진화하는 학습 이미지 변환 단계; 를 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  15. 제 14항에 있어서,
    상기 문자 학습 단계는,
    상기 이진화된 학습 이미지에서 문자를 지칭하는 픽셀 값을 갖는 픽셀들 중 서로 인접하는 픽셀들을 그룹화하는 학습 문자 그룹 생성 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  16. 제 15항에 있어서,
    상기 문자 학습 단계는,
    상기 학습 문자 그룹 생성 단계 이후에, 상기 그룹화된 픽셀을 미리 설정된 크기로 정규화하여 미리 지정되어 있는 학습 데이터에 대응하는 문자 지정 단계; 를 더 포함하는 것을 특징으로 하는 광학 문자 인식 방법.
  17. 제 12항 또는 제 15항에 있어서,
    둘 이상의 그룹화된 픽셀들의 이격 거리가 미리 설정된 이격 거리 범위 내에 위치할 경우, 하나의 그룹으로 그룹화하는 것을 특징으로 하는 광학 문자 인식 방법.
  18. 제 9항 내지 제 16항 중 어느 한 항의 광학 문자 인식 방법을 컴퓨터에서 판독할 수 있고, 실행 가능한 프로그램 코드로 기록한 기록 매체.
KR1020080049655A 2008-05-28 2008-05-28 광학 문자 인식 시스템 및 방법 KR100957508B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080049655A KR100957508B1 (ko) 2008-05-28 2008-05-28 광학 문자 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080049655A KR100957508B1 (ko) 2008-05-28 2008-05-28 광학 문자 인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20090123523A true KR20090123523A (ko) 2009-12-02
KR100957508B1 KR100957508B1 (ko) 2010-05-14

Family

ID=41685749

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080049655A KR100957508B1 (ko) 2008-05-28 2008-05-28 광학 문자 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100957508B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778432A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 图像识别方法
KR20200082932A (ko) * 2018-12-31 2020-07-08 주식회사 포스코아이씨티 광학 문자 판독 장치를 포함하는 로봇 프로세스 자동화 시스템
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、***及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100573392B1 (ko) * 2004-02-05 2006-04-25 한국과학기술원 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템
US7360718B2 (en) * 2004-11-12 2008-04-22 Rain Bird Corporation Sprinkler housing with side inlet

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778432A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 图像识别方法
CN104778432B (zh) * 2014-01-10 2018-10-12 上海携程商务有限公司 图像识别方法
KR20200082932A (ko) * 2018-12-31 2020-07-08 주식회사 포스코아이씨티 광학 문자 판독 장치를 포함하는 로봇 프로세스 자동화 시스템
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、***及存储介质
CN113836971B (zh) * 2020-06-23 2023-12-29 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、***及存储介质

Also Published As

Publication number Publication date
KR100957508B1 (ko) 2010-05-14

Similar Documents

Publication Publication Date Title
CN109376658B (zh) 一种基于深度学习的ocr方法
CN110766014B (zh) 票据信息定位方法、***及计算机可读存储介质
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
JP3602596B2 (ja) ドキュメントファイリング装置および方法
JP2012008791A (ja) 帳票認識装置及び帳票認識方法
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
US20190384971A1 (en) System and method for optical character recognition
CN112784220B (zh) 一种纸质合同防篡改校验方法及***
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
US10628702B1 (en) Method of matching a query image to a template image and extracting information from the query image
CN115687643A (zh) 一种训练多模态信息抽取模型的方法及信息抽取方法
US10586133B2 (en) System and method for processing character images and transforming font within a document
KR100957508B1 (ko) 광학 문자 인식 시스템 및 방법
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
CN113496115B (zh) 文件内容比对方法和装置
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
US7865130B2 (en) Material processing apparatus, material processing method, and material processing program product
CN112287763A (zh) 图像处理方法、装置、设备及介质
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
CN117807291B (zh) 用于业务材料的智能识别交互处理方法及平台
CN113326785B (zh) 文件识别方法、装置
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、***
CN117894033B (zh) 一种基于ocr识别的答卷一致性校验方法及***

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140304

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee