KR100603618B1 - 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 - Google Patents

어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 Download PDF

Info

Publication number
KR100603618B1
KR100603618B1 KR1020040083074A KR20040083074A KR100603618B1 KR 100603618 B1 KR100603618 B1 KR 100603618B1 KR 1020040083074 A KR1020040083074 A KR 1020040083074A KR 20040083074 A KR20040083074 A KR 20040083074A KR 100603618 B1 KR100603618 B1 KR 100603618B1
Authority
KR
South Korea
Prior art keywords
document image
straight line
string
geometric distortion
extracting
Prior art date
Application number
KR1020040083074A
Other languages
English (en)
Other versions
KR20060033973A (ko
Inventor
장대근
정연구
지수영
소정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040083074A priority Critical patent/KR100603618B1/ko
Publication of KR20060033973A publication Critical patent/KR20060033973A/ko
Application granted granted Critical
Publication of KR100603618B1 publication Critical patent/KR100603618B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 장치 및 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 문서 영상을 획득하여 문자 인식을 수행하는 과정에서, 문서 영상 자체만으로 이진화 및 영역 분할를 수행하고 어파인 변환을 수행함으로써, 왜곡없는 문자 인식을 수행하기 위한, 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
문서 영상의 기하학적 왜곡 보정 방법에 있어서, 상기 문서 영상을 이진화하는 이진화 단계; 이진화된 문서 영상으로부터 문자열을 생성하는 문자열 생성 단계; 생성된 문자열을 이용하여 문서 영상에 외접하는 수평/수직 방향의 직선을 추출하는 직선 추출 단계; 및 추출된 수평/수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환하는 어파인변환 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 문자 인식 기술에 이용됨.
문자 인식, 문서 영상, 어파인변환, 왜곡 보정

Description

어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 장치 및 방법{Apparatus and Method for Geometric Distortion Correction of Document Image using Affine Transform}
도 1은 본 발명의 바람직한 일실시예에 따른 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 장치의 구성도,
도 2는 본 발명의 바람직한 일실시예에 따른 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 방법을 설명하는 흐름도,
도 3은 휴대폰 카메라로 획득한 문서 영상 및 이를 이진화한 결과 영상을 나타낸 일실시예 도면,
도 4는 도 3의 (b)의 이진화된 문서 영상에 대한 영역 분할을 수행한 결과를 나타낸 일실시예 도면,
도 5는 도 4의 'I'를 기준 위치로 정하고, 그 기준 위치에 가장 인접한 오른쪽 분할 영역을 나타낸 일실시예 도면,
도 6은 카메라로 획득한 문서 영상으로부터 문자열을 추출한 일실시예 도면,
도 7은 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선을 구하는 과정을 설명하는 일실시예 도면,
도 8은 후보 글자를 선택하는 과정을 설명하는 일실시예 도면,
도 9는 가로 방향 좌표 x에서의 세로 방향 연결화소(ccy(x))를 나타낸 일실시예 도면,
도 10은 각도에 따른 VCm을 계산한 결과를 나타낸 일실시예 도면,
도 11은 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선을 표시한 일실시예 도면,
도 12는 4개의 직선이 형성하는 사변형을 어파인변환을 이용하여 직사각형으로 변환하는 일실시예 도면,
도 13은 본 발명의 바람직한 일실시예에 따라 200만 화소 카메라를 내장한 휴대폰으로 획득한 문서 영상의 기하학적 왜곡을 어파인변환을 이용하여 보정한 결과를 나타낸 도면이다.
* 도면의 주요 부분에 대한 부호의 설명
110 : 이진화부 120 : 문자열 추출부
130 : 직선 추출부 140 : 어파인변환부
본 발명은 문서 영상 처리에 관한 것으로, 더욱 상세하게는 카메라로 문서 영상을 획득하여 문자 인식을 수행하는 과정 중 발생하는 문서 영상의 기하학적 왜곡을 어파인 변환을 이용하여 보정하는 장치 및 방법에 관한 것이다.
종래 문자 인식 기술에서는 문서를 영상 형태로 획득하기 위한 장치로 스캐너를 이용한다. 그러나 스캐너는 영상 획득 시간이 길고 휴대하기가 불편하며, 또한 책과 같은 문서의 영상을 획득하기에는 매우 불편한 문제점이 있다. 따라서, 현재 문자 인식 기술에서는 영상 획득 시간이 짧고 휴대하기도 편한 카메라를 이용한 문서 영상 획득 방법이 널리 이용되고 있다.
그러나, 스캐너를 이용한 문자 인식 기술에서는 획득한 문서 영상에서 기울어짐(skew)의 문제점만이 발생하는 반면, 카메라를 이용한 문자 인식 기술에서는 획득한 문서 영상의 가장자리가 어둡고 흐릿해지는 비네팅(vignetting) 효과, 카메라의 초점이 맞지 않아 문자의 윤곽선 부분이 흐려지는 블러링(blurring) 효과가 발생하여, 문서 영상에서 문자 인식을 수행하는 과정 중 배경과 문자를 분리하기 위한 이진화가 어려운 문제점이 있다.
또한, 카메라를 이용한 문자 인식 기술에서 카메라를 이용하여 문서 영상을 획득할 경우, 카메라 렌즈의 광학적 특성, 피사체와 카메라간의 상대적 위치 및 피사체와 카메라간의 각도 차이 등에 의해, 문서 영상에 포함된 문자에 왜곡이 발생하여 문서 영상에서 문자 인식을 어렵게 하는 문제점이 있다.
한편, 최근 디지털 카메라나 휴대폰 카메라 등의 제조 기술이 발달하면서 빛이나 카메라 렌즈로 인해 발생하는 비네팅·블러링 효과 문제는 점차 해결되고 있으나, 카메라 렌즈의 광학적 특성, 피사체와 카메라간의 상대적 위치 및 피사체와 카메라간의 각도 차이 등에 의해 발생하는 문서 영상의 기하학적 왜곡을 보정하기 위한 기술 개발은 미진한 상태이다.
특히, 이러한 문서 영상의 기하학적 왜곡을 보정하기 위해서는 카메라로부터 위치정보를 획득해야 하는데, 위치센서의 추가없이 그 위치정보를 알기는 어렵고, 또한 상용으로 판매되는 범용 카메라 중에서 위치센서를 추가한 카메라는 거의 없다.
따라서, 카메라를 이용한 문자 인식 기술에서, 카메라를 이용하여 문서 영상을 획득하고 문자 인식을 수행하는 과정 중, 카메라 렌즈의 광학적 특성, 피사체와 카메라간의 상대적 위치 및 피사체와 카메라간의 각도 차이 등에 의해 발생하는 문서 영상의 기하학적 왜곡 현상을 문서 영상 자체만으로 보정할 수 있는 기술 개발이 절실히 요청된다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 문서 영상을 획득하여 문자 인식을 수행하는 과정에서, 문서 영상 자체만으로 이진화 및 영역 분할를 수행하고 어파인 변환을 수행함으로써, 왜곡없는 문자 인식을 수행하기 위한, 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 장치는, 문서 영상의 기하학적 왜곡 보정 장치에 있어서, 상기 문서 영상을 이진화하기 위한 이진화 수단; 상기 이진화 수단으로부터 전달된 이진화된 문서 영상으로부터 문자열을 추출하기 위한 문자열 추출 수단; 상기 문자열 추출 수단으로부터 전달된 문자열을 이용하여 문서 영상의 텍스트 영역에 외접하는 수평/수직 방향의 직선을 추출하기 위한 직선 추출 수단; 및 상기 직선 추출 수단으로부터 추출된 수평/수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환하기 위한 어파인변환 수단를 포함하는 것을 특징으로 한다.
또한, 상기 목적을 달성하기 위한 본 발명의 방법은, 문서 영상의 기하학적 왜곡 보정 방법에 있어서, 상기 문서 영상을 이진화하는 이진화 단계; 이진화된 문서 영상으로부터 문자열을 생성하는 문자열 생성 단계; 생성된 문자열을 이용하여 문서 영상에 외접하는 수평/수직 방향의 직선을 추출하는 직선 추출 단계; 및 추출된 수평/수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환하는 어파인변환 단계를 포함하는 것을 특징으로 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실 시예를 상세히 설명하기로 한다.
한편, 대부분의 문서에서 문자열은 가로 방향이다. 따라서 본 실시예에서는 가로 방향 문서를 대상으로 한다. 이 외에도 세로 방향 문서도 가능함은 본 발명이 속하는 기술분야에서는 주지의 사실임은 자명하다.
도 1은 본 발명의 바람직한 일실시예에 따른 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 장치의 구성도로, 도시된 바와 같이, 본 발명에 따른 왜곡 보정 장치는 이진화부(110), 문자열 추출부(120), 직선 추출부(130) 및 어파인변환부(140)를 포함한다.
이진화부(110)는 외부로부터 입력된 문서 영상을 이진화하고, 문자 추출부(120)는 연결요소 기반의 영역 분할 방법을 이용하여 이진화된 문서 영상으로부터 글자 부분을 추출하며, 추출한 글자 부분의 인접 관계를 조사하여 문자열을 추출한다.
직선 추출부(130)는 추출한 문자열 중 상·하 최외각 문자열의 기울기를 측정하여 각각에 외접하는 수평 방향의 직선을 구하며, 문자열의 가장자리에 위치한 글자들 중 후보 글자를 선택하여 각 후보 글자의 기울어진 각도를 측정하여 좌우로 최외각에 위치한 글자에 외접하는 수직 방향의 직선을 구한다.
어파인변환부(140)는 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선 및 수직 방향의 직선이 형성하는 사변형 영역을 직사각형 영역으로 어파인변환함으로써 왜곡이 보정된 문서 영상을 출력한다.
도 2는 본 발명의 바람직한 일실시예에 따른 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정 방법을 설명하는 흐름도로서, 도 3 내지 도 13을 참조하여 도 2의 흐름도를 설명하도록 한다.
먼저, 도 2에 도시된 바와 같이, 카메라로 획득한 문서 영상을 이진화한다(210).
일반적으로 이진화 방법으로 영상 전체에 대한 임계값을 구하여 이진화하는 방식과 부분 영역내의 임계값을 구하여 이진화하는 방식이 주로 고려되나, 문서 영상에 비네팅 효과가 발생한 경우 이러한 이진화 방식은 문서 영상을 제대로 이진화하지 못한다.
따라서, 본 실시예에서는 카메라로 획득한 텍스트 문서 영상을 그레이 영상으로 변환한 후 클래스간 분산을 최대화하는 임계값을 구하여 문서 영상을 이진화하는 Otsu의 이진화 방법을 사용한다. 즉, Otsu의 이진화 방법을 문서 영상의 부분 영역에 적용하여 각 영역마다 임계값을 구하고, 이를 기준으로 문서 영상을 이진화하는 방법을 사용한다. 이 방법은 2003년 IASTEDSPPRA에 발표된 논문 "An Efficient Method for Page Segmentation"에 개시되어 있다. 이 때, 상술한 이진화 방법으로 문서 영상을 이진화시, 부분 영역의 크기는 30만에서 200만 화소의 카메라를 기준으로 40×40 픽셀 크기로 한다. 상술한 바와 같은 이진화 방벙을 사용하여, 도 3의 (a)에 도시된 바와 같은 휴대폰 카메라로 획득한 문서 영상을 이진화하면, 도 2의 (b)와 같은 결과 영상이 얻어진다.
다음으로, 도 2에 도시된 바와 같이, 연결 요소 기반의 영역 분할 방법을 이용하여 이진화된 문서 영상으로부터 글자 부분을 추출한다(220).
문서 영상의 영역 분할 방법에는 기본이 되는 화소 단위에서 시작하여 유사성을 갖는 부분을 점차적으로 크고 의미를 부여할 수 있는 단위로 단계적으로 병합하는 상향식과, 전체적인 영역에서 시작하여 문서 영상을 점점 작은 영역으로 분할하는 하향식이 있다.
본 발명은 문서 영상으로부터 문자열을 추출하여 문자의 기하학적 왜곡을 보정하므로, 상향식 영역 분할 방법을 사용한다. 따라서, 1997년 ICICS에 발표된 논문 "An Efficient Method for Page Segmentation"에 개시된 상향식 영역 분할 방법을 사용한다. 상기 논문에 개시된 상향식 영역 분할 방법은 연속된 화소의 집합인 연결 요소를 추출하고 이들을 연결하여 영역을 생성하는 것으로, 라인 단위로 연결 요소들을 추출한 후 인접 라인간 연결 요소들을 병합하여 영역을 생성함으로써 계산량을 감소시켜 처리 시간을 단축시킨다. 도 4는 상술한 상향식 영역 분할 방법으로, 도 3의 (b)에 도시된 이진화된 문서 영상에 대한 영역 분할을 수행한 결과를 나타낸 일실시예 도면이다. 이 때, 각각의 연결 요소는 도 4에 도시된 각 문자의 외각을 둘러싼 직사각형 영역이다.
다음으로, 도 2에 도시된 바와 같이, 추출한 글자 부분의 인접 관계를 조사하여 문자열을 추출한다(230).
문서 영상의 문자열은 기하학적 왜곡에 의하여 기울어지거나 휘어지므로, 자 소를 구성하는 각 분할 영역간 연결 관계를 검사함으로써 문자열을 추출한다. 즉, 분할 영역들 중 가장 왼쪽 상단에 위치한 분할 영역을 최초 기준 위치로 정하고, 이 최초 기준 위치에 가장 인접한 오른쪽 분할 영역을 찾는다. 다음으로, 찾은 오른쪽 분할 영역을 새로운 기준 위치로 정하고, 다시 새로운 기준 위치에 가장 인접한 오른쪽 분할 영역을 찾는다. 이와 같은 과정을 더 이상의 인접한 오른쪽 분할 영역이 존재하지 않을 때까지 반복 수행하여 문자열을 추출한다.
도 5는 도 4의 'I'를 기준 위치로 정하고, 그 기준 위치에 가장 인접한 오른쪽 분할 영역을 나타낸 일실시예 도면으로, 도시된 바와 같이, 기준 위치 "I"에 가장 인접한 오른쪽 분할 영역은 "m"이다. 이 때, 기준 위치와 기준 위치에 가장 인접한 오른쪽 분할 영역은 [수학식 1] 및 [수학식 2]와 같은 연결 관계를 만족해야 한다.
Figure 112004047164392-pat00001
Figure 112004047164392-pat00002
여기서,
Figure 112004047164392-pat00003
[수학식 1]은 두 분할 영역의 세로 방향으로의 교차 관계를 나타내고, [수학식 2]는 두 분할 영역의 가로 방향으로의 교차 관계를 나타낸다. 도 4에 도시된 바와 같이, 기준 위치에 가장 인접한 오른쪽 분할 영역은 [수학식 1]만을 만족해야 한다. 즉, 세로 방향으로의 교차 관계는 존재하고, 가로 방향의 교차 관계는 존재하지 않아야 한다. 한편, 대부분의 문서에서 문자열은 가로 방향이기 때문에, 본 실시예에서는 가로 방향 문서를 대상으로 하지만, 세로 방향 문서도 가능함은 자명하다. 이 때, 세로 방향 문서에서 문자열 추출시 [수학식 2]를 만족해야 한다.
도 6은 카메라로 획득한 문서 영상으로부터 문자열을 추출한 일실시예 도면이다. 설명의 편의를 위해, 추출한 문자열 중 홀수 행의 문자열은 음영이 있는 직사각형으로, 추출한 문자열 중 짝수 행의 문자열은 음영이 없는 직사각형으로 각 글자의 테두리를 나타내었다. 한편, 단계 220에서 영역 분할시 연결 요소를 각각의 분할 영역으로 생성하였기 때문에, 한글의 경우 자소 자체가 분할 영역이 되거나, 알파벳의 경우 "i"나 "j"의 점이 분할 영역으로 될 수 있다. 따라서, 상술한 바와 같이 분할 영역간의 연결 관계를 검사하여 문자열을 추출할 경우, 동일 글자를 이루는 일부 분할 영역이 추출되지 않을 수 있다. 도 6의 알파벳 "i"의 점이 문자열 추출 과정에서 제외되어 있음을 확인할 수 있다. 그러나, 본 발명의 목적은 문자열을 추출하여 문자열의 기울어진 기울기를 구하는데 있기 때문에, 상술한 바와 같이 일부 분할 영역이 문자열 추출 과정에서 누락되어도 영향은 없다.
다음으로, 도 2에 도시된 바와 같이, 추출한 문자열 중 상·하 최외각 문자열의 기울기를 측정하여, 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선을 구한다(240).
도 7은 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선을 구하는 과 정을 설명하는 일실시예 도면이다. 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선을 구하기 위해, 먼저 문서 영상의 텍스트 영역에 외접하는 수평 방향 직선의 기울기를 구하고, 그 기울기를 갖는 직선이 문서 영상의 텍스트 영역에 포함된 상·하 최외각 문자열의 가장 돌출된 글자를 지나도록 하여 최종 수평 방향의 직선을 구한다.
구체적으로 살펴보면, 우선, 문서 영상의 텍스트 영역의 상부에 외접하는 수평 방향의 직선을 구하기 위해, 단락에 포함된 문자열 중 상부 최외각 문자열의 처음과 마지막에 위치한 글자를 지나는 직선의 기울기를 구한다. 즉, 도 7에 도시된 문자열이 상부의 최외각 문자열이라고 가정하면, 문자열의 첫번째 글자의 (x0, y0)과 마지막 글자의 (x3, y2)를 지나는 직선의 기울기를 [수학식 3]과 같이 구한다.
Figure 112004047164392-pat00004
기울기를 구한 후, 상기 기울기를 갖는 직선이 상부 최외각 문자열의 가장 돌출된 글자를 지나도록 하여 [수학식 4]와 같은 최종 수평 방향의 직선을 구한다. 여기서, (xb, yb)는 가장 돌출된 글자의 꼭지점 좌표이다. 만약, [수학식 3]에서 구한 직선의 기울기가 양의 값을 가지면 (xb, yb)는 (x4, y4)가 되고, 직선의 기울기가 음의 값을 가지면 (xb, yb)는 (x5, y4)가 된다. 따라서, 도 7을 참조하면, 직선의 기울기는 참조부호 710 직선의 기울기이고, 상부 최외각 문자열의 가장 돌출된 글자 를 지나는 최종 수평 방향의 직선은 참조부호 720 직선이다.
Figure 112004047164392-pat00005
또한, 문서 영상의 텍스트 영역의 하부에 외접하는 수평 방향의 직선을 구하기 위해, 단락에 포함된 문자열 중 하부 최외각 문자열의 처음과 마지막에 위치한 글자를 지나는 직선의 기울기를 구한다. 즉, 도 7에 도시된 문자열이 하부의 최외각 문자열이라고 가정하면, 문자열의 첫번째 글자의 (x0, y1)과 마지막 글자의 (x 3, y3)를 지나는 직선의 기울기를 [수학식 5]와 같이 구한다.
Figure 112004047164392-pat00006
기울기를 구한 후, 상기 기울기를 갖는 직선이 하부 최외각 문자열의 가장 돌출된 글자를 지나도록 하여 [수학식 4]와 같은 최종 수평 방향의 직선을 구한다. 여기서, (xb, yb)는 가장 돌출된 글자의 꼭지점 좌표이다. 만약, [수학식 5]에서 구한 직선의 기울기가 양의 값을 가지면 (xb, yb)는 (x7, y7)이 되고, 직선의 기울기가 음의 값을 가지면 (xb, yb)는 (x6, y7)이 된다. 따라서, 도 7을 참조하면, 직선의 기울기는 참조부호 730 직선의 기울기이고, 하부 최외각 문자열의 가장 돌출된 글자 를 지나는 최종 수평 방향의 직선은 참조부호 740의 직선이다.
다음으로, 단락에 접하는 수평 방향의 직선을 구한 후, 도 2에 도시된 바와 같이, 문서 영상의 텍스트 영역에 포함된 좌·우 최외각 글자들 중 단락에 외접하는 수직 방향의 직선을 구하기 위한 후보 글자를 선택한다(250).
카메라의 각도가 피사체(문서)면과 수직하지 않고 기울어질 경우, 원근의 원리에 의하여 문서 영상내의 문자들은 기울어짐이 발생하고 문서 영상내 문자열의 가장자리로 갈수록 그 정도는 더욱 커진다. 이러한 왜곡을 보정하려면 글자들의 기울어진 각도를 알아야 하지만, 일반적인 영상의 경우 영상 자체만으로 그 정보를 알기는 어렵다. 또한 카메라 자체에 위치센서가 있는 경우가 거의 없어 위치나 각도 정보를 획득하는 것이 어렵다. 그러나, 글자를 포함한 영상의 경우 글자를 구성하는 획의 기울어진 각도를 측정함으로써 영상의 왜곡정도를 알 수 있다.
도 8은 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선을 구하기 위한 후보 글자를 선택하는 과정을 설명하는 일실시예 도면이다. 먼저, 도 8의 (a)에 도시된 바와 같이, 문서 영상의 좌우 끝에 위치한 글자 중 두개의 글자를 후보 글자로 선택한다. 그 후, 선택한 두개의 후보 글자의 상하에 위치하는 글자들 중 선택한 후보 글자와 가로 방향으로 교차 관계가 있는 글자들을 후보 글자로 함께 선택한다. 교차 관계는 [수학식 6] 및 [수학식 7]을 이용하여 판단한다.
Figure 112004047164392-pat00007
Figure 112004047164392-pat00008
여기서,
Figure 112004047164392-pat00009
[수학식 6]은 두 글자의 세로 방향의 교차 관계를 나타내고, [수학식 7]은 두 글자의 가로 방향의 교차 관계를 나타낸다. 이와 같이 후보 글자를 판단한 결과가 도 8의 (b)에 음영이 있는 사각형의 테두리로 표시되어 있다.
도 9는 가로 방향 좌표 x에서의 세로 방향 연결화소(ccy(x))를 나타낸 일 실시예 도면으로, 세로 방향 연결화소(ccy(x))는 가로 방향 좌표 x에서의 y축 방향으로 연속된 흑화소의 집합이다. 이 때, (xs, ys)는 글자를 둘러싸는 직사각형의 왼쪽 상단 좌표이고, (xe, ye)는 오른쪽 하단 좌표이다.
글자를 구성하는 세로 방향의 획은 글자의 기울어짐을 판단하는 기준이 되기 때문에, 상기 선택한 후보 글자들 중 좌표 x에서의 세로 방향 연결화소(ccy(x))의 길이가 [수학식 8]의 dy보다 긴 글자만을 후보 글자로 다시 선택한다. 이 때, [수학식 8]과 같이, dy를 (ye-ys)보다 작게하는 이유는 글자가 기울어지지 않은 상태에서 길이가 (ye-ys)인 세로 방향의 획이, 글자가 기울어지면 그 기울어진 각도 θ로 인 하여 그 세로 방향의 획의 길이가 (ye-ys)sinθ로 짧아지기 때문에, dy를 (ye-ys)보다 작게한다. 또한, dy가 너무 짧을 경우, 가로 방향의 획 성분도 함께 포함되어 정확한 후보 글자를 선택할 수 없어 본 발명에서 구하고자 하는 수직 방향의 직선을 정확히 구할 수 없다.
Figure 112004047164392-pat00010
후보 글자를 다시 선택한 후, 그 후보 글자들 중 세로 방향 연결화소의 길이(l(ccy(x)))가 [수학식 9]의 VCm보다 큰 글자를 최종 후보 글자로 선택한다. 여기서, VCm은 dy보다 길이가 긴 세로 방향 연결화소(ccy(x))의 연속된 흑화소 성분들만 더하여 평균한 값이다. 이와 같이 최종 후보 글자를 선택한 결과가 도 8의 (c)에 도시되어 있다.
Figure 112004047164392-pat00011
Figure 112004047164392-pat00012
,
여기서, nvc는 VC에 속하는 ccy(x)의 수.
다음으로, 선택한 최종 후보 글자의 기울어진 각도를 측정한다(260).
글자의 기울어짐이 없을 때 [수학식 9]의 VCm 값은 최대가 되며, 글자가 기울어지면 글자에 포함된 세로 방향 연결화소의 길이(l(ccy(x)))가 감소되어 [수학식 9]의 VCm 값은 작아진다. 따라서, [수학식 9]의 VCm 값이 최대가 되는 각도(θmax)가 해당 글자가 왜곡에 의해 기울어진 각도가 된다.
도 10은 최종 후보 글자를 둘러싸는 사각형의 중심을 기준으로 소정 각도씩 사각형 영역을 회전시켜 VCm을 계산한 결과를 나타낸 일실시예 도면이다. 도 10의 (a)에 도시된 바와 같이, 글자를 둘러싸는 사각형의 중심
Figure 112004047164392-pat00013
을 기준으로 사각형 영역을 -20°에서 +20°까지 0.1°씩 회전시켜 VCm(θ)를 계산한다. 그 결과가 도 10의 (b)에 도시되어 있다. 도시된 바와 같이, VCm은 각도가 -10.4°일 때 최대값을 갖는다. 즉, 도 10의 (a)에 도시된 글자는 수직선을 기준으로 10.4° 왼쪽으로 기울어져 있음을 뜻한다.
다음으로, 계산한 최종 후보 글자들의 기울어진 각도를 이용하여 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선을 구한다(270). 수직 방향의 직선은 텍스트 영역의 좌우 끝에 위치한 글자에 외접하도록 한다.
우선, 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선의 기울기(m)를 구하기 위해, 상기 계산한 최종 후보 글자들의 기울어진 각도의 평균값(
Figure 112004047164392-pat00014
)과 표준편차(
Figure 112004047164392-pat00015
)를 이용한다. [수학식 10]은 기울기 m을 결정하기 위한 기준으로, 최종 후보 글자들의 기울어진 각도의 표준편차(
Figure 112004047164392-pat00016
)가 오차허용범위(T) 이내일 경우 [수학식 10]을 이용하여 기울기 m을 결정한다. 최종 후보 글자들의 기울어진 각도의 표준편차(
Figure 112004047164392-pat00017
)가 오차허용범위(T)보다 큰 경우에는 각 최종 후보 글자들의 기울어진 각도(θ) 값의 차이가 큰 것으로, 수직 방향 직선의 기울기를 신뢰성있게 결정하기 어렵다. 본 실시예에서는 60장의 텍스트 영상을 실험하여 도출한 '2'를 오차허용범위(T)로 결정한다.
Figure 112004047164392-pat00018
도 11은 도 8의 (c)의 최종 후보 글자들을 대상으로 구한 최종 후보 글자들의 기울어진 각도의 평균값(
Figure 112004047164392-pat00019
)을 이용하여 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선을 표시한 일실시예 도면이다. 도시된 바와 같이, 최종 후보 글자들의 기울어진 각도의 평균값(
Figure 112004047164392-pat00020
)은 왼쪽과 오른쪽 각각 6.4°, -5.9°이다.
한편, 본 실시예에서는 문서 영상에 외접하는 수평/수직 방향의 직선을 구하기 위해 수평 방향의 직선을 먼저 구하고 수직 방향의 직선을 그 후에 구하였으나, 수직 방향의 직선을 먼저 구하고 수평 방향의 직선을 그 후에 구할 수 있음은 자명하다.
다음으로, 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선과 수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환한다(280).
카메라로 획득한 텍스트 영상의 기하학적 왜곡은 렌즈가 구형인 관계로 비선형적으로 발생한다. 이러한 비선형적 왜곡을 워핑(warping)을 이용하여 보정하려면 변환계수를 정확히 알아야 한다. 그러나, 변환계수의 정확한 값은 현실적으로 구하기 어렵기 때문에 그 오차가 크게 될 경우 왜곡 보정을 하지 않은 경우보다 결과가 좋지 않을 수 있다. 따라서 어파인변환(Affine transform) 방법 중 양선형변환(bilinear transform)을 이용하여 비선형적인 왜곡을 선형적으로 근사화하여 보정한다.
어파인변환은 스케일, 회전, 이동 그리고 이들의 결합을 포함한 선형변환으로서 평행선이 보존되고 선을 따라 등간격의 점들이 또한 보존되며, 삼각형을 다른 모양의 삼각형으로 또는 사변형을 다른 모양의 사변형으로 변형시킬 수 있는 변환이다. [수학식 11]은 어파인변환의 일반화된 공식으로 (x, y)는 변환 후 좌표, (u, v)는 변환 전 좌표, aij는 변환계수를 나타낸다.
Figure 112004047164392-pat00021
양성형변환은 사변형을 다른 모양의 사변형으로 변형시키는 어파인변환 방법 중 하나로, 수평 또는 수직선을 따라 등간격의 점은 보조하지만 대각선은 보존하지 못하는 특징이 있다.
도 12는 4개의 직선이 형성하는 사변형을 어파인변환을 이용하여 직사각형으로 변환하는 일실시예 도면이다. 변환 전 좌표 (u, v)와 변환 후 좌표 (x, y) 사이의 관계는 [수학식 12]와 같다.
Figure 112004047164392-pat00022
도 13은 본 발명의 바람직한 일실시예에 따라 200만 화소 카메라를 내장한 휴대폰으로 획득한 문서 영상의 기하학적 왜곡을 어파인변환을 이용하여 보정한 결과를 나타낸 도면이다. 변환 후 좌표 (x, y)에 해당하는 변환 전 좌표 (u, v)를 상기 [수학식 12]를 이용하여 구하고, 그 해당하는 변환 전 좌표의 흑화소를 변환 후 좌표로 대응시킨다. 이 때, [수학식 12]의 u01, u23, v03, v12는 보간을 위해 사용하는 유리수 값들이다. 이렇게 함으로써, 도 13의 (a)의 200만 화소 휴대폰으로 획득한, 기하학적 왜곡이 존재하는 문서 영상이 도 13의 (b)와 같이 보정된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상 의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 디지털 카메라, PDA 및 휴대폰과 같은 휴대 단말용 카메라를 이용하여 문서 영상을 획득할 경우, 카메라 렌즈의 광학적 특성, 피사체와 카메라간의 상대적 위치 및 각도의 차이로 인해 발생하는 문서 영상의 기하학적 왜곡을 어파인 변환을 이용하여 자동으로 보정함으로써, 휴대 단말용 카메라를 이용하여 문자를 인식하는 것이 가능하게 한다.
아울러, 본 발명은 명함, 간판, 번호판 등 현장에서 필요한 문서를 바로 인식하여 각종 서비스를 제공하는 응용에 사용이 가능하다.

Claims (13)

  1. 문서 영상의 기하학적 왜곡 보정 방법에 있어서,
    상기 문서 영상을 이진화하는 이진화 단계;
    이진화된 문서 영상으로부터 문자열을 생성하는 문자열 생성 단계;
    생성된 문자열을 이용하여 문서 영상에 외접하는 수평/수직 방향의 직선을 추출하는 직선 추출 단계; 및
    추출된 수평/수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환하는 어파인변환 단계
    를 포함하는 문서 영상의 기하학적 왜곡 보정 방법
  2. 제1항에 있어서,
    상기 문자열 생성 단계는,
    이진화된 문서 영상으로부터 라인 단위로 연결 요소들을 추출한 후 인접 라인간 연결 요소들을 병합하여 분할 영역을 생성하는 상향식 영역 분할 단계;
    분할된 분할 영역간 연결 관계를 검사하여 문자열을 추출하는 문자열 추출 단계
    를 포함하는 문서 영상의 기하학적 왜곡 보정 방법.
  3. 제2항에 있어서,
    상기 문자열 추출 단계는,
    분할 영역간 연결 관계를 하기 수학식을 이용하여 검사하는
    문서 영상의 기하학적 왜곡 보정 방법.
    (수학식)
    Figure 112006036464575-pat00023
    Figure 112006036464575-pat00024
    Figure 112006036464575-pat00025
    여기서, xi, yi는 분할 영역의 꼭지점의 좌표.
  4. 제3항에 있어서,
    상기 직선 추출 단계는,
    추출된 문자열 중 상·하 최외각 문자열의 기울기를 측정하여 문서 영상의 텍스트 영역에 외접하는 수평 방향의 직선을 추출하는 수평 방향 직선 추출 단계;
    추출된 문자열에 포함된 좌·우 최외각 글자들 중 문서 영상에 외접하는 수직 방향의 직선을 추출하기 위한 후보 글자를 선택하는 후보 글자 선택 단계 및
    선택된 후보 글자들의 기울어진 각도를 이용하여 문서 영상의 텍스트 영역에 외접하는 수직 방향의 직선을 추출하는 수직 방향 직선 추출 단계
    를 포함하는 문서 영상의 기하학적 왜곡 보정 방법.
  5. 제4항에 있어서,
    상기 수평 방향 직선 추출 단계는,
    상·하 최외각 문자열의 첫번째 및 마지막 글자를 이용하여 수평 방향의 기울기를 구하고, 상기 기울기를 갖는 직선이 상·하 최외각 문자열의 가장 돌출된 글자를 지나도록 하여 최종 수평 방향의 직선을 추출하는
    문서 영상의 기하학적 왜곡 보정 방법.
  6. 제5항에 있어서,
    상기 후보 글자 선택 단계는,
    추출된 문자열에 포한된 좌·우 최외각 글자들 중 좌우 각각 2의 글자 및 좌우 각각 2개의 글자들과 가로 방향으로 교차 관계가 있는 글자를 후보 글자로 선택하는 예비 후보 글자 선택 단계; 및
    선택된 후보 글자 중 가로 방향 좌표 x에서의 세로 방향 연결화소의 길이가 하기 수학식의 dy 및 VCm보다 큰 글자를 최종 후보 글자로 선택하는 최종 후보 글자 선택 단계
    를 포함하는 문서 영상의 기하학적 왜곡 보정 방법.
    (수학식)
    Figure 112006036464575-pat00026
    ,
    Figure 112006036464575-pat00027
    Figure 112006036464575-pat00028
    여기서, (ye-ys)는 분할 영역의 세로 길이, ccy(x)는 세로 방향 연결화소, l(ccy(x))는 세로 방향 연결화소의 길이, nvc는 집합 VC에 속하는 원소 ccy(x)의 개수
  7. 제6항에 있어서,
    상기 수직 방향 직선 추출 단계,
    상기 최종 후보 글자들의 기울어진 각도를 측정하는 각도 측정 단계; 및
    측정된 각도들의 평균값(
    Figure 112006036464575-pat00029
    ) 및 표준편차(
    Figure 112006036464575-pat00030
    )를 이용하여 수직 방향의 직선의 기울기를 결정하는 기울기 결정 단계
    를 포함하는 문서 영상의 기하학적 왜곡 보정 방법.
  8. 제7항에 있어서,
    상기 각도 측정 단계는,
    VCm(θ)이 최대가 되는 각도를 최종 후보 글자의 기울어진 각도로 결정하고,
    상기 기울기 결정 단계는,
    하기 수학식을 이용하여 기울기 m을 결정하는
    문서 영상의 기하학적 왜곡 보정 방법.
    (수학식)
    Figure 112006036464575-pat00031
    여기서, T는 오차허용범위.
  9. 제8항에 있어서,
    상기 어파인변환 단계는,
    양성형변환(Bilinear Transform)을 이용하는
    문서 영상의 기하학적 왜곡 보정 방법.
  10. 문서 영상의 기하학적 왜곡 보정 장치에 있어서,
    상기 문서 영상을 이진화하기 위한 이진화 수단;
    상기 이진화 수단으로부터 전달된 이진화된 문서 영상으로부터 문자열을 추출하기 위한 문자열 추출 수단;
    상기 문자열 추출 수단으로부터 전달된 문자열을 이용하여 문서 영상의 텍스트 영역에 외접하는 수평/수직 방향의 직선을 추출하기 위한 직선 추출 수단; 및
    상기 직선 추출 수단으로부터 추출된 수평/수직 방향의 직선이 형성하는 사변형 영역을 어파인변환을 이용하여 직사각형 영역으로 변환하기 위한 어파인변환 수단
    를 포함하는 문서 영상의 기하학적 왜곡 보정 장치.
  11. 제10항에 있어서,
    상기 문자열 추출 수단은,
    이진화된 문서 영상으로부터 연결 요소 기반의 영역 분할 방법을 이용하여 글자 부분을 추출하고, 추출한 글자 부분의 연결 관계를 조사하여 문자열을 추출하는
    문서 영상의 기하학적 왜곡 보정 장치.
  12. 제11항에 있어서,
    상기 직선 추출 수단은,
    추출한 문자열 중 상·하 최외각 문자열의 기울기를 측정하여 각각에 외접하는 수평 방향의 직선을 구하며, 문자열의 가장자리에 위치한 글자들 중 후보 글자를 선택하여 각 후보 글자의 기울어진 각도를 측정하여 좌우로 최외각에 위치한 글자에 외접하는 수직 방향의 직선을 구하는
    문서 영상의 기하학적 왜곡 보정 장치.
  13. 제12항에 있어서,
    상기 어파인변환 수단은,
    양선형변환(bilinear transform)을 이용하는
    문서 영상의 기하학적 왜곡 보정 장치.
KR1020040083074A 2004-10-18 2004-10-18 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 KR100603618B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040083074A KR100603618B1 (ko) 2004-10-18 2004-10-18 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040083074A KR100603618B1 (ko) 2004-10-18 2004-10-18 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법

Publications (2)

Publication Number Publication Date
KR20060033973A KR20060033973A (ko) 2006-04-21
KR100603618B1 true KR100603618B1 (ko) 2006-07-24

Family

ID=37142921

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040083074A KR100603618B1 (ko) 2004-10-18 2004-10-18 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법

Country Status (1)

Country Link
KR (1) KR100603618B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101035739B1 (ko) * 2009-02-13 2011-05-20 전남대학교산학협력단 문자 인식의 왜곡을 보정하는 방법
KR101207127B1 (ko) 2010-03-19 2012-11-30 전남대학교산학협력단 문자 인식 전처리 방법 및 장치
JP2015534202A (ja) 2012-11-12 2015-11-26 ビヘイヴィアラル レコグニション システムズ, インコーポレイテッド ビデオ監視システムのための画像安定化技法
KR102279026B1 (ko) 2014-11-07 2021-07-19 삼성전자주식회사 적어도 하나의 객체를 포함하는 영상에서 객체를 추출하여 보정한 영상을 제공하는 장치 및 방법
CN111723586A (zh) * 2020-06-18 2020-09-29 京东方科技集团股份有限公司 一种文本识别方法、装置、存储介质以及电子设备
KR102422990B1 (ko) * 2020-10-30 2022-07-21 한국전자기술연구원 스캔을 이용한 로봇의 캘리브레이션 시스템 및 방법
CN117333374A (zh) * 2023-10-26 2024-01-02 深圳市海恒智能股份有限公司 一种基于图像直线段信息的书脊图像校正方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030038013A (ko) * 2001-11-08 2003-05-16 삼성전자주식회사 자동차 번호판 인식방법
JP2003317033A (ja) * 2002-04-23 2003-11-07 Ikegami Tsushinki Co Ltd 画像処理におけるアフィン変換係数算出方法および画像処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030038013A (ko) * 2001-11-08 2003-05-16 삼성전자주식회사 자동차 번호판 인식방법
JP2003317033A (ja) * 2002-04-23 2003-11-07 Ikegami Tsushinki Co Ltd 画像処理におけるアフィン変換係数算出方法および画像処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1020030038013 *
15317033 *

Also Published As

Publication number Publication date
KR20060033973A (ko) 2006-04-21

Similar Documents

Publication Publication Date Title
Tian et al. Rectification and 3D reconstruction of curved document images
US8457403B2 (en) Method of detecting and correcting digital images of books in the book spine area
US7330604B2 (en) Model-based dewarping method and apparatus
CN111814722A (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US8472727B2 (en) Document comparison and analysis for improved OCR
US20170076169A1 (en) System and Method for Scanned Document Correction
US9959475B2 (en) Table data recovering in case of image distortion
RU2631765C1 (ru) Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
KR101207127B1 (ko) 문자 인식 전처리 방법 및 장치
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR20020018936A (ko) 왜곡 보정 방식
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
CN109409356B (zh) 一种基于swt的多方向中文印刷体文字检测方法
JP6188052B2 (ja) 情報システム及びサーバー
CN111145124A (zh) 一种图像倾斜的校正方法及装置
CN115619656A (zh) 数字化档案纠偏矫正方法及***
KR100603618B1 (ko) 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법
CN108335266B (zh) 一种文档图像畸变的矫正方法
JP2013171469A (ja) 画像処理装置、二値化閾値算出方法及びコンピュータプログラム
JP2008252856A (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
JP3303246B2 (ja) 画像処理装置
Roullet et al. An automated technique to recognize and extract images from scanned archaeological documents
CN110097065B (zh) 一种基于FreeMan链码的直线检测方法及终端

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20091228

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee