KR102012819B1

KR102012819B1 - 텍스트 이미지 처리 방법 및 장치

Info

Publication number: KR102012819B1
Application number: KR1020177032664A
Authority: KR
Inventors: 롱샤 주; 홍파 왕
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2016-01-05
Filing date: 2016-12-30
Publication date: 2019-08-21
Also published as: JP2018519574A; EP3401842B1; EP3401842A4; US20180053048A1; CN106940799A; EP3401842A1; JP6628442B2; WO2017118356A1; US10572728B2; KR20170137170A; CN106940799B; MY184167A

Abstract

텍스트 이미지 처리 방법 및 장치. 상기 텍스트 이미지 처리 방법은, 텍스트 이미지를 사전 처리하여 바이너리 이미지와 상기 바이너리 이미지에 포함되는 복수의 연결 영역을 획득하는 단계 (210); 볼록 껍질(convex hull) 알고리즘으로 상기 복수의 연결 영역 각각에 대응하는 볼록 껍질과 상기 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하는 단계 (230); 상기 획득된 문자 영역에 수평-방향문자 분할(character segmentation)을 수행하여 상기 바이너리 이미지에 분포된 복수의 문자 블록을 획득하는 단계 (250); 및 상기 텍스트 이미지에 포함되는 블록을 획득하기 위해 상기 바이너리 이미지 내의 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하는 단계를 포함한다. 상기 텍스트 이미지 처리 방법 및 장치는 문자 분할의 다용도성과 정확도를 향상시킬 수 있다.

Description

텍스트 이미지 처리 방법 및 장치

본 발명은 2016년 1월 5일에 중국 인민 공화국 국가 지식산권국에 출원되고 발명의 명칭이 “TEXT IMAGE PROCESSING METHOD AND APPARATUS”인 중국 출원 제201610004431.4호에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.

본 발명은 문자 인식(character recognition) 기술에 관한 것으로서, 구체적으로 텍스트 이미지 처리 방법 및 텍스트 이미지 처리 장치에 관한 것이다.

문자 인식 기술에서, 문자 분할(character segmentation)은 텍스트 이미지 처리에서 중요한 과정이며, 주로 이미지의 텍스트 영역을 획득하면 그 문자의 위치에서 문자를 분할함으로써 구현된다.

종래의 문자 분할 방법은 투사 분할 방법(projection segmenting method), 클러스터링 방법(clustering method), 및 템플릿 매칭 방법(template matching method)을 포함한다. 투사 분할 방법에 따르면, 이미지는 사전처리되어 바이너리 이미지가 획득되고, 문자가 위치하는 영역은 바이너리 이미지에 기초하여 투사의 방식으로 결정된다. 문자의 연결 영역이 사용되는 클러스터링 방법에 따르면, 연결 영역 내의 문자 블록은 전체 페이지의 문자의 분포 특징에 따라 병합된다. 템플릿 매칭 방법은 주로 특정 폰트 또는 특정 문자에 적용되며 널리 사용되지는 않는다.

상술한 문자 분할 방법으로 문자가 어느 정도 분할될 수 있다. 그러나 이러한 방법은 일반적으로 실제 적용에는 제한적이다. 한편으로는, 투사 분할 방법에서, 문자가 기울어져 있는 경우 여러 문자가 전체로서 분할되는 문제가 발생할 수 있으며, 템플릿 매칭 방법은 특정 텍스트 환경에만 적용될 수 있어서, 활용도가 낮다.

다른 한편으로는, 문자 분할이 연결 영역에 기초하여 수행되는 클러스터링 방법에 있어서, 획득된 문자에 자획 파쇄 현상(stroke fracture phenomenon) 또는 자획 응집 현상(stroke cohesion phenomenon)이 존재하는 경우 문자 분할이 실행될 수 없다.

따라서, 상술한 문자 분할 방법들에는 많은 문제가 있으며, 특히, 이러한 방법들은 실제 적용에 제한적이고, 다용도성과 정확도가 낮다.

상술한 것에 기초하여, 본 발명에서는 텍스트 이미지 처리 방법 및 텍스트 이미지 처리 장치가 제공된다. 상기 방법 및 상기 장치에 따르면, 문자 분할의 다용도성 및 정확도가 향상될 수 있다.

텍스트 이미지 처리 방법이 제공되며, 이 텍스트 이미지 처리 방법은, 텍스트 이미지를 사전 처리하여 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하는 단계; 볼록 껍질(convex hull) 알고리즘으로 상기 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하는 단계; 상기 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하는 단계; 상기 획득된 문자 영역에 문자 분할(character segmentation)을 수행하여 복수의 문자 블록을 획득하는 단계; 및 상기 텍스트 이미지의 단어 블록을 획득하기 위해 상기 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하는 단계를 포함한다.

텍스트 이미지 처리 장치가 제공되며, 이 텍스트 이미지 처리 장치는, 텍스트 이미지를 사전 처리하여 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하도록 구성되어 있는 사전 처리 모듈; 볼록 껍질(convex hull) 알고리즘으로 상기 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하고, 상기 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하도록 구성되어 있는 볼록 껍질 획득 모듈; 상기 획득된 문자 영역에 문자 분할(character segmentation)을 수행하여 복수의 문자 블록을 획득하도록 구성되어 있는 분할 모듈; 및 상기 텍스트 이미지의 단어 블록을 획득하기 위해 상기 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하도록 구성되어 있는 병합 모듈을 포함한다.

전술한 기술적 솔루션으로부터 알 수 있는 것은, 텍스트 이미지 처리에서, 바이너리 이미지와 바이너리 이미지 내의 복수의 연결 영역이 먼저 사전 처리에 의해 획득되고, 복수의 연결 영역 각각에 대응하는 볼록 껍질이 볼록 껍질 알고리즘으로 획득되며, 볼록 껍질에 외접하는 문자 영역이 획득되고, 문자 영역에 문자 분할이 수행되어 바이너리 이미지에 분포된 복수의 문자 블록이 획득되고, 텍스트 이미지의 단어 블록을 획득하기 위해 문자 블록의 높이에 기초하여 문자 블록이 병합된다는 것이다. 텍스트 이미지 처리에서, 문자 분할이 수행되고 문자 블록의 높이에 기초하여 병합이 수행되므로, 문자 행 내의 업-다운 구조를 가지는 문자는 분할되지 않으면서 일부 밀접한 문자가 분할되고, 이에 따라 문자 분할의 정확도가 향상된다. 뿐만 아니라, 이 처리는 텍스트 내의 문자의 문자 분포 및 높이에 기초하여 어떠한 제한 없이 수행되므로, 문자 분할의 다용도성이 향상된다.

도 1은 본 발명의 일 실시예에 따른 전자 장치(electronic device)의 개략적인 구조도이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 이미지 처리 방법을 도시하는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 바이너리 이미지의 여러 문자 블록을 획득하기 위해 문자 영역에 문자 분할을 수행하는 방법을 도시하는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 문자의 연결 부분을 위치 결정하는 방법을 도시하는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 2개의 문자를 포함하는 문자 영역의 개략적인 다이어그램이다.
도 6은 도 5의 문자 영역에서 위치 결정에 의해 획득되는 연결 부분의 개략적인 다이어그램이다.
도 7은 도 5의 문자 영역에서 분할에 의해 획득되는 문자 블록의 개략적인 다이어그램이다.
도 8은 본 발명의 일 실시예에 따른 텍스트 이미지의 단어 블록을 획득하기 위해 문자 블록의 높이에 기초하여 문자 블록을 병합하는 방법을 도시하는 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 텍스트 이미지 처리 장치의 개략적인 구조도이다.
도 10은 본 발명의 일 실시예에 따른 분할 모듈의 개략적인 구조도이다.
도 11은 본 발명의 일 실시예에 따른 연결 위치 결정 유닛의 개략적인 구조도이다.
도 12는 본 발명의 일 실시예에 따른 병합 모듈의 개략적인 구조도이다.

본 발명의 특징 및 이점을 포함하는 예시적인 실시예들이 이하의 설명에서 상세하게 설명된다. 본 발명은 본 발명의 범위에서 벗어나지 않고 다양한 실시예에서 다양한 변화를 가할 수 있으며, 이 설명 및 예시는 단지 예시를 위한 것으로서, 본 발명을 제한하는 것으로 해석되어서는 안 된다는 것을 이해해야 한다.

앞서 설명된 투사 분할 방법(projection segmenting method), 클러스터링 방법(clustering method), 및 템플릿 매칭 방법(template matching method)과 같은 문자 분할 방법을 채택하는 텍스트 인식의 애플리케이션에서는 특정 시나리오에서만 문자 분할의 정확도가 높고, 다른 시나리오에서는 문자 분할의 정확도가 낮아, 텍스트 인식 애플리케이션에서 내용 인식의 정확도에 영향을 준다.

본 발명에서는 다용도성 및 정확도를 향상시키기 위한 텍스트 이미지 처리 방법 및 텍스트 이미지 처리 장치가 제공된다. 이 방법은 텍스트 이미지를 사전 처리하여 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하는 단계; 볼록 껍질(convex hull) 알고리즘으로 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하는 단계; 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하는 단계; 획득된 문자 영역에 문자 분할(character segmentation)을 수행하여 복수의 문자 블록을 획득하는 단계; 및 문자 블록의 높이에 기초하여 문자 블록을 병합하는 단계를 포함한다.

도 1은 본 발명의 일 실시예에 따른 전자 기기의 구조도를 도시한다. 전자 장치(electronic device)(100)는 본 발명에 적용될 수 있는 일 예시일 뿐이며, 본 발명의 적용 가능 범위를 제한하는 것으로 고려되어서는 안 된다.

도 1에 도시된 바와 같이, 전자 장치(100)는 프로세서(110), 메모리(120) 및 시스템 버스(130)를 포함한다. 메모리(120)와 프로세서(110)를 포함하는 다양한 구성요소가 시스템 버스(130)에 연결되어 있다. 프로세서(110)는 컴퓨터 시스템에서 기본 산술 논리 연산(basic arithmetic logic operations)에 의한 컴퓨터 프로그램 명령을 실행하도록 구성되어 있는 하드웨어 장치(hardware device)이다. 메모리(120)는 일시적으로 또는 영구적으로 컴퓨터 프로그램 또는 데이터를 저장하도록 구성되어 있는 물리적 장치(physical device)이다.

메모리(120)는 프로그램 명령과 복수의 텍스트 이미지를 저장한다. 프로세서(110)는 메모리(120)에 저장되어 있는 프로그램 명령을 실행하여 텍스트 이미지를 처리한다.

전자 장치(100)는 다양한 동작의 입력을 실현하기 위해 다양한 유형의 입력 인터페이스(170)와 입력 장치(140)를 더 포함하며, 입력 장치(140)는 터치 스크린, 키, 키보드, 마우스 또는 다른 입력 장치 중 적어도 하나일 수 있다.

전자 장치(100)는 통신 기능을 수행하기 위한 근거리 통신망 인터페이스(150)와 이동 통신 유닛(160)을 더 포함할 수 있다.

전자 장치(100)는 저장 장치(storage device)(180)를 더 포함하며, 저장 장치(180)는 다양한 컴퓨터로 판독 가능한 저장 매체로부터 선택될 수 있다. 컴퓨터로 판독 가능한 저장 매체는 이동 가능한 저장 매체와 고정된 저장 매체를 포함하는 액세스될 수 있는 임의의 이용 가능한 매체이다. 예컨대, 컴퓨터로 판독 가능한 저장 매체는, 이에 한정되는 것은 아니지만, (마이크로 SD 카드와 같은) 플래시 메모리, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광 디스크, 카세트, 테이프 저장 장치 또는 다른 저장 장치, 또는 원하는 정보를 저장할 수 있으며 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다.

저장 장치(100)는 본 발명의 일 실시예에 따른 텍스트 이미지 처리에서의 다양한 동작을 수행할 수 있다, 즉, 프로세서(110)에 의해 메모리(120)에 저장된 프로그램 명령을 실행하여 텍스트 이미지 처리 방법의 단계들을 수행할 수 있다.

뿐만 아니라, 본 발명은 하드웨어 회로 또는 하드웨어 회로와 소프트웨어 명령의 조합에 의해 구현될 수 있다. 따라서, 본 발명의 구현은 임의의 특정 하드웨어 회로, 소프트웨어, 또는 하드웨어 회로와 소프트웨어의 조합에 제한되지 않는다.

일 실시예에서, 텍스트 이미지 처리 방법은 도 2에 도시된 바와 같으며, 아래와 같은 단계 210 내지 단계 270를 포함한다.

단계 210에서, 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하기 위해 텍스트 이미지가 사전 처리된다.

텍스트 이미지는 텍스트 내용을 포함하는 임의의 이미지일 수 있다. 텍스트 이미지는 텍스트로 구성된 문자를 포함하며, 문자는 하나 이상의 행(row)에 배열되어 있을 수 있다. 텍스트 이미지는 문자 행과 다른 인접 문자 행 사이의 공백(blanks)과, 문자와 다른 인접 문자 사이의 구두점(punctuation marks)를 더 포함할 수 있다. 텍스트 이미지가 사전 처리되어 바이너리 이미지가 획득되며, 이는 이미지 정보를 명확하게 표시할 수 있고 복수의 연결 영역(연결 범위(connected domains)으로도 지칭됨)을 포함한다. 문자 행의 방향은 이하에서 설명의 편의를 위해 수평 방향으로 지칭된다.

사전 처리는, 텍스트 이미지에 평활화 필터링(smoothing filtering)을 수행하고, 모서리를 검출하여 텍스트 이미지 내의 모서리를 획득하고, 모폴로지(morphology)의 방식으로 문자의 분포 영역을 획득하여, 문자의 연결 영역을 획득하는 것을 포함한다.

다시 말해, 바이너리 이미지 내의 복수의 연결 영역에 있어서, 복수의 연결 영역 각각에는 하나 이상의 문자가 존재한다.

단계 230에서, 복수의 연결 영역 각각에 대응하는 볼록 껍질(convex hull)이 볼록 껍질 알고리즘으로 획득되며, 이 볼록 껍질에 외접(circumscribe)하는 문자 영역이 획득된다.

복수의 연결 영역 각각에 대응하는 볼록 껍질은 볼록 껍질 알고리즘으로 획득되고, 볼록 껍질에 기초하여 프레임 선택이 수행되어 볼록 껍질에 외접하는 문자 영역이 획득된다. 선택적인 실시예에서, 연결 영역 각각에 대응하는 최대 볼록 껍질은 볼록 껍질 알고리즘으로 획득되어 문자와 관련된 정보가 삭제되는 것을 방지하며 문자와 관련된 정보의 무결성(integrity)을 보장한다.

또한, 선택적인 실시예에서, 볼록 껍질에 외접하는 문자 영역은 예컨대 직사각형 영역이며, 이 직사각형 영역은 텍스트 이미지 처리의 정확도를 보장하기 위해 문자의 윤곽선(outline)에 맞도록 최소 직사각형으로 볼록 껍질에 프레임 선택을 수행하여 획득된다.

연결 영역에 대응하는 복수의 볼록 껍질에 대해, 각각의 볼록 껍질은 문자 영역에 대응하고, 이에 따라 바이너리 이미지 내의 복수의 문자 영역이 획득된다.

단계 250에서, 문자 분할이 획득된 문자 영역에 수행되어 바이너리 이미지 내의 복수의 문자 블록을 획득한다.

텍스트 내의 문자의 분포 특성에 기초하여 바이너리 이미지 내의 복수의 문자 영역 각각에 수평 방향으로 문자 분할이 수행되어, 문자 영역 각각에 함께 연결된 문자를 분할한다. 예컨대, 자획(stroke)을 통해 서로 밀착되어 있는(coherent) 문자는 문자 블록을 획득하기 위해 수평 방향의 문자 분할에 의해 분리된다.

문자 분할이 수행된 후, 바이너리 이미지 내의 복수의 문자 블록이 획득된다. 수평 방향의 문자 분할에 의해 가능한 단일 문자에 대응하는 문자 블록이 획득된다.

단계 270에서, 문자 블록은 텍스트 이미지의 단어 블록을 획득하기 위해 문자 블록의 높이에 기초하여 병합된다.

바이너리 이미지 내의 문자 블록을 획득한 후, 문자 블록은 바이너리 이미지 내의 모든 문자 블록의 높이에 기초하여 병합되므로, 동일한 문자 행에서 서로 업-다운 구조(up-down structure)를 형성하는 문자 블록은 병합된다.

문자 영역이 수평 방향으로 최대한 세밀하게 분할되는 경우에, 2개의 부분으로 분할된 문자 블록은 문자 블록의 높이에 기초하여 병합 처리에 의해 함께 병합되므로, 후속 인식률을 높일 수 있다.

위의 프로세스로, 수평 방향의 문자 분할과 문자 블록의 병합 간의 협력 하에, 텍스트 이미지 내의 각각의 문자 행은 충분히 세밀하게 분할되어 가능한 한 단일 문자를 획득하고, 그 후 합병이 수행되므로, 동일한 문자 행 내의 업-다운 구조로 전체를 구성하는 문자 블록은 함께 병합되어, 후속 문자 인식을 용이하게 할 수 있다.

전술한 프로세스에서, 문자의 특성은 일부 다른 인자에 의존하지 않고 활용된다. 따라서, 문자 분할 프로세스의 다용도성이 크게 향상되며, 이에 따라, 위의 텍스트 이미지 처리 방법을 수행하는 텍스트 인지 애플리케이션의 다용도성과 정확도도 크게 향상된다.

일 실시예에서, 단계 250는 도 3에 도시된 바와 같으며, 아래와 같은 단계 251과 단계 253을 포함한다.

단계 251에서, 문자의 연결 부분은 문자 영역에 위치 결정된다.

연결 영역 내의 볼록 껍질에 기초하여 획득된 문자 영역은, 문자에 프레임 선택을 수행하여 획득된 예비 결과(preliminary results)이다. 서로 밀접한 문자는 일반적으로 문자 영역 내에 존재한다. 본 발명의 일 실시예에 따르면, 문자의 연결 부분은 문자 영역 내의 문자를 분할하기 위해 수직 방향으로 위치 결정된다.

연결 부분이 문자 영역에 위치 결정하여 획득되면, 서로 밀접한 문자는 그 문자 영역에 존재하고, 연결 부분에 기초하여 문자 영역에 수평 방향의 분할이 수행될 필요가 있다.

단계 253에서, 문자 영역은 바이너리 이미지 내의 복수의 문자 블록을 획득하기 위해 연결 부분에 기초하여 분할된다.

구체적으로, 연결 부분에 기초하여 문자 영역에 수행되는 분할은 연결 부분에 대응하는 픽셀 값을 0으로 설정하여 구현될 수 있다.

문자 블록은 수평 방향의 문자 영역을 분할하여 획득되고, 문자 영역이 가능한 세밀하게 분할된 경우에 해당한다. 다른 한편, 문자 영역은 문자 연결 영역에서 분할된 적어도 2개의 문자 블록을 획득하기 위해 연결 부분에 기초하여 수평 방향으로 분할된다.

따라서, 위의 프로세서로, 문자 영역이 분할되어 바이너리 이미지 내에 분포된 복수의 문자 블록을 획득하므로, 문자 분할이 충분히 세밀하고, 각각의 문자 행 내의 각각의 분할된 문자 블록은 단일 문자에 해당하여, 문자 분할의 정확도를 크게 향상시킨다.

뿐만 아니라, 일 실시예에서, 도 4에 도시된 바와 같이, 단계 251은 아래의 단계 2511 내지 단계 2515를 포함한다.

단계 2511에서, 문자 영역 내의 픽셀의 각 열(column)의 인접 픽셀의 픽셀 값이 비교되어 픽셀의 각 열의 전경부(foreground portion)에 속하는 연속하는 픽셀의 수가 획득된다.

바이너리 이미지 내의 복수의 문자 영역에 있어서, 각각의 문자 영역은 복수의 픽셀을 포함한다. 따라서, 연결 부분은 바이너리 이미지 내의 각각의 복수의 문자 영역의 열에 위치 결정된다.

위치 결정 프로세스에서, 문자 영역 내의 픽셀의 각 열에 대해, 픽셀의 열의 전경부에 속하는 연속하는 픽셀은 인접 픽셀의 픽셀 값을 비교하여 획득된다. 전경부는 픽셀의 픽셀 값이 1인 부분이고, 픽셀의 각 열의 전경부에 속하는 연속하는 픽셀은 픽셀의 열에서 픽셀 값이 1인 연속하는 픽셀을 나타낸다.

단계 2513에서, 픽셀의 각 열에 대해, 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같은지를 결정한다. 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같으면, 프로세스는 단계 2515로 진행하고, 그렇지 않으면 프로세스는 종료된다.

단계 2515에서, 전경부에 속하는 연속하는 픽셀은 문자의 연결 부분으로 결정된다.

열 내의 연결 부분을 위치 결정하는 것에서, 사전 설정된 수는 연결 부분을 인식하는 데 사용되며, 사전 설정된 수는 경험에 따라 사전 결정될 수 있다.

픽셀의 열의 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수(예컨대, 사전 설정된 수가 3일 수 있음)보다 적거나 같으면, 전경부에 속하는 이 연속하는 픽셀은 문자의 연결 부분으로 결정된다.

구체적으로, 연결 부분을 위치 결정하는 것에서, 바이너리 이미지 내의 복수의 문자 영역에 대해, 문자 영역의 높이와 너비(픽셀의 수로 표현됨)가 먼저 계산된다. 일 실시예에서, 사각형 영역의 높이와 너비가 계산된다. 이하에서는, 너비 rect_width 와 높이 rect _ hight 로 설명되며, 여기서 i 와 j 는 1≤i≤ rect _width 와 1≤j≤rect_hight 으로 정의된다.

임의의 하나의 문자 영역에 대해, j 는 j=1으로 초기화되며, i번째 열의 픽셀이 추출되어 i번째 열의 픽셀의 픽셀 값 image( i,1 ≤j≤ rect _ hight ) 을 획득한다.

i번째 열의 픽셀 중에서, 픽셀 image( i,j )의 픽셀 값은 픽셀 image( i,j + 1)의 픽셀 값과 비교된다. 픽셀 값이 0에서 1로 변하거나 또는 1에서 1로 변하면, 픽셀 값이 1인 열 내의 픽셀의 수를 나타내는 line_ num _1 에 대응하는 값이 증가된다, 즉, line_num_1 = line_num_1 + 1 이 된다.

따라서, i번째 열 내의 픽셀의 line_ num _1에 대응하는 값이 획득되고, 그 값은 픽셀의 i번째 열의 전경부에 속하는 연속하는 픽셀의 수이다.

line_ num _1 에 대응하는 값이 사전 설정된 수 m보다 작거나 같은지를 결정한다. line_ num _1 에 대응하는 값이 사전 설정된 수 m보다 작거나 같으면, 이 연속하는 픽셀은 문자의 연결 부분으로 결정된다. 이 경우, 분할은 현재 열의 픽셀의 픽셀 값을 0으로 설정하여 구현될 수 있다.

픽셀의 i번째 열에 대한 비교 및 결정이 완료된 후, 비교 및 결정은 전체 문자 영역 내의 연결 부분이 i= rect _width 인 경우의 수평 방향에 위치될 때까지 픽셀의 (i+1)번째 열 등에 수행된다.

예를 들어, 도 5에 도시된 바와 같이, 2개의 문자 “S”와 “a”를 포함하는 문자 영역(310)에 대해, 문자 영역(310)의 연결 부분(330)은, 도 6에 도시된 바와 같이, 문자 영역(310)에 연결 부분을 위치 결정하여 획득된다, 즉, 수직 방향으로 3개의 연속하는 픽셀을 획득하고(이 3개의 연속하는 픽셀은 동일한 열에 있음), 이 3개의 연속하는 픽셀에 대응하는 픽셀 값은 1이다.

도 7에 도시된 바와 같이, 연결 부분에 기초하여 문자 영역을 분할함으로써 2개의 문자 블록, 즉, 문자 “S”가 위치하는 문자 블록(410)과 문자 “a”가 위치하는 문자 블록(430)이 획득된다.

일 실시예에서, 도 8에 도시된 바와 같이, 단계 270은 아래의 단계 271 내지 단계 277을 포함한다.

단계 271에서, 바이너리 이미지 내의 문자 블록의 높이가 계산되어 바이너리 이미지 내의 문자 블록의 높이 분포를 획득한다.

선택적으로, 단계 271에서, 바이너리 이미지 내의 문자 블록의 총 높이, 즉, 바이너리 이미지 내의 모든 문자 블록의 높이의 합이 추가로 계산된다.

앞서 설명된 바와 같이, 바이너리 이미지는 복수의 문자 블록을 포함한다. 임의의 하나의 문자 블록에 대해, 그 높이가 계산되어 바이너리 이미지 내의 각각의 문자 블록에 대응하는 높이가 획득된다. 뿐만 아니라, 바이너리 이미지 내의 동일한 높이를 가지는 문자 블록의 수에 통계 처리가 수행되어 바이너리 이미지 내의 문자 블록의 높이 분포가 획득된다.

구체적으로, 바이너리 이미지 내의 모든 문자 블록의 높이에 통계 처리가 수행되며, 동일한 높이를 가지는 문자 블록은 함께 그룹화되고, 각 그룹의 문자 블록의 수가 카운트된다. 예를 들어, 바이너리 이미지 내의 각 그룹의 문자 블록의 높이가 배열 static_height[n] 에 의해 나타내어지고, 이에 대응하여, 각 높이에 대응하는 문자 블록의 수는 배열 num_rect[n] 에 저장되고, 여기서 1 ≤ n 이다.

단계 273에서, 바이너리 이미지 내의 문자 블록의 획득된 높이 분포에 기초하여, 바이너리 이미지 내의 문자 블록의 총 높이에 대한 어느 문자 블록의 높이의 합의 비율이 사전 설정된 값을 초과하는 것으로 결정된다.

다시 말해, 타깃 문자 블록이 바이너리 이미지 내의 문자 블록에서 선택되고, 바이너리 이미지 내의 문자 블록의 총 높이에 대한 타깃 문자 블록의 높이의 합의 비율은 사전 설정된 값을 초과한다.

예를 들어, 일부 그룹은, 바이너리 이미지 내의 모든 문자 블록의 높이의 합에 대한 그 그룹 내의 문자 블록의 높이의 합의 비율이 사전 설정된 값보다 크게 되는 방식으로 결정된다. 사전 설정된 값은 50%보다 높은 값, 예컨대, 80%일 수 있다.

구체적으로, 배열 static_height[n] 이 먼저 가장 큰 num _ rect [n] 로부터 또는 가장 작은 num _ rect [n] 로부터의 순서로 정렬(ranked)되어, num _ rect [n] 의 오름차순 또는 내림차순으로 정렬된 배열 static_height[n] 을 획득할 수 있다.

높이의 합 sum_height 은 바이너리 이미지 내의 문자 블록의 높이와 문자 블록의 수에 기초하여 계산하여 획득된다.

먼저, 전술한 순서로 k개의 문자 블록의 높이가 추출된다, 예를 들어, 문자 블록의 추출된 높이는 static_height[1],…, static_height[k] 이며, 이는 먼저 다음의 표현식을 참(true)이 되게 한다:

( num _ rect _h[1]*static_height[1]+ num _ rect _h[2]*static_height[2]+…+ num _ rect _h[k]*static_height[k])/sum_height≥0.8.

단계 275에서, 타깃 문자 블록의 평균 높이 값이 계산된다.

이 단계에서, 평균 높이 값은 단계 273에서 선택된 문자 블록과 이들 문자 블록의 높이의 합에 기초하여 계산된다.

획득된 높이 static_height[1],…, static_ height[k] 의 평균 값이 계산되어 평균 높이 값 height_avg 을 획득한다, 즉,

( num _ rect _h[1]*static_height[1]+ num _ rect _h[2]*static_height[2]+…+ num _ rect _h[k]*static_height[k])/k=height_avg.

단계 277에서, 동일한 문자 행에 있으며 수평 방향으로 서로 중첩하는 문자 블록은 텍스트 이미지의 단어 블록을 획득하기 위해 평균 높이 값에 기초하여 바이너리 이미지에서 병합된다.

평균 높이 값이 계산된다. 바이너리 이미지 내의 임의의 문자 행에 대해, 2개의 문자 블록의 높이의 합이 평균 높이 값보다 작고 2개의 문자 블록이 수평 방향으로 서로 중합하면, 2개의 문자 블록은 병합된다.

다시 말해, 바이너리 이미지 내의 문자 블록의 병합 절차에서는 이하의 2가지 조건이 충족되어야 한다, 즉,

조건 1, |middle_ rect _x(i)-middle_ rect _x(k)|-(middle_rect_width(i)+middle_rect_width(k))/2<0, 그리고

조건 2, rect _height(i)+ rect _height(k)≤height_ avg,

여기서, 1≤i≤m 이고, m 은 문자 블록의 수를 나타내며, middle_ rect _x(i) 은 x축 상의 i번째 문자 블록의 중앙의 좌표를 나타내며, middle_ rect _width(i) 은 i번째 문자 블록의 너비를 나타내고, rect _height(i) 은 i번째 문자 블록의 높이를 나타낸다.

i번째 문자 블록은 남은 문자 블록과 비교된다. k번째 문자 블록과 현재 i번째 문자 블록의 높이의 합이 평균 높이 값보다 작고, k번째 문자 블록과 i번째 문자 블록이 수평 방향으로 서로 중첩하면, 위의 2개의 조건이 충족된다.

따라서, 이 2개의 문자 블록은 병합되어야 하는 것으로 간주된다.

상술한 프로세스로, 업-다운 구조를 가지며 이들의 높이의 합이 평균 높이 값보다 작은 문자 블록은 양호하게 병합되어, 수평 방향의 문자 블록의 분포를 보장하므로, 수평 방향의 문자 블록은 후속 인식 프로세스에서 제대로 결합되고 인지될 수 있다.

일 실시예에서, 앞서 설명된 방법은, 단어 블록을 포함하는 텍스트 이미지를 인식하는 단계를 더 포함한다. 텍스트 이미지 인식에서, 단어 블록은 텍스트 이미지의 텍스트 내용을 획득하기 위해 단어 블록의 순서에 기초하여 결합된다.

이 프로세스에서는, 인식 알고리즘의 단어 블록을 처리하기 위한 요건에 기초하여 전략이 설정된다. 예를 들어, 단어 블록에 선택적 병합이 수행되고, 여기서 선택적 병합은, 문자 행에서의 블록의 평균 너비 및 평균 높이에 기초하여, 좁은 일부 인접 블록을 병합하는 것 또는 넓은 일부 단어 블록에 세밀한 분할을 수행하는 것을 나타낸다.

유의할 점은, 채택된 인식 알고리즘은 추출이 문자 특성, 예컨대, 문자의 HOG 특징 및 그레이 레벨 이미지(gray level image)의 그레디언트(gradient) 특징에 기초하는 인식 알고리즘일 수 있다는 것이다.

일 실시예에서, 텍스트 이미지 처리 장치가 제공된다. 도 9에 도시된 바와 같이, 텍스트 이미지 처리 장치는 사전 처리 모듈(510), 볼록 껍질 획득 모듈(530), 분할 모듈(550) 및 병합 모듈(570)을 포함한다.

사전 처리 모듈(510)은 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하기 위해 텍스트 이미지를 사전 처리하도록 구성되어 있다.

볼록 껍질 획득 모듈(530)은 볼록 껍질(convex hull) 알고리즘으로 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하고, 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하도록 구성되어 있다.

분할 모듈(550)은 바이너리 이미지 내의 복수의 문자 블록을 획득하기 위해 획득된 문자 영역에 문자 분할(character segmentation)을 수행하도록 구성되어 있다.

병합 모듈(570)은 텍스트 이미지의 단어 블록을 획득하기 위해 문자 블록의 높이에 기초하여 문자 블록을 병합하도록 구성되어 있다.

일 실시예에서, 도 10에 도시된 바와 같이, 분할 모듈(550)은 연결 위치 결정 유닛(551)과 분할 실행 유닛(553)을 포함한다.

연결 위치 결정 유닛(551)은 문자 영역에서 문자의 연결 부분의 위치를 결정(position)하도록 구성되어 있다.

분할 실행 유닛(553)은 바이너리 이미지 내의 복수의 문자 블록을 획득하기 위해 연결 부분에 기초하여 문자 영역을 분할하도록 구성되어 있다.

일 실시예에서, 도 11에 도시된 바와 같이, 연결 위치 결정 유닛(551)은 픽셀 비교 서브-유닛(5511)과 결정 서브-유닛(5513)을 포함한다.

픽셀 비교 서브-유닛(5511)은, 각 열(column)의 픽셀의 전경부(foreground portion)에 속하는 연속하는 픽셀의 수를 획득하기 위해, 문자 영역 내의 각 열의 픽셀에서의 인접 픽셀의 픽셀 값을 비교하도록 구성되어 있다.

결정 서브-유닛(5513)은 각 열의 픽셀의 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같은지를 결정하고, 픽셀의 열의 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같은 경우, 픽셀의 그 열의 전경부에 속하는 연속하는 픽셀을 문자의 연결 부분으로 결정하도록 구성되어 있다.

일 실시예에서, 도 12에 도시된 바와 같이, 병합 모듈(570)은 분포 통계 유닛(571), 픽셀 선택 유닛(573), 평균 값 계산 유닛(575), 및 병합 실행 유닛(577)을 포함한다.

분포 통계 유닛(571)은, 바이너리 이미지 내의 문자 블록의 높이 분포를 획득하기 위해 바이너리 이미지 내의 문자 블록의 높이를 계산하도록 구성되어 있다. 선택적으로, 분포 통계 유닛(571)은 문자 블록의 총 높이, 즉, 바이너리 이미지 내의 모든 문자 블록의 높이의 합을 계산하도록 더 구성되어 있다.

픽셀 선택 유닛(573)은, 획득된 바이너리 이미지 내의 문자 블록의 높이 분포에 기초하여, 바이너리 이미지 내의 문자 블록의 총 높이에 대한 어떤 문자 블록의 높이의 합의 비율이 사전 결정된 값을 초과하는 것으로 결정하도록 구성되어 있다. 다시 말해, 픽셀 선택 유닛은, 문자 블록으로부터 타깃 문자 블록을 선택하도록 구성되어 있고, 문자 블록의 총 높이에 대한 타깃 문자 블록의 높이의 합의 비율은 사전 설정된 값을 초과한다.

평균 값 계산 유닛(575)은 타깃 문자 블록의 평균 높이 값을 계산하도록 구성되어 있다.

병합 실행 유닛(577)은, 텍스트 이미지의 단어 블록을 획득하기 위해, 평균 높이 값에 기초하여 동일한 문자 행(row)에서 수평 방향으로 서로 중첩하는 문자 블록을 병합하도록 구성되어 있다.

일 실시예에서, 앞서 설명된 장치는, 인식 모듈을 더 포함한다. 인식 모듈은 단어 블록을 포함하는 텍스트 이미지를 인식하도록 구성되어 있다. 텍스트 이미지 인식에서, 단어 블록은 텍스트 이미지의 텍스트 내용을 획득하기 위해 텍스트 이미지 내의 단어 블록의 순서에 기초하여 결합된다.

본 기술분야의 통상의 기술자는 전술한 실시예의 모든 또는 일부 단계는 하드웨어에 의해 구현될 수 있거나, 또는 프로그램과 함께 하드웨어를 명령하여 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있으며, 컴퓨터로 판독 가능한 저장 매체는 리드-온리 메모리, 마그네틱 디스크 또는 광 디스크일 수 있다.

본 발명은 일부 예시적인 실시예를 참조하여 설명되었으나, 여기서 사용된 용어는 설명적이며 예시적일 뿐 제한적인 것은 아니라는 점을 유의해야 한다. 본 발명은 본 발명의 사상 및 본질에서 벗어나지 않는 선에서 다양한 방식으로 구현될 수 있으므로, 전술한 실시예는 앞서 설명된 임의의 세부사항에 제한되는 것은 아니며, 첨부된 청구항에 의해 정의되는 사상 및 범위 내에서 폭 넓게 설명되는 것으로 이해되어야 한다. 따라서, 청구항의 범위 또는 등가물 내의 모든 변경 및 수정은 첨부된 청구범위에 포함되어야 한다.

Claims

텍스트 이미지 처리 방법으로서,
텍스트 이미지를 사전 처리하여 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하는 단계;
볼록 껍질(convex hull) 알고리즘으로 상기 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하는 단계;
상기 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하는 단계;
상기 획득된 문자 영역에 문자 분할(character segmentation)을 수행하여 복수의 문자 블록을 획득하는 단계; 및
상기 텍스트 이미지의 단어 블록을 획득하기 위해 상기 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하는 단계
를 포함하고,
상기 획득된 문자 영역에 문자 분할을 수행하여 복수의 문자 블록을 획득하는 단계는,
상기 문자 영역 내의 문자의 연결 부분의 위치를 결정(positioning)하는 단계; 및
상기 연결 부분에 기초하여 상기 문자 영역을 분할하여 복수의 문자 블록을 획득하는 단계
를 포함하고,
상기 문자 영역 내의 문자의 연결 부분의 위치를 결정하는 단계는,
상기 문자 영역 내의 픽셀의 각 열(column)의 인접 픽셀의 픽셀 값을 비교하여, 상기 픽셀의 각 열의 전경부(foreground portion)에 속하는 연속하는 픽셀의 수를 획득하는 단계; 및
상기 픽셀의 각 열의 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같은지를 결정하고, 상기 픽셀의 열의 전경부에 속하는 연속하는 픽셀의 수가 상기 사전 설정된 수보다 적거나 같은 경우, 상기 픽셀의 열의 전경부에 속하는 연속하는 픽셀을 문자의 연결 부분으로 결정하는 단계
를 포함하는, 텍스트 이미지 처리 방법.
삭제
삭제
제1항에 있어서,
상기 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하는 단계는,
상기 문자 블록의 높이를 계산하여 상기 문자 블록의 높이 분포와 상기 문자 블록의 총 높이를 획득하는 단계;
상기 문자 블록으로부터 타깃 문자 블록을 선택하는 단계 - 상기 문자 블록의 총 높이에 대한 상기 타깃 문자 블록의 높이의 합의 비율은 사전 설정된 값을 초과함 - ;
상기 타깃 문자 블록의 평균 높이 값을 계산하는 단계; 및
상기 평균 높이 값에 기초하여, 상기 바이너리 이미지에서 수평 방향으로 서로 중첩하는 동일한 문자 행(row) 내의 문자 블록을 병합하는 단계;
를 포함하는, 텍스트 이미지 처리 방법.
제1항에 있어서,
상기 텍스트 이미지의 텍스트 내용을 획득하기 위해 상기 텍스트 이미지 내의 단어 블록의 순서에 기초하여 상기 단어 블록을 결합하는 단계
를 더 포함하는 텍스트 이미지 처리 방법.
텍스트 이미지 처리 장치로서,
텍스트 이미지를 사전 처리하여 복수의 연결 영역을 포함하는 바이너리 이미지(binary image)를 획득하도록 구성되어 있는 사전 처리 모듈;
볼록 껍질(convex hull) 알고리즘으로 상기 복수의 연결 영역 각각에 대응하는 볼록 껍질을 획득하고, 상기 볼록 껍질에 외접(circumscribe)하는 문자 영역을 획득하도록 구성되어 있는 볼록 껍질 획득 모듈;
상기 획득된 문자 영역에 문자 분할(character segmentation)을 수행하여 복수의 문자 블록을 획득하도록 구성되어 있는 분할 모듈; 및
상기 텍스트 이미지의 단어 블록을 획득하기 위해 상기 문자 블록의 높이에 기초하여 상기 문자 블록을 병합하도록 구성되어 있는 병합 모듈
을 포함하고,
상기 분할 모듈은,
상기 문자 영역 내의 문자의 연결 부분의 위치를 결정(position)하도록 구성되어 있는 연결 위치 결정 유닛; 및
상기 연결 부분에 기초하여 상기 문자 영역을 분할하여 복수의 문자 블록을 획득하도록 구성되어 있는 분할 실행 유닛
을 포함하고,
상기 연결 위치 결정 유닛은,
상기 문자 영역 내의 픽셀의 각 열(column)의 인접 픽셀의 픽셀 값을 비교하여, 상기 픽셀의 각 열의 전경부(foreground portion)에 속하는 연속하는 픽셀의 수를 획득하도록 구성되어 있는 픽셀 비교 서브-유닛; 및
상기 픽셀의 각 열의 전경부에 속하는 연속하는 픽셀의 수가 사전 설정된 수보다 적거나 같은지를 결정하고, 상기 픽셀의 열의 전경부에 속하는 연속하는 픽셀의 수가 상기 사전 설정된 수보다 적거나 같은 경우, 상기 픽셀의 열의 전경부에 속하는 연속하는 픽셀을 문자의 연결 부분으로 결정하도록 구성되어 있는 결정 서브-유닛
을 포함하는, 텍스트 이미지 처리 장치.
삭제
삭제
제6항에 있어서,
상기 병합 모듈은,
상기 문자 블록의 높이를 계산하여 상기 문자 블록의 높이 분포와 상기 문자 블록의 총 높이를 획득하도록 구성되어 있는 분포 통계 유닛;
상기 문자 블록으로부터 타깃 문자 블록을 선택하도록 구성되어 있는 픽셀 선택 유닛 - 상기 문자 블록의 총 높이에 대한 상기 타깃 문자 블록의 높이의 합의 비율은 사전 설정된 값을 초과함 - ;
상기 타깃 문자 블록의 평균 높이 값을 계산하도록 구성되어 있는 평균 값 계산 유닛; 및
상기 평균 높이 값에 기초하여, 상기 바이너리 이미지에서 수평 방향으로 서로 중첩하는 동일한 문자 행(row) 내의 문자 블록을 병합하도록 구성되어 있는 병합 실행 유닛
을 포함하는, 텍스트 이미지 처리 장치.
제6항에 있어서,
상기 텍스트 이미지의 텍스트 내용을 획득하기 위해 상기 텍스트 이미지 내의 단어 블록의 순서에 기초하여 상기 단어 블록을 결합하도록 구성되어 있는 인식 모듈을 더 포함하는 텍스트 이미지 처리 장치.
텍스트 이미지 처리 장치로서,
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행될 때 상기 텍스트 이미지 처리 장치로 하여금 제1항, 제4항 및 제5항 중 어느 한 항에 따른 방법을 수행하도록 하는 프로그램 명령을 저장하는 메모리
를 포함하는 텍스트 이미지 처리 장치.
컴퓨터로 판독 가능한 저장 매체로서,
연산 장치의 프로세서에 의해 실행될 때 상기 연산 장치로 하여금 제1항, 제4항 및 제5항 중 어느 한 항에 따른 방법을 수행하도록 하는 프로그램 명령을 저장하는 컴퓨터로 판독 가능한 저장 매체.