KR20100098332A

KR20100098332A - 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독가능 저장 매체

Info

Publication number: KR20100098332A
Application number: KR1020100017904A
Authority: KR
Inventors: 레이지 미사와; 료 고사까; 도모또시 가나쯔; 히데또모 소오마
Original assignee: 캐논 가부시끼가이샤
Priority date: 2009-02-27
Filing date: 2010-02-26
Publication date: 2010-09-06
Also published as: CN101820489A; JP5274305B2; US8411960B2; US20100220929A1; EP2224359A2; EP2224359A3; CN101820489B; EP2224359B1; JP2010204705A; KR101332912B1

Abstract

화상 처리 장치는 입력 화상으로부터 오브젝트 영역(예를 들어, 문자, 사진, 선화, 및 표)을 추출하고 오브젝트와 연관된 메타데이터를 취득한다. 화상 처리 장치는 투명 그래픽 기술의 생성을 필요로 하는 속성을 갖는 오브젝트 영역에 대한 투명 그래픽 기술을 생성하고, 투명 그래픽 기술과 메타데이터를 연관시키면서 전자 문서를 생성한다. 투명 그래픽 기술로서, 임의의 형상의 그래픽들이 사용될 수 있다. 따라서, 화상 처리 장치는, 전자 문서에 포함된 오브젝트를 검색하기 위해 키워드를 사용하는 검색 동작에서 사용자들이 인식하기 쉬운 강조 표현에 적합한 전자 문서 데이터를 생성할 수 있다.

Description

화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독가능 저장 매체{IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND COMPUTER-READABLE STORAGE MEDIUM}

본 발명은, 문서 화상으로부터 오브젝트가 검색될 수 있는 전자 문서 데이터를 생성할 수 있는 화상 처리 장치, 화상 처리 방법 및 컴퓨터 프로그램에 관한 것이다.

종래, 사진, 그래픽, 선화(line drawing) 및 표와 같은 문자 이외의 오브젝트가 쉽게 이용될 수 있도록, 이러한 오브젝트를 문서 화상 중에서 검색할 수 있는 화상 처리 시스템을 구성하는 것이 요구된다. 이하의 설명에서 설명되는 오브젝트는 특별히 언급되지 않는 한 문자 이외의 오브젝트이다.

예를 들어, 화상 처리 시스템은 문서 화상으로부터 오브젝트를 추출하고, 오브젝트의 근방에 캡션 문자열(caption character string)(즉, 오브젝트를 설명하는 문자열)이 존재하는지의 여부를 판정한다. 캡션 문자열이 존재한다고 판정되면, 화상 처리 시스템은 캡션 문자열을 오브젝트와 연관되는 메타데이터로서 지정하여, 메타데이터에 기초하여 오브젝트가 검색될 수 있게 된다.

그 후, 메타데이터와 연관된 각 오브젝트를 JPEG 압축하여, 1개의 전자 문서로서 저장한다. 전술된 전자 문서를 어플리케이션이 이용할 때, 어플리케이션은 오브젝트를 찾기 위한 키워드로서 메타데이터를 사용하여 검색을 수행할 수 있다.

또한, 오브젝트에 인접하는 캡션이 도면 번호(예를 들어, "도 1")일 경우, 일반적인 문서 화상은, 오브젝트를 설명하기 위해 같은 도면 번호를 나타내는 문자열이 기재된 본문을 포함한다. 더욱 구체적으로, 캡션에 기재되어 있는 도면 번호와 동일한 표현이 본문에서 발견될 수 있다.

일본 공개 특허 평10-228473호에서 논의된 바와 같이, 캡션의 도면 번호와 본문의 도면 번호 사이에 링크를 자동적으로 생성함으로써 하이퍼텍스트를 형성할 수 있는 종래 기술이 있다. 예를 들어, 오브젝트에 인접하는 캡션이 도면 번호 "도 1"을 포함하고, 본문이 "도 1은 AAA이다."라는 문장을 포함할 경우, 캡션의 "도 1"과 본문의 "도 1" 사이에 하이퍼링크가 생성될 수 있다. 또한, 전술한 종래 기술에서 논의된 기술은 오브젝트와 관련 본문과의 사이에 링크를 자동적으로 생성함으로써, 하이퍼텍스트를 형성할 수 있다.

한편, 복합기(multifunction peripheral: MFP)는, 스캔 입력된 문서 화상에 대하여 화상 처리 및 포맷 변환 처리를 수행함으로써 전자 문서를 생성하는 기능을 갖고, 생성된 전자 문서를 네트워크를 통해서 PC(personal computer)에 송신하는 송신 기능을 갖는다.

화상 처리는, 문서 화상에 포함된 문자 화상에 대하여 문자 인식 처리를 수행하여 문자 코드를 취득하는 처리를 포함한다. 화상 처리는 문서 화상 내의 그래픽을 벡터 데이터로 변환하기 위한 벡터화 처리를 더 포함한다. 포맷 변환 처리에서, 전술된 화상 처리를 행한 데이터를 미리 정해진 전자 문서 포맷(예를 들어, PDF(portable document format))으로 변환하여 전자 문서 파일을 생성한다.

일본 공개 특허 공보 제2009-009526호에서 논의된 바와 같이, 문자 인식 결과를 투명 텍스트(즉, 묘화색으로서 투명색을 지정함으로써 볼 수 없는 상태로 묘화된 문자 코드)로서 화상 파일 중에 임베드(embed)하고, 데이터를 전자 문서 포맷(예를 들어, PDF 또는 XPS)으로 변환하는 종래 기술이 있다. 이렇게 생성된 전자 문서 파일을 표시시킬 때, 문서 화상의 문자 부분에 투명 텍스트가 묘화된다.

이러한 경우에, 사용자가 키워드 검색을 수행하면 시스템은 투명 텍스트를 검색한다. 그러나, 사용자는 투명 텍스트 자체를 시각적으로 인식할 수 없다. 그리하여, 사용자는 문서 화상 내의 목표 문자 화상 부분이 검색된 것 같이 느낀다. 이러한 방식으로, 검색되는 키워드에 대응하는 문자 화상 부분이 강조된 상태로 표시될 수 있다. 그리하여, 사용자는 효율적으로 목표 문자 화상 부분을 식별할 수 있다.

한편, 전자 문서에서 문자 이외의 오브젝트를 검색할 수 있도록, 캡션 문자열을 메타데이터로서 문자 이외의 오브젝트에 부가한 경우에, 키워드 검색 시에 히트된(hit) 검색 결과(즉, 대상 오브젝트)를 강조하는 것이 바람직하다.

그러나, 이 경우에 검색되는 대상 오브젝트는, 사진, 그래픽 및 표 오브젝트 중 임의의 것이며, 그들은 색과 형상이 크게 상이하다. 그리하여, 기대되는 효과를 강조 표시가 가져오지 않을 수 있다. 사용자는 검색에서 히트된 대상 오브젝트를 식별할 수 없다.

예를 들어, 검색된 오브젝트의 윤곽을 적색으로 강조하는 경우에, 검색된 오브젝트가 검색된 오브젝트의 근방에 또는 전체 영역의 대부분에 적색 부분을 포함하는 사진 오브젝트이면, 검색 결과에 대한 강조 표시가 효과적일 수 없다. 더욱 구체적으로, 검색에서 히트된 오브젝트를 식별하는 것이 사용자에게 매우 어렵게 된다.

또한, 생성된 전자 문서 데이터가 네트워크를 통해서 송신될 경우, 전자 문서 데이터의 데이터 크기를 감소시키는 것이 바람직하다. 그러나, 문서 화상으로부터 추출된 각각의 오브젝트들(예를 들어, 사진들)을 독립적으로 압축하고, 압축된 화상 데이터를 배경 화상 데이터와 통합하여 1개의 전자 파일로서 저장하면, 얻어진 파일의 크기는, 원래 문서 화상 1매를 압축하여 얻어진 파일의 크기에 비해서 커지는 경향이 있다.

더욱 구체적으로, 사진을 포함하는 문서 화상을 송신할 경우, 추출한 사진 오브젝트와 배경을 독립적인 압축 화상 데이터로서 저장하는 것보다도, 사진 부분과 배경을 포함하는 전체 화상을 통합된 압축 화상 데이터로서 압축함으로써 송신되는 화상의 전체 데이터 크기를 효과적으로 감소시킬 수 있다.

일반적으로, 전술된 데이터를 구성하는 요소들(elements)은 화상 정보와 압축 헤더 정보(compression header information)이다. 오브젝트 데이터의 수가 증가하면 개별적인 데이터에 대해 헤더 정보가 반복적으로 저장된다. 특히, 고도의 화상 압축 방법에서, 압축에 필요한 헤더 정보가 커지는 경향이 있다.

따라서, 다수의 오브젝트들(예를 들어, 사진들)을 포함하는 문서 화상에 기초하여 전자 문서 파일을 생성할 경우에는, 개별적인 오브젝트들을 따로따로 압축하는 것보다도 모든 오브젝트들을 하나의 화상으로서 압축하는 것이, 데이터의 전체 크기를 효과적으로 감소시키기 위해서 바람직하다.

예를 들어, 화상 데이터를 JPEG 압축 스트림으로서 저장할 경우, 각 스트림은, 래스터화(rasterization)에 사용될 양자화 표 및 허프만 코드(Huffman code)를 포함하는 700bytes 이상의 헤더 정보를 수반한다. 1 페이지의 화상이 100개의 사진을 포함하는 경우, 모든 사진과 배경을 통합된 화상 데이터로서 압축함으로써, 모두 101개의 독립적인 화상 데이터로서 배경과 사진들을 개별적으로 압축하는 경우에 비하여, 1 페이지당 70Kbytes 이상에 상당한 크기 감소 효과가 얻어질 수 있다.

그러나, 오브젝트들과 배경이 통합된 화상 데이터로서 압축되면, 검색 대상 오브젝트가 배경과 병합되는(merged) 상태로 전자 문서 데이터가 저장된다. 그리하여, 검색 시에 대상 오브젝트를 식별하여 강조하는 것이 어렵다.

본 발명의 양태에 따르면, 화상 처리 장치는, 입력 화상으로부터 오브젝트 영역을 추출하도록 구성된 영역 분할 유닛, 영역 분할 유닛에 의해 추출된 오브젝트 영역의 속성을 판정하도록 구성된 판정 유닛, 영역 분할 유닛에 의해 추출된 오브젝트 영역과 연관되어야 할 메타데이터를 취득하도록 구성된 메타데이터 처리 유닛, 투명 그래픽 기술(transparent graphics description)의 생성을 필요로 하는 속성을 갖는 오브젝트 영역에 대해서, 투명 그래픽 기술을 생성하도록 구성된 그래픽 기술 생성 유닛, 및 그래픽 기술 생성 유닛에 의해 생성된 투명 그래픽 기술과 메타데이터를 연관시키고, 입력 화상에 기초하여 생성된 화상 데이터와 메타데이터와 연관된 투명 그래픽 기술을 포함하는 전자 문서를 생성하도록 구성된 전자 문서 생성 유닛을 포함한다.

본 발명에 따른 화상 처리 장치는, 전자 문서에 포함된 문자 이외의 오브젝트를 검색하기 위하여 키워드를 사용하여, 검색 대상 오브젝트의 형상 및 색 또는 화상 압축 상태에 의존하지 않고, 검색 동작 시에 사용자가 인식하기 쉬운 강조 표현에 적합한 전자 문서 데이터를 생성할 수 있다.

본 발명의 추가적인 특징 및 양태는 첨부 도면들을 참조하여 실시예에 대한 이하의 상세한 설명으로부터 명백하게 될 것이다.

본 명세서에 포함되어 그 일부를 이루는 첨부 도면은 본 발명의 실시예, 특징, 및 양태를 도시하며, 발명의 상세한 설명과 함께 본 발명의 원리들을 설명하는 데 사용된다.
도 1은 본 발명의 실시예에 따른 화상 처리 시스템을 도시하는 블록도이다.
도 2는 도 1에 도시된 복합기(MFP)(100)를 도시하는 블록도이다.
도 3은 도 2에 도시된 데이터 처리 유닛(218)의 예시적인 구성을 도시하는 블록도이다.
도 4는 본 발명의 실시예에 따른 화상 처리 시스템에 의해 실행될 처리의 예시적인 절차를 도시하는 흐름도이다.
도 5는 도 3에 도시된 포맷 변환 유닛(305)의 예시적인 구성을 도시하는 블록도이다.
도 6은 추출된 영역의 예를 도시한다.
도 7은 저장 유닛(211)에 저장되는 정보의 예를 도시한다.
도 8a 내지 도 8d는 도 3에 도시된 포맷 변환 유닛(305)의 대응표(즉, 제어 정보)의 예들이다.
도 9는 본 발명의 실시예에 따른 입력 화상 데이터의 예를 도시한다.
도 10은 도 9에 도시된 예시적인 화상 데이터로부터 추출된 정보의 예를 도시한다.
도 11은 본 발명의 실시예에 따라 생성된 전자 문서 데이터의 예를 도시한다.
도 12는 도 3에 도시된 메타데이터 처리 유닛(304)에 의해 실행될 처리의 예시적인 절차를 도시하는 흐름도이다.
도 13은 도 3에 도시된 포맷 변환 유닛(305)에 의해 실행될 처리의 예시적인 절차를 도시하는 흐름도이다.
도 14a 내지 도 14d는 사용자가 전자 문서 데이터를 열람 및 검색할 수 있게 해주는 어플리케이션에 의해 제공되는 표시 화면의 예들을 도시한다.
도 15는 캡션 영역의 앵커 문자열(anchor character string) 및 메타데이터 문자의 예를 도시한다.
도 16은 도 9에 도시된 화상 데이터의 제1 페이지를 입력할 때 생성되는 그래픽 데이터의 예들을 도시한다.
도 17은 전자 문서 포맷에 따른 페이지 기술의 예를 도시한다.
도 18은 출력된 전자 문서 데이터의 예를 도시한다.
도 19는 본 발명의 제2 실시예에 따라 도 3에 도시된 포맷 변환 유닛(305)에 의해 실행되는 처리의 예시적인 절차를 도시하는 흐름도이다.
도 20은 본 발명의 제2 실시예에 따라 전자 문서 데이터를 생성하려는 목적에 관련된 UI 화면의 예를 도시한다.
도 21은 본 발명의 제3 실시예에 따른 투명 프레임 기술에 관련된 UI 화면의 예를 도시한다.
도 22는 본 발명의 제4 실시예에 따른 얼굴 인식 처리를 위한 예시적인 구성을 도시하는 블록도이다.
도 23은 본 발명의 제4 실시예에 따른, 도 2에 도시된 데이터 처리 유닛(218)의 예시적인 구성을 도시하는 블록도이다.
도 24는 본 발명의 제4 실시예에 따른 전자 문서 데이터를 사용자들이 열람 및 검색할 수 있게 해주는 어플리케이션에 의해 제공되는 표시의 예를 도시한다.

본 발명의 다양한 실시예들, 특징들, 및 양태들이 도면들을 참조하여 아래에서 상세하게 기술될 것이다.

이하, 본 발명의 제1 실시예에 대해서 첨부 도면을 참조해서 설명한다. 도 1은 본 발명의 실시예에 따른 화상 처리 시스템의 구성을 도시하는 블록도이다.

도 1에서, 사무실 A에 설치된 LAN(local area network)(102)에, 복합기(MFP)(100)가 연결된다. MFP(100)는 복수 종류의 기능(예를 들어, 복사 기능, 인쇄 기능, 및 송신 기능)을 실현할 수 있는 복합기이다. LAN(102)은 프록시 서버(103)를 통해서 외부 네트워크(104)에 연결된다.

클라이언트 PC(101)는 LAN(102)을 통해서 MFP(100)로부터의 송신 데이터를 수신할 수 있고 MFP(100)의 기능을 이용할 수 있다. 예를 들어, 클라이언트PC(101)는 인쇄 데이터를 MFP(100)에 송신함으로써, MFP(100)가, 수신된 인쇄 데이터에 기초하여 인쇄물을 생성하게 한다.

도 1에 도시된 구성은 단지 예이다. 도 1에 도시된 컴포넌트들과 유사한 구성 컴포넌트들을 각기 갖는 복수의 사무실이 네트워크(104)를 통하여 서로 연결될 수 있다. 네트워크(104)는 예를 들어, 인터넷, LAN, WAN(wide area network), 전화 회선, 전용 디지털 회선, ATM 및 프레임 릴레이(Frame Relay) 회선, 통신 위성 회선, 케이블 TV 회선 또는 데이터 방송 무선 회선(data broadcasting wireless circuit)에 의해 실현될 수 있는 통신망이다. 네트워크(104)는, 데이터 송수신을 실현할 수 있는 임의의 다른 통신망으로 구성될 수 있다.

클라이언트 PC(101) 및 프록시 서버(103)는 각각, 범용 컴퓨터에 설치되는 구성 요소와 유사한 기본적인 구성 컴포넌트(예를 들어, CPU(central processing unit), RAM(random access memory), ROM(read only memory), 하드 디스크, 외부 저장 장치, 네트워크 인터페이스, 디스플레이 장치, 키보드, 및 마우스)를 포함한다.

도 2는 본 실시예에 따른 MFP(즉, 화상 처리 장치)(100)의 상세 구성을 도시한다. MFP(100)는 화상 입력 장치로서 기능할 수 있는 스캐너 유닛(201)과, 화상 출력 장치로서 기능할 수 있는 프린터 유닛(202)과, CPU(205)를 포함하는 제어 유닛(204), 및 사용자 인터페이스로서 기능할 수 있는 조작 유닛(203)을 포함한다.

제어 유닛(204)은, 스캐너 유닛(201), 프린터 유닛(202) 및 조작 유닛(203)과의 통신들뿐 아니라, LAN(219) 및 공중 회선(WAN)(220)을 통해 액세스가능한 외부 장치들과의 통신들을 통하여, 화상 정보 및 장치 정보의 입출력 처리를 수행할 수 있는 컨트롤러이다. 공중 회선(WAN)(220)은 일반 전화 회선으로서 칭해질 수도 있다.

CPU(205)는, 제어 유닛(204)에 제공되는 다양한 기능 유닛들을 제어할 수 있다. RAM(206)은 CPU(205)가 다양한 동작을 수행할 때 화상 데이터를 일시적으로 저장할 수 있는 화상 메모리로서 기능하는 시스템 작업 메모리(system work memory)이다. ROM(210)은 부트 ROM이며, 시스템 부트 프로그램 및 다른 프로그램을 저장할 수 있다. 저장 유닛(211)은 시스템 제어 소프트웨어 프로그램 및 화상 데이터를 저장할 수 있는 하드디스크 드라이브이다.

조작 유닛 I/F(207)는 조작 유닛(UI)(203)에 연결된 인터페이스 유닛이다. 조작 유닛 I/F(207)는 화상 데이터를 조작 유닛(203)에 출력할 수 있다. 조작 유닛(203)은 조작 유닛 I/F(207)로부터 수신된 화상 데이터를 표시한다. 또한, 사용자가 조작 유닛(203)을 통하여 화상 처리 장치에 정보를 입력하면, 조작 유닛 I/F(207)는 입력된 정보를 CPU(205)에 송신할 수 있다.

네트워크 IF(208)는 화상 처리 장치를 LAN(219)에 연결하여, 패킷 포맷 정보의 입출력을 위한 처리를 수행한다. 모뎀(209)은 화상 처리 장치를 공중 전화 회선(220)에 연결하여, 정보의 입출력을 위한 데이터 복조 및 변조 처리를 수행한다. 전술된 장치들은 시스템 버스(221)를 통하여 상호 연결된다.

화상 버스 인터페이스(212)는 시스템 버스(221)와 화상 버스(222)를 연결하는 버스 브리지이다. 화상 버스(222)는 화상 데이터를 고속으로 전송할 수 있다. 화상 버스 인터페이스(212)는 데이터 구조를 변환할 수 있다. 화상 버스(222)는 예를 들어, PCI 버스 또는 IEEE1394이다.

이하의 장치들이 화상 버스(222)를 통하여 상호 연결된다. 래스터 화상 프로세서(raster image processor: RIP)(213)는 페이지 기술 언어(page description language: PDL) 코드를 분석하고, PDL 코드를 지정된 해상도를 갖는 비트맵 화상으로 래스터화하기 위한 렌더링 처리를 실현할 수 있다.

RIP(213)가 전술된 레스터화 처리를 수행할 때, 화소마다에 기초하여 또는 영역마다에 기초하여 속성 정보가 부가된다. 이러한 처리는 일반적으로 화상 영역 판정 처리(image area determination processing)라고 칭한다. 화상 영역 판정 처리를 통하여, 문자(텍스트), 선, 그래픽, 또는 화상과 같은 오브젝트 유형을 나타내는 속성 정보가 각 화소 또는 각 영역에 부가될 수 있다.

예를 들어, PDL 코드 내의 PDL 기술의 오브젝트 유형에 따라, RIP(213)로부터 화상 영역 신호가 출력된다. 신호값이 나타내는 속성을 표현하는 속성 정보가, 오브젝트에 대응하는 화소 또는 영역과 연관되어 저장된다. 따라서 화상 데이터는, 화상 데이터와 연관된 속성 정보가 수반된다.

디바이스 I/F 유닛(214)은, 신호선(223)을 통해서 스캐너 유닛(201)(즉, 화상 입력 장치)을 제어 유닛(204)에 연결한다. 또한, 디바이스 I/F 유닛(214)은, 신호선(224)을 통해서 프린터 유닛(202)(즉, 화상 출력 장치)을 제어 유닛(204)에 연결한다. 디바이스 I/F 유닛(214)은 화상 데이터에 대한 동기/비동기 변환 처리를 수행할 수 있다.

스캐너 화상 처리 유닛(215)은 입력 화상 데이터에 대하여 보정, 수정 및 편집 처리를 수행할 수 있다. 프린터 화상 처리 유닛(216)은, 프린터 유닛(202)에 출력될 프린트 출력 화상 데이터에 대하여, 프린터 유닛(202)에 따라 보정 및 해상도 변환 처리를 수행할 수 있다. 화상 회전 유닛(217)은 정립된 화상(upright image)을 출력하도록 입력 화상 데이터를 회전시킬 수 있다. 데이터 처리 유닛(218)은 이하의 처리를 수행할 수 있다.

다음에, 도 3을 참조하여, 데이터 처리 유닛(218)을 상세하게 설명한다. 데이터 처리 유닛(218)은, 영역 분할 유닛(또는 영역 추출 유닛)(301), 속성 정보 부가 유닛(302), 문자 인식 유닛(303), 메타데이터 처리 유닛(304), 및 포맷 변환 유닛(305)을 포함한다. 데이터 처리 유닛(218)은, 화상을 스캐닝함으로써 스캐너 유닛으로부터 들어오는 화상 데이터(300)에 응답하여, 각 처리 유닛들(301 내지 305)이 처리를 수행하게 한다. 데이터 처리 유닛(218)은 처리된 데이터를 전자 문서 데이터(310)로서 출력한다.

영역 분할 유닛(301)은 도 2에 예시된 스캐너 유닛(201)에 의해 스캐닝된 화상 데이터 또는 저장 유닛(211)에 저장된 화상 데이터(즉, 문서 화상)를 입력한다. 영역 분할 유닛(301)은 오브젝트 영역(즉, 문자, 사진, 그래픽 및 표와 같은, 페이지 내에 배치된 오브젝트들의 영역)을 추출하기 위해서, 데이터의 화소에 대하여 추출 및 그룹화 처리를 수행할 수 있다.

이 경우에, 영역 분할 유닛(301)은 공지의 적절한 영역 추출 방법(즉, 영역 분할 방법)을 사용할 수 있다. 예시적인 방법에 따르면, 영역 분할 유닛(301)은 입력 화상을 2치화하여 2치 화상(binary image)을 생성하고, 2치 화상의 해상도를 감소시켜 씨닝된 화상(thinned image)(즉, 축소된 화상)을 생성한다. 예를 들어, 1/(M×N)의 씨닝된 화상을 생성하기 위해서, 영역 분할 유닛(301)은 M×N 화소를 각각이 포함하는 복수의 그룹으로 2치 화상을 분할한다. 영역 분할 유닛(301)은 M×N 화소의 그룹마다 흑 화소가 존재하는지의 여부를 판정한다. 대상 그룹이 흑 화소를 포함하는 것으로 판정되면, 영역 분할 유닛(301)은 씨닝된 화상으로서 생성될 축소 화상의 대응하는 화소로서 흑 화소가 생성되도록 설정한다. 한편, 대상 그룹이 어떤 흑 화소도 포함하지 않는다고 판정되면, 영역 분할 유닛(301)은 씨닝된 화상으로서 백 화소가 생성되도록 설정한다.

다음에, 영역 분할 유닛(301)은 연결된 흑 화소들(즉, 흑 화소들이 연속적으로 배열된 흑 연결 컴포넌트들)을 씨닝된 화상으로부터 추출해서 연결된 흑 화소들에 외접하는 직사각형들을 생성한다. 문서 화상의 문자 부분의 크기와 유사한 크기를 갖는 직사각형들(각각이 하나의 문자에 대응함)이 배열된다면, 또는 추출된 직사각형들의 세로 변 또는 가로 변 중 어느 하나의 크기가 문자 화상 크기(즉, 흑 화소들이 연결하는 몇몇 문자 화상들을 외접하는 직사각형)와 유사하고, 유사한 직사각형이 그 짧은 변에 배치된다면, 하나의 문자행을 구성하는 문자 화상들로서 간주될 수 있다. 이 경우에, 영역 분할 유닛(301)은 직사각형들을 연결함으로써 하나의 문자행을 나타내는 직사각형을 얻는다.

그러면, 하나의 문자행을 나타내는 직사각형의 짧은 변의 길이가 각각 실질적으로 동일하고 열 방향으로 등간격으로 배열된 직사각형들의 집합은 본문 부분으로서 간주될 수 있다. 그리하여, 영역 분할 유닛(301)은 이 직사각형들을 연결함으로써 본문 영역을 추출한다. 또한, 영역 분할 유닛(301)은 사진 영역들, 그래픽 영역들, 및 표 영역들 각각을, 문자 화상에 비해 크기가 큰 연속적으로 연결된 흑 화소들의 부분으로서 추출할 수 있다.

그 결과, 예를 들어, 도 6에 예시된 영역들(601 내지 605)이 추출될 수 있다. 각 영역의 속성은 그의 크기, 애스팩트 비, 흑 화소 밀도, 또는 연결된 흑 화소들의 내부에 존재하는 백 화소들에 적용된 윤곽 추적 결과에 기초하여 아래에서 설명된 것과 같이 판정될 수 있다.

속성 정보 부가 유닛(302)은 영역 분할 유닛(301)에 의해 분할된 각각의 영역에 속성을 부가한다. 예를 들어, 도 6에 도시된 예시적인 화상을 입력 화상 데이터로서 처리하기 위하여, 속성 정보 부가 유닛(302)은 하기의 처리를 수행한다. 영역(605)은 페이지의 단락을 구성하는 복수의 문자행을 갖는다. 그리하여, 속성 정보 부가 유닛(302)은 영역(605)에 "본문" 속성을 부가한다.

그 후, 속성 정보 부가 유닛(302)은, 나머지 영역이 문자 화상의 크기와 유사한 크기를 갖는 직사각형을 포함하고 있는지의 여부를 판정한다. 특히, 영역이 문자 화상들을 포함한다면, 개별적인 문자 화상들에 외접하는 유사한 직사각형들이 그 영역에 주기적으로 나타난다. 그리하여, 속성 정보 부가 유닛(302)은 이 영역을 문자들을 포함하는 영역으로서 식별할 수 있다.

그 결과, 영역(601)과 영역(604)이 문자들을 포함한다고 판정되기 때문에, 속성 정보 부가 유닛(302)은 이 영역들 각각에 "문자 영역" 속성을 부가한다. 이러한 경우에, 영역(601) 및 영역(604) 각각은 단락을 구성하는 복수의 문자행을 포함하지 않는다. 그리하여, 속성 정보 부가 유닛(302)은 영역(601)과 영역(604) 각각에 "본문" 속성을 부가하지 않는다.

한편, 다른 영역의 영역 크기가 매우 작으면, 속성 정보 부가 유닛(302)은 이 영역을 "노이즈(noise)"라고 판정한다. 또한, 속성 정보 부가 유닛(302)은 낮은 화소 밀도를 갖는 연결된 흑 화소들 내부에 존재하는 백 화소들에 대하여 윤곽 추적 처리를 수행한다. 백 화소 윤곽들의 외접 직사각형들이 정연하게 배열되어 있으면, 속성 정보 부가 유닛(302)은 식별된 영역을 "표"라고 판정한다. 백 화소 윤곽들의 외접 직사각형들이 정연하게 배열되어 있지 않으면, 속성 정보 부가 유닛(302)은 식별된 영역이 "선화"라고 판정한다. 또한, 높은 화소 밀도를 갖는 나머지 영역은 삽화(illustration) 또는 사진으로서 간주될 수 있다. 그리하여, 속성 정보 부가 유닛(302)은 "사진" 속성을 이 영역들에 부가한다.

또한, 본문으로서 식별되지 않은 문자 영역이 "표", "선화", 또는 "사진" 속성이 부가된 영역의 근방, 예를 들어, 위 또는 아래에 존재한다면, 속성 정보 부가 유닛(302)은 식별된 영역이, 대응하는 "표", "선화", 또는 "사진" 영역을 설명하는 문자 영역이라고 판정한다. 그리하여, 속성 정보 부가 유닛(302)은 "캡션" 속성을 이 문자 영역에 부가한다. 속성 정보 부가 유닛(302)은 "캡션"이 수반되는 영역이 쉽게 식별될 수 있도록, "캡션" 속성이 부가된 영역을, 수반되는 영역(즉, 표/선화/사진 영역)을 식별하는 정보와 연관시켜 저장한다.

또한, 영역 크기가 본문 부분의 문자 화상보다 크고, 영역 위치가 본문 부분의 다수의 열과 다르면, 속성 정보 부가 유닛(302)은 식별된 문자 영역에 "표제" 속성을 부가한다. 또한, 영역 크기가 본문 부분의 문자 화상보다 크고, 영역 위치가 본문 부분의 다수의 열의 상부이면, 속성 정보 부가 유닛(302)은 "부표제" 속성을 식별된 문자 영역에 부가한다. 또한, 영역 크기가 본문 부분의 문자 화상 이하이고 영역 위치가 원고의 상단부 또는 하단부이면, 속성 정보 부가 유닛(302)은 "페이지"(또는, "페이지 헤더" 또는 "페이지 풋터") 속성을 식별된 문자 영역에 부가한다.

또한, 식별된 문자 영역이 "본문", "표제", "부표제", "캡션" 및 "페이지" 영역 중 어느 것도 아니면, 속성 정보 부가 유닛(302)은 식별된 문자 영역에 "문자" 속성을 부가한다.

전술된 속성 정보 부가 처리가 도 6에 도시된 예에서 수행되면, "표제" 속성이 영역(601)에 부가된다. "표" 속성은 영역(602)에 부가된다. "사진" 속성은 영역(603)에 부가된다. 영역(603)에 수반하는 "캡션" 속성은 영역(604)에 부가된다. "본문" 속성은 영역(605)에 부가된다.

문자 인식 유닛(303)은, "문자", "본문", "표제", "부표제", 또는 "캡션" 속성이 부가된 영역(즉, 문자 화상을 포함하는 영역)에 대해서, 공지의 방식으로 문자 인식 처리를 실행한다. 문자 인식 유닛(303)은 그 결과가 되는 문자 코드들의 행을 문자 정보로서 저장하고 저장된 문자 정보를 처리된 영역과 연관시킨다.

영역 위치 및 크기, 영역 속성 정보, 페이지 정보, 및 문자 코드 정보(즉, 문자 인식 처리의 결과인 문자 정보), 즉, 영역 분할 유닛(301), 속성 정보 부가 유닛(302), 및 문자 인식 유닛(303)에 의해 추출된 다양한 정보 및 데이터는, 저장 유닛(211)에 저장된다.

도 7은, 도 6에 도시된 입력 화상 데이터에 대하여 수행되는 처리를 통하여 얻어질 수 있는, 저장 유닛(211)에 저장되는 정보의 예를 도시한다. 도 6 및 도 7에 상세한 설명을 생략하고 있지만, "표 문자(table character)" 속성을 표의 문자 화상의 영역에 부가해서 문자 인식 처리를 수행하여 도 7에 도시된 것과 같이 정보를 저장하는 것이 바람직하다.

메타데이터 처리 유닛(304)은, 속성 정보 부가 유닛(302)에 의해 검출된, 캡션이 부여된 오브젝트(예를 들어, 사진, 선화, 또는 표 오브젝트)와 메타데이터(즉, 오브젝트를 검색하는 데 필요한 정보)를 연관시키고, 그 연관된 데이터를 저장 유닛(211)에 보관한다. 본 실시예에서, 오브젝트의 캡션에 기술되어 있는 문자열과, 캡션의 문자(또는 단어)와 유사한 문자(또는 단어)를 포함하는 본문의 부분(예를 들어, 문장)이 오브젝트를 검색하는 데 사용될 수 있는 메타데이터로서 서로 연관된다.

본 실시예는, 메타데이터로서 사용될 문자열을 판정하기 위해서 캡션 식별자를 사용한다. 캡션 식별자는 캡션이 부여된 오브젝트와, 캡션 및 본문의 문자 정보를 연관시키기 위해서 사용될 수 있다. 캡션 식별자는, 각각의 오브젝트를 식별하는 데 사용될 식별 정보(ID), 캡션 및 본문의 문자 정보의 저장 위치를 나타내는 위치 정보(예를 들어, 기록 위치를 나타내는 어드레스 및 포인터), 및 참조 정보(예를 들어, XMLPath 또는 URL)와 같은 다양한 식별자들로부터 선택될 수 있다.

본 실시예는 1 페이지를 입력하거나 또는 복수 페이지를 순차적으로 입력하기 위한 하기의 처리에서 캡션이 부여된 오브젝트 각각을 식별할 수 있는 ID 정보를 사용한다. 예를 들어, 각 페이지의 일련 번호가 사용될 수 있다.

우선, 메타데이터 처리 유닛(304)은, 속성 정보 부가 유닛(302)에 의해 검출된 캡션이 부여된 오브젝트에 대하여, 캡션 식별자(즉, 식별자 정보)를 생성하기 위한 처리를 수행한다. 그 후, 메타데이터 처리 유닛(304)은 생성된 캡션 식별자를 오브젝트에 부가한다.

다음에, 메타데이터 처리 유닛(304)은 문자 인식 유닛(303)이 출력한 캡션 및 본문의 문자 정보로부터, 오브젝트에 대응하는 메타데이터 문자열(가이드(guide), 키워드 등)을 추출한다. 메타데이터 처리 유닛(304)은 추출된 메타데이터 문자열과 그에 대응하는 캡션 식별자를 연관시키고, 연관된 데이터는 저장 유닛(211)에 저장하기 위한 처리를 수행한다. 이 경우에, 메타데이터 처리 유닛(304)은 캡션이 부여된 오브젝트와 메타데이터 문자열 사이의 대응 관계를 표현하기 위하여, 고유한 ID를 할당한다.

이러한 방식으로, 메타데이터 처리 유닛(304)은, 캡션이 부여된 오브젝트(즉, 속성 정보 부가 유닛(302)에 의해 검출된 오브젝트)와 그의 메타데이터를 연관시킬 수 있고, 연관된 정보를 저장 유닛(211)에 저장할 수 있다.

포맷 변환 유닛(305)은, 영역 분할 유닛(301), 속성 정보 부가 유닛(302), 문자 인식 유닛(303), 및 메타데이터 처리 유닛(304)에 의해 수행되는 전술된 순차적인 처리를 통하여 얻어진 정보(예를 들어, 영역 위치 및 크기 정보, 페이지 정보, 영역 속성, 영역의 문자 정보, 및 메타데이터)를, 입력 화상 데이터(300)에 기초하여, 미리 정해진 포맷을 갖는 전자 문서(PDF, SVG, XPS, OfficeOpenXML 등)로 변환하기 위한 처리를 수행한다.

전술된 포맷 변환을 통하여 생성된 전자 문서는, 그래픽에 기초한 페이지 표시 정보(예를 들어, 표시될 화상)와, 문자 또는 다른 의미 기술(meaning description)에 기초한 콘텐트 정보(예를 들어, 메타데이터)를 포함한다.

도 5는 포맷 변환 유닛(305)의 구성예를 도시하는 블록도이다. 화상 필터 유닛(501)은 입력 화상 데이터에 대하여, 필터 처리(예를 들어, 평탄화, 평활화, 에지 강조, 색 양자화 및 2치화)를 수행할 수 있다. 벡터 변환 처리 유닛(502)은, 화상 데이터(예를 들어, 선화 속성이 부가된 영역에 대응하는 부분의 화상)를 벡터 경로 기술 그래픽 데이터(vector path description graphics data)(즉, 벡터 데이터)로 변환할 수 있다. 벡터 변환 처리 유닛(502)은 화상 데이터를 벡터 데이터로 변환하기 위한 종래의 기술을 사용할 수 있다.

화상 분단 처리 유닛(503)은, 화상 데이터(예를 들어, 사진 속성이 부가된 영역에 대응하는 부분의 화상)를, 화상 파트의 그래픽 데이터(image parts graphics data)(예를 들어, JPEG 데이터)로서 분단할 수 있다. 전자 문서 기술 처리 유닛(504)은, 벡터 변환 처리 유닛(502) 및 화상 분단 처리 유닛(503)에 의해 생성된 그래픽 데이터뿐만 아니라, 문자 인식 유닛(303) 및 메타데이터 처리 유닛(304)에 의해 얻어진 의미 기술(예를 들어, 문자 정보 및 메타데이터)을 포함하는, 미리 정해진 포맷에 따라 기술된 전자 문서를 생성할 수 있다.

포맷 변환 제어 유닛(505)은, 도 2에 예시된 저장 유닛(211)에 저장되어 있는 영역 정보(예를 들어, 위치, 크기 및 속성)(511), 영역의 문자 정보(512) 및 메타데이터(513)에 기초하여, 화상 데이터(300)의 각 영역을 처리 유닛들(501 내지 503) 중 적절한 처리 유닛에 배분할 수 있다. 포맷 변환 제어 유닛(505)은, 각 처리 유닛들에서 출력된 데이터가 전자 문서 기술 처리 유닛(504)에 의해 적절하게 통합될 수 있도록, 포맷 변환 유닛(305)에 대하여 전체적인 제어를 수행할 수 있다.

화상 필터 처리 유닛(501)은, 화상에 대하여 화상 필터 처리(예를 들면, 평탄화, 평활화, 에지 강조, 색 양자화 및 2치화)를 수행할 수 있는 처리 유닛이다. 벡터 변환 처리 유닛(502) 및 화상 분단 처리 유닛(503)이 전술된 처리를 수행할 때, 화상 필터 처리 유닛(501)은 필요하다면 화상 처리를 수행한다. 상세하게 설명하지는 않지만, 화상 필터 처리 유닛(501)은 수행될 벡터 변환 처리에 적합한 화상 처리를 수행할 수 있고, 수행될 화상 분단 처리에 적합한 화상 처리를 수행할 수 있다.

벡터 변환 처리 유닛(502)은, 화상 영역을 구성하는 대상 화소들의 집합(선화, 표의 괘선 등)을, 벡터 경로 묘화 함수를 사용하는 그래픽 묘화 표현, 더욱 구체적으로는, 벡터 경로 기술 데이터로 변환한다.

아래에서 벡터 변환 처리의 일례를 설명한다. 우선, 변환 대상 화상을 2치 화상 데이터로 변환한다. 예를 들어, 변환 대상 화상이 그레이 스케일 화상인 경우에는, 각 화소의 휘도를 미리 정해진 임계값과 비교하는 화상 필터 처리 유닛(501)을 사용하여 2치 데이터를 얻기 위한 처리를 수행한다. 변환 대상 화상이 복수의 색을 포함하는 경우에는, 각 색 성분을 분해할 수 있고 색마다의 2치 데이터를 생성할 수 있다.

다음에, 2치 데이터 내에서 서로 연결된 흑 화소들의 집합에 대하여 윤곽 추적 처리를 수행하여, 각 집합의 윤곽의 좌표점군(coordinate point group)을 취득한다. 그 다음에, 윤곽의 좌표점군을 복수의 구간으로 적응적으로 분할하고, 각 구간을 직선 함수 또는 곡선 함수로 근사한다. 곡선 함수는, 예를 들어, 스플라인 곡선(spline curve) 또는 베지어 곡선(Bezier curve)이다. 최종적으로 데이터를, 시점, 직선 및 곡선, 및 종단점을 정의하는 벡터 경로 기술로 변환한다.

벡터를 얻는 방법은 전술된 방법에 한정되지 않는다. 임의의 다른 적절한 방법이 사용될 수 있다. 예를 들어, 전술된 함수를 사용하여 윤곽을 근사하는 대신에, 선화의 중심선에 함수 근사를 적용함으로써 벡터를 얻는 방법이 사용될 수 있다.

화상 분단 처리 유닛(503)은, 입력 화상 중의 대상 영역에 대하여, 영역의 화소 데이터에만 기초하여 개별적인 화상 파트의 데이터를 생성한다. 전술된 처리를 실행할 때, 각 영역의 특성들을 고려하여 화소 데이터 유형 및 압축 방법을 적절하게 변경할 수 있다.

예를 들어, 대상 영역이 "선화" 속성 또는 "문자" 속성이 수반되는 영역이면, 화상 필터 처리 유닛(501)은 화상 데이터를 각 색마다 1개 또는 복수개의 2치 화상으로 변환한다. 그 후, 변환된 데이터를 MMR 또는 다른 공지의 2치 압축 방법을 사용하여 처리하여, 각 2치 화상에 대응하는 색 정보가 부가되는 데이터를 생성한다. 한편, 대상 영역이 "사진" 속성이 수반되는 영역이면, 화상 데이터는 자연 화상에 적합한 JPEG 또는 JPEG 2000 방식으로 압축된다.

벡터 변환 처리 유닛(502)에 의해 수행될 벡터 변환 및 화상 분단 처리 유닛(503)에 의해 수행될 화상 압축 중 어느 하나가 각 영역의 속성을 고려하여 임의로 생략될 수 있다. 대안적으로, 벡터 변환 처리 유닛(502)이 벡터 변환 처리를 수행하게 하고 화상 분단 처리 유닛(503)이 화상 압축 처리를 수행하게 하는 것이 바람직하다. 또한, 문자 영역(예를 들어, 본문, 표제, 또는 캡션)이 문자 인식 결과에서 높은 유사성을 가질 경우에는, 문자 영역 부분의 그래픽이 문자 인식 결과에 포함되는 문자 코드, 문자 크기 정보, 및 문자 위치 정보를 기술함으로써 재생될 수 있다.

전자 문서 기술 처리 유닛(504)은, 벡터 변환 처리 유닛(502) 및 화상 분단 처리 유닛(503)에 의해 생성된 그래픽 데이터뿐만 아니라, 문자 인식 유닛(303) 및 메타데이터 처리 유닛(304)에 의해 얻어진 의미 기술(예를 들어, 문자 정보 및 메타데이터)을 포함하는, 미리 정해진 포맷에 따라 기술된 전자 문서를 생성한다.

도 11은 생성된 전자 문서 데이터(310)의 예를 도시한다. 도 11에 도시된 예는, 도 6에 도시된 화상 데이터(300)를 처리함으로써 얻어지고 저장 유닛(211)에 저장된, 도 7에 도시된 데이터에 기초하여 SVG(Scalable Vector Graphics) 포맷에 따라 기술된 데이터이다.

도 11에 도시된 구체적인 기술들(1101 내지 1105)은, 도 6에 예시된 영역들(601 내지 605)에 대응하는 그래픽 기술들이다. 그래픽 기술들(1101, 1104 및 1105)은 문자 코드에 기초한 문자 묘화 기술의 예들이다. 그래픽 기술(1102)은 벡터 변환된 벡터 경로 기술의 예이다. 그래픽 기술(1103)은 분단 처리된 사진 화상을 붙이기 위한 기술의 예이다.

캡션이 수반된 사진 오브젝트(1103)에는, 값 "1"을 갖는 캡션 식별자(1107)(즉, caption_id)가 부가된다. 도 11에 도시된 예에서, 좌표값 X1 및 Y1은 실제로 기술되는 수치값을 나타낸다.

도 11은 메타데이터 기술(1106)의 예를 도시한다. 메타데이터 기술(1106)은 캡션(604)의 문자열 및 본문의 문자열에 기초하여 추출한 문자열(1109)로서 기술 "AAA"를 포함한다. 문자열 "AAA"는 캡션 식별자(1107)와 유사한 식별자(1108)와 연관된다.

도 11에 도시된 예에 따르면, 단어 "도 1"을 포함하는 본문 부분, 즉 문장 "... 도 1은 AAA이다. ..."로부터 문자열 "AAA"가 추출되고 추출된 단어 "AAA"는 메타데이터(1109)로서 기술된다. 그러나, 메타데이터는 단어에 한정되지 않는다. 임의의 문장(예를 들어, 문자열 "도 1"을 포함하는 문장)이 메타데이터로서 부가될 수 있다. 또한, 도 11에 도시된 메타데이터는, 본문으로부터 추출한 문자열을 포함한다. 대안적으로, 캡션의 문자열로부터 추출한 단어를 메타데이터로서 부가할 수 있다.

본 실시예는 SVG 포맷에 따른 데이터에 기초하여 설명했지만, 출력 포맷은 SVG에 한정되지 않는다. 예를 들면, PDF, XPS, Office Open XML 및 다른 PDL 데이터 포맷이 전술된 변환을 위해 사용될 수 있다.

포맷 변환 제어 유닛(505)에 의해 수행될 변환 처리 제어의 예를 이하에 설명한다. 포맷 변환 유닛(305)에 의하여, 각 영역에 수행해야 할 변환 처리 방법은, 각 영역의 속성에 따라 가변적이다. 예를 들어, 흑백 색 혹은 적은 수의 색으로 구성된 그래픽 화상인 문자 및 선화에 대하여 포맷 변환 제어 유닛(505)이 벡터 변환 처리를 적절하게 적용할 수 있다. 한편, 포맷 변환 제어 유닛(505)은 사진 또는 다른 계조성 화상 영역(gradational image area)에는 벡터 변환 처리를 적절하게 적용할 수 없다. 이와 관련하여, 포맷 변환 제어 유닛(505)이 각 영역의 속성에 따라 적절하게 변환 처리를 수행할 수 있게 하기 위해서는, 도 8a 내지 도 8d에 도시된 것과 같은 복수의 대응표를 미리 설정하는 것이 바람직하다.

예를 들어, 도 8a에 도시된 설정들에 따라, 포맷 변환 제어 유닛(505)은 "문자", "선화" 및 "표" 속성의 영역들 각각에 대하여 벡터 변환 처리를 수행한다. 또한, 포맷 변환 제어 유닛(505)은 "사진" 속성이 부여된 영역에 대하여 화상 분단 처리를 수행한다.

또한, 도 8a 내지 도 8d에 예시된 대응표들은, 영역의 화소 정보를 화상 데이터(300)로부터 삭제하기 위한 처리의 실행을 포함한다. 예를 들어, 도 8a에 예시된 설정에 따라서 "문자" 속성이 부여된 영역이 벡터 경로 기술 데이터로 변환될 경우, 포맷 변환 제어 유닛(505)은 삭제 처리 명령에 따라, 변환된 벡터 경로에 의해 덮이는 부분에 대응하는 화상 데이터(300)의 화소를 주변색으로 빈틈없이 칠하는(marking out) 처리를 수행한다.

유사하게, "사진" 속성이 부여된 영역이 직사각형의 화상 파트로서 분단되는 경우에는, 포맷 변환 제어 유닛(505)이, 각 분단된 영역에 대응하는 화상 데이터(300)의 화소를 주변색으로 빈틈없이 칠하는 처리를 수행한다. 전술된 삭제 처리를 수행하는 목적은, 각 영역에 대한 처리가 종료한 후(즉, 빈틈없이 칠하는 처리가 완료된 후)의 화상 데이터(300)를 "배경"의 화상 파트의 데이터로서 이용하는 것이다.

배경용의 화상 데이터(즉, 배경 화상)는, 영역 분할 처리를 통하여 추출된 영역이 아닌 나머지 부분(예를 들어, 화상 데이터(300) 중 배경에 대응하는 화소)을 포함한다. 따라서, 전자 문서 데이터의 기술 시에, 포맷 변환 제어 유닛(505)은 벡터 변환 처리 유닛(502) 및 화상 분단 처리 유닛(503)에 의해 얻어진 그래픽 데이터를, 배경 화상 파트의 데이터(즉, 배경 화상) 위에 중첩시켜 얻어진 합성 화상을 표시함으로써, 배경 화소의 정보(배경색)를 잃지 않으면서 중복성이 없는(unredundant) 그래픽 데이터를 구성할 수 있다.

도 8b는 대응표의 다른 예를 도시한다. 도 8b에 도시된 설정들에 따라, 포맷 변환 제어 유닛(505)은 "문자" 속성이 부여된 영역에 대하여, 2치 화상 분단 처리를 수행하고, 또한 화상 데이터(300)에 대하여 화소 삭제 처리를 수행한다. 한편, 포맷 변환 제어 유닛(505)은 나머지 속성이 부여된 영역들에 대하여, 벡터화 처리 및 화상 분단 처리를 수행하지 않는다. 더욱 구체적으로, 처리 대상에 포함되지 않는 화소(예를 들어, "사진", "선화", 및 "표" 속성을 수반하는 영역의 화소 정보)은, 배경 화상 파트의 데이터에 남아있는다. 그리하여, 포맷 변환 제어 유닛(505)은 배경 화상 위에 "문자" 화상 파트를 중첩한다.

도 8c 및 도 8d에 도시된 다른 대응표들에 정의된 설정들에 기초하여 포맷 변환 제어 유닛(505)은 유사한 처리를 수행할 수 있으며, 이것들은 아래에서 상세하게 설명된다.

또한, 출력될 전자 문서 데이터의 용도(즉, 사용 목적) 또는 각 문서의 콘텐트에 따라, 포맷 변환 제어 유닛(505)은, 도 8a 내지 도 8d에 도시된 바와 같이 미리 준비된 복수의 대응표 중 최적의 대응표를 선택할 수 있다. 예를 들어, 도 8a에 도시된 대응표에 의해 정의된 설정들로부터의 출력 화상 데이터 결과는 대부분의 오브젝트들이 벡터 경로 기술로 변환되어 있는 오브젝트들을 포함한다. 그리하여, 출력 화상은 확대/축소 처리 시 우수한 화상 품질을 유지할 수 있고 그래픽 에디터(graphic editor)에 적절하게 재이용가능할 수 있다.

또한, 도 8b에 도시된 대응표에 정의된 설정들은, 문자 화상의 각 문자 색에 대하여 개별적인 2치 화상을 생성하여 각 2치 화상을 무손실 압축함으로써 각 문자 화상 부분이 고품질 화상으로서 재생가능할 뿐만 아니라 나머지 부분을 배경 화상으로서 JPEG 압축함으로써 데이터 크기 압축 비율을 높은 레벨로 유지할 수 있기 때문에 유용하다. 따라서, 도 8b에 도시된 대응표에 정의된 설정들은, 압축률이 높을 때에도 읽기 쉬운 문자의 화상을 포함하는 출력 화상을 생성하기 위해 적절하게 채택될 수 있다.

다음에, 본 실시예에 따른 화상 처리 시스템에 의해 실행되는 전체적인 처리의 예를, 도 4에 예시된 흐름도를 참조하여 아래에서 설명한다. 도 4에 예시된 흐름도의 처리는, 도 2에 도시된 데이터 처리 유닛(218)(즉, 도 3에 도시된 각 처리 유닛)에 의해 실행될 수 있다.

본 실시예에서는, CPU(205)가 저장 유닛(211)(즉, 컴퓨터 판독가능한 저장 매체)으로부터 컴퓨터 프로그램을 판독해 판독된 프로그램을 실행함으로써, 데이터 처리 유닛(218)(즉, 도 3에 예시된 각 처리 유닛)의 기능을 실현한다. 그러나, 본 발명은 전술된 구성에 한정되지 않는다. 예를 들어, 데이터 처리 유닛(218)(즉, 도 3에 예시된 각 처리 유닛)은, 전자 회로 또는 다른 그에 상당하는 하드웨어 구성에 의해 실현될 수 있다.

도 4는 도 1에 도시된 MFP(100)에 의해 입력된 복수 페이지를 포함하는 화상 데이터를, 복수 페이지를 포함하는 전자 문서 데이터로 변환하도록 본 발명에 따른 화상 처리 시스템에 의해 실행되는 예시적인 처리 절차를 도시하는 흐름도이다. 예를 들어, 도 9에 도시된 페이지 화상들(901 내지 904)이 복수 페이지를 포함하는 화상 데이터로서 입력될 수 있다. 도 9는, 4개 페이지를 포함하는 문서 화상의 예를 도시한다. 화상들(901 내지 904)은 제1 내지 제4 페이지에 각각 대응한다. 이하, 도 4에 도시된 흐름도의 처리가 각각 자세하게 설명된다.

단계 S401에서, 영역 분할 유닛(301)은, 입력된 1 페이지의 화상 데이터로부터, 분단된 영역들을 추출한다. 예를 들어, 영역 분할 유닛(301)은, 도 9에 도시된 화상 데이터(901)(즉, 제1 페이지)로부터 두 개의 영역(905 및 906)을 추출한다.

단계 S402에서, 속성 정보 부가 유닛(302)은, 단계 S401에서 분단된 각 영역에 속성을 부가한다. 도 9에 도시된 제1 페이지의 예에 따르면, 속성 정보 부가 유닛(302)은 영역(905)에 "사진" 속성을 부가하고, 또한 영역(906)에 "캡션" 속성을 부가한다. 이 경우에, 캡션(906)에 부가될 정보는 "영역"(905)에 영역(906)이 수반된다는 것을 나타내는 정보를 포함한다.

단계 S403에서, 문자 인식 유닛(303)은, 단계 S402에서 문자 속성(예를 들어, 본문, 캡션, 표제, 또는 부표제)이 부가된 영역에 대하여, 문자 인식 처리를 실행한다. 문자 인식 유닛(303)은 각 처리 결과를 문자 정보로서 대상 영역과 연관시켜서 저장한다. 도 9에 도시된 제1 페이지의 예에 따르면, 문자 인식 유닛(303)은 문자 속성인 "캡션"이 부가된 영역(906)에 대하여 문자 인식 처리를 실행하고, 얻어진 문자 정보 "도 1"을 영역(906)과 연관시킨다.

단계 S404에서, 데이터 처리 유닛(218)은, 단계 S401 내지 S403의 정보 추출 처리가 모든 페이지들에 대하여 완료되었는지의 여부를 판정한다. 만약 단계들 S401 내지 S403의 정보 추출 처리가 모든 페이지들에 대하여 완료되었다고 판정되면(단계 S404에서 예), 처리는 단계 S405로 진행한다. 단계들 S401 내지 S403의 정보 추출 처리가 모든 페이지들에 대하여 완료되지 않았다고 판정되면(단계 S404에서 아니오), 화상 처리 시스템은 전술된 처리를 단계들 S401 내지 S403에서 반복한다.

도 9에 도시된 화상들(901 내지 904)에 대하여 수행되는 단계들 S401 내지 S404의 처리 결과들로서 얻어지는, 추출되는 영역의 위치/크기 정보, 페이지 정보, 영역 속성 및 영역의 문자 정보의 예들을 도 10이 도시한다. 도 10에서, 영역들(907 내지 909)은 제2 내지 제4 페이지로부터 추출된 "본문" 속성 영역들이다. 추출된 정보는 저장 유닛(211)에 저장된다.

단계 S405에서, 메타데이터 처리 유닛(304)은 메타데이터 추출 처리 및 메타데이터 부가 처리를 수행한다. 단계 S405에서 메타데이터 처리 유닛(304)에 의해 실행되는 처리는 도 12에 도시된 흐름도를 참조하여 아래에서 상세하게 설명된다.

도 12의 단계 S1201에서, 메타데이터 처리 유닛(304)은, 저장 유닛(211)에 저장된 영역 정보로부터, "캡션" 속성이 부가된 영역들 중 아직 메타데이터 처리를 받지 않은 영역을 하나 선택한다. 더욱 구체적으로, 미처리된 캡션 영역이 있다고 판정되면(단계 S1201에서 예), 메타데이터 처리 유닛(304)은 미처리된 캡션 영역을 처리 대상으로서 선택한다. 그 후, 처리는 단계 S1202로 진행한다. 어떤 캡션 영역도 존재하지 않는다고 판정되거나, 또는 모든 영역들의 처리가 이미 완료되었다고 판정되면(단계 S1201에서 아니오), 메타데이터 처리 유닛(304)은 처리를 종료한다. 도 9에 도시된 화상들(901 내지 904)이 입력되는 경우에, 메타데이터 처리 유닛(304)은 캡션 영역(906)을 선택한다.

단계 S1202에서, 메타데이터 처리 유닛(304)은 처리 대상 캡션을 수반하는 오브젝트에 캡션 식별자를 부가한다. 메타데이터 처리 유닛(304)은 또한 부가된 캡션 식별자 전용의 저장 영역으로서 저장 유닛(211)에 메타데이터 저장 영역을 확보한다. 본 실시예에서, 메타데이터 처리 유닛(304)은 캡션(906)이 수반되는 사진 오브젝트(905)에 캡션 식별자 #1을 할당하고 저장 유닛(211)에 캡션 식별자 #1 전용의 메타데이터 저장 영역을 확보한다.

단계 S1203에서, 메타데이터 처리 유닛(304)은 캡션 영역의 문자 인식 결과를 나타내는 문자 정보로부터, 앵커 문자열 및 메타데이터 문자열을 추출한다. 앵커 문자열은, 원래의 문서에서 캡션이 수반되는 오브젝트를 식별하는 문자 정보이다. 메타데이터 문자열은 오브젝트를 설명하는 문자 정보이다.

도 15는 캡션 영역의 앵커 문자열 및 메타데이터 문자열의 예들로서 앵커 문자열들(1501 및 1502)과 메타데이터 문자열들(1503 및 1504)을 도시한다. 도 15로부터 이해되는 바와 같이, 앵커 문자열과 메타데이터 문자열 중 어느 하나 또는 둘 다가 오브젝트에 수반된다.

많은 경우에, 앵커 문자열의 표현은 특정한 문자열(예를 들어, "도")과 숫자(또는 기호)의 조합이다. 그리하여, 복수의 특정한 문자열을 등록한 앵커 문자열 사전을 미리 준비하는 것이 바람직하다. 이러한 경우에, 앵커 부분(즉, 앵커 문자열+숫자(또는 기호))이 캡션 문자열과 사전 사이의 비교에 기초하여 특정될 수 있다. 또한, 캡션 영역에서 앵커 부분이 아닌 문자열은 메타데이터 문자열로서 식별될 수 있다.

단계 S1204에서, 메타데이터 처리 유닛(304)은 단계 S1203의 처리에서 캡션 영역으로부터 추출된 임의의 메타데이터 문자열이 있는지의 여부를 판정한다. 메타데이터 문자열이 추출되었다고 판정되면(단계 S1204에서 예), 처리는 단계 S1205로 진행한다. 메타데이터 문자열이 추출되지 않았다고 판정되면(단계 S1204에서 아니오), 처리는 단계 S1206으로 진행한다.

단계 S1205에서, 메타데이터 처리 유닛(304)은 캡션 영역으로부터 추출된 메타데이터 문자열을, 단계 S1202에서 부가된 캡션 식별자 저장 영역에 저장한다. 그 후, 처리는 단계 S1206으로 진행한다. 더욱 구체적으로, 메타데이터 처리 유닛(304)은 캡션 영역으로부터 추출된 메타데이터 문자열을 캡션 식별자와 연관시킨다.

단계 S1206에서, 메타데이터 처리 유닛(304)은 단계 S1203의 처리에서 캡션 영역으로부터 추출된 임의의 앵커 문자열이 있는지의 여부를 판정한다. 앵커 문자열이 추출되었다고 판정되면(단계 S1206에서 예), 처리는 단계 S1207로 진행한다. 한편, 앵커 문자열이 추출되지 않았다고 판정되면(단계 S1206에서 아니오), 처리는 단계 S1201로 복귀된다. 단계 S1201에서, 메타데이터 처리 유닛(304)은 남아 있는 임의의 미처리된 캡션 영역이 있는지의 여부를 판정한다.

도 9에 도시된 입력 화상 데이터에 따르면, "도 1"이 캡션(906)으로부터 앵커 문자열로서 추출될 수 있다. 그러나, 메타데이터 문자열은 추출될 수 없다. 그리하여, 처리는 단계 S1204로부터 단계들 S1206 및 S1207로 진행한다.

단계 S1207에서, 메타데이터 처리 유닛(304)은 추출된 앵커 문자열과 유사한 문자열 표현을, 저장 유닛(211)에 저장된 "본문" 영역의 문자 정보로부터 검출한다. 유사한 문자열 표현이 검출되었다고 판정되면(단계 S1207에서 예), 처리는 단계 S1208로 진행한다. 임의의 유사한 문자열 표현이 없다고 판정되면(단계 S1207에서 아니오), 처리는 단계 S1201에 복귀하여 남아있는 임의의 미처리된 캡션 영역이 있는지의 여부를 판정한다.

단계 S1208에서, 메타데이터 처리 유닛(304)은 단계 S1207의 처리에서 본문으로부터 검출된 앵커 문자열의 주변 영역에서 오브젝트의 메타데이터에 대응하는 문자열을 추출한다. 도 9에 도시된 입력 화상 데이터에 따르면, 본문 영역(909)으로부터, 앵커 문자열 "도 1"(906)과 유사한 문자열로서 문자열(910)이 검출될 수 있다. 그리하여, 이웃한 문자열 "도 1은 AAA이다. ..."에 형태소 분석을 수행하면, 단어 "AAA"가 메타데이터 문자열로서 추출될 수 있다.

메타데이터 문자열을 식별하기 위해서, 자연 언어 처리의 형태소 분석에서 단어 분단 기능(word segmenting function)이 사용될 수 있다. 본 실시예에서는, 메타데이터 문자열로서 1개의 단어가 추출된다. 그러나, 메타데이터 문자열의 추출은 전술된 예에 한정되지 않는다. 예를 들어, 앵커 문자열을 포함하는 전체 문장이 메타데이터 문자열로서 사용될 수 있다.

단계 S1209에서, 메타데이터 처리 유닛(304)은 단계 S1208에서 추출한 메타데이터 문자열을, 캡션 식별자 저장 영역에 부가(저장)한다. 그 후, 처리는 S1207로 복귀한다. 메타데이터 처리 유닛(304)은 본문의 다른 부분에 앵커 문자열의 기술을 검출하기 위해 전술된 처리를 반복하고, 만약 검출되면, 각각의 검출된 문자열을 연속적으로 저장한다. 따라서, 1개의 캡션 식별자와 두 개 이상의 메타데이터가 연관될 수 있다.

다시 도 4를 참조하면, 단계 S406에서, 포맷 변환 유닛(305)은, 화상 데이터(300) 및 도 10에 도시된 저장 유닛(211)에 저장된 정보에 기초하여, 화상 데이터의 전자 문서 데이터(310)로의 변환을 수행한다.

도 5에서 설명한 바와 같이, 포맷 변환 유닛(305)은, 포맷 변환 제어 유닛(505)의 제어하에서, 각 영역에 적용될 변환 처리 방법을 기술하는 대응표를 따라, 도 5에 도시된 화상 데이터(300) 내의 영역에 변환 처리를 실행한다. 본 실시예에서, 도 8c에 도시된 대응표를 사용해서 변환을 제어하기 위한 처리의 예를, 도 13에 도시된 흐름도를 참조해서 아래에서 설명한다.

단계 S1301에서, 포맷 변환 제어 유닛(505)은 처리 페이지 번호의 카운터 "n"을 1로 초기화한다. 단계 S1302에서, 포맷 변환 제어 유닛(505)은 도 5에 도시된 영역 정보(511)의 제n 페이지의 데이터로부터, 미처리된 영역을 처리 대상 영역으로서 선택한다.

단계 S1303에서, 포맷 변환 제어 유닛(505)은 처리 대상 영역의 속성 및 대응표에 따라 처리를 분기한다. 본 실시예에서, 포맷 변환 제어 유닛(505)은 선택된 처리 대상 영역의 속성이 "문자"인지의 여부를 도 8c에 도시된 대응표를 참조하여 판정한다. 더욱 구체적으로, 선택된 처리 대상 영역의 속성이 "문자"(예를 들어, "본문", "캡션", "페이지", 또는 "표제")라고 판정되면(단계 S1303에서 예), 처리는 단계 S1304로 진행한다. 만약 선택된 처리 대상 영역의 속성이 "사진", "선화", 또는 "표"라고 판정되면(단계 S1303에서 아니오), 처리는 단계 S1306으로 진행한다.

단계 S1304에서, 도 8c에 도시된 대응표에 정의된 설정들에 따라, 화상 분단 처리 유닛(503)이, 화상 데이터(300)에서 문자 속성이 부여된 영역(즉, 처리 대상)에 대응하는 부분의 2치 화상(즉, 2치 화상 파트들)을 생성한다. 생성된 2치 화상 파트들은, 예를 들어 PNG 포맷에 따라 압축될 수 있고 도 2에 도시된 저장 유닛(211)에 저장될 수 있다.

본 실시예에서, 2치 화상 파트들에서 문자선에 대응하는 화소에는, 문자색 정보가 부가된다. 문자색 정보는 화상 데이터(300)에서 문자 화소의 색으로부터 취득될 수 있다. 한편, 다른 화소에 할당되는 색정보는 투명색이다.

단계 S1305에서, 도 8c에 도시된 대응표에 문자 영역의 삭제 처리 명령이 설정되어 있기 때문에, 포맷 변환 제어 유닛(505)은, 도 5에 도시된 화상 데이터(300)에서 문자 부분에 대응하는 화소를을 주변 화소의 색으로 빈틈없이 칠하는 삭제 처리를 수행한다.

단계 S1306에서, 포맷 변환 제어 유닛(505)은, 처리 대상 영역에 부여된 캡션 식별자가 있는지의 여부를 판정한다. 처리 대상 영역에 부여된 캡션 식별자가 존재한다고 판정되면(단계 S1306에서 예), 처리는 단계 S1307로 진행한다. 처리 대상 영역에 부여된 캡션 식별자가 없다고 판정되면(단계 S1306에서 아니오), 처리는 단계 S1308로 진행한다.

단계 S1307에서, 포맷 변환 제어 유닛(505)은 도 8c에 도시된 대응표에서 정의된 설정들을 따라, 벡터 변환 처리 유닛(502)이, 처리 대상 영역을 둘러싸는 프레임의 벡터 경로 기술 데이터를 생성하게 한다. 처리 대상 영역을 둘러싸는 프레임의 벡터 경로 기술 데이터는, 예를 들어, 도 5에 도시된 영역 정보(511)에 등록된 좌측 위 코너를 나타내는 좌표값들과 크기(폭 및 높이)에 기초하여, 처리 대상 영역을 정의하는 4개의 직선으로 기술될 수 있다.

본 실시예에서, 포맷 변환 제어 유닛(505)은 처리 대상 영역에 외접하는 직사각형보다도 약간 큰 직사각형 프레임을 기술한다. 처리 대상 영역을 둘러싸는 프레임은, 직사각형 프레임에 한정되지 않는다. 프레임은 둥근 모서리들을 갖는 프레임으로 대체될 수 있다. 프레임선은 굵게 될 수 있다. 프레임 형상은 임의로 변경될 수 있다.

프레임 형상을 기술하기 위한 다른 방법은 화상 데이터(300)의 영역 화상으로부터 에지 정보의 윤곽(예를 들어, 오브젝트 화상의 윤곽)을 추출하고, 벡터 변환 처리 유닛(502)을 사용하여, 추출된 윤곽 정보를 프레임의 벡터 경로 정보로 변환시키는 것을 포함한다.

또한, 단계 S1307에서, 포맷 변환 제어 유닛(505)은 프레임의 생성된 벡터 경로 기술 데이터에 대하여, 처리 대상 영역의 캡션 식별자를 부가한다. 또한, 포맷 변환 제어 유닛(505)은 프레임의 벡터 경로 기술 데이터에 사용될 묘화색으로서 투명색을 할당한다. 이러한 방식으로 생성된 벡터 경로 기술 데이터는 도 2에 도시된 저장 유닛(211)에 저장될 수 있다.

단계 S1308에서, 포맷 변환 유닛(305)은 n번째 페이지에 임의의 미처리된 영역이 있는지의 여부를 판단한다. n번째 페이지에 미처리 영역이 존재한다고 판정되면(단계 S1308에서 예), 처리는 단계 S1302로 복귀되어서 단계 S1302 내지 단계 S1308의 전술된 처리를 반복한다. n 번째 페이지의 모든 영역들에 대한 처리가 완료되었다고 판정되면(단계 S1308에서 아니오), 처리는 단계 S1309로 진행한다.

단계 S1309에서, 포맷 변환 제어 유닛(505)은, 도 5에 도시된 화상 데이터(300)에 있어서, 화상 분단 처리 유닛(503)에 의해 분단된 영역에 대응하는 부분을 주변색으로 빈틈없이 칠하는 것에 의해 배경 화상 파트들을 생성한다. 문자 부분을 구성하는 화소는 문자 화소를 주변색으로 빈틈없이 칠하는 처리를 통하여 삭제되기 때문에, 배경 화상 파트들은 단계 S1305에서 화상 데이터(300)로부터의 화상 파트들(image parts)로서 분단된 문자 부분을 구성하는 임의의 화소(예를 들어, 문자선에 대응하는 화소)를 포함하지 않는다,

한편, 문자 속성이 수반되지 않는 영역은 미처리인 채로 남는다. 본 실시예에서는, 포맷 변환 제어 유닛(505)이 배경 화상 파트들의 해상도를 절반 수준으로 감소시키고 배경 화상 파트들을 JPEG 압축 방법에 따라 화상 데이터로 압축한다. 압축된 화상 데이터는 도 2에 도시된 저장 유닛(211)에 저장될 수 있다. 그러나, 포맷 변환 제어 유닛(505)은 다른 화상 처리(예를 들어, 평활화 처리)를 수행할 수 있고 처리된 데이터를 다른 포맷에 따라 압축할 수 있다.

도 16은 도 9에 도시된 제1 페이지의 화상(901)에 대하여 단계 S1302 내지 S1309의 전술된 처리를 행했을 때 생성될 수 있는 화상 파트들 및 벡터 경로 기술 데이터의 예를 도시한다.

도 16에 도시된 예시 화상(1601)은 단계 S1309에서 생성되는 배경 화상 파트들을 포함한다. 배경 화상 파트들 화상(1601)은, 문자 화상 부분이 주변색으로 빈틈없이 칠해지는 처리를 통하여 삭제되기 때문에, 어떠한 문자 화상 부분도 포함하지 않는다. 이러한 면에서, 배경 화상 파트들 화상(1601)은 페이지에서 문자들로서 추출된 부분이 아닌 부분들을 모두 포함하는 하나의 화상이다.

도 16에 도시된 예시 화상(1602)은 단계 S1304에서 생성된 문자 부분의 2치 화상 파트들을 포함한다. 문자 부분의 2치 화상 파트들의 재생 시, 별도로 저장된 문자색 정보에 따라 문자 선 부분이 문자색의 화소들에 의해 구성될 수 있고, 나머지 백색 부분은 투명색의 화소들에 의해 구성될 수 있다. 화상(1602)의 바깥쪽 프레임을 나타내는 실선은 편의적인 것이며, 실제의 화상 파트들은 문자 부분을 둘러싸는 최소의 직사각형 구역으로 정의될 수 있다.

도 16에 도시된 예시 화상(1603)은, 단계 S1307에서 생성되는 프레임의 벡터 경로 기술 데이터를 포함한다. 프레임의 벡터 경로 기술을 표현하기 위해 점선이 사용되었지만, 벡터 경로 기술에 투명색이 사용되므로 실제 벡터 경로 기술은 볼 수 없다. 또한, 화상(1603)의 바깥쪽 프레임을 나타내는 실선은 편의적인 것이며 데이터로서 존재하지 않는 것이다.

단계 S1310에서, 포맷 변환 제어 유닛(505)은, 전자 문서 기술 처리 유닛(504)이, 출력될 전자 문서 데이터의 포맷에 따라, 현재 처리되는 페이지를 전자 문서 페이지로서 기술하기 위한 처리를 행하게 한다.

도 17은 본 실시예에 따라 도 9에 도시된 제1 페이지의 화상(901)에 기초하여 기술될 수 있는 전자 문서 페이지의 예를 도시한다. 도 17에 도시된 전자 문서 페이지(1700)는 SVG(Scalable Vector Graphics)포맷에 따라 기술된 예이다.

전자 문서 페이지(1700)는, 단계 S1309에서 생성된 배경 화상 데이터의 기술(1701), 단계 S1304에서 생성된 문자 부분에 대한 2치 화상 파트들의 기술(1702), 및 단계 S1307에서 생성된 프레임(프레임이 투명색으로 묘화됨에도 불구하고)에 대한 벡터 경로 기술(1703)을 포함한다.

벡터 경로 기술(1703)에서, 기술 stroke="transparent"는 프레임이 투명색으로 묘화되어야 하는 선이라는 것을 나타낸다. 더욱 구체적으로, 기술 d="M440, 608 L2040,608 L2040,1880 L440,1880 L440,608 s"는 벡터 경로 기술된 형상을 갖는 그래픽이 투명색으로 묘화되는 것을 나타낸다.

전술한 바와 같이, 이 벡터 경로 기술은, 직사각형 프레임의 형상에 한정되지 않는다. 대상 오브젝트의 오리지널 형상이나 그래픽 기술 시의 구성에 의존하지 않고 임의의 형상이 벡터 경로 기술을 위해 사용될 수 있다.

그래픽 묘화 기술들(1701 내지 1703)은 도 16에 도시된 화상들(1601 내지 1603)에 각각 대응한다. 기술들(1701 내지 1703)은 중첩될 그래픽 데이터의 순서를 정의한다. 더욱 구체적으로, 배경 화상이 가장 낮은 층으로서 묘화된다. 문자 화상은 배경 화상 위에 중첩될 중간층으로서 묘화된다. 투명 프레임은 문자 화상 위에 중첩될 상층으로서 묘화된다. 투명 벡터 경로 기술(즉, 그래픽 기술)(1703)은 캡션 식별자(1704)를 포함한다.

단계 S1311에서, 포맷 변환 제어 유닛(505)은, 현재 처리중인 페이지의 페이지 번호 "n"이 최후의 페이지 번호(즉, 모든 페이지들의 전체 매수)인지의 여부를 판정한다. 현재 처리중인 페이지의 페이지 번호 "n"이 마지막 페이지 번호와 같다고 판정되면(단계 S1311에서 예), 포맷 변환 제어 유닛(505)은 모든 페이지에 대하여 변환 처리가 완료되었다고 판정한다. 처리는 단계 S1313로 진행한다. 현재 처리중인 페이지의 페이지 번호 "n"이 모든 페이지들의 전체 매수보다 적다고 판정되면(단계 S1311에서 아니오), 처리는 단계 S1312으로 진행한다. 단계 S1312에서, 포맷 변환 제어 유닛(505)은 페이지 번호 "n"을 1만큼 증분시킨다(즉, n=n+1). 그 후, 처리는 단계 S1302로 복귀하고 전술된 처리를 다음 페이지에 대하여 반복한다.

단계 S1313에서, 전자 문서 기술 처리 유닛(504)은 단계 S1310에서 기술된 모든 전자 문서 페이지들을 모아 정리하고, 메타데이터 기술을 부가하여 출력될 전자 문서 데이터를 생성한다.

도 18은 출력될 전자 문서의 기술의 예를 도시한다. 전자 문서 데이터(1800)는, 제1 내지 제4 페이지에 각각 대응하는 전자 문서 페이지 기술들(1801, 1802, 1803 및 1804)을 포함한다. 전자 문서 데이터(1800)는 메타데이터 기술(1805)을 더 포함한다. 메타데이터 기술(1805)은, 캡션 식별자(1807)과 연관되어 기술되는 메타데이터 문자열(1806)을 포함한다. 캡션 식별자(1807)는 제1 페이지에 대한 벡터 경로 기술(1809)에 부가된 캡션 식별자(1808)와 동일하다.

전술된 바와 같이, 메타데이터(1806)와 투명 프페임 벡터 경로 기술(1809)은 캡션 식별자(1807)를 이용하여 서로 연관된다(링크된다). 그리하여, 키워드 "AAA"를 입력함으로써 검색 처리가 수행되면, 투명 벡터 경로 기술(1809)을 검색할 수 있다.

전술된 실시예는 본 발명의 제1 실시예에 따른 전자 문서 데이터 생성 처리와 관련된다.

다음에, 전술된 메타데이터를 검색될 키워드로서 지정하면서 전술된 제1 실시예에서 생성된 전자 문서 데이터로부터 오브젝트를 검색하는 예시적인 동작이 도 14를 참조하여 아래에서 설명된다.

도 14a 내지 도 14d는, 도 1에 도시된 클라이언트 PC(101) 또는 오브젝트를 검색하기 위하여 사용될 수 있는 다른 클라이언트 PC에 의해 실행될 어플리케이션 소프트에어에 의해 제공되는 표시 화면(GUI)의 예들을 도시한다. 예를 들어, 생성될 문서의 포맷이 PDF일 때는 Adobe Reader^®가 사용가능한 소프트웨어 어플리케이션이다.

도 14a는, 도 11에 도시된 문서에 기초하여 어플리케이션에 의해 표시될 예시 화면이다. 입력 윈도우(1401)는 사용자가, 검색될 단어 또는 문구를 입력(지정)할 수 있게 해준다. 검색 실행 버튼(1402)은 검색될 단어(또는 문구)가 입력된 후에 검색의 실행을 사용자가 지시할 수 있게 해준다. 표시 화상(1403)은 도 11에 도시된 전자 문서 데이터(1100)에 기인하는 예이다. 디스플레이 콘텐트는 그래픽 기술들(1101 내지 1105)에 기초한다.

도 14에 도시된 어플리케이션은 입력 윈도우(1401)에 검색될 단어(또는 문구)로서 입력된 문자열이, 지금 표시되고 있는 전자 문서 데이터에 부가된 메타데이터와 일치한다면, 그 메타데이터와 연관된 캡션 식별자를 포함하는 그래픽 기술을 강조하기 위한 강조 표시 기능을 갖는다.

도 14b는, 검색될 단어로서 지정된 "AAA"(1404)에 기초하여 실행된 검색의 결과를 도시한다. 전자 문서 데이터(1100)에서, 메타데이터 기술(1106) 내의 문자열(1109) 및 문자 묘화 기술(1105)의 문자열 "AAA"가 검색될 단어와 일치한다. 그리하여, 어플리케이션은 검색 단어가 히트될 때 수행되어야 할 동작을 수행한다. 검색 결과는 사용자로부터의 명령에 따라 순차적으로 표시될 수 있다. 본 실시예에 따른 예시 동작은 메타데이터 기술(1106) 내의 문자열(1109)이 히트될 때 수행된다.

도 14에 도시된 어플리케이션은 전자 문서(1100)로부터 검색될 단어(또는 문구)와 일치하는 메타데이터의 캡션 식별자(1108)를 검출한다. 도 14에 도시된 어플리케이션은 또한 동일한 식별자(1107)가 부여되는 그래픽 기술(1102)을 검출한다. 그 후, 도 14에 도시된 어플리케이션은 페이지 표시 시, 대응 부분이 강조될 수 있도록 대상 그래픽 기술을 묘화한다. 본 실시예에서, 그래픽 기술은 화상을 붙이는 것이다. 그리하여, 도 14에 도시된 어플리케이션에 의해 수행될 표시는, 화상 오브젝트를 둘러싸는, 강조색, 예를 들어 적색의 프레임을 부가하는 것을 포함한다.

도 14b에 도시된 적색 프레임(1405)은 실행된 검색의 결과로서 히트된 오브젝트를 나타내는 강조된 부분이다. 강조 표시 방법은 전술된 예에 한정되지 않는다. 다른 프레임 색이 또한 사용될 수 있다. 전체 영역이 채색될 수 있다. 색이 수정될 수 있다. 색이 반전될 수 있다. 또한, 히트된 오브젝트의 기술이 화상을 붙이는 것에 한정되지 않고 벡터 경로도 포함할 경우에, 통상적인 색과 상이한 색 또는 더 두꺼운 선이 벡터 경로를 묘화하는 데 사용될 수 있다.

도 14c는, 도 8c에 도시된 대응표에 기초하여 도 13에 도시된 흐름도의 처리를 수행함으로써 도 9에 도시된 4 페이지의 화상들로부터 변환될 수 있는 도 18에 도시된 전자 문서 데이터(1800)의 제1 페이지를 도시한다.

표시 콘텐트는 제1 페이지의 그래픽 기술(1801)의 묘화 결과이며, 그것은 도 16에 도시된 배경 파트 화상(1601) 위에 문자 화상(1602)을 중첩함으로써 얻어질 수 있는 합성 화상에 필적한다. 프레임 화상의 벡터 경로 기술(1603)은 투명색의 지정을 포함한다. 그리하여, 프레임은 통상 상태에서는 볼 수 없다.

도 14d는, 도 14c에 도시된 전자 문서 데이터(1800)에 대하여 실행시킨 검색의 결과를 도시한다. 검색될 단어 "AAA"가 입력 윈도우(1414)에 입력된다. 전자 문서 데이터(1800)에서, 메타데이터 기술(1805)의 문자열 "AAA"가 검색될 단어와 일치한다. 그리하여, 어플리케이션은 검색 단어가 히트될 때 수행되는 동작을 수행한다.

더욱 구체적으로는, 전술된 설명과 유사하게, 어플리케이션은 메타데이터의 캡션 식별자(1807)와 동일한 값이 부여된 그래픽 기술을 검출한다. 그 후, 페이지 표시 시에 히트된 부분에 강조 표시를 수행한다. 이 경우에, 강조되어야 할 대상은 캡션 식별자(1808)가 부가되는 투명 프레임 벡터 경로 기술(1809)이다. 어플리케이션은 벡터 경로 기술(1809)에 대응하는 프레임을 미리 지정된 투명색을 사용하는 대신 강조색(예를 들어, 적색)을 사용하여 묘화한다.

따라서, 검색을 통해 히트된 메타데이터에 대응하는 적색 그래픽 기술(1415)이, 가시 상태로 강조 표시된 프레임으로서 배경 화상 위에 중첩되어 표시된다. 그리하여, 사용자는 배경 화상의 검색 히트 부분에 대응하는 사진 부분을 인식할 수 있다.

이상 설명한 바와 같이, 도 8c에서 도시된 대응표에서 정의된 설정들에 기초하여, 문서 화상이 전자 문서 데이터로 변환될 때, 단계 S401 내지 S405의 처리를 통하여, 문서 화상으로부터 추출한 영역 오브젝트들 중에서, 캡션 부여된 오브젝트와 검색에 사용되는 메타데이터가 서로 연관되어서 추출될 수 있다.

또한, 문자 이외의 오브젝트들에 관해서는, 도 8c에 도시된 대응표에서 정의된 설정들에 따라 이 오브젝트들은 배경 화상에 포함된다. 그리하여, 단계 S406(도 13 참조)의 처리를 통해, 검색될 오브젝트 대신에, 검색 시에 강조되는 형상이 투명색에 기초한 벡터 경로 묘화 기술에 의해 부가된다. 사용자가 어플리케이션을 통해 전자 문서 데이터를 열람 및 검색할 때, 투명색에 기초한 벡터 경로 기술은 볼 수 없으므로 페이지의 배경 화상이 바로 표시된다.

한편, 검색시에 메타데이터가 히트되면, 어플리케이션은 상기 투명색의 벡터 경로 기술을 강조색으로 표시한다. 대상 오브젝트의 원래 형상이나 그래픽 기술 시의 구성에 의존하지 않고 임의 형상이 벡터 경로 기술에 지정될 수 있다. 그리하여, 전자 문서 데이터의 생성에 있어서 사용자의 의도를 반영하는 임의 형상이 강조 표시를 위해 사용될 수 있다.

예를 들어, 대상 오브젝트의 외접 직사각형보다 약간 큰 직사각형 프레임을 기술함으로써, 검색 시에, 대상 오브젝트에 대응하는 부분을 프레임으로 둘러쌀 수 있다. 그리하여, 사용자가 대상 오브젝트를 쉽게 인식할 수 있다. 예를 들어, 모서리가 둥근 프레임이 벡터 경로 기술에 지정되면, 검색에 대한 표시 시에 대상 오브젝트에 대응하는 부분이 둥근 프레임으로 강조될 수 있다.

더욱 구체적으로, 키워드 검색을 수행하기 위하여 사용자가 문자 이외의 오브젝트를 지정할 수 있게 해주는 전자 문서 데이터를 생성하기 위한 처리 시에, 본 실시예는, 사용자가 검색 시에 검색 대상 오브젝트의 형상 또는 데이터 상태에 의존하지 않고 쉽게 인식할 수 있는, 강조 표시에 적합한 전자 문서 데이터를 생성할 수 있다.

또한, 문자 이외의 오브젝트들을 배경 화상에 포함한 상태에서도, 전술된 실시예에 따라 실현되는 표시는 검색 시에 대상 오브젝트가 히트된 것처럼 사용자가 느끼게 하는 효과를 가져올 수 있다. 이 경우에는, 문자 이외의 개별적인 오브젝트들을 압축하지 않아도 좋다. 데이터량이 감소될 수 있다.

전술된 제1 실시예에서, 문자 이외의 모든 오브젝트들(예를 들어, 사진들, 선화들, 및 표들)은 도 8c에 도시된 대응표에 따라 배경 화상에 포함된다. 캡션 식별자가 부가되는 대응 오브젝트에 대하여 투명 벡터 경로 기술이 생성된다. 제2 실시예는, 특정 속성들을 수반하는 오브젝트가 배경 화상에 포함되지 않고 파트들로서 기술된다는 점에서 전술된 제1 실시예와 상이하다. 즉, 제2 실시예는 문자 이외의 모든 오브젝트들을 배경 화상에 병합시키지 않는다. 또한, 제2 실시예에서는 강조 표시를 위한 투명 벡터 경로 기술들이 개별적으로 생성된다.

제2 실시예에서는, 도 3에 도시된 포맷 변환 유닛(305)이 도 8d에 도시된 대응표에 기초하여 이하의 제어 처리를 수행한다. 도 8d에 도시된 대응표에 정의된 설정들에 따라, 포맷 변환 유닛(305)은 "사진" 오브젝트에 대한 화상 파트들의 기술들을 생성하기 위해 화상 분단 처리를 수행한다. 포맷 변환 유닛(305)은 벡터 변환을 실행함으로써 "선화" 및 "표" 오브젝트에 대한 벡터 경로 기술을 더 생성한다. 또한, 캡션 식별자가 오브젝트에 부가되면 포맷 변환 유닛(305)은 투명 프레임 벡터 경로 기술을 별도로 부가한다.

그리하여, 도 8c에 도시된 대응표에 정의된 설정들에 따르면, 포맷 변환 유닛(305)은 개별적인 "사진" 오브젝트들의 그래픽 기술에 캡션 식별자를 부가하고, 개별적인 "선화" 및 "표" 오브젝트들의 투명 프레임 기술에 캡션 식별자를 부가한다.

전술된 변환이 행해진 전자 문서 데이터에 대하여 검색을 수행하면, 그래픽 기술 자체의 분단 구역을 나타내는 직사각형 영역이 각 직사각형 "사진" 영역에 강조되고 "선화" 및 "표" 오브젝트에 대하여는 투명 프레임으로서 기술된 형상이 강조된다.

따라서 "선화" 또는 "표"의 형상에 의존하지 않고, 부가된 투명 벡터 경로 기술에 의해 정의된 미리 정해진 형상을 사용하여 강조 표시가 실현될 수 있다. 이것은 사용자가 검색 시에 히트된 부분을 쉽게 인식할 수 있게 해주는 표시를 실현하는 효과를 가져온다. 또한, 투명 벡터 경로 기술을 사용하는 오브젝트의 유형을 속성에 따라서 설정할 수 있다.

또한, 전자 문서 데이터로부터의 검색 대상("사진", "선화", "표" 등)의 분단에 기초한 화상 파트들의 기술뿐만 아니라 캡션 식별자의 기술에의 부가에 대하여 최적의 방법을 사용자가 적절하게 선택할 수 있게 하는 데 유용하다.

예를 들어, 생성될 전자 문서 데이터의 데이터 크기가 우선시되고(prioritized) 오브젝트 검색의 실현이 요청되는 경우에, "사진" 오브젝트를 "배경"에 병합하고, 투명 프레임의 기술을 수행하여 도 8c에 도시된 바와 같은 캡션 식별자를 부가하는 것이 바람직하다. 이것은 화상에서 오브젝트가 검색된 것과 같이 사용자가 느끼게 하는 효과를 가져온다. 화상 데이터의 압축률은 향상될 수 있다. 데이터 크기는 감소될 수 있다.

또한, "사진" 및 "선화" 오브젝트가 다른 문서에서 재이용될 수 있는 경우에, 포맷 변환 유닛(305)은 도 8a에 도시된 것과 같이 "사진" 화상 파트들을 분단하여 화상 해상도를 증가시킨다. 포맷 변환 유닛(305)은 "선화"의 벡터 변화에 기초하여 벡터 경로 기술을 더 수행하고 각 오브젝트에 캡션 식별자를 직접 부가한다.

또한, 도 8d에 도시된 것과 같이 포맷 변환 유닛(305)은 각 "사진" 오브젝트의 유형에 따라, 더욱 정밀한 변환 처리를 수행할 수 있다. 이러한 경우에, 포맷 변환 유닛(305)은 획득된 화상 정보를 쓸모없이 폐기하지 않고 재사용하기 위한 목적으로, 검색된 부분의 정보를 다른 문서에 복사할 수 있다.

전술된 바와 같이, 포맷 변환 유닛(305)은 화상 파트들의 기술 방법에 기초한 화상 분단을 적절히 선택하고 캡션 식별자 부가 방법을 적절히 선택한다. 그리하여, 포맷 변환 유닛(305)은 사용 목적에 따라 전자 문서 데이터를 생성할 수 있다. 그리하여, 본 실시예는 사용자가 쉽게 취급할 수 있는 전자 문서 데이터를 제공하는 효과를 가져올 수 있다.

본 실시예에서, 사용자가 적절한 방법을 선택할 수 있게 해주는 대신, 문서 또는 페이지 내의 "사진" 오브젝트의 개수에 따라 또는 각 오브젝트의 크기 또는 특성에 따라 화상 파트들의 기술 방법에 기초한 화상 분단 및 캡션 식별자 부가 방법이 자동적으로 선택될 수 있다. 또한, 이 경우에, 화상 파트들의 기술 방식에 기초한 화상 분단 및 캡션 식별자 부가 방법이 각 문서에 대하여 또는 각 페이지에 대하여 자동적으로 선택될 수 있다.

전자 문서 데이터를 처리하기 위한 "파일 크기 우선시" 모드와 "재이용성(reusability) 우선시" 모드 사이의 절환을 위한 예시적인 방법이 도 19에 도시된 흐름도를 참조하여 아래에서 설명되며, 이 방법은 도 8d에 도시된 대응표에 정의된 설정들에 따라 데이터 처리 유닛(218)에 의해 수행될 수 있다. 본 실시예에서, 제1 실시예에 기술된 단계(도 13 참조)와 유사한 단계는 동일한 단계 번호로써 표시되고 이 단계에 대한 상세한 설명은 반복하지 않는다.

단계 S1901에서, 데이터 처리 유닛(218)은, "파일 크기 우선시" 모드가 선택되었는지의 여부를 판정한다.

도 20은, 도 1에 도시된 MFP(100)에 구비된 도 2에 도시된 조작 유닛(203)에 표시되는 전자 문서 데이터를 생성할 의도를 사용자가 입력할 수 있게 해주는 사용자 인터페이스(UI) 화면의 예를 도시한다. 도 20에 도시된 UI 화면(2001)은 전자 문서 데이터의 파일 크기를 감소시키기 위해 눌러질 수 있는 파일 크기 우선시 버튼(2002) 및 "사진" 및 "선화" 오브젝트를 다른 문서에 재이용하기 위해 눌러질 수 있는 재이용성 우선시 버튼(2003)을 포함한다. UI 화면(2001)은 선택된 콘텐트를 취소하기 위하여 눌러질 수 있는 취소 버튼(2004) 및 선택된 콘텐트를 확정하기 위하여 눌러질 수 있는 확인 버튼(2005)을 더 포함한다.

본 실시예에서, 전자 문서 데이터를 사용하는 목적은 UI 화면(2001) 상에서 사용자의 조작에 따라 절환될 수 있다. 그러나, 시스템은 문서 내의 또는 페이지 내의 "사진" 오브젝트들 또는 "선화" 오브젝트들의 개수에 따라 또는 그들의 크기 또는 페이지 수에 따라 모드를 자동적으로 절환하도록 구성될 수 있다.

선택된 모드가 "파일 크기 우선시" 모드라고 판정되면(단계 S1901에서 예), 처리는 단계 S1902로 진행한다. 단계 S1902에서는, 데이터 처리 유닛(218)이 도 13에 도시된 흐름도에 기재된 것과 유사한 처리를 수행하여, 전자 문서 데이터를 생성한다.

한편, 선택된 모드가 "재이용성 우선시" 모드라고 판정되면(단계 S1901에서 아니오), 도 8d에 도시된 대응표에 정의된 설정들에 따라 처리를 데이터 처리 유닛(218)이 수행하는 도 19에 도시된 단계 S1301로 처리가 진행한다. 도 19의 단계들 S1301 내지 S1305에서 수행될 처리는 도 13에 도시된 흐름도를 참조하여 기술된 처리와 유사하다. 그리하여, 이 단계들에 대한 상세한 설명들은 반복하지 않는다.

선택된 처리 대상 영역의 속성이 "사진", "선화", 또는 "표"라고 판정되면(도 19의 단계 S1303에서 아니오), 단계 S1903에서, 도 5에 도시된 화상 분단 처리 유닛(503) 및 벡터 변환 처리 유닛(502)은 도 8d에 도시된 대응표에 정의된 설정들을 따라 그래픽 기술들을 수행한다. 더욱 구체적으로, 화상 분단 처리 유닛(503) 및 벡터 변환 처리 유닛(502)은 "사진" 오브젝트에 대하여는 화상 파트 기술에 기초한 화상 분단을 협력적으로 생성하고 "선화" 및 "표" 오브젝트에 대하여 벡터 경로 기술에 기초한 벡터 변환을 생성한다.

이어서, 단계 S1904에서, 도 5에 도시된 포맷 변환 제어 유닛(505)은 화상 데이터(300)의 "사진", "선화", 및 "표" 오브젝트에 대응하는 화소 정보를 주변 화소의 색으로 빈틈없이 칠하기 위한 삭제 처리를 도 8d에 도시된 삭제 처리 명령에 따라 수행한다.

단계 S1306에서, 포맷 변환 제어 유닛(505)은 처리 대상 영역에 부여된 캡션 식별자가 있는지의 여부를 판정한다. 처리 대상 영역에 부여된 캡션 식별자가 존재한다고 판정되면(단계 S1306에서 예), 처리는 단계 S1905로 진행한다. 처리 대상 영역에 캡션 식별자가 부여되어 있지 않다고 판정되면(단계 S1306에서 아니오) 처리는 단계 S1308로 진행한다.

단계 S1905에서, 포맷 변환 제어 유닛(505)은 선택된 처리 대상 영역의 속성이 "사진"인지의 여부를 판정한다. 선택된 처리 대상 영역의 속성이 "사진"이라고 판정되면(단계 S1905에서 예), 처리는 영역 오브젝트 자체에 캡션 식별자를 부가하는 처리를 수행하기 위해서, 단계 S1308로 진행한다. 한편, 선택된 처리 대상 영역의 속성이 "선화" 또는 "표"라고 판정되면(단계 S1905에서 아니오), 대상 오브젝트에 대응하는 투명 벡터 경로 기술을 생성하기 위한 처리를 수행하기 위해 처리가 단계 S1307로 진행한다. 도 19의 단계들 S1307 내지 S1313에서 수행되는 처리는 도 13에 도시된 흐름도를 참조하여 기술된 처리와 유사하다. 그리하여, 이 단계들에 대한 상세한 설명들은 반복하지 않는다.

상술한 바와 같이, 제2 실시예는 사용 목적에 따라 적절하게 기술된 전자 문서를 생성할 수 있다. 또한, 제2 실시예는 투명 벡터 경로 기술을 사용하여, 검색 대상 오브젝트의 형상 또는 데이터 상태에 의존하지 않고 검색 시에 사용자가 인식하기 쉬운 강조 표시에 적합한 전자 문서 데이터를 생성한다.

전술된 제1 실시예는 오브젝트 영역의 위치/크기에 기초하거나 또는 오브젝트에 적용되는 화상 처리를 통하여 얻어질 수 있는 정보(예를 들어, 에지 정보)에 기초하여 오브젝트 영역에 묘화될 투명 프레임을 기술한다. 본 발명의 제3 실시예는 사용자가 묘화될 투명 프레임의 형상 및 선 폭을 자유롭게 설정할 수 있게 해주는 시스템을 제공한다.

도 21은 MFP(100)에 제공되는 조작 유닛(203)에 표시될 수 있는 사용자 인터페이스(UI) 화면의 예를 도시한다. UI 화면(2101)은 투명 프레임의 기본 형상을 선택하도록 동작될 수 있는 버튼(2102)과, 선 폭을 선택하도록 동작될 수 있는 버튼(2103), 및 강조색을 선택하도록 동작될 수 있는 버튼(2104)을 포함한다.

사용자가 UI 화면(2101)의 선택 버튼들(2102 내지 2104)을 조작함으로써 투명 프레임의 기술 방법을 선택하고, 확인 버튼(2106)을 누르면, 데이터 처리 유닛(218)에 제공되는 제어 유닛(도시하지 않음)이, UI 화면(2101)을 통해서 사용자에 의해 지정되는 투명 프레임 기술에 관한 정보를 포맷 변환 유닛(305)에 송신한다.

취소 버튼(2105)이 눌려서 사용자 설정들을 취소하면, 제어 유닛은 디폴트의 설정 정보를 포맷 변환 유닛(305)에 송신한다. 포맷 변환 유닛(305)은, 수신한 정보를 기초로, 단계 S1307에서 투명 프레임에 대한 벡터 기술을 수행한다. 이 경우에 오브젝트를 확실하게 식별하기 위해서, 오브젝트의 크기에 따라, 선택되는 기본 형상의 크기를 변경하는 것이 바람직하다.

투명 프레임 기술에 대한 설정들은 전술된 설정들에 한정되지 않는다. 예를 들어, 설정들은 크기 및 선 유형(예를 들어, 실선, 점선, 및 이중선)을 정의할 수 있다. 또한, 표시 유닛(116)이 터치 패널식이면, 표시 유닛(116) 상에 사용자가 묘화시킨 형상을 벡터 경로 기술 데이터로 변환할 수 있어서, 임의 형상을 갖는 투명 프레임이 기술될 수 있다.

전술된 제1 실시예에서, 오브젝트 영역 관련 메타데이터의 예로서, 메타데이터 처리 유닛(304)은 문자 인식 유닛(303)으로부터 출력된 캡션 및 본문의 문자 정보로부터 오브젝트 가이드 또는 키워드에 대응하는 메타데이터 문자열을 추출한다

그러나, 메타데이터 추출 방법은 전술된 방법에 한정되지 않는다. 예를 들어, 메타데이터 처리 유닛(304)은 오브젝트 영역의 화상 인식 결과로부터 얻어진 오브젝트 영역 관련 메타데이터를 추출할 수 있다. 본 개시의 문맥에서, "화상 인식"은 공지의 "얼굴 인식" 및 "인명 인식"과 같은 화상 인식 기술(image recognition technique)로서 칭해진다. 예를 들어, 화상 인식이 행해지는 오브젝트 영역이 사람의 사진인 경우에, 메타데이터 처리 유닛(304)은 오브젝트 영역 관련 메타데이터로서 인명을 추출할 수 있다.

도 22는 일반적인 화상 인식 방법의 예로서, 전술한 사진에서 사람을 인식하는 얼굴 인식 방법의 예를 도시한다. 본 실시예에서, 도 22에 도시된 구성은 얼굴 인식 기술에 기초하여 메타데이터로서 인명을 추출하는 데 사용될 수 있다. 이하의 처리는 CPU(205)에 의해 실현되는 계산 처리이다.

이 경우에, 제1 실시예에서 상술된 바와 같이 사진 화상으로부터 화상 정보(2201)가 얻어졌을 때, 화상 입력 유닛(2202)은 얼굴 인식 엔진(2203) 및 개인 얼굴 식별 엔진(2205)이 입력 화상을 처리할 수 있도록 입력 화상의 크기 및 해상도를 변경한다. 화상 입력 유닛(2202)은 처리된 화상을 얼굴 인식 엔진(2203)에 보낸다.

얼굴 인식 엔진(2203)은, 얼굴 인식 사전(2204)을 참조하여 얼굴 영역을 식별하기 위한 처리를 수행한다. 얼굴 인식 사전(2204)은, 미리 준비되어 도 2에 도시된 ROM(210) 또는 저장 유닛(211)에 저장될 수 있다. 또한, 필요하다면, CPU(205)가 얼굴 인식 사전(2204)에 고속으로 액세스할 수 있도록 얼굴 인식 사전(2204)을 RAM(206)에 복사할 수 있다.

얼굴 인식 사전(2204)을 준비하기 위해, 인간의 얼굴을 포함하는 다수의 화상을 수집하고, 예를 들어 역전파 방식(Back Propagation method)을 따라, 감독 정보(supervisory information)로서 올바른 얼굴 영역 판정 정보를 얻기 위해 학습머신(예를 들어, Support Vector Machine)이 지도 학습(supervised learning)을 수행하게 하는 것이 바람직하다.

도 2에 도시된 CPU(205)가 얼굴 영역이 존재한다고 판정하면, 얼굴 인식 엔진(2203)은 얼굴 영역 정보로서, 화상의 얼굴 영역의 좌측 상부점과 우측 하부점을 나타내는 좌표값들을 생성한다. 복수의 얼굴 영역이 있다고 판정되면, 얼굴 인식 엔진(2203)은 복수개의 얼굴 영역 정보를 대응적으로 생성한다. 그 후, 얼굴 인식 엔진(2203)은 화상 입력 유닛(2202)으로부터 수신한 입력 화상과 함께 얼굴 영역 정보를 개인 얼굴 식별 엔진(2205)으로 보낸다.

개인 얼굴 식별 엔진(2205)은, 미리 준비된 개인 얼굴 식별 사전(2206)을 참조하여 개인을 식별하기 위한 머신 학습 처리를 수행한다. 개인 얼굴 식별 사전(2206)은 식별될 얼굴의 화상 정보로부터 얼굴 특징량 정보(예를 들어, 전체 얼굴 영역에 대한 눈-코 거리)를 추출하고 식별될 얼굴과 감독 정보로서의 인명을 연관시킴으로써 얻어질 수 있다.

개인 얼굴 식별 엔진(2205)은 도 2에 도시된 CPU(205)가, 화상 입력 유닛(2202)으로부터 생성된 화상으로부터 얼굴 인식 엔진(2203)에 의해 지시된 얼굴 영역을 자르도록 한다. 개인 얼굴 식별 엔진(2205)은 얼굴 화상으로서 얼굴 특징량을 추출한다. 그런 다음, 개인 얼굴 식별 사전(2206)이 유사한 얼굴 특징량을 보유하는 후보를 저장하고 있다면, 개인 얼굴 식별 엔진(2205)은 유사한 얼굴 특징량을 보유하는 얼굴의 인명을 출력한다.

얼굴 인식 엔진(2203)으로부터 생성된 복수개의 얼굴 영역이 있으면, 개인 얼굴 식별 엔진(2205)은 각 얼굴 영역에 대하여 전술된 처리를 수행한다. 얼굴 인식 엔진(2203)은 얼굴의 인명과 얼굴 영역 정보를 연관시키고 인명(즉, 개인 식별 정보)(2207)을 출력한다.

개인 얼굴 식별 사전(2206)은, 미리 준비되어 도 2에 도시된 저장 유닛(211) 에 저장될 수 있다. 또한, 필요하다면, CPU(205)가 개인 얼굴 식별 사전(2206)에 고속으로 액세스할 수 있도록 개인 얼굴 식별 사전(2206)을 RAM(206)에 복사할 수 있다. 전술한 바와 같이, 얼굴 인식 기법을 이용하여, 사진 내의 얼굴 영역과 얼굴의 인명 정보가 얻어질 수 있다.

도 23은, 본 실시예에 따라 도 22에 도시된 얼굴 인식을 실현할 수 있는 화상 인식 유닛을 포함하는 예시적인 구성을 도시한다. 도 23에 도시된 블록도는 도 3에 도시된 블록도와 유사하다. 도 23에서, 도 3에 도시된 기능 유닛과 유사한 기능 유닛은 동일한 참조 번호들로 표시되고 그의 설명은 반복되지 않는다.

도 23에서, 화상 인식 유닛(2301)은 도 22에 도시된 얼굴 인식을 실현할 수 있다. 따라서, 화상 인식 유닛(2301)은 사진의 개인의 정보를 시스템이 메타데이터로서 이용할 수 있게 해주는 효과를 가져온다.

특히, 투명 프레임은 전체 화상(예를 들어, 사진)에 적용될 수 있을 뿐만 아니라 화상 내의 사람의 얼굴 부분에도 적용될 수 있다. 또한, 얼굴의 윤곽에 적합한 임의의 형상을 갖는 투명 프레임이 기술될 수 있다. 따라서, 사진에서, 얼굴 영역과 같은 한정된 영역에 메타데이터가 부가될 수 있다. 제1 실시예에서 기술된 바와 같이, 다수의 경우에 사진 부분은 하나의 화상으로서 취급된다. 그리하여, 투명 프레임이 화상 내의 사람의 얼굴 부분에 적용되고 대응하는 인명이 메타데이터로서 부가된다면, 동일한 사람을 포함하는 다른 사진은 인명에 기초하여 검출될 수 있다. 또한, 다른 사진 내의 사람의 얼굴 영역을 나타낼 수 있다.

도 24는 전술된 검색을 실행함으로써 얻어질 수 있는 결과의 예를 도시한다. 도 24에 도시된 바와 같이, 검색될 단어 "BBB"가 입력 부분(1413)에 지정되며, 입력 부분은 도 14d에 도시된 부분과 유사하다. 이 경우에, 메타데이터로서 기능하는 문자열 "BBB"(더욱 구체적으로는, 얼굴 인식에서 얻어진 인명)가 사진(2401)의 얼굴 영역 부분(2402)에 부가되면, 검색될 단어는 도 14d를 참조하여 기술된 것과 동일한 방식으로 그와 일치한다.

따라서, 어플리케이션은 검색된 단어가 히트될 때 수행되는 동작을 수행한다. 더욱 구체적으로, 전술된 기술과 유사하게, 어플리케이션은 일치하는 메타데이터의 캡션 식별자와 동일한 값이 부여된 그래픽 기술을 검출한다. 그 후, 어플리케이션은 페이지 표시 시에 히트 부분에 대하여 강조 표시를 수행한다.

이 경우에, 강조될 대상은 캡션 식별자(1808)가 부가되는(즉, 얼굴 영역(2402)의 외주(outer periphery)에 따른 기술) 투명 프레임 벡터 경로 기술이다. 어플리케이션은 미리 지정된 투명색을 사용하는 대신 강조색(예를 들어, 적색)으로 프레임을 묘화한다. 따라서, 어플리케이션은 검색 시에 히트된 오브젝트 부분(2402)을 둘러싸는 강조된 프레임의 표시를 포함하는 유용한 페이지 표시를 실현할 수 있다.

전술된 바와 같이, 본 실시예는 시스템이 문서 화상에서 특정 부분(예를 들어, 화상 영역에 포함된 제한된 부분)을 검색하는 것을 가능하게 해준다. 또한, 도 8c에 도시된 대응표에 정의된 설정들에 따라 화상 영역이 배경 화상에 병합되는 경우에도, 본 실시예는 화상 영역에서 특정한 부분에 대하여 강조 표시를 수행할 수 있다.

본 발명의 양태들은 전술된 실시예들의 기능들을 수행하기 위해 메모리 장치에 기록된 프로그램을 판독하여 실행하는 시스템 또는 장치의 컴퓨터 또는 (CPU 또는 MPU와 같은 장치)에 의해서 그리고 예를 들면, 전술된 실시예들의 기능들을 실행하기 위해 메모리 장치에 기록된 프로그램을 판독하여 실행함으로써 시스템 또는 장치의 컴퓨터에 의해 단계들이 수행되는 방법에 의해서 또한 실현될 수 있다. 이러한 목적을 위하여, 예를 들어 네트워크를 통하여 또는 메모리 장치로서 기능하는 다양한 유형의 기록 매체(예를 들어, 컴퓨터 판독가능 매체)로부터 프로그램이 컴퓨터에 제공된다. 이러한 경우에, 프로그램이 저장되는 시스템 또는 장치, 및 기록 매체는 본 발명의 범위 내에 있는 것으로서 포함된다.

본 발명이 전술된 실시예를 참조하여 기술되었지만, 본 발명이 기술된 실시예에 한정되지 않는다는 것이 이해되어야 한다. 이하의 청구항들의 범위는 모든 수정, 동등한 구조 및 기능을 포괄하도록 최광의의 해석을 따라야 한다.

201: 스캐너 유닛
202: 프린터 유닛
203: 조작 유닛
205: CPU
206: RAM
209: 모뎀
210: ROM

Claims

화상 처리 장치이며,
입력 화상으로부터 오브젝트 영역을 추출하도록 구성된 영역 분할 유닛;
상기 영역 분할 유닛에 의해 추출된 오브젝트 영역의 속성을 판정하도록 구성된 판정 유닛;
상기 영역 분할 유닛에 의해 추출된 오브젝트 영역과 연관되어야 할 메타데이터를 취득하도록 구성된 메타데이터 처리 유닛;
투명 그래픽 기술(transparent graphics description)의 생성을 필요로 하는 속성을 갖는 오브젝트 영역에 대해서, 투명 그래픽 기술을 생성하도록 구성된 그래픽 기술 생성 유닛; 및
상기 그래픽 기술 생성 유닛에 의해 생성된 상기 투명 그래픽 기술과 상기 메타데이터를 연관시키고, 상기 입력 화상에 기초하여 생성된 화상 데이터와, 상기 메타데이터와 연관된 상기 투명 그래픽 기술을 포함하는 전자 문서를 생성하도록 구성된 전자 문서 생성 유닛을 포함하는 화상 처리 장치.
제1항에 있어서,
상기 메타데이터 처리 유닛은, 캡션 속성을 갖는 오브젝트 영역이 수반되는 오브젝트 영역과 연관되어야 할 메타데이터를, 상기 캡션 속성을 갖는 오브젝트 영역으로부터 얻어진 문자 인식 결과에 기초하여 취득하도록 구성된, 화상 처리 장치.
제2항에 있어서,
상기 메타데이터 처리 유닛은, 상기 캡션 속성을 갖는 오브젝트 영역으로부터 얻어진 상기 문자 인식 결과와, 본문 속성을 갖는 오브젝트 영역으로부터 얻어진 문자 인식 결과에 기초하여, 상기 캡션 속성을 갖는 오브젝트 영역이 수반되는 오브젝트 영역과 연관되어야 할 메타데이터를 취득하도록 구성되는, 화상 처리 장치.
제1항에 있어서,
상기 전자 문서 생성 유닛은, 상기 투명 그래픽 기술과 상기 메타데이터를 연관시킬 수 있는 식별자를 사용하도록 구성되는, 화상 처리 장치.
제1항에 있어서,
상기 투명 그래픽 기술의 생성을 필요로 하는 속성은 문자 이외의 속성인, 화상 처리 장치.
제1항에 있어서,
상기 투명 그래픽 기술의 생성을 필요로 하는 속성은 문자 이외의 속성들로부터 사용자의 지정에 기초하여 선택된 속성인, 화상 처리 장치.
제1항에 있어서,
상기 입력 화상에 기초하여 생성되는 화상 데이터는, 상기 오브젝트 영역이 병합된 배경 화상의 화상 데이터를 포함하는, 화상 처리 장치.
제1항에 있어서,
상기 입력 화상에 기초하여 생성되는 화상 데이터는, 상기 오브젝트 영역의 화상 파트의 데이터 또는 벡터 변환된 데이터를 포함하는, 화상 처리 장치.
제1항에 있어서,
생성되는 상기 전자 문서의 사용 목적에 따라, 상기 투명 그래픽 기술을 생성하는 속성을 설정하도록 구성된 설정 유닛을 더 포함하는, 화상 처리 장치.
제9항에 있어서,
생성되는 상기 전자 문서의 사용 목적을 사용자가 선택할 수 있게 하는 사용자 인터페이스를 표시하도록 구성된 표시 유닛을 더 포함하는, 화상 처리 장치.
제1항에 있어서,
상기 투명 그래픽 기술은, 상기 오브젝트 영역을 둘러싸는 프레임에 의해 기술되는, 화상 처리 장치.
제1항에 있어서,
상기 투명 그래픽 기술은, 미리 정해진 형상의 그래픽에 의해 기술되는, 화상 처리 장치.
제1항에 있어서,
상기 투명 그래픽 기술은, 사용자의 명령에 따라 그래픽의 형상에 의해 기술되는, 화상 처리 장치.
제13항에 있어서,
상기 투명 그래픽 기술의 그래픽의 형상, 선 폭 및 강조색 중 적어도 어느 하나를, 사용자가 선택할 수 있게 해주는 사용자 인터페이스를 표시하도록 구성된 표시 유닛을 더 포함하는, 화상 처리 장치.
제1항에 있어서,
상기 메타데이터 처리 유닛은, 상기 오브젝트 영역 상에서 수행되는 화상 인식 처리에 기초하여 상기 메타데이터를 취득하도록 구성된, 화상 처리 장치.
화상 처리 방법이며,
영역 분할 유닛을 이용하여 입력 화상으로부터 오브젝트 영역을 추출하는 단계;
판정 유닛을 이용하여, 상기 영역 분할 유닛에 의해 추출된 오브젝트 영역의 속성을 판정하는 단계;
메타데이터 처리 유닛을 이용하여, 상기 영역 분할 유닛에 의해 추출된 오브젝트 영역과 연관되어야 할 메타데이터를 취득하는 단계;
그래픽 기술 생성 유닛을 이용하여, 투명 그래픽 기술의 생성을 필요로 하는 속성을 갖는 오브젝트 영역에 대해서, 투명 그래픽 기술을 생성하는 단계; 및
전자 문서 생성 유닛을 이용하여, 상기 그래픽 기술 생성 유닛에 의해 생성된 상기 투명 그래픽 기술과 상기 메타데이터를 연관시키고, 상기 입력 화상에 기초하여 생성된 화상 데이터와, 상기 메타데이터와 연관된 상기 투명 그래픽 기술을 포함하는 전자 문서를 생성하는 단계를 포함하는, 화상 처리 방법.
컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체이며, 상기 컴퓨터 프로그램은 컴퓨터를,
입력 화상으로부터 오브젝트 영역을 추출하도록 구성된 영역 분할 유닛;
상기 영역 분할 유닛에 의해 추출된 오브젝트 영역의 속성을 판정하도록 구성된 판정 유닛;
상기 영역 분할 유닛에 의해 추출된 오브젝트 영역과 연관되어야 할 메타데이터를 취득하도록 구성된 메타데이터 처리 유닛;
투명 그래픽 기술의 생성을 필요로 하는 속성을 갖는 오브젝트 영역에 대해서, 투명 그래픽 기술을 생성하도록 구성된 그래픽 기술 생성 유닛; 및
상기 그래픽 기술 생성 유닛에 의해 생성된 상기 투명 그래픽 기술과 상기 메타데이터를 연관시키고, 상기 입력 화상에 기초하여 생성된 화상 데이터와, 상기 메타데이터와 연관된 상기 투명 그래픽 기술을 포함하는 전자 문서를 생성하도록 구성된 전자 문서 생성 유닛으로서 기능시키는, 컴퓨터 판독가능 저장 매체.