KR101462289B1

KR101462289B1 - 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색

Info

Publication number: KR101462289B1
Application number: KR1020097013412A
Authority: KR
Inventors: 크리스넨듀 차우더리; 아슈토쉬 가르그; 프라센지트 푸칸; 아르빈드 사라프
Original assignee: 구글 잉크.
Priority date: 2006-11-29
Filing date: 2007-11-28
Publication date: 2014-11-14
Also published as: JP5266246B2; CN101589389B; JP5559899B2; EP2102762A1; US7986843B2; JP2010511253A; EP2102762A4; US20110274373A1; AU2007325200B2; US8620114B2; JP2013127815A; EP3246829A1; CN101589389A; WO2008067380A1; US20080126415A1; CA2671025C; AU2007325200A1; CA3027962A1; EP2102762B1; EP3246829B1

Abstract

정보를 관리하기 위한 컴퓨터 구현 방법이 개시된다. 방법은 모바일 장치 네트워크에 연결하도록 구성된 모바일 장치로부터 메시지(메시지는 모바일 장치에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함함)를 수신하는 것과, 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 워드를 결정하는 것과, 워드에 기초해서 디지털 이미지를 색인화하는 것과, 하나 이상의 수신 검색 용어에 기초해서 디지털 이미지의 나중 검색을 위해 디지털 이미지를 저장하는 것을 포함한다.

Description

모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색{DIGITAL IMAGE ARCHIVING AND RETRIEVAL USING A MOBILE DEVICE SYSTEM}

본 출원은 정보 구성 시스템 및 방법을 기술하며 특히 문서의 자동 아카이빙 및 검색에 관한 특징을 기술한다.

일상적인 생활에 있어서, 사람들은 중요하거나 혹은 중요하지 않을 수 있는, 그리고 나중에 필요로 하거나 혹은 필요로 하지 않을 수 있는 정보를 가진 물리적 문서를 빈번하게 받는다. 예컨대 하루 중에 종종 영수증 및 명함을 수령하며, 수령인은 종종 얼마나 이러한 문서들을 저장할지를 확신할 수 없다. 이러한 문서들은 컴퓨터에 저장을 위해 물리적으로 저장되거나 혹은 스캔될 수 있다. 양 경우에 있어서, 저장된 문서는 전형적으로 메타 정보(예컨대 드로어 또는 폴더에 드롭된)를 임의의 아카이빙없이 어떤 위치에 드롭되거나 혹은 사람은 문서를 아카이빙 메타 정보와 의도적으로 연계시켜여야 한다(예컨대, 어떤 문서화 시스템에 따라 특정 폴더에 문서를 두거나 혹은 컴퓨터 상에 저장된 문서와 연계시키기 위한 정보에서 타이핑함으로써).

본 명세서는 문서 아카이빙에 관한 방법 및 시스템을 기술한다. 이 방법 및 시스템은 사용자로 하여금 물리적 문서들의 디지털 표현을 저장하게 하고 용이하게 검색을 가능하게 한다. 물리적 문서들의 디지털 이미지는 광학 문자 인식(OCR) 기술을 이용하여 처리 가능하며, 다음에 나중 검색을 위해 색인화되어 저장된다. 이미지 탐색, OCR 처리 및 이미지 아카이빙은 일상에서 겪는 무수한 문서들(예, 영수증, 명함, 의사의 처방전, 티켓, 계약서 등)의 관리를 용이하게 할 수 있는 엔드 투 엔드 시스템으로 결합 가능하며, 이러한 시스템의 사용자는 일부 구현예에서 문서 아카이빙 프로세스를 트리거하기 위해 단지 화상을 취할 필요가 있다.

시스템의 사용자는 문서들의 디지털 이미지를 용이하게(드로어에 문서를 드롭하기 용이하고 비형식적으로) 아카이빙할 수 있고 또한 키워드 검색을 이용하여 디지털 이미지를 용이하게 검색 가능하다. 셀 폰에 내장된 디지털 카메라를 사용하여 이미지를 캡쳐링할 수 있고 OCR 기술을 이용하여 나중의 효과적인 서치를 가능하게 하기 위해 이미지로부터 관련 키워드를 인식하고 추출할 수가 있다. 획득한 문서 이미지는 모바일 장치에서 후단 시스템(예컨대, 모바일 게이트웨이 및 이메일 서버)으로 직접 전달 가능하다. 시스템의 사용자는 이미지를 아카이빙하여 저장하기 위해 모바일 장치에서 PC로 이미지를 다운로드할 필요가 없어, 이미지 아카이빙을 사용자를 위한 단순한 프로세스로 만든다. 더욱이 각종 전처리 및 후처리 동작을 포함한 향상된 OCR 기술을 이용하여 저해상도의 이미지를 또한 다룰 수가 있다. 이처럼 일상에서 겪는 무수한 문서들이 용이하게 디지털화되고, 구성되며, 저장되고, 신속하게 효율성있게 검색될 수가 있다.

일반적으로, 본 명세서에서 기술된 주제의 일형태는 모바일 장치 네트워크에 연결하도록 구성된 모바일 장치로부터 메시지를 수신하는 것과, 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 워드를 결정하는 것과, 그 워드에 기초해서 디지털 이미지를 색인화하는 것과, 하나 이상의 수신된 검색 용어에 기초해서 디지털 이미지의 나중 검색을 위해 디지털 이미지를 저장하는 것을 포함하는 컴퓨터 구현 방법으로 실시될 수 있으며, 모바일 장치는 디지털 카메라를 포함하며, 메시지는 디지털 카메라에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함한다. 상기 방법은 또한 하나 이상의 검색 용어를 수신하는 것과, 하나 이상의 검색 용어에 기초해서 디지털 이미지를 검색하는 것을 포함한다.

상기 방법은 모바일 장치의 유효성을 검사하는 것(수신된 디지털 이미지와 연관된 정보 및/또는 모바일 폰 번호에 기초해서)을 포함할 수 있다. 메시지를 수신하는 것은 첨부된 디지털 이미지를 가진 이메일 메시지를 수신하는 것을 포함할 수 있으며 상기 방법은 워드들 중 적어도 하나와 모바일 장치에 대응하는 사전 정의된 레이블을 이메일 메시지에 부가하는 것을 포함할 수 있고, 상기 결정하는 것과, 색인화하는 것과, 저장하는 것은 이메일 시스템에서 수행 가능하다.

디지털 이미지를 수신하는 것은 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대하여 촬영된 적어도 2 개의 디지털 이미지를 수신하는 것을 포함할 수 있고, 워드를 결정하는 것은 워드를 찾기 위해 적어도 2 개의 디지털 이미지에서 상관 광학 문자 인식을 수행하는 것을 포함할 수 있다. 워드를 결정하는 것은 다중 스케일로 광학 문자 인식을 수행하는 것을 포함할 수 있다.

상기 방법은 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하는 것을 포함할 수 있다. 전처리는 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 이진화 임계치를 식별하는 것을 포함할 수 있다. 전처리는 저해상도(lower resolution)에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도(higher resolution)에서 그레이 레벨을 취득하는 것을 포함할 수 있다.

상기 방법은 광학 문자 인식에 기인한 일반 문자 오인식을 확인하고 수정하기 위해 워드를 후처리하는 것을 포함할 수 있다. 메시지를 수신하는 것은 디지털 이미지로 표현된 문서에 대한 유형의 표시를 수신하는 것을 포함할 수 있고, 후처리는 문서 유형의 표시에 따른 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하는 것과, 선택된 사전 기반의 언어 모델에 따라서 워드를 후처리하는 것을 포함할 수 있다. 더욱이 유형 표시를 수신하는 것은 메시지의 사용자 지정 범주를 수신하는 것을 포함할 수 있으며, 그룹에서 선택된 사용자 지정 범주는 명함 및 신용 카드 영수증을 포함한다.

이러한 형태의 다른 실시예는 대응 시스템, 장치 및 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 처리 장치의 동작을 제어하기 위해 혹은 데이터 처리 장치로 실행하기 위한 컴퓨터 판독 가능한 매체 상에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈을 포함한다.

본 명세서에서 기술되는 주제의 일형태는 모바일 장치 네트워크와, 디지털 이미지를 취하고, 모바일 장치 네트워크에 연결하며, 모바일 장치 네트워크를 통해 디지털 이미지를 전송하도록 구성된 복수 개의 모바일 장치와, 모바일 장치로부터 디지털 이미지를 수신하고, 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하며, 추출된 워드에 기초해서 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하는 시스템에서 실시 가능하다. 하나 이상의 컴퓨터는 제1 후단 컴포넌트와 제2 후단 컴포넌트를 포함할 수 있으며 제1 후단 컴포넌트는 디지털 이미지를 수신하고, 모바일 장치의 유효성을 검사하며, 광학 문자 인식을 적용하도록 구성되고, 제2 후단 컴포넌트는 디지털 이미지를 색인화하고 디지털 이미지를 저장하도록 구성된다. 제2 후단 컴포넌트는 이메일 시스템을 포함할 수 있다.

모바일 장치는 모바일 폰을 포함할 수 있고, 모바일 장치 네트워크는 모바일 폰 네트워크를 포함할 수 있다. 하나 이상의 컴퓨터는 PC를 포함할 수 있다. 하나 이상의 컴퓨터는 검색 어플라이언스를 포함할 수 있다. 하나 이상의 컴퓨터는 모바일 장치와 연관된 모바일 폰 번호에 기초해서 모바일 장치의 유효성을 검사하도록 구성 가능하다.

하나 이상의 컴퓨터는 검색 용어를 수신하고 검색 용어에 기초해서 디지털 이미지를 검색하도록 구성 가능하다. 하나 이상의 컴퓨터는 디지털 이미지를 포함하는 메시지에 추출된 워드와 사전 정의된 레이블을 부가하도록 구성 가능하다. 하나 이상의 컴퓨터는 상관 광학 문자 인식을 수행하도록 구성 가능하다. 하나 이상의 컴퓨터는 복수 스케일로 광학 문자 인식을 수행하도록 구성 가능하다.

하나 이상의 컴퓨터는 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하고, 광학 문자 인식에 기인한 공통 문자 오인식을 식별하여 정정하기 위해 후처리하도록 구성 가능하다. 하나 이상의 컴퓨터는 디지털 이미지에 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2진화 임계치를 식별하도록 구성 가능하다. 하나 이상의 컴퓨터는 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하도록 구성 가능하다.

하나 이상의 컴퓨터는 디지털 이미지와 함께 문서 유형의 표시를 수신하고, 문서 유형의 표시에 따라 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하며, 선택된 사전 기반의 언어 모델에 따라서 추출된 워드를 후처리하도록 구성 가능하다. 더욱이 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함할 수 있다.

본 명세서에서 기술된 주제의 일형태는 디지털 이미지를 전송하도록 구성된 모바일 장치 네트워크와, 컴퓨터 네트워크를 통해 전자 검색 서비스를 제공하도록 구성된 서버 환경부와, 서버 환경부에 모바일 장치 네트워크를 연결하는 연결 수단을 포함하며, 상기 연결 수단은 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하는 적용 수단과 컴퓨터 네트워크를 통해 디지털 이미지의 전자 검색 서비스를 위한 서버 환경부에 디지털 이미지와 추출된 워드를 제공하는 공급 수단을 포함한다. 상기 연결 수단은 모바일 장치 네트워크에서 모바일 장치의 유효성을 검사하는 수단을 포함할 수 있다. 상기 공급 수단은 추출된 워드와 사전 정의된 레이블을 디지털 이미지를 포함하는 메시지에 부가하는 수단을 포함할 수 있다.

상기 적용 수단은 상관 광학 문자 인식을 수행하는 수단을 포함할 수 있다. 상기 적용 수단은 복수 스케일로 광학 문자 인식을 수행하는 수단을 포함할 수 있다. 상기 적용 수단은 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하는 수단과 광학 문자 인식에 기인한 일반 문자 오인식을 확인하여 정정하기 위해 추출된 워드를 후처리하는 수단을 포함할 수 있다.

상기 적용 수단은 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2 진화 임계치를 식별하는 수단을 포함할 수 있다. 상기 적용 수단은 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 수단을 포함할 수 있다. 상기 적용 수단은 문서 유형의 수신된 표시에 따라 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하는 수단과 선택된 사전 기반의 언어 모델에 따라서 추출된 워드를 후처리하는 수단을 포함할 수 있다. 더욱이 문서 유형의 표시는 명항 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함할 수 있다.

이후 본 발명의 하나 이상의 상세에 대해서는 첨부 도면을 참조하여 설명하기로 한다. 본 발명의 기타 특징, 목적 및 이점은 상세한 설명, 도면 및 청구범위에 기술된 내용으로부터 명확해질 것이다.

도 1은 일례의 디지털 이미지 아카이빙 시스템의 개략도이다.

도 2는 디지털 이미지를 아카이빙하여 검색하기 위한 일례의 방법의 흐름도이다.

도 3은 향상된 광학 문자 인식의 일례의 방법의 흐름도이다.

도 4는 일례의 범용 컴퓨터 시스템의 개략도이다.

도 1은 일례의 디지털 이미지 아카이빙 시스템(100)의 개략도이다. 시스템(100)은 모바일 장치 네트워크(120)(예, 사설 셀 폰 네트워크 또는 무선 이메일 네트워크)를 통해 통신하는 다중 모바일 장치(110)(예, 셀 폰 또는 PDA)를 포함한다. 장치(110)는 무선 전송(단거리, 중거리, 혹은 장거리)을 이용하여 통신할 수 있다는 의미에서 모바일이다. 그러나 모바일 장치(110)는 또한 유선 통신용 커넥터(예, 유니버설 시리얼 버스(USB) 커넥터)를 포함할 수 있다.

모바일 장치(110)는 디지털 이미지를 취하도록 구성된다. 이처럼 모바일 장치(110)는 디지털 카메라(112)를 포함한다.디지털 카메라(112)는 다른 기능을 가진 장치(예, 카메라 내장 모바일 폰 또는 PDA)에 내장 가능하거나 모바일 장치(110)는 무선 통신 기능을 또한 갖는 디지털 카메라(112)일 수 있다.

모바일 장치(110)를 이용하여 물리적 문서(105)의 하나 이상의 디지털 이미지(132)를 취할 수가 있다. 문서(105)는 하나 이상의 워드를 포함하는 임의의 물리적 문서일 수 있다. 예컨대 문서(105)는 명함, ATM 영수증, 신용 카드 구매 영수증, 의사의 처방전, 여행 티켓(예, 비행기 티켓 또는 철도 티켓), 계약서, 서신, 잡지에서 보여지는 레시피 등)일 수 있다. 보다 일반적으로 문서(105)는 종이 문서일 필요는 없다. 문서(105)는 아카이브되어 검색 가능한 디지털 이미지, 예컨대 도로 신호, 공시된 공개 알림, 길잃은 애완동물 표지, T 셔츠 등등을 원할 수 있는 워드를 가진 임의의 물리적 아티클일 수 있다. 여기서 사용되는 바와 같이 "워드드(words)"란 용어는 광학 문자 인식 기술을 이용하여 식별 가능한 텍스트 정보의 모든 방식을 포함하며, 다중 토큰은 함께 그룹화되어 별도의 백색 공간(white space)에 상관없이 시스템에 의해서 단일 "워드(word)"라고 고려될 수가 있다.

디지털 이미지(132)는 메시지(130)로 제1 후단 컴포넌트(150)에 송신 가능하다. 메시지(130)는 디지털 이미지(132)를 포함하는 멀티미디어 메시지 명세(MMS) 메시지일 수 있다. 다른 메시지 포맷 또한 가능하다. 예컨대 메시지(130)는 이메일 메시지일 수 있다.

제1 후단 컴포넌트(150)는 인터넷과 같은 또 다른 네트워크(140)를 통해서 모바일 장치 네트워크(120)에 연결 가능하다. 이와 달리 제1 후단 컴포넌트(150)는 모바일 네트워크(120)에 직접 연결 가능하거나 혹은 모바일 네트워크(120) 내에 포함될 수가 있다. 예컨대 제1 후단 컴포넌트(150)는 디지털 이미지(132)가 아카이빙을 위해 억셉트되기 전에 셀 폰(110)의 유효성 검사를 위해 이용되는 모바일 게이트웨이일 수 있다.

제1 후단 컴포넌트(150)는 모바일 장치(110)의 유효성을 검사하도록 구성된 유효성 검사 엔진(152)과, 광학 문자 인식을 디지털 이미지(132)에 적용하도록 구성된 OCR 엔진(154)을 포함할 수 있다. 제1 후단 컴포넌트(150)는 메시지(130)에 부가하기 위해 색인 정보(134)를 생성함으로써(예컨대, 이메일 메시지의 제목 라인에 정보를 부가함으로써), 색인 정보(134)를 디지털 이미지(132)와 연계시킨다.

색인 정보(134)는 광학 문자 인식을 이용하여 문서 이미지(132)에서 식별된 하나 이상의 워드를 포함한다. 색인 정보(134)는 또한 사전 정의된 레이블, 문서 유형 정보, 및 시스템 상태 정보와 같은 추가 정보를 포함할 수 있다. 사전 정의된 레이블은 모바일 장치(예, 소스 모바일 폰 번호), 모바일 장치의 이미지 아카이빙 특징과 관련된 기능명(예컨대, "퍼스널 이미지 콘테이너(PIC)"는 이미지 아카이빙 기능을 식별하기 위해 모바일 장치의 사용자 인터페이스에서 사용되는 레이블일 수 있음), 또는 둘다에 대응할 수 있다. 문서 유형 정보는 문서의 속성(예컨대 명함 대 신용 카드 영수증)을 표시할 수 있고 사용자에 의해 입력 가능하거나(예컨대 모바일 장치의 사용자 인터페이스 상의 메뉴에서 선택함으로써) 혹은 자동적으로 정해질 수 있다(예컨대 디지털 이미지(132)로 표현된 문서의 상대적인 수직, 수평 디멘죤에 기초해서).

시스템 상태 정보는 이미지 포착 일시(예, 타임 스탬프), 전송 일시, 수령 일시, 또는 이들의 조합과 같은 정보를 포함할 수 있다. 이미지 포착, 전송, 수령 시각에서의 모바일 장치의 지리적 위치, 또는 이들의 조합과 같은 추가의 시스템 상태 정보가 또한 포함 가능하다.

제1 후단 컴포넌트(150)는 포함된 색인 정보(134)를 가진 메시지(130)를 제2 후단 컴포넌트(160)에 송신 가능하다. 제2 후단 컴포넌트(160)는 인터넷과 같은 또 다른 네트워크(140)를 통해 모바일 장치 네트워크(120)에 연결 가능하다. 이와 달리 제2 후단 컴포넌트(160)는 모바일 네트워크(120)에 직접 연결 가능하거나 혹은 모바일 네트워크(120) 내에 포함 가능하다.

제2 후단 컴포넌트(160)는 색인 엔진(162)과 검색 엔진(164)을 포함할 수 있 다. 색인 엔진(162)은 색인 정보(134)에 기초해서 문서 이미지(132)를 아카이빙할 수 있다. 검색 엔진(164)은 네트워크 장치(170)로부터 수신된 하나 이상의 검색 용어에 기초해서 네트워크 장치(170)로의 전달을 위해 문서 이미지(132)를 페치할 수 있다. 네트워크 디바이스(170)는 모바일 장치 네트워크 또는 추가 네트워크(140)에 연결 가능하다. 예컨대 네트워크 장치(170)는 인터넷에 연결되어 웹 브라우저를 실행하는 PC일 수 있다.

도 1에 도시한 일례의 시스템(100)은 여러가지 상이한 방식으로 구현 가능하며, 도시한 동작 컴포넌트의 특정 부분에 제한되는 것이 아니라 단지 일례로서 제시되었음을 알아야 한다. 여기서 사용되는 바와 같이, "후단 컴포넌트"란 용어는 통상의 후단 컴포넌트(예, 데이터 서버) 및 미들웨어 컴포넌트(예, 어플리케이션 서버) 둘다를 포함한다. 일반적으로, 제1 및 제2 후단 컴포넌트(150,160)는 하나 이상의 위치에 있는 하나 이상의 서버, 즉 서버 환경부를 이용하여 구현 가능하다. 예컨대 제1 및 제2 후단 컴포넌트(150,160)는 미국 캘리포니아 마운틴 뷰 소재의 구글 사(Google Inc.)가 공급하는 GMAIL(상표명)과 같은 공개적으로 엑세스 가능한 이메일 시스템의 서버 머신일 수 있다.

더욱이 메시지(130)는 시스템(100)의 각종 컴포넌트들 사이에서 수정된 포맷을 가질 수가 있어 각 단계에서 별개의 별개의 메시지로 고려될 수가 있음을 알아야 한다. 예컨대 모바일 장치(110)로부터 수신된 메시지는 MMS 포맷일 수 있으며, 제1 후단 컴포넌트(150)로부터 수신된 메시지는 제1 및 제2 후단 컴포넌트(150) 및 (160) 사이에서 사용되는 특정 메시징 포맷(proprietary messaging format)일 수 있으며, 마지막으로 제2 후단 컴포넌트(160)로부터 수신된 메시지는 HTML 포맷일 수 있다.

사용된 포맷 및 컴포넌트 구성에 상관없이, 시스템(100)은 모바일 장치(110), 모바일 장치 네트워크(120), 및 후단 컴포넌트(150,160)를 모바일 장치(110)의 사용자를 위해 하나의 서비스로 통합한다. 이처럼 예컨대 사용자는 그의 셀 폰으로 화상을 취할 수가 있고 이미지를 그의 이메일 계정에 이메일 보낼 수 있으며(혹은 MMS로서 송신), 이미지는 자동으로 OCR되어 색인된다. 다음에 사용자는 전자 메일 시스템의 사용자 인터페이스를 이용하여 이미지를 엑세스하여 검색할 수 있다.

도 2는 디지털 이미지를 아카이빙하고 검색하는 일례의 방법(200)의 흐름도이다. 메시지는 디지털 카메라를 가진 모바일 장치로부터 수신된다(210). 모바일 장치는 사용자가 이메일 시스템 내에 그의 계정으로 셀 폰 번호를 등록한 셀 폰일 수 있으며, 메시지는 셀 폰에서 (예컨대 archive@***.com과 같은 공지의 이메일 어드레스로)송신된 이메일 혹은 이메일 시스템 단축 코드(예컨대 아카이브 서비스를 표시하는 키워드를 가진)에 송신된 MMS일 수 있다. 모바일 장치로부터의 메시지는 디지털 카메라로 취득한 하나 이상의 디지털 이미지를 포함하며, 디지털 이미지는 워드에 대응하는 정보(즉, 문서 텍스트를 가시적으로 표현하는 이미지 데이터)를 포함한다.

모바일 장치는 수신된 이미지에 기초해서 유효성 검사가 가능하다(220). 예컨대 모바일 게이트웨이 또는 이메일 시스템은 이전에 채용된 인증 및 관련 메카니 즘에 기초해서 셀 폰의 유효성을 검사할 수가 있다. 사용자 계정은 폰 번호에 바운드될 수 있고 인증 및 관련 메카니즘은 다음과 같이 동작 가능하다. 사용자는 사용자의 모바일 장치 번호를 지정하는 웹 사이트(예컨대 이메일 시스템의 웹 사이트)의 폼(form)을 채움으로써 바인딩을 시작할 수 있다. 자동화 시스템이 그 폼을 처리하여 SMS(단문 서비스) 메시지를 랜덤하게 생성된 스트링과 함께 웹 요청에 대해 사용자의 모바일 장치로 송신한다. 다음에 사용자는 동일한 모바일 장치로부터 재송신된 SMS를 통해 혹은 웹 상에서 그 스트링을 검증할 수 있다. 사용자는 모바일 장치가 사용자에게 속한 경우에만 그 스트링을 알 것이다. 이와 달리 사용자는 사용자와 연관된 식별자(웹 사이트에 의해서 할당된 바와 같은)를 가진 적절한 번호 또는 단축 코드에 모바일 장치로부터의 메시지를 송신하는 대신에 모바일 장치로부터의 바인딩을 시작할 수 있다. 사용자 계정은 유사하게 검증될 스트링을 가진 메시지를 수신한다.

워드는 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 결정된다(230) 이것은 이미지에서 모든 워드를 결정하는 것과, 혹은 오직 관련 키워드 만을 추출하는 것을 포함할 수 있다. 예컨대 "a" 및 "the"와 같은 아주 일반적인 워드는 무시 가능하며 사전에서 종종 드물게 발생하는 워드는 보다 관련이 있는 것으로서 랭크될 수 있다. 이것은 웹 검색 기술에서 이용되는 바와 같이 불사용 워드(예, "and", "for", "a", "the" 등)를 단순히 스트리핑하는 통상의 기술을 포함할 수 있다. 이것은 또한 사람, 장소, 비지니스 등을 의미하는 적절한 명사 또는 명명된 실체(예, "존", "샌 디에고", "바니 앤 노블" 등)를 식별하는 것과 같이 보다 관련이 있는 것으로서 워드를 능동적으로 식별하는 것을 포함할 수 있다. 일부 구현예에서, 모든 워드들이 식별 가능하고 후단에서의 처리 엔진(예, 색인 엔진)은 관련 워드와 비관련 워드 간의 식별을 다룰 수가 있다.

일부 구현예에서 메시지는 동일한 문서의 적어도 2 개의 이미지를 포함할 수 있으며, 워드는 그 워드를 찾기 위해 적어도 2 개의 디지털 이미지에서 상관 광학 문자 인식을 수행함으로써 결정 가능하다. 예컨대 2 개의 디지털 이미지는 사용자에 의해서 별도로 촬영되어 이메일 또는 MMS 전송을 위해 함께 수동으로 그룹화될 수 있거나 혹은 2 개의 디지털 이미지는 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대해 촬영되어질 수 있다. 예를 들면, 도 1을 참조해서, 디지털 카메라(112)는 2 개의 화상이 신속히 연속으로 촬영되어져 자동으로 제1 후단 컴포넌트(150)에 자동으로 송신될 수 있도록 트리거링하는 입력(114)을 가질 수 있다. 입력(114)은 또한 하나의 화상과 자동 송신을 트리거링하도록 설계 가능하다.

입력(114)은 모바일 장치(110)의 그래픽 유저 인터페이스에서의 그래픽 요소 또는 모바일 장치(110) 상의 물리적 버튼일 수 있다. 입력(114)은 측면 장착된 프레스 가능한 썸휠(thumbwheel)과 같은 다기능적 입력일 수 있다. 이와 달리 입력(114)은 이미지 아카이빙 시스템에 전용될 수 있어, 모바일 장치의 스크린 상에 디스플레이된 임의의 화상은 입력(114)과의 단일 사용자 상호작용에 응답하여 OCR 및 아카이빙을 위해 자동적으로 송신 가능하다. 어하튼 간에 입력(114)은 한번 또는 두번의 사용자 입력 조치(예, 하나 또는 두번의 버튼 누름)에 응답하여 제1 후단 컴포넌트(150)에 이미지의 송신을 트리거링하도록 구성 가능하다.

다시 도 2를 참조해서, 결정된 워드는 이메일의 제목 라인, 헤더 라인 혹은 본문에 부가될 수 있으며, 풀 이미지가 이메일의 첨부 파일로서 저장 가능하다. 또한, 이메일은 사전 정의된 레이블(예, "PIC")로 자동 태그 가능하다. 디지털 이미지는 워드에 기초하고 또한 가능하게는 사전 정의된 레이블에 기초해서 색인화 가능하다(240). 각종 유형의 워드 색인화가 이용 가능하다. 예컨대 다음 특허 출원에서 기술하고 있는 시스템 및 기술을 이용할 수 있다. 즉 2004년 3월 31일자로 출원되어 2005년 10월 6일자로 공개된 Paul Buchheit 등의 발명의 명칭이 "이메일 대화 관리 시스템"인 미국 특허 공개 공보 제2005/0222985 A1호와, 2004년 8월 6일자로 출원되어 2005년 10월 6일자로 공개된 Paul Buchheit 등의 발명의 명칭이 "대화 기반의 이메일 시스템에서 검색 질의와 관련된 메시지를 식별하는 것"인 미국 특허 공개 공보 제2005/0223058호이며, 이 두 공개 공보는 여기서 참조 문헌으로 결합되고 있다. 디지털 이미지는 디지털 이미지의 나중 검색을 위해 저장된다(250). 일부 구현예에서 색인화 및 저장 동작은 서로 통합됨에 주목하라.

하나 이상의 검색 용어는 네트워크 장치로부터 수신 가능하다(260). 이들 검색 용어는 웹 브라우저 인터페이스(모바일 폰, PC 등에서)에서와 같이 사용자가 입력 가능하며, 이미지 아카이빙 시스템에 송신 가능하다. 이와 달리 이들 검색 용어는 일부 입력에 응답하여 컴퓨터에 의해 생성 가능하다. 어쨋든 디지털 이미지는 하나 이상의 검색 용어에 기초해서 검색 가능하며(270), 추가 처리를 위해 또 다른 시스템에 송신되거나 사용자에게 제시 가능하다.

일부 구현예에 있어서, OCR 기술은 저해상도 이미지(예, 1 메가 픽셀 카메라로부터의 이미지)를 다룬다. 또한 카메라/렌즈 품질, 문서 촬영 거리 등을 해결하기 위한 단계들이 취해질 수 있다. 이미지 향상 및 슈퍼 해상도 기술을 이용하여 향상된 OCR 능력을 위해 문서 이미지를 전처리할 수가 있다.

도 3은 향상된 광학 문자 인식을 위한 일례의 방법(300)의 흐름도이다. 디지털 이미지를 포함하는 메시지가 검색(310) 가능하고 그 이미지는 디지털 이미지로 표현된 문서에 대한 유형의 표시를 포함할 수 있다. 화상이 취해졌을 때 사용자가 문서(예, 명함 대 영수증)의 유형을 알아차린 경우와 같이 그 유형의 표시는 명시적으로 포함될 수 있다. 이와 달리 그 유형의 표시는 디지털 이미지로 표현된 문서의 상대적인 수직 및 수평 디멘죤과 같이 이미지 자체의 형태일 수 있다. 예를 들면, 명함은 통상적으로 문서 상의 텍스트에 대한 관계 및 화상에서의 어느 적절한 문서의 엣지에 대해서 체크함으로써 디지털 화상으로부터 결정 가능한 일반 종횡비를 가진다. 유형의 표시는 또한 일부 워드를 찾는 초기 OCR 패스에 의해 결정될 수 있고 다음에 이들 워드를 이용하여 나중 OCR 처리에 영향을 미칠 수 있는 문서의 유형을 표시할 수가 있다.

디지털 이미지는 광학 문자 인식을 향상하기 위해 전처리 가능하다(320). 전처리는 통상의 기술을 이용하여 이미지를 디노이즈하고 디스큐하는 것을 포함할 수 있다. 전처리는 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2 진화 임계치를 식별하는 것을 포함할 수 있다. 또한, 전처리는 저해상도 이미지에서 그의 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 각각의 고해상도 픽셀에서 그레이 레벨을 취득하는 반복 강화 방법을 채용할 수 있다.

바이큐빅/바이리니어/스플라인 보간에 기초한 통상의 슈퍼 해상도 알고리즘은 이미지에 대해 로우 패스 필터를 필수적으로 실행함으로써, 샤프한 엣지를 제거한다. 이것은 원래의 이미지가 이미 부분적으로 블러링되었을 때 바람직하지 않을 수 있는 이미지의 추가 블러링을 가져온다. 문자 경계부에서의 블러링은 OCR 품질의 저하를 야기할 수 있다. 한편, 최근접 이웃 보간처럼 엣지 보존 슈퍼 해상도 알고리즘은 OCR 엔진을 혼돈하는 앨리어싱 아티팩트(aliasing artifact)를 야기할 수 있다. 이와 대조적으로 후술하는 신규의 접근 방법은 슈퍼 샘플링 동안 노이즈를 증대함이 없이 블러링을 제거할 수가 있다. "슈퍼 샘플링" 및 "슈퍼 해상도"란 용어는 여기서 동의어로 사용되고 있다.

g(x,y)│(x,y)∈[1...M, 1...N]라고 하면, 이는 관측된 이미지를 표현하는 것으로서, 여기서 M, N은 이미지 디멘죤이다. f(x,y)│((x,y) ∈ R²)는 기저 트루 이미지이다. 이러한 모델에서 g는 f의 블러링된 변형이다. 즉 g = f^*h^PSH 이며, 여기서 *는 콘볼루션 연산자를 표시하고, h^PSF는 포인트 확산 함수를 표시한다(이 함수는 블러링 프로세스를 효과적으로 모델링한다). h^PSH는 h^PSF가 일반적으로 가중된 이웃 평활화를 수행하는 윈도우 함수라고 알고 있기 때문에 명확히 알 필요는 없다. 그에 따라 포인트 확산 함수는 가우시안 함수로 모델링 가능하다.

f⁽ⁿ⁾를 f와 g⁽ⁿ⁾ = f⁽ⁿ⁾* h^PSF에 대한 근사치라고 하면, 수학식은 다음과 같다.

여기서, 대문자는 퓨리에 변환을 의미한다. 상기 수학식으로부터

여기서, c는 상수이며, H^BP는 필터이다. 이상적으로 1 - (H^BP)/cㆍH^PSF = 0이다. 그러나, 포인트 확산 함수는 로우 패스 필터이므로, 그의 퓨리에 변환은 역함수를 찾는 것이 복잡한 대부분의 주파수에서 보통 0이다.

그러므로, 실용상 반복적인 미세 조정 방법이 사용 가능하다.

, 여기서 H^BP와 c는

0

이 되도록 선택된다. c가 크면 클수록 노이즈와 오차 허용범위가 커지나, 컨버전스는 느려지고, 그 역의 관계도 성립한다. 기저 이미지의 초기 근사치 f⁽⁰⁾는 바이큐빅 B 스플라인 보간을 통해서 생성 가능하다. 이처럼 반복적인 미세 조정 방법에 의해서 저해상도 이미지에서 그의 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 각각의 고해상도 픽셀에서 그레이 레벨이 취득된다.

광학 문자 인식은 디지털 이미지에서 워드들을 결정하기 위해 전처리 디지털 이미지에서 수행 가능하다(330). OCR 동작은 다중 스케일로 수행 가능하다. 슈퍼 해상도 겸용 디블러링 알고리즘을 실행하면, 문서의 다중 버전이 생성되어 OCR 가능하다. 예컨대 원래의 스케일에서 제1 버전, 2 × 스케일에서의 제2 버전, 3 ×스케일에서의 제3 버전은 OCR 엔진으로 개별적으로 공급 가능하며 최종 워드의 결합이 저장 가능하다. 원래의 문서는 폰트 크기의 혼합을 가질 수가 있다. 즉 가장 작은 폰트는 OCR 엔진에 대해서 너무 작아 인식이 불가능할 수가 있다. 이러한 폰트들은 문서의 상위 해상도 버전(디블러링된)으로부터 인식가능하다. 한편, 원래의 문서에서 대형 폰트 크기는 슈퍼 해상도 후 OCR 엔진이 인식하기에는 너무 큰 폰트 크기가 될 수가 있다. 이러한 폰트들은 저해상도 버전으로부터 인식 가능하다.

또한, OCR이 다중 스케일로 수행되는지에 관계없이 광학 문자 인식의 초기 결과는 실제 워드이거나 혹은 실제 워드가 아닐 수 있는 워드로 함께 그룹화된 문자들의 스트링(string)이 될 것이다(예컨대, 워드 "클립(clip)"은 수 "1"로 대체된 소문자 "l"로 "c1ip"로서 읽을 수가 있다). 이처럼 후처리는 광학 문자 인식으로 인한 일반 문자 오인식을 확인하여 정정하기 위해 워드에 대해서 수행 가능하다. 후처리는 언어 모델 기반일 수가 있으며 하나 이상의 사전을 이용할 수가 있다.

일부 구현예에서 다중 사전 기반의 언어 모델이 이용 가능하다. 문서에 대한 유형 표시에 따라 적어도 2 개의 사전 기반의 언어 모델 사이에서 선택이 행해질 수 있다(340). 다음에 워드는 선택된 사전 기반의 언어 모델에 따라서 후 처리될 수 있다(350). 다른 구현예에서 단일 사전 기반의 언어 모델이 OCR될 모든 이미지에 대해서 사용 가능하다(예컨대 사전이 웹 상에서 찾은 워드의 서브셋일 수 있다)

언어 기반의 후처리는 문서 이미지로부터 획득한 OCR 결과의 품질을 향상할 수가 있다. 언어 기반의 후처리는 문서 이미지로부터 획득한 OCR 결과의 품질을 향상할 수 있다. 언어 기반의 후처리는 사전에서 찾아진 워드로 OCR로부터의 문자 스트링 출력을 연결하는 확률적 프레임워크(a probabilistic framework)의 맥락에서 이해될 수가 있다. 사전은 반드시 표준 단어 사전일 필요는 없으나, 하나 이상의 코퍼스로부터 도출된 워드 세트일 수 있다.

w가 워드(공간 제한 문자의 조합)를 가리킨다고 하자. s는 OCR 프로세스에 의해서 출력된 관측된 스트링을 가리킨다고 하자. 베이즈 룰(Bayes rule)을 이용하면,

P(w│s) = P(s│w)P(w)/P(s)

관측된 열 s이 주어지며, 목표는 다음을 획득하기 위한 것이다.

w^* = argmax_w P(w│s) = argmax_w (P(s│w)P(w))

여기서, P(w)는 발생하는 워드 w의 확률을 표시하며, P(w│s)는 s로서 OCR에 의해서 보여질 때 실제적으로 w가 되는 워드의 확률을 표시한다. 따라서 관측된 OCR 출력 스트리으로 주어지는 워드의 귀납적 확률을 최대화하는 w가 후처리 동안 구해질 수가 있다. 더욱이 후처리는 2 개의 컴포넌트, 즉 (1) 주어진 텍스트 콘텍스트에서 P(w)를 추정하기 위한 언어 모델, (2) 워드 w를 s로 판독할 확률, P(s│w)를 추정하기 위한 OCR 오차 모델을 이용하여 w^*를 계산할 수 있다.

언어 모델은 주어진 콘텍스트에서 발생하는 워드 w의 우도(likelihood)를 산출한다. 예컨대 트레이닝 문서의 코퍼스로 각 워드의 발생을 카운트하여 워드 확률 및 워드 사전을 구축할 수가 있다. 이러한 사전 기반의 언어 모델은 모든 사전 워드에 대응하는 수용 상태 및 문자로서 입력 레이블을 가진 가중된 유한 상태 머신(WFSM)에 의해서 표현 가능하다. 이러한 일례의 언어 모델은 적당한 명사 또한 커버할 수 없음에 주목하라.

지금까지 종종 보여준 스트링에 주어진 다음 문자의 확률을 추정하는 문자 기반의 언어 모델은 적절한 명사로 더 양호할 수 있다. 그 표현은 다시 WFSM일 수 있으며, 다음의 코스트 측정치를 가진다.

지금까지 보여준 전체 문자 시퀀스에 대한 조건으로서 상기 확률을 계산하는 대신에 오직 몇 개의 문자 히스토리 만이 이용될 필요가 있다. 이것은 트레이닝 세트에 있는 것보다 훨씬 많은 워드의 커버리지를 가능하게 한다. 예컨대 Kolak O., Resnik P., Byrne W.의 "NLP 어플리케이션을 위한 생성 확률"(HLT-NAACL 2003)을 참조. 또한 n 그램 워드 기반 모델이 이용 가능하다. 이러한 모델은 이전의 소수 워드로 주어진 워드의 발생 확률을 이용한다. 다른 언어 기반의 모델이 또한 이용 가능하다.

오차 모델은 입력 문자 시퀀스 w를 s로서 판독하는 OCR 엔진의 확률을 계산한다. 이는 또한 머신 학습 접근 방법을 이용하여 추정 가능하고 오차 모델은 트레이닝 데이터, 즉 입력 텍스트와 OCR 출력을 가진 일례의 이미지를 이용하여 생성 가능하다. 입력 및 출력 텍스트 둘다는 대응의 문자 세그먼트 w와 s로 각각 분할 (세그먼트)될 수 있다. 예컨대 이러한 분할은 레빈쉬타인 편집 거리(Levenshtein edit distance)를 이용하여 행해질 수 있다. 레빈쉬타인 거리는 하나의 스트링을 또 다른 스트링으로 변환하는데 필요한 최소 연산(단일 문자의 삽입/삭제/대입)수 로서 2 개의 스트링들 사이의 거리를 측정한다. 제어하의 분할된 스트링 쌍(s,w)으로, 가중된 유한 상태 변환기(WFST)가 계산 가능하며, 원래의 문자 및 출력 레이블에 대응하는 입력 레이블은 OCR 출력 문자가 된다. 예컨대 Kolak O., Resnik P., Byrne W.의 "NLP 어플리케이션을 위한 생성 확률"(HLT-NAACL 2003)을 참조. 이와 달리 편집 거리 접근 방법을 이용하여 상기 카운트로부터 P(s│w)를 측정하고 그의 역을 변환 코스트로서 이용함으로써 천이 확률을 직접 계산할 수가 있다.

공지의 지상 검증 자료들(ground truths)을 가진 문서 코퍼스를 이용하여 문자 대입의 코스트/확률을 추정할 수가 있다. 각각의 관측된 OCR 스트링을 공지의 지상 검증 자료로 변환하는데 필요한 실제의 변환(단일 문자의 삽입/삭제/대입)을 기록할 수가 있다. 각각의 변환 발생수는 OCR 프로세스 동안 일어나는 특정 변환의 확률/코스트의 척도이다. 이처럼 문자 "l"을 숫자 '1'로서 잘못 취급하는 많은 예가 있을 수 있어 그러한 발생 확률에 고확률을 할당한다.

오차 모델을 계산하기 위한 트레이닝 데이터는 텍스트로부터 이미지를 인공적으로 생성하고, 생성된 이미지에 노이즈를 부가하며, 그런 다음 그 이미지로부터 OCR 엔진 출력을 생성함으로써 생성 가능하다. 신용 카드 영수증 및 명함에 대해서 로컬 비지니스 리스팅 데이터를 이용하여 사전/언어 모델을 학습할 수가 있다. 또한, 시스템 사용자는 트레이닝 데이터로서 서빙하는 각종 유형의 문서 이미지를 제 출할 것을 요청 받을 수 있다.

도 4는 범용 컴퓨터 시스템(400)의 일례의 개략도이다. 시스템(400)은 일부 구현예에 따른 방법(200) 및 (300)과 관련하여 기술된 동작을 위해 사용 가능하다. 예컨대 시스템(400)은 어느 하나 또는 모든 모바일 장치(110), 제1 및 제2 후단 컴포넌트(150, 160), 네트워크 장치(170)에 포함될 수가 있다.

시스템(400)은 프로세서(410), 메모리(420), 저장 장치(430), 입/출력 장치(440)를 포함한다. 각각의 컴포넌트(410,420,430,440)는 시스템 버스(450)를 이용하여 상호 연결된다. 프로세서(410)는 시스템(400) 내에서 실행을 위한 명령어들을 처리할 수 있다. 일부 구현예에서 프로세서(410)는 싱글 쓰레드 프로세서이다. 다른 구현예에서 프로세서(410)는 멀티 쓰레드 및/또는 멀티 코어 프로세서이다. 프로세서(410)는 메모리(420) 또는 저장 장치(430)에 저장된 명령어들을 처리하여 사용자 인터페이스를 위한 그래픽 정보를 입출력 장치(440) 상에 디스플레이 가능하다.

메모리(420)는 시스템(400) 내에 정보를 저장한다. 일부 구현예에서 메모리(420)는 컴퓨터 판독 가능한 매체이다. 일부 구현예에서 메모리(420)는 휘발성 메모리 장치이다. 일부 구현예에서 메모리(420)는 비휘발성 메모리 장치이다.

저장 장치(430)는 시스템(400)을 위한 대량 저장 장치를 제공할 수 있다. 일부 구현예에서 저장 장치(430)는 컴퓨터 판독 가능한 매체이다. 각종 상이한 구현예에서, 저장 장치(430)는 플로피 디스크 장치, 하드 디스크 장치, 광학 디스크 장치, 또는 테이프 장치일 수가 있다.

입출력 장치(440)는 시스템(400)에 대한 입출력 동작을 제공한다. 일부 구현예에서 입출력 장치(440)는 키보드 및/또는 포인팅 장치를 포함한다. 일부 구현예에서 입출력 장치(440)는 그래픽 사용자 인터페이스를 디스플레이하기 위한 디스플레이 유닛을 포함한다.

기술된 특징들은 디지털 전자 회로 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합으로 구현 가능하다. 장치는 정보 매체, 예컨대 프로그램 가능한 프로세서에 의한 실행을 위해 전파 신호로 혹은 머신 판독 가능한 저장 장치로 정보 매체로 실시된 컴퓨터 프로그램 제품으로 구현 가능하며, 방법 동작은 입력 데이터에서 동작하고 출력을 생성함으로써 기술된 구현예의 기능들을 수행하도록 명령어들의 프로그램을 실행하는 프로그램 가능한 프로세서에 의해서 수행 가능하다. 기술된 특징들은 데이터 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 데이터 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 전송하도록 결합된 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 가능한 하나 이상의 컴퓨터 프로그램으로 유익하게 구현 가능하다. 컴퓨터 프로그램은 임의의 엑티비티를 수행하거나 임의의 결과를 발생하도록 컴퓨터에서 직접 또는 간접적으로 이용 가능한 명령어 세트이다.

컴퓨터 프로그램은 컴파일된 혹은 번역된 언어를 포함하는 임의 형태의 프로그래밍 언어로 기록 가능하며, 독립형 프로그램 또는 모듈로서, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기 적합한 다른 유닛을 포함하는 임의 형태로 배치 가능하다.

명령어들의 프로그램의 실행을 위해 적합한 프로세서는 일례로 범용 및 특정 목적의 마이크로프로세서 및 단일 프로세서 또는 일종의 컴퓨터인 다중 프로세서들 중 하나를 포함한다. 일반적으로 프로세서는 판독 전용 메모리(ROM) 또는 RAM 또는 둘다로부터 명령어들과 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령어들을 실행하기 위한 프로세서와 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리이다. 일반적으로 컴퓨터는 또한 데이터 파일들을 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나 혹은 대용량 저장 장치와 통신하도록 동작적으로 결합될 것이며, 이러한 대용량 장치는 내부 하드 디스크 및 착탈 가능한 디스크와 같은 자기 디스크, 광자기 디스크 및 광학 디스크를 포함한다. 컴퓨터 프로그램 명령어들과 데이터를 유형적으로 실시하기 적합한 저장 장치는 EPROM, EEPROM 및 플래시 메모리 장치와 같은 일례의 반도체 메모리 장치, 내부 하드 디스크 및 착탈 가능한 디스크와 같은 자기 디스크, 광자기 디스크, 및 CD-ROM과 DVD-ROM 디스크를 포함하는 모드 형태의 비휘발성 메모리를 포함한다. 프로세서 및 메모리는 ACIS에 의해 보완되거나 ACIS로 결합 가능하다.

사용자와의 상호작용(대화)을 제공하기 위해, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 장치 또는 키보드와 사용자에게 정보를 디스플레이하는 CRT 또는 LCD와 같은 디스플레이 장치를 가진 컴퓨터 상에서 특징들이 구현 가능하다.

데이터 서버와 같은 후단 컴포넌트를 포함하거나, 혹은 어플리케이션 서버 또는 인터넷 서버와 같은 미들웨어 컴포넌트를 포함하거나, 혹은 그래픽 사용자 인터페이스 또는 인터넷 브라우저 혹은 이들의 조합을 가진 클라이언트 컴퓨터와 같은 전단 컴포넌트를 포함하는 컴퓨터 시스템에서 특징들이 구현 가능하다. 시스템의 컴포넌트는 통신 네트워크와 같은 디지털 데이터 통신의 매체 또는 임의 형태로 접속 가능하다. 일례의 통신 네트워크는 예컨대 LAN, WAN, 및 인터넷을 형성하는 컴퓨터 및 네트워크를 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 원격이며 전술한 것과 같은 네트워크를 통해 통상 대화한다. 클라이언트 및 서버의 관계는 하나 이상의 컴퓨터를 실행하는 컴퓨터 프로그램에 의해서 발생하며 서로 대해 클라이언트-서버 관계를 가진다.

비록 몇몇의 구현예가 위에서 상세히 설명되었지만 다른 수정예가 가능하다. 예를 들면 전자적 검색 서비스를 제공하고 네트워크(임의의 네트워크 연결된 검색 엔진)에 연결하도록 구성된 임의의 서버 환경부는 전술한 시스템 및 기술을 이용하여 모바일 장치 네트워크와 통합 가능하다. 서버 환경부는 네트워크 엑세스 가능한 하드 드라이브로서 기능할 수 있다. 더욱이 서버 환경부는 종래의 후단 또는 미들웨어 컴포넌트일 필요는 없다. 서버 환경부는 PC에 설치되어 로컬 파일의 전자적 검색을 위해 사용되는 프로그램일 수 있거나, 혹은 서버 환경부는 기업 네트워크에 설치된 검색 어플라이언스(예컨대 미국 캘리포니아 마운틴 뷰 소재의 구글 사가 제 공한 박스의 Google^TM)일 수 있다.

또한, 도면에 도시한 논리 흐름은 원하는 결과를 달성하기 위해 순차적 순서로 혹은 도시한 특정 순서를 요하지 않는다. 다른 동작이 제공 가능하거나, 혹은 동작이 전술한 시스템에서 제거 가능하며, 다른 컴포넌트는 전술한 시스템에 부가되거나 제거 가능하다. 따라서 다른 구현예는 첨부된 특허청구 범위 내에 있다.

Claims

정보를 관리하기 위한 컴퓨터 구현 방법으로,

모바일 장치 네트워크에 접속하도록 구성된 모바일 장치로부터 메시지를 수신하는 단계로서, 상기 모바일 장치는 디지털 카메라를 포함하고, 상기 메시지는 디지털 카메라에 의해 촬영되며 워드(words)에 대응하는 정보를 포함하는 디지털 이미지를 포함하며, 상기 메시지를 수신하는 단계는 상기 디지털 이미지에서 표현된 문서에 대한 유형의 표시를 수신하는 단계를 포함하는 것인, 상기 메시지를 수신하는 단계와,

광학 문자 인식(optical character recognition)을 이용하여 디지털 이미지 정보로부터 상기 워드를 결정하는 단계와,

상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 워드를 후처리(post-processing)하는 단계로서, 상기 후처리하는 단계는,

상기 문서에 대한 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들(dictionary based language models) 사이에서 선택하는 단계와,

상기 선택된 사전 기반 언어 모델에 따라서 상기 워드를 후처리하는 단계를 포함하는 것인, 상기 후처리하는 단계와,

상기 워드에 기초하여 상기 디지털 이미지를 색인화하는 단계와,

하나 이상의 수신된 검색 용어에 기초해서 상기 디지털 이미지의 나중 검색을 위해 상기 디지털 이미지를 저장하는 단계

를 포함하는 정보 관리의 컴퓨터 구현 방법.
제1항에 있어서, 상기 모바일 장치의 유효성을 검사(validate)하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
제1항에 있어서, 상기 하나 이상의 검색 용어를 수신하는 단계와,

상기 하나 이상의 검색 용어에 기초해서 상기 디지털 이미지를 검색하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
정보를 관리하기 위한 컴퓨터 구현 방법으로,

모바일 장치 네트워크에 접속하도록 구성된 모바일 장치로부터 메시지를 수신하는 단계로서, 상기 모바일 장치는 디지털 카메라를 포함하고, 상기 메시지는 디지털 카메라에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함하며, 상기 메시지를 수신하는 단계는 상기 디지털 이미지가 첨부된 이메일 메시지를 수신하는 단계를 포함하는 것인, 상기 메시지를 수신하는 단계와,

광학 문자 인식을 이용하여 디지털 이미지 정보로부터 상기 워드를 결정하는 단계와,

상기 워드에 기초하여 상기 디지털 이미지를 색인화하는 단계와,

하나 이상의 수신된 검색 용어에 기초해서 상기 디지털 이미지의 나중 검색을 위해 상기 디지털 이미지를 저장하는 단계와,

상기 워드 중 적어도 하나와 상기 모바일 장치에 대응하는 사전 정의된 레이블(pre-defined lable)을 상기 이메일 메시지에 부가하는 단계

를 포함하고,

상기 결정하는 단계, 상기 색인화하는 단계 및 상기 저장하는 단계는 전자 메일 시스템에서 수행되는 것인, 정보 관리의 컴퓨터 구현 방법.
제1항에 있어서, 상기 디지털 이미지를 수신하는 단계는, 상기 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대해 촬영된 적어도 2개의 디지털 이미지를 수신하는 단계를 포함하며,

상기 워드를 결정하는 단계는 상기 워드를 찾기 위해 상기 적어도 2개의 디지털 이미지 상에 상관 광학 문자 인식(correlative optical character recognition)을 수행하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
제1항에 있어서, 상기 워드를 결정하는 단계는 다중 스케일로 상기 광학 문자 인식을 수행하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
제1항에 있어서, 상기 광학 문자 인식을 향상시키기 위해 상기 디지털 이미지를 전처리(pre-processing)하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
제7항에 있어서, 상기 전처리하는 단계는, 상기 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화(binarization) 임계치를 식별하는 단계를 포함하는 것인, 정보 관리의 컴퓨터 구현 방법.
제7항에 있어서, 상기 전처리하는 단계는, 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
삭제
삭제
제1항에 있어서, 상기 유형의 표시를 수신하는 단계는, 메시지로부터 사용자 지정 범주를 수신하는 단계를 포함하고, 상기 사용자 지정 범주는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택되는 것인 정보 관리의 컴퓨터 구현 방법.
모바일 장치 네트워크와,

디지털 이미지를 취하고, 상기 모바일 장치 네트워크에 접속하며, 상기 모바일 장치 네트워크를 통해 상기 디지털 이미지를 전송하도록 구성된 복수의 모바일 장치와,

상기 복수의 모바일 장치로부터 디지털 이미지를 수신하고, 광학 문자 인식을 적용하며 상기 디지털 이미지로부터 워드를 추출하며, 상기 추출된 워드에 기반해서 상기 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 상기 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하고,

상기 하나 이상의 컴퓨터는 상기 디지털 이미지와 함께 문서 유형의 표시를 수신하고, 상기 문서 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들 사이에서 선택하며, 선택된 사전 기반 언어 모델에 따라서 상기 추출된 워드를 후처리하는 시스템.
모바일 장치 네트워크와,

디지털 이미지를 취하고, 상기 모바일 장치 네트워크에 접속하며, 상기 모바일 장치 네트워크를 통해 상기 디지털 이미지를 전송하도록 구성된 복수의 모바일 장치와,

상기 복수의 모바일 장치로부터 디지털 이미지를 수신하고, 광학 문자 인식을 적용하여 상기 디지털 이미지로부터 워드를 추출하며, 상기 추출된 워드에 기반해서 상기 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 상기 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하고,

상기 하나 이상의 컴퓨터는 제1 후단 컴포넌트와 제2 후단 컴포넌트를 포함하며, 상기 제1 후단 컴포넌트는 상기 디지털 이미지를 수신하고, 상기 모바일 장치의 유효성을 검사하며, 광학 문자 인식을 적용하도록 구성되고, 상기 제2 후단 컴포넌트는 상기 디지털 이미지를 색인화하고 상기 디지털 이미지를 저장하도록 구성되는 것인, 시스템.
제14항에 있어서, 상기 제2 후단 컴포넌트는 전자 메일 시스템을 포함하는 것인 시스템.
삭제
삭제
삭제
제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 모바일 장치와 연관된 모바일 폰 번호에 기초해서 상기 모바일 장치의 유효성을 검사하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 검색 용어를 수신하고, 상기 검색 용어에 기초해서 상기 디지털 이미지를 검색하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 추출된 워드와 사전 정의된 레이블을 상기 디지털 이미지를 포함하는 메시지에 부가하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 상관 광학 문자 인식을 수행하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 다중 스케일로 상기 광학 문자 인식을 수행하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 광학 문자 인식을 향상하기 위해 상기 디지털 이미지를 전처리하며, 상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 추출된 워드를 후처리하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화 임계치를 식별하도록 구성되는 시스템.
제13항에 있어서, 상기 하나 이상의 컴퓨터는 저해상도에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하도록 구성되는 시스템.
삭제
제13항에 있어서, 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택되는 것인 사용자 지정 범주를 포함하는 시스템.
디지털 이미지를 전송하도록 구성된 모바일 장치 네트워크와,

컴퓨터 네트워크를 통해 전자 검색 서비스를 제공하도록 구성된 서버 환경(server environment)과,

상기 서버 환경과 상기 모바일 장치 네트워크를 연결하는 연결 수단

을 포함하며,

상기 연결 수단은, 상기 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하는 적용 수단과, 상기 디지털 이미지의 전자 검색 서비스를 위해 상기 추출된 워드와 상기 디지털 이미지를 상기 컴퓨터 네트워크를 통해 상기 서버 환경에 제공하는 제공 수단을 포함하고,

상기 적용 수단은, 수신된 문서 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들 사이에서 선택하는 선택 수단과, 상기 선택된 사전 기반 언어 모델에 따라서 상기 추출된 워드를 후처리하는 후처리 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 연결 수단은 상기 모바일 장치 네트워크에서 모바일 장치의 유효성을 검사하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 제공 수단은 상기 추출된 워드와 사전 정의된 레이블을 상기 디지털 이미지를 포함하는 메시지에 부가하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 적용 수단은 상관 광학 문자 인식을 수행하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 적용 수단은 다중 스케일로 광학 문자 인식을 수행하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 적용 수단은 상기 광학 문자 인식을 향상하기 위해 상기 디지털 이미지를 전처리하는 수단과, 상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 추출된 워드를 후처리하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 적용 수단은 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화 임계치를 식별하는 수단을 포함하는 것인 시스템.
제29항에 있어서, 상기 적용 수단은 저해상도에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 수단을 포함하는 것인 시스템.
삭제
제29항에 있어서, 상기 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함하는 것인 시스템.