KR101462289B1 - 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색 - Google Patents

모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색 Download PDF

Info

Publication number
KR101462289B1
KR101462289B1 KR1020097013412A KR20097013412A KR101462289B1 KR 101462289 B1 KR101462289 B1 KR 101462289B1 KR 1020097013412 A KR1020097013412 A KR 1020097013412A KR 20097013412 A KR20097013412 A KR 20097013412A KR 101462289 B1 KR101462289 B1 KR 101462289B1
Authority
KR
South Korea
Prior art keywords
digital image
mobile device
word
character recognition
optical character
Prior art date
Application number
KR1020097013412A
Other languages
English (en)
Other versions
KR20090084968A (ko
Inventor
크리스넨듀 차우더리
아슈토쉬 가르그
프라센지트 푸칸
아르빈드 사라프
Original Assignee
구글 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 잉크. filed Critical 구글 잉크.
Publication of KR20090084968A publication Critical patent/KR20090084968A/ko
Application granted granted Critical
Publication of KR101462289B1 publication Critical patent/KR101462289B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

정보를 관리하기 위한 컴퓨터 구현 방법이 개시된다. 방법은 모바일 장치 네트워크에 연결하도록 구성된 모바일 장치로부터 메시지(메시지는 모바일 장치에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함함)를 수신하는 것과, 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 워드를 결정하는 것과, 워드에 기초해서 디지털 이미지를 색인화하는 것과, 하나 이상의 수신 검색 용어에 기초해서 디지털 이미지의 나중 검색을 위해 디지털 이미지를 저장하는 것을 포함한다.

Description

모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색{DIGITAL IMAGE ARCHIVING AND RETRIEVAL USING A MOBILE DEVICE SYSTEM}
본 출원은 정보 구성 시스템 및 방법을 기술하며 특히 문서의 자동 아카이빙 및 검색에 관한 특징을 기술한다.
일상적인 생활에 있어서, 사람들은 중요하거나 혹은 중요하지 않을 수 있는, 그리고 나중에 필요로 하거나 혹은 필요로 하지 않을 수 있는 정보를 가진 물리적 문서를 빈번하게 받는다. 예컨대 하루 중에 종종 영수증 및 명함을 수령하며, 수령인은 종종 얼마나 이러한 문서들을 저장할지를 확신할 수 없다. 이러한 문서들은 컴퓨터에 저장을 위해 물리적으로 저장되거나 혹은 스캔될 수 있다. 양 경우에 있어서, 저장된 문서는 전형적으로 메타 정보(예컨대 드로어 또는 폴더에 드롭된)를 임의의 아카이빙없이 어떤 위치에 드롭되거나 혹은 사람은 문서를 아카이빙 메타 정보와 의도적으로 연계시켜여야 한다(예컨대, 어떤 문서화 시스템에 따라 특정 폴더에 문서를 두거나 혹은 컴퓨터 상에 저장된 문서와 연계시키기 위한 정보에서 타이핑함으로써).
본 명세서는 문서 아카이빙에 관한 방법 및 시스템을 기술한다. 이 방법 및 시스템은 사용자로 하여금 물리적 문서들의 디지털 표현을 저장하게 하고 용이하게 검색을 가능하게 한다. 물리적 문서들의 디지털 이미지는 광학 문자 인식(OCR) 기술을 이용하여 처리 가능하며, 다음에 나중 검색을 위해 색인화되어 저장된다. 이미지 탐색, OCR 처리 및 이미지 아카이빙은 일상에서 겪는 무수한 문서들(예, 영수증, 명함, 의사의 처방전, 티켓, 계약서 등)의 관리를 용이하게 할 수 있는 엔드 투 엔드 시스템으로 결합 가능하며, 이러한 시스템의 사용자는 일부 구현예에서 문서 아카이빙 프로세스를 트리거하기 위해 단지 화상을 취할 필요가 있다.
시스템의 사용자는 문서들의 디지털 이미지를 용이하게(드로어에 문서를 드롭하기 용이하고 비형식적으로) 아카이빙할 수 있고 또한 키워드 검색을 이용하여 디지털 이미지를 용이하게 검색 가능하다. 셀 폰에 내장된 디지털 카메라를 사용하여 이미지를 캡쳐링할 수 있고 OCR 기술을 이용하여 나중의 효과적인 서치를 가능하게 하기 위해 이미지로부터 관련 키워드를 인식하고 추출할 수가 있다. 획득한 문서 이미지는 모바일 장치에서 후단 시스템(예컨대, 모바일 게이트웨이 및 이메일 서버)으로 직접 전달 가능하다. 시스템의 사용자는 이미지를 아카이빙하여 저장하기 위해 모바일 장치에서 PC로 이미지를 다운로드할 필요가 없어, 이미지 아카이빙을 사용자를 위한 단순한 프로세스로 만든다. 더욱이 각종 전처리 및 후처리 동작을 포함한 향상된 OCR 기술을 이용하여 저해상도의 이미지를 또한 다룰 수가 있다. 이처럼 일상에서 겪는 무수한 문서들이 용이하게 디지털화되고, 구성되며, 저장되고, 신속하게 효율성있게 검색될 수가 있다.
일반적으로, 본 명세서에서 기술된 주제의 일형태는 모바일 장치 네트워크에 연결하도록 구성된 모바일 장치로부터 메시지를 수신하는 것과, 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 워드를 결정하는 것과, 그 워드에 기초해서 디지털 이미지를 색인화하는 것과, 하나 이상의 수신된 검색 용어에 기초해서 디지털 이미지의 나중 검색을 위해 디지털 이미지를 저장하는 것을 포함하는 컴퓨터 구현 방법으로 실시될 수 있으며, 모바일 장치는 디지털 카메라를 포함하며, 메시지는 디지털 카메라에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함한다. 상기 방법은 또한 하나 이상의 검색 용어를 수신하는 것과, 하나 이상의 검색 용어에 기초해서 디지털 이미지를 검색하는 것을 포함한다.
상기 방법은 모바일 장치의 유효성을 검사하는 것(수신된 디지털 이미지와 연관된 정보 및/또는 모바일 폰 번호에 기초해서)을 포함할 수 있다. 메시지를 수신하는 것은 첨부된 디지털 이미지를 가진 이메일 메시지를 수신하는 것을 포함할 수 있으며 상기 방법은 워드들 중 적어도 하나와 모바일 장치에 대응하는 사전 정의된 레이블을 이메일 메시지에 부가하는 것을 포함할 수 있고, 상기 결정하는 것과, 색인화하는 것과, 저장하는 것은 이메일 시스템에서 수행 가능하다.
디지털 이미지를 수신하는 것은 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대하여 촬영된 적어도 2 개의 디지털 이미지를 수신하는 것을 포함할 수 있고, 워드를 결정하는 것은 워드를 찾기 위해 적어도 2 개의 디지털 이미지에서 상관 광학 문자 인식을 수행하는 것을 포함할 수 있다. 워드를 결정하는 것은 다중 스케일로 광학 문자 인식을 수행하는 것을 포함할 수 있다.
상기 방법은 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하는 것을 포함할 수 있다. 전처리는 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 이진화 임계치를 식별하는 것을 포함할 수 있다. 전처리는 저해상도(lower resolution)에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도(higher resolution)에서 그레이 레벨을 취득하는 것을 포함할 수 있다.
상기 방법은 광학 문자 인식에 기인한 일반 문자 오인식을 확인하고 수정하기 위해 워드를 후처리하는 것을 포함할 수 있다. 메시지를 수신하는 것은 디지털 이미지로 표현된 문서에 대한 유형의 표시를 수신하는 것을 포함할 수 있고, 후처리는 문서 유형의 표시에 따른 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하는 것과, 선택된 사전 기반의 언어 모델에 따라서 워드를 후처리하는 것을 포함할 수 있다. 더욱이 유형 표시를 수신하는 것은 메시지의 사용자 지정 범주를 수신하는 것을 포함할 수 있으며, 그룹에서 선택된 사용자 지정 범주는 명함 및 신용 카드 영수증을 포함한다.
이러한 형태의 다른 실시예는 대응 시스템, 장치 및 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 처리 장치의 동작을 제어하기 위해 혹은 데이터 처리 장치로 실행하기 위한 컴퓨터 판독 가능한 매체 상에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈을 포함한다.
본 명세서에서 기술되는 주제의 일형태는 모바일 장치 네트워크와, 디지털 이미지를 취하고, 모바일 장치 네트워크에 연결하며, 모바일 장치 네트워크를 통해 디지털 이미지를 전송하도록 구성된 복수 개의 모바일 장치와, 모바일 장치로부터 디지털 이미지를 수신하고, 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하며, 추출된 워드에 기초해서 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하는 시스템에서 실시 가능하다. 하나 이상의 컴퓨터는 제1 후단 컴포넌트와 제2 후단 컴포넌트를 포함할 수 있으며 제1 후단 컴포넌트는 디지털 이미지를 수신하고, 모바일 장치의 유효성을 검사하며, 광학 문자 인식을 적용하도록 구성되고, 제2 후단 컴포넌트는 디지털 이미지를 색인화하고 디지털 이미지를 저장하도록 구성된다. 제2 후단 컴포넌트는 이메일 시스템을 포함할 수 있다.
모바일 장치는 모바일 폰을 포함할 수 있고, 모바일 장치 네트워크는 모바일 폰 네트워크를 포함할 수 있다. 하나 이상의 컴퓨터는 PC를 포함할 수 있다. 하나 이상의 컴퓨터는 검색 어플라이언스를 포함할 수 있다. 하나 이상의 컴퓨터는 모바일 장치와 연관된 모바일 폰 번호에 기초해서 모바일 장치의 유효성을 검사하도록 구성 가능하다.
하나 이상의 컴퓨터는 검색 용어를 수신하고 검색 용어에 기초해서 디지털 이미지를 검색하도록 구성 가능하다. 하나 이상의 컴퓨터는 디지털 이미지를 포함하는 메시지에 추출된 워드와 사전 정의된 레이블을 부가하도록 구성 가능하다. 하나 이상의 컴퓨터는 상관 광학 문자 인식을 수행하도록 구성 가능하다. 하나 이상의 컴퓨터는 복수 스케일로 광학 문자 인식을 수행하도록 구성 가능하다.
하나 이상의 컴퓨터는 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하고, 광학 문자 인식에 기인한 공통 문자 오인식을 식별하여 정정하기 위해 후처리하도록 구성 가능하다. 하나 이상의 컴퓨터는 디지털 이미지에 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2진화 임계치를 식별하도록 구성 가능하다. 하나 이상의 컴퓨터는 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하도록 구성 가능하다.
하나 이상의 컴퓨터는 디지털 이미지와 함께 문서 유형의 표시를 수신하고, 문서 유형의 표시에 따라 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하며, 선택된 사전 기반의 언어 모델에 따라서 추출된 워드를 후처리하도록 구성 가능하다. 더욱이 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함할 수 있다.
본 명세서에서 기술된 주제의 일형태는 디지털 이미지를 전송하도록 구성된 모바일 장치 네트워크와, 컴퓨터 네트워크를 통해 전자 검색 서비스를 제공하도록 구성된 서버 환경부와, 서버 환경부에 모바일 장치 네트워크를 연결하는 연결 수단을 포함하며, 상기 연결 수단은 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하는 적용 수단과 컴퓨터 네트워크를 통해 디지털 이미지의 전자 검색 서비스를 위한 서버 환경부에 디지털 이미지와 추출된 워드를 제공하는 공급 수단을 포함한다. 상기 연결 수단은 모바일 장치 네트워크에서 모바일 장치의 유효성을 검사하는 수단을 포함할 수 있다. 상기 공급 수단은 추출된 워드와 사전 정의된 레이블을 디지털 이미지를 포함하는 메시지에 부가하는 수단을 포함할 수 있다.
상기 적용 수단은 상관 광학 문자 인식을 수행하는 수단을 포함할 수 있다. 상기 적용 수단은 복수 스케일로 광학 문자 인식을 수행하는 수단을 포함할 수 있다. 상기 적용 수단은 광학 문자 인식을 향상하기 위해 디지털 이미지를 전처리하는 수단과 광학 문자 인식에 기인한 일반 문자 오인식을 확인하여 정정하기 위해 추출된 워드를 후처리하는 수단을 포함할 수 있다.
상기 적용 수단은 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2 진화 임계치를 식별하는 수단을 포함할 수 있다. 상기 적용 수단은 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 수단을 포함할 수 있다. 상기 적용 수단은 문서 유형의 수신된 표시에 따라 적어도 2 개의 사전 기반의 언어 모델들 사이에서 선택하는 수단과 선택된 사전 기반의 언어 모델에 따라서 추출된 워드를 후처리하는 수단을 포함할 수 있다. 더욱이 문서 유형의 표시는 명항 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함할 수 있다.
이후 본 발명의 하나 이상의 상세에 대해서는 첨부 도면을 참조하여 설명하기로 한다. 본 발명의 기타 특징, 목적 및 이점은 상세한 설명, 도면 및 청구범위에 기술된 내용으로부터 명확해질 것이다.
도 1은 일례의 디지털 이미지 아카이빙 시스템의 개략도이다.
도 2는 디지털 이미지를 아카이빙하여 검색하기 위한 일례의 방법의 흐름도이다.
도 3은 향상된 광학 문자 인식의 일례의 방법의 흐름도이다.
도 4는 일례의 범용 컴퓨터 시스템의 개략도이다.
도 1은 일례의 디지털 이미지 아카이빙 시스템(100)의 개략도이다. 시스템(100)은 모바일 장치 네트워크(120)(예, 사설 셀 폰 네트워크 또는 무선 이메일 네트워크)를 통해 통신하는 다중 모바일 장치(110)(예, 셀 폰 또는 PDA)를 포함한다. 장치(110)는 무선 전송(단거리, 중거리, 혹은 장거리)을 이용하여 통신할 수 있다는 의미에서 모바일이다. 그러나 모바일 장치(110)는 또한 유선 통신용 커넥터(예, 유니버설 시리얼 버스(USB) 커넥터)를 포함할 수 있다.
모바일 장치(110)는 디지털 이미지를 취하도록 구성된다. 이처럼 모바일 장치(110)는 디지털 카메라(112)를 포함한다.디지털 카메라(112)는 다른 기능을 가진 장치(예, 카메라 내장 모바일 폰 또는 PDA)에 내장 가능하거나 모바일 장치(110)는 무선 통신 기능을 또한 갖는 디지털 카메라(112)일 수 있다.
모바일 장치(110)를 이용하여 물리적 문서(105)의 하나 이상의 디지털 이미지(132)를 취할 수가 있다. 문서(105)는 하나 이상의 워드를 포함하는 임의의 물리적 문서일 수 있다. 예컨대 문서(105)는 명함, ATM 영수증, 신용 카드 구매 영수증, 의사의 처방전, 여행 티켓(예, 비행기 티켓 또는 철도 티켓), 계약서, 서신, 잡지에서 보여지는 레시피 등)일 수 있다. 보다 일반적으로 문서(105)는 종이 문서일 필요는 없다. 문서(105)는 아카이브되어 검색 가능한 디지털 이미지, 예컨대 도로 신호, 공시된 공개 알림, 길잃은 애완동물 표지, T 셔츠 등등을 원할 수 있는 워드를 가진 임의의 물리적 아티클일 수 있다. 여기서 사용되는 바와 같이 "워드드(words)"란 용어는 광학 문자 인식 기술을 이용하여 식별 가능한 텍스트 정보의 모든 방식을 포함하며, 다중 토큰은 함께 그룹화되어 별도의 백색 공간(white space)에 상관없이 시스템에 의해서 단일 "워드(word)"라고 고려될 수가 있다.
디지털 이미지(132)는 메시지(130)로 제1 후단 컴포넌트(150)에 송신 가능하다. 메시지(130)는 디지털 이미지(132)를 포함하는 멀티미디어 메시지 명세(MMS) 메시지일 수 있다. 다른 메시지 포맷 또한 가능하다. 예컨대 메시지(130)는 이메일 메시지일 수 있다.
제1 후단 컴포넌트(150)는 인터넷과 같은 또 다른 네트워크(140)를 통해서 모바일 장치 네트워크(120)에 연결 가능하다. 이와 달리 제1 후단 컴포넌트(150)는 모바일 네트워크(120)에 직접 연결 가능하거나 혹은 모바일 네트워크(120) 내에 포함될 수가 있다. 예컨대 제1 후단 컴포넌트(150)는 디지털 이미지(132)가 아카이빙을 위해 억셉트되기 전에 셀 폰(110)의 유효성 검사를 위해 이용되는 모바일 게이트웨이일 수 있다.
제1 후단 컴포넌트(150)는 모바일 장치(110)의 유효성을 검사하도록 구성된 유효성 검사 엔진(152)과, 광학 문자 인식을 디지털 이미지(132)에 적용하도록 구성된 OCR 엔진(154)을 포함할 수 있다. 제1 후단 컴포넌트(150)는 메시지(130)에 부가하기 위해 색인 정보(134)를 생성함으로써(예컨대, 이메일 메시지의 제목 라인에 정보를 부가함으로써), 색인 정보(134)를 디지털 이미지(132)와 연계시킨다.
색인 정보(134)는 광학 문자 인식을 이용하여 문서 이미지(132)에서 식별된 하나 이상의 워드를 포함한다. 색인 정보(134)는 또한 사전 정의된 레이블, 문서 유형 정보, 및 시스템 상태 정보와 같은 추가 정보를 포함할 수 있다. 사전 정의된 레이블은 모바일 장치(예, 소스 모바일 폰 번호), 모바일 장치의 이미지 아카이빙 특징과 관련된 기능명(예컨대, "퍼스널 이미지 콘테이너(PIC)"는 이미지 아카이빙 기능을 식별하기 위해 모바일 장치의 사용자 인터페이스에서 사용되는 레이블일 수 있음), 또는 둘다에 대응할 수 있다. 문서 유형 정보는 문서의 속성(예컨대 명함 대 신용 카드 영수증)을 표시할 수 있고 사용자에 의해 입력 가능하거나(예컨대 모바일 장치의 사용자 인터페이스 상의 메뉴에서 선택함으로써) 혹은 자동적으로 정해질 수 있다(예컨대 디지털 이미지(132)로 표현된 문서의 상대적인 수직, 수평 디멘죤에 기초해서).
시스템 상태 정보는 이미지 포착 일시(예, 타임 스탬프), 전송 일시, 수령 일시, 또는 이들의 조합과 같은 정보를 포함할 수 있다. 이미지 포착, 전송, 수령 시각에서의 모바일 장치의 지리적 위치, 또는 이들의 조합과 같은 추가의 시스템 상태 정보가 또한 포함 가능하다.
제1 후단 컴포넌트(150)는 포함된 색인 정보(134)를 가진 메시지(130)를 제2 후단 컴포넌트(160)에 송신 가능하다. 제2 후단 컴포넌트(160)는 인터넷과 같은 또 다른 네트워크(140)를 통해 모바일 장치 네트워크(120)에 연결 가능하다. 이와 달리 제2 후단 컴포넌트(160)는 모바일 네트워크(120)에 직접 연결 가능하거나 혹은 모바일 네트워크(120) 내에 포함 가능하다.
제2 후단 컴포넌트(160)는 색인 엔진(162)과 검색 엔진(164)을 포함할 수 있 다. 색인 엔진(162)은 색인 정보(134)에 기초해서 문서 이미지(132)를 아카이빙할 수 있다. 검색 엔진(164)은 네트워크 장치(170)로부터 수신된 하나 이상의 검색 용어에 기초해서 네트워크 장치(170)로의 전달을 위해 문서 이미지(132)를 페치할 수 있다. 네트워크 디바이스(170)는 모바일 장치 네트워크 또는 추가 네트워크(140)에 연결 가능하다. 예컨대 네트워크 장치(170)는 인터넷에 연결되어 웹 브라우저를 실행하는 PC일 수 있다.
도 1에 도시한 일례의 시스템(100)은 여러가지 상이한 방식으로 구현 가능하며, 도시한 동작 컴포넌트의 특정 부분에 제한되는 것이 아니라 단지 일례로서 제시되었음을 알아야 한다. 여기서 사용되는 바와 같이, "후단 컴포넌트"란 용어는 통상의 후단 컴포넌트(예, 데이터 서버) 및 미들웨어 컴포넌트(예, 어플리케이션 서버) 둘다를 포함한다. 일반적으로, 제1 및 제2 후단 컴포넌트(150,160)는 하나 이상의 위치에 있는 하나 이상의 서버, 즉 서버 환경부를 이용하여 구현 가능하다. 예컨대 제1 및 제2 후단 컴포넌트(150,160)는 미국 캘리포니아 마운틴 뷰 소재의 구글 사(Google Inc.)가 공급하는 GMAIL(상표명)과 같은 공개적으로 엑세스 가능한 이메일 시스템의 서버 머신일 수 있다.
더욱이 메시지(130)는 시스템(100)의 각종 컴포넌트들 사이에서 수정된 포맷을 가질 수가 있어 각 단계에서 별개의 별개의 메시지로 고려될 수가 있음을 알아야 한다. 예컨대 모바일 장치(110)로부터 수신된 메시지는 MMS 포맷일 수 있으며, 제1 후단 컴포넌트(150)로부터 수신된 메시지는 제1 및 제2 후단 컴포넌트(150) 및 (160) 사이에서 사용되는 특정 메시징 포맷(proprietary messaging format)일 수 있으며, 마지막으로 제2 후단 컴포넌트(160)로부터 수신된 메시지는 HTML 포맷일 수 있다.
사용된 포맷 및 컴포넌트 구성에 상관없이, 시스템(100)은 모바일 장치(110), 모바일 장치 네트워크(120), 및 후단 컴포넌트(150,160)를 모바일 장치(110)의 사용자를 위해 하나의 서비스로 통합한다. 이처럼 예컨대 사용자는 그의 셀 폰으로 화상을 취할 수가 있고 이미지를 그의 이메일 계정에 이메일 보낼 수 있으며(혹은 MMS로서 송신), 이미지는 자동으로 OCR되어 색인된다. 다음에 사용자는 전자 메일 시스템의 사용자 인터페이스를 이용하여 이미지를 엑세스하여 검색할 수 있다.
도 2는 디지털 이미지를 아카이빙하고 검색하는 일례의 방법(200)의 흐름도이다. 메시지는 디지털 카메라를 가진 모바일 장치로부터 수신된다(210). 모바일 장치는 사용자가 이메일 시스템 내에 그의 계정으로 셀 폰 번호를 등록한 셀 폰일 수 있으며, 메시지는 셀 폰에서 (예컨대 archive@***.com과 같은 공지의 이메일 어드레스로)송신된 이메일 혹은 이메일 시스템 단축 코드(예컨대 아카이브 서비스를 표시하는 키워드를 가진)에 송신된 MMS일 수 있다. 모바일 장치로부터의 메시지는 디지털 카메라로 취득한 하나 이상의 디지털 이미지를 포함하며, 디지털 이미지는 워드에 대응하는 정보(즉, 문서 텍스트를 가시적으로 표현하는 이미지 데이터)를 포함한다.
모바일 장치는 수신된 이미지에 기초해서 유효성 검사가 가능하다(220). 예컨대 모바일 게이트웨이 또는 이메일 시스템은 이전에 채용된 인증 및 관련 메카니 즘에 기초해서 셀 폰의 유효성을 검사할 수가 있다. 사용자 계정은 폰 번호에 바운드될 수 있고 인증 및 관련 메카니즘은 다음과 같이 동작 가능하다. 사용자는 사용자의 모바일 장치 번호를 지정하는 웹 사이트(예컨대 이메일 시스템의 웹 사이트)의 폼(form)을 채움으로써 바인딩을 시작할 수 있다. 자동화 시스템이 그 폼을 처리하여 SMS(단문 서비스) 메시지를 랜덤하게 생성된 스트링과 함께 웹 요청에 대해 사용자의 모바일 장치로 송신한다. 다음에 사용자는 동일한 모바일 장치로부터 재송신된 SMS를 통해 혹은 웹 상에서 그 스트링을 검증할 수 있다. 사용자는 모바일 장치가 사용자에게 속한 경우에만 그 스트링을 알 것이다. 이와 달리 사용자는 사용자와 연관된 식별자(웹 사이트에 의해서 할당된 바와 같은)를 가진 적절한 번호 또는 단축 코드에 모바일 장치로부터의 메시지를 송신하는 대신에 모바일 장치로부터의 바인딩을 시작할 수 있다. 사용자 계정은 유사하게 검증될 스트링을 가진 메시지를 수신한다.
워드는 광학 문자 인식을 이용하여 디지털 이미지 정보로부터 결정된다(230) 이것은 이미지에서 모든 워드를 결정하는 것과, 혹은 오직 관련 키워드 만을 추출하는 것을 포함할 수 있다. 예컨대 "a" 및 "the"와 같은 아주 일반적인 워드는 무시 가능하며 사전에서 종종 드물게 발생하는 워드는 보다 관련이 있는 것으로서 랭크될 수 있다. 이것은 웹 검색 기술에서 이용되는 바와 같이 불사용 워드(예, "and", "for", "a", "the" 등)를 단순히 스트리핑하는 통상의 기술을 포함할 수 있다. 이것은 또한 사람, 장소, 비지니스 등을 의미하는 적절한 명사 또는 명명된 실체(예, "존", "샌 디에고", "바니 앤 노블" 등)를 식별하는 것과 같이 보다 관련이 있는 것으로서 워드를 능동적으로 식별하는 것을 포함할 수 있다. 일부 구현예에서, 모든 워드들이 식별 가능하고 후단에서의 처리 엔진(예, 색인 엔진)은 관련 워드와 비관련 워드 간의 식별을 다룰 수가 있다.
일부 구현예에서 메시지는 동일한 문서의 적어도 2 개의 이미지를 포함할 수 있으며, 워드는 그 워드를 찾기 위해 적어도 2 개의 디지털 이미지에서 상관 광학 문자 인식을 수행함으로써 결정 가능하다. 예컨대 2 개의 디지털 이미지는 사용자에 의해서 별도로 촬영되어 이메일 또는 MMS 전송을 위해 함께 수동으로 그룹화될 수 있거나 혹은 2 개의 디지털 이미지는 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대해 촬영되어질 수 있다. 예를 들면, 도 1을 참조해서, 디지털 카메라(112)는 2 개의 화상이 신속히 연속으로 촬영되어져 자동으로 제1 후단 컴포넌트(150)에 자동으로 송신될 수 있도록 트리거링하는 입력(114)을 가질 수 있다. 입력(114)은 또한 하나의 화상과 자동 송신을 트리거링하도록 설계 가능하다.
입력(114)은 모바일 장치(110)의 그래픽 유저 인터페이스에서의 그래픽 요소 또는 모바일 장치(110) 상의 물리적 버튼일 수 있다. 입력(114)은 측면 장착된 프레스 가능한 썸휠(thumbwheel)과 같은 다기능적 입력일 수 있다. 이와 달리 입력(114)은 이미지 아카이빙 시스템에 전용될 수 있어, 모바일 장치의 스크린 상에 디스플레이된 임의의 화상은 입력(114)과의 단일 사용자 상호작용에 응답하여 OCR 및 아카이빙을 위해 자동적으로 송신 가능하다. 어하튼 간에 입력(114)은 한번 또는 두번의 사용자 입력 조치(예, 하나 또는 두번의 버튼 누름)에 응답하여 제1 후단 컴포넌트(150)에 이미지의 송신을 트리거링하도록 구성 가능하다.
다시 도 2를 참조해서, 결정된 워드는 이메일의 제목 라인, 헤더 라인 혹은 본문에 부가될 수 있으며, 풀 이미지가 이메일의 첨부 파일로서 저장 가능하다. 또한, 이메일은 사전 정의된 레이블(예, "PIC")로 자동 태그 가능하다. 디지털 이미지는 워드에 기초하고 또한 가능하게는 사전 정의된 레이블에 기초해서 색인화 가능하다(240). 각종 유형의 워드 색인화가 이용 가능하다. 예컨대 다음 특허 출원에서 기술하고 있는 시스템 및 기술을 이용할 수 있다. 즉 2004년 3월 31일자로 출원되어 2005년 10월 6일자로 공개된 Paul Buchheit 등의 발명의 명칭이 "이메일 대화 관리 시스템"인 미국 특허 공개 공보 제2005/0222985 A1호와, 2004년 8월 6일자로 출원되어 2005년 10월 6일자로 공개된 Paul Buchheit 등의 발명의 명칭이 "대화 기반의 이메일 시스템에서 검색 질의와 관련된 메시지를 식별하는 것"인 미국 특허 공개 공보 제2005/0223058호이며, 이 두 공개 공보는 여기서 참조 문헌으로 결합되고 있다. 디지털 이미지는 디지털 이미지의 나중 검색을 위해 저장된다(250). 일부 구현예에서 색인화 및 저장 동작은 서로 통합됨에 주목하라.
하나 이상의 검색 용어는 네트워크 장치로부터 수신 가능하다(260). 이들 검색 용어는 웹 브라우저 인터페이스(모바일 폰, PC 등에서)에서와 같이 사용자가 입력 가능하며, 이미지 아카이빙 시스템에 송신 가능하다. 이와 달리 이들 검색 용어는 일부 입력에 응답하여 컴퓨터에 의해 생성 가능하다. 어쨋든 디지털 이미지는 하나 이상의 검색 용어에 기초해서 검색 가능하며(270), 추가 처리를 위해 또 다른 시스템에 송신되거나 사용자에게 제시 가능하다.
일부 구현예에 있어서, OCR 기술은 저해상도 이미지(예, 1 메가 픽셀 카메라로부터의 이미지)를 다룬다. 또한 카메라/렌즈 품질, 문서 촬영 거리 등을 해결하기 위한 단계들이 취해질 수 있다. 이미지 향상 및 슈퍼 해상도 기술을 이용하여 향상된 OCR 능력을 위해 문서 이미지를 전처리할 수가 있다.
도 3은 향상된 광학 문자 인식을 위한 일례의 방법(300)의 흐름도이다. 디지털 이미지를 포함하는 메시지가 검색(310) 가능하고 그 이미지는 디지털 이미지로 표현된 문서에 대한 유형의 표시를 포함할 수 있다. 화상이 취해졌을 때 사용자가 문서(예, 명함 대 영수증)의 유형을 알아차린 경우와 같이 그 유형의 표시는 명시적으로 포함될 수 있다. 이와 달리 그 유형의 표시는 디지털 이미지로 표현된 문서의 상대적인 수직 및 수평 디멘죤과 같이 이미지 자체의 형태일 수 있다. 예를 들면, 명함은 통상적으로 문서 상의 텍스트에 대한 관계 및 화상에서의 어느 적절한 문서의 엣지에 대해서 체크함으로써 디지털 화상으로부터 결정 가능한 일반 종횡비를 가진다. 유형의 표시는 또한 일부 워드를 찾는 초기 OCR 패스에 의해 결정될 수 있고 다음에 이들 워드를 이용하여 나중 OCR 처리에 영향을 미칠 수 있는 문서의 유형을 표시할 수가 있다.
디지털 이미지는 광학 문자 인식을 향상하기 위해 전처리 가능하다(320). 전처리는 통상의 기술을 이용하여 이미지를 디노이즈하고 디스큐하는 것을 포함할 수 있다. 전처리는 디지털 이미지로 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 디지털 이미지에 대한 2 진화 임계치를 식별하는 것을 포함할 수 있다. 또한, 전처리는 저해상도 이미지에서 그의 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 각각의 고해상도 픽셀에서 그레이 레벨을 취득하는 반복 강화 방법을 채용할 수 있다.
바이큐빅/바이리니어/스플라인 보간에 기초한 통상의 슈퍼 해상도 알고리즘은 이미지에 대해 로우 패스 필터를 필수적으로 실행함으로써, 샤프한 엣지를 제거한다. 이것은 원래의 이미지가 이미 부분적으로 블러링되었을 때 바람직하지 않을 수 있는 이미지의 추가 블러링을 가져온다. 문자 경계부에서의 블러링은 OCR 품질의 저하를 야기할 수 있다. 한편, 최근접 이웃 보간처럼 엣지 보존 슈퍼 해상도 알고리즘은 OCR 엔진을 혼돈하는 앨리어싱 아티팩트(aliasing artifact)를 야기할 수 있다. 이와 대조적으로 후술하는 신규의 접근 방법은 슈퍼 샘플링 동안 노이즈를 증대함이 없이 블러링을 제거할 수가 있다. "슈퍼 샘플링" 및 "슈퍼 해상도"란 용어는 여기서 동의어로 사용되고 있다.
g(x,y)│(x,y)∈[1...M, 1...N]라고 하면, 이는 관측된 이미지를 표현하는 것으로서, 여기서 M, N은 이미지 디멘죤이다. f(x,y)│((x,y) ∈ R2)는 기저 트루 이미지이다. 이러한 모델에서 g는 f의 블러링된 변형이다. 즉 g = f*hPSH 이며, 여기서 *는 콘볼루션 연산자를 표시하고, hPSF는 포인트 확산 함수를 표시한다(이 함수는 블러링 프로세스를 효과적으로 모델링한다). hPSH는 hPSF가 일반적으로 가중된 이웃 평활화를 수행하는 윈도우 함수라고 알고 있기 때문에 명확히 알 필요는 없다. 그에 따라 포인트 확산 함수는 가우시안 함수로 모델링 가능하다.
f(n)를 f와 g(n) = f(n)* hPSF에 대한 근사치라고 하면, 수학식은 다음과 같다.
Figure 112009038917742-pct00001
여기서, 대문자는 퓨리에 변환을 의미한다. 상기 수학식으로부터
Figure 112009038917742-pct00002
여기서, c는 상수이며, HBP는 필터이다. 이상적으로 1 - (HBP)/cㆍHPSF = 0이다. 그러나, 포인트 확산 함수는 로우 패스 필터이므로, 그의 퓨리에 변환은 역함수를 찾는 것이 복잡한 대부분의 주파수에서 보통 0이다.
그러므로, 실용상 반복적인 미세 조정 방법이 사용 가능하다.
Figure 112009038917742-pct00003
Figure 112009038917742-pct00004
, 여기서 HBP와 c는
Figure 112009038917742-pct00005
0
이 되도록 선택된다. c가 크면 클수록 노이즈와 오차 허용범위가 커지나, 컨버전스는 느려지고, 그 역의 관계도 성립한다. 기저 이미지의 초기 근사치 f(0)는 바이큐빅 B 스플라인 보간을 통해서 생성 가능하다. 이처럼 반복적인 미세 조정 방법에 의해서 저해상도 이미지에서 그의 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 각각의 고해상도 픽셀에서 그레이 레벨이 취득된다.
광학 문자 인식은 디지털 이미지에서 워드들을 결정하기 위해 전처리 디지털 이미지에서 수행 가능하다(330). OCR 동작은 다중 스케일로 수행 가능하다. 슈퍼 해상도 겸용 디블러링 알고리즘을 실행하면, 문서의 다중 버전이 생성되어 OCR 가능하다. 예컨대 원래의 스케일에서 제1 버전, 2 × 스케일에서의 제2 버전, 3 ×스케일에서의 제3 버전은 OCR 엔진으로 개별적으로 공급 가능하며 최종 워드의 결합이 저장 가능하다. 원래의 문서는 폰트 크기의 혼합을 가질 수가 있다. 즉 가장 작은 폰트는 OCR 엔진에 대해서 너무 작아 인식이 불가능할 수가 있다. 이러한 폰트들은 문서의 상위 해상도 버전(디블러링된)으로부터 인식가능하다. 한편, 원래의 문서에서 대형 폰트 크기는 슈퍼 해상도 후 OCR 엔진이 인식하기에는 너무 큰 폰트 크기가 될 수가 있다. 이러한 폰트들은 저해상도 버전으로부터 인식 가능하다.
또한, OCR이 다중 스케일로 수행되는지에 관계없이 광학 문자 인식의 초기 결과는 실제 워드이거나 혹은 실제 워드가 아닐 수 있는 워드로 함께 그룹화된 문자들의 스트링(string)이 될 것이다(예컨대, 워드 "클립(clip)"은 수 "1"로 대체된 소문자 "l"로 "c1ip"로서 읽을 수가 있다). 이처럼 후처리는 광학 문자 인식으로 인한 일반 문자 오인식을 확인하여 정정하기 위해 워드에 대해서 수행 가능하다. 후처리는 언어 모델 기반일 수가 있으며 하나 이상의 사전을 이용할 수가 있다.
일부 구현예에서 다중 사전 기반의 언어 모델이 이용 가능하다. 문서에 대한 유형 표시에 따라 적어도 2 개의 사전 기반의 언어 모델 사이에서 선택이 행해질 수 있다(340). 다음에 워드는 선택된 사전 기반의 언어 모델에 따라서 후 처리될 수 있다(350). 다른 구현예에서 단일 사전 기반의 언어 모델이 OCR될 모든 이미지에 대해서 사용 가능하다(예컨대 사전이 웹 상에서 찾은 워드의 서브셋일 수 있다)
언어 기반의 후처리는 문서 이미지로부터 획득한 OCR 결과의 품질을 향상할 수가 있다. 언어 기반의 후처리는 문서 이미지로부터 획득한 OCR 결과의 품질을 향상할 수 있다. 언어 기반의 후처리는 사전에서 찾아진 워드로 OCR로부터의 문자 스트링 출력을 연결하는 확률적 프레임워크(a probabilistic framework)의 맥락에서 이해될 수가 있다. 사전은 반드시 표준 단어 사전일 필요는 없으나, 하나 이상의 코퍼스로부터 도출된 워드 세트일 수 있다.
w가 워드(공간 제한 문자의 조합)를 가리킨다고 하자. s는 OCR 프로세스에 의해서 출력된 관측된 스트링을 가리킨다고 하자. 베이즈 룰(Bayes rule)을 이용하면,
P(w│s) = P(s│w)P(w)/P(s)
관측된 열 s이 주어지며, 목표는 다음을 획득하기 위한 것이다.
w* = argmaxw P(w│s) = argmaxw (P(s│w)P(w))
여기서, P(w)는 발생하는 워드 w의 확률을 표시하며, P(w│s)는 s로서 OCR에 의해서 보여질 때 실제적으로 w가 되는 워드의 확률을 표시한다. 따라서 관측된 OCR 출력 스트리으로 주어지는 워드의 귀납적 확률을 최대화하는 w가 후처리 동안 구해질 수가 있다. 더욱이 후처리는 2 개의 컴포넌트, 즉 (1) 주어진 텍스트 콘텍스트에서 P(w)를 추정하기 위한 언어 모델, (2) 워드 w를 s로 판독할 확률, P(s│w)를 추정하기 위한 OCR 오차 모델을 이용하여 w*를 계산할 수 있다.
언어 모델은 주어진 콘텍스트에서 발생하는 워드 w의 우도(likelihood)를 산출한다. 예컨대 트레이닝 문서의 코퍼스로 각 워드의 발생을 카운트하여 워드 확률 및 워드 사전을 구축할 수가 있다. 이러한 사전 기반의 언어 모델은 모든 사전 워드에 대응하는 수용 상태 및 문자로서 입력 레이블을 가진 가중된 유한 상태 머신(WFSM)에 의해서 표현 가능하다. 이러한 일례의 언어 모델은 적당한 명사 또한 커버할 수 없음에 주목하라.
지금까지 종종 보여준 스트링에 주어진 다음 문자의 확률을 추정하는 문자 기반의 언어 모델은 적절한 명사로 더 양호할 수 있다. 그 표현은 다시 WFSM일 수 있으며, 다음의 코스트 측정치를 가진다.
Figure 112009038917742-pct00006
지금까지 보여준 전체 문자 시퀀스에 대한 조건으로서 상기 확률을 계산하는 대신에 오직 몇 개의 문자 히스토리 만이 이용될 필요가 있다. 이것은 트레이닝 세트에 있는 것보다 훨씬 많은 워드의 커버리지를 가능하게 한다. 예컨대 Kolak O., Resnik P., Byrne W.의 "NLP 어플리케이션을 위한 생성 확률"(HLT-NAACL 2003)을 참조. 또한 n 그램 워드 기반 모델이 이용 가능하다. 이러한 모델은 이전의 소수 워드로 주어진 워드의 발생 확률을 이용한다. 다른 언어 기반의 모델이 또한 이용 가능하다.
오차 모델은 입력 문자 시퀀스 w를 s로서 판독하는 OCR 엔진의 확률을 계산한다. 이는 또한 머신 학습 접근 방법을 이용하여 추정 가능하고 오차 모델은 트레이닝 데이터, 즉 입력 텍스트와 OCR 출력을 가진 일례의 이미지를 이용하여 생성 가능하다. 입력 및 출력 텍스트 둘다는 대응의 문자 세그먼트 w와 s로 각각 분할 (세그먼트)될 수 있다. 예컨대 이러한 분할은 레빈쉬타인 편집 거리(Levenshtein edit distance)를 이용하여 행해질 수 있다. 레빈쉬타인 거리는 하나의 스트링을 또 다른 스트링으로 변환하는데 필요한 최소 연산(단일 문자의 삽입/삭제/대입)수 로서 2 개의 스트링들 사이의 거리를 측정한다. 제어하의 분할된 스트링 쌍(s,w)으로, 가중된 유한 상태 변환기(WFST)가 계산 가능하며, 원래의 문자 및 출력 레이블에 대응하는 입력 레이블은 OCR 출력 문자가 된다. 예컨대 Kolak O., Resnik P., Byrne W.의 "NLP 어플리케이션을 위한 생성 확률"(HLT-NAACL 2003)을 참조. 이와 달리 편집 거리 접근 방법을 이용하여 상기 카운트로부터 P(s│w)를 측정하고 그의 역을 변환 코스트로서 이용함으로써 천이 확률을 직접 계산할 수가 있다.
공지의 지상 검증 자료들(ground truths)을 가진 문서 코퍼스를 이용하여 문자 대입의 코스트/확률을 추정할 수가 있다. 각각의 관측된 OCR 스트링을 공지의 지상 검증 자료로 변환하는데 필요한 실제의 변환(단일 문자의 삽입/삭제/대입)을 기록할 수가 있다. 각각의 변환 발생수는 OCR 프로세스 동안 일어나는 특정 변환의 확률/코스트의 척도이다. 이처럼 문자 "l"을 숫자 '1'로서 잘못 취급하는 많은 예가 있을 수 있어 그러한 발생 확률에 고확률을 할당한다.
오차 모델을 계산하기 위한 트레이닝 데이터는 텍스트로부터 이미지를 인공적으로 생성하고, 생성된 이미지에 노이즈를 부가하며, 그런 다음 그 이미지로부터 OCR 엔진 출력을 생성함으로써 생성 가능하다. 신용 카드 영수증 및 명함에 대해서 로컬 비지니스 리스팅 데이터를 이용하여 사전/언어 모델을 학습할 수가 있다. 또한, 시스템 사용자는 트레이닝 데이터로서 서빙하는 각종 유형의 문서 이미지를 제 출할 것을 요청 받을 수 있다.
도 4는 범용 컴퓨터 시스템(400)의 일례의 개략도이다. 시스템(400)은 일부 구현예에 따른 방법(200) 및 (300)과 관련하여 기술된 동작을 위해 사용 가능하다. 예컨대 시스템(400)은 어느 하나 또는 모든 모바일 장치(110), 제1 및 제2 후단 컴포넌트(150, 160), 네트워크 장치(170)에 포함될 수가 있다.
시스템(400)은 프로세서(410), 메모리(420), 저장 장치(430), 입/출력 장치(440)를 포함한다. 각각의 컴포넌트(410,420,430,440)는 시스템 버스(450)를 이용하여 상호 연결된다. 프로세서(410)는 시스템(400) 내에서 실행을 위한 명령어들을 처리할 수 있다. 일부 구현예에서 프로세서(410)는 싱글 쓰레드 프로세서이다. 다른 구현예에서 프로세서(410)는 멀티 쓰레드 및/또는 멀티 코어 프로세서이다. 프로세서(410)는 메모리(420) 또는 저장 장치(430)에 저장된 명령어들을 처리하여 사용자 인터페이스를 위한 그래픽 정보를 입출력 장치(440) 상에 디스플레이 가능하다.
메모리(420)는 시스템(400) 내에 정보를 저장한다. 일부 구현예에서 메모리(420)는 컴퓨터 판독 가능한 매체이다. 일부 구현예에서 메모리(420)는 휘발성 메모리 장치이다. 일부 구현예에서 메모리(420)는 비휘발성 메모리 장치이다.
저장 장치(430)는 시스템(400)을 위한 대량 저장 장치를 제공할 수 있다. 일부 구현예에서 저장 장치(430)는 컴퓨터 판독 가능한 매체이다. 각종 상이한 구현예에서, 저장 장치(430)는 플로피 디스크 장치, 하드 디스크 장치, 광학 디스크 장치, 또는 테이프 장치일 수가 있다.
입출력 장치(440)는 시스템(400)에 대한 입출력 동작을 제공한다. 일부 구현예에서 입출력 장치(440)는 키보드 및/또는 포인팅 장치를 포함한다. 일부 구현예에서 입출력 장치(440)는 그래픽 사용자 인터페이스를 디스플레이하기 위한 디스플레이 유닛을 포함한다.
기술된 특징들은 디지털 전자 회로 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합으로 구현 가능하다. 장치는 정보 매체, 예컨대 프로그램 가능한 프로세서에 의한 실행을 위해 전파 신호로 혹은 머신 판독 가능한 저장 장치로 정보 매체로 실시된 컴퓨터 프로그램 제품으로 구현 가능하며, 방법 동작은 입력 데이터에서 동작하고 출력을 생성함으로써 기술된 구현예의 기능들을 수행하도록 명령어들의 프로그램을 실행하는 프로그램 가능한 프로세서에 의해서 수행 가능하다. 기술된 특징들은 데이터 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 데이터 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 전송하도록 결합된 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 가능한 하나 이상의 컴퓨터 프로그램으로 유익하게 구현 가능하다. 컴퓨터 프로그램은 임의의 엑티비티를 수행하거나 임의의 결과를 발생하도록 컴퓨터에서 직접 또는 간접적으로 이용 가능한 명령어 세트이다.
컴퓨터 프로그램은 컴파일된 혹은 번역된 언어를 포함하는 임의 형태의 프로그래밍 언어로 기록 가능하며, 독립형 프로그램 또는 모듈로서, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기 적합한 다른 유닛을 포함하는 임의 형태로 배치 가능하다.
명령어들의 프로그램의 실행을 위해 적합한 프로세서는 일례로 범용 및 특정 목적의 마이크로프로세서 및 단일 프로세서 또는 일종의 컴퓨터인 다중 프로세서들 중 하나를 포함한다. 일반적으로 프로세서는 판독 전용 메모리(ROM) 또는 RAM 또는 둘다로부터 명령어들과 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령어들을 실행하기 위한 프로세서와 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리이다. 일반적으로 컴퓨터는 또한 데이터 파일들을 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나 혹은 대용량 저장 장치와 통신하도록 동작적으로 결합될 것이며, 이러한 대용량 장치는 내부 하드 디스크 및 착탈 가능한 디스크와 같은 자기 디스크, 광자기 디스크 및 광학 디스크를 포함한다. 컴퓨터 프로그램 명령어들과 데이터를 유형적으로 실시하기 적합한 저장 장치는 EPROM, EEPROM 및 플래시 메모리 장치와 같은 일례의 반도체 메모리 장치, 내부 하드 디스크 및 착탈 가능한 디스크와 같은 자기 디스크, 광자기 디스크, 및 CD-ROM과 DVD-ROM 디스크를 포함하는 모드 형태의 비휘발성 메모리를 포함한다. 프로세서 및 메모리는 ACIS에 의해 보완되거나 ACIS로 결합 가능하다.
사용자와의 상호작용(대화)을 제공하기 위해, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 장치 또는 키보드와 사용자에게 정보를 디스플레이하는 CRT 또는 LCD와 같은 디스플레이 장치를 가진 컴퓨터 상에서 특징들이 구현 가능하다.
데이터 서버와 같은 후단 컴포넌트를 포함하거나, 혹은 어플리케이션 서버 또는 인터넷 서버와 같은 미들웨어 컴포넌트를 포함하거나, 혹은 그래픽 사용자 인터페이스 또는 인터넷 브라우저 혹은 이들의 조합을 가진 클라이언트 컴퓨터와 같은 전단 컴포넌트를 포함하는 컴퓨터 시스템에서 특징들이 구현 가능하다. 시스템의 컴포넌트는 통신 네트워크와 같은 디지털 데이터 통신의 매체 또는 임의 형태로 접속 가능하다. 일례의 통신 네트워크는 예컨대 LAN, WAN, 및 인터넷을 형성하는 컴퓨터 및 네트워크를 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 원격이며 전술한 것과 같은 네트워크를 통해 통상 대화한다. 클라이언트 및 서버의 관계는 하나 이상의 컴퓨터를 실행하는 컴퓨터 프로그램에 의해서 발생하며 서로 대해 클라이언트-서버 관계를 가진다.
비록 몇몇의 구현예가 위에서 상세히 설명되었지만 다른 수정예가 가능하다. 예를 들면 전자적 검색 서비스를 제공하고 네트워크(임의의 네트워크 연결된 검색 엔진)에 연결하도록 구성된 임의의 서버 환경부는 전술한 시스템 및 기술을 이용하여 모바일 장치 네트워크와 통합 가능하다. 서버 환경부는 네트워크 엑세스 가능한 하드 드라이브로서 기능할 수 있다. 더욱이 서버 환경부는 종래의 후단 또는 미들웨어 컴포넌트일 필요는 없다. 서버 환경부는 PC에 설치되어 로컬 파일의 전자적 검색을 위해 사용되는 프로그램일 수 있거나, 혹은 서버 환경부는 기업 네트워크에 설치된 검색 어플라이언스(예컨대 미국 캘리포니아 마운틴 뷰 소재의 구글 사가 제 공한 박스의 GoogleTM)일 수 있다.
또한, 도면에 도시한 논리 흐름은 원하는 결과를 달성하기 위해 순차적 순서로 혹은 도시한 특정 순서를 요하지 않는다. 다른 동작이 제공 가능하거나, 혹은 동작이 전술한 시스템에서 제거 가능하며, 다른 컴포넌트는 전술한 시스템에 부가되거나 제거 가능하다. 따라서 다른 구현예는 첨부된 특허청구 범위 내에 있다.

Claims (38)

  1. 정보를 관리하기 위한 컴퓨터 구현 방법으로,
    모바일 장치 네트워크에 접속하도록 구성된 모바일 장치로부터 메시지를 수신하는 단계로서, 상기 모바일 장치는 디지털 카메라를 포함하고, 상기 메시지는 디지털 카메라에 의해 촬영되며 워드(words)에 대응하는 정보를 포함하는 디지털 이미지를 포함하며, 상기 메시지를 수신하는 단계는 상기 디지털 이미지에서 표현된 문서에 대한 유형의 표시를 수신하는 단계를 포함하는 것인, 상기 메시지를 수신하는 단계와,
    광학 문자 인식(optical character recognition)을 이용하여 디지털 이미지 정보로부터 상기 워드를 결정하는 단계와,
    상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 워드를 후처리(post-processing)하는 단계로서, 상기 후처리하는 단계는,
    상기 문서에 대한 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들(dictionary based language models) 사이에서 선택하는 단계와,
    상기 선택된 사전 기반 언어 모델에 따라서 상기 워드를 후처리하는 단계를 포함하는 것인, 상기 후처리하는 단계와,
    상기 워드에 기초하여 상기 디지털 이미지를 색인화하는 단계와,
    하나 이상의 수신된 검색 용어에 기초해서 상기 디지털 이미지의 나중 검색을 위해 상기 디지털 이미지를 저장하는 단계
    를 포함하는 정보 관리의 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 모바일 장치의 유효성을 검사(validate)하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
  3. 제1항에 있어서, 상기 하나 이상의 검색 용어를 수신하는 단계와,
    상기 하나 이상의 검색 용어에 기초해서 상기 디지털 이미지를 검색하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
  4. 정보를 관리하기 위한 컴퓨터 구현 방법으로,
    모바일 장치 네트워크에 접속하도록 구성된 모바일 장치로부터 메시지를 수신하는 단계로서, 상기 모바일 장치는 디지털 카메라를 포함하고, 상기 메시지는 디지털 카메라에 의해 촬영되며 워드에 대응하는 정보를 포함하는 디지털 이미지를 포함하며, 상기 메시지를 수신하는 단계는 상기 디지털 이미지가 첨부된 이메일 메시지를 수신하는 단계를 포함하는 것인, 상기 메시지를 수신하는 단계와,
    광학 문자 인식을 이용하여 디지털 이미지 정보로부터 상기 워드를 결정하는 단계와,
    상기 워드에 기초하여 상기 디지털 이미지를 색인화하는 단계와,
    하나 이상의 수신된 검색 용어에 기초해서 상기 디지털 이미지의 나중 검색을 위해 상기 디지털 이미지를 저장하는 단계와,
    상기 워드 중 적어도 하나와 상기 모바일 장치에 대응하는 사전 정의된 레이블(pre-defined lable)을 상기 이메일 메시지에 부가하는 단계
    를 포함하고,
    상기 결정하는 단계, 상기 색인화하는 단계 및 상기 저장하는 단계는 전자 메일 시스템에서 수행되는 것인, 정보 관리의 컴퓨터 구현 방법.
  5. 제1항에 있어서, 상기 디지털 이미지를 수신하는 단계는, 상기 디지털 카메라에의 단일 입력에 응답하여 단일 피사체에 대해 촬영된 적어도 2개의 디지털 이미지를 수신하는 단계를 포함하며,
    상기 워드를 결정하는 단계는 상기 워드를 찾기 위해 상기 적어도 2개의 디지털 이미지 상에 상관 광학 문자 인식(correlative optical character recognition)을 수행하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
  6. 제1항에 있어서, 상기 워드를 결정하는 단계는 다중 스케일로 상기 광학 문자 인식을 수행하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
  7. 제1항에 있어서, 상기 광학 문자 인식을 향상시키기 위해 상기 디지털 이미지를 전처리(pre-processing)하는 단계를 더 포함하는 정보 관리의 컴퓨터 구현 방법.
  8. 제7항에 있어서, 상기 전처리하는 단계는, 상기 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화(binarization) 임계치를 식별하는 단계를 포함하는 것인, 정보 관리의 컴퓨터 구현 방법.
  9. 제7항에 있어서, 상기 전처리하는 단계는, 저해상도에서 이웃 픽셀의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 단계를 포함하는 정보 관리의 컴퓨터 구현 방법.
  10. 삭제
  11. 삭제
  12. 제1항에 있어서, 상기 유형의 표시를 수신하는 단계는, 메시지로부터 사용자 지정 범주를 수신하는 단계를 포함하고, 상기 사용자 지정 범주는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택되는 것인 정보 관리의 컴퓨터 구현 방법.
  13. 모바일 장치 네트워크와,
    디지털 이미지를 취하고, 상기 모바일 장치 네트워크에 접속하며, 상기 모바일 장치 네트워크를 통해 상기 디지털 이미지를 전송하도록 구성된 복수의 모바일 장치와,
    상기 복수의 모바일 장치로부터 디지털 이미지를 수신하고, 광학 문자 인식을 적용하며 상기 디지털 이미지로부터 워드를 추출하며, 상기 추출된 워드에 기반해서 상기 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 상기 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하고,
    상기 하나 이상의 컴퓨터는 상기 디지털 이미지와 함께 문서 유형의 표시를 수신하고, 상기 문서 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들 사이에서 선택하며, 선택된 사전 기반 언어 모델에 따라서 상기 추출된 워드를 후처리하는 시스템.
  14. 모바일 장치 네트워크와,
    디지털 이미지를 취하고, 상기 모바일 장치 네트워크에 접속하며, 상기 모바일 장치 네트워크를 통해 상기 디지털 이미지를 전송하도록 구성된 복수의 모바일 장치와,
    상기 복수의 모바일 장치로부터 디지털 이미지를 수신하고, 광학 문자 인식을 적용하여 상기 디지털 이미지로부터 워드를 추출하며, 상기 추출된 워드에 기반해서 상기 디지털 이미지를 색인화하고, 수신된 검색 용어에 기초해서 나중 검색을 위해 상기 디지털 이미지를 저장하도록 구성된 하나 이상의 컴퓨터를 포함하고,
    상기 하나 이상의 컴퓨터는 제1 후단 컴포넌트와 제2 후단 컴포넌트를 포함하며, 상기 제1 후단 컴포넌트는 상기 디지털 이미지를 수신하고, 상기 모바일 장치의 유효성을 검사하며, 광학 문자 인식을 적용하도록 구성되고, 상기 제2 후단 컴포넌트는 상기 디지털 이미지를 색인화하고 상기 디지털 이미지를 저장하도록 구성되는 것인, 시스템.
  15. 제14항에 있어서, 상기 제2 후단 컴포넌트는 전자 메일 시스템을 포함하는 것인 시스템.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 모바일 장치와 연관된 모바일 폰 번호에 기초해서 상기 모바일 장치의 유효성을 검사하도록 구성되는 시스템.
  20. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 검색 용어를 수신하고, 상기 검색 용어에 기초해서 상기 디지털 이미지를 검색하도록 구성되는 시스템.
  21. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 추출된 워드와 사전 정의된 레이블을 상기 디지털 이미지를 포함하는 메시지에 부가하도록 구성되는 시스템.
  22. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 상관 광학 문자 인식을 수행하도록 구성되는 시스템.
  23. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 다중 스케일로 상기 광학 문자 인식을 수행하도록 구성되는 시스템.
  24. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 상기 광학 문자 인식을 향상하기 위해 상기 디지털 이미지를 전처리하며, 상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 추출된 워드를 후처리하도록 구성되는 시스템.
  25. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화 임계치를 식별하도록 구성되는 시스템.
  26. 제13항에 있어서, 상기 하나 이상의 컴퓨터는 저해상도에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하도록 구성되는 시스템.
  27. 삭제
  28. 제13항에 있어서, 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택되는 것인 사용자 지정 범주를 포함하는 시스템.
  29. 디지털 이미지를 전송하도록 구성된 모바일 장치 네트워크와,
    컴퓨터 네트워크를 통해 전자 검색 서비스를 제공하도록 구성된 서버 환경(server environment)과,
    상기 서버 환경과 상기 모바일 장치 네트워크를 연결하는 연결 수단
    을 포함하며,
    상기 연결 수단은, 상기 디지털 이미지로부터 워드를 추출하기 위해 광학 문자 인식을 적용하는 적용 수단과, 상기 디지털 이미지의 전자 검색 서비스를 위해 상기 추출된 워드와 상기 디지털 이미지를 상기 컴퓨터 네트워크를 통해 상기 서버 환경에 제공하는 제공 수단을 포함하고,
    상기 적용 수단은, 수신된 문서 유형의 표시에 따라 적어도 2개의 사전 기반 언어 모델들 사이에서 선택하는 선택 수단과, 상기 선택된 사전 기반 언어 모델에 따라서 상기 추출된 워드를 후처리하는 후처리 수단을 포함하는 것인 시스템.
  30. 제29항에 있어서, 상기 연결 수단은 상기 모바일 장치 네트워크에서 모바일 장치의 유효성을 검사하는 수단을 포함하는 것인 시스템.
  31. 제29항에 있어서, 상기 제공 수단은 상기 추출된 워드와 사전 정의된 레이블을 상기 디지털 이미지를 포함하는 메시지에 부가하는 수단을 포함하는 것인 시스템.
  32. 제29항에 있어서, 상기 적용 수단은 상관 광학 문자 인식을 수행하는 수단을 포함하는 것인 시스템.
  33. 제29항에 있어서, 상기 적용 수단은 다중 스케일로 광학 문자 인식을 수행하는 수단을 포함하는 것인 시스템.
  34. 제29항에 있어서, 상기 적용 수단은 상기 광학 문자 인식을 향상하기 위해 상기 디지털 이미지를 전처리하는 수단과, 상기 광학 문자 인식에 기인한 일반 문자 오인식을 식별하여 정정하기 위해 상기 추출된 워드를 후처리하는 수단을 포함하는 것인 시스템.
  35. 제29항에 있어서, 상기 적용 수단은 디지털 이미지에서 표현된 문서의 좌우 마진의 위치 변동을 최소화함으로써 상기 디지털 이미지에 대한 이진화 임계치를 식별하는 수단을 포함하는 것인 시스템.
  36. 제29항에 있어서, 상기 적용 수단은 저해상도에서 이웃 픽셀들의 그레이 레벨의 가중된 조합을 반복적으로 취함으로써 고해상도에서 그레이 레벨을 취득하는 수단을 포함하는 것인 시스템.
  37. 삭제
  38. 제29항에 있어서, 상기 문서 유형의 표시는 명함 및 신용 카드 영수증을 포함하는 그룹에서 선택된 사용자 지정 범주를 포함하는 것인 시스템.
KR1020097013412A 2006-11-29 2007-11-28 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색 KR101462289B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/564,823 US7986843B2 (en) 2006-11-29 2006-11-29 Digital image archiving and retrieval in a mobile device system
US11/564,823 2006-11-29
PCT/US2007/085764 WO2008067380A1 (en) 2006-11-29 2007-11-28 Digital image archiving and retrieval using a mobile device system

Publications (2)

Publication Number Publication Date
KR20090084968A KR20090084968A (ko) 2009-08-05
KR101462289B1 true KR101462289B1 (ko) 2014-11-14

Family

ID=39469536

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097013412A KR101462289B1 (ko) 2006-11-29 2007-11-28 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색

Country Status (9)

Country Link
US (3) US7986843B2 (ko)
EP (2) EP2102762B1 (ko)
JP (2) JP5266246B2 (ko)
KR (1) KR101462289B1 (ko)
CN (1) CN101589389B (ko)
AU (1) AU2007325200B9 (ko)
BR (1) BRPI0719356A2 (ko)
CA (2) CA2671025C (ko)
WO (1) WO2008067380A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190059466A (ko) * 2017-11-23 2019-05-31 재단법인 다차원 스마트 아이티 융합시스템 연구단 번호판 인식 방법 및 그 시스템
WO2020018386A1 (en) * 2018-07-17 2020-01-23 Vidit, LLC Systems and methods for interactive searching
WO2020018382A1 (en) * 2018-07-17 2020-01-23 Vidit, LLC Systems and methods for archiving and accessing of image content
KR102179552B1 (ko) 2019-05-15 2020-11-17 주식회사 한컴위드 Ocr 기반의 증거 수집 장치 및 그 방법

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US8054971B2 (en) * 2001-04-27 2011-11-08 Comverse Ltd Free-hand mobile messaging-method and device
US7707188B2 (en) * 2002-12-20 2010-04-27 Schlumberger Technology Corporation System and method for electronic archival and retrieval of data
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8521772B2 (en) 2004-02-15 2013-08-27 Google Inc. Document enhancement system and method
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20120113273A1 (en) * 2004-11-29 2012-05-10 Ariel Inventions Llc System, Method, and Devices for Searching for a Digital Image over a Communication Network
US20080092055A1 (en) * 2006-10-17 2008-04-17 Silverbrook Research Pty Ltd Method of providing options to a user interacting with a printed substrate
US20080088581A1 (en) * 2006-10-17 2008-04-17 Silverbrook Research Pty Ltd Online ad placement in response to zone of paper input
US8511565B2 (en) * 2006-10-17 2013-08-20 Silverbrook Research Pty Ltd Method of providing information via context searching of a printed graphic image
US20080103901A1 (en) * 2006-10-17 2008-05-01 Silverbrook Research Pty Ltd Resource initiated by a computer system causing printed substrate click facilitator to collect ad click-through fee
US20090065523A1 (en) * 2007-09-06 2009-03-12 Chunghwa United Television Co., Ltd. Broadcasting system extracting characters from images in hospital and a method of the same
US8244037B2 (en) * 2007-11-15 2012-08-14 Master Wave International Company Ltd Image-based data management method and system
US20120290601A1 (en) * 2007-11-15 2012-11-15 Master Wave International Co., Ltd. Image-based Data Management Method and System
US20090138560A1 (en) * 2007-11-28 2009-05-28 James Joseph Stahl Jr Method and Apparatus for Automated Record Creation Using Information Objects, Such as Images, Transmitted Over a Communications Network to Inventory Databases and Other Data-Collection Programs
US8611661B2 (en) * 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
ITRM20080296A1 (it) * 2008-06-09 2009-12-10 Ugo Nevi Tecniche di salvataggio in tempo reale delle foto scattate per mezzo della fotocamera del telefonino.
US8499046B2 (en) * 2008-10-07 2013-07-30 Joe Zheng Method and system for updating business cards
EP2189926B1 (en) * 2008-11-21 2012-09-19 beyo GmbH Method for providing camera-based services using a portable communication device of a user and portable communication device of a user
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
JP4762321B2 (ja) * 2009-02-24 2011-08-31 株式会社東芝 画像認識装置、画像認識方法
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
JP5347673B2 (ja) * 2009-04-14 2013-11-20 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US8626897B2 (en) * 2009-05-11 2014-01-07 Microsoft Corporation Server farm management
US8761511B2 (en) * 2009-09-30 2014-06-24 F. Scott Deaver Preprocessing of grayscale images for optical character recognition
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US20110170788A1 (en) * 2010-01-12 2011-07-14 Grigori Nepomniachtchi Method for capturing data from mobile and scanned images of business cards
US8516063B2 (en) 2010-02-12 2013-08-20 Mary Anne Fletcher Mobile device streaming media application
JP2011203823A (ja) * 2010-03-24 2011-10-13 Sony Corp 画像処理装置、画像処理方法及びプログラム
JP2012008733A (ja) * 2010-06-23 2012-01-12 King Jim Co Ltd カード情報管理装置
KR101175174B1 (ko) * 2010-08-20 2012-08-23 주식회사에어플러그 실물의 이미지를 매개로 하여 정보를 전달하는 방법 및 장치
US9349063B2 (en) * 2010-10-22 2016-05-24 Qualcomm Incorporated System and method for capturing token data with a portable computing device
US10402898B2 (en) 2011-05-04 2019-09-03 Paypal, Inc. Image-based financial processing
US8724931B2 (en) * 2011-05-27 2014-05-13 Ebay Inc. Automated user information provision using images
CA2842427A1 (en) * 2011-08-05 2013-02-14 Blackberry Limited System and method for searching for text and displaying found text in augmented reality
US8959082B2 (en) 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
US8965971B2 (en) 2011-12-30 2015-02-24 Verisign, Inc. Image, audio, and metadata inputs for name suggestion
US9063936B2 (en) * 2011-12-30 2015-06-23 Verisign, Inc. Image, audio, and metadata inputs for keyword resource navigation links
KR101919008B1 (ko) 2012-02-24 2018-11-19 삼성전자주식회사 정보 제공 방법 및 이를 위한 이동 단말기
KR102008495B1 (ko) 2012-02-24 2019-08-08 삼성전자주식회사 데이터 공유 방법 및 이를 위한 이동 단말기
KR101894395B1 (ko) 2012-02-24 2018-09-04 삼성전자주식회사 캡쳐 데이터 제공 방법 및 이를 위한 이동 단말기
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
US20140068515A1 (en) * 2012-08-29 2014-03-06 mindHIVE Inc. System and method for classifying media
US20140067631A1 (en) * 2012-09-05 2014-03-06 Helix Systems Incorporated Systems and Methods for Processing Structured Data from a Document Image
US9942334B2 (en) 2013-01-31 2018-04-10 Microsoft Technology Licensing, Llc Activity graphs
US20140229860A1 (en) * 2013-02-13 2014-08-14 Microsoft Corporation Activity Cards
TWI477982B (zh) * 2013-03-07 2015-03-21 Univ Southern Taiwan Sci & Tec 雲端證件系統及其操作方法
US10007897B2 (en) 2013-05-20 2018-06-26 Microsoft Technology Licensing, Llc Auto-calendaring
CN103347151B (zh) * 2013-06-25 2015-11-18 腾讯科技(深圳)有限公司 一种图像处理方法、装置和终端
US9530067B2 (en) 2013-11-20 2016-12-27 Ulsee Inc. Method and apparatus for storing and retrieving personal contact information
US9628416B2 (en) * 2014-05-30 2017-04-18 Cisco Technology, Inc. Photo avatars
US9286326B1 (en) * 2014-09-05 2016-03-15 WhisperText, Inc. System and method for selecting sponsored images to accompany text
TWI566593B (zh) * 2015-02-17 2017-01-11 沈國曄 應用於多媒體視訊服務的互動系統及其方法
CN106845323B (zh) * 2015-12-03 2020-04-28 阿里巴巴集团控股有限公司 一种打标数据的收集方法、装置以及证件识别***
US10740400B2 (en) 2018-08-28 2020-08-11 Google Llc Image analysis for results of textual image queries
JP7322468B2 (ja) * 2019-03-29 2023-08-08 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
US11227490B2 (en) 2019-06-18 2022-01-18 Toyota Motor North America, Inc. Identifying changes in the condition of a transport
US11494847B2 (en) 2019-08-29 2022-11-08 Toyota Motor North America, Inc. Analysis of transport damage
JP7468103B2 (ja) 2020-04-15 2024-04-16 株式会社リコー Fax受信装置、fax受信方法およびプログラム
US11328120B2 (en) * 2020-09-08 2022-05-10 Vmware, Inc. Importing text into a draft email
KR102618275B1 (ko) * 2020-11-30 2023-12-27 박회준 의약 관련 이미지 획득 방법 및 디바이스
KR102656230B1 (ko) * 2020-11-30 2024-04-09 박회준 획득된 이미지의 정보 제공방법 및 디바이스
US11956400B2 (en) 2022-08-30 2024-04-09 Capital One Services, Llc Systems and methods for measuring document legibility
CN116958986B (zh) * 2023-05-11 2024-05-14 东莞市铁石文档科技有限公司 一种用于档案管理的数据化转换***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252197A1 (en) * 2003-05-05 2004-12-16 News Iq Inc. Mobile device management system
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3641495A (en) * 1966-08-31 1972-02-08 Nippon Electric Co Character recognition system having a rejected character recognition capability
US3872433A (en) * 1973-06-07 1975-03-18 Optical Business Machines Optical character recognition system
JPS5381839A (en) 1976-12-27 1978-07-19 Isuzu Motors Ltd Engine starting-up acceleration control system
JPS6277172A (ja) 1985-09-27 1987-04-09 Mazda Motor Corp 鋳物の製造装置
JPH0612438B2 (ja) 1987-09-28 1994-02-16 大日本スクリーン製造株式会社 走査データ記憶装置を備える原画保持装置
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
JPH0273598A (ja) 1988-09-09 1990-03-13 Matsushita Electric Ind Co Ltd 電流検出装置
JPH02183665A (ja) 1989-01-09 1990-07-18 Sanyo Electric Co Ltd ファクシミリ装置
JP2888252B2 (ja) 1990-06-04 1999-05-10 田中電子工業株式会社 半導体素子用ボンディング線
JPH05267249A (ja) 1992-03-18 1993-10-15 Hitachi Ltd ドライエッチング方法及びドライエッチング装置
JPH0571349A (ja) 1991-09-12 1993-03-23 Royal Pootoreeto:Kk 内燃機関装置
JPH05189538A (ja) 1992-01-13 1993-07-30 Hitachi Ltd 画像ファイル装置
JP2759589B2 (ja) 1992-12-28 1998-05-28 キヤノン株式会社 強誘電性液晶表示素子
JPH06195923A (ja) 1992-12-28 1994-07-15 Sony Corp ディスクカセット及びその製造方法
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
US5748780A (en) * 1994-04-07 1998-05-05 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression
CA2155891A1 (en) 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
JPH08123800A (ja) 1994-10-27 1996-05-17 Nec Software Ltd 光学式文字読み取り認識装置
US5963966A (en) * 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
JP3773642B2 (ja) 1997-12-18 2006-05-10 株式会社東芝 画像処理装置および画像形成装置
US6646765B1 (en) 1999-02-19 2003-11-11 Hewlett-Packard Development Company, L.P. Selective document scanning method and apparatus
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6775665B1 (en) 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
US6704120B1 (en) 1999-12-01 2004-03-09 Xerox Corporation Product template for a personalized printed product incorporating image processing operations
US6362895B1 (en) * 2000-01-10 2002-03-26 Imagex, Inc. PDF to PostScript conversion of graphic image files
US7324139B2 (en) * 2000-01-20 2008-01-29 Ricoh Company, Ltd. Digital camera, a method of shooting and transferring text
FR2806814B1 (fr) 2000-03-22 2006-02-03 Oce Ind Sa Procede de reconnaissance et d'indexation de documents
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US20040049737A1 (en) * 2000-04-26 2004-03-11 Novarra, Inc. System and method for displaying information content with selective horizontal scrolling
US20010051998A1 (en) 2000-06-09 2001-12-13 Henderson Hendrick P. Network interface having client-specific information and associated method
US20020103834A1 (en) * 2000-06-27 2002-08-01 Thompson James C. Method and apparatus for analyzing documents in electronic form
US20020053020A1 (en) * 2000-06-30 2002-05-02 Raytheon Company Secure compartmented mode knowledge management portal
US7054508B2 (en) * 2000-08-03 2006-05-30 Canon Kabushiki Kaisha Data editing apparatus and method
US7426513B2 (en) * 2000-10-12 2008-09-16 Sap Portals Israel Ltd. Client-based objectifying of text pages
JP2002183665A (ja) * 2000-12-11 2002-06-28 Hitachi Ltd パターン認識方法
JP2002259388A (ja) * 2001-03-05 2002-09-13 Fujitsu Ltd 画像検索システム、方法及び画像検索プログラム
US20020135816A1 (en) 2001-03-20 2002-09-26 Masahiro Ohwa Image forming apparatus
US7149784B2 (en) * 2001-04-23 2006-12-12 Ricoh Company, Ltd. System, computer program product and method for exchanging documents with an application service provider at a predetermined time
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
JP4240859B2 (ja) * 2001-09-05 2009-03-18 株式会社日立製作所 携帯端末装置及び通信システム
US20030110158A1 (en) * 2001-11-13 2003-06-12 Seals Michael P. Search engine visibility system
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US6737967B2 (en) 2002-05-10 2004-05-18 Simplexgrinnell, Lp Wireless walk through test system
DE10226257A1 (de) 2002-06-13 2003-12-24 Bosch Gmbh Robert Verfahren zur Detektion einer Person in einem Raum
JP2004038840A (ja) * 2002-07-08 2004-02-05 Fujitsu Ltd メモ画像管理装置、メモ画像管理システムおよびメモ画像管理方法
US6868424B2 (en) * 2002-07-25 2005-03-15 Xerox Corporation Electronic filing system with file-placeholders
AU2003287495A1 (en) * 2002-11-04 2004-06-07 Deepq Technologies, A General Partnership Document processing based on a digital document image input with a confirmatory receipt output
EP1661064B1 (en) 2003-08-20 2007-03-07 Océ-Technologies B.V. Document scanner
US7287037B2 (en) * 2003-08-28 2007-10-23 International Business Machines Corporation Method and apparatus for generating service oriented state data mapping between extensible meta-data model and state data including logical abstraction
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
CN1278533C (zh) * 2003-12-17 2006-10-04 大唐移动通信设备有限公司 可自动录入文字、图像的手机及其录入与处理方法
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7466875B1 (en) 2004-03-01 2008-12-16 Amazon Technologies, Inc. Method and system for determining the legibility of text in an image
JP2005267249A (ja) * 2004-03-18 2005-09-29 Sharp Corp データ処理システム、サーバおよび通信装置
US7912904B2 (en) * 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US7814155B2 (en) * 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
US20050289016A1 (en) * 2004-06-15 2005-12-29 Cay Horstmann Personal electronic repository
US7911655B2 (en) * 2004-10-06 2011-03-22 Iuval Hatzav System for extracting information from an identity card
JP2006195923A (ja) * 2005-01-17 2006-07-27 Ricoh Co Ltd 画像情報処理システム、および画像情報処理方法
US20060206462A1 (en) 2005-03-13 2006-09-14 Logic Flows, Llc Method and system for document manipulation, analysis and tracking
WO2008033926A2 (en) * 2006-09-12 2008-03-20 Stanley, Morgan Document handling
US20080162602A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
US20080162603A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
JP5267249B2 (ja) 2009-03-17 2013-08-21 タイヨーエレック株式会社 遊技機

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US20040252197A1 (en) * 2003-05-05 2004-12-16 News Iq Inc. Mobile device management system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190059466A (ko) * 2017-11-23 2019-05-31 재단법인 다차원 스마트 아이티 융합시스템 연구단 번호판 인식 방법 및 그 시스템
KR102002225B1 (ko) * 2017-11-23 2019-07-19 재단법인 다차원 스마트 아이티 융합시스템 연구단 번호판 인식 방법 및 그 시스템
US10783391B2 (en) 2017-11-23 2020-09-22 Center For Integrated Smart Sensors Foundation Method and system for recognizing license plate
WO2020018386A1 (en) * 2018-07-17 2020-01-23 Vidit, LLC Systems and methods for interactive searching
WO2020018382A1 (en) * 2018-07-17 2020-01-23 Vidit, LLC Systems and methods for archiving and accessing of image content
KR102179552B1 (ko) 2019-05-15 2020-11-17 주식회사 한컴위드 Ocr 기반의 증거 수집 장치 및 그 방법

Also Published As

Publication number Publication date
JP5266246B2 (ja) 2013-08-21
CN101589389B (zh) 2012-04-11
JP5559899B2 (ja) 2014-07-23
EP2102762A1 (en) 2009-09-23
US7986843B2 (en) 2011-07-26
JP2010511253A (ja) 2010-04-08
EP2102762A4 (en) 2009-12-16
US20110274373A1 (en) 2011-11-10
AU2007325200B2 (en) 2012-07-19
US8620114B2 (en) 2013-12-31
JP2013127815A (ja) 2013-06-27
EP3246829A1 (en) 2017-11-22
CN101589389A (zh) 2009-11-25
WO2008067380A1 (en) 2008-06-05
US20080126415A1 (en) 2008-05-29
CA2671025C (en) 2019-07-16
AU2007325200A1 (en) 2008-06-05
CA3027962A1 (en) 2008-06-05
EP2102762B1 (en) 2017-06-28
EP3246829B1 (en) 2021-03-03
CA3027962C (en) 2021-04-06
US20140044365A1 (en) 2014-02-13
AU2007325200B9 (en) 2012-11-22
KR20090084968A (ko) 2009-08-05
US8897579B2 (en) 2014-11-25
BRPI0719356A2 (pt) 2014-02-04
CA2671025A1 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
KR101462289B1 (ko) 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색
US10783367B2 (en) System and method for data extraction and searching
US10402163B2 (en) Intelligent data extraction
US7849398B2 (en) Decision criteria for automated form population
US20140258169A1 (en) Method and system for automated verification of customer reviews
KR100979457B1 (ko) 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템
US20140064618A1 (en) Document information extraction using geometric models
US20090228380A1 (en) Centralized classification and retention of tax records
US20110052075A1 (en) Remote receipt analysis
US20110166934A1 (en) Targeted advertising based on remote receipt analysis
WO2019237208A1 (en) System and process for electronic payments
CN111881943A (zh) 图像分类的方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171024

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181025

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191030

Year of fee payment: 6