KR101499379B1

KR101499379B1 - 객체에서 텍스트 정보를 인식하기 위한 시스템 및 방법

Info

Publication number: KR101499379B1
Application number: KR1020137031903A
Authority: KR
Inventors: 형일 구; 기선 유; 현묵 조
Original assignee: 퀄컴 인코포레이티드
Priority date: 2011-06-29
Filing date: 2012-06-01
Publication date: 2015-03-05
Also published as: JP2014524085A; WO2013002955A1; US9418304B2; KR20140010164A; US20130004076A1; EP2727048A1; CN103597500A; JP2016167273A

Abstract

객체에서의 텍스트 블록을 인식하는 방법이 개시된다. 텍스트 블록은 문자들의 셋트를 포함한다. 객체의 복수의 이미지들이 캡처되고 수신된다. 수신된 이미지들에서의 객체는 그 다음, 객체 이미지들 중 하나에서 패턴을 추출하고 그 추출된 패턴을 미리결정된 패턴들과 비교함으로써 식별된다. 또한, 객체 이미지들의 각각에서의 객체의 경계는 식별된 객체의 미리결정된 사이즈 정보에 기초하여 검출되고 확인된다. 객체 이미지들 내의 텍스트 블록들은 식별된 객체의 미리결정된 위치 정보에 기초하여 식별된다. 식별된 텍스트 블록들 내의 문자들의 임시 셋트들이 식별된 객체의 포맷 정보에 기초하여 생성된다. 이 문자들의 임시 셋트들에 기초하여, 객체 내의 텍스트 블록에서의 문자들의 셋트가 결정된다.

Description

객체에서 텍스트 정보를 인식하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR RECOGNIZING TEXT INFORMATION IN OBJECT}

본 출원은, 2011년 6월 29일 출원된 미국 가특허출원 제 61/502,781 호 및 2012년 2월 7일 출원된 미국 비-가특허출원 제 13/367,764 호에 기초하고 그로부터의 이익을 주장하며, 그 전체 내용들은 참조에 의해 본원에 통합된다.

본 개시는 일반적으로 텍스트 정보를 인식하는 것에 관한 것이다. 보다 구체적으로, 본 개시는 구체적인 형태를 갖는 객체 (object) 에서의 텍스트 블록을 인식하기 위한 시스템 및 방법에 관한 것이다.

현대의 모바일 디바이스들은 카메라들의 사용 및 고속 프로세서들을 통해 이미지 캡처 성능들을 포함하는 것으로 발전하였다. 이러한 특징들의 이점을 취하여, 몇몇 모바일 디바이스들은 문서의 캡처된 이미지로부터 텍스트를 인식하도록 텍스트 인식 성능을 제공하였다. 이러한 모바일 디바이스들의 사용자들은 이러한 성능들의 사용을 신용 카드들, ID 카드들 등과 같은 종이 문서 이외의 객체들로 그 객체들 내의 텍스트 정보를 인식하기 위해 확장하였다.

종래의 모바일 디바이스들에서의 텍스트 인식 방법들은 일반적으로 단일 객체 이미지에 기초하여 객체에서의 텍스트 블록들을 인식하였다. 예를 들어, 종래의 텍스트 인식 성능들을 갖는 모바일 디바이스들은 사용자가 객체의 단일 이미지를 캡처 (capture) 하는 것을 허용한다. 객체 이미지 내의 텍스트 블록들은 그 다음, 객체 이미지를 프로세싱함으로써 인식된다.

하지만, 단일 객체 이미지에 기초한 이러한 종래의 텍스트 인식 방법들은 이미지가 캡처될 수도 있는 변화하는 조건들로 인해 텍스트 블록들 내의 문자들을 인식함에 있어서 부정확성들로부터 종종 시달린다. 예를 들어, 객체의 이미지는 광 반사, 열악한 조명 등과 같이 최적의 조명 조건들보다 못한 조건들 하에서 캡처될 수도 있고, 이는 캡처된 이미지의 품질을 열화시킬 수도 있다. 또한, 모바일 디바이스 셋팅에서, 이미지의 몇몇 부분들은 초점을 벗어나 캡처될 수도 있고, 또는 사용자의 제어에서 모바일 디바이스의 원하지 않는 모션으로 인한 블러링 (blurring) 으로부터 시달릴 수도 있다.

따라서, 객체 이미지들이 캡처될 수도 있는 다양한 조건들에서 객체들 내의 텍스트 블록들의 보다 정확한 인식을 허용하는 방법 및 시스템에 대한 필요성이 존재한다.

본 개시는 시간 필터링 (temporal filtering) 을 이용하여 객체에서 텍스트 블록을 인식하는 시스템들 및 방법들을 제공한다.

본 개시의 일 양태에 따르면, 객체에서의 텍스트 블록을 인식하는 방법이 개시된다. 텍스트 블록은 문자들 (characters) 의 셋트를 갖는다. 이 방법은 객체의 복수의 이미지들을 수신하는 것을 포함한다. 객체의 각 이미지는 텍스트 블록을 포함한다. 객체의 이미지들에서의 텍스트 블록들이 식별된다. 객체의 복수의 이미지들에서 식별된 텍스트 블록들에 기초하여 문자들의 셋트가 결정된다. 이 개시는 또한 디바이스, 장치, 수단의 결합, 및 이 방법에 관한 컴퓨터-판독가능 매체를 설명한다.

도 1 은 본 개시의 일 실시형태에 따른, 클라이언트 디바이스 및 서버를 포함하는, 객체 이미지들로부터 객체 내의 텍스트 블록들을 인식하기 위한 시스템의 블록도를 나타낸다.
도 2 는 본 개시의 일 실시형태에 따른, 객체 이미지들로부터 객체 내의 텍스트 블록들을 인식하기 위한 클라이언트 디바이스 시스템의 블록도를 나타낸다.
도 3 은 본 개시의 일 실시형태에 따른, 인식될 수 있는 텍스트 블록들을 포함하는 신용 카드 형태의 예시적인 객체의 이미지를 묘사한다.
도 4 는 본 개시의 일 실시형태에 따른, 인식될 수 있는 텍스트 블록들을 포함하는 운전 면허증 형태의 예시적인 객체의 이미지를 묘사한다.
도 5 는 본 개시의 일 실시형태에 따른, 텍스트 블록들을 갖는 다양한 객체들에 대한 식별 및 구성 정보를 포함하는 예시적인 객체 데이터베이스의 도표이다.
도 6 은 본 개시의 일 실시형태에 따른, 객체 이미지들로부터 텍스트 블록들을 인식하기 위한 클라이언트 디바이스의 상세한 블록도를 나타낸다.
도 7 은 본 개시의 일 실시형태에 따른, 객체 내의 텍스트 블록을 인식하는 방법의 흐름도이다.
도 8 은 본 개시의 일 실시형태에 따른, 객체들의 미리결정된 패턴들에 기초하여 객체의 이미지로부터 객체를 식별하는 방법의 흐름도를 나타낸다.
도 9 는 본 개시의 일 실시형태에 따른, 객체 데이터베이스에 기초하여 객체의 이미지로부터 객체를 식별하는 방법의 흐름도를 나타낸다.
도 10 은 본 개시의 일 실시형태에 따른, 객체의 경계를 검출하고 객체의 이미지들에서 텍스트 블록들을 식별하는 방법의 흐름도를 나타낸다.
도 11 및 도 12 는 본 개시의 몇몇 실시형태들에 따른, 객체의 검출된 경계들을 보여준다.
도 13 은 본 개시의 일 실시형태에 따른, 객체의 검출된 경계와 그 객체의 실제 경계 사이의 관계를 나타내는 도이다.
도 14 는 본 개시의 일 실시형태에 따른, 객체의 식별된 텍스트 블록들을 나타낸다.
도 15 는 본 개시의 일 실시형태에 따른, 문자들의 임시 셋트들에 기초하여 객체 내의 텍스트 블록에서의 문자들의 셋트를 추론하는 방법의 흐름도를 나타낸다.
도 16 은 본 개시의 일 실시형태에 따른, 객체 내의 텍스트 블록에서의 문자들의 셋트를 결정하는 시간 필터의 블록도를 나타낸다.
도 17 은 본 개시의 일 실시형태에 따른, 문자들의 임시 셋트들에 기초하여 객체 내의 텍스트 블록에서의 문자들의 셋트를 추론하는 도를 나타낸다.
도 18 은 본 개시의 일 실시형태에 따른, 객체 내의 텍스트 블록에서의 문자들의 셋트를 추론하는데 사용하기 위한 문자 단위의 문자들의 임시 셋트들의 그룹을 묘사한다.
도 19 는 본 개시의 다른 실시형태에 따른, 객체 내의 텍스트 블록에서의 문자들의 셋트를 추론하는데 사용하기 위한 워드 단위의 문자들의 임시 셋트들의 그룹을 묘사한다.
도 20 은 본 개시의 일 실시형태에 따른, 사용자에 의해 인식 결과를 확인하는 방법의 흐름도이다.
도 21 은 본 개시의 일 실시형태에 따른, 디스플레이 상에 중간 인식 결과를 표시하는 도를 나타낸다.
도 22 는 본 개시의 일 실시형태에 따른, 디스플레이 상에 최종 인식 결과를 표시하는 도를 나타낸다.
도 23 은 무선 통신 시스템에서의 예시적인 모바일 디바이스의 구성을 보여준다.

이제 도면들을 참조하여 다양한 실시형태들을 설명할 것이며, 여기서 유사한 참조 부호들이 전반에 걸쳐 유사한 엘리먼트들을 지칭하는데 사용된다. 다음의 설명에서는, 설명을 목적으로, 다수의 특정 상세가 하나 이상의 실시형태들의 완전한 이해를 제공하기 위하여 기술된다. 그러나, 이러한 실시형태(들)는 이들 특정 상세 없이 실시될 수도 있다는 것이 자명할 것이다. 다른 견지에서, 널리 알려져 있는 구조들 및 디바이스들은 하나 이상의 실시형태들의 설명을 용이하게 하기 위하여 블록도 형태로 도시된다.

도 1 은 본 개시의 일 실시형태에 따른, 객체의 복수의 이미지들로부터 객체 내의 텍스트 블록들을 인식하기 위한 시스템 (100) 의 블록도를 예시한다. 시스템 (100) 은 네트워크 (130) 를 통하여 통신하고 있는 클라이언트 디바이스 (110) 및 서버 (120) 를 포함한다. 클라이언트 디바이스 (110) 는 신용 카드, 비즈니스 카드, 운전 면허증, 여권, 신분 증명서 등과 같은 문자들의 하나 이상의 특정된 텍스트 블록들을 갖는 객체의 복수의 이미지들을 캡처하고, 객체 내의 텍스트 블록들을 인식하도록 구성된다. 일 실시형태에서, 클라이언트 디바이스 (110) 는 객체 이미지에서의 특정된 패턴에 기초하여 객체를 식별할 수도 있으며, 서버 (120) 에 객체 식별 정보를 제공한다. 클라이언트 디바이스 (110) 는 이미지 캡처 성능, 예를 들어, 카메라 또는 비디오 카메라, 및 통신 네트워크를 통한 통신 성능이 구비된, 스마트폰, 랩톱, 태블릿 컴퓨터 등과 같은 임의의 적합한 컴퓨터 또는 모바일 디바이스일 수도 있다.

서버 (120) 는 클라이언트 디바이스 (110) 로부터 객체 식별 정보를 수신하고 그 객체 식별 정보에 기초하여 객체 데이터베이스 (140) 에 액세스한다. 객체 데이터베이스 (140) 는 객체 레이아웃 및 텍스트 블록 정보와 같은 객체 식별 및 구성 정보와 같은 객체들에 대한 정보를 포함하는, 복수의 객체들에 대한 정보를 제공한다. 예를 들어, 신용 카드의 경우에, 객체 식별 정보는 신용 카드의 유형 (예를 들어, 비자 카드 또는 마스터카드), 발행 은행의 명칭 등에 대한 정보를 포함할 수도 있다. 객체 구성 (configuration) 정보는 객체의 사이즈, 텍스트 블록들의 위치 및 문자 포맷 (format) 등을 포함하는 객체의 레이아웃에 대한 정보를 포함한다. 객체 데이터베이스 (140) 는 도 5 를 참조하여 후에 설명되는 바와 같은 추가적인 정보를 포함할 수도 있다. 서버 (120) 는 식별된 객체의 구성 정보를 클라이언트 디바이스 (110) 에 제공한다.

클라이언트 디바이스 (110) 는 서버 (120) 로부터 네트워크 (130) 를 통해 객체 구성 및 텍스트 블록들에 대한 연관된 정보를 포함하는 식별된 객체에 대한 구성 정보를 수신할 수도 있다. 수신된 구성 정보에 기초하여, 클라이언트 디바이스 (110) 는 텍스트 블록들을 식별 및 인식하고, 텍스트 블록들 내의 문자들을 추론 (infer) 한다.

다른 실시형태에서는, 객체 데이터베이스 (140) 는 서버 (120) 대신에 클라이언트 디바이스 (110) 에 제공될 수도 있다. 도 2 는 본 개시의 다른 실시형태에 따른, 객체의 복수의 이미지들로부터 객체 내의 텍스트 블록들을 인식하기 위한 객체 데이터베이스 (140) 를 포함하는 클라이언트 디바이스 시스템 (200) 의 블록도를 예시한다. 이 실시형태에서, 클라이언트 디바이스 (210) 는 클라이언트 디바이스 (110) 와 유사한 방식으로 동작한다. 클라이언트 디바이스 (210) 는 객체 이미지에서의 특정된 패턴에 기초하여 객체를 식별할 수도 있다. 또한, 클라이언트 디바이스 (210) 에 저장된 객체 데이터베이스 (140) 로부터, 클라이언트 디바이스 (210) 는 객체의 사이즈, 텍스트 블록들의 위치 및 포맷 등에 대한 정보를 포함하는 식별된 객체에 대한 구성 정보를 취출 (retrieve) 한다.

본 개시의 방법 및 시스템은 텍스트 정보를 포함하는 임의의 객체들에 적용한다. 예를 들어, 그 객체들은 전자 또는 페이퍼 포맷, 또는 신용 카드, 비즈니스 카드, 운전 면허증, 신분 증명서 등과 같은 물리적 객체들 중 어느 일방에서의 기록물 객체들일 수도 있다. 일반적으로, 객체는 식별을 가질 수도 잇고, 그것을 다른 객체들과 구별하는 구성 정보와 연관될 수도 있다.

도 3 은 본 개시의 일 실시형태에 따른, 텍스트 블록들 (304, 306, 및 308) 을 인식하기 위해 캡처될 수 있는 신용 카드 (300) 의 형태의 일 예시적인 객체의 이미지를 예시한다. 도시한 바와 같이, 신용 카드 (300) 는 인식될 수 있는 영숫자 문자들을 포함하는 복수의 텍스트 블록들 (304, 306, 및 308) 을 포함한다. 텍스트 블록 (304) 은 고유한 카드 번호를 포함하는 한편, 텍스트 블록 (306) 은 월/연으로 이루어진 유효 기간을 포함한다. 또한, 텍스트 블록 (308) 은 카드소지자 명칭을 포함한다.

신용 카드 (300) 는 또한 카드 발행자의 식별 정보를 갖는 블록 (302) 을 포함한다. 예를 들어, 블록 (302) 은 객체 (300) 를 신용 카드로서 식별할 수 있는 카드 발행자의 패턴 또는 로고와 같은 이미지 및/또는 텍스트 정보 (예를 들어, ABC BANK) 를 포함할 수도 있다. 신용 카드 (300) 의 특정 유형은 블록 (302) 내의 식별 정보 및/또는 카드 (300) 에 제공된 다른 식별 정보 또는 패턴들을 인식함으로써 결정될 수도 있다.

일반적으로, 신용 카드 (300) 의 레이아웃 및 포맷은 카드 발행자에 의해 미리결정되며 동일한 발행자로부터의 동일한 유형의 신용 카드들에 대해서는 동일하다. 특히, 카드 (300) 의 사이즈 및 블록들 (302 내지 308) 의 위치, 레이아웃, 및 포맷과 같은 구성 정보는 통상 동일한 유형의 카드들에 대해서는 동일하다. 예를 들어, 텍스트 블록들 (304 내지 308) 의 위치들은 신용 카드 (300) 의 기준 위치에 대하여 상부 왼쪽 코너 포인트 및 하부 오른쪽 코너 포인트와 같은 특정된 포인트들에 의해 정의될 수도 있다. 신용 카드 (300) 에 대한 구성 정보 및 식별 정보는 도 5 를 참조하여 이하 더 상세히 설명되는 바와 같이, 객체 데이터베이스 (140) 에 사전-저장된다.

도 4 는 본 개시의 일 실시형태에 따른, 텍스트 블록들 (404, 406, 408, 및 410) 을 인식하기 위해 캡처될 수 있는 운전 면허증 (400) 의 형태의 다른 예시적인 객체의 이미지를 도시한다. 운전 면허증 (400) 은 카드 발행자의 명칭의 식별 정보를 제공하는 블록 (402) 을 포함한다. 예를 들어, 블록 (402) 은 객체 (400) 를 특정 발행 기관의 운전 면허증으로서 식별할 수 있는 패턴 또는 로고와 같은 이미지 및/또는 텍스트 정보 (예를 들어, ABC STATE) 를 포함한다.

도시한 바와 같이, 운전 면허증 (400) 은 또한 복수의 텍스트 블록들 (404 내지 410) 을 포함한다. 텍스트 블록 (404) 은 라이선스 번호를 포함하는 한편, 텍스트 블록 (406) 은 월-일-연으로 이루어진 유효 기간을 포함한다. 또한, 텍스트 블록 (408) 은 소유자의 명칭을 포함하고, 텍스트 블록 (410) 은 소유자의 주소를 포함한다.

통상, 운전 면허증 (400) 의 레이아웃 및 포맷과 같은 구성 정보는 카드 발행자에 의해 미리결정되며 동일한 발행자로부터의 동일한 유형의 다른 라이선스 카드들에 대해서는 동일하다. 이러한 구성 정보는 후에 더 상세히 설명되는 바와 같이, 식별 정보와 함께 객체 데이터베이스 (140) 에 저장된다. 일부 실시형태들에서, 클라이언트 디바이스 (110) (또는 클라이언트 디바이스 (210)) 는 이러한 구성 정보를 객체 데이터베이스 (140) 로부터 취출하여 그 구성 정보에 기초하여 텍스트 블록들을 인식한다.

도 5 는 본 개시의 일 실시형태에 따른, 하나 이상의 텍스트 블록들을 갖는 복수의 객체들에 대한 식별 및 구성 정보를 포함하는 일 예시적인 객체 데이터베이스 (140) 를 예시한다. 객체 데이터베이스 (140) 는 서버 (120) 및/또는 클라이언트 디바이스 (210) 에서 생성 및 저장될 수도 있다. 각각의 객체에 대해, 데이터베이스 (140) 는 객체의 식별 정보 및 구성 정보를 포함한다.

도 5 에 도시한 바와 같이, 객체 데이터베이스 (140) 는 도 3 의 신용 카드 (300), 도 4 의 운전 면허증 (400) 등의 식별 및 구성 정보를 포함한다. 각각의 객체에 대한 식별 정보는 객체 유형 및 객체 발행자 또는 소스의 명칭을 포함한다. 예를 들어, 신용 카드 (300) 의 경우에, 발행자의 명칭 "ABC Bank" 는 객체 데이터베이스 (140) 에 객체 유형 "신용 카드" 와 함께 저장된다. 유사하게, 객체 유형 "운전 면허증" 및 발행자 명칭 "ABC State" 는 객체를 식별하기 위해 객체 데이터베이스 (140) 에 저장된다. 덧붙여, 객체 데이터베이스 (140) 는 또한 로고 또는 패턴과 같은 각각의 객체에 대한 다른 유형들의 식별 정보를 저장할 수도 있다.

객체 데이터베이스 (140) 는 또한 객체의 사이즈 및 인식될 수 있는 각각의 텍스트 블록의 위치, 레이아웃, 및 포맷을 포함하는 객체들의 각각에 대한 구성 정보를 포함한다. 사이즈 정보는 신용 카드 (300) 및 운전 면허증 (400) 과 같은 객체의 애스펙트비를 제공할 수도 있다. 사이즈 정보는 클라이언트 디바이스 (110) 에 제공될 수도 있으며, 클라이언트 디바이스 (110) 는 이미지 내의 객체의 검출된 경계가 데이터베이스 (140) 로부터의 사이즈 정보와 비교하여 정확한지 여부를 확인할 수 있다. 신용 카드 (300) 의 텍스트 블록들 (Ⅰ, Ⅱ, 및 Ⅲ) 은 각각 도 3 의 텍스트 블록들 (304, 306, 및 308) 의 위치 정보를 포함하는 한편, 운전 면허증 (400) 의 텍스트 블록들 (Ⅰ, Ⅱ, Ⅲ, 및 Ⅳ) 은 각각 도 4 의 텍스트 블록들 (404, 406, 408, 및 410) 의 위치 정보를 포함한다. 이 배열에서, 텍스트 블록들 (Ⅰ, Ⅱ, Ⅲ, 및 Ⅳ) 각각은 객체의 기준 위치에 대하여 각각의 블록들의 왼쪽 상단 정점 및 오른쪽 하단 정점의 위치들을 표시하기 위해 특정된 유닛 (예를 들어, 객체 이미지 내의 픽셀) 을 가진 2 개의 좌표들을 제공한다. 이 경우에, 각각의 텍스트 블록의 위치는, 각각의 텍스트 블록이 직사각형으로서 구성되기 때문에, 객체의 상부 왼쪽 코너에서의 기준 위치에 대하여 2 개의 좌표들을 이용함으로써 식별될 수도 있다. 예를 들어, 신용 카드 (300) 의 텍스트 블록 Ⅰ 의 2 개의 좌표들 (1.2, 4.4) 및 (12, 5.4) 로부터, 신용 카드 (300) 의 텍스트 블록 Ⅰ 의 위치는 4 개의 정점들의 좌표들 (1.2, 4.4), (12, 4.4), (1.2, 5.4), 및 (12, 5.4) 에 의해 정의될 수 있다. 따라서, 텍스트 블록 Ⅰ 의 폭 및 높이는 각각 10.8 (= 12-1.2) 및 1 (= 5.4-4.4) 인 것으로 결정된다. 텍스트 블록들의 이러한 위치 정보는 텍스트 블록들의 기하학적 위치들이 신용 카드 (300), 운전 면허증 (400) 등과 같은 객체에서 식별될 수 있도록 클라이언트 디바이스 (110) 에 제공될 수도 있다.

객체 데이터베이스 (140) 는 또한 각각의 텍스트 블록 내의 문자들의 수, 문자들의 배열, 및/또는 문자의 유형과 같은 텍스트 블록들 (Ⅰ, Ⅱ, Ⅲ, 및 Ⅳ) 각각의 문자 포맷을 포함한다. 예를 들어, 신용 카드 (300) 의 텍스트 블록 Ⅰ 의 문자 포맷은 텍스트 블록 (304) 내의 문자들의 수 및 배열을 표시하는 문자 포맷 "**** **** **** ****", 및 텍스트 블록 내의 문자들이 숫자들이라는 것을 표시하는 "숫자" 를 제공한다. 텍스트 블록들의 문자 포맷은 텍스트 블록들 내의 문자들을 인식하는데 있어서 이용하기 위해 클라이언트 디바이스 (110) 에 제공될 수도 있다. 일부 실시형태들에서, 구성 정보는 또한 객체의 형상, 텍스트 문자들의 컬러/폰트, 문자들의 언어 등을 포함할 수도 있다.

도 6 은 본 개시의 일 실시형태에 따른, 도 1 의 클라이언트 디바이스 (110) 의 상세화된 블록도를 예시한다. 클라이언트 디바이스 (110) 는 이미지 캡처 유닛 (610), 객체 인식 유닛 (620), 경계 검출자 (630), 수정 (rectification) 유닛 (640), 마스킹 유닛 (650), OCR (optical character reader) 엔진 (660), 시간 필터 (temporal filter; 670), 및 그래픽 프로세싱 유닛 (680) 을 포함한다. 이미지 캡처 유닛 (610) 은 특정된 구성 또는 레이아웃을 갖는 객체의 복수의 이미지들 (예를 들어, 이미지들의 시퀀스) 을 캡처하기 위해 이미지 센서 (예를 들어, 비디오 카메라 또는 디지털 카메라) 를 포함한다. 이미지 캡처 유닛 (610) 은 객체의 이미지를 그 객체를 식별하기 위한 객체 인식 유닛 (620) 에 제공한다. 객체 이미지로부터, 객체 인식 유닛 (620) 은 패턴을 추출하고, 그 패턴을 서버 (120) 또는 클라이언트 디바이스 (110) 에 의해 제공된 다양한 알려진 객체들의 미리결정된 패턴들과 비교한다. 패턴이 알려진 객체의 패턴에 매칭하는 것으로 확인되는 경우, 그 객체는 알려진 객체인 것으로 식별된다. 대안적으로, 객체 인식 유닛 (620) 은 클라이언트 디바이스 (110) 에 의해 제공된 사용자 인터페이스 (미도시) 를 통하여 사용자 입력으로부터 객체의 식별을 수신할 수도 있다. 이하 더 상세히 설명되는 바와 같이, 객체 식별 정보는 객체 데이터베이스 (140) 로부터 객체 구성 정보를 취출하기 위해 서버 (120) 에 제공된다.

이미지 캡처 유닛 (610) 은 객체의 이미지들을 이미지들 내의 식별된 객체의 경계를 검출하기 위한 경계 검출자 (630) 에 제공한다. 경계 검출자 (630) 는 또한 서버 (120) 로부터 객체에 대한 구성 정보 (예를 들어, 객체 사이즈 또는 애스펙트비) 를 수신한다. 각각의 이미지에 대해, 경계 검출자 (630) 는 수신된 구성 정보에 기초하여, 코너들 및 에지들과 같은 객체 영역의 경계 특징들을 결정함으로써 객체 영역을 정의하는 이미지 내의 객체의 경계를 식별한다. 식별된 경계에 기초하여, 경계 검출자 (630) 는 이미지들 각각으로부터 객체 영역의 이미지를 추출하고, 객체 영역들의 이미지들을 수정 유닛 (640) 에 제공한다.

캡처된 객체 이미지들로부터의 객체 영역의 이미지가 객체의 사이즈, 형상, 및/또는 배향을 정확히 반영하지 못할 수도 있기 때문에, 각각의 객체 영역 이미지는 수정 유닛 (640) 에서 수정된다. 수정 유닛 (640) 은 서버 (120) 로부터 객체의 사이즈 정보 (예를 들어, 애스펙트비, 길이, 및 폭) 와 같은 구성 정보를 수신하고, 객체의 사이즈 정보에 기초하여 객체 영역들의 이미지들을 수정하도록 구성된다. 예를 들어, 이미지들 내의 객체 영역들은 객체의 애스팩트비에 매칭하도록 변형될 수도 있다. 수정된 객체 영역들의 이미지들은 마스킹 유닛 (650) 에 제공될 수도 있다.

추출되고 수정된 객체 영역들로부터, 텍스트 블록들이 그들의 위치들을 마스킹함으로써 식별된다. 마스킹 유닛 (650) 은 텍스트 블록들의 위치들 및 사이즈들 등과 같은 객체 내의 텍스트 블록들의 구성 정보를 서버 (120) 로부터 수신한다. 텍스트 블록들의 구성 정보에 기초하여, 마스킹 유닛 (650) 은 이미지들 각각에서 객체 영역 내의 텍스트 블록들을 식별한다. 일부 실시형태들에서, 마스킹 유닛 (650) 은 객체 영역 내의 텍스트 블록들의 위치들에 대한 정보를 이용하여 객체 영역 내의 각각의 텍스트 블록의 기하학적 위치를 식별한다. 텍스트 블록들의 기하학적 위치들을 식별함으로써, 마스킹 유닛 (650) 은 객체 이미지 내의 다른 영역들로부터의 불필요한 정보의 판독 또는 프로세싱을 회피할 수 있다.

객체 영역 내의 식별된 텍스트 블록들 각각에 대해, OCR 엔진 (660) 은 텍스트 블록들 내의 문자들을 인식한다. OCR 엔진 (660) 은 마스킹 유닛 (650) 으로부터의 이미지들 각각 내의 식별된 텍스트 블록들 및 서버 (120) 로부터의 텍스트 블록들의 문자 포맷들을 포함한 객체 구성 정보를 수신하도록 구성된다. 객체 구성 정보에 기초하여, OCR 엔진 (660) 은 각각의 텍스트 블록에 대한 문자들의 임시 셋트 (interim set) 를 생성하기 위해 텍스트 블록들 각각 내의 문자들을 인식한다. 이미지들로부터의 텍스트 블록의 문자들의 임시 셋트들은 그 후 시간 필터 (670) 에 의해 텍스트 블록에 대한 문자들의 최종 셋트를 결정하는데 이용된다. 문자 포맷 정보는 텍스트 블록들 각각 내의 문자들의 수, 문자들의 배열, 문자들의 텍스트 컬러/폰트, 문자들의 언어 유형 등을 포함할 수도 있다. 이 구성에서, 문자들의 임시 셋트들은 후에 상세히 설명되는, 전체론적 (holistic) 방법 또는 분할-기반 (segmentation-based) 방법을 이용하여 인식될 수도 있다.

시간 필터 (670) 는 시간 주기에 걸쳐 캡처된 객체의 복수의 이미지들로부터의 문자들의 임시 셋트들에 기초하여 객체 내의 텍스트 블록들 각각에 대한 문자들의 최종 셋트를 결정한다. 처음에, 시간 필터 (670) 는 OCR 엔진 (660) 으로부터 객체 이미지들 내의 각각의 텍스트 블록에 대응하는 문자들의 임시 셋트들을 수신한다. 시간 필터 (670) 는 객체의 텍스트 블록들 각각에 대해 문자들의 임시 셋트들로부터 문자들의 셋트를 추론함으로써 문자들의 최종 셋트를 결정한다. 문자들의 최종 셋트를 결정하는데 있어서, 문자들은 문자들의 임시 셋트들 내의 각각의 문자 또는 각각의 단어에 대한 발생의 횟수에 기초하여 문자 단위 기반으로 또는 단어 단위 기반으로 추론될 수도 있다. 따라서, 텍스트 블록들 내의 각각의 문자 또는 각각의 단어는, 문자 또는 단어에 대한 발생의 횟수가 미리결정된 임계값을 초과하는 경우 문자들의 임시 셋트들로부터 추론될 수도 있다.

일 실시형태에서, 문자들의 셋트는 텍스트 블록들 내의 문자들의 샤프니스 (sharpness) 를 반영하는 문자들의 임시 셋트들의 신뢰도 레벨들에 기초하여 추론된다. OCR 엔진 (660) 이 문자들의 임시 셋트를 생성하는 경우, 그것은 OCR 엔진 (660) 에 저장된 참조 문자들 또는 단어들과 객체 이미지 내의 텍스트 블록 내의 각각의 문자 또는 단어 간의 유사성 값들을 비교한다. 유사성 값들에 기초하여, 가장 큰 유사성 값을 갖는 문자들 또는 단어들은 문자들의 임시 셋트 내의 문자들 또는 단어들로서 식별된다. 이 경우에, 문자 또는 단어의 유사성 값은 텍스트 블록 내의 문자들의 최종 셋트를 결정하는데 있어서 신뢰도 레벨로서 이용될 수도 있다.

또한, 시간 필터 (670) 는 문자 인식 결과를, 텍스트 인식이 수행되고 있는 것과 동시에 표시되도록 그래픽 프로세싱 유닛 (680) 에 제공할 수도 있다. 클라이언트 디바이스 (110) 는 객체 내의 적어도 하나의 텍스트 블록의 인식 결과를 표시하기 위한 디스플레이를 포함할 수도 있다. 대안적으로, 디스플레이는 클라이언트 디바이스 (110) 에서 분리되고 네트워크를 통해 클라언트 디바이스 (110) 에 접속된 다른 디바이스에 설치될 수도 있다. 디스플레이는 객체 내의 텍스트 블록들에 대한 객체 이미지 및/또는 인식 결과를 출력하기 위해 LCD (Liquid Crystal Display), PDP (Plasma Display Panel), 또는 LED (Light Emitting Diode) 등을 포함한 임의의 적합한 전자 시각 디스플레이일 수도 있다.

도 6 은 서버 (120) 와 통신하는 도 1 의 클라이언트 디바이스 (110) 를 설명하지만, 도 6 의 클라이언트 디바이스 (110) 의 구성 및 동작은 도 2 의 시스템 (200) 내의 객체 데이터베이스 (140) 를 갖는 클라이언트 디바이스 (210) 에 적용될 수도 있다.

도 7 은 본 개시의 일 실시형태에 따른, 객체 내의 텍스트 블록을 인식하기 위한 방법의 흐름도이다. 710 에서, 이미지 캡처 유닛 (610) 은 하나 이상의 텍스트 블록들을 포함하는 객체의 복수의 이미지들을 캡처 및 수신한다. 객체의 이미지들은 시간 주기에 걸쳐 캡처된 이미지들의 시퀀스 (예를 들어, 객체의 비디오 프레임들) 일 수도 있다. 720 에서, 캡처된 이미지들은 수신된 이미지들에서 객체를 식별하도록 구성되는 객체 인식 유닛 (620) 에 제공된다. 일단 객체가 식별되었다면, 객체 인식 유닛 (620) 은 식별된 객체의 구성 정보를 클라이언트 디바이스 (110) 로 전송하는 서버 (120) 에 객체의 식별 정보를 제공한다. 730 에서, 객체의 이미지들 각각 내의 텍스트 블록들은 텍스트 블록들의 위치 정보와 같은 구성 정보에 기초하여 텍스트 블록들의 위치들을 결정함으로써 식별된다. 객체 내의 텍스트 블록들을 식별하기 전에, 각각의 이미지 내의 객체의 경계는 도 10 을 참조하여 상세히 설명되는 바와 같이, 객체의 애스펙트비와 같은 사이즈 정보 등에 기초하여 경계 검출자 (630) 에 의해 검출 및 확인될 수도 있다.

740 에서, 객체 이미지 내의 각각의 텍스트 블록에 대한 문자들의 셋트는 객체 이미지들 내의 식별된 텍스트 블록들에 기초하여 결정된다. 구체적으로, 식별된 텍스트 블록들 각각은 OCR 엔진 (660) 에 의해 문자들의 임시 셋트를 생성하기 위해 인식되며, 그 문자들의 임시 셋트는 각각의 텍스트 블록에 대한 문자들의 최종 셋트를 결정하기 위해 시간 필터 (670) 에 제공된다. 750 에서, 그래픽 프로세싱 유닛 (680) 은 문자들의 최종 셋트가 표시되는 디스플레이로의 출력을 위해 문자들의 최종 셋트를 수신한다.

도 8 은 본 개시의 일 실시형태에 따른, 수신된 이미지들의 객체를 식별하기 위한 도 7 의 720 의 보다 상세화된 흐름도를 예시한다. 810 에서, 복수의 객체들을 식별하는 미리결정된 패턴들의 데이터베이스가 클라이언트 디바이스 (110) 에 저장되고 객체 인식 유닛 (620) 에 액세스가능하다. 820 에서, 객체 인식 유닛 (620) 은 이미지 캡처 유닛 (610) 으로부터 캡처된 이미지를 수신하고, 객체를 식별할 수 있는 이미지로부터 패턴을 추출한다. 일반적으로, 특징 포인트들의 셋트 및/또는 로고와 같은 패턴이 객체의 소스 (예를 들어, 신용 카드 발행 은행) 에 의해 미리결정되고, 동일한 유형의 객체들에 대해 제공된다. 따라서, 객체의 미리결정된 패턴은 일반적으로 상이한 유형의 다른 객체들의 것들과는 다르다.

일부 실시형태들에서, 미리결정된 패턴은 데이터베이스가 구축될 때 객체의 유형에 고유한 참조 객체의 일 부분으로부터 추출될 수도 있다. 구체적으로, 참조 객체의 부분은 텍스트 블록들이 로케이팅되지 않는 참조 객체 내의 영역을 지칭하는 인버스 마스크 영역들에 로케이팅될 수도 있다. 이 방식으로, 미리결정된 패턴들은 복수의 참조 객체들과 연관된 데이터베이스를 구축하기 위해 객체들의 인버스 마스크 영역들로부터 추출될 수 있다.

객체의 식별 동안, 객체의 임의의 영역은 패턴의 일 부분으로서 추출될 수도 있다. 텍스트 블록을 포함한 마스크 영역 내의 패턴들이 객체 이미지로부터 추출되는 경우, 그들은 미리결정된 패턴들이 텍스트 블록들이 로케이팅되지 않는 객체의 인버스 마스크 영역들로부터 추출되기 때문에 객체를 식별하는데 있어서 고려될 필요가 없다. 즉, 이러한 마스크 영역은 객체를 식별하는데 유용한 임의의 패턴을 포함하지 않는 것으로 가정될 수 있다. 따라서, 객체를 식별하는데 있어서의 정확성이 프로세싱 시간을 감소시키면서 개선될 수 있다.

추출된 패턴이 주어지면, 830 에서, 객체 인식 유닛 (620) 은 추출된 패턴에 매칭하는 미리결정된 패턴을 패턴 데이터베이스로부터 식별한다. 구체적으로, 미리결정된 패턴은, 추출된 패턴을 데이터베이스 내의 미리결정된 패턴들과 비교함으로써 결정된다. 840 에서, 객체 인식 유닛 (620) 은 미리결정된 패턴을 매칭시키는 것에 기초하여 패턴 데이터베이스로부터 수신된 이미지에서의 객체를 식별한다. 그 후 850 에서, 식별된 객체에 대한 정보가 서버 (120) 로 제공되며, 서버 (120) 는 식별된 객체의 구성 정보를 클라이언트 디바이스 (110) 로 전송한다.

다른 실시형태에 있어서, 패턴 데이터베이스는 객체 데이터베이스 (140) 내에 제공될 수도 있다. 도 9 는, 본 개시의 다른 실시형태에 따라 객체 데이터베이스 (140) 에 액세스함으로써 수신된 이미지들의 객체를 식별하기 위한 도 7 의 720 의 보다 상세한 흐름도를 도시한다. 910 에서, 미리결정된 패턴들이 객체 데이터베이스 (140) 에 저장되며, 객체 데이터베이스 (140) 는 클라이언트 디바이스 (110) 또는 서버 (120) 에 저장될 수 있다. 920 에서, 도 8 의 820 과 유사한 방식으로 객체 인식 유닛 (620) 에 의해 객체의 부분 (예컨대, 반전 마스크 영역) 으로부터 객체의 이미지에서의 패턴이 추출된다. 이 경우, 930 에서, 객체 인식 유닛 (620) 은 객체 데이터베이스 (140) 로부터 추출된 패턴에 대응하는 미리결정된 패턴을 획득한다.

940 에서, 객체 인식 유닛 (620) 은 미리결정된 패턴에 기초하여 수신된 이미지에서의 객체를 식별한다. 그 후 식별된 객체에 대한 정보가 서버 (120) 로 제공되며, 서버 (120) 는 식별된 객체의 구성 정보를 클라이언트 디바이스 (110) 로 전송한다. 그 후 클라이언트 디바이스 (110) 는 클라이언트 디바이스 (110) 에 저장된 객체 데이터베이스 (140) 로부터 식별된 객체의 구성 정보를 획득한다. 대안적으로, 객체 데이터베이스 (140) 가 서버 (120) 에 저장되는 경우, 객체 인식 유닛 (620) 은 식별된 객체를 서버 (120) 로 제공하고, 서버 (120) 로부터 식별된 객체에 관련된 구성 정보를 수신한다. 도 8 및 도 9 가 단일 이미지로부터 객체를 식별하는 것을 설명하고 있지만, 객체 인식 유닛 (620) 은 또한 복수의 수신된 이미지들로부터 객체를 식별하도록 구성될 수도 있다.

대안적으로, 사용자 입력에 기초하여 객체가 식별될 수도 있다. 이 경우, 객체 인식 유닛 (620) 은 클라이언트 디바이스 (110) 에 제공된 사용자 인터페이스 (도시하지 않음) 를 통한 사용자 입력에 따라 객체를 식별한다. 일 실시형태에 있어서, 객체 인식 유닛 (620) 은, 사용자가 사용자 인터페이스를 통해 객체들 중 하나를 선택할 수 있도록 이용가능한 객체들의 리스트를 제공할 수도 있다. 따라서, 객체 인식 유닛 (620) 은, 수신된 이미지로부터 패턴을 추출하기 위해 요구되는 프로세싱 없이 정확하게 수신된 이미지들에서의 객체를 식별할 수도 있다.

일단 수신된 이미지들의 객체가 식별되면, 이미지들은 텍스트 블록들을 식별하도록 프로세싱될 수 있다. 도 10 은 본 개시의 일 실시형태에 따라 객체에서의 텍스트 블록들을 식별하기 위한 730 의 보다 상세한 흐름도를 도시한다. 1010 에서, 클라이언트 디바이스 (110) 는 객체 데이터베이스 (140) 로부터 식별되는 객체에 대한 구성 정보를 수신한다. 구성 정보는 객체의 사이즈 정보 (예컨대, 애스펙트비, 실제 사이즈 등), 객체에서의 텍스트 블록들의 위치 정보, 텍스트 블록들의 문자 포맷 등을 포함한다. 객체 데이터베이스 (140) 가 서버 (120) 에 저장된 경우, 수신된 구성 정보는 객체에서의 텍스트 블록들을 식별하고 인식하는데 사용하기 위해 클라이언트 디바이스 (110) 내의 메모리 (도시하지 않음) 에 저장될 수도 있다. 예를 들어, 경계 검출자 (630), 수정 유닛 (640), 마스킹 유닛 (650) 및 OCR 엔진 (660) 은 클라이언트 디바이스 (110) 내의 메모리로부터의 구성에 액세스할 수도 있다.

1020 에서, 경계 검출자 (630) 는 코너들 및 에지들과 같이 객체 영역의 경계 특징들을 결정함으로써 각각의 이미지에서의 객체의 경계를 검출한다. 1030 에서, 경계 특징들, 이미지들을 캡처하는데 사용되는 초점 거리, 및 객체의 애스펙트비에 기초하여 경계가 정확히 식별되었는지의 여부를 결정하기 위해 각각의 이미지에서의 객체의 검출된 경계가 확인될 수도 있다. 객체의 식별된 경계 내부의 객체 이미지들 각각은, 객체 이미지들에서의 텍스트 블록들을 식별하기 위해 마스킹 유닛 (650) 에 제공될 수도 있다. 1040 에서, 마스킹 유닛 (650) 은 객체에서의 텍스트 블록들의 위치 정보를 수신하고 객체의 각각의 수신된 이미지에서의 각각의 텍스트 블록을 식별한다. 몇몇 실시형태들에 있어서, 텍스트 블록들을 식별하기 이전에, 수정 유닛 (640) 은 구성 정보의 일부로서 수신되는 객체의 애스펙트비에 매칭하도록 각각의 이미지에서의 객체 영역을 수정할 수도 있다.

도 11 및 도 12 는 일 실시형태에 따른, 신용 카드 (300) 의 객체 이미지들 (1100 및 1200) 각각으로부터 검출되는 객체 경계들 (1110 및 1210) 을 나타낸다. 도 11 에서, 신용 카드 (300) 의 검출된 경계 (1110) 는 객체 (300) 의 경계에 매칭하지 않으므로, 부정확하게 식별된다. 이 경우, 경계 검출자 (630) 는 검출된 경계를 폐기할 수도 있고, 신용 카드 (300) 의 다른 객체 이미지로부터 신용 카드 (300) 의 경계를 검출할 수도 있다. 그리하여, 신용 카드 (300) 의 하나의 이미지로부터의 경계가 부정확하게 식별되었다면, 다른 이미지로부터 경계가 검출될 수도 있다. 이러한 경계 검출은 정확한 경계가 검출될 때까지 반복될 수도 있다. 도 12 는 신용 카드 (300) 의 검출된 경계 (1210) 가 객체 (300) 의 실제 경계에 매칭하는 정확한 경계 검출의 경우를 나타낸다.

도 13 은 수신된 이미지 (1310) 내의 4개의 포인트들 a, b, c 및 d 를 갖는 객체 영역 (1320) 의 검출된 경계 (1330) 와 본건의 일 실시형태에 따른 4개의 포인트들 A, B, C 및 D 를 갖는 직사각형 객체 (1340) 의 실제 경계 간의 관계를 나타내는 도면이다. 객체 영역 (1320) 에는, 이미지를 캡처할 때에 객체에 대한 카메라의 비평행 정렬 (alignment) 로부터 야기될 수도 있는 투영 왜곡 (perspective distortion) 이 나타나 있다. 나타낸 바와 같이, 포인트들 a, b, c 및 d 는 객체 영역 (1320) 의 검출된 경계 (1330) 의 4개의 코너 포인트들에 대응한다. 카메라의 기준 원점 (1300) (예컨대, 카메라 중앙) 으로부터, 포인트들 a, b, c 및 d 를 지나 각각 포인트들 A, B, C 및 D 에 라인들이 투영된다. 이 경우, 포인트들 A, B, C 및 D 는 객체의 직사각형 (1340) 의 4개의 코너 포인트들을 정의한다. 객체 영역 (1320) 의 검출된 경계 (1330) 에서의 4개의 코너 포인트들 a, b, c 및 d 의 좌표들 (x₁, y₁), (x₂, y₂), (x₃, y₃) 및 (x₄, y₄) 그리고 카메라의 초점 거리 f 에 의해, 4개의 코너 포인트들 a, b, c 및 d 의 좌표들은 다음과 같이 3차원 좌표들로 표현될 수도 있다:

나타낸 바와 같이, 카메라의 기준 원점 (1300), 코너 포인트들 a, b, c 및 d 로 이루어진 검출된 경계 (1330), 그리고 코너 포인트들 A, B, C 및 D 로 이루어진 직사각형 (1340) 간의 기하학적 관계에 기초하여, 직사각형 (1340) 의 벡터들

및

이 다음과 같이 계산될 수도 있다:

또한, 직사각형 (1340) 에서의 포인트들 A 및 B 를 지나가는 라인의 방정식은 다음과 같이 파라미터 t₁ 을 이용하여 표현될 수도 있다:

여기서 포인트 A 의 좌표들은, 그것의 실제 사이즈보다는 포인트들 A, B, C 및 D 로 이루어진 직사각형의 애스펙트비가 산출될 것이기 때문에 실질적인 차이 없이 포인트 a 의 좌표들과 동일한 O_a 로 설정될 수도 있다. 또한, 방정식들 [5] 및 [8] 에 따라 벡터

가 계산될 수도 있다. 유사하게, 파라미터 t₂ 를 이용한 직사각형 (1340) 에서의 라인 AD 의 방정식이 다음과 같이 표현될 수도 있다:

여기서 포인트 A 의 좌표들은 상기 기재된 바와 같이 O_a 로 설정될 수도 있고, 방정식들 [6] 및 [10] 에 따라 벡터

가 계산될 수도 있다.

포인트들 b 및 d 의 2차원 좌표들이 파라미터들 t₁ 및 t₂ 로 각각 이루어진 방정식들 [7] 및 [9] 의 좌표들의 관점에서 다음과 같이 표현될 수도 있다:

상기 방정식들 [9] 내지 [12] 에 따르면, 알려지지 않은 양들 t₁ 및 t₂ 가 결정될 수 있고, B 및 D 의 좌표들이 획득될 수도 있다. A, B 및 D 의 계산된 좌표들에 의해,

의 애스펙트비가 계산될 수도 있다. 그리하여, 객체 데이터베이스 (140) 로부터 수신되는 실제 애스펙트비와 계산된 애스펙트비 간의 차이가 임계치 내에 있다면, 경계 검출자 (630) 는 검출된 경계가 정확하다고 확인할 수도 있다.

경계가 검출되어 확인된 후에, 경계 검출자 (630) 는 객체 이미지의 검출된 경계 내에 놓여 있는 객체의 이미지를 추출할 수도 있다. 이러한 이미지는 객체 이미지의 객체 영역에 대응한다. 몇몇 실시형태들에 있어서, 추출된 이미지는 객체 영역을 수정하는 수정 유닛 (640) 에 제공될 수도 있다. 예를 들어, 수정 유닛 (640) 은 서버 (120) 로부터 객체의 애스펙트비와 같은 구성 정보를 수신할 수도 있고, 객체의 애스펙트비에 매칭하도록 객체 영역을 변형시킴으로써 객체 영역을 수정할 수도 있다.

객체의 각각의 이미지에서의 객체 영역이 수정된 후에, 수정된 이미지는 그 수정된 이미지에서의 하나 이상의 텍스트 블록들을 식별하도록 프로세싱된다. 도 14 는 본 개시의 일 실시형태에 따른, 식별가능한 텍스트 블록들 (1420, 1430, 1440) 을 갖는 확인된 경계 (1410) 내부의 신용 카드 (300) 의 이미지 (1400) 를 나타낸다. 이 경우, 마스킹 유닛 (650) 은 신용 카드 이미지 (1400) 에서의 텍스트 블록들 (1420, 1430 및 1440) 의 위치 정보를 수신한다. 예를 들어, 위치 정보는 텍스트 블록들 (1420, 1430 및 1440) 의 기하학적 위치들 및 사이즈들을 포함할 수도 있다. 그 후 위치 정보에 기초하여, 마스킹 유닛 (650) 은 인식될 수도 있는 신용 카드 (300) 의 이미지 (1400) 에서의 텍스트 블록들 (1420, 1430 및 1440) 을 식별한다. 식별된 텍스트 블록들 (1420, 1430 및 1440) 을 갖는 신용 카드 (300) 의 이러한 이미지 (1400) 는, 텍스트 블록들 (1420, 1430 및 1440) 의 문자 인식을 위해 OCR 엔진 (660) 에 제공될 수도 있다.

도 15 는 일 실시형태에 따른, 객체의 복수의 이미지들에서의 대응하는 텍스트 블록들의 문자들의 임시 셋트들에 기초하여 객체에서의 텍스트 블록에서의 문자들의 셋트를 결정하기 위한 도 7 의 740 의 보다 상세한 흐름도를 도시한다. OCR 엔진 (660) 은 초기에 마스킹 유닛 (650) 으로부터, 식별된 텍스트 블록을 각각 갖는 객체의 복수의 이미지들을 수신한다. 또한, 1510 에서, OCR 엔진 (660) 은 클라이언트 디바이스 (110) 또는 서버 (120) 로부터 객체의 텍스트 블록에서의 문자들의 셋트에 대한 포맷 정보를 수신한다. 예를 들어, 포맷 정보는 텍스트 블록에서의 문자들의 수, 배열, 유형, 문자들의 언어 등과 같은 텍스트 블록들의 문자 포맷을 포함한다.

1520 에서, OCR 엔진 (660) 은 포맷 정보에 기초하여 문자들의 임시 셋트들을 생성하도록 객체 이미지들에서의 텍스트 블록들 각각을 인식한다. 일 실시형태에 있어서, 문자들의 임시 셋트들은, 전체로서 객체의 텍스트 블록들에서의 각 단어를 인식하는 것을 지칭하는 전체론적 방법에 기초하여 생성된다. 다른 실시형태에 있어서, 문자들의 임시 셋트들은, 텍스트 블록에서의 각각의 단어를 개별 문자들로 분할한 후 그 단어에서의 각각의 문자를 인식하는 분할-기반 방법에 기초하여 생성된다. 전체론적 방법 및 분할-기반 방법 양자 모두는, 수신된 포맷 정보에 기초한 객체 이미지들에서의 텍스트 블록들에서의 문자들의 임시 셋트들을 생성할 수도 있다. 1530 에서, 도 16 내지 도 19 를 참조하여 상세하게 설명되듯이, 시간 필터 (670) 는 OCR 엔진 (660) 으로부터 텍스트 블록들에 대한 문자들의 임시 셋트들을 수신한 후 수신된 문자들의 임시 셋트들에 기초하여 객체에서의 텍스트 블록에 대한 문자들의 셋트를 추론한다.

도 16 은 본 개시의 일 실시형태에 따라 객체의 복수의 이미지들에서의 텍스트 블록들로부터 생성되는 문자들의 임시 셋트들에 기초하여 객체의 텍스트 블록에서의 문자들의 셋트를 결정하기 위한 시간 필터 (670) 의 블록도를 도시한다. 시간 필터 (670) 는 버퍼 (1610), 텍스트 추론 유닛 (1630), 및 텍스트 표시 유닛 (1650) 을 포함한다. 버퍼 (1610) 는 OCR 엔진 (660) 으로부터 수신된 복수의 객체 이미지들에서의 텍스트 블록들로부터 생성되는 문자들의 임시 셋트들을 저장한다. 문자들의 임시 셋트들에 기초하여, 텍스트 추론 유닛 (1630) 은 객체에서의 텍스트 블록에 대한 문자들의 셋트를 결정한다. 텍스트 표시 유닛 (1650) 은 텍스트 추론 유닛 (1630) 에 의해 인식되는 텍스트 블록들에서의 문자들의 셋트들을 수신하고, 문자들의 셋트들은, 객체에서의 텍스트 블록들에 대한 문자들의 셋트들을 디스플레이 상에 표시하기 위해 그래픽 프로세싱 유닛 (680) 에 제공된다. 시간 필터 (670) 가 텍스트 블록에 대한 문자들의 셋트를 결정하지만, 객체는, 각각의 텍스트 블록에 대해 문자들의 셋트가 대응하는 문자들의 임시 셋트들로부터 결정될 수도 있는, 복수의 텍스트 블록들을 포함할 수도 있다. 즉, 시간 필터 (670) 는, 객체 이미지들에서의 텍스트 블록에 대응하는 문자들의 임시 셋트들로부터 객체에서의 각각의 텍스트 블록에 대한 문자들의 셋트를 결정할 수도 있다.

몇몇 실시형태들에 있어서, 텍스트 블록들의 인식에 있어서의 정확성을 향상시키기 위해 객체의 샘플 이미지들의 개수가 증가될 수도 있다. 이 경우, 텍스트 추론 유닛 (1630) 은, 객체에서의 텍스트 블록에 대한 문자들의 추가적인 임시 셋트들이 OCR 엔진 (660) 으로부터 생성될 수 있도록 객체의 추가적인 이미지들을 캡처하는 요청을 이미지 캡처 유닛 (610) 에 전송할 수도 있다. 이 프로세스는 텍스트 블록들에서의 원하는 정확성이 달성될 때까지 계속될 수도 있다.

텍스트 추론 유닛 (1630) 은 버퍼 (1610) 에 저장된 문자들의 임시 셋트들에서의 각각의 문자 또는 단어에 대한 발생 횟수에 기초하여 문자 또는 단어 단위 기반으로 텍스트 블록에서의 문자들의 셋트들을 추론할 수도 있다. 또한, 텍스트 블록에서의 문자들의 샤프니스 또는 문자들의 임시 셋트에서의 식별된 문자들 또는 단어들의 유사도 값들과 같은, 문자들의 임시 셋트들 각각의 신뢰도 레벨이 문자들의 셋트를 추론하기 위해 고려될 수도 있다.

도 17 은 본 개시의 일 실시형태에 따른, 시간 주기 동안 캡처되는 복수의 객체 이미지들 (1700, 1702 및 1704) 로부터 신용 카드 (300) 에서의 예시적인 텍스트 블록 (304) 에서의 문자들의 셋트 (1718) 를 추론하는 도면을 나타낸다. 초기에, OCR 엔진 (660) 은 복수의 신용 카드 이미지들 (1700, 1702 및 1704) 을 순차적으로 또는 병렬로 수신한다. 객체 이미지들 (1700, 1702 및 1704) 각각에 대해, OCR 엔진 (660) 은 텍스트 블록들 (1706, 1708 및 1710) 에 대한 문자들의 임시 셋트 (1712, 1714 및 1716) 를 각각 생성한다. 이 프로세스에서, 도 5 에 나타낸 바와 같이, 문자들의 임시 셋트들 (1712, 1714 및 1716) 은 텍스트 블록 (304) 에서의 문자들의 수, 텍스트 블록 (304) 에서의 문자들의 배열, 및 텍스트 블록 (304) 에서의 문자들의 유형과 같은 문자 포맷 정보를 사용하여 생성된다.

몇몇 실시형태들에 있어서, 문자들의 임시 셋트들 (1712, 1714 및 1716) 은 상기 언급된 바와 같이 전체론적 방법 또는 분할-기반 방법에 기초하여 생성된다. 전체론적 방법 하에서는, 예를 들어, 텍스트 블록 (1706) 에서의 "1234" "5678", "9876" 및 "5432" 와 같은 복수의 단어들이 단어 단위 기반으로 인식되고 조합되어 문자들의 임시 셋트 (1712) 를 형성한다. 대안적으로, 분할-기반 방법에서는, 텍스트 블록 (1706, 1708 또는 1710) 에서의 문자들을 각각 개별 문자들 (예컨대, 1, 2, 3 등) 로 분할하고 각각의 문자를 개별적으로 인식함으로써 각각의 문자들의 임시 셋트들 (1712, 1714 또는 1716) 이 생성된다.

그 후 복수의 문자들의 임시 셋트들 (1712, 1714 및 1716) 이 시간 필터 (670) 에서의 텍스트 블록 (304) 에 대한 문자들의 최종 셋트 (1718) 를 추론하기 위해 사용된다. 시간 필터 (670) 는 OCR 엔진 (660) 으로부터의 문자들의 임시 셋트들 (1712, 1714 및 1716) 그리고 문자들의 임시 셋트들 (1712, 1714 및 1716) 각각의 신뢰도 레벨을 수신한다. 그 후 텍스트 블록 (304) 에 대한 문자들의 최종 셋트 (1718) 는 문자들의 임시 셋트들 (1712, 1714 및 1716) 에 기초하여 문자 단위 기반 또는 단어 단위 기반으로 추론된다. 문자 단위 기반 방법에서는, 예를 들어, 문자들의 최종 셋트 (1718) 의 첫 번째 문자 (예컨대, 숫자) 는 문자들의 임시 셋트들 (1712, 1714 및 1716) 각각에서의 첫 번째 문자들 "1", "4" 및 "1" 에 기초하여 추론될 수도 있다. 문자들의 최종 셋트 (1718) 에서의 다른 문자들은 문자들의 임시 셋트들 (1712, 1714 및 1716) 에서의 대응하는 포지션들에서의 문자들에 기초하여 유사한 방식으로 결정될 수도 있다. 단어 단위 기반 방법에서는, 텍스트 블록 (304) 에 대한 문자들의 최종 셋트 (1718) 의 첫 번째 단어는 문자들의 임시 셋트들 (1712, 1714 및 1716) 에서의 첫 번째 단어들 "1234", "4234" 및 "1234" 에 기초하여 추론된다. 유사한 방식으로, 문자들의 최종 셋트 (1718) 에서의 다른 단어들은 문자들의 임시 셋트들 (1712, 1714 및 1716) 에서의 대응하는 포지션들에서의 단어들로부터 추론된다. 몇몇 실시형태들에 있어서, 이하 더욱 상세하게 설명되듯이, 문자들의 최종 셋트 (1718) 는 문자들의 임시 셋트들 (1712, 1714 및 1716) 에서의 문자들 또는 단어들의 발생 횟수 및/또는 문자들의 임시 셋트들 (1712, 1714 및 1716) 의 신뢰도 레벨에 기초하여 추론될 수도 있다. 문자들의 최종 셋트 (1718) 를 추론하기 위해 3개의 문자들의 임시 셋트들 (1712, 1714 및 1716) 이 예시되어 있지만, 객체에서의 텍스트 블록에서의 문자들의 셋트를 결정하기 위해 3개보다 더 많거나 또는 더 적은 문자들의 임시 셋트들이 사용될 수도 있다.

도 18 은 본 개시의 일 실시형태에 따라 문자 단위 기반으로 신용 카드 (300) 에서의 텍스트 블록 (304) 에 대한 문자들의 최종 셋트에서의 문자들을 추론하는데 사용하기 위한 복수의 문자들의 임시 셋트들 (1810, 1820, 1830, 1840, 1850, 1860 및 1870) 을 도시한다. 나타낸 바와 같이, 임시 셋트들 (1810 내지 1870) 에서의 문자들은 텍스트 블록 (304) 에서의 그들의 포지션들에 따라 복수의 그룹들 (1800, 1802, 1804 및 1806) 로 그룹화된다. 예를 들어, 그룹 (1800) 은 문자들의 임시 셋트들 (1810 내지 1870) 에서의 첫 번째 문자들로 이루어진다. 유사하게, 그룹들 (1802, 1804 및 1806) 은 임시 셋트들 (1810 내지 1870) 에서의 두 번째, 세 번째 및 네 번째 문자들을 각각 포함한다.

동일한 포지션들에서의 문자들의 그룹화에 기초하여, 객체에서의 텍스트 블록에 대한 문자는 객체의 복수의 이미지들의 텍스트 블록들에서의 문자들의 임시 셋트들에서의 각각의 포지션에서의 문자들의 발생 횟수로부터 추론된다. 첫 번째 문자 그룹 (1800) 에서는, 예를 들어, "1" 의 발생이 임시 문자들 (1810 내지 1870) 에서의 첫 번째 문자 포지션에서의 임의의 다른 문자들의 발생보다 더 크기 때문에, 텍스트 추론 유닛 (1630) 은 텍스트 블록 (304) 에 대한 첫 번째 문자가 "1" 이라고 추론한다.

더욱 정확성을 보장하기 위해, 텍스트 추론 유닛 (1630) 은 어떤 포지션에서의 문자의 발생 횟수가 미리결정된 임계치 (예컨대, 3) 를 초과할 때에만 문자를 추론하도록 구성될 수도 있다. 첫 번째 문자 그룹 (1800) 의 경우, 문자 "1" 의 발생이 4번이므로, 문자 "1" 이 텍스트 블록 (304) 에서의 첫 번째 문자라고 결정된다. 미리결정된 임계치를 초과하지 않은 경우, 텍스트 추론 유닛 (1630) 은 신용 카드 (300) 의 추가적인 이미지들을 캡처하는 요청을 이미지 캡처 유닛 (610) 에 전송하도록 구성될 수도 있다. 일단 추가적인 객체 이미지들에 기초하여 새로운 문자들의 임시 셋트들이 생성되면, 텍스트 추론 유닛 (1630) 은 새로운 문자들의 임시 셋트들을 포함하는 최신 문자들의 임시 셋트들에 기초하여 텍스트 블록 (304) 에 대한 문자들의 최종 셋트에 대한 문자들을 추론한다.

몇몇 실시형태들에 있어서, 객체에서의 텍스트 블록에 대한 문자들의 셋트에서의 문자는, 임시 문자의 신뢰도 레벨 그리고 객체의 복수의 이미지들로부터의 텍스트 블록들에서의 문자들의 임시 셋트들에서의 대응하는 포지션에서의 발생 횟수에 기초하여 추론된다. 첫 번째 문자 그룹 (1800) 에서, 예를 들어, 첫 번째 문자들 "4," "4" 및 "4" 의 신뢰도 레벨들의 평균 (예컨대, 90) 은 첫 번째 문자들 "1", "1", "1" 및 "1" 의 신뢰도 레벨들의 평균 (예컨대, 60) 보다 더 클 수도 있다. 이 경우, 텍스트 추론 유닛 (1630) 은, 첫 번째 문자들 "4" 의 신뢰도 레벨의 평균 곱하기 발생 횟수가 첫 번째 문자들 "1" 의 신뢰도 레벨의 평균 곱하기 발생 횟수보다 더 높기 때문에 (즉, 90*3 = 270 > 60*4 = 240) 첫 번째 문자가 "4" 라고 추론할 수도 있다. 그리하여, 텍스트 블록 (304) 의 첫 번째 문자에 대한 추론 프로세스는 텍스트 블록 (304) 에서의 다른 문자들 각각에 적용될 수도 있다. 또한, 신용 카드 (300) 에서의 다른 텍스트 블록들 (306 및 308) 에서의 문자들이 유사한 방식으로 복수의 객체 이미지들로부터 인식되는 문자들의 임시 셋트들로부터 추론될 수도 있다.

도 19 는 본 개시의 다른 실시형태에 따라 단어 단위 기반으로 신용 카드 (300) 에서의 텍스트 블록 (304) 에 대한 문자들의 최종 셋트에서의 문자들을 추론하는데 사용하기 위한 복수의 문자들의 임시 셋트들 (1910, 1920, 1930, 1940, 1950, 1960 및 1970) 을 도시한다. 나타낸 바와 같이, 임시 셋트들 (1910 내지 1970) 에서의 단어들은 텍스트 블록 (304) 에서의 그들의 포지션들에 따라 복수의 그룹들 (1900, 1902, 1904 및 1906) 로 그룹화된다. 예를 들어, 그룹 (1900) 은 문자들의 임시 셋트들 (1910 내지 1970) 에서의 첫 번째 단어들로 이루어진다. 유사하게, 그룹들 (1902, 1904 및 1906) 은 임시 셋트들 (1910 내지 1970) 에서의 두 번째, 세 번째 및 네 번째 단어들을 각각 포함한다.

동일한 포지션들에서의 단어들의 그룹화에 기초하여, 객체에서의 텍스트 블록에 대한 단어는 객체의 복수의 이미지들의 텍스트 블록들에서의 문자들의 임시 셋트들에서의 각각의 포지션에서의 단어들의 발생 횟수로부터 추론된다. 첫 번째 단어 그룹 (1900) 에서는, 예를 들어, "1234" 의 발생이 임시 단어들 (1910 내지 1970) 에서의 첫 번째 문자 포지션에서의 임의의 다른 단어들의 발생보다 더 크기 때문에, 텍스트 추론 유닛 (1630) 은 텍스트 블록 (304) 에 대한 첫 번째 단어가 "1234" 이라고 추론한다. 이 경우에, 발생 횟수에 대한 미리결정된 임계치를 초과하지 않은 경우, 텍스트 추론 유닛 (1630) 은 신용 카드 (300) 의 추가적인 이미지들을 캡처하는 요청을 이미지 캡처 유닛 (610) 에 전송하도록 구성될 수도 있다. 이 경우에, 새로운 문자들의 임시 셋트들이 추가적인 객체 이미지들에 기초하여 생성되고, 텍스트 블록 (304) 에 대한 문자들의 최종 셋트에 대한 단어들을 추론하기 위해 이용된다.

몇몇 실시형태들에 있어서, 객체에서의 텍스트 블록에 대한 문자들의 셋트에서의 단어는 또한 문자들의 임시 셋트의 신뢰도 레벨에 기초하여 추론된다. 첫 번째 단어 그룹 (1900) 에서, 예를 들어, "4234" 의 신뢰도 레벨들의 평균이 "1234" 의 신뢰도 레벨들의 평균보다 더 크다고 결정될 수도 있다. 몇몇 경우에, "1234" 의 발생 횟수가 첫 번째 단어 "4234" 의 발생 횟수보다 더 높더라도, 텍스트 추론 유닛 (1630) 은 "4234" 의 신뢰도 레벨들의 평균이 "1234" 의 신뢰도 레벨들의 평균보다 더 높기 때문에 문자들의 셋트에서의 첫 번째 단어가 "4234" 라고 추론할 수도 있다. 그리하여, 텍스트 블록 (304) 의 첫 번째 단어에 대한 추론 프로세스는 텍스트 블록 (304) 에서의 다른 단어들 각각에 적용될 수도 있다. 또한, 신용 카드 (300) 에서의 다른 텍스트 블록들 (306 및 308) 에서의 단어들이 유사한 방식으로 복수의 객체 이미지들로부터 인식되는 문자들의 임시 셋트들로부터 추론될 수도 있다.

일단 객체에서의 각각의 텍스트 블록에서의 문자들의 최종 셋트가 추론되면, 문자들의 셋트가, 사용자에 의해 확인될 수도 있는, 인식 결과로서 디스플레이 상에 표시될 수 있다. 도 20 은 본 개시의 일 실시형태에 따라 사용자에 의해 디스플레이 상의 표시된 인식 결과를 확인하기 위한 도 7 의 750 의 보다 상세한 흐름도이다. 2010 에서, 그래픽 프로세싱 유닛 (680) 은 시간 필터 (670) 에서의 텍스트 표시 유닛 (1650) 으로부터 텍스트 블록에서의 문자들의 최종 셋트를 수신한다. 2020 에서, 그래픽 프로세싱 유닛 (680) 은 인식 결과로서의 문자들을 표시하는 디스플레이에 문자들의 최종 셋트를 전송한다. 일 실시형태에 있어서, 각각의 텍스트 블록에 대한 문자들의 최종 셋트에서의 문자 또는 단어가 텍스트 추론 유닛 (1630) 에 의해 결정될 때마다, 결정된 문자 또는 단어는 디스플레이에 제공되어 결정된 문자 또는 단어를 그래픽 프로세싱 유닛 (680) 을 통해 표시한다. 또한, 텍스트 추론 유닛 (1630) 은 객체의 새롭게 캡처된 이미지를 사용하여 생성되는 문자들의 임시 셋트에 기초하여 문자들의 셋트에 대한 새로운 추론을 수행함으로써 객체에서의 각각의 텍스트 블록에 대한 문자들 또는 단어들을 업데이트하고, 업데이트된 인식 정보를 디스플레이에 제공할 수도 있다. 이러한 업데이트 프로세스는, 객체에서의 각각의 텍스트 블록에 대한 문자들의 셋트에서의 문자들 모두가 인식되고 디스플레이 상에 표시될 때까지 수행될 수도 있다. 그 후, 2030 에서, 디스플레이 상에 표시된 인식 결과를 사용자에 의해 확인한다. 인식 결과가 사용자에 의해 확인되지 않는 경우, 사용자가 결과를 최종적으로 확인할 때까지 텍스트 블록 인식을 위해 객체의 추가적인 이미지들이 캡처될 수도 있다.

도 21 은 본 개시의 일 실시형태에 따라 디스플레이 상에 신용 카드 (300) 에 대한 중간 인식 결과를 표시하는 도면 (2100) 을 도시한다. 나타낸 바와 같이, 복수의 블록들 (2110, 2120 및 2130) 은 텍스트 블록들 (304, 306 및 308) 에 대한 중간 인식 결과들을 각각 포함한다. 이 경우에, 중간 인식 결과들은 하나 이상의 미인식 (non-recognized) 문자들을 포함하며, 미인식 문자들 각각은, 문자가 인식되고 있는 과정 중인 것 또는 문자 추론의 실패를 나타내는 별표 (즉, "*") 로서 나타내진다. 비인식 문자들에 대한 문자들이 인식되고 표시됨에 따라, 별표들은 인식된 문자들로 변경될 수도 있다. 이러한 방식으로, 텍스트 블록들 (304, 306 및 308) 에서의 문자들 모두가 인식될 때까지 임시 인식 결과가 표시되고 업데이트될 수도 있다.

도 22 는 일 실시형태에 따라 디스플레이 상에 신용 카드 (300) 에 대한 최종 인식 결과를 표시하는 도면 (2200) 을 도시한다. 복수의 블록들 (2210, 2220 및 2230) 은 완전히 인식된 텍스트 블록들 (304, 306 및 308) 에서의 문자들을 포함한다. 이 경우에, 사용자는 최종 인식 결과가 텍스트 블록들 (304, 306 및 308) 에서의 실제 문자들과 비교해서 정확한지의 여부를 확인할 수도 있다.

도 23 은 무선 통신 시스템에 있어서의 예시적인 모바일 디바이스 (2300) 의 구성을 나타낸다. 모바일 디바이스 (2300) 의 구성은 클라이언트 디바이스들 (110 및 210) 에서 구현될 수도 있다. 모바일 디바이스 (2300) 는 셀룰러 전화기, 단말기, 핸드셋, PDA (personal digital assistant), 무선 모뎀, 무선 전화기 등일 수도 있다. 무선 통신 시스템은 CDMA (Code Division Multiple Access) 시스템, GSM (Global System for Mobile Communications) 시스템, WCDMA (Wideband CDMA) 시스템, LTE (Long Term Evolution) 시스템, LTE 어드밴스드 (Advanced) 시스템 등일 수도 있다. 또한, 모바일 디바이스 (2300) 는, 예컨대, Wi-Fi 다이렉트, 블루투스, 또는 플래시링크 기술을 이용하여 다른 모바일 디바이스와 직접 통신할 수도 있다.

모바일 디바이스 (2300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (2312) 에 의해 수신되어, 수신기 (RCVR) (2314) 로 제공된다. 수신기 (2314) 는 수신된 신호를 컨디셔닝하고 디지털화하여, 추가적인 프로세싱을 위해 디지털 섹션에 컨디셔닝되고 디지털화된 디지털 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR) (2316) 가 디지털 섹션 (2320) 으로부터 송신될 데이터를 수신하여, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 생성하며, 변조된 신호는 안테나 (2312) 를 통해 기지국들로 송신된다. 수신기 (2314) 및 송신기 (2316) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 송수신기의 일부분일 수도 있다.

디지털 섹션 (2320) 은, 예를 들어, 모뎀 프로세서 (2322), 감소된 명령 셋트 컴퓨터/디지털 신호 프로세서 (RISC/DSP) (2324), 제어기/프로세서 (2326), 내부 메모리 (2328), 일반화된 오디오 인코더 (2332), 일반화된 오디오 디코더 (2334), 그래픽/디스플레이 프로세서 (2336), 및 외부 버스 인터페이스 (EBI) (2338) 와 같은 다양한 프로세싱 유닛, 인터페이스 유닛, 및 메모리 유닛을 포함한다. 모뎀 프로세서 (2322) 는 데이터 송신 및 수신을 위한 프로세싱, 예컨대, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (2324) 는 모바일 디바이스 (2300) 에 대해 일반 프로세싱 및 전문화된 프로세싱을 수행할 수도 있다. 제어기/프로세서 (2326) 는 디지털 섹션 (2320) 내의 다양한 프로세싱 유닛 및 인터페이스 유닛의 동작을 수행할 수도 있다. 내부 메모리 (2328) 는 디지털 섹션 (2320) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.

일반화된 오디오 인코더 (2332) 는 오디오 소스 (2342), 마이크로폰 (2343) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (2334) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 스피커/헤드셋 (2344) 에 출력 신호들을 제공할 수도 있다. 그래픽/디스플레이 프로세서 (2336) 는 표시 유닛 (2346) 에 제시될 수도 있는 그래픽들, 비디오들, 이미지들 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (2338) 는 디지털 섹션 (2320) 과 메인 메모리 (2348) 간의 데이터의 전송을 용이하게 할 수도 있다.

디지털 섹션 (2320) 은 하나 이상의 프로세서들, DSP들, 마이크로프로세서들, RISC들 등으로 구현될 수도 있다. 디지털 섹션 (2320) 은 또한 하나 이상의 주문형 집적회로 (ASIC) 들 및/또는 몇몇 다른 종류의 집적 회로 (IC) 들 상에서 제조될 수도 있다.

일반적으로, 본원에 설명된 디바이스는 무선 전화기, 셀룰러 전화기, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 퍼스널 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 유형들의 디바이스들을 나타낼 수도 있다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 헨드헬드 디바이스 등과 같은 다양한 명칭들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 및 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 가질 수도 있다.

본원에 설명된 기술들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이들 기술들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 당해 기술분야에서 통상의 지식을 가진 자 (이하, '당업자' 라 함) 는 추가로, 본원의 개시와 함께 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자적 하드웨어, 컴퓨터 소프트웨어, 또는 이 양자의 조합들로서 구현될 수도 있다는 것을 이해할 것이다. 하드웨어와 소프트웨어의 이러한 상호교환가능성을 분명하게 나타내기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능성 면에서 일반적으로 상기 설명되었다. 이러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현될 지는 전체 시스템에 부과된 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자는 설명된 기능성을 각각의 특정 애플리케이션에 대해 다양한 방식들로 구현할 수도 있지만, 이러한 구현 결정들은 본 개시의 범위로부터의 이탈을 야기하는 것으로서 해석되어서는 아니된다.

하드웨어 구현에 있어서, 기술들을 수행하기 위해 사용되는 프로세싱 유닛들은, 하나 이상의 ASIC 들, DSP 들, 디지털 신호 처리 디바이스 (DSPD) 들, 프로그래머블 로직 디바이스 (PLD) 들, 필드 프로그래머블 게이트 어레이 (FPGA) 들, 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자적 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.

따라서, 본원의 개시와 함께 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 이 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스의 결합, 예를 들어, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 결합으로서 구현될 수도 있다.

펌웨어 및/또는 소프트웨어 구현에 있어서, 기술들은, 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 프로그래머블 판독-전용 메모리 (PROM), 전기적으로 소거가능한 PROM (EEPROM), FLASH 메모리, 컴팩트 디스크 (CD), 자기적 또는 광학적 데이터 저장 디바이스 등과 같은 컴퓨터-판독가능 매체에 저장된 명령들로서 구현될 수도 있다. 이 명령들은 하나 이상의 프로세서들에 의해 실행가능할 수도 있고, 이 프로세서(들)로 하여금 본원에 설명된 기능성의 어떤 양태들을 수행하게 할 수도 있다.

소프트웨어로 구현되는 경우, 기능들은 컴퓨터-판독가능 매체 상의 하나 이상의 명령들 또는 코드로서 저장 또는 송신될 수도 있다. 컴퓨터-판독가능 매체는 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체 및 통신 매체 양자 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한이 아닌 예시로서, 이러한 컴퓨터-판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기적 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 운반 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 연결이 적절하게 컴퓨터-판독가능 매체로 지칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스트 페어, 디지털 가입자 회선 (DSL), 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 그 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 사용된 디스크 (disk) 및 디스크 (disc) 는 CD, 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 블루-레이 디스크를 포함하고, 여기서, 디스크 (disk) 들은 통상적으로 데이터를 자기적으로 재생하는 한편, 디스크 (disc) 들은 데이터를 레이저들을 이용하여 광학적으로 재생한다. 상기한 것들의 조합들 또한 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.

소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리 EEPROM 메모리, 레지스터들, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당해 기술분야에서 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고 그 저장 매체에 정보를 기입할 수 있도록 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 은 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기에 이산 컴포넌트들로서 상주할 수도 있다.

본 개시의 이전 설명은 당업자가 본 개시를 실시 또는 이용하는 것을 가능하게 하기 위해 제공되었다. 본 개시의 다양한 변형들이 당업자에게 있어 자명할 것이고, 본원에 정의된 일반적 원리들은 본 개시의 사상 또는 범위로부터 벗어남이 없이 다른 변화형태들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 한정되는 것으로 의도되지 아니하고, 본원에 설명된 원리들 및 창의적인 특징들과 부합하는 가장 넓은 범위에 부합한다.

예시적인 구현들은 하나 이상의 독립적 컴퓨터 시스템들의 면에서 현재 개시된 주제의 양태들을 이용하는 것을 언급할 수도 있지만, 주제는 거기에 한정되지 아니하며, 오히려, 네트워크 또는 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 함께 구현될 수도 있다. 또한, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 그들에 걸쳐서 구현될 수도 있고, 저장부는 유사하게 복수의 디바이스들에 걸쳐서 유효화될 수도 있다. 이러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

비록 주제가 구조적 특징들 및/또는 방법적 행동들에 특정적인 언어로 설명되었지만, 첨부된 청구항들에서 정의된 주제는 전술한 특정 특징들 또는 행동들에 반드시 한정되는 것은 아니라는 점을 이해하여야 한다. 오히려, 전술한 특정 특징들 및 행동들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.

Claims

객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법으로서,
객체의 복수의 이미지들을 수신하는 단계로서, 상기 객체의 상기 복수의 이미지들의 각각의 이미지는 텍스트 블록을 포함하는, 상기 객체의 복수의 이미지들을 수신하는 단계;
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 단계; 및
상기 텍스트 블록의 문자 포맷에 부분적으로 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에서의 문자들의 셋트를 결정하는 단계를 포함하고,
상기 문자 포맷은 상기 객체의 구성 (configuration) 에 대응하고, 상기 구성은 상기 객체와 연관된 하나 이상의 패턴들에 기초하여 결정되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 문자들의 셋트를 결정하는 단계는,
상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에 대해 문자들의 임시 셋트를 생성하는 단계; 및
상기 문자들의 임시 셋트에 기초하여 상기 문자들의 셋트를 추론하는 단계를 포함하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 객체는 신용 카드, 비즈니스 카드, 운전 면허증, 여권, 또는 신분 증명서인, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 객체의 구성은 상기 객체의 레이아웃, 상기 객체의 사이즈, 하나 이상의 텍스트 블록들의 위치 정보, 언어 정보, 외관 정보, 또는 이들의 조합을 나타내는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 2 항에 있어서,
상기 문자들의 셋트는, 상기 문자들의 임시 셋트의 신뢰도 레벨에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 5 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자들의 임시 셋트에서의 포지션에서의 상기 문자의 발생 횟수에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 6 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자의 상기 발생 횟수가 임계 값을 초과할 때 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 2 항에 있어서,
상기 문자들의 임시 셋트를 생성하는 단계는,
상기 텍스트 블록에서의 상기 문자들의 셋트에 관련된 포맷 정보를 수신하는 단계로서, 상기 포맷 정보는 상기 문자 포맷을 포함하는, 상기 포맷 정보를 수신하는 단계; 및
상기 포맷 정보에 기초하여 상기 문자들의 임시 셋트를 생성하는 단계를 포함하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 단계는,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 객체의 경계를 검출하는 단계;
상기 객체의 사이즈 정보에 기초하여 상기 복수의 이미지들의 각각에서 검출된 상기 경계를 확인하는 단계; 및
상기 텍스트 블록의 위치 정보에 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 단계를 포함하고,
상기 위치 정보는 상기 객체의 구성에 대응하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 9 항에 있어서,
상기 경계를 확인하는 단계는, 상기 경계가 상기 사이즈 정보에 매칭하지 않을 때 상기 객체의 새로운 이미지를 수신하는 단계를 포함하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 구성은 상기 하나 이상의 패턴들에 기초하여 식별된 상기 객체의 유형에 대응하고, 상기 하나 이상의 패턴들은 미리결정되고 상기 객체의 유형에 관하여 구별되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 객체의 상기 복수의 이미지들 중 하나 이상은 상기 객체의 비디오 프레임인, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
제 1 항에 있어서,
상기 문자 포맷은 문자들의 수 및 상기 문자들의 배열을 나타내는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하는 방법.
객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스로서,
객체의 복수의 이미지들을 캡처하도록 구성된 이미지 캡처 유닛으로서, 상기 객체의 상기 복수의 이미지들의 각각의 이미지는 텍스트 블록을 포함하는, 상기 이미지 캡처 유닛;
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하도록 구성된 마스킹 유닛; 및
상기 텍스트 블록의 문자 포맷에 부분적으로 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에서의 문자들의 셋트를 결정하도록 구성된 시간 필터를 포함하고,
상기 문자 포맷은 상기 객체의 구성 (configuration) 에 대응하고, 상기 구성은 상기 객체와 연관된 하나 이상의 패턴들에 기초하여 결정되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에 대해 문자들의 임시 셋트를 생성하도록 구성된 OCR (광학적 문자 판독기) 엔진을 더 포함하고,
상기 문자들의 셋트는 상기 문자들의 임시 셋트에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 객체는 신용 카드, 비즈니스 카드, 운전 면허증, 여권, 또는 신분 증명서인, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 객체의 구성은 상기 객체의 레이아웃, 상기 객체의 사이즈, 하나 이상의 텍스트 블록들의 위치 정보, 언어 정보, 외관 정보, 또는 이들의 조합을 나타내는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 15 항에 있어서,
상기 문자들의 셋트는, 상기 문자들의 임시 셋트의 신뢰도 레벨에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 18 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자들의 임시 셋트에서의 포지션에서의 상기 문자의 발생 횟수에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 19 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자의 상기 발생 횟수가 임계 값을 초과할 때 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 15 항에 있어서,
상기 OCR 엔진은, 상기 텍스트 블록에서의 상기 문자들의 셋트에 관련된 포맷 정보를 수신하고, 상기 포맷 정보에 기초하여 상기 문자들의 임시 셋트를 생성하도록 더 구성되며,
상기 포맷 정보는 상기 문자 포맷을 포함하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 객체의 경계를 검출하고, 상기 객체의 사이즈 정보에 기초하여 상기 복수의 이미지들의 각각에서 검출된 상기 경계를 확인하도록 구성된 경계 검출기를 더 포함하고,
상기 마스킹 유닛은, 상기 텍스트 블록의 위치 정보에 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하도록 더 구성되며, 상기 위치 정보는 상기 객체의 구성에 대응하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 22 항에 있어서,
상기 이미지 캡처 유닛은, 상기 경계가 상기 사이즈 정보에 매칭하지 않을 때 상기 객체의 새로운 이미지를 수신하도록 더 구성되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 구성은 상기 하나 이상의 패턴들에 기초하여 식별된 상기 객체의 유형에 대응하고, 상기 하나 이상의 패턴들은 미리결정되고 상기 객체의 유형에 관하여 구별되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 객체의 상기 복수의 이미지들 중 하나 이상은 상기 객체의 비디오 프레임인, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
제 14 항에 있어서,
상기 문자 포맷은 문자들의 수 및 상기 문자들의 배열을 나타내는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 디바이스.
객체에서 텍스트 블록을 인식하기 위한 명령들을 포함하는 컴퓨터-판독가능 저장 매체로서,
상기 명령들은 프로세서로 하여금,
객체의 복수의 이미지들을 수신하는 동작으로서, 상기 객체의 상기 복수의 이미지들의 각각의 이미지는 텍스트 블록을 포함하는, 상기 객체의 복수의 이미지들을 수신하는 동작;
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 동작; 및
상기 텍스트 블록의 문자 포맷에 부분적으로 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에서의 문자들의 셋트를 결정하는 동작을 포함하는 동작들을 수행하게 하고,
상기 문자 포맷은 상기 객체의 구성 (configuration) 에 대응하고, 상기 구성은 상기 객체와 연관된 하나 이상의 패턴들에 기초하여 결정되는, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 문자들의 셋트를 결정하는 동작은,
상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에 대해 문자들의 임시 셋트를 생성하는 동작; 및
상기 문자들의 임시 셋트에 기초하여 상기 문자들의 셋트를 추론하는 동작을 포함하는, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 객체는 신용 카드, 비즈니스 카드, 운전 면허증, 여권, 또는 신분 증명서인, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 객체의 구성은 상기 객체의 레이아웃, 상기 객체의 사이즈, 하나 이상의 텍스트 블록들의 위치 정보, 언어 정보, 외관 정보, 또는 이들의 조합을 나타내는, 컴퓨터-판독가능 저장 매체.
제 28 항에 있어서,
상기 문자들의 셋트는, 상기 문자들의 임시 셋트의 신뢰도 레벨에 기초하여 추론되는, 컴퓨터-판독가능 저장 매체.
제 31 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자들의 임시 셋트에서의 포지션에서의 상기 문자의 발생 횟수에 기초하여 추론되는, 컴퓨터-판독가능 저장 매체.
제 32 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자의 상기 발생 횟수가 임계 값을 초과할 때 추론되는, 컴퓨터-판독가능 저장 매체.
제 28 항에 있어서,
상기 문자들의 임시 셋트를 생성하는 동작은,
상기 텍스트 블록에서의 상기 문자들의 셋트에 관련된 포맷 정보를 수신하는 동작으로서, 상기 포맷 정보는 상기 문자 포맷을 포함하는, 상기 포맷 정보를 수신하는 동작; 및
상기 포맷 정보에 기초하여 상기 문자들의 임시 셋트를 생성하는 동작을 포함하는, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 동작은,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 객체의 경계를 검출하는 동작;
상기 객체의 사이즈 정보에 기초하여 상기 복수의 이미지들의 각각에서 검출된 상기 경계를 확인하는 동작; 및
상기 텍스트 블록의 위치 정보에 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하는 동작을 포함하고,
상기 위치 정보는 상기 객체의 구성에 대응하는, 컴퓨터-판독가능 저장 매체.
제 35 항에 있어서,
상기 경계를 확인하는 동작은, 상기 경계가 상기 사이즈 정보에 매칭하지 않을 때 상기 객체의 새로운 이미지를 수신하는 동작을 포함하는, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 구성은 상기 하나 이상의 패턴들에 기초하여 식별된 상기 객체의 유형에 대응하고, 상기 하나 이상의 패턴들은 미리결정되고 상기 객체의 유형에 관하여 구별되는, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 객체의 상기 복수의 이미지들 중 하나 이상은 상기 객체의 비디오 프레임인, 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 문자 포맷은 문자들의 수 및 상기 문자들의 배열을 나타내는, 컴퓨터-판독가능 저장 매체.
객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치로서,
객체의 복수의 이미지들을 캡처하기 위한 수단으로서, 상기 객체의 상기 복수의 이미지들의 각각의 이미지는 텍스트 블록을 포함하는, 상기 객체의 복수의 이미지들을 캡처하기 위한 수단;
상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하기 위한 수단; 및
상기 텍스트 블록의 문자 포맷에 부분적으로 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에서의 문자들의 셋트를 결정하기 위한 수단을 포함하고,
상기 문자 포맷은 상기 객체의 구성 (configuration) 에 대응하고, 상기 구성은 상기 객체와 연관된 하나 이상의 패턴들에 기초하여 결정되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 40 항에 있어서,
상기 복수의 이미지들의 각각에서 식별된 상기 텍스트 블록에 대해 문자들의 임시 셋트를 생성하기 위한 수단을 더 포함하고,
상기 결정하기 위한 수단은, 상기 문자들의 임시 셋트에 기초하여 상기 문자들의 셋트를 추론하도록 더 구성되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 41 항에 있어서,
상기 문자들의 셋트는 상기 문자들의 임시 셋트의 신뢰도 레벨에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 42 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자들의 임시 셋트에서의 포지션에서의 상기 문자의 발생 횟수에 기초하여 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 43 항에 있어서,
상기 문자들의 셋트에서의 문자는 상기 문자의 상기 발생 횟수가 임계 값을 초과할 때 추론되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 41 항에 있어서,
상기 생성하기 위한 수단은, 상기 텍스트 블록에서의 상기 문자들의 셋트에 관련된 포맷 정보를 수신하고, 상기 포맷 정보에 기초하여 상기 문자들의 임시 셋트를 생성하도록 더 구성되고, 상기 포맷 정보는 상기 문자 포맷을 포함하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 40 항에 있어서,
상기 객체의 상기 복수의 이미지들의 각각에서 상기 객체의 경계를 검출하기 위한 수단; 및
상기 객체의 사이즈 정보에 기초하여 상기 복수의 이미지들의 각각에서 검출된 상기 경계를 확인하기 위한 수단을 더 포함하고,
상기 식별하기 위한 수단은, 상기 텍스트 블록의 위치 정보에 기초하여 상기 객체의 상기 복수의 이미지들의 각각에서 상기 텍스트 블록을 식별하며, 상기 위치 정보는 상기 객체의 구성에 대응하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 46 항에 있어서,
상기 캡처하기 위한 수단은, 상기 경계가 상기 사이즈 정보에 매칭하지 않을 때 상기 객체의 새로운 이미지를 수신하는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.
제 40 항에 있어서,
상기 구성은 상기 하나 이상의 패턴들에 기초하여 식별된 상기 객체의 유형에 대응하고, 상기 하나 이상의 패턴들은 미리결정되고 상기 객체의 유형에 관하여 구별되는, 객체에서 문자들의 셋트를 갖는 텍스트 블록을 인식하기 위한 장치.