KR20010110416A

KR20010110416A - 비디오 스트림 분류가능 심볼 고립 방법 및 시스템

Info

Publication number: KR20010110416A
Application number: KR1020017008973A
Authority: KR
Inventors: 라리타 아그니호트리; 네벤카 디미트로바; 잔 에이취. 엘렌바아스
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-11-17
Filing date: 2000-10-27
Publication date: 2001-12-13
Also published as: CN1276384C; US6614930B1; CN1343339A; EP1147485A1; JP2003515230A; WO2001037212A1

Abstract

심볼들을 분류하기 위한 영상 처리 장치 및 방법은 심볼 영역들을 고립시키기 위한 연결 성분 기법에 의존한다. 상기 장치 및 방법은 에지 검출 필터의 응용에 의해 유도된 영상으로부터 연결 성분을 형성한다. 이러한 필터링된 영상으로부터의 연결 성분들의 형성은 특성 모양들의 에지들을 정의한다. 그 결과, 각각의 연결 성분을 정의하기 위해 연결되어야 하는 픽셀들의 수는 실질적으로 감소되고, 그럼으로써 처리 속도가 증가된다. 상기 방법의 응용은 주로 비디오 스트림에서의 텍스트에 관해 논의된다.

Description

비디오 스트림 분류가능 심볼 고립 방법 및 시스템{Video stream classifiable symbol isolation method and system}

본 발명은 디지털화된 영상에서 패턴(pattern)을 인식하는 시스템들에 관한 것이며, 더 특히 비디오 데이터 스트림들(stream)에서 텍스트 문자와 같은 심볼들을 고립시키는 시스템에 관한 것이다.

실시간(real-time) 방송, 아날로그 테이프, 및 디지털 비디오는 교육용, 오락용, 및 멀티미디어의 응용들의 호스트용으로서 중요하다. 수백만 시간동안 어루어지는 비디오 수집의 크기에 있어서, 이 내용이 보다 효과적으로 사용되고 액세스되도록 비디오 데이터를 번역하기 위해 기술이 필요하게 된다. 이와 같이 증진된 사용법은 다양하게 제안되었다. 예를 들어, 텍스트 및 사운드 인식의 사용은 최초 비디오의 개요(synopsis)의 생성(creation) 및 비디오 내용을 인덱싱하기 위한 키(key)들의 자동적 발생을 유도할 수 있다. 또 다른 응용 범위는 방송(또는 멀티캐스트(multicast) 등) 비디오 데이터 스트림에서 텍스트 및/또는 다른 심볼들의 신속한 실시간 분류에 의존한다. 예를 들어, 텍스트 인식은 예를 들어, 비디오 콘텐트 인덱싱의 임의의 적절한 목적을 위해 사용될 수 있다.

여러가지 텍스트 인식 기술들이 디지털화된 패턴들을 인식하는데 사용되어 왔다. 가장 일반적인 예는 문서의 광학 문자 인식(OCR; optical character recognition, OCR)이다. 이러한 모든 기술에 대한 일반적인 모델은 입력 벡터가 영상으로부터 유도되는 것이고, 그 입력 벡터는 원 패턴(raw pattern)을 특징으로 한다. 벡터는 영상을 "인식하기(recognize)" 위해 고정된 수나 범위의 심볼 클래스 (symbol class)들 중 하나로 맵핑(mapping)된다. 예를 들어, 비트맵(bitmap) 영상의 픽셀(pixel) 값들이 입력 벡터로 역할을 할 수 있고, 대응하는 분류 세트는 알파벳, 예를 들어 영어 알파벳이 될 수 있다. 패턴 인식에 대한 어떠한 특정한 기술도 보편적인 우위를 달성하지는 못하였다. 각각의 인식 문제점은 자체적인 세트의 응용 어려움들을 갖는다: 분류 세트의 크기, 입력 벡터의 크기, 요구되는 속도 및정확성, 및 다른 문제점들. 또한, 신뢰성은 거의 모든 응용 영역에서 개선을 요구하는 영역이다.

상기 결함의 결과로, 패턴 인식은 계속적인 활동 연구 분야이고, 다양한 응용들은 사용성 및 실용성과 같이 그들 각각의 인지되는 메리트(merit)들에 기초하여 관심도의 정도가 변화하고 있다. 이러한 기술들 중 가장 성숙된 것은 텍스트 문자들에 대한 패턴 인식 또는 광학 문자 인식(OCR)의 응용이다. 이 기술은 인쇄된 주체물(printed subject matter)을 컴퓨터-판독가능 문자(computer-readable character)들로 변환하는 실용성(practicality) 및 바람직함성(desirability) 때문에 개발되었다. 실용성의 견지에서, 인쇄된 문서들은 비교적 명백하고 일관된 데이터 소스를 제공한다. 이러한 문서들은 일반적으로 균일한 배경에 대해 고-대비(high-contrast) 패턴들 세트를 특징으로 하고, 높은 분해능(resolution)으로 저장 가능하다. 예를 들어, 인쇄된 문서들은 인쇄된 문자들의 이진 영상(binary image)을 형성하도록 임의의 분해능으로 주사될 수 있다. 또한, 문서를 컴퓨터-근거(computer-based)의 텍스트로의 문서들의 변환하는 것이 키보드 작업의 수고를 방지하고, 데이터 저장의 경제성을 실현하고, 문서들이 검색되도록 허용한다는 점 등에서 패턴 인식의 이러한 응용에 대한 필요성은 명백하다.

일부 응용 영역들은 심볼 또는 문자 분류를 실행하는데 있어서의 수행 어려움 때문에 인색한 관심을 받아 왔다. 예를 들어, 비디오 스트림들에서의 패턴들의 인식은 적어도 다음의 요소들로 인하여 어려운 영역이다. 비디오 스트림의 문자들은 공간상으로 균일하지 않은(때로는 시간상으로 가변적인) 배경들에서 열악한 분해능으로, 또한 낮은 대조로 주어지는 경향이 있다. 그러므로, 비디오 스트림에서의 문자들을 인식하는 것은 어려워서 어떠한 신뢰할 만한 방법들도 공지되어 있지 않다. 부가하여, 일부 응용들에서는 앞서 말한 관련된 응용들에서 기재된 바와 같이, 적어도 고속 인식 속도(fast recognition speed)들이 매우 바람직하다.

비디오를 인덱싱(indexing)하고 분류하기 위한 시스템들 및 방법들은: M.Abdel-Mottaleb 등의 "CONIVAS: 내용 근거의 영상 및 비디오 액세스 시스템(Content-based Image and Video Access System)", Proceedings of ACM Multimedia, pp.427-428, Boston(1996)과, S-F.Chang 등의 "VideoQ: 시각적 단서들을 사용한 자동화 내용 근거의 비디오 검색 시스템(An Automated Content Based Video Search System Using Visual Cues)", Proceedings of ACM Multimedia, pp.313-324, Seattle(1994)와, M.Christel 등의 "인포미디어 디지털 비디오 라이브러리(Informedia Digital Video Library)", Comm. of the ACM, Vol.38, No.4, pp.57-58(1995)와, N.Dimitrova 등의 "소비자 장치들에서의 비디오 내용 관리(Video Content Management in Consumer Devices)", IEEE Transactions on Knowledge and Data Engineering(1998년 11월)과, U.Gargi 등의 "디지털 비디오 데이터베이스들에서 텍스트 이벤트들의 인덱싱(Indexing Text Events in Digital Video Databases)", International Conference on Pattern Recognition, Brisbane, pp.916-918(1998년 8월)과, M.K.Mandal 등의 "모멘트들과 웨이브릿들을 사용한 영상 인덱싱(Image Indexing Using Moments and Wavelets)", IEEE Transactions on Consumer Electronics, Vol.42, No.3(1996년 8월), 및 S.Pfeiffer 등의 "디지털 영화의 자동적인 요약(Abstracting Digital Moves Automatically)", Journal on Visual Communications and Image Representation, Vol.7, No.4, pp.345-353 (1996)을 포함하여, 다수의 간행물들에서 기술되어 있다.

국부적인 임계값(thresholding)을 사용하는 방법에 의한 문자들의 추출 및 인접한 영역들 사이에서 그레이-레벨(gray-level) 차들을 평가함으로써 문자들을 함유하는 영상 영역(image region)들의 검출은 Ohya 등의 "장면 영상들에서 문자들의 인식(Recognizing Characters in Scene Images)", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.16, pp.214-224(1994년 2월)에 기재되어 있다. Ohya 등은 문자 패턴 후보(character pattern candidate)들을 생성하기 위해 가까운 근접성(proximity) 및 유사한 그레이 레벨을 갖는 검출 영역의 병합을 더 개시하고 있다.

텍스트를 검출하기 위해 서로 가까운 근접성의 수평 및 수직 에지(edge)를 갖는 영역을 병합하는데 비디오 텍스트의 공간상 배경(spatial context) 및 고대비 특성들을 사용하는 것은 "비디오 분할에 대한 텍스트, 음성, 및 비젼: 인포미디어 프로젝트(Text, Speech, and Vision for Video Segmentation: The Informedia Project)"이 A.Hauptmann 등에 의해 AAAI Fall 1995 Symposium on Computational Models for Integrating Language and Vision(1995)에 기재되어 있다. R.Lienhart 및 F.Suber는 "비디오 인덱싱을 위한 자동 텍스트 인식(Automatic Text Recognition for Video Indexing)", SPIE Conference on Image and Video Processing(1996년 1월)의 비디오 영상에서 칼라들의 수를 감소시키기 위한 비선형칼라 시스템(non-linear color system)을 논의한다. 참조는 유사한 칼라를 갖는 동질 분할(homogeneous segments)을 제공하는 분할-및-병합(split-and-merge) 처리를 기술한다. Lienhart 및 Suber는 전경 문자들(foreground characters), 흑백 또는 고정 문자들(monochrome rigid characters), 크기가 제한된 문자들(size-restricted characters), 및 주위 영역과 비교하여 고대비(high contrast)를 갖는 문자들을 포함하는 동질 영역들에서 문자들을 검출하기 위해 다양한 발견적 (heuristic) 방법들을 사용한다.

텍스트의 위치를 정하고 영상들을 다수의 실제 전경 및 배경 영상들로 분할하기 위한 다중값 영상 분해(multi-valued image decomposition)의 사용은 A.K.Jain 및 B.Yu의 "영상 및 비디오 프레임들에서 자동적인 텍스트 위치 지정(Automatic Text Location in Images and Video Frames)", Proceedings of IEEE Pattern Recognition, pp.2055-2076, Vol.31(1998년 11월 12일)에 기재되어 있다. J-C.Shim 등은 "내용-근거의 주석 및 회복을 위한 비디오로부터의 자동 텍스트 추출(Automatic Text Extraction from Video for Content-Based Annotation and Retrieval)", Proceedings of the International Conference on Pattern Recognition, pp.618-620(1998)에서 동질 영역들을 찾고, 텍스트를 분할 및 추출하기 위해 일반화된 영역-라벨링(labeling) 알고리즘을 사용하는 것을 기술한다. 확인된 전경 영상들은 칼라 및 텍스트 위치를 결정하기 위해 클러스터(cluster)된다.

영상 분할을 위한 다른 유용한 알고리즘들은 K.V.Mardia 등에 의한 "영상 분할을 위한 공간적 임계값 방법(A Spatial Thresholding Method for ImageSegmentation)", IEEE Transactions on Pattern Analysis and Machime Intelligence, Vol.10, pp.919-927(1988) 및 A.Perez 등에 의한 "영상 분할을 위한 반복적인 임계값 방법(An Iterative Thresholding Mehtod for Image Segmentation)", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.9, pp.742-751(1987)에 기재되어 있다.

디지털화된 비트맵에서 텍스트의 위치를 정하기 위해 다양한 기술들이 공지되어 있다. 또한, 흑백(black-on-white)으로 특징지워질 수 있는 영상을 형성하도록 문자 데이터를 이진화(binarizing)하고 비트맵 영상들에 문자 인식을 수행하기 위한 기술들이 공지되어 있다. 비디오 스트림들에서의 텍스트 및 다른 패턴들은 분류하기 쉬운 예측가능한 것, 큰 것, 및 명백한 것으로부터, 심지어 원칙적으로도 보조 문맥 데이터로부터의 도움 없이는 분류하기에 불충분한 정보를 포함하는 가공되지 않은 것(crude), 순간적인 것(fleeting), 예측불가능한 방향 및 위치(unpredictably-oriented and -positioned)를 갖는 것까지의 범위를 갖는다. 또한, 인식 속도 뿐만 아니라 정확도를 증가시키기 위해 연구가 진행중(on-going)이다. 그러므로, 특히 비디오 스트림 데이터와 같은 응용이 현재 기술을 긴장시키는 기술 분야의 현재 상태에서는 개선의 여지가 있다.

발명의 요약

간략하게, 심볼들을 분류하기 위한 영상 처리 장치 및 방법은 심볼 영역들을 고립시키기 위한 연결-성분(connected-component) 기술에 의존한다. 그 장치 및 방법은 에지(edge) 검출 필터의 응용에 의해 유도되는 영상으로부터 연결 성분들을형성한다. 이 필터 처리된 영상으로부터의 연결 성분들의 형성은 문자 형상들의 에지들을 정의한다. 연결 성분들은 면적, 높이, 폭, 종횡비(aspect ratio) 등과 같은 임계값 기준에 기초하여 필터링된다. 그 결과로, 각 연결 성분을 정의하기 위해 연결되어야 하는 픽셀(pixel)들의 수는 실질적으로 감소되어, 그에 의해 처리 속도가 증가된다. 그 방법의 응용은 우선 비디오 스트림(video stream)에서의 텍스트 (text)에 관해 논의된다.

비디오 스트림들의 텍스트에 대한 문자 분류기(character classifier)는 크기(size), 이전(translation), 회전 불변 형상에 의존하는(rotation invariant shape-dependent) 특성들로부터 특성 공간(feature space)이 유도되는 백 전파 신경 네트워크(BPNN; back propagation neural network)를 사용한다. 이러한 특성 공간들은 상기의 기술을 사용하여 문자 영역들의 정확한 고립에 의해 예측가능하게 된다. 이러한 특성 공간들의 예들은 규칙적이고 불변의 모멘트(moment)들 및 얇고 임계 문자의 Delaunay 삼각법으로부터 유도된 각도 히스토그램(angle histogram)을 포함한다. 이러한 특성 공간들은 비디오 스트림들에서 문자들의 열악한 분해능 (resolution) 때문에 분류기로서 BPNN에 양호한 정합을 제공한다.

비디오 스트림들에 나타나는 텍스트를 검출하고 분류하기 위한 기능은 많이 사용된다. 예를 들면, 비디오 시퀀스들 및 그 부분들은 이러한 텍스트로부터 유도된 분류들에 따라 특징지워지고 인덱싱(index)될 수 있다. 이것은 인덱싱, 증진된 검색 기능들, 주석 특성(annotation feature)들 등이 유도될 수 있다. 부가하여, 비디오 스트림에서의 텍스트 인식은 방송 비디오 스트림에서 웹 어드레스의 출현에응답하여 발생되는 웹 사이트(web site)로의 발동가능한 링크(invokable link)와 같이 문맥에 민감한 특성(context-sensivity feature)들의 제공을 허용할 수 있다.

비디오의 텍스트는 잘 개발되었지만, 아직 완성 단계에 있는 기술인 문서 OCR의 텍스트와는 매우 다른 문제점을 제시한다. 문서들의 텍스트는 단일 칼라이고 그 질이 높은 경향이 있다. 비디오에서는 낮은 스케일(scaled-down)의 장면 영상들이 잡음 및 제어되지 않는 조도(illumination)를 포함할 수 있다. 칼라, 크기, 폰트(font), 방향성, 두께, 배경들이 변화될 수 있는 비디오에 나타나는 문자들은, 복잡하고 순간적으로 변화될 수 있다. 또한, 비디오 심볼 인식에 대한 많은 응용들은 고속(high speed)을 요구한다.

비디오 텍스트를 분류하기 위해 본 발명에 의해 사용되는 기술은 심볼 고립의 정확한 고속 기술이다. 이 때, 심볼 비트맵(symbol bitmap)은 형상에 의존하는 특성 벡터를 생성하는데 사용되고, 이는 BPNN에 인가된다. 특성 벡터는 상술된 다양성 문제점들에 비교적 민감하지 않으면서 전체적인 영상 형상에 더 큰 비중을 둔다. 문자 영역들을 고립시키는 기술에서, 연결 성분 구조들은 검출된 에지들에 기초하여 정의된다. 에지 검출은 한 심볼에 의해 차지되는 전체 필드를 이진화하는 것보다 전체적으로 훨씬 더 적은 픽셀들을 산출하기 때문에, 연결 성분들을 생성하는 처리가 훨씬 더 신속해질 수 있다. 특성 공간의 선택은 또한 인식 속도를 증진시킨다. 시뮬레이트(simulate)된 BPNN들에서, 입력 벡터의 크기는 처리량 (throughput)에 심각한 영향을 줄 수 있다. 선택된 특성 공간으로부터 사용되는 성분들에 대해 선택적이라는 것이 매우 중요하다. 물론, 모멘트 및 선-분할(line-segment) 특성들과 같이 다른 특성들의 혼합물(mix)들을 조합함으로서 이질적인(heterogeneous) 특성 공간들이 형성될 수 있다. 또한, 선택된 특성이 계산 단계를 공유하여, 계산적으로도 경제적일 수 있다.

본 발명이 보다 완벽히 이해될 수 있도록 다음의 도면들을 참조하여 임의의 바람직한 실시예들과 연관되어 기재될 것이다. 도면들을 참조하여, 도시된 특정한 부분은 예의 방법으로 그리고 단지 본 발명의 바람직한 실시예를 논의할 목적으로 주어진 것이고, 본 발명의 원리들 개념적인 특성들의 가장 유용하고 쉽게 이해되는 것이라고 여겨지는 것을 제공하기 위하여 주어진 것임을 강조한다. 이에 대해, 본 발명의 기본적인 이해에 필요한 것보다 더 상세히 본 발명의 구조적인 상세 부분을 도시하기 위한 더 이상의 시도는 없으며, 도면들과 함께 취해진 설명은 본 기술 분야에 숙련된 자에게 여러 형태의 본 발명이 실질적으로 구현될 수 있음을 명백하게 해준다.

본 발명은 1999년 8월 9일자로 출원된 일련 번호 No.09/370,931의 발명의 명칭이 "SYSTEM AND ANALYZING VIDEO CONTENT USING DETECTED TEXT IN VIDEO FRAMES"인 미국 특허 출원에 공개되어 있는 것에 관련하고, 본 발명의 양수인에게 지정되어 있으며, 이로써 전체적으로 참조되어 여기서 완전히 공개된다. 본 발명은 또한 1999년 1월 28일 제출된 미국 임시 특허 출원 번호 No.60/117,658 호에 공개되어 있는 것에 관련하며, 보통 본 발명의 양수인에게 지정되어 있다. 이러한 관련 임시 특허 출원의 공개는 또한 본건과 동시에 제출된 발명의 명칭이 "SYMBOL CLASSIFICATION WITH SHAPE FEATURES APPLIED TO NEUTRAL NETWORK"인 출원에 공개된 것에 관련하고, 보통 본 발명의 양수인에게 지정되어 있다. 이러한 관련 임시 특허 출원의 공개는 참조에 의해 모든 목적들에 대해 통합되어 여기서 완전히 공개된다.

도 1은 본 발명을 실시하는데 사용될 수 있는 기계류를 설명하는 도면.

도 2는 본 발명의 실시예에 따른 문자 분류 방법을 도시하는 흐름도.

도 3a 및 도 3b는 본 발명의 실시예에 따라 분류가능한 정보를 포함하는 비디오 화면에서 텍스트(text) 영역을 설명하는 도면.

도 4a는 비디오 프레임의 캡쳐된 디지털 영상으로부터 텍스트 분할의 외형을 도시하는 도면.

도 4b는 에지 검출 필터링 이후의 텍스트 분할을 도시하는 도면.

도 4c는 실질적으로 중간 결과를 도시하지 않을 수 있지만, 본 발명과 연관된 개념을 설명할 목적으로 도시됨을 주목하면서, 에지 검출 이전에 또는 그안에서 수개의 필터링 스테이지의 효과를 도시하는 도면.

도 5a 및 도 5b는 본 발명의 실시예에 따른 에지 필터링의 효과를 설명하는 도면.

도 5c는 본 발명에서 사용될 수 있는 갭(gap)을 이어주는 알고리즘의 예를 설명하는 도면.

도 6a 내지 도 6d는 본 발명의 실시예에 따른 텍스트 라인 분할에 대한 기술을 설명하는 도면.

도 7a 및 도 7b는 본 발명의 실시예에서 필터링 처리에 따라 연결 성분 (connected component)의 생성 및 관리에 대한 기술을 설명하는 흐름도.

도 8은 본 발명의 실시예에 따른 문자 분류 방법을 설명하는 흐름도.

도 9a 내지 도 9d는 특성 벡터 프리커서(feature vector precursor)를 유도하는 분할 문자의 필터링을 설명하는 도면.

도 10a 및 도 10b는 본 발명의 실시예에 따른 문자 분류 과정에서 영상 필터링 단계의 Delaunay 삼각법 및 Voronoy 도 스테이지를 설명하는 도면.

도 11a 및 도 11b는 본 발명의 실시예에 따른 각도 히스토그램형(angle histogram type) 특성 공간을 설명하는 도면.

도 1을 참고하면, 영상 텍스트(text) 분석 시스템(100)은 비디오 입력을 수신하여 그에 포함된 문자 정보를 발생 및 저장하는데 비디오 처리 장치(110), 비디오 소스(180), 및 모니터(185)를 사용한다. 비디오 처리 장치(110)는 비디오 영상을 수신하고, 프레임(frame)을 해부하고, 텍스트 면적과 문자 부분을 고립시키고, 또한 추후 상세히 논의될 과정에 따라 텍스트 및/또는 문자 영역을 분류한다. 비디오는 비디오 소스(180)로부터 공급된다. 비디오 소스(180)는 아날로그-디지털 변환기(ADC)를 갖춘 VCR, 디지털화된 비디오를 갖춘 디스크, ADC를 갖춘 케이블 박스, DVD 또는 CD-ROM 드라이브, 디지털 비디오 홈 시스템(DVHS), 디지털 비디오 레코더(DVR), 하드 디스크 드라이브(HDD) 등을 포함하여 임의의 비디오 데이터 소스가 될 수 있다. 비디오 소스(180)는 더 긴 길이의 디지털화된 비디오 영상을 포함하여 수개의 짧은 클립(clip) 또는 다수의 클립을 제공할 수 있다. 비디오 소스(180)는 MPEG-2, MJPEG와 같은 아날로그 또는 디지털 포맷으로 비디오 데이터를 제공할 수 있다.

비디오 처리 장치(110)는 영상 프로세서(120), RAM(130), 저장기(140), 사용자 I/O 카드(150), 비디오 카드(160), I/O 버퍼(170), 및 프로세서 버스(175)를 포함할 수 있다. 프로세서 버스(175)는 비디오 처리 장치(110)의 다양한 소자 사이에서 데이터를 전달한다. RAM(130)은 또한 영상 텍스트 작업 공간(132) 및 텍스트 분석 제어기(134)를 구비한다. 영상 프로세서(120)는 비디오 처리 장치(110)에 대한 전체적인 제어를 제공하고, 시스템-선택 및 사용자-선택 속성을 근거로 비디오 프레임에서 텍스트를 분석하는 것을 포함하여, 영상 텍스트 분석 시스템(100)에 요구되는 영상 처리를 실행한다. 이는 또한 편집 처리의 실시, 모니터(185) 상의 디스플레이 및/또는 저장기(140) 내의 저장을 위한 디지털화 비디오 영상의 처리 및 다양한 영상 텍스트 분석 시스템(100) 소자 사이의 데이터 전달을 포함한다. 영상 프로세서(120)에 대한 요구 및 기능은 종래 기술에서 이미 공지되어 있으므로, 본 발명에서 요구되는 것 이외에 더 상세히 설명될 필요가 없다.

RAM(130)은 비디오 처리 장치(110)에 의해 주어지고, 그렇지 않으면 시스템 내에서 성분에 의해 제공되지 않는, 데이터의 임시 저장을 위한 랜덤 액세스 메모리를 제공한다. RAM(130)은 영상 텍스트 작업 공간(132) 및 텍스트 분석 제어기(134)에 대한 메모리 뿐만 아니라, 영상 프로세서(120) 및 연관된 장치에 의해 요구되는 다른 메모리를 포함한다. 영상 텍스트 작업 공간(132)은 특정한 비디오 클립과 연관된 비디오 영상이 텍스트 분석 처리 동안 임시 저장되는 RAM(130)의 일부를 나타낸다. 영상 텍스트 작업 공간(132)은 원래 데이터에 영향을 주지 않고 프레임의 복사가 수정되도록 허용하므로, 원래 데이터가 추후 회복될 수 있다.

본 발명의 한 실시예에서, 텍스트 분석 제어기(134)는 시스템 또는 사용자 정의 텍스트 속성을 근거로 비디오 영상의 분석을 실행하는 영상 프로세서(120)에 의해 실시되는 응용 프로그램의 저장을 위한 RAM(130) 부분을 나타낸다. 텍스트 분석 제어기(134)는 장면 사이의 형태나 경계 검출과 같이 이미 공지된 편집 기술 뿐만 아니라 본 발명과 연관된 비디오 텍스트 인식에 대한 새로운 기술을 실시할 수 있다. 텍스트 분석 제어기(134)는 또한 비디오 소스(180)나 저장기(140)에서 제거가능한 디스크 부분에 로드될 수 있는 CD-ROM, 컴퓨터 디스켓, 또는 다른 저장 매체 상의 프로그램을 구현될 수 있다.

저장기(140)는 요구되는 비디오 및 오디오 데이터를 포함하여 프로그램 및 다른 데이터의 영구 저장을 위해 제거가능한 디스크(자기 또는 광학)를 포함하는 하나 이상의 디스크 시스템을 구비한다. 시스템 요구 조건에 의존하여, 저장기(140)는 비디오 소스(180) 뿐만 아니라 나머지 시스템과 비디오 및 오디오 데이터를 전달하도록 하나 이상의 양방향 버스와 인터페이스되도록 구성된다. 저장기(140)는 요구되는 바에 따라 비디오 비율로 데이터를 전달할 수 있다. 저장기(140)는 텍스트 속성 분석을 포함하여 편집을 목적으로 수 분의 비디오에 충분한 저장을 제공하도록 크기가 정해진다. 영상 프로세서(120)의 특정한 응용 및 기능에 의존하여, 저장기(140)는 많은 수의 비디오 클립을 저장할 수 있는 기능을 제공하도록 구성될 수 있다.

사용자 I/O 카드(150)는 다양한 사용자 장치(도시되지 않음)를 나머지 영상 텍스트 분석 시스템(100)에 인터페이스할 수 있다. 사용자 I/O 카드(150)는 영상 프로세서(120)에 의한 다음의 액세스를 위해 영상 프로세서(120) 또는 RAM(130)으로 전달하도록 사용자 장치로부터 수신된 데이터를 인터페이스 버스(175)의 포맷으로 변환한다. 사용자 I/O 카드(150)는 또한 프린터(도시되지 않음)와 같은 사용자 출력 장치에 데이터를 전달한다. 비디오 카드(160)는 데이터 버스(175)를 통해 모니터(185)와 나머지 비디오 처리 장치(110) 사이에 인터페이스를 제공한다.

I/O 버퍼(170)는 버스(175)를 통해 비디오 소스(180)와 나머지 영상 텍스트 분석 시스템(100) 사이에 인터페이스한다. 앞서 기술된 바와 같이, 비디오 소스(180)는 I/O 버퍼(170)와 인터페이스 연결되도록 적어도 하나의 양방향 버스를갖는다. I/O 버퍼(170)는 요구되는 비디오 영상 전달 비율로 비디오 소스(180)에서 데이터를 전달한다. 비디오 처리 장치(110) 내에서, I/O 버퍼(170)는 비디오 소스(180)로부터 수신된 데이터를 요구에 따라 저장기(140), 영상 프로세서(120), 또는 RAM(130)에 전달한다. 영상 프로세서(120)에 비디오 데이터를 동시 전달하는 것은 수신될 때 비디오 영상을 디스플레이하는 수단을 제공한다.

이제는 도 2, 도 3a, 및 도 3b를 참고하면, 텍스트 추출 및 인식 동작(도 2에 개요가 설명된 바와 같이)(100)이 비디오 처리 장치(110) 또는 다른 적절한 장치에 의해 도 3a 및 도 3b에 도시된 바와 같이 텍스트를 구하는 비디오 순차에 실행될 수 있다. 각 프레임(305)에는 도 2에 개요가 설명된 처리가 행해져, 310, 315, 360, 365, 370, 375와 같이 각 텍스트 영역을 고립시킨다. 그 과정은 배경의 복잡성을 감소시키고 텍스트의 명확성을 증가시키도록 집적된 다수의 프레임의 전체에 적용될 수 있음을 주목한다. 즉, 다수의 이어지는 프레임이 똑같은 텍스트 영역을 포함하는 경우(이는 텍스트 영역이 유사한 스펙트럼 밀도 함수와 같이 똑같은 신호 특성을 상당히 포함하는 경우 확인될 수 있다), 다수의 이어지는 프레임은 집적될 수 있다(예를 들면, 평균화). 이는 텍스트 영역을 더 명확하게 만들어, 텍스트가 배경에 대해 더 잘 보이게 하는 경향이 있다. 배경이 이동 영상인 경우, 배경의 복잡성은 필수적으로 이 과정에 의해 감소된다. 이러한 신호-평균화의 일부 이점은 또한 현대의 텔레비젼에서와 같이 이동 화상 향상을 위해 시간 집적이 행해지는 경우 소스로부터 얻어질 수 있음을 주목한다. 그래서, 다음의 논의에서, "단일" 프레임의 동작 표시는 결코 단일 "프레임 그랩(frame grab)"에 제한되지 않고, 영상 분석이 행해지는 "프레임"은 하나 이상의 연속적인 비디오 프레임의 복합체가 될 수 있다.

먼저, 영상 프로세서(120)는 하나 이상의 비디오 영상 프레임의 칼라를 분리하고, 텍스트 추출에 사용하도록 감소된 칼라 영상을 저장한다. 본 발명의 한 실시예에서, 영상 프로세서(120)는 픽셀의 적색 성분을 고립시키도록 적색-녹색-청색 (RGB) 칼라 공간 모델을 사용한다. 프레임의 텍스트 부분이 보여지는 방법의 예는 도 4a에 도시된다. 적색 성분은 때로 비디오 텍스트에서 지배적으로 사용되는 백색, 노란색, 및 흑색을 검출하는데 가장 유용하다. 즉, 겹쳐진(이중 인화된) 텍스트에 대해, 고립된 적색 프레임은 공통된 텍스트 칼라에 대해 예리하고 높은 대조의 에지를 제공한다. 기존의 방법은 또한 비디오에 겹쳐지지 않지만, 실제로 계시판이나 거리 사인에 있는 필름 순차와 같이 그 일부가 되는 텍스트를 추출하는데 사용될 수 있다. 이러한 경우에는 적색 프레임이 사용하기에 최적이 아닐 수 있다. 이러한 경우, 그레이 스케일(gray scale)(알파 채널)이 최상의 시작점을 제공할 수 있다. 본 발명의 다른 실시예에서, 영상 프로세서(120)는 그레이 스케일 영상이나 YIQ 비디오 프레임의 Y성분과 같이 다양한 칼라 공간 모델을 사용할 수 있음을 주목한다.

고립된 프레임 영상은 영상 텍스트 작업 공간(132)에 저장된다. 이어서, 단계(S210)에서는 처리를 더 실행하기 이전에, 캡쳐된 영상이 예리해질 수 있다. 예를 들면, 다음의 3×3 마스크(mask)가 사용될 수 있다:

-1 -1 -1

-1 8 -1

-1 -1 -1

여기서, 각 픽셀은 그 자신을 8배한 것에 각 인접값의 음수를 더한 것이다. 비트맵 필터(bitmap filter)(또는 "마스크")에 대한 상기 매트릭스 표현은 종래 기술에서 일반적인 표시이다. 종래 기술에서 공지된 이러한 미분 필터는 많이 있고, 본 발명은 텍스트 영역을 고립시키기 위해 다양한 다른 기술 중 임의의 것을 사용할 것을 고려한다. 상기는 단순히 매우 간단한 한 예이다. 필터링 단계는 다수의 통과 과정을 포함할 수 있다. 예를 들면, 1차원에 따른 그레디언트(gradient) 검출, 이어서 다른 차원에 따른 그레디언트 검출(동시에 각 직교 방향을 평활화하면서), 이어서 두 필터링 결과를 합산한다. 단계(S210)에서, 랜덤 잡음은 예를 들어 R.C.Gonzales 및 R.E.Woods의 "디지털 영상 처리(Digital Image Processing)", Addison-Wesley 출판사(1992)에서 설명된 바와 같이, 예를 들어 메디안 필터(median filter)를 사용하여 감소될 수 있다.

에지 검출은 또 다른 에지 필터를 사용할 수 있다. 이 필터를 통해, 예리해진(적색, 그레이-스케일 등) 영상의 에지는 예를 들어 다음의 에지 마스크를 사용하여 증폭된 것(amplified), 비에지화(non-edges), 감쇠된 것(attenuated)이 될 수 있다 (바람직하게 그렇게 된다).

-1 -1 -1

-1 12 -1

-1 -1 -1

여기서, 각 픽셀은 다시 자체에 인가된 각 계수(가중치)에 인접한 픽셀을 더한 것이다. 도 4c에서는 이전 필터링 단계의 결과가 설명된다. 원래의 영상(163)은 에지-필터 처리되어 미분 영상(164)을 제공하고, 이어서 에지 향상되어 다음의 필터링이 행해진 최종 영상(165)을 제공하게 된다.

단계(S215)에서는 임계값 에지 필터, 또는 "에지 검출기"가 적용된다. Edge_m,n이 M×N 에지 영상의 m,n 픽셀을 나타내고, F_m,n이 단계(S210)로부터 주어진 향상된 영상이면, 다음의 식은 에지 검출에 사용될 수 있다:

식 1

여기서, 0 < m < M, 0 < n < N이고, L_edge는 상수이거나 상수가 아닌 임계값이다. 값 w_i,j는 에지 마스크로부터의 가중치이다. 가장 외부의 픽셀은 에지 검출 처리에서 무시될 수 있다. 다시, 예리함 필터는 또한 본 임계값 동작에서도 분명히 적용될 수 있음을 주목한다.

에지 임계값 L_edge은 미리 결정된 임계값으로, 고정된 값이거나 가변값이다. 고정된 임계값의 사용은 과도한 잡음을 제공하게 되어 텍스트 주위에서 고정된 에지에 불연속성을 일으킨다. 서두(opening)의 공지된 방법(예를 들어, 팽창으로 이어지는 부식)은 텍스트 일부를 손실시킨다. 가변 임계값을 갖는 적응성 임계값 에지 필터는 이러한 경향을 개선하여, 정적 임계값의 사용보다 많이 개선시킨다.

단계(S220)에서, 에지 검출 임계값을 조정하는 한가지 모드로, 먼저 고정된 임계값이 에지 검출기를 사용하여 적용된 이후에, 고정된 임계값 단계에서 확인된 각 픽셀 주변에 있는 임의의 픽셀에 대한 국부 임계값이 낮추어져 필터가 재적용된다. 또 다른 모드로는 후자의 효과가 임계값 단계의 결과에 평활화 함수(결과가 둘 보다 더 큰 픽셀 깊이로 저장된다고 가정하여) 및 임계값을 더 적용함으로서 쉽게 이루어질 수 있다. 이는 에지가 아닌 것으로 마크된 픽셀이 에지로 마크되게 한다. 픽셀에 대해 임계값을 낮추는 정도는 바람직하게 에지로 마크된 부근의 픽셀의 수에 의존한다. 이에 대한 근본적 원리는 부근 픽셀이 에지일 때 현재 픽셀이 에지일 가능성이 더 높다는 점이다. 국부적인 임계값을 낮추는 것으로부터 기인된 에지 픽셀은 인접한 픽셀에 대해 감소된 임계값을 계산하는데 사용되지 않는다.

다른 방법으로, 고정된 임계값은 강한 에지 픽셀(높은 그레디언트를 갖는 픽셀)로 둘러싸인 단일 또는 적은 수의 비에지 픽셀이 에지 픽셀로 마크되는 것을 보장하도록 저역 통과 가중치 함수와 사용될 수 있다. 사실상, 상술된 모든 단계(S210-S220)는 식 1의 형태로 단일 수적 동작에 의해, 그렇지만 더 넓은 합산 범위로 설명될 수 있다. 각 단계로의 분할은 필수적이거나 제한되는 것으로 생각되지 말아야 하고, 특정한 계산 장비와 소프트웨어 뿐만 아니라 다른 내용에 의존할 수 있다.

일단 문자 에지가 검출되면, 영상 프로세서(120)는 텍스트를 포함하지 않거나 텍스트가 확실하게 검출될 수 없는 영상 영역을 제거하도록 예비적인 에지 필터링을 실행한다. 예를 들면, 매우 소수의 에지, 매우 낮은 에지 밀도(단위 면적 당에지 픽셀의 수), 또는 낮은 에지 픽셀 집합도(즉, 잡음과 같이, 넓은 범위의 구조를 형성하지 않는)를 갖는 프레임은 다음 처리에서 배제될 수 있다.

영상 프로세서(120)는 다른 레벨로 에지 필터링을 실행할 수 있다. 예를 들면, 에지 필터링은 프레임 레벨로 또는 서브-프레임 레벨로 실행될 수 있다. 프레임 레벨에서, 영상 프로세서(120)는 프레임 중 적절한 일부 이상이 에지로 구성된 것으로 나타나면 프레임을 무시할 수 있다. 다른 방법으로, 프레임이 너무 많은 에지를 가질 가능성이 있는가를 결정하는데 스펙트럼 분석과 같은 필터 함수가 적용될 수 있다. 이는 프레임에서 높은 밀도의 강한 에지 물체로부터 기인될 수 있다. 지나치게 복잡한 프레임은 높은 비율의 비문자 상세 내용을 포함하고, 이는 문자 분류를 통해 필터링하는데 불균형적으로 어려운 것으로 가정한다.

프레임-레벨 필터링이 사용될 때, 영상 프로세서(120)는 영상 프레임에서 에지 픽셀의 수를 결정하는 에지 카운터를 유지한다. 그러나, 이로 인하여, 잡음 부분 뿐만 아니라 무시가능한 텍스트를 갖는 부분의 프레임과 같이, 무시가능한 텍스트를 포함하는 프레임을 스킵하고 무시할 수 있게 한다. 이러한 영상 프레임 또는 서브 프레임의 배제를 방지하기 위해, 영상 프로세서(120)는 서브-프레임 레벨에서 에지 필터링을 실행한다. 이를 위해, 영상 프로세서(120)는 프레임을 더 작은 면적으로 나눌 수 있다. 이를 이루기 위해, 영상 프로세서(120)는 예를 들어, 프레임을 3개 그룹의 픽셀 칼럼(column) 및 3개 그룹의 픽셀 로우(row)로 나눌 수 있다.

다음에, 영상 프로세서(120)는 각 서브-프레임에서의 에지의 수를 결정하고, 그에 따라 연관된 카운터를 설정한다. 서브프레임이 소정의 수 이상의 에지를 가지면, 프로세서는 그 서브프레임을 포기한다. 면적 당 소정의 최대 에지 카운트는 영상 영역을 처리하는데 요구되는 시간량 또는 픽셀 밀도에 대한 크기가 원하는 최소값 이하로 인식 정확도를 포기하게 될 확률에 따라 설정될 수 있다. 더 많은 수의 서브-프레임은 해석불가능한 것으로 확인된 영역으로 둘러싸인 더 작은 영역의 명확한 텍스트 손실에 대한 것을 보장하는데 사용될 수 있다.

다음 단계(S225)에서, 영상 프로세서(120)는 이전 단계에서 검출된 에지에 연결 성분(CC; connected component) 분석을 실행한다. 이 분석은 특정한 허용공차 (tolerance)내에 인접한 모든 에지 픽셀을 그룹화한다. 즉, 인접하거나 또 다른 에지 픽셀에서 일정 거리내에 있는 모든 에지 픽셀은 그 픽셀과 함께 병합된다. 결국, 이 병합 처리는 각각이 인접하거나 가까이 인접한 세트의 에지 픽셀을 갖는 구조 또는 연결 성분을 정의한다. 그 동기는 각 텍스트 문자 영역이 단일 CC에 대응하는 것으로 가정되기 때문이다. 허용공차는 영상 캡쳐의 분해능, 업샘플링 (upsampling)(원래 영상으로부터 보간(interpolation)에 의해 부가된 픽셀의 비율)의 정도, 또는 다운샘플링(downsampling)(원래 영상으로부터 제거된 픽셀의 비율)의 정도에 의존하여 적절한 값으로 설정될 수 있다.

이제 도 4b를 참고하면, 인접한 문자에 대응하는 CC 사이의 부주위한 갭(gap) 또는 브레이크(break)는 고정된 임계값을 갖는 에지 검출의 결과로 나타날 수 있다. 예를 들면, 171, 172에 도시된 바와 같은 브레이크가 일어날 수 있다. 설명된 에지 검출 구조의 사용은 이와 같이 손상된 CC 부분의 병합을 보장하는데 도움이 된다. 도 5a 및 도 5b의 좌측 문자에서와 같은 브레이크에서 시작하여, CC 병합 방법은 브레이크(174, 175, 176)의 점들이 에지 점으로 확인되고, 181, 182에서 각각 단일 연결 성분 구조로 병합되게 한다. 연결 영역에서 "불리한" 브레이크를 이어주는 것은 상술된 특정한 방법에 부가하여 다양한 메카니즘에 의해 이루어질 수 있음을 주목한다. 예를 들면, 부식 또는 세선화(thining) 이후에 팽창이 적용될 수 있다. 에지 픽셀의 총면적을 증가시키는 효과를 방지하기 위해, 팽창은 연결 성분을 검출하기 이전에 세선화로 이어질 수 있다. 또한, 식 1의 적용으로 기인된 이진화 임계값 영상의 그레이 스케일 깊이는 증가될 수 있고, 이어서 평활화 기능이 적용되어 임계값 처리(식 1)가 다시 실행될 수 있다. 원하는 대로 이어지는 효과를 이루는데 사용될 수 있는 영상 처리 기술은 많이 있다. 또 다른 방법은 도 5c에 도시된 바와 같이 인접한 시리즈에서 에지 픽셀로 둘러싸일 때 픽셀을 에지로 마크하는 것이다. 즉, 도시된 24가지 경우 각각은 8개 픽셀이 인접된 픽셀이다. 이들 경우에서 각각, 인접한 것들은 인접 시리즈에서 5개 이상의 에지 픽셀을 갖는다. 물론, 인접 시리즈의 수는 변화되거나 특수한 경우 그룹에 부가될 수 있다. 부가하여, 매트릭스의 크기는 증가될 수 있다. 도 5c에 대해 정의된 바와 같은 알고리즘으로 에지로 마크되는 픽셀의 종류는 픽셀이 연속적인 브레이크의 일부가 될 가능성이 적은 것이다. 유사한 결과는 이어지는 처리에 의해(부식으로 이어지는 팽창), 또는 임계값 처리(식 1의 적용)에 대한 예비 처리나 마스크에서의 예리함을 덜 사용함으로서 얻어질 수 있다.

CC는 연속 시리즈를 형성하는 것으로 결정된 픽셀의 세트이고, 비에지 픽셀은 서로 나누어진다. 리스트는 구조의 위치 표시, 예를 들면 구조의 중심 좌표와함께 구조의 최좌측, 최우측, 최상단, 및 촤하단 픽셀의 좌표를 포함하는 각 CC로 구성된다. 또한, 연속 성분을 형성하는 픽셀의 수가 저장될 수 있다. 픽셀 카운트는 특정한 연결 성분 구조의 면적을 나타냄을 주목한다. 소정의 시스템 및/또는 사용자 임계값은 면적에 대한 최대 및 최소 제한치, 어느 연결 성분 구조가 다음 처리 스테이지로 전달되는가를 결정하는 연결 성분 구조의 높이와 폭을 정의하는데 사용될 수 있다. 최종 단계는 CC가 문자로 자격이 있는가를 결정하는 필터이다. 너무 작아서 자체적으로 CC 발견법을 만족시키지 못하는 CC를 어셈블링(assemble)하거나 너무 큰 것들을 분할하는데는 다른 발견법이 사용될 수 있다.

단계(S230)에서, 영상 프로세서(120)는 이전 단계에서 기준을 만족시킨 연결 성분을 하단 좌측 픽셀의 위치를 근거로 올림 순서로 분류한다. 영상 프로세서(120)는 픽셀 좌표를 근거로 분류한다. 연결 성분의 분류된 리스트는 어느 CC가 텍스트의 블록("박스들(boxes)")을 형성하는가를 결정하도록 전해진다.

영상 프로세서(120)는 제 1 CC를 초기 또는 현재 분석 박스인 제 1 박스에 지정한다. 영상 프로세서(120)는 최하단 픽셀이 제 1 CC의 대응하는 픽셀과 똑같은 수평선(또는 거의 하나)에 놓이는가를 보도록 이어지는 각 CC를 테스트한다. 즉, 수직 위치가 현재 CC와 가까우면, 이는 현재 텍스트 박스에 부가된다. 그런 경우, 이는 똑같은 텍스트선에 속하는 것으로 가정된다. 수직 좌표 차이 임계값은 고정되거나 가변적일 수 있다. 바람직하게, 제 2 CC의 수평 좌표에 대한 근접성은 CC의 높이의 함수이다. 현재 텍스트 박스에 새롭게 부가될 후보의 수평 거리는 또한 이것이 수용가능한 범위 내에 있는가를 보도록 테스트된다.

CC가 현재 텍스트 박스와 병합되는 기준을 만족시키지 못하면, 새로운 텍스트 박스가 발생되고, 실패된 CC는 제 1 소자로 마크된다. 이 처리는 영상에서 단일 텍스트선에 대해 다수의 텍스트 박스를 제공할 수 있다. 시리즈에서 다음 연결 성분이 실질적으로 다른 수직 좌표 또는 수평 좌표를 가져 최종 CC보다 더 낮을 때, 현재 텍스트 박스는 수평 이동의 종료시 폐쇄되고 새로운 것이 시작된다.

각 박스에 대해, 영상 프로세서(120)는 이어서 초기 문자 병합 처리에 의해 생성된 텍스트 박스 각각에 대해 제 2 레벨의 병합을 실행한다. 이는 분할된 텍스트선으로 잘못 해석되어, 분할된 박스에 배치되었던 텍스트 박스를 병합한다. 이는 엄격한 연결 성분 병합 기준으로 기인되거나 열악한 에지 검출로 기인한 것으므로, 똑같은 문자에 대해 다수의 CC를 제공하게 된다.

영상 프로세서(120)는 이어지는 조건 세트에 대해 각 박스를 텍스트 박스에 비교한다. 2개의 텍스트 박스에 대한 다수의 테스트 조건은 다음과 같다:

a) 한 박스의 바닥은 다른 것의 지정된 수직 공간 내에 있고, 그 공간은 기대되는 라인 공간에 대응한다. 또한, 두 박스 사이의 수평 공간은 제 1 박스에서 문자의 평균 폭을 근거로 하는 가변 임계값보다 더 작다.

b) 박스 중 임의의 것의 중심은 다른 텍스트 박스의 면적 내에 놓이고, 또는

c) 제 1 박스의 상단은 제 1 텍스트 박스의 하단과 오버랩되고, 한 박스의 좌측 또는 우측은 각각 다른 것의 좌측 또는 우측의 수개 픽셀 내에 있다.

상기 조건 중 임의의 것이 만족되면, 영상 프로세서(120)는 텍스트 박스의 리스트로부터 제 2 박스를 제거하고, 이를 제 1 박스에 병합시킨다. 영상프로세서(120)는 모든 텍스트 박스가 서로에 대해 테스트되어 가능한한 조합될 때까지 처리를 반복한다.

단계(S235)에서, 영상 프로세서(120)는 단계(235)로부터 구해진 텍스트 박스를 지정된 면적, 폭, 및 높이의 제한치에 일치하는 경우 텍스트 라인으로 수용한다. 각 텍스트 박스에 대해, 영상 프로세서(12)는 원래 영상으로부터 텍스트 박스에 대응하는 서브-영상(sub-image)을 추출한다. 영상 프로세서(120)는 이어서 문자 인식을 위해 서브영상(subimage)을 이진화한다. 즉, 칼라 깊이는 2로 감소되고, 임계값은 문자가 배경으로부터 적절히 두드러지도록 보장하는 값으로 설정된다. 이는 어려운 문제이고, 복잡한 배경을 간략화하도록 다수의 프레임을 집적하는 것과 같은 다수의 단계를 포함할 수 있다.

영상을 이진화하는 임계값은 다음과 같이 결정될 수 있다. 영상 프로세서(120)는 텍스트 박스에서 픽셀의 평균적인 그레이 스케일값(AvgFG)을 계산함으로서 텍스트 박스 영상을 수정한다. 이는 영상을 이진화하기 위한 임계값으로 사용된다. 또한, 텍스트 박스 주변에 있는 영역(예를 들면, 5 픽셀)의 평균적인 그레이 스케일값(AvgBG)이 계산된다. 서브-영상은 AvgFG 이상을 백색으로 마크하고 AvgFG 이하를 흑색으로 마크함으로서 이진화된다. 백색으로 마크된 픽셀의 평균값 Avg1은 흑색으로 마크된 픽셀의 평균값 Avg2와 함께 계산된다.

일단 텍스트 박스가 흑색 및 백색 (이진수) 영상으로 변환되면, 영상 프로세서(120)는 Avg1과 Avg2를 AvgBG에 비교한다. AvgBG에 더 가까운 평균을 갖는 영역은 배경으로 지정되고, 다른 영역은 전경 (또는 텍스트)로 지정된다. 예를 들어,흑색 영역 평균이 AvgBG에 더 가까우면, 흑색 영역은 백색 등으로 변환된다. 이는 텍스트가 항상 OCR 프로그램에 입력되도록 일관된 값임을 보장한다. 영상 프로세서(120)는 이어서 추출된 프레임 텍스트를 영상 텍스트 작업 공간(132)에 저장하고, 처리는 처리 단계(205)에서 다음 프레임으로 계산된다. 국부적인 임계값 처리 이전에, 텍스트 분해능을 향상시키도록 초분해능(super-resolution)이 실행될 수 있다.

다음에, 각 문자 영역은 분류가 행해지기 이전에 고립되어야 한다. 텍스트 라인으로부터 각 문자 영역을 고립시키기 위해, 예를 들어, 문자 높이 대 폭의 비율, 고도(ceiling), 및 높이와 폭에 대한 임계값 등과 같이, 다양한 발견법이 사용될 수 있다. 이러한 방법론은 일반적으로 다양한 차원 특성에 대해 허용가능한 값의 예측 범주 내에 든다.

연결 성분은 원래 텍스트에서 명확성이 부족한 것으로 인하여 문자에 대응하지 못할 수 있다. 이제는 도 6a 내지 도 6d를 참고로, CC 분할이 실패하면, 또 다른 툴(tool)이 수평선과 함께 문자를 분할하는데 사용될 수 있다. 한 예는 수평 좌표의 함수이면서 그 값이 현재 텍스트 박스 내에 포함되고 x-좌표와 일치하는 수직 칼럼에서 전경 픽셀의 수(또한, 가능하게 그레이 스케일값)에 비례하는 수직 프로젝션(vertical projection)(425)이다. 즉, 픽셀이 집적된 수직 칼럼은 텍스트 박스의 크기를 넘지 못하므로, 현재 로우의 문자만이 이 방법으로 측정된다. 이 "그레이 스케일" 수직 프로젝션(425)은 또한 폭이 순차의 다음 문자에 대한 기대폭에 비례하는 윈도우 함수(window function)(425)에 의해 가중화될 수 있다. 윈도우함수(425)에 의해 가중화된 결과는 420에 도시된다. 최소 프로젝션값은 문자의 좌우측 에지를 정의하는데 사용될 수 있다.

도 7a를 참고하면, 문자 영역을 고립시키기 위한 벙법은 제 1 CC로 시작하여 텍스트 박스를 통해 순차적으로 진행된다. 단계(310)에서 시작하여, 제 1 또는 다음 CC가 선택된다. 단계(S312)에서, 선택된 CC는 CC가 이들을 만족시키는가를 보도록 차원 발견법(dimensional heuristics)에 대해 테스트된다. CC에 대한 발견법 테스트는 CC가 전체 문자일 가능성이 적거나, 너무 커서 하나 이상의 문자를 포함하기 쉬움을 나타낸다. 단계(S314)에서 CC가 너무 큰 것으로 발견되면, 단계(S316)에서는 문자를 분할하는 다른 방법, 예를 들면 상술된 그레이 스케일 프로젝션이 적용된다. 단계(S322)에서 CC가 너무 작은 것으로 발견되면, 다음 CC는 단계(S318)에서 발견법에 대해 테스트된다. 단계(S320)에서 다음 CC가 또한 너무 작은 것으로 나타나면, 현재 및 다음 CC는 단계(S326)에서 병합되고, 흐름은 모든 문자 영역이 고립될 때까지 단계(S310)로 다시 진행된다. 다음 CC가 너무 작지 않으면, 현재 CC는 단계(S324)에서 버려지고, 흐름은 단계(S310)로 진행된다.

도 7b를 참고하면, 문자를 분할하는 또 다른 방법은 발견법에서 실패한 다른 문자 영역을 저장하고, 대안을 분류하도록 시도한다. 분류시에는 가장 높은 신뢰 레벨을 이루는 대안이 선택된다. 이어서, 그에 따라 다른 문자 영역이 다루어진다. 예를 들어, 2개의 병합 CC에 대응하는 영상이 높은 신뢰 측정치로 분류되면, 제 1 CC가 병합되었던 CC에 대응하는 필드는 더 이상 분리된 문자 필드로 다루어지지 않는다. 단계(S330)에서는 제 1 또는 다음 CC가 선택된다. 단계(S332)에서, 선택된CC는 CC가 이들을 만족시키는가를 보도록 차원 발견법에 대해 테스트된다. 단계(S334)에서 CC가 너무 큰 것으로 발견되면, 단계(S336)에서는 문자를 분할하는 다른 방법이 적용된다. 단계(S338)에서 CC가 너무 작은 것으로 발견되면, 현재 CC 및 현재 CC와 조합된 현재 CC는 모두 다른 문자 필드로 유지된다. 문자 필드가 이후 설명될 바와 같이 분류를 위해 전해질 때, 대안간을 선택하는데는 신뢰 측정이 사용된다. 이어서, 흐름은 모든 문자 영역이 고립될 때까지 단계(S310)로 다시 진행된다. 단계(S336)의 브레이크 동작이 낮은 신뢰 측정치를 만들게 되면, 과도한 크기의 필드와 나누어진 필드는 분류에 사용되기 위한 대안으로 유지되고, 분류 결과는 대안간을 선택하는데 사용된다.

문자와 일치하는 영역은 직선 박스로 정의될 필요는 없음을 주목한다. 이들은 고무 밴드형의 경계 영역(임의의 수의 변을 갖는 볼록 다각형) 또는 직교하는 볼록 직선 다각형(내부의 두점을 연결하는 모든 수평 또는 수직 분할이 전체적으로 내부에 놓이는 직선 다각형) 또는 기대 심볼이나 문자의 관심 특성을 실질적으로 둘러싸는 다른 적절한 형상이 될 수 있다.

또한, 텍스트 박스 정보는 전체적으로 생략될 수 있고, 연결 성분은 후보 문자 영역을 확인하는데 직접 사용될 수 있음을 주목한다. 그러나, 이러한 경우, 더 많은 수의 연결 성분이 맵핑될(분류될) 특정 심볼 세트의 외부에 있을 것으로 기대된다. 또한, 상기 설명으로부터 상기 기술은 일반적으로 심볼 분류에 적용될 수 있고 텍스트 문자 분류에 제한되는 것이 아님이 명백함을 주목한다.

도 8을 참고하면, 일단 모든 문자 영역이 고립되면 단계(S405)에 의해 포함되는), 문자는 순차적으로 분류될 수 있다. 다음 단계(S410)에서는 제 1 또는 이어지는 문자 영역이 선택된다. 단계(S415)에서는 원래 영상의 일부(또는 적색 부분)에 적절한 영상 분석이 행해져 특성 분석을 준비한다. 예를 들면, 영상이 이진화되고(임계값 처리되고), 그레이 스케일 영상이 되고, 이진화 및 세선화될 수 있다. 예비처리는 사용되는 특성 공간(feature space)을 근거로 변한다.

도 9a 내지 도 9d를 참고하면, 예를 들면, 특성 공간은 특정한 특성점 (feature point)(이후 설명될 바와 같이)을 사용할 수 있다. 특성점은 골격 문자로 확인이능하고, 이들을 정규 비디오 문자(도 9a)로부터 유도하기 위해, 영상은 이진화되고(도 9b), 이어서 세선화된다(도 9c). 특성점(도 9d, 465-468)은 세선화된 문자(460, 470)의 코너점(465), 굴곡점(466), 교차점(467), 및 끝점(468)으로 유도될 수 있다. 이러한 종류의 영상 처리는 이후 설명될 각도-히스토그램(angle-histogram) 특성 공간에 매우 적절하다. 더 낮은 영상 처리도는 크기-불변 모멘트 (moment)를 계산하는데 필요하다. 다른 특성점 정의 시스템이 또한 사용될 수 있음을 주목한다.

다시 도 8을 참고하면, 원래 문자에는 적절하게 훈련된 백 전파 신경 네트워크 (BPNN; back propagation neural network)의 입력에 인가될 수 있는 특성 벡터를 정의하도록 다양한 다른 분석이 행해질 수 있다. 크기-불변 모멘트를 사용하는 기술에서는 세선화되지 않거나 세선화된 문자가 사용될 수 있다. 단계(S420)에서, 선택된 특성 벡터는 적절한 영상 분석에 의해 발생된다. 다양한 것들이 사용될 수 있다. 다수의 다른 특성 벡터는 본 특허에 관한 응용에 대해 정의된다. 이후 상세히 설명되는 정의된 특성 벡터는 크기 및 회전 불변이고, BPNN 분류기를 사용하는 비디오 문자 분류에 특히 적절한 것으로 생각된다.

제 1 특성 공간은 도 9a 내지 도 9d로 도시된 바와 같이 세선화된 문자의 특성점으로부터 유도된다. 도 10a 및 도 10b를 참고하면, 먼저, Delaunay 삼각법(도 10a) 또는 Voronoy도(도 10b)가 특정점(12)으로부터 유도된다. 영상 프로세서(120)는 삼각법을 실행하고, 이어서 각 삼각형(1 내지 6)에 대해, 내부 각도의 목록을 발생한다. 이는 도 11a에 도시된 바와 같이 이 목록을 각도의 히스토그램을 발생하는데 사용한다. 히스토그램은 간단히 삼각법에 의해 정의된 삼각형(1 내지 6) 세트에서 소정의 크기 범위에 대해 각도(A, B, C)의 회수를 나타낸다. 다른 삼각 방법 또는 다각형 발생 방법이 사용될 수 있음을 주목한다. 예를 들면, 도 10b를 참고하면, Voronoy 다각형(17, 18)이 각도(A', B', C')의 세트를 정의하는데 사용될 수 있고, 이들 각각은 Voronoy도의 정점(14)과 연관된다. 주어진 각도 히스토그램은 특성점이 유도되었던 특정한 문자에 대한 특성 벡터로 동작한다.

예를 들어, 수평선의 수, 교차점의 수, 끝점의 수, 홀(hole), 굴곡점, 중간점 등과 같이, 다른 크기 및 회전 불변 특성이 상기 특성 공간에 부가될 수 있다. 각도 히스토그램에 대한 또 다른 변화는 각 삼각형의 내각 중 가장 큰(가장 작은) 2개만을 사용하는 것이다. 각도 히스토그램의 또 다른 변형은 1차원 각도 히스토그램 대신에 2차원 각도 히스토그램을 사용하는 것이다. 예를 들면, 도 11b를 참고하면, 각 삼각형에 대한 가장 큰(또는 가장 작은) 각도의 쌍은 Delaunay 삼각법에서 각 삼각형에 대해(또는 Voronoy도의 각 정점에 대해) 순서가 정해진 쌍(크기로 순서가 정해진)을 정의하다. 순서가 정해진 각 쌍 중 제 1 소자는 매트릭스의 제 1 차원에 사용되고, 제 2 소자는 매트릭스의 제 2 차원에 사용된다. 이 방법으로, 각도 사이의 연관은 BPNN 분류기를 사용하는 훈련 및 분류하는 것에 대한 정보로 보존된다.

비디오 문자 BPNN 분류기에 특히 적절한 것으로 생각되는 또 다른 특성 공간은 크기-불변 모멘트의 어레이이다. 이들 모멘트는 다음의 식에 의해 정의된다. 비록 그 환경에 사용될 수 있는 다수의 분할 모멘트가 있지만, 특정한 몇개 만이 이 응용에 선택된다. 먼저, 질량,의 중심과 일치하는 픽셀 위치의 픽셀 인덱스가 다음과 같이 주어진다.

여기서, B[i][j]는 임계값 처리된 영상의 제 i, j 픽셀이 전경 픽셀인 경우 1이고, 그렇지 않은 경우 0이고, A는 다음과 같이 주어진 전경 픽셀의 집합적인 면적이다.

전이-불변 모멘트는 다음과 같이 주어진다.

여기서, M_p,q는 다음과 같이 주어진 문자 영상의 제 p, q 생 모멘트 (raw moment)이다.

및,

BPNN으로의 입력으로 선택된 불변 모멘트는 다음과 같다.

;

및,

다시 도 8을 참고하면, 단계(S425)에서, 각 특성 벡터는 다양한 후보 클래스 (candidate class)들을 출력하고, 바람직하게 입력에 의존하여 하나의 매우 강한 후보를 출력하는 훈련된 BPNN에 인가된다. 다수의 후보 문자가 있으면, 단계(S430)에서는 BPNN에 의해 출력된 확률을 가정된 언어 및 문맥에 대한 사용 데이터 회수와 조합함으로서 최상의 추측이 이루어진다. 이러한 데이터는 다른 종류의 내용물, 예를 들면, 텔레비젼 광고 문구, 인쇄 내용물, 스트리밍(streaming), 또는 인터넷에서 다운로드된 파일로부터 컴파일될 수 있다. 조합하는 한가지 방법은 BPNN에 의해 출력된 확률을 사용 회수 통계와 연관되어 대응하는 확률로 가중화하는 것이다.

종래 기술에 숙련된 자에게는 본 발명이 상기에 설명된 실시예의 상세한 내용에 제한되지 않으며, 본 발명이 기본적인 속성이나 의도로부터 벗어나지 않고 다른 특정한 형태로 구현될 수 있음이 명백하다. 예를 들면, 상기에 주어진 텍스트 분석은 수평으로 정렬된 텍스트에 대해 편애하여 설명하였다. 똑같은 방법은 수직으로 정렬된 텍스트, 곡선에 따른 텍스트 등과 같이 다른 정렬에도 적용될 수 있음이 명백하다.

그러므로, 본 실시예는 모든 면에서 제한적인 것이 아니라 설명적인 것으로 생각되고, 본 발명의 범위는 상기 설명에 의하기 보다는 첨부된 청구항에 의해 나타내어지므로, 청구항과 동일한 범위 및 의미 내에 있는 모든 변화는 그에 포함되는 것으로 의도된다.

Claims

심볼들을 포함하는 영상 데이터 스트림(image data stream)의 심볼들을 분류하기 위한 장치에 있어서,

출력(175)과 상기 영상 데이터 스트림(170)으로부터 데이터를 캡쳐하도록 연결된 입력을 갖는 영상 데이터 저장 유닛(140), 및

상기 영상 데이터 저장 유닛 출력에 연결되고, 상기 영상 데이터 저장 유닛에 저장된 캡쳐된 영상 데이터 중 일부에서 에지들(edges)를 검출하고 그에 응답하여 에지 영상을 형성하도록 프로그램되고, 그럼으로써 상기 에지 영상이 에지 픽셀(edge pixel)들 및 비에지 픽셀(non-edge pixel)들을 포함하는, 영상 프로세서(120)를 구비하고,

상기 영상 프로세서(image processor)는 상기 에지 픽셀들로부터 적어도 하나의 연결 성분 (connected component)을 정의하도록 프로그램되고, 상기 연결 성분들은 실질적으로 에지 픽셀들만을 포함하는 영역들에 인접(contiguous)하고,

상기 영상 프로세서는 높이 및 폭이 상기 적어도 하나의 연결 성분의 최대 높이 및 폭과 실질적으로 동일한 상기 부분에서 서브영상(subimage)을 정의하도록 프로그램되고,

상기 영상 프로세서는 상기 서브영상을 분류하도록 프로그램되고, 그럼으로써 심볼 세트와 상기 서브영상 사이에서 최상의 정합(best match)이 확인되는, 심볼 분류 장치.
제 1 항에 있어서,

상기 영상 프로세서는 상기 적어도 하나의 연결 성분이 정의되는 상기 에지 픽셀들의 상기 인접성(contiguity)이 덜 완전(perfect)하도록 더 프로그램되는, 심볼 분류 장치.
제 1 항에 있어서,

상기 영상 프로세서는 그 부근(neighborhood)들이 특정수 이상의 에지 픽셀들을 포함하는 비에지 픽셀(non-edge pixel)들을 에지 픽셀들로서 마크(mark)하도록 더 프로그램되고, 그럼으로써 에지 픽셀들만을 포함하는 분리된 인접 영역들 사이의 작은 갭(gap)들이 닫혀있는(closed), 심볼 분류 장치.
심볼들을 포함하는 영상 데이터 스트림의 심볼들을 분류하기 위한 장치에 있어서,

출력(175)과 상기 영상 데이터 스트림(170)으로부터 데이터를 캡쳐하도록 연결된 입력을 갖는 영상 데이터 저장 유닛(140) 및

상기 영상 데이터 저장 유닛 출력에 연결되고, 상기 영상 데이터 저장 유닛에 저장된 상기 비디오 데이터 중 적어도 일부에 미분 필터(differential filter)를 적용하도록 프로그램된 영상 프로세서(120)를 포함하고,

상기 미분 필터는 예컨데, 비경계 픽셀(non-boundary pixel)들의 적어도 하나의 인접 세트를 둘러싸는(circumscribe) 경계 픽셀(boundary pixel)들의 인접 세트를 구별하기 위한 것이고,

상기 영상 프로세서는 경계 픽셀들의 상기 인접 세트 주위의 최소 인벨로프(envelope)를 찾도록 더 프로그램되고,

상기 영상 프로세서는 인벨로프에 대응하는 상기 부분에서 서브영상을 정의하도록 더 프로그램되고,

상기 영상 프로세서는 상기 서브영상을 분류하도록 프로그램되고, 그럼으로써 심볼 세트와 상기 서브영상 사이에서 최상의 정합이 확인되는, 심볼 분류 장치.
제 4 항에 있어서,

상기 영상 프로세서는 경계 픽셀들만을 포함하는 분리된 인접 영역들 사이의 갭들이 닫히도록, 상기 비경계 픽셀(non-boundary pixel)의 특정 부근(specified neighborhood)에서 경계 픽셀들의 수에 응답하여 비경계 픽셀들을 경계 픽셀로 마크하도록 더 프로그램되는 것을 특징으로 하는 장치.
심볼들을 포함하는 영상 데이터 스트림의 심볼들을 분류하기 위한 방법에 있어서,

미분 영상을 생성하도록 상기 영상에 미분 필터를 적용하고,

그 값들이 소정의 값보다 더 큰 상기 미분 영상에서의 픽셀들을 제 1 픽셀로 마크하고,

상기 제 1 픽셀의 어떠한 인접 세트도 픽셀들의 특정수보다 많은 수만큼 상기 제 1 픽셀의 또 다른 인접 세트로부터 분리되지 않도록 실질적으로 인접한 제 1 픽셀을 확인하고,

상기 확인 단계에 의해 확인된 제 1 픽셀들의 주위에 고무 밴드형(rubber band-type) 경계와 일치하는 서브영역(subregion)을 정의함으로써,

적어도 하나의 심볼로 차지되는 영상 영역(image area)의 일부분을 확인하는 단계, 및

상기 서브영역과 실질적으로 일치하는 상기 영상 영역의 일부분을 심볼 분류기에 인가하는 단계를 포함하는, 심볼 분류 방법.
심볼들을 포함하는 영상 데이터 스트림의 심볼들을 분류하기 위한 방법에 있어서,

영상에서 에지 픽셀을 확인하기 위해 상기 영상에 에지 검출 필터를 적용하는 단계와,

상기 에지 픽셀들로부터 연결 성분들을 형성하는 단계와,

각각이 상기 연결 성분들 중 대응하는 것을 포함하는 심볼-경계 영역(symbol bounding region)들을 정의하는 단계, 및

각각이 상기 심볼-경계 영역들 중 각각의 하나와 일치하는 상기 영상의 서브영상들을 분류하는 단계를 포함하는, 심볼 분류 방법.
심볼들을 포함하는 영상 데이터 스트림의 텍스트를 분류하기 위한 방법에 있어서,

영상에서 에지 픽셀을 확인하기 위해 상기 영상에 에지 검출 필터를 적용하는 단계와,

에지 픽셀들로부터 연결 성분들을 형성하는 단계와,

상기 형성하는 단계의 결과에 응답하여 텍스트 영역들의 각각이 다수의 상기 연결 성분들을 경계짓도록 상기 텍스트 영역들을 정의하는 단계와,

상기 영상의 개개의 문자 영역들을 확인하하기 위해 상기 연결 성분들 사이의 공간들에 응답하여 상기 텍스트 영역들을 분할하는 단계, 및

각각이 상기 개개의 문자 영역들의 각각의 하나에 일치하도록 상기 영상의 서브영상들을 분류하는 단계를 포함하는, 텍스트 분류 방법.
심볼들을 포함하는 영상 데이터 스트림의 심볼들을 분류하기 위한 장치에 있어서,

영상 데이터 스트림(180)으로부터의 영상을 추출하기 위해 그것에 연결가능하고, 상기 영상에서 에지 픽셀들을 확인하기 위해 상기 영상에 에지 검출 필터를 적용하도록 프로그램된 영상 처리기(120)를 포함하고,

상기 영상 프로세서는 상기 에지 픽셀들로부터 연결 성분들을 형성하도록 더 프로그램되고,

상기 영상 프로세서는 각각이 상기 연결 성분들 중 하나를 포함하는 심볼 영역들을 정의하도록 더 프로그램되고,

상기 영상 프로세서는 각각이 상기 심볼 영역들 중 각각의 하나와 일치하는 상기 영상들의 서브영상들을 분류하도록 더 프로그램되는, 심볼 분류 장치.
심볼들을 포함하는 영상 데이터 스트림의 텍스트를 분류하기 위한 영상 프로세서에 있어서,

영상을 추출하기 위해 영상 데이터 스트림(180)에 연결가능하고, 상기 영상에서 에지 픽셀을 확인하기 위해 에지 검출 필터를 적용하도록 프로그램된, 영상 처리 컴퓨터(120)를 포함하고,

상기 영상 처리 컴퓨터는 상기 에지 검출 필터의 적용으로부터 기인한(resulting) 에지 픽셀들로부터 연결 성분들을 형성하도록 더 프로그램되고,

상기 영상 처리 컴퓨터는 상기 형성하는 단계의 결과에 응답하여 텍스트 영역들의 각각이 다수의 상기 연결 성분들을 경계짓기 위해 상기 텍스트 영역들을 정의하도록 더 프로그램되고,

상기 영상 처리 컴퓨터는 상기 영상의 개개의 문자 영역들을 확인하기 위해서 상기 연결 성분들 사이의 브레이크(break)들에 응답하여 상기 텍스트 영역들을 분할하도록 더 프로그램되고,

상기 영상 처리 컴퓨터는 각각이 상기 개개의 문자 영역들 중 각각의 하나에 일치하는 상기 영상의 서브영상들을 분류하도록 더 프로그램되는, 텍스트 분류 영상 프로세서.
제 10 항에 있어서,

상기 영상 처리 컴퓨터는 상기 서브영상들의 프로젝션(projection)을 생성하고 상기 프로젝션에 응답하여 상기 텍스트 영역들을 분할하도록 프로그램된, 텍스트 분류 영상 프로세서.