KR20020027332A - 텍스트 검출 - Google Patents

텍스트 검출 Download PDF

Info

Publication number
KR20020027332A
KR20020027332A KR1020017015356A KR20017015356A KR20020027332A KR 20020027332 A KR20020027332 A KR 20020027332A KR 1020017015356 A KR1020017015356 A KR 1020017015356A KR 20017015356 A KR20017015356 A KR 20017015356A KR 20020027332 A KR20020027332 A KR 20020027332A
Authority
KR
South Korea
Prior art keywords
text
field
detector
line
edge detection
Prior art date
Application number
KR1020017015356A
Other languages
English (en)
Inventor
엠. 피. 니콜라스마리나
더블유. 니우벤후이젠미첼
엠. 케트니스제로엔
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20020027332A publication Critical patent/KR20020027332A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • H04N7/012Conversion between an interlaced and a progressive signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Television Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Picture Signal Circuits (AREA)

Abstract

비디오 신호(VS)에서 텍스트를 검출하는 방법에서, 비디오 신호(VS)에서의 높은 수평 주파수들이 수평 엣지 검출 결과들(refo, refpp1, refpp2)를 얻기 위해 검출되고(ED), 주어진 위치에서의 수평 엣지 검출 결과들(refo)이 수직으로 이웃하는 위치들에서 수평 엣지 검출 결과들(refpp1, refpp2)와 상관된다(C).

Description

텍스트 검출{Text detection}
EP-A 제 0,687,105 호는 비디오 신호에서 이동을 검출하기 위한 방법을 개시한다. 이 방법은 필드내의 라인들사이에서 새로운 라인들을 발생시키는데 이용될 수 있다. 첫째로, 영상에 걸친 차이 신호(difference signal)가 계산된다. 조사된 위치의 최소 이동 영역을 주는, 차이 신호는 2개의 연속적인 필드들로부터 계산된 엣지 정보를 수평적으로 이용하여 확장된다. 엣지 검출기는 최소 이동 영역을 정의하는 홀수 또는 짝수로 번호붙여진 필드들사이의 임계처리된 차이 신호와, 수평 엣지에 따른 최소 이동 영역의 제어된 수평 확장에 기초한다. 본 명세서에서, 수평 엣지는 높은 수직 주파수를 갖는다.
US-A 제 5,051,826 호는 텔레비젼 영상 이동 적응성 순차 스캐닝 변환 회로(television image motion adaptive progressive scanning conversion circuit )에 대한 수직 엣지 검출 회로를 개시한다. 이것은 비월 스캐닝 입력 텔레비젼 신호(interlaced scanning input television signal)로부터 필드내 차이 신호(intra-field difference signal)를 발생시키기 위한 제 1(라인 메모리에 기초한) 회로와,비월 스캐닝 입력 텔레비젼 신호로부터 필드간 차이 신호(inter-field difference signal)를 발생시키기 위한 제 2(필드 메모리에 기초한) 회로를 포함한다. 제 3 회로는 필드간 프레임 차이 신호가 소정의 값 이하일 때는 필드내 및 필드간 차이 신호들의 최대값을, 그리고 소정의 값 이상일 때는 필드내 차이 신호를 선택적으로 출력한다. 이 문헌에서 "수직 엣지"로 불리는 것은 EP-A 제 0,687,105 호에서 "수평 엣지"로 불리는 것과 동일한다.
US-A 제 5,565,998 호(대리인의 일람번호 PHB 33.833)는 비디오 순차에서 필름 프레임들을 식별하는 방법을 개시한다.
본 발명은 비디오 신호에서 텍스트 검출을 위한 장치 및 방법에 관한 것이다.
도 1은 본 발명에 따른 이동하는 텍스트 검출기의 제 1 실시예를 포함하는 디스플레이 장치.
도 2는 본 발명에 따른 이동하는 텍스트 검출기의 제 2 실시예를 도시하는 도면.
도 3은 본 발명의 양호한 실시예에서의 이용을 위한 측정 윈도우의 정의를 도시한 도면.
공지된 이동-보상된 보간 기법들(motion-compensated interpolation tech niques)은 그것들이 텍스트를 스크롤링하는 것을 처리할 수 없다는 문제를 겪고 있는 것으로 보인다. 특히 필름 모드 배경에서 스크롤링하는 비디오 모드 텍스트가 어려우며, 이것은 비디오 모드 텍스트가 필름 모드 신호에 부가될 때 발생한다. 본 명세서에서 필름 모드는 비월된 필드들의 쌍(a pair of interlaced fields)이 동일한 이동 단계에 관련되어 있다는 것을 의미하며, 이것은 2개의 비월된 비디오 필드들을 발생시키기 위해 1개의 필름 프레임을 이용하여 25 Hz 필름 신호로부터 유도될 때 발생한다. 비디오 모드에서, 각각의 필드는 분리된 이동 단계를 나타낸다. 이러한 문제들은 상기에 언급된 공보들에는 다루어지지 않았다.
특히, 본 발명의 목적은 개선된 텍스트 검출을 제공하는 것이다. 이 목적을 위해, 본 발명은 독립항들에 정의된 텍스트 검출을 제공한다. 유리한 실시예들이종속항들에 정의되어 있다.
본 발명의 제 1 측면에 따라 비디오 신호내의 텍스트를 검출하는 방법에서, 비디오 신호내의 높은 수평 주파수들이 수평 엣지 검출 결과들을 얻기 위해 검출되고, 주어진 위치에서의 수평 엣지 검출 결과들은 수직으로 이웃하는 위치들에서의 수평 엣지 검출 결과들과 상관된다(correlated).
본 발명의 이러한 및 다른 측면들은 이후에 서술된 실시예들을 참조하여 분명하고 명료해질 것이다.
본 발명에 따른 정지/이동하는 텍스트 검출기의 목적은, 비디오 화상들에서, 이동-보상된 보간과 같은 특별한 비디오 프로세싱에 매우 민감한 텍스트를 식별하는 것이다. 텍스트는, 가능하면 사이에 공간들이 있는 연속적인 문자들의 관련된 수를 의미한다. 본 발명은 라틴 알파벳의 문자들에 한정되지 않으며, 시스템은 또한 다른 알파벳들, 특히 아라비아 문자들과 잘 동작한다.
도 1의 디스플레이 장치는,
- 비디오 신호(VS)내의 임의의 텍스트 순시들(text transients)의 수평 위치 및 방향(로우에서 하이로의 전이 또는 하이에서 로우로의 전이)을 표시하는, 순시(엣지)(transient(edge)) 검출기(ED)와,
- 공간적으로 연속적인 라인들에 대해 텍스트 순시들의 위치 및 방향을 비교하는 상관기(C)(필드n 내의 라인 m, 필드 n내의 라인 m-2(즉, 비월된 비디오 신호에서, 동일한 필드내의 이전의 라인) 및, 공간적으로 이러한 라인들 m-2와 m사이이지만 필드 n-1 내에 위치된 라인 m-1)와,
- 검출된 순시들이 실제로 텍스트에 대응되는지를 체크하고, 그러한 경우에, 검출된 텍스트 순시들이 정지 텍스트 또는 수평으로 이동하는 텍스트에 대응하는지를 표시하는, 포스트-프로세싱 유닛(PPU)으로서, 텍스트의 속도와 같은 부가적 정보를 또한 배포할 수 있고, 텍스트의 높이와 길이, 스크린상의 그 위치등을 또한 주는데 용이하게 확장될 수 있고, 상관기(C)에 속도 추정(SE)을 전송하며, 속도 추정(SE)은 상관기(C)가 오른쪽 장소를 보게하는데 이용되는 텍스트의 속도를 표시하는, 상기 포스트 프로세싱 유닛과,
- 화상의 특정 부분에의 검출을 제한하는 것을 허용하는, 윈도우 표시 유닛(W)과,
- 검출된 텍스트 및 관련된 정보(정지/이동하는 텍스트, 속도 등)에 의존하여 비디오 신호(VS)를 처리하는, 이동-보상된 프로세서(MCP)(예를들어, 100 Hz 변환기)와,
- 이동-보상된 비디오 신호를 표시하기 위한 디스플레이 장치(D)를 포함한다.
순시 검출기(ED)와 상관기(C)는 화소 기초상에서 동작하고 반면에 포스트-프로세싱 유닛(PPU)은 라인 기초상에서 동작한다. 순시 검출기(ED)는 휘도 레벨이 몇몇의 화소들(통상적으로 3개의 화소들)내의 낮은 임계값과 높은 임계값 모두와 교차하는 장소를 본다. 검출기(ED)의 출력(refo)[화소]은 다음과 같다.
0 화소가 하이에서 로우로의 전이에 대응한다면,
2 화소가 로우에서 하이로의 전이에 대응한다면,
1 다른 경우들에서.
기본적으로, 검출기(ED)는 텍스트 문자들의 제 1 및 마지막 화소를 근사적으로 마킹한다.
텍스트 검출의 원리는 작은 수직 라인들이 텍스트의 특징이라는 사실을 이용한다. 텍스트의 경우에,
- 몇몇의 연속하는 라인들(필드n 내의 라인 m, 필드 n내의 라인 m-2 및, 공간적으로 이러한 라인들 m-2와 m사이이지만 필드 n-1 내에 위치된 라인 m-1)에 대해 검출기의 출력(refo)[화소]사이의 높은 상관(high correlation)이 있고,
- 마킹된 화소들(0 또는 2에서의 (refo)[화소])의 밀도는 전체 텍스트 길이에 대해 상대적으로 높다.
비월된 비디오 모드에서 정지/이동하는 검출의 원리는 다음과 같다.
- 정지 텍스트에서, 필드 n내의 라인 m으로부터 필드 n내의 라인 m-2로 매칭하는 순시의 주파수는, 필드 n내의 라인들 m과 m-2사이에 수직으로 있는, 필드 n내의 라인 m으로부터 필드 n-1내의 라인 m-1로 매칭하는 순시의 주파수보다 낮고, 반면에,
- 이동하는 텍스트에서, 필드 n내의 라인 m으로부터 필드 n내의 라인 m-2로 매칭하는 순시의 주파수는, 필드 n내의 라인들 m과 m-2사이에 수직으로 있는, 필드 n내의 라인 m으로부터 필드 n-1내의 라인 m-1로 매칭하는 순시의 주파수보다 훨씬 높다.
원리는 이전의 필드로부터의 데이터를 이전의 프레임으로부터의 데이터로 대체하여 진행형 비디오 모드(progressive video mode)에 용이하게 적응될 수 있다,
상관기(C)와 포스트-프로세싱 유닛(PPU)는 라인이 정지 텍스트, 이동하는 텍스트를 포함하는지 또는 어떤 텍스트도 포함하지 않는지를 식별하기 위해 이들 아이디어들을 이용한다. 일실시예에서, 3개의 카운터들이 이용된다. 카운트 1은 필드 n내의 라인 m-2로부터 필드 n내의 라인 m으로 매칭하는 주파수를 나타낸다. 카운트 2는 필드 n내의 라인 m으로부터 필드 n-1내의 라인 m-1로 매칭하는 주파수를 나타낸다. 카운트 3은 라인내의 텍스트의 길이에 대응하며, 텍스트 검출을 위해 적합한 임계값을 설정하는데 이용된다.
정지 텍스트는, 카운트 2 > 카운트 3/16 이고 카운트 2 > 카운트 1이면 검출된다.
이동하는 텍스트는 카운트 1 > 카운트 3/16 이고 카운트 1 > 2*카운트 2이면 검출된다.
이 시스템은 정지 및 이동하는 텍스트를 정확하게 검출하는데 적합한 것으로 증명되었다. 특히, 시스템이 이동하는(또는 정지) 텍스트를 정지(또는 이동하는) 텍스트로서 식별하는 어떤 실제적인 경우들도 발견되지 않았다. 문자 순차의 높이내에서, 실제적으로 모든 라인들은, 문자 순차의 상부 또는 하부에 대응하는 라인들로부터 약간 이격되어, 텍스트 라인들로서 식별된다.
다중-버스트 신호들을 지닌 몇몇 "잘못된 검출" 경우들이 있다. 이것은 텍스트를 지닌 라인들의 그룹들사이의 텍스트 없는 몇몇 라인들의 존재를 체크하여 해결될 수 있다.
알고리즘은 텍스트의 수평 속도를 배포하기 위해 위해 확장될 수 있다. 어느 방향으로 텍스트가 이동하는지를 안다면, 시스템은 m개의 화소들/필드와 동일한 속도로 텍스트를 식별하기 위해 m개의 라인들을 필요로한다. 방향을 모른다면, 속도를 식별하기 위해 2*m개의 라인들을 필요로 할 수 있다. 모든 경우들에서, 스크린의 어느 측면으로부터 텍스트가 인입하는지를 검출할 수 있고 따라서 텍스트의 방향을 검출할 수 있다. 텍스트의 속도가 대개 필드당 10개의 화소들 이하라고 고려하면, 한 문자 높이내에서 신뢰가능한 속도 출력을 가질 수 있다. 이 속도 탐색 메커니즘은 텍스트가 검출되었을 때 제 1 필드에 대해 이용된다. 속도의 결과는 다음 필드들에서 정지/이동하는 텍스트에 대해 직접적으로 이용될 수 있다.
시스템은 또한 검출된 텍스트의 크기와 위치에 대한 정보를 쉽게 제공할 수 있다.
도 2에서, 이동하는 텍스트 검출기의 상세한 블록도가 주어진다. 이 시스템은 중심부는 엣지 검출기(ED), 상관기(C) 및, 포스트-프로세싱 유닛(PPU)에 의해 여전히 이루어질 수 있다. 엣지 검출기(ED)의 출력은 순시들의 위치와 방향의 정보이다. 이 정보는 상관기(C)에 의해 이용되고 라인 메모리(LM)와 필드 메모리(FM)에 저장된다. 상관기(C)는 3개의 라인들, 즉, 현재의 필드로부터의 이전의 라인과 현재의 라인과, 이전의 필드로부터의 중간의 라인에 대한 엣지 정보를 필요로 한다. 대부분의 수평으로 이동하는 텍스트는 스크린의 상부와 하부에서 예상되므로, 유연한 윈도우 표시 유닛(W)이 필요한 프로세싱의 양을 한정하기 위해 부가된다.
도 1의 실시예에 부가하여, 도 2의 실시예는, 그 출력이 엣지 레벨 선택 신호(EL)에 의해 엣지 검출기(ED)의 임계 레벨들을 적응시키도록 필드에 기초한 제어 프로세서(CP)에 의해 이용되는, 화소에 기초한 피크 검출기(P)를 포함한다. 제어 프로세서(CP)는 윈도우들을 적응시키기 위해 윈도우 선택 신호(WS)를 윈도우 표시 유닛(W)에 전송한다. 예를들어, 이동하는 텍스트가 검출되면, 윈도우들은 텍스트의 이동에 적응될 수 있다(예를들어, 2*2의 수평으로 별개인 윈도우들대신에, 도 3의 예에서 hwindow_start_left에서 hwindow_stop_right로 확장하는 2*1의 큰 윈도우들을 취한다). 제어 처리기(CP)는 또한 신호가 필름 모드, 비디오 모드 또는, 텍스트인지를 신호보낸다.
그래서, 윈도우들을 유연한 방식으로 정의한다(도 3). 이 유연한 윈도우들 정의에 대한 다른 이유는 오른쪽에서 왼쪽으로 스크롤링하고 왼쪽에서 오른쪽으로 스크롤링하는 텍스트(예를들어, 아라비아문자)가 가능한 작은 윈도우들과 함께 가능한 빨리 검출될 수 있다는 것이다. hwindow_stop_left > hwindow_start_right 및vwindow_stop_top > vwindow_start_bottom가 되게 함으로써, 4개의 윈도우들이 하나로 결합될 수 있다.
간단한 수행에서, 피크 검출기(P)는 측정 윈도우에서 가장 높은 휘도 레벨을 간단히 검출한다.
텍스트 검출기는 비디오 신호에서 크고, 빠른 순시들을 검출한다. 이것을 달성하는 많은 방법들이 있다. 일실시예에서, "이벤트 검출기(event detector)"가 이용되고, 이것은 휘도가 2개의 임계값들(다시 low_threshold, high_threshold) 모두와 교차할 때 검출한다. 임계값들 모두가 연속하여 교차될 때만, 출력이 소정의 시간에 대해 높게 될 것이다.
다른 실시예는 제 3 검출기(임계값/속도 검출기)를 포함하고, 이것은 임계값들의 교차를 볼 뿐아니라, 순시에 대해 허용된 시간에 한계를 설정한다. 이러한 방식으로, 순시의 진폭과 속도 모두가 고려된다.
이동하는 텍스트의 최대 속도는 매우 높을 수 있다. 텍스트가 스크린과 2초동안 교차한다면, 이것은 근사적으로 100개의 필드당 800개의 화소들, 또는 필드당 8개의 화소들을 의미한다. 그와같은 속도로, 검출기는, 텍스트를 이동하지 않는 것으로 잘못 표시하는, 잘못된 순시를 볼 수 있다. 그 이유로, 상승하고 하강하는 순시들에 대해 서로다른 출력을 주기위해 검출기들을 확장하였고, 0 = 하강하는 검출된 엣지, 1 = 엣지 없음, 2 = 상승하는 검출된 엣지이다.
새로운 검출기는 이래에 설명될 것이다.
임계값/급경사도 검출기(threshold/steepness detector)는 언제 휘도 신호가낮은 임계값 또는 높은 임계값과 교차하는지를 검출한다. 결과들은 2개의 1-비트 신호들이다. 이것들은 3개의 샘플들을 포함할 수 있는 시프트 레지스터에 저장되어 있다.
다음 단계에서, 임계값들 둘다가 3개의 화소들내에서 교차되는지를 측정한다. 3개의 화소들로부터의 1 비트 신호를 현재의 신호들과 비교하여 이것을 수행한다. 그러한 경우라면, 다음을 수행한다.
- 휘도 신호가 하이에서 로우로 간다면(첫째로 높은 임계값이 교차되었고 3개의 화소들내에서 낮은 임계값이 또한 교차된다), 출력 신호를 0으로 한다.
- 휘도 신호가 로우에서 하이로 간다면(첫째로 낮은 임계값이 교차되었고 3개의 화소들내에서 높은 임계값이 교차된다), 출력 신호를 2로 한다.
- 모든 경우들에서, 출력 신호는 1이다.
메모리에 엣지 정보를 저장하는데 관하여, 라인 메모리(LM)가 프로세서(CP)의 국부 캐쉬(the local cache of the processor)에 위치될 수 있다고 가정한다. 필드 메모리(FM)은 외부(SD) RAM에 있어야만 하고, 그래서 메모리 대역폭에 영향을 줄 것이다. 엣지 검출(ED)은 화소당 2개의 비트들만을 필요로 하므로, 4개의 화소들의 엣지 검출기 출력을 하나의 바이트로 패킹(pack)하는 것이 가능하다. 하드웨어 수행에서, 패킹/언패킹(packing/unpacking)은 매우 값싸고 그래서 그 경우에 메모리 대역폭내의 이득이 우세할 것이다.
상관기(C)는 다음과 같이 동작한다. 상기에 상술된 검출기(ED)는 텍스트 문자가 시작되고 종료하는(출력 0 또는 2) 높은 기회가 있는 화소들을 인식한다. 상관기(C)의 목표는 화소가 텍스트에 대응하는지 아닌지를 확인하는 것이고, 텍스트를 다루는 경우에는, 여전히 정지 또는 이동하는지를 확인하는 것이다. 이것을 행하기 위해, 상관기(C)는 현재 라인에 대한 검출기(ED)의 출력(refo)을 동일한 필드에서 공간적으로 앞에 있는 검출기(ED)의 2개 라인들의 출력(refpp1)과 비교하고, 앞의 필드내에서 앞에 있는 검출기(ED) 1개 라인의 출력(refpp2)와 비교한다.
우선, 텍스트가 존재하는 라인들에서, 전체 텍스트 폭에 대해 0 또는 2에서의 검출기 출력들의 대개 상대적으로 높은 농도가 있다. 텍스트가 존재한다고 가정하면, 대부분의 경우들에서, 텍스트의 한계들을 1과 다른 검출기의 제 1 및 마지막 출력들에 대응할 것이다. 검출기 출력들로부터, 텍스트의 길이를 검출할 수 있다. 데이터는 또한 텍스트 식별을 위해 요구되는 0과 2에서의 검출기 출력들의 수에 대한 임계값을 설정하는데 이용된다.
텍스트 문자들의 다수는 작은 수직 라인들을 포함하는 경항이 있다는 사실을 고려한다. 그러므로, 텍스트가 존재하는 경우에, 연속적인 라인들에 대한 검출기(ED)의 출력들 사이의 많은 유사성을 예상한다.
텍스트가 정지인 경우에, 전류 라인에 대한 검출기(ED)의 출력(refo)은, 동일한 필드에서 공간적으로 앞에 있는 검출기(ED) 2개 라인들의 출력(refpp1)보다, 이전의 필드에서 앞에 있는 검출기(ED) 1개 라인의 출력(refpp2)과 더 잘 매칭하기 쉽다. 비월된 비디오 신호에서, (refpp1)은 (refo)에 대해 동일한 필드내의 이전의 라인에 관한 것이다.
반대로, 텍스트가 이동한다면, 현재 라인에 대한 검출기(ED)의 출력(refo)은, 이전의 필드에서 앞에 있는 검출기(ED)의 공간적으로 1개인 라인의 출력 (refpp2)보다 동일한 필드에서 앞에 있는 검출기(ED)의 공간적으로 2개인 라인들의 출력(refpp1)과 더 잘 매칭하기 쉽다.
정지 텍스트는 라인 m-1, 필드 n-1로부터 라인 m, 필드 n으로 매칭하는 순시의 주파수가 라인 m-2, 필드 n에서 라인 m, 필드 n으로 매칭하는 순시의 주파수와 필적하는 것을 특징으로 한다. 이동하는 텍스트는 라인 m-1, 필드 n-1로부터 라인 m, 필드 n으로 매칭하는 순시의 주파수가 라인 m-2, 필드 n에서 라인 m, 필드 n으로 매칭하는 순시의 주파수보다 휠씬 낮은 것을 특징으로 한다.
텍스트 이동의 속도를 알아내기 위해 어떤 메커니즘이 텍스트 검출기에 부가될 수 있다. 전류 라인에 대한 검출기의 출력이 검출기 1개 라인의 것과 얼마나 자주 매칭하는지의 계산을 위해 어레이(refpp[])내의 지수를 시프팅하여 검출기의 출력상의 오른쪽 이동 보상을 적용한다면, 이동하는 텍스트는 상관기에 의해 여전히 택스트로서 보여질 것이다. 텍스트의 속도는 그때 (reffp2[])의 지수에서의 시프트에 대응한다.
탐색 메커니즘은 정지 텍스트를 찾는 것을 시작한다. 이동하는 텍스트가 검출되면, 속도는 한 화소/라인만큼 증가된다. 다음의 텍스트 라인에 대해서, 전류 라인에 대한 검출기(ED)의 출력(refo)이 이전의 필드에서 공간적으로 1개 라인 앞에 있는 검출기의 출력(refpp2)과 얼마나 자주 매칭하는지의 계산은 한 화소의 이동 보상을 고려한다. 상관기(C)가 여전히 "이동하는 텍스트"를 표시한다면, 속도는 다음 텍스트 라인 검출에 대해 한 화소만큼 더 증가된다. 올바른 속도에 도달될때, 이것은 속도*라인들후에 상관기가 "정지 텍스트"를 표시한다는 것을 의미한다. 이 프로세스는 텍스트 및 몇몇 라인들내의 그 이동하는 속도를 검출하는 것을 허용한다.
탐색 메커니즘이 "정지 텍스트" 위치(속도=0)로부터 시작하므로, 이것은 텍스트가 어느 방향으로 적절한 수렴 속도 탐색(a proper converging speed search)과 관련되어 있다. 화상으로 인입하는 텍스트가 충분히 빨리 검출된다고 가정하면, 텍스트가 첫째로 검출되는 윈도우에 의존하여, 텍스트가 스크린내의 오른쪽 또는 왼쪽으로부터 인입하는지를 알게된다. 그 경우에, 텍스트 스크롤링의 방향을 알게된다. 다른 가능성은 2개의 연속적 필드들에 대해 텍스트로서 검출된 마지막 화소와 텍스트로서 검출된 제 1 화소로부터의 정보를 비교하는 것이다.
본 발명의 한 측면은 다음과 같이 요약될 수 있다. 비디오에서, 텍스트, 특히 수평으로 스크롤링하는 텍스트는 동작-보상된 프로세싱(100 Hz 변환)에 매우 민감하다. 본 발명의 양호한 실시예는 텍스트를 검출할 수 있고, 그것이 엣지 검출기 (ED)와 상관기(C)에 의해 정지 또는 이동하는지를 결정할 수 있다. 특정한 실행들은 텍스트의 속도, 그 높이와 길이 및, 스크린상의 그 위치와 같은 부가적 정보를 또한 줄 수 있다. 원리는, (reffp2)로부터의 데이터가 (refo) 및 (reffp1)과 다른 시간(필드/프레임)을 언급한다면, 비월 및 순차 신호들(interlaced and progress ive signals) 모두에서 작용한다. 본 발명은 넓게 텍스트 검출에 관한 것이며, 스크롤링 텍스트 검출(이동하는 텍스트 검출이 유리한 실시예이지만) 또는 필름 모드 배경상의 비디오 모드 텍스트의 검출(본 발명은 그 응용에서 특히 유용한 것으로보이지만)에 한정되지 않는다.
상기 언급된 실시예들은 본 발명을 한정하기 보다는 예시하는 것이며, 그 분야에 숙련된 자에게는 첨부된 청구항들의 범위를 벗어나지 않고서 많은 대안의 실시예들을 설계할수 있다는 것이 유의되어야 한다. 청구항들에서, 괄호들사이에 위치된 임의의 참조 기호들은 청구항을 한정하는 것으로 해석되어서는 안된다. 단어 "포함하는"은 청구항에 열거된 것과 다른 소자들 또는 단계들의 존재를 배제하지 않는다. 소자에 선행하는 단어 "하나의"("a" 또는 "an")은 복수의 그와같은 소자들의 존재를 배제하지 않는다. 단어 "필드"는 비월 및 순차 비디오 신호들 모두에 적용가능하다. "수직으로 이웃하는 위치들"은 동일한 필드내에 있을 필요가 없으며 그 위치들은 그들이 약간 경사진 라인상에 있을 수 있거나, 이전의 필드로부터의 엣지 검출 결과의 수평 위치가 현재 필드로부터의 엣지 검출 결과들의 수평 위치와 다를 수 있으므로 완전히 수직인 라인상에 있을 필요가 없다. 본 발명은 몇몇 별개의 소자들을 포함하는 하드웨어에 의해서 및 적합하게 프로그래밍된 컴퓨터에 의해 수행될 수 있다. 몇몇 수단들을 열거하는 장치 청구항에서, 이들 수단들중 몇몇 수단들은 하드웨어의 한 항목 및 동일한 항목에 의해 구체화될 수 있다. 어떤 수단이 상호 다른 종속항들에서 열거되었다는 단순한 사실은 이들 수단들의 결합이 유리하게 이용될 수 없다는 것을 표시하지 않는다.

Claims (5)

  1. 비디오 신호(VS)에서 텍스트를 검출하는 방법에 있어서,
    수평 엣지 검출 결과들(refo, refpp1, refpp2)를 얻도록 상기 비디오 신호(VS)에서 높은 수평 주파수들을 검출하는(ED) 단계와,
    주어진 위치에서의 수평 엣지 검출 결과들(refo)과 수직으로 인접하는 위치들에서의 수평 엣지 검출 결과들(refpp1, refpp2)을 상관시키는(C) 단계를 포함하는 텍스트 검출 방법.
  2. 제 1 항에 있어서,
    순시(transient)를 표시하는 수평 엣지 검출 결과들의 밀도를 측정하는 단계를 더 포함하는 텍스트 검출 방법.
  3. 제 1 항에 있어서,
    정지 텍스트와 이동하는 텍스트사이를 구별하기 위해 필드내 순시 매칭 주파수를 필드간 순시 매칭 주파수와 비교하는(PPU) 단계를 더 포함하는 텍스트 검출 방법.
  4. 비디오 신호(VS)에서 텍스트를 검출하기 위한 장치에 있어서,
    수평 엣지 검출 결과들(refo, refpp1, refpp2)을 얻도록 비디오 신호(VS)에서 높은 수평 주파수들을 검출하기 위한 수단(ED)과,
    주어진 위치에서의 수평 엣지 검출 결과들(refo)을 수직으로 이웃하는 위치들에서의 수평 엣지 검출 결과들(refpp1, refpp2)과 상관시키기 위한 수단(C)을 포함하는 텍스트 검출 장치.
  5. 디스플레이 장치에 있어서,
    제 4 항에 청구된 비디오 신호(VS)에서 텍스트를 검출하기 위한 장치(ED, C)와,
    상기 텍스트 검출 장치(ED, C)의 출력들에 의존하여 상기 비디오 신호(VS)를 동작-보상된 프로세싱하기 위한 동작-보상된 프로세서(MCP)와,
    상기 동작-보상된 프로세서(MCP)의 출력들을 표시하기 위한 디스플레이(D)를 포함하는 디스플레이 장치.
KR1020017015356A 2000-03-31 2001-03-22 텍스트 검출 KR20020027332A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00201183.1 2000-03-31
EP00201183 2000-03-31
PCT/EP2001/003363 WO2001076231A2 (en) 2000-03-31 2001-03-22 Text detection

Publications (1)

Publication Number Publication Date
KR20020027332A true KR20020027332A (ko) 2002-04-13

Family

ID=8171290

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017015356A KR20020027332A (ko) 2000-03-31 2001-03-22 텍스트 검출

Country Status (6)

Country Link
US (1) US6842537B2 (ko)
EP (1) EP1277337A2 (ko)
JP (1) JP2003530028A (ko)
KR (1) KR20020027332A (ko)
CN (1) CN1181668C (ko)
WO (1) WO2001076231A2 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
US20050225671A1 (en) * 2004-04-09 2005-10-13 Scott Jen Method of Processing Fields of Images and Related Device for Data Lines Similarity Detection
US20080095442A1 (en) * 2004-11-15 2008-04-24 Koninklijke Philips Electronics, N.V. Detection and Modification of Text in a Image
EP1840798A1 (en) * 2006-03-27 2007-10-03 Sony Deutschland Gmbh Method for classifying digital image data
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8718366B2 (en) * 2009-04-01 2014-05-06 Ati Technologies Ulc Moving text detection in video
KR101975247B1 (ko) * 2011-09-14 2019-08-23 삼성전자주식회사 영상 처리 장치 및 그 영상 처리 방법
CN102750540B (zh) * 2012-06-12 2015-03-11 大连理工大学 基于形态滤波增强的最稳定极值区视频文本检测方法
BR112016006860B8 (pt) 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US9842281B2 (en) 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2623040B1 (fr) 1987-11-09 1990-02-09 France Etat Procede et dispositif de traitement de signaux d'image a balayage de trame entrelace
US5138451A (en) * 1988-10-12 1992-08-11 Hitachi Ltd., Hitachi Video Engineering, Inc. Television receiver
JP2732650B2 (ja) 1989-02-28 1998-03-30 株式会社東芝 垂直エッジ検出回路
KR920002274B1 (ko) * 1989-03-30 1992-03-20 삼성전자 주식회사 운동 보상회로
GB9303369D0 (en) 1993-02-19 1993-04-07 Philips Electronics Uk Ltd Identifying film frames in a video sequence
US5416532A (en) * 1993-03-17 1995-05-16 Samsung Electronics Co., Ltd. Adaptive video peaking circuitry using cross-faders
DE4440661C2 (de) 1993-12-08 1996-02-15 Rundfunkschutzrechte Ev Bewegungsdetektionsverfahren für ein Vollbild und Bewegungsdetektor zur Durchführung des Verfahrens
FI97663C (fi) 1994-06-10 1997-01-27 Nokia Technology Gmbh Menetelmä liikkeen tunnistamiseksi videosignaalista
KR0157480B1 (ko) * 1994-06-18 1998-11-16 김광호 화상처리에서 에지방향에 적응하는 휘도신호와 색신호 분리방법 및 회로
EP0720114B1 (en) * 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
US5745596A (en) * 1995-05-01 1998-04-28 Xerox Corporation Method and apparatus for performing text/image segmentation
US5852678A (en) * 1996-05-30 1998-12-22 Xerox Corporation Detection and rendering of text in tinted areas
JP3363039B2 (ja) * 1996-08-29 2003-01-07 ケイディーディーアイ株式会社 動画像内の移動物体検出装置
US5936676A (en) * 1997-08-21 1999-08-10 Miranda Technologies Inc. Apparatus and method for line interpolating an interlaced video signal
US6298157B1 (en) * 1998-02-27 2001-10-02 Adobe Systems Incorporated Locating and aligning embedded images
US6181382B1 (en) * 1998-04-03 2001-01-30 Miranda Technologies Inc. HDTV up converter
US6285801B1 (en) * 1998-05-29 2001-09-04 Stmicroelectronics, Inc. Non-linear adaptive image filter for filtering noise such as blocking artifacts
US6185329B1 (en) * 1998-10-13 2001-02-06 Hewlett-Packard Company Automatic caption text detection and processing for digital images

Also Published As

Publication number Publication date
US6842537B2 (en) 2005-01-11
US20010050725A1 (en) 2001-12-13
EP1277337A2 (en) 2003-01-22
JP2003530028A (ja) 2003-10-07
CN1366763A (zh) 2002-08-28
CN1181668C (zh) 2004-12-22
WO2001076231A3 (en) 2002-01-31
WO2001076231A2 (en) 2001-10-11

Similar Documents

Publication Publication Date Title
CN100396087C (zh) 能够检测滚动文本和图形数据的运动估计装置、方法及机器可读介质
US7940432B2 (en) Surveillance system having a multi-area motion detection function
CN101946507B (zh) 视频显示装置
EP2077663A1 (en) Image display device and method, and image processing device and method
US20060056702A1 (en) Image processing apparatus and image processing method
KR960028125A (ko) 2-2 및 3-2 풀다운 시퀀스를 사용하는 필름 소스에 의해 생성된 비디오 필드를 식별하는 방법 및 장치
KR20020027332A (ko) 텍스트 검출
KR970060897A (ko) 애스펙트비 판별장치 및 동 장치를 포함하는 영상표시장치
JP3067275B2 (ja) シーンチェンジ検出装置
JP3893263B2 (ja) 動きベクトル検出装置
JP5188272B2 (ja) 映像処理装置及び映像表示装置
JP2007257078A (ja) 画像検索装置
KR20080090145A (ko) 정지자막 영역의 움직임 보상 보간 장치 및 방법
JPH1097632A (ja) 物体の移動追跡方法
KR100574503B1 (ko) 필름모드 판별장치 및 그 방법
US20050141783A1 (en) Method for detecting resolution and device for the same
JP2000331254A (ja) 監視カメラ
JPH10322595A (ja) 映像テロップ検出方法および装置
US20130201404A1 (en) Image processing method
US20240020850A1 (en) Method and optical motion sensor capable of identifying false motion
KR100250891B1 (ko) 씨씨티브이 시스템의 화면 표시 제어 장치
JP2741839B2 (ja) 画像処理による異常現象検出方法およびその装置
KR20020044715A (ko) 영상 움직임 보상 장치 및 방법
KR20010068706A (ko) 물체의 움직임 검출방법
JPH10154148A (ja) 動画像検索装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee