KR20190092155A

KR20190092155A - 단말기에서 실시간 글자 인식시 영상을 안정화하는 방법

Info

Publication number: KR20190092155A
Application number: KR1020180011600A
Authority: KR
Inventors: 이윤구
Original assignee: 광운대학교 산학협력단
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2019-08-07
Also published as: KR102042131B1

Abstract

본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정방법은 입력프레임의 일부를 출력프레임으로 설정하는 단계; 상기 출력프레임의 중심좌표 및 OCR기법을 상기 출력프레임에 적용하여 예측된 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및 출력프레임의 중심좌표와 상기 목표단어의 위치 및 상기 목표단어의 영역 중 적어도 하나를 기초로 보정량을 결정하는 단계;를 포함한다.

Description

단말기에서 실시간 글자 인식시 영상을 안정화하는 방법{Method for a video stabilization for real-time optical character recognition (OCR)}

본 발명은 단말기에 구비된 영상촬영장치에서 촬영한 영상 내에서 실시간으로 글자를 인식하는 방법에 관한 것이다. 보다 상세히, 글자 인식시 영상을 안정화하는 방법에 관한 것이다.

실시간 OCR 기법은 영상 내에서 사용자가 설정한 관심영역 내의 글자를 실시간으로 인식한다. 이 경우, 마커는 특정 단어를 미리보기스크린(preview screen)상의 중심에 표시하도록 이용된다. 스마트폰과 같은 터치형 단말기에서는 사용자가 관심을 둔 특정 단어에 마커를 위치하도록 인터페이스를 지원하나, 사용자의 손이 흔들리는 경우 영상 내에 표시되는 미리보기 스크린이 흔들리는 경우가 발생할 수 있다.

이러한 문제점을 해결하기 위하여 다양한 영상 흔들림 안정화기법이 적용되고 있다. 영상 흔들림 안정화 기법에는 OIS(optical image stabilization), DIS(digital image stabilization), 카메라 안정화 같은 기법이 있다.

일반적으로, Gimbal과 같은 카메라 안정화 구성을 이용하여 카메라의 흔들림이나 회전을 인식하고, 카메라의 오리엔테이션을 보상하는 방법 등이 이용되고 있다. 이 외에도 자이로스코프를 이용하여 카메라의 움직임을 예측하는 방법, 영상의 전체적인 움직임을 파악하여 영상 전체를 안정화하는 방법, 카메라의 3차원 공간 상에서 움직임을 예측하고, 카메라의 움직임을 안정화하여 새로운 위치에서 영상을 합성하는 방법들이 개발되어 왔다. 또한, 화면의 움직임 내지 카메라의 움직임을 예측하기 위하여, 영상 내의 객체들을 트래킹하고, 트래킹한 객체의 움직임을 보상하는 방식으로 구현되고 있다.

KR 10-2007-0093995 A

본 발명의 바람직한 일 실시예에서는 글자 중심의 화면 안정화 기법을 제공하고자 한다.

본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정방법은 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계; 상기 출력프레임의 중심좌표 및 OCR기법을 상기 출력프레임에 적용하여 예측된 상기 출력프레임 내의 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 위치 및 상기 목표단어의 영역 중 적어도 하나를 기초로 보정량을 결정하는 단계;를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 상기 목표단어를 결정하는 단계는 n번째 출력프레임의 중심좌표 M(n)와 상기 출력프레임 내의 각 단어의 중심좌표 간의 거리가 최소인 단어를 목표단어로 결정하며, 이 경우 각 단어의 위치는 Rect(k)= (x(k),y(k),w(k),h(k))이고, x(k), y(k)는 각 단어의 시작점 위치, w(k)는 각 단어의 가로길이, h(k)는 각 단어의 세로 길이를 나타내며, 상기 각 단어의 중심좌표는

로 표시되는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 상기 목표단어를 결정하는 단계는 n번째 출력프레임의 중심좌표 M(n)가 상기 n번째 출력프레임에서 인식한 임의의 단어의 좌표범위 내에 속하는 경우 해당 단어를 목표단어를 결정하며, 이 경우 상기 단어의 좌표범위는 가로의 경우 ((x(k),y(k))부터 (((x(k)+w(k)),y(k)), 세로의 경우 ((x(k),y(k))부터 ((x(k), (y(k)+h(k)))인 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 상기 보정량을 결정하는 단계는 상기 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리를 기초로 보정량을 결정하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 상기 보정량은 상기 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하도록 결정되는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, n번째 출력프레임의 중심에 n번째 마커(marker) M_n가 중첩되어 표시되는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, (n-1)번째 출력프레임의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치가 상기 (n-1)번째 출력프레임 내의 임의의 단어 내부에 위치하는 경우, 해당 단어를 n번째 출력프레임의 목표단어로 결정하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, (n-1)번째 출력프레임의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치가 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어 사이의 빈 공간에 위치하는 경우, 상기 (n-1)번째 마커 M_n _-1의 위치와 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어의 중심과의 거리를 기초로 상기 목표단어를 결정하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, (n-1)번째 마커 M_n _-1의 위치와 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어의 중심과의 거리가 최소인 단어를 n번째 출력프레임의 목표단어로 결정하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계; 상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하는 단계; 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 단계; 상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 단계;를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 상기 이동된 출력프레임의 중심점에 마커 M'을 중첩하여 표시하는 단계;를 더 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, CMOS 센서가 구비된 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계; 상기 입력프레임에 롤링셔터왜곡이 발생한 경우, 상기 롤링셔터왜곡 보정을 수행하는 단계; 상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하는 단계; 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 단계; 상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 단계;를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치는 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부; 상기 출력프레임의 중심좌표 및 OCR기법을 상기 출력프레임에 적용하여 예측된 상기 출력프레임 내의 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 위치 및 상기 목표단어의 영역 중 적어도 하나를 기초로 보정량을 결정하는 보정부;를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치는 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부; 상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하고 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 보정부; 상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 디스플레이부;를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치는 CMOS 센서가 구비된 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부; 상기 입력프레임에 롤링셔터왜곡이 발생한 경우, 상기 롤링셔터왜곡 보정을 수행하는 왜곡보정부; 상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및 n번째 출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하고 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 보정부; 상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 디스플레이부;를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예에서는 흔들리는 영상에서 영상이 아닌 글자 중심으로 안정화를 수행하는 기법을 제안한다. 화면상에 다수의 글자 혹은 단어가 있을 때, 사용자의 의도를 자동으로 파악하여 사용자가 원하는 글자 혹은 단어를 중심으로 화면을 안정화하는 효과가 있다. 이로써, 화면 안정화 내지 영상 안정화 기법에서 사용자의 반응성이 간과되던 문제가 해결되어 사용자의 작은 의도적움직임 내지 사용자의 반응성을 빠르게 반영할 수 있는 효과가 있다.

본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 방법은 현재 입력프레임을 기준으로 출력할 출력프레임의 크랍(crop) 범위만을 조정하여 출력함으로써 과도한 연산이 필요없고 신속하게 흔들림을 보정할 수 있는 효과가 있다.

본 발명의 바람직한 일 실시예로서, CMOS 센서가 구비된 영상촬영장치를 이용하여 입력프레임에 롤링셔터왜곡이 발생한 경우, 일반적으로 적용되는 롤링셔터왜곡을 보완한 후에 본 발명의 글자인식시 흔들림 보정을 수행함으로써 CMOS 센서가 구비된 영상촬영장치를 이용하는 경우에도 글자인식을 개선할 수 있는 효과가 있다.

도 1 (a) 내지 (c)는 스마트폰에서 구현한 돋보기 앱의 일 예를 도시한다.
도 2 는 저대역필터를 이용한 화면안정화 기법의 문제를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치의 내부 구성도를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 입력프레임과 출력프레임 간의 관계를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림이 발생한 경우 이를 보정한 일 예를 도시한다.
도 6 은 본 발명의 바람직한 일 실시예로서, 출력프레임 내의 목표단어를 설정하는 일 예를 도시한다.
도 7 은 본 발명의 바람직한 일 실시예로서, 입력영상 내의 글자인식시 흔들림이 발생한 경우 본 발명에 따라 보정한 예와 종래의 방법에 따라 보정한 예를 비교한 일 예를 도시한다.
도 8 내지 9 는 본 발명의 바람직한 일 실시예로서, 입력영상 내의 글자인식시 흔들림이 발생한 경우 보정하는 흐름도를 각각 도시한다.

도 1 (a) 내지 (c)는 스마트폰에서 구현한 돋보기 앱의 일 예를 도시한다.

도 1 (a)는 사용자가 스마트폰 돋보기 앱을 이용하여 스마트폰 스크린 상에 디스플레이된 "자동차"(120), "자전거"(110), "기차"(130)라는 단어 중 "자전거"(110)라는 단어를 확대하여 확대된 확대단어 "자전거"(110a)가 스마트폰 스크린 상에 중첩되어 표시된 일 예를 도시한다.

입력영상 내에서 "기차"(130)라는 단어가 화면의 테두리와 떨어진 거리가 도 1(a)의 경우는 d1(111), 도 1(b)의 경우는 d2(112), 도 1(c)의 경우는 d3(113)임을 알 수 있다.

사용자는 도 1(a)와 같이 "자전거"(110)라는 단어를 확대하여 보다가, 도 1(b)의 예시와 같이 "자전거"(110)의 좌측 단어인 "자동차"(120)를 확대하여 확대단어 "자동차"(120a)를 보고, 이 후 다시 스마트폰의 스크린을 움직여서 도 1(c)의 예시와 같이 "자전거"(110)를 확대하여 확대단어 "자전거"(110c)를 보고 있다.

종래에는 도 1(a) 내지 (c)와 같이 사용자가 스마트폰의 스크린을 움직이는 경우, 사용자의 움직임의 의도가 의도적움직임인지 비의도적움직임인지를 파악하지 않았다. 단순히 화면의 안정화를 위하여 스마트폰의 스크린이 움직이는 경우, 스마트폰의 움직임 정도 또는 스마트폰의 위치정보를 기초로 저대역필터(LPF, Low Pass Filter)를 통과시켜 스마트폰의 움직임을 부드러운 경로로 변환시켜 사용자에게 스마트폰의 영상을 보여주는 것이 일반적이었다.

이 경우, 사용자의 작은 움직임을 원하지 않는 화면의 흔들림으로 판단하여 흔들림을 안정화시키는 기술을 적용함으로써 사용자가 도 1(a)에서 도 1(b)로 그 후 다시 도 1(c)로 움직인 움직임이 스마트폰 화면에 그대로 반영이 되지 않는 문제가 있었다.

도 2 를 참고하여, 저대역필터를 이용하여 화면 안정화를 시키는 경우 발생하는 문제점을 살펴본다. 일반적으로 화면의 흔들림은 고주파성분을 지니고 있기 때문에, 흔들림을 감소시키기 위하여 저대역필터를 적용하고 있다. 입력신호(200)를 저대역필터에 통과시킬 경우, 작은 잔떨림 성분이 효율적으로 제거되는 안정적인 영상신호(201, 202)값을 획득할 수 있다.

그러나, 저대역필터의 경우 영상에서 획득한 과거 또는 현재시점과 관련한 정보만으로 저주파 필터링을 수행함으로써, 카메라 등과 같은 영상촬영장치에 갑작스러운 움직임이 발생할 경우 도 2와 같이 안정적인 영상신호(201, 202)는 획득하였으나, 갑작스러운 변화 R1(210), R2(220)를 따라가지 못하는 문제가 발생한다.

약한 저주파 필터링을 수행하는 경우에도 입력신호(200)와 저주파 필터링이 수행된 영상신호(201)간에는 응답시간 R2(220)의 차이가 발생하며, 일반적인 저주파 필터링을 수행하는 경우 입력신호(200)와 저주파 필터링이 수행된 영상신호(202)간에는 굉장히 큰 응답시간 R2(220)의 차이가 발생한다.

즉, 저대역필터를 이용하여 작은 잔떨림 성분을 제거함으로써 안정적인 경로는 확보할 수 있으나 갑작스러운 카메라의 움직임과 같은 변화를 따라가지 못하거나 또는 사용자의 작은 의도적움직임을 감지하지 못하는 문제가 발생한다. 이러한 현상은 사용자가 스마트폰을 움직일 때, 화면이 바로 업데이트되지 않는 현상으로 나타난다.

본 발명의 바람직한 일 실시예에서는 이상과 같이 저대역필터를 이용하거나 또는 기존에 화면 안정화 내지 영상 안정화 기법을 적용하는 경우 응답시간이 너무 늦어지거나, 입력신호의 고주파 성분이 과도하게 제거되는 문제점을 해결하고자 한다.

도 3 은 본 발명의 바람직한 일 실시예로서, 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치의 내부 구성도를 도시한다.

영상촬영장치(300)는 출력프레임설정부(310), 목표단어결정부(320), 보정부(330)를 포함하고, 디스플레이부(340)를 더 포함할 수 있다.

본 발명에서 영상촬영장치는 단말기, 휴대폰, 스마트폰, 스마트와치, 테블릿, 노트북, 컴퓨터, 핸드헬드장치, 웨어러블 장치등을 모두 포함하는 것으로 해석될 수 있다.

또한 영상촬영장치는 피사체로부터의 광학 신호를 입력하는 광학부, 광학부를 통해 입력된 광학 신호를 전기 신호로 변환하는 촬상 소자, 촬상 소자로부터 제공된 전기 신호에 대해 노이즈 저감 처리, 디지털 신호로 변환 처리 등의 신호 처리를 행하는 입력 신호 처리부,광학부를 구동하는 모터, 모터의 동작을 제어하는 구동부를 구비할 수 있다. 또한, 사용자의 조작 신호를 입력하는 사용자 입력부, 입력 영상의 데이터, 연산 처리를 위한 데이터, 처리 결과 등을 임시 저장하는 SDRAM, 플래시 메모리, 영상 파일을 저장하는 기록 장치로서 SD/CF/SM 카드 등을 더 구비할 수 있다. 또한, 영상촬영장치에 구비된 촬상 소자로 CMOS(Complementary Metal Oxide Semiconductor) 센서 어레이, CCD(Charge coupled device) 센서 어레이 등을 사용할 수 있다.

도 3 에 도시된 영상촬영장치(300)의 각 구성은 다음과 같은 특징이 있다.

출력프레임설정부(310)는 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하도록 구현된다. 도 4 를 참고하면, 출력프레임설정부(310)는 입력프레임(400)에서 (n-1)번째 출력프레임(410) 또는 n번째 출력프레임(420)를 각각 설정할 수 있다.

목표단어결정부(320)는 출력프레임에 OCR기법을 적용하여 예측된 출력프레임 내의 각 단어의 위치, 각 단어의 영역과 출력프레임의 중심좌표를 이용하여 출력프레임 내에서 목표단어를 결정할 수 있다. 목표단어결정부(320)에서는 현재 출력프레임 정보만을 이용하여 목표단어를 결정하거나 또는 이전 출력프레임 정보를 더 이용하여 목표단어를 결정할 수 있다.

본 발명의 바람직한 일 실시예로서, 목표단어결정부(320)는 현재 출력프레임 정보만을 이용하여 목표단어를 결정하는 일 예는 다음과 같다.

목표단어결정부(320)는 n번째 출력프레임의 중심좌표 M(n)와 상기 출력프레임 내의 각 단어의 중심좌표 간의 거리가 최소인 단어를 목표단어로 결정한다. n번째 출력프레임의 각 단어의 위치는 Rect(k)= (x(k),y(k),w(k),h(k))이고, x(k), y(k)는 각 단어의 시작점 위치, w(k)는 각 단어의 가로길이, h(k)는 각 단어의 세로 길이를 나타내며, 각 단어의 중심좌표는

로 표시될 수 있다.

도 6의 일 실시예를 참고하면, 입력영상(600)의 일부를 출력영상(610)으로 설정할 수 있다. 출력영상(610) 내의 각 단어, "새", "자동차", "자전거" 및 "기차"를 OCR 기법으로 인식할 수 있으며, 또한 인식된 각 단어의 위치를 예측할 수 있다.

본 발명의 바람직한 일 실시예로서, 입력영상(600)은 절대좌표계를 이용한다. 입력영상(600)을 기준으로 할 경우, "자전거"(601)가 입력영상(600)의 중심에 가까우나, 출력영상(610)을 기준으로 할 경우, "새"(611)가 출력영상(610)의 중심에 가깝게 계산될 수 있다. 본 발명의 바람직한 일 실시예에서 목표단어결정부(320)는 출력영상(610) 중심과의 거리를 기준으로 "자전거"(601)가 아닌 "새"(611)를 목표단어로 결정할 수 있다.

이 경우, 보정부(330)는 출력영상 내의 목표단어 "새"(611)의 중심(612)과 출력영상(610)의 중심간의 거리에 반비례하는 값만큼 출력화면을 이동하여 보정을 수행할 수 있다. 본 발명의 또 다른 일 실시예에서는 목표단어의 중심과 출력영상의 중심간의 거리의 제곱에 반비례하도록 보정량을 결정할 수 있다.

보정량이 결정되면, 디스플레이부(340)는 화면 영상을 보정량만큼 이동한 후 입력영상에서 보정량이 반영된 출력영상을 크랍하여 디스플레이에 표시한다. 이 경우, n번째 출력프레임의 중심에 n번째 마커(marker) M_n가 중첩되어 디스플레이에 함께 표시될 수 있다.

본 발명과 종래의 흔들림 보정 기법과의 가장 큰 차이는 여기서 발생한다. 종래의 흔들림 보정 기법은 영상의 움직임이나 카메라의 움직임을 예측해야 하기 때문에 연속하는 영상 혹은 서로 다른 시간에 촬영된 영상과의 분석이 필수적으로 필요하다. 예를들어 n번째 영상과 n-1번째 영상 사이의 분석이 필요하다. 그러나, 본 발명의 일 실시예에서는 n번째 출력프레임(610)만을 이용하여서도 흔들림 보정을 수행할 수 있는 차이점이 있다.

또 다른 일 실시예로서, 목표단어결정부(320)는 n번째 출력프레임의 중심좌표 M(n)가 상기 n번째 출력프레임에서 인식한 임의의 단어의 좌표범위 내에 속하는 경우 해당 단어를 목표단어를 결정하며, 이 경우 상기 단어의 좌표범위는 가로의 경우 ((x(k),y(k))부터 (((x(k)+w(k)),y(k)), 세로의 경우 ((x(k),y(k))부터 ((x(k), (y(k)+h(k)))인 것을 특징으로 한다. 이 경우, 보정부(330)는 출력영상 내의 목표단어 "새"(611)의 중심(612)과 출력영상(610)의 중심간의 거리에 반비례하는 값만큼 출력화면을 이동하여 보정을 수행할 수 있다. 또한, 보정부(330)는 "새"(611) 단어의 크기를 고려하여 보정량을 결정할 수 있다.

도 6 을 참고하면, "새"라는 단어의 영역이 (x1,y1)~(x1+w1, y1+h1)인 경우 출력영상(510)의 중심(미 도시)이 "새"라는 단어의 영역(x1,y1)~(x1+w1, y1+h1) 이내에 포함되어 있는 경우 "새"를 목표단어로 인식할 수 있다. 이 경우는 "새"라는 단어의 크기를 고려한 방법이다. 일 예로, "새"(611) 단어의 가로 w1*세로 h1을 기초로 계산된 면적량 또는 "새"(611)의 중심(612)과 출력영상(610)의 중심간의 거리 중 적어도 하나를 기초로 보정량을 결정할 수 있다.

즉, 만유인력과 같이 지구와 물체와의 거리에 따라 출력영상에서 인식된 임의의 단어가 출력영상의 중심점을 끌어당기는 모델로 위치를 보정할 수 있다. "새"(611) 단어의 크기에 해당하는 w1 x h1는 질량에 해당하며 "새"단어의 중심(612)과 출력영상(610)의 중심과의 거리는 지구와 물체와의 거리에 해당한다. 이를 통해서 만유인력과 같은 힘을 정의할 수 있다. 계산된 힘의 크기에 따라 시간에 따른 위치 변화량을 계산할 수 있다. 이 모델에서는 단어와 중심과의 거리가 가까울수록 강한힘으로 당겨지며 거리가 멀수록 그 효과가 줄어들게 된다. 따라서, 단어와 중심과의 목표 단어의 거리가 가깝게 되면 목표단어는 항상 출력화면 중심에 위치하게 되어 사용자 입장에서는 화면이 안정화된 것으로 느낄 수 있다. 사용자가 갑작스런 움직임으로 목표단어가 출력영상 중심에서 일정크기 이상 이동할 경우 단어와 출력영상간에 서로 작용하는 힘이 줄어들어 단어의 중력권을 벗어나게 된다.

본 발명의 또 다른 바람직한 일 실시예로서, 목표단어결정부(320)는 이전 출력프레임 정보와 현재 출력프레임 정보만을 이용하여 목표단어를 결정할 수 있다.

도 4를 참고하면, (n-1)번째 출력프레임(410)의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치(411)가 상기 (n-1)번째 출력프레임(410) 내의 임의의 단어 내부에 위치하는 경우, 해당 단어를 n번째 출력프레임의 목표단어로 결정할 수 있다.

또 다른 바람직한 일 실시예로서, (n-1)번째 출력프레임(410)의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치(411)가 (n-1)번째 출력프레임(410) 내에서 인식된 각 단어 사이의 빈 공간에 위치하는 경우, (n-1)번째 마커 M_n _-1의 위치(411)와 (n-1)번째 출력프레임 내에서 인식된 각 단어의 중심과의 거리를 기초로 목표단어를 결정할 수 있다.

또 다른 바람직한 일 실시예로서,(n-1)번째 마커 M_n _-1의 위치(411)와 (n-1)번째 출력프레임(410) 내에서 인식된 각 단어의 중심과의 거리가 최소인 단어를 n번째 출력프레임의 목표단어로 결정할 수 있다.

도 5 는 본 발명의 바람직한 일 실시예로서, 보정부에서 보정을 통해 출력영상에 흔들림을 보정한 일 예를 도시한다.

n번째 입력영상(500a)에서 출력영상의 범위를 "기차"라는 단어와 화면의 일 측면과의 거리 d1(501)이도록 설정(501)한 후 흔들림이 발생하지 않은 경우, n번째 출력영상(510)에서 "기차"라는 단어와 화면의 일 측면과의 거리 d3(503)는 실질적으로 동일하다.

그러나, n+1번째 입력영상(500b)을 촬영할 때 영상촬영장치의 미세한 이동으로 영상이 오른쪽으로 미세하게 이동한 경우, "기차"라는 단어와 화면의 일측면과의 거리 d2(502)는 d1(501)보다 작게된다. 본 발명의 바람직한 일 실시예에서는, n+1번째 입력영상(500b)에서 출력영상을 설정하고, 설정한 출력영상의 중심과 출력영상내의 각 단어의 위치를 기초로 목표단어를 설정하고, 목표단어의 중심과 설정한 출력영상의 중심을 기초로 보정을 수행하여, n+1번째 출력영상(520)을 출력한다. 이 경우, 또한, d3(503)와 같도록 보정량을 결정할 수 있다.

본 발명의 바람직한 일 실시예로서, 도 5에서 n+1번째 출력영상(520)은 n+1 번째 입력영상(500b)만을 기초로 보정량을 결정하여 n+1번째 출력영상(520)에 표시된 "기차"와 화면의 일 측면의 거리 d4(504)는 d2(502)보다 크도록 보정량을 결정할 수 있다.

본 발명의 또 다른 바람직한 일 실시예로서, 도 5에서 n+1번째 출력영상(520)은 n 번째 출력영상(510)과 n+1번째 입력영상(500b)을 모두 고려하여 보정량을 결정할 수 있다.

이 경우, n+1번째 출력영상(520)의 중심점을 M_n ₊₁, n번째 출력영상(510)의 중심점을 M_n인 경우, n+1번째 출력영상(520)의 중심점과 n번째 출력영상(510)의 중심점은 아래와 같은 관계가 있다.

M_n ₊₁=M_n+update(n), update(n)은 n번째 출력영상(510)의 보정량

update(n)은 목표단어의 위치, 목표단어의 크기(영역), n번째 출력영상(510)의 중심 Mn을 고려하여 결정할 수 있다.

도 7 은 본 발명의 바람직한 일 실시예로서, 입력영상 내의 글자인식시 흔들림이 발생한 경우 본 발명에 따라 보정한 예와 종래의 방법에 따라 보정한 예를 비교한 일 예를 도시한다.

입력영상(700) 중 2번째 입력프레임(701), 16번째 입력프레임(702), 26번째 입력프레임(703) 및 38번째 입력프레임(704)를 도시한다. 각 입력프레임(701~704)의 중심점을 나타내는 마커(701a, 702a, 703, 704a)는 일정하게 "have"라는 단어의 중심에 있으나 입력프레임 간에 약간의 미세한 움직임이 있는 경우를 도시한다.

영상촬영장치에서 약간의 미세한 움직임이 있는 경우 기존방법에 따라 영상을 보정한 출력영상(720)에서, 2번째 출력프레임(721), 16번째 출력프레임(722), 26번째 출력프레임(723) 및 38번째 출력프레임(724)의 중심점(721a, 722a, 723a, 724a)은 모두 "have"라는 단어를 벗어나, 단어와 단어 사이의 빈 공간에 위치한다. 영상촬영장치에서 촬영한 글자를 포함하는 영상에서 발생한 미세한 움직임의 보상에 비효율적인 것을 확인할 수 있다.

본 발명의 영상 내 글자인식시 흔들림보정방법을 적용하여 입력영상(700)을 보정한 출력영상(710)은 2번째 출력프레임(7211), 16번째 출력프레임(712), 26번째 출력프레임(713) 및 38번째 출력프레임(714)의 중심점이 모두 "have"라는 단어의 중심점(711a, 712a, 713a, 714a)에 위치하여, 각 프레임(711~714)의 중심간의 차이점을 실질적으로 거의 분간하기 어렵다. 즉, 촬영장치에서 입력영상 내의 글자인식시 흔들림이 발생하는 경우에도 안정적으로 흔들림을 보상하는 것을 확인할 수 있다.

도 8 내지 9 는 본 발명의 바람직한 일 실시예로서, 입력영상 내의 글자인식시 흔들림이 발생한 경우 보정하는 흐름도를 각각 도시한다.

도 8 은 본 발명의 바람직한 일 실시예로서, 입력영상 내의 글자인식시 흔들림이 발생한 경우의 흐름도를 도시한다.

출력프레임설정부는 촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정한다(S810). 목표단어결정부에서는 출력프레임설정부에서 설정한 출력프레임의 중심좌표 및 출력프레임에서 인식한 각 단어의 위치를 이용하여 목표단어를 결정한다(S820). 본 발명의 바람직한 일 실시예에서는 실시간으로 OCR 기법을 적용하여 출력프레임에서 각 단어의 위치를 예측하거나 인식할 수 있으며, 이 외에 다양한 단어 검출 기법을 이용하여 영상 내에서 단어, 글자, 캐릭터(character) 등을 검출할 수 있다.

보정부는 n번째 출력프레임의 중심좌표와 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하고(S830), 보정량만큼 상기 설정된 출력프레임을 이동한다(S840). 디스플레이부는 이동된 출력프레임을 입력프레임에서 크랍(crop)하여 디스플레이한다(S850).

도 9는 본 발명의 바람직한 일 실시예로서, CMOS를 이용하는 영상촬영장치에서 입력영상 내의 글자인식시 흔들림이 발생한 경우의 흐름도를 도시한다.

출력프레임설정부에서 CMOS 센서가 구비된 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정한다(S910). 본 발명의 바람직한 일 실시예에서는 CMOS 센서로 인해 입력프레임에 롤링셔터왜곡이 발생한 경우, 롤링셔터왜곡 보정을 수행한 후(S920), 입력영상 내의 글자 인식시 발생한 흔들림 보정을 수행한다(S930~S960). 입력영상 내의 글자 인식시 발생한 흔들림 보정은 도 8의 S820~S850) 단계를 참고한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

앞에서 설명되고, 도면에 도시된 본 발명의 실시 예들은 본 발명의 기술적 사상을 한정하는 것으로 해석되어서는 안 된다. 본 발명의 보호범위는 청구범위에 기재된 사항에 의하여만 제한되고, 본 발명의 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상을 다양한 형태로 개량 변경하는 것이 가능하다. 따라서 이러한 개량 및 변경은 통상의 지식을 가진 자에게 자명한 것인 경우에는 본 발명의 보호범위에 속하게 될 것이다.

Claims

영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계;
상기 출력프레임의 중심좌표 및 OCR기법을 상기 출력프레임에 적용하여 예측된 상기 출력프레임 내의 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및
출력프레임의 중심좌표와 상기 목표단어의 위치 및 상기 목표단어의 영역 중 적어도 하나를 기초로 보정량을 결정하는 단계;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 1 항에 있어서, 상기 목표단어를 결정하는 단계는
n번째 출력프레임의 중심좌표 M(n)와 상기 출력프레임 내의 각 단어의 중심좌표 간의 거리가 최소인 단어를 목표단어로 결정하며, 이 경우 각 단어의 위치는 Rect(k)= (x(k),y(k),w(k),h(k))이고, x(k), y(k)는 각 단어의 시작점 위치, w(k)는 각 단어의 가로길이, h(k)는 각 단어의 세로 길이를 나타내며, 상기 각 단어의 중심좌표는
로 표시되는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 1 항에 있어서, 상기 목표단어를 결정하는 단계는
n번째 출력프레임의 중심좌표 M(n)가 상기 n번째 출력프레임에서 인식한 임의의 단어의 좌표범위 내에 속하는 경우 해당 단어를 목표단어를 결정하며, 이 경우 상기 단어의 좌표범위는 가로의 경우 ((x(k),y(k))부터 (((x(k)+w(k)),y(k)), 세로의 경우 ((x(k),y(k))부터 ((x(k), (y(k)+h(k)))인 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 1 항에 있어서, 상기 보정량을 결정하는 단계는
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리를 기초로 보정량을 결정하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 1 항에 있어서, 상기 보정량은
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하도록 결정되는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 1 항에 있어서,
n번째 출력프레임의 중심에 n번째 마커(marker) M_n가 중첩되어 표시되는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 6 항에 있어서,
(n-1)번째 출력프레임의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치가 상기 (n-1)번째 출력프레임 내의 임의의 단어 내부에 위치하는 경우, 해당 단어를 n번째 출력프레임의 목표단어로 결정하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 6 항에 있어서,
(n-1)번째 출력프레임의 중심에 표시된 (n-1)번째 마커 M_n _-1의 위치가 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어 사이의 빈 공간에 위치하는 경우, 상기 (n-1)번째 마커 M_n _-1의 위치와 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어의 중심과의 거리를 기초로 상기 목표단어를 결정하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 8 항에 있어서,
(n-1)번째 마커 M_n _-1의 위치와 상기 (n-1)번째 출력프레임 내에서 인식된 각 단어의 중심과의 거리가 최소인 단어를 n번째 출력프레임의 목표단어로 결정하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계;
상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;및
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하는 단계;
상기 보정량만큼 상기 설정된 출력프레임을 이동하는 단계;
상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 단계;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
제 10항에 있어서,
상기 이동된 출력프레임의 중심점에 마커 M'을 중첩하여 표시하는 단계;를 더 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
CMOS 센서가 구비된 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 단계;
상기 입력프레임에 롤링셔터왜곡이 발생한 경우, 상기 롤링셔터왜곡 보정을 수행하는 단계;
상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 단계;
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하는 단계;
상기 보정량만큼 상기 설정된 출력프레임을 이동하는 단계;및
상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 단계;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정방법.
영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부;
상기 출력프레임의 중심좌표 및 OCR기법을 상기 출력프레임에 적용하여 예측된 상기 출력프레임 내의 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및
출력프레임의 중심좌표와 상기 목표단어의 위치 및 상기 목표단어의 영역 중 적어도 하나를 기초로 보정량을 결정하는 보정부;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치.
영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부;
상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하고 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 보정부;
상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 디스플레이부;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치.
CMOS 센서가 구비된 영상촬영장치로부터 입력되는 입력프레임의 일부를 출력프레임으로 설정하는 출력프레임설정부;
상기 입력프레임에 롤링셔터왜곡이 발생한 경우, 상기 롤링셔터왜곡 보정을 수행하는 왜곡보정부;
상기 출력프레임의 중심좌표 및 상기 출력프레임에서 인식한 각 단어의 위치를 이용하여 상기 출력프레임 내에서 목표단어를 결정하는 목표단어결정부;및
출력프레임의 중심좌표와 상기 목표단어의 중심좌표간의 거리에 반비례하는 보정량을 결정하고 상기 보정량만큼 상기 설정된 출력프레임을 이동하는 보정부;
상기 이동된 출력프레임을 상기 입력프레임에서 크랍(crop)하여 디스플레이하는 디스플레이부;를 포함하는 것을 특징으로 하는 영상 내 글자인식시 흔들림보정을 수행하는 영상촬영장치.
제 1항 내지 제 9항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.